CN113159080A - 信息处理装置、信息处理方法以及存储介质 - Google Patents

信息处理装置、信息处理方法以及存储介质 Download PDF

Info

Publication number
CN113159080A
CN113159080A CN202010074503.9A CN202010074503A CN113159080A CN 113159080 A CN113159080 A CN 113159080A CN 202010074503 A CN202010074503 A CN 202010074503A CN 113159080 A CN113159080 A CN 113159080A
Authority
CN
China
Prior art keywords
input data
classification
distribution
sequence
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010074503.9A
Other languages
English (en)
Inventor
田中辽平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to CN202010074503.9A priority Critical patent/CN113159080A/zh
Publication of CN113159080A publication Critical patent/CN113159080A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

实施方式涉及信息处理装置、信息处理方法以及存储介质。信息处理装置具备:序列预测部,使用对一个输入数据输出L个分类分布的序列即分类分布列的预测模型,取得与第一输入数据对应的第一分类分布列、以及与所述第一输入数据的附近的第二输入数据对应的第二分类分布列;距离计算部,针对i=1~L分别计算所述第一分类分布列中的第i个分类分布与所述第二分类分布列中的第i个分类分布之间的分布间距离;合并部,计算L个所述分布间距离的总和;以及优化部,以使所述总和变小的方式更新所述预测模型的参数。

Description

信息处理装置、信息处理方法以及存储介质
技术领域
实施方式涉及信息处理装置、信息处理方法以及存储介质。
背景技术
为了预测模型的泛化性能提高、半监督学习(semi-supervised Learning),已知有如下方法:以使学习数据及其附近点处的后验概率分布的分布间距离最小化的方式更新预测模型的参数,从而使后验概率分布平滑化。后验概率分布是指对某一输入附带了条件的输出的概率分布。后验概率分布为平滑的状态是指,当两个数据在数据空间较近时,与它们对应的事后概率也类似的状态。
但是,该方法在处理序列数据的情况下,分布间距离的计算负载变高,处理需要大量的时间。因此,对于处理序列数据的预测模型,要求能够以更少的计算量进行后验概率分布的平滑化,从而实现泛化性能提高、半监督学习。
发明内容
本实施方式要解决的课题在于,提供一种能够以较少的计算量对处理序列数据的预测模型进行后验概率分布的平滑化的信息处理装置、信息处理方法以及程序。
实施方式的信息处理装置具备序列预测部、距离计算部、合并部、以及优化部。序列预测部使用对一个输入数据输出L个(L为2以上的自然数)分类分布(Categoricaldistribution)的序列即分类分布列的预测模型,取得与第一输入数据对应的的第一分类分布列、以及与所述第一输入数据的附近的第二输入数据对应的第二分类分布列。距离计算部针对i=1~L分别计算所述第一分类分布列中的第i个分类分布与所述第二分类分布列中的第i个分类分布之间的分布间距离。合并部计算L个所述分布间距离的总和。优化部以使所述总和变小的方式更新所述预测模型的参数。
附图说明
图1是对后验概率分布的平滑化进行说明的图。
图2是对后验概率分布的平滑化的效果进行说明的图。
图3是对字符串识别的概要进行说明的图。
图4是表示实施方式的信息处理装置的功能性构成例的框图。
图5是表示对预测模型的后验概率分布进行平滑化的处理的顺序的流程图。
图6是表示实施方式的信息处理装置的硬件构成例的框图。
具体实施方式
以下,参照附图对实施方式的信息处理装置、信息处理方法以及程序进行详细说明。
<实施方式的概要>
本实施方式涉及通过后验概率分布的平滑化来使预测模型的泛化性能提高、半监督学习成为可能的技术,特别是,能够以较少的计算量进行处理序列数据的预测模型的后验概率分布的平滑化。预测模型是指,为了预测针对所输入的数据的标签而使用的参数集合与运算方法,以预先将多个数据与标签的组统计性地建立关系的方式更新参数集合,从而进行生成·学习。
作为预测模型的生成·学习的方法,已知有监督学习(supervised Learning)、半监督学习等。监督学习是对学习中所使用的数据(学习数据)的全部赋予类别标签的学习方法,半监督学习是在学习数据中混合存在被赋予了类别标签的数据(有标签数据)与未被赋予的数据(无标签数据)的学习方法。非专利文献1所记载的Virtual AdversarialTraining(虚拟对抗训练)是以使学习数据及其附近点处的后验概率分布的分布间距离最小化的方式更新预测模型的参数,从而使后验概率分布平滑化的方法。
参照图1对基于非专利文献1所记载的Virtual Adversarial Training的后验概率分布的平滑化进行说明。在图1中,虚拟地以纵轴方向的一维表示预测模型的后验概率分布p(y|x),以横轴方向的一维表示输入数据x的数据空间(输入数据空间)。VirtualAdversarial Training为了使预测模型的后验概率分布p(y|x)在学习数据xn的附近变得平滑,计算将学习数据xn作为输入而给出时的预测模型的后验概率分布p(·|xn)与将该学习数据xn的附近的数据xn+r作为输入而给出时的预测模型的后验概率分布p(·|xn+r)之间的分布间距离Dist(p(·|xn)||p(·|xn+r)),并以使该分布间距离Dist(p(·|xn)||p(·|xn+r))最小化的方式更新预测模型的参数。
在Virtual Adversarial Training中,为了使预测模型的后验概率分布平滑化,不需要学习数据xn的类别标签的信息。即,Virtual Adversarial Training是能够利用无标签数据作为学习数据xn的半监督学习。
图2是对后验概率分布的平滑化的效果进行说明的图。这里,为了使说明简单,列举黑□的类别与黑△的类别这两种类别分类的例子。另外,在输入数据空间(与图1相同,以横轴方向的一维表示)中,例如如图2(a)所示那样存在学习数据。此时,若通过仅使用了有标签数据的监督学习来生成预测模型,则有时该预测模型的后验概率分布变化的位置(识别边界)如图2(b)所示那样成为偏向被赋予了黑□的类别标签的有标签数据侧的位置、或者相反地如图2(c)所示那样成为偏向被赋予了黑△的类别标签的有标签数据侧的位置。
与此相对,当将无标签数据包含在学习数据中而进行基于Virtual AdversarialTraining的后验概率分布的平滑化时,通过在各个无标签数据的附近使预测模型的后验概率分布平滑化,如图2(d)所示那样,以在输入数据空间中,在学习数据稀疏的空间后验概率分布大幅变化的方式优化预测模型。由此,能够获得对噪声稳健且泛化性能较高的预测模型。
Virtual Adversarial Training在这样实现预测模型的泛化性能提高上为有效的方法,但在以序列数据为对象的情况下,后验概率分布及其分布间距离的计算负载高成为课题。即,在预测单一的标签的问题中,后验概率分布为类别数Nc的分类分布,不难求出后验概率分布及其分布间距离。但是,在字符串识别、语音识别等预测标签序列的问题中,后验概率分布成为所有标签列的组合的分类分布。标签列的组合相对于序列长以指数函数的方式增大,因此后验概率分布以及它们的分布间距离的计算量变得庞大。
另外,分类分布是由以下的(1)式表示的概率分布。
Figure BDA0002378146900000041
其中,y={y0、y1、···、yNc-1}是仅一个要素为“1”剩余的要素为“0”的one-hot(独热)的Nc维的矢量,πi满足Σi<Ncπi=1、πi≥0的参数。Nc为类别数。分类分布也被称作类别分布。
图3是对字符串识别的概要进行说明的图。在字符串识别中,如图3所示那样,作为输入数据x,字符串图像被输入到预测模型。预测模型从所输入的字符串图像中提取L个特征矢量,计算包含空白符号、连续的符号的L个符号每个的分类分布并输出其序列。然后,通过后述的CTC(Connectionist Temporal Classification:链结式时间分类)解码器,将每个符号的分类分布的序列转换为字符串的后验概率分布,通过最大似然估计预测字符串。
这里,当预测模型输出包含空白的类别数Nc的分类分布的序列pc 1、···、pc L时,字符串w的后验概率分布pw(w)能够如以下的(2)式那样计算。
Figure BDA0002378146900000042
Figure BDA0002378146900000043
其中,S=s1、···、sL是包含空白的标签列,pc i(k)是分类分布pc i中的标签k(0≤k<Nc)的概率,B是CTC解码器。CTC解码器是将长度L的输入标签列转换为长度L以下的任意的长度的标签列的处理,进行输入标签列的空白的去除和连续的标签的去除。例如将“-”作为空白标签,B(“-aa--b-b”)=“abb”。另外,例如在L=3时,B-1(“ab”)={“aab”,“abb”,“-ab”,“a-b”,“ab-”}。
这里,在给出了两个分类分布的序列pc 1、···pc L与qc 1、···、qc L时,与pc 1、···pc L对应的字符串的后验概率分布pw和与qc 1、···、qc L对应的字符串的后验概率分布qw之间的KL散度DKL(pw||qw)可如以下的(3)式那样求出。另外,KL散度是已知为概率分布间距离的一种的指标。
Figure BDA0002378146900000051
Dw表示从包含空白的长度L的标签列由CTC解码器(上述B)转换而得的标签列的集合。由于Dw的要素数为O(Nc L),因此计算成本非常高。
因此,在本实施方式中,关注标签列的后验概率分布以多个小规模的分类分布的积以及和来表示这一点。这些小规模的分类分布间的距离的总和抑制了标签列的后验概率分布间的距离的上界,因此通过使该值最小化,能够实现真正的后验概率分布的分布间距离的近似的最小化(优化)。小规模的分类分布间的距离能够以低成本来进行计算,因此作为整体能够以低成本近似地对后验概率分布进行平滑化。
即,在本实施方式中,使以下的(4)式最小化。
···(4)
另外,以下的(5)式成立。
Figure BDA0002378146900000052
这是因为通常以下的(6)式成立。
Figure BDA0002378146900000053
为了求出DKL(pw||qw),需要进行O(Nc L)次的四则运算、对数运算,对此,以下的(7)式
Figure BDA0002378146900000054
能够通过O(Nc×L)次的四则运算、对数运算来求出。
如以上那样,在本实施方式中,在对预测标签列的预测模型的后验概率分布进行平滑化时,并不是以使标签列的后验概率分布的分布间距离最小化的方式更新预测模型的参数,而是以使作为后验概率分布的构成要素的多个小规模的分类分布各自的分布间距离之和最小化的方式更新预测模型的参数。由此,能够以高速、低计算量对后验概率分布进行平滑化,能够实现预测模型的泛化性能提高、半监督学习。
<第一实施方式>
图4是表示本实施方式的信息处理装置的功能性构成例的框图。本实施方式的信息处理装置在使用预测模型10而进行序列数据的识别的识别系统中,通过使预测模型10的后验概率分布在学习数据的附近平滑化,来提高预测模型10的泛化性能。该信息处理装置作为用于实现预测模型10的后验概率分布的平滑化的功能性构成要素,如图4所示那样,具备输入受理部1、序列预测部2、距离计算部3、合并部4、以及优化部5。
输入受理部1受理任意的学习数据的输入。学习数据可以是无标签数据。将输入受理部1受理了输入的学习数据称作“第一输入数据”。在字符串识别的情况下,第一输入数据为字符串图像,在语音识别的情况下,第一输入数据为语音数据。
序列预测部2使用预测模型10,取得与输入数据对应的分类分布的序列。预测模型10对一个输入数据输出L个(L为2以上的自然数)分类分布的序列即分类分布列。L根据输入数据的长度而不同。输入数据的长度是指,例如在字符串图像的情况下为字符串方向的图像尺寸(像素数),在语音识别的情况下为时间。序列预测部2从输入受理部1接收第一输入数据,将该第一输入数据输入到预测模型10而取得与第一输入数据对应的第一分类分布列。另外,序列预测部2生成第一输入数据的附近的数据、即在输入数据空间中与第一输入数据接近的数据(将其称作“第二输入数据”),将该第二输入数据输入到预测模型10而取得与第二输入数据对应的第二分类分布列。另外,第二输入数据的长度与第一输入数据相等,因而,对应的分类分布的数量为L个。
距离计算部3针对i=1~L分别计算第一分类分布列中的第i个分类分布与第二分类分布列中的第i个分类分布之间的分布间距离。即,距离计算部3计算序列的要素数(序列长)即L个在第一分类分布列与第二分类分布列之间序列中的顺序(位置)共同的分类分布彼此的分布间距离。
合并部4计算由距离计算部3计算出的L个分布间距离的总和、即在第一分类分布列与第二分类分布列之间序列中的顺序(位置)共同的分类分布彼此的分布间距离的总和。
优化部5以使由合并部4计算出的L个分布间距离的总和、即在第一分类分布列与第二分类分布列之间序列中的顺序(位置)共同的分类分布彼此的分布间距离的总和变小的方式更新预测模型10的参数。
以下,设想将本实施方式的信息处理装置应用于以字符串图像为输入而预测对应的字符串的字符串识别系统的例子,进一步详细说明对预测模型10的后验概率分布进行平滑化的处理的具体情况。另外,如后述那样,通过根据识别对象变更从输入数据提取的特征矢量,也能够容易地应用于语音识别等其他序列数据的识别系统。
预测模型10从输入图像x提取与特定的区域对应的L个特征矢量。L由输入图像x的字符串方向的长度而决定。在考虑到对语音识别的应用的情况下,只要将这些特征矢量替换为从特定区间的语音提取出的声学特征矢量即可。参数θ的预测模型10将这些L个特征矢量看作序列数据,使用递归神经网络来输出L个分类分布的序列即分类分布列pc 1(·|X,θ)、···、pc L(·|X,θ)。
递归神经网络是除了对一个输入输出一个预测值的功能之外,还具备保持用于接下来的预测的内部状态的功能的神经网络。在进行第二次以后的预测时,除了原本的输入之外,还进一步考虑上次预测时的内部状态来进行预测。在本实施方式中,预测模型10使用递归神经网络而构成,该递归神经网络包含在所输出的分类分布列pc 1(·|X,θ)、···、pc L(·|X,θ)中邻接的分类分布彼此相互带来影响的递归的结合。
使用预测模型10输出的分类分布列pc 1(·|X,θ)、···、pc L(·|X,θ),与输入图像x对应的字符串w的似然可由以下的(8)式求出。
Figure BDA0002378146900000071
在通过监督学习更新预测模型10的参数θ的情况下,针对所有学习数据(有标签数据),以正确字符串的负的对数似然Losssl为损失函数,以减小损失函数的方式依次更新参数θ。在进行预测模型10的后验概率分布的平滑化的情况下,除了上述的Losssl之外,还以在学习数据xn(第一输入数据x1)及其附近的点xn+r(第二输入数据x2)后验概率分布的分布间距离变小的方式更新预测模型10的参数θ。若将所有学习数据xn以及附近的点xn+r处的后验概率分布的分布间距离的总和设为Losssmooth,则最终以使Losssl与Losssmooth这两方最小化的方式更新预测模型10的参数θ。
为了使Losssl与Losssmooth这两方最小化,可以分别交替地更新参数θ,也可以将下述的合计值作为新的损失函数来更新参数θ。
Loss=Losssl+λLosssmooth
其中,λ为预先决定的超参数(hyperparameter)。
以下,设想交替地进行使Losssl最小化的参数θ的更新与使Losssmooth最小化的参数θ的更新,参照图5对本实施方式的信息处理装置的处理顺序进行说明。图5是表示本实施方式的信息处理装置对预测模型10的后验概率分布进行平滑化的处理的顺序的流程图。该图5的流程图所示的一系列的处理通过输入受理部1受理学习数据(第一输入数据)的输入而开始。
当开始图5的流程图所示的一系列的处理时,首先,序列预测部2从输入受理部1接收第一输入数据x1(步骤S101),基于该第一输入数据生成第二输入数据x2(步骤S102)。这里,第二输入数据x2使用与第一输入数据x1相同的维数的随机的矢量d和预先决定的超参数ε,由
x2=x1+ε×d/|d|
求出。
接下来,序列预测部2将第一输入数据x1输入到预测模型10,取得与第一输入数据x1对应的L个分类分布的序列即第一分类分布列pc 1(·|x1,θ)、···、pc L(·|x1,θ),并且将第二输入数据x2输入到预测模型10,取得与第二输入数据x2对应的L个分类分布的序列即第二分类分布列pc 1(·|x2,θ)、···、pc L(·|x2,θ)(步骤S103)。
接下来,距离计算部3计算第一分类分布列pc 1(·|x1,θ)、···、pc L(·|x1,θ)中的第i个分类分布pc i(·|x1,θ)与第二分类分布列pc 1(·|x2,θ)、···、pc L(·|x2,θ)中的第i个分类分布pc i(·|x2,θ)之间的分布间距离(步骤S104)。这里,在作为分类分布彼此的分布间距离而计算KL散度的情况下,分布间距离DKL(pc i(·|x1,θ)||pc i(·|x2,θ))可由以下的(9)式求出。
Figure BDA0002378146900000091
其中,Nc为包含空白的类别数。
距离计算部3重复步骤S104的计算,直到针对i=1~L分别计算出分布间距离DKL(pc i(·|x1,θ)||pc i(·|x2,θ))为止(步骤S105:否)。然后,若对全部的i结束步骤S104的计算(步骤S105:是),则合并部4计算在步骤S104中计算出的L个分布间距离DKL(pc i(·|x1,θ)||pc i(·|x2,θ))的总和(步骤S106),将其设为Losssmooth
Figure BDA0002378146900000092
最后,优化部5以使在步骤S106中计算出的总和即Losssmooth最小化的方式更新预测模型10的参数θ(步骤S107),图5的流程图所示的一系列的处理结束。预测模型10的参数θ的更新例如能够使用概率梯度法来实现。即,以预测模型10的参数θ分别对在步骤S106中计算出的总和(Losssmooth)进行微分,根据该微分系数,以使在步骤S106中计算出的总和(Losssmooth)变小的方式更新参数θ。
如以上列举具体的例子进行详细说明那样,在本实施方式中,在学习数据的附近对预测模型10的后验概率分布进行平滑化时,并不是以使学习数据及其附近点处的后验概率分布的分布间距离最小化的方式更新预测模型10的参数,而是以使后验概率分布的构成要素即多个小规模的分类分布各自的分布间距离之和最小化的方式更新预测模型10的参数。因而,根据本实施方式,能够以较少的计算量对处理序列数据的预测模型10进行后验概率分布的平滑化,能够实现预测模型10的泛化性能提高、半监督学习。
<第二实施方式>
本实施方式的第二输入数据x2的求解方法与上述的第一实施方式不同。即,在上述的第一实施方式中,从在输入数据空间中从第一输入数据x1离开了规定距离ε的数据之中随机地选择第二输入数据x2,但在本实施方式中,将在输入数据空间中从第一输入数据x1离开了规定距离ε的数据中的、上述的总和(Losssmooth)成为最大的数据设为第二输入数据x2
在本实施方式中,将从第一输入数据x1离开了规定距离ε的数据中的、使以下的(11)式
Figure BDA0002378146900000101
为最大的数据选择为第二输入数据x2。这样的第二输入数据x2例如能够通过非专利文献1所记载的方法求出。即,能够将与第一输入数据x1相同的维数的随机的矢量d设为初期值,使用重复以下的(12)式
Figure BDA0002378146900000102
Ip次而得的d,通过
x2=x1+ε×d/|d|
来近似地求出第二输入数据x2。另外,ξ、Ip为预先决定的常数。
如以上那样,在本实施方式中,由于将在输入数据空间中从第一输入数据x1离开了规定距离ε的数据中的、上述的总和(Losssmooth)成为最大的数据用作第二输入数据x2,因此与上述的第一实施方式相比,需要高度的计算,但能够期待预测模型10的参数θ高效地收敛于适当的值。
另外,在上述的第一实施方式以及第二实施方式中,第一输入数据x1与第二输入数据x2之间的距离ε被预先决定为超参数,但也可以基于学习数据的密集度机械地求出距离ε。即,也可以将预测模型10的学习中所使用的多个学习数据中的、与第一输入数据x1第t(t为预先确定的任意的自然数)接近的学习数据与第一输入数据x1之间的输入数据空间的距离Dt设为ε。在该情况下,第二输入数据x2为在输入数据空间中从第一输入数据x1离开了Dt的数据。例如,在非专利文献2中记载了设为t=10而求出距离ε的情形。
这样,通过基于学习数据的密集度来决定第一输入数据x1与第二输入数据x2之间的距离ε,能够更高效地进行预测模型10的后验概率分布的平滑化。
<第三实施方式>
本实施方式的分类分布彼此的分布间距离的计算方法与上述的第一实施方式不同。即,在上述的第一实施方式中,作为分类分布彼此的分布间距离,计算了KL散度,但在本实施方式中,作为分类分布彼此的分布间距离,计算平方误差。
本实施方式的距离计算部3,作为第一分类分布列pc 1(·|x1,θ)、···、pc L(·|x1,θ)中的第i个分类分布pc i(·|x1,θ)与第二分类分布列pc 1(·|x2,θ)、···、pc L(·|x2,θ)中的第i个分类分布pc i(·|x2,θ)之间的分布间距离,针对i=1~L分别计算使用了平方误差的分布间距离DSQ(pc i(·|x1,θ)||pc i(·|x2,θ))。分布间距离DSQ(pc i(·|x1,θ)||pc i(·|x2,θ))可由以下的(13)式求出。
Figure BDA0002378146900000111
其中,Nc为包含空白的类别数。
本实施方式的合并部4计算由距离计算部3计算出的L个分布间距离DSK(pc i(·|x1,θ)||pc i(·|x2,θ))的总和,将其设为Losssmooth
Figure BDA0002378146900000112
如以上那样,在本实施方式中,作为分类分布彼此的分布间距离,不使用KL散度而使用平方误差,因此损失函数的梯度变缓,预测模型10的参数θ可能收敛于更适当的值。
另外,关于在使用了KL散度与平方误差的哪个作为分类分布彼此的分布间距离的情况下预测模型10的泛化性能提高与否,根据预测模型10的当前的性能、使用何种学习数据等各种要素而不同。因此,也可以使用评价用数据,对作为分类分布彼此的分布间距离使用KL散度而更新了参数θ的预测模型10的性能、以及作为分类分布彼此的分布间距离使用平方误差而更新了参数θ的预测模型10的性能进行实际评价,采用评价值高的一方的预测模型10。
<补充说明>
上述的各实施方式的信息处理装置例如能够通过将通用的计算机用作基本硬件来实现。即,上述的信息处理装置的各部的功能能够通过使搭载于通用的计算机的一个以上的处理器执行程序来实现。此时,信息处理装置可以通过将上述的程序预先安装于计算机来实现,也可以通过在计算机能够读取的存储介质中存储上述的程序、或经由网络分发上述的程序而将该程序适当安装于计算机来实现。
图6是表示上述的各实施方式的信息处理装置的硬件构成例的框图。信息处理装置例如如图6所示那样,具有作为普通计算机的硬件构成,该普通计算机具备:CPU(CentralProcessing Unit:中央处理器)等处理器101;RAM(Random Access Memory:随机存取存储器)、ROM(Read Only Memory:只读存储器)等存储器102;HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态驱动器)等存储设备103;液晶面板等显示装置106、键盘、指示设备等输入装置107这些用于连接设备的设备I/F104;与装置外部进行通信的通信I/F105;以及将这些各部连接的总线108。
在通过图6所示的硬件构成实现上述的各实施方式的信息处理装置的情况下,例如能够通过处理器101利用存储器102,读出并执行储存于存储设备103等的程序,来实现上述的输入受理部1、序列预测部2、距离计算部3、合并部4以及优化部5等各部的功能。另外,上述的预测模型10例如能够储存于存储设备103等,适当读出到RAM等存储器102中而用于由序列预测部2进行的处理、或者通过优化部5进行更新。
另外,上述的各实施方式的信息处理装置的各部的功能也能够通过ASIC(Application SpecificIntegrated Circuit:专用集成电路)、FPGA(Field-ProgrammableGate Array:现场可编程逻辑门阵列)等专用的硬件(不是通用的处理器而是专用的处理器)来实现其一部分或者全部。另外,也可以是使用多个处理器来实现上述的各部的功能的构成。另外,上述的各实施方式的信息处理装置并不局限于由单一的计算机实现的情况,也能够将功能分散给多个计算机来实现。
以上,对本发明的实施方式进行了说明,但该实施方式是作为例子而提示的,并不意图限定发明的范围。该新的实施方式能够以其他各种方式实施,在不脱离发明的主旨的范围内,能够进行各种省略、替换、变更。这些实施方式及其变形包含在发明的范围或主旨内,并且包含在权利要求书所记载的发明及其均等的范围内。

Claims (9)

1.一种信息处理装置,具备:
序列预测部,使用对一个输入数据输出L个分类分布的序列即分类分布列的预测模型,取得与第一输入数据对应的第一分类分布列、以及与所述第一输入数据的附近的第二输入数据对应的第二分类分布列,其中,L为2以上的自然数;
距离计算部,针对i=1~L分别计算所述第一分类分布列中的第i个分类分布与所述第二分类分布列中的第i个分类分布之间的分布间距离;
合并部,计算L个所述分布间距离的总和;以及
优化部,以使所述总和变小的方式更新所述预测模型的参数。
2.如权利要求1所述的信息处理装置,
所述预测模型使用递归神经网络而构成,该递归神经网络包含在所输出的所述分类分布列中邻接的分类分布彼此相互带来影响的递归的结合。
3.如权利要求1或2所述的信息处理装置,
所述优化部使用概率梯度法,以使所述总和变小的方式更新所述预测模型的参数。
4.如权利要求1至3中任一项所述的信息处理装置,
所述第二输入数据是在输入数据空间中从所述第一输入数据离开了规定距离的数据。
5.如权利要求4所述的信息处理装置,
所述第二输入数据是在输入数据空间中从所述第一输入数据离开了规定距离的数据中的、所述总和成为最大的数据。
6.如权利要求1至3中任一项所述的信息处理装置,
在将所述预测模型的学习中所使用的多个学习数据中的与所述第一输入数据第t接近的学习数据与所述第一输入数据之间的输入数据空间的距离设为Dt时,
所述第二输入数据是在输入数据空间中从所述第一输入数据离开了Dt的数据,其中,t为预先确定的任意的自然数。
7.如权利要求1至6中任一项所述的信息处理装置,
所述距离计算部计算分类分布间的KL散度或分类分布间的平方误差,作为所述分布间距离。
8.一种信息处理方法,包括如下步骤:
使用对一个输入数据输出L个分类分布的序列即分类分布列的预测模型,计算与第一输入数据对应的第一分类分布列、以及与所述第一输入数据的附近的第二输入数据对应的第二分类分布列,其中,L为2以上的自然数;
针对i=1~L分别计算所述第一分类分布列中的第i个分类分布与所述第二分类分布列中的第i个分类分布之间的分布间距离;
计算L个所述分布间距离的总和;以及
以使所述总和变小的方式更新所述预测模型的参数。
9.一种存储介质,存储有用于使计算机实现如下功能的程序:
使用对一个输入数据输出L个分类分布的序列即分类分布列的预测模型,计算与第一输入数据对应的第一分类分布列、以及与所述第一输入数据的附近的第二输入数据对应的第二分类分布列,其中,L为2以上的自然数;
针对i=1~L分别计算所述第一分类分布列中的第i个分类分布与所述第二分类分布列中的第i个分类分布之间的分布间距离;
计算L个所述分布间距离的总和;以及
以使所述总和变小的方式更新所述预测模型的参数。
CN202010074503.9A 2020-01-22 2020-01-22 信息处理装置、信息处理方法以及存储介质 Pending CN113159080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010074503.9A CN113159080A (zh) 2020-01-22 2020-01-22 信息处理装置、信息处理方法以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010074503.9A CN113159080A (zh) 2020-01-22 2020-01-22 信息处理装置、信息处理方法以及存储介质

Publications (1)

Publication Number Publication Date
CN113159080A true CN113159080A (zh) 2021-07-23

Family

ID=76881653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010074503.9A Pending CN113159080A (zh) 2020-01-22 2020-01-22 信息处理装置、信息处理方法以及存储介质

Country Status (1)

Country Link
CN (1) CN113159080A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514110A (ja) * 2005-10-28 2009-04-02 本田技研工業株式会社 ポーズによるヒト検出
JP2013065336A (ja) * 2012-11-22 2013-04-11 Canon Inc 情報処理方法、情報処理装置
US20180260737A1 (en) * 2017-03-09 2018-09-13 Kabushiki Kaisha Toshiba Information processing device, information processing method, and computer-readable medium
CN108734193A (zh) * 2018-03-27 2018-11-02 合肥麟图信息科技有限公司 一种深度学习模型的训练方法及装置
US20190073587A1 (en) * 2017-09-04 2019-03-07 Kabushiki Kaisha Toshiba Learning device, information processing device, learning method, and computer program product
CN110147444A (zh) * 2018-11-28 2019-08-20 腾讯科技(深圳)有限公司 神经网络语言模型、文本预测方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514110A (ja) * 2005-10-28 2009-04-02 本田技研工業株式会社 ポーズによるヒト検出
JP2013065336A (ja) * 2012-11-22 2013-04-11 Canon Inc 情報処理方法、情報処理装置
US20180260737A1 (en) * 2017-03-09 2018-09-13 Kabushiki Kaisha Toshiba Information processing device, information processing method, and computer-readable medium
US20190073587A1 (en) * 2017-09-04 2019-03-07 Kabushiki Kaisha Toshiba Learning device, information processing device, learning method, and computer program product
CN108734193A (zh) * 2018-03-27 2018-11-02 合肥麟图信息科技有限公司 一种深度学习模型的训练方法及装置
CN110147444A (zh) * 2018-11-28 2019-08-20 腾讯科技(深圳)有限公司 神经网络语言模型、文本预测方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US9990558B2 (en) Generating image features based on robust feature-learning
Imani et al. Quanthd: A quantization framework for hyperdimensional computing
Reddi et al. Stochastic negative mining for learning with large output spaces
US9002101B2 (en) Recognition device, recognition method, and computer program product
Ali et al. A k-nearest neighbours based ensemble via optimal model selection for regression
CN112633309A (zh) 基于贝叶斯优化的查询高效的黑盒对抗攻击
Samadzadegan et al. Evaluation of genetic algorithms for tuning SVM parameters in multi-class problems
Wang et al. Unsupervised selective labeling for more effective semi-supervised learning
WO2022252455A1 (en) Methods and systems for training graph neural network using supervised contrastive learning
WO2022217853A1 (en) Methods, devices and media for improving knowledge distillation using intermediate representations
US20230106141A1 (en) Dimensionality reduction model and method for training same
US20190325983A1 (en) Method and system for performing molecular design using machine learning algorithms
Karlen et al. Large scale manifold transduction
CN112446888A (zh) 图像分割模型的处理方法和处理装置
CN115699041A (zh) 利用专家模型的可扩展迁移学习
CN104699660A (zh) 概述非线性回归问题中的结构化矩阵
CN108073980A (zh) 模式识别装置以及模式识别方法
WO2020065908A1 (ja) パターン認識装置、パターン認識方法およびパターン認識プログラム
JP7331937B2 (ja) ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置
Chinbat et al. Ga3n: Generative adversarial autoaugment network
US20220405570A1 (en) Post-hoc loss-calibration for bayesian neural networks
US20220261641A1 (en) Conversion device, conversion method, program, and information recording medium
Liu et al. Focusformer: Focusing on what we need via architecture sampler
JP7059166B2 (ja) 情報処理装置、情報処理方法およびプログラム
Bortiew et al. Active learning for hyperspectral image classification using kernel sparse representation classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination