CN110633604A - 信息处理方法和信息处理装置 - Google Patents
信息处理方法和信息处理装置 Download PDFInfo
- Publication number
- CN110633604A CN110633604A CN201810662632.2A CN201810662632A CN110633604A CN 110633604 A CN110633604 A CN 110633604A CN 201810662632 A CN201810662632 A CN 201810662632A CN 110633604 A CN110633604 A CN 110633604A
- Authority
- CN
- China
- Prior art keywords
- training
- training samples
- information processing
- classification model
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 82
- 238000003672 processing method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 189
- 239000013598 vector Substances 0.000 claims abstract description 102
- 238000013145 classification model Methods 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000001965 increasing effect Effects 0.000 claims description 21
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 33
- 238000013527 convolutional neural network Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及信息处理方法和信息处理装置。根据本公开的信息处理方法使用多个训练样本对分类模型进行训练,并且包括如下步骤:基于多个训练样本中的典型样本来调整多个训练样本的特征向量在特征空间中的分布;以及使用经调整的多个训练样本的特征向量对分类模型进行训练。通过根据本公开的技术,可以通过在训练之前对训练样本进行预先调整,使得能够在训练过程中减小属于同一类别的训练样本之间的区分性并且增加属于不同类别的训练样本之间的区分性。经过这样训练的分类模型能够对在极端条件下取得的样本进行准确的分类。
Description
技术领域
本文公开的实施方式涉及信息处理方法和信息处理装置。特别地,本公开的实施方式涉及使用多个训练样本对分类模型进行训练的信息处理方法和信息处理装置。
背景技术
卷积神经网络(CNN)的深度学习方法的发展以及具有大量的带有标签的人脸图像的大规模数据库的构造使得人脸识别的性能得到极大的提高。然而,对于在视角、分辨率、遮挡、图像质量等方面具有极大变化的极端条件下获得的人脸图像而言,基于卷积神经网络的人脸识别仍不能取得较高的精度。
作为一种分类模型的Softmax函数被广泛应用于卷积神经网络。在这种情况下,Softmax损失函数被用于卷积神经网络的训练。然而,采用目前的Softmax损失函数训练的卷积神经网络仅适合于识别具有高质量数据的人脸图像,而对于在极端条件下获取的人脸图像的识别不能取得令人满意的效果。
因此,有必要对现有的Softmax损失函数进行改进以能够对在极端条件下获得人脸图像进行准确的识别。
发明内容
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本公开的目的在于提供信息处理方法和信息处理装置。通过根据本公开的信息处理方法和信息处理装置,利用带标签的多个训练样本对分类模型进行训练,所得到分类模型能够对在极端条件获取的样本进行准确的分类。
为了实现本公开的目的,根据本公开的一个方面,提供了一种信息处理方法,其使用多个训练样本对分类模型进行训练,包括如下步骤:基于多个训练样本中的典型样本来调整多个训练样本的特征向量在特征空间中的分布;以及使用经调整的多个训练样本的特征向量对分类模型进行训练。
根据本公开的另一方面,提供了一种信息处理装置,其使用多个训练样本对分类模型进行训练,包括:调整单元,基于多个训练样本中的典型样本来调整多个训练样本的特征向量在特征空间中的分布;以及学习单元,使用经调整的多个训练样本的特征向量对分类模型进行训练。
根据本公开的又一方面,提供了一种信息处理方法,该信息处理方法包括使用根据本公开的上述方面的信息处理方法进行训练所获得的分类模型对待检测的数据进行检测。
根据本公开的再一方面,还提供了能够实现上述的信息处理方法的计算机程序。此外,还提供了具有至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述的信息处理方法的计算机程序代码。
通过根据本公开的技术使用多个训练样本对分类模型进行训练,可以在不显著增加计算代价的情况下实现对分类模型的改进。较之传统的分类模型,通过根据本公开的信息处理方法训练的分类模型能够对在极端条件获取的样本进行准确的分类。也就是说,根据本公开的技术能够引导模型学习区分性较高的训练样本。
附图说明
参照下面结合附图对本公开实施方式的说明,会更加容易地理解本公开的以上和其它目的、特点和优点,在附图中:
图1是示出根据本公开的第一实施方式的信息处理方法的流程图;
图2(a)和图2(b)是示出以人脸图像作为训练样本的示例的示意图;
图3是示出根据本公开的第二实施方式的信息处理方法的流程图;
图4(a)、图4(b)、图4(c)和图4(d)是示出根据本公开的第二实施方式的信息处理方法的各个步骤的几何解释的示意图;
图5是示出根据本公开的实施方式的信息处理装置的框图;以及
图6示出可用来实现根据本公开的实施方式的使用多个训练样本对分类模型进行训练的信息处理方法100、300和信息处理装置500的通用机器600的结构简图。
具体实施方式
在下文中,将参照所附的说明性示图详细描述本公开内容的一些实施方式。在用附图标记指示附图的元件时,尽管相同的元件在不同的附图中示出,但相同的元件将由相同的附图标记表示。此外,在本公开内容的以下描述中,在有可能使本公开内容的主题不清楚的情况下,将省略对并入于本文中的已知功能和配置的详细描述。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的部件,而省略了与本公开关系不大的其他细节。
这里,尽管在将作为分类模型的Softmax函数应用于卷积神经网络(CNN)以进行人脸识别的背景下描述了本公开的实施方式,但是本公开不限于此。本领域技术人员在本公开的教导下,可以设想将本公开的发明思想扩展到其他分类模型(例如Sigmoid函数和Tanh函数)和其他应用领域(例如语音识别),所有这些变型方案均应涵盖于本公开的范围内。
作为一种分类模型,Softmax函数可被理解为在多个值中取最大值的(max)函数与多个值中的每个值被取为最大值的概率的结合。Softmax函数作为激活函数被广泛应用于各种人工神经网络。
卷积神经网络是一种前馈人工神经网络,被广泛地应用于图像和语音处理领域。卷积神经网络基于三个重要特征,即感受野,权值共享和池化。
卷积神经网络假设每个神经元仅与邻近区域中的神经元存在连接关系并且彼此产生影响。感受野表示该邻近区域的大小。此外,卷积神经网络假设某个区域的神经元之间的连接权值也可以应用于所有其他区域,即权值共享。卷积神经网络的池化指的是在将卷积神经网络用于解决分类问题时基于聚合统计进行的降维操作。
Softmax函数用于将卷积神经网络的输出映射到区间[0,1],表示输入的数据属于相应的类别的概率,因而被视为一种分类模型。
在卷积神经网络的训练过程中,需要计算卷积神经网络的正向传播结果与使用带标签的训练样本计算的结果之间的差距,将该差距作为损失来进行卷积神经网络的反向传播,从而对卷积神经网络进行训练。在池化操作中使用Softmax函数的情况下,使用Softmax损失函数进行卷积神经网络的权值的学习。
具体地,Softmax损失函数具有如下式(1)所示的形式。
Lsoftmax表示softmax函数的损失,其被定义为交叉熵。N表示特征化的训练样本xi(1≤i≤N)的数目,并且C表示类别的数目。注意,本文中的表述“训练样本”指的是用于对分类模型进行训练的样本,即带标签的样本,例如训练样本xi的标签是yi。这里,经特征化的训练样本xi是M维的向量,其标签yi是C个类别中的某一类别。
W和b分别表示卷积神经网络的C*M维的权值矩阵和C维的偏置向量。Wj(1≤j≤C)表示权值矩阵中与C个类别中的第j类对应的权值向量,可被理解为与第j类对应的作为M维向量的参数。
可以对式(1)进行进一步的变换以得到下式(2)。
Softmax函数及其损失函数Lsoftmax对于本领域技术人员是已知的,因此不对其进行更详细的描述。然而,本领域技术人员应认识到,尽管本文基于Softmax函数及其损失函数Lsoftmax描述了根据本公开的实施方式,但是本公开的思想同样可以应用于其他分类模型,并且可以应用于除了卷积神经网络之外的其他人工神经网络,例如循环神经网络(RNN)、深度神经网络(DNN)等。
然而,现有的使用Softmax损失函数Lsoftmax进行学习得到的网络模型对于学习区分性较高的训练样本而言不能取得令人满意的效果,因此有必要对损失函数Lsoftmax进行改进以引导网络模型进行学习,使得属于同一类别的训练样本在向量空间中的彼此之间的距离减小,并且使得属于不同类别的训练样本在向量空间中的彼此之间的距离增大。
因此,本公开提出了一种信息处理技术,用于使用多个训练样本对分类模型进行训练。根据本公开的技术在使用训练样本进行训练之前首先对训练样本进行预处理,以便于引导分类模型的学习,从而达成减小类内距离并且增大类间距离的技术效果。
下面将结合附图来更详细地描述根据本公开的实施方式。
[第一实施方式]
图1是示出根据本公开的第一实施方式的信息处理方法100的流程图。
根据本公开的第一实施方式的信息处理方法100使用多个训练样本对分类模型进行训练。如图1所示,信息处理方法100开始于步骤S101。随后,在步骤S110中,基于多个训练样本中的典型样本来调整多个训练样本的特征向量在特征空间中的分布。接着,在步骤S120中,使用经调整的多个训练样本的特征向量对分类模型进行训练。最后,信息处理方法100结束于步骤S130。
本公开的实施方式的思想在于在训练之前对训练样本添加约束条件,从而增强不同类别之间的训练样本的可区分性。
根据本公开的一个实施方式,步骤S110中的特征向量的空间分布调整操作可以通过如下方式进行:在多个训练样本中的、属于同一类别的训练样本中选择具有最显著类别特征的训练样本作为该类别的典型样本,并且使得除了典型样本之外的其他训练样本的特征向量朝向典型样本的特征向量聚集。该操作的目的在于在使用训练样本对分类模型进行训练之前,减小属于同一类别的训练样本之间的区分性,并且增加属于不同类别的训练样本之间的区分性。
根据本公开的一个实施方式,最显著类别特征使得分类模型不会将典型样本分类为其他类别的训练样本。
例如,当训练样本是人脸图像并且用于对作为分类模型的人脸识别模型进行训练时,对于属于同一个人的人脸图像(即属于同一类别的训练样本),在标准环境,例如,颜色对比明显的背景、照明强度均匀适度、人脸正对镜头且没有偏移等条件下拍摄的人脸图像可以被取为典型样本。也就是说,人脸识别模型不会将作为典型样本的该人脸图像分类成属于其他人。
图2(a)和图2(b)是示出以人脸图像作为训练样本的示例的示意图,其中图2(a)示出了未经步骤S110的处理的训练样本的示意图,并且图2(b)示出了经步骤S110的处理的训练样本的示意图。
图2(a)和图2(b)中的横坐标和纵坐标分别表示类别。在图2(a)和图2(b)所示的情况下,人脸图像作为训练样本,属于不同的类别,即属于不同的人。如图2(a)所示,属于不同人(类别)的人脸图像(训练样本)之间的距离不大,因此区分性不明显。在这种情况下,使用未经处理的训练样本训练得到的人脸识别模型对于在极端情况下取得的样本,例如在背景颜色接近脸部颜色、照明光线阴暗、脸部偏离镜头等情况下拍摄的人脸图像,不能取得很好的分类效果。
在应用根据本公开的第一实施方式的信息处理方法100时,通过步骤S110的处理,即将背景对比度明显,照明条件理想的情况下拍摄的正面的人脸图像取做该类别(人)的典型样本,调整其他训练样本(人脸图像)的特征向量在特征空间中的分布,使得其他训练样本的特征向量朝向典型样本的特征向量聚集,从而减小属于同一类别的训练样本之间的区分性,并且增加属于不同类别的训练样本之间的区分性。
根据本公开的一个实施方式,可以通过如下方式实现步骤S110的处理:以典型样本的特征向量为中心,对其他训练样本的特征向量与该典型样本的特征向量之间的距离进行规范化。
下面结合损失函数Lsoftmax对根据本公开的第一实施方式的信息处理方法100的步骤S110进行说明。
基于信息处理方法100的步骤S110中的操作,式(2)中的损失函数Lsoftmax可以改写为下式(3)。
对属于同一类别的训练样本xi相对于典型样本进行规范化,即||xi||=β,其中β是常数。通过这样处理,在特征空间中可以使得属于同一类别的除了典型样本的其他训练样本的特征向量朝向典型样本的特征向量聚集,从而使得属于同一类别的训练样本的区分性减小,而属于不同类别的训练样本的区分性增大。
随后,如上文所述,在步骤S120中,信息处理方法100使用经调整的多个训练样本的特征向量对分类模型进行训练,从而得到最终的经训练的分类模型,
通过信息处理方法100,可以通过在训练之前对训练样本进行预先调整,使得能够在训练过程中减小属于同一类别的训练样本之间的区分性并且增加属于不同类别的训练样本之间的区分性。经过这样训练的分类模型能够对在极端条件下取得的样本进行准确的分类。
[第二实施方式]
根据本公开,除了在训练之前对训练样本进行预处理之外,还可以对分类模型本身进行预处理。
图3是示出根据本公开的第二实施方式的信息处理方法300的流程图。
如图3所示,信息处理方法300开始于步骤S301。随后,执行步骤S310。图3中的步骤S310与图1中的步骤S110完全相同,因此出于简要起见,不对该步骤进行重复的描述。
参照图3,根据本公开的第二实施方式,信息处理方法300可以进一步包括步骤S320,其中将分类模型的关于不同类别的参数进行规范化,以便基于经调整的所述多个训练样本的特征向量以及经规范化的参数对所述分类模型进行训练。
如上式(1)-(3)中所示,权值向量Wj可以被理解为向量空间中从原点发出的轴线。因此,在向量空间中存在在原点处相交的C条轴线,其分别对应于C个类别,同时对应于C个权值向量Wj。属于同一类别的训练样本的特征向量在向量空间中在相应的权值向量Wj附近聚集。
换言之,对于每个类别,分类模型可以具有对应于该类别的参数,例如权值向量Wj和相应的偏置值bj。
通过对权值向量Wj进行规范化,可以在向量空间中将权值向量Wj投影到同一个球面上。通过步骤S320的处理,可以消除权值向量Wj的模对分类模型的训练的影响,从而获得更为严格的分类标准。
基于步骤S320中的操作,式(3)中的损失函数Lsoftmax可以进一步改写为下式(4)。
其中,对权值向量Wj进行规范化,即||Wj||=α,其中α是常数。
此外,参照图3,根据本公开的第二实施方式,信息处理方法300可以进一步包括步骤S330,其中增加多个训练样本所属的不同类别之间的区分裕度,以便基于经调整的所述多个训练样本的特征向量以及增加的区分裕度对分类模型进行训练。
步骤S330的处理的目的也是减小属于同一类别的训练样本之间的区分性,并且增加属于不同类别的训练样本之间的区分性。
具体地,根据本公开的一个实施方式,增加区分裕度可以通过如下方式进行:对于多个训练样本中的每个训练样本,调整该训练样本与相应的类别的参数之间的相似度。如上文所述,为了减小属于同一类别的训练样本之间的区分性,可以调整该训练样本与相应的类别的参数之间的相似度,即调整训练样本向量xi与相应的权值向量Wyi之间的相似度。
更具体地,根据本公开的一个实施方式,调整相似度可以包括使训练样本的特征向量与分类模型的相应的参数的特征向量之间的夹角乘以系数m,其中m>1。换言之,对于训练样本向量xi与相应的权值向量Wyi,可以通过减小这两个向量之间的夹角来增加它们之间的相似度。
下面基于Lsoftmax损失函数进行说明。
根据上文所述的步骤S330中的操作,式(4)中的损失函数Lsoftmax可以进一步改写为下式(5)。
也就是说,通过引入m(≥1),可以减小属于同一类别的训练样本之间的区分性,并且增加属于不同类别的训练样本之间的区分性。换言之,通过引入系数m(≥1),可以增加多个训练样本所属的不同类别之间的区分裕度。
系数m的选取可以基于多种原则。
例如,根据本公开的一个实施方式,系数m可以被选择为使得同一类别内间的最大角度特征距离小于不同类别之间的最小角度特征距离。也就是说,通过引入系数m,属于同一类别的所有训练样本的特征向量在向量空间中的彼此之间的夹角中的最大值小于属于不同类别的训练样本的特征向量在向量空间中的彼此之间的夹角中的最小值,使得属于同一类别的训练样本之间的区分性较小,而属于不同类别的训练样本之间的区分性较大。
此外,根据本公开的一个实施方式,当多个训练样本所属的类别的数目C增大时,减小系数m;以及当该数目C减小时,增大系数m。如上文所述,通过增大系数m,可以减小属于同一类别的训练样本的特征向量在向量空间中的彼此之间的夹角,并且增加属于不同类别的训练样本的特征向量在向量空间中的彼此之间的夹角。然而,系数m与类别的数目C相关。具体地,当数目C较大时,由于向量空间中的权值向量Wj的分布较密集,因此不能过度增大系数m的值。同理,当数目较小时,由于向量空间中的权值向量Wj的分布较稀疏,因此可以适度增大系数m的值。
随后,如图3所示,在步骤S340中,可以基于经调整的多个训练样本的特征向量、经规范化的参数以及增加的区分裕度对分类模型进行训练,从而得到经训练的分类模型。最后,信息处理方法300结束于步骤S350。
通过信息处理方法300训练的分类模型能够对在极端条件获取的样本进行准确的分类。
尽管上文按照步骤S310、S320、S330的顺序描述了信息处理方法300,但是本领域技术人员应认识到,不存在对上述步骤的执行顺序的特别限定。换言之,步骤S310、S320、S330可以按照任何顺序执行,或者可以同时执行,所有这些变型方案均应涵盖于本公开的范围内。此外,本领域技术人员还应认识到,步骤S320和S330对于根据本公开的实施方式的信息处理方法而言不是必须的。换言之,可以仅执行步骤S310而不执行步骤S320和S330,或者可以执行步骤S310以及步骤S320和S330中的一个步骤。
为了更直观地说明根据本公开的技术,下面结合图4(a)、图4(b)、图4(c)和图4(d)说明根据本公开的信息处理方法300的各个步骤的解释。
图4(a)、图4(b)、图4(c)和图4(d)是示出根据本公开的第二实施方式的信息处理方法300的各个步骤的几何解释的示意图。
具体地,图4(a)示出了未对分类模型和训练样本进行预处理的情况。如图4(a)所示,例如,训练样本属于两个类别(分别用浅色的圆点和深色的圆点表示),诸如权值向量的这两个类别的参数在向量空间中的投影为W1和W2,训练样本在向量空间中的特征向量分布在这两个权值向量周围。为了便于理解,图4(a)中示出了用于判定类别的边界。
图4(b)示出了对分类模型执行增加类间区分裕度的预处理(步骤S330)的情况。如图4(b)所示,通过执行步骤S330,类间的判定边界从一条线扩展为一个扇形并且各个类别的训练样本朝向相应的权值向量聚集(由图中浅色的箭头表示),从而使得属于同一类别的训练样本之间的区分性较小,而属于不同类别的训练样本之间的区分性较大。
图4(c)示出了对分类模型进一步执行类参数规范化的预处理(步骤S320)的情况。如图4(c)所示,通过执行步骤S320,权值向量W1和W2被规范化,从而能够投影到向量空间中的同一个球面上,藉此消除了权值向量的模对分类模型的训练过程的影响,从而获得更为严格的分类标准。
图4(d)示出了对分类模型进一步执行类参数规范化的预处理(步骤S110或S310)的情况。如图4(c)所示,通过执行步骤S110或S310,分属不同类别的训练样本分别朝向相应的典型样本聚集(由图中浅色的箭头表示),从而进一步使得属于同一类别的训练样本之间的区分性较小,而属于不同类别的训练样本之间的区分性较大。
根据本公开的信息处理方法可以通过在训练之前对训练样本和分类模型进行预先调整,使得能够在训练过程中减小属于同一类别的训练样本之间的区分性并且增加属于不同类别的训练样本之间的区分性。经过这样训练的分类模型能够对在极端条件下取得的样本进行准确的分类。
图5是示出根据本公开的实施方式的信息处理装置500的框图。
如图5所示,用于使用多个训练样本对分类模型进行训练的信息处理装置500包括:调整单元501,用于基于多个训练样本中的典型样本来调整多个训练样本的特征向量在特征空间中的分布;以及学习单元502,用于使用经调整的多个训练样本的特征向量对分类模型进行训练。
调整单元501被配置成执行上文参照图1描述的方法100的步骤S110或参照图3描述的方法300的步骤S310的处理并且能够取得与该处理相关的益处,在此省略其描述。
学习单元502被配置成执行上文参照图1描述的方法100的步骤S120或参照3描述的方法300的步骤S340的处理并且能够取得与该处理相关的益处,在此省略其描述。
此外,本公开还提出了一种信息处理方法,其使用通过如上文所述的信息处理方法进行训练而获得的分类模型对待检测的数据进行检测。通过如上文所述的信息处理方法进行训练,能够获得对于极端情况下获取的样本具有较好的分类效果的分类模型,并且将该分类模型应用于对无标签的样本(即待检测的数据)进行分类。
图6是示出可用来实现根据本公开的实施方式的使用多个训练样本对分类模型进行训练的信息处理方法100、300和信息处理装置500的通用机器600的结构简图。通用机器600可以是例如计算机系统。应注意,通用机器600只是一个示例,并非暗示对本公开的方法和装置的使用范围或者功能的局限。也不应将通用机器600解释为对上述使用多个训练样本对分类模型进行训练的方法和装置中示出的任一组件或其组合具有依赖或需求。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件也连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序可根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本公开的使用多个训练样本对分类模型进行训练的信息处理方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本公开的范围内。
上面已通过框图、流程图和/或实施方式进行了详细描述,阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。
综上,在根据本公开的实施方式中,本公开提供了如下方案,但不限于此:
方案1.一种信息处理方法,使用多个训练样本对分类模型进行训练,所述方法包括:
基于所述多个训练样本中的典型样本来调整所述多个训练样本的特征向量在特征空间中的分布;以及
使用经调整的多个训练样本的特征向量对所述分类模型进行训练。
方案2.如方案1所述的信息处理方法,其中,所述典型样本是具有最显著类别特征的训练样本,所述的调整包括:
使得除了典型样本之外的其他训练样本的特征向量朝向所述典型样本的特征向量聚集。
方案3.如方案2所述的信息处理方法,其中,所述最显著类别特征使得所述分类模型不会将所述典型样本分类为其他类别。
方案4.如方案2所述的信息处理方法,其中,所述的聚集包括:
以所述典型样本的特征向量为中心,对其他训练样本的特征向量与该典型样本的特征向量之间的距离进行规范化。
方案5.如方案1所述的信息处理方法,其中,对于每个类别,所述分类模型具有对应于该类别的参数,
所述方法还包括:
将所述分类模型的关于不同类别的参数进行规范化,以便基于经调整的所述多个训练样本的特征向量以及经规范化的参数对所述分类模型进行训练。
方案6.如方案1所述的信息处理方法,还包括:
增加所述多个训练样本所属的不同类别之间的区分裕度,以便基于经调整的所述多个训练样本的特征向量以及增加的区分裕度对所述分类模型进行训练。
方案7.如方案6所述的信息处理方法,其中,所述的增加区分裕度包括:
对于所述多个训练样本中的每个训练样本,调整该训练样本与相应的类别的参数之间的相似度。
方案8.如方案7所述的信息处理方法,其中,所述的调整相似度包括:使该训练样本的特征向量与所述分类模型的相应的参数的特征向量之间的夹角乘以系数m,其中m>1。
方案9.如方案8所述的信息处理方法,其中,所述系数m被选择为使得同一类别内间的最大角度特征距离小于不同类别之间的最小角度特征距离。
方案10.如方案8所述的信息处理方法,其中,当所述多个训练样本所属的类别的数目增大时,减小所述系数m;以及当所述数目减小时,增大所述系数m。
方案11.如方案1所述的信息处理方法,其中,所述分类模型是Softmax函数,所述参数是Softmax函数的针对不同类别的权重,所述训练样本是Softmax函数训练过程中使用的输入。
方案12.一种信息处理装置,使用多个训练样本对分类模型进行训练,所述装置包括:
调整单元,基于所述多个训练样本中的典型样本来调整所述多个训练样本的特征向量在特征空间中的分布;以及
学习单元,使用经调整的多个训练样本的特征向量对所述分类模型进行训练。
方案13.一种信息处理方法,包括使用如方案1至11所述的信息处理方法进行训练所获得的分类模型对待检测的数据进行检测。
尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。
Claims (10)
1.一种信息处理方法,使用多个训练样本对分类模型进行训练,所述方法包括:
基于所述多个训练样本中的典型样本来调整所述多个训练样本的特征向量在特征空间中的分布;以及
使用经调整的多个训练样本的特征向量对所述分类模型进行训练。
2.如权利要求1所述的信息处理方法,其中,所述典型样本是具有最显著类别特征的训练样本,所述的调整包括:
使得除了典型样本之外的其他训练样本的特征向量朝向所述典型样本的特征向量聚集。
3.如权利要求2所述的信息处理方法,其中,所述最显著类别特征使得所述分类模型不会将所述典型样本分类为其他类别。
4.如权利要求2所述的信息处理方法,其中,所述的聚集包括:
以所述典型样本的特征向量为中心,对其他训练样本的特征向量与该典型样本的特征向量之间的距离进行规范化。
5.如权利要求1所述的信息处理方法,其中,对于每个类别,所述分类模型具有对应于该类别的参数,
所述方法还包括:
将所述分类模型的关于不同类别的参数进行规范化,以便基于经调整的所述多个训练样本的特征向量以及经规范化的参数对所述分类模型进行训练。
6.如权利要求1所述的信息处理方法,还包括:
增加所述多个训练样本所属的不同类别之间的区分裕度,以便基于经调整的所述多个训练样本的特征向量以及增加的区分裕度对所述分类模型进行训练。
7.如权利要求6所述的信息处理方法,其中,所述的增加区分裕度包括:
对于所述多个训练样本中的每个训练样本,调整该训练样本与相应的类别的参数之间的相似度。
8.如权利要求7所述的信息处理方法,其中,所述的调整相似度包括:使该训练样本的特征向量与所述分类模型的相应的参数的特征向量之间的夹角乘以系数m,其中m>1。
9.一种信息处理装置,使用多个训练样本对分类模型进行训练,所述装置包括:
调整单元,基于所述多个训练样本中的典型样本来调整所述多个训练样本的特征向量在特征空间中的分布;以及
学习单元,使用经调整的多个训练样本的特征向量对所述分类模型进行训练。
10.一种信息处理方法,包括使用如权利要求1至8所述的信息处理方法进行训练所获得的分类模型对待检测的数据进行检测。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810662632.2A CN110633604B (zh) | 2018-06-25 | 2018-06-25 | 信息处理方法和信息处理装置 |
EP19179144.1A EP3588380A1 (en) | 2018-06-25 | 2019-06-07 | Information processing method and information processing apparatus |
JP2019115483A JP7310351B2 (ja) | 2018-06-25 | 2019-06-21 | 情報処理方法及び情報処理装置 |
US16/450,153 US11113581B2 (en) | 2018-06-25 | 2019-06-24 | Information processing method and information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810662632.2A CN110633604B (zh) | 2018-06-25 | 2018-06-25 | 信息处理方法和信息处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633604A true CN110633604A (zh) | 2019-12-31 |
CN110633604B CN110633604B (zh) | 2023-04-25 |
Family
ID=66793911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810662632.2A Active CN110633604B (zh) | 2018-06-25 | 2018-06-25 | 信息处理方法和信息处理装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11113581B2 (zh) |
EP (1) | EP3588380A1 (zh) |
JP (1) | JP7310351B2 (zh) |
CN (1) | CN110633604B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10621473B1 (en) * | 2019-01-30 | 2020-04-14 | StradVision, Inc. | Method for providing object detecting system capable of updating types of detectable classes in real-time by using continual learning and devices using the same |
US10635918B1 (en) * | 2019-01-30 | 2020-04-28 | StradVision, Inc. | Method and device for managing smart database for face recognition based on continual learning |
US10740593B1 (en) * | 2019-01-31 | 2020-08-11 | StradVision, Inc. | Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation |
EP3997625A4 (en) * | 2019-10-29 | 2022-11-09 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND ASSOCIATED CONTROL METHOD |
JP7483405B2 (ja) | 2020-02-25 | 2024-05-15 | キヤノン株式会社 | 学習装置、電子機器、学習方法、電子機器の制御方法およびプログラム |
WO2021214943A1 (ja) * | 2020-04-23 | 2021-10-28 | 日本電信電話株式会社 | パラメータ最適化方法、非一時的記録媒体、特徴量抽出方法及びパラメータ最適化装置 |
CN114612953A (zh) * | 2020-12-09 | 2022-06-10 | 佳能株式会社 | 对象识别模型的训练方法及装置 |
US20220284261A1 (en) * | 2021-03-05 | 2022-09-08 | The Aerospace Corporation | Training-support-based machine learning classification and regression augmentation |
CN112801054B (zh) * | 2021-04-01 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 人脸识别模型的处理方法、人脸识别方法及装置 |
CN113963203B (zh) * | 2021-10-19 | 2024-07-19 | 动联(山东)电子科技有限公司 | 一种智能捕鼠监测方法、系统、装置及介质 |
CN118114123B (zh) * | 2024-04-17 | 2024-08-02 | 腾讯科技(深圳)有限公司 | 识别模型的处理方法、装置、计算机设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727463A (zh) * | 2008-10-24 | 2010-06-09 | 中国科学院计算技术研究所 | 一种文本训练方法和分类方法 |
CN102393914A (zh) * | 2011-10-28 | 2012-03-28 | 华中科技大学 | 一种基于支持向量机分类树的地基云图识别方法 |
CN102855259A (zh) * | 2011-06-30 | 2013-01-02 | Sap股份公司 | 大规模数据聚类分析的并行化 |
CN103400146A (zh) * | 2013-07-19 | 2013-11-20 | 北京工业大学 | 基于颜色建模的中医面色识别方法 |
CN105574538A (zh) * | 2015-12-10 | 2016-05-11 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
CN107103281A (zh) * | 2017-03-10 | 2017-08-29 | 中山大学 | 基于聚集损失深度度量学习的人脸识别方法 |
CN108133224A (zh) * | 2016-12-01 | 2018-06-08 | 富士通株式会社 | 用于评估分类任务复杂度的装置和方法 |
EP3336760A1 (en) * | 2016-12-15 | 2018-06-20 | Fujitsu Limited | Combined adversarial learning of inverse image manipulation operations |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2008356919A1 (en) * | 2008-05-26 | 2009-12-03 | Agency For Science, Technology And Research | A method and system for classifying brain signals in a BCI |
US9141885B2 (en) * | 2013-07-29 | 2015-09-22 | Adobe Systems Incorporated | Visual pattern recognition in an image |
JP6763673B2 (ja) | 2016-03-10 | 2020-09-30 | 株式会社Screenホールディングス | 教師データ作成支援装置、画像分類装置、教師データ作成支援方法および画像分類方法 |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
GB2555192B (en) * | 2016-08-02 | 2021-11-24 | Invincea Inc | Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space |
US10957337B2 (en) * | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
-
2018
- 2018-06-25 CN CN201810662632.2A patent/CN110633604B/zh active Active
-
2019
- 2019-06-07 EP EP19179144.1A patent/EP3588380A1/en active Pending
- 2019-06-21 JP JP2019115483A patent/JP7310351B2/ja active Active
- 2019-06-24 US US16/450,153 patent/US11113581B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727463A (zh) * | 2008-10-24 | 2010-06-09 | 中国科学院计算技术研究所 | 一种文本训练方法和分类方法 |
CN102855259A (zh) * | 2011-06-30 | 2013-01-02 | Sap股份公司 | 大规模数据聚类分析的并行化 |
CN102393914A (zh) * | 2011-10-28 | 2012-03-28 | 华中科技大学 | 一种基于支持向量机分类树的地基云图识别方法 |
CN103400146A (zh) * | 2013-07-19 | 2013-11-20 | 北京工业大学 | 基于颜色建模的中医面色识别方法 |
CN105574538A (zh) * | 2015-12-10 | 2016-05-11 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
CN108133224A (zh) * | 2016-12-01 | 2018-06-08 | 富士通株式会社 | 用于评估分类任务复杂度的装置和方法 |
EP3336760A1 (en) * | 2016-12-15 | 2018-06-20 | Fujitsu Limited | Combined adversarial learning of inverse image manipulation operations |
CN107103281A (zh) * | 2017-03-10 | 2017-08-29 | 中山大学 | 基于聚集损失深度度量学习的人脸识别方法 |
Non-Patent Citations (3)
Title |
---|
YANDONG WEN: "A Discriminative Feature Learning Approach for Deep Face Recognition", 《INTERNATIONAL CONFERENCE ON COMPUTER ANALYSIS OF IMAGES AND PATTERNS》 * |
余成波等: "中心损失与Softmax损失联合监督下的人脸识别", 《重庆大学学报》 * |
杨红红等: "基于包级空间多示例稀疏表示的图像分类算法", 《西北工业大学学报》 * |
Also Published As
Publication number | Publication date |
---|---|
US11113581B2 (en) | 2021-09-07 |
CN110633604B (zh) | 2023-04-25 |
JP7310351B2 (ja) | 2023-07-19 |
EP3588380A1 (en) | 2020-01-01 |
JP2020004405A (ja) | 2020-01-09 |
US20190392248A1 (en) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633604B (zh) | 信息处理方法和信息处理装置 | |
US8842883B2 (en) | Global classifier with local adaption for objection detection | |
CN110059586B (zh) | 一种基于空洞残差注意力结构的虹膜定位分割系统 | |
CN109359608B (zh) | 一种基于深度学习模型的人脸识别方法 | |
CN106295601B (zh) | 一种改进的安全带检测方法 | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
US8165410B2 (en) | Bags of visual context-dependent words for generic visual categorization | |
JP2020119543A (ja) | 分類モデルを訓練する装置及び方法 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN110991389B (zh) | 判断目标行人在非重叠相机视角中出现的匹配方法 | |
CN113592911B (zh) | 表观增强深度目标跟踪方法 | |
US11348364B2 (en) | Method and system for neural fingerprint enhancement for fingerprint recognition | |
CN111008639B (zh) | 一种基于注意力机制的车牌字符识别方法 | |
CN109815814A (zh) | 一种基于卷积神经网络的人脸检测方法 | |
CN111401145A (zh) | 一种基于深度学习与ds证据理论的可见光虹膜识别方法 | |
CN112926403A (zh) | 基于层次聚类与困难样本三元组的无监督行人重识别方法 | |
CN112132117A (zh) | 一种辅助胁迫检测的融合身份认证系统 | |
Yu et al. | Vision transformer-based retina vessel segmentation with deep adaptive Gamma correction | |
CN103577825B (zh) | 合成孔径声纳图像的目标自动识别方法以及自动识别系统 | |
CN114565798A (zh) | 基于铁谱图像分析的动力装置磨损故障诊断方法及系统 | |
CN117854104A (zh) | 一种基于特征对齐的无监督行人重识别方法 | |
CN112270404A (zh) | 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法 | |
CN112784800B (zh) | 一种基于神经网络和形状约束的人脸关键点检测方法 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
CN115170837A (zh) | 一种基于人工智能的图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |