CN111461155A - 训练分类模型的装置和方法 - Google Patents
训练分类模型的装置和方法 Download PDFInfo
- Publication number
- CN111461155A CN111461155A CN201910105993.1A CN201910105993A CN111461155A CN 111461155 A CN111461155 A CN 111461155A CN 201910105993 A CN201910105993 A CN 201910105993A CN 111461155 A CN111461155 A CN 111461155A
- Authority
- CN
- China
- Prior art keywords
- image
- classification
- loss
- machine learning
- sample image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000013145 classification model Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000010801 machine learning Methods 0.000 claims abstract description 103
- 238000004364 calculation method Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 20
- 210000001061 forehead Anatomy 0.000 claims description 11
- 238000013508 migration Methods 0.000 claims description 10
- 230000005012 migration Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 239000011521 glass Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 56
- 238000013528 artificial neural network Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 230000036544 posture Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Probability & Statistics with Applications (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种训练分类模型的装置和方法。训练分类模型的装置包括:第一获得单元,将样本图像输入第一机器学习架构来获得第一分类概率和第一分类损失;第二获得单元,将样本图像所属的实体的第二图像输入第二机器学习架构来获得第二分类概率和第二分类损失,第一机器学习架构和第二机器学习架构的结构相同并且共享相同的参数;相似度损失计算单元,计算与第一分类概率和第二分类概率之间的相似度相关的相似度损失;总损失计算单元,对于训练集中的所有样本图像,计算相似度损失、第一分类损失以及第二分类损失之和作为总损失;以及训练单元,以使总损失最优化的方式来调节第一机器学习架构和第二机器学习架构的参数,从而获得经训练的分类模型。
Description
技术领域
本公开涉及计算机视觉和图像识别领域,具体涉及一种训练分类模型的装置和方法、以及利用训练分类模型的装置得到的经训练的分类模型进行分类的装置和方法。
背景技术
近年来,由于大规模图像数据的收集和机器学习网络的应用,图像识别在学术界和工业界都取得了很大的进展并得到了广泛的应用。然而,当应用场景出现图像被遮挡、处于不同姿态、图像模糊、分辨率低、图像质量差时,图像识别性能会明显降低。例如,在图像为人脸图像的情况下,当出现人脸被遮挡、人脸姿态变化大、人脸模糊、分辨率低、质量差时,人脸识别性能会明显降低。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供能够解决现有技术中的一个或多个缺点的一种训练分类模型的装置和方法、以及利用训练分类模型的装置得到的经训练的分类模型进行分类的装置和方法。
根据本公开的一方面,提供了一种训练分类模型的装置,包括:第一获得单元,被配置成将训练集中的每个样本图像输入到第一机器学习架构,从而获得所述样本图像的第一分类概率和第一分类损失;第二获得单元,被配置成将所述样本图像所属的实体的第二图像输入到第二机器学习架构,从而获得所述第二图像的第二分类概率和第二分类损失,其中,所述第一机器学习架构和所述第二机器学习架构的结构相同并且共享相同的参数;相似度损失计算单元,被配置成计算与所述第一分类概率和所述第二分类概率之间的相似度相关的相似度损失;总损失计算单元,被配置成对于所述训练集中的所有样本图像,计算针对每个样本图像计算得到的所述相似度损失、所述第一分类损失以及所述第二分类损失之和作为总损失;以及训练单元,被配置成以使所述总损失最优化的方式来调节所述第一机器学习架构和所述第二机器学习架构的参数,从而获得经训练的分类模型。
根据本公开的另一方面,提供了一种训练分类模型的方法,包括:第一获得步骤,将训练集中的每个样本图像输入到第一机器学习架构,从而获得所述样本图像的第一分类概率和第一分类损失;第二获得步骤,将所述样本图像所属的实体的第二图像输入到第二机器学习架构,从而获得所述第二图像的第二分类概率和第二分类损失,其中,所述第一机器学习架构和所述第二机器学习架构的结构相同并且共享相同的参数;相似度损失计算步骤,计算与所述第一分类概率和所述第二分类概率之间的相似度相关的相似度损失;总损失计算步骤,对于所述训练集中的所有样本图像,计算针对每个样本图像计算得到的所述相似度损失、所述第一分类损失以及所述第二分类损失之和作为总损失;以及训练步骤,以使所述总损失最优化的方式来调节所述第一机器学习架构和所述第二机器学习架构的参数,从而获得经训练的分类模型。
根据本公开的另一方面,提供了一种利用上述训练分类模型的装置得到的所述经训练的分类模型进行分类的装置,包括:分类单元,被配置成将待分类图像输入到所述第一机器学习架构来对所述待分类图像进行分类。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开实施例的训练分类模型的装置100的功能配置示例的框图;
图2是示出根据本公开实施例的训练分类模型的装置100的一种示例性实现方式的示意图;
图3是示出根据本公开实施例的训练分类模型的方法的流程示例的流程图;以及
图4是示出作为本公开实施例中可采用的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图1描述根据本公开实施例的训练分类模型的装置100的功能框图。图1是示出根据本公开实施例的训练分类模型的装置100的功能配置示例的框图。如图1所示,根据本公开实施例的训练分类模型的装置100包括第一获得单元102、第二获得单元104、相似度损失计算单元106、总损失计算单元108、以及训练单元110。
第一获得单元102可以被配置成将训练集中的每个样本图像输入到第一机器学习架构,从而获得样本图像的第一分类概率和第一分类损失。
具体地,第一获得单元102将训练集中的每个样本图像输入到第一机器学习架构来获得每个样本图像的特征。然后,第一获得单元102基于样本图像的特征而计算该样本图像的第一分类概率和第一分类损失。
作为示例,第一机器学习架构可以包括第一分类概率计算层,其用于基于样本图像的特征来计算样本图像的第一分类概率。
例示而非限制,第一机器学习架构可以是神经网络架构。本领域技术人员可以理解,第一机器学习架构可以是除了神经网络架构之外的架构,这里不再累述。
图2是示出根据本公开实施例的训练分类模型的装置100的一种示例性实现方式的示意图。在图2中,为了方便,以第一机器学习架构为第一卷积神经网络F-CNN为例来进行描述。
如图2所示,将样本图像输入到第一卷积神经网络F-CNN,获得样本图像的特征。
例示而非限制,该第一卷积神经网络F-CNN可以包括卷积层和全连接层。第一卷积神经网络F-CNN还可以包括第一分类概率计算层,其用于获得样本图像的第一分类概率。尽管第一分类概率计算层包括在第一卷积神经网络F-CNN中,但是,为了清楚,在图2中,在第一卷积神经网络F-CNN的后面单独示出了第一分类概率计算层。例示而非限制,第一分类概率计算层可以基于图像的特征、利用softmax函数来计算第一分类概率。本领域技术人员可以想到第一分类概率计算层的其他实现方式,这里不再累述。在下文中,以第一分类概率计算层利用softmax函数来计算第一分类概率为例来进行描述。令第一卷积神经网络F-CNN的第一分类概率计算层的输出值即第一分类概率PF表示为:
PF=soft max(aF) (1)
在公式(1)中,aF为输入到第一卷积神经网络F-CNN的第一分类概率计算层的向量,如果第一卷积神经网络F-CNN是单网络结构,则aF为第一卷积神经网络F-CNN中第一分类概率计算层的上一层的输出向量(例示而非限制,样本图像的特征向量),如果第一卷积神经网络F-CNN是多网络结构,则aF由多个网络中的每个网络中的第一分类概率计算层的上一层的输出向量求例如算术或几何平均而计算得到。
此外,如图2所示,可以利用样本图像的特征来计算样本图像的第一分类损失。
作为示例,可以采用softmax损失函数来计算样本图像的第一分类损失。此外,本领域技术人员还可以想到其他方式来计算样本图像的第一分类损失,这里不再累述。
第二获得单元104可以被配置成将样本图像所属的实体的第二图像输入到第二机器学习架构,从而获得第二图像的第二分类概率和第二分类损失,其中,第一机器学习架构和第二机器学习架构的结构相同并且共享相同的参数。
作为示例,在样本图像为车牌图像的情况下,该样本图像所属的实体为车牌,则样本图像所属的实体的第二图像也为该车牌的图像,即,样本图像和第二图像是同一车牌的图像;在样本图像为人脸图像的情况下,该样本图像所属的实体为人脸,则样本图像所属的实体的第二图像也为该人脸的图像,即,样本图像和第二图像是同一人脸的图像;在样本图像为文字图像的情况下,该样本图像所属的实体为文字,则样本图像所属的实体的第二图像也为该文字的图像,即,样本图像和第二图像是同一文字的图像;本领域技术人员还可以想到样本图像和与其对应的第二图像的其他示例,这里不再累述。
例示而非限制,第二图像可以是与其对应的样本图像被遮挡一部分后产生的图像,第二图像可以是与其对应的样本图像相比处于不同姿态的图像、第二图像可以是与其对应的样本图像的模糊图像,第二图像可以是与其对应的样本图像相比分辨率更低或图像质量更差的图像。
具体地,第二获得单元104将输入到第一机器学习架构的样本图像所属的实体的第二图像输入到第二机器学习架构来获得第二图像的特征。然后,第二获得单元104基于第二图像的特征而计算该第二图像的第二分类概率和第二分类损失。
作为示例,第二机器学习架构可以包括第二分类概率计算层,其用于基于第二图像的特征来计算第二图像的第二分类概率。
例示而非限制,第二机器学习架构可以是神经网络架构。本领域技术人员可以理解,第二机器学习架构可以是除了神经网络架构之外的架构,这里不再累述。
由于在图2中以第一机器学习架构为卷积神经网络为例来进行描述、并且第一机器学习架构和第二机器学习架构的结构相同并且共享相同的参数,因此,在图2中,第二机器学习架构也为卷积神经网络。具体地,在图2中,第二机器学习架构为第二卷积神经网络R-CNN。第二卷积神经网络R-CNN和第一卷积神经网络F-CNN包括相同的网络层并且共享相同的网络参数。
如图2所示,将与样本图像对应的第二图像输入到第二卷积神经网络R-CNN,获得第二图像的特征。
例示而非限制,该第二卷积神经网络R-CNN可以包括卷积层和全连接层。第二卷积神经网络R-CNN还可以包括第二分类概率计算层,用于获得第二图像的第二分类概率。尽管第二分类概率计算层包括在第二卷积神经网络R-CNN中,但是,为了清楚,在图2中,在第二卷积神经网络R-CNN的后面单独示出了第二分类概率计算层。例示而非限制,第二分类概率计算层可以基于图像的特征、利用softmax函数来计算第二分类概率。本领域技术人员可以想到第二分类概率计算层的其他实现方式,这里不再累述。在下文中,以第二分类概率计算层利用softmax函数来计算第二分类概率为例来进行描述。令第二卷积神经网络R-CNN的第二分类概率计算层的输出值即第二分类概率PR表示为:
PR=soft max(aR) (2)
在公式(2)中,aR为输入到第二卷积神经网络R-CNN的第二分类概率计算层的向量,如果第二卷积神经网络R-CNN是单网络结构,则aR为第二卷积神经网络R-CNN网络中第二分类概率计算层的上一层的输出向量(例示而非限制,样本图像的特征向量),如果第二卷积神经网络R-CNN是多网络结构,则aR由多个网络中的每个网络中的第二分类概率计算层的上一层的输出向量求例如算术或几何平均而计算得到。
此外,如图2所示,可以利用第二图像的特征来计算第二图像的第二分类损失。
作为示例,可以采用softmax损失函数来计算第二图像的第二分类损失。此外,本领域技术人员还可以想到其他方式来计算第二图像的第二分类损失,这里不再累述。
相似度损失计算单元106可以被配置成计算与第一分类概率和第二分类概率之间的相似度相关的相似度损失。
如上所述,样本图像和与其对应的第二图像是同一实体的图像,第二图像可以是与其对应的样本图像被遮挡一部分后产生的图像,第二图像可以是与其对应的样本图像相比处于不同姿态的图像、第二图像可以是与其对应的样本图像的模糊图像,第二图像可以是与其对应的样本图像相比分辨率更低或图像质量更差的图像等等。为了使对第二图像的识别性能尽可能接近于与第二图像对应的样本图像的识别性能,在本公开中,定义了反映与通过第一机器学习架构获得的第一分类概率和通过第二机器学习架构获得的第二分类概率之间的相似度相关的相似度损失,由此可以使用第一机器学习架构的分类结果来监督训练第二机器学习架构。
优选地,第一分类概率和第二分类概率之间的相似度越高,则相似度损失越小,而第一分类概率和第二分类概率之间的相似度越低,则相似度损失越大。
具体地,例如,可以使用迁移损失函数来计算相似度损失,并且基于相似度损失进行反向传播来更新第一机器学习架构和第二机器学习架构的权重参数,使得第二图像的第二分类概率尽可能地接近于与第二图像相对应的样本图像的第一分类概率,从而使对第二图像的识别性能尽可能接近于与第二图像对应的样本图像的识别性能。迁移损失函数可以例如是下文中要描述的交叉熵函数、KL散度函数、最大均值差异函数等。
如图2所示,基于从第一分类概率计算层输出的第一分类概率和从第二分类概率计算层输出的第二分类概率,得到相似度损失。
总损失计算单元108可以被配置成对于训练集中的所有样本图像,计算针对每个样本图像计算得到的相似度损失、第一分类损失以及第二分类损失之和作为总损失。
可以将训练集中的所有样本图像的第一分类损失之和表示为LF,将所有第二图像的第二分类损失之和表示为LR,以及将所有样本图像和与其对应的第二图像之间的相似度损失之和表示为LS。
那么,总损失L可以表示为:
L=LF+LR+λLS (3)
在公式(3)中,λ是可调参数,其用于平衡分类损失(包括第一分类损失和第二分类损失)与相似度损失。例示而非限制,本领域技术人员可以根据经验来设定λ。
如上所示,可以使用迁移损失函数来计算相似度损失LS,迁移损失函数可以例如是交叉熵函数、KL散度函数、最大均值差异函数等。下面将分别给出第一分类概率和第二分类概率之间的交叉熵、KL散度、最大均值差异的具体表示形式。
第一分类概率PF和第二分类概率PR之间的交叉熵H(PF,PR)可以表示为:
H(PF,PR)=-∑PF*log(PR) (4)
在公式(4)中,∑表示对训练集中的所有样本图像,求取针对每个样本图像和与该样本图像对应的第二图像计算得到的PF*log(PR)之和。
相对熵又可以称为KL散度,用于衡量概率分布PF和PR之间的距离。
DKL(PF||PR)=∑PF*log(PF/PR) (5)
在公式(5)中,∑表示对训练集中的所有样本图像,求取针对每个样本图像和与该样本图像对应的第二图像计算得到的PF*log(PF/PR)之和。
相对熵是一个非对称距离,即DKL(PF||PR)≠DKL(PR||PF)。
最大均值差异(MMD)在迁移学习中使用频率很高,它度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法,MMD平方距离可以表示为:
MMD2(PF,PR)=|∑Φ(PF)-∑Φ(PR)|2 (6)
在公式(6)中,Φ()是映射函数,用于分别将PF和PR映射到再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)中,∑表示对训练集中的所有样本图像进行处理。
优选地,在计算与第一分类概率和第二分类概率之间的相似度相关的相似度损失之前,将使得保留不同类之间的信息的参数分别应用于第一分类概率和第二分类概率以软化第一分类概率和第二分类概率。
作为示例,由于在第一分类概率的向量表示中,与样本图像的标签的类别对应的概率值非常大,而与其他类别对应的概率值非常小,因此,导致不同类别之间的关系较弱。因此,可以引入软化参数τ对第一分类概率进行软化,使得尽可能得保留不同类之间的信息。此外,还使用软化参数τ对第二分类概率进行软化,使得尽可能得保留不同类之间的信息。采用同样的软化参数τ后,第一卷积神经网络F-CNN的第一计算分类概率层和第二卷积神经网络R-CNN的第二计算分类概率层输出的第一分类概率和第二分类概率可分别表示为:
训练单元110可以被配置成以使总损失最优化的方式来调节第一机器学习架构和第二机器学习架构的参数,从而获得经训练的分类模型。
作为示例,训练单元110以使总损失最优化的方式迭代地进行反向传播来更新第一机器学习架构和第二机器学习架构的权重参数。总损失最优化的方式指的是使得第二图像的第二分类概率尽可能地接近于与第二图像相对应的样本图像的第一分类概率并且使第二图像的分类结果尽可能地接近样本图像的真实标签,从而使对第二图像的识别性能尽可能接近于与第二图像对应的样本图像的识别性能。在满足预定条件时迭代结束,从而获得经训练的分类模型。所述预定条件可以是迭代预定次数、总损失小于预定值等。
优选地,样本图像是无遮挡的图像,以及第二图像是通过对样本图像进行预定处理所获得的图像。作为示例,样本图像可以是无遮挡的车牌图像、无遮挡的人脸图像、无遮挡的文字图像等等。例示而非限制,所述预定处理可以包括对样本图像进行遮挡处理、对样本图像进行随机模糊处理等等。
优选地,样本图像是人的面部图像,以及第二图像是对样本图像进行预定处理而获得的包括眼睛的图像。
在样本图像是人的面部图像的情况下,眼睛的图像在人脸识别中起到非常重要的作用。在第二图像中包括眼睛可以提高对第二图像的识别性能。
作为示例,可以通过人脸关键点检测算法,检测样本图像中的人脸的5个关键点位置(两个眼睛、鼻子、以及两个嘴角的位置)。然后,根据5个关键点在样本图像中的人脸上随机加部分遮挡,可以获得第二图像。
优选地,第二图像是通过遮挡住样本图像中的前额头发而获得的遮挡图像。如图2所示,图2中的第二图像是通过遮挡住样本图像中的前额头发而获得的。
作为示例,根据5个关键点在样本图像中的人脸的前额头发部分加上遮挡,可以获得第二图像。
优选地,第二图像是通过去除样本图像中的眼镜而获得的图像。
优选地,第二图像是通过对样本图像进行随机模糊处理而获得的图像。
优选地,样本图像是人的面部的正面图像,以及第二图像是对样本图像所属的人的不同姿态的图像进行预处理而获得的。
优选地,第二图像是对所述不同姿态的图像进行仿射变换而获得的。
综上所述,根据本公开实施例的训练分类模型的装置100使得第二图像的第二分类概率尽可能地接近于与第二图像相对应的样本图像的第一分类概率并且使第二图像的分类结果尽可能地接近样本图像的真实标签,从而使对第二图像的识别性能尽可能接近于对样本图像的识别性能,由此获得鲁棒性高的训练模型。作为示例,当应用场景出现图像被遮挡(例如,面部图像被前额头发遮挡等)、图像处于不同姿态、图像模糊、图像分辨率低、图像质量差等时,利用根据本公开实施例的训练分类模型的装置100得到的经训练的分类模型对这些图像进行识别,可以提高对这些图像的识别性能,从而提高这些图像的分类准确度。
与上述训练分类模型的装置实施例相对应地,本公开还提供了以下训练分类模型的方法的实施例。
图3是示出根据本公开实施例的训练分类模型的方法300的流程示例的流程图。
如图3所示,根据本公开实施例的训练分类模型的方法300包括第一获得步骤S302、第二获得步骤S304、相似度损失计算步骤S306、总损失计算步骤S308、以及训练步骤S310。
在第一获得步骤S302中,可以将训练集中的每个样本图像输入到第一机器学习架构,从而获得样本图像的第一分类概率和第一分类损失。
具体地,在第一获得步骤S302中,将训练集中的每个样本图像输入到第一机器学习架构来获得每个样本图像的特征。然后,基于样本图像的特征而计算该样本图像的第一分类概率和第一分类损失。
作为示例,第一机器学习架构可以包括第一分类概率计算层,其用于基于样本图像的特征来计算样本图像的第一分类概率。
例示而非限制,第一机器学习架构可以是神经网络架构。本领域技术人员可以理解,第一机器学习架构可以是除了神经网络架构之外的架构,这里不再累述。
作为示例,可以采用softmax损失函数来计算样本图像的第一分类损失。此外,本领域技术人员还可以想到其他方式来计算样本图像的第一分类损失,这里不再累述。
在第二获得步骤S304中,可以将样本图像所属的实体的第二图像输入到第二机器学习架构,从而获得第二图像的第二分类概率和第二分类损失,其中,第一机器学习架构和第二机器学习架构的结构相同并且共享相同的参数。
作为示例,在样本图像为车牌图像的情况下,该样本图像所属的实体为车牌,则样本图像所属的实体的第二图像也为该车牌的图像,即,样本图像和第二图像是同一车牌的图像;在样本图像为人脸图像的情况下,该样本图像所属的实体为人脸,则样本图像所属的实体的第二图像也为该人脸的图像,即,样本图像和第二图像是同一人脸的图像;在样本图像为文字图像的情况下,该样本图像所属的实体为文字,则样本图像所属的实体的第二图像也为该文字的图像,即,样本图像和第二图像是同一文字的图像;本领域技术人员还可以想到样本图像和与其对应的第二图像的其他示例,这里不再累述。
例示而非限制,第二图像可以是与其对应的样本图像被遮挡一部分后产生的图像,第二图像可以是与其对应的样本图像相比处于不同姿态的图像、第二图像可以是与其对应的样本图像的模糊图像,第二图像可以是与其对应的样本图像相比分辨率更低或图像质量更差的图像。
具体地,在第二获得步骤S304中,将输入到第一机器学习架构的样本图像所属的实体的第二图像输入到第二机器学习架构来获得第二图像的特征。然后,基于第二图像的特征而计算该第二图像的第二分类概率和第二分类损失。
作为示例,第二机器学习架构可以包括第二分类概率计算层,其用于基于第二图像的特征来计算第二图像的第二分类概率。
例示而非限制,第二机器学习架构可以是神经网络架构。本领域技术人员可以理解,第二机器学习架构可以是除了神经网络架构之外的架构,这里不再累述。
作为示例,可以采用softmax损失函数来计算第二图像的第二分类损失。此外,本领域技术人员还可以想到其他方式来计算第二图像的第二分类损失,这里不再累述。
在相似度损失计算步骤S306中,可以计算与第一分类概率和第二分类概率之间的相似度相关的相似度损失。
通过反映第一分类概率和第二分类概率之间的相似度相关的相似度损失,可以使用第一机器学习架构的分类结果来监督训练第二机器学习架构。
优选地,第一分类概率和第二分类概率之间的相似度越高,则相似度损失越小,而第一分类概率和第二分类概率之间的相似度越低,则相似度损失越大。
具体地,例如,可以使用迁移损失函数来计算相似度损失,并且基于相似度损失进行反向传播来更新第一机器学习架构和第二机器学习架构的权重参数,使得第二图像的第二分类概率尽可能地接近于与第二图像相对应的样本图像的第一分类概率,从而使对第二图像的识别性能尽可能接近于与第二图像对应的样本图像的识别性能。迁移损失函数可以例如是交叉熵函数、KL散度函数、最大均值差异函数等。
在总损失计算步骤S308中,可以对于训练集中的所有样本图像,计算针对每个样本图像计算得到的相似度损失、第一分类损失以及第二分类损失之和作为总损失。
在训练步骤S310中,以使总损失最优化的方式来调节第一机器学习架构和第二机器学习架构的参数,从而获得经训练的分类模型。
作为示例,在训练步骤S310中,以使总损失最优化的方式迭代地进行反向传播来更新第一机器学习架构和第二机器学习架构的权重参数,使得第二图像的第二分类概率尽可能地接近于与第二图像相对应的样本图像的第一分类概率并且使第二图像的分类结果尽可能地接近样本图像的真实标签,从而使对第二图像的识别性能尽可能接近于与第二图像对应的样本图像的识别性能。在满足预定条件时迭代结束,从而获得经训练的分类模型。所述预定条件可以是迭代预定次数、总损失小于预定值等。
优选地,样本图像是无遮挡的图像,以及第二图像是通过对样本图像进行预定处理所获得的图像。作为示例,样本图像可以是无遮挡的车牌图像、无遮挡的人脸图像、无遮挡的文字图像等等。例示而非限制,所述预定处理可以包括对样本图像进行遮挡处理、对样本图像进行随机模糊处理等等。
优选地,样本图像是人的面部图像,以及第二图像是对样本图像进行预定处理而获得的包括眼睛的图像。
在样本图像是人的面部图像的情况下,眼睛的图像在人脸识别中起到非常重要的作用。在第二图像中包括眼睛可以提高对第二图像的识别性能。
优选地,第二图像是通过遮挡住样本图像中的前额头发而获得的遮挡图像。
优选地,第二图像是通过去除样本图像中的眼镜而获得的图像。
优选地,第二图像是通过对样本图像进行随机模糊处理而获得的图像。
优选地,样本图像是人的面部的正面图像,以及第二图像是对样本图像所属的人的不同姿态的图像进行预处理而获得的。
优选地,第二图像是对所述不同姿态的图像进行仿射变换而获得的。
综上所述,根据本公开实施例的训练分类模型的方法300使得第二图像的第二分类概率尽可能地接近于与第二图像相对应的样本图像的第一分类概率并且使第二图像的分类结果尽可能地接近样本图像的真实标签,从而使对第二图像的识别性能尽可能接近于对样本图像的识别性能,由此获得鲁棒性高的训练模型。作为示例,当应用场景出现图像被遮挡(例如,面部图像被前额头发遮挡等)、图像处于不同姿态、图像模糊、图像分辨率低、图像质量差等时,利用根据本公开实施例的训练分类模型的方法300得到的经训练的分类模型对这些图像进行识别,可以提高对这些图像的识别性能,从而提高这些图像的分类准确度。
本公开还提供了一种利用上述训练分类模型的装置100得到的经训练的分类模型进行分类的装置,该装置包括:分类单元,其被配置成将待分类图像输入到第一机器学习架构或第二机器学习架构来对待分类图像进行分类。
如在对训练分类模型的装置100的描述中所述,第一机器学习架构和第二机器学习架构的结构相同并且共享相同的参数。因此,在分类单元中,仅需要将待分类图像输入到经训练的第一机器学习架构或第二机器学习架构就可以对待分类图像进行分类。
作为示例,在第一机器学习架构或第二机器学习架构为卷积神经网络的情况下,将待分类图像输入到经训练的该卷积神经网络就可以对待分类图像进行分类。
由于经训练的训练模型鲁棒性高,因此,作为示例,当应用场景出现图像被遮挡(例如,面部图像被前额头发遮挡等)、图像处于不同姿态、图像模糊、图像分辨率低、图像质量差等时,利用上述经训练的分类模型对这些图像进行识别,可以提高对这些图像的识别性能,从而提高这些图像的分类准确度。
与上述利用经训练的分类模型进行分类的装置实施例相对应地,本公开还提供了以下利用经训练的分类模型进行分类的方法的实施例。该方法包括分类步骤,在该分类步骤中,将待分类图像输入到第一机器学习架构或第二机器学习架构来对待分类图像进行分类。
作为示例,在第一机器学习架构或第二机器学习架构为卷积神经网络的情况下,将待分类图像输入到经训练的该卷积神经网络就可以对待分类图像进行分类。
由于经训练的训练模型鲁棒性高,因此,作为示例,当应用场景出现图像被遮挡(例如,面部图像被前额头发遮挡等)、图像处于不同姿态、图像模糊、图像分辨率低、图像质量差等时,利用上述经训练的分类模型对这些图像进行识别,可以提高对这些图像的识别性能,从而提高这些图像的分类准确度。
应指出,尽管以上描述了根据本公开实施例的训练分类模型的装置和方法、以及利用经训练的分类模型进行分类的装置和方法的功能配置以及操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的方法实施例是与上述装置实施例相对应的,因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述,在此不再重复描述。
此外,本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述图像处理方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图4所示的通用个人计算机400安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中,也根据需要存储当CPU 401执行各种处理等时所需的数据。
CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。
下述部件连接到输入/输出接口405:输入部分406,包括键盘、鼠标等;输出部分407,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分408,包括硬盘等;和通信部分409,包括网络接口卡比如LAN卡、调制解调器等。通信部分409经由网络比如因特网执行通信处理。
根据需要,驱动器410也连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器410上,使得从中读出的计算机程序根据需要被安装到存储部分408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 402、存储部分408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种训练分类模型的装置,包括:
第一获得单元,被配置成将训练集中的每个样本图像输入到第一机器学习架构,从而获得所述样本图像的第一分类概率和第一分类损失;
第二获得单元,被配置成将所述样本图像所属的实体的第二图像输入到第二机器学习架构,从而获得所述第二图像的第二分类概率和第二分类损失,其中,所述第一机器学习架构和所述第二机器学习架构的结构相同并且共享相同的参数;
相似度损失计算单元,被配置成计算与所述第一分类概率和所述第二分类概率之间的相似度相关的相似度损失;
总损失计算单元,被配置成对于所述训练集中的所有样本图像,计算针对每个样本图像计算得到的所述相似度损失、所述第一分类损失以及所述第二分类损失之和作为总损失;以及
训练单元,被配置成以使所述总损失最优化的方式来调节所述第一机器学习架构和所述第二机器学习架构的参数,从而获得经训练的分类模型。
附记2.根据附记1所述的训练分类模型的装置,其中,所述第一分类概率和所述第二分类概率之间的相似度越高,则所述相似度损失越小,而所述第一分类概率和所述第二分类概率之间的相似度越低,则所述相似度损失越大。
附记3.根据附记1所述的训练分类模型的装置,其中,所述样本图像是无遮挡的图像,以及所述第二图像是通过对所述样本图像进行预定处理所获得的图像。
附记4.根据附记3所述的训练分类模型的装置,其中,所述样本图像是人的面部图像,以及所述第二图像是对所述样本图像进行预定处理而获得的包括眼睛的图像。
附记5.根据附记4所述的训练分类模型的装置,其中,所述第二图像是通过遮挡住所述样本图像中的前额头发而获得的遮挡图像,或者所述第二图像是通过去除所述样本图像中的眼镜而获得的图像。
附记6.根据附记3所述的训练分类模型的装置,其中,所述第二图像是通过对所述样本图像进行随机模糊处理而获得的图像。
附记7.根据附记1所述的训练分类模型的装置,其中,所述样本图像是人的面部的正面图像,以及所述第二图像是对所述样本图像所属的人的不同姿态的图像进行预处理而获得的。
附记8.根据附记7所述的训练分类模型的装置,其中,所述第二图像是对所述不同姿态的图像进行仿射变换而获得的。
附记9.根据附记1所述的训练分类模型的装置,其中,使用所述第一分类概率和所述第二分类概率之间的迁移损失函数来计算所述相似度损失,所述迁移损失函数包括交叉熵函数、KL散度函数以及最大均值差异函数之一。
附记10.根据附记1所述的训练分类模型的装置,其中,在计算与所述第一分类概率和所述第二分类概率之间的相似度相关的相似度损失之前,将使得保留不同类之间的信息的软化参数分别应用于所述第一分类概率和所述第二分类概率以软化所述第一分类概率和所述第二分类概率。
附记11.一种训练分类模型的方法,包括:
第一获得步骤,将训练集中的每个样本图像输入到第一机器学习架构,从而获得所述样本图像的第一分类概率和第一分类损失;
第二获得步骤,将所述样本图像所属的实体的第二图像输入到第二机器学习架构,从而获得所述第二图像的第二分类概率和第二分类损失,其中,所述第一机器学习架构和所述第二机器学习架构的结构相同并且共享相同的参数;
相似度损失计算步骤,计算与所述第一分类概率和所述第二分类概率之间的相似度相关的相似度损失;
总损失计算步骤,对于所述训练集中的所有样本图像,计算针对每个样本图像计算得到的所述相似度损失、所述第一分类损失以及所述第二分类损失之和作为总损失;以及
训练步骤,以使所述总损失最优化的方式来调节所述第一机器学习架构和所述第二机器学习架构的参数,从而获得经训练的分类模型。
附记12.根据附记11所述的训练分类模型的方法,其中,所述第一分类概率和所述第二分类概率之间的相似度越高,则所述相似度损失越小,而所述第一分类概率和所述第二分类概率之间的相似度越低,则所述相似度损失越大。
附记13.根据附记11所述的训练分类模型的方法,其中,所述样本图像是无遮挡的图像,以及所述第二图像是通过对所述样本图像进行预定处理所获得的图像。
附记14.根据附记13所述的训练分类模型的方法,其中,所述样本图像是人的面部图像,以及所述第二图像是对所述样本图像进行预定处理而获得的包括眼睛的图像。
附记15.根据附记14所述的训练分类模型的方法,其中,所述第二图像是通过遮挡住所述样本图像中的前额头发而获得的遮挡图像,或者所述第二图像是通过去除所述样本图像中的眼镜而获得的图像。
附记16.根据附记13所述的训练分类模型的方法,其中,所述第二图像是通过对所述样本图像进行随机模糊处理而获得的图像。
附记17.根据附记11所述的训练分类模型的装置,其中,所述样本图像是人的面部的正面图像,以及所述第二图像是对所述样本图像所属的人的不同姿态的图像进行预处理而获得的。
附记18.根据附记17所述的训练分类模型的方法,其中,所述第二图像是对所述不同姿态的图像进行仿射变换而获得的。
附记19.根据附记11所述的训练分类模型的方法,其中,使用所述第一分类概率和所述第二分类概率之间的迁移损失函数来计算所述相似度损失,所述迁移损失函数包括交叉熵函数、KL散度函数以及最大均值差异函数之一。
附记20.一种利用根据附记1-10中任一项所述的训练分类模型的装置得到的所述经训练的分类模型进行分类的装置,包括:
分类单元,被配置成将待分类图像输入到所述第一机器学习架构来对所述待分类图像进行分类。
Claims (10)
1.一种训练分类模型的装置,包括:
第一获得单元,被配置成将训练集中的每个样本图像输入到第一机器学习架构,从而获得所述样本图像的第一分类概率和第一分类损失;
第二获得单元,被配置成将所述样本图像所属的实体的第二图像输入到第二机器学习架构,从而获得所述第二图像的第二分类概率和第二分类损失,其中,所述第一机器学习架构和所述第二机器学习架构的结构相同并且共享相同的参数;
相似度损失计算单元,被配置成计算与所述第一分类概率和所述第二分类概率之间的相似度相关的相似度损失;
总损失计算单元,被配置成对于所述训练集中的所有样本图像,计算针对每个样本图像计算得到的所述相似度损失、所述第一分类损失以及所述第二分类损失之和作为总损失;以及
训练单元,被配置成以使所述总损失最优化的方式来调节所述第一机器学习架构和所述第二机器学习架构的参数,从而获得经训练的分类模型。
2.根据权利要求1所述的训练分类模型的装置,其中,所述第一分类概率和所述第二分类概率之间的相似度越高,则所述相似度损失越小,而所述第一分类概率和所述第二分类概率之间的相似度越低,则所述相似度损失越大。
3.根据权利要求1所述的训练分类模型的装置,其中,所述样本图像是无遮挡的图像,以及所述第二图像是通过对所述样本图像进行预定处理所获得的图像。
4.根据权利要求3所述的训练分类模型的装置,其中,所述样本图像是人的面部图像、以及所述第二图像是对所述样本图像进行预定处理而获得的包括眼睛的图像,或者,所述样本图像是人的面部的正面图像、以及所述第二图像是对所述样本图像所属的人的不同姿态的图像进行预处理而获得的。
5.根据权利要求4所述的训练分类模型的装置,其中,所述第二图像是通过遮挡住所述样本图像中的前额头发而获得的遮挡图像,或者所述第二图像是通过去除所述样本图像中的眼镜而获得的图像。
6.根据权利要求3所述的训练分类模型的装置,其中,所述第二图像是通过对所述样本图像进行随机模糊处理而获得的图像。
7.根据权利要求1所述的训练分类模型的装置,其中,使用所述第一分类概率和所述第二分类概率之间的迁移损失函数来计算所述相似度损失,所述迁移损失函数包括交叉熵函数、KL散度函数以及最大均值差异函数之一。
8.根据权利要求1所述的训练分类模型的装置,其中,在计算与所述第一分类概率和所述第二分类概率之间的相似度相关的相似度损失之前,将使得保留不同类之间的信息的软化参数分别应用于所述第一分类概率和所述第二分类概率以软化所述第一分类概率和所述第二分类概率。
9.一种训练分类模型的方法,包括:
第一获得步骤,将训练集中的每个样本图像输入到第一机器学习架构,从而获得所述样本图像的第一分类概率和第一分类损失;
第二获得步骤,将所述样本图像所属的实体的第二图像输入到第二机器学习架构,从而获得所述第二图像的第二分类概率和第二分类损失,其中,所述第一机器学习架构和所述第二机器学习架构的结构相同并且共享相同的参数;
相似度损失计算步骤,计算与所述第一分类概率和所述第二分类概率之间的相似度相关的相似度损失;
总损失计算步骤,对于所述训练集中的所有样本图像,计算针对每个样本图像计算得到的所述相似度损失、所述第一分类损失以及所述第二分类损失之和作为总损失;以及
训练步骤,以使所述总损失最优化的方式来调节所述第一机器学习架构和所述第二机器学习架构的参数,从而获得经训练的分类模型。
10.一种利用根据权利要求1-8中任一项所述的训练分类模型的装置得到的所述经训练的分类模型进行分类的装置,包括:
分类单元,被配置成将待分类图像输入到所述第一机器学习架构或所述第二机器学习架构来对所述待分类图像进行分类。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910105993.1A CN111461155A (zh) | 2019-01-18 | 2019-01-18 | 训练分类模型的装置和方法 |
US16/737,370 US11270139B2 (en) | 2019-01-18 | 2020-01-08 | Apparatus and method for training classifying model |
EP20151193.8A EP3683726A1 (en) | 2019-01-18 | 2020-01-10 | Aparatus and method for training classifying model |
JP2020002921A JP2020119543A (ja) | 2019-01-18 | 2020-01-10 | 分類モデルを訓練する装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910105993.1A CN111461155A (zh) | 2019-01-18 | 2019-01-18 | 训练分类模型的装置和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111461155A true CN111461155A (zh) | 2020-07-28 |
Family
ID=69157737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910105993.1A Pending CN111461155A (zh) | 2019-01-18 | 2019-01-18 | 训练分类模型的装置和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11270139B2 (zh) |
EP (1) | EP3683726A1 (zh) |
JP (1) | JP2020119543A (zh) |
CN (1) | CN111461155A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738365A (zh) * | 2020-08-06 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 图像分类模型训练方法、装置、计算机设备及存储介质 |
CN112016450A (zh) * | 2020-08-27 | 2020-12-01 | 京东方科技集团股份有限公司 | 机器学习模型的训练方法、装置和电子设备 |
CN112801236A (zh) * | 2021-04-14 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 图像识别模型的迁移方法、装置、设备及存储介质 |
CN112861979A (zh) * | 2021-02-20 | 2021-05-28 | 数贸科技(北京)有限公司 | 商标识别方法、装置、计算设备及计算机存储介质 |
CN112906730A (zh) * | 2020-08-27 | 2021-06-04 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN113283230A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 文本相似度计算模型的更新方法、装置、设备及存储介质 |
CN114595780A (zh) * | 2022-03-15 | 2022-06-07 | 百度在线网络技术(北京)有限公司 | 图文处理模型训练及图文处理方法、装置、设备及介质 |
CN116740777A (zh) * | 2022-09-28 | 2023-09-12 | 荣耀终端有限公司 | 人脸质量检测模型的训练方法及其相关设备 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7111088B2 (ja) * | 2019-01-24 | 2022-08-02 | カシオ計算機株式会社 | 画像検索装置、学習方法及びプログラム |
US11157768B1 (en) * | 2019-06-06 | 2021-10-26 | Zoox, Inc. | Training a machine learning model for optimizing data levels for processing, transmission, or storage |
US11354914B1 (en) | 2019-06-06 | 2022-06-07 | Zoox, Inc. | Optimizing data levels for processing, transmission, or storage based on location information |
US11454976B1 (en) | 2019-06-06 | 2022-09-27 | Zoox, Inc. | Optimizing data levels for processing,transmission, or storage |
US11080833B2 (en) * | 2019-11-22 | 2021-08-03 | Adobe Inc. | Image manipulation using deep learning techniques in a patch matching operation |
US11763436B2 (en) * | 2020-07-31 | 2023-09-19 | Adobe, Inc. | Facial reconstruction network |
CN113807529A (zh) * | 2020-07-31 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 机器学习模型的训练方法和装置、图像的分类方法和装置 |
CN113221964B (zh) * | 2021-04-22 | 2022-06-24 | 华南师范大学 | 单样本图像分类方法、系统、计算机设备及存储介质 |
US11868443B1 (en) * | 2021-05-12 | 2024-01-09 | Amazon Technologies, Inc. | System for training neural network using ordered classes |
CN113486925A (zh) * | 2021-06-07 | 2021-10-08 | 北京鹰瞳科技发展股份有限公司 | 模型训练方法、眼底图像生成方法、模型评估方法及装置 |
AU2021240190A1 (en) * | 2021-09-22 | 2023-04-06 | Sensetime International Pte. Ltd. | Object sequence recognition method, network training method, apparatuses, device, and medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106531157A (zh) * | 2016-10-28 | 2017-03-22 | 中国科学院自动化研究所 | 语音识别中的正则化口音自适应方法 |
CN107103281A (zh) * | 2017-03-10 | 2017-08-29 | 中山大学 | 基于聚集损失深度度量学习的人脸识别方法 |
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474883B2 (en) * | 2016-11-08 | 2019-11-12 | Nec Corporation | Siamese reconstruction convolutional neural network for pose-invariant face recognition |
EP3511868A1 (en) * | 2018-01-11 | 2019-07-17 | Onfido Ltd | Document authenticity determination |
CN108491824A (zh) | 2018-04-03 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 模型生成方法和装置 |
-
2019
- 2019-01-18 CN CN201910105993.1A patent/CN111461155A/zh active Pending
-
2020
- 2020-01-08 US US16/737,370 patent/US11270139B2/en active Active
- 2020-01-10 EP EP20151193.8A patent/EP3683726A1/en not_active Ceased
- 2020-01-10 JP JP2020002921A patent/JP2020119543A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106531157A (zh) * | 2016-10-28 | 2017-03-22 | 中国科学院自动化研究所 | 语音识别中的正则化口音自适应方法 |
CN107103281A (zh) * | 2017-03-10 | 2017-08-29 | 中山大学 | 基于聚集损失深度度量学习的人脸识别方法 |
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
Non-Patent Citations (5)
Title |
---|
ABHIMANYU DUBEY等: ""Pairwise Confusion for Fine-Grained Visual Classification"", 《ARXIV》 * |
ABHIMANYU DUBEY等: ""Pairwise Confusion for Fine-Grained Visual Classification"", 《ARXIV》, 25 July 2018 (2018-07-25), pages 2 - 5 * |
FAN QIU等: ""Deep Face Recognition under Eyeglass and Scale Variation Using Extended Siamese Network"", 《IAPR》 * |
FAN QIU等: ""Deep Face Recognition under Eyeglass and Scale Variation Using Extended Siamese Network"", 《IAPR》, 31 December 2017 (2017-12-31), pages 2 * |
SZEGEDY CHRISTIAN ET AL: "Rethinking the Inception Architecture for Computer Vision", 《CVPR》, pages 2 - 7 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738365A (zh) * | 2020-08-06 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 图像分类模型训练方法、装置、计算机设备及存储介质 |
CN112016450A (zh) * | 2020-08-27 | 2020-12-01 | 京东方科技集团股份有限公司 | 机器学习模型的训练方法、装置和电子设备 |
CN112906730A (zh) * | 2020-08-27 | 2021-06-04 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN112016450B (zh) * | 2020-08-27 | 2023-09-05 | 京东方科技集团股份有限公司 | 机器学习模型的训练方法、装置和电子设备 |
CN112906730B (zh) * | 2020-08-27 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN112861979A (zh) * | 2021-02-20 | 2021-05-28 | 数贸科技(北京)有限公司 | 商标识别方法、装置、计算设备及计算机存储介质 |
CN112861979B (zh) * | 2021-02-20 | 2024-01-30 | 数贸科技(北京)有限公司 | 商标识别方法、装置、计算设备及计算机存储介质 |
CN112801236A (zh) * | 2021-04-14 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 图像识别模型的迁移方法、装置、设备及存储介质 |
CN113283230A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 文本相似度计算模型的更新方法、装置、设备及存储介质 |
CN113283230B (zh) * | 2021-06-24 | 2023-02-03 | 中国平安人寿保险股份有限公司 | 文本相似度计算模型的更新方法、装置、设备及存储介质 |
CN114595780A (zh) * | 2022-03-15 | 2022-06-07 | 百度在线网络技术(北京)有限公司 | 图文处理模型训练及图文处理方法、装置、设备及介质 |
CN116740777A (zh) * | 2022-09-28 | 2023-09-12 | 荣耀终端有限公司 | 人脸质量检测模型的训练方法及其相关设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3683726A1 (en) | 2020-07-22 |
US11270139B2 (en) | 2022-03-08 |
JP2020119543A (ja) | 2020-08-06 |
US20200234068A1 (en) | 2020-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461155A (zh) | 训练分类模型的装置和方法 | |
Paisitkriangkrai et al. | Pedestrian detection with spatially pooled features and structured ensemble learning | |
CN110321873B (zh) | 基于深度学习卷积神经网络的敏感图片识别方法及系统 | |
CN109359608B (zh) | 一种基于深度学习模型的人脸识别方法 | |
Merkurjev et al. | An MBO scheme on graphs for classification and image processing | |
JP2005284348A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
CN111582008A (zh) | 训练分类模型的装置和方法及利用分类模型分类的装置 | |
CN113989890A (zh) | 基于多通道融合和轻量级神经网络的人脸表情识别方法 | |
CN112819020A (zh) | 训练分类模型的方法和装置及分类方法 | |
CN111652798A (zh) | 人脸姿态迁移方法和计算机存储介质 | |
CN114067385A (zh) | 基于度量学习的跨模态人脸检索哈希方法 | |
US6658149B1 (en) | Scheme for identifying gray-scale image | |
Ponce-López et al. | Gesture and action recognition by evolved dynamic subgestures | |
Sepahvand et al. | An adaptive teacher–student learning algorithm with decomposed knowledge distillation for on-edge intelligence | |
Saealal et al. | Three-Dimensional Convolutional Approaches for the Verification of Deepfake Videos: The Effect of Image Depth Size on Authentication Performance | |
CN114547102A (zh) | 基于梯度驱动数据生成的模型窃取攻击方法 | |
CN114155572A (zh) | 一种面部表情识别方法和系统 | |
Doan et al. | Image generation via minimizing fr\'echet distance in discriminator feature space | |
US20230153377A1 (en) | Re-weighted self-influence for labeling noise removal in medical imaging data | |
Zare et al. | A Novel multiple kernel-based dictionary learning for distributive and collective sparse representation based classifiers | |
CN114332523A (zh) | 用分类模型进行分类的装置和方法及计算机可读存储介质 | |
Dong | 3D face recognition neural network for digital human resource management | |
Sun et al. | Knock knock, who’s there: Facial recognition using CNN-based classifiers | |
CN111640072A (zh) | 一种结合特征检测方法、顶点更新方法的点云去噪方法 | |
CN111444860A (zh) | 一种表情识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200728 |