CN113591639A - 对齐框架的训练方法、装置、计算机设备以及存储介质 - Google Patents

对齐框架的训练方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN113591639A
CN113591639A CN202110820273.0A CN202110820273A CN113591639A CN 113591639 A CN113591639 A CN 113591639A CN 202110820273 A CN202110820273 A CN 202110820273A CN 113591639 A CN113591639 A CN 113591639A
Authority
CN
China
Prior art keywords
feature
extraction result
alignment
loss value
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110820273.0A
Other languages
English (en)
Inventor
孟强
张翅翔
徐小强
周峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aibee Technology Co Ltd
Original Assignee
Beijing Aibee Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aibee Technology Co Ltd filed Critical Beijing Aibee Technology Co Ltd
Priority to CN202110820273.0A priority Critical patent/CN113591639A/zh
Publication of CN113591639A publication Critical patent/CN113591639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种对齐框架的训练方法、装置、计算机设备和存储介质。所述方法包括:通过将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;继而通过第一转换器、第二转换器进行对齐转换,计算损失值,根据损失值更新对齐框架。训练生成的对齐框架可以同时兼顾多种对齐场景,可以在训练模型的识别性能的同时兼顾对齐性能,扩大了对齐框架的适用范围,增强了对齐框架的使用灵活性,并且还可以在保证对齐框架的对齐性能的前提下,降低训练以及识别的计算量。

Description

对齐框架的训练方法、装置、计算机设备以及存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种对齐框架的训练方法、装置、计算机设备和存储介质。
背景技术
在人脸识别领域、行人重识别领域以及以图搜图领域,常用的工具为视觉搜索系统,上述系统的工作机制为:系统中的特征提取模型将每张图片映射到一个特征向量。当有一张待搜索的图片时,模型将图片的特征向量和历史库中的图片特征向量进行比对,从而得到搜索结果。随着技术发展,系统中的特征提取模型也需要不断进行更新。由于不同特征提取模型的输出特征差别很大,因此需要将新老特征提取模型输出的特征进行对齐。
相关技术中,通常通过历史模型输出的特征与新模型输出的特征直接对齐进而进行特征对比,适用场景较为固定,灵活性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够通用的、灵活性较好的对齐框架的训练方法、装置、计算机设备和存储介质。
一种对齐框架的训练方法,所述对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器;所述方法包括:
获取训练数据,所述训练数据包括多个类别的样本图片;
将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
在一实施例中,所述第一提取结果包括第一特征,所述第二提取结果包括第二特征,所述第三提取结果包括第三特征,所述第四提取结果包括第四特征;
所述根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值,包括:
对所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行范数运算,得到对齐损失值;
根据所述对齐损失值、所述对齐损失值对应的第一权重、预设分类损失值,计算损失值。
在一实施例中,所述计算对齐损失值,包括:
对所述第一特征以及所述第四特征进行范数运算,得到第一损失值;
对所述第二特征以及所述第三特征进行范数运算,得到第二损失值;
将所述第一损失值与所述第二损失值的和作为所述对齐损失值。
在一实施例中,通过下述公式,计算所述对齐损失值:
L1=‖f2→1-f12+‖f1→2-f22
其中,L1是对齐损失值,f1是第一特征,f2是第二特征,f1→2是第三特征,f2→1是第四特征,‖f2→1-f12是第一损失值,‖f1→2-f22是第二损失值。
在一实施例中,所述将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果,包括:
将所述样本图片按类别分别输入至所述第一特征提取模型,得到第一提取结果,所述第一提取结果包括第一类中心以及多个第一特征;
将所述样本图片分别输入至所述第二特征提取模型,得到第二提取结果,所述第二提取结果包括多个第二特征以及多个第二类中心。
在一实施例中,所述第三提取结果包括多个第三特征以及第三类中心,所述第四提取结果包括多个第四特征以及多个第四类中心;
所述根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值,包括:
根据所述第一类中心、所述第二类中心、所述第三类中心以及所述第四类中心,计算对齐损失值;
根据所述样本图片中的第四特征、第一类中心以及预设夹角阈值,计算边界损失值;
根据所述对齐损失值对应的第二权重、所述对齐损失值、所述边界损失值对应的第三权重、所述边界损失值以及预设分类损失值,计算损失值。
在一实施例中,通过以下公式,计算所述对齐损失值:
Figure BDA0003171680470000031
其中,
Figure BDA0003171680470000032
表示第j类别样本图片的第三类中心,
Figure BDA0003171680470000033
表示第j类别样本图片的第二类中心,
Figure BDA0003171680470000034
表示第j类别样本图片的第四类中心,
Figure BDA0003171680470000035
表示第j类别样本图片的第一类中心,d表示距离函数,n表示所述样本图片的类别数目。
在一实施例中,通过以下公式,计算所述边界损失值:
Figure BDA0003171680470000036
其中,
Figure BDA0003171680470000037
表示第i张样本图片中的第四特征,
Figure BDA0003171680470000038
表示第i张样本图片的第一类中心,
Figure BDA0003171680470000039
表示预设夹角阈值,N表示某一类别中样本图片的数量。
在一实施例中,所述根据所述损失值更新所述对齐框架的网络参数,包括:
根据所述损失值,更新所述第二特征提取模型的网络参数、所述第一转换器的网络参数以及所述第二转换器的网络参数;或,
根据所述损失值,更新所述第一转换器的网络参数以及所述第二转换器的网络参数。
一种对齐框架的训练装置,所述对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器;所述装置包括:
获取模块,用于获取训练数据,所述训练数据包括多个类别的样本图片;
提取模块,用于将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
第一对齐转换模块,用于通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
第二对齐转换模块,用于通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
计算模块,用于根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
训练模块,用于根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练数据,所述训练数据包括多个类别的样本图片;
将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练数据,所述训练数据包括多个类别的样本图片;
将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
上述对齐框架的训练方法、装置、计算机设备和存储介质,通过将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;继而通过第一转换器、第二转换器进行对齐转换,计算损失值,根据损失值更新对齐框架。训练生成的对齐框架可以同时兼顾多种对齐场景,可以在训练模型的识别性能的同时兼顾对齐性能,扩大了对齐框架的适用范围,增强了对齐框架的使用灵活性。
附图说明
图1为一个实施例中对齐框架的训练方法的应用环境图;
图2为一个实施例中对齐框架的训练方法的流程示意图;
图3A为一个实施例中对齐框架的结构示意图;
图3B为一个实施例中转换器的结构示意图;
图4为一个实施例中计算损失值步骤的流程示意图;
图5为一个实施例中计算对齐损失值步骤的流程示意图;
图6为一个实施例中得到第一提取结果以及第二提取结果步骤的流程示意图;
图7为另一个实施例中计算损失值步骤的流程示意图;
图8为一个实施例中训练对齐框架的结构示意图;
图9为一个实施例中进行图片识别步骤的流程示意图;
图10为另一个实施例中训练对齐框架的结构示意图;
图11为一个实施例中对齐框架的训练装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明提供了一种对齐框架的训练方法、装置、计算机设备以及存储介质。通过方法训练得到对齐框架,可以在训练转换器的同时训练特征提取模型,兼顾新的特征提取模型的识别性能以及对齐性能,减少两者相互影响,使对齐框架中的特征提取模型可以达到更好的识别效果以及对齐效果。
本申请提供的对齐框架的训练方法,可以应用于如图1所示的应用环境中。其中,训练设备102通过网络与服务器104进行通信。训练设备102通过获取服务器104发送的训练数据,进而将训练数据按类别输入至第一特征提取模型以及第二特征提取模型中,通过对齐框架中的转换器对提取结果进行转换,继而计算损失值,直至损失值满足预设训练完成条件,得到训练完成的对齐框架。其中,训练设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的是,该方法也可以应用于终端,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
在一个实施例中,如图2所示,提供了一种对齐框架的训练方法。如图3A所示,对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器
Figure BDA0003171680470000071
以及第二转换器
Figure BDA0003171680470000072
第一特征提取模型的输出结果A是第一提取结果,第一转换器对第一提取结果进行对齐转换,得到第三提取结果C;第二特征提取模型的输出结果B是第二提取结果,第二转换器对第二提取结果进行对齐转换,得到第四提取结果D。以该方法应用于图1中的训练设备为例进行说明,对齐框架的训练方法包括以下步骤:
步骤201,获取训练数据,训练数据包括多个类别的样本图片。
具体地,训练设备可以从服务器或者其他终端获取训练数据,上述训练数据包括多个类别的样本图片。以应用于人脸识别的场景为例,此时,训练数据中可以包括多名用户的样本图片,即一个类别包括一名用户的样本图片,一个类别内可以包括多张此用户在不同场景下的图片,例如佩戴眼镜时的图片、不佩戴眼镜时的图片、阴影下的图片、阳光下的图片等等。
步骤202,将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果。
具体地,第一特征提取模型可以是在训练设备内预先配置的已经训练完成的特征提取模型;第二特征提取模型可以是在训练设备内预先配置的已经训练完成的特征提取模型,第二特征提取模型也可以是训练设备的训练目标,即待训练的特征提取模型。训练设备将训练数据输入至第一特征提取模型中,得到训练数据中各样本图片的第一提取结果,并且,可以将训练数据输入至第二特征提取模型中的,得到第二特征提取结果。第一特征提取结果可以包括每张样本图片对应的特征向量和/或每类样本图片对应的类中心向量。同样的,第二特征提取结果可以包括每张样本图片对应的特征向量和/或类中心向量。
步骤203,通过第一转换器对第一提取结果进行对齐转换,得到第三提取结果。
具体地,第一转换器可以用于将不同特征提取模型的输出结果进行对齐,如图3B所示,第一转换器可以是N层的residual(残差)结构。训练设备通过第一转换器将第一提取结果进行对齐转换,得到第三提取结果,该第三提取结果是能够与第二特征提取模型输出的第二提取结果进行比对的提取结果。这样,第一转换器输出的第三提取结果可以与第二特征提取模型输出的第二提取结果进行前向对齐。
步骤204,通过第二转换器对第二提取结果进行对齐转换,得到第四提取结果。
具体地,第二转换器可以用于将不同特征提取模型的输出结果进行对齐,如图3B所示,第二转换器可以是N层的residual(残差)结构。训练设备通过第二转换器将第二提取结果进行对齐转换,得到第四提取结果,该第四提取结果是能够与第一特征提取模型输出的第一提取结果进行比对的提取结果。这样,第二转换器输出的第三提取结果可以与第一特征提取模型输出的第一提取结果进行前向对齐。
步骤205,根据第一提取结果、第二提取结果、第三提取结果以及第四提取结果,计算损失值。
具体地,训练设备根据第一特征提取模型以及第二特征提取模型输出的第一提取结果以及第二提取结果计算损失值。其中,损失值的种类可以有多种,如对齐损失值、分类损失值等等,具体的计算过程后续会进行详细说明。训练设备可以计算多种损失值,然后通过预设加权算法对多种损失值进行加权计算,得到最终的损失值。
步骤206,根据损失值更新对齐框架的网络参数,并返回执行获取多张样本图片的步骤,直到损失值满足预设训练完成条件,得到训练完成的对齐框架。
其中,预设训练完成条件可以是损失值已经收敛,也可以是训练数据的迭代次数已经达到目标次数(如100次)等。
具体地,训练设备根据损失值,计算对齐框架的新的网络参数,继而更新对齐框架,得到更新后的对齐框架。其中,网络参数不包含第一特征提取模型的网络参数。接着,训练设备将训练数据重新输入至更新后的对齐框架中,重新执行上述步骤201至步骤206,直至计算出的损失值满足预设收敛条件,或者是训练数据的迭代次数已经到目标次数,得到训练完成的对齐框架。
上述对齐框架的训练方法、装置、计算机设备和存储介质,通过将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;继而通过第一转换器、第二转换器进行对齐转换,计算损失值,根据损失值更新对齐框架。训练生成的对齐框架可以同时兼顾多种对齐场景,可以在训练模型的识别性能的同时兼顾对齐性能,扩大了对齐框架的适用范围,增强了对齐框架的使用灵活性。
在一个实施例中,第一提取结果包括第一特征,第二提取结果包括第二特征,第三提取结果包括第三特征,第四提取结果包括第四特征;如图4所示,步骤205“根据第一提取结果、第二提取结果、第三提取结果以及第四提取结果,计算损失值”的具体处理过程包括:
步骤301,对第一特征、第二特征、第三特征以及第四特征进行范数运算,得到对齐损失值。
具体地,第一特征提取模型与第二特征提取模型的对齐方式有多种,本申请实施例提供了几种可行的对齐方式。在一个示例中,对齐方式可以为直接对齐,即将第一特征与第二特征进行对齐;对齐方式还可以为后向对齐,即将第一特征与第四特征进行对齐;对齐方式还可以为前向对齐,即将第二特征与第三特征进行对齐。训练设备对第一特征与第四特征的差进行范数运算,并且对第二特征与第三特征的差进行范数运算,继而将上述运算结果的和作为对齐损失值。
步骤302,根据对齐损失值、对齐损失值对应的第一权重、预设分类损失值,计算损失值。
具体地,对齐损失值对应的第一权重以及预设分类损失值可以是根据实际应用场景确定的。例如,对齐框架应用于人脸识别场景,预设分类损失值可以是预先配置的人脸分类损失值。
可选的,可以通过下述公式计算损失值:
L=λ1L1+Lc
其中,L1是对齐损失值,Lc是预设分类损失值,λ1是对齐损失值对应的第一权重,
本实施例中,通过对齐损失值以及预设分类损失值得到的总损失值,继而对齐框架的网络参数进行更新,可以保证对齐性能与识别学习性能的平衡。
在一个实施例中,如图5所示,步骤301“对第一特征、第二特征、第三特征以及第四特征进行范数运算,得到对齐损失值”的具体处理过程包括:
步骤401,对第一特征以及第四特征进行范数运算,得到第一损失值。
具体地,训练设备计算第一特征提取模型输出的第一特征与第二转换器输出的第四特征的差,再对该差进行范数运算,得到第一损失值。
步骤402,对第二特征以及第三特征进行范数运算,得到第二损失值。
具体地,训练设备计算对第二特征提取模型输出的第二特征与第一转换器输出的第三特征的差,再对该差进行范数运算,得到第二损失值。
步骤403,将第一损失值与第二损失值的和作为对齐损失值。
具体地,训练设备可以通过下述公式,计算对齐损失值:
L1=‖f2→1-f12+‖f1→2-f22
其中,L1是对齐损失值,f1是第一特征,f2是第二特征,f1→2是第三特征,f2→1是第四特征,‖f2→1-f12是第一损失值,‖f1→2-f22是第二损失值。
在一个实施例中,如图6所示,步骤202“将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果”的具体处理过程包括:
步骤501,将样本图片按类别分别输入至第一特征提取模型,得到第一提取结果。
其中,第一提取结果包括第一类中心以及多个第一特征训练设备可以从服务器或者其他终端获取训练数据,上述训练数据包括多个类别的样本图片。以应用于人脸识别的场景为例,此时,训练数据中可以包括多名用户的样本图片,即一个类别包括一名用户的样本图片,一个类别内可以包括多张此用户在不同场景下的图片,例如佩戴眼镜时的图片、不佩戴眼镜时的图片、阴影下的图片、阳光下的图片等等。第一特征提取模型是在训练设备内预先配置的已经训练完成的特征提取模型,第一特征为第一特征提取模型对样本图片进行处理后得到图像特征向量,第一类中心为第一特征提取模型对一个类别的多张样本图片进行处理后得到的多个图像特征向量的均值。
具体地,训练设备将接收到的多个类别的样本图片按照类别分别输入至第一特征提取模型内,第一特征提取模型针对于每一类的样本图片,输出每一类样本图片的类中心,以及针对于每一张样本图片,输出每一张样本图片的图像特征向量。例如,训练设备可以将一个类别的多张样本图片一并输入至第一特征提取模型,得到此类别的第一类中心以及此类别各样本图片的第一特征;训练设备也可以将一个类别的多张样本图片分别输入至第一特征提取模型,此时,第一特征提取模型会先输出针对于每一张样本图片的第一特征,当此类别样本图片的第一特征都输出完成后,再根据多个第一特征,输出此类别样本图片的第一类中心。
步骤502,将样本图片分别输入至第二特征提取模型,得到第二提取结果。
其中,第二提取结果包括多个第二特征以及多个第二类中心第二特征提取模型可以是训练设备的训练目标,即是还未开始训练的特征提取模型;第二特征提取模型也可以是已经训练完成的特征提取模型。
具体地,训练设备将接收到的多个类别的多张样本图片分别输入至第二特征提取模型内,第二特征提取模型针对于每一样本图片,输出每一样本图片的类中心以及图像特征向量。第二特征为第二特征提取模型提取的每一张样本图片的图像特征向量,第二类中心为第二特征提取模型提取的每一张样本图片的图像特征向量的类中心。
在一个实施例中,提取结果除了特征以外,还可以包含类中心,也即,第三提取结果包括多个第三特征以及第三类中心,第四提取结果包括多个第四特征以及多个第四类中心。相应的,如图7所示,步骤205“根据第一提取结果、第二提取结果、第三提取结果以及第四提取结果,计算损失值”的具体执行过程为:
步骤601,根据第一类中心、第二类中心、第三类中心以及第四类中心,计算对齐损失值。
具体地,如图8所示,训练设备通过第一转换器
Figure BDA0003171680470000111
将第一特征提取模型根据j类样本图片输出的第一类中心
Figure BDA0003171680470000112
以及第一特征
Figure BDA0003171680470000113
进行对齐转换,得到与第二特征提取模型相对应的第三类中心
Figure BDA0003171680470000114
以及第三特征
Figure BDA0003171680470000115
此时,第一转换器输出的第三类中心以及第三特征可以与第二特征提取模型输出的第二特征以及第二类中心直接进行对比。
训练设备还通过第二转换器
Figure BDA0003171680470000121
将第二特征提取模型输出的第二类中心
Figure BDA0003171680470000122
以及第二特征
Figure BDA0003171680470000123
进行对齐转换,得到第一特征提取模型相对应的第四类中心
Figure BDA0003171680470000124
以及第四特征
Figure BDA0003171680470000125
此时,第二转换器输出的第四类中心以及第四特征可以与第一特征提取模型输出的特征以及类中心直接进行对比。训练设备可以根据第一特征提取模型提取的第一类中心、第二特征提取模型提取的第二类中心、第一转换器将第一类中心转换得到的第三类中心以及第二转换器将第二类中心转换得到的第四类中心,计算对齐损失值。
例如,训练设备可以通过以下公式,计算对齐损失值:
Figure BDA0003171680470000126
其中,
Figure BDA0003171680470000127
表示第j类别样本图片的第三类中心,
Figure BDA0003171680470000128
表示第j类别样本图片的第二类中心,
Figure BDA0003171680470000129
表示第j类别样本图片的第四类中心,
Figure BDA00031716804700001210
表示第j类别样本图片的第一类中心,d表示距离函数,n表示样本图片的类别数目。
步骤602,根据样本图片中的第四特征、第一类中心以及预设夹角阈值,计算边界损失值。
具体地,训练设备将训练数据中的N张样本图片分别输入至第二特征提取模型,输出得到每张样本图片对应的第二特征,再按类别将N张样本图片输入第一特征提取模型中,得到每一类样本图片对应的第一类中心。训练设备再通过第二转换器将第二特征转换为第四特征,训练设备通过第四特征以及第一类中心得到与预设夹角阈值的差值,根据上述差值计算边界损失值。
例如,通过以下公式计算边界损失值:
Figure BDA00031716804700001211
其中,
Figure BDA00031716804700001212
表示第i张样本图片中的第四特征,
Figure BDA00031716804700001213
表示第i张样本图片的第一类中心,
Figure BDA0003171680470000131
表示预设夹角阈值,N表示某一类别中样本图片的数量。
步骤603,根据对齐损失值对应的第二权重、对齐损失值、边界损失值对应的第三权重、边界损失值以及预设分类损失值,计算损失值。
具体地,预设分类损失值可以是在图像识别领域中的人脸分类损失。
例如,可以通过以下公式,计算损失值:
LLCE=λaLabLb+Lc
其中,La表示对齐损失值,Lb表示边界损失值,Lc表示分类损失值,λa表示第二权重,λb表示第三权重。
本实施例中,通过对齐损失值以及边界损失值得到的总损失值,继而对训练模型进行更新,可以将第一特征提取模型提取的类中心以及与第二特征提取模型提取的类中心训练到同一位置,也可以将根据第二特征提取模型输出的特征转换得到的特征向量与历史模型输出的类中心相重叠,实现类与类的对齐,保证对齐性能与识别学习性能的平衡。
在一个实施例中,针对不同的第二特征提取模型,网络参数的更新方式也有所不同。本申请实施例提供了两种示例。
在一种示例中,对齐框架中的第二特征提取模型是待训练的特征提取模型,该情况下,训练设备可以根据损失值,更新第二特征提取模型的网络参数、第一转换器的网络参数以及第二转换器的网络参数。
在另一种示例中,对齐框架中的第二特征提取模型是已经训练完成的特征提取模型,该情况下,训练设备可以根据损失值,更新第一转换器的网络参数以及第二转换器的网络参数。
在本实施例中,训练生成的对齐框架可以同时兼顾多种对齐场景,可以在训练模型的识别性能的同时兼顾对齐性能,扩大了对齐框架的适用范围,增强了对齐框架的使用灵活性,并且还可以在保证对齐框架的对齐性能的前提下,降低训练以及识别的计算量。
在一个实施例中,如图9所示,上述对齐框架的训练方法还包括:
步骤701,响应于图片识别请求,获取待识别的图片数据。
具体地,训练设备接收用户终端或者用户服务器发送的图片识别请求,进而响应于识别请求,对上述识别请求进行解析,获取识别请求内所包含的待识别图片数据。
步骤702,将待识别的图片数据输入至第二特征提取模型,得到图片特征数据。
具体地,训练设备将解析得到的待识别的图片数据输入至第二特征提取模型内,得到第二特征提取模型输出的图片特征数据。
步骤703,分别计算图片特征数据与预设历史数据库中各类别类中心的距离。
步骤704,将距离最小的类别作为待识别的图片数据的类别识别结果。
具体地,图片特征数据可以是图片的特征向量,预设历史数据库内存储有各类图片的类中心,训练设备计算待识别图片的特征向量与各类别的类中心的距离,并将距离最小的类中心对应的类别作为待识别图片的识别结果。
应该理解的是,虽然图2-9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
以下结合示意图,详细描述上述实施例所应用的实际场景,如图10所示,针对于训练设备,配置有第一特征提取模型(模型1)以及第二特征提取模型(模型2)。模型1提取样本图片中的特征向量为f1,模型2提取样本图片中的特征向量为f2,第一转换器
Figure BDA0003171680470000142
可以将特征f1转换成f1→2,第二转换器
Figure BDA0003171680470000141
可以将特征f2转换成f2→1
此时,模型对齐方式有以下三种示例:第一种情况,前向对齐,即f1→2和f2直接进行比对;第二种情况,后向对齐,f1和f2→1直接进行比对;第三种情况,直接对齐,f1和f2进行比对。因此,模型对齐场景有以下两种示例:第一种情况:对齐训练,当需要训练第二特征提取模型,即模型2时,可以通过上述实施例的方法实现。第二种情况,当第二特征提取模型已经训练完成时,此时还可以通过上述实施例的方法训练第一转换器以及第二转换器实现对齐性能的提升。
在一个实施例中,如图11所示,提供了一种对齐框架的训练装置,包括:获取模块801、提取模块802、第一对齐转换模块803、第二对齐转换模块804、计算模块805和训练模块806,其中:
获取模块801,用于获取训练数据,训练数据包括多个类别的样本图片;
提取模块802,用于将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
第一对齐转换模块803,用于通过第一转换器对第一提取结果进行对齐转换,得到第三提取结果;
第二对齐转换模块804,用于通过第二转换器对第二提取结果进行对齐转换,得到第四提取结果;
计算模块805,用于根据第一提取结果、第二提取结果、第三提取结果以及第四提取结果,计算损失值;
训练模块806,用于根据损失值更新对齐框架的网络参数,并返回执行获取多张样本图片的步骤,直到损失值满足预设训练完成条件,得到训练完成的对齐框架。
在一实施例中,第一提取结果包括第一特征,第二提取结果包括第二特征,第三提取结果包括第三特征,第四提取结果包括第四特征;计算模块805,包括:
第一范数运算单元,用于对第一特征、第二特征、第三特征以及第四特征进行范数运算,得到对齐损失值;
计算单元,用于根据对齐损失值、对齐损失值对应的第一权重、预设分类损失值,计算损失值。
在一实施例中,第一范数运算单元,包括:
第一范数运算子单元,用于对第一特征以及第四特征进行范数运算,得到第一损失值;
第二范数运算子单元,用于对第二特征以及第三特征进行范数运算,得到第二损失值;
计算子单元,用于将第一损失值与第二损失值的和作为对齐损失值。
第一范数运算单元通过下述公式,计算对齐损失值:
L1=‖f2→1-f12+‖f1→2-f22
其中,L1是对齐损失值,f1是第一特征,f2是第二特征,f1→2是第三特征,f2→1是第四特征,‖f2→1-f12是第一损失值,‖f1→2-f22是第二损失值。
在一实施例中,提取模块802,包括:
第一提取单元,用于将样本图片按类别分别输入至第一特征提取模型,得到第一提取结果,第一提取结果包括第一类中心以及多个第一特征;
第二提取单元,用于将样本图片分别输入至第二特征提取模型,得到第二提取结果,第二提取结果包括多个第二特征以及多个第二类中心。
在一实施例中,第三提取结果包括多个第三特征以及第三类中心,第四提取结果包括多个第四特征以及多个第四类中心;计算模块805,包括:
对齐损失计算单元,用于根据第一类中心、第二类中心、第三类中心以及第四类中心,计算对齐损失值;
边界损失计算单元,用于根据样本图片中的第四特征、第一类中心以及预设夹角阈值,计算边界损失值;
损失计算单元,用于根据对齐损失值对应的第二权重、对齐损失值、边界损失值对应的第三权重、边界损失值以及预设分类损失值,计算损失值。
在一实施例中,对齐损失计算单元通过以下公式,计算对齐损失值:
Figure BDA0003171680470000161
其中,
Figure BDA0003171680470000162
表示第j类别样本图片的第三类中心,
Figure BDA0003171680470000163
表示第j类别样本图片的第二类中心,
Figure BDA0003171680470000164
表示第j类别样本图片的第四类中心,
Figure BDA0003171680470000165
表示第j类别样本图片的第一类中心,d表示距离函数,n表示样本图片的类别数目。
在一实施例中,边界损失计算单元通过以下公式,计算边界损失值:
Figure BDA0003171680470000166
其中,
Figure BDA0003171680470000171
表示第i张样本图片中的第四特征,
Figure BDA0003171680470000172
表示第i张样本图片的第一类中心,
Figure BDA0003171680470000173
表示预设夹角阈值,N表示某一类别中样本图片的数量。
在一实施例中,训练模块806,用于根据损失值,更新第二特征提取模型的网络参数、第一转换器的网络参数以及第二转换器的网络参数;或,根据损失值,更新第一转换器的网络参数以及第二转换器的网络参数。
关于对齐框架的训练装置的具体限定可以参见上文中对于对齐框架的训练方法的限定,在此不再赘述。上述对齐框架的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据以及训练完成的特征提取模型数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对齐框架的训练方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种对齐框架的训练方法,其特征在于,所述对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器;所述方法包括:
获取训练数据,所述训练数据包括多个类别的样本图片;
将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
2.根据权利要求1所述的方法,其特征在于,所述第一提取结果包括第一特征,所述第二提取结果包括第二特征,所述第三提取结果包括第三特征,所述第四提取结果包括第四特征;
所述根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值,包括:
对所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行范数运算,得到对齐损失值;
根据所述对齐损失值、所述对齐损失值对应的第一权重、预设分类损失值,计算损失值。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行范数运算,得到对齐损失值,包括:
对所述第一特征以及所述第四特征进行范数运算,得到第一损失值;
对所述第二特征以及所述第三特征进行范数运算,得到第二损失值;
将所述第一损失值与所述第二损失值的和作为所述对齐损失值。
4.根据权利要求3所述的方法,其特征在于,通过下述公式,计算所述对齐损失值:
L1=||f2→1-f1||2+||f1→2-f2||2
其中,L1是对齐损失值,f1是第一特征,f2是第二特征,f1→2是第三特征,f2→1是第四特征,||f2→1-f1||2是第一损失值,||f1→2-f2||2是第二损失值。
5.根据权利要求1所述的方法,其特征在于,所述将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果,包括:
将所述样本图片按类别分别输入至所述第一特征提取模型,得到第一提取结果,所述第一提取结果包括第一类中心以及多个第一特征;
将所述样本图片分别输入至所述第二特征提取模型,得到第二提取结果,所述第二提取结果包括多个第二特征以及多个第二类中心。
6.根据权利要求5所述的方法,其特征在于,所述第三提取结果包括多个第三特征以及第三类中心,所述第四提取结果包括多个第四特征以及多个第四类中心;
所述根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值,包括:
根据所述第一类中心、所述第二类中心、所述第三类中心以及所述第四类中心,计算对齐损失值;
根据所述样本图片中的第四特征、第一类中心以及预设夹角阈值,计算边界损失值;
根据所述对齐损失值对应的第二权重、所述对齐损失值、所述边界损失值对应的第三权重、所述边界损失值以及预设分类损失值,计算损失值。
7.根据权利要求6所述的方法,其特征在于,通过以下公式,计算所述对齐损失值:
Figure FDA0003171680460000021
其中,
Figure FDA0003171680460000031
表示第j类别样本图片的第三类中心,
Figure FDA0003171680460000032
表示第j类别样本图片的第二类中心,
Figure FDA0003171680460000033
表示第j类别样本图片的第四类中心,
Figure FDA0003171680460000034
表示第j类别样本图片的第一类中心,d表示距离函数,n表示所述样本图片的类别数目。
8.根据权利要求6所述的方法,其特征在于,通过以下公式,计算所述边界损失值:
Figure FDA0003171680460000035
其中,fi 2→1表示第i张样本图片中的第四特征,
Figure FDA0003171680460000036
表示第i张样本图片的第一类中心,
Figure FDA0003171680460000037
表示预设夹角阈值,N表示某一类别中样本图片的数量。
9.根据权利要求1所述的方法,其特征在于,所述根据所述损失值更新所述对齐框架的网络参数,包括:
根据所述损失值,更新所述第二特征提取模型的网络参数、所述第一转换器的网络参数以及所述第二转换器的网络参数;或,
根据所述损失值,更新所述第一转换器的网络参数以及所述第二转换器的网络参数。
10.一种对齐框架的训练装置,其特征在于,所述对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器;所述装置包括:
获取模块,用于获取训练数据,所述训练数据包括多个类别的样本图片;
提取模块,用于将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
第一对齐转换模块,用于通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
第二对齐转换模块,用于通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
计算模块,用于根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
训练模块,用于根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN202110820273.0A 2021-07-20 2021-07-20 对齐框架的训练方法、装置、计算机设备以及存储介质 Pending CN113591639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110820273.0A CN113591639A (zh) 2021-07-20 2021-07-20 对齐框架的训练方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110820273.0A CN113591639A (zh) 2021-07-20 2021-07-20 对齐框架的训练方法、装置、计算机设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113591639A true CN113591639A (zh) 2021-11-02

Family

ID=78248567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110820273.0A Pending CN113591639A (zh) 2021-07-20 2021-07-20 对齐框架的训练方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113591639A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489287A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111860670A (zh) * 2020-07-28 2020-10-30 平安科技(深圳)有限公司 域自适应模型训练、图像检测方法、装置、设备及介质
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN112837673A (zh) * 2020-12-31 2021-05-25 平安科技(深圳)有限公司 基于人工智能的语音合成方法、装置、计算机设备和介质
CN113128478A (zh) * 2021-05-18 2021-07-16 电子科技大学中山学院 模型训练方法、行人分析方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489287A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111860670A (zh) * 2020-07-28 2020-10-30 平安科技(深圳)有限公司 域自适应模型训练、图像检测方法、装置、设备及介质
CN112837673A (zh) * 2020-12-31 2021-05-25 平安科技(深圳)有限公司 基于人工智能的语音合成方法、装置、计算机设备和介质
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN113128478A (zh) * 2021-05-18 2021-07-16 电子科技大学中山学院 模型训练方法、行人分析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109902546B (zh) 人脸识别方法、装置及计算机可读介质
US10713532B2 (en) Image recognition method and apparatus
CN109344742B (zh) 特征点定位方法、装置、存储介质和计算机设备
CN109376684A (zh) 一种人脸关键点检测方法、装置、计算机设备和存储介质
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN112434655B (zh) 一种基于自适应置信度图卷积网络的步态识别方法
CN112801215B (zh) 图像处理模型搜索、图像处理方法、装置和存储介质
CN111428771B (zh) 视频场景分类方法、装置和计算机可读存储介质
CN111178249A (zh) 人脸比对的方法、装置、计算机设备及存储介质
CN113505797B (zh) 模型训练方法、装置、计算机设备和存储介质
WO2022057309A1 (zh) 肺部特征识别方法、装置、计算机设备及存储介质
CN111062263A (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
CN111414840A (zh) 步态识别方法、装置、设备及计算机可读存储介质
CN114332670A (zh) 视频行为识别方法、装置、计算机设备和存储介质
CN114821736A (zh) 基于对比学习的多模态人脸识别方法、装置、设备及介质
CN112001285B (zh) 一种美颜图像的处理方法、装置、终端和介质
CN113792643A (zh) 活体人脸识别方法及系统
CN111444957B (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN111460416B (zh) 一种基于微信小程序平台的人脸特征与动态属性的认证方法
CN115115552B (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备
CN116994319A (zh) 训练模型的方法和人脸识别方法、设备、介质
CN113591639A (zh) 对齐框架的训练方法、装置、计算机设备以及存储介质
CN113591637A (zh) 对齐模型的训练方法、装置、计算机设备以及存储介质
CN112488053A (zh) 一种人脸识别方法、装置、机器人及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination