CN113591639A - 对齐框架的训练方法、装置、计算机设备以及存储介质 - Google Patents
对齐框架的训练方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN113591639A CN113591639A CN202110820273.0A CN202110820273A CN113591639A CN 113591639 A CN113591639 A CN 113591639A CN 202110820273 A CN202110820273 A CN 202110820273A CN 113591639 A CN113591639 A CN 113591639A
- Authority
- CN
- China
- Prior art keywords
- feature
- extraction result
- alignment
- loss value
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 319
- 238000006243 chemical reaction Methods 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 5
- 239000011521 glass Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种对齐框架的训练方法、装置、计算机设备和存储介质。所述方法包括:通过将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;继而通过第一转换器、第二转换器进行对齐转换,计算损失值,根据损失值更新对齐框架。训练生成的对齐框架可以同时兼顾多种对齐场景,可以在训练模型的识别性能的同时兼顾对齐性能,扩大了对齐框架的适用范围,增强了对齐框架的使用灵活性,并且还可以在保证对齐框架的对齐性能的前提下,降低训练以及识别的计算量。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种对齐框架的训练方法、装置、计算机设备和存储介质。
背景技术
在人脸识别领域、行人重识别领域以及以图搜图领域,常用的工具为视觉搜索系统,上述系统的工作机制为:系统中的特征提取模型将每张图片映射到一个特征向量。当有一张待搜索的图片时,模型将图片的特征向量和历史库中的图片特征向量进行比对,从而得到搜索结果。随着技术发展,系统中的特征提取模型也需要不断进行更新。由于不同特征提取模型的输出特征差别很大,因此需要将新老特征提取模型输出的特征进行对齐。
相关技术中,通常通过历史模型输出的特征与新模型输出的特征直接对齐进而进行特征对比,适用场景较为固定,灵活性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够通用的、灵活性较好的对齐框架的训练方法、装置、计算机设备和存储介质。
一种对齐框架的训练方法,所述对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器;所述方法包括:
获取训练数据,所述训练数据包括多个类别的样本图片;
将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
在一实施例中,所述第一提取结果包括第一特征,所述第二提取结果包括第二特征,所述第三提取结果包括第三特征,所述第四提取结果包括第四特征;
所述根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值,包括:
对所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行范数运算,得到对齐损失值;
根据所述对齐损失值、所述对齐损失值对应的第一权重、预设分类损失值,计算损失值。
在一实施例中,所述计算对齐损失值,包括:
对所述第一特征以及所述第四特征进行范数运算,得到第一损失值;
对所述第二特征以及所述第三特征进行范数运算,得到第二损失值;
将所述第一损失值与所述第二损失值的和作为所述对齐损失值。
在一实施例中,通过下述公式,计算所述对齐损失值:
L1=‖f2→1-f1‖2+‖f1→2-f2‖2
其中,L1是对齐损失值,f1是第一特征,f2是第二特征,f1→2是第三特征,f2→1是第四特征,‖f2→1-f1‖2是第一损失值,‖f1→2-f2‖2是第二损失值。
在一实施例中,所述将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果,包括:
将所述样本图片按类别分别输入至所述第一特征提取模型,得到第一提取结果,所述第一提取结果包括第一类中心以及多个第一特征;
将所述样本图片分别输入至所述第二特征提取模型,得到第二提取结果,所述第二提取结果包括多个第二特征以及多个第二类中心。
在一实施例中,所述第三提取结果包括多个第三特征以及第三类中心,所述第四提取结果包括多个第四特征以及多个第四类中心;
所述根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值,包括:
根据所述第一类中心、所述第二类中心、所述第三类中心以及所述第四类中心,计算对齐损失值;
根据所述样本图片中的第四特征、第一类中心以及预设夹角阈值,计算边界损失值;
根据所述对齐损失值对应的第二权重、所述对齐损失值、所述边界损失值对应的第三权重、所述边界损失值以及预设分类损失值,计算损失值。
在一实施例中,通过以下公式,计算所述对齐损失值:
在一实施例中,通过以下公式,计算所述边界损失值:
在一实施例中,所述根据所述损失值更新所述对齐框架的网络参数,包括:
根据所述损失值,更新所述第二特征提取模型的网络参数、所述第一转换器的网络参数以及所述第二转换器的网络参数;或,
根据所述损失值,更新所述第一转换器的网络参数以及所述第二转换器的网络参数。
一种对齐框架的训练装置,所述对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器;所述装置包括:
获取模块,用于获取训练数据,所述训练数据包括多个类别的样本图片;
提取模块,用于将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
第一对齐转换模块,用于通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
第二对齐转换模块,用于通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
计算模块,用于根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
训练模块,用于根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练数据,所述训练数据包括多个类别的样本图片;
将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练数据,所述训练数据包括多个类别的样本图片;
将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
上述对齐框架的训练方法、装置、计算机设备和存储介质,通过将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;继而通过第一转换器、第二转换器进行对齐转换,计算损失值,根据损失值更新对齐框架。训练生成的对齐框架可以同时兼顾多种对齐场景,可以在训练模型的识别性能的同时兼顾对齐性能,扩大了对齐框架的适用范围,增强了对齐框架的使用灵活性。
附图说明
图1为一个实施例中对齐框架的训练方法的应用环境图;
图2为一个实施例中对齐框架的训练方法的流程示意图;
图3A为一个实施例中对齐框架的结构示意图;
图3B为一个实施例中转换器的结构示意图;
图4为一个实施例中计算损失值步骤的流程示意图;
图5为一个实施例中计算对齐损失值步骤的流程示意图;
图6为一个实施例中得到第一提取结果以及第二提取结果步骤的流程示意图;
图7为另一个实施例中计算损失值步骤的流程示意图;
图8为一个实施例中训练对齐框架的结构示意图;
图9为一个实施例中进行图片识别步骤的流程示意图;
图10为另一个实施例中训练对齐框架的结构示意图;
图11为一个实施例中对齐框架的训练装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明提供了一种对齐框架的训练方法、装置、计算机设备以及存储介质。通过方法训练得到对齐框架,可以在训练转换器的同时训练特征提取模型,兼顾新的特征提取模型的识别性能以及对齐性能,减少两者相互影响,使对齐框架中的特征提取模型可以达到更好的识别效果以及对齐效果。
本申请提供的对齐框架的训练方法,可以应用于如图1所示的应用环境中。其中,训练设备102通过网络与服务器104进行通信。训练设备102通过获取服务器104发送的训练数据,进而将训练数据按类别输入至第一特征提取模型以及第二特征提取模型中,通过对齐框架中的转换器对提取结果进行转换,继而计算损失值,直至损失值满足预设训练完成条件,得到训练完成的对齐框架。其中,训练设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的是,该方法也可以应用于终端,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
在一个实施例中,如图2所示,提供了一种对齐框架的训练方法。如图3A所示,对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器第一特征提取模型的输出结果A是第一提取结果,第一转换器对第一提取结果进行对齐转换,得到第三提取结果C;第二特征提取模型的输出结果B是第二提取结果,第二转换器对第二提取结果进行对齐转换,得到第四提取结果D。以该方法应用于图1中的训练设备为例进行说明,对齐框架的训练方法包括以下步骤:
步骤201,获取训练数据,训练数据包括多个类别的样本图片。
具体地,训练设备可以从服务器或者其他终端获取训练数据,上述训练数据包括多个类别的样本图片。以应用于人脸识别的场景为例,此时,训练数据中可以包括多名用户的样本图片,即一个类别包括一名用户的样本图片,一个类别内可以包括多张此用户在不同场景下的图片,例如佩戴眼镜时的图片、不佩戴眼镜时的图片、阴影下的图片、阳光下的图片等等。
步骤202,将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果。
具体地,第一特征提取模型可以是在训练设备内预先配置的已经训练完成的特征提取模型;第二特征提取模型可以是在训练设备内预先配置的已经训练完成的特征提取模型,第二特征提取模型也可以是训练设备的训练目标,即待训练的特征提取模型。训练设备将训练数据输入至第一特征提取模型中,得到训练数据中各样本图片的第一提取结果,并且,可以将训练数据输入至第二特征提取模型中的,得到第二特征提取结果。第一特征提取结果可以包括每张样本图片对应的特征向量和/或每类样本图片对应的类中心向量。同样的,第二特征提取结果可以包括每张样本图片对应的特征向量和/或类中心向量。
步骤203,通过第一转换器对第一提取结果进行对齐转换,得到第三提取结果。
具体地,第一转换器可以用于将不同特征提取模型的输出结果进行对齐,如图3B所示,第一转换器可以是N层的residual(残差)结构。训练设备通过第一转换器将第一提取结果进行对齐转换,得到第三提取结果,该第三提取结果是能够与第二特征提取模型输出的第二提取结果进行比对的提取结果。这样,第一转换器输出的第三提取结果可以与第二特征提取模型输出的第二提取结果进行前向对齐。
步骤204,通过第二转换器对第二提取结果进行对齐转换,得到第四提取结果。
具体地,第二转换器可以用于将不同特征提取模型的输出结果进行对齐,如图3B所示,第二转换器可以是N层的residual(残差)结构。训练设备通过第二转换器将第二提取结果进行对齐转换,得到第四提取结果,该第四提取结果是能够与第一特征提取模型输出的第一提取结果进行比对的提取结果。这样,第二转换器输出的第三提取结果可以与第一特征提取模型输出的第一提取结果进行前向对齐。
步骤205,根据第一提取结果、第二提取结果、第三提取结果以及第四提取结果,计算损失值。
具体地,训练设备根据第一特征提取模型以及第二特征提取模型输出的第一提取结果以及第二提取结果计算损失值。其中,损失值的种类可以有多种,如对齐损失值、分类损失值等等,具体的计算过程后续会进行详细说明。训练设备可以计算多种损失值,然后通过预设加权算法对多种损失值进行加权计算,得到最终的损失值。
步骤206,根据损失值更新对齐框架的网络参数,并返回执行获取多张样本图片的步骤,直到损失值满足预设训练完成条件,得到训练完成的对齐框架。
其中,预设训练完成条件可以是损失值已经收敛,也可以是训练数据的迭代次数已经达到目标次数(如100次)等。
具体地,训练设备根据损失值,计算对齐框架的新的网络参数,继而更新对齐框架,得到更新后的对齐框架。其中,网络参数不包含第一特征提取模型的网络参数。接着,训练设备将训练数据重新输入至更新后的对齐框架中,重新执行上述步骤201至步骤206,直至计算出的损失值满足预设收敛条件,或者是训练数据的迭代次数已经到目标次数,得到训练完成的对齐框架。
上述对齐框架的训练方法、装置、计算机设备和存储介质,通过将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;继而通过第一转换器、第二转换器进行对齐转换,计算损失值,根据损失值更新对齐框架。训练生成的对齐框架可以同时兼顾多种对齐场景,可以在训练模型的识别性能的同时兼顾对齐性能,扩大了对齐框架的适用范围,增强了对齐框架的使用灵活性。
在一个实施例中,第一提取结果包括第一特征,第二提取结果包括第二特征,第三提取结果包括第三特征,第四提取结果包括第四特征;如图4所示,步骤205“根据第一提取结果、第二提取结果、第三提取结果以及第四提取结果,计算损失值”的具体处理过程包括:
步骤301,对第一特征、第二特征、第三特征以及第四特征进行范数运算,得到对齐损失值。
具体地,第一特征提取模型与第二特征提取模型的对齐方式有多种,本申请实施例提供了几种可行的对齐方式。在一个示例中,对齐方式可以为直接对齐,即将第一特征与第二特征进行对齐;对齐方式还可以为后向对齐,即将第一特征与第四特征进行对齐;对齐方式还可以为前向对齐,即将第二特征与第三特征进行对齐。训练设备对第一特征与第四特征的差进行范数运算,并且对第二特征与第三特征的差进行范数运算,继而将上述运算结果的和作为对齐损失值。
步骤302,根据对齐损失值、对齐损失值对应的第一权重、预设分类损失值,计算损失值。
具体地,对齐损失值对应的第一权重以及预设分类损失值可以是根据实际应用场景确定的。例如,对齐框架应用于人脸识别场景,预设分类损失值可以是预先配置的人脸分类损失值。
可选的,可以通过下述公式计算损失值:
L=λ1L1+Lc,
其中,L1是对齐损失值,Lc是预设分类损失值,λ1是对齐损失值对应的第一权重,
本实施例中,通过对齐损失值以及预设分类损失值得到的总损失值,继而对齐框架的网络参数进行更新,可以保证对齐性能与识别学习性能的平衡。
在一个实施例中,如图5所示,步骤301“对第一特征、第二特征、第三特征以及第四特征进行范数运算,得到对齐损失值”的具体处理过程包括:
步骤401,对第一特征以及第四特征进行范数运算,得到第一损失值。
具体地,训练设备计算第一特征提取模型输出的第一特征与第二转换器输出的第四特征的差,再对该差进行范数运算,得到第一损失值。
步骤402,对第二特征以及第三特征进行范数运算,得到第二损失值。
具体地,训练设备计算对第二特征提取模型输出的第二特征与第一转换器输出的第三特征的差,再对该差进行范数运算,得到第二损失值。
步骤403,将第一损失值与第二损失值的和作为对齐损失值。
具体地,训练设备可以通过下述公式,计算对齐损失值:
L1=‖f2→1-f1‖2+‖f1→2-f2‖2,
其中,L1是对齐损失值,f1是第一特征,f2是第二特征,f1→2是第三特征,f2→1是第四特征,‖f2→1-f1‖2是第一损失值,‖f1→2-f2‖2是第二损失值。
在一个实施例中,如图6所示,步骤202“将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果”的具体处理过程包括:
步骤501,将样本图片按类别分别输入至第一特征提取模型,得到第一提取结果。
其中,第一提取结果包括第一类中心以及多个第一特征训练设备可以从服务器或者其他终端获取训练数据,上述训练数据包括多个类别的样本图片。以应用于人脸识别的场景为例,此时,训练数据中可以包括多名用户的样本图片,即一个类别包括一名用户的样本图片,一个类别内可以包括多张此用户在不同场景下的图片,例如佩戴眼镜时的图片、不佩戴眼镜时的图片、阴影下的图片、阳光下的图片等等。第一特征提取模型是在训练设备内预先配置的已经训练完成的特征提取模型,第一特征为第一特征提取模型对样本图片进行处理后得到图像特征向量,第一类中心为第一特征提取模型对一个类别的多张样本图片进行处理后得到的多个图像特征向量的均值。
具体地,训练设备将接收到的多个类别的样本图片按照类别分别输入至第一特征提取模型内,第一特征提取模型针对于每一类的样本图片,输出每一类样本图片的类中心,以及针对于每一张样本图片,输出每一张样本图片的图像特征向量。例如,训练设备可以将一个类别的多张样本图片一并输入至第一特征提取模型,得到此类别的第一类中心以及此类别各样本图片的第一特征;训练设备也可以将一个类别的多张样本图片分别输入至第一特征提取模型,此时,第一特征提取模型会先输出针对于每一张样本图片的第一特征,当此类别样本图片的第一特征都输出完成后,再根据多个第一特征,输出此类别样本图片的第一类中心。
步骤502,将样本图片分别输入至第二特征提取模型,得到第二提取结果。
其中,第二提取结果包括多个第二特征以及多个第二类中心第二特征提取模型可以是训练设备的训练目标,即是还未开始训练的特征提取模型;第二特征提取模型也可以是已经训练完成的特征提取模型。
具体地,训练设备将接收到的多个类别的多张样本图片分别输入至第二特征提取模型内,第二特征提取模型针对于每一样本图片,输出每一样本图片的类中心以及图像特征向量。第二特征为第二特征提取模型提取的每一张样本图片的图像特征向量,第二类中心为第二特征提取模型提取的每一张样本图片的图像特征向量的类中心。
在一个实施例中,提取结果除了特征以外,还可以包含类中心,也即,第三提取结果包括多个第三特征以及第三类中心,第四提取结果包括多个第四特征以及多个第四类中心。相应的,如图7所示,步骤205“根据第一提取结果、第二提取结果、第三提取结果以及第四提取结果,计算损失值”的具体执行过程为:
步骤601,根据第一类中心、第二类中心、第三类中心以及第四类中心,计算对齐损失值。
具体地,如图8所示,训练设备通过第一转换器将第一特征提取模型根据j类样本图片输出的第一类中心以及第一特征进行对齐转换,得到与第二特征提取模型相对应的第三类中心以及第三特征此时,第一转换器输出的第三类中心以及第三特征可以与第二特征提取模型输出的第二特征以及第二类中心直接进行对比。
训练设备还通过第二转换器将第二特征提取模型输出的第二类中心以及第二特征进行对齐转换,得到第一特征提取模型相对应的第四类中心以及第四特征此时,第二转换器输出的第四类中心以及第四特征可以与第一特征提取模型输出的特征以及类中心直接进行对比。训练设备可以根据第一特征提取模型提取的第一类中心、第二特征提取模型提取的第二类中心、第一转换器将第一类中心转换得到的第三类中心以及第二转换器将第二类中心转换得到的第四类中心,计算对齐损失值。
例如,训练设备可以通过以下公式,计算对齐损失值:
步骤602,根据样本图片中的第四特征、第一类中心以及预设夹角阈值,计算边界损失值。
具体地,训练设备将训练数据中的N张样本图片分别输入至第二特征提取模型,输出得到每张样本图片对应的第二特征,再按类别将N张样本图片输入第一特征提取模型中,得到每一类样本图片对应的第一类中心。训练设备再通过第二转换器将第二特征转换为第四特征,训练设备通过第四特征以及第一类中心得到与预设夹角阈值的差值,根据上述差值计算边界损失值。
例如,通过以下公式计算边界损失值:
步骤603,根据对齐损失值对应的第二权重、对齐损失值、边界损失值对应的第三权重、边界损失值以及预设分类损失值,计算损失值。
具体地,预设分类损失值可以是在图像识别领域中的人脸分类损失。
例如,可以通过以下公式,计算损失值:
LLCE=λaLa+λbLb+Lc
其中,La表示对齐损失值,Lb表示边界损失值,Lc表示分类损失值,λa表示第二权重,λb表示第三权重。
本实施例中,通过对齐损失值以及边界损失值得到的总损失值,继而对训练模型进行更新,可以将第一特征提取模型提取的类中心以及与第二特征提取模型提取的类中心训练到同一位置,也可以将根据第二特征提取模型输出的特征转换得到的特征向量与历史模型输出的类中心相重叠,实现类与类的对齐,保证对齐性能与识别学习性能的平衡。
在一个实施例中,针对不同的第二特征提取模型,网络参数的更新方式也有所不同。本申请实施例提供了两种示例。
在一种示例中,对齐框架中的第二特征提取模型是待训练的特征提取模型,该情况下,训练设备可以根据损失值,更新第二特征提取模型的网络参数、第一转换器的网络参数以及第二转换器的网络参数。
在另一种示例中,对齐框架中的第二特征提取模型是已经训练完成的特征提取模型,该情况下,训练设备可以根据损失值,更新第一转换器的网络参数以及第二转换器的网络参数。
在本实施例中,训练生成的对齐框架可以同时兼顾多种对齐场景,可以在训练模型的识别性能的同时兼顾对齐性能,扩大了对齐框架的适用范围,增强了对齐框架的使用灵活性,并且还可以在保证对齐框架的对齐性能的前提下,降低训练以及识别的计算量。
在一个实施例中,如图9所示,上述对齐框架的训练方法还包括:
步骤701,响应于图片识别请求,获取待识别的图片数据。
具体地,训练设备接收用户终端或者用户服务器发送的图片识别请求,进而响应于识别请求,对上述识别请求进行解析,获取识别请求内所包含的待识别图片数据。
步骤702,将待识别的图片数据输入至第二特征提取模型,得到图片特征数据。
具体地,训练设备将解析得到的待识别的图片数据输入至第二特征提取模型内,得到第二特征提取模型输出的图片特征数据。
步骤703,分别计算图片特征数据与预设历史数据库中各类别类中心的距离。
步骤704,将距离最小的类别作为待识别的图片数据的类别识别结果。
具体地,图片特征数据可以是图片的特征向量,预设历史数据库内存储有各类图片的类中心,训练设备计算待识别图片的特征向量与各类别的类中心的距离,并将距离最小的类中心对应的类别作为待识别图片的识别结果。
应该理解的是,虽然图2-9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
以下结合示意图,详细描述上述实施例所应用的实际场景,如图10所示,针对于训练设备,配置有第一特征提取模型(模型1)以及第二特征提取模型(模型2)。模型1提取样本图片中的特征向量为f1,模型2提取样本图片中的特征向量为f2,第一转换器可以将特征f1转换成f1→2,第二转换器可以将特征f2转换成f2→1。
此时,模型对齐方式有以下三种示例:第一种情况,前向对齐,即f1→2和f2直接进行比对;第二种情况,后向对齐,f1和f2→1直接进行比对;第三种情况,直接对齐,f1和f2进行比对。因此,模型对齐场景有以下两种示例:第一种情况:对齐训练,当需要训练第二特征提取模型,即模型2时,可以通过上述实施例的方法实现。第二种情况,当第二特征提取模型已经训练完成时,此时还可以通过上述实施例的方法训练第一转换器以及第二转换器实现对齐性能的提升。
在一个实施例中,如图11所示,提供了一种对齐框架的训练装置,包括:获取模块801、提取模块802、第一对齐转换模块803、第二对齐转换模块804、计算模块805和训练模块806,其中:
获取模块801,用于获取训练数据,训练数据包括多个类别的样本图片;
提取模块802,用于将样本图片分别输入至第一特征提取模型以及第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
第一对齐转换模块803,用于通过第一转换器对第一提取结果进行对齐转换,得到第三提取结果;
第二对齐转换模块804,用于通过第二转换器对第二提取结果进行对齐转换,得到第四提取结果;
计算模块805,用于根据第一提取结果、第二提取结果、第三提取结果以及第四提取结果,计算损失值;
训练模块806,用于根据损失值更新对齐框架的网络参数,并返回执行获取多张样本图片的步骤,直到损失值满足预设训练完成条件,得到训练完成的对齐框架。
在一实施例中,第一提取结果包括第一特征,第二提取结果包括第二特征,第三提取结果包括第三特征,第四提取结果包括第四特征;计算模块805,包括:
第一范数运算单元,用于对第一特征、第二特征、第三特征以及第四特征进行范数运算,得到对齐损失值;
计算单元,用于根据对齐损失值、对齐损失值对应的第一权重、预设分类损失值,计算损失值。
在一实施例中,第一范数运算单元,包括:
第一范数运算子单元,用于对第一特征以及第四特征进行范数运算,得到第一损失值;
第二范数运算子单元,用于对第二特征以及第三特征进行范数运算,得到第二损失值;
计算子单元,用于将第一损失值与第二损失值的和作为对齐损失值。
第一范数运算单元通过下述公式,计算对齐损失值:
L1=‖f2→1-f1‖2+‖f1→2-f2‖2
其中,L1是对齐损失值,f1是第一特征,f2是第二特征,f1→2是第三特征,f2→1是第四特征,‖f2→1-f1‖2是第一损失值,‖f1→2-f2‖2是第二损失值。
在一实施例中,提取模块802,包括:
第一提取单元,用于将样本图片按类别分别输入至第一特征提取模型,得到第一提取结果,第一提取结果包括第一类中心以及多个第一特征;
第二提取单元,用于将样本图片分别输入至第二特征提取模型,得到第二提取结果,第二提取结果包括多个第二特征以及多个第二类中心。
在一实施例中,第三提取结果包括多个第三特征以及第三类中心,第四提取结果包括多个第四特征以及多个第四类中心;计算模块805,包括:
对齐损失计算单元,用于根据第一类中心、第二类中心、第三类中心以及第四类中心,计算对齐损失值;
边界损失计算单元,用于根据样本图片中的第四特征、第一类中心以及预设夹角阈值,计算边界损失值;
损失计算单元,用于根据对齐损失值对应的第二权重、对齐损失值、边界损失值对应的第三权重、边界损失值以及预设分类损失值,计算损失值。
在一实施例中,对齐损失计算单元通过以下公式,计算对齐损失值:
在一实施例中,边界损失计算单元通过以下公式,计算边界损失值:
在一实施例中,训练模块806,用于根据损失值,更新第二特征提取模型的网络参数、第一转换器的网络参数以及第二转换器的网络参数;或,根据损失值,更新第一转换器的网络参数以及第二转换器的网络参数。
关于对齐框架的训练装置的具体限定可以参见上文中对于对齐框架的训练方法的限定,在此不再赘述。上述对齐框架的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据以及训练完成的特征提取模型数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对齐框架的训练方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种对齐框架的训练方法,其特征在于,所述对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器;所述方法包括:
获取训练数据,所述训练数据包括多个类别的样本图片;
将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
2.根据权利要求1所述的方法,其特征在于,所述第一提取结果包括第一特征,所述第二提取结果包括第二特征,所述第三提取结果包括第三特征,所述第四提取结果包括第四特征;
所述根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值,包括:
对所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行范数运算,得到对齐损失值;
根据所述对齐损失值、所述对齐损失值对应的第一权重、预设分类损失值,计算损失值。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行范数运算,得到对齐损失值,包括:
对所述第一特征以及所述第四特征进行范数运算,得到第一损失值;
对所述第二特征以及所述第三特征进行范数运算,得到第二损失值;
将所述第一损失值与所述第二损失值的和作为所述对齐损失值。
4.根据权利要求3所述的方法,其特征在于,通过下述公式,计算所述对齐损失值:
L1=||f2→1-f1||2+||f1→2-f2||2
其中,L1是对齐损失值,f1是第一特征,f2是第二特征,f1→2是第三特征,f2→1是第四特征,||f2→1-f1||2是第一损失值,||f1→2-f2||2是第二损失值。
5.根据权利要求1所述的方法,其特征在于,所述将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果,包括:
将所述样本图片按类别分别输入至所述第一特征提取模型,得到第一提取结果,所述第一提取结果包括第一类中心以及多个第一特征;
将所述样本图片分别输入至所述第二特征提取模型,得到第二提取结果,所述第二提取结果包括多个第二特征以及多个第二类中心。
6.根据权利要求5所述的方法,其特征在于,所述第三提取结果包括多个第三特征以及第三类中心,所述第四提取结果包括多个第四特征以及多个第四类中心;
所述根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值,包括:
根据所述第一类中心、所述第二类中心、所述第三类中心以及所述第四类中心,计算对齐损失值;
根据所述样本图片中的第四特征、第一类中心以及预设夹角阈值,计算边界损失值;
根据所述对齐损失值对应的第二权重、所述对齐损失值、所述边界损失值对应的第三权重、所述边界损失值以及预设分类损失值,计算损失值。
9.根据权利要求1所述的方法,其特征在于,所述根据所述损失值更新所述对齐框架的网络参数,包括:
根据所述损失值,更新所述第二特征提取模型的网络参数、所述第一转换器的网络参数以及所述第二转换器的网络参数;或,
根据所述损失值,更新所述第一转换器的网络参数以及所述第二转换器的网络参数。
10.一种对齐框架的训练装置,其特征在于,所述对齐框架包括:第一特征提取模型、第二特征提取模型、第一转换器以及第二转换器;所述装置包括:
获取模块,用于获取训练数据,所述训练数据包括多个类别的样本图片;
提取模块,用于将所述样本图片分别输入至所述第一特征提取模型以及所述第二特征提取模型,得到每个样本图片对应的第一提取结果以及第二提取结果;
第一对齐转换模块,用于通过所述第一转换器对所述第一提取结果进行对齐转换,得到第三提取结果;
第二对齐转换模块,用于通过所述第二转换器对所述第二提取结果进行对齐转换,得到第四提取结果;
计算模块,用于根据所述第一提取结果、所述第二提取结果、所述第三提取结果以及所述第四提取结果,计算损失值;
训练模块,用于根据所述损失值更新所述对齐框架的网络参数,并返回执行所述获取多张样本图片的步骤,直到所述损失值满足预设训练完成条件,得到训练完成的对齐框架。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110820273.0A CN113591639A (zh) | 2021-07-20 | 2021-07-20 | 对齐框架的训练方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110820273.0A CN113591639A (zh) | 2021-07-20 | 2021-07-20 | 对齐框架的训练方法、装置、计算机设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113591639A true CN113591639A (zh) | 2021-11-02 |
Family
ID=78248567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110820273.0A Pending CN113591639A (zh) | 2021-07-20 | 2021-07-20 | 对齐框架的训练方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591639A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489287A (zh) * | 2020-04-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备和存储介质 |
CN111860670A (zh) * | 2020-07-28 | 2020-10-30 | 平安科技(深圳)有限公司 | 域自适应模型训练、图像检测方法、装置、设备及介质 |
CN112765370A (zh) * | 2021-03-29 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 |
CN112837673A (zh) * | 2020-12-31 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的语音合成方法、装置、计算机设备和介质 |
CN113128478A (zh) * | 2021-05-18 | 2021-07-16 | 电子科技大学中山学院 | 模型训练方法、行人分析方法、装置、设备及存储介质 |
-
2021
- 2021-07-20 CN CN202110820273.0A patent/CN113591639A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489287A (zh) * | 2020-04-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备和存储介质 |
CN111860670A (zh) * | 2020-07-28 | 2020-10-30 | 平安科技(深圳)有限公司 | 域自适应模型训练、图像检测方法、装置、设备及介质 |
CN112837673A (zh) * | 2020-12-31 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的语音合成方法、装置、计算机设备和介质 |
CN112765370A (zh) * | 2021-03-29 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 |
CN113128478A (zh) * | 2021-05-18 | 2021-07-16 | 电子科技大学中山学院 | 模型训练方法、行人分析方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902546B (zh) | 人脸识别方法、装置及计算机可读介质 | |
US10713532B2 (en) | Image recognition method and apparatus | |
CN109344742B (zh) | 特征点定位方法、装置、存储介质和计算机设备 | |
CN109376684A (zh) | 一种人脸关键点检测方法、装置、计算机设备和存储介质 | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN112434655B (zh) | 一种基于自适应置信度图卷积网络的步态识别方法 | |
CN112801215B (zh) | 图像处理模型搜索、图像处理方法、装置和存储介质 | |
CN111428771B (zh) | 视频场景分类方法、装置和计算机可读存储介质 | |
CN111178249A (zh) | 人脸比对的方法、装置、计算机设备及存储介质 | |
CN113505797B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
WO2022057309A1 (zh) | 肺部特征识别方法、装置、计算机设备及存储介质 | |
CN111062263A (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN111723707A (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN111414840A (zh) | 步态识别方法、装置、设备及计算机可读存储介质 | |
CN114332670A (zh) | 视频行为识别方法、装置、计算机设备和存储介质 | |
CN114821736A (zh) | 基于对比学习的多模态人脸识别方法、装置、设备及介质 | |
CN112001285B (zh) | 一种美颜图像的处理方法、装置、终端和介质 | |
CN113792643A (zh) | 活体人脸识别方法及系统 | |
CN111444957B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN111460416B (zh) | 一种基于微信小程序平台的人脸特征与动态属性的认证方法 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
CN116994319A (zh) | 训练模型的方法和人脸识别方法、设备、介质 | |
CN113591639A (zh) | 对齐框架的训练方法、装置、计算机设备以及存储介质 | |
CN113591637A (zh) | 对齐模型的训练方法、装置、计算机设备以及存储介质 | |
CN112488053A (zh) | 一种人脸识别方法、装置、机器人及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |