CN108537135A

CN108537135A - 对象识别及对象识别网络的训练方法和装置、电子设备

Info

Publication number: CN108537135A
Application number: CN201810220356.4A
Authority: CN
Inventors: 王飞
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-09-14

Abstract

本发明实施例公开了一种对象识别及对象识别网络的训练方法和装置、电子设备，其中，训练方法包括：利用对象识别网络，分别对多个角度的对象图像进行特征提取，对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征，基于融合特征进行对象识别，得到融合特征对应的多个角度的对象图像的对象识别结果；基于至少一个对象的对象识别结果与标注信息之间的差异，对对象识别网络进行训练。本发明实施例可以利用至少一个对象中每个对象对应的多个角度的对象图像对对象识别网络进行训练，从而提高对象识别的准确性和识别效率。

Description

对象识别及对象识别网络的训练方法和装置、电子设备

技术领域

本发明涉及人工智能技术，尤其是一种对象识别及对象识别网络的训练方法和装置、电子设备。

背景技术

近几年，深度学习在计算机视觉领域的各个任务上都被广泛应用。脸识别作为很有市场价值的计算机视觉任务，一直是计算视觉领域研究的热门方向，近些年被广泛应用到互联网金融、安防、公安、民航、海关等多个行业。在进入深度学习的时代之后，神经网络在各种对象识别(例如，人脸识别)上取得了重大的突破。

发明内容

本发明实施例提供一种对象识别技术方案。

根据本发明实施例的一个方面，提供的一种对象识别网络的训练方法，包括：

利用对象识别网络，分别对多个角度的对象图像进行特征提取；

利用所述对象识别网络，对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征；

利用所述对象识别网络，基于所述融合特征进行对象识别，得到所述融合特征对应的多个角度的对象图像的对象识别结果；

基于至少一个对象的对象识别结果与标注信息之间的差异，对所述对象识别网络进行训练。

可选地，在上述各实施例的训练方法中，还包括：

分别针对所述至少一个对象中的每个对象，获取每个对象对应的所述多个角度的对象图像。

可选地，在上述各实施例的训练方法中，所述获取每个对象对应的所述多个角度的对象图像，包括：

分别基于所述每个对象的正面图像，生成每个对象的至少一个其他角度的对象图像，所述每个对象对应的多个角度的对象图像包括所述正面图像和所述至少一个其他角度的对象图像。

可选地，在上述各实施例的训练方法中，所述基于所述每个对象的正面图像，生成每个对象的至少一个其他角度的对象图像，包括：

分别以每个对象作为目标对象，对目标对象的正面图像进行对象关键点检测；

基于检测到的正面图像的对象关键点，通过三维对象模型对所述目标对象进行旋转，生成所述目标对象的至少一个其他角度的对象图像。

可选地，在上述各实施例的训练方法中，所述基于检测到的正面图像的对象关键点，通过三维对象模型对所述目标对象进行旋转，生成所述目标对象的至少一个其他角度的对象图像，包括：

基于预先设置的二维对象关键点和三维对象模型上的三维对象关键点之间的对应关系，将所述目标对象的正面图像渲染为正面三维对象；

利用旋转矩阵分别将所述三维对象旋转至少一个角度，获得至少一个角度的三维对象；

利用三维到二维的映射矩阵，将所述至少一个角度的三维对象分别映射为二维的所述至少一个其他角度的对象图像。

可选地，在上述各实施例的训练方法中，每个对象对应的多个角度的对象图像中对象与所述多个角度的对象图像中正面图像中对象之间的平面夹角包括：0°～±90°。

可选地，在上述各实施例的训练方法中，每个对象对应的多个角度的对象图像中，各角度的对象图像的数量相同。

可选地，在上述各实施例的训练方法中，所述对每个对象对应的多个角度的对象图像的特征进行融合，包括：

分别获取所述每个对象对应的多个角度的对象图像的特征中，各角度的对象图像的特征与其注意力权重的乘积；

将基于所述每个对象对应的多个角度的对象图像的特征获得的乘积进行拼接，得到所述融合特征。

可选地，在上述各实施例的训练方法中，所述对每个对象对应的多个角度的对象图像的特征进行融合之前，还包括：

获取每个对象对应的多个角度的对象图像的特征的注意力权重。

可选地，在上述各实施例的训练方法中，所述每个对象对应的多个角度的对象图像中，正面图像的特征的注意力权重大于其他角度的对象图像的特征的注意力权重。

可选地，在上述各实施例的训练方法中，每个对象对应的多个角度的角度数量为M，其中，M的取值为大于1的整数；

获取一个对象对应的多个角度的对象图像的特征的注意力权重，包括：

将所述一个对象对应的M个角度的对象图像的特征在通道维度上进行拼接，得到拼接特征；

分别将所述拼接特征中各种角度的特征的通道数降低为原通道数的1/M；

获取所述拼接特征的注意力权重得分图；其中，所述注意力权重得分图的通道数为M，每个通道的注意力权重得分图分别表示该通道对应角度的特征的重要程度概率的得分；

分别将每个通道的注意力权重得分图恢复为对应角度的特征的原通道数。

分别将所述一个对象对应的M个角度的对象图像的特征的通道数降低为原通道数的1/M；

将通道数降低为原通道数的1/M的M个角度的对象图像的特征在通道维度上进行拼接，得到拼接特征；

可选地，在上述各实施例的训练方法中，所述对象识别结果包括：分类结果信息；

所述标注信息包括：所述每个对象对应的多个角度的对象图像中至少一个角度的对象图像标注的类别信息。

可选地，在上述各实施例的训练方法中，所述对象包括：人脸；所述对象图像包括：人脸图像。

根据本发明实施例的另一个方面，提供的一种对象识别方法，包括：

利用对象识别网络，对对象图像进行对象识别，得到所述对象图像的对象识别结果；

其中，所述对象识别网络基于本发明上述任一实施例所述的训练方法训练得到。

根据本发明实施例的又一个方面，提供的一种对象识别网络的训练装置，包括：

对象识别网络，用于分别对多个角度的对象图像进行特征提取；对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征；以及基于所述融合特征进行对象识别，得到所述融合特征对应的多个角度的对象图像的对象识别结果；

训练模块，用于基于至少一个对象的对象识别结果与标注信息之间的差异，对所述对象识别网络进行训练。

可选地，在上述各实施例的训练装置中，还包括：

获取模块，用于分别针对所述至少一个对象中的每个对象，获取每个对象对应的所述多个角度的对象图像。

可选地，在上述各实施例的训练装置中，所述获取模块具体用于：分别基于所述每个对象的正面图像，生成每个对象的至少一个其他角度的对象图像，所述每个对象对应的多个角度的对象图像包括所述正面图像和所述至少一个其他角度的对象图像。

可选地，在上述各实施例的训练装置中，所述获取模块包括：

关键点检测单元，用于分别以每个对象作为目标对象，对目标对象的正面图像进行对象关键点检测；

生成单元，用于基于检测到的正面图像的对象关键点，通过三维对象模型对所述目标对象进行旋转，生成所述目标对象的至少一个其他角度的对象图像。

可选地，在上述各实施例的训练装置中，所述生成单元具体用于：

可选地，在上述各实施例的训练装置中，每个对象对应的多个角度的对象图像中对象与所述多个角度的对象图像中正面图像中对象之间的平面夹角包括：0°～±90°。

可选地，在上述各实施例的训练装置中，每个对象对应的多个角度的对象图像中，各角度的对象图像的数量相同。

可选地，在上述各实施例的训练装置中，所述对象识别网络包括：

特征提取模块，用于分别对多个角度的对象图像进行特征提取；

融合模块，用于对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征；

识别模块，用于基于所述融合特征进行对象识别，得到所述融合特征对应的多个角度的对象图像的对象识别结果。

可选地，在上述各实施例的训练装置中，所述融合模块具体用于：

可选地，在上述各实施例的训练装置中，还包括：

注意力模块，用于获取每个对象对应的多个角度的对象图像的特征的注意力权重。

可选地，在上述各实施例的训练装置中，所述每个对象对应的多个角度的对象图像中，正面图像的特征的注意力权重大于其他角度的对象图像的特征的注意力权重。

可选地，在上述各实施例的训练装置中，每个对象对应的多个角度的角度数量为M，其中，M的取值为大于1的整数；

所述注意力模块获取一个对象对应的多个角度的对象图像的特征的注意力权重时，具体用于：

可选地，在上述各实施例的训练装置中，所述对象识别结果包括：分类结果信息；

可选地，在上述各实施例的训练装置中，所述对象包括：人脸；所述对象图像包括：人脸图像。

根据本发明实施例的再一个方面，提供的一种对象识别装置，包括对象识别网络，所述对象识别网络基于本发明上述任一实施例所述的方法或者本发明上述任一实施例所述的装置训练得到；所述对象识别网络包括：

根据本发明实施例的再一个方面，提供的一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述本发明上述任一实施例所述的方法。

根据本发明实施例的再一个方面，提供的一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述本发明上述任一实施例所述的方法。

根据本发明实施例的再一个方面，提供的一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现上述本发明上述任一实施例任一所述的方法。

基于本发明上述实施例提供的对象识别及对象识别网络的训练方法和装置、电子设备、程序和介质，利用至少一个对象中每个对象对应的多个角度的对象图像对对象识别网络进行训练，以使训练好的对象识别网络可以学习到不同角度的对象图像的特征，从而在实际应用中可以有效识别包括正面对象在内的不同角度的对象图像，提高对象识别的准确性和识别效率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明对象识别网络的训练方法一个实施例的流程图。

图2为本发明对象识别网络的训练方法另一个实施例的流程图。

图3为本发明对象识别网络的训练方法又一个实施例的流程图。

图4为本发明对象识别方法一个实施例的流程图。

图5为本发明对象识别网络的训练装置一个实施例的结构示意图。

图6为本发明对象识别网络的训练装置另一个实施例的结构示意图。

图7为本发明对象识别网络一个实施例的结构示意图。

图8为本发明电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在实现本发明的过程中，发明人通过研究发现：目前对象识别训练数据库中对象图像中的对象只有正脸姿态，仅利用这些正脸姿态的对象训练神经网络，导致训练好的神经网络在实际用于对象识别时无法识别侧脸。

图1为本发明对象识别网络的训练方法一个实施例的流程图。如图1所示，该实施例的训练方法包括：

102，利用对象识别网络，分别对多个角度的对象图像进行特征提取。

104，利用对象识别网络，对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征。

其中，每个对象的多个角度的对象图像的特征可以对应相同的融合权重，也可以分别对应不同的融合权重，或者，也可以部分角度的对象图像的特征对应相同的融合权重、其他角度的对象图像的特征分别对应不同的融合权重。

106，利用对象识别网络，基于上述融合特征进行对象识别，得到该融合特征对应的多个角度的对象图像的对象识别结果。

108，基于至少一个对象的对象识别结果与标注信息之间的差异，对对象识别网络进行训练。

其中的对象识别结果例如可以包括：分类结果信息；标注信息例如可以包括：每个对象对应的多个角度的对象图像中至少一个角度的对象图像标注的类别信息。

基于本发明上述实施例提供的对象识别网络的训练方法，利用至少一个对象中每个对象对应的多个角度的对象图像对对象识别网络进行训练，以使训练好的对象识别网络可以学习到不同角度的对象图像的特征，从而在实际应用中可以有效识别包括正面对象在内的不同角度的对象图像，提高对象识别的准确性和识别效率。

本发明各实施例的对象可以包括：人脸、人体、动物、动物头部等各种可以进行三维(3D)建模的对象，相应地，对象对应的对象图像可以包括：人脸图像、人体图像、动物图像、动物头像等，基于本发明各实施例的训练方法采用多角度的对象图像训练对象识别网络，从而使得训练得到的对象识别网络可以有效识别各角度的对象图像。

另外，在本发明对象识别网络的训练方法的另一个实施例中，还可以包括：

分别针对至少一个对象中的每个对象，获取每个对象对应的多个角度的对象图像。

基于本实施例，在对象识别网络的训练中引入同一个对象的多个对象姿态(即：多个角度的对象)，使得用于训练对象识别网络的对象图像样本可以包括多个角度的对象图像，从而使得训练好的对象识别网络可以学习到不同角度的对象图像的特征，以提高对象识别的准确性和识别效率。

在其中一个实施方式中，可以通过如下方式获取每个对象对应的多个角度的对象图像：

分别基于每个对象的正面图像，生成每个对象的至少一个其他角度的对象图像(也称为侧脸图像)，其中，每个对象对应的多个角度的对象图像包括正面图像和至少一个其他角度的对象图像。由至少一个对象的多个角度的对象图像构成训练样本图像，以用于本发明各训练方法实施例中对对象识别网络的训练。

作为本发明各实施例的一个可选示例而非限制，每个对象对应的多个角度的对象图像中对象与多个角度的对象图像中正面图像中对象之间的平面夹角例如可以包括但不限于：0°～±90°，例如，可以包括：0°、40°和75°。另外，还可以包括该范围之外的其他角度。

作为本发明各实施例的一个可选示例而非限制，每个对象对应的多个角度的对象图像中，各角度的对象图像的数量相同。

本发明人通过研究发现，侧脸图像可以辅助对象识别网络提取侧脸特征，学习侧脸的相似性，但是，由于侧脸图像会丢失一部分对象信息，如果随机抽取正脸图像和生成的侧脸图像作为样本用于训练对象识别网络，可能会造成侧脸图像的占比过大，造成对象识别网络使用过多的侧脸数据，而没有注重正面图像信息的获取，因此不能作为训练样本数据主体。本实施例中，每个对象对应的多个角度的对象图像中，各角度的对象图像的数量相同，可以保证原图像(正脸图像)数据与其它各角度的侧脸图像数据占比相同，从而使得对象识别网络可以全面学习各角度对象图像的特征，从而提高对象识别网络的鲁棒性。

示例性地，假设针对每个对象的原图像只有对象的正面图像，基于每个对象的正面图像，生成每个对象的至少一个其他角度的对象图像，可以包括：

分别以每个对象作为目标对象，对目标对象的正面图像(即：该目标对象的原图像)进行对象关键点检测，获得该正面图像的对象关键点，该对象关键点为二维(2D)平面上的关键点，该关键点的坐标为二维坐标；

基于检测到的正面图像的对象关键点，通过三维对象模型对目标对象进行旋转，生成目标对象的至少一个其他角度的对象图像。

其中，上述3D对象模型为预先设立的平均标准对象的3D模型，该3D模型上标注有三维空间上的关键点，关键点的坐标三维坐标。

其中，基于检测到的正面图像的对象关键点，通过三维对象模型对目标对象进行旋转，生成目标对象的至少一个其他角度的对象图像，可以包括：

基于预先设置的2D对象关键点和3D对象模型上的三维对象关键点之间的对应关系，将目标对象的正面图像渲染为正面三维对象，即：将目标对象的正面图像上的对象关键点和3D对象模型上的三维对象关键点进行对应，将目标对象的正面图像贴到3D对象模型上；

利用旋转矩阵分别将三维对象旋转至少一个角度，获得至少一个角度的三维对象；

利用三维到二维的映射矩阵，将至少一个角度的三维对象分别映射为二维的至少一个其他角度的对象图像，即获取至少一个角度的三维对象在一个相机视角下的成像图像。

基于上述实施例，通过数据增强方式，由对象的正面图像可以生成任意角度的对象图像，从而提供用于训练对象识别网络的侧脸样本图像。

图2为本发明对象识别网络的训练方法另一个实施例的流程图。如图2所示，该实施例的训练方法包括：

202，分别针对至少一个对象中的每个对象，基于每个对象的正面图像，生成每个对象的至少一个其他角度的对象图像。

其中，每个对象对应的多个角度的对象图像包括正面图像和至少一个其他角度的对象图像。作为一个可选示例，每个对象对应的多个角度的对象图像中，各角度的对象图像的数量相同，即：包括一张正面图像、以及其他角度中各角度的对象图像各一张。

204，利用对象识别网络，分别对至少一个对象中每个对象对应的多个角度的对象图像进行特征提取。

206，利用对象识别网络，对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征。

208，利用对象识别网络，基于上述融合特征进行对象识别，得到该融合特征对应的多个角度的对象图像的对象识别结果。

其中的对象识别结果包括：分类结果信息。

210，基于至少一个对象的对象识别结果与标注信息之间的差异，对对象识别网络进行训练。

其中的标注信息包括：每个对象对应的多个角度的对象图像中至少一个角度的对象图像标注的类别信息。

在本发明各实施例的一个实施方式中，操作206中，对每个对象对应的多个角度的对象图像的特征进行融合，可以包括：

302，分别获取每个对象对应的多个角度的对象图像的特征中，各角度的对象图像的特征与其注意力权重的乘积；其中的注意力权重用于表示相应特征的重要程度概率；

304，将基于每个对象对应的多个角度的对象图像的特征获得的乘积进行拼接，得到融合特征。

可选地，在本发明各实施例的另一个实施方式中，还可以包括：300，获取每个对象对应的多个角度的对象图像的特征的注意力权重。

如图3所示，为本发明对象识别网络的训练方法又一个实施例的流程图。

假设每个对象对应的多个角度的角度数量为M，其中，M的取值为大于1的整数。在本发明各实施例的一个可选示例中，获取一个对象对应的多个角度的对象图像的特征的注意力权重，可以包括：

将一个对象对应的M个角度的对象图像的特征在通道维度上进行拼接，得到拼接特征；

分别将拼接特征中各种角度的特征的通道数降低为原通道数的1/M；

获取拼接特征的通道数为M的注意力权重得分图；其中，注意力权重得分图的通道数为M，每个通道的注意力权重得分图分别表示该通道对应角度的特征的重要程度概率的得分；

另外，可选地，在上述可选示例中，也可以先将一个对象对应的M个角度的对象图像的特征的通道数分别降低为原通道数的1/M，再在通道维度上进行拼接，得到拼接特征；之后再获取拼接特征的通道数为M的注意力权重得分图，并分别将每个通道的注意力权重得分图恢复为对应角度的特征的原通道数。

例如，在一个可选示例中，可以利用视觉注意力机制获取每个对象对应的多个角度的对象图像的特征的注意力权重。视觉注意力机制是指，由于图像中的像素包含很多不必要的冗余信息(例如背景信息)，通过快速扫描图像的全部区域获得全局信息，然后通过自顶而下的神经元链接，将这一全局信息反馈至较底层的神经元，将与目标物体无关的区域信息滤除，指导其信号传递。基于视觉注意力机制能够学习特征的权重，模仿人的注意力能力，即把不重要的干扰信息给予更小权值，抑制其特征传递，例如，在对象识别任务中关注的是对象区域，基于视觉注意力机制，可以增大对象区域特征的权重(即：注意力权重)，减小对象区域之外特征的权重。

基于对象的正脸图像生成的侧脸图像虽然会保留大部分对象的特征，但是也会损失一定的真实性，如何利用不同角度的对象信息，更好地提取特征，这就是一个比较棘手的问题。本实施例中，基于视觉注意力机制，通过快速扫描整体区域，将与目标物体无关的区域滤除，仅仅关注目标物体区域，极大的提高了人类对于目标物体信息获取的效率及速度。

在其中一个可选示例中，每个对象对应的多个角度的对象图像中，正面图像的特征的注意力权重大于其他角度的对象图像的特征的注意力权重。

基于对象的正脸图像生成的侧脸图像虽然会保留大部分对象的特征，但是也会损失一定的真实性，本实施例中，正面图像的特征的注意力权重大于其他角度的对象图像的特征的注意力权重，使得对象识别网络可以重点学习正脸图像的特征，从而使得训练得到的对象识别网络在后续的识别准确性较高。

在本发明各实施例的一个可选示例中，对象识别网络可以通过一个神经网络，例如可以是一个卷积神经网络，该神经网络可以是一个深度神经网络。在深度神经网络中，可以通过不断的堆叠用于进行特征提取的残差卷积模块，形成多个阶段的深度残差网络，通过多个阶段的深度残差网络依次对对象图像进行特征提取，得到一系列的特征图；然后通过与残差卷积模块连接的全连接层对对象图像进行分类；最后根据对象识别结果与标注信息之间的差异，通过损失函数(例如softmax函数)层计算用于表示该差异的损失函数值，以用于对对象识别网络进行训练。可以在各阶段的深度残差网络中加入下采样单元进行下采样以获取对象图像的全局信息，其中的下采样单元可以在每一阶段深度残差网络中的初始位置，将用于进行注意力权重获取和特征融合的视觉注意力模块放在至少一个阶段的深度残差网络的中最后的位置，使得对象识别网络在至少一个位置产生多角度对象的特征交互。可选地，为了保证各角度对象特征的可靠性，也可以在中间阶段的深度残差网络之后连接线性分类器，以对对象图像进行识别，并将该中间阶段的对象识别结果与最后阶段的对象识别结果一起输入损失函数层计算损失函数值，用于训练对象识别网络。

基于视觉注意力机制获取每个对象对应的多个角度的对象图像的特征的注意力权重时，可以通过注意力权重掩模操作，快速扫描对象图像的全部区域获得全局信息并通过自顶而下的卷积结构将全局信息作用到多角度的对象特征上以融合多角度的对象特征。例如，在一个示例中，该操作可以包括：

(1)对于参与特征融合的同一个对象的多个角度的对象图像的特征，可以先将特征的通道数降低为原通道数的1/M，其中，M为2的幂次方；然后生成M通道的注意力权重得分图，其大小尺寸与对象图像的特征一致。为了描述方便，本实施例中，将输入通道数为C、大小为W×H的特征表示为特征Origin，假设参与特征融合的特征是正脸图像的特征和α°对象图像的特征，分别记为Fori和Fα，将融合后输出的特征表示为F_Output，则：分别将同一个对象的正脸图像的特征Fori和α°对象图像的特征Fα在通道维度上连接起来，先通过卷积层将通道数降到C/2，再通过卷积层得到通道数为2的一个特征；最后再通过一个归一化(softmax)层获取用于表示正脸图像的特征Fori和α°对象图像的特征Fα的重要程度概率的得分图，该得分图的尺寸为W*H，通道数为2，第一个通道代表了正脸图像的特征Fori中每一维特征的重要程度，第二个通道代表了α°对象图像的特征Fα中每一维特征的重要程度。

由于在注意力权重掩模操作中并没有对图像的特征大小改变，但是对特征的通道数进行了改变，因此如果想做掩模操作，需要对得分图做一个重复操作，将通道恢复到原始大小。其中，掩模就是对每一个特征乘以其注意力权重进行加权。

(2)将同一个对象对应的每个角度的对象图像的特征与其注意力权重进行掩模操作，然后将各个角度的对象图像的特征经过掩摸得到的特征进行融合，即进行各个角度的特征向量之间的连接(concat)，之后得到最终输出的F_Output。例如，两个特征a、b进行等权重融合，最终输出的F_Output＝0.5*a+0.5*b。

例如，在一个应用中，需要对0°和40°的对象图像的特征x、y(x和y为维度相同的向量)进行融合，视觉注意力模块学习特征x、y的注意力权重a、b(维数和x、y相同)，则基于a*x+b*y进行特征融合，这里的*为对两个向量对应维度做乘法，得到新的向量。由于a和b是通过视觉注意力机制自动学习到的注意力权重，这样很适合融合各个角度的对象特征。例如，正脸图像中的五官特征比较明显，其注意力权重就比较大，弱化侧脸的五官特征。

图4为本发明对象识别方法一个实施例的流程图。如图4所示，该实施例的对象识别方法包括：

402，利用对象识别网络，对对象图像进行对象识别，得到对象图像的对象识别结果。

其中，该实施例中的对象识别网络基于本发明上述任一实施例的训练方法训练得到。

基于本发明上述实施例提供的对象识别方法，由于预先可以学习到不同角度的对象图像的特征，可以有效识别包括正面对象在内的不同角度的对象图像，提高对象识别的准确性和识别效率。

图5为本发明对象识别网络的训练装置一个实施例的结构示意图。该实施例的训练装置可用于实现本发明上述各训练方法实施例。如图5所示，该实施例的训练装置包括：对象识别网络和训练模块。其中：

对象识别网络，用于分别对多个角度的对象图像进行特征提取；对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征；以及基于融合特征进行对象识别，得到融合特征对应的多个角度的对象图像的对象识别结果。

训练模块，用于基于至少一个对象的对象识别结果与标注信息之间的差异，对对象识别网络进行训练。

基于本发明上述实施例提供的对象识别网络的训练装置，利用至少一个对象中每个对象对应的多个角度的对象图像对对象识别网络进行训练，以使训练好的对象识别网络可以学习到不同角度的对象图像的特征，从而在实际应用中可以有效识别包括正面对象在内的不同角度的对象图像，提高对象识别的准确性和识别效率。

图6为本发明对象识别网络的训练装置另一个实施例的结构示意图。如图6所示，与图5所示的实施例相比，该实施例的训练装置还包括：获取模块，用于分别针对至少一个对象中的每个对象，获取每个对象对应的多个角度的对象图像。

在本发明各实施例的一些实施方式中，获取模块具体用于：分别基于每个对象的正面图像，生成每个对象的至少一个其他角度的对象图像，其中，每个对象对应的多个角度的对象图像包括正面图像和至少一个其他角度的对象图像。

在其中一个可选示例中，获取模块可以包括：关键点检测单元和生成单元。其中，关键点检测单元，用于分别以每个对象作为目标对象，对目标对象的正面图像进行对象关键点检测。生成单元，用于基于检测到的正面图像的对象关键点，通过三维对象模型对目标对象进行旋转，生成目标对象的至少一个其他角度的对象图像。

在其中一个可选示例中，生成单元具体用于：基于预先设置的二维对象关键点和三维对象模型上的三维对象关键点之间的对应关系，将目标对象的正面图像渲染为正面三维对象；利用旋转矩阵分别将三维对象旋转至少一个角度，获得至少一个角度的三维对象；以及利用三维到二维的映射矩阵，将至少一个角度的三维对象分别映射为二维的至少一个其他角度的对象图像。

其中，每个对象对应的多个角度的对象图像中对象与多个角度的对象图像中正面图像中对象之间的平面夹角可以包括：0°～±90°。

可选地，每个对象对应的多个角度的对象图像中，各角度的对象图像的数量相同。

图7为本发明对象识别网络一个实施例的结构示意图。如图7所示，本发明各实施例中的对象识别网络可以包括：特征提取模块，融合模块和识别模块。其中：

特征提取模块，用于分别对多个角度的对象图像进行特征提取。

融合模块，用于对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征。

识别模块，用于基于融合特征进行对象识别，得到融合特征对应的多个角度的对象图像的对象识别结果。

在本发明各实施例的一些实施方式中，融合模块具体用于：分别获取每个对象对应的多个角度的对象图像的特征中，各角度的对象图像的特征与其注意力权重的乘积；以及将基于每个对象对应的多个角度的对象图像的特征获得的乘积进行拼接，得到融合特征。

另外，再参见图6，在本发明对象识别网络的训练装置又一个实施例中，还可以包括：注意力模块，用于获取每个对象对应的多个角度的对象图像的特征的注意力权重。

可选地，该注意力模块可以设置于对象识别网络中，也可以单独设置。

在本发明各实施例的一些实施方式中，每个对象对应的多个角度的对象图像中，其中，正面图像的特征的注意力权重大于其他角度的对象图像的特征的注意力权重。

在本发明各实施例的一些实施方式中，每个对象对应的多个角度的角度数量为M，其中，M的取值为大于1的整数。相应地，在该实施例中，注意力模块获取一个对象对应的多个角度的对象图像的特征的注意力权重时，具体用于：将一个对象对应的M个角度的对象图像的特征在通道维度上进行拼接，得到拼接特征；分别将拼接特征中各种角度的特征的通道数降低为原通道数的1/M；获取拼接特征的注意力权重得分图，其中，注意力权重得分图的通道数为M，每个通道的注意力权重得分图分别表示该通道对应角度的特征的重要程度概率的得分；以及分别将每个通道的注意力权重得分图恢复为对应角度的特征的原通道数。

在本发明各实施例的另一些实施方式中，每个对象对应的多个角度的角度数量为M，其中，M的取值为大于1的整数。相应地，在该实施例中，注意力模块获取一个对象对应的多个角度的对象图像的特征的注意力权重时，具体用于：分别将一个对象对应的M个角度的对象图像的特征的通道数降低为原通道数的1/M；将通道数降低为原通道数的1/M的M个角度的对象图像的特征在通道维度上进行拼接，得到拼接特征；分别将拼接特征中各种角度的特征的通道数降低为原通道数的1/M；获取拼接特征的注意力权重得分图，其中，注意力权重得分图的通道数为M，每个通道的注意力权重得分图分别表示该通道对应角度的特征的重要程度概率的得分；以及分别将每个通道的注意力权重得分图恢复为对应角度的特征的原通道数。

另外，本发明实施例还提供了一种对象识别装置，包括对象识别网络，该对象识别网络基于本发明上述任一实施例所述的训练方法或者训练装置训练得到。如图7所示，为基于本发明上述任一实施例所述的训练方法或者训练装置训练得到的对象识别网络的一种可能的结构示意图。

基于本发明上述实施例提供的对象识别装置，由于预先学习到不同角度的对象图像的特征，可以有效识别包括正面对象在内的不同角度的对象图像，提高对象识别的准确性和识别效率。

另外，本发明实施例提供的另一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现本发明上述任一实施例的训练方法、或者对象识别方法。

图8为本发明电子设备一个应用实施例的结构示意图。下面参考图8，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图8所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一方法对应的操作，例如，利用对象识别网络，分别对多个角度的对象图像进行特征提取；利用所述对象识别网络，对每个对象对应的多个角度的对象图像的特征进行融合，得到融合特征；利用所述对象识别网络，基于所述融合特征进行对象识别，得到所述融合特征对应的多个角度的对象图像的对象识别结果；基于至少一个对象的对象识别结果与标注信息之间的差异，对所述对象识别网络进行训练。再如，利用对象识别网络，对对象图像进行人脸识别，得到所述对象图像的对象识别结果；

其中，所述对象识别网络基于本发明任一实施例所述的训练方法训练得到。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本发明上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明任一实施例所述方法步骤对应的指令。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被CPU执行时，执行本发明的方法中限定的上述功能。

另外，本发明实施例还提供了一种计算机程序，包括计算机指令，当计算机指令在设备的处理器中运行时，实现本发明上述任一实施例的特效程序文件包的生成方法、或者特效生成方法。

另外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本发明上述任一实施例的特效程序文件包的生成方法、或者特效生成方法。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种对象识别网络的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取每个对象对应的所述多个角度的对象图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述每个对象的正面图像，生成每个对象的至少一个其他角度的对象图像，包括：

5.一种对象识别方法，其特征在于，包括：

利用对象识别网络，对对象图像进行人脸识别，得到所述对象图像的对象识别结果；

其中，所述对象识别网络基于权利要求1-4任一所述的方法训练得到。

6.一种对象识别网络的训练装置，其特征在于，包括：

7.一种对象识别装置，包括对象识别网络，其特征在于，所述对象识别网络基于权利要求1-4任一所述的方法或者权利要求6所述的装置训练得到；所述对象识别网络包括：

8.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-5任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-5任一所述的方法。

10.一种计算机程序，包括计算机指令，其特征在于，当所述计算机指令在设备的处理器中运行时，实现上述权利要求1-5任一所述的方法。