CN113326773A

CN113326773A - 识别模型训练方法、识别方法、装置、设备及存储介质

Info

Publication number: CN113326773A
Application number: CN202110591890.8A
Authority: CN
Inventors: 苏翔博; 王健; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-31
Also published as: JP2023530796A; KR20220110321A; WO2022247343A1

Abstract

本公开提供了识别模型训练方法、识别方法、装置、设备及存储介质，深度学习、计算机视觉技术领域。具体实现方案为：将待处理图像输入待训练的识别模型；通过所述待训练的识别模型的特征输出层，输出所述待处理图像的至少一张特征图；通过所述待训练的识别模型的头部，根据所述至少一张特征图获取所述待处理图像中的第一目标物体的预测数据，以及所述待处理图像中的与所述第一目标物体的预测数据关联的第二目标物体的预测数据；根据第一目标物体的预测数据、第二目标物体的预测数据、第一目标物体的标注数据和第二目标物体的标注数据，优化所述待训练的识别模型，得到训练后的识别模型。本公开实施能够提高识别模型的识别效率和识别效果。

Description

识别模型训练方法、识别方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、计算机视觉技术领域，可应用于智慧城市、智能交通场景下。

背景技术

目标识别是图像处理的一个重要的手段和目的，通过目标识别，可以对视频、静态画面中的物体、人体、动物体等目标物体进行识别，根据识别结果实现身份认证、安全检查等多种用途。

随着计算机技术的发展，在多种需要应用到目标识别技术的场景下，随着应用目的的多样化，被识别的目标物体的多样化，经常需要多重模型实现目标物体识别的目的。如何提高处理待处理图像的模型的效率，是需要改进的一个问题。

发明内容

本公开提供了一种识别模型训练方法、识别方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种识别模型训练方法，包括：

将待处理图像输入待训练的识别模型；

通过待训练的识别模型的特征输出层，输出待处理图像的至少一张特征图；

通过待训练的识别模型的头部，根据至少一张特征图获取待处理图像中的第一目标物体的预测数据，以及待处理图像中的与第一目标物体的预测数据关联的第二目标物体的预测数据；

根据第一目标物体的预测数据、第二目标物体的预测数据、第一目标物体的标注数据和第二目标物体的标注数据，优化待训练的识别模型，得到训练后的识别模型。

根据本公开的另一方面，提供了一种识别方法，包括：

将待识别图像输入识别模型，获得待识别图像中的第一目标物体的预测数据和与第一目标物体关联的第二目标物体的预测数据，识别模型为本公开任意一项实施例所提供的训练后的识别模型。

根据本公开的另一方面，提供了一种识别模型训练装置，包括：

第一输入模块，用于将待处理图像输入待训练的识别模型；

特征图模块，用于通过待训练的识别模型的特征输出层，输出待处理图像的至少一张特征图；

预测数据模块，用于通过待训练的识别模型的头部，根据至少一张特征图获取待处理图像中的第一目标物体的预测数据，以及待处理图像中的与第一目标物体的预测数据关联的第二目标物体的预测数据；

训练模块，用于根据第一目标物体的预测数据、第二目标物体的预测数据、第一目标物体的标注数据和第二目标物体的标注数据，优化待训练的识别模型，得到训练后的识别模型。

根据本公开的另一方面，提供了一种识别装置，包括：

第二输入模块，用于将待识别图像输入识别模型，获得待识别图像中的第一目标物体的预测数据和与第一目标物体关联的第二目标物体的预测数据，识别模型为本公开任意一项实施例所提供的训练后的识别模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，能够通过待训练的识别模型获得第一目标物体和第二目标物体的预测数据，根据预测数据和标注数据对待训练的识别模型进行优化和训练，得到的识别模型对第一目标物体和与第一目标物体相关的第二目标物体的识别，能够实现至少两种目标物体的关联识别，充分利用待识别图像中提供的信息，以较少的模型数量输出较多的识别结果，提高模型的部署和识别效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的识别模型训练方法示意图；

图2是根据本公开另一实施例的识别模型训练方法示意图；

图3是根据本公开又一实施例的识别模型训练方法示意图；

图4是根据本公开一种示例的识别模型训练方法示意图；

图5是根据本公开另一种示例的识别模型训练方法示意图；

图6是根据本公开一种示例的数据处理示意图；

图7是根据本公开一种示例的识别示意图；

图8是根据本公开一实施例的识别模型训练装置示意图；

图9是根据本公开另一实施例的识别模型训练装置示意图；

图10是根据本公开又一实施例的识别模型训练装置示意图；

图11是根据本公开一实施例的识别模型训练装置示意图；

图12是根据本公开一实施例的识别模型训练装置示意图；

图13是用来实现本公开实施例的识别模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例首先提供一种识别模型训练方法，如图1所示，包括：

步骤S11：将待处理图像输入待训练的识别模型；

步骤S12：通过待训练的识别模型的特征输出层，输出待处理图像的至少一张特征图；

步骤S13：通过待训练的识别模型的头部(Head)，根据至少一张特征图获取待处理图像中的第一目标物体的预测数据，以及待处理图像中的与第一目标物体的预测数据关联的第二目标物体的预测数据；

步骤S14：根据第一目标物体的预测数据、第二目标物体的预测数据、第一目标物体的标注数据和第二目标物体的标注数据，优化待训练的识别模型，得到训练后的识别模型。

本实施例中，待处理图像可以是包含需要识别的目标物体的图像。需要识别的目标物体，可以是任何物体，比如人物、人脸、人眼、人体、动物、静物等。

在待训练的识别模型的特征输出层输出两张以上特征图的情况下，两张以上的特征图的尺寸不同。

本实施例中，待训练的识别模型的头部，可以是待训练的识别模型中的一层结构。待训练的识别模型的特征输出层输出至少一张特征图之后，至少一张特征图输入待训练的识别模型的头部，由待训练的识别模型的头部输出第一目标物体的预测数据和第二目标物体的预测数据。

本实施例中，第一目标物体和第二目标物体可以是待识别图像中的目标物体。第一目标物体可以是与第二目标物体的存在几何关联等相关关系的目标物体。

比如，第一目标物体为人脸的情况下，第二目标物体可以为与人脸相关的人体，即在第一目标物体为A人物的脸部的情况下，第二目标物体可以是A人物的人体。再如，第一目标物体为人眼的情况下，第二目标物体可以为与人眼相关的人脸，即在第一目标物体为A人物的眼睛的情况下，第二目标物体可以为A人物的脸部。

本实施例中，第一目标物体和第二目标物体之间可以存在相互包含或被包含的关系。

第一目标物体的预测数据，可以包括第一目标物体的识别数据，如第一目标物体在待识别图像中是否存在、存在的位置等。

第一目标物体的预测数据，还可以包括第一目标物体的特征、属性、质量等数据。比如，第一目标物体的大小等级、完整度等级、外形等级等。

第一目标物体的预测数据可以包括多种预测数据。

本实施中，第一目标物体的预测数据和第二目标物体的预测数据的种类可以相同或不同。

通过待训练的识别模型的头部，根据至少一张特征图获取待处理图像中的第一目标物体的预测数据，以及第二目标物体的预测数据，可以是针对特征图的每个像素，输出用于预测第一目标物体的数据和用于预测第二目标物体的数据，根据所有像素的数据，获得第一目标物体的预测数据和第二目标物体的预测数据。

第一目标物体的预测数据和第二目标物体的预测数据可以用于智慧城市、智能交通等场景。

本实施例中，能够通过待训练的识别模型获得第一目标物体和第二目标物体的预测数据，根据预测数据和标注数据对待训练的识别模型进行优化和训练，得到的识别模型对第一目标物体和与第一目标物体相关的第二目标物体的识别，能够实现至少两种目标物体的关联识别，充分利用待识别图像中提供的信息，以较少的模型数量输出较多的识别结果，提高模型的部署和识别效率。

在一种实施方式中，第一目标物体的预测数据包括第一目标物体的分类预测数据和第一目标物体的属性预测数据；第二目标物体的预测数据包括第二目标物体的预测数据和第二目标物体的属性预测数据。

本实施例中，第一目标物体的分类预测数据可以用于判断待识别图像的某个区域是否为第一目标物体。第一目标物体的属性预测数据可以是用于判断第一目标物体在待识别图像中的呈现质量的参数。比如，的分类预测数据，可以是第一目标物体的判定数据，比如图像中是否存在第一目标物体、包围第一目标物体的锚点框等。

第二目标物体的分类预测数据可以与第一目标物体的分类预测数据相同，也可以与第一目标物体的分类预测数据不同。第二目标物体的属性预测数据可以与第一目标物体的属性预测数据相同，也可以与第一目标物体的属性预测数据不同。

本实施例中，能够获得第一目标物体的分类预测数据、第一目标物体的属性预测数据，也能够获得第二目标物体的分类预测数据和属性预测数据，从而能够对至少两个需要识别的关联目标物体进行联合输出，从而，不仅能够通过少量的模型获得较多数量的目标物体的识别结果，而且识别第一目标物体和第二目标物体的过程能够相互融合，达到更好的识别效果。

在一种实施方式中，如图2所示，通过待训练的识别模型的头部，输出第一目标物体的预测数据，以及与第一目标物体的预测数据关联的第二目标物体的预测数据，包括：

步骤S21：针对特征图的每一个像素，输出第一目标物体的锚点框预测数据和第二目标物体的锚点框预测数据；

步骤S22：根据第一目标物体的锚点框预测数据和第二目标物体的锚点框预测数据，输出第一目标物体的预测数据和第二目标物体的预测数据。

本实施例中，针对特征图的每一个像素，第一目标物体的锚点框预测数据，可以包括像素是第一目标物体的概率等数据。第二目标物体的锚点框预测数据可以与第一目标物体的锚点框预测数据相同。

根据第一目标物体的锚点框预测数据，可以在特征图中确定第一目标物体的边界点，从而形成包围第一目标物体的锚点框，根据锚点框确定第一目标物体的预测数据。针对第二目标物体的预测数据，可采用与第一目标物体的预测数据相同的方式生成。

上述步骤S21和S22可通过待训练的识别模型的头部执行。

本实施例中，能够对特征图的每一个像素生成用于预测第一目标物体和第二目标物体的预测数据的锚点框预测数据，从而后续能够获得包围目标物体的锚点框，更为准确第根据锚点框等信息输出第一目标物体和第二目标物体的预测数据。

在一种实施方式中，第一目标物体为人脸；第二目标物体为人体。

在安防大数据系统等场景下，往往需要将监控视频流中出现的自然人进行检测跟踪，并将其中的关键帧图像进行存储记录。其中，关键帧图像可包含人脸、人体中的至少一个，可用于后续的人脸和/或人体检索。本公开实施例可设定第一目标物体为人脸，第二目标物体为人体，从而能够用于视频流的抓拍系统中的人体人脸检测，并将属于同于自然人的人体和人脸进行关联，同时在包含一段不间断的自然人轨迹的视频中，选取最适合识别的一个帧图像存入数据库，为后续的追踪、检索、安防等操作提供重要且高质量的信息。

本实施例中，能够识别待识别图像中的人脸以及与人脸相关的人体，从而实现关联识别。

在一种实施方式中，特征输出层包括主干网络和特征金字塔网络；通过待训练的识别模型的特征输出层，输出待处理图像的至少一张特征图，如图3所示，包括：

步骤S31：通过主干网络(Backbone)，输出待处理图像的多张第一特征图；

步骤S32：将多张第一特征图中的N张第二特征图输入特征金字塔网络(FeaturePyramid Network，FPN)，N为不小于1的整数；

步骤S33：通过特征金字塔网络，输出N张第三特征图；

步骤S34：将N张第三特征图作为特征图。

在本实施例中，N张第二特征图可以是根据第一特征图中尺寸较小的N张第一特征图生成的。比如，主干网络输出5张第一特征图，F1、F2、F3、F4、F5，其中，F1-F5的尺寸逐渐变小，特征金字塔网络根据F3、F4、F5分别输出F6、F7、F8三张第二特征图。

主干网络可以包括多层CNN(Convolutional Neural Networks，卷积神经网络)子网络，可对输入待训练的识别模型的待识别图像进行卷积操作，获得多张第一特征图。

特征金字塔网络可对N张第一特征图进行进一步的卷积操作等处理，使得待识别图像中的高级语义信息融入特征图中，得到N张第二特征图。

N张第二特征图可以是尺寸大小各不相同的特征图，可用于识别在待识别图像中呈现不同大小的目标物体，例如，较小尺寸的特征图可用于识别较大尺寸的目标物体，较大尺寸的特征图可用于识别较小尺寸的目标物体。

本实施例中，通过待训练的识别模型的主干网络和特征金字塔网络，能够获得待识别图像的特征图，从而后续能够根据特征图进行第一目标物体和关联的第二目标物体的识别以及相关的数据预测。

本公开实施例还提供一种图像识别方法，如图4所示，包括：

步骤S41：将待识别图像输入识别模型，获得待识别图像中的第一目标物体的预测数据和与第一目标物体关联的第二目标物体的预测数据，识别模型为本公开任意一项实施例所提供的训练后的识别模型。

本实施例中，能够利用训练后的识别模型对待识别图像进行识别，获得关联的第一目标物体和第二目标物体的预测数据，从而能够采用较少数量的模型获得较多的预测结果。

在一种实施方式中，待识别图像为待识别视频中的帧图像；识别方法还包括：

根据第一目标物体的预测数据和第二目标物体的预测数据，获得待识别视频中的关键帧图像。

本实施例中，可根据第一目标物体的预测数据和第二目标物体的预测数据，确定待识别视频中第一目标物体和第二目标物体的整体质量最好的图像帧为关键帧图像。

还可根据第一目标物体的预测数据和第二目标物体的预测数据，分别确定待识别视频中第一目标物体和第二目标物体的整体质量最好的图像帧为第一目标物体关键帧图像和第二目标物体的关键图像帧。

本实施例中，通过第一目标物体和第二目标物体的预测数据，获得待识别视频中的关键图像帧，从而可以根据关键图像帧进行人脸识别、活体识别、人体识别、人脸追踪、人体追踪等操作，在应用于智能安防、智能识别等多种场景和领域，能够取得更好的使用效果。

本公开一种示例中，识别模型训练方法可应用于人脸和人体识别，可以包括如图5所示的步骤：

步骤S51：获得待识别图像。

具体的，可对监控或其他场景摄像头的实时视频流抽取图像帧，可以逐帧抽取，也可以设定间隔进行抽取。抽取的图像帧首先经过预处理，被缩放成固定尺寸，如416×416，并减去统一的RGB均值(如[104,117,123])，使得各待识别图像的尺寸和RGB均值在待训练的识别模型的训练过程中统一，从而增强训练后的识别的模型的鲁棒性。

步骤S52：将待识别图像输入别模型。

经过预处理的待识别图像可被送入待训练的识别模型进行计算。

步骤S53：获得待识别图像的特征图。

待训练的识别模型的输入数据可以为经过上述步骤S52预处理后的图像，经过主干网络的处理，得到不同深度和尺度的第一特征图。主干网络的结构可以与YOLO统一实时目标检测(You Only Look Once:Unified,Real-Time Object Detection)模型的主干网络相同，具体可包括具有卷积计算功能的子网络，子网络例如可以是DarkNet、ResNet等网络。

将主干网络输出的第一特征图中尺寸较小的N张，输入特征金字塔网络。通过FPN对主干网络输出的N张第一特征图通过对应的路径进行互相融合，最终得到N个不同尺度的特征图。这N个不同尺寸的特征图可分别用于感知图像上由大到小的不同尺度的目标。

步骤S54：获得第一目标物体预测数据和第二目标物体预测数据。

本示例中，特征金字塔网络后连接待训练识别模型的头部，头部可包括若干个卷积层-激活层-批处理层的组合。

本示例中，可预先设定每个特征图像素位置上产生至少一种不同大小比例的锚点框在锚点框基础上回归一个结果。每个锚点框对应有一个长度为(5+N+M)的中间输出数据。中间输出数据的通道数是5+N+M)，表示基于该锚点框对目标检测框的预测(conf，x,y,w,h,class)以及属性的预测值。conf表示该锚点框内包含目标的置信度，x、y、w、h为归一化的检测框坐标及尺度；class是一个维度为N的向量，表示目标属于某一类别的概率对应该类别索引的向量内的值；属性的预测值是长度为M的向量。

人体和人脸的关联关系的定义可以为：属于同一自然人的人体框和人脸框是一组有关联关系的人体-人脸框。生成训练目标时，在每个人体框的中心点所对应的锚点(像素)上生成人体框的标签，同时如果该人体框所对应的自然人在图像中有人脸出现，则在同一锚点上生成该人体所关联的人脸框。

预测时，将完成预处理后的图像输入网络，得到图像中所有人体框和该人体所对应的人脸框，以及人体框对应的属性和人脸框所对应的属性。人体框对应的属性可以包括是否截断、是否异常、遮挡程度和朝向。人脸框所对应的属性可以包括质量、俯仰角、偏航角和翻滚角。

利用人体框和人脸框进行联合跟踪，从轨迹中选取无截断、无异常、遮挡程度低的不同朝向人体关键帧存储入库，选取质量分数高、角度较小的人脸关键帧图像存储入库，入库的关键帧图像可用于后续进行人脸检索等与目标物体相关的操作。

本公开实施例可应用于人脸和/或识别时，只对待识别图像进行一次深度学习模型提取，得到待识别图像上所有人体和人脸的检测框，人体属性、人脸属性，以及人体和人脸的对应关系。相比于利用单阶段模型同时进行关联检测和属性结果的输出，本公开实施例最大程度降低了计算资源开销，同时从模型直接输出人脸和人体的关联关系，无需单独进行人脸和人体的关联判断。

本公开一种示例中，识别模型的结构可以如图6所示，包括主干网络61、特征金字塔网络(FPN)62、头部63。在模型训练阶段，根据头部63输出的数据，可获得用于优化待训练的识别模型的损失(Loss)。通过主干网络61，根据待识别图像输出多张第一特征图，具体可以是C1、C2、C3、C4、C5，尺寸关系为：C1＞C2＞C3＞C4＞C5。经过FPN62，对C3、C4、C5进行融合计算，比如，可根据C3对应的顺序，融合被处理的第一特征图中的至少一张，输出第二特征图P3；根据C4对应的顺序，融合被处理的第一特征图中的至少一张，输出第二特征图P4；根据C5对应的顺序，融合被处理的第一特征图中的至少一张，输出第二特征图P5。头部63可包含卷积层conv3×3，头部的输出通道数为输入通道数的2倍，输出数据可分别为：人脸预测数据conv3×3C，3(K+5+4)，人体预测数据conv3×3C，3(K+5+4)。

其中，C是输入到头部的特征通道数，k是类别数，5是(x,y,w,h,conf)，4是人脸的三个角度和质量，11是人体的4个属性对应的向量：是否正常人体(否，是)；是否截断(否，是)；遮挡程度(无遮挡，轻微遮挡，重度遮挡)；朝向(正面，背面，左侧面，右侧面)。

根据人脸预测数据和人体预测数据，可分别得出人脸的质量相关数据：人脸框(Face Box)，人脸分数(Face Score)，人脸角度(Face Angle)，人脸质量(Face Quality)；以及人体的质量相关数据：人体框(Human Box)，人体分数(Human Score)，人体质量(HumanQuality)。

例如，可根据图7所示的识别结果，获得人脸框71和人体框72，同时获得人脸和人体的质量相关数据：正常人体、无遮挡、无截断、正面。可选择待识别视频中联合NMS(Non-Maximum Suppression，非极大抑制值)最大的帧图像作为关键帧图像。

本公开实施例还提供一种识别模型训练装置，如图8所示，包括：

第一输入模块81，用于将待处理图像输入待训练的识别模型；

特征图模块82，用于通过待训练的识别模型的特征输出层，输出待处理图像的至少一张特征图；

预测数据模块83，用于通过待训练的识别模型的头部，根据至少一张特征图获取待处理图像中的第一目标物体的预测数据，以及待处理图像中的与第一目标物体的预测数据关联的第二目标物体的预测数据；

训练模块84，用于根据第一目标物体的预测数据、第二目标物体的预测数据、第一目标物体的标注数据和第二目标物体的标注数据，优化待训练的识别模型，得到训练后的识别模型。

在一种实施方式中，如图9所示，预测数据模块包括：

第一预测单元91，用于针对特征图的每一个像素，输出第一目标物体的锚点框预测数据和第二目标物体的锚点框预测数据；

第二预测单元92，用于根据第一目标物体的锚点框预测数据和第二目标物体的锚点框预测数据，输出第一目标物体的预测数据和第二目标物体的预测数据。

在一种实施方式中，如图10所示，特征输出层包括主干网络和特征金字塔网络；特征图模块包括：

第一特征图单元101，用于通过主干网络，输出待处理图像的多张第一特征图；

第一特征图输入单元102，用于，将多张第一特征图中的N张第二特征图输入特征金字塔网络，N为不小于1的整数；

第二特征图单元103，用于通过特征金字塔网络，输出N张第二特征图；

第二特征图处理单元104，用于将N张第二特征图作为特征图。

本公开实施例还提供一种图像识别装置，如图11所示，包括：

第二输入模块111，用于将待识别图像输入识别模型，获得待识别图像中的第一目标物体的预测数据和与第一目标物体关联的第二目标物体的预测数据，识别模型为本公开任意一项实施例所提供的训练后的识别模型。

在一种实施方式中，待识别图像为待识别视频中的帧图像；如图12所示，识别装置还包括：

关键帧图像模块121，用于根据第一目标物体的预测数据和第二目标物体的预测数据，获得待识别视频中的关键帧图像。

本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开的实施例的示例电子设备130的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图13所示，电子设备130包括计算单元131，其可以根据存储在只读存储器(ROM)132中的计算机程序或者从存储单元138加载到随机访问存储器(RAM)133中的计算机程序来执行各种适当的动作和处理。在RAM 133中，还可存储电子设备130操作所需的各种程序和数据。计算单元131、ROM 132以及RAM 133通过总线134彼此相连。输入输出(I/O)接口135也连接至总线134。

电子设备130中的多个部件连接至I/O接口135，包括：输入单元136，例如键盘、鼠标等；输出单元137，例如各种类型的显示器、扬声器等；存储单元138，例如磁盘、光盘等；以及通信单元139，例如网卡、调制解调器、无线通信收发机等。通信单元139允许电子设备130通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元131可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元131的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元131执行上文所描述的各个方法和处理，例如识别模型训练方法。例如，在一些实施例中，识别模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元138。在一些实施例中，计算机程序的部分或者全部可以经由ROM 132和/或通信单元139而被载入和/或安装到电子设备130上。当计算机程序加载到RAM 133并由计算单元131执行时，可以执行上文描述的识别模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元131可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行识别模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种识别模型训练方法，包括：

将待处理图像输入待训练的识别模型；

通过所述待训练的识别模型的特征输出层，输出所述待处理图像的至少一张特征图；

通过所述待训练的识别模型的头部，根据所述至少一张特征图获取所述待处理图像中的第一目标物体的预测数据，以及所述待处理图像中的与所述第一目标物体的预测数据关联的第二目标物体的预测数据；

根据第一目标物体的预测数据、第二目标物体的预测数据、第一目标物体的标注数据和第二目标物体的标注数据，优化所述待训练的识别模型，得到训练后的识别模型。

2.根据权利要求1所述的方法，其中，所述第一目标物体的预测数据包括所述第一目标物体的分类预测数据和所述第一目标物体的属性预测数据；所述第二目标物体的预测数据包括所述第二目标物体的预测数据和所述第二目标物体的属性预测数据。

3.根据权利要求1或2中任意一项所述的方法，其中，所述通过所述待训练的识别模型的头部，输出第一目标物体的预测数据，以及与所述第一目标物体的预测数据关联的第二目标物体的预测数据，包括：

针对所述特征图的每一个像素，输出所述第一目标物体的锚点框预测数据和所述第二目标物体的锚点框预测数据；

根据所述第一目标物体的锚点框预测数据和所述第二目标物体的锚点框预测数据，输出所述第一目标物体的预测数据和所述第二目标物体的预测数据。

4.根据权利要求1-3中任意一项所述的方法，其中，所述第一目标物体为人脸；所述第二目标物体为人体。

5.根据权利要求1-4中任意一项所述的方法，其中，所述特征输出层包括主干网络和特征金字塔网络；所述通过所述待训练的识别模型的特征输出层，输出所述待处理图像的至少一张特征图，包括：

通过所述主干网络，输出所述待处理图像的多张第一特征图；

将所述多张第一特征图中的N张第二特征图输入所述特征金字塔网络，N为不小于1的整数；

通过所述特征金字塔网络，输出N张第三特征图；

将所述N张第三特征图作为所述特征图。

6.一种识别方法，包括：

将待识别图像输入识别模型，获得所述待识别图像中的第一目标物体的预测数据和与所述第一目标物体关联的第二目标物体的预测数据，所述识别模型为权利要求1-5中任意一项所述的训练后的识别模型。

7.根据权利要求6所述方法，其中，所述待识别图像为待识别视频中的帧图像；所述方法还包括：

根据所述第一目标物体的预测数据和所述第二目标物体的预测数据，获得所述待识别视频中的关键帧图像。

8.一种识别模型训练装置，包括：

第一输入模块，用于将待处理图像输入待训练的识别模型；

特征图模块，用于通过所述待训练的识别模型的特征输出层，输出所述待处理图像的至少一张特征图；

预测数据模块，用于通过所述待训练的识别模型的头部，根据所述至少一张特征图获取所述待处理图像中的第一目标物体的预测数据，以及所述待处理图像中的与所述第一目标物体的预测数据关联的第二目标物体的预测数据；

训练模块，用于根据第一目标物体的预测数据、第二目标物体的预测数据、第一目标物体的标注数据和第二目标物体的标注数据，优化所述待训练的识别模型，得到训练后的识别模型。

9.根据权利要求8所述的装置，其中，所述第一目标物体的预测数据包括所述第一目标物体的分类预测数据和所述第一目标物体的属性预测数据；所述第二目标物体的预测数据包括所述第二目标物体的预测数据和所述第二目标物体的属性预测数据。

10.根据权利要求8或9中任意一项所述的装置，其中，所述预测数据模块包括：

第一预测单元，用于针对所述特征图的每一个像素，输出第所述一目标物体的锚点框预测数据和所述第二目标物体的锚点框预测数据；

第二预测单元，用于根据所述第一目标物体的锚点框预测数据和所述第二目标物体的锚点框预测数据，输出所述第一目标物体的预测数据和所述第二目标物体的预测数据。

11.根据权利要求8-10中任意一项所述的装置，其中，所述第一目标物体为人脸；所述第二目标物体为人体。

12.根据权利要求8-11中任意一项所述的装置，其中，所述特征输出层包括主干网络和特征金字塔网络；所述特征图模块包括：

第一特征图单元，用于通过所述主干网络，输出待处理图像的多张第一特征图；

第一特征图输入单元，用于，将所述多张第一特征图中的N张第二特征图输入所述特征金字塔网络，N为不小于1的整数；

第二特征图单元，用于通过所述特征金字塔网络，输出N张第三特征图；

第二特征图处理单元，用于将所述N张第三特征图作为所述特征图。

13.一种识别装置，包括：

第二输入模块，用于将待识别图像输入识别模型，获得所述待识别图像中的第一目标物体的预测数据和与所述第一目标物体关联的第二目标物体的预测数据，所述识别模型为权利要求8-12中任意一项所述的训练后的识别模型。

14.根据权利要求13所述装置，其中，所述待识别图像为待识别视频中的帧图像；所述装置还包括：

关键帧图像模块，用于根据所述第一目标物体的预测数据和所述第二目标物体的预测数据，获得所述待识别视频中的关键帧图像。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。