CN112836682A

CN112836682A - 视频中对象的识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112836682A
Application number: CN202110239005.XA
Authority: CN
Inventors: 叶建辉
Original assignee: GUANGDONG JIANBANG COMPUTER SOFTWARE CO Ltd
Current assignee: GUANGDONG JIANBANG COMPUTER SOFTWARE CO Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-05-25
Anticipated expiration: 2041-03-04
Also published as: CN112836682B

Abstract

本申请涉及面部识别技术领域，提供了一种视频中对象的识别方法、装置、计算机设备和存储介质。本申请能够提高视频中面部跟踪和识别精度。该方法包括：获取包含至少一个对象的视频后，检测各帧图像中所包含的各对象的面部区域和面部区域置信度及其的体部区域，基于各帧图像中所包含的各对象的面部区域和面部区域置信度及其体部区域，获取相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，并以此确定各帧图像中对应于同一对象的面部区域，从而得到待识别对象在各帧图像中对应的面部图像，将各帧面部图像表征的该待识别对象的面部特征进行融合，即可根据融合后的面部特征与面部特征库的比对结果识别该待识别对象。

Description

视频中对象的识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及面部识别技术领域，特别是涉及一种视频中对象的识别方法、装置、计算机设备和存储介质。

背景技术

面部识别可作为人类活动的重要信息来源的捕捉途径，深度学习进一步推动面部识别技术的发展，使得面部识别在日常生活中越来越得到广泛的应用。

目前所采用的基于视频的面部识别技术，容易由于在监控视频中待识别对象的面部太小、存在对面部的遮挡等因素，导致对面部跟踪失败，把错误跟踪的面部轨迹送入到面部识别系统，降低了对待识别对象的识别精度。

发明内容

基于此，有必要针对上述技术问题，提供一种视频中对象的识别方法、装置、计算机设备和存储介质。

一种视频中对象的识别方法，所述方法包括：

获取包含至少一个对象的视频；

检测所述视频的各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域；

基于所述各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域，获取所述视频的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度；

根据所述体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，确定所述各帧图像中对应于同一对象的面部区域；

根据待识别对象在所述各帧图像中对应的面部区域，获取所述待识别对象在所述各帧图像中对应的面部图像，得到多帧面部图像；

将各帧面部图像表征的所述待识别对象的面部特征进行融合，得到融合后的面部特征；

根据所述融合后的面部特征与面部特征库的比对结果，识别所述待识别对象。

一种视频中对象的识别装置，包括：

视频获取模块，用于获取包含至少一个对象的视频；

视频检测模块，用于检测所述视频的各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域；

图像处理模块，用于基于所述各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域，获取所述视频的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度；

区域确定模块，用于根据所述体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，确定所述各帧图像中对应于同一对象的面部区域；

图像提取模块，用于根据待识别对象在所述各帧图像中对应的面部区域，获取所述待识别对象在所述各帧图像中对应的面部图像，得到多帧面部图像；

特征融合模块，用于将各帧面部图像表征的所述待识别对象的面部特征进行融合，得到融合后的面部特征；

对象识别模块，用于根据所述融合后的面部特征与面部特征库的比对结果，识别所述待识别对象。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取包含至少一个对象的视频；检测所述视频的各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域；基于所述各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域，获取所述视频的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度；根据所述体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，确定所述各帧图像中对应于同一对象的面部区域；根据待识别对象在所述各帧图像中对应的面部区域，获取所述待识别对象在所述各帧图像中对应的面部图像，得到多帧面部图像；将各帧面部图像表征的所述待识别对象的面部特征进行融合，得到融合后的面部特征；根据所述融合后的面部特征与面部特征库的比对结果，识别所述待识别对象。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述视频中对象的识别方法、装置、计算机设备和存储介质，获取包含至少一个对象的视频后，检测各帧图像中所包含的各对象的面部区域和面部区域置信度及其的体部区域，基于各帧图像中所包含的各对象的面部区域和面部区域置信度及其体部区域，获取相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，并以此确定各帧图像中对应于同一对象的面部区域，从而得到待识别对象在各帧图像中对应的面部图像，将各帧面部图像表征的该待识别对象的面部特征进行融合，即可根据融合后的面部特征与面部特征库的比对结果识别该待识别对象。该方案能够利用视频连续帧图像的面部检测和体部检测的关联性，在视频中进行连续帧的面部轨迹跟踪，提高跟踪精度，解决目前技术存在的在视频中面部轨迹跟踪错误的技术问题，进而根据正确的面部跟踪提取各帧面部特征进行融合，基于融合后的面部特征对前述待识别对象进行识别，实现在减轻面部识别系统压力的情况下，提高识别精度。

附图说明

图1为一个实施例中视频中对象的识别方法的应用环境图；

图2为一个实施例中视频中对象的识别方法的流程示意图；

图3为一个实施例中选取待识别对象的步骤的流程示意图；

图4为另一个实施例中视频中对象的识别方法的流程示意图；

图5为一个实施例中视频中对象的识别置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频中对象的识别方法，可以应用于如图1所示的应用环境中，该应用环境可以包括视频采集设备110和服务器120，该视频采集设备110可以通过网络与服务器120进行通信，其中，视频采集设备110可以是具备通信功能的摄像头，该视频采集设备110可以采集连续帧图像形成视频，并将视频传输至服务器120，以供服务器120进行面部分析识别。

具体的，服务器120可获取视频采集设备110采集的视频，该视频中可包含至少一个对象的视频，该对象可以是人、猫和狗等对象。然后，服务器120可以检测该视频的各帧图像中所包含的各对象的面部区域和面部区域置信度，以及各对象的体部区域，也即在每一帧图像中均针对该帧图像中的每一对象的面部区域、面部区域置信度和体部区域进行检测，然后服务器120基于各帧图像中所包含的各对象的面部区域和面部区域置信度及其体部区域，获取视频的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，并据此确定各帧图像中对应于同一对象的面部区域，也即可以得到针对同一对象的面部区域在视频中的轨迹数据(或称面部轨迹)，在选取待识别对象后，服务器120根据该待识别对象在各帧图像中对应的面部区域，获取该待识别对象在各帧图像中对应的面部图像，得到多帧面部图像，然后服务器120将各帧面部图像表征的该待识别对象的面部特征进行融合得到融合后的面部特征，即可根据融合后的面部特征与面部特征库的比对结果，识别前述待识别对象。

上述应用场景中，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频中对象的识别方法，以该方法应用于图1中的服务器120为例进行说明，包括以下步骤：

步骤S201，获取包含至少一个对象的视频；

本步骤中，服务器120可以获取视频采集设备110采集的包含至少一个对象的视频，该对象可以例如人、猫和狗等对象。示例性的，若以人作为对象，则服务器120所获取的视频中可以包含一个或者多个人，服务器120基于该视频采集设备110所采集的视频，对其中的一个或者多个人进行识别，例如可识别出该一个或者多个人对应的如姓名等身份信息。

步骤S202，检测视频的各帧图像中所包含的各对象的面部区域和面部区域置信度，以及各对象的体部区域。

本步骤中，服务器120可对视频中每一帧图像中的每一对象进行检测，检测的内容可以包括每一帧图像中的每个对象的面部区域、面部区域置信度以及体部区域，例如某帧图像中有两个人，则服务器120检测该帧图像中该两人的面部区域、面部区域置信度以及体部区域，其中，体部区域是指该对象的身体部分区域，以人作为对象为例，该体部区域可以是身体上部区域等。具体的，服务器120可利用预先构建的面部检测模型以及体部检测模型对每一帧图像中的每一对象的面部区域、面部区域置信度以及体部区域进行检测，其中，面部检测模型可以用于对每一对象的面部区域及其面部区域置信度进行检测，体部检测模型可以用于对每一对象的体部区域进行检测，进一步的，体部检测模型还可以用于对每一对象的体部区域置信度进行检测。

在实际应用中，面部检测模型对对象的面部区域检测，通常采用矩形框对面部区域进行标注，并得到该矩形框所选取的区域属于面部的置信度(即面部区域置信度)，面部检测模型对于每一对象的检测结果可以用面部检测参数集来进行表示，面部检测参数集可以包括矩形框的位置、尺寸以及面部区域置信度，示例性的，该面部检测参数集j1可以被表示为：j1＝[x1,y1,w1,h1,s1]，其中，x1,y1为所标注面部的矩形框的一角点坐标，该角点可以是左上角，w1,h1则为所标注面部的矩形框的长和宽，s1为面部区域置信度。通过上述方式，可获得每帧图像中每一对象的面部区域和面部区域置信度。

对于体部检测模型，类似的，体部检测模型对对象的体部区域检测，通常也采用矩形框对体部区域进行标注，还可以得到该矩形框所选取的区域属于体部的置信度(即体部区域置信度)，体部检测模型对于每一对象的检测结果可以用体部检测参数集来进行表示，体部检测参数集可以包括矩形框的位置、尺寸以及体部区域置信度，示例性的，该体部检测参数集j2可以被表示为：j2＝[x2,y2,w2,h2,s2]，其中，x2,y2为所标注体部的矩形框的一角点坐标，该角点可以是左上角，w2,h2则为所标注体部的矩形框的长和宽，s2为体部区域置信度。通过上述方式，可获得每帧图像中每一对象的体部区域和体部区域置信度。

在一些实施例中，面部检测模型和体部检测模型均可基于公共数据集训练得到。具体的，对于面部检测模型，服务器120可从公共数据集获取面部训练测试资源，从这些资源中获取面部图像，对获取的面部图像进行预处理或者数据扩充，得到面部图像训练样本数据，基于这些面部图像训练样本数据对神经网络模型进行训练，构建得到面部检测模型。对于体部检测模型，则服务器120可以从例如人体部位公共数据集获取训练测试资源，从这些训练测试资源中获取人体关键点，再利用人体关键点生成例如身体上部的矩形框，作为身体上部检测的训练框，利用神经网络模型进行身体上部检测模型训练，构建得到前述体部检测模型。

本步骤对存在关联性的对象的面部和体部区域在每帧图像中进行检测，有利于后续步骤基于此提高对对象的面部在视频形成的轨迹进行跟踪的精度。

步骤S203，基于各帧图像中所包含的各对象的面部区域和面部区域置信度，以及各对象的体部区域，获取视频的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度；

本步骤中，服务器120基于每帧图像中所包含的各对象面部区域、面部区域置信度及其体部区域，可获取相邻帧图像之间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度。

具体的，相邻帧图像可以包括前帧图像和后帧图像，设前帧图像包含的对象为前帧对象，包括前帧对象A、前帧对象B，后帧图像则包括后帧对象A和后帧对象B，上述步骤S202检测到前帧对象A的前帧体部区域A，检测到后帧对象A和后帧对象B的后帧体部区域A和后帧体部区域B，则上述体部区域交叠程度可以包括前帧体部区域A与后帧体部区域A的交叠程度，以及前帧体部区域A与后帧体部区域B的交叠程度。

上述步骤S202还可以检测到前帧对象A的前帧面部区域A和前帧面部区域置信度A，检测到后帧对象A的后帧面部区域A和后帧面部区域置信度A，以及后帧对象B的后帧面部区域B和后帧面部区域置信度B，则上述面部区域相似程度可以包括前帧面部区域A与后帧面部区域A的相似度，以及前帧面部区域A与后帧面部区域B的相似度；上述面部区域置信度乘积可以包括前帧面部区域置信度A与后帧面部区域置信度A的乘积，以及前帧面部区域置信度A与后帧面部区域置信度B的乘积。

通过上述方式，服务器120可以连续获取视频中的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，以此作为跟踪各对象在视频中的面部轨迹的依据。

步骤S204，根据体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，确定各帧图像中对应于同一对象的面部区域。

本步骤主要是服务器120综合步骤S203中得到的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，可以跟踪前述各对象中的某一对象在连续帧图像中对应的面部区域，从而确定各帧图像中对应于该某一对象的面部区域，例如可以跟踪某个人在每帧图像中对应的面部区域，该某个人在每帧图像中对应的面部区域可以用例如坐标表示，也即对于每帧图像，服务器120均可以用一个或者多个坐标来表示该某个人在相应帧图像中对应的面部区域所在位置，根据该所在位置，服务器120可以得到该某个人的面部区域在视频中的形成的轨迹，称为面部轨迹。由此，针对视频中所包含的各对象，服务器120均可获取到相应的面部轨迹，例如视频中包含三个人，服务器120可获取该三个人的面部轨迹。

步骤S205，根据待识别对象在各帧图像中对应的面部区域，获取待识别对象在各帧图像中对应的面部图像，得到多帧面部图像；

本步骤中，服务器120可以从前述各对象中选取一个或者多个对象作为待识别对象，在一些实施例中，服务器120还可以进一步根据依据实际情况所设定的筛选条件从前述各对象中选取一个或者多个对象。在确定待识别对象后，由于在步骤S204中已获取到各对象在各帧图像中对应的面部区域，所以服务器120可进一步获取该待识别对象在各帧图像中对应的面部区域，从而可以根据该待识别对象在各帧图像中对应的面部区域，从各帧图像中提取相应的面部图像，得到多帧面部图像。

步骤S206，将各帧面部图像表征的待识别对象的面部特征进行融合，得到融合后的面部特征。

本步骤中，服务器120可利用预先构建的面部特征提取模型提取每帧面部图像表征待识别对象的面部特征，将各帧面部图像对应的面部特征进行融合得到融合后的面部特征。

在一些实施例中，服务器120可以通过如下步骤得到各帧面部图像表征的待识别对象的面部特征，具体包括：

服务器120将多帧面部图像输入至预先构建的面部特征提取模型，并获取该面部特征提取模型输出的各帧面部图像对应的面部特征向量。

本实施例中，面部特征提取模型用于提取面部图像中包含的面部特征，该面部特征提取模型可基于神经网络模型构建得到。具体的，服务器120在得到待识别对象在各帧图像中对应的多帧面部图像后，将该多帧面部图像输入至该面部特征提取模型，面部特征提取模型的最后一层全连接层可输出各帧面部图像对应的面部特征向量，该面部特征向量用于表征待识别对象在每帧图像中具有的面部特征，示例性的，第i帧面部图像对应的面部特征向量V_i＝[v₁,v₂,…,v_n]，其中，n表示面部特征向量组成元素的数量，n可以为512。

在一些实施例中，步骤S206进一步包括：将各帧面部图像对应的面部特征向量进行平均值融合，得到融合后的面部特征。

具体的，服务器120将各帧面部图像对应的面部特征向量V_i进行平均值融合，可得到融合后的面部特征

其中，N表示面部图像的数量，∑·表示向量对应元素求和。

本步骤可依据待识别对象的面部区域在视频整体上的表现，对每帧图像对应的面部特征进行平均值融合，提高对象识别的精度。

步骤S207，根据融合后的面部特征与面部特征库的比对结果，识别待识别对象。

本步骤中，服务器120得到融合后的面部特征后，可将融合后的面部特征与面部特征库中已有的面部特征进行逐一比对，得到比对结果，据此识别待识别对象。具体的，服务器120可以将融合后的面部特征与面部特征库中已有的面部特征进行余弦相似度计算，余弦相似度sim的计算公式可以表示为：

其中，v_i和v_0i分别为融合后的面部特征向量的元素和面部特征库中已有的面部特征向量中的元素，余弦相似度sim的值越小，则两个面部特征向量分别所指示的两个对象越有可能为同一个对象，据此，服务器120可通过将融合后的面部特征与面部特征库中已有的面部特征的比对，并依据由面部特征库中已有的面部特征对应的已知对象的相关信息，识别前述待识别对象，以人作为待识别对象为例，服务器120具体可以识别该人的姓名等信息。

上述视频中对象的识别方法，服务器120获取包含至少一个对象的视频后，检测各帧图像中所包含的各对象的面部区域和面部区域置信度及其的体部区域，服务器120基于各帧图像中所包含的各对象的面部区域和面部区域置信度及其体部区域，获取相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，并以此确定各帧图像中对应于同一对象的面部区域，从而服务器120得到待识别对象在各帧图像中对应的面部图像，服务器120将各帧面部图像表征的该待识别对象的面部特征进行融合，即可根据融合后的面部特征与面部特征库的比对结果识别该待识别对象。该方案能够利用视频连续帧图像的面部检测和体部检测的关联性，在视频中进行连续帧的面部轨迹跟踪，提高跟踪精度，解决目前技术存在的在视频中面部轨迹跟踪错误的技术问题，进而根据正确的面部跟踪提取各帧面部特征进行融合，基于融合后的面部特征对前述待识别对象进行识别，实现在减轻面部识别系统压力的情况下，提高识别精度。

在一个实施例中，步骤S203中的基于各帧图像中所包含的各对象的面部区域和面部区域置信度，以及各对象的体部区域，获取视频的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，具体包括：

①确定体部区域交叠程度的子步骤：

根据前帧图像中的各对象的体部区域与后帧图像中的各对象的体部区域的交并比，确定体部区域交叠程度；

相邻帧图像包括前帧图像和后帧图像，该子步骤中，服务器120可以将前帧图像中的各对象的体部区域与后帧图像中的各对象的体部区域的交并比作为该相邻帧图像的体部区域交叠程度。

具体的，设用于对前帧图像中各对象的体部区域进行标注的矩形框为T_i1，用于对后帧图像中各对象的体部区域进行标注的矩形框为T_j2，则该相邻帧图像间各对象的体部区域交叠程度可以表示为：IOU(T_i1,T_j2)，其中，IOU(·)表示两者的交并比。

②获得面部区域置信度乘积的子步骤：

根据前帧图像中的各对象的面部区域置信度与后帧图像中的各对象的面部区域置信度的乘积，得到面部区域置信度乘积。

具体的，设前帧图像中各对象的面部区域置信度为s_i11，设后帧图像中各对象的面部区域置信度为s_j12，则该相邻帧图像间各对象的面部区域置信度乘积可以表示为：s_i11*s_j12。

③获得面部区域相似程度的子步骤：

根据前帧图像中的各对象的面部区域表征的面部特征与后帧图像中的各对象的面部区域表征的面部特征的相似度，得到面部区域相似程度。

该子步骤中，服务器120可获取前帧图像中各对象的面部区域对应的面部图像，将该面部图像送入面部特征提取模型获得相应的面部特征向量，设前帧图像中的各对象的面部区域表征的面部特征向量c_i11，设后帧图像中的各对象的面部区域表征的面部特征向量c_j12，面部区域相似程度可用面部特征向量间的余弦相似度进行表示，由此面部区域相似程度可以表示为：δ(c_i11,c_j12)，其中，δ(·)表示面部特征向量间的余弦相似度。

本实施例提供了将体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度分别进行量化的方式，以供后续步骤中据此对各对象在视频中的面部轨迹进行精确跟踪。

进一步的，在一些实施例中，上述步骤S204中的根据体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，确定各帧图像中对应于同一对象的面部区域，具体包括：

将相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度进行线性叠加，获取相邻帧图像间各对象的匹配程度；基于相邻帧图像间各对象的匹配程度，确定各帧图像中对应于同一对象的面部区域。

本实施例主要是服务器120可以依据相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，获得相邻帧图像间各对象的匹配程度，该匹配程度可以用相邻帧图像间各对象的检测关联分数表示，该检测关联分数可以通过将相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度进行线性叠加的方式计算得到，具体的，相邻帧图像间各对象的检测关联分数

可以表示为：

其中，

即为相邻帧图像包含的前帧图像中各对象

与后帧图像中各对象

的检测关联分数，γ和β为线性叠加的调整系数值。

本实施例采用上述方式，可实现基于体部区域和面部区域的融合检测，提高对象跟踪的精度，具体的，服务器120得到相邻帧图像间各对象的检测关联分数后，可利用贪婪算法在前帧图像和后帧图像中找到相邻帧间检测关联分数最大的两个对象，将其识别为同一对象，从而可以得到相邻帧图像中对应于同一对象的面部区域，依序即可确定出各帧图像中对应于同一对象的面部区域。

在一个实施例中，如图3所示，服务器120在步骤S205中的根据待识别对象在各帧图像中对应的面部区域，获取待识别对象在各帧图像中对应的面部图像，得到多帧面部图像之前，还可以通过如下步骤从前述各对象中选取待识别对象，具体包括：

步骤S301，获取各对象在各帧图像中对应的面部图像与预设面部质量影响因素对应的面部质量影响因素值。

本步骤中，服务器120可获取各对象在各帧图像中对应的面部图像的面部质量影响因素值，该面部质量影响因素值可以是一个或者多个，不同的面部质量影响因素值分别与不同的预设面部质量影响因素对应。其中，预设面部质量影响因素是指评估面部图像的质量时，对面部图像质量存在影响的因素，面部质量影响因素可预先设置在服务器120中，该预设面部质量影响因素包括亮度、动态范围、清晰度和面部姿态中的至少一种。

具体的，对于亮度BR，可以采用如下公式进行计算：

其中，N_bin为灰度直方图bin(划分的像素宽度)的个数，GS(i)为bin中的灰度平均值，H(i)是灰度直方图值。

对于动态范围DR，可以采用如下公式进行计算：

对于清晰度SH，可以采用如下公式进行计算：

其中，G(x,y)的形式如下：

其中，T是给定的边缘检测阈值，G_x和G_y分别是像素点(x,y)处Sobel水平和垂直方向边缘检测算子的卷积。

对于面部姿态，可以采用如下公式进行计算：

其中，H为单应性矩阵，N_LM为面部关键点的数量，r_n＝(r_xn,r_yn,1)为训练集平均面部坐标，s_n为检测的面部坐标，通过上述计算面部姿态的公式，利用最小二乘估计，得到最优的单应性矩阵

即为面部姿态角度，具体的，在一些实施例中，可利用偏航角(YAW)

和俯仰角(pitch)

作为面部姿态的评判标准。

步骤S302，基于面部质量影响因素值，获取各对象在各帧图像中对应的面部图像的面部质量评估值；

服务器120具体可通过执行上述步骤S301获得面部质量影响因素值包括亮度BR、动态范围DR、清晰度SH、偏航角(YAW)

和俯仰角(pitch)

的值，服务器120可基于此评估每个对象(或是各面部轨迹)在视频中对应的面部质量评估值。

具体的，在面部质量数据集中，可把面部按照质量分为5类，每类对应的面部质量为1到5，其中，分数5表示面部质量最高，据此，服务器120可从面部样本数据中获取利用以上面部质量影响因素值，训练如下面部质量评估函数：

其中，

为面部质量评估函数，

为上述的面部质量评估值，ω_i为需要训练的系数，系数训练好以后，服务器120即可用该面部质量评估函数

对面部质量进行评估，得到各对象在各帧图像中对应的面部图像的面部质量评估值。

步骤S303，根据各对象对应的面部质量评估值的相对大小，从各对象中选取待识别对象。

本步骤主要是服务器120可以依据各对象对应的面部质量评估值的相对大小，选取高质量面部作为待识别的对象，以此在减轻服务器120压力的情况下，提高面部识别精度。示例性的，服务器120可选取具有面部质量评估值大于或者等于预设面部质量评估值阈值的对象作为待识别对象，该待识别对象的数量可以是一个或者多个，也可以选取面部质量评估值排名最高的前k个对象作为待识别对象。

在一些实施例中，步骤S205中的获取待识别对象在各帧图像中对应的面部图像，得到多帧面部图像，具体包括：

获取待识别对象在各帧图像中对应的面部图像，得到多帧初始面部图像；将各帧初始面部图像进行平均面部对齐处理；根据对齐后的各帧初始面部图像得到多帧面部图像。

本实施例主要是服务器120将待识别对象在各帧图像中对应的面部图像进行对齐，形成前述多帧面部图像。具体的，服务器120获取待识别对象在各帧图像中对应的面部图像，得到多帧初始面部图像后，将各帧初始面部图像分别输入到面部特征点识别模型，提取各帧初始面部图像中的五个特征点(分别对应于两只眼睛、鼻子、左嘴角、右嘴角)L_m＝[L_xm,L_ym,1]，m为1到5，平均面部坐标为S_n＝[S_xn,S_yn]，n为1到5，利用该两组坐标基于如下公式计算仿射矩阵：

其中，具体可利用最小二乘估计计算得到仿射矩阵H，从而把面部图像进行平均面部对齐，针对对齐后的各帧初始面部图像，服务器120可以旋转中心剪切出例如112×112大小的图像作为面部图像，服务器120可将该面部图像进一步用于输入到预先构建的面部特征提取模型进行面部特征向量获取，以进一步提高识别精度。

在一个实施例中，将本申请提供的视频中对象的识别方法，应用于对视频中人脸识别的场景中进行说明，本实施例中，视频中对象为人，面部区域为人脸区域，体部区域为身体上部区域，参考图4，该识别方法具体包括如下步骤：

步骤S401，服务器120可通过视频采集设备110读取视频，然后服务器120可以执行步骤S402和步骤S403，以对视频中各帧图像的人脸和身体上部区域进行检测；

步骤S402中，服务器120可以检测视频的各帧图像中所包含的每个人的脸部区域和脸部区域置信度；

步骤S403中，服务器120可以检测视频的各帧图像中所包含的每个人的身体上部区域和身体上部区域置信度；

步骤S404，服务器120基于各帧图像中所包含的每个人的脸部区域和脸部区域置信度，以及每个人的身体上部区域，获取该视频的相邻帧图像间的身体上部区域交叠程度、脸部区域置信度乘积以及脸部区域相似程度，然后服务器120将相邻帧图像间的身体上部区域交叠程度、脸部区域置信度乘积以及脸部区域相似程度进行线性叠加，从而实现基于人脸和人体的检测融合，获得相邻帧图像间每个人的匹配程度。

步骤S405，服务器120基于相邻帧图像间每个人的匹配程度，确定各帧图像中对应于同一个人的人脸区域，以此实现对视频中每个人对应的人脸轨迹跟踪。

步骤S406，服务器120可从视频中每个人对应的人脸轨迹中提取高质量的人脸轨迹进行后续识别。具体的，服务器120可获取每个人在各帧图像中对应的人脸图像与预设人脸质量影响因素对应的人脸质量影响因素值，该预设人脸质量影响因素包括亮度、动态范围、清晰度、人脸偏航角和人脸俯仰角，然后服务器120可以基于这些人脸质量影响因素值，获取每个人在该视频中对应的人脸质量评估值，从而选取出具有人脸质量评估值最高的前若干个人作为待识别的人。

步骤S407，服务器120可获取待识别的人在各帧图像中对应的人脸图像，得到多帧初始人脸图像，将各帧初始人脸图像进行平均人脸对齐处理，根据对齐后的各帧初始人脸图像得到多帧人脸图像，然后服务器120将该多帧人脸图像输入到预先构建的人脸特征提取模型，得到该人脸特征提取模型输出的各帧人脸图像对应的人脸特征向量。

步骤S408，服务器120将前述各帧人脸图像对应的人脸特征向量进行平均值融合，得到融合后的人脸特征向量。

步骤S409，服务器120将融合后的人脸特征向量与人脸特征库进行比对，得到比对结果，根据该比对结果对前述待识别的人进行识别，可识别得到例如该待识别的人的姓名等身份信息。

本实施例上述方案，可以解决视频中人脸轨迹跟踪错误，根据正确的人脸跟踪提取高质量人脸进行人脸特征提取，再进行人脸特征融合，利用融合后的人脸特征进行比对和识别，在减轻人脸特征提取服务器压力的情况下，提高人脸识别精度。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种视频中对象的识别装置，该装置500可以包括：

视频获取模块501，用于获取包含至少一个对象的视频；

视频检测模块502，用于检测所述视频的各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域；

图像处理模块503，用于基于所述各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域，获取所述视频的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度；

区域确定模块504，用于根据所述体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，确定所述各帧图像中对应于同一对象的面部区域；

图像提取模块505，用于根据待识别对象在所述各帧图像中对应的面部区域，获取所述待识别对象在所述各帧图像中对应的面部图像，得到多帧面部图像；

特征融合模块506，用于将各帧面部图像表征的所述待识别对象的面部特征进行融合，得到融合后的面部特征；

对象识别模块507，用于根据所述融合后的面部特征与面部特征库的比对结果，识别所述待识别对象。

在一个实施例中，图像处理模块503，进一步用于根据前帧图像中的各对象的体部区域与后帧图像中的各对象的体部区域的交并比，确定所述体部区域交叠程度；所述相邻帧图像包括所述前帧图像和后帧图像；根据所述前帧图像中的各对象的面部区域置信度与所述后帧图像中的各对象的面部区域置信度的乘积，得到所述面部区域置信度乘积；根据所述前帧图像中的各对象的面部区域表征的面部特征与所述后帧图像中的各对象的面部区域表征的面部特征的相似度，得到所述面部区域相似程度。

在一个实施例中，区域确定模块504，进一步用于将所述相邻帧图像间的所述体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度进行线性叠加，获取所述相邻帧图像间各对象的匹配程度；基于所述相邻帧图像间各对象的匹配程度，确定所述各帧图像中对应于同一对象的面部区域。

在一个实施例中，上述装置500还可以包括：对象选取模块，用于获取所述各对象在所述各帧图像中对应的面部图像与预设面部质量影响因素对应的面部质量影响因素值；所述预设面部质量影响因素包括亮度、动态范围、清晰度和面部姿态中的至少一种；基于所述面部质量影响因素值，获取所述各对象在所述各帧图像中对应的面部图像的面部质量评估值；根据所述各对象对应的面部质量评估值的相对大小，从所述各对象中选取所述待识别对象。

在一个实施例中，图像提取模块505，进一步用于获取所述待识别对象在所述各帧图像中对应的面部图像，得到多帧初始面部图像；将各帧初始面部图像进行平均面部对齐处理；根据对齐后的各帧初始面部图像得到所述多帧面部图像。

在一个实施例中，上述装置500还可以包括：特征向量获取单元，用于将所述多帧面部图像输入至预先构建的面部特征提取模型，并获取所述面部特征提取模型输出的所述各帧面部图像对应的面部特征向量；所述面部特征向量用于表征所述待识别对象的面部特征；

特征融合模块506，进一步用于将所述各帧面部图像对应的面部特征向量进行平均值融合，得到所述融合后的面部特征。

在一个实施例中，所述对象为人；所述面部区域为人脸区域；所述体部区域为身体上部区域。

关于视频中对象的识别装置的具体限定可以参见上文中对于视频中对象的识别方法的限定，在此不再赘述。上述视频中对象的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库可以用于存储视频、面部图像、面部特征和面部特征库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频中对象的识别方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频中对象的识别方法，其特征在于，所述方法包括：

获取包含至少一个对象的视频；

2.根据权利要求1所述的方法，其特征在于，所述基于所述各帧图像中所包含的各对象的面部区域和面部区域置信度，以及所述各对象的体部区域，获取所述视频的相邻帧图像间的体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，包括：

根据前帧图像中的各对象的体部区域与后帧图像中的各对象的体部区域的交并比，确定所述体部区域交叠程度；所述相邻帧图像包括所述前帧图像和后帧图像；

根据所述前帧图像中的各对象的面部区域置信度与所述后帧图像中的各对象的面部区域置信度的乘积，得到所述面部区域置信度乘积；

根据所述前帧图像中的各对象的面部区域表征的面部特征与所述后帧图像中的各对象的面部区域表征的面部特征的相似度，得到所述面部区域相似程度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度，确定所述各帧图像中对应于同一对象的面部区域，包括：

将所述相邻帧图像间的所述体部区域交叠程度、面部区域置信度乘积以及面部区域相似程度进行线性叠加，获取所述相邻帧图像间各对象的匹配程度；

基于所述相邻帧图像间各对象的匹配程度，确定所述各帧图像中对应于同一对象的面部区域。

4.根据权利要求1所述的方法，其特征在于，所述根据待识别对象在所述各帧图像中对应的面部区域，获取所述待识别对象在所述各帧图像中对应的面部图像，得到多帧面部图像之前，所述方法还包括：

获取所述各对象在所述各帧图像中对应的面部图像与预设面部质量影响因素对应的面部质量影响因素值；所述预设面部质量影响因素包括亮度、动态范围、清晰度和面部姿态中的至少一种；

基于所述面部质量影响因素值，获取所述各对象在所述各帧图像中对应的面部图像的面部质量评估值；

根据所述各对象对应的面部质量评估值的相对大小，从所述各对象中选取所述待识别对象。

5.根据权利要求1所述的方法，其特征在于，所述获取所述待识别对象在所述各帧图像中对应的面部图像，得到多帧面部图像，包括：

获取所述待识别对象在所述各帧图像中对应的面部图像，得到多帧初始面部图像；

将各帧初始面部图像进行平均面部对齐处理；

根据对齐后的各帧初始面部图像得到所述多帧面部图像。

6.根据权利要求1所述的方法，其特征在于，

所述方法还包括：

将所述多帧面部图像输入至预先构建的面部特征提取模型，并获取所述面部特征提取模型输出的所述各帧面部图像对应的面部特征向量；所述面部特征向量用于表征所述待识别对象的面部特征；

所述将各帧面部图像表征的所述待识别对象的面部特征进行融合，得到融合后的面部特征，包括：

将所述各帧面部图像对应的面部特征向量进行平均值融合，得到所述融合后的面部特征。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述对象为人；所述面部区域为人脸区域；所述体部区域为身体上部区域。

8.一种视频中对象的识别装置，其特征在于，包括：

视频获取模块，用于获取包含至少一个对象的视频；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。