CN111738120B

CN111738120B - 人物识别方法、装置、电子设备及存储介质

Info

Publication number: CN111738120B
Application number: CN202010538407.5A
Authority: CN
Inventors: 范音; 彭博
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2023-12-05
Anticipated expiration: 2040-06-12
Also published as: CN111738120A

Abstract

本发明实施例提供了一种人物识别方法、装置、电子设备及存储介质。其中方法包括：针对待处理视频中的每帧图像，提取所述图像中的人脸框图像；从第二帧图像开始，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，将属于同一人物的人脸框图像归类到同一个第一集合中；依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份。本发明实施例能够提高人物识别的准确率和召回率。

Description

人物识别方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种人物识别方法、装置、电子设备及存储介质。

背景技术

随着网络技术的飞速发展，用户越来越依赖于通过网络获取各种信息，视频即为一种非常普遍的信息传播媒介。为了满足用户需求，针对视频的处理技术越来越丰富。对视频进行人物识别，能够识别出视频中的人物身份，在对视频进行分类、推荐、内容审核等场景中有着重要的应用。

现有技术中对视频进行人物识别的具体做法如下：从视频中选取一帧包含人脸的图像，对该帧图像进行人脸识别，提取人脸特征，将提取的人脸特征与人脸特征库中的人脸特征进行匹配，当匹配成功时，将人脸特征库中匹配成功的人脸特征对应的人物身份作为该帧图像对应的人物身份。

但是，图像中的人脸可能会受外物遮挡、模糊、远景、光照等情况的影响，导致人脸的清晰度较差，进而导致对人物识别的准确率较低。

发明内容

本发明实施例的目的在于提供一种人物识别方法、装置、电子设备及存储介质，以提高人物识别的准确率。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种人物识别方法，包括：

针对待处理视频中的每帧图像，提取所述图像中的人脸框图像；

从第二帧图像开始，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，将属于同一人物的人脸框图像归类到同一个第一集合中；

依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份。

可选地，所述依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份，包括：将所述第一集合进行聚类，得到至少一个第二集合；针对每个第二集合，依据所述第二集合中的人脸框图像获取所述第二集合的类中心，将所述第二集合的类中心与预设的人脸特征库进行匹配，得到所述第二集合的类中心对应的人物身份；针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心，将所述第一集合的类中心与各第二集合的类中心进行匹配，将匹配成功的第二集合的类中心对应的人物身份作为所述第一集合对应的人物身份。

可选地，所述将所述第一集合进行聚类，得到至少一个第二集合，包括：重复执行如下步骤：针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心；计算每两个类中心的人脸特征相似度，将人脸特征相似度大于预设的第一相似度阈值的类中心对应的第一集合合并为一个第一集合；当不再继续合并时，将当前的一个第一集合作为一个第二集合。

可选地，所述判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，包括：针对当前帧图像中的每个人脸框图像，从第一个前帧图像开始，判断当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像是否属于同一人物；所述第一个前帧图像为当前帧图像的前一帧图像；直至判断出属于同一人物为止，完成对当前帧图像中的当前人脸框图像的判断，或者，直至判断出不属于同一人物且已确定的前帧图像的个数达到预设个数为止，完成对当前帧图像中的当前人脸框图像的判断。

可选地，所述判断当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像是否属于同一人物，包括：计算当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像的位置交并比和人脸特征相似度；将所述位置交并比大于预设的交并比阈值，且所述人脸特征相似度大于预设的第二相似度阈值的人脸框图像判定为属于同一人物。

可选地，在所述依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份之前，还包括：针对每个第一集合，获取所述第一集合中的人脸框图像的数量；过滤掉人脸框图像的数量小于预设的数量阈值的第一集合。

可选地，在所述依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份之前，还包括：针对每个第一集合，利用预设的人脸质量评估模型对所述第一集合中的各人脸框图像进行质量评估，得到各人脸框图像的质量评估值；过滤掉质量评估值小于预设的质量阈值的人脸框图像。

在本发明实施的第二方面，还提供了一种人物识别装置，包括：

提取模块，用于针对待处理视频中的每帧图像，提取所述图像中的人脸框图像；

判断模块，用于从第二帧图像开始，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，将属于同一人物的人脸框图像归类到同一个第一集合中；

识别模块，用于依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份。

可选地，所述识别模块包括：聚类单元，用于将所述第一集合进行聚类，得到至少一个第二集合；第一匹配单元，用于针对每个第二集合，依据所述第二集合中的人脸框图像获取所述第二集合的类中心，将所述第二集合的类中心与预设的人脸特征库进行匹配，得到所述第二集合的类中心对应的人物身份；第二匹配单元，用于针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心，将所述第一集合的类中心与各第二集合的类中心进行匹配，将匹配成功的第二集合的类中心对应的人物身份作为所述第一集合对应的人物身份。

可选地，所述聚类单元，具体用于重复执行如下步骤：针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心；计算每两个类中心的人脸特征相似度，将人脸特征相似度大于预设的第一相似度阈值的类中心对应的第一集合合并为一个第一集合；当不再继续合并时，将当前的一个第一集合作为一个第二集合。

可选地，所述判断模块，具体用于针对当前帧图像中的每个人脸框图像，从第一个前帧图像开始，判断当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像是否属于同一人物；所述第一个前帧图像为当前帧图像的前一帧图像；直至判断出属于同一人物为止，完成对当前帧图像中的当前人脸框图像的判断，或者，直至判断出不属于同一人物且已确定的前帧图像的个数达到预设个数为止，完成对当前帧图像中的当前人脸框图像的判断。

可选地，所述判断模块包括：计算单元，用于计算当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像的位置交并比和人脸特征相似度；判定单元，用于将所述位置交并比大于预设的交并比阈值，且所述人脸特征相似度大于预设的第二相似度阈值的人脸框图像判定为属于同一人物。

可选地，所述装置还包括：第一过滤模块，用于在所述识别模块依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份之前，针对每个第一集合，获取所述第一集合中的人脸框图像的数量；过滤掉人脸框图像的数量小于预设的数量阈值的第一集合。

可选地，所述装置还包括：第二过滤模块，用于在所述识别模块依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份之前，针对每个第一集合，利用预设的人脸质量评估模型对所述第一集合中的各人脸框图像进行质量评估，得到各人脸框图像的质量评估值；过滤掉质量评估值小于预设的质量阈值的人脸框图像。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任一所述的人物识别方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的人物识别方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的人物识别方法。

本发明实施例提供的人物识别方法、装置、电子设备及存储介质，针对待处理视频中的每帧图像，提取所述图像中的人脸框图像；从第二帧图像开始，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，将属于同一人物的人脸框图像归类到同一个第一集合中；依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份。由此可知，本发明实施例中基于同一人物在视频中出现的时间具有连续性，通过对连续相邻的多帧图像进行比较，将属于同一人物的人脸框图像归类到同一个第一集合中，综合整个第一集合的信息，依据该人物对应的多个人脸框图像识别该人物的身份。相比于现有技术中利用单帧图像进行人物识别，会受外物遮挡、模糊、远景、光照等情况的影响，利用同一人物对应的多个人脸框图像进行人物识别，能够降低这些外在因素的影响，提高人物识别的准确率和召回率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中的一种人物识别方法的步骤流程图。

图2为本发明实施例中的另一种人物识别方法的步骤流程图。

图3为本发明实施例中的一种人物识别过程的示意图。

图4为本发明实施例中的一种人物识别装置的结构框图。

图5为本发明实施例中的另一种人物识别装置的结构框图。

图6为本发明实施例中的一种电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明实施例中，针对通过单帧图像无法准确识别出人物身份的问题，基于同一人物在视频中出现的时间具有连续性，提取同一人物在视频中出现的片段，根据片段中的该同一人物的多个人脸框图像进行人物识别，相比于单帧图像识别，多个人脸框图像综合识别，能够降低外在因素的影响，提高人物识别的准确率和召回率。

下面，结合各个实施例对人物识别方法进行详细介绍。

图1为本发明实施例中的一种人物识别方法的步骤流程图。

本发明实施例中的人物识别方法可以包括以下步骤：

步骤101，针对待处理视频中的每帧图像，提取所述图像中的人脸框图像。

本发明实施例的人物识别方法可以应用于提供视频处理服务的服务器中。待处理视频是指具有人物识别需求的视频。比如，各种电影、电视剧集、自媒体视频、广告视频等，均可以作为待处理视频。待处理视频可以是预先存储在服务器中的视频，也可以是由客户端发送给服务器的视频。

帧(Frame)是组成视频的最小视觉单位，一帧就是一幅静止的图像，连续的帧就形成视频。本发明实施例中，针对待处理视频中的每帧图像，分别提取其中的人脸框图像。其中，一帧图像中可以提取出一个或多个人脸框图像。

步骤102，从第二帧图像开始，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，将属于同一人物的人脸框图像归类到同一个第一集合中。

从第二帧图像开始，将当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像进行比较，判断不同的人脸框图像是否属于同一人物。比如，如果当前帧图像为第二帧图像，则位于第二帧图像之前且与第二帧图像连续相邻的前帧图像为第一帧图像；如果当前帧图像为第三帧图像，则位于第三帧图像之前且与第三帧图像连续相邻的前帧图像为第二帧图像和第一帧图像；如果当前帧图像为第四帧图像，则位于第四帧图像之前且与第四帧图像连续相邻的前帧图像为第三帧图像、第二帧图像和第一帧图像，以此类推。

经过上述比较之后，将属于同一人物的人脸框图像归类到同一个第一集合中，得到至少一个第一集合。

步骤103，依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份。

由于每个第一集合中包含的均是同一人物的多个人脸框图像，因此可以依据第一集合中同一人物的多个人脸框图像，综合识别该第一集合中的人物身份。

本发明实施例中基于同一人物在视频中出现的时间具有连续性，通过对连续相邻的多帧图像进行比较，将属于同一人物的人脸框图像归类到同一个第一集合中，综合整个第一集合的信息，依据该人物对应的多个人脸框图像识别该人物的身份。相比于现有技术中利用单帧图像进行人物识别，会受外物遮挡、模糊、远景、光照等情况的影响，利用同一人物对应的多个人脸框图像进行人物识别，能够降低这些外在因素的影响，提高人物识别的准确率和召回率。

图2为本发明实施例中的另一种人物识别方法的步骤流程图。

本发明实施例中的人物识别方法可以包括以下步骤：

步骤201，针对待处理视频中的每帧图像，提取所述图像中的人脸框图像。

本发明实施例中，可以利用人脸检测技术，对待处理视频中的每帧图像进行人脸检测，提取出各帧图像中的人脸框图像。

人脸检测，即检测出图像中存在的人脸，并准确的标记出人脸框的位置。比如，可以采用单个CNN(Convolutional Neural Network，卷积神经网络)人脸检测方法、级联CNN人脸检测方法、OpenCV人脸检测方法，等等。

比如，采用MTCNN(多任务级联卷积神经网络)进行人脸检测。MTCNN由三个部分组成，P-Net(proposal Network，建议网络)，R-Net(refine Network，精炼网络)，O-Net(output Network，输入输出网络)。这三个部分是相互独立的三个网络结构，相互串联的关系。每个阶段的网络都是一个多任务网络，处理的任务有三个：人脸/非人脸的判断、人脸框回归、特征点定位。在进行人脸检测时，将待处理视频中的一帧图像输入MTCNN中。首先，进入P-Net阶段，P-Net的基本构造是一个全连接网络，在P-Net阶段通过一个人脸分类器对输入的一帧图像进行人脸/非人脸的判断，同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提议，该部分最终将输出很多张可能存在人脸的第一人脸框图像，并将这些第一人脸框图像输入R-Net。然后，进入R-Net阶段，R-Net的基本构造是一个卷积神经网络，在R-Net阶段将输入的第一人脸框图像进行细化选择，舍去大部分的错误输入，并再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位，最后将输出较为可信的第二人脸框图像，并将这些第二人脸框图像输入O-Net。最后，进入O-Net阶段，O-Net是一个更复杂的卷积网络，在网络结构的最后是一个更大的256维的全连接层，在O-Net阶段再进行人脸判别、人脸区域边框回归和人脸特征定位，最终输出人脸框图像的左上角坐标和右下角坐标与人脸框图像中的五个特征点，O-Net的输出作为MTCNN的最终输出。根据MTCNN的输出即可提取图像中的人脸框图像。

步骤202，从第二帧图像开始，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，将属于同一人物的人脸框图像归类到同一个第一集合中。

本发明实施例中，从第二帧图像开始，将当前帧图像中的人脸框图像与至少一前帧图像中的人脸框图像进行比较，判断不同的人脸框图像是否属于同一人物。

在一种可选实施方式中，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物的过程可以包括：针对当前帧图像中的每个人脸框图像，从第一个前帧图像开始，判断当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像是否属于同一人物；直至判断出属于同一人物为止，完成对当前帧图像中的当前人脸框图像的判断，或者，直至判断出不属于同一人物且已确定的前帧图像的个数达到预设个数为止，完成对当前帧图像中的当前人脸框图像的判断。其中，第一个前帧图像为当前帧图像的前一帧图像。

比如，如果当前帧图像为第二帧图像，则前帧图像为第一帧图像。将第一帧图像作为当前前帧图像，针对第二帧图像中的每个人脸框图像，将当前人脸框图像与第一帧图像中的人脸框图像进行比较。如果判断出第二帧图像中的当前人脸框图像与第一帧图像中的某个人脸框图像属于同一人物，则针对第二帧图像中的当前人脸框图像判断结束，无需继续将当前人脸框图像与第一帧图像中的其他人脸框图像进行比较；如果判断出第二帧图像中的当前人脸框图像与第一帧图像中的人脸框图像均不属于同一人物，则判定不存在与当前人脸框图像属于同一人物的人脸框图像。

如果当前帧图像为第三帧图像，则第一个前帧图像为第二帧图像，第二个前帧图像为第一帧图像，从第二帧图像开始依次往前进行比较。先将第二帧图像作为当前前帧图像，针对第三帧图像中的每个人脸框图像，将当前人脸框图像与第二帧图像中的人脸框图像进行比较。如果判断出第三帧图像中的当前人脸框图像与第二帧图像中的某个人脸框图像属于同一人物，则针对第三帧图像中的当前该人脸框图像判断结束，无需继续将当前人脸框图像与第二帧图像中的其他人脸框图像进行比较，也无需继续将当前人脸框图像与第一帧图像中的人脸框图像进行比较。如果判断出第三帧图像中的当前人脸框图像与第二帧图像中的人脸框图像均不属于同一人物，则继续将第三帧图像中的当前人脸框图像与第一帧图像中的人脸框图像进行比较。如果判断出第三帧图像中的当前人脸框图像与第一帧图像中的某个人脸框图像属于同一人物，则针对第三帧图像中的当前该人脸框图像判断结束，无需继续将当前人脸框图像与第一帧图像中的其他人脸框图像进行比较。如果判断出第三帧图像中的当前人脸框图像与第一帧图像中的人脸框图像均不属于同一人物，则判定不存在与当前人脸框图像属于同一人物的人脸框图像。以此类推，如果确定出不属于同一人物但已确定的前帧图像的个数达到预设个数，则完成对当前帧图像中的当前人脸框图像的判断，判定不存在与当前人脸框图像属于同一人物的人脸框图像。

在上述方式中，考虑到相邻的两帧图像中的某帧图像可能由于外物遮挡、模糊、远景、光照等情况的影响，导致图像的清晰度不高，进而导致对人脸框图像在进行识别时的准确度不高，因此可能出现相邻的两帧图像中实际上属于同一人物的人脸框图像没有被判定为属于同一人物的情况。针对该种情况，将当前帧图像继续与下一个前帧图像进行比较，直至比较的前帧图像的个数达到预设个数。如果当前帧图像与前一帧图像中的人脸框图像实际上属于同一人物，但是前一帧图像在进行识别时的识别准确度不高，导致在将当前帧图像与前一帧图像进行比较时，判断出当前帧图像与前一帧图像中的人脸框图像均不属于同一人物。此时，将当前帧图像继续与下一个前帧图像进行比较，如果下一个前帧图像的识别准确度较高，则能够判断出当前帧图像与下一个前帧图像中实际上属于同一人物的人脸框图像，从而能够避免由于上述原因导致的无法将实际上属于同一人物的人脸框图像确定为属于同一人物的问题，进一步提高识别的准确性。对于预设个数，本领域技术人员根据实际经验选用任意适用的数值均可，比如可以设置预设个数为10个、15个、20个，等等，本发明实施例对此不作限制。

在一种可选实施方式中，判断当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像是否属于同一人物的过程可以包括：计算当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像的位置交并比和人脸特征相似度；将所述位置交并比大于预设的交并比阈值，且所述人脸特征相似度大于预设的第二相似度阈值的人脸框图像判定为属于同一人物。

在针对待处理视频中的每帧图像，提取所述图像中的人脸框图像之后，针对每个人脸框图像，获取所述人脸框图像在其所在的一帧图像中的位置，此处的位置可以为所述人脸框图像的四个顶点在其所在的一帧图像中的坐标；并利用人脸特征提取技术，提取所述人脸框图像的人脸特征。比如，可以利用具有人脸识别功能的卷积神经网络模型对人脸框图像进行人脸特征的提取。卷积神经网络可以包括卷积层、全连接层等，其中卷积层可以用于提取特征，全连接层可以用于对提取的特征进行分类。因此，可以将人脸框图像输入预设的卷积神经网络模型，将该卷积神经网络模型的最后一层卷积层输出的人脸特征作为该人脸框图像的人脸特征。

针对当前帧图像中的每个人脸框图像，分别计算当前人脸框图像与当前前帧图像中的各人脸框图像的位置交并比(Intersection over Union，IOU)以及人脸特征相似度。其中，交并比是指两个人脸框图像的交集(相交的面积)除以两个人脸框图像的并集(总面积)得出的结果。位置交并比越大，两个人脸框图像属于同一人物的可能性越大。人脸特征相似度可以基于人脸特征之间的余弦距离衡量。余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，两个特征向量之间的余弦距离越小，两个特征向量的相似度越大。因此，如果用余弦距离衡量相似度，则可以设定距离阈值，当人脸特征之间的余弦距离小于该距离阈值时，确定人脸特征的相似度大于第二相似度阈值。当然，还可以通过人脸特征之间的欧氏距离、马氏距离等衡量人脸特征相似度，本发明实施例对此不作限制。

在上述方式中，通过对位置交并比的判断，利用了人脸框图像在空间上的连续性，因为同一人物在相邻帧中出现的位置的重叠度较大，位置的连续性较大，因此位置交并比越大，两个人脸框图像属于同一人物的可能性越大。通过对人脸特征相似度的判断，利用了人脸框图像在特征空间上的连续性，因此，上述方式结合了空间和特征空间的信息进行判断，能够提高确定不同的人脸框图像是否属于同一人物这一过程的准确性。对于上述的各阈值，本领域技术人员根据实际经验选用任意适用的数值均可，本发明实施例对此不作限制。

经过上述的确定过程后，将属于同一人物的多个人脸框图像归类到同一个第一集合中。

步骤203，针对每个第一集合，获取所述第一集合中的人脸框图像的数量，过滤掉人脸框图像的数量小于预设的数量阈值的第一集合。

本发明实施例中，考虑到某个人物可能在视频中出现的时间较短，不属于重要人物(比如群众演员等)，针对该种人物无需识别，因此可以过滤该种人物对应的第一集合。

针对每个第一集合，获取该第一集合中的人脸框图像的数量，如果人脸框图像的数量小于预设的数量阈值，则无需对该第一集合对应的人物进行识别，因此过滤掉该人脸框图像的数量小于预设的数量阈值的第一集合。

通过上述方式，可以避免对无需识别的人物进行识别处理，简化处理过程。对于数量阈值的具体数值，本领域技术人员根据实际经验选用任意适用的数值均可，比如，可以设置为5个、10个、15个，等等，本发明实施例对此不作限制。

步骤204，针对每个第一集合，利用预设的人脸质量评估模型对所述第一集合中的各人脸框图像进行质量评估，得到各人脸框图像的质量评估值，过滤掉质量评估值小于预设的质量阈值的人脸框图像。

本发明实施例中，考虑到部分人脸框图像的质量可能较差，比如人脸框图像中的人脸为小脸、侧脸、模糊脸等情况，质量较差的人脸框图像会对人物识别的结果产生不利影响，因此可以过滤质量较差的人脸框图像。

预先训练人脸质量评估模型。比如，可以获取训练样本集，训练样本包括多个样本人脸框图像及样本人脸框图像对应的样本质量评估值；提取样本人脸框图像的人脸特征；根据多个样本图像的人脸特征及样本人脸框图像对应的样本质量评估值对初始人脸质量评估模型进行训练，获取训练完成的人脸质量评估模型。针对每个第一集合中的每个人脸框图像，将该人脸框图像输入人脸质量评估模型，得到人脸质量评估模型输出的该人脸框图像的质量评估值。如果该样本图像的质量评估值小于预设的质量阈值，则过滤掉该人脸框图像。

通过上述方式，可以避免质量较差的人脸框图像对人物识别的结果产生不利影响，进一步提高人物识别的准确度。对于质量阈值的具体数值，本领域技术人员根据实际经验选用任意适用的数值均可，比如，样本质量评估值可以为分数，质量阈值可以设置为70分、80分、90分，等等，本发明实施例对此不作限制。

步骤205，将所述第一集合进行聚类，得到至少一个第二集合。

由于同一人物可能出现在待处理视频中的不同片段，因此不同的第一集合可能对应同一人物。本发明实施例中，对第一集合进行再次聚类，得到至少一个第二集合。

在一种可选实施方式中，将所述第一集合进行聚类，得到至少一个第二集合的过程可以包括步骤A1～A2：

步骤A1，针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心。

在获取一个第一集合的类中心时，针对该第一集合中的任意一个人脸框图像，分别计算该人脸框图像与该第一集合中的其他各人脸框图像之间的人脸特征相似度，并计算该人脸框图像对应的人脸相似度平均值，将人脸相似度平均值最大的人脸框图像，作为该第一集合的类中心。

步骤A2，计算每两个类中心的人脸特征相似度，将人脸特征相似度大于预设的第一相似度阈值的类中心对应的第一集合合并为一个第一集合。重复执行步骤A1和步骤A2。

与上述步骤202中计算人脸特征相似度相似，可以通过两个类中心的人脸特征的余弦距离等衡量两个类中心的人脸特征相似度，具体参照上述的相关说明即可。

步骤A3，当不再继续合并时，将当前的一个第一集合作为一个第二集合。

本发明实施例中，可以设置当每两个类中心的人脸特征相似度均小于等于预设的第一相似度阈值时，不再继续合并；也可以设置当步骤A1和步骤A2重复执行预设次数后，不再继续合并，本发明实施例对此不作限制。其中，预设次数可以为2次、3次、4次，等等。

步骤206，针对每个第二集合，依据所述第二集合中的人脸框图像获取所述第二集合的类中心，将所述第二集合的类中心与预设的人脸特征库进行匹配，得到所述第二集合的类中心对应的人物身份。

在获取一个第二集合的类中心时，针对该第二集合中的任意一个人脸框图像，分别计算该人脸框图像与该第二集合中的其他各人脸框图像之间的人脸特征相似度，并计算该人脸框图像对应的人脸相似度平均值，将人脸相似度平均值最大的人脸框图像，作为该第二集合的类中心。

人脸特征库中包括多个人物的人脸特征及人物身份。针对每个第二集合，将该第二集合的类中心的人脸特征与人脸特征库中的人脸特征进行匹配，将人脸特征库中匹配成功的人脸特征对应的人物身份作为该第二集合的类中心对应的人物身份。

在匹配时，可以计算该第二集合的类中心的人脸特征与人脸特征库中的人脸特征的人脸特征相似度，当人脸特征相似度大于预设的第三相似度阈值时，确定匹配成功。与上述步骤202中计算人脸特征相似度相似，可以通过第二集合的类中心的人脸特征与人脸特征库中的人脸特征的余弦距离等衡量人脸特征相似度，具体参照上述的相关说明即可。

步骤207，针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心，将所述第一集合的类中心与各第二集合的类中心进行匹配，将匹配成功的第二集合的类中心对应的人物身份作为所述第一集合对应的人物身份。

对于获取第一集合的类中心的过程，与上述步骤A1相同，具体参照上述的相关说明即可。

针对每个第一集合，将该第一集合的类中心的人脸特征分别与各第二集合的类中心的人脸特征进行匹配，将匹配成功的第二集合的类中心对应的人物身份作为该第一集合对应的人物身份。

在匹配时，可以计算该第一集合的类中心的人脸特征与第二集合的类中心的人脸特征的人脸特征相似度，当人脸特征相似度大于预设的第四相似度阈值时，确定匹配成功。

上述第一相似度阈值、第二相似度阈值、第三相似度阈值和第四相似度阈值可以相同，也可以不同，具体可以根据实际情况进行设置。

下面，结合图3说明人物识别过程。图3为本发明实施例中的一种人物识别过程的示意图。如图3所示，人物识别过程可以包括：通过Frames(视频处理框架)从待处理视频中抽取视频帧，得到待处理视频中的每帧图像。对所述图像进行Detection(人脸检测)，提取所述图像中的Faces(人脸框图像)。通过CNN(卷积神经网络)对人脸框图像进行特征提取，得到Features(人脸特征)。依据人脸特征对人脸框图像进行Local cluster(第一聚类)，得到多个Local clusters(第一集合)。获取Local centers(第一集合的类中心)。依据第一集合的类中心对第一集合进行Global cluster(第二聚类)，得到多个第二集合。获取Globalcenters(第二集合的类中心)。依据第二集合的类中心与Features database(人脸特征库)进行匹配，得到第二集合的类中心对应的人物身份，再依据第二集合的类中心对应的人物身份识别每个第一集合对应的人物身份，为每个第一集合Give label(标记人物身份)。

本发明实施例中，在局部聚类时，结合了时间、空间、特征空间三个维度的信息，准确率很高；通过对第一集合的及人脸框图像的过滤，可以过滤无需识别的第一集合及第一集合中质量较差的人脸框图像；通过全局聚类，可以将出现在不同片段中的同一人物的人脸框图像聚合到一起，确定待处理视频中的可判定人物，降低与人脸特征库进行匹配的工作量；通过第一集合中心与第二集合中心匹配，最终识别第一集合对应的人物身份。通过本发明实施例的人物识别，可以提高视频人物识别的准确率与召回率，利于视频理解，可以应用于自动选取明星片段、自动选取广告位等各种场景。

图4为本发明实施例中的一种人物识别装置的结构框图。

本发明实施例中的人物识别装置可以包括提取模块401、判断模块402和识别模块403。

提取模块401，用于针对待处理视频中的每帧图像，提取所述图像中的人脸框图像。

判断模块402，用于从第二帧图像开始，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，将属于同一人物的人脸框图像归类到同一个第一集合中。

识别模块403，用于依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份。

图5为本发明实施例中的另一种人物识别装置的结构框图。

本发明实施例中的人物识别装置可以包括：

提取模块501，用于针对待处理视频中的每帧图像，提取所述图像中的人脸框图像。

判断模块502，用于从第二帧图像开始，判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，将属于同一人物的人脸框图像归类到同一个第一集合中。

识别模块503，用于依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份。

可选地，所述识别模块503包括：聚类单元5031，用于将所述第一集合进行聚类，得到至少一个第二集合；第一匹配单元5032，用于针对每个第二集合，依据所述第二集合中的人脸框图像获取所述第二集合的类中心，将所述第二集合的类中心与预设的人脸特征库进行匹配，得到所述第二集合的类中心对应的人物身份；第二匹配单元5033，用于针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心，将所述第一集合的类中心与各第二集合的类中心进行匹配，将匹配成功的第二集合的类中心对应的人物身份作为所述第一集合对应的人物身份。

可选地，所述聚类单元5031，具体用于重复执行如下步骤：针对每个第一集合，依据所述第一集合中的人脸框图像确定所述第一集合的类中心；计算每两个类中心的人脸特征相似度，将人脸特征相似度大于预设的第一相似度阈值的类中心对应的第一集合合并为一个第一集合；当不再继续合并时，将当前的一个第一集合作为一个第二集合。

可选地，所述判断模块502，具体用于针对当前帧图像中的每个人脸框图像，从第一个前帧图像开始，判断当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像是否属于同一人物；所述第一个前帧图像为当前帧图像的前一帧图像；直至判断出属于同一人物为止，完成对当前帧图像中的当前人脸框图像的判断，或者，直至判断出不属于同一人物且已确定的前帧图像的个数达到预设个数为止，完成对当前帧图像中的当前人脸框图像的判断。

可选地，所述判断模块502包括：计算单元5021，用于计算当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像的位置交并比和人脸特征相似度；判定单元5022，用于将所述位置交并比大于预设的交并比阈值，且所述人脸特征相似度大于预设的第二相似度阈值的人脸框图像判定为属于同一人物。

可选地，所述装置还包括：第一过滤模块504，用于在所述识别模块503依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份之前，针对每个第一集合，获取所述第一集合中的人脸框图像的数量；过滤掉人脸框图像的数量小于预设的数量阈值的第一集合。

可选地，所述装置还包括：第二过滤模块505，用于在所述识别模块503依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份之前，针对每个第一集合，利用预设的人脸质量评估模型对所述第一集合中的各人脸框图像进行质量评估，得到各人脸框图像的质量评估值；过滤掉质量评估值小于预设的质量阈值的人脸框图像。

通过本发明实施例的人物识别，可以提高视频人物识别的准确率与召回率。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人物识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人物识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人物识别方法，其特征在于，包括：

依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份；

所述依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份，包括：

将所述第一集合进行聚类，得到至少一个第二集合；

针对每个第二集合，针对所述第二集合中的任意一个人脸框图像，分别计算所述人脸框图像与所述第二集合中的其他各人脸框图像之间的人脸特征相似度，并计算所述人脸框图像对应的人脸相似度平均值，将人脸相似度平均值最大的人脸框图像，作为所述第二集合的类中心；计算所述第二集合的类中心的人脸特征与预设的人脸特征库中的人脸特征对应的人脸特征相似度，当所述人脸特征相似度大于预设的第三相似度阈值时，确定匹配成功，得到所述第二集合的类中心对应的人物身份；

针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心，将所述第一集合的类中心与各第二集合的类中心进行匹配，将匹配成功的第二集合的类中心对应的人物身份作为所述第一集合对应的人物身份。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一集合进行聚类，得到至少一个第二集合，包括：

重复执行如下步骤：针对每个第一集合，依据所述第一集合中的人脸框图像获取所述第一集合的类中心；计算每两个类中心的人脸特征相似度，将人脸特征相似度大于预设的第一相似度阈值的类中心对应的第一集合合并为一个第一集合；

当不再继续合并时，将当前的一个第一集合作为一个第二集合。

3.根据权利要求1所述的方法，其特征在于，所述判断当前帧图像中的人脸框图像、与位于当前帧之前且与当前帧连续相邻的至少一前帧图像中的人脸框图像是否属于同一人物，包括：

针对当前帧图像中的每个人脸框图像，从第一个前帧图像开始，判断当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像是否属于同一人物；所述第一个前帧图像为当前帧图像的前一帧图像；

直至判断出属于同一人物为止，完成对当前帧图像中的当前人脸框图像的判断，或者，直至判断出不属于同一人物且已确定的前帧图像的个数达到预设个数为止，完成对当前帧图像中的当前人脸框图像的判断。

4.根据权利要求3所述的方法，其特征在于，所述判断当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像是否属于同一人物，包括：

计算当前帧图像中的当前人脸框图像与当前前帧图像中的人脸框图像的位置交并比和人脸特征相似度；

将所述位置交并比大于预设的交并比阈值，且所述人脸特征相似度大于预设的第二相似度阈值的人脸框图像判定为属于同一人物。

5.根据权利要求1所述的方法，其特征在于，在所述依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份之前，还包括：

针对每个第一集合，获取所述第一集合中的人脸框图像的数量；

过滤掉人脸框图像的数量小于预设的数量阈值的第一集合。

6.根据权利要求1所述的方法，其特征在于，在所述依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份之前，还包括：

针对每个第一集合，利用预设的人脸质量评估模型对所述第一集合中的各人脸框图像进行质量评估，得到各人脸框图像的质量评估值；

过滤掉质量评估值小于预设的质量阈值的人脸框图像。

7.一种人物识别装置，其特征在于，包括：

识别模块，用于依据所述第一集合中的人脸框图像，识别所述第一集合对应的人物身份；

将所述第一集合进行聚类，得到至少一个第二集合；

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。