CN115050073A

CN115050073A - 视频人物搜索方法、装置及计算机设备

Info

Publication number: CN115050073A
Application number: CN202210717759.6A
Authority: CN
Inventors: 程星星
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-13

Abstract

本发明实施例涉及视频处理技术领域，公开了一种视频人物搜索方法，该方法包括：获取目标人物的待识别人脸图像，并提取所述待识别人脸图像的待识别人脸图像特征；将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中存在所述目标人物的各个目标视频帧；所述视频人脸特征库中包括所述目标视频中至少一个人物对应的人脸图像特征集，所述人脸图像特征集中包括至少一张人脸图像的目标人脸图像特征以及所述目标人脸图像特征所属视频帧的视频帧信息。通过上述方式，本发明实施例实现了及时响应被识别人物多变，提高了识别效率的有益效果。

Description

视频人物搜索方法、装置及计算机设备

技术领域

本发明实施例涉及视频处理技术领域，具体涉及一种视频人物搜索方法、装置、计算机设备及计算机可读存储介质。

背景技术

目前，随着移动互联网的发展，各种影视综艺视频呈现爆发性的增长，通过对视频中人物身份识别，来进行各种视频处理，成为一个较为突出的需求。

现有对于视频人物身份识别，主要依靠预先收集相关明星人物的人脸图片作为底库，然后在底库中匹配识别相关人物身份，识别视频中包含在底库中的人物信息。然而，发明人在实施本发明的过程中发现，现有通过底库识别人物身份的方式，识别准确率严重依赖底库中的数据质量，且识别范围仅限于底库中的人员名单，人物底库扩展速度慢，识别范围受限。

发明内容

鉴于上述问题，本发明实施例提供了一种视频人物搜索方法，用于解决现有技术中存在的无法及时响应被识别人物多变，进而造成的识别效率低的技术问题。

根据本发明实施例的一个方面，提供了一种视频人物搜索方法，所述方法包括：

获取目标人物的待识别人脸图像，并提取所述待识别人脸图像的待识别人脸图像特征；

将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中存在所述目标人物的各个目标视频帧；所述视频人脸特征库中包括所述目标视频中至少一个人物对应的人脸图像特征集，所述人脸图像特征集中包括至少一张人脸图像的目标人脸图像特征以及所述目标人脸图像特征所属视频帧的视频帧信息。

在一种可选的方式中，所述将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中存在所述目标人物的各个目标视频帧之前，所述方法还包括：对目标视频中各个视频帧分别进行人脸检测，获取至少一张人脸图像的多个目标人脸图像特征以及所述目标人脸图像特征对应的视频帧信息；根据各个目标人脸图像特征的相似性，对所述至少一张人脸图像的多个目标人脸图像特征进行分组，将每组中的目标人脸图像特征及对应的视频帧信息关联存储，得到视频关联的所述视频人脸特征库。

在一种可选的方式中，所述对目标视频中各个视频帧分别进行人脸检测，获取至少一张人脸图像的多个目标人脸图像特征以及所述目标人脸图像特征对应的视频帧信息，包括：获取目标视频的各个视频帧及对应的视频帧信息；对所述各个视频帧进行人脸检测，确定所述各个视频帧对应的多张人脸图像；对所述多张人脸图像进行过滤；提取过滤后的人脸图像所对应的目标人脸图像特征及对应的目标视频帧信息。

在一种可选的方式中，所述根据各个目标人脸图像特征的相似性，对所述至少一张人脸图像的多个目标人脸图像特征进行分组，将每组中的目标人脸图像特征及对应的视频帧信息关联存储，得到视频关联的所述视频人脸特征库，包括：根据所述目标视频的第一帧视频帧中的所述人脸图像特征，构建至少一个初始人脸图像特征集合，将所述第一帧视频帧中不同的人脸图像特征分别存储至不同的所述初始人脸图像特征集合；所述初始人脸图像特征集合中第一帧视频帧的所述人脸图像特征与所述第一帧视频帧的第一视频帧信息关联存储；依次计算每帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中的人脸图像特征的第一相似度；根据所述第一相似度，将每帧视频帧中的人脸图像特征及对应的视频帧信息更新至对应的所述初始人脸图像特征集合中，形成所述视频人脸特征库。

在一种可选的方式中，所述依次计算每帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中的人脸图像特征的相似度，包括：通过计算所述每帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中人脸图像特征的平均空间距离，确定所述第一相似度。

在一种可选的方式中，所述将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中是否存在所述目标人物，包括：计算所述待识别人脸图像特征与各个人脸图像特征集中的目标人脸图像特征的相似度；确定各个所述人脸图像特征集中所述相似度满足预设阈值的目标人脸图像特征的数量；

将所述相似度满足预设阈值的目标人脸图像特征的数量最多的所述人脸图像特征集，确定为与所述待识别人脸图像特征匹配的人脸图像特征集。

在一种可选的方式中，所述根据所述第一相似度，将每帧视频帧中的人脸图像特征及对应的视频帧信息更新至对应的所述初始人脸图像特征集合中，形成所述视频人脸特征库之后，所述方法还包括：将所述第一相似度小于第一预设阈值的人脸图像特征及对应的视频帧信息存储至缓冲区的人脸图像特征集合；计算下一帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中的人脸图像特征的第二相似度，当所述第二相似度小于所述第一预设阈值时，将所述下一帧视频帧中人脸图像特征与所述缓冲区的人脸图像特征集合中的人脸图像特征进行比较，计算第三相似度；当所述第三相似度大于第一预设阈值时，在所述视频人脸特征库中新建一个初始人脸图像特征集合，将所述下一帧视频帧中人脸图像特征及所述缓冲区中与所述下一帧视频帧中人脸图像特征的第二相似度大于所述第一预设阈值的人脸图像特征存储于新建的初始人脸图像特征集合中，并删除所述缓冲区对应的人脸图像特征集合。

根据本发明实施例的另一方面，提供了一种视频人物搜索装置，包括：

获取模块，用于获取目标人物的待识别人脸图像，并提取所述待识别人脸图像的待识别人脸图像特征；

匹配模块，用于将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中存在所述目标人物的各个目标视频帧；所述视频人脸特征库中包括所述目标视频中至少一个人物对应的人脸图像特征集，所述人脸图像特征集中包括至少一张人脸图像的目标人脸图像特征以及所述目标人脸图像特征所属视频帧的视频帧信息。

根据本发明实施例的另一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如所述的视频人物搜索方法的操作。

根据本发明实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在计算机设备上运行时，使得计算机设备执行所述的视频人物搜索方法的操作。

本发明实施例通过获取目标人物的待识别人脸图像，并提取所述待识别人脸图像的待识别人脸图像特征；将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中存在所述目标人物的各个目标视频帧；所述视频人脸特征库中包括所述目标视频中至少一个人物对应的人脸图像特征集，所述人脸图像特征集中包括至少一张人脸图像的目标人脸图像特征以及所述目标人脸图像特征所属视频帧的视频帧信息，能够提升响应速度，快速完成视频中任意人物身份的识别确认，实现一次识别，随处可用的理想状态。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的视频人物搜索方法的流程示意图；

图2示出了本发明实施例提供的视频人物搜索方法中创建视频人脸特征库的流程示意图；

图3示出了本发明实施例提供的视频人物搜索方法中人脸检测示意图；

图4示出了本发明实施例提供的人脸特征示意图；

图5示出了本发明实施例提供的创建视频人脸特征库过程中人脸特征上下文关联识别示意图；

图6示出了本发明实施例提供的视频人物搜索方法中人脸图像特征匹配的示意图；

图7示出了本发明实施例提供的视频人物搜索装置的结构示意图；

图8示出了本发明实施例提供的计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

随着移动互联网的发展，各种影视综艺视频呈现爆发性的增长。例如，涌现出了很多的流量明星，也有更多的“过气”明星一夜爆红，还有少数明星人物必须淡出公众的视野。视频服务提供商通常需要及时响应各类需求，并及时抓住明星人物的实时热度，实时调整推荐给用户的视频内容，例如屏蔽或下架不合规的相关人物内容，保证内容合规性和提升用户使用体验。对于视频人物身份识别，现有解决方案主要依靠视频人脸识别技术，预先收集相关明星人物的人脸图片作为底库，通过离线方式分析识别视频内容，识别视频中包含在底库中的人物信息，并为视频标记相关人物标签或标题。然后基于人物标签进行精确匹配或模糊匹配，用于视频的快速检索、精准推荐或者快速下架。

对于视频中的人物身份识别，现有方法主要通过预先收集待识别人物的人脸图片作为底库，然后在底库中匹配识别相关人物身份。对于上述传统的视频人物身份识别方法，存在以下问题：

1)人物身份识别需要预先准备大量待识别的人物图像底库，识别准确率严重依赖底库中的数据质量，且识别范围仅限于底库中的人员名单，人物底库扩展速度慢，识别范围受限；

2)如果需要支持识别范围之外的人员名单，则需要补充人物底库，并对视频内容进行重新识别，造成计算资源的重复消耗。以上这些问题，导致对于视频人物身份识别的重复计算，且无法及时响应多变的识别范围要求。

基于上述问题，本发明实施例以视频的人物标签维度作为着手点，提出一种不使用人物图像底库的视频人物身份上下文关联识别方法，视频内容具有的独特上下文相关特性，使用人脸检测和人脸特征提取方法对视频内容进行分析，避免了传统视频人物身份识别方法存在重复计算和识别范围受限的问题。基于提取到的人脸特征在视频上下文中进行特征关联，使用关联结果完成视频内部人物身份的分组分类，并基于提取到的人脸特征以及分组分类结果，为每个视频构建主要人物的特征集合，使得不需要事先准备标准人脸素材底库，具备自动识别区分视频人物身份的能力，基于每个视频构建的人脸特征库，可以快速完成视频中任意人物身份的识别确认，实现一次识别，随处可用的理想状态。

图1示出了本发明实施例提供的视频人物搜索方法的流程图，该方法由计算机设备或部署服务器中的视频播放器等执行。该计算机设备可以是可以是计算机、智能手机、台式计算机、平板电脑、电子书阅读器、视频播放器和膝上型便携计算机等设备中的至少一种。如图1所示，该方法包括以下步骤：

步骤110：获取目标人物的待识别人脸图像，并提取所述待识别人脸图像的待识别人脸图像特征。

其中，该目标人物的待识别人脸图像可以是用户输入的目标人物的人脸图像，还可以是通过目标人物的名称，在预设的数据库或互联网上搜索得到的，该目标人物可以是一个或多个，该目标视频也可以是一个或多个，本发明实施例不做具体限制。

本发明实施例中，在获取目标人物的待识别人脸图像后，可通过预设的人脸特征提取算法提取该待识别人脸图像的待识别人脸图像特征。其中，该待识别人脸图像特征可以通过待识别人脸图像特征向量表示，通过预设的人脸特征提取算法，将待识别人脸图像转化为512维的特征向量。

步骤120：将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中存在所述目标人物的各个目标视频帧。

其中，本发明实施例预先设置了各个目标视频对应的视频人脸特征库，该视频人脸特征库中包括所述目标视频中至少一个人物对应的人脸图像特征集，所述人脸图像特征集中包括至少一张人脸图像的目标人脸图像特征及对应的视频帧信息。

请参考图2，本发明实施例中，在将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中是否存在所述目标人物之前，预先设置各个目标视频对应的视频人脸特征库的过程包括：

步骤1201：对目标视频中各个视频帧分别进行人脸检测，获取多个目标人脸图像特征以及所述目标人脸图像特征对应的视频帧信息。

本发明实施例中，获取目标视频的各个视频帧及对应的视频帧信息，对所述各个视频帧进行人脸检测，确定所述各个视频帧对应的多张人脸图像以及所述目标人脸图像特征对应的视频帧信息。对获得的目标视频的多个所述人脸图像进行过滤；提取过滤后的人脸图像所对应的目标人脸图像特征及对应的目标视频帧信息。具体地，首先对目标视频进行视频拆帧，得到目标视频对应的各个视频帧，然后使用人脸检测算法提取各个视频帧中的人脸区域、人脸区域的位置坐标、人脸五官位置坐标等多张人脸图像的人脸坐标信息。对目标视频中的所有视频帧进行人脸检测，得到各个视频帧中所有人脸区域的位置坐标。其中，视频帧中人脸位置坐标使用四元组(x,y,w,h)保存，其中x及y表示人脸区域相对于图像左上角的坐标位置，具体的(x,y)可以为人脸区域的中心点相对于图像左上角的坐标位置，w、h分别表示人脸区域的宽和高，人脸检测结果如图3所示。其中，图3中，image_width表示图像区域的宽，image_height表示图像区域的高，face_width表示人脸区域的宽，face_height表示人脸区域的高。top_margin和bottom_margin分别表示人脸区域上下边缘距离图像上下边缘的距离，left_margin和right_margin分别表示人脸区域左右边缘距离图像左右边缘的距离。由于视频场景复杂多变，包含人物的场景也多种多样，本发明实施例根据人脸图像的人脸坐标信息过滤掉较小的以及出现在视频边缘的不重要的人脸图像。具体地，所采用的过滤条件包括：根据人脸区域大小对多张人脸图像进行过滤、根据人脸位置对多张人脸图像进行过滤等。其中，根据人脸区域大小过滤，可以为当检测到的人脸区域的短边小于60像素时，则过滤本次检测到的人脸图像，表示如下：min(face_width,face_height)＜60。根据人脸位置进行过滤，可以为当检测到的人脸区域中心距离视频边界小于视频宽度或高度的5％时，则忽略本次检测到的人脸图像，表示如下：min(top_margin,bottom_margin)+face_height/2＜0.05*image_height或者min(left_margin,right_margin)+face_width/2＜0.05*image_width。

其中，在过滤掉所述多张人脸图像中较小的以及出现在视频边缘的不重要的人脸图像后，提取过滤后的人脸图像所对应的目标人脸图像特征。本发明实施例采用基于深度神经网络的人脸特征提取算法，将人脸图像转化为512维的人脸图像特征向量。如图4所示，经过转换后的人脸图像特征向量具有如下特点：相同身份人脸图像的人脸图像特征向量空间距离较近(如深色点互相之间距离较近，浅色点互相之间距离较近)；不同身份人脸图像的人脸图像特征向量空间距离较远(如深色点与浅色点之间有明显的分隔空白区域)，经过转换后的特征向量能在高维向量空间中区分不同身份的人脸图像。本发明实施例将提取到的目标人脸图像特征以<特征向量，视频ID，图像ID>三元组方式保存，记录该目标人脸图像特征对应的视频编号(视频ID)，以及在视频中的位置(图像ID)。

步骤1202：根据各个目标人脸图像特征的相似性，对所述至少一张人脸图像的目标人脸图像特征进行分组，将每组中的目标人脸图像特征及对应的视频帧信息关联存储，得到视频关联的所述视频人脸特征库。

本发明实施例中，在得到各个目标视频中的目标人脸图像特征后，以目标视频为基本单位，对目标视频的内容逐帧进行人脸检测、人脸过滤、人脸特征提取，并保存<特征向量，视频ID，图像ID>三元组信息，以便于进行人脸特征上下文关联。关联结果以<人脸图像特征向量，视频ID，图像ID，ClassID>四元组形式进行保存，其中，ClassID为每个人脸特征向量经过关联分组后所属的分组ID编号，视频ID为目标视频的ID编号；图像ID表示视频帧信息，为目标人脸图像特征对应的目标视频帧的ID编号。通过分组ID编号将相似的人脸图像特征关联起来，通过图像ID可以将人脸图像特征与对应的视频帧关联起来。

其中，根据各个目标人脸图像特征的相似性，对所述至少一张人脸图像的目标人脸图像特征进行分组，将每组中的目标人脸图像特征及对应的视频帧信息关联存储，得到视频关联的所述视频人脸特征库的具体过程包括：根据所述目标视频的第一帧视频帧中的所述人脸图像特征，构建至少一个初始人脸图像特征集合，将所述第一帧视频帧中不同的人脸图像特征及所述目标视频中视频帧对应的视频帧信息分别存储至不同的所述初始人脸图像特征集合，所述初始人脸图像特征集合中第一帧视频帧的所述人脸图像特征与所述第一帧视频帧的第一视频帧信息关联存储；依次计算每帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中的人脸图像特征的第一相似度；根据所述第一相似度，将每帧视频帧中的人脸图像特征及对应的视频帧信息更新至对应的所述初始人脸图像特征集合中，形成所述视频人脸特征库。其中，人脸特征库中人脸图像特征以四元组形式保存，具体可以是<人脸图像特征向量，视频ID，图像ID，ClassID>四元组形式，其中，视频ID为目标视频的ID编号；图像ID表示视频帧信息，为目标人脸图像特征对应的目标视频帧的ID编号。通过分组ID编号将相似的人脸图像特征关联起来，通过图像ID可以将人脸图像特征与对应的视频帧关联起来。将所述相似度大于等于第一预设阈值的人脸特征图像及对应的视频帧信息存储至对应的所述初始人脸图像特征集合中。其中，该人脸图像特征的相似度可以通过欧式距离或余弦相似性公式来计算得到，本发明实施例不做具体限制。

具体地，结合图2及图5所示，本发明实施例设置临时的特征缓冲区和视频人脸特征库，其中特征缓冲区及视频人脸特征库分别存储有人脸图像特征集合，视频人脸特征库中存储的人脸图像特征集合是匹配成功的目标人脸图像特征，特征缓冲区存储的人脸图像特征集合包括未与视频人脸特征库中人脸图像特征集合匹配的人脸图像特征。

其中，通过Pn表示不同分组所属的目标人物的身份编号，箭头指向表示目标视频的时间持续方向，Pn的特征集合表示在视频上下文中进行人脸特征关联之后，关联结果中属于同一身份Pn的所有人脸特征组成的集合。人脸特征关联分组详细计算过程如下：初始化人脸特征库为空集合；根据目标视频第一帧视频帧的检测结果，将每个目标人脸图像特征初始化为一个独立的特征集合P1、P2、……、Pn，并使用初始特征集合P1、P2、……、Pn更新临时的特征缓冲区；在后续视频帧中，其中，将各个视频帧中的人脸图像特征按照视频帧时间顺序，依次与视频人脸特征库中的目标人脸图像特征进行匹配，依次计算每帧视频帧中提取的人脸图像特征向量x与视频人脸特征库(初始为空)中各个特征集合P1、P2、……、Pn中人脸图像特征向量的平均空间距离，确定视频帧中人脸图像的人脸图像特征向量x在视频人脸特征库中的关联结果，用来更新目标视频中已经出现并被成功检测识别且已入库的目标人物的目标人脸图像特征集。本发明实施例中，与视频人脸特征库中的人脸图像特征集合成功匹配后，视频人脸特征库的更新过程为：如果人脸图像特征向量x与视频人脸特征库中某个人脸图像特征集合Pn的平均空间距离满足阈值条件，则将特征x及其对应的视频帧信息更新到与之匹配的人脸图像特征集合Pn中。其中，该阈值条件为第一预设阈值，将所述第一相似度大于等于第一预设阈值的人脸图像特征及对应的视频帧信息存储至对应的所述初始人脸图像特征集合。其中，平均空间距离是指某个人脸图像特征集中所有的目标人脸图像特征与视频帧中的当前提取的人脸图像特征向量的欧式距离的平均值。其中，本发明实施例使用欧氏距离度量特征向量之间的距离：

其中，x_i和x_j分别表示两个512维的人脸图像特征向量，l表示人脸图像特征向量的维度，dist表示这两个人脸图像特征向量之间的欧氏距离，分组结果将人脸图像特征向量划分到与之平均欧氏距离最小，且平均距离满足设定阈值的分组中。本发明实施例中并不具体限定该设定阈值的具体数值，可以理解地是，该预设阈值是用于表征不同的人脸特征向量是否属于同一人物身份的阈值。

本发明实施例中，对于未与视频人脸特征库中的人脸图像特征成功匹配的视频帧的人脸图像特征，将其与特征缓冲区中的各个人脸图像特征集中的人脸图像特征进行匹配，计算未匹配成功的人脸图像特征向量x与特征缓冲区中各个人脸图像特征集合P1、P2、……、Pn中目标人脸图像特征向量的平均空间距离，以确定视频帧中人脸图像特征x在临时特征缓冲区中的上下文关联结果，用来关联识别视频中新出现的人物身份。其中，各个视频帧中的人脸特征向量与特征缓冲区中的人脸图像特征向量进行匹配、更新的步骤如下：如果人脸特征x与特征缓冲区中某个特征集合Pn的平均空间距离满足阈值条件，则将特征x更新到与之对应的特征集合中；如果缓冲区中更新后的特征集合Pn中人脸图像特征向量的数量满足数量阈值条件，则将缓冲区特征集合Pn同步至视频人脸特征库，删除缓冲区特征集合Pn；如果人脸图像特征向量x与特征缓冲区中所有特征集合的平均空间距离均不满足阈值条件，则由x在缓冲区中产生一个新的特征集合，以供后续视频帧中的人脸图像特征向量进行匹配。本发明实施例中并不具体限定该数量阈值条件的具体数值，可以理解地是，该数量阈值条件用于表征特征缓冲区中的人脸图像特征集合中的人脸特征向量是否足够多到可以放入视频人脸特征库中。其中，将所述第一相似度小于第一预设阈值的人脸特征图像及对应的视频帧信息存储至缓冲区，计算下一帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中的人脸图像特征的第二相似度；当所述第二相似度小于所述第一预设阈值时，将所述下一帧视频帧中人脸图像特征与所述缓冲区中的人脸图像特征进行比较，计算第三相似度；当所述第三相似度大于第一预设阈值时，在所述视频人脸特征库中新建一个初始人脸图像特征集合，将所述下一帧视频帧中人脸图像特征及所述缓冲区中与所述下一帧视频帧中人脸图像特征的第二相似度大于所述第一预设阈值的人脸图像特征存储于新建的初始人脸图像特征集合中。

其中，在对目标视频帧中所有的人脸图像进行检测及人脸图像特征分组之后，计算视频人脸特征库中各人脸图像特征集合P1、P2、……、Pn中目标人脸图像特征分别在目标视频中的占比，过滤掉占比小于3％的人脸图像特征集合，并从每个人脸图像特征集合中随机选取预设数量的目标人脸图像特征作为最终的人脸图像特征集合中的目标人脸图像特征，从而最终构成视频人脸特征库。视频人脸特征库表示如下：

表1视频人脸特征库

本发明实施例，如表1所示在得到视频人脸特征库后，将目标视频的视频ID、人物ID(ClassID)、人物占比、图像ID、人脸图像特征向量等信息关联存储，以便于后续根据该视频人脸特征库进行匹配。通过这种方式构建的视频人脸特征库，支持使用任意人脸图片进行视频人物快速检索识别的能力。

其中，如图6所示，本发明实施例通过“投票法”，按照少数服从多数的原则，将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中是否存在所述目标人物。具体过程包括：

对任意输入的待识别人脸图像进行人脸检测，提取待识别人脸图像对应的待识别人脸特征向量；

计算待识别人脸特征向量与视频人脸特征库中各个人脸图像特征集合的欧氏距离，并统计各人脸图像特征集合中满足置信度阈值的匹配结果数量，使用“投票法”确定特征集合的匹配识别结果。

如图6所示，d_i表示待识别人脸特征向量与人脸图像特征集合中第i个目标人脸图像特征向量的欧式距离，其中，m,k,s分别表示各个人脸图像特征集合中待识别人脸特征向量与目标人脸图像特征向量的欧式距离满足置信度阈值的匹配结果数量。也即，d_m表示P1集合中第m个欧式距离满足置信度阈值的匹配结果，d_k表示P2集合中第k个欧式距离满足置信度阈值的匹配结果，d_s表示Pn集合中第s个欧式距离满足置信度阈值的匹配结果。确定匹配结果数量最大max(m,k,s)的人脸图像特征集，将匹配结果数量最大的人脸图像特征集确定为最终匹配成功的识别结果，从而通过视频人脸特征库信息，可以快速确定目标人物所属的目标视频ID以及目标人物出现在视频中的位置信息。

本发明实施例，在将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果之后，当在目标视频对应的视频人脸特征库中匹配到目标人物对应的目标人脸图像特征时，对所述目标视频或目标视频中的目标人物进行相应的数据处理，如对目标视频中的目标人物进行模糊或替换，或将所述目标视频进行下架或上架处理等。

本发明实施例通过获取目标人物的待识别人脸图像，并提取所述待识别人脸图像的待识别人脸图像特征；将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中是否存在所述目标人物；所述视频人脸特征库中包括所述目标视频中至少一个人物对应的人脸图像特征集，所述人脸图像特征集中包括至少一张人脸图像的目标人脸图像特征，能够提升响应速度，快速完成视频中任意人物身份的识别确认，实现一次识别，随处可用的理想状态。

图7示出了本发明实施例提供的视频人物搜索装置的结构示意图。如图7所示，该装置200包括：获取模块210及匹配模块220。

获取模块210，用于获取目标人物的待识别人脸图像，并提取所述待识别人脸图像的待识别人脸图像特征；

匹配模块220，用于将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中存在所述目标人物的各个目标视频帧；所述视频人脸特征库中包括所述目标视频中至少一个人物对应的人脸图像特征集，所述人脸图像特征集中包括至少一张人脸图像的目标人脸图像特征以及所述目标人脸图像特征所属视频帧的视频帧信息。

本发明实施例的视频人物搜索装置的具体工作过程与上述视频人物搜索方法实施例的具体实施步骤大体一致，此处不再赘述。

图8示出了本发明实施例提供的计算机设备的结构示意图，本发明具体实施例并不对计算机设备的具体实现做限定。

如图8所示，该计算机设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述用于视频人物搜索方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机可执行指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以被处理器402调用使计算机设备执行以下操作：

本发明实施例的计算机设备的程序410被处理器402调用使计算机设备执行视频人物搜索方法的操作的过程，与上述视频人物搜索方法实施例的具体实施步骤大体一致，此处不再赘述。

本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在计算机设备上运行时，使得所述计算机设备执行上述任意方法实施例中的视频人物搜索方法。

可执行指令具体可以用于使得计算机设备执行以下操作：

本发明实施例的计算机可读存储介质中的可执行指令使计算机设备执行视频人物搜索方法操作的具体过程，与上述视频人物搜索方法实施例的具体实施步骤大体一致，此处不再赘述。

本发明实施例提供一种视频人物搜索装置，用于执行上述视频人物搜索方法。

本发明实施例提供了一种计算机程序，所述计算机程序可被处理器调用使计算机设备执行上述任意方法实施例中的视频人物搜索方法。

本发明实施例提供了一种计算机程序产品，计算机程序产品包括存储在计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令在计算机上运行时，使得所述计算机执行上述任意方法实施例中的视频人物搜索方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种视频人物搜索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中存在所述目标人物的各个目标视频帧之前，所述方法还包括：

对目标视频中各个视频帧分别进行人脸检测，获取至少一张人脸图像的目标人脸图像特征以及所述目标人脸图像特征对应的视频帧信息；

根据各个目标人脸图像特征的相似性，对所述至少一张人脸图像的目标人脸图像特征进行分组，将每组中的目标人脸图像特征及对应的视频帧信息关联存储，得到视频关联的所述视频人脸特征库。

3.根据权利要求2所述的方法，其特征在于，所述对目标视频中各个视频帧分别进行人脸检测，获取至少一张人脸图像的多个目标人脸图像特征以及所述目标人脸图像特征对应的视频帧信息，包括：

获取目标视频的各个视频帧及对应的视频帧信息；

对所述各个视频帧进行人脸检测，确定所述各个视频帧对应的多张人脸图像；

对所述多张人脸图像进行过滤；

提取过滤后的人脸图像所对应的目标人脸图像特征及对应的目标视频帧信息。

4.根据权利要求2所述的方法，其特征在于，所述根据各个目标人脸图像特征的相似性，对所述至少一张人脸图像的多个目标人脸图像特征进行分组，将每组中的目标人脸图像特征及对应的视频帧信息关联存储，得到视频关联的所述视频人脸特征库，包括：

根据所述目标视频的第一帧视频帧中的所述人脸图像特征，构建至少一个初始人脸图像特征集合，将所述第一帧视频帧中不同的人脸图像特征分别存储至不同的所述初始人脸图像特征集合；所述初始人脸图像特征集合中第一帧视频帧的所述人脸图像特征与所述第一帧视频帧的第一视频帧信息关联存储；

依次计算每帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中的人脸图像特征的第一相似度；

根据所述第一相似度，将每帧视频帧中的人脸图像特征及对应的视频帧信息更新至对应的所述初始人脸图像特征集合中，形成所述视频人脸特征库。

5.根据权利要求4所述的方法，其特征在于，所述依次计算每帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中的人脸图像特征的相似度，包括：

通过计算所述每帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中人脸图像特征的平均空间距离，确定所述第一相似度。

6.根据权利要求1所述的方法，其特征在于，所述将所述待识别人脸图像特征与目标视频对应的视频人脸特征库中的人脸图像特征进行匹配，得到匹配识别结果，以确定所述目标视频中是否存在所述目标人物，包括：

计算所述待识别人脸图像特征与各个人脸图像特征集中的目标人脸图像特征的相似度；

确定各个所述人脸图像特征集中所述相似度满足预设阈值的目标人脸图像特征的数量；

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一相似度，将每帧视频帧中的人脸图像特征及对应的视频帧信息更新至对应的所述初始人脸图像特征集合中，形成所述视频人脸特征库之后，所述方法还包括：

将所述第一相似度小于第一预设阈值的人脸图像特征及对应的视频帧信息存储至缓冲区的人脸图像特征集合；

计算下一帧视频帧中人脸图像特征与各个所述初始人脸图像特征集合中的人脸图像特征的第二相似度，当所述第二相似度小于所述第一预设阈值时，将所述下一帧视频帧中人脸图像特征与所述缓冲区的人脸图像特征集合中的人脸图像特征进行比较，计算第三相似度；

当所述第三相似度大于第一预设阈值时，在所述视频人脸特征库中新建一个初始人脸图像特征集合，将所述下一帧视频帧中人脸图像特征及所述缓冲区中与所述下一帧视频帧中人脸图像特征的第二相似度大于所述第一预设阈值的人脸图像特征存储于新建的初始人脸图像特征集合中，并删除所述缓冲区对应的人脸图像特征集合。

8.一种视频人物搜索装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的视频人物搜索方法的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在计算机设备上运行时，使得计算机设备执行如权利要求1-7任意一项所述的视频人物搜索方法的操作。