CN109472197A

CN109472197A - 一种视频人脸标记方法

Info

Publication number: CN109472197A
Application number: CN201811141277.0A
Authority: CN
Inventors: 张帆; 张一帆
Original assignee: Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences; Institute of Automation of Chinese Academy of Science
Current assignee: Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences; Institute of Automation of Chinese Academy of Science
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-03-15

Abstract

本发明实施例提出的一种视频人脸标记方法，根据待标记视频和与待标记视频对应的文本中分别计算人脸图像和人名的出现频次，建立人脸关系网和人名关系网。然后将人脸关系网和人名关系网分别转化为无向图，通过对两个无向图进行匹配的方法在两个无向图的顶点之间建立对应关系，以实现对待标记视频中的人脸图像进行标记。本申请提供的人脸标记方法，通过将待标记视频和与待标记视频对应的文本进行图匹配，实现了待标记视频中的人脸标记，摆脱了对时间信息的要求。

Description

一种视频人脸标记方法

技术领域

本发明实施例涉及人脸标记技术领域，具体涉及一种视频人脸标记方法。

背景技术

随着电影工业的蓬勃发展，大批的电影相继制作产生。对于海量电影视频数据的索引、组织和管理也变得越来越重要。在电影中，由于情节皆是围绕人物展开的，因此人物通常是观众关注的焦点，所以人物是电影中需要标注和索引的重要内容。

现有的人脸标记技术以往主要应用于新闻视频，因为在新闻视频中，可以在通过语音转录的文本中获取大量人名，而且该转录文本与视频在时间上是自动对齐的，可以根据时间的一致性实现人脸与人名的关联。这种方法可以称为“局部匹配”。然而在电影视频中，局部匹配却并不适用。这是因为电影人物的对话中并不经常出现人名，所以从语音转录文本中无法提取到足够的人名。在电影剧本中，虽然包含有人物的姓名，但是却没有时间信息，无法将剧本与视频在时间上进行对齐，即无法采用局部匹配来实现人脸与人名的匹配。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明实施例提供了一种视频人脸标记方法。

有鉴于此，第一方面，本发明实施例提供一种视频人脸标记方法，其特征在于，包括：

获取待标记视频中的人脸图像序列；

根据所述人脸图像序列建立人脸关系网；

获取与所述待标记视频对应的文本中的人名；

根据所述人名构建人名关系网；

分别将所述人脸关系网和所述人名关系网转化为人脸无向图和人名无向图；

对所述人脸无向图和人名无向图进行匹配，得到待标记视频中人脸图像的标记结果。

可选的，所述获取待标记视频中的人脸图像序列，包括：

采用多视角的人脸检测与跟踪器自动获取待标记视频中的人脸图像序列。

可选的，根据所述人脸图像序列建立人脸关系网，包括：

采用搬土距离算法计算人脸图像序列间的距离；

根据所述人脸图像序列间的距离采用凝聚层次聚类算法对所述人脸图像序列进行聚类，得到人脸簇；

统计每一个人脸簇在所述待标记视频的各个场景中出现的频次；

根据任意两个人脸簇在所述待标记视频的各个场景中分别出现的频次，计算所述任意两个人脸簇在所述待标记视频的各个场景中共同出现的频次；

根据所述任意两个人脸簇在所述待标记视频的各个场景中共同出现的频次构建人脸关系网。

可选的，获取与所述待标记视频对应的文本中的人名，包括：

采用命名实体识别算法识别出所述文本中的人名。

可选的，根据所述人名构建人名关系网，包括：

统计每一个人名在所述文本的各个场景中出现的频次；

根据任意两个人名在所述文本的各个场景中分别出现的频次，计算所述任意两个人名在所述文本的各个场景中共同出现的频次；

根据所述任意两个人名在所述文本的各个场景中共同出现的频次构建人名关系网。

可选的，分别将所述人脸关系网和所述人名关系网转化为人脸无向图和人名无向图，包括：

根据所述人脸关系网，建立以人脸簇为顶点，以人脸簇中的人脸图像在整个待标记视频中出现的总频次为顶点权重，以人脸簇间的关系为边，以人脸簇间的关系密切程度为边权重的人脸无向图；

根据所述人名关系网，建立以人名为顶点，以人名在文本中出现的总频次为顶点权重，以人名间的关系为边，以人名间的关系密切程度为边权重的人名无向图。

可选的，对所述人脸无向图和人名无向图进行匹配，得到待标记视频中人脸图像的标记结果，包括：

将所述人脸无向图中任一顶点与所述人名无向图中任一顶点进行匹配，所述匹配为候选匹配；

计算所述候选匹配的匹配度；

计算任意两个候选匹配间的相容度；

根据所述匹配度和相容度从所有候选匹配中选出满足预设目标函数和预设条件的目标匹配集；

根据所述目标匹配集标记所述待标记视频中的人脸图像。

可选的，按下式计算所述候选匹配的匹配度：

式中，M(a)表示候选匹配a的匹配度，a＝(f_i,n_i′)其中，f_i表示人脸无向图的第i个顶点，n_i′表示人名无向图的第i个顶点；表示人脸无向图的顶点f_i的权重，对应f_i在整个待标记视频中出现的频次；表示人名无向图的顶点n_i′的权重，对应n_i′在整个与所述待标记视频对应的文本中出现的频次；σ为调节对噪声容忍程度的敏感系数。

可选的，按下式计算任意两个候选匹配间的相容度：

式中，M(a,b)表示候选匹配a和候选匹配b间的相容度，a＝(f_i,n_i′)其中，f_i表示人脸无向图的第i个顶点，n_i′表示人名无向图的第i个顶点，b＝(f_j,n_j′)其中，f_j表示人脸无向图的第j个顶点，n_j′表示人名无向图的第j个顶点；表示人脸无向图的顶点f_i和顶点f_j间的关系密切程度；表示人名无向图的顶点n_i′和顶点n_j′间的关系密切程度；σ为调节对噪声容忍程度的敏感系数。

可选的，所述预设目标函数如下所示：

式中，S表示目标匹配集中所有候选匹配的匹配度和相容度之和；C表示目标匹配集；a和b表示目标匹配集C中的候选匹配；M(a,b)表示候选匹配a和候选匹配b间的相容度；M(a)表示候选匹配a的匹配度；

所述预设条件包括：

所述人脸无向图中的顶点与所述人名无向图中的顶点一一对应。

可选的，根据所述匹配度和相容度从所有候选匹配中选出满足预设目标函数和预设条件的目标匹配集，包括：

步骤1.建立以所述候选匹配为顶点，以候选匹配的匹配度为顶点权重，以任意两个候选匹配间的关系为边，以所述任意两个候选匹配间的相容度为边权重的匹配无向图；

步骤2.构建所述匹配无向图的邻接矩阵；

步骤3.构建一个归一化的指示向量，所述指示向量为候选匹配属于目标匹配集的置信度，所述指示向量的模为1；

步骤4.求解最优指示向量X^*,使得X^*＝argmax(X^TMX),式中，X表示指示向量；X^T表示指示向量X的转置；M表示邻接矩阵；

步骤5.确定所述最优指示向量X^*中的最大元素值；

步骤6.确定与所述最大元素值对应的候选匹配，并将与所述最大元素值对应的候选匹配放入目标匹配集中；

步骤7.根据所述预设条件，删除与所述最大元素值对应的候选匹配相冲突的候选匹配，并将所述最大元素值置0；

重复步骤5-7，直至所述目标匹配集中的候选匹配满足预设的目标函数和预设条件。

第二方面，本发明实施例还提出一种移动终端，包括：

处理器、存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述通信接口用于外部设备之间的信息传输；

所述处理器用于调用所述存储器中的程序指令，以执行如第一方面所述方法的步骤。

第三方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如第一方面所述方法的步骤。

相比现有技术，本发明实施例提出的一种视频人脸标记方法，根据待标记视频和与待标记视频对应的文本中分别计算人脸图像和人名的出现频次，建立人脸关系网和人名关系网。然后将人脸关系网和人名关系网分别转化为无向图，通过对两个无向图进行匹配的方法在两个无向图的顶点之间建立对应关系，以实现对待标记视频中的人脸图像进行标记。本申请提供的人脸标记方法，通过将待标记视频和与待标记视频对应的文本进行图匹配，实现了待标记视频中的人脸标记，摆脱了对时间信息的要求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频人脸标记方法流程图；

图2为本发明实施例提供的一种建立人脸关系网的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种视频人脸标记方法流程图，如图1所示，所述方法包括：

S1.获取待标记视频中的人脸图像序列；

在本申请实施例中，可以采用多视角的人脸检测与跟踪器自动获取待标记视频中的人脸图像序列；在人脸图像序列中，每幅人脸图像都被归一化为64×64的灰度图像，并表示成64×64维的灰度特征向量，然后通过局部线性嵌入的方法进行特征降维。

S2.根据所述人脸图像序列建立人脸关系网；

参照图2，在本申请实施例中，可以通过下述方法建立人脸关系网：

S201.采用搬土距离算法计算人脸图像序列间的距离；

搬土距离是一种集合之间的距离度量方式，产生于运输问题，其本质是求解加权点集转换过程中的最小代价，属于约束最优化问题。它具备以下两个性质：(1)允许部分相似，而且不要求两个数据集合的大小相等，这对于含有不同图像数量的人脸图像序列之间距离的度量尤为重要。(2)对于数据集合间出现的较为严重的不相似情况，能够给予惩罚。这主要是因为在待识别视频中，由于光照、姿态等因素影响，在有些情况下不同人物的人脸可能会看起来比较相似。对于这种来自不同人物的人脸图像序列之间部分图像的相似性，必须依靠对其它图像的不相似性加以惩罚，才能避免将它们混为同一人。

S202.计算完人脸图像序列间的距离后，根据所述人脸图像序列间的距离采用凝聚层次聚类算法对所述人脸图像序列进行聚类，得到人脸簇；

S203.统计每一个人脸簇在所述待标记视频的各个场景中出现的频次；

在本申请实施例中，用于已经完成了对人脸图像序列的聚类，因此只需统计每个簇中的人脸图像序列在各个场景中的分布情况，即可得到一个表示人脸出现的频次的人脸频次分布矩阵O_face＝[o_ik]_m×n，其中m是人脸簇的个数，n是场景的个数，矩阵中的元素o_ik表示第i个人脸簇在第k个场景中出现的频次。矩阵中的第i行o_i＝{o_i1,o_i2,…,o_im}即为第i个人脸簇在整部待识别视频中出现频次的分布。

S204.根据任意两个人脸簇在所述待标记视频的各个场景中分别出现的频次，计算所述任意两个人脸簇在所述待标记视频的各个场景中共同出现的频次；

在本申请实施例中，计算任两个人脸簇在同一个场景中共同出现的频次，计算方式为：该式表明为第i和第j个人脸簇在第k个场景中共同出现的频次。则这两个人脸簇在整部待识别视频的各个场景中共同出现的频次计算如下：通过求取两两人脸簇之间的关系，本申请可以建立人脸关系网。该网络由邻接矩阵R_name＝[r_ij]_m×m来表示。邻接矩阵为m×m的方阵，其元素为对应的两个人脸簇之间的关系值，对角线上的元素r_ii为第i个人脸簇自身在整部待识别视频中出现的频次。

S205.根据所述任意两个人脸簇在所述待标记视频的各个场景中共同出现的频次构建人脸关系网。

S3.获取与所述待标记视频对应的文本中的人名；

S4.根据所述人名构建人名关系网；

在本申请实施例中，构建人名关系网的方法与构建人脸关系网的方法类似，在建立人名关系网时，其关系也是通过两个人名在文本中同一场景里共同出现的频次来度量。首先统计每个人名在文本的各个场景中出现的频次，得到一个用于表示人名出现频次的人名频次分布矩阵O_name＝[o_ik]_m×n，其中m是人名的个数，n是场景的个数。然后根据公式计算两两人名之间共同出现的频次，生成人名关系网，该网络同样由一个邻接矩阵R_name＝[r_ij]_m×m来表示。

S5.分别将所述人脸关系网和所述人名关系网转化为人脸无向图和人名无向图；

在本申请实施例中，建立了人脸关系网R_face和人名关系网R_name分别可以通过无向图G_face＝〈V_f,E_f,W_f〉和G_name＝〈V_n,E_n,W_n〉来表示。在图G_face中，顶点V_f＝{f₁,f₂,…f_m}代表m个人脸簇，边E_f表示两两人脸簇之间的关系，边的权重记录两两人脸簇间的关系密切程度，顶点的权重记录对应的人脸簇在整部待标记视频中出现的频次。在图G_name中，顶点V_n＝{n_1′,n_2′,…n_m′}代表m个人名，同样的，边E_n和权重W_n表示两两人名之间的相互关系。

S6.对所述人脸无向图和人名无向图进行匹配，得到待标记视频中人脸图像的标记结果。

在本申请实施例中，图G_face和G_name分别包含m个顶点，则有m×m种可能的候选匹配，本申请将所有的候选匹配存储在一个列表L中。对于每个候选匹配a＝(f_i,n_i′)，为了评价人脸簇f_i与人名n_i′之间的匹配程度，本申请定义了一个指标M(a)，称为“匹配度”：

其中，σ是调节对噪声容忍程度的敏感系数。M(a)可以被看作是该匹配的特征，当一个候选匹配是正确匹配时，其匹配度M(a)将会高于阈值，正确匹配表示人脸簇f_i与人名n_i′匹配正确。

对于任两个候选匹配(a,b)，其中a＝(f_i,n_i′)，b＝(f_j,n_j′)，在图G_face中，f_i和f_j之间的关系为在图G_name中，n_i′和n_j′之间的关系为如果这两个候选匹配a和b都是正确匹配，则关系值和应该是接近的，本申请称之为相容；反之这两个关系值相差较大，本申请称之为相斥。因此，针对这两个候选匹配本申请同样定义了一个指标M(a,b)，称为“相容度”：

M(a,b)可以看作是两个候选匹配的特征，如果两个候选匹配都是正确的，则它们的相容度M(a,b)将会高于阈值。基于定义，M(a,b)的取值是非负的，且是对称的(M(a,b)＝M(b,a))。与此同时，对于这两个候选匹配，本申请还需考虑人名与人脸簇之间的一一映射约束，当它们与这一约束冲突时，如a＝(f_i,n_i′)，b＝(f_i,n_j′)，即人脸簇f_i既与人名n_i′匹配又与人名n_j′匹配，则将这两个候选匹配的相容度M(a,b)置为0。至此，两个图顶点之间的匹配问题就简化为在所有可能的候选匹配中搜寻一个目标匹配集C，目标匹配集C在满足人脸簇与人名一对一映射约束的同时，其所包含的候选匹配的匹配度和相容度之和能够取得最大值。其目标函数定义为：

为此，本申请可以用一个图来表示所有可能的候选匹配，图的顶点对应每个候选匹配，其权重即为匹配度M(a)，图的边对应两个候选匹配之间的关系，其权重即为相容度M(a,b)。因为共有m×m个可能的候选匹配，所以图中的顶点数为m²。该图的邻接矩阵为其元素即为各匹配度M(a)和相容度M(a,b)。因此，本申请的目标实际上是在矩阵中寻找目标匹配集C，在满足一对一映射的约束条件下，使得集合内元素之和取得最大值。为了解决这一带约束的优化问题，本申请引入了一种谱的方法。该方法由Leordeanu和Hebert提出，能够在矩阵中搜寻占主导地位的元素集合。首先，本申请定义一个归一化的指示向量X，X的元素值x(i)为所对应的第i个候选匹配a_i属于目标匹配集C的置信度，其模值为1。本申请希望求得最优指示向量X^*,使得X^*＝argmax(X^TMX)。根据匹配度M(a)和相容度M(a,b)的定义可知，矩阵为非负对称矩阵。因此，根据Rayleigh商定理，当x为矩阵M的主特征向量时，X^TMX可以取得最大值，且根据Perron-Frobenius定理，所求得的主特征向量的元素值严格分布在区间[0,1]内，这恰好符合本申请之前对指示向量的定义，遂完成对最优的指示向量X^*的求解。由于本申请已经将所有候选匹配存入列表L中，于是在获得该最优解后，本申请首先搜索到最优指示向量中的最大元素值X^*(a^*)，其对应的候选匹配a^*即为最可能的匹配，遂将其保留。然后根据一对一映射约束，本申请将所有与候选匹配a^*相冲突的候选匹配从列表L中删除，同时将X^*中的对应元素值置0。接下来，本申请继续寻找X^*中的最大元素值，保留其在列表L中对应的匹配，并删除与之相冲突的其他匹配。以此类推，循环至对所有的候选匹配都完成了保留或删除的操作。最终保留下来的候选匹配即为目标匹配集C中的候选匹配。这样在待识别视频中的每个人脸簇都被分配了一个人名，同一人脸簇中的人脸图像序列皆用该人名进行标记。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明各个实施例所述的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法或者实施例的某些部分所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频人脸标记方法，其特征在于，包括：

获取待标记视频中的人脸图像序列；

根据所述人脸图像序列建立人脸关系网；

获取与所述待标记视频对应的文本中的人名；

根据所述人名构建人名关系网；

2.根据权利要求1所述的视频人脸标记方法，其特征在于，所述获取待标记视频中的人脸图像序列，包括：

3.根据权利要求1所述的视频人脸标记方法，其特征在于，根据所述人脸图像序列建立人脸关系网，包括：

采用搬土距离算法计算人脸图像序列间的距离；

4.根据权利要求1所述的视频人脸标记方法，其特征在于，获取与所述待标记视频对应的文本中的人名，包括：

采用命名实体识别算法识别出所述文本中的人名。

5.根据权利要求1所述的视频人脸标记方法，其特征在于，根据所述人名构建人名关系网，包括：

统计每一个人名在所述文本的各个场景中出现的频次；

6.根据权利要求3所述的视频人脸标记方法，其特征在于，分别将所述人脸关系网和所述人名关系网转化为人脸无向图和人名无向图，包括：

7.根据权利要求6所述的视频人脸标记方法，其特征在于，对所述人脸无向图和人名无向图进行匹配，得到待标记视频中人脸图像的标记结果，包括：

计算所述候选匹配的匹配度；

计算任意两个候选匹配间的相容度；

根据所述目标匹配集标记所述待标记视频中的人脸图像。

8.根据权利要求7所述的视频人脸标记方法，其特征在于，按下式计算所述候选匹配的匹配度：

9.根据权利要求7所述的视频人脸标记方法，其特征在于，按下式计算任意两个候选匹配间的相容度：

10.根据权利要求7所述的视频人脸标记方法，其特征在于，所述预设目标函数如下所示：

所述预设条件包括：

11.根据权利要求10所述的视频人脸标记方法，其特征在于，根据所述匹配度和相容度从所有候选匹配中选出满足预设目标函数和预设条件的目标匹配集，包括：

步骤2.构建所述匹配无向图的邻接矩阵；

步骤5.确定所述最优指示向量X^*中的最大元素值；