CN109214247B

CN109214247B - 基于视频的人脸标识方法和装置

Info

Publication number: CN109214247B
Application number: CN201710539365.5A
Authority: CN
Inventors: 张一帆
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2022-04-22
Anticipated expiration: 2037-07-04
Also published as: CN109214247A

Abstract

本发明提出一种基于视频的人脸标识方法和装置，其中，方法包括：通过对视频进行人脸识别，得到人脸序列，并在并在获取人物与人物在所述视频中出现时刻之间的对应关系之后之后，利用人物与所述人物在所述视频中出现时刻之间的对应关系，对人脸序列中的部分序列进行人物标注。将已标注的人脸序列以及未标注的人脸序列作为训练样本，对学习模型进行半监督学习，根据学习结果，在视频中，利用人物标注标识人脸图像。由于采用了自动化标注方式，节省了人力标注，同时将已标注的人脸序列以及未标注的人脸序列作为训练样本进行半监督学习，提高了标识的准确度，解决了现有技术中人脸标识效率较低的技术问题。

Description

基于视频的人脸标识方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于视频的人脸标识方法和装置。

背景技术

在现有技术中，已经可以利用电影剧本对电影视频中出现的人物进行标识，具体来说，也就是利用人名对出现的人脸图像进行标注。现有技术中，为了实现这种人脸标识，存在两种实现方式：

一种实现方式是无监督的方式，需要对视频中出现的人脸进行聚类得到多个团簇，进而对每一个团簇分析在整个视频中的时间分布，将其与电影剧本中人名出现的时间分布进行对齐，得到人脸标识结果。但这种方式标识的准确度需要依赖于聚类的结果，导致无监督的方式，准确度不高。

另一种实现方式是全监督的方式，需要人工手动采用人名标注大量的人脸图像作为训练样本，对分类器进行训练，从而实现人脸标识。但这种方式需要人工手动标注，劳动量较大。

可见，无论是无监督的方式，还是全监督的方式，均存在人脸标识效率较低的技术问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出了一种基于视频的人脸标识方法和装置，以采用半监督的学习方式，进行人脸标识，解决现有技术中人脸标识效率较低的技术问题。

为达上述目的，本发明第一方面实施例提出了一种基于视频的人脸标识方法，包括：

对视频进行人脸识别，得到人脸序列；所述人脸序列用于指示识别得到的人脸图像与所述人脸图像在所述视频中出现时刻的对应关系；

获取所述视频的人物在所述视频中出现时刻；

根据人物在所述视频中出现时刻，以及人脸序列所涉及的人脸图像在所述视频中出现时刻，对所述人脸序列进行人物标注，得到已标注的人脸序列；

将已标注的人脸序列，以及所述视频的人脸序列中未标注的人脸序列，作为训练样本，对学习模型进行半监督学习，得到所述未标注的人脸序列的人物标注；

在所述视频中，将人脸图像标识为对应人脸序列的人物标注。

可选地，在本发明的一种可能的实施例中，所述对学习模型进行半监督学习，得到所述未标注的人脸序列的人物标注，包括：

建立条件随机场学习模型；其中，所述条件随机场学习模型包括表示所述人脸序列的各观测节点，以及表示人物的各标签节点，所述标签节点中包括根据已标注的人脸序列对应的人物生成的已知隐节点，以及根据未标注的人脸序列对应的人物生成的未知隐节点；

根据所述已知隐节点的势函数以及未知隐节点的势函数，生成目标函数；

以所述目标函数最大化为目标，对所述条件随机场学习模型进行学习，以得到所述未知隐节点的取值；其中，所述未知隐节点的取值，用于对所述未标注的人脸序列进行人物标注。

可选地，在本发明的一种可能的实施例中，所述目标函数是多个势函数联乘得到的，所述势函数包括单一势函数和成对势函数；

其中，所述单一势函数，用于指示单一观测节点与对应单一标签节点之间的关联性；

所述成对势函数，用于指示一对相邻的观测节点与对应的一对相邻的标签节点之间的关联性。

可选地，在本发明的一种可能的实施例中，所述对所述条件随机场学习模型进行学习，包括：

采用EM算法，对所述条件随机场学习模型进行学习，得到所述条件随机场学习模型的参数，以及所述未知隐节点的取值。

可选地，在本发明的一种可能的实施例中，所述对视频进行人脸识别，得到人脸序列，包括：

对所述视频中各视频帧出现的人脸进行识别，根据连续视频帧中出现的对应同一人脸图像序列，生成所述人脸序列。

可选地，在本发明的一种可能的实施例中，所述获取所述视频的人物在所述视频中出现时刻，包括：

将所述视频的第一描述信息与所述视频的第二描述信息进行文本对齐，得到人物与所述人物在所述视频中出现时刻之间的对应关系；

其中，所述第一描述信息用于指示各文本与所述视频中出现时刻之间的对应关系；

所述第二描述信息用于指示各文本与所述人物之间的对应关系。

可选地，在本发明的一种可能的实施例中，所述根据人物在所述视频中出现时刻，以及人脸序列所涉及的人脸图像在所述视频中出现时刻，对所述人脸序列进行人物标注，得到已标注的人脸序列，包括：

将所述人物与出现时刻之间的对应关系，与所述人脸序列指示的人脸图像与出现时刻的对应关系进行时间对齐，得到人物与人脸序列之间的对应关系；

根据所述人物与人脸序列之间的对应关系，对所述人脸序列进行人物标注，得到所述已标注的人脸序列。

本发明实施例的基于视频的人脸标识方法，通过对视频进行人脸识别，得到人脸序列，并在获取人物与人物在所述视频中出现时刻之间的对应关系之后，利用人物与所述人物在所述视频中出现时刻之间的对应关系，对人脸序列中的部分序列进行人物标注。将已标注的人脸序列以及未标注的人脸序列作为训练样本，对学习模型进行半监督学习，根据学习结果，在视频中，利用人物标注标识人脸图像。由于采用了自动化标注方式，节省了人力标注，同时将已标注的人脸序列以及未标注的人脸序列作为训练样本进行半监督学习，提高了标识的准确度，解决了现有技术中人脸标识效率较低的技术问题。

为达上述目的，本发明第二方面实施例提出了一种基于视频的人脸标识装置，包括以下步骤：

识别模块，用于对视频进行人脸识别，得到人脸序列；所述人脸序列用于指示人脸图像与所述人脸图像在所述视频中出现时刻的对应关系；

确定模块，用于获取所述视频的人物在所述视频中出现时刻；

标注模块，用于根据人物在所述视频中出现时刻，以及人脸序列所涉及的人脸图像在所述视频中出现时刻，对所述人脸序列进行人物标注，得到已标注的人脸序列；

学习模块，用于将已标注的人脸序列，以及所述视频的人脸序列中未标注的人脸序列，作为训练样本，对学习模型进行半监督学习，得到所述未标注的人脸序列的人物标注；

标识模块，用于在所述视频中，将人脸图像标识为对应人脸序列的人物标注。

可选地，在本发明的一种可能的实施例中，所述学习模块，包括：

建立单元，用于建立条件随机场学习模型；其中，所述条件随机场学习模型包括表示所述人脸序列的各观测节点，以及表示人物的各标签节点，所述标签节点中包括根据已标注的人脸序列对应的人物生成的已知隐节点，以及根据未标注的人脸序列对应的人物生成的未知隐节点；

生成单元，用于根据所述已知隐节点的势函数以及未知隐节点的势函数，生成目标函数；

学习单元，用于以所述目标函数最大化为目标，对所述条件随机场学习模型进行学习，以得到所述未知隐节点的取值；其中，所述未知隐节点的取值，用于对所述未标注的人脸序列进行人物标注。

其中，所述单一势函数，用于指示单一观测节点与单一标签节点之间存在对应关系的概率；

所述成对势函数，用于指示相邻的一对观测节点与相邻的一对标签节点之间存在对应关系的概率。

可选地，在本发明的一种可能的实施例中，所述学习单元，具体用于：

采用EM算法，对所述条件随机场学习模型进行学习，得到所述条件随机场学习模型的参数，以及所述未标注的人脸序列与人物之间的对应关系。

可选地，在本发明的一种可能的实施例中，所述识别模块，具体用于：

可选地，在本发明的一种可能的实施例中，所述确定模块，具体用于：

可选地，在本发明的一种可能的实施例中，所述标注模块，具体用于：

跟所述人物与人脸序列之间的对应关系，对所述人脸序列进行人物标注，得到所述已标注的人脸序列。

本发明实施例的基于视频的人脸标识装置，通过对视频进行人脸识别，得到人脸序列，并在获取人物与人物在所述视频中出现时刻之间的对应关系之后，利用人物与所述人物在所述视频中出现时刻之间的对应关系，对人脸序列中的部分序列进行人物标注。将已标注的人脸序列以及未标注的人脸序列作为训练样本，对学习模型进行半监督学习，根据学习结果，在视频中，利用人物标注标识人脸图像。由于采用了自动化标注方式，节省了人力标注，同时将已标注的人脸序列以及未标注的人脸序列作为训练样本进行半监督学习，提高了标识的准确度，解决了现有技术中人脸标识效率较低的技术问题。

为达上述目的，本发明第三方面实施例提出了另一种基于视频的人脸标识装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行第一方面所述的基于视频的人脸标识方法。

为了实现上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行第一方面所述的基于视频的人脸标识方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行第一方面所述的基于视频的人脸标识方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于视频的人脸标识方法的流程示意图；

图2为发明实施例所提供的另一种基于视频的人脸标识方法的流程示意图；

图3为半监督学习的条件随机场模型的结构示意图；

图4为EM算法过程示意；

图5为人脸标识效果示意图；

图6为本发明实施例提供的又一种基于视频的人脸标识方法的流程示意图；

图7为基于视频的人脸标识方法各处理环节处理结果的示意图；

图8为本发明实施例提供的一种基于视频的人脸标识装置的结构示意图；

图9为本发明实施例提供的一种基于视频的人脸标识装置的结构示意图；以及

图10为本发明实施例提供的一种基于视频的人脸标识系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于视频的人脸标识方法和装置。

图1为本发明实施例所提供的一种基于视频的人脸标识方法的流程示意图。

步骤101，对视频进行人脸识别，得到人脸序列。

其中，人脸序列用于指示识别得到的人脸图像与所述人脸图像在所述视频中出现时刻的对应关系。

具体地，对视频中各视频帧出现的人脸进行识别，根据连续视频帧中出现的对应同一人脸图像序列，生成所述人脸序列。也就是说，一个人脸序列中包含连续视频帧中出现的同一人脸图像。为了便于后续处理，在人脸序列中，还可以包括每一人脸图像所在的视频帧的标识。由于视频帧与时刻是一相邻的一对应的，因此，人脸序列能够用于指示人脸图像，与该人脸出现时刻之间的对应关系。

步骤102，获取视频中的人物在所述视频中出现时刻。

具体地，根据视频的第一描述信息与该视频的第二描述信息进行文本对齐，得到人物与该人物在所述视频中出现时刻之间的对应关系。其中，第一描述信息用于指示各文本与所述视频中出现时刻之间的对应关系；第二描述信息用于指示各文本与所述人物之间的对应关系。

作为一种可能的实现方式，第一描述信息具体为字幕，第二描述信息具体为剧本。视频的剧本和字幕均记载了台词，不同的是，剧本记录了各个人物所说的台词，而字幕记录了台词出现时刻。也就是说，根据剧本，能够得到人物和台词之间的对应关系，而根据字幕，能够得到出现时刻和台词之间的对应关系。进而，将视频的字幕与视频的剧本进行文本对齐，得到人物与该人物在视频中出现时刻之间的对应关系。

步骤103，根据人物在所述视频中出现时刻，以及人脸序列所涉及的人脸图像在所述视频中出现时刻，对所述人脸序列进行人物标注，得到已标注的人脸序列。

具体地，将人物与出现时刻之间的对应关系，与人脸序列指示的人脸图像与出现时刻的对应关系进行时间对齐，得到人物与人脸序列之间的对应关系。进而根据人物与人脸序列之间的对应关系，采用对应的人物对人脸序列进行标注，得到已标注的人脸序列。在进行人脸标注时，可以采用人物的名字进行标注，也可以采用该人物的其他标识进行标注。

需要说明的是，这种标注方式，是弱标注，具有一定的噪声，而且相较于全部的人脸序列，已标注的人脸序列仅仅是其中的一小部分。

步骤104，将已标注的人脸序列，以及所述视频的人脸序列中未标注的人脸序列，作为训练样本，对学习模型进行半监督学习，得到所述未标注的人脸序列的人物标注。

具体地，可以选择隐马尔可夫模型、马尔科夫随机场或者条件随机场作为该学习模型，进行半监督学习，从而得到该视频的各人脸序列与人物之间的对应关系。

作为一种可能的实现方式，建立条件随机场学习模型，其中，条件随机场学习模型包括表示人脸序列的各观测节点，以及表示人物的各标签节点。由于在步骤103中，对部分序列进行了标注，从而标签节点中具体包括了根据已标注的人脸序列对应的人物生成的已知隐节点，以及根据未标注的人脸序列对应的人物生成的未知隐节点。根据已知隐节点的势函数以及未知隐节点的势函数，生成目标函数。以所述目标函数最大化为目标，对所述条件随机场学习模型进行学习，以得到所述未标注的人脸序列与人物之间的对应关系。

作为一种可能的实现方式，目标函数是多个势函数联乘的结构。例如：目标函数包括单一势函数和成对势函数。其中，单一势函数，用于指示单一观测节点与单一标签节点之间存在对应关系的概率；成对势函数，用于指示相邻的一对观测节点与相邻的一对标签节点之间存在对应关系的概率。

步骤105，在视频中，将人脸图像标识为对应人脸序列的人物标注。

具体地，查询人脸序列中人脸图像的出现时刻，从而确定该出现时刻对应的视频帧，在该视频帧中，标识出人脸图像，具体将该人脸图像标识为对应的人物。

本发明实施例中，通过对视频进行人脸识别，得到人脸序列，并在获取人物与人物在所述视频中出现时刻之间的对应关系之后，利用人物与所述人物在所述视频中出现时刻之间的对应关系，对人脸序列中的部分序列进行人物标注。将已标注的人脸序列以及未标注的人脸序列作为训练样本，对学习模型进行半监督学习，根据学习结果，在视频中，利用人物标注标识人脸图像。由于采用了自动化标注方式，节省了人力标注，同时将已标注的人脸序列以及未标注的人脸序列作为训练样本进行半监督学习，提高了标识的准确度，解决了现有技术中人脸标识效率较低的技术问题。

为了清楚说明上一实施例中的标识方法，本实施例中，对于一种可能的条件随机场模型建立和训练过程进行了介绍，本实施例提供了另一种基于视频的人脸标识方法，图2为发明实施例所提供的另一种基于视频的人脸标识方法的流程示意图。

如图2所示，该基于视频的人脸标识方法可以包括以下步骤：

步骤201，对视频中的每一个视频帧进行人脸识别，根据识别结果，生成人脸序列。

其中，人脸序列中，包括人脸图像和该人脸图像出现的视频帧的帧号。

具体地，利用多视角的人脸检测和跟踪器，对视频中的每一个视频帧进行人脸识别。将连续视频帧中出现的人脸图像，作为一个人脸序列。

步骤202，根据视频的剧本和字幕，对人脸序列中的部分序列进行标注。

具体地，根据剧本，能够得到人物和台词之间的对应关系，而根据字幕，能够得到出现时刻和台词之间的对应关系。采用动态时间规整算法，将剧本和字幕的文本进行对齐，得到人物与该人物在视频中出现时刻之间的对应关系，也就是说，得到说话的人物在视频中出现的时刻。

进而，将人物与出现时刻之间的对应关系，与人脸序列指示的人脸图像与出现时刻的对应关系进行时间对齐，得到人物与人脸序列之间的对应关系。根据人物与人脸序列之间的对应关系，采用对应的人物对人脸序列进行人物标注，得到已标注的人脸序列。

步骤203，建立条件随机场模型。

可选地，图3为半监督学习的条件随机场模型的结构示意图，如图3所示，包括上下两层，下面分别对两层节点进行说明：

1)下层包括观测节点，观测节点表示每一个人脸序列。

2)上层包括标签节点，标签节点表示每一个人脸序列对应的人物标注，由于需要将对应的人物标注作为标签对人脸序列进行标识，从而也说Y节点表示每一个人脸序列的标签，标签内容为人物标注的人物名字。

标签节点中包括两部分，一部分为已知隐节点，另一部分为未知隐节点。

其中，已知隐节点，表示已标注的人脸序列对应的人物；未知隐节点，表示未标注的人脸序列对应的人物。

为了便于理解，下面对条件随机场模型原理进行简要介绍，少量的已知隐节点作为已知量，对应图3中的灰色节点，通过少量的已知隐节点与观测节点之间的对应关系，推断出未知隐节点对应的观测节点所表示的人物，从而采用该人物对未知隐节点所表示的人脸序列进行人物标注。标签节点之间的连线，表示存在相似关系，这里的相似关系式根据近邻系统所确定出的，下文将对近邻系统进行简要介绍，这里不再赘述。

具体来说，通过少量的已知隐节点与观测节点之间的对应关系，推断出未知隐节点对应的观测节点所表示的人物，是需要经过大量运算之后获得的。

作为一种可能的实现方式，可以将人脸序列表示为x_i，从而该视频进行人脸识别所得到的全部人脸序列x_i可以构成一个集合

n为人脸序列的总个数，R^d表示人脸序列采用d维向量进行表示。

在人脸序列集合X中，包含一部分已标注的人脸序列，以及另一部分未标注的人脸序列。

其中，已标注的人脸序列集合可以表示为集合X的子集X_l，

未标注的人脸序列集合可以表示为集合X的子集X_u，

m表示在全部n个人脸序列中，已标注的人脸序列为m个，为了便于处理，将m个已标注的人脸序列排序为第1至第m个人脸序列，第m+1个人脸序列至第n个人脸序列为未标注的人脸序列。

由于人脸序列集合表示为X，可以将表示人脸序列的观测节点集合表示为X。将每一个观测节点表示为对应人脸序列x_i。

标签节点表示人物标注，每一个人脸序列x_i对应一个人物标注y_i，从而每一个观测节点对应一个标签节点。将每一个标签节点表示为人物标注y_i。

由于每一个观测节点对应一个标签节点，标签节点的总个数应当等于观测节点的总个数n，相应地，人物标注y_i的总个数也为n个。人物标注y_i的集合可以表示为Y＝{y₁,y₂,...,y_n},y_i∈{1,...K}，人物标注y_i取值为1至K，1至K分别对应不同的人名。

经过步骤202之后，已知一部分人脸序列的人物标注取值，也就是说，已经获知一部分人物标注的人名，可以称这些已知对应人脸序列的人物标注称为已知的人物标注，进而可以将这部分已知的人物标注表示为

另外，未知的人物标注表示为

对于条件随机场模型进行学习的过程，就是推断Y_u中人物标注y_i取值的过程，以及在推断的同时，学习一个分类器F：X→K。在学习到该分类器的同时，能够实现确定出每一个人脸序列x_i对应一个人物标注y_i取值。

步骤204，根据所述已知隐节点的势函数以及未知隐节点的势函数，生成目标函数。

可选地，由于已知一部分人脸序列对应的人物标注，而另一部分人脸序列对应的人物标注是未知的，针对这部分已知人物标注，可以构造已知隐节点的势函数。另外，针对未知人物标注，可以构造未知隐节点的势函数。

其中，势函数包括单一势函数ψ_u和成对势函数ψ_p。

单一势函数ψ_u，用于指示单一观测节点与单一标签节点之间存在对应关系的概率。成对势函数ψ_p，用于指示相邻的一对观测节点与相邻的一对标签节点之间存在对应关系的概率。

具体地，已知隐节点的单一势函数为ψ_u(k|X；θ)，已知隐节点的成对势函数为ψ_p(k，y_Ni|X；β)。

相应地，未知隐节点的单一势函数为ψ_u(y_i|X；θ)，未知隐节点的成对势函数为ψ_p(y_i，y_Ni|X；β)。

需要说明的是，θ和β为未知参数，随学习的过程确定未知参数的取值。

目标函数可以表示为单一势函数和成对势函数联乘。具体来说，作为一种可能的实现方式，目标函数为

其中，

为指示函数，当y_i＝k时

取值为1，否则

取值为0。Z(X)为归一化项。

作为一种可能的实现方式，单一势函数ψ_u可以采用多类逻辑斯蒂回归函数。

具体地，单一势函数如下：

其中，θ_k为第k个人物所对应的逻辑斯蒂回归函数的参数。

相应地，成对势函数ψ_p如下：

其中，

是一个对称矩阵，表示隐结点之间建立的近邻系统。

其中，近邻系统表示任两个结点之间的相似关系，这里采用最小欧式距离来度量任两个人脸序列之间的相似度。

具体来说，对于标签节点，可以根据对应观测节点计算不同标签节点之间的相似程度，并确定相似的标签节点作为相邻节点。

步骤205，以目标函数最大化为目标，对条件随机场学习模型进行学习，以得到未标注的人脸序列的人物标注。

具体地，由于半监督条件随机场模型中对未知隐结点的推断和模型参数的学习是同时进行的，因此可以采用经典的EM算法。

具体EM算法过程如图4所示，EM算法的计算过程可以参考图4以及现有技术中相关描述，本实施例中，对于EM算法的运算过程不再赘述。

EM算法收敛后，我们可以推断获得未知隐结点的取值，以及获得已学习得到的多类逻辑斯蒂回归分类器的参数。未知隐结点的取值即为未知人脸序列的人脸标注。

步骤206，在视频中进行人脸标识。

在视频中，将人脸图像标识为对应人脸序列的人物标注。

作为一种可能的应用场景，在步骤201中，是根据全部视频进行人脸识别得到的人脸序列。从而可以仅根据各人脸序列的人物标注，将视频中涉及的各人脸图像，标识为相应人脸序列的人物标注。

作为另一种可能的应用场景，在步骤201中，是根据部分视频进行人脸识别得到的人脸序列。从而可以根据各人脸序列的人物标注，将视频中涉及的各人脸图像，标识为相应人脸序列的人物标注之后，对于视频中的其他帧进行人脸识别，将识别得到的人脸图像输入学习得到的分类器，输出人脸图像的人物标注，采用该人物标注来进行分类以完成标识。

由于分类器是基于逻辑斯蒂回归函数设计的，因此，该分类器又可以称为多类逻辑斯蒂回归分类器。

本实施例中，通过对视频进行人脸识别，得到人脸序列，并在获取人物与人物在所述视频中出现时刻之间的对应关系之后，利用人物与所述人物在所述视频中出现时刻之间的对应关系，对人脸序列中的部分序列进行人物标注。将已标注的人脸序列以及未标注的人脸序列作为训练样本，对学习模型进行半监督学习，根据学习结果，在视频中，利用人物标注标识人脸图像。由于采用了自动化标注方式，节省了人力标注，同时将已标注的人脸序列以及未标注的人脸序列作为训练样本进行半监督学习，提高了标识的准确度，解决了现有技术中人脸标识效率较低的技术问题。

为了清楚说明前述实施，本发明实施例还提供了一种具体的应用场景，图5为采用前述方法进行人脸标识的视频。

具体来说，图5中给出了两个人物，可以基于人脸识别，得到这两个人物的人脸图像。

具体来说，为了得到如图5所示的人脸标识效果。可以存在两种可能的情况，针对不同情况采用不同的人脸标识方法。

第一种：已经学习得到该视频的分类器。

在已经学习得到分类器的情况下，可以将一男一女两幅人脸图像输入分类器，从而输出得到各人脸图像的人物标注，即“Leonard”和“Penny”。

第二种：未学习得到该视频的分类器。

在未建立或者学习得到分类器的情况下，可以采用如下方式进行，图6为本发明实施例提供的又一种基于视频的人脸标识方法的流程示意图，如图6所示：

步骤301，根据当前视频帧，获取该视频帧所属电视剧的一段视频，或者是该电视剧的全部视频帧。

具体来说，图5为某一电视剧中的一帧视频帧。

为了对图5的视频帧进行人脸标识，可以获取该电视剧中一集视频，也可以获取该电视剧的几集视频，还可以获取该电视剧一集视频中的部分视频。

若获取该电视剧中一集视频，或者，电视剧一集视频中的部分视频，尽管运算量可以较小，但相应地，人脸标识的准确度也可能较低。

若获取该电视剧中几集视频甚至全部视频，运算量尽管较大，但相应地，人脸标识的准确度较高。

需要说明的是，该待进行人脸标识的视频帧可以在获取的视频中，也可以不在获取的视频中，本实施例中对此不作限定。

步骤302，对获取到的视频中的每一个视频帧进行人脸识别，根据识别结果，生成多个人脸序列。

步骤303，根据视频的剧本和字幕，对人脸序列中的部分序列进行人物标注。

具体地，采用动态时间规整算法，将剧本和字幕的文本进行对齐，得到人物与该人物在视频中出现时刻之间的对应关系，也就是说，得到说话的人物在视频中出现的时刻。

步骤304，根据已标注的人脸序列，以及未标注的人脸序列，对半监督条件随机场模型进行学习，得到模型参数以及人脸序列的人物标注。

具体地，模型学习和建立的过程，本实施例中不再赘述，具体参见前述实施例中的相关描述。

步骤305，判断待进行人脸标识的视频帧是否在获取的视频中，若是，执行步骤306，否则，执行步骤307。

步骤306，根据学习得到的人脸序列的人物标志，将人脸图像标识为对应人脸序列的人物标注。

具体地，若待进行人脸标识的视频帧在获取的视频中，经过步骤304，可以在学习得到分类器的同时，得到所涉及人脸序列的人物标注，根据该人物标注对人脸图像进行标识。

步骤307，人脸图像输入学习得到的分类器，根据输出结果对该视频帧进行人脸标识。

具体地，若待进行人脸标识的视频帧不在获取的视频中，经过步骤304，可以学习得到分类器，进而将一男一女两幅人脸图像输入分类器，从而输出得到各人脸图像的人物标注，即“Leonard”和“Penny”。

为了形象说明图6所示的方法，图7为基于视频的人脸标识方法各处理环节处理结果的示意图。

如图7所示，对应步骤302，可以得到多个人脸序列，每一个人脸序列中，仅包括一张人脸的至少一人脸图像。采用步骤303进行标注之后，仅少部分人脸序列进行了标注，其余为未标注的人脸序列。

进而采用已标注的人脸序列和未标注的人脸序列进行半监督条件随机场模型学习，得到所需的分类器以及未标注的人脸序列的人物标注。

最后，采用分类器，或者得到的未标注的人脸序列的人物标注，对图5所示的视频帧进行人脸标注。

为了实现上述实施例，本发明还提出一种基于视频的人脸标识装置。

图8为本发明实施例提供的一种基于视频的人脸标识装置的结构示意图。

如图8所示，该基于视频的人脸标识装置包括：识别模块81、确定模块82、标注模块83、学习模块84和标识模块85。

识别模块81，用于对视频进行人脸识别，得到人脸序列。

具体地，识别模块81，具体用于：对所述视频中各视频帧出现的人脸进行识别，根据连续视频帧中出现的对应同一人脸图像序列，生成所述人脸序列。

确定模块82，用于获取视频中的人物在所述视频中出现时刻。

具体地，确定模块82，具体用于：将所述视频的第一描述信息与所述视频的第二描述信息进行文本对齐，得到人物与所述人物在所述视频中出现时刻之间的对应关系。

其中，所述第一描述信息用于指示各文本与所述视频中出现时刻之间的对应关系；所述第二描述信息用于指示各文本与所述人物之间的对应关系。

作为一种可能的实现方式，第一描述信息为字幕，第二描述信息为剧本。将所述视频的字幕与所述视频的剧本进行文本对齐，得到人物与所述人物在所述视频中出现时刻之间的对应关系。

标注模块83，用于根据人物在所述视频中出现时刻，以及人脸序列所涉及的人脸图像在所述视频中出现时刻，对所述人脸序列进行人物标注，得到已标注的人脸序列。

具体地，标注模块83，具体用于：将所述人物与出现时刻之间的对应关系，与所述人脸序列指示的人脸图像与出现时刻的对应关系进行时间对齐，得到人物与人脸序列之间的对应关系；根据所述人物与人脸序列之间的对应关系，采用对应的人物的人名对所述人脸序列进行标注，得到所述已标注的人脸序列。

学习模块84，用于将已标注的人脸序列，以及所述视频的人脸序列中未标注的人脸序列，作为训练样本，对学习模型进行半监督学习，得到所述未标注的人脸序列的人物标注。

标识模块85，用于在所述视频中，将人脸图像标识为对应人脸序列的人物标注。

进一步地，在本发明实施例的一种可能的实现方式中，学习模型为条件随机场学习模型。

需要说明的是，前述对基于视频的人脸标识方法实施例的解释说明也适用于该实施例的基于视频的人脸标识装置，此处不再赘述。

基于上述实施例，本发明实施例还提供了一种基于视频的人脸标识装置的可能的实现方式，图9为本发明实施例提供的一种基于视频的人脸标识装置的结构示意图，如图9所示，在上一实施例的基础上，学习模块84，包括：建立单元841、生成单元842和学习单元843。

建立单元841，用于建立条件随机场学习模型。

其中，所述条件随机场学习模型包括表示所述人脸序列的各观测节点，以及表示人物标注的各标签节点，所述标签节点中包括根据已标注的人脸序列对应的人物标注生成的已知隐节点，以及根据未标注的人脸序列对应的人物标注生成的未知隐节点。

生成单元842，用于根据所述已知隐节点的势函数以及未知隐节点的势函数，生成目标函数。

学习单元843，用于以所述目标函数最大化为目标，对所述条件随机场学习模型进行学习，以得到所述未知隐节点的取值；其中，所述未知隐节点的取值，用于对所述未标注的人脸序列进行人物标注。例如，未知隐节点的取值指示用于对所述未标注的人脸序列进行人物标注的人名。

进一步，势函数包括单一势函数和成对势函数。

其中，单一势函数，用于指示单一观测节点与对应单一标签节点之间的关联性。

成对势函数，用于指示一对相邻的观测节点与对应的一对相邻的标签节点之间的关联性。

基于此，学习单元843，具体用于：

为了实现上述实施例，本发明还提出另一种基于视频的人脸标识装置，包括：处理器，以及用于存储所述处理器可执行指令的存储器。

其中，处理器被配置为：

获取视频中的人物在所述视频中出现时刻；

为了实现上述实施例，本发明还提出一种计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行一种基于视频的人脸标识方法，所述方法包括：

获取视频中的人物在所述视频中出现时刻；

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于视频的人脸标识方法，所述方法包括：

获取视频中的人物在所述视频中出现时刻；

在该视频中，将人脸图像标识为对应人脸序列的人物标注。

为了进一步说明前述实施所提供的基于视频的人脸标识装置，本实施例还提供了一种基于视频的人脸标识系统，图10为本发明实施例提供的一种基于视频的人脸标识系统的结构示意图，如图10所示，该系统中，包括了用户终端以及多个服务器。

其中，识别服务器内设置有前述实施例中提及的人脸标识装置。

资源服务器用于存储视频。进一步地，还可以存储第一描述信息和第二描述信息。

用户终端从资源服务器获取存储的视频，以及从识别服务器获取人脸序列的人物标注结果，在视频上，将人脸图像标识为对应人脸序列的人物标注。

进一步地，用户终端从资源服务器还可以获取存储的第一描述信息，例如字幕。将字幕添加在视频中进行同步显示。

本实施例所提供的系统，通过对视频进行人脸识别，得到人脸序列，并在获取人物与人物在所述视频中出现时刻之间的对应关系之后，利用人物与所述人物在所述视频中出现时刻之间的对应关系，对人脸序列中的部分序列进行人物标注。将已标注的人脸序列以及未标注的人脸序列作为训练样本，对学习模型进行半监督学习，根据学习结果，在视频中，利用人物标注标识人脸图像。由于采用了自动化标注方式，节省了人力标注，同时将已标注的人脸序列以及未标注的人脸序列作为训练样本进行半监督学习，提高了标识的准确度，解决了现有技术中人脸标识效率较低的技术问题。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于视频的人脸标识方法，其特征在于，包括以下步骤：

获取所述视频的人物在所述视频中出现时刻；

将已标注的人脸序列，以及所述视频的人脸序列中未标注的人脸序列，作为训练样本，对学习模型进行半监督学习，得到所述未标注的人脸序列的人物标注，包括：建立条件随机场学习模型；其中，所述条件随机场学习模型包括表示所述人脸序列的各观测节点，以及表示人物标注的各标签节点，所述标签节点中包括根据已标注的人脸序列对应的人物标注生成的已知隐节点，以及根据未标注的人脸序列对应的人物标注生成的未知隐节点；根据所述已知隐节点的势函数以及未知隐节点的势函数，生成目标函数；以所述目标函数最大化为目标，对所述条件随机场学习模型进行学习，以得到所述未知隐节点的取值；其中，所述未知隐节点的取值，用于对所述未标注的人脸序列进行人物标注；

2.根据权利要求1所述的基于视频的人脸标识方法，其特征在于，所述目标函数是多个势函数联乘得到的，所述势函数包括单一势函数和成对势函数；

3.根据权利要求1所述的基于视频的人脸标识方法，其特征在于，所述对所述条件随机场学习模型进行学习，包括：

4.根据权利要求1-3任一项所述的基于视频的人脸标识方法，其特征在于，所述对视频进行人脸识别，得到人脸序列，包括：

5.根据权利要求1-3任一项所述的基于视频的人脸标识方法，其特征在于，所述获取所述视频的人物在所述视频中出现时刻，包括：

6.根据权利要求1-3任一项所述的基于视频的人脸标识方法，其特征在于，所述根据人物在所述视频中出现时刻，以及人脸序列所涉及的人脸图像在所述视频中出现时刻，对所述人脸序列进行人物标注，得到已标注的人脸序列，包括：

7.一种基于视频的人脸标识装置，其特征在于，包括以下步骤：

识别模块，用于对视频进行人脸识别，得到人脸序列；所述人脸序列用于指示识别得到的人脸图像与所述人脸图像在所述视频中出现时刻的对应关系；

学习模块，用于将已标注的人脸序列，以及所述视频的人脸序列中未标注的人脸序列，作为训练样本，对学习模型进行半监督学习，得到所述未标注的人脸序列的人物标注，包括：建立单元，用于建立条件随机场学习模型；其中，所述条件随机场学习模型包括表示所述人脸序列的各观测节点，以及表示人物标注的各标签节点，所述标签节点中包括根据已标注的人脸序列对应的人物标注生成的已知隐节点，以及根据未标注的人脸序列对应的人物标注生成的未知隐节点；生成单元，用于根据所述已知隐节点的势函数以及未知隐节点的势函数，生成目标函数；学习单元，用于以所述目标函数最大化为目标，对所述条件随机场学习模型进行学习，以得到所述未知隐节点的取值；其中，所述未知隐节点的取值，用于对所述未标注的人脸序列进行人物标注；

8.根据权利要求7所述的基于视频的人脸标识装置，其特征在于，所述目标函数是多个势函数联乘得到的，所述势函数包括单一势函数和成对势函数；

9.根据权利要求7所述的基于视频的人脸标识装置，其特征在于，所述学习单元，具体用于：

10.根据权利要求7-9任一项所述的基于视频的人脸标识装置，其特征在于，所述识别模块，具体用于：

11.根据权利要求7-9任一项所述的基于视频的人脸标识装置，其特征在于，所述确定模块，具体用于：

12.根据权利要求7-9任一项所述的基于视频的人脸标识装置，其特征在于，所述标注模块，具体用于：

13.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-6中任一项所述的基于视频的人脸标识方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于视频的人脸标识方法。