CN105100894B

CN105100894B - 面部自动标注方法及系统

Info

Publication number: CN105100894B
Application number: CN201510524543.8A
Authority: CN
Inventors: 彭亮; 杨益敏; 汪灏泓
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2014-08-26
Filing date: 2015-08-24
Publication date: 2020-05-05
Anticipated expiration: 2035-08-24
Also published as: US9176987B1; CN105100894A

Abstract

本发明公开了一种面部自动标注方法及系统。其中，所述方法包括：将输入视频分割为不同的视频帧集合后通过摄像机获取内容及镜头边界检测算法在视频帧集合中提取时间及空间信息。并通过抓取社会网络中的弱标记面部图像来收集弱标记数据。然后结合迭代优化聚类算法的面部检测来滤除所述弱标记数据中的噪声，生成包含有已优化标记图像的标记数据库作为训练数据。依据存储在标记数据库中的已优化标记图像，在输入视频中寻找并标记包含面部图像，与所述标记数据库中任一已优化标记图像相匹配的目标视频帧。通过半监督学习算法，对输入视频中尚未标记的面部轨迹进行标记来完成视频面部的标注。最后，输出包含有已标注面部图像的输入视频。

Description

面部自动标注方法及系统

技术领域

本发明涉及视频信息和面部标注技术领域，特别涉及一种在社会网络数据视频中采用半监督学习的面部自动标注方法及系统。

背景技术

随着视频采集设备的快速发展，近几年，网络宽带迅速的增长和在线和离线以各种形式的视频共享社会网络视频内容急剧增加。随着上述发展趋势，在广泛的,各种应用范围中，在大量的视频进行标注具有很大的需求。手动进行视频标注耗时耗力。因此，在最近几年，视频的自动标注得到很多关注。在视频中，面部是最重要和出现最频繁的对象，然而，对人体自动标注可以在许多方面，例如安全性、丰富的内容生成、医学分析、视频文件和存档方面的应用。

但是，对于计算机而言，在视频中进行面部标注，其问题在于使用具有已知标识的预设的先验知识集合(例如，作为训练数据的己标记图像)在视频序列中定位和识别特定的面部(如给定的面部标识)。面部识别(Face Recognition，FR)是面部标注的重要组成部分。一般而言，有两种类型的面部识别，其中一种是在约束环境下进行FR，从而使面部识别能够相对稳定和静态的背景下进行；而另一种则是在无约束环境下进行FR，导致面部识别需要在非稳定的动态变化背景下进行。由于在方向、亮度以及形状等方面存在大量的变化，在无约束环境下进行面部识别是很有挑战性的。由于视频内在的多样性，在视频中进行面部标注属于无约束环境的类型。为了提高标注的准确率，通常采用一些带多种类型的框架、特征以及分类的方法，其通常也包括使用一些手动操作产生的训练数据(如，已标记的图像)。

本发明公开了一种直接解决如上所述一个或者更多问题的方法和系统。

发明内容

本发明公开了一种通过在社会网络数据中采用半监督学习实现视频面部自动标注方法。所述方法包括将一段输入视频分割为多个不同的视频帧集合，然后通过摄像机获取内容及镜头边界检测算法在所述视频帧集合中提取时间及空间信息。并且，通过抓取社会网络中的弱标记面部图像从而收集弱标记数据。所述方法还包括：结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声，生成包含有已优化标记图像的标记数据库作为训练数据，并依据存储在所述标记数据库中的已优化标记图像，在所述输入视频中寻找并标记包含一个或者多个面部图像，与所述标记数据库中的已优化标记图像相匹配的目标视频帧。进一步的，还包括通过半监督学习算法，对输入视频中尚未标记的面部轨迹进行标记从而标注在所述输入视频中的面部图像，并且输出包含有已标注面部图像的输入视频。

本发明公开了一种通过在社会网络数据中采用半监督学习实现视频面部自动标注系统。所述系统包括摄像机获取内容检测模块，用于通过摄像机获取内容及镜头边界检测算法分别在一段输入视频形成的多个视频帧集合中提取时间及空间信息。所述系统还包括：社会网络数据分析模块，用于通过抓取社会网络中的弱标记面部图像收集弱标记数据，并通过结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声，以及生成包含有已优化标记图像的标记数据库作为训练数据，以及面部匹配模块，用于依据存储在所述标记数据库中的已优化标记图像，在所述输入视频中寻找并标记包含一个或者多个面部图像，与所述标记数据库中的已优化标记图像相匹配的目标视频帧。进一步的，还包括主动半监督学习模块，用于对输入视频中尚未标记的面部轨迹进行标记从而标注在所述输入视频中的面部图像和输出模块，用于输出包含有已标注面部图像的输入视频。

本发明的其他方面，所属技术领域技术人员能够依据本发明的权利要求书、说明书以及附图有效实施并充分公开。

附图说明

图1为本发明具体实施例的工作系统的示意图。

图2为本发明具体实施例的计算系统的示意图。

图3为本发明具体实施例的自动视频面部标注系统的结构示意图。

图4为本发明具体实施例的通过社会网络数据，在视频中利用半监督学习，完成面部自动标注的方法的方法流程图。

图5为本发明具体实施例的摄像机获取内容检测方法的示意图。

图6为本发明具体实施例的将视频流分割为不同的视频组成成分的示意图。

具体实施例

附图中展示的部分将被引用以具体说明，阐述本发明具体技术实施方案。说明书中引用的数字代表附图的相应部分。

图1为本发明具体实施方式中的工作系统100。如图1所示，所述工作系统100包括：电视机102，遥控器104，服务器106，用户108，网络系统110。当然还可以包括其他合适的设备。

电视机102可以是任何合适类型的电视机，例如等离子电视，LCD电视，背投式电视，智能电视或者非智能电视。电视机102还可以包括计算系统，例如个人电脑，掌上电脑或者智能手机等。进一步的，所述电视机102还可以是任何由遥控器104控制的，能够在一个到多个频道中演示多个节目的内容演示设备。

所述遥控器104可以是任何合适类型的能够遥控操作电视机102的遥控器，例如配套的电视遥控器，通用电视遥控器，掌上电脑，智能手机或者其他能够实现遥控功能的智能设备。遥控器104还可以包括其他不同类型的设备，例如动作感应遥控设备，图像感应遥控设备以及其他一些简单输入设备，例如键盘，鼠标，声控输入设备等。

具体的，所述服务器106可以是任何用于提供个人信息内容给用户108的一个或者多个计算机服务器。所述服务器106还用于辅助在遥控器104和电视机102之间进行通信连接，数据存储和数据处理。电视机102，遥控器104以及服务器106通过网络系统110建立通信连接，例如有线网络，手机网络，或者其他具体的网络。

用户108使用遥控器104控制电视机102播放不同的节目或者进行其他用户感兴趣的活动。如果电视机102配备有动作感应或者图像感应装置，用户还可以简单的使用手势动作进行控制。用户108可以是一个人也可以是多个，例如全部家庭成员在一起观看电视节目。

电视机102，遥控器104和/或服务器106可以在一个合适的电子计算平台实现其功能。图2为本发明具体实施方式中的一种可用于实现上述设备102、104和/或106的功能的计算系统200的结构框图。

如图2所示，所述计算系统200包括处理模块202，存储媒体204，监视器206，通信模块208，数据库210以及外围设备212。所述计算系统可以减省上述设备，也可以添加一些其他类型的设备，而不限于上述设备。

所述处理模块202可以是任何合适的处理器或处理器组。具体的，所述处理模块202可以为能够进行多线程处理的多核心处理器。存储媒体204可以是任何合适的存储设备，例如ROM，RAM，闪存或者大容量存储器，例如CD-ROM，硬盘等。存储媒体204用于存储由处理器202执行的，为进行各种数据处理而预设的计算机运行程序。

所述外围设备212具体包括：各种类型的传感器以及输入，输出设备，例如键盘，鼠标。通信模块208具体包括：各类网络交互设备，用于在设备间通过网络系统建立连接。数据库210具体包括一到多个用于存储不同数据以及对数据进行一些处理，例如搜索数据的数据库。

在实际操作中，电视机102，遥控器106和/或服务器104可以为用户108完成面部自动标注的方法。所述面部自动标注方法可以通过社会网络数据，利用半监督学习方法，自动地完成对视频的“标记”。

图3为本发明具体实施例的面部自动标注系统的结构框图。如图3所示，所述面部自动标注系统300具体包括：输入视频302，“摄像机获取内容”检测模块304，社会网络数据分析模块306，主动半监督学习模块308，面部配对模块310以及输出模块312。上述系统可以减省所述设备，也可以添加一些其他类型的设备，而不限于所述设备。所述系统300(如多个功能模块组成的)具体可以由硬件实现其功能，也可以由软件实现其功能，还可以结合硬件和软件一起实现其功能。

所述输入视频302具体可以是任何类型的视频内容或者视频资源。输入视频302的内容包括视频数据以及元数据。输入视频的一系列视频帧包含了视频的内容并用于其他模块进行其他处理。所述输入视频也可以为一幅的图片。将输入视频划分成多个不同的视频帧集合。

所述“摄像机获取内容”检测模块304可以用于通过“摄像机获取内容”(cameratake)和镜头边界检测算法在输入视频的多个视频帧集合中提取时间和空间信息。

所述“摄像机获取内容”检测模块304还可以包括“摄像机获取内容”子模块3042，面部检测子模块3044和面部轨迹子模块3046。也可以包括其他相关的部件和装置。

“摄像机获取内容”子模块3042可以用于将原始的以交错形式组成的视频分离为一系列视频序列，其中每一视频序列均与一个“已记录的摄像机”对应。所述“已记录的摄像机”通过记录源于输入视频帧的每一摄像机，与初始的摄像机设置一致。

面部检测子模块3044用于在视频帧序列中自动的定位面部的位置。

面部轨迹子模块3046用于通过对每一“摄像机获取内容”中的每一视频帧的处理，来获取视频中的面部轨迹。一个新的面部轨迹则通过检测每一“摄像机获取内容”中的第一个面部图像来完成初始化。对于每一“摄像机获取内容”中的其余视频帧，如果在连续的视频帧之间检测到的两个面部之间的差异超过预定的阈值，则初始化一个新的面部轨迹，否则将这一面部加入到当前面部轨迹中。

社会网络数据分析模块306用于通过从社会网络中抓取弱标记面部图像来收集弱标记数据，然后应用脸部检测以及迭代优化聚类算法来消除噪声，并生成标记数据库作为训练数据。

社会网络数据分析模块306具体可以包括搜索引擎3062，面部检测子模块3064，弱标签面部子模块3066，迭代优化聚类子模块3068和面部标签优化子模块3069。也可以包括其它部件或装置。

所述搜索引擎3062可以是一种公众搜索引擎，例如谷歌图片搜索、百度贴吧社区，或者收藏与电影相关照片的内部数据库。对于给定的电影和一系列进行面部标注的演员，每个演员的(例如，目标演员)的名字和电影的名字作为关键词在社会网络中进行查询。

所述面部检测子模块3064用于从社会网络中获取的一系列信息中的每一张图片中自动的定位面部的位置。

所述弱标签面部模块3066用于通过滤除噪声从而获取只与电影相关的每个演员的面部图像并存储获得的面部图像。

所述迭代优化聚类子模块3068用于采用迭代优化聚类算法优化标记的面部图像。也就是说，在迭代优化聚类子模块3068可应用迭代优化聚类算法，选择其中最大的聚类从而获取所述目标演员的图像并滤除噪声。

所述面部标签优化子模块3069用于存储优化后的标记面部图像。

进一步的，面部配对模块310用于依据标记的图像和尺度不变特征转换的(SIFT)匹配技术，在视频中出现过的面部图像中找到正确的视频帧。

所述主动半监督学习模块308用于通过半监督学习算法标记剩余未标记的面部轨迹。主动半监督学习模块308包括未标记的面部轨迹数据库3082，已标记面部数据库3084和面部识别子模块3086。所述未标记的面部轨迹数据库3082可以用于储存未标记的面部轨迹。所述已标记的面部数据库3084可以用于储存已标记的面部轨迹。面部识别模块3086用于在无约束环境中进行面部识别并且标记剩余未标记的面部轨迹。

所述输出模块312用于输出已标注的面部。上述特定的模块可以合并或者省略，也可以加入其它不同的模块。

图4为通过社会网络数据，在视频中利用半监督学习，完成面部自动标注的方法400的流程图。

如图4所述，首先将一段输入视频分割成多个不同的视频帧集合(S402)。由于视频事实上是一个连续的视频帧序列，并且考虑到一般的帧率(例如，25帧/秒)，连续的视频帧之间的变化是比较小的。所以，可以应用一些分组或聚类技术，将整个视频分割成为多个不同的视频帧集合，用于作进一步的处理，而不是处理单独每个视频帧。所述视频帧集合内的视频帧为对于后续处理而言相类似的视频帧。

图6为将视频流分割为不同的视频组成成分的示意图。如图6所示，视频流可以分割为多个场景，场景可以分割为多个镜头，镜头还可以进一步分割为多个视频帧等等。视频帧能够进一步划分为对象和可以被提取以供进一步处理的视频帧特征，这个过程通过所述“摄像机获取内容”检测模块304完成。

在获取输入视频序列后，视频序列被简化为与通过记录输入视频帧中的每一摄像机，与初始摄像机设置一致的“已记录摄像机设置”相对应的视频帧序列(S404)。

一般的电影视频序列是一个由多个镜头以交错形式组成，并且每一“摄像机获取内容”均通过一给定的摄像机设置连续记录形成。在此使用术语“已记录的摄像机”，表示对采用不同摄像机参数设置获取的，在视频序列或者视频流中的视频帧。所述“已记录的摄像机”的概念源自于视频编辑中视频重构的“摄像机获取内容”(camera take)。典型的视频序列是一个由多个镜头以交错形式组成，并且在给定的摄像机设置下，“摄像机获取内容”是一个连续的记录过程。通过记录输入视频帧的每一个摄像机，所述原始的镜头交错形式可以被分离为与初始摄像机设置一致的“已记录摄像机设置”对应的一系列视频帧序列。

在摄像机记录模块完成上述摄像机记录操作后，在同一摄像机设置下拍摄的，相似重复的照片可以被省略，从而在降低流量的同时将识别正确率维持在可接受的水平。也就是说，摄像机记录的操作可以用于对视频帧中不同的摄像机拍摄图像进行记录，从而简化视频帧并将简化后的视频帧提供给后续处理步骤。

图5为本发明具体实施例的“摄像机获取内容”检测方法的流程图。如图5所示，“摄像机获取内容”检测方法可以包括如下步骤。

“摄像机获取内容”是由同一摄像机拍摄的一系列连续的视频帧。所述“摄像机获取内容”可以分割为一系列片段并且与其他摄像机的“摄像机获取内容”交错组合构成视频序列中的一个事件或者故事。基于在同一个镜头中的两个连续的视频帧在可视内容方面具有极高相似性的假设，可以使用相似性指标来计算视频帧之间的差异性，例如使用颜色直方图(或者用于节省计算量消耗的原始像素值)作为两个视频帧之间相似程度的测量方法。(S4042)。可选地，使用多种不同的相似度计算方法实现不同的计算复杂度以及计算速度。

在视频序列中检测镜头(S4044)。如果视频帧的差别超过一个合适的界限，则生成一个新镜头。对于所述合适的界限的选择而言，如果没有选择合适的界限，则会导致产生过多或者过少的片段，具体与视频节目的类型(如真人秀，戏剧等等)相关。为了生成所述合适的界限并进一步优化检测结果，可以增加一些约束条件，例如镜头持续时间。

选出能够代表镜头可视内容的关键帧(S4046)。亦即，使用预设的算法在镜头中选出能够最好的代表对应镜头视频内容的关键帧。例如，选择了镜头中的第一帧作为关键帧用于进行后续处理。也可以使用其他合适的方法选出(或者生成)最具有代表性的一个或者多个视频帧。

进一步的，确定每个“摄像机获取内容”(S4048)。每个检测到的镜头(由关键帧所表示)与每个检测到的“摄像机获取内容”的最后一个镜头进行配对。如果满足一预定的匹配指标，则将当前的镜头加入到配对的“摄像机获取内容”的最后。这是基于一个镜头与具有最接近时间关系的另一个镜头相邻的可能性最大的假设。最初的，在一段具体的时间区间中，假设第一个镜头为“摄像机获取内容”。所述配对的策略依据不同的视频播放需求，从SIFT特征点匹配改变为视频帧差异程度匹配。另外，还可以使用摄像机退出(cameraretirement)策略。亦即，在一段特定的时间区间内，无法找到与某一“摄像机获取内容”相匹配的图像时，考虑将这一“摄像机获取内容”“退出”并且从已记录的摄像机列表中删除。如图5所示，检测并确定具体的“摄像机获取内容”/摄像机记录编号#1，#2，#3。

继续参阅图4，在确定“摄像机获取内容”后，检测在每一视频帧中的面部(S406)。对于面部标注，检测每一视频帧中的面部可以在应用面部识别前有效的获得面部轨迹。亦即，可以在“摄像机获取内容”的每一视频帧中进行面部检测。所述面部检测可以自动的在一系列视频帧中定位面部的位置。例如，可以使用经典的viola-jones面部识别算法来进行面部检测。

假设视频由N个视频帧组成，每个视频帧由F_i(i＝1,...,N)表示，A_i,a表示在F_i中的第a个面部(α＝1,...,X_i，其中X_i为在F_i中的面部总数)。对于每一视频帧F_i，A_i,a在某位置的出现概率可以通过使用矩形框(bounding box)B_i,a计算得出。其中，x，y表示所述矩形框的左上角在垂直和水平坐标轴上的位置，w，h分别表示矩形框的宽度和高度。在每个“摄像机获取内容”的每一视频帧中进行面部检测后，矩形框B_i,a即可确定。

在同一“摄像机获取内容”中检测到的面部组可以作为一个面部轨迹。通过这种方法，在整个视频中生成面部轨迹。(S408)

特别的，一个新的面部轨迹由每一“摄像机获取内容”中检测到的第一个面部进行初始化。对于“摄像机获取内容”的其他视频帧，如果源自于两个连续的视频帧的检测到的面部之间的距离超过预设的阈值，则初始化一个新的面部轨迹，否则，将这一检测到的面部加入到当前面部轨迹中。

使用大量的网络弱标记面部图像来代替手动标记面部图像从而准备训练数据的方法。这些弱标记面部图像通常会包括一些噪声，(例如，其他人的图像)。通过从社会网络中抓取弱标记面部图像而获得所述弱标记数据(S410)。例如，对于一部给定的电影以及一系列的演员的面部标注，每个演员(即目标演员)的名字以及电影的名字可以用来作为公共搜索引擎(例如，google图像搜索或者百度贴吧社区)或者具有电影相关图片的内部数据库进行查询搜索的关键词，然后获得一系列的照片。由于社会网络的搜索结果是依据图片的文本描述自然生成。因此，这些照片搜索结果一般大部分为目标演员的图片而很少包含其他演员的照片，其中每张照片均会包含一个或者多个演员的面部图像。

在前述步骤中的具体的获取结果中的每一张图像上应用面部检测技术。因此，每个演员均有与其对应的检测到的面部图像集合。但是，这些面部图像集合包含有三种类型的噪声：(1)在与所述电影不相关的背景图像中出现目标演员的面部的电影非相关面部图像。(这些面部图像与电影中出现的对应的演员面部图像在姿态、亮度、结构以及形状等方面具有很大的差异，应当从训练数据中剔除)；(2)错误标记为目标图像的其他演员的面部图像；(3)由于面部检测器错误导致的无面部图像。

使用迭代优化聚类算法来滤除上述噪声并生成标记数据库作为训练数据。(S412)

由于社会网络的内在属性，所述每一演员对应的面部图像集合由占大部分的目标演员图像以及占少部分的上述三种类型的噪声所组成。因此，可以使用迭代优化聚类算法对已标记面部图像进行优化(S414)。使用上述算法并选择最大的聚类从而获取目标演员的图像并消除噪声。

所述迭代优化聚类算法的工作过程如下所述。用特征向量(如局部二值模式)表示每一面部。使用第一张面部图像对新的分类标签进行初始化，然后在每一个尚未标记的面部图像集合中循环执行上述操作，并且所述面部识别在最接近的邻近图像之间预设的距离阈值内执行。所述面部识别(FR)可以认为是在矩形框B_i,a上的分类问题。亦即，为每个集合{C_i}标记一个类别标签，其中{C_i}(i＝1,...,K)表示可能进行标注的人或者角色的已标记的分类类别。

若无法符合阈值，则创建一个新的分类标签来更新模型。在第一次迭代后，选出每个聚类中的代表性面部(如中心点)并淘汰掉较小的聚类。然后，重复执行上述步骤进行下一迭代，直至收敛(即聚类结果不再改变)。

进一步的，存储从前述步骤获得的每个演员与电影相关的图像(S416)。

基于所述标记的图像以及SIFT匹配技术，可以找出在电影中出现的那些面部的正确的视频帧(S418)。亦即，执行面部匹配程序来决定在每个“摄像机获取内容”中的面部与存储的面部之间的匹配关系。存储的面部图像完成标记后，所述那些面部图像出现的正确的视频帧的标记是百分百可信的(假设视频帧匹配完全正确)。

在执行完上述步骤以后，可以生成面部轨迹并且这些轨迹中与已标记的，在线电影相关的面部数据相匹配的一小部分也可以被标记。

在视频中进行面部标注还包括从视频中获取面部轨迹(例如，使用轨迹、位置信息等等)以及在不同面部轨迹中进行面部识别。但是，与现有目标在于一系列静态图像的面部识别不同的是，视频中包含了丰富的时间及空间信息。利用所述时间及空间信息，对剩余的，未标记的面部轨迹进行标记是一个半监督学习问题。特别的，它也是一个部分已标记数据的聚类问题。亦即，在每个聚类中，至少有一个已标记的数据点。

在本发明一些具体实施例中，通过主动半监督学习对所有的面部轨迹进行标记从而完成面部标注(S420)。通过“摄像机获取内容”以及镜头边界检测算法提取时间性及空间性信息，并将提取信息应用于求解带约束条件的半监督学习问题，从而极大的提高聚类的准确性。所述问题及解法具体如下所述。

令R＝{R_i}表示视频中的面部轨迹。其中(i＝1,...,M)，M为视频中的面部轨迹的总数。对于每一个面部图像，选择对面部自身标识敏感，而在姿态、亮度、以及面部形态改变时基本不变的特征向量(例如局部二值模式(LBP))。实验研究表明：使用面部轨迹的主要趋势的代表能够有效的简化计算量的同时在每一面部轨迹中变化微小，维持良好的代表性。因此，通过平均在每一面部轨迹中的所有面部的显著性特征向量生成每一面部轨迹的重点特征。令S表示具有P个特征的面部轨迹的重点面部特征。所以S_i,j表示对于第i个面部轨迹重点特征的第j个特征维度的值。K表示最终聚类结果的聚类类别总数(例如，需要标注的人的数量)，并且C_i表示标记在第i个面部的聚类的标签，其中，1≤C_i≤K。基于k-均值聚类算法的定义，不包含任何约束的目标函数可以通过如下算式表示：

对于带约束的聚类，多个聚类中的相似项目需要满足一些额外的约束，更具体的，基于视频的时间以及空间信息，所述约束具体如下：

(1)cannot-link约束用以表示两个实体为cannot-link关系时，不能设置在同一个聚类中。所述面部轨迹包括在同一个视频帧中没有交集的，包含有完全不同的定义的检测面部。对于在视频中的每一个视频帧F_i，所述没有交集的面部通过矩形框B_i,x(i＝1,...,N)表示，其中i表示视频帧的序号，C_x表示用于标记的聚类标签。亦即，所述面部关系为“cannot-link”的约束可以用如下算式表示：

当在任何给定的B_i,x(i＝1,...,N)中，x₁≠x₂时，

(2)Must-link约束用以表示两个实体为must-link关系时，应当设置在同一个聚类中。若两个面部轨迹的重点特征在矩形框的位置方面上具有相同的变化，并且上述两个面部轨迹属于同一个“摄像机获取内容”。那么，这两个面部轨迹的重点特征具有相同的定义，must-link关系面部的约束可以表示如下：

当

并且CameraTake(i₁,i₂)＝1时，

其中，overlap是一个衡量两个矩形框之间重叠程度的函数，θ为一个预设的参数，判断两个矩形框之间是否达到重叠标准，CameraTake是一个用于表示两个视频帧是否属于同一个“摄像机获取内容”的指示函数。

因此，根据公式(2)和(3)，上述两种cannot-link以及must-link的约束均可以通过公式表示。cannot-link以及must-link约束均表示两个数据实体之间的关系。这些约束可以用作某带约束的聚类算法的指导，从而使形成的聚类中的数据集合能够满足特定的must-link和cannot-link约束。

因此，结合公式(1)、(2)和(3)，所述目标函数可以定义如下：

其中，w_i,j表示违反“must-link”约束的罚分的权重；(1-w_i,j)表示违反“cannot-link”约束的罚分的权重；Z表示所有关系为“must-link”的面部轨迹对的集合，所以(S_i,*,S_j,*)∈Z表示S_i,*和S_j,*必须分入同一个聚类中；并且，C表示所有关系为“cannot-link”的面部轨迹对的集合，所以(S_i,*,S_j,*)∈C表示S_i,*和S_j,*必须分入不同的聚类中。

在带强约束的聚类中，问题在于将目标函数最小化从而满足所述强约束。亦即，对所有的面部轨迹标记标签C_i从而使公式(4)最小化。将公式(4)定义的目标函数最小化亦相当于使隐马尔科夫随机场的配置后验概率最大化，所述最大化可以通过量度基于成对约束的K-均值聚类(MPCKMeans)算法求解。所述MPCK-Means是一种从K均值聚类算法(K-Means)结合度量学习以及成对约束衍生而来的半监督学习算法。

在对所有面部轨迹完成标记后，及视频中的面部标注完成后，输出带面部标注的视频。(S422)例如，可以向用户播放所述带面部标注的视频，或者将所述带面部标注的视频提供给其他程序或者设备进行后续的处理。

通过使用本发明上述具体实施例的方法及其系统，还可以实现其他更多的应用。例如，所述面部标注技术可以应用新的视频领域，其中在视频中的关键人物的面部可以实现自动检测以及标注从而便利于多种多媒体内容的管理任务，例如新视频的集锦，浏览以及回放。

应当理解的是，本发明所述的自动面部标注模型不仅限于电视机使用场景，所述方法及系统还可以用于任何具有播放功能的设备，例如智能手机、掌上电脑、个人电脑、智能手表等等。本发明所述的方法还可以作为其他系统的核心功能，例如基于视频内容的推荐系统、基于视频内容的回放系统等等。

进一步的，尽管本发明的自动面部标注方法只公开了上述的使用对象，但与本发明相似的概念以及方法均可以应用于其他标注系统，例如图像标注等。将本发明所述系统和方法应用于不同领域，进行改进，替换，调整的具体技术实施方案都是本领域普通技术人员不需要通过创造性劳动就能实现的。

Claims

1.一种面部自动标注方法，其特征在于，所述方法包括：

将一段输入视频分割为多个不同的视频帧集合；

通过摄像机获取内容及镜头边界检测算法在所述视频帧集合中提取时间及空间信息；

通过抓取社会网络中的弱标记面部图像从而收集弱标记数据；

通过结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声；

生成包含有已优化标记图像的标记数据库作为训练数据；

依据存储在所述标记数据库中的已优化标记图像，在所述输入视频中寻找并标记包含一个或者多个面部图像的，与所述标记数据库中的已优化标记图像相匹配的目标视频帧；

通过半监督学习算法，对输入视频中尚未标记的面部轨迹进行标记从而标注在所述输入视频中的面部图像；并且

输出包含有已标注面部图像的输入视频；

所述半监督学习算法具体包括：

不包含约束的目标函数通过如下算式表示：

其中，S为具有P个特征的面部轨迹的重点面部特征；S_x,j为对于第x个面部轨迹重点特征的第j个特征维度的值；k＝1，...，K，K为最终聚类结果的类别总数，并且C_x表示标记在第x个面部的聚类的标签；1≤C_x≤K，1<j<P；

表示标记在第x₁个面部的聚类的标签，

表示标记在第x₂个面部的聚类的标签，且

2.根据权利要求1所述的方法，其特征在于，所述通过摄像机获取内容及镜头边界检测算法在所述视频帧集合中提取时间及空间信息的步骤具体包括：

将初始的交错形式的视频分离为一系列视频序列，通过记录源于输入视频帧中包含的摄像机设置，将每一视频序列分别与初始的摄像机设置一致的已记录摄像机设置设置对应；

在一系列视频帧中进行面部定位，确定面部的位置，并且

通过在每一摄像机获取内容的视频帧中进行面部定位，从视频中提取面部轨迹。

3.根据权利要求2所述的方法，其特征在于，所述通过在每一摄像机获取内容的视频帧中进行面部定位，从视频中提取面部轨迹的步骤具体包括：利用每一摄像机获取内容的第一个已检测面部初始化一个新的面部轨迹；对于每一摄像机获取内容余下的视频帧，当分别来自于连续的视频帧的两个已检测面部的距离超过预设的阈值时，初始化一个新的面部轨迹；当分别来自于连续的视频帧的两个检测到的面部的距离没有超过预设的阈值时，则将所述面部加入到当前面部轨迹中。

4.根据权利要求1所述的方法，其特征在于，所述通过结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声的步骤具体包括：

在其中一个社会网络以及内部数据库中进行关键词检索；

在社会网络检索结果的集合的每个图像中自动地定位面部的位置；

通过滤除搜索结果图像中的噪声获取只与电影相关的每个演员的面部图像；

存储所述只与电影相关的每个演员的面部图像；

使用迭代优化聚类算法优化已标记面部图像；并且

将优化后的已标记面部图像存储到标记数据库中作为训练数据。

5.根据权利要求2所述的方法，其特征在于，所述将初始的交错形式的视频分离为一系列视频序列，每一视频序列均与通过记录源于输入视频帧的每一摄像机，与初始的摄像机设置一致的“已记录的摄像机”对应的步骤具体包括：

使用颜色的差异性来衡量两个视频帧之间的相似程度；

在一段视频序列中检测多个镜头；

选出用于代表镜头视频内容的关键帧；并且

确定一个摄像机获取内容。

6.根据权利要求5所述的方法，其特征在于，所述在一段视频序列中检测多个镜头的步骤还包括：

当视频帧的差异超出预设界限时，定义为一个新的镜头；其中，所述预设界限以视频节目的类型为基础，利用约束生成预设界限；并利用所述预设界限进一步优化检测结果。

7.根据权利要求5所述的方法，其特征在于，所述将初始的交错形式的视频分离为一系列视频序列，每一视频序列均与通过记录源于输入视频帧的每一摄像机，与初始的摄像机设置一致的“已记录的摄像机”对应的步骤具体包括：

匹配每个检测到的镜头和每个摄像机获取内容中的最后一个镜头，其中，所述镜头由镜头的关键帧表示；并且

当满足预定的匹配标准时，将所述检测到的镜头加入到对应的摄像机获取内容的末端。

8.根据权利要求1所述的方法，其特征在于，所述半监督学习算法还包括：面部关系为“cannot-link”的约束通过如下算式表示：

当在任何给定的B_i,x(i＝1,...,N)中，x₁≠x₂时，

其中，B_i,x(i＝1,...,N)为在每一个视频帧F_i中的矩形框，其中i为视频帧的序号。

9.根据权利要求1所述的方法，其特征在于，所述半监督学习算法还包括：面部关系为“must-link”的约束通过如下算式表示：

当

并且CameraTake(i₁,i₂)＝1时，

其中，overlap为一个衡量两个矩形框之间重叠程度的函数，θ为一个判断两个矩形框之间是否达到重叠标准的预设参数；CameraTake为用于表示两个视频帧是否属于同一个“摄像机获取内容”的指示函数；

表示第i₁个视频帧中第x₁个面部的矩形框，

表示第i₂个视频帧中第x₂个面部的矩形框。

10.一种面部自动标注系统，其特征在于，所述系统包括：

摄像机获取内容检测模块，用于通过摄像机获取内容及镜头边界检测算法分别在一段输入视频形成的多个视频帧集合中提取时间及空间信息；

社会网络数据分析模块，用于通过抓取社会网络中的弱标记面部图像收集弱标记数据，并通过结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声，以及生成包含有已优化标记图像的标记数据库作为训练数据；

面部匹配模块，用于依据存储在所述标记数据库中的已优化标记图像，在所述输入视频中寻找并标记包含一个或者多个面部图像，与所述标记数据库中的已优化标记图像相匹配的目标视频帧；

主动半监督学习模块，用于通过半监督学习算法对输入视频中尚未标记的面部轨迹进行标记从而标注在所述输入视频中的面部图像；以及

输出模块，用于输出包含有已标注面部图像的输入视频；

所述主动半监督学习模块具体用于：

不包含任何约束的目标函数通过如下算式表示：

表示标记在第x₁个面部的聚类的标签，

表示标记在第x₂个面部的聚类的标签，且

11.根据权利要求10所述的系统，其特征在于，所述摄像机获取内容检测模块具体包括：

摄像机获取内容子模块，用于将初始的交错形式的视频分离为一系列视频序列，通过记录源于输入视频帧中包含的摄像机设置，将每一视频序列分别与初始的摄像机设置一致的已记录摄像机设置设置对应；

面部检测子模块，用于自动地定位面部在一系列视频帧中的位置；

面部轨迹子模块，用于通过在每一摄像机获取内容的每一视频帧中进行所述自动定位处理，在视频中提取面部轨迹。

12.根据权利要求11所述的系统，其特征在于，所述面部轨迹子模块具体用于：

利用每一摄像机获取内容的第一个已检测面部初始化一个新的面部轨迹；对于每一摄像机获取内容余下的视频帧，当分别来自于连续的视频帧的两个已检测面部的距离超过预设的阈值时，初始化一个新的面部轨迹；当分别来自于连续的视频帧的两个已检测面部的距离没有超过预设的阈值时，则将所述面部加入到当前面部轨迹中。

13.根据权利要求10所述的系统，其特征在于，所述社会网络数据分析模块具体包括：

搜索引擎，用于在其中一个社会网络以及内部数据库中进行关键词检索；面部检测子模块，用于在社会网络检索结果的集合的每个图像中自动地定位面部的位置；

弱标记面部子模块，用于通过滤除搜索结果图像中的噪声获取纯粹与电影相关的每个演员的面部图像以及存储所述纯粹与电影相关的每个演员的面部图像；

迭代优化聚类子模块，用于使用迭代优化聚类算法优化已标记面部图像；以及

优化标记面部子模块，用于将优化后的已标记面部图像存储到标记数据库中作为训练数据。

14.根据权利要求11所述的系统，其特征在于，所述摄像机获取内容子模块具体用于：

使用颜色的差异性来衡量两个视频帧之间的相似程度；

在一段视频序列中检测多个镜头；

选出最能代表镜头视频内容的关键帧；并且

确定一个摄像机获取内容。

15.根据权利要求14所述的系统，其特征在于，所述摄像机获取内容子模块还用于：

当视频帧的差异超出预设界限时，定义为一个新的镜头；其中，所述预设界限以视频节目的类型为基础，并应用多个特定的约束最终生成预设界限；并利用所述预设界限进一步优化检测结果。

16.根据权利要求14所述的系统，其特征在于，所述摄像机获取内容子模块还用于：

17.根据权利要求10所述的系统，其特征在于，所述主动半监督学习模块还用于：

面部关系为“cannot-link”的约束通过如下算式表示：

当在任何给定的B_i,x(i＝1,...,N)中，x₁≠x₂时，

18.根据权利要求10所述的系统，其特征在于，所述主动半监督学习模块还用于：

面部关系为“must-link”的约束通过如下算式表示：

当

并且CameraTake(i₁,i₂)＝1时，

表示第i₁个视频帧中第x₁个面部的矩形框，

表示第i₂个视频帧中第x₂个面部的矩形框。