CN105654055A

CN105654055A - 一种利用视频数据进行人脸识别训练的方法

Info

Publication number: CN105654055A
Application number: CN201511024946.2A
Authority: CN
Inventors: 丁圣勇; 朝红阳; 连凌淦
Original assignee: SYSU CMU Shunde International Joint Research Institute; National Sun Yat Sen University
Current assignee: SYSU CMU Shunde International Joint Research Institute; National Sun Yat Sen University
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-08

Abstract

本发明提出一种利用视频数据进行人脸训练的方法，其基本思想是同一个人在视频中在空间和时间上都会以连续序列出现，且同一个人不可能在同一帧的其他位置出现，利用这个特点本发明自动从视频中挖掘出海量用于训练人脸模型的样本数据，从而实现持续不断地、自适应的人脸学习方法。

Description

一种利用视频数据进行人脸识别训练的方法

技术领域

本发明涉及人脸识别领域，更具体地，涉及一种利用视频数据进行人脸识别训练的方法。

背景技术

人脸识别目前采用大量人工标注的训练样本去训练一个模型，使得模型能够挖掘出同一个人的不同照片与不同人的照片之间的差异特点。训练样本的标注目前依赖于手工完成，也就是找到大量的个体，对每个个体产生或寻找不同角度、光照下的照片。在操作层面，就是需要采集大量的人脸图片，对每张图片的个体进行标记，目前的人脸数据库一般达到几十万规模，采用这种方式非常耗时，人力成本非常高，且不具扩展性。

发明内容

本发明为克服人脸学习方法训练样本存在的获取成本高、标注困难的问题，，提供一种利用视频数据进行人脸识别训练的方法，具体为利用视频数据时间、空间和运动向量等特征进行人脸识别训练数据快速、自动获取的方法。

为解决上述技术问题，本发明的技术方案如下：

要获取海量的人脸学习数据，需要利用同一个人在视频中在空间和时间上都会以连续序列出现，且同一个人不可能在同一帧的其他位置出现这一基本原理。利用这个特点从视频中挖掘出海量的人脸数据。

一种利用视频数据进行人脸识别训练的方法，具体步骤为：

1)视频解码：视频可以看成是图片的集合表达形式，通过解码，获得每一帧的图片。

2)人脸检测：将解码获得的图像进行人脸检测，并将每一帧图像中的人脸进行抽取，获得人脸图像块。

3)样本挖掘：利用时空连续性、编码运动向量、服饰信息、已训练好的模型实现附近帧间同一人脸的定位以及同一帧中不同人脸的定位。

4)人脸学习阶段：利用输入的挖掘样本训练人脸模型，并将模型的输出反馈到样本挖掘模块。

一种利用视频数据进行人脸识别训练的系统包括：视频解码模块，人脸检测模块，样本挖掘模块，人脸模型学习模块等。

总体过程为：

(1)运行应用，用户上传视频文件。

(2)启动视频解码，经过视频解码模块，将视频数据解码为一帧帧图像。

(3)启动人脸检测，检测每一帧图像中的人脸信息并记录相关信息。

(4)将人脸检测获得的人脸数据传入帧内检测，从而得到一组来自不同人脸的数据，同时做好标记。

(5)将相邻帧的人脸数据传入帧间检测，根据视频帧间的信息，判断人脸数据是否来自同一个人，并做好标记。

(6)由前两步自动标记生成的数据中，抽取两张来自同一个人和一张其他人的人脸数据，作为一个训练样本。多次抽取后将训练样本传入训练模型，训练人脸模型。

利用前一步获得的人脸模型，重新检测视频中每一帧中的人脸，即重复第(3)步，并重复接下来步骤，直到获得设定的精度。

上述第1)、2)步是常规的视频解码和人脸检测操作，第3)、4)步是本发明提出的利用视频数据进行人脸识别训练方法的两大创新点。第3)步是利用视频数据的特点获取训练样本，为本发明的核心之一，第4)则是利用获得的样本数据训练模型，再获得更高的精确度的情况下再次获取样本、训练模型，达到自适应的目的。

附图说明

图1是系统的整体流程图。

图2是人脸自动标记流程图。

图3是自适应、连续不断人脸学习流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

(一)总体功能架构

本系统主要包括四个模块：视频解码模块，人脸检测模块，样本挖掘模块以及人脸学习模块。

视频解码模块的主要功能是将输入的视频信息离散成一帧帧的图像。人脸检测模块则是检测视频解码后的图像中的人脸信息，作为首次人脸训练的样本。样本挖掘模块则是利用视频数据的特点，给人脸检测模块获得的人脸数据打上标签，确定哪些人脸图像块来自同一个人或者不同人。人脸学习模块的任务是利用样本挖掘后得到的带标签数据，训练得到人脸检测模型，同时将该模型重新应用于视频解码图像中人脸的检测。

(二)实施流程

参见图1，为本发明实施例的实现流程图，包括以下步骤：

步骤1、程序启动，用户传入视频数据。

步骤2、解码视频数据，将视频转换为一帧帧图像。

步骤3、检测每一帧图像中的人脸，将人脸组合并且对人脸对打标签。

步骤4、将打好标签的数据传入训练网络，训练模型。

步骤5、用训练好的模型应用于人脸数据获取，判断是否满足精度要求，若是，程序结束，输出模型。若否，循环步骤3、4、5。

(三)详细结构设计

图2为本发明实施例的人脸自动标记流程图。图3是自适应、连续不断的人脸学习流程图。

1、人脸自动标记

在本实施例中，人脸自动标记模块主要包括：人脸来源比对、人脸特征检测、人脸特征比对等

(1)人脸来源比对

根据视频数据的特点，同一人不可能在同一帧中的其他位置出现。将来自同一帧的人脸数据对标记为不同人脸数据。如果人脸数据来自不同的视频帧，则进入人脸特征检测阶段。

(2)人脸特征检测

将来自不同帧的人脸数据传入程序，对每一个人脸数据进行特征提取，例如SIFT特征。由于视频帧与帧之间的变化量很少，因此，可以通过求每组人脸数据对特征之间的差值与阀值之间的关系来确定是否属于同一个人。

2、自适应、连续不断的人脸学习

在本实施例中，自适应、连续不断的人脸学习模块包括：人脸模型学习，准确度验证，自适应模型调整等。

(1)人脸模型学习

利用人脸自动标记模块获得的人脸正负样本数据，采用深度学习方法，例如：卷积神经网络，使用人脸识别算法，例如triplet-basedgradientdescentalgorithm。学习得到可用于区分不同人脸的模型。

(2)准确度检测

将测试数据传入学习得到的人脸模型，计算模型的误差。如果误差较小，说明模型满足要求，将模型输出，停止程序。如果误差不满足要求，则进入连续不断学习调整过程，直到精度满足要求。

(3)自适应模型调整

如果准确度没有达到要求，程序进入模型的自适应调整阶段。首先，是将获得的模型应用于来自不同帧的人脸块的检测，即用模型判断不同帧人脸数据是否来自同一人。其次，根据相邻帧的检测结果，逐步扩大不同帧之间的距离，例如从第7和第8帧两帧的数据到第7和第9帧的数据，逐步扩大对比帧之间的时间，以达到扩大同一人不同人脸数据之间的差距。

本发明利用视频自动构造人脸训练样本，其核心点在于，利用同一时刻同一个人不可能出现在两个位置以及同一个人在短时间内移动具有连续性这样的先验知识从视频中自动挖掘出匹配和不匹配样本。

利用增加帧跨度构造同一个人的难样本方法，其核心点在于当帧跨度增加时，一个人的姿态和光照变化的程度都会增加。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种利用视频数据进行人脸识别训练的方法，具体步骤为：

1)视频解码：将输入的视频信息离散成一帧帧的图像；

2)人脸检测：将解码获得的图像进行人脸检测，并将每一帧图像中的人脸进行抽取，获得人脸图像块；

3)样本挖掘：利用时空连续性、编码运动向量、服饰信息、已训练好的模型实现附近帧间同一人脸的定位以及同一帧中不同人脸的定位；