CN109284729B

CN109284729B - 基于视频获取人脸识别模型训练数据的方法、装置和介质

Info

Publication number: CN109284729B
Application number: CN201811168959.0A
Authority: CN
Inventors: 秦浩达
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2020-03-03
Anticipated expiration: 2038-10-08
Also published as: CN109284729A

Abstract

本申请公开了一种基于视频获取人脸识别模型训练数据的方法、装置和介质。其中，方法包括：获取待识别人物的标准图片，对所述标准图片进行人脸检测和关键点提取，生成第一描述子；对于包含该人物的视频，进行视频帧的抽取，识别抽取的视频帧中的人脸部分，将所述人脸部分保存为人脸图片；对所述人脸图片进行关键点提取，生成第二描述子，计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据。该方法能够丰富人脸识别模型的训练数据，减少了人工筛选的工作量，从而解决了训练数据准备不齐全，种类单一，清洗难度大的问题。

Description

基于视频获取人脸识别模型训练数据的方法、装置和介质

技术领域

本申请涉及图像数据处理技术领域，特别是涉及一种从视频中获取人脸识别模型训练数据的方法和装置。

背景技术

人脸识别模型，特别是明星人脸识别模型的训练通常需要准备大量的训练数据。一般的，每个明星训练所需的图片在500张至1000张左右，才能达到较好的准确度。加之，明星排行榜的变动非常频繁，需要不断扩充或者更新已有的明星识别模型。这对数据准备工作是一个严重的挑战。

寻找人脸的训练数据，尤其是明星人脸的训练数据，通常采用两种方法，一种是在网络图库中采集，一种是在影视剧中截图。无论哪一种方式，都需要人工去参与，存在各自的缺陷：在网络图库中获取的明星图片的质量参差不齐，很多照片不符合模型训练的需求，更重要的是，最原始的录入者将图片录入到搜索引擎时，录入者会根据图片的一些信息设置关键词，假如，待录入的一张图片的描述信息为“明星A和明星B宣传新剧XX”，可能该图片中仅有明星B，而没有明星A，但是图片的描述信息中包括关键词：明星A的“姓名”。当搜索明星A的姓名时，上述没有明星A的图片也会混杂在检索结果中。如果直接用检索结果对模型进行训练，会对导致模型参数不准确，如果采用人工对图片进行识别处理，虽然能够保证质量但是效率低下。因此，针对特定人物的人脸识别模型的训练数据来源依然是亟待解决的问题。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于视频获取人脸识别模型训练数据的方法，包括：

标准图片处理步骤：获取待识别人物的标准图片，对所述标准图片进行人脸检测和关键点提取，生成第一描述子；

视频处理步骤：对于包含该人物的视频，进行视频帧的抽取，识别抽取的视频帧中的人脸部分，将所述人脸部分保存为人脸图片；

图片对比步骤：对所述人脸图片进行关键点提取，生成第二描述子，计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据。

采用该方法，能够通过对视频帧的分析，得到大量待识别人物各个角度的图片，从而能够丰富人脸识别模型的训练数据。同时，通过该方法对图片进行筛选后，能够为后续数据加工人员的进一步甄别筛选提供便利，减少了人工筛选的工作量，从而解决了训练数据准备不齐全，种类单一，清洗难度大的问题。

可选地，所述标准图片处理步骤包括：

第一人脸分析步骤：利用Dlib库对所述标准图片进行面部检测以获取所述面部图像，提取所述面部图像的关键点；

第一描述子生成步骤：对每个关键点及其邻域提取局部协方差描述子，并对所有关键点的局部协方差描述子按照权重进行融合，得到第一描述子。

该方法可以能够通过Dlib库快速提取关键点，在计算描述子时不仅仅考虑关键点，还考虑了关键点周围的像素特征，因此得到的描述子能够更加全面的表达该图片的人脸特征。

可选地，所述视频处理步骤包括：

视频抽取步骤：对于包含该人物的视频，通过人脸跟踪得到包括人脸的视频片段，距离固定间隔对所述视频片段进行视频帧的抽取。

该方法可以减少重复的视频帧，缓解人脸的重复识别问题。

可选地，所述视频处理步骤还包括：

人脸识别步骤：对抽取的视频帧进行人脸识别，将包围盒矩形框最大的人脸部分作为识别结果，基于所述标准图片的尺寸将该人脸部分进行缩放，并保存为人脸图片。

该方法能够将所有人脸特征包含在识别结果中，从而提高了后续处理的准确性和全面性。

可选地，在所述图片对比步骤中，所述对所述人脸图片进行关键点提取，生成第二描述子包括：利用Dlib库对所述标准图片进行面部检测以获取所述面部图像，提取所述面部图像的关键点。

可选地，在所述图片对比步骤中，采用下式计算第一描述子和第二描述子的距离：

其中，ρ(D,C)表示第一描述子和第二描述子的距离，d_i和c_i分别表示第一描述子D和第二描述子C的第i个参数，n表示参数的个数。

可选地，在所述标准图片处理步骤中：所述待识别人物为两个以上的人物，分别对每个待识别人物的标准图片进行人脸检测和关键点提取并且生成第一描述子，得到第一描述子集合。

可选地，在所述图片对比步骤中，所述计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物包括：

分别计算所述第二描述子与所述第一描述子集合中的第一描述子的距离，在最小距离满足设定阈值的情况下，将所述人脸图片与所述最小距离对应的待识别人物关联。

根据本申请的另一个方面，还提供了一种基于视频获取人脸识别模型训练数据的装置，包括：

标准图片处理模块，其配置成用于获取待识别人物的标准图片，对所述标准图片进行人脸检测和关键点提取，生成第一描述子；

视频处理模块，其配置成用于对于包含该人物的视频，进行视频帧的抽取，识别抽取的视频帧中的人脸部分，将所述人脸部分保存为人脸图片；

图片对比模块，其配置成用于对所述人脸图片进行关键点提取，生成第二描述子，计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据。

采用该装置能够通过对视频帧的分析，得到大量待识别人物各个角度的图片，从而能够丰富人脸识别模型的训练数据。同时，通过该方法对图片进行筛选后，能够为后续数据加工人员的进一步甄别筛选提供便利，减少了人工筛选的工作量，从而解决了训练数据准备不齐全，种类单一，清洗难度大的问题。

根据本申请的另一个方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的另一个方面，还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解的是，这些附图未必是按比例绘制的。在附图中：

图1是运行根据本申请一个实施例的基于视频获取人脸识别模型训练数据的方法的计算机装置硬件结构示意图；

图2是根据本申请的一个实施例的基于视频获取人脸识别模型训练数据的方法的示意性流程图；

图3是根据本申请的一个实施例的方法的并行处理步骤的示意性流程图；

图4是根据本申请的另一个实施例的基于视频获取人脸识别模型训练数据的方法的示意性流程图；

图5是根据本申请的一个实施例的基于视频获取人脸识别模型训练数据的装置的示意性框图；

图6是本申请的计算设备的一个实施例的框图；

图7是本申请的计算机可读存储介质的一个实施例的框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例，还提供了一种基于视频获取人脸识别模型训练数据的方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于本申请方法的计算机装置(或移动设备)的硬件结构框图。如图1所示，计算机装置10(或移动设备10)可以包括一个或多个处理器(图中采用102a、102b，……，102n来示出，处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机装置10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机装置10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中基于视频获取人脸识别模型训练数据的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机装置10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller,NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机装置10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了一种基于视频获取人脸识别模型训练数据的方法。图2是根据本申请的一个实施例的基于视频获取人脸识别模型训练数据的方法的示意性流程图。该方法可以包括：

S100标准图片处理步骤：获取待识别人物的标准图片，对所述标准图片进行人脸检测和关键点提取，生成第一描述子；

S300视频处理步骤：对于包含该人物的视频，进行视频帧的抽取，识别抽取的视频帧中的人脸部分，将所述人脸部分保存为人脸图片；

S500图片对比步骤：对所述人脸图片进行关键点提取，生成第二描述子，计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据。

可选地，所述S100标准图片处理步骤可以包括：

其中，待识别人物可以是明星，视频可以是该明星参与演出的各种类型的视频作品。

Dlib是一个机器学习库，包含了许多机器学习常用的算法。使得使用者可以通过该库对实时图像进行检测，并对图像中的面部特征进行定位与提取，进而进行后续的操作。例如，采用Dlib进行人脸检测的步骤可如下：首先进行人脸检测，获取人脸区域的点坐标；然后进行人脸关键点标记，检测出人脸头像图片中人脸的68个特征点，例如，可以依次标记为B1-B68。可以理解的是，面部检测还可以通过其他方式实现，本申请不以此为限。

可选地，局部协方差描述子的计算方法可以包括如下步骤：

对每个关键点邻域，例如，对该关键点及其周围8个点或者20个点提取若干个不同类型的特征。例如，可以提取距离特征F1，F1表示邻域区域中的点到关键点的距离，距离是连接人脸曲面上两个点之间的最短距离，即使对形变人脸也具有高判别性的特征；可以提取梯度特征F2：梯度特征F2可以定义为点法线在x和y轴方向上夹角值；可以提取幅度特征F3：的幅度为可以表示点法线在x和y轴方向上的值的均方值，梯度特征和幅度特征可用来描述人脸曲面的几何法向上特定方向上的变化趋势。

根据上述不同类型的特征构建每个关键点邻域的协方差描述子。该协方差描述子可以是对称正定的协方差矩阵，它的对角元素表示的是每个特征的方差，非对角元素表示特征之间的相关性，协方差矩阵可以具有与其大小无关的独立固定的维数；将局部协方差描述子按照权重进行融合，得到第一描述子。

可选地，所述S300视频处理步骤可以包括：

可选地，固定间隔可以为2秒。对视频帧每隔2秒抽一帧，并且利用人脸检测器将帧中的人脸保存。视频每一秒中帧的图片大多是连续的，如果每帧都保存，切出的人脸数据在很大程度上是一致的，如果图片是多人，切出的人脸数据，也会随着帧数的增加而增加，不仅在和标准照做对比时对机器造成不必要的开销，也会对数据人员标注时造成不必要的困扰，每隔两秒抽一帧，可以缓解人脸的重复识别问题。

其中，在视频抽取步骤后，该方法还可以包括视频帧去重步骤：将抽取的前后两个视频帧进行相似度比较，如果相似度高于第一阈值，则将后一视频帧从视频帧部分中删除。该步骤能够删除冗余的视频帧，减少人脸识别的数据处理量，避免得到多个相似的训练数据。

可选地，所述S300视频处理步骤还可以包括：

该方法能够将所有人脸特征包含在识别结果中，从而提高了后续处理的准确性和全面性。由于人脸识别的结果通常会在人脸区域范围内计算出多个矩形框，该方法将包围盒矩形框最大的人脸部分作为识别结果能够将所有面部像素都纳入到人脸识别结果当中，而不会因为人脸图片的拍摄角度不同而遗漏关键特征。对人脸部分进行缩放将过大或者过小的图片进行调节，以等于或者接近标准图片的尺寸，从而能够有利于后续的关键点提取以及与标准图片之间的对比。当一个视频帧中出现多个人脸时，分别对各个人脸进行识别和处理。

可选地，在所述S500图片对比步骤中，所述对所述人脸图片进行关键点提取，生成第二描述子包括：

第二人脸分析步骤：利用Dlib库对所述标准图片进行面部检测以获取所述面部图像，提取所述面部图像的关键点。可以理解的是，生成第二描述子的方法可以与生成第一描述子的方法相同或者近似。

距离计算步骤：采用下式计算第一描述子和第二描述子的距离：

人物识别步骤：在距离满足设定阈值的情况下，将所述人脸图片与所述最小距离对应的待识别人物关联。

在该方法中，描述子之间距离越接近，说明图片中人脸的特征越相似，阈值可以根据大数据分析获得，通过该方法，能够从和待识别人物相关的视频中快速获得大批与该人物相关的各种角度的图片，从而为后续数据开发与利用提供了可靠的数据来源。例如，将对比之后的人脸数据展示出来，供数据人员进行进一步的筛选，能够大大降低数据人员的工作强度，从而能够更加提高识别结果的准确性和识别效率。

实施例2

在一个可选的实施方案中，本申请还提供了一种基于视频获取人脸识别模型训练数据的方法。该方法可以包括：

标准图片处理步骤：获取待识别人物的两个以上不同角度的标准图片，分别对所述标准图片进行人脸检测和关键点提取，生成第一描述子集合；

图片对比步骤：对所述人脸图片进行关键点提取，生成第二描述子，分别计算第一描述子集合中每一个第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据。

采用该方法，能够在标准图片库中保存一个待识别人物的多个图片，这样能够将视频帧中不同角度的人脸图片均识别出来，而不单单识别与标准图片表情、拍摄角度接近的图片，从而能够使训练数据更丰富、更完整，从而提高训练模型的准确性。

在该方法中，待识别人物的标准图片可以包括两个以上或者更多，可以包括正脸图片，不同角度的侧脸图片，以及带有不同表情的图片。可选地，标准图片数量在10张之内。视频的类型以多剧集、多类型为原则包括但不限于：古装、现代、综艺等视频。另外一个待识别人物可以出现在多个视频中，一个视频里面可以有多个待识别人物。

在图片对比步骤中，第一描述子集合中每一个第一描述子和第二描述子的距离不同，这可能是由于人物本身不同，或者拍摄角度不同。例如，某个视频帧是待识别人物的侧脸，其第二描述子与标准图片中侧脸的描述子距离小，而与正脸的描述子距离大。因此通过判断距离最小的描述子是否小于设定阈值，如果小于设定阈值，可以判断出该视频帧的人脸图片是待识别人物的侧脸，因此可以将该人脸图片与待识别人物关联，否则，认为该视频帧不包括待识别人物。该方法中其余步骤的计算过程可以与其他实施例的各个步骤相同或者近似。

实施例3

标准图片处理步骤：获取两个以上待识别人物的标准图片，分别对所述标准图片进行人脸检测和关键点提取，生成第一描述子集合；

在该方法中，检测可以并行进行，可以同时对多个待识别人物进行检测，也可以对于一个待识别人物，对视频帧分段，各个视频片段同时进行检测。图3是根据本申请的一个实施例的方法的并行处理步骤的示意性流程图。对于一个视频，可以将第一视频片段帧i至帧i+k，第二个视频片段帧j至帧j+l，同时针对待识别人物，例如，演员A进行识别。这样能够提高人脸检测的效率，并且能够通过对一个视频的一次分析，得到多个待识别人物的人脸图片，从而为训练模型提供更多训练数据。

可选地，在标准图片处理步骤之前，该方法还可以包括：

待识别人物确定步骤：从对于包含待识别人物的视频的演员表确定待识别人物。

通过该步骤，能够实现对视频的全自动分析，而不用事先人工确定对于一个视频，对哪个或哪些待识别人物进行人脸识别，从而提高了数据处理的自动化和高效化。该方法能够不间断地对多个视频进行自动分析，从而提高了分析和处理的效率。

其中，待识别人物确定步骤可以包括以下步骤：

演员表识别步骤：识别所述视频中演员表所在的视频帧部分；

演员表内容识别步骤：对所述视频帧部分进行文本检测，得到所述视频帧部分中每个视频的具有人物名称属性的截图，对所述截图进行光学字符识别，得到演员表中出现的人物姓名列表。

该步骤能够识别出视频中的演员表，即使该演员表不能提供可以直接使用的文字信息的情况下，也能够基于视频帧图像，通过文本检测和光学字符识别得到人物姓名列表，该方法能够得到批量的人物姓名数据，极大了提高数据处理能力。

可选地，在该演员表识别步骤中，使用深度学习网络识别视频中演员表所在的视频帧部分，得到视频帧序列。

可选地，该深度学习网络可以是ResNeXt网络、Xception网络或DenseNet网络。以Xception为例，该网络模型是一种深度可分类卷积网络，能够对场景进行分类。对于所述视频中的前后两个视频帧，进行图片的二分类训练。在训练阶段，使用视频的有演员表部分为正例，对应的非演员表部分为反例。每次输入一张图片，根据图片特征和图片的标签进行分类训练，输出为该图片是正例或反例的结果。在使用的测试集结果基本收敛则停止训练。在使用阶段，将待分析的视频的每个视频帧组成的图片序列顺次输入深度学习网络，在大量出现连续正例的判别结果位置，则是目标位置，即，演员表所在的视频帧部分，从而得到视频帧序列。

通过该方法，能够对视频中画面的种类进行区分，找出视频中的演员表部分，以便从演员表中分析出人物姓名。

可选地，在所述演员表内容识别步骤中，可以使用复合神经网络进行文本检测，并得到人物姓名列表。其中，复合神经网络可以包括文本检测网络和文本识别组件。

文本检测网络可以是YOLOv3网络。在训练阶段，采用标注后的演员表文本信息为训练数据，在训练数据中，对演员表中所有文字均进行标注，而不是仅仅标注人名。在使用阶段，文本检测网络的输入是视频帧序列中的每一个视频帧图片，输出是该视频帧中感兴趣部分的截图，从而得到视频帧序列的截图集合。

文本识别组件可以是光学字符识别(Optical Character Recognition，OCR)组件，例如，Tesseract-OCR组件。以Tesseract-OCR为例，在训练时，将图片转换成tif格式，以便生成box文件。利用jTessBoxEditor对tif格式的截图进行矫正并训练。该步骤能够对演员的人名进行优化校调。在使用时，将截图集合中的截图输入该组件，能够得到该截图中的人名，进而得到演员表中出现的人物姓名列表。

可选地，在所述演员表内容识别步骤中还包括：对人物姓名列表进行去重处理，得到去重后的人物姓名列表。

分别计算所述第二描述子与所述第一描述子集合中的第一描述子的距离，在最小距离满足设定阈值的情况下，将所述人脸图片与所述最小距离对应的待识别人物关联。该方法中其余步骤的计算过程可以与其他实施例的各个步骤相同或者近似。

图4是根据本申请的另一个实施例的基于视频获取人脸识别模型训练数据的方法的示意性流程图。在该方法中，利用演员表和标准图片对视频的视频帧进行数据标注，得到的结果存在标注文件库中，以便人脸识别模型进行训练。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例4

在一个可选的实施方案中，本申请还提供了一种基于视频获取人脸识别模型训练数据的装置，该装置是与上述实施例所述的方法对应的装置。图5是根据本申请的一个实施例的基于视频获取人脸识别模型训练数据的装置的示意性框图。该装置可以包括：

标准图片处理模块100，其配置成用于获取待识别人物的标准图片，对所述标准图片进行人脸检测和关键点提取，生成第一描述子；

视频处理模块300，其配置成用于对于包含该人物的视频，进行视频帧的抽取，识别抽取的视频帧中的人脸部分，将所述人脸部分保存为人脸图片；

图片对比模块500，其配置成用于对所述人脸图片进行关键点提取，生成第二描述子，计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据。

采用该装置，能够通过对视频帧的分析，得到大量待识别人物各个角度的图片，从而能够丰富人脸识别模型的训练数据。同时，通过该方法对图片进行筛选后，能够为后续数据加工人员的进一步甄别筛选提供便利，减少了人工筛选的工作量，从而解决了训练数据准备不齐全，种类单一，清洗难度大的问题。

可选地，所述标准图片处理模块100可以包括：

第一人脸分析模块，其配置成用于利用Dlib库对所述标准图片进行面部检测以获取所述面部图像，提取所述面部图像的关键点；

第一描述子生成模块，其配置成用于对每个关键点及其邻域提取局部协方差描述子，并对所有关键点的局部协方差描述子按照权重进行融合，得到第一描述子。

可选地，所述视频处理模块300可以包括：

视频抽取模块，其配置成用于对于包含该人物的视频，通过人脸跟踪得到包括人脸的视频片段，距离固定间隔对所述视频片段进行视频帧的抽取。

视频帧去重模块，其配置成用于将抽取的前后两个视频帧进行相似度比较，如果相似度高于第一阈值，则将后一视频帧从视频帧部分中删除。

人脸识别模块，其配置成用于对抽取的视频帧进行人脸识别，将包围盒矩形框最大的人脸部分作为识别结果，基于所述标准图片的尺寸将该人脸部分进行缩放，并保存为人脸图片。

可选地，所述图片对比模块500可以包括：

第二人脸分析模块，其配置成用于利用Dlib库对所述标准图片进行面部检测以获取所述面部图像，提取所述面部图像的关键点。

距离计算模块，其配置成用于采用下式计算第一描述子和第二描述子的距离：

人物识别模块，其配置成用于在距离满足设定阈值的情况下，将所述人脸图片与所述最小距离对应的待识别人物关联。

在一个可选的实施方案中，本申请还提供了一种基于视频获取人脸识别模型训练数据的装置。该装置可以包括：

标准图片处理模块，其配置成用于获取待识别人物的两个以上不同角度的标准图片，分别对所述标准图片进行人脸检测和关键点提取，生成第一描述子集合；

图片对比模块，其配置成用于对所述人脸图片进行关键点提取，生成第二描述子，分别计算第一描述子集合中每一个第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据。

该装置能够在标准图片库中保存一个待识别人物的多个图片，这样能够将视频帧中不同角度的人脸图片均识别出来，而不单单识别与标准图片表情、拍摄角度接近的图片，从而能够使训练数据更丰富、更完整，从而提高训练模型的准确性。

标准图片处理模块，其配置成用于获取两个以上待识别人物的标准图片，分别对所述标准图片进行人脸检测和关键点提取，生成第一描述子集合；

该装置可以同时对多个待识别人物进行检测，也可以对于一个待识别人物，对视频帧分段，各个视频片段同时进行检测。这样能够提高人脸检测的效率，并且能够通过对一个视频的一次分析，得到多个待识别人物的人脸图片，从而为训练模型提供更多训练数据。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

实施例5

本申请的实施例的一个方面提供了一种计算设备，参照图6，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本申请的方法步骤1131。

本申请的实施例的一个方面还提供了一种计算机可读存储介质。参照图7，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本申请的方法步骤的程序1131’，该程序被处理器执行。

本申请实施例的一个方面还提供了一种包含指令的计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算设备执行时，导致所述计算设备执行如上所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于视频获取人脸识别模型训练数据的方法，包括：

视频处理步骤：对于包含该人物的视频，进行视频帧的抽取，识别抽取的视频帧中的人脸部分，将所述人脸部分保存为人脸图片；和

图片对比步骤：对所述人脸图片进行关键点提取，生成第二描述子，计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据；

所述标准图片处理步骤包括：

第一人脸分析步骤：利用Dlib库对所述标准图片进行面部检测以获取面部图像，提取所述面部图像的关键点；和

第一描述子生成步骤：对每个关键点及其邻域提取局部协方差描述子，并对所有关键点的局部协方差描述子按照权重进行融合，得到第一描述子；

对每个关键点邻域提取若干个不同类型的特征；

根据上述不同类型的特征构建每个关键点邻域的局部协方差描述子；

该局部协方差描述子是对称正定的协方差矩阵，它的对角元素表示的是每个特征的方差，非对角元素表示特征之间的相关性，协方差矩阵具有与其大小无关的独立固定的维数；

将局部协方差描述子按照权重进行融合，得到第一描述子；

根据与生成第一描述子相同的方法，生成第二描述子。

2.根据权利要求1所述的方法，其特征在于，所述视频处理步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述视频处理步骤还包括：

4.根据权利要求1所述的方法，其特征在于，在所述图片对比步骤中，采用下式计算第一描述子和第二描述子的距离：

5.根据权利要求1所述的方法，其特征在于，在所述标准图片处理步骤中：所述待识别人物为两个以上的人物，分别对每个待识别人物的标准图片进行人脸检测和关键点提取并且生成第一描述子，得到第一描述子集合。

6.根据权利要求5所述的方法，其特征在于，在所述图片对比步骤中，所述计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物包括：

7.一种基于视频获取人脸识别模型训练数据的装置，包括：

视频处理模块，其配置成用于对于包含该人物的视频，进行视频帧的抽取，识别抽取的视频帧中的人脸部分，将所述人脸部分保存为人脸图片；和

图片对比模块，其配置成用于对所述人脸图片进行关键点提取，生成第二描述子，计算第一描述子和第二描述子的距离，基于所述距离判断该人脸图片是否是所述待识别人物，从而获得人脸识别模型训练数据；

所述标准图片处理模块包括：

第一人脸分析模块，其配置成用于利用Dlib库对所述标准图片进行面部检测以获取面部图像，提取所述面部图像的关键点；

第一描述子生成模块，其配置成用于对每个关键点及其邻域提取局部协方差描述子，并对所有关键点的局部协方差描述子按照权重进行融合，得到第一描述子；

对每个关键点邻域提取若干个不同类型的特征；

将局部协方差描述子按照权重进行融合，得到第一描述子；

根据与生成第一描述子相同的方法，生成第二描述子。

8.一种计算机可读存储介质，为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1至6中任一项所述的方法。