CN111061914B

CN111061914B - 一种基于人脸识别技术选取特定人脸视频片段的方法

Info

Publication number: CN111061914B
Application number: CN201911255820.4A
Authority: CN
Inventors: 朱赛赛; 郭怡良; 王海峰; 裴维勋
Original assignee: Understand Frequency Intelligent Technology Shanghai Co ltd
Current assignee: Understand Frequency Intelligent Technology Shanghai Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2024-01-02
Anticipated expiration: 2039-12-10
Also published as: CN111061914A

Abstract

本发明公开了一种基于人脸识别技术选取特定人脸视频片段的方法，涉及视频处理技术领域。本发明在人脸识别技术步骤S03与步骤S04之间依次设置步骤S031、步骤S032、步骤S033；步骤S021：设置可配置参数X、参数M、参数N；步骤S031：在基准至上选取C位框的区域范围，标定该人物对应的视频片段Clips为C位，否则为非C位，取该视频片段Clips中主角人脸面积最大X帧的平均面积；步骤S032：对步骤S031中的C位进一步判断；步骤S033：权重的分配和优劣排序。本发明解决了现有的人脸识别和智慧视频技术获取并生成的Clips碎片化程度高，新的Clips支离破碎，不能连续的观看、生硬、突兀问题。

Description

一种基于人脸识别技术选取特定人脸视频片段的方法

技术领域

本发明属于视频处理技术领域，特别是涉及一种基于人脸识别技术选取特定人脸视频片段的方法。

背景技术

人脸识别(Face Recognition)技术是一种依据人的面部特征(如统计或几何特征等)，自动进行身份识别的一种生物识别技术，又称为面像识别、人像识别、相貌识别、面孔识别、面部识别等。通常我们所说的人脸识别是基于光学人脸图像的身份识别与验证的简称。人脸检测算法、人脸跟踪算法、人脸抓拍算法、人脸质量评分算法、人脸属性识别算法及人脸特征识别算法。利用高精度人脸模型，提供一种直接从数据出发(输入端原始图像)，经过网络结构模型得到最终结果(输出端)的端到端的模式。要完成对某一视频文件或视频流中人脸识别，首先需要对其中的人脸进行检测并跟踪，然后根据最优帧的人脸图片，进行人脸特征提取，并与人脸特征库进行匹配，给出命中人脸的ID号，完成人物的识别；

智慧视频技术所属的技术领域为人工智能领域，应用于视频自动生产环节中，基于人脸识别和视频自动生成双引擎，将原视频中人脸片段筛选、切分，并将新视频拼接、生成，在几分钟内生成个人专属视频；在人数众多的场景中，能根据用户需要快速制作个人视频集锦；

但是基于人脸识别和现有的智慧视频技术定位、生成Clips的方法由机器根据实际情况如实获得，这种方法会出现如下不理想的情况：生成的Clips碎片化程度高；特定人脸A面部特征在原视频B中仅消失短暂的几帧，就会被生成到新的Clips中造成新生成的Clips支离破碎，不能连续的观看。Clips观看效果生硬、突兀；从特定人脸A面部特征出现到结束生成Clips，没有开始的铺垫和结尾。因此针对以上问题，对人脸识别技术进行优化，提供一种基于人脸识别技术选取特定人脸视频片段的方法具有重要意义。

发明内容

本发明的一种基于人脸识别技术选取特定人脸视频片段的方法，解决了现有的人脸识别和智慧视频技术获取并生成的Clips碎片化程度高，特定人脸A面部特征在原视频B中仅消失短暂的几帧，就会被生成到新的Clips中造成新生成的Clips支离破碎，不能连续的观看，Clips观看效果生硬、突兀，从特定人脸A面部特征出现到结束生成Clips，没有开始的铺垫和结尾的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明的一种基于人脸识别技术选取特定人脸视频片段的方法，基于人脸识别技术实现，用于获取特定人脸视频片段，包括以下步骤；

S01：首先建立人脸特征库，包括面部的眼睛、鼻子和嘴巴特征，通过对源视频文件B的人脸区域进行检测和跟踪进行人脸定位；

S02：然后进行人脸矫正并进行源视频文件B的人脸特征提取，通过将人脸特征库中的特征与源视频文件B中的人脸特征进行比对并获得特征匹配；

S03：上述方法应用于源视频文件B某一特定人脸A出现的片段，并以该片段中特定人脸A的面部特征出现为起始帧，面部消失为结束帧；

S04：然后利用ffmpeg程序对起始帧和结束帧之间的连续帧部分进行重新编码生成新的视频文件，从而获得某一张特定人脸A的个人视频片段Clips；

S05：利用步骤S03和S04，由源视频文件B中定位并生成特定人脸A的若干个人视频片段C1、C2...Cn；

在所述步骤S02与步骤S03之前设置步骤S021，在所述步骤S03与步骤S04之间依次设置步骤S031、步骤S032、步骤S033；

所述步骤S021内容为：设置可配置参数X、参数M、参数N；参数X定义为：当X大于特定人脸A面部特征在源视频文件B中消失至再次出现之间的时间时，则分切成两个视频片段Clips；当参数X小于“特定人脸A面部特征在源视频文件B中消失至再次出现之间的时间时，则保留成一个视频片段Clips；参数M定义为：特定人脸A面部特征在源视频文件B中出现前补偿的时间；参数N定义为：特定人脸A面部特征在源视频文件B中消失后补偿的时间；

所述步骤S031内容为：对所述源视频文件B某一特定人脸A出现的片段以视频分辨率为基准，在基准至上选取C位框的区域范围，并规定视频片段Clips中特定人脸A只要在C位框的区域范围内出现过，且出现的人脸面积最大帧的主角人脸面积满足C位框最小面积A₁，则标定该人物对应的视频片段Clips为C位，否则标记该人物对应的视频片段Clips为非C位，每个所述视频片段Clips都附带该视频片段Clips的全部帧的信息，取该所述视频片段Clips中主角人脸面积最大X帧的平均面积；若判定为非C位，则进行下一步骤S032对步骤步骤S031中C位继续进行分析；

所述步骤S032内容为：取C位框区域范围的对角线交叉点计算人脸范围框对角线交叉点/>距离/>的距离1₁，其计算公式为：

并对步骤S031中的C位进一步判断:以一个人脸的所有C位的视频片段Clips为例：取步骤S031中标记的视频片段Clips，计算并标记每个视频片段Clips中距离点最近的帧F_i；当标记F_i之后，取F_i帧出现的人脸，判断在该帧中，C位人员的脸面积是否为该帧中最大，如果不是最大，则取消该视频片段Clips的C位标记；如果是，则判断所述F_i帧中，C位人员脸范围框对角线/>距离/>点距离是否在F_i帧出现的人脸中距离/>点距离最近，如果不是，则取消该视频片段Clips的C位标记；

所述步骤S033的内容为：对步骤S031和步骤S032过后的视频片段Clips进行权重的分配，取步骤S032中X帧平均人脸面积a，取步骤S033中距离点最近帧主角人脸面积b，根据不同拍摄场景选用不同模式确定权重Q₁和权重Q₂，且Q₁>Q₂，按照权重计算方式对视频片段Clips的权重进行优劣排序。

进一步地，所述步骤S033中权重计算方式包括普通模式的计算：将b*Q₁，a*Q₂作为计算视频片段Clips的权重，其目的是将距离点距离最近和人脸面积最大的C位排在最前面，距离/>点距离远和人脸面积小的人脸可能会排在非C位之后，其选择条件为：非C位，人脸面积大。

进一步地，所述步骤S033中权重计算方式还包括泾渭分明模式的计算：将b*1000*Q₁，a*0.001*Q₂作为计算视频片段Clips的权重，目的是将分配权重后的C位和非C位区分，C位权重始终高于非C位权重。

进一步地，所述视频片段Clips为人物的面孔一直出现在画面中不曾消失的最小视频流数据单位。

进一步地，所述参数X、参数M、参数N的数值根据不同的视频内容需求进行设定，所述参数X、M、N的单位均为秒，其精度精确至毫秒。

进一步地，所述步骤S031中视频片段Clips的全部帧的信息包括但不局限于每帧出现的人脸、以及出现的人脸坐标、每帧人脸范围中心点距离画面中心点的距离、人脸出现的占比、性别、民族、仰角、俯角、睁眼、闭眼、张嘴、闭嘴状态信息。

进一步地，所述ffmpeg程序为是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

本发明相对于现有技术包括以下有益效果：

1、本发明通过在设置可配置参数X、可配置参数M和可配置参数N，当X大于特定人脸A面部特征在原视频B中消失至再次出现之间的时间时，则分切成两个Clips，当X小于“特定人脸A面部特征在原视频B中消失至再次出现之间的时间时，则保留成为一个Clips，并在特定人脸A面部特征在原视频B中出现前补偿可配置参数M时间，在特定人脸A面部特征在原视频B中消失后补偿的可配置参数N时间，使特定人脸A面部特征出现到结束生成视频片段Clips，对开始至结尾具有补偿和铺垫，弥补可能消失的短暂帧数，使视频片段Clips观看的过渡效果更加连贯且柔顺自然。

2、本发明通过建立C位框，确定人脸面积最大帧的主角人脸面积满足C位最小面积A₁对其视频片段Clips标记为C位，并通过面积比较、计算人脸范围框对角线交叉点距离进行确定的最优的视频片段Clips的C位，并对视频片段Clips进行权重的分配进行优劣排序，获取最优的视频片段Clips，其权重分配模式根据需要选用基于非C位，人脸面积大条件下的普通模式，和C位权重始终高于非C位权重下的泾渭分明模式；使获取视频片段Clips更加保真、清晰、连贯和自然，碎片化程度低。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于人脸识别技术选取特定人脸视频片段的方法的整体步骤图；

图2为现有技术中人脸识别流程图；

图3为图1中步骤S03的具体实施图；

图4为图1的基于步骤S021中可配置参数X设置后步骤S03的具体实施图；

图5为图1的基于步骤S021中可配置参数X、可配置参数M、可配置参数N设置后步骤S03的具体实施图；

图6为图1中步骤S031的基准—C位框图示意图；

图7为基于图6的步骤S031的C位/非C位的示意图；

图8为基于图6的步骤S032的基准—C位的示意图；

图9为基于步骤S033中普通模式下的多个视频片段Clips的C位和非C位的关系示意图；

图10为基于步骤S033中泾渭分明模式下的多个视频片段Clips的C位和非C位的关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-10所示，本发明的一种基于人脸识别技术选取特定人脸视频片段的方法，基于人脸识别技术实现，用于获取特定人脸视频片段，包括以下步骤；如图1-2所示；

如图3所示，S03：上述方法应用于源视频文件B某一特定人脸A出现的片段，并以该片段中特定人脸A的面部特征出现为起始帧，面部消失为结束帧；

S05：利用步骤S03和S04，由源视频文件B中定位并生成特定人脸A的若干个人视频片段C1、C2...Cn；上述步骤S01-S05为现有技术；

在步骤S02与步骤S03之前设置步骤S021，在所述步骤S03与步骤S04之间依次设置步骤S031、步骤S032、步骤S033；

如图4-5所示，步骤S021内容为：设置可配置参数X、参数M、参数N；参数X定义为：当X大于特定人脸A面部特征在源视频文件B中消失至再次出现之间的时间时，则分切成两个视频片段Clips；当参数X小于“特定人脸A面部特征在源视频文件B中消失至再次出现之间的时间时，则保留成一个视频片段Clips；参数M定义为：特定人脸A面部特征在源视频文件B中出现前补偿的时间；参数N定义为：特定人脸A面部特征在源视频文件B中消失后补偿的时间；

如图6所示，步骤S031内容为：对源视频文件B某一特定人脸A出现的片段以视频分辨率为基准，在基准至上选取C位框的区域范围，并规定视频片段Clips中特定人脸A只要在C位框的区域范围内出现过，且出现的人脸面积最大帧的主角人脸面积满足C位框最小面积A₁，则标定该人物对应的视频片段Clips为C位，否则标记该人物对应的视频片段Clips为非C位，每个视频片段Clips都附带该视频片段Clips的全部帧的信息，取该视频片段Clips中主角人脸面积最大X帧的平均面积；若判定为非C位，则进行下一步骤S032对步骤步骤S031中C位继续进行分析；步骤S031设置原因在于，经步骤S02生成的视频片段Clips数量多，但是可用视频片段Clips不多，基于人脸识别引擎分析出的人脸时间顺序数据基础上，做进一步的分析提取；

如图8所示，步骤S032内容为：取C位框区域范围的对角线交叉点计算人脸范围框对角线交叉点/>距离/>的距离1₁，其计算公式为：

步骤S033的内容为：对步骤S031和步骤S032过后的视频片段Clips进行权重的分配，取步骤S032中X帧平均人脸面积a，取步骤S033中距离点最近帧主角人脸面积b，根据不同拍摄场景选用不同模式确定权重Q₁和权重Q₂，且Q₁>Q₂，按照权重计算方式对视频片段Clips的权重进行优劣排序。

如图9所示，其中，步骤S033中权重计算方式包括普通模式的计算：

将b*Q₁，a*Q₂作为计算视频片段Clips的权重，其目的是将距离点距离最近和人脸面积最大的C位排在最前面，距离/>点距离远和人脸面积小的人脸可能会排在非C位之后，其选择条件为：非C位，人脸面积大。

如图10所示，其中，步骤S033中权重计算方式还包括泾渭分明模式的计算：

将b*1000*Q₁，a*0.001*Q₂作为计算视频片段Clips的权重，目的是将分配权重后的C位和非C位区分，C位权重始终高于非C位权重。

其中，视频片段Clips为人物的面孔一直出现在画面中不曾消失的最小视频流数据单位。

其中，参数X、参数M、参数N的数值根据不同的视频内容需求进行设定，所述参数X、M、N的单位均为秒，其精度精确至毫秒。

其中，步骤S031中视频片段Clips的全部帧的信息包括但不局限于每帧出现的人脸、以及出现的人脸坐标、每帧人脸范围中心点距离画面中心点的距离、人脸出现的占比、性别、民族、仰角、俯角、睁眼、闭眼、张嘴、闭嘴状态信息。

其中，ffmpeg程序为是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

本发明相对于现有技术的有益效果包括：

2、本发明通过在设置可配置参数X、可配置参数M和可配置参数N，当X大于特定人脸A面部特征在原视频B中消失至再次出现之间的时间时，则分切成两个Clips，当X小于“特定人脸A面部特征在原视频B中消失至再次出现之间的时间时，则保留成为一个Clips，并在特定人脸A面部特征在原视频B中出现前补偿可配置参数M时间，在特定人脸A面部特征在原视频B中消失后补偿的可配置参数N时间，使特定人脸A面部特征出现到结束生成视频片段Clips，对开始至结尾具有补偿和铺垫，弥补可能消失的短暂帧数，使视频片段Clips观看的过渡效果更加连贯且柔顺自然。

3、本发明通过建立C位框，确定人脸面积最大帧的主角人脸面积满足C位最小面积A₁对其视频片段Clips标记为C位，并通过面积比较、计算人脸范围框对角线交叉点距离进行确定的最优的视频片段Clips的C位，并对视频片段Clips进行权重的分配进行优劣排序，获取最优的视频片段Clips，其权重分配模式根据需要选用基于非C位，人脸面积大条件下的普通模式，和C位权重始终高于非C位权重下的泾渭分明模式；使获取视频片段Clips更加保真、清晰、连贯和自然，碎片化程度低。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于人脸识别技术选取特定人脸视频片段的方法，基于人脸识别技术实现，用于获取特定人脸视频片段，包括以下步骤；

S05：利用步骤S03和S04，由源视频文件B中定位并生成特定人脸A的若干个人视频片段C1、C2...Cn；其特征在于：

所述步骤S031内容为：对所述源视频文件B某一特定人脸A出现的片段以视频分辨率为基准，在基准之上选取C位框的区域范围，并规定视频片段Clips中特定人脸A只要在C位框的区域范围内出现过，且出现的人脸面积最大帧的主角人脸面积满足C位框最小面积A₁，则标定该人物对应的视频片段Clips为C位，否则标记该人物对应的视频片段Clips为非C位，每个所述视频片段Clips都附带该视频片段Clips的全部帧的信息，取该所述视频片段Clips中主角人脸面积最大X帧的平均面积；若判定为非C位，则进行下一步骤S032对步骤S031中C位继续进行分析；

所述步骤S032内容为：取C位框区域范围的对角线交叉点计算人脸范围框对角线交叉点/>距离/>的距离l₁，其计算公式为：

2.根据权利要求1所述的一种基于人脸识别技术选取特定人脸视频片段的方法，其特征在于，所述步骤S033中权重计算方式包括普通模式的计算：

3.根据权利要求1所述的一种基于人脸识别技术选取特定人脸视频片段的方法，其特征在于，所述步骤S033中权重计算方式还包括泾渭分明模式的计算：

4.根据权利要求1所述的一种基于人脸识别技术选取特定人脸视频片段的方法，其特征在于，所述视频片段Clips为人物的面孔一直出现在画面中不曾消失的最小视频流数据单位。

5.根据权利要求1所述的一种基于人脸识别技术选取特定人脸视频片段的方法，其特征在于，所述参数X、参数M、参数N的数值根据不同的视频内容需求进行设定，所述参数X、M、N的单位均为秒，其精度精确至毫秒。

6.根据权利要求1所述的一种基于人脸识别技术选取特定人脸视频片段的方法，其特征在于，所述步骤S031中视频片段Clips的全部帧的信息包括但不局限于每帧出现的人脸、以及出现的人脸坐标、每帧人脸范围中心点距离画面中心点的距离、人脸出现的占比、性别、民族、仰角、俯角、睁眼、闭眼、张嘴、闭嘴状态信息。

7.根据权利要求1所述的一种基于人脸识别技术选取特定人脸视频片段的方法，其特征在于，所述ffmpeg程序为是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。