CN108388885B

CN108388885B - 面向大型直播场景的多人特写实时识别与自动截图方法

Info

Publication number: CN108388885B
Application number: CN201810222865.0A
Authority: CN
Inventors: 张晖; 杨纯
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2021-06-08
Anticipated expiration: 2038-03-16
Also published as: CN108388885A

Abstract

本发明公开了一种面向大型直播场景的多人特写实时识别与自动截图方法，具体为：将人脸大小、清晰度以及人脸位置分别作为截图的第一、二、三指标，首先实时获取直播视频的当前视频帧图像，检测所述视频帧图像中的人脸获得人脸区域并进行跟踪，然后对人脸区域的人脸大小、清晰度以及位置依次进行评估，进而选取符合截图标准的人脸图像，并将当前视频帧图像截图保存，送入人脸识别模块进行识别，输出识别结果。该发明可应用在大型直播场景下对视频中的多人特写进行识别与截图，当满足截图指标时自动截图保存，确保获得质量更佳的截图。

Description

面向大型直播场景的多人特写实时识别与自动截图方法

技术领域：

本发明涉及一种面向大型直播场景的多人特写实时识别与自动截图方法，属于视频图像处理技术领域技术领域。

背景技术：

在各种直播平台，比如正规大会直播或者足球直播或者大型晚会直播时，需要在一定情况下截图，对图片上的人物进行人脸识别，从而方便图文介绍。需要截图就一定要检测到人物，关键技术就是人脸检测，而传统的人脸检测由于通常是实时进行检测的，因此在检测过程中会产生大量重复的同一对象的不同人脸快照，并且质量参齐不齐，另外如果全部保存快照进行人脸识别，则会带来存储量大和人脸识别效果不佳的缺点，因此本发明为了解决这个问题，提出了一种图像质量评估方法，只有满足截图要求才会进行保存识别。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容：

本发明的目的在于提供一种识别效果好、存储量小的面向大型直播场景的多人特写实时识别与自动截图方法，从而克服上述现有技术中的缺陷。

为实现上述目的，本发明提供了

一种面向大型直播场景的多人特写实时识别与自动截图方法，其特征在于，

具体步骤如下：

步骤1，实时获取直播视频信号，对视频流中的每帧图像中值滤波后转换到YCgCr颜色空间，并建立肤色模型，对图像进行肤色检测，通过形态学处理后去除背景区域，获得候选肤色区域；

步骤2，基于步骤1的肤色检测，采用Adaboost算法对候选肤色区域进行人脸检测，得到人脸区域的大小S_face及中心点坐标(x_c，y_c)；

步骤3，对每个人脸区域采用带有多线程机制的CamShift算法进行目标跟踪，统计当前视频帧图像中被跟踪的人脸个数并记为L；

步骤4，对这L张人脸中的每一张人脸都依次进行人脸大小、清晰度以及位置的评估，符合记为1不符合记为0从而得到L个01序列；

步骤5，通过对L个01序列进行判断，进而选取符合截图标准的视频帧图像截图；

步骤6，将所截图像送入人脸识别模块并对序列号为111的人脸进行识别，输出识别结果。

本方面进一步限定的技术方案为：

优选地，上述技术方案中，步骤2中Adaboost算法，用正负人脸样本训练基于Haar-like特征的强分类器，并将强分类器串联成级联分类器，实现快速实时的人脸检测。

优选地，上述技术方案中，步骤3为CamShift动态人脸检测跟踪进程开设两个线程，分别为检测线程和跟踪线程，降低检测时间，提高跟踪实时性。

优选地，上述技术方案中，检测线程首先启动，负责定期检测图像中人脸，确定人脸个数是否变化及变化后的人脸初始位置，跟踪线程负责根据检测线程提供的最新检测结果进行多人脸的CamShift实时跟踪。

优选地，上述技术方案中，步骤5的截图标准判断规则如下：

1)若L张人脸的序列号均为111，则截图，若L张人脸的序列号没有一个为111，则舍弃；

2)当L为1时，若人脸的序列号均为111，则对当前视频帧图像截图，否则舍弃；

3)当L为奇数且L大于1时，若至少有(L+1)/2个人脸的序列号为111，则截图，否则舍弃；

4)当L为偶数时，若至少有L/2个人脸的序列号为111，则截图，否则舍弃。

优选地，上述技术方案中，步骤4中，人脸大小评估方法如下：

通过人脸区域面积占当前视频帧图像面积的比例进行评估，具体计算公式如下:

其中，S_face表示人脸区域的面积；S表示当前视频帧图像面积；

若Q₁在区间[0.05,0.5]之间，则标记为1，否则标记为0。

优选地，上述技术方案中，步骤4中，所述人脸清晰度评估方法为：

对人脸区域采用Canny算子进行边缘检测，再对检测结果的边缘清晰度和灰度分布情况进行分析，综合这两方面的因素获得图像清晰度指标，其公式计算如下：

1)首先计算人脸区域边缘清晰度指标：

其中，α是边缘点数目占当前视频帧图像的比例；

2)然后计算灰度统计信息的清晰度指标：

其中，

表示Canny边缘检测后当前视频帧图像灰度的平均值，即

M×N表示当前视频帧图像总像素个数，M为横向像素个数，N为纵向像素个数；

3)最后，将p和η两个指标进行融合，可得最终的人脸有效区域清晰度指标Q₂＝0.5(p+η)；

4)根据实际的视频情况，自主设定阈值T，若Q₂的值大于T认为是清晰人脸记为1，否则认为是模糊人脸记为0。

优选地，上述技术方案中，步骤4中，所述人脸位置的评估方法如下：

若人脸区域的中心点坐标(x_c,y_c)在以当前视频帧图像的中心为圆心，以R为半径的圆内，则认为人脸位置大致居中记为1，否则记为0，其中

优选地，上述技术方案中，步骤1中，对初始帧图像进行预处理，在YCgCr颜色空间下的建立肤色模型，对图像进行肤色检测，获得候选肤色区域，其过程如下：

1)通过如下公式将步骤1的图像序列转换到YCgCr颜色空间:

2)皮肤颜色在YCgCr颜色空间呈高斯分布，建立高斯肤色模型，获得灰度图像，其中高斯分布函数ρ(Cg，Cr)表达式为：

ρ(Cg，Cr)＝exp[-0.5(a-K)^TC^-1(a-K)]；

其中a是肤色样本在YCgCr颜色空间中的值，K为肤色样本像素在YCgCr颜色空间中的均值，C为肤色相似度协方差矩阵，均值K和协方差矩阵C可通过以下公式求出：K＝E(a)，a＝(Cr，Cg)^T，C＝E[(a-K)(a-K)^T]；

肤色高斯模型中均值K和协方差矩阵C一般取值为：K＝[116.09148.7319]^T；

3)按照一定阈值对灰度图像进行二值化操作，大于阈值的像素点置为1表示肤色区域，小于阈值的像素点置为0表示非肤色区域；

4)对二值化处理后采用先膨胀后腐蚀的形态学操作，得到候选肤色区域。优选地，上述技术方案中，带有多线程机制的CamShift算法(即MT-CamShift)多人脸跟踪算法步骤如下:

1)检测线程，检测线程先于跟踪线程启动，利用AdaBoost人脸检测算法对图像中的人脸个数进行定期检测，当图像中人脸个数发生变化时，检测线程通过设置标志位等于1与跟踪线程通信；

2)跟踪线程，在检测线程执行一个周期后，跟踪线程启动，控制多个CamShift跟踪器进行多人脸跟踪；每次跟踪前，跟踪线程检查检测线程中设置的标志位，并进行相应处理；

若标志位为1，则说明检测线程发现人脸个数已变化，此时跟踪线程为新增人脸分配CamShift跟踪器，释放离开人脸的CamShift跟踪器，并根据检测线程的最新结果重新确定跟踪窗口的初始位置，最后清零标志位；

若标志位为0，则说明检测线程尚未发现人脸个数的变化，此时跟踪线程不改变之前CamShift跟踪器个数，并继续以上次的跟踪结果作为本次跟踪的初始位置完成跟踪。

与现有技术相比，本发明具有如下有益效果：

通过对视频帧图像人脸检测获得人脸区域图像，并对人脸进行人脸大小、位置、清晰度进行评估，只有符合截图要求的图像才予以截图，保证了截图的质量，提高了人脸识别的效果，解决了以往视频人脸识别产生大量重复快照而导致后端服务器的存储及计算工作量大的问题，降低了系统处理的复杂性。

附图说明：

图1为本发明的多人特写实时识别与自动截图的流程图；

图2为本发明的人脸检测流程图；

图3a为人脸检测跟踪算法流程示意图；

图3b为目标更新处理流程示意图；

图4a为本发明MT-CamShift多人脸检测线程流程示意图；

图4b为本发明MT-CamShift多人脸跟踪线程流程示意图。

具体实施方式：

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本发明提供一种面向大型直播场景的多人特写实时识别与自动截图方法，其特征在于，将人脸大小、清晰度以及人脸位置分别作为截图的第一、二、三指标，首先实时获取直播视频的当前视频帧图像，检测所述视频帧图像中的人脸获得人脸区域并进行跟踪，然后对人脸区域的人脸大小、清晰度以及位置依次进行评估，进而选取符合截图标准的人脸图像，并将当前视频帧图像截图保存，送入人脸识别模块进行识别，输出识别结果。该发明可应用在大型直播场景下对视频中的多人特写进行识别与截图，当满足截图指标时自动截图保存，确保获得质量更佳的截图。如图1所示，本发明一种面向大型直播场景的多人特写实时识别与自动截图方法的流程图，主要包括以下步骤：

步骤1，首先采集视频，对初始帧图像进行归一化预处理，再采用AdaBoost算法进行人脸检测，得到人脸区域的大小S_face及中心点坐标(x_c,y_c)，具体详见图2；

步骤2，将人脸检测得到的信息作为CamShift跟踪算法的初始参数进行人脸的自动跟踪，并统计当前视频帧图像中被跟踪的人脸个数记为L，具体详见图3；

步骤3，对这L张人脸中的每一张人脸都依次进行人脸大小、清晰度以及位置的评估，符合记为1不符合记为0从而得到L个01序列；

所述人脸大小评估方法如下：

其中，S_face表示人脸区域的面积(总像素数)；S表示当前视频帧图像面积(总像素数)。若Q₁在区间[0.05,0.5]之间，则标记为1，否则标记为0。

所述人脸清晰度评估方法为：

1)首先计算人脸区域边缘清晰度指标：

其中，α是边缘点数目占当前视频帧图像的比例。

2)然后计算灰度统计信息的清晰度指标：

其中，

表示Canny边缘检测后当前视频帧图像灰度的平均值，即

M×N表示当前视频帧图像总像素个数，M为横向像素个数，N为纵向像素个数。

3)最后，将p和η两个指标进行融合，可得最终的人脸有效区域清晰度指标Q₂＝0.5(p+η)。

根据实际的视频情况，自主设定阈值T，若Q₂的值大于T认为是清晰人脸记为1，否则认为是模糊人脸记为0。

所述人脸位置的评估方法如下：

步骤4，通过对L个01序列进行判断，进而选取符合截图标准的视频帧图像截图；

步骤5，将所截图像通过人脸识别模块进行识别，输出识别结果。

如图2所示，对初始帧图像进行预处理，在YCgCr颜色空间下的建立肤色模型，对图像进行肤色检测，获得候选肤色区域，其过程如下：

1)通过如下公式将步骤1的图像序列转换到YCgCr颜色空间:

ρ(Cg，Cr)＝exp[-0.5(a-K)^TC^-1(a-K)]

其中a是肤色样本在YCgCr颜色空间中的值，K为肤色样本像素在YCgCr颜色空间中的均值，C为肤色相似度协方差矩阵，均值K和协方差矩阵C可通过以下公式求出：K＝E(a)，a＝(Cr，Cg)^T，C＝E[(a-K)(a-K)^T]，

4)对二值化处理后采用先膨胀后腐蚀的形态学操作，得到候选肤色区域。

如图3a所示，人脸自动检测跟踪算法流程图，在实现多人脸目标的跟踪以及对当前帧中新增或减少人脸的检测跟踪，必须开启多个跟踪器(MT-CamShift)，以便跟踪所有人脸信息。带有多线程机制的CamShift算法即MT-CamShift算法在执行时，可以根据跟踪对象所处的状态，将其按顺序编号并以线性表的形式维护在内存中，CamShift跟踪器及其跟踪的人脸都以编号为彼此的索引，以此实现对多人脸的跟踪。在检测跟踪过程中对比前后两帧中检测到的人脸数目判断是否出现了变化，若减少或出现新的人脸目标，更新人脸跟踪序列，如图3b为检测跟踪过程中，人脸目标更新处理流程图。

每进行一次人脸跟踪，需先进行人脸检测，再为检测到的人脸分配CamShift跟踪器，实现对数目更新的人脸进行跟踪，为了解决在检测上花费时间过长，失去跟踪意义，且后续跟踪算法不能及时运行，致使实时性变差的问题，本发明采用多线程机制予以解决，如图4所示，MT-CamShift多人脸跟踪算法步骤如下:

a)检测线程。如图4a所示，检测线程先于跟踪线程启动，利用AdaBoost人脸检测算法对图像中的人脸个数进行定期检测，当图像中人脸个数发生变化时，检测线程通过设置标志位等于1与跟踪线程通信。

b)跟踪线程。如图4b所示，在检测线程执行一个周期后，跟踪线程启动，控制多个CamShift跟踪器进行多人脸跟踪。每次跟踪前，跟踪线程检查检测线程中设置的标志位，并进行相应处理。

若标志位为1，则说明检测线程发现人脸个数已变化。此时跟踪线程为新增人脸分配CamShift跟踪器，释放离开人脸的CamShift跟踪器，并根据检测线程的最新结果重新确定跟踪窗口的初始位置，最后清零标志位。

若标志位为0，则说明检测线程尚未发现人脸个数的变化。此时跟踪线程不改变之前CamShift跟踪器个数，并继续以上次的跟踪结果作为本次跟踪的初始位置完成跟踪。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种面向大型直播场景的多人特写实时识别与自动截图方法，其特征在于，

具体步骤如下：

步骤4中，人脸大小评估方法如下：

若Q₁在区间[0.05,0.5]之间，则标记为1，否则标记为0；

步骤4中，所述人脸清晰度评估方法为：

1)首先计算人脸区域边缘清晰度指标：

其中，α是边缘点数目占当前视频帧图像的比例；

2)然后计算灰度统计信息的清晰度指标：

其中，

表示Canny边缘检测后当前视频帧图像灰度的平均值，即

M×N表示当前视频帧图像总像素个数，M为横向像素个数，N为纵向像素个数；3)最后，将p和η两个指标进行融合，可得最终的人脸有效区域清晰度指标Q₂＝0.5(p+η)；

4)根据实际的视频情况，自主设定阈值T，若Q₂的值大于T认为是清晰人脸记为1，否则认为是模糊人脸记为0；

步骤4中，所述人脸位置的评估方法如下：

步骤5，通过对L个01序列进行判断，进而选取符合截图标准的视频帧图像截图；步骤5的截图标准判断规则如下：

4)当L为偶数时，若至少有L/2个人脸的序列号为111，则截图，否则舍弃；

2.根据权利要求1中所述的一种面向大型直播场景的多人特写实时识别与自动截图方法，其特征在于，步骤2中Adaboost算法，用正负人脸样本训练基于Haar-like特征的强分类器，并将强分类器串联成级联分类器，实现快速实时的人脸检测。

3.根据权利要求1中所述的一种面向大型直播场景的多人特写实时识别与自动截图方法，其特征在于，步骤3为CamShift动态人脸检测跟踪进程开设两个线程，分别为检测线程和跟踪线程，降低检测时间，提高跟踪实时性。

4.根据权利要求3中所述的一种面向大型直播场景的多人特写实时识别与自动截图方法，其特征在于，检测线程首先启动，负责定期检测图像中人脸，确定人脸个数是否变化及变化后的人脸初始位置，跟踪线程负责根据检测线程提供的最新检测结果进行多人脸的CamShift实时跟踪。

5.根据权利要求1中所述的一种面向大型直播场景的多人特写实时识别与自动截图方法，其特征在于，步骤1中，对初始帧图像进行预处理，在YCgCr颜色空间下的建立肤色模型，对图像进行肤色检测，获得候选肤色区域，其过程如下：

1)通过如下公式将步骤1的图像序列转换到YCgCr颜色空间:

ρ(Cg，Cr)＝exp[-0.5(a-K)^TC^-1(a-K)]；

肤色高斯模型中均值K和协方差矩阵C一般取值为：K＝[116.09 148.7319]^T；

6.根据权利要求1中所述的一种面向大型直播场景的多人特写实时识别与自动截图方法，其特征在于，带有多线程机制的CamShift算法步骤如下: