CN108491784B

CN108491784B - 面向大型直播场景的单人特写实时识别与自动截图方法

Info

Publication number: CN108491784B
Application number: CN201810222737.6A
Authority: CN
Inventors: 张晖; 杨纯
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2021-06-22
Anticipated expiration: 2038-03-16
Also published as: CN108491784A

Abstract

本发明公开了一种面向大型直播场景的单人特写实时识别与自动截图方法，具体如下：实时获取直播视频当前的视频帧图像，检测所述视频帧图像中是否存在人脸；若所述视频帧图像中存在人脸,则采用人脸检测模块获得人脸区域，然后对人脸区域进行人脸大小、清晰度、位置以及角度综合评估，进而选取最优人脸，并将含有最优人脸的当前视频帧图像进行截图保存；最后将最优人脸图像送入人脸识别模块进行识别，输出识别结果。该发明可应用在大型直播场景下对视频中的单人特写进行识别与截图，当满足截图指标时自动截图保存；同时截图指标不仅可以得到质量更佳的截图，还避免了人脸识别中产生大量的重复人脸快照而带来的后端服务器及计算工作量大的问题。

Description

面向大型直播场景的单人特写实时识别与自动截图方法

技术领域：

本发明涉及一种面向大型直播场景的单人特写实时识别与自动截图方法，属于视频图像处理技术领域技术领域。

背景技术：

在各种直播平台，比如正规大会直播或者足球直播或者大型晚会直播时，需要在一定情况下截图，对图片上的人物进行人脸识别，从而方便图文介绍。需要截图就一定要检测到人物，关键技术就是人脸检测，而传统的人脸检测由于通常是实时进行检测的，因此在检测过程中会产生大量重复的同一对象的不同人脸快照，并且质量参齐不齐，另外如果全部保存快照进行人脸识别，则会带来存储量大和人脸识别效果不佳的缺点，因此本发明为了解决这个问题，提出了一种图像质量评估方法，只有满足截图要求才会进行保存识别。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容：

本发明的目的在于提供一种识别效果好、存储量小的面向大型直播场景的单人特写实时识别与自动截图方法，从而克服上述现有技术中的缺陷。

为实现上述目的，本发明提供了一种面向大型直播场景的单人特写实时识别与自动截图方法，具体步骤如下：

步骤1，实时获取直播视频信号，对视频流中的每帧图像中值滤波后转换到YCgCr颜色空间，并建立肤色模型，对图像进行肤色检测，通过形态学处理后去除背景区域，获得候选肤色区域；

步骤2，基于步骤1的肤色检测，采用Adaboost算法训练基于Haar-like特征的人脸分类器对候选肤色区域进行人脸检测，得到人脸区域；

步骤3，采用多尺度Struck跟踪算法对步骤2检测到的人脸区域实时跟踪，并计算跟踪的人脸个数，只有当检测到的人脸个数为1时才保留当前帧图像，其余的舍弃；

步骤4，在步骤3的基础上，采用基于Haar-like特征的Adaboost算法检测人眼，并获得双眼位置坐标L(x₁,y₁)，R(x₂,y₂)，进而通过设定比例求得人脸矩形位置；

步骤5，对每个人脸区域图像进行人脸大小、清晰度、位置以及角度评估后经加权计算得到人脸图像的得分，选取得分最高的作为人脸区域图像中的最优脸；

步骤6，将含有最优脸的当前视频帧图像进行截图保存，送入人脸识别模块，输出识别结果。

本方面进一步限定的技术方案为：

优选地，上述技术方案中，步骤2中Adaboost算法，用正负人脸样本训练基于Haar-like特征的强分类器，并将强分类器串联成级联分类器，实现快速实时的人脸检测。

优选地，上述技术方案中，步骤3多尺度Struck人脸跟踪算法采用高斯核函数，并且支持向量集维数阈值取100。

优选地，上述技术方案中，步骤5所述人脸大小评估方法如下：

通过人脸区域图像面积占整幅原始自然人脸图像面积的比例进行评估，具体计算公式如下:

其中，T为设定的人脸有效区域最小面积，可根据实际情况进行设定；S_face表示人脸有效区域面积，即有效区域总像素数；S表示包含人脸图像的原始自然图像面积，即原图像总像素数。

优选地，上述技术方案中，步骤5中，所述人脸清晰度评估方法如下：

对人脸区域图像采用Canny算子进行边缘检测，再对检测结果的边缘清晰度和灰度分布情况进行分析，综合这两方面的因素获得图像清晰度指标，其公式计算如下：

1)首先计算图像边缘清晰度指标：

其中，α是边缘点数目占整幅人脸图像的比例；

2)然后计算灰度统计信息的清晰度指标：

其中，

表示Canny边缘检测后人脸图像灰度的平均值，即

，M×N表示原图像总像素个数；

3)最后，将p和η两个指标进行融合，可得最终的人脸有效区域清晰度指标Q₂＝0.5(p+η)。

优选地，上述技术方案中，步骤5中，所述人脸位置的评估方法如下：

根据双眼坐标求出脸部矩形的中心坐标(x_c，y_c)，求出归一化后的脸部矩形中心坐标(x_c，y_c)到人脸图像中心的距离d，归一化准则：使人脸图像中心到其上对角点的距离为

到其下对角点的距离为

计算人脸位置评价系数Q₃：Q₃＝1-d。

优选地，上述技术方案中，步骤5中，所述人脸角度的评估方法如下：

根据双眼坐标求出眼睛的倾斜角度

计算人脸倾斜角度评价系数

优选地，上述技术方案中，步骤5中，步骤5中，所述加权计算得到人脸区域图像的得分方法如下：

1)如果Q₁＝0，则V_score＝0，V_score是每帧图像的得分；

2)如果Q₁≠0，则V_score＝w₁Q₁+w₂Q₂+w₃Q₃+w₄Q₄，其中w₁+w₂+w₃+w₄＝100；

上述权重系数w₁＝25，w₂＝30，w₃＝30，w₄＝15。

优选地，上述技术方案中，步骤1具体为：

对每帧图像进行预处理，在YCgCr颜色空间下的建立肤色模型，对图像进行肤色检测，获得候选肤色区域，其过程如下：

1)通过如下公式将步骤1的图像序列转换到YCgCr颜色空间：

2)皮肤颜色在YCgCr颜色空间呈高斯分布，建立高斯肤色模型，获得灰度图像，其中高斯分布函数ρ(Cg，Cr)表达式为：

ρ(Cg，Cr)＝exp[-0.5(a-K)^TC^-1(a-K)]，

其中a是肤色样本在YCgCr颜色空间中的值，K为肤色样本像素在YCgCr颜色空间中的均值，C为肤色相似度协方差矩阵，均值K和协方差矩阵C可通过以下公式求出：K＝E(a)，a＝(Cr，Cg)^T，C＝E[(a-K) (a-K)^T]，肤色高斯模型中均值K和协方差矩阵C一般取值为：K＝[116.09 148.7319]^T；

3)按照一定阈值对灰度图像进行二值化操作，大于阈值的像素点置为1表示肤色区域，小于阈值的像素点置为0表示非肤色区域；

4)对二值化处理后采用先膨胀后腐蚀的形态学操作，得到候选肤色区域。

优选地，上述技术方案中，步骤4中，通过双眼位置坐标可以统计比例，求得人脸矩形位置，其中h，t，b为人脸矩形与人眼距离的比例关系，h＝0.64，t＝0.43，b＝1.85，D为双眼的距离。

与现有技术相比，本发明具有如下有益效果：

本发明采用以上技术方案与现有技术相比，具有以下技术效果：通过对视频帧图像人脸检测获得人脸区域图像，并对人脸进行人脸大小，位置，清晰度等方面进行评估，只有符合质量要求的图像才予以截图，保证了截图的质量，提高了人脸识别的效果，解决了以往视频人脸识别产生大量重复快照而导致后端服务器的存储及计算工作量大的问题，降低了系统处理的复杂性。

附图说明：

图1为本发明的单人特写实时识别与自动截图的流程图；

图2为本发明的人脸检测流程图；

图3为本发明人脸矩形示意图。

具体实施方式：

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

实时获取直播视频当前的视频帧图像，检测所述视频帧图像中是否存在人脸；若所述视频帧图像中存在人脸,则采用人脸检测模块获得人脸区域，然后对人脸区域进行人脸大小、清晰度、位置以及角度综合评估，进而选取最优人脸；将含有最优人脸的当前视频帧图像截图保存，送入人脸识别模块识别，输出识别结果。该发明可应用与各种大型直播场景下，对视频中出现的单人特写进行识别与截图，当满足截图指标时自动截图保存，方便配图讲解。同时截图指标的设置不仅让所截图像的质量更佳，而且避免了人脸识别中产生大量的重复人脸快照而带来的后端服务器及计算工作量大的问题。如图1所示，本发明一种面向大型直播场景的单人特写实时识别与自动截图方法的流程图，主要包括以下步骤：

步骤1，采集视频进行人脸检测，具体详见图2；

步骤2，对检测到的人脸区域进行人脸跟踪，跟踪算法详见图3；

步骤3，对跟踪到的图像检测人眼，获得人眼位置坐标，通过设定比例求得人脸矩形位置；

步骤4，对每个人脸区域图像进行人脸大小、清晰度、位置以及角度评估后经加权计算得到人脸图像的得分，选取得分最高的作为人脸区域图像中的最优脸；

所述人脸大小评估方法如下：

所述人脸清晰度评估方法为：

1)首先计算图像边缘清晰度指标：

其中，α是边缘点数目占整幅人脸图像的比例。

2)然后计算灰度统计信息的清晰度指标：

其中，

表示Canny边缘检测后人脸图像灰度的平均值，即

，M×N表示原图像总像素个数。

所述人脸位置的评估方法如下：

到其下对角点的距离为

计算人脸位置评价系数Q₃：Q₃＝1-d。

所述人脸角度的评估方法如下：

根据双眼坐标求出眼睛的倾斜角度

计算人脸倾斜角度评价系数

加权计算得到人脸区域图像的得分方法如下：

1)如果Q₁＝0，则V_score＝0，V_score是每帧图像的得分；

2)如果Q₁≠0，则V_score＝w₁Q₁+w₂Q₂+w₃Q₃+w₄Q₄，其中w₁+w₂+w₃+w₄＝100。

上述权重系数w₁＝25，w₂＝30，w₃＝30，w₄＝15。

步骤5，将含有最优脸的当前视频帧图像进行截图保存，通过人脸识别模块识别最优脸图像，输出识别结果。

如图2所示，对每帧图像进行预处理，在YCgCr颜色空间下的建立肤色模型，对图像进行肤色检测，获得候选肤色区域，其过程如下：

1)通过如下公式将步骤1的图像序列转换到YCgCr颜色空间：

ρ(Cg，Cr)＝exp[-0.5(a-K)^TC^-1(a-K)]，

其中a是肤色样本在YCgCr颜色空间中的值，K为肤色样本像素在YCgCr颜色空间中的均值，C为肤色相似度协方差矩阵，均值K和协方差矩阵C可通过以下公式求出：K＝E(a)，a＝(Cr，Cg)^T，C＝E[(a-K) (a-K)^T]，

肤色高斯模型中均值K和协方差矩阵C一般取值为：K＝[116.09 148.7319]^T；

如图3所示，通过双眼位置坐标可以统计比例，求得人脸矩形位置，其中h，t，b为人脸矩形与人眼距离的比例关系，h＝0.64，t＝0.43，b＝1.85，D为双眼的距离。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。