CN109905757A

CN109905757A - 通过人脸识别控制视频字幕播出的方法

Info

Publication number: CN109905757A
Application number: CN201910113071.5A
Authority: CN
Inventors: 王骏; 朱祝华
Original assignee: ANHUI LTECH Co Ltd
Current assignee: ANHUI LTECH Co Ltd
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2019-06-18

Abstract

一种通过人脸识别控制视频字幕播出的方法，可自动变换字幕播出方式和游动位置，大幅减少字幕、游动等遮挡住播放画面中的重要信息尤其是人像。包括以下步骤，实时获取视频播出信号的每个视频帧；检测出所述视频帧中的每个人脸信息；将所检测出的人脸信息与预先设置的人脸样本库进行比对；如果识别出指定的人物，则关闭字幕播出，如果没有识别到指定的人物，则按照正常方式播出。本发明能够实现实时智能控制在线字幕的播出，实现挂角、游走、滚屏、弹幕等字幕信息避让关键画面，极大提高电视台的播出安全性。

Description

通过人脸识别控制视频字幕播出的方法

技术领域

本发明涉及视频字幕控制领域，具体涉及一种通过人脸识别控制视频字幕播出的方法。

背景技术

电视字幕作为电视节目表意、传递信息的工具,如今不但是美化电视屏幕的重要手段,还是电视媒介用于传播信息，与观众交流沟通的桥梁。

早在2005年3月，广电总局就下发了《广电总局关于加强电视节目字幕播出管理的通知》，字幕播出的重要性不言而喻，传统的字幕播出控制一般分为单机版的字幕机和基于数据库的网络版的字幕播出控制系统。单机版的字幕机，这种单机版的字幕机，每个频道至少需要有一台自己的字幕机，一般频道之间的字幕机只是做了共享目录，互相拷贝一下文件，没有把他们做成一个共享的系统，资源共享性差，使用起来不方便，尤其当一些角标、游动字幕需要同时在多个频道播出时，非常麻烦。基于数据库的网络版的字幕播出控制系统，一般将全台字幕系统联网，组建一个以数据库服务器为核心，集中频道三维包装制作、网络字幕播出服务器等一起的系统。网络字幕播出系统数据库服务器和播出工作站主要部署在播出系统内，由播出部技术人员进行日常维护。

上述网络字幕播出系统解决了共享问题，但是存在两个问题：

(1)技术人员如果工作繁忙难免稍有疏漏，比如字幕上错或者字幕、游动等遮挡住了画面上的重要人员；

(2)播出之前的测试是正常的，但是当实际播出画面和测试时的画面不一致或者说画面中的主要场景不一致的情况下，游标、字幕是可能遮挡住重要信息的比如走动的人员。

发明内容

本发明提出的一种通过人脸识别控制视频字幕播出的方法，可克服现有技术的不足，可自动变换字幕播出方式和游动位置，大幅减少字幕、游动等遮挡住播放画面中的重要信息尤其是人像。

为实现上述目的，本发明采用了以下技术方案：

一种通过人脸识别控制视频字幕播出的方法，包括实时获取视频播出信号的每个视频帧；

检测出所述视频帧中的每个人脸信息；

将所检测出的人脸信息与预先设置的人脸样本库进行比对；

如果识别出指定的人物，则关闭字幕播出，如果没有识别到指定的人物，则按照设定方式播出。

进一步的，实时获取视频播出信号，包括本地视频和视频流的每个视频帧；

进一步的，所述检测出所述视频帧中的每个人脸信息，具体为基于人脸识别算法，检测到视频帧中的所有人脸信息并进行保存。

进一步的，所述检测出所述视频帧中的每个人脸信息，具体为：

将人脸从视频帧的图像背景中检测出来；

采用基于特征脸的主成分分析法，根据一组人脸训练样本构造主元子空间，检测时，将测试图像投影到主元空间上，得到一组投影系数，再和各已知的人脸图像模式比较，从而得到检测结果。

由上述技术方案可知，本发明公开了一种通过人脸识别技术来控制在线字幕播出的方法，通过在线字幕播出软件实时获取视频播出信号的每个视频帧；检测出视频中的每个人脸信息；将检测出的人脸信息与系统中的人脸样本库进行比对；如果识别出指定的人物，则关闭字幕播出，如果没有识别到指定的人物，则不做处理。采用本发明方法，能够实现实时智能控制在线字幕的播出，实现挂角、游走、滚屏、弹幕等字幕信息避让关键画面，极大提高电视台的播出安全性。

附图说明

图1是本发明的方法流程示意图；

图2是本发明在线字幕播出处理的流程图；

图3是对特征脸的应用说明示意图；

图4是EigenFace的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1和图2所示，本实施例所述的通过人脸识别控制视频字幕播出的方法，包括以下步骤：

S101、实时获取视频播出信号的每个视频帧；

具体为，基于视频关键帧技术，通过在线字幕播出软件/系统实时获取视频信号的每个视频帧，该视频信号可以是本地的视频文件也可以通过NDI/SDI输入的其他视频流，在视频文件/视频流送到播出软件之前进行截取视频帧；

S102、检测出上述视频帧中的每个人脸信息；

具体为基于人脸识别算法，检测到视频帧中的所有人脸信息并进行保存；

人脸检测，检测出所述视频帧中的每个人脸信息以及位置。

寻找人脸图像分布的基本元素，即人脸图像样本集协方差矩阵的特征向量，以此近似地表征人脸图像。这些特征向量称为特征脸(Eigenface)。实际上，特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系。将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇，统称特征子脸。特征子脸在相应的图像空间中生成子空间，称为子脸空间。计算出测试图像窗口在子脸空间的投影距离，若窗口图像满足阈值比较条件，则判断其为人脸。

具体过程为：EigenFace是一种基于统计特征的方法，将人脸图像视为随机向量，并用统计方法辨别不同人脸特征模式。EigenFace的基本思想是，从统计的观点，寻找人脸图像分布的基本元素，即人脸图像样本集协方差矩阵的特征向量，以此近似的表征人脸图像，这些特征向量称为特脸，图4是EigenFace的工作流程示意图。

图3对特征脸的应用进行了说明。从下图可以看出，一组特征脸基图像(特征脸1～d)组成一个特征脸子空间，任何一幅人脸图象(减去平均人脸后)都可投影到该子空间，得到一个权值向量(§1～d)。计算此向量和训练集中每个人的权值向量之间的欧式距离，取最小距离所对应的人脸图像的身份作为测试人脸图像的身份。而这里所提到的一组特征脸基图像(也就是特征脸，或者叫特征向量)，正是利用PCA所求得的协方差矩阵的特征向量。

S103、将检测出的人脸信息与人脸样本库进行比对；

具体为提取步骤S102中人脸信息中的特征点(几十个)；

将所提取的人脸信息的特征点和内置的人脸信息样本库进行比对；

人脸识别(Face Recognize)

采用基于特征脸的主成分分析法(PCA)，根据一组人脸训练样本构造主元子空间，检测时，将测试图像投影到主元空间上，得到一组投影系数，再和各已知的人脸图像模式比较，从而得到检测结果。

具体算法为

1、在需要判定的人脸集合上先求得K个特征向量，将这个人脸在k个特征向量上做投影，得到k维的列向量或者行向量，然后和已有的投影求得欧式距离，根据阈值来判断是否匹配；

2、考虑一张新的人脸，我们可以用特征脸对其进行标示；

其中k＝1，2...M，对于第k个特征脸uk，上式可以计算其对应的权重，M个权重可以构成一个向量；

Ω^T＝[ω₁，ω₂，.......，ω_M] (2)

3、ε_k＝||Ω-Ω_k||² (3)

其中Ω代表要判别的人脸，Ωk代表训练集内的某个人脸，两者都是通过特征脸的权重来表示的。式(3)是对两者求欧式距离，当距离小于阈值时说明要判别的脸和训练集内的第k个脸是同一个人的。当遍历所有训练集都大于阈值时，根据距离值的大小又可分为是新的人脸或者不是人脸的两种情况。根据训练集的不同，阈值设定并不是固定的。

S104、如果识别出指定的人物，则关闭字幕播出，如果没有识别到指定的人物，则按照正常方式播出。

具体为如果步骤S103中检测出人脸信息特征点与预先设置吻合的人脸信息，则根据内置的模板(可以自定义)调整字幕播出方式，比如原来字幕/游动在中间的，到这一步骤的时候直接关闭；

如果步骤S103中的没有检测出特征点吻合的人脸信息，则不做字幕特殊处理，按照设定方式播出。

以下进一步说明：

S1、基于视频关键帧技术，在线字幕播出软件/系统实时获取视频信号的每个视频帧，该视频信号可以是本地的视频文件也可以通过NDI/SDI输入的其他视频流，在视频文件/视频流送到播出软件之前进行截取视频帧；

S2、基于人脸识别算法，检测到视频帧中的所有人脸信息并进行保存；

S3、提取步骤S2中人脸信息中的特征点(几十个到几万个)；

S4、在线字幕播出系统中会有内置的人脸信息样本库；

S5、将步骤S3中人脸信息的特征点和内置的人脸信息样本库进行比对；

S6、如果步骤S5中出现特征点吻合的人脸信息，则根据内置的模板(可以自定义)调整字幕播出方式，比如原来字幕/游动在中间的，到这一步骤的时候在右下角了；

S7、如果是AR/VR的节目形式，根据节目可设置指定模板，让字幕自动顺着画面每一分钟旋转10度这样适用节目；

S8、如果步骤S5中的没有出现特征点吻合的人脸信息，则不做字幕特殊处理，按照正常方式播出。

综上可知，本实施例提供了一种可大幅减少字幕、游动等遮挡住播放画面中的重要信息尤其是人像的方法，并且对于AR/VR这种360度节目效果的支持尤其显著，可自动变换字幕播出方式和游动位置。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种通过人脸识别控制视频字幕播出的方法，其特征在于：包括以下步骤，

S100、实时获取视频播出信号的每个视频帧；

S200、检测出所述视频帧中的每个人脸信息；

S300、将所检测出的人脸信息与预先设置的人脸样本库进行比对；

S400、如果识别出指定的人物，则关闭字幕播出，如果没有识别到指定的人物，则按照设定方式播出。

2.根据权利要求1所述的通过人脸识别控制视频字幕播出的方法，其特征在于：所述步骤S100实时获取视频播出信号的每个视频帧，包括本地视频和视频流的每个视频帧。

3.根据权利要求1所述的通过人脸识别控制视频字幕播出的方法，其特征在于：所述步骤S200检测出所述视频帧中的每个人脸信息，具体为基于人脸识别算法，检测到视频帧中的所有人脸信息并进行保存。

4.根据权利要求3所述的通过人脸识别控制视频字幕播出的方法，其特征在于：所述步骤S200中检测出所述视频帧中的每个人脸信息，具体为：

将人脸从视频帧的图像背景中检测出来；

5.根据权利要求4所述的通过人脸识别控制视频字幕播出的方法，其特征在于：所述步骤S300中将所检测出的人脸信息与预先设置的人脸样本库进行比对；具体算法包括：

S201、在需要判定的人脸集合上先求得K个特征向量，将这个人脸在k个特征向量上做投影，得到k维的列向量或者行向量，然后和已有的投影求得欧式距离，根据阈值来判断是否匹配；

S202、考虑一张新的人脸，用特征脸对其进行标示；

其中k＝1,2...M,对于第k个特征脸uk，通过上式计算其对应的权重，M个权重构成一个向量；

Ω^T＝[ω₁，ω₂，.......，ω_M] (2)

S203、ε_k＝||Ω-Ω_k||² (3)

其中Ω代表要判别的人脸，Ω_k代表训练集内的某个人脸，两者都是通过特征脸的权重来表示的；

式(3)是对两者求欧式距离，当距离小于阈值时说明要判别的脸和训练集内的第k个脸是同一个人的；

当遍历所有训练集都大于阈值时，根据距离值的大小又分为是新的人脸或者不是人脸的两种情况。