CN114339398A

CN114339398A - 一种在大型视频直播中实时特效处理的方法

Info

Publication number: CN114339398A
Application number: CN202111600706.8A
Authority: CN
Inventors: 宫苏辉; 肖伟; 冯振华
Original assignee: E Surfing Video Media Co Ltd
Current assignee: E Surfing Video Media Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本发明涉及一种在大型视频直播中实时特效处理的方法，视频流接入，先送入深度卷积网络对人脸进行识别，获得脸部缩略图；检测出人脸采用了卡尔曼滤波，在视频中同时检测和跟踪人脸并输出坐标；使用可调节效果的模糊模型对跟踪人脸根据坐标处理脸部缩略图；通过已训练模型获得特征标签，使用标签提取ip数据库中的最大匹配项，调用faceswap模块进行人脸替换覆盖，最终产生新的视频流。在大型多人出镜类直播视频中实现人脸检测、人脸追踪、人脸马赛克，替换流畅、用时短，在GPU配置下可以实现几乎实时的效果；结合现有ip资源，按照原始人脸数据的特征自动替换成热门ip的脸部特效，更有吸引力，实现双向引流、资源整合。

Description

一种在大型视频直播中实时特效处理的方法

技术领域

本发明涉及一种视频直播技术，特别涉及一种在大型视频直播中实时特效处理的方法。

背景技术

现在，视频直播业务正处在急剧扩张的过程中，在直播过程中许多普通人在视频直播中被曝光，导致个人隐私泄露，个人隐私保护也逐渐得到大众的关注。视频直播受到欢迎，是场面更贴近生活和大众，如何兼顾个人隐身和视频效果是需要解决的问题。

现有技术人脸处理耗时长，有些初始需要手动调节再进行跟踪马赛克处理，一些添加滤镜的聊天app等由于屏幕中人脸有限，可以达到实时效果，而在大型直播中，经常出现人群聚集，现有技术没有覆盖这一领域。

发明内容

针对视频直播个人隐私保护问题，提出了一种在大型视频直播中实时特效处理的方法，在维持直播质量不变的前提条件下，尽可能的保护直播中个人隐私、提升可观看性。

本发明的技术方案为：一种在大型视频直播中实时特效处理的方法，视频流接入，先送入深度卷积网络对人脸进行识别，获得脸部缩略图；检测出人脸送卷积网络模型，并采用了卡尔曼滤波，在视频中同时检测和跟踪人脸并输出坐标；使用可调节效果的模糊模型对跟踪人脸根据坐标处理脸部缩略图；通过已训练模型获得特征标签，使用标签提取ip数据库中的最大匹配项，调用faceswap模块进行人脸替换覆盖，最终产生新的视频流。

进一步，所述深度卷积网络选用dlib模型进行目标识别。

进一步，所述已训练模型获得特征标签具体方法：通过建立一个三层卷积、池化，二层卷积的神经网络，其中：一层使用7*7滤波器，步长4，输出96个滤波器；通过学习已标记人种、年龄、性别特征的数据库，对模型进行训练，验证集准确率超过90％为合格训练模型。

进一步，所述已训练模型所用数据还包括在不同光照、不同场景的数据。

进一步，所述在人脸替换时使用Delaunay三件剖分面部时，仅提取保留轮廓数据。

进一步，所述人脸替换提取眼鼻口特征点，将脸部微分至极小三角形，再使用Seamless Cloning函数仿射到需要处理的面部。

本发明的有益效果在于：本发明在大型视频直播中实时特效处理的方法，在大型多人出镜类直播视频中实现人脸检测、人脸追踪、人脸马赛克，替换流畅、用时短，在GPU配置下可以实现几乎实时的效果；结合现有ip资源，按照原始人脸数据的特征(年龄，性别等)自动替换成热门ip的脸部特效，更有吸引力，实现双向引流、资源整合。适用场景多，可移植性强，观看效果佳，用户体验好。

附图说明

图1为本发明在大型视频直播中实时特效处理的方法示意图；

图2为本发明人脸识别脸部缩略产生示意图；

图3为本发明方法在视频直播中产生的效果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

视频流接入后，先使用深度卷积网络来获得脸部缩略图，区别与市面上多用的opencv等模型，使用更轻量更快的dlib模型进行目标识别；一旦检测出人脸，使用卡曼滤波追踪并输出坐标；使用可调节效果的模糊模型根据坐标处理脸部缩略图；通过建立一个三层卷积、池化，二层卷积的神经网络，其中：一层使用(7*7)滤波器，步长4，输出96个滤波器；通过学习已标记人种、年龄、性别等特征的数据库，达到验证集准确率超过90％；使用已训练模型获得特征标签，使用标签提取ip数据库中的最大匹配项，调用faceswap模块进行人脸替换覆盖，最终产生新的视频流。如图1所示在大型视频直播中实时特效处理的方法示意图。

如图2所示人脸识别脸部缩略产生示意图，使用深度卷积网络中机器学习方法找出脸部眼部坐标，模型筛选标准为高速，低配置，高检测率(在人工标记的试验视频中达到超过百分之九十实际检测率)。

在已有ip中选取热门人物的面部特征，不止记录例如：眼鼻口等特征点，将脸部微分至极小三角形，再使用Seamless Cloning函数仿射到需要处理的面部(直播中的人脸)。既保护了个人隐私，也给观众带来更有趣味的观看体验。

模糊技术是一项成熟的技术，在方法中可直接调用，但是在实际运用中比特效面更耗时，计算量更大。本发明方法采用经典的高斯模糊法，考虑到计算量大带来的延迟，会适当提示观众特效效果更优。

特效面具效果改进了，常见人脸替换(face swap)技术，区别于这个已经成熟的技术需要提取几十个人脸特征点，本发明方法在使用Delaunay三件剖分面部时，仅提取保留轮廓数据。大幅提升了速度。在训练模型时，考虑到平时的运用场景，主要准备了在不同光照，不同场景的数据。尽可能减少了因为颜色差别、灯光等问题造成轮廓提取失败或者不准确的问题。图3为本发明方法在视频直播中产生的效果图。

人脸追踪技术采用了卷积网络模型，采用了卡尔曼滤波，构建了一个损失函数，在试验视频中同时检测和跟踪，相互验证，再通过反复测算预测值和误差，调整参数以减小噪声。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种在大型视频直播中实时特效处理的方法，其特征在于，视频流接入，先送入深度卷积网络对人脸进行识别，获得脸部缩略图；检测出人脸送卷积网络模型，并采用了卡尔曼滤波，在视频中同时检测和跟踪人脸并输出坐标；使用可调节效果的模糊模型对跟踪人脸根据坐标处理脸部缩略图；通过已训练模型获得特征标签，使用标签提取ip数据库中的最大匹配项，调用faceswap模块进行人脸替换覆盖，最终产生新的视频流。

2.根据权利要求1所述在大型视频直播中实时特效处理的方法，其特征在于，所述深度卷积网络选用dlib模型进行目标识别。

3.根据权利要求1所述在大型视频直播中实时特效处理的方法，其特征在于，所述已训练模型获得特征标签具体方法：通过建立一个三层卷积、池化，二层卷积的神经网络，其中：一层使用7*7滤波器，步长4，输出96个滤波器；通过学习已标记人种、年龄、性别特征的数据库，对模型进行训练，验证集准确率超过90％为合格训练模型。

4.根据权利要求3所述在大型视频直播中实时特效处理的方法，其特征在于，所述已训练模型所用数据还包括在不同光照、不同场景的数据。

5.根据权利要求4所述在大型视频直播中实时特效处理的方法，其特征在于，所述在人脸替换时使用Delaunay三件剖分面部时，仅提取保留轮廓数据。

6.根据权利要求1所述在大型视频直播中实时特效处理的方法，其特征在于，所述人脸替换提取眼鼻口特征点，将脸部微分至极小三角形，再使用Seamless Cloning函数仿射到需要处理的面部。