CN112651310A

CN112651310A - 一种视频人物唇形检测生成的方法及装置

Info

Publication number: CN112651310A
Application number: CN202011474640.8A
Authority: CN
Inventors: 李欣
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-04-13

Abstract

本申请公开了一种视频人物唇形检测生成的方法及装置，包括：提取输入视频中的视频帧图像；基于所述视频帧图像的全局特征和局部特征，提取所述视频帧图像的面部区域和背景；利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取，生成所述视频帧图像对应的唇形生成图像；对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理；对经过滤波处理的唇形生成图像进行视频生成处理。本申请将加入阈值处理后的均值滤波平滑处理与基于深度学习的唇形特征点提取的方法相结合，基于视频的前景人物的唇形检测与生成，可广泛应用于语音识别、多媒体系统、人物识别等领域。

Description

一种视频人物唇形检测生成的方法及装置

技术领域

本申请涉及计算机视觉特征检测技术领域，特别是涉及一种视频人物唇形检测生成的方法及装置。

背景技术

唇形检测(Lip detection)技术是指输入为图片或视频，通过提取唇形特征信息，确认唇形特征点轨迹的检测，从而从图片或视频中将任务唇形检测的过程。唇形检测在语音识别、身份识别、多媒体系统等多个领域具有较高的应用价值。基于视频的唇形检测与基于图片的唇形检测不同，除了提取唇形特征外，还需要将唇形边缘重新生成视频。而这个过程，由于视频中不同帧间的差距会影响整体唇形生成的效果，如，容易出现抖动和不自然的现象。因此，如何减少帧间的相互影响，是基于视频的前景人物唇形生成中非常重要的部分。

针对视频中前景人物的唇形边缘检测的核心问题是如何在有效提取唇形关键点、唇形边缘以及唇形运动轨迹的前提下，能够减少相邻帧之间的相互影响，从而减少生成唇形边缘的视频中的抖动问题。

传统的唇形边缘提取并重新生成的方式是，对视频中的每一帧图像进行特征提取，从而获取特征点，依据特征点完成唇形边缘的再塑。这样处理的问题在于，当帧间像素点对应差距值过大时，生成的唇形轨迹视频会出现明显的抖动现象，尤其是在前景人物在不断地讲话过程。而如果对每一帧都进行平滑处理，会直接影响特征提取的效率。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种视频人物唇形检测生成的方法，包括：

提取输入视频中的视频帧图像；

基于所述视频帧图像的全局特征和局部特征，提取所述视频帧图像的面部区域和背景；

利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取，生成所述视频帧图像对应的唇形生成图像；

对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理；

对经过滤波处理的唇形生成图像进行视频生成处理。

优选地，对经过滤波处理的唇形生成图像进行视频生成处理包括：

调整经过滤波处理的唇形生成图像的唇形角度，使所述唇形平面内旋转角为零；

将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成，得到唇形视频。

优选地，对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理包括：

利用连续帧相减法计算相邻两帧视频帧图像之间的差距，当所述差距大于或者等于像素点阈值时，对所述唇形生成图像采用均值滤波处理；当所述差距小于像素点阈值时，不进行滤波处理。

优选地，采用均值滤波处理包括：

利用N×N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。

优选地，获取预设时序数据网络模型包括：

利用深度学习技术，训练得到基于特征点的时序数据网络模型。

第二方面，本发明还提供一种视频人物唇形检测生成的装置，包括：

视频图像模块，设置为提取输入视频中的视频帧图像；

面部提取模块，设置为基于所述视频帧图像的全局特征和局部特征，提取所述视频帧图像的面部区域和背景；

唇形生成模块，设置为利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取，生成所述视频帧图像对应的唇形生成图像；

滤波模块，设置为对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理；

合成模块，设置为对经过滤波处理的唇形生成图像进行视频生成处理。

优选地，所述合成模块对经过滤波处理的唇形生成图像进行视频生成处理包括：

优选地，所述滤波模块对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理包括：

优选地，所述滤波模块采用均值滤波处理包括：

优选地，所述唇形生成模块获取预设时序数据网络模型包括：

本申请的视频人物唇形检测生成的方法及装置，将加入阈值处理后的均值滤波平滑处理与基于深度学习的唇形特征点提取的方法相结合，基于视频的前景人物的唇形检测与生成，可广泛应用于语音识别、多媒体系统、人物识别等领域。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的视频人物唇形检测生成的方法的示意性流程图；

图2是根据本申请一个实施例的时序数据网络模型的结构示意图；

图3是根据本申请一个实施例的视频人物唇形检测生成的装置的结构示意图；

图4是根据本申请一个实施例的视频中提取的视频帧图像的示意图；

图5是根据本申请一个实施例的平滑处理的唇形边缘的示意图；

图6是根据本申请一个实施例的平滑处理的唇形边缘的帧间差距的示意图；其中，图6(a)为图5前面两幅图的唇形边缘的帧间差距示意图；图6(b)为图5后面两幅图的唇形边缘的帧间差距示意图；

图7是根据本申请一个实施例的视频人物唇形检测生成的流程图；

图8是根据本申请实施例的第一种计算机可读存储介质的的示意性结构框图；

图9是根据本申请实施例的第二种计算机可读存储介质的的示意性结构框图。

具体实施方式

图1是根据本申请一个实施例的视频人物唇形检测生成的方法的流程图，所述方法可以包括如下步骤：

S101、提取输入视频中的视频帧图像；

S102、基于所述视频帧图像的全局特征和局部特征，提取所述视频帧图像的面部区域和背景；

S103、利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取，生成所述视频帧图像对应的唇形生成图像；

S104、对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理；

S105、对经过滤波处理的唇形生成图像进行视频生成处理。

本发明实施例，利用深度学习技术，训练得到基于特征点的时序数据网络模型，该模型的输入是视频中的每一帧图像，而输出是该图像对应的唇形生成图像。其次，针对唇形生成图像，利用连续帧相减法计算彼此之间的差距，当差距大于阈值时，采用均值滤波处理，进而利用卷积核处理输出最终差距。如果差距小于阈值，则不进行滤波处理。最后，对滤波平滑处理后的图像进行视频生成。相对于传统的视频帧直接生成方法，本发明实施例中的视频人物唇形检测生成的方法在精度和效率均有所提升。

本发明实施例中，步骤S103中提取特征是唇形的关键点，利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取可以量化评估唇形特征。

本发明实施例中，步骤S105中，对经过滤波处理的唇形生成图像进行视频生成处理包括：

本发明实施例中，生成唇形的视频可用于虚拟主播的全脸生成，准确地唇形生成对于主播的全脸生成起着至关重要的作用。

本发明实施例中，步骤S104中，对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理包括：

本发明实施例中，提取的唇形图像的像素大小在预定的范围内时，像素点阈值可以为80000像素点。

本发明实施例中，采用均值滤波处理包括：

本发明实施例中，TCN能够完整记录时序数据信息，即：利用TCN时序时间模型能够准确记录唇形边缘的运动轨迹，但边界信息对TCN有比较大的影响，如若唇部运动幅度较大，可能会出现唇形抖动严重的现象。因此，本发明实施例中利用均值滤波的平滑处理对视频中的帧图像进行处理，将时序数据网络模型特征学习的每一帧输出进行平滑处理，改进了唇形抖动严重的问题，从实验验证了该方案提高了唇形波动的稳定性与平滑性。

本发明实施例中，步骤S103，获取预设时序数据网络模型包括：

本发明实施例中，利用时序数据网络模型(TCN，Temporal ConvolutionalNetwork)，如图2所示，TCN的Conv层与层之间是有因果关系的，即：对于历史信息或未来帧的变化，不会出现遗失的情况。因此，将TCN时序网络模型应用于前景人物视频唇形边缘的生成可以提高准确性以及生产效率。

如图3所示，本发明实施例还提供一种视频人物唇形检测生成的装置，包括：

视频图像模块100，设置为提取输入视频中的视频帧图像；

面部提取模块200，设置为基于所述视频帧图像的全局特征和局部特征，提取所述视频帧图像的面部区域和背景；

唇形生成模块300，设置为利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取，生成所述视频帧图像对应的唇形生成图像；

滤波模块400，设置为对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理；

合成模块500，设置为对经过滤波处理的唇形生成图像进行视频生成处理。

本发明实施例中，所述合成模块500对经过滤波处理的唇形生成图像进行视频生成处理包括：

本发明实施例中，所述滤波模块400对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理包括：

本发明实施例中，所述滤波模块400采用均值滤波处理包括：

本发明实施例中，所述唇形生成模块300获取预设时序数据网络模型包括：

如图4至图7所示，本发明实施例的方法基于深度学习进行唇形检测并生成，实现了视频中前景人物的唇形提取并生成新的唇形视频，具体过程如下：

1.提取输入视频为音频和图像两种格式，其中音频保留原格式。

2.基于全局特征和局部特征，将视频的每一帧图像进行处理，提取面部区域及背景。

3.根据训练得到的针对唇形特征点的时序数据网络模型，基于特征点，还原唇形的边缘，生成唇形边缘图像。

4.将第3步生成的唇形边缘图像，进行视频合成处理，在此，可以进行时间平滑处理，利用连续帧相减法，计算前后帧的误差，设定了像素点差的阈值为80000，如果帧间像素点误差小于80000，则直接进行视频合成处理；否则，进行均值滤波处理，减小帧间误差后再进行视频合成。

5.利用视频合成技术，将第1步的音频数据与生成的唇形边缘视频进行合成，得到最终的结果，即，生成唇形视频。

本申请实施例还提供了一种计算设备，参照图8，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图9，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频人物唇形检测生成的方法，包括：

提取输入视频中的视频帧图像；

对经过滤波处理的唇形生成图像进行视频生成处理。

2.根据权利要求1所述的方法，其特征在于，对经过滤波处理的唇形生成图像进行视频生成处理包括：

3.根据权利要求1或2所述的方法，其特征在于，对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理包括：

4.根据权利要求3所述的方法，其特征在于，采用均值滤波处理包括：

5.根据权利要求1所述的方法，其特征在于，获取预设时序数据网络模型包括：

6.一种视频人物唇形检测生成的装置，包括：

视频图像模块，设置为提取输入视频中的视频帧图像；

7.根据权利要求6所述的装置，其特征在于，所述合成模块对经过滤波处理的唇形生成图像进行视频生成处理包括：

8.根据权利要求6或7所述的装置，其特征在于，所述滤波模块对于所述唇形生成图像，利用连续帧相减法计算相邻两帧视频帧图像之间的差距，根据所述差距对所述唇形生成图像进行滤波处理包括：

9.根据权利要求8所述的装置，其特征在于，所述滤波模块采用均值滤波处理包括：

10.根据权利要求6所述的装置，其特征在于，所述唇形生成模块获取预设时序数据网络模型包括：