CN115767202A

CN115767202A - 虚拟人物视频生成的唇语同步优化方法和系统

Info

Publication number: CN115767202A
Application number: CN202211403806.6A
Authority: CN
Inventors: 舒毓倩
Original assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Current assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-03-07

Abstract

本发明提供了一种虚拟人物视频生成的唇语同步优化方法和系统，包括：获取针对用户请求的回答内容的语音数据；根据所述回答内容的语音数据，生成不包含唇语同步部分的低分辨率肖像视频；根据所述回答内容的语音数据、所述低分辨率肖像视频，生成高分辨率唇语同步部分视频；将所述低分辨率肖像视频的分辨率调整为与所述高分辨率唇语同步部分视频一致，然后与所述高分辨率唇语同步部分视频进行拼接，形成虚拟人形象视频。本发明能够实现优化虚拟人物视频唇部动作，达到视频、音频协调一致，并利用自适应裁剪方法与3D人脸的重建渲染方法对视频中的唇语部分单独处理，使得虚拟人视频生成的时间得以大大缩减的同时又保证了整体虚拟人视频的质量。

Description

虚拟人物视频生成的唇语同步优化方法和系统

技术领域

本发明涉及，具体地，涉及虚拟人物视频生成的唇语同步优化方法。

本发明涉及深度神经网络、意图识别、多模态、视频生成、流程机器人等领域，更具体的说是一种虚拟人物视频生成的唇语同步优化方法。

背景技术

随着信息技术、计算机技术以及人工智能技术的不断发展，元宇宙逐渐被人熟知。然而现有元宇宙虚拟人物没有考虑到视频的细节特征，比如唇语同步，导致其形象存在着脸谱化、机械化的问题。唇语的视频细节与声音不同步会降低视频质量，还会削弱人类对虚拟人的信任程度。当前业界主流的办法包括两类：第一类是语音驱动的3D虚拟人模型(AudioDVP)，第一类模型存在录制成本高、可拓展性低的问题。第二类是2D的语音-口型联合生成模型(Wav2lip)。第二类模型存在视频清晰度低、生成的视频质量差的问题。这些现有技术需要投入大量人力和时间才能达到逼真、拟人的效果。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种虚拟人物视频生成的唇语同步优化方法和系统。

根据本发明提供的一种虚拟人物视频生成的唇语同步优化方法，包括：

语音数据获取步骤：获取针对用户请求的回答内容的语音数据；

低分辨率视频生成步骤：根据所述回答内容的语音数据，生成不包含唇语同步部分的低分辨率肖像视频；

高分辨率视频生成步骤：根据所述回答内容的语音数据、所述低分辨率肖像视频，生成高分辨率唇语同步部分视频；

视频拼接步骤：将所述低分辨率肖像视频的分辨率调整为与所述高分辨率唇语同步部分视频一致，然后与所述高分辨率唇语同步部分视频进行拼接，形成虚拟人形象视频。

优选地，还包括：

审核步骤：对低分辨率肖像视频、高分辨率唇语同步部分视频进行内容审核，若满足审核条件，则触发视频拼接步骤进行视频的拼接。

优选地，还包括：

虚拟人展示步骤：将虚拟人形象视频，以及与虚拟人形象视频匹配的文本、语音作为三种模态展示给观看者，其中，文本数据与语音数据保持相同的语意信息，虚拟人形象视频中的唇语动作和语音数据保持动态协调。

优选地，所述回答内容为对用户请求的语音数据进行意图识别得到的问题所预先存储的匹配的内容；对唇语同步部分单独进行自适应裁剪与3D重建渲染。

根据本发明提供的一种虚拟人物视频生成的唇语同步优化系统，包括：

语音数据获取模块：获取针对用户请求的回答内容的语音数据；

低分辨率视频生成模块：根据所述回答内容的语音数据，生成不包含唇语同步部分的低分辨率肖像视频；

高分辨率视频生成模块：根据所述回答内容的语音数据、所述低分辨率肖像视频，生成高分辨率唇语同步部分视频；

视频拼接模块：将所述低分辨率肖像视频的分辨率调整为与所述高分辨率唇语同步部分视频一致，然后与所述高分辨率唇语同步部分视频进行拼接，形成虚拟人形象视频。

优选地，还包括：

审核模块：对低分辨率肖像视频、高分辨率唇语同步部分视频进行内容审核，若满足审核条件，则触发视频拼接模块进行视频的拼接。

优选地，还包括：

虚拟人展示模块：将虚拟人形象视频，以及与虚拟人形象视频匹配的文本、语音作为三种模态展示给观看者，其中，文本数据与语音数据保持相同的语意信息，虚拟人形象视频中的唇语动作和语音数据保持动态协调。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现所述的虚拟人物视频生成的唇语同步方法的步骤。

根据本发明提供的一种电子设备，包括存储器、处理器以及存储在存储器上可在处理器上运行的计算机程序，所述计算机程序被处理器执行时实现所述的虚拟人物视频生成的唇语同步方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明能够实现优化虚拟人物视频唇部动作，达到视频、音频协调一致，保证了视频质量。

2、本发明利用自适应裁剪方法与3D人脸的重建渲染方法对视频中的唇语部分单独处理，使得虚拟人视频生成的时间得以大大缩减的同时又保证了整体虚拟人视频的质量。

3、本发明利用智能流程机器人的特性，实现全流程不间断的自动化操作，节约人力成本且通用性高，又能避免人为操作失误。

4、本发明考虑到生成视频是否包含敏感信息或令人不适的画面所导致的对生成画面控制，在尤其要求安全可靠的高风险行业，如银行柜台应用的时候会造成不可靠不可控的负面影响，因此对视频进行风控检验，从而使得虚拟人视频在银行业界等实际应用的时候达到了安全可靠、风险可控的要求。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明虚拟人物视频生成的唇语同步优化方法的流程步骤示意图的第一局部图。

图2为本发明虚拟人物视频生成的唇语同步优化方法的流程步骤示意图的第二局部图。

图3为本发明虚拟人物视频生成的唇语同步优化方法的流程步骤示意图的第三局部图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实例的目的在于克服现有技术的不足，提供一种虚拟人物视频生成的唇语同步优化方法，该方法可以实现优化虚拟人物视频唇部动作，达到视频、音频协调一致；同时使用自适应裁剪的方法，对优化部分单独处理，大幅减少视频生成时间，同时保证视频质量；利用智能流程机器人的特性，实现全流程不间断的自动化操作，节约人力成本且通用性高，又能避免人为操作失误。

如图1、图2、图3所述，根据本发明提供的一种虚拟人物视频生成的唇语同步优化方法，包括：

步骤S1：启动流程机器人主程序，初始化参数；

步骤S2：在步骤S1的基础之上，流程机器人获取用户交互数据，从用户交互数据中获取用户请求的语音数据。

步骤S3：流程机器人调用步骤S2中收集到的用户请求的语音数据作为输入，对语音数据进行意图识别，该意图识别算法基于深度神经网络(Deep Neural Network)的分类算法(长短时记忆模块：Long-Short Term Memory,LSTM)实现，以此筛选与当前用户的用户请求适配的回答内容作为输出数据。

步骤S4：流程机器人对步骤S3的自动意图识别的输出数据，判断是否属于当前可处理的类别，如果满足条件可以处理，则执行步骤S5，如果不满足则进入步骤S14。

步骤S5：流程机器人根据用户意图对应找到所述回答内容，其中，所述回答内容为预先存储在流程机器人存储器中的语音数据和文本数据，其中，语音数据将作为多模态虚拟人的输入数据。

步骤S6：流程机器人调用步骤S5中得到的回答内容的语音数据，传递给多模态虚拟人的形象生成器作为输入数据。该形象生成器的算法部分可以由一种逼真的音频驱动视频肖像算法(AudioDVP)实现，该算法的输入为流程机器人从步骤S5返回的回答内容的语音数据，输出数据为一段分辨率为256*256，时长不超过3分钟的带有虚拟人形象(不包含唇语同步功能)的低分辨率视频数据。

步骤S7：在步骤S6后，流程机器人进入视频查验环节，假如多模态虚拟人的形象生成器生成出的视频满足审核条件，则执行步骤S8，否则如果视频包含暴力、血腥等不良信息将进入步骤S14。

步骤S8：流程机器人将步骤S5返回的回答内容的语音数据与步骤S6输出的低分辨率视频数据共同作为输入数据，通过以声音到唇语(Wav2Lip)改进的一种声音-表达(A2E)网络执行多模态虚拟人的视频唇语优化操作。该程序的输出为一段带有唇语同步功能的高分辨率视频(唇语同步部分)(1024*1024)，时长不超过3分钟，视频支持的格式为mkv、mp4、avi、mov、wmv等格式。

步骤S9：在步骤S8后，流程机器人进入视频查验环节，假如多模态虚拟人生成器生成出的视频满足审核条件，则执行步骤S10，否则如果视频质量不合格将进入步骤S14。

步骤S10：步骤S6中生成的不含唇语同步部分的低分辨率视频将经过3D人脸模型重建和渲染模块的优化，形成与步骤S8输出的相同分辨率的视频。随后，步骤S8的视频输出(唇语同步部分)的视频将与步骤S6经过优化侯的输出进行拼接，形成最终的虚拟人形象视频。

步骤S11：流程机器人将通过流程步骤S5中流程机器人存储器中获取的文本数据制作多模态虚拟人视频展示字幕，该视频展示字幕将和流程步骤S10中输出的视频共同作为输出。

步骤S12：流程机器人启动多模态虚拟人展示界面，多模态虚拟人将步骤S11中结合语音、文本、视频的三种模态的输出展示给用户，其中语音数据将和文本数据保持相同的语意信息，视频数据中的唇语动作和语音数据保持动态协调。

步骤S13：流程机器人展示多模态虚拟人视频结束后，由用户对流程体验进行评价，评价分数为1-5内的整数评分。

步骤S14：流程机器人对包括：用户意图识别失败、视频审核不通过等情况，分别在指定文件内记录工单号、失败时间、失败原因等信息；

步骤S15：流程机器人完成工作后，整理多模态虚拟人服务结果，多模态虚拟人服务流程结束。

本发明还提供一种虚拟人物视频生成的唇语同步优化系统，可以通过执行所述虚拟人物视频生成的唇语同步优化方法的步骤流程实现所述虚拟人物视频生成的唇语同步优化系统，即本领域技术人员可以将所述虚拟人物视频生成的唇语同步优化方法理解为所述虚拟人物视频生成的唇语同步优化系统的优选实施方式。具体地，根据本发明提供的一种虚拟人物视频生成的唇语同步优化系统，包括：

视频拼接模块：将所述低分辨率肖像视频的分辨率调整为与所述高分辨率唇语同步部分视频一致，然后与所述高分辨率唇语同步部分视频进行拼接，形成虚拟人形象视频；

审核模块：对低分辨率肖像视频、高分辨率唇语同步部分视频进行内容审核，若满足审核条件，则触发视频拼接模块进行视频的拼接；

虚拟人展示模块：将虚拟人形象视频，以及与虚拟人形象视频匹配的文本、语音作为三种模态展示给观看者，其中，文本数据与语音数据保持相同的语意信息，虚拟人形象视频中的唇语动作和语音数据保持动态协调。所述回答内容为对用户请求的语音数据进行意图识别得到的问题所预先存储的匹配的内容；对唇语同步部分单独进行自适应裁剪与3D重建渲染。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种虚拟人物视频生成的唇语同步优化方法，其特征在于，包括：

2.根据权利要求1所述的虚拟人物视频生成的唇语同步优化方法，其特征在于，还包括：

3.根据权利要求1所述的虚拟人物视频生成的唇语同步优化方法，其特征在于，还包括：

4.根据权利要求1所述的虚拟人物视频生成的唇语同步优化方法，其特征在于，所述回答内容为对用户请求的语音数据进行意图识别得到的问题所预先存储的匹配的内容；对唇语同步部分单独进行自适应裁剪与3D重建渲染。

5.一种虚拟人物视频生成的唇语同步优化系统，其特征在于，包括：

6.根据权利要求5所述的虚拟人物视频生成的唇语同步优化系统，其特征在于，还包括：

7.根据权利要求5所述的虚拟人物视频生成的唇语同步优化系统，其特征在于，还包括：

8.根据权利要求5所述的虚拟人物视频生成的唇语同步优化系统，其特征在于，所述回答内容为对用户请求的语音数据进行意图识别得到的问题所预先存储的匹配的内容；对唇语同步部分单独进行自适应裁剪与3D重建渲染。

9.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的虚拟人物视频生成的唇语同步方法的步骤。

10.一种电子设备，包括存储器、处理器以及存储在存储器上可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的虚拟人物视频生成的唇语同步方法的步骤。