CN115984429A

CN115984429A - 一种基于文本驱动的真实感虚拟人生成方法及装置

Info

Publication number: CN115984429A
Application number: CN202211578709.0A
Authority: CN
Inventors: 百晓; 吴禹辰; 李嘉禾; 王晨
Original assignee: Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics; Beihang University
Current assignee: Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics; Beihang University
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-04-18

Abstract

本发明提出一种基于文本驱动的真实感虚拟人生成方法：获取驱动视频与驱动文本；构造文本‑动作字典，根据文本中的内容来选定相应动作，并通过语音合成技术获得与文本对应的驱动音频，同时获得驱动文本中每个字段在音频中出现的字段时间戳，采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中；引入音频到唇形生成模型，利用唇形判别器来获得准确而逼真的唇部运动；利用面部增强模型，加强对人脸区域的约束，通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量；将音频与整个人物画面同步生成具有真实感的虚拟人视频。本发明有助于提高虚拟人的质量。

Description

一种基于文本驱动的真实感虚拟人生成方法及装置

技术领域

本发明涉及视频生成技术领域，尤其涉及一种基于文本驱动的真实感虚拟人生成方法及装置。

背景技术

基于文本驱动的虚拟人生成任务是指给定一段文字和源图像，生成保持源图像身份信息、唇部运动与文字内容一致、根据文本内容自动生成任务手部手势动作的视频序列。在人工智能、虚拟现实等技术浪潮的带动下，虚拟人生成越来越受到关注，并广泛应用于人机交互、影视制作、虚拟主播、智能员工等领域。受限于人脸结构的复杂性、头部运动不确定性以及唇部运动的多样性，具有真实感的虚拟人生成成为计算机视觉感知领域研究的重点和难点之一。基于文字驱动的虚拟人技术可为听力障碍人士提供从文字、音频生成相应唇语的辅助理解视频。

基于文字驱动的虚拟人生成存在以下几个挑战：1)虚拟人手部手势动作缺乏：手势动作是人在说话时自然而然会产生的动作，但是现在的虚拟人生成方案中，大多数针对只包含头部的虚拟人生成，而忽略了全身对整个虚拟人形象真实感的必要性；2)文字与唇部运动不一致：在虚拟人生成中，文字需要先转换成音频，进而促使虚拟人唇部运动，音频和视频的多模态特征匹配不准确，极易引起唇部运动与文字不匹配；3)图像质量较差：人眼对人脸视频比较敏感，当出现较小的瑕疵时，也很容易让人判定为生成视频，为了提高虚拟人视频的真实感，虚拟人图像质量显得尤为重要。

发明内容

为了解决基于文字驱动的虚拟人生成任务中存在的虚拟人手部手势动作缺乏、文字与唇部运动不一致以及图像质量较差的问题，本发明提出一种基于文本适配手势动作的真实感虚拟人生成方法和装置。

根据本发明的第一方面，提供了一种基于文本驱动的真实感虚拟人的生成方法，包括：

获取驱动视频与驱动文本；

构造文本-动作字典，根据文本中的内容来选定相应动作，并通过语音合成技术获得与文本对应的驱动音频，同时获得驱动文本中每个字段在音频中出现的字段时间戳，采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中，生成语义语境与各种手势，动作一致的虚拟人；

引入音频到唇形生成模型，利用唇形判别器来获得准确而逼真的唇部运动，生成脸部动作与音频拟合度高的虚拟人；

利用面部增强模型，加强对人脸区域的约束，通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量；

将音频与整个人物画面同步生成具有真实感的虚拟人视频，所述虚拟人可实现高质量的文本播报。

根据本发明的第二方面，提供了一种基于文本驱动的真实感虚拟人的生成装置，包括：

获取模块，用于获取驱动视频与驱动文本；

动作插入模块，用于构造文本-动作字典，根据文本中的内容来选定相应动作，并通过语音合成技术获得与文本对应的驱动音频，同时获得驱动文本中每个字段在音频中出现的字段时间戳，采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中，生成语义语境与各种手势，动作一致的虚拟人；

唇形生成模块，用于引入音频到唇形生成模型，利用唇形判别器来获得准确而逼真的唇部运动，生成脸部动作与音频拟合度高的虚拟人；

视觉质量增强模块，用于利用面部增强模型，加强对人脸区域的约束，通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量；

视频生成模块，用于将音频与整个人物画面同步生成具有真实感的虚拟人视频，所述虚拟人可实现高质量的文本播报。

本发明第三方面，提出的非临时性计算机可读存储介质，其中，所述非临时性计算机可读存储介质存储有计算机程序；所述计算机程序被处理器执行时实现如上第一方面所示的方法。

与现有技术相比，本发明具有如下优点：

1.手势动作是人与人进行交流时，自然而然产生的动作，能够起到辅助交流的目的。本发明采用RIFE算法插入手势动作，把虚拟人的研究从头部生成拓展到半身生成，能够更好地应用于实际场景之中。

2.在唇形生成模块，引入唇形判别器来约束唇部区域图像生成，从而能够很好地解决文字唇形不匹配的问题。

3.在网络结构中，引入面部增强模型，加强对人脸区域的约束，从而能够很好地解决虚拟人面部图像质量较差的问题。

附图说明

图1是本发明一个实施例提供的基于文本驱动的真实感虚拟人生成方法的流程示意图；

图2是本发明一个实施例提供的基于文本驱动的真实感虚拟人生成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的虚拟人生成方法及装置。

实施例一

图1为本发明一个实施例提供的基于文本驱动的真实感虚拟人生成方法的流程示意图，如图所示，包括：

获取驱动视频与驱动文本，其中驱动视频的获取要求真人模特录制视频在绿幕前进行，视频录制过程中真人模特手部固定放置在自然的位置，唇部保持静止，头部具备自然律动如：眨眼、轻微晃动；驱动文本通过人为设置成虚拟人播报的文本。

构造文本-动作字典，根据文本中的内容来选定相应动作，并通过语音合成技术获得与文本对应的驱动音频，同时获得驱动文本中每个字段在音频中出现的字段时间戳，采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中，生成语义语境与各种手势，动作一致的虚拟人。

其中，所述字典根据日常经验所获得，如：加油、努力等文本会触发握拳；很好、很棒等文本会触发竖起大拇指；动作插入时根据驱动文本的语义语境，以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳，决定在与此段音频对应的画面中插入何种动作，以及插入的时间戳；引入基于关键词动作字典触发动作的方法，每当有一段驱动文本输入，则对其做滑窗扫描，搜索该段文本中有无与字典匹配的关键词，当发现关键词，则在驱动视频中对应时间戳下插入对应动作视频，插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频，使动作的发生平滑自然。

语音合成的实现可分为两步，第一步是基于语音合成模型计算驱动文本中每个音素的发声周期、声幅、声调，输出人声对应的梅尔频谱。这里的音素可以理解为文字对应的汉语拼音，包含声母和韵母。随后通过声码器模型将频域信号转化为时域信号，即驱动音频。根据语音合成模型中对各音素的发声周期预测结果，易得驱动文本中各字段在驱动音频中得发声起始时间戳。

引入音频到唇形生成模型，利用唇形判别器来获得准确而逼真的唇部运动，生成脸部动作与音频拟合度高的虚拟人。

其中，唇部生成模型以驱动音频为控制参数，对原本不具备唇部动作的人脸图像做条件GAN操作，使面部动作与声音相协调，即以声音驱动人脸做出相应的唇形动作。

其中，面部增强模型采用与CycleGan类似的网络结构，将模糊和清晰视为两种人脸风格，使网络学习如何将模糊人脸翻译为清晰人脸，经过面部增强模块后，人脸的分辨率、清晰度、画面细节得到了极大增强。

进一步地，基于上述实施例提供的基于文本驱动的真实感虚拟人生成方法，本发明实施例还提供一种基于文本驱动的真实感虚拟人生成装置，图2为根据本申请一个实施例提供的一种基于文本驱动的真实感虚拟人生成方法装置的结构示意图，如图2所示，包括：

获取模块，用于获取驱动视频与驱动文本。其中视频获取模块，真人模特在绿幕前进行，视频录制过程中真人模特手部固定放置在自然的位置，唇部保持静止，头部具备自然律动如：眨眼、轻微晃动；文本获取模块，通过人为设置成虚拟人播报的文本。

动作插入模块，用于构造文本-动作字典，根据文本中的内容来选定相应动作，并通过语音合成技术获得与文本对应的驱动音频，同时获得驱动文本中每个字段在音频中出现的字段时间戳，采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中，生成语义语境与各种手势，动作一致的虚拟人。

其中，动作-文本字典构造模块，根据日常经验所获得，如：加油、努力等文本会触发握拳；很好、很棒等文本会触发竖起大拇指；处理模块，根据驱动文本的语义语境，以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳，决定在与此段音频对应的画面中插入何种动作，以及插入的时间戳；插入模块，引入基于关键词动作字典触发动作的方法，每当有一段驱动文本输入，则对其做滑窗扫描，搜索该段文本中有无与字典匹配的关键词，当发现关键词，则在驱动视频中对应时间戳下插入对应动作视频，插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频，使动作的发生平滑自然。

唇形生成模块，用于引入音频到唇形生成模型，利用唇形判别器来获得准确而逼真的唇部运动，生成脸部动作与音频拟合度高的虚拟人。

其中，唇形生成模块以驱动音频为控制参数，对原本不具备唇部动作的人脸图像做条件GAN操作，使面部动作与声音相协调，即以声音驱动人脸做出相应的唇形动作。

其中，视觉质量增强模块采用与CycleGan类似的网络结构，将模糊和清晰视为两种人脸风格，使网络学习如何将模糊人脸翻译为清晰人脸，经过面部增强模块后，人脸的分辨率、清晰度、画面细节得到了极大增强。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质。

本发明实施例提供的非临时性计算机可读存储介质，存储有计算机程序；计算机程序被处理器执行时，能够实现如图1任一所示的基于文本驱动的真实感虚拟人生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于文本驱动的真实感虚拟人生成方法，其特征在于，步骤如下：

获取驱动视频与驱动文本；

2.根据权利要求1所述的虚拟人生成方法，其特征在于，驱动视频的获取要求真人模特录制视频在绿幕前进行，视频录制过程中真人模特手部固定放置在自然的位置，唇部保持静止，头部具备自然律动如：眨眼、轻微晃动；驱动文本通过人为设置成虚拟人播报的文本。

3.根据权利要求1所述的虚拟人生成方法，其特征在于，生成语义语境与各种手势，动作一致的虚拟人包括：

构造文本-动作字典，所述字典根据日常经验所获得，如：加油、努力等文本会触发握拳；很好、很棒等文本会触发竖起大拇指；

动作插入时根据驱动文本的语义语境，以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳，决定在与此段音频对应的画面中插入何种动作，以及插入的时间戳；

引入基于关键词动作字典触发动作的方法，每当有一段驱动文本输入，则对其做滑窗扫描，搜索该段文本中有无与字典匹配的关键词，当发现关键词，则在驱动视频中对应时间戳下插入对应动作视频，插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频，使动作的发生平滑自然。

4.根据权利要求1所述的虚拟人生成方法，其特征在于，唇部生成模型以驱动音频为控制参数，对原本不具备唇部动作的人脸图像做条件GAN操作，使面部动作与声音相协调，即以声音驱动人脸做出相应的唇形动作。

5.根据权利要求1所述的虚拟人生成方法，其特征在于，面部增强模型采用与CycleGan类似的网络结构，将模糊和清晰视为两种人脸风格，使网络学习如何将模糊人脸翻译为清晰人脸，经过面部增强模块后，人脸的分辨率、清晰度、画面细节得到了极大增强。

6.一种基于文本驱动的真实感虚拟人生成装置，包括：

获取模块，用于获取驱动视频与驱动文本；

7.根据权利要求6所述的虚拟人生成装置，其特征在于，获取模块包括：

视频获取模块，真人模特在绿幕前进行，视频录制过程中真人模特手部固定放置在自然的位置，唇部保持静止，头部具备自然律动如：眨眼、轻微晃动；

文本获取模块，通过人为设置成虚拟人播报的文本。

8.根据权利要求6所述的虚拟人生成装置，其特征在于，所述动作插入模块，包括：

动作-文本字典构造模块，根据日常经验所获得，如：加油、努力等文本会触发握拳；很好、很棒等文本会触发竖起大拇指；

处理模块，根据驱动文本的语义语境，以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳，决定在与此段音频对应的画面中插入何种动作，以及插入的时间戳；

插入模块，引入基于关键词动作字典触发动作的方法，每当有一段驱动文本输入，则对其做滑窗扫描，搜索该段文本中有无与字典匹配的关键词，当发现关键词，则在驱动视频中对应时间戳下插入对应动作视频，插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频，使动作的发生平滑自然。

9.根据权利要求6所述的虚拟人生成装置，其特征在于，唇形生成模块以驱动音频为控制参数，对原本不具备唇部动作的人脸图像做条件GAN操作，使面部动作与声音相协调，即以声音驱动人脸做出相应的唇形动作。

10.根据权利要求6所述的虚拟人生成装置，其特征在于，视觉质量增强模块采用与CycleGan类似的网络结构，将模糊和清晰视为两种人脸风格，使网络学习如何将模糊人脸翻译为清晰人脸，经过面部增强模块后，人脸的分辨率、清晰度、画面细节得到了极大增强。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的基于文本驱动的真实感虚拟人生成方法。