CN115984429A - 一种基于文本驱动的真实感虚拟人生成方法及装置 - Google Patents

一种基于文本驱动的真实感虚拟人生成方法及装置 Download PDF

Info

Publication number
CN115984429A
CN115984429A CN202211578709.0A CN202211578709A CN115984429A CN 115984429 A CN115984429 A CN 115984429A CN 202211578709 A CN202211578709 A CN 202211578709A CN 115984429 A CN115984429 A CN 115984429A
Authority
CN
China
Prior art keywords
text
driving
face
audio
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211578709.0A
Other languages
English (en)
Inventor
百晓
吴禹辰
李嘉禾
王晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics
Beihang University
Original Assignee
Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics, Beihang University filed Critical Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics
Priority to CN202211578709.0A priority Critical patent/CN115984429A/zh
Publication of CN115984429A publication Critical patent/CN115984429A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明提出一种基于文本驱动的真实感虚拟人生成方法:获取驱动视频与驱动文本;构造文本‑动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中;引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动;利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;将音频与整个人物画面同步生成具有真实感的虚拟人视频。本发明有助于提高虚拟人的质量。

Description

一种基于文本驱动的真实感虚拟人生成方法及装置
技术领域
本发明涉及视频生成技术领域,尤其涉及一种基于文本驱动的真实感虚拟人生成方法及装置。
背景技术
基于文本驱动的虚拟人生成任务是指给定一段文字和源图像,生成保持源图像身份信息、唇部运动与文字内容一致、根据文本内容自动生成任务手部手势动作的视频序列。在人工智能、虚拟现实等技术浪潮的带动下,虚拟人生成越来越受到关注,并广泛应用于人机交互、影视制作、虚拟主播、智能员工等领域。受限于人脸结构的复杂性、头部运动不确定性以及唇部运动的多样性,具有真实感的虚拟人生成成为计算机视觉感知领域研究的重点和难点之一。基于文字驱动的虚拟人技术可为听力障碍人士提供从文字、音频生成相应唇语的辅助理解视频。
基于文字驱动的虚拟人生成存在以下几个挑战:1)虚拟人手部手势动作缺乏:手势动作是人在说话时自然而然会产生的动作,但是现在的虚拟人生成方案中,大多数针对只包含头部的虚拟人生成,而忽略了全身对整个虚拟人形象真实感的必要性;2)文字与唇部运动不一致:在虚拟人生成中,文字需要先转换成音频,进而促使虚拟人唇部运动,音频和视频的多模态特征匹配不准确,极易引起唇部运动与文字不匹配;3)图像质量较差:人眼对人脸视频比较敏感,当出现较小的瑕疵时,也很容易让人判定为生成视频,为了提高虚拟人视频的真实感,虚拟人图像质量显得尤为重要。
发明内容
为了解决基于文字驱动的虚拟人生成任务中存在的虚拟人手部手势动作缺乏、文字与唇部运动不一致以及图像质量较差的问题,本发明提出一种基于文本适配手势动作的真实感虚拟人生成方法和装置。
根据本发明的第一方面,提供了一种基于文本驱动的真实感虚拟人的生成方法,包括:
获取驱动视频与驱动文本;
构造文本-动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人;
引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人;
利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;
将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。
根据本发明的第二方面,提供了一种基于文本驱动的真实感虚拟人的生成装置,包括:
获取模块,用于获取驱动视频与驱动文本;
动作插入模块,用于构造文本-动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人;
唇形生成模块,用于引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人;
视觉质量增强模块,用于利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;
视频生成模块,用于将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。
本发明第三方面,提出的非临时性计算机可读存储介质,其中,所述非临时性计算机可读存储介质存储有计算机程序;所述计算机程序被处理器执行时实现如上第一方面所示的方法。
与现有技术相比,本发明具有如下优点:
1.手势动作是人与人进行交流时,自然而然产生的动作,能够起到辅助交流的目的。本发明采用RIFE算法插入手势动作,把虚拟人的研究从头部生成拓展到半身生成,能够更好地应用于实际场景之中。
2.在唇形生成模块,引入唇形判别器来约束唇部区域图像生成,从而能够很好地解决文字唇形不匹配的问题。
3.在网络结构中,引入面部增强模型,加强对人脸区域的约束,从而能够很好地解决虚拟人面部图像质量较差的问题。
附图说明
图1是本发明一个实施例提供的基于文本驱动的真实感虚拟人生成方法的流程示意图;
图2是本发明一个实施例提供的基于文本驱动的真实感虚拟人生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的虚拟人生成方法及装置。
实施例一
图1为本发明一个实施例提供的基于文本驱动的真实感虚拟人生成方法的流程示意图,如图所示,包括:
获取驱动视频与驱动文本,其中驱动视频的获取要求真人模特录制视频在绿幕前进行,视频录制过程中真人模特手部固定放置在自然的位置,唇部保持静止,头部具备自然律动如:眨眼、轻微晃动;驱动文本通过人为设置成虚拟人播报的文本。
构造文本-动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人。
其中,所述字典根据日常经验所获得,如:加油、努力等文本会触发握拳;很好、很棒等文本会触发竖起大拇指;动作插入时根据驱动文本的语义语境,以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳,决定在与此段音频对应的画面中插入何种动作,以及插入的时间戳;引入基于关键词动作字典触发动作的方法,每当有一段驱动文本输入,则对其做滑窗扫描,搜索该段文本中有无与字典匹配的关键词,当发现关键词,则在驱动视频中对应时间戳下插入对应动作视频,插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频,使动作的发生平滑自然。
语音合成的实现可分为两步,第一步是基于语音合成模型计算驱动文本中每个音素的发声周期、声幅、声调,输出人声对应的梅尔频谱。这里的音素可以理解为文字对应的汉语拼音,包含声母和韵母。随后通过声码器模型将频域信号转化为时域信号,即驱动音频。根据语音合成模型中对各音素的发声周期预测结果,易得驱动文本中各字段在驱动音频中得发声起始时间戳。
引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人。
其中,唇部生成模型以驱动音频为控制参数,对原本不具备唇部动作的人脸图像做条件GAN操作,使面部动作与声音相协调,即以声音驱动人脸做出相应的唇形动作。
利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;
将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。
其中,面部增强模型采用与CycleGan类似的网络结构,将模糊和清晰视为两种人脸风格,使网络学习如何将模糊人脸翻译为清晰人脸,经过面部增强模块后,人脸的分辨率、清晰度、画面细节得到了极大增强。
进一步地,基于上述实施例提供的基于文本驱动的真实感虚拟人生成方法,本发明实施例还提供一种基于文本驱动的真实感虚拟人生成装置,图2为根据本申请一个实施例提供的一种基于文本驱动的真实感虚拟人生成方法装置的结构示意图,如图2所示,包括:
获取模块,用于获取驱动视频与驱动文本。其中视频获取模块,真人模特在绿幕前进行,视频录制过程中真人模特手部固定放置在自然的位置,唇部保持静止,头部具备自然律动如:眨眼、轻微晃动;文本获取模块,通过人为设置成虚拟人播报的文本。
动作插入模块,用于构造文本-动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人。
其中,动作-文本字典构造模块,根据日常经验所获得,如:加油、努力等文本会触发握拳;很好、很棒等文本会触发竖起大拇指;处理模块,根据驱动文本的语义语境,以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳,决定在与此段音频对应的画面中插入何种动作,以及插入的时间戳;插入模块,引入基于关键词动作字典触发动作的方法,每当有一段驱动文本输入,则对其做滑窗扫描,搜索该段文本中有无与字典匹配的关键词,当发现关键词,则在驱动视频中对应时间戳下插入对应动作视频,插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频,使动作的发生平滑自然。
语音合成的实现可分为两步,第一步是基于语音合成模型计算驱动文本中每个音素的发声周期、声幅、声调,输出人声对应的梅尔频谱。这里的音素可以理解为文字对应的汉语拼音,包含声母和韵母。随后通过声码器模型将频域信号转化为时域信号,即驱动音频。根据语音合成模型中对各音素的发声周期预测结果,易得驱动文本中各字段在驱动音频中得发声起始时间戳。
唇形生成模块,用于引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人。
其中,唇形生成模块以驱动音频为控制参数,对原本不具备唇部动作的人脸图像做条件GAN操作,使面部动作与声音相协调,即以声音驱动人脸做出相应的唇形动作。
视觉质量增强模块,用于利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;
视频生成模块,用于将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。
其中,视觉质量增强模块采用与CycleGan类似的网络结构,将模糊和清晰视为两种人脸风格,使网络学习如何将模糊人脸翻译为清晰人脸,经过面部增强模块后,人脸的分辨率、清晰度、画面细节得到了极大增强。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例提供的非临时性计算机可读存储介质,存储有计算机程序;计算机程序被处理器执行时,能够实现如图1任一所示的基于文本驱动的真实感虚拟人生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (11)

1.一种基于文本驱动的真实感虚拟人生成方法,其特征在于,步骤如下:
获取驱动视频与驱动文本;
构造文本-动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人;
引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人;
利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;
将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。
2.根据权利要求1所述的虚拟人生成方法,其特征在于,驱动视频的获取要求真人模特录制视频在绿幕前进行,视频录制过程中真人模特手部固定放置在自然的位置,唇部保持静止,头部具备自然律动如:眨眼、轻微晃动;驱动文本通过人为设置成虚拟人播报的文本。
3.根据权利要求1所述的虚拟人生成方法,其特征在于,生成语义语境与各种手势,动作一致的虚拟人包括:
构造文本-动作字典,所述字典根据日常经验所获得,如:加油、努力等文本会触发握拳;很好、很棒等文本会触发竖起大拇指;
动作插入时根据驱动文本的语义语境,以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳,决定在与此段音频对应的画面中插入何种动作,以及插入的时间戳;
引入基于关键词动作字典触发动作的方法,每当有一段驱动文本输入,则对其做滑窗扫描,搜索该段文本中有无与字典匹配的关键词,当发现关键词,则在驱动视频中对应时间戳下插入对应动作视频,插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频,使动作的发生平滑自然。
4.根据权利要求1所述的虚拟人生成方法,其特征在于,唇部生成模型以驱动音频为控制参数,对原本不具备唇部动作的人脸图像做条件GAN操作,使面部动作与声音相协调,即以声音驱动人脸做出相应的唇形动作。
5.根据权利要求1所述的虚拟人生成方法,其特征在于,面部增强模型采用与CycleGan类似的网络结构,将模糊和清晰视为两种人脸风格,使网络学习如何将模糊人脸翻译为清晰人脸,经过面部增强模块后,人脸的分辨率、清晰度、画面细节得到了极大增强。
6.一种基于文本驱动的真实感虚拟人生成装置,包括:
获取模块,用于获取驱动视频与驱动文本;
动作插入模块,用于构造文本-动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人;
唇形生成模块,用于引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人;
视觉质量增强模块,用于利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;
视频生成模块,用于将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。
7.根据权利要求6所述的虚拟人生成装置,其特征在于,获取模块包括:
视频获取模块,真人模特在绿幕前进行,视频录制过程中真人模特手部固定放置在自然的位置,唇部保持静止,头部具备自然律动如:眨眼、轻微晃动;
文本获取模块,通过人为设置成虚拟人播报的文本。
8.根据权利要求6所述的虚拟人生成装置,其特征在于,所述动作插入模块,包括:
动作-文本字典构造模块,根据日常经验所获得,如:加油、努力等文本会触发握拳;很好、很棒等文本会触发竖起大拇指;
处理模块,根据驱动文本的语义语境,以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳,决定在与此段音频对应的画面中插入何种动作,以及插入的时间戳;
插入模块,引入基于关键词动作字典触发动作的方法,每当有一段驱动文本输入,则对其做滑窗扫描,搜索该段文本中有无与字典匹配的关键词,当发现关键词,则在驱动视频中对应时间戳下插入对应动作视频,插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频,使动作的发生平滑自然。
9.根据权利要求6所述的虚拟人生成装置,其特征在于,唇形生成模块以驱动音频为控制参数,对原本不具备唇部动作的人脸图像做条件GAN操作,使面部动作与声音相协调,即以声音驱动人脸做出相应的唇形动作。
10.根据权利要求6所述的虚拟人生成装置,其特征在于,视觉质量增强模块采用与CycleGan类似的网络结构,将模糊和清晰视为两种人脸风格,使网络学习如何将模糊人脸翻译为清晰人脸,经过面部增强模块后,人脸的分辨率、清晰度、画面细节得到了极大增强。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的基于文本驱动的真实感虚拟人生成方法。
CN202211578709.0A 2022-12-05 2022-12-05 一种基于文本驱动的真实感虚拟人生成方法及装置 Pending CN115984429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211578709.0A CN115984429A (zh) 2022-12-05 2022-12-05 一种基于文本驱动的真实感虚拟人生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211578709.0A CN115984429A (zh) 2022-12-05 2022-12-05 一种基于文本驱动的真实感虚拟人生成方法及装置

Publications (1)

Publication Number Publication Date
CN115984429A true CN115984429A (zh) 2023-04-18

Family

ID=85961531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211578709.0A Pending CN115984429A (zh) 2022-12-05 2022-12-05 一种基于文本驱动的真实感虚拟人生成方法及装置

Country Status (1)

Country Link
CN (1) CN115984429A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958331A (zh) * 2023-09-20 2023-10-27 四川蜀天信息技术有限公司 一种音画同步的调整方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958331A (zh) * 2023-09-20 2023-10-27 四川蜀天信息技术有限公司 一种音画同步的调整方法、装置和电子设备
CN116958331B (zh) * 2023-09-20 2024-01-19 四川蜀天信息技术有限公司 一种音画同步的调整方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
US7136818B1 (en) System and method of providing conversational visual prosody for talking heads
US7076430B1 (en) System and method of providing conversational visual prosody for talking heads
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
CN110266973A (zh) 视频处理方法、装置、计算机可读存储介质和计算机设备
JP6711044B2 (ja) 画像処理装置、表示装置、アニメーション生成方法及びプログラム
Benoit et al. Audio-visual and multimodal speech systems
CN115984429A (zh) 一种基于文本驱动的真实感虚拟人生成方法及装置
CN116828129B (zh) 一种超清2d数字人生成方法及系统
CN114793300A (zh) 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统
CN113395569A (zh) 视频生成方法及装置
CN110139021A (zh) 辅助拍摄方法及终端设备
CN110728971B (zh) 一种音视频合成方法
CN116206607A (zh) 一种基于语音驱动的真实感虚拟人生成方法及装置
JP2003216173A (ja) 合成音声及び映像の同期制御方法、装置及びプログラム
CN117370605A (zh) 一种虚拟数字人驱动方法、装置、设备和介质
KR100395491B1 (ko) 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법
CN113794927A (zh) 信息显示方法、装置及电子设备
Wolfe et al. Exploring localization for mouthings in sign language avatars
CN112632262A (zh) 一种对话方法、装置、计算机设备及存储介质
Agarwal et al. Realistic Lip Animation from Speech for Unseen Subjects using Few-shot Cross-modal Learning
CN111063339A (zh) 智能交互方法、装置、设备及计算机可读介质
Çakmak et al. HMM-based generation of laughter facial expression
CN117475986A (zh) 一种具有视听感知能力的实时对话型数字分身生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination