CN115511994A - 一种快速将真人克隆为二维虚拟数字人的方法 - Google Patents
一种快速将真人克隆为二维虚拟数字人的方法 Download PDFInfo
- Publication number
- CN115511994A CN115511994A CN202211256426.4A CN202211256426A CN115511994A CN 115511994 A CN115511994 A CN 115511994A CN 202211256426 A CN202211256426 A CN 202211256426A CN 115511994 A CN115511994 A CN 115511994A
- Authority
- CN
- China
- Prior art keywords
- audio
- mouth shape
- person
- original
- virtual digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010367 cloning Methods 0.000 title claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000005215 recombination Methods 0.000 claims abstract description 8
- 230000006798 recombination Effects 0.000 claims abstract description 7
- 230000007704 transition Effects 0.000 claims abstract description 6
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 5
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims abstract 2
- 230000009471 action Effects 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008921 facial expression Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种快速将真人克隆为二维虚拟数字人的方法,提供一种在二维虚拟数字人创建场景下快速克隆出真人高保真的方案,该场景是以录制二维真人视频为主要素材,实现新的音频驱动重组原嘴型序列的一种方法。包括:人体分割、人脸关键点提取、脸部嘴型替换、语音合成、音频对齐计算、轮廓相似度计算。在具体实施过程中,模块间协同工作,最终可以自动化创建二维数字人的流程。由于创建数字人需要以低成本有效方式进行,在真人素材采集上使用手机清晰简便录制尚可。另外,考虑到如何缓解嘴型替换后过渡差异性问题,也就是在保障嘴型重组之后的序列流畅与自然情况下,本发明引入原嘴型与替换嘴型之间的轮廓相似度计算作为约束性选择。
Description
技术领域
本发明涉及计算机软件技术领域,特别涉及一种快速将真人克隆为二维虚拟数字人的方法。
背景技术
在真人入镜视频文本讲解播报过程中往往需要真人提前熟悉所有台词,每个负责工作人员也需做大量准备工作来确保录制或直播的视频不出现错误。比如新闻直播,在要求表情肢体动作相对自然的情况下,对所有播报台词的准确性也要求极高。另外,一些短视频或课程系列的录制让真人入境也是比较繁重的工作,不能保证每一次录制都顺利,多数情况下需要反复录制多遍才能结束。如果对于同一个人只录制一部分视频素材,后续的视频的都能自动合成出来,那自然就减轻了真人入境的工作量,于是需要利用计算机技术为真人克隆出数字虚拟人。克隆的数字虚拟人的面部表情与肢体动作均来自提前录制好的一段视频,这样在确保人物高保真的情况下实施本发明中语音驱动嘴型序列重组技术。
发明内容
本发明的目的在于提供一种快速将真人克隆为二维虚拟数字人的方法,旨在降低后续真人入境的视频制作或输出成本,为虚拟数字人赋予自动化合成视频的能力。
为实现上述目的,本发明的技术方案是:一种快速将真人克隆为二维虚拟数字人的方法,包括:
S1、人体分割:
人体分割主要对原视频素材中的人分离出来,备用于二次加工美化虚拟数字人,虚拟数字人外形干净明亮清晰,一旦完成即可用于后续的虚拟数字人语音驱动唇形对齐重组工作。人体分割采用RVM循环神经网络来处理具有时间记忆的视频人体分割技术,该方法可以在任何视频上实时执行抠图,无需额外输入,在Nvidia GTX 1080 Ti GPU上实现了4K76FPS和HD 104FPS。
S2、人脸关键点提取:
人脸关键点检测是为了在重组唇形时进行对齐仿射变换,以致于将音频对齐的嘴型序列叠加到原虚拟数字人嘴部位置。采用insightface提取脸部111个关键点,实际仅需用25个点即可。
S3、脸部嘴型替换:
主要功能是新音频对齐嘴型的帧序列进行旋转、缩放和平移以适合原虚拟数字人视频时间点,之后调整图像中的色彩平衡以匹配原图像,并将图像中的特征融合到原图像之上。采用Switching Eds实现脸部嘴部特征替换。
S4、语音合成:
实现文本到语音tts转换,得到新的音频数据,用于驱动虚拟数字人嘴型序列重组。采用端到端的fasterspeech2训练目标声音音频。
S5、音频对齐计算:
预先设计将原虚拟数字人的音频按照汉语拼音声母表对齐,采用MontrealForced Aligner(MFA)可以自动化实现这一点,类似的,新音频也同样与汉语拼音表对齐,之后根据时间线即可对应到原虚拟数字人的嘴型。一个发音可重复采集多个嘴型结果,以此来完成嘴型序列的推荐。
S6、轮廓相似度计算:
考虑到需要尽可能减少原虚拟数字人嘴型序列与将要替换的嘴型序列的过渡差异性,使结果更加逼真,采用hausdorff最小化两者之间嘴型的轮廓相似度,用于缓解嘴型替换后过渡差异性问题。
本发明还提供了一种快速将真人克隆为二维虚拟数字人的系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
相较于现有技术,本发明具有以下有益效果:本发明能够快速克隆数字虚拟人,即只需要录制大约一分钟的真人视频素材,就可以快速克隆高保真二维虚拟数字人,降低数字人制作成本,并为数字虚拟人赋予基础的形象、表达、交互能力,能够直接应用并大大减少真人入境的工作量。利用人脸关键点定位实现仿射变换,并自动化语音驱动重组嘴型序列,具有高度还原逼真的人体动作视频序列输出。在无需真人入境的情况下进行快速合成视频文本播报,无论是否在实时环境下,一旦虚拟数字人的相关素材准备好即可准确无误的进行台词输出。对比真人入境,本发明大大减少人工录制比较繁重的工作。另外,因为数据源本身是采集某个特定真人视频,所以自然可以私有化定制IP虚拟数字人,打造另一个虚拟的自己。另外,虚拟数字人的肢体动作也可以根据需要不定时录制真人动作而增加,录制成本不仅低,而且还能丰富虚拟数字人的表现力。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
如图1所示,一种快速将真人克隆为二维虚拟数字人的方法,包括:
S1、人体分割:
人体分割主要对原视频素材中的人分离出来,备用于二次加工美化虚拟数字人,虚拟数字人外形干净明亮清晰,一旦完成即可用于后续的虚拟数字人语音驱动唇形对齐重组工作。人体分割采用RVM循环神经网络来处理具有时间记忆的视频人体分割技术,该方法可以在任何视频上实时执行抠图,无需额外输入,在Nvidia GTX 1080 Ti GPU上实现了4K76FPS和HD 104FPS。
S2、人脸关键点提取:
人脸关键点检测是为了在重组唇形时进行对齐仿射变换,以致于将音频对齐的嘴型序列叠加到原虚拟数字人嘴部位置。采用insightface提取脸部111个关键点,实际仅需用25个点即可。
S3、脸部嘴型替换:
主要功能是新音频对齐嘴型的帧序列进行旋转、缩放和平移以适合原虚拟数字人视频时间点,之后调整图像中的色彩平衡以匹配原图像,并将图像中的特征融合到原图像之上。采用Switching Eds实现脸部嘴部特征替换。
S4、语音合成:
实现文本到语音tts转换,得到新的音频数据,用于驱动虚拟数字人嘴型序列重组。采用端到端的fasterspeech2训练目标声音音频。
S5、音频对齐计算:
预先设计将原虚拟数字人的音频按照汉语拼音声母表对齐,采用MontrealForced Aligner(MFA)可以自动化实现这一点,类似的,新音频也同样与汉语拼音表对齐,之后根据时间线即可对应到原虚拟数字人的嘴型。一个发音可重复采集多个嘴型结果,以此来完成嘴型序列的推荐。
S6、轮廓相似度计算:
考虑到需要尽可能减少原虚拟数字人嘴型序列与将要替换的嘴型序列的过渡差异性,使结果更加逼真,采用hausdorff最小化两者之间嘴型的轮廓相似度,用于缓解嘴型替换后过渡差异性问题。
实施例:
一种快速将真人克隆为二维虚拟数字人的方法,步骤如下:
步骤1、原视频素材采集
视频采集主要包括人体动作、人脸3/4正脸左右范围内、以及清晰的录音。视频录制的时候背景应为纯色便于虚拟数字人外形的分割提取,人体动作不可遮挡人脸,确保录制的每一帧视频都有清晰的人脸。人脸表情自然微笑,表述内容为汉语拼音声母韵母表。视频录制长度大约一分钟即可,考虑到人体动作表情受到说话表述的影响,待采集视频素材也可以分段采集,将人体动作表情和说话表述分开录制,以确保不同部分的视频效果。因为视频素材采集本身是来源于真人,所以制作的数字虚拟人自然也就可以呈现出具有高保真真人的灵气感。如果用户不仔细看,无论是肢体动作还是面部表情状态,也都难以分辨是否真人。清晰的录音是唇形对齐的关键,这里需要被采集对象在念汉语声母韵母表时,嘴型尽量张开,吐字清晰。为了在后续自动化程序提供稳靠的音唇数据,一个音至少要被念5次以上,用于唇形序列推荐。
步骤2、汉语拼音与音频发音对齐
这一步主要实现计算原音频素材与新音频素材是如何按照时间线进行汉语拼音声母表韵母表对齐的。原音频素材是已经严格按照声母韵母表得到,只是每个音(这里用A表示)在整个时间线上所处的开始(Astart)和结束(Aend)位置是不确定的,利用MFA模型预测即可快速解决这个问题并得到不错的效果。调用已经训练好的MFA汉语拼音对齐模型,封装shell执行脚本命令到自动化Python中,返回得到TextGrid格式数据,之后对该数据进行解析。原音频包含所有的声母韵母音以及与之对应唇形视频开始(Lipstart)和结束(Lipend)位置,这里让其形成一个字典集Set,便于后续新音频检索。类似的,通过语音合成的新音频以同样的方式执行MFA的shell脚本得到每个音的开始和结束,通过遍历每个音去匹配字典集Set,进而匹配到对应的唇形序列。原音频作为检索库,而新的音频作为匹配内容从字典集Set中匹配。匹配的过程也要考虑Set中推荐的发音长度尽可能与新音频发音长度相差最小MinDtime。以此类推,新音频的每个音都可以找到与之匹配的检索结果,并最终串起来实现与新音频发音对齐的重组音频序列。当然,新音频的每个发音之间可能会出现无音情况,即上一个AstartAend对与下一个AstartAend对之间时间线上不是绝对覆盖的,解决方式是直接将无音区用上一个AstartAend对复用,因为发音结束后对应的嘴型往往还会继续保持持续一会儿。
步骤3、利用人脸特征关键点替换嘴型
首先使用insightface识别人脸关键点,关键点仅用25个,其中5个是对应左右眼、鼻子和两边嘴角,另外的20个关键点是嘴型部分;其次利用上述5个点对图像旋转、缩放和平移,再进行仿射变换,使第二张图像以适合第一张图像;最后调整第二张图像中的色彩平衡以匹配第一张图像,并将第二张图像中的嘴部特征融合到第一张图像之上。这里所述第一张图像(Image1)可以理解为原视频人体分割后的每一帧(也是最终新的视频序列),而第二张图像(Image2)可以理解为原视频人体分割后的某一帧。
步骤4、利用音频对齐时间信息自动化替换嘴型序列
在步骤2中已经确定新音频每个发音在原音频中的AstartAend对位置,以此对应到LipstartLipend对,最后选择的LipstartLipend对额外做帧插值处理,使其时长能与新音频发音保持一样长,以此类推得到与新音频对齐的所有LipstartLipend对,并将此按照步骤3进行逐帧替换到原虚拟数字人的嘴型,最后合并音频完成新的视频序列输出。步骤2中的MinDtime仅用于推荐尽可能与新音频发音时长相差最小,但不是最终选择的一个,而是缩小推荐数量,比如原本某个发音数量是5,经过MinDtime之后数量变成3。这一步还需要考虑嘴型替换后过渡差异性问题,为了缓解该问题,本发明利用了hausdorff算法最小化两者之间嘴型的轮廓相似度,分别将推荐的每个Image2与Image1计算hausdorff,最小值即为最终的选择。如果新音频时长大于原音频长度时,将会继续重新复用循环原视频人体分割后的每一帧Image1,直到长度与新音频一样才结束。
本发明只需要录制大约一分钟的真人视频素材,就可以快速克隆高保真二维虚拟数字人,降低数字人制作成本。同时为数字虚拟人赋予基础的形象、表达、交互能力,能够直接应用并大大减少真人入境的工作量。因为数据源本身是采集某个特定真人视频,所以自然可以私有化定制IP虚拟数字人,打造另一个虚拟的自己。另外,虚拟数字人的肢体动作也可以根据需要不定时录制真人动作而增加,录制成本不仅低,而且还能丰富虚拟数字人的表现力。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (10)
1.一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,包括:
S1、人体分割:
将原视频素材中的人分离出来,备用于二次加工美化虚拟数字人;
S2、人脸关键点提取:
基于人体分割,提取人体脸部关键点;
S3、脸部嘴型替换:
将新音频对齐嘴型的帧序列进行旋转、缩放和平移以适合原虚拟数字人视频时间点,之后调整图像中的色彩平衡以匹配原图像,并将图像中的特征融合到原图像之上;
S4、语音合成:
实现文本到语音tts转换,得到新的音频数据,用于驱动虚拟数字人嘴型序列重组;
S5、音频对齐计算:
预先设计将原虚拟数字人的音频按照汉语拼音声母表对齐,类似的,新音频也同样与汉语拼音表对齐,之后根据时间线即可对应到原虚拟数字人的嘴型;一个发音可重复采集多个嘴型结果,以此来完成嘴型序列的推荐;
S6、轮廓相似度计算:
最小化原虚拟数字人嘴型序列与将要替换的嘴型序列之间嘴型的轮廓相似度。
2.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,所述人体分割采用RVM循环神经网络来处理具有时间记忆的视频人体分割技术。
3.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,所述人脸关键点提取采用insightface提取脸部111个关键点。
4.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,所述脸部嘴型替换采用Switching Eds实现脸部嘴部特征替换。
5.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,所述语音合成采用端到端的fasterspeech2训练目标声音音频。
6.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,所述轮廓相似度计算采用hausdorff最小化原虚拟数字人嘴型序列与将要替换的嘴型序列之间嘴型的轮廓相似度。
7.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,原视频素材采集包括人体动作、人脸3/4正脸左右范围内、以及清晰的录音,视频录制时的背景应为纯色,人体动作不可遮挡人脸,人脸表情自然微笑,表述内容为汉语拼音声母韵母表,视频录制长度一分钟;考虑到人体动作表情受到说话表述的影响,待采集视频素材也可分段采集,即将人体动作表情和说话表述分开录制;被采集对象在念汉语声母韵母表时,嘴型尽量张开,吐字清晰。
8.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,所述音频对齐计算具体实现如下:
原视频素材中音频是严格按照声母韵母表得到,只是每个音A表示在整个时间线上所处的开始Astart和结束Aend位置是不确定的,调用已经训练好的MFA汉语拼音对齐模型,封装shell执行脚本命令到自动化Python中,返回得到TextGrid格式数据,之后对TextGrid格式数据进行解析;原视频素材中音频包含所有的声母韵母音以及与之对应唇形视频开始Lipstart和结束Lipend位置,这里让其形成一个字典集Set;类似的,通过语音合成的新音频以同样的方式执行MFA的shell脚本得到每个音的开始和结束,通过遍历每个音去匹配字典集Set,进而匹配到对应的唇形序列;原视频素材中音频作为检索库,而新音频作为匹配内容从字典集Set中匹配;匹配的过程考虑字典集Set中推荐的发音长度尽可能与新音频发音长度相差最小MinDtime;以此类推,新音频的每个音都找到与之匹配的检索结果,并最终串起来实现与新音频发音对齐的重组音频序列;若新音频的每个发音之间出现无音情况,即上一个AstartAend对与下一个AstartAend对之间时间线上不是绝对覆盖的,则直接将无音区用上一个AstartAend对复用。
9.根据权利要求8所述的一种快速将真人克隆为二维虚拟数字人的方法,其特征在于,所述轮廓相似度计算的具体实现方式如下:
在已经确定新音频每个发音在原音频中的AstartAend对位置,以此对应到LipstartLipend对,最后选择的LipstartLipend对额外做帧插值处理,使其时长能与新音频发音保持一样长,以此类推得到与新音频对齐的所有LipstartLipend对,并将此按照步骤S3进行逐帧替换到原虚拟数字人的嘴型,最后合并音频完成新的视频序列输出;MinDtime仅用于推荐尽可能与新音频发音时长相差最小,但不是最终选择的一个,而是缩小推荐数量,考虑嘴型替换后过渡差异性问题,利用hausdorff算法最小化两者之间嘴型的轮廓相似度,分别将每个原视频人体分割后的每一帧Image2与原视频人体分割后的每一帧Image1计算hausdorff,最小值即为最终的选择;如果新音频时长大于原音频长度时,将会继续重新复用循环原视频人体分割后的每一帧Image1,直到长度与新音频一样才结束。
10.一种快速将真人克隆为二维虚拟数字人的系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-9任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256426.4A CN115511994A (zh) | 2022-10-14 | 2022-10-14 | 一种快速将真人克隆为二维虚拟数字人的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256426.4A CN115511994A (zh) | 2022-10-14 | 2022-10-14 | 一种快速将真人克隆为二维虚拟数字人的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115511994A true CN115511994A (zh) | 2022-12-23 |
Family
ID=84510066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211256426.4A Pending CN115511994A (zh) | 2022-10-14 | 2022-10-14 | 一种快速将真人克隆为二维虚拟数字人的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115511994A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661005A (zh) * | 2022-12-26 | 2023-01-31 | 成都索贝数码科技股份有限公司 | 一种定制数字人的生成方法及设备 |
CN116137673A (zh) * | 2023-02-22 | 2023-05-19 | 广州欢聚时代信息科技有限公司 | 数字人表情驱动方法及其装置、设备、介质 |
CN117894064A (zh) * | 2023-12-11 | 2024-04-16 | 中新金桥数字科技(北京)有限公司 | 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 |
-
2022
- 2022-10-14 CN CN202211256426.4A patent/CN115511994A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661005A (zh) * | 2022-12-26 | 2023-01-31 | 成都索贝数码科技股份有限公司 | 一种定制数字人的生成方法及设备 |
CN116137673A (zh) * | 2023-02-22 | 2023-05-19 | 广州欢聚时代信息科技有限公司 | 数字人表情驱动方法及其装置、设备、介质 |
CN117894064A (zh) * | 2023-12-11 | 2024-04-16 | 中新金桥数字科技(北京)有限公司 | 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325817B (zh) | 一种虚拟人物场景视频的生成方法、终端设备及介质 | |
CN115511994A (zh) | 一种快速将真人克隆为二维虚拟数字人的方法 | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
CN112184858B (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN112562721A (zh) | 一种视频翻译方法、系统、装置及存储介质 | |
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成系统 | |
CN110266973A (zh) | 视频处理方法、装置、计算机可读存储介质和计算机设备 | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN110096966A (zh) | 一种融合深度信息汉语多模态语料库的语音识别方法 | |
CN110675853A (zh) | 一种基于深度学习的情感语音合成方法及装置 | |
KR20240016975A (ko) | 오디오 및 비디오 트렌스레이터 | |
CN115761075A (zh) | 脸部图像生成方法及其装置、设备、介质、产品 | |
Gibert et al. | Analysis and synthesis of the three-dimensional movements of the head, face, and hand of a speaker using cued speech | |
CN114793300A (zh) | 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统 | |
CN117523051A (zh) | 基于音频生成动态图像的方法、装置、设备及存储介质 | |
CN108847246A (zh) | 一种动画制作方法、装置、终端及可读介质 | |
CN113851145B (zh) | 一种联合语音和语义关键动作的虚拟人动作序列合成方法 | |
CN116582726B (zh) | 视频生成方法、装置、电子设备及存储介质 | |
JP2019097016A (ja) | コーパス生成装置、コーパス生成方法、およびプログラム | |
Taylor et al. | A mouth full of words: Visually consistent acoustic redubbing | |
CN112002005A (zh) | 一种基于云端的远程虚拟协同主持的方法 | |
CN114155321B (zh) | 一种基于自监督和混合密度网络的人脸动画生成方法 | |
Karpov et al. | A framework for recording audio-visual speech corpora with a microphone and a high-speed camera | |
CN115409923A (zh) | 生成三维虚拟形象面部动画的方法、装置及系统 | |
CN115731917A (zh) | 语音数据处理方法、模型训练方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |