CN111161755A - 基于3d渲染引擎的中文唇音同步方法 - Google Patents
基于3d渲染引擎的中文唇音同步方法 Download PDFInfo
- Publication number
- CN111161755A CN111161755A CN201911359277.2A CN201911359277A CN111161755A CN 111161755 A CN111161755 A CN 111161755A CN 201911359277 A CN201911359277 A CN 201911359277A CN 111161755 A CN111161755 A CN 111161755A
- Authority
- CN
- China
- Prior art keywords
- text
- phonetic symbol
- mouth shape
- voice
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于3D渲染引擎的中文唇音同步方法,包括以下步骤:第一步,调用执行器启动脚本,输入参数;第二步,执行器动态调整3D人物模型的场景和模型参数;第三步,执行器调用文本语音对齐算法库,文本语音对齐算法会加载中文文本和语音文件,最终输出文本语音对齐文件;第四步,通过音标适配器将文本语音对齐文件中的音标和对应时间点调整为带有时间戳的普通话拼音的声母和韵母的音标,输出音标与时间戳对应的文本语音对齐文件;第五步,执行器调用驱动口型模型,驱动口型模型加载音标适配器输出的音标与时间戳对应的文本语音对齐文件驱动口型动画。本发明的有益之处在于,能适配中文发音规律,符合中文发音口型。
Description
技术领域
本发明涉及一种基于3D渲染引擎的中文唇音同步方法。
背景技术
随着人工智能技术的快速发展,主持人播报新闻也有了更新颖的方式。通过输入一段新闻语音材料,在较短的时间内,输出一段由预设的3D真人模型在相应的场景下播报新闻的动画或者视频。其中模型播报新闻需要使用到唇音同步的技术,即在语音播放的同时,模型需要配合对应的嘴型动作,以此展现出模型在“说话”的场景。文章Web-based livespeech-driven lip-sync(Llorach et al.2016)提出唇音同步算法,提取音频参数,通过三种blend shape驱动嘴型,生成动画。Rogo Digital开发的LipSync也是一款能够通过语音文件驱动面部(嘴巴,眼睛,眉毛等)动画的Unity3D的编辑器插件。
当前技术驱动的口型动画只匹配了发音时间点,很难精确驱动出音标的真实发音口型;唇音同步插件基本由海外开发者开发,发音的口型一般适用英文的发音习惯,不适用中文的发音规律。
发明内容
为解决现有技术的不足,本发明提供了一种基于3D渲染引擎的中文唇音同步方法,可以适配中文发音规律,在3D渲染引擎中,加载中文文字文本和文字音频文件后,通过预设的3D真人模型,实时渲染发音驱动口型的动画。
一种基于3D渲染引擎的中文唇音同步方法,包括以下步骤:
第一步,调用执行器启动脚本,输入参数;
第二步,执行器动态调整3D人物模型的场景和模型参数;
第三步,执行器调用文本语音对齐算法库,文本语音对齐算法会加载中文文本和语音文件,最终输出文本语音对齐文件;
第四步,通过音标适配器将文本语音对齐文件中的音标和对应时间点调整为带有时间戳的普通话拼音的声母和韵母的音标,输出音标与时间戳对应的文本语音对齐文件;
第五步,执行器调用驱动口型模型,驱动口型模型加载音标适配器输出的音标与时间戳对应的文本语音对齐文件驱动口型动画。
进一步地,驱动口型模型驱动口型动画的步骤包括:
加载音标适配器输出的音标与时间戳对应的文本语音对齐文件;
加载模型预设的所有blendshape动画;
音频帧循环;
根据当前帧的时间戳从加载的音标适配器输出的音标与时间戳对应的文本语音对齐文件获取当前音标;
判断当前帧的音标与上一帧的音标是否相同,若相同则跳转至音频帧循环,若不相同则播放当前帧的音标的blendshape动画。
进一步地,在调用执行器之前,导入预设的3D人物模型和驱动口型模块。
进一步地,驱动口型模型预设有37个拼音的声母和韵母的音标和70个blendshape动画,每个声母和韵母的发音口型动作与多个人物模型的blendshape动画进行优化组合。
进一步地,音标适配器输出的音标与时间戳对应的文本语音对齐文件的格式为(timestamp_i,phoneme_i),其中timestamp_i表示第i个音标的时间戳,phoneme_i表示第i个音标。
进一步地,第i个音标的持续时间为timestamp_(i+1)-timestamp_i。
进一步地,3D人物模型预设有若干种表情。
进一步地,调用执行器启动脚本输入的参数包括:动态调整3D人物模型的参数和文本语音对齐算法的启动参数。
进一步地,文本语音对齐算法的启动参数包括语音文件和中文文本的路径。
本发明的有益之处在于在3D渲染引擎中,通过中文文本和音频驱动人物模型的口型,渲染出的动画,与音频真实发音时间点、发音时长匹配,且发音口型符合中文普通话发音规律。
附图说明
图1是一种基于3D渲染引擎的中文唇音同步方法的流程图;
图2是图1中基于3D渲染引擎的中文唇音同步方法的blendshape动画的表单;
图3是图1中基于3D渲染引擎的中文唇音同步方法的驱动口型模块中普通话音标及口型图;
图4是图1中基于3D渲染引擎的中文唇音同步方法的驱动口型模型驱动口型动画的步骤。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1至图4所示,一种基于3D渲染引擎的中文唇音同步方法,包括以下步骤:
第一步,调用执行器启动脚本,输入参数;
第二步,执行器动态调整3D人物模型的场景和模型参数;
第三步,执行器调用文本语音对齐算法库,文本语音对齐算法会加载中文文本和语音文件,最终输出文本语音对齐文件;
第四步,通过音标适配器将文本语音对齐文件中的音标和对应时间点调整为带有时间戳的普通话拼音的声母和韵母的音标,输出音标与时间戳对应的文本语音对齐文件;
第五步,执行器调用驱动口型模型,驱动口型模型加载音标适配器输出的音标与时间戳对应的文本语音对齐文件驱动口型动画。
作为一种具体的实施方式,可以采用Unity3D作为渲染引擎。在调用执行器之前,导入预设的3D人物模型和驱动口型模块。
其中3D人物模型需要预设的功能点如下:
a)模型格式需要为fbx格式;
b)人物模型需要带有blendshape/Morph动画;
c)需要有绑定好的人形骨骼;
d)衣物等等需要蒙皮,不要发生穿模现象;
e)人物模型至少提供一个双手摆正站立的动画和T-Pose动画。
驱动口型模型预设有多个普通话拼音的声母和韵母,每个声母和韵母的发音口型动作与多个人物模型的blendshape动画进行优化组合。
驱动模型口型模块需要预设功能如下:
a)模型的发音口型以普通话拼音的声母和韵母的口型标准,驱动口型模型预设有37个有典型口型的声母或韵母;
b)每个发音口型动作需要多个人物模型的blendshape进行优化组合。具体而言,可以设置70个blendshape动画。
作为一种具体的实施方式,调用执行器启动脚本输入的参数包括:动画背景图路径,人物模型表情、缩放比例、锚点的二维坐标,语音文件和文本文件的路径;其中动画背景图路径和人物模型表情、缩放比例、锚点的二维坐标是动态调整3D人物模型的参数;语音文件和文本文件的路径是文本语音对齐算法的启动参数。
执行器动态调整3D人物模型的场景和模型参数:动画背景图路径,人物模型表情、缩放比例、锚点的二维坐标。模型表情需要预先制作,可以预设有若干种表情。具体而言,预设有happy(高兴),sad(悲伤),angry(愤怒)三种表情。用于表示在模型动画播放时,能有相应的情绪;缩放比例和锚点二维坐标方便调整人物模型在场景中的大小和位置;动画背景图方便调整语音播报时的场景。
执行器调用文本语音对齐算法库,文本语音对齐算法会加载中文文本和语音文件,最终输出文本语音对齐文件。为了能够符合中文发音的效果,可以选择宾夕法尼亚大学的Simple Chinese Forced Alignment算法;文本语音对齐算法输出的文本是音标和对应时间点。
音标适配器输出的音标与时间戳对应的文本语音对齐文件的格式为(timestamp_i,phoneme_i)。其中timestamp_i表示第i个音标的时间戳,phoneme_i表示第i个音标。进一步地,第i个音标的持续时间为timestamp_(i+1)-timestamp_i。即后一个音标的时间戳和当前音标的时间戳之差为当前音标的持续时间。
作为一种优选的实施方式,驱动口型模型驱动口型动画的步骤包括:
加载音标适配器输出的音标与时间戳对应的文本语音对齐文件;
加载模型预设的所有blendshape动画;
音频帧循环;
根据当前帧的时间戳从加载的音标适配器输出的音标与时间戳对应的文本语音对齐文件获取当前音标;
判断当前帧的音标与上一帧的音标是否相同,若相同则跳转至音频帧循环,若不相同则播放当前帧的音标的blendshape动画。
如果音频帧循环结束,则流程结束。
音频帧循环的blendshape播放(blendshape动画是渲染引擎在两帧之间的差值渲染),使得人物模型在播放音频时展现对应的口型动画。
文本语音对齐算法库可自由选择或者研发,最终发音音标以普通话音标及口型图为标准。
驱动模型口型模块可以根据不同的3D渲染引擎自由选择或者研发。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (9)
1.一种基于3D渲染引擎的中文唇音同步方法,其特征在于,包括以下步骤:
第一步,调用执行器启动脚本,输入参数;
第二步,执行器动态调整3D人物模型的场景和模型参数;
第三步,执行器调用文本语音对齐算法库,文本语音对齐算法会加载中文文本和语音文件,最终输出文本语音对齐文件;
第四步,通过音标适配器将文本语音对齐文件中的音标和对应时间点调整为带有时间戳的普通话拼音的声母和韵母的音标,输出音标与时间戳对应的文本语音对齐文件;
第五步,执行器调用驱动口型模型,驱动口型模型加载音标适配器输出的音标与时间戳对应的文本语音对齐文件驱动口型动画。
2.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
驱动口型模型驱动口型动画的步骤包括:
加载音标适配器输出的音标与时间戳对应的文本语音对齐文件;
加载模型预设的所有blendshape动画;
音频帧循环;
根据当前帧的时间戳从加载的音标适配器输出的音标与时间戳对应的文本语音对齐文件获取当前音标;
判断当前帧的音标与上一帧的音标是否相同,若相同则跳转至音频帧循环,若不相同则播放当前帧的音标的blendshape动画。
3.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
在调用执行器之前,导入预设的3D人物模型和驱动口型模块。
4.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
驱动口型模型预设有37个拼音的声母和韵母的音标,70个blendshape动画,每个声母和韵母的发音口型动作与多个人物模型的blendshape动画进行优化组合。
5.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
音标适配器输出的音标与时间戳对应的文本语音对齐文件的格式为(timestamp_i,phoneme_i),其中timestamp_i表示第i个音标的时间戳,phoneme_i表示第i个音标。
6.根据权利要求5所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
第i个音标的持续时间为timestamp_(i+1)-timestamp_i。
7.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
3D人物模型预设有若干种表情。
8.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
调用执行器启动脚本输入的参数包括:动态调整3D人物模型的参数和文本语音对齐算法的启动参数。
9.根据权利要求8所述的基于3D渲染引擎的中文唇音同步方法,其特征在于,
文本语音对齐算法的启动参数包括语音文件和中文文本的路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911359277.2A CN111161755A (zh) | 2019-12-25 | 2019-12-25 | 基于3d渲染引擎的中文唇音同步方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911359277.2A CN111161755A (zh) | 2019-12-25 | 2019-12-25 | 基于3d渲染引擎的中文唇音同步方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111161755A true CN111161755A (zh) | 2020-05-15 |
Family
ID=70558099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911359277.2A Pending CN111161755A (zh) | 2019-12-25 | 2019-12-25 | 基于3d渲染引擎的中文唇音同步方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161755A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348932A (zh) * | 2020-11-13 | 2021-02-09 | 广州博冠信息科技有限公司 | 口型动画录制方法及装置、电子设备、存储介质 |
CN113284506A (zh) * | 2021-05-20 | 2021-08-20 | 北京沃东天骏信息技术有限公司 | 信息映射方法、装置及存储介质和电子设备 |
CN113538636A (zh) * | 2021-09-15 | 2021-10-22 | 中国传媒大学 | 一种虚拟对象的控制方法、装置、电子设备及介质 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364309A (zh) * | 2008-10-09 | 2009-02-11 | 中国科学院计算技术研究所 | 一种源虚拟角色上的口形动画生成方法 |
CN101826216A (zh) * | 2010-03-31 | 2010-09-08 | 中国科学院自动化研究所 | 一个角色汉语口型动画自动生成系统 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN106446406A (zh) * | 2016-09-23 | 2017-02-22 | 天津大学 | 一种将中文语句转化为人类口型的仿真系统及仿真方法 |
TWI603259B (zh) * | 2016-05-27 | 2017-10-21 | 華碩電腦股份有限公司 | 動畫顯示系統及嘴型動畫顯示方法 |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
CN109712627A (zh) * | 2019-03-07 | 2019-05-03 | 深圳欧博思智能科技有限公司 | 一种使用语音触发虚拟人物表情及口型动画的语音系统 |
-
2019
- 2019-12-25 CN CN201911359277.2A patent/CN111161755A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364309A (zh) * | 2008-10-09 | 2009-02-11 | 中国科学院计算技术研究所 | 一种源虚拟角色上的口形动画生成方法 |
CN101826216A (zh) * | 2010-03-31 | 2010-09-08 | 中国科学院自动化研究所 | 一个角色汉语口型动画自动生成系统 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
TWI603259B (zh) * | 2016-05-27 | 2017-10-21 | 華碩電腦股份有限公司 | 動畫顯示系統及嘴型動畫顯示方法 |
CN106446406A (zh) * | 2016-09-23 | 2017-02-22 | 天津大学 | 一种将中文语句转化为人类口型的仿真系统及仿真方法 |
CN108447474A (zh) * | 2018-03-12 | 2018-08-24 | 北京灵伴未来科技有限公司 | 一种虚拟人物语音与口型同步的建模与控制方法 |
CN109712627A (zh) * | 2019-03-07 | 2019-05-03 | 深圳欧博思智能科技有限公司 | 一种使用语音触发虚拟人物表情及口型动画的语音系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348932A (zh) * | 2020-11-13 | 2021-02-09 | 广州博冠信息科技有限公司 | 口型动画录制方法及装置、电子设备、存储介质 |
CN113284506A (zh) * | 2021-05-20 | 2021-08-20 | 北京沃东天骏信息技术有限公司 | 信息映射方法、装置及存储介质和电子设备 |
CN113538636A (zh) * | 2021-09-15 | 2021-10-22 | 中国传媒大学 | 一种虚拟对象的控制方法、装置、电子设备及介质 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN114581567B (zh) * | 2022-05-06 | 2022-08-02 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161755A (zh) | 基于3d渲染引擎的中文唇音同步方法 | |
CN110941954B (zh) | 文本播报方法、装置、电子设备及存储介质 | |
US10360716B1 (en) | Enhanced avatar animation | |
EP1269465B1 (en) | Character animation | |
KR101492816B1 (ko) | 애니메이션 립싱크 자동화 장치 및 방법 | |
KR20070020252A (ko) | 메시지를 수정하기 위한 방법 및 시스템 | |
WO2001046947A1 (en) | Voice-controlled animation system | |
KR20180038318A (ko) | 자막 생성 시스템, 자막 생성 방법, 그리고 콘텐트 생성 프로그램 | |
CN104574478A (zh) | 一种编辑动画人物口型的方法及装置 | |
US20150187112A1 (en) | System and Method for Automatic Generation of Animation | |
KR101597286B1 (ko) | 아바타 영상 메시지를 생성하는 장치 및 방법 | |
CN115700772A (zh) | 人脸动画生成方法及装置 | |
KR101089184B1 (ko) | 캐릭터의 발화와 감정표현 제공 시스템 및 방법 | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
Tang et al. | Humanoid audio–visual avatar with emotive text-to-speech synthesis | |
CN117636897A (zh) | 一种数字人音视频生成系统 | |
CN116582726A (zh) | 视频生成方法、装置、电子设备及存储介质 | |
CN110796718A (zh) | 一种口型切换渲染方法、系统、装置和存储介质 | |
CN114581567B (zh) | 一种声音驱动虚拟形象口型方法、装置及介质 | |
CN116152888A (zh) | 一种基于超短视频样本快速生成虚拟人动态名片的方法 | |
CN117769739A (zh) | 用于配音的辅助翻译和嘴唇匹配的系统和方法 | |
CN113192484A (zh) | 基于文本生成音频的方法、设备和存储介质 | |
CN112992120A (zh) | 语音转换虚拟脸部图像的方法 | |
CN111459451A (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
CN116580721B (zh) | 表情动画的生成方法、装置和数字人平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |