CN111161755A

CN111161755A - 基于3d渲染引擎的中文唇音同步方法

Info

Publication number: CN111161755A
Application number: CN201911359277.2A
Authority: CN
Inventors: 王绍楠; 陈舟锋
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-15

Abstract

本发明公开了一种基于3D渲染引擎的中文唇音同步方法，包括以下步骤：第一步，调用执行器启动脚本，输入参数；第二步，执行器动态调整3D人物模型的场景和模型参数；第三步，执行器调用文本语音对齐算法库，文本语音对齐算法会加载中文文本和语音文件，最终输出文本语音对齐文件；第四步，通过音标适配器将文本语音对齐文件中的音标和对应时间点调整为带有时间戳的普通话拼音的声母和韵母的音标，输出音标与时间戳对应的文本语音对齐文件；第五步，执行器调用驱动口型模型，驱动口型模型加载音标适配器输出的音标与时间戳对应的文本语音对齐文件驱动口型动画。本发明的有益之处在于，能适配中文发音规律，符合中文发音口型。

Description

基于3D渲染引擎的中文唇音同步方法

技术领域

本发明涉及一种基于3D渲染引擎的中文唇音同步方法。

背景技术

随着人工智能技术的快速发展，主持人播报新闻也有了更新颖的方式。通过输入一段新闻语音材料，在较短的时间内，输出一段由预设的3D真人模型在相应的场景下播报新闻的动画或者视频。其中模型播报新闻需要使用到唇音同步的技术，即在语音播放的同时，模型需要配合对应的嘴型动作，以此展现出模型在“说话”的场景。文章Web-based livespeech-driven lip-sync(Llorach et al.2016)提出唇音同步算法，提取音频参数，通过三种blend shape驱动嘴型,生成动画。Rogo Digital开发的LipSync也是一款能够通过语音文件驱动面部(嘴巴，眼睛，眉毛等)动画的Unity3D的编辑器插件。

当前技术驱动的口型动画只匹配了发音时间点，很难精确驱动出音标的真实发音口型；唇音同步插件基本由海外开发者开发，发音的口型一般适用英文的发音习惯，不适用中文的发音规律。

发明内容

为解决现有技术的不足，本发明提供了一种基于3D渲染引擎的中文唇音同步方法，可以适配中文发音规律，在3D渲染引擎中，加载中文文字文本和文字音频文件后，通过预设的3D真人模型，实时渲染发音驱动口型的动画。

一种基于3D渲染引擎的中文唇音同步方法，包括以下步骤：

第一步，调用执行器启动脚本，输入参数；

第二步，执行器动态调整3D人物模型的场景和模型参数；

第三步，执行器调用文本语音对齐算法库，文本语音对齐算法会加载中文文本和语音文件，最终输出文本语音对齐文件；

第四步，通过音标适配器将文本语音对齐文件中的音标和对应时间点调整为带有时间戳的普通话拼音的声母和韵母的音标，输出音标与时间戳对应的文本语音对齐文件；

第五步，执行器调用驱动口型模型，驱动口型模型加载音标适配器输出的音标与时间戳对应的文本语音对齐文件驱动口型动画。

进一步地，驱动口型模型驱动口型动画的步骤包括：

加载音标适配器输出的音标与时间戳对应的文本语音对齐文件；

加载模型预设的所有blendshape动画；

音频帧循环；

根据当前帧的时间戳从加载的音标适配器输出的音标与时间戳对应的文本语音对齐文件获取当前音标；

判断当前帧的音标与上一帧的音标是否相同，若相同则跳转至音频帧循环，若不相同则播放当前帧的音标的blendshape动画。

进一步地，在调用执行器之前，导入预设的3D人物模型和驱动口型模块。

进一步地，驱动口型模型预设有37个拼音的声母和韵母的音标和70个blendshape动画，每个声母和韵母的发音口型动作与多个人物模型的blendshape动画进行优化组合。

进一步地，音标适配器输出的音标与时间戳对应的文本语音对齐文件的格式为(timestamp_i，phoneme_i)，其中timestamp_i表示第i个音标的时间戳，phoneme_i表示第i个音标。

进一步地，第i个音标的持续时间为timestamp_(i+1)-timestamp_i。

进一步地，3D人物模型预设有若干种表情。

进一步地，调用执行器启动脚本输入的参数包括：动态调整3D人物模型的参数和文本语音对齐算法的启动参数。

进一步地，文本语音对齐算法的启动参数包括语音文件和中文文本的路径。

本发明的有益之处在于在3D渲染引擎中，通过中文文本和音频驱动人物模型的口型，渲染出的动画，与音频真实发音时间点、发音时长匹配，且发音口型符合中文普通话发音规律。

附图说明

图1是一种基于3D渲染引擎的中文唇音同步方法的流程图；

图2是图1中基于3D渲染引擎的中文唇音同步方法的blendshape动画的表单；

图3是图1中基于3D渲染引擎的中文唇音同步方法的驱动口型模块中普通话音标及口型图；

图4是图1中基于3D渲染引擎的中文唇音同步方法的驱动口型模型驱动口型动画的步骤。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1至图4所示，一种基于3D渲染引擎的中文唇音同步方法，包括以下步骤：

第一步，调用执行器启动脚本，输入参数；

第二步，执行器动态调整3D人物模型的场景和模型参数；

作为一种具体的实施方式，可以采用Unity3D作为渲染引擎。在调用执行器之前，导入预设的3D人物模型和驱动口型模块。

其中3D人物模型需要预设的功能点如下：

a)模型格式需要为fbx格式；

b)人物模型需要带有blendshape/Morph动画；

c)需要有绑定好的人形骨骼；

d)衣物等等需要蒙皮，不要发生穿模现象；

e)人物模型至少提供一个双手摆正站立的动画和T-Pose动画。

驱动口型模型预设有多个普通话拼音的声母和韵母，每个声母和韵母的发音口型动作与多个人物模型的blendshape动画进行优化组合。

驱动模型口型模块需要预设功能如下：

a)模型的发音口型以普通话拼音的声母和韵母的口型标准，驱动口型模型预设有37个有典型口型的声母或韵母；

b)每个发音口型动作需要多个人物模型的blendshape进行优化组合。具体而言，可以设置70个blendshape动画。

作为一种具体的实施方式，调用执行器启动脚本输入的参数包括：动画背景图路径，人物模型表情、缩放比例、锚点的二维坐标，语音文件和文本文件的路径；其中动画背景图路径和人物模型表情、缩放比例、锚点的二维坐标是动态调整3D人物模型的参数；语音文件和文本文件的路径是文本语音对齐算法的启动参数。

执行器动态调整3D人物模型的场景和模型参数：动画背景图路径，人物模型表情、缩放比例、锚点的二维坐标。模型表情需要预先制作，可以预设有若干种表情。具体而言，预设有happy(高兴)，sad(悲伤)，angry(愤怒)三种表情。用于表示在模型动画播放时，能有相应的情绪；缩放比例和锚点二维坐标方便调整人物模型在场景中的大小和位置；动画背景图方便调整语音播报时的场景。

执行器调用文本语音对齐算法库，文本语音对齐算法会加载中文文本和语音文件，最终输出文本语音对齐文件。为了能够符合中文发音的效果，可以选择宾夕法尼亚大学的Simple Chinese Forced Alignment算法；文本语音对齐算法输出的文本是音标和对应时间点。

音标适配器输出的音标与时间戳对应的文本语音对齐文件的格式为(timestamp_i，phoneme_i)。其中timestamp_i表示第i个音标的时间戳，phoneme_i表示第i个音标。进一步地，第i个音标的持续时间为timestamp_(i+1)-timestamp_i。即后一个音标的时间戳和当前音标的时间戳之差为当前音标的持续时间。

作为一种优选的实施方式，驱动口型模型驱动口型动画的步骤包括：

加载模型预设的所有blendshape动画；

音频帧循环；

如果音频帧循环结束，则流程结束。

音频帧循环的blendshape播放(blendshape动画是渲染引擎在两帧之间的差值渲染)，使得人物模型在播放音频时展现对应的口型动画。

文本语音对齐算法库可自由选择或者研发，最终发音音标以普通话音标及口型图为标准。

驱动模型口型模块可以根据不同的3D渲染引擎自由选择或者研发。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于3D渲染引擎的中文唇音同步方法，其特征在于，包括以下步骤：

第一步，调用执行器启动脚本，输入参数；

第二步，执行器动态调整3D人物模型的场景和模型参数；

2.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法，其特征在于，

驱动口型模型驱动口型动画的步骤包括：

加载模型预设的所有blendshape动画；

音频帧循环；

3.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法，其特征在于，

在调用执行器之前，导入预设的3D人物模型和驱动口型模块。

4.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法，其特征在于，

驱动口型模型预设有37个拼音的声母和韵母的音标，70个blendshape动画，每个声母和韵母的发音口型动作与多个人物模型的blendshape动画进行优化组合。

5.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法，其特征在于，

音标适配器输出的音标与时间戳对应的文本语音对齐文件的格式为(timestamp_i，phoneme_i)，其中timestamp_i表示第i个音标的时间戳，phoneme_i表示第i个音标。

6.根据权利要求5所述的基于3D渲染引擎的中文唇音同步方法，其特征在于，

第i个音标的持续时间为timestamp_(i+1)-timestamp_i。

7.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法，其特征在于，

3D人物模型预设有若干种表情。

8.根据权利要求1所述的基于3D渲染引擎的中文唇音同步方法，其特征在于，

调用执行器启动脚本输入的参数包括：动态调整3D人物模型的参数和文本语音对齐算法的启动参数。

9.根据权利要求8所述的基于3D渲染引擎的中文唇音同步方法，其特征在于，

文本语音对齐算法的启动参数包括语音文件和中文文本的路径。