CN110782514A

CN110782514A - 一种基于虚幻引擎的口型切换渲染系统及方法

Info

Publication number: CN110782514A
Application number: CN201910846148.XA
Authority: CN
Inventors: 呼伦夫; 陈炜
Original assignee: Tianmai Juyuan (hangzhou) Media Technology Co Ltd
Current assignee: Beijing Lajin Zhongbo Technology Co ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-02-11

Abstract

本发明公开了一种基于虚幻引擎的口型切换渲染系统及方法，其中系统包括转换插件、蓝图组件和渲染引擎；所述转换插件用于获取汉语文本，并对汉语文本进行解析后，获得汉语文本中每个汉字的拼音，以及将各汉字的拼音进行拆解后，获得与拼音对应的音素数组；所述蓝图组件用于采用预设的融合曲线对音素数组进行融合，并根据融合后的音素数组获得映射值；所述渲染引擎用于根据映射值驱动口型的变化，从而渲染出不同的口型。本发明通过将汉字的拼音拆解为音素数组，再结合融合曲线对音素数组进行融合，从而获得驱动渲染引擎的映射值，由于映射值融合有上一个音素数组信息，因此能够使更加平滑地驱动口型变化，可广泛应用于人脸表情动画研究领域。

Description

一种基于虚幻引擎的口型切换渲染系统及方法

技术领域

本发明涉及人脸表情动画研究领域，尤其涉及一种基于虚幻引擎的口型切换渲染系统及方法。

背景技术

随着计算机技术和动画技术的快速发展，虚拟人物应用得越来越广泛，除了传统的动画电影行业，现在新闻广播行业也有应用到虚拟动画人物，比如采用虚拟的主持人主播新闻。由于汉语口型动画的发展相对比较落，目前的虚拟人物在“说话”时，主要是通过固定的方式渲染口型一张一合，而无法根据播放的语音平滑有效地控制口型，即使是不同的读音产生的同样的口型，给观众造成较差的观看体验，无法满足对虚拟动画人物的口型的要求越来越高。

名词解释：

虚幻引擎4：英文名为Unreal Engine 4(简称为UE4)，是由全球顶级游戏EPIC公司虚幻引擎的最新版本，EPIC中国唯一授权机构GA游戏教育基地。是一个面向下一代游戏机和DirectX 9个人电脑的完整的游戏开发平台，提供了游戏开发者需要的大量的核心技术、数据生成工具和基础支持。

蓝图组件：所述蓝图为虚幻4蓝图，所述组件为在蓝图上搭建的组件。

发明内容

为了解决上述技术问题，本发明的目的是提供一种通过虚幻引擎实现口型切换渲染是系统及方法。

本发明所采用的第一技术方案是：

一种基于虚幻引擎的口型切换渲染系统，包括转换插件、蓝图组件和渲染引擎，所述蓝图组件分别转换插件和渲染引擎连接；

所述转换插件用于获取汉语文本，并对汉语文本进行解析后，获得汉语文本中每个汉字的拼音，以及将各汉字的拼音进行拆解后，获得与拼音对应的音素数组；

所述蓝图组件用于采用预设的融合曲线对音素数组进行融合，并根据融合后的音素数组获得映射值；

所述渲染引擎用于根据映射值驱动口型的变化，从而渲染出不同的口型。

进一步，所述转换插件内设有拼音数据库，所述转换插件对汉语文本进行解析后，获得汉语文本中每个汉字的拼音具体为：

采用预设的转换器对拼音数据库的格式进行转换；

根据转换格式后的拼音数据库对汉语文本进行解析，并获取每个汉字的拼音。

进一步，所述音素数组包括声母和韵母，所述转换插件将各汉字的拼音进行拆解后，获得与拼音对应的音素数组具体为：

依次将各汉字的拼音拆解为声母和韵母，并获得与拼音对应的音素数组；

按照汉字的顺序对音素数组进行排序后，获得音素序列。

进一步，所述转换插件内设有声母表，所述依次将各汉字的拼音拆解为声母和韵母这一步骤，具体包括以下步骤：

依次获取拼音的首位字母，并结合首位字母和声母表检测是否存有声母；

若存有声母，根据拼音遍历声母表后，获得声母的类型，以及获取韵母和韵母的类型；

若不存有声母，则根据拼音获取韵母以及韵母的类型。

进一步，所述蓝图组件具体用于：

将解析获得的音素序列存储到音素池内后，根据声母的类获取声母曲线，以及根据韵母的类型获取韵母曲线；

对声母曲线和韵母曲线分配时间权重后，将同一音素数组的声母曲线和韵母曲线进行融合，并获得音素曲线；

按照音素序列的顺序，依次结合上一个音素曲线、当前音素曲线和预设的映射模型计算映射值；

将映射值发送至渲染引擎。

进一步，所述依次结合上一个音素曲线、当前音素曲线和预设的映射模型计算映射值这一步骤，具体包括以下步骤：

依次采用Lerp函数将上一个音素曲线和当前音素曲线进行融合，并获得混合曲线；

采用预设的映射模型对混合曲线进行计算后，获得映射值。

进一步，所述渲染引擎上预设有口型模型，所述渲染引擎具体用于：

依次结合映射值和预设的口型模型驱动口型的变化，并渲染出不同的口型。

本发明所采用的第二技术方案是：

一种基于虚幻引擎的口型切换渲染方法，包括以下步骤：

获取汉语文本，并对汉语文本进行解析后，获得汉语文本中每个汉字的拼音；

将各汉字的拼音进行拆解后，获得与拼音对应的音素数组；

采用预设的融合曲线对音素数组进行融合，并根据融合后的音素数组获得映射值；

根据映射值驱动口型的变化，从而渲染出不同的口型。

进一步，所述获取汉语文本，并对汉语文本进行解析后，获得汉语文本中每个汉字的拼音这一步骤，具体包括以下步骤：

采用预设的转换器对拼音数据库的格式进行转换；

进一步，所述音素数组包括声母和韵母，所述将各汉字的拼音进行拆解后，获得与拼音对应的音素数组这一步骤，具体包括以下步骤：

按照汉字的顺序对音素数组进行排序后，获得音素序列。

本发明的有益效果是：本发明通过将汉字的拼音拆解为音素数组，再结合融合曲线对相邻的音素数组进行融合，从而获得驱动渲染引擎的映射值，由于映射值融合有上一个音素数组信息，因此能够使更加平滑地驱动口型变化。

附图说明

图1是本发明一种基于虚幻引擎的口型切换渲染系统的结构框图；

图2是本发明一种基于虚幻引擎的口型切换渲染方法的步骤流程图；

图3是具体实施方式中单个汉语拼音的音素曲线；

图4是具体实施方式中音素曲线进行融合的示意图；

图5是具体实施例中口型切换渲染系统的示意图；

图6是具体实施例中口型连续切换渲染的示意图。

具体实施方式

如图1所示，本实施例提供了一种基于虚幻引擎的口型切换渲染系统，包括转换插件、蓝图组件和渲染引擎，所述蓝图组件分别转换插件和渲染引擎连接；

人们在说话时，很多时候嘴型是相连接的，比如在说“我爱你”时，嘴巴一直是处于张开的状态，嘴唇并没有闭合。“爱”字的发音是在“我”字发音口型的前提下产生的，因此在连续说话时，口型的变化不仅与该汉字的发音有关，还与前一个汉字发音有关。在专利申请号为201410712164.7的专利中公开了一种口型动画合成方法，该方法中详细地讲述了如何根据拼音控制生成对应的口型，但是该方法并不能有效地解决口型直接平滑连接过度的问题。

在本实施例的系统由UE4引擎来实现，为了使系统具有更好的复用性，将整体功能组件化和插件化，故整体框架包括转换插件、蓝图组件和渲染引擎，所述转换插件只进行两个接口的交互，输入文本和接收实时的音素口型的序列值。当汉语文本输入转换插件后，将文本转换为拼音，并将进行拆解，以获得每个汉字的音素数组，比如“你好”的拼音为“NIHAO”，则“你”字获得音素数组为(“N”，“I”)，而“好”字获得音素数组为(“H”，“AO”)或(“H”，“A”，“O”)，将获得的音素数组发送至蓝图组件。所述蓝图组件用于通过预设的曲线将各音素数组进行融合，以使口型的前后连接更加自然，更加符合实际情况；根据融合后的音素数组计算获得对应的映射值，并将映射值发送至渲染引擎。所述映射值发送至渲染引擎后，通过结合预设的口型模型库，渲染出对应的口型模型画面。由于虚幻引擎的渲染功能比较强大，因此能够实时有效地根据映射值渲染出对应的口型画面。

进一步作为优选的实施方式，所述转换插件内设有拼音数据库，所述转换插件对汉语文本进行解析后，获得汉语文本中每个汉字的拼音具体为：

采用预设的转换器对拼音数据库的格式进行转换；

所述拼音数据库可采用现有的数据库来实现，现在网络中可下载到对应的拼音数据库，在此不赘述。由于大部分中文转换拼音的库都是通过GBK编码对应的，而UE4引擎本身不支持GBK格式，因此需要对拼音数据库的格式进行转换。具体地，UTF-8转换GBK的代码如下所示：

1.string utf8_to_gbk(const string&str)

2.{

3.wstring_convert<codecvt_utf8<wchar_t>>utf8_cvt；//utf8-》unicode转换器

4.wstring_convert<codecvt<wchar_t,char,mbstate_t>>gbk_cvt(new codecvt<wchar_t,char,mbstate_t>("chs"))；//unicode-》gbk转换器

5.wstring t＝utf8_cvt.from_bytes(str)；

6.return gbk_cvt.to_bytes(t)；

7.}

8.//空行

9.//gbk转utf8

10.string gbk_to_utf8(const string&str)

11.{

12.wstring_convert<codecvt_utf8<wchar_t>>utf8_cvt；//utf8-》unicode转换器

13.wstring_convert<codecvt<wchar_t,char,mbstate_t>>gbk_cvt(newcodecvt<wchar_t,char,mbstate_t>("chs"))；//unicode-》gbk转换器

14.wstring t＝gbk_cvt.from_bytes(str)；

15.return utf8_cvt.to_bytes(t)；

16.}

进一步作为优选的实施方式，所述音素数组包括声母和韵母，所述转换插件将各汉字的拼音进行拆解后，获得与拼音对应的音素数组具体为：

按照汉字的顺序对音素数组进行排序后，获得音素序列。

进一步作为优选的实施方式，所述转换插件内设有声母表，所述依次将各汉字的拼音拆解为声母和韵母这一步骤，具体包括以下步骤：

若不存有声母，则根据拼音获取韵母以及韵母的类型。

在本实施例中，声母可以划分为“bmp”、“f”、“dtnl”、“gkh”、“jqx”、“zcs”和“zhchshr”7种类型，而韵母可以主要划分为“a”、“o”、“e”、“i”和“u”5中类型，具体如何划分可采用现有的技术进行划分，比如参照专利申请号为201410712164.7的专利中公开的方式进行划分，在此不进行赘述。

进一步作为优选的实施方式，所述蓝图组件具体用于：

将映射值发送至渲染引擎。

进一步作为优选的实施方式，所述依次结合上一个音素曲线、当前音素曲线和预设的映射模型计算映射值这一步骤，具体包括以下步骤：

采用预设的映射模型对混合曲线进行计算后，获得映射值。

蓝图组件主要的是通过曲线融合声母韵母和相邻两个汉字的曲线，最终输出为一个map值(即映射值)发送给渲染引擎。

将拼音拆解为两部分，声母部分和韵母部分，由于中文读音中声母和韵母的发音时间是有所差异的，具体地，声母发音先于韵母发音，但是声母发音的时长比韵母发音的时长比短，所以需要给声母和韵母分配不同的时间权重，最终获得每个汉字的音素数组。按照汉语文本中汉字顺序对音素数组进行排序，获得音素序列。

预先设计好各类型的声母和韵母的曲线信息，在检测到对应的类型后，从数据库中获得对应的声母曲线和韵母曲线。参照图3，结合声母和韵母的时间权重，将声母曲线和韵母曲线融合为音素曲线。参照图4，获得各汉字对应的音素曲线后，将相邻汉字的音素曲线进行混合，即可实现当前的汉字的口型为上一个汉字的口型和本汉字的发音控制。具体地，需要将上一个汉字的韵母曲线与本汉字的声母曲线进行混合，在本实施例中，采用Lerp函数对相邻的音素曲线进行融合。具体地，通过预设的PhonemeToMorph函数将音素序列解析为map值，该map值由缓存上一个单词的morph值和当前单词的值，通过曲线进行混合计算获得。

进一步作为优选的实施方式，所述渲染引擎上预设有口型模型，所述渲染引擎具体用于：

所述渲染引擎通过监听SetupMorph事件，并结合预设的口型模型数据库，采用虚幻引擎的渲染功能渲染出对应的口型模型，参照图6，为一个在时间上连续变化的口型，口型的变化更加平滑，避免口型的变化过于突兀，或者每个汉语单词都由张嘴和闭嘴组成，显得不够真实与自然，降低了观众的观看体验。

具体实施例

以下结合图3-图6对上述系统进行详细解释说明。

如图5所示，该口型切换渲染系统包括转换插件、蓝图组件和渲染引擎三部分。Lipsync_CN.h为模块类文件，pinyin2.h为拼音库，LipsyncFunctionlibrary.h与外部组件进行交互通过两个函数。把文本转换为拼音和把拼音转换为音素数组，并且定义了EPhoneme_CN枚举，对应着12个口型，FWord_S_Phoneme为一个单词的音素数组，具体的代码如下所示：

1.#pragma once

2.

3.

4.#include"CoreMinimal.h"

5.#include"Kismet/BlueprintFunctionLibrary.h"

6.#include"LipsyncFunctionLibrary.generated.h"

7.

8.//音素的枚举

9.//dtnl是拼音d t n l的集合

10.UENUM(BlueprintType)

11.enum class EPhoneme_CN:uint8

12.{

13.a,

14.o,

15.e,

16.i,

17.u,

18.bmp,

19.f,

20.dtnl,

21.gkh,

22.jqx,

23.zcs,

24.zhchshr,

25.none

26.}；

27.

28.//一个字的音素数组0位是声母Time是权值

29.USTRUCT(Blueprintable)

30.struct FWord_S_Phoneme

31.{

32.GENERATED_BODY()

33.

34.UPROPERTY(BlueprintReadWrite)

35.TArray<EPhoneme_CN>Word_EPhoneme；

36.

37.UPROPERTY(BlueprintReadWrite)

38.float Time；

39.

其中，所使用的拼音数据库，可采用以下链接代码来实现：https://blog.csdn.net/CSND_Ayo/article/details/64905051。

参照图3和图4，所述蓝图组件具体将从转换插件中接收到的音素序列进行融合，从而连接当前音素数组与上一个音素数组的关系，最终输出一个映射值，该映射值与口型模型具有一一对应的关系，渲染模型通过监听到映射值后，从口型模型数据库调取数据，并渲染出对应的口型画面，如图6所示，为一个在时间上连续口型变化的示意图。

如图2所示，本实施例还提供了一种基于虚幻引擎的口型切换渲染方法，包括以下步骤：

S1、获取汉语文本，并对汉语文本进行解析后，获得汉语文本中每个汉字的拼音；

S2、将各汉字的拼音进行拆解后，获得与拼音对应的音素数组；

S3、采用预设的融合曲线对音素数组进行融合，并根据融合后的音素数组获得映射值；

S4、根据映射值驱动口型的变化，从而渲染出不同的口型。

其中，所述步骤S1具体包括步骤S11～S12：

S11、采用预设的转换器对拼音数据库的格式进行转换；

S12、根据转换格式后的拼音数据库对汉语文本进行解析，并获取每个汉字的拼音。

所述音素数组包括声母和韵母，所述步骤S2具体包括步骤S21～S22：

S21、依次将各汉字的拼音拆解为声母和韵母，并获得与拼音对应的音素数组；

S22、按照汉字的顺序对音素数组进行排序后，获得音素序列。

本实施例的一种基于虚幻引擎的口型切换渲染方法，可执行本发明系统实施例所提供的一种基于虚幻引擎的口型切换渲染系统，可执行系统实施例的任意组合实施步骤，具备该系统相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于虚幻引擎的口型切换渲染系统，其特征在于，包括转换插件、蓝图组件和渲染引擎，所述蓝图组件分别转换插件和渲染引擎连接；

2.根据权利要求1所述的一种基于虚幻引擎的口型切换渲染系统，其特征在于，所述转换插件内设有拼音数据库，所述转换插件对汉语文本进行解析后，获得汉语文本中每个汉字的拼音具体为：

采用预设的转换器对拼音数据库的格式进行转换；

3.根据权利要求1所述的一种基于虚幻引擎的口型切换渲染系统，其特征在于，所述音素数组包括声母和韵母，所述转换插件将各汉字的拼音进行拆解后，获得与拼音对应的音素数组具体为：

按照汉字的顺序对音素数组进行排序后，获得音素序列。

4.根据权利要求3所述的一种基于虚幻引擎的口型切换渲染系统，其特征在于，所述转换插件内设有声母表，所述依次将各汉字的拼音拆解为声母和韵母这一步骤，具体包括以下步骤：

若不存有声母，则根据拼音获取韵母以及韵母的类型。

5.根据权利要求4所述的一种基于虚幻引擎的口型切换渲染系统，其特征在于，所述蓝图组件具体用于：

将映射值发送至渲染引擎。

6.根据权利要求5所述的一种基于虚幻引擎的口型切换渲染系统，其特征在于，所述依次结合上一个音素曲线、当前音素曲线和预设的映射模型计算映射值这一步骤，具体包括以下步骤：

采用预设的映射模型对混合曲线进行计算后，获得映射值。

7.根据权利要求6所述的一种基于虚幻引擎的口型切换渲染系统，其特征在于，所述渲染引擎上预设有口型模型，所述渲染引擎具体用于：

8.一种基于虚幻引擎的口型切换渲染方法，其特征在于，包括以下步骤：

将各汉字的拼音进行拆解后，获得与拼音对应的音素数组；

根据映射值驱动口型的变化，从而渲染出不同的口型。

9.根据权利要求8所述的一种基于虚幻引擎的口型切换渲染方法，其特征在于，所述获取汉语文本，并对汉语文本进行解析后，获得汉语文本中每个汉字的拼音这一步骤，具体包括以下步骤：

采用预设的转换器对拼音数据库的格式进行转换；

10.根据权利要求8所述的一种基于虚幻引擎的口型切换渲染方法，其特征在于，所述音素数组包括声母和韵母，所述将各汉字的拼音进行拆解后，获得与拼音对应的音素数组这一步骤，具体包括以下步骤：

按照汉字的顺序对音素数组进行排序后，获得音素序列。