CN115312030A

CN115312030A - 虚拟角色的显示控制方法、装置及电子设备

Info

Publication number: CN115312030A
Application number: CN202210713805.5A
Authority: CN
Inventors: 郑一星; 毕梦霄; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-08

Abstract

本申请公开了一种虚拟角色的显示控制方法、装置、电子设备及计算机可读存储介质。方法包括：识别待播放语音对应的第一语种、以及所述待播放语音的音素，所述音素表示单个发音；根据第一映射关系确定所述待播放语音的音素分别对应的视素，所述第一映射关系用于表示所述第一语种对应的音素集合中的音素与视素集合中的视素之间的对应关系，所述视素用于表示虚拟角色发音时的口型视觉特征；根据所确定的所述视素确定虚拟角色的口型参数，并根据所述口型参数渲染显示所述虚拟角色。本申请提供的方案针对虚拟角色需要讲多种语种的场景，无需针对不同语种收集大量训练数据，使得口型确定的整个过程简单而易于实现。

Description

虚拟角色的显示控制方法、装置及电子设备

技术领域

本申请涉及动画制作技术领域，具体涉及一种虚拟角色的显示控制方法、装置、电子设备及计算机可读存储介质。

背景技术

随着动画技术的快速发展，在动画制作过程中，对虚拟角色的讲话口型与讲话内容的匹配度要求越来越高。

相关技术中，通常是通过智能模型得到语音对应的口型。智能模型需要通过预先收集的训练数据进行训练，训练数据包括真实演员的讲话语音以及真实演员讲话时的口型。对于虚拟角色需要讲多种语种的场景，训练数据需要包括多种语种的语音对应的口型，为了将模型训练得更准确，每一种语种均需要对应大量的训练数据，由于一个演员往往只会说一两种语种，所以，通常会通过不同演员收集不同语种对应的训练数据。

由上可见，相关技术为了生成虚拟角色针对不同语种的口型，需要针对不同语种收集大量的训练数据，导致训练数据的收集过程比较复杂、麻烦，从而导致口型生成的整个过程比较复杂而不容易实现。

发明内容

本申请提供了一种虚拟角色的显示控制方法、装置、电子设备及计算机可读存储介质，可以很准确地确定出虚拟角色对应的不同语种的语音的口型，且口型确定无需针对不同语种收集大量的训练数据，可以使得口型确定及虚拟角色显示控制的整个过程更简单而易于实现。具体方案如下：

第一方面，本申请实施例提供了一种虚拟角色的显示控制方法，所述方法包括：

识别待播放语音对应的第一语种、以及所述待播放语音的音素，所述音素表示单个发音；

根据第一映射关系确定所述待播放语音的音素分别对应的视素，所述第一映射关系用于表示所述第一语种对应的音素集合中的音素与视素集合中的视素之间的对应关系，所述视素用于表示虚拟角色发音时的口型视觉特征；

根据所确定的所述视素确定虚拟角色的口型参数，并根据所述口型参数渲染显示所述虚拟角色。

可选地，所述根据所确定的所述视素生成所述虚拟角色的口型参数，包括：

将所确定的所述视素输入训练好的口型生成模型中，得到所述虚拟角色的口型参数。

可选地，所述口型参数至少包括融合变形参数、关键点参数、骨骼参数中的任意一种。

可选地，所述识别待播放语音对应的第一语种、以及所述待播放语音的音素之前，所述方法包括：获取训练样本，所述训练样本包括发音者发出的样本语音以及与所述样本语音对应的口型参数，所述口型参数由所述发音者发出所述样本语音时的口型视觉特征得出；

确定所述样本语音的音素以及所述样本语音对应的第二语种；

根据所述第二语种对应的第二映射关系确定所述样本语音的音素对应的视素，所述第二映射关系用于表示所述第二语种对应的音素集合中的音素与所述视素集合中的视素之间的对应关系；

将所述样本语音的音素对应的视素输入待训练模型中，得到输出结果；

基于使所述输出结果与所述样本语音对应的口型参数之间的差别小于设定阈值的收敛条件，对所述待训练模型进行参数调整，得到训练好的口型生成模型。

可选地，所述样本语音为同一个发音者所发出的语音。

可选地，所述样本语音为同一个语种的语音。

可选地，所述视素至少为：

用于展示口型视觉特征的图像帧；或者，

用于描述口型视觉特征的文本信息。

可选地，每一语种对应的映射关系通过以下方式得出：

确定该语种的音素集合；

将所述音素集合中的音素转换为国际音标，得到转换后音素；

建立所述转换后音素与视素集合中的视素之间的映射关系。

可选地，当所述多个映射关系中包含中文对应的映射关系时，所述中文对应的转换后音素包括：sil、a、e、i、y、o、u、v、w、b、p、m、d、t、n、l、g、k、h、j、q、x、z、c、s、zh、ch、sh、r、f、ng。

可选地，当所述多个映射关系中还包含英文对应的映射关系时，所述英文对应的转换后音素包括：sil、aa、aw1、ay1、ae、ah、er1、eh、ey1、ow1、ay2、ey2、ih、iy、oy1、y、ao、oy2、aw2、ow2、uh、uw、w、b、p、m、d、t、n、l、g、k、hh、jh、dh、th、s、z、ch、zh、sh、er2、r、f、v、ng。本申请第二方面还提供了一种虚拟角色的显示控制装置，所述装置包括：

识别单元，用于识别待播放语音对应的第一语种、以及所述待播放语音的音素，所述音素表示单个发音；

第一确定单元，用于第一确定单元，用于根据第一映射关系确定所述待播放语音的音素分别对应的视素，所述第一映射关系用于表示所述第一语种对应的音素集合中的音素与视素集合中的视素之间的对应关系，所述视素用于表示虚拟角色发音时的口型视觉特征；

第二确定单元，用于根据所确定的所述视素确定虚拟角色的口型参数，并根据所述口型参数渲染显示所述虚拟角色。

可选地，所述第二确定单元，具体用于：

可选地，所述口型参数至少包括为融合变形参数、关键点参数、骨骼参数中的任意一种。

可选地，所述装置还包括：

样本获取单元，用于获取训练样本，所述训练样本包括发音者发出的样本语音以及与所述样本语音对应的口型参数，所述口型参数由所述发音者发出所述样本语音时的口型视觉特征得出；

第三确定单元，用于确定所述样本语音的音素以及所述样本语音对应的第二语种；根据所述第二语种对应的第二映射关系确定所述样本语音的音素对应的视素，所述第二映射关系用于所述第二语种对应的音素集合中的音素与所述视素集合中的视素之间的对应关系；

训练单元，用于将所述样本语音的音素对应的视素输入待训练模型中，得到输出结果；基于使所述输出结果与所述样本语音对应的口型参数之间的差别小于设定阈值的收敛条件，对所述待训练模型进行参数调整，得到训练好的口型生成模型。

可选地，所述样本语音为同一个发音者所发出的语音。

可选地，所述样本语音为同一个语种的语音。

可选地，所述视素至少为：

用于展示口型视觉特征的图像帧；或者，

用于描述口型视觉特征的文本信息。

可选地，每一语种对应的映射关系通过以下方式得出：

确定该语种的音素集合；

建立所述转换后音素与视素集合中的视素之间的映射关系。

可选地，当所述多个映射关系中还包含英文对应的映射关系时，所述英文对应的转换后音素包括：sil、aa、aw1、ay1、ae、ah、er1、eh、ey1、ow1、ay2、ey2、ih、iy、oy1、y、ao、oy2、aw2、ow2、uh、uw、w、b、p、m、d、t、n、l、g、k、hh、jh、dh、th、s、z、ch、zh、sh、er2、r、f、v、ng。

第三方面，本申请还提供了一种电子设备，包括：

处理器；以及

存储器，用于存储数据处理程序，该电子设备通电并通过所述处理器运行该程序后，执行如第一方面任一项所述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，存储有数据处理程序，该程序被处理器运行，执行如第一方面任一项所述的方法。

与现有技术相比，本申请具有以下优点：

本申请提供的虚拟角色的显示控制方法，识别待播放语音对应的第一语种、以及识别待播放语音的音素，由于音素表示单个发音，所以，待播放语音的各个音素可以很好地将待播放语音表示出来，根据第一映射关系中确定待播放语音的音素对应的视素，由于第一映射关系用于表示第一语种对应的音素集合中的各音素与视素集合中的各视素之间的对应关系，也就是说第一映射关系中包含待播放语音对应的语种的音素与视素之间的对应关系，由于视素集合中的各个视素通常能够表示出全部的口型的视觉特征，也就是说，视素集合即人的各种口型视觉特征的集合，因此，根据第一映射关系能够很方便地确定出待播放语音的各个音素分别对应的各个视素，由于视素表示虚拟角色发音时的口型视觉特征，所以，能够很容易地根据待播放语音的音素对应的视素确定出虚拟角色的口型参数，从而根据该口型参数渲染显示虚拟角色。

可见，本申请针对虚拟角色需要讲多种语种的场景，无需针对不同语种收集大量训练数据，而是直接根据待播放语音的音素得出相对应的视素，从而根据得出的各个视素能够很容易地确定出虚拟角色讲待播放语音时的口型，口型确定的整个过程简单而易于实现，从而使得对虚拟角色的显示控制过程更简单方便。

附图说明

图1是本申请实施例提供的虚拟角色的显示控制方法的一例的流程图；

图2是本申请实施例中blendshape参数与口型的对应示意图；

图3是本申请实施例提供的虚拟角色的显示控制装置的一例的结构框图；

图4是本申请实施例提供的电子设备的一例的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

相关技术中，可以通过手工制作或演员面部动作捕捉法制作虚拟角色的口型。

手工制作法即通过美术人员手工制作虚拟角色在每一帧的口型，但这种方式极度耗费人力，已经被越来越少使用。

演员面部动作捕捉法即通过摄像头记录演员表演时的面部表情，以得到演员的口型，再通过设定的映射技术方式，将演员的口型迁移到虚拟人的表情上，美术人员往往需要在迁移后进一步对blendshape参数等口型参数进行修正。这种方式需要配备比较复杂的拍摄设备以及其他图像处理设备，使得设备配置比较复杂，且由于美术人员需要对口型参数进行修正，导致较为耗费人力。

为了提高口型制作的效率，相关技术中，更多使用的是基于智能模型的语音到口型的映射法。即通过分析虚拟角色需要发出的语音，使用智能模型生成对应说话内容的口型。具体的，可以对虚拟角色需要发出的语音使用语音特征分析方法进行特征提取，得到频谱、梅尔谱、梅尔倒谱系数特征(Mel-frequency cepstral coefficients，简称MFCC)、Fbank、线性预测编码(linear predictive coding，简称LPC)等语音特征，再将语音特征通过智能模型映射到blendshape参数等口型参数上。

但智能模型需要通过预先收集的训练数据进行训练，训练数据包括真实演员的讲话语音以及真实演员讲话时的口型。对于虚拟角色需要讲多种语种的场景，训练数据需要包括多种语种的语音对应的口型，为了将模型训练得更准确，每一种语种均需要对应大量的训练数据，由于一个演员往往只会说一两种语种，所以，通常会通过不同演员收集不同语种对应的训练数据。

另外，由于不同演员说话习惯、脸型不同，会导致通过不同演员的发音收集到的口型有所变化，即使说的是同一个字，不同演员的口型也有所差别。为了保证收集到的口型分布的一致性，提高智能模型的预测准确性，通常会要求所有的训练数据使用同一演员进行搜集，而一个演员往往只会说一两个语种的语言，这也给训练数据的收集带来了很大困难，使得难以训练出在多种语言下都表现自然的智能模型，从而很难通过智能模型的方式准确地制作出虚拟角色的口型。

表1示出了相关技术中进行口型生成的上述三种方式的特点，从表1可以看出，这三种方式针对多语种口型生成的场景存在人力耗费大或难以实现的问题。

表1相关技术中进行口型生成的上述三种方式的特点

基于上述原因，为了很准确地确定出虚拟角色对应的不同语种的语音的口型，且为了使口型确定无需针对不同语种收集大量的训练数据，使得口型确定的整个过程更简单而易于实现，从而使虚拟角色的渲染显示更加简单方便，本申请第一实施例提供了一种虚拟角色的显示控制方法方法，该方法应用于电子设备，该电子设备可以是服务器、台式电脑、笔记本电脑、手机、平板电脑、服务器、终端设备等，也可以是其他能够进行数据处理的电子设备，本申请实施例不具体限定。

本申请实施例所提供的虚拟角色的显示控制方法可以用于制作游戏中虚拟角色讲话时的口型，也可以用于制作其他场景下虚拟角色讲话时的口型，例如，动漫或动画片中的虚拟角色、网络购物平台上的虚拟商品介绍人员等，但不限于此。

如图1所示，本申请提供的虚拟角色的显示控制方法，包括以下步骤S110～步骤S130。

步骤S110：识别待播放语音对应的第一语种、以及待播放语音的音素。

上述待播放语音可以是由真人录制的语音，也可以是由电子设备对文本进行识别并自动朗读后得到的语音，也可以是通过其他方式得到的语音，本申请不具体限定。待播放语音是为虚拟角色所制定的语音。

步骤S110中，可以使用语音识别技术或者智能模型识别待播放语音的语种。例如，可以基于隐马尔可夫模型(hidden markov models，简称HMM)得到待播放语音的梅尔频率倒谱系数特征，再将梅尔频率倒谱系数特征与数据库中的特征进行比对，从而得到待播放语音的语种；或者，也可以通过音素识别器将待播放语音转换为音素序列，结合语言模型(PPRLM，Parallel Phoneme Recognition Language Modeling)的方法来识别音频数据对应的语种类别；或者，也可以直接使用机器学习模型来提取音频数据的特征信息，并根据特征信息识别音频数据对应的语种类别。本申请不限定语种识别的具体方式。

待播放语音对应的第一语种可以是中文语种、英文语种、日文语种、德文语种、法语语种中的任一语种，也可以是其他语种。

或者，待播放语音对应的第一语种也可以包括多个语种，也就是说，待播放语音可以同时包含多个语种，例如，待播放语音的开头部分和结尾部分为中文，中间部分为英文，这种情况下，待播放语种同时包含中文和英文，即第一语种包括中文和英文两种语种。

步骤S110中，可以使用音素识别器、神经网络模型、逻辑回归模型或者其他机器学习模型识别待播放语音的各个音素。本申请实施例中，所识别出的待播放语音的各个音素即各个音素构成的音素序列。

由于不同语种对应的音素通常是不同的，所以，在识别待播放语音的各个音素的过程中，可以基于待播放语音对应的第一语种对待播放语音对应的各个音素进行识别。具体的，可以将待播放语音对应的第一语种以及待播放语音输入神经网络模型、逻辑回归模型等机器学习模型中，得到待播放语音对应的、与第一语种对应的各个音素。

用于识别音素的机器学习模型可以通过不同语种的样本语音、样本语音对应的音素进行训练，具体训练方式不再详述。

上述音素表示单个发音，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。比如，汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素等。

步骤S120：根据第一映射关系确定待播放语音的音素分别对应的视素。

上述第一映射关系用于表示第一语种对应的音素集合中的音素与视素集合中的视素之间的对应关系，上述视素表示虚拟角色发音时的口型视觉特征。

可以理解的是，不同语种通常对应有各自的音素集合。例如，中文对应有中文音素集合，英文对应有英文音素集合，韩语对应有韩语音素集合。

一个语种对应的音素集合可以是该语种对应的所有音素组成的集合，这样可以使得口型确定更准确，使每一个发音均能查询到相应的视素；或者，一个语种对应的音素集合也可以是该语种对应的各个常用音素组成的集合，由于有些音素在发音时可能并不常见，所以，可以将一些不常用的音素排除在音素集合之外，而音素集合只包含常用的各个音素即可较好地实现口型的确定，这样，可以使得视素查询效率更高。音素集合中的各个音素能够满足对虚拟角色发音时的口型确定需求即可，所含音素的具体数量和种类不限定。

由于视素表示的是发音时的口型视觉特征，发音时的不同口型视觉特征组成的集合通常是固定的，所以，视素集合所包含的各个视素通常也是固定的，不同语言对应的是同一个视素集合。

上述视素可以为用于描述口型视觉特征的文本信息，或者，视素也可以为用于展示口型视觉特征的图像帧，视素也可以为其他用于描述口型视觉特征的数据形式。

以视素为用于展示口型视觉特征的图像帧为例，如图2所示，图2列举了视素集合中的部分视素对应的图像帧，图2中的每一张人脸图像的口型是不同的，可以将图2中一张人脸图像作为一个视素，也可以将图2中一张人脸图像的口型区域作为一个视素，视素集合中不同视素对应不同口型形状的图像帧，此处不再穷举。

当视素为用于描述口型视觉特征的文本信息时，视素例如可以包括：嘴巴闭合且嘴巴无倾斜、嘴巴张大幅度为50％(即嘴巴半张开)、嘴巴聚拢且呈“O”形、嘴巴张大幅度为100％(即嘴巴张大)等，也可以包括其他用于描述视素集合中视素的文本信息，此处不再穷举。

本申请实施例中，针对同一语种，一个视素可能对应一个音素，也可能对应多个音素。也就是说，发出不同的音可能对应一个相同的口型。

本申请实施例中，多个语种分别对应的多个映射关系可以包括：中文对应的映射关系、英文对应的映射关系、韩语对应的映射关系、日语对应的映射关系、德文对应的映射关系、法语对应的映射关系、俄语对应的映射关系等，但不限于此。本领域技术人员可以根据实际需求确定不同语种对应的映射关系。

不同语种对应的音素可以通过不同的形式表示，例如，中文对应的音素可以用拼音字母表示、英文对应的音素可以用音标表示，日语对应的音素可以用假名表示。对于拼音字母、音标或假名等中的双元音或者复合音素，可以将复合音素拆成单音素后作为音素集合中的音素。

多个语种分别对应的多个映射关系可以预先存储在电子设备的存储空间内，也可以存储在其他存储介质中。

步骤S130：根据所确定的视素生成虚拟角色的口型参数，并根据该口型参数渲染显示虚拟角色。

步骤S130中，可以预先建立视素集合中的各视素与虚拟角色的口型参数之间的对应关系，再根据该对应关系查找所确定的各视素分别对应的口型参数。

可选地，步骤S130中，也可以按以下步骤S131确定虚拟角色的口型参数。

步骤S131：将所确定的视素输入训练好的口型生成模型中，得到虚拟角色的口型参数。

上述口型生成模型可以通过对神经网络模型、逻辑回归模型等待训练模型进行训练得到。

步骤S131的方式可以使得口型参数的确定更简单方便，也使得所确定的口型参数更准确，从而能够使得虚拟角色的口型与发音更匹配。

本申请实施例中，也可以通过其他方式确定虚拟角色的口型参数，本申请不具体限定。上述口型参数可以为融合变形参数(即blendshape参数)、关键点参数、骨骼参数中的任意一种，但不限于此。

其中，blendshape参数是当今业界被广泛使用来控制虚拟角色口型动作的方式。blendshape参数是由美术人员定义的一套面部表情的控制系统，blendshape参数包括多个维度，每一维具有口型控制的实际含义，通过改变每一维度的参数值来生成相应的口型。例如，如图2所示，JawOpen这一维控制嘴张嘴，MouthSmile_L这一维控制左侧嘴唇的笑，当这两维同时设为50时，可以边张嘴边笑，当这两个维度同时设为100时，上述边张嘴边笑的动作幅度更大。在进行口型生成时，可以通过调整每一帧中虚拟角色的blendshape参数的组合，从而实现让虚拟角色在每一帧都做出与blendshape参数相对应的口型，进而做出连贯的口型动作。

上述关键点参数可以是嘴部的各个关键点在头部坐标系下的坐标，例如，左边嘴角、右边嘴角、上嘴唇的中间点、下嘴唇的中间点分别在头部坐标系下的坐标。关键点参数还可以包括其他关键点在头部坐标系下的坐标，本申请不具体限定。上述关键点参数也可以是嘴部的各个关键点在其他坐标系(例如鼻骨坐标系、眼睛坐标系等)下的坐标，本申请不具体限定。

上述骨骼参数可以是嘴部的各个骨骼对应的相对位置参数，例如，嘴部的各个骨骼在头部坐标系下的旋转值、位移值等。

上述口型参数也可以是其他能够控制虚拟模型的嘴部形状的参数，本申请不具体限定。

由于blendshape参数具体操作简单、生成的口型精准等的优点，因此，本申请实施例中，口型参数可以为blendshape参数，这样，可以使得虚拟角色的口型确定更简单、方便，且生成的口型也更精准。

示例性的，如图2所示，当视素为用于展示口型视觉特征的图像帧时，图2中第一张人脸图像(即第一张人脸图像对应的视素)对应的口型参数可以包括：JawOpen＝0、MouthSmile_L＝0、MouthSmile_R＝0(即右侧嘴唇不笑)；图2中第二张人脸图像(即第二张人脸图像对应的视素)对应的口型参数可以包括：JawOpen＝50、MouthSmile_L＝0、MouthSmile_R＝0；图2中第三张人脸图像对应的口型参数可以包括：JawOpen＝0、MouthSmile_L＝50、MouthSmile_R＝0；图2中第四张人脸图像对应的口型参数可以包括：JawOpen＝50、MouthSmile_L＝50、MouthSmile_R＝0；图2中第五张人脸图像对应的口型参数可以包括：JawOpen＝100、MouthSmile_L＝100、MouthSmile_R＝0。针对不同视素，blendshape参数中的其他口型参数也对应设置有相应的参数值，此处不再一一举例。即同一视素可以对应有多个口型参数，多个口型参数用于控制虚拟角色的口型。

本申请提供的虚拟角色的显示控制方法，识别待播放语音对应的第一语种、以及识别待播放语音的音素，由于音素表示单个发音，所以，待播放语音的各个音素可以很好地将待播放语音表示出来，根据第一映射关系中确定待播放语音的音素分别对应的视素，由于第一映射关系用于表示第一语种对应的音素集合中的音素与视素集合中的视素之间的对应关系，由于视素集合中的各个视素通常能够表示出全部的口型的视觉特征，也就是说，视素集合即人的种口型视觉特征的集合，因此，根据第一映射关系能够很方便地确定出待播放语音的各个音素分别对应的各个视素，由于视素表示虚拟角色发音时的口型视觉特征，所以，能够很容易地根据待播放语音的音素分别对应的视素确定出虚拟角色的口型参数，从而根据该口型参数渲染显示虚拟角色。

在一种实施方式中，在步骤S110之前，还可以包括以下步骤S210～步骤S250。

步骤S210：获取训练样本。

上述训练样本包括发音者发出的样本语音以及与样本语音对应的口型参数，该口型参数由发音者发出样本语音时的口型视觉特征得出。

本实施例中，可以根据发音者发出样本语音时的口型视觉特征手动调整作为训练用的虚拟角色的口型，使该作为训练用的虚拟角色的口型与发音者发出样本语音时的口型相同或相似，再从该作为训练用的虚拟角色对应的模型信息中提取出其口型参数，将所提取出的参数确定为样本语音对应的口型参数。

或者，也可以获取发音者发出样本语音时的口型图像，对该口型图像进行图像识别，识别出口型图像中各个关键点的位置信息(例如各个关键点的坐标)，或者从口型图像中识别出嘴部的各个骨骼的位置信息，将各个关键点的位置信息或者各个骨骼的位置信息确定为样本语音对应的口型参数。

或者，也可以人工根据发音者发出样本语音时的口型视觉特征确定样本语音对应的口型参数。本申请不限定样本语音对应的口型参数的具体确定方式。

上述样本语音可以为同一个发音者所发出的语音，这样，可以减少由于不同演员说话习惯和脸型不同带来的训练误差，从而更好地保证收集到的口型分布的一致性，提高了口型生成模型的预测准确性。

可选地，上述样本语音可以为同一个语种的语音，这样，发音者只需会一个语种的语言即可，降低了对发音者的外语能力，使得样本语音的收集更加容易，且减少了样本语音的样本数量，使得口型生成的方案可行性更高。例如，若本申请提供的虚拟角色的口型生成方法是用在以中文为母语的国家时，该国家的大部分人都会很流利地讲中文，而大多数人很难既熟练地讲中文、也熟练地讲其他语种的语言，这种情况下，可以很容易地找到一个能够流利且标准地讲中文的发音者来发出样本语音，从而能够很容易地收集到样本语音。

本申请实施例中，样本语音也可以由不同的发音者发出，样本语音也可以包括多个语种的语音，本申请不具体限定。

步骤S220：识别样本语音的音素并获取样本语音对应的第二语种。

步骤S220中样本语音的音素的识别方式与步骤S110中待播放语音的音素的识别方式相似，此处不再赘述。

通常情况下，样本语音对应的第二语种是已知的。当样本语音对应的第二语种未知时，可以参考步骤S110中第一语种的识别方式识别第二语种。

步骤S230：根据第二语种对应的第二映射关系确定样本语音的音素对应的视素。

上述第二映射关系用于表示第二语种对应的音素集合中的音素与上述视素集合中的视素之间的对应关系。

步骤S240：将样本语音的音素对应的视素输入待训练模型中，得到输出结果。

步骤S250：基于使所述输出结果与所述样本语音对应的口型参数之间的差别小于设定阈值的收敛条件，对所述待训练模型进行参数调整，得到训练好的口型生成模型。

具体的，可以将样本语音的各个音素对应的各个视素输入待训练模型中，得到输出结果，基于使输出结果与样本语音的音素对应的口型参数相同的原则，对待训练模型中的模型参数进行调整，当通过待训练模型得到的输出结果与样本语音对应的口型参数之间的差别小于设定阈值时，将调整好参数的待训练模型确定为训练好的口型生成模型。

上述待训练模型可以是深度神经网络模型、卷积神经网络模型等神经网络模型，也可以是高斯过程模型、决策树模型、逻辑回归模型等，但不限于此。

以待训练模型为神经网络模型为例，步骤S240、步骤S250具体可以通过以下步骤a～步骤c得到训练好的口型生成模型。

步骤a：将样本语音的音素对应的视素输入神经网络模型中，得到输出结果。

具体的，神经网络模型可以包括逐一连接的N层神经元层，步骤a中可以将样本语音的音素对应的视素输入神经网络模型的第一层神经元层，将第一层神经元层的输出结果输入第二层神经元层，……，依次类推，得到最后一层(第N层)神经元层的输出结果，将最后一层神经元层的输出结果作为神经网络模型的输出结果。

步骤b：计算神经网络模型的输出结果与样本语音的音素对应的口型参数之间的差别，并将该差别作为神经网络模型的输出误差。

步骤c：将上述输出误差逐层反向传播，基于使上述输出误差小于预设误差(即上述设定阈值)为收敛条件，修正各层神经元层的权重参数。

步骤c中可以使用梯度下降法修正各层神经元层的权重参数。梯度下降法就是利用负梯度方向来确定每次迭代的神经元参数调整方向，以使得每次迭代能使输出误差逐步减小。

重复上述步骤a～步骤c，直至神经网络的输出误差小于预设误差，将满足输出误差小于预设误差的神经网络确定为训练后好的口型生成模型。

本实施例提供的口型生成模型的训练方式可以高效、快速地训练处口型生成模型。

在一种实施方式中，每一语种对应的映射关系可以通过以下步骤S310～步骤S330得出。

步骤S310：确定该语种的音素集合。

某一语种的音素集合可以参考上文中对步骤S120的解释说明，此处不再赘述。本实施例中，如上文所述，不同语种对应的音素可以通过不同的形式表示，例如，中文对应的音素可以用拼音字母表示、英文对应的音素可以用音标表示，日语对应的音素可以用假名表示。

步骤S320：将该语种的音素集合中的音素转换为各个国际音标，得到转换后音素。

上述国际音标是由国际语音学会制定、用来统一标示各国语音的字母，其也称为“国际语音学字母”或“万国语音学字母”，国际音标的音标符号与全人类语言的音素一一对应。

例如，将英文对应的音素集合中的各个音素(例如各个音标)转换为的各个国际音标(即英文对应的转换后音素)包括：sil、aa、aw1、ay1、ae、ah、er1、eh、ey1、ow1、ay2、ey2、ih、iy、oy1、y、ao、oy2、aw2、ow2、uh、uw、w、b、p、m、d、t、n、l、g、k、hh、jh、dh、th、s、z、ch、zh、sh、er2、r、f、v、ng。其中，sil表示静音，aw1、aw2分别表示双元音aw的前半部分的读音、后半部分的读音，ay1、ay2分别表示双元音ay的前半部分的读音、后半部分的读音，er1、er2分别表示双元音er的前半部分的读音、后半部分的读音，ey1、ey2分别表示双元音ey的前半部分的读音、后半部分的读音，ow1、ow2分别表示双元音ow的前半部分的读音、后半部分的读音，oy1、oy2分别表示双元音oy的前半部分的读音、后半部分的读音。

再例如，将中文对应的音素集合中的各个音素(例如拼音字母)转换为的各个国际音标(即中文对应的转换后音素)包括：sil、a、e、i、y、o、u、v、w、b、p、m、d、t、n、l、g、k、h、j、q、x、z、c、s、zh、ch、sh、r、f、ng。

其他语种对应的转换后的音素此处不再穷举，本领域技术人员可以根据实际需求确定不同语种对应的转换后音素。

步骤S330：建立转换后音素与视素集合中的视素之间的映射关系。

步骤S330中，可以人工根据各个转换后音素发音时的口型视觉特征，建立各个转换后音素与各视素之间建立对应关系，从而使得电子设备获取到转换后音素与视素集合中的各视素之间的映射关系。

示例性的，如表1所示，表1示出了中文对应的转换后音素、英文对应的转换后音素分别与视素集合中的各个视素之间的映射关系。

表1中，不同的视素标识用于表示不同发音对应的口型视觉特征。例如，视素标识为1表示闭嘴的口型，视素标识为7表示发出国际语音学字母p时的口型，其中，发出国际语音学字母b、m的口型与发出国际语音学字母p的口型相同。其他标识的视素此处不再赘述。

由于不同语种对应的音素集合通常是不统一的，即不同语种对应的音素通常通过不同的表达形式表达出来，例如，中文的音素为拼音字母、英文的音素为音标、日文的音素为假名等，不同语种对应的音素不统一会使得映射关系的建立不太方便，本实施例将不同语种对应的各个音素转换为国际音标表示的转换后音素后，再将转换后音素与各个视素建立映射关系，可以很方便地将不同语种的音素与各个视素建立映射关系。

表1不同语种对应的转换后音素与视素之间的映射关系表

视素标识	中文音素	英文音素
			1	sil	sil
2	a	aa、aw1、ay1
			3	e	ae、ah、er1、eh、ey1、ow1
4	i、y	ay2、ey2、ih、iy、oy1、y
			5	o	ao、oy2
6	u、v、w	aw2、ow2、uh、uw、w
			7	b、p、m	b、p、m
8	d、t、n	d、t、n
			9	l	l
10	g、k、h	g、k、hh
			11	j、q、x	jh
12	z、c、s	dh、th、s、z
			13	zh、ch、sh	ch、zh、sh
14	r	er2、r
			15	f	f、v
16	ng	ng

本申请第二实施例还提供一种显示控制装置，所述装置包括：

可选地，所述第二确定单元，具体用于：

可选地，所述装置还包括：

可选地，所述样本语音为同一个发音者所发出的语音。

可选地，所述样本语音为同一个语种的语音。

可选地，所述视素至少为：

用于展示口型视觉特征的图像帧；或者，

用于描述口型视觉特征的文本信息。

可选地，每一语种对应的映射关系通过以下方式得出：

确定该语种的音素集合；

建立所述转换后音素与视素集合中的视素之间的映射关系。

与本申请第一实施例提供的虚拟角色的显示控制方法相对应的，本申请第三实施例还提供了一种用于确定虚拟角色的口型的电子设备。如图4所示，所述电子设备包括：处理器401；以及存储器402，用于存储虚拟角色的显示控制方法的程序，该设备通电并通过所述处理器运行该虚拟角色的显示控制方法的程序后，执行如下步骤：

与本申请第一实施例提供的虚拟角色的显示控制方法相对应的，本申请第四实施例提供一种计算机可读存储介质，存储有虚拟角色的显示控制方法的程序，该程序被处理器运行，执行下述步骤：

需要说明的是，对于本申请第二实施例至第四实施例提供的装置、电子设备及计算机可读存储介质的详细描述可以参考对本申请第一实施例的相关描述，这里不再赘述。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，区块链中的节点设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他属性的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储介质或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种虚拟角色的显示控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所确定的所述视素生成所述虚拟角色的口型参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述口型参数至少包括融合变形参数、关键点参数、骨骼参数中的任意一种。

4.根据权利要求2所述的方法，其特征在于，所述识别待播放语音对应的第一语种、以及所述待播放语音的音素之前，所述方法包括：

获取训练样本，所述训练样本包括发音者发出的样本语音以及与所述样本语音对应的口型参数，所述口型参数由所述发音者发出所述样本语音时的口型视觉特征得出；

5.根据权利要求4所述的方法，其特征在于，所述样本语音为同一个发音者所发出的语音。

6.根据权利要求4所述的方法，其特征在于，所述样本语音为同一个语种的语音。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述视素至少为：

用于描述口型视觉特征的文本信息；或者，

用于展示口型视觉特征的图像帧。

8.根据权利要求1至6中任一项所述的方法，其特征在于，每一语种对应的映射关系通过以下方式得出：

确定该语种的音素集合；

建立所述转换后音素与视素集合中的视素之间的映射关系。

9.根据权利要求8所述的方法，其特征在于，当所述多个映射关系中包含中文对应的映射关系时，所述中文对应的转换后音素包括：sil、a、e、i、y、o、u、v、w、b、p、m、d、t、n、l、g、k、h、j、q、x、z、c、s、zh、ch、sh、r、f、ng。

10.根据权利要求9所述的方法，其特征在于，当所述多个映射关系中还包含英文对应的映射关系时，所述英文对应的转换后音素包括：sil、aa、aw1、ay1、ae、ah、er1、eh、ey1、ow1、ay2、ey2、ih、iy、oy1、y、ao、oy2、aw2、ow2、uh、uw、w、b、p、m、d、t、n、l、g、k、hh、jh、dh、th、s、z、ch、zh、sh、er2、r、f、v、ng。

11.一种虚拟角色的显示控制装置，其特征在于，所述装置包括：

第一确定单元，用于根据第一映射关系确定所述待播放语音的音素分别对应的视素，所述第一映射关系用于表示所述第一语种对应的音素集合中的音素与视素集合中的视素之间的对应关系，所述视素用于表示虚拟角色发音时的口型视觉特征；

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储数据处理程序，该电子设备通电并通过所述处理器运行该程序后，执行如权利要求1-10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，存储有数据处理程序，该程序被处理器运行，执行如权利要求1-10中任一项所述的方法。