CN106485774B

CN106485774B - 基于语音实时驱动人物模型的表情和姿态的方法

Info

Publication number: CN106485774B
Application number: CN201611261096.2A
Authority: CN
Inventors: 魏建权
Original assignee: Mobile Internet Technology Group Co Ltd
Current assignee: Beijing Wuyi Vision digital twin Technology Co.,Ltd.
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2019-11-15
Anticipated expiration: 2036-12-30
Also published as: CN106485774A

Abstract

本发明公开一种基于语音实时驱动人物模型的表情和姿态的方法，用于驱动说话的虚拟现实人物模型的表情和姿态，包括：获取语音数据；计算基本动画的权重值；计算修饰动画的权重值；计算基本口型动画的权重值；修正合成动画；输出脸部表情网格。本发明能够通过语音的声波信息来实时驱动当前虚拟现实人物的脸部表情和嘴部表情，以使得虚拟形象自动生成和真人一样自然的表情表达，无需制作虚拟现实人物影像，成本低省时省力。

Description

基于语音实时驱动人物模型的表情和姿态的方法

技术领域

本发明涉及虚拟现实(VR,virtual reality)，尤其涉及在VR中生成人物模型的表情和姿态的方法。

背景技术

随着虚拟现实技术的发展，市面上出现了虚拟现实设备和与之匹配的虚拟现实引擎。在虚拟现实的人机交互中，虚拟人物的真实度会大大影响用户的体验感。比起现实中的人物为了排解用户的烦忧，部分公司开发了智能机器人，实现了自动识别用户意图，并回答的功能，例如微软的机器人小冰，已经实现了和用户文字上的自动对话交流的功能。并且，机器人的文字答复也能够通过TTS的文字转语音技术转换成语音流和相应的情绪数据。但是市面上却没有一款在虚拟现实中说话时通过语音驱动来实现自动做出表情和姿态的机器人。因此，当虚拟人物要说话时，需要专业人士制作虚拟现实人物的影像，不仅成本高，而且费时费力。

本领域迫切需要一款能克服上述缺陷的基于语音实时驱动人物模型的表情和姿态的方法。

发明内容

本发明之目的是一种基于语音实时驱动人物模型的表情和姿态的方法，其能够通过语音的声波信息来实时驱动当前虚拟现实人物的脸部表情和嘴部表情，以使得虚拟形象自动生成和真人一样自然的表情表达，无需制作虚拟现实人物影像，成本低省时省力。

本发明提供一种基于语音实时驱动人物模型的表情和姿态的方法，用于驱动说话的虚拟现实人物模型的表情和姿态，包括：获取语音数据，语音驱动模块同步接收语音流和对应语音流设置的情绪标签。计算基本动画的权重值，语音驱动模块根据情绪标签和语音流的音量来计算出平静、快乐、愤怒、恐惧、悲伤5种基本表情动画的权重值。计算修饰动画的权重值，语音驱动模块根据情绪标签和语音流的音量来计算出眉毛、眼睛、嘴角修饰动画的权重值。计算基本口型动画的权重值，语音驱动模块对语音流进行口型动画分析，计算出基本发音PP、FF、TH、DD、H、CH、SS、NN、RR、AH、EI、IH、OH、WU基本口型动画的权重值。修正合成动画，语音驱动模块修正合成的基本表情动画、修饰动画和基本口型动画，以生成脸部模型网格。输出脸部表情网格，语音驱动模块输出脸部表情网格。

作为优选方式，所述方法还包括：在获取语音数据前通过状态机根据相应场景控制人物模型的身体动作。

作为优选方式，所述获取语音数据包括：UE4引擎并行渲染人物模型，以输出语音。

作为优选方式，所述获取语音数据包括：在每一个语音流上人工设置情绪标签。通过语义引擎选择人物模型的文字答复，其中，语义引擎设置有意图分析模块。通过文字转语音技术(TTS技术)将文字答复转换为语音输出至语音驱动模块。

作为优选方式，所述方法包括：UE4引擎接收语音驱动模块输出的脸部模型网格。UE4引擎控制语音、脸部模型网格和身体动作的同步并输出。

作为优选方式，所述计算基本动画的权重值包括：为每个基本表情动画人工预设基本表情动画系数；根据基本表情动画的动画系数来计算权重值。

作为优选方式，所述计算修饰动画的权重值包括：为每个修饰动画人工预设修饰动画系数；根据修饰动画系数来计算权重值。

作为优选方式，所述计算基本口型动画的权重值包括：对每个发音制作一个口型动画；根据当前语音和基本发音模板进行匹配，计算出匹配度，其中，匹配度范围为0～1.0。

作为优选方式，所述根据基本表情动画的动画系数来计算权重值包括：计算平静的情绪标签相应位置的音量、快乐的情绪标签相应位置的音量、悲伤的情绪标签相应位置的音量、愤怒的情绪标签相应位置的音量、恐惧的情绪标签相应位置的音量；根据声音音量和预设的音量最大值与音量最小值来计算出平静系数、快乐系数、悲伤系数、愤怒系数和恐惧系数；根据同一位置的平静系数、快乐系数、悲伤系数、愤怒系数和恐惧系数来合成基本表情动画的权重值，以匹配基本表情动画。

作为优选方式，所述根据修饰动画系数来计算权重值包括：计算眉毛相应位置的音量、眼睛相应位置的音量、嘴角相应位置的音量；根据声音音量和预设的音量最大值与音量最小值来计算出眉毛系数、眼睛系数和嘴角系数。根据同一位置的眉毛系数、眼睛系数和嘴角系数来合成修饰动画的权重值，以匹配修饰动画。

本发明提供的一种基于语音实时驱动人物模型的表情和姿态的方法能够通过语音的声波信息来实时驱动当前虚拟现实人物的脸部表情和嘴部表情,以使得虚拟形象自动生成和真人一样自然的表情表达，无需制作虚拟现实人物影像，成本低省时省力。

附图说明

下面将简要说明本申请所使用的附图，显而易见地，这些附图仅用于解释本发明的构思。

图1为本发明基于语音实时驱动人物模型的表情和姿态的方法的步骤流程图；

图2为本发明基于语音实时驱动人物模型的表情和姿态的方法的示意框图；

图3为声音驱动技术的步骤流程图；

图4为声音驱动技术的示意框图。

附图标记汇总：

1、连续语音分析模块 2、语义分析模块 3、文字转语音模块

4、语音驱动模块 5、UE4引擎

具体实施方式

在下文中，将参照附图描述本发明的基于语音实时驱动人物模型的表情和姿态的方法的实施例。

在此记载的实施例为本发明的特定的具体实施方式，用于说明本发明的构思，均是解释性和示例性的，不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外，本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案，这些技术方案包括对在此记载的实施例做出任何显而易见的替换和修改的技术方案。

本说明书的附图为示意图，辅助说明本发明的构思，示意性地表示各部分的相互关系。

参见图1，本发明提出的一种基于语音实时驱动人物模型的表情和姿态的方法，用于驱动说话的虚拟现实人物模型的表情和姿态，包括如下步骤：

S51：获取语音数据，语音驱动模块5同步接收语音流和对应语音流设置的情绪标签；

S52：计算基本动画的权重值，语音驱动模块5根据情绪标签和语音流的音量来计算出平静、快乐、愤怒、恐惧、悲伤5种基本表情动画的权重值；

S53：计算修饰动画的权重值，语音驱动模块5根据情绪标签和语音流的音量来计算出眉毛、眼睛、嘴角修饰动画的权重值；

S54：计算基本口型动画的权重值，语音驱动模块5对语音流进行口型动画分析，计算出基本发音PP、FF、TH、DD、H、CH、SS、NN、RR、AH、EI、IH、OH、WU基本口型动画的权重值；

S55：修正合成动画，语音驱动模块5修正合成的基本表情动画、修饰动画和基本口型动画，以生成脸部模型网格；以及

S56：输出脸部表情网格，语音驱动模块5输出脸部表情网格。

在本实施例中，参见图2，语音驱动模块5通过语音的声波信息(语音流和语音流对应的情绪标签)来实时驱动当前说话者的脸部表情和嘴部表情，例如眉毛、眼睛和嘴巴，以使得虚拟现实中的人物获得如同真人一样自然的表情表达。本发明的语音驱动模块5可以连接AI情绪表达专家系统，通过AI情绪表达专家系统的情绪引擎自动让虚拟形象拥有喜怒哀乐的情绪表达，例如自动标记语音流的情绪标签。情绪标签是人工设定的，内容是预先知道的。情绪标签来自对应的情绪标签文件(根据语音由人工标记而成)。

如图3和图4所示，步骤S1中，当用户说话时，用户的语音传入录音设备1，从而能实时生成录音文件。步骤S2中，录音文件经过连续语音分析模块2将语音转换为文字输入语义分析模块3。步骤S3中，语义分析模块3通过语义分析识别用户意图，以从数据库中选择回答来生成回复用户的文字信息。步骤S4中，文字信息经文字转语音模块4生成答复语音信息。答复语音信息包含情绪信息和语音流。步骤S5中，在语音流的各个部分人工添加情绪标签，再通过本发明的方法通过输入情绪标签和语音流至语音驱动模块5，来驱动说话的虚拟现实人物模型的表情和姿态。步骤S62中，语音流和步骤S61中虚拟现实人物模型的表情和姿态并行运算，同步输出，以实现整个人机交互的过程。本发明兼容TTS的文字转语音模块4，能自动接收文字转语音模块4输出的数据并处理，以实现语音驱动说话的虚拟现实人物模型的表情和姿态。本发明的语音同步输出和对人物模型渲染可以通过UE4引擎6来实现。

在步骤S52中，计算基本动画的权重值包括：为每个基本表情动画人工预设基本表情动画系数；以及，根据基本表情动画的动画系数来计算权重值。虚拟人物的平静、快乐、愤怒、恐惧和悲伤5种基本大表情动画的表情模型会由美术师制作而成。建立动画模型是传统的美术动画的工作，一般中级动画师都可以胜任。至于自动调用哪一个表情，可以将本发明的方法编程形成语音驱动模块5，以实现自动控制。例如：在一段语音流中，具有平静的情绪标签和快乐的情绪标签。下面以平静到快乐为例子来说明语音驱动模块5如何判断平静到快乐的程度。工作人员预设平静为0，快乐(最快乐的模型状态)为1，语音驱动模块5根据声音的大小值(其中最大值，和最小值可以配置)来计算一个系数例如0.3，计算出来的新表情模型是0.3的快乐模型和0.7的平静模型组合而成。语音驱动模块5计算系数时，可以按照工作人员预设的算法来计算各个模型的系数，例如5大基本表情的系数计算公式可以为情绪标签对应位置的音量值和最小值的差值，除以最大值和最小值的差值。每个基本表情模型都有预设的平静、快乐、愤怒、恐惧和悲伤的系数，语音驱动模块5自动匹配基本表情模型系数，以选出最合适的5大基本表情的模型。

在步骤S53中，计算修饰动画的权重值包括：为每个修饰动画人工预设修饰动画系数；以及，根据修饰动画系数来计算权重值。虚拟人物的眉毛、眼睛、嘴角修饰动画的表情模型会由美术师制作而成。至于自动调用哪一个表情，可以将本发明的方法编程形成语音驱动模块5，以实现自动控制。例如：在一段语音流中，具有平静的情绪标签和快乐的情绪标签。下面以平静到快乐为例子来说明语音驱动模块5如何判断平静到快乐的程度。工作人员预设平静为0，快乐(最快乐的模型状态)为1，语音驱动模块5根据声音的大小值(其中最大值，和最小值可以配置)来计算一个系数例如0.3，计算出来的新表情模型是0.3的快乐模型和0.7的平静模型组合而成。语音驱动模块5计算系数时，可以按照工作人员预设的算法来计算各个模型的系数，例如修饰动画的表情模型的系数计算公式可以为情绪标签对应位置的音量值和最小值的差值，除以最大值和最小值的差值。每个修饰动画的表情模型都有预设的平静、快乐、愤怒、恐惧和悲伤的系数，语音驱动模块5自动匹配基本表情模型系数，以选出最合适的修饰动画的表情模型。

在步骤S54中，计算基本口型动画的权重值包括：美术师会预先对每个发音制作一个口型动画。语音驱动模块5根据当前语音和预设的基本发音模板进行匹配，以计算出匹配度(0～1.0)。语音驱动模块5根据预设的对应表和各个发音的权重值(即匹配度)自动调用匹配度最高的发音模型，其中，对应表是基本口型的发音模型和发音模型对应的发音的对应关系表。

在步骤S55中，每一次的计算都会产生对应的权重系数，语音驱动模块5能够根据动画系数来合成和修饰基本表情动画、修饰动画和口型动画。网格叫模型网格，每个模型都是由网格来组成的。用模型来代表表情，比如快乐的模型，也叫快乐的表情网格。工作人员可以根据自己的需要预设各个动画组合时对应的修饰方法和合成顺序，以实现对表情网格的合成和修饰。例如工作人员可以设定快乐表情一合成眉毛二时，眉毛二要向上移动3格。又例如工作人员可以设定基本表情模型均在模型内侧，眉毛等修饰表情贴在基本表情上，口型动画叠在基本表情和修饰表情上。

在步骤S56中，显示可以由UE4引擎6来完成，它是渲染引擎。UE4引擎6的渲染和语音驱动模块5对表情动画的合成和修正与UE4引擎6的渲染是并行计算的，所以它们是实时的，同步的。

这样能够通过语音的声波信息来实时驱动当前虚拟现实人物的脸部表情和嘴部表情，以使得虚拟形象自动生成和真人一样自然的表情表达，无需制作虚拟现实人物影像，成本低省时省力。

本实施例进一步优选地，提供了一种基于语音实时驱动人物模型的表情和姿态的方法，包括：在获取语音数据前通过状态机根据相应场景控制人物模型的身体动作。因为身体动作和表情动作没有必然联系，所以可以通过特定场景的状态机来控制或是通过更加具体的情绪来模拟。这样能够在单独控制人物的表情和动作，使得虚拟人物更真实，更易于控制。

本实施例进一步优选地，提供了一种基于语音实时驱动人物模型的表情和姿态的方法，其中，获取语音数据包括：UE4引擎6并行渲染人物模型，以输出语音。语音流和情绪标签流是同步的，根据语音流和情绪标签的值能够自动计算表情动画的权重，以匹配相应的表情动画。因此在UE4渲染的时候，虚拟人物的表情就自然形成了。显示是由UE4引擎来完成，它是渲染引擎。渲染和语音驱动表情的计算是并行的，所以语音和声音是实时的，同步的。这样能够实现同步输出人物模型和语音，使得虚拟人物更真实，实时性强，而不会造成语音延迟。

本实施例进一步优选地，提供了一种基于语音实时驱动人物模型的表情和姿态的方法，其中，获取语音数据还包括：在每一个语音流上人工设置情绪标签。通过语义引擎选择人物模型的文字答复，其中，语义引擎设置有意图分析模块。通过文字转语音技术(TTS技术)将文字答复转换为语音输出至语音驱动模块5。这样能直接使用文字转语音模块4输出的数据作为本发明的输入数据进行处理，方便快捷。

本实施例进一步优选地，提供了一种基于语音实时驱动人物模型的表情和姿态的方法，包括：UE4引擎6接收语音驱动模块5输出的脸部模型网格；以及，UE4引擎6控制语音、脸部模型网格和身体动作的同步并输出。这样能够实现同步输出人物模型和语音，使得虚拟人物更真实，实时性强，而不会造成语音延迟。

本实施例进一步优选地，提供了一种基于语音实时驱动人物模型的表情和姿态的方法，其中，根据基本表情动画的动画系数来计算权重值包括：计算平静的情绪标签相应位置的音量、快乐的情绪标签相应位置的音量、悲伤的情绪标签相应位置的音量、愤怒的情绪标签相应位置的音量、恐惧的情绪标签相应位置的音量；根据声音音量和预设的音量最大值与音量最小值来计算出平静系数、快乐系数、悲伤系数、愤怒系数和恐惧系数；以及，根据同一位置的平静系数、快乐系数、悲伤系数、愤怒系数和恐惧系数来合成基本表情动画的权重值，以匹配基本表情动画。这样实现了基本表情动画的权重值的计算。

本实施例进一步优选地，提供了一种基于语音实时驱动人物模型的表情和姿态的方法，其中，根据修饰动画系数来计算权重值包括：计算眉毛相应位置的音量、眼睛相应位置的音量、嘴角相应位置的音量；根据声音音量和预设的音量最大值与音量最小值来计算出眉毛系数、眼睛系数和嘴角系数；以及，根据同一位置的眉毛系数、眼睛系数和嘴角系数来合成修饰动画的权重值，以匹配修饰动画。这样实现了修饰动画的权重值的计算。

以上对本发明的基于语音实时驱动人物模型的表情和姿态的方法进行了说明。对于本发明的基于语音实时驱动人物模型的表情和姿态的方法涉及的装置的具体特征可以根据本发明披露的特征的作用进行具体设计，这些设计均是本领域技术人员能够实现的。而且，本发明披露的各技术特征并不限于已披露的与其它特征的组合，本领域技术人员还可根据本发明之目的进行各技术特征之间的其它组合，以实现本发明之目的为准。

Claims

1.一种基于语音实时驱动人物模型的表情和姿态的方法，用于驱动说话的虚拟现实人物模型的表情和姿态，包括：

在获取语音数据前通过状态机根据相应场景控制人物模型的身体动作；

UE4引擎并行渲染人物模型，以输出语音；

获取语音数据，语音驱动模块同步接收语音流和对应语音流设置的情绪标签；其中，包括：

步骤S1：当用户说话时，用户的语音传入录音设备，从而实时生成录音文件；

步骤S2：录音文件经过连续语音分析模块将语音转换为文字输入语义分析模块；

步骤S3：语义分析模块通过语义分析识别用户意图，以从数据库中选择回答来生成回复用户的文字信息；

步骤S4：文字信息经文字转语音模块生成答复语音信息，答复语音信息包含情绪信息和语音流；

步骤S5：在每一个所述语音流上人工设置所述情绪标签，通过语义引擎选择人物模型的文字答复，其中，语义引擎设置有意图分析模块，通过文字转语音技术(TTS)将文字答复转换为语音输出至所述语音驱动模块；

计算基本动画的权重值，所述语音驱动模块根据所述情绪标签和所述语音流的音量来计算出平静、快乐、愤怒、恐惧、悲伤5种基本表情动画的权重值；

计算修饰动画的权重值，所述语音驱动模块根据所述情绪标签和所述语音流的音量来计算出眉毛、眼睛、嘴角修饰动画的权重值；

计算基本口型动画的权重值，所述语音驱动模块对所述语音流进行口型动画分析，计算出基本发音PP、FF、TH、DD、H、CH、SS、NN、RR、AH、EI、IH、OH、WU基本口型动画的权重值；

修正合成动画，所述语音驱动模块修正合成的所述基本表情动画、所述修饰动画和所述基本口型动画，以生成脸部模型网格；

输出脸部表情网格，所述语音驱动模块输出所述脸部表情网格；

所述UE4引擎接收所述语音驱动模块输出的所述脸部模型网格；

所述UE4引擎控制语音、所述脸部模型网格和身体动作的同步并输出；

所述计算基本动画的权重值包括：

为每个基本表情动画人工预设基本表情动画系数；

根据所述基本表情动画的动画系数来计算权重值；所述计算修饰动画的权重值包括：

为每个修饰动画人工预设修饰动画系数；

根据所述修饰动画系数来计算权重值；

所述根据所述基本表情动画的动画系数来计算权重值包括：

计算平静的情绪标签相应位置的音量、快乐的情绪标签相应位置的音量、悲伤的情绪标签相应位置的音量、愤怒的情绪标签相应位置的音量、恐惧的情绪标签相应位置的音量；

根据声音音量和预设的音量最大值与音量最小值来计算出平静系数、快乐系数、悲伤系数、愤怒系数和恐惧系数；

根据同一位置的平静系数、快乐系数、悲伤系数、愤怒系数和恐惧系数来合成基本表情动画的权重值，以匹配基本表情动画；

所述根据所述修饰动画系数来计算权重值包括：

计算眉毛相应位置的音量、眼睛相应位置的音量、嘴角相应位置的音量；

根据声音音量和预设的音量最大值与音量最小值来计算出眉毛系数、眼睛系数和嘴角系数；

根据同一位置的眉毛系数、眼睛系数和嘴角系数来合成修饰动画的权重值，以匹配修饰动画。

2.根据权利要求1所述的方法，其中，所述计算基本口型动画的权重值包括：

对每个发音制作一个口型动画；

根据当前语音和基本发音模板进行匹配，计算出匹配度，其中，匹配度范围为0～1.0。