CN109712627A

CN109712627A - 一种使用语音触发虚拟人物表情及口型动画的语音系统

Info

Publication number: CN109712627A
Application number: CN201910169991.9A
Authority: CN
Inventors: 张斌; 陈亮; 王玉雪
Original assignee: Shenzhen Obersi Intelligent Technology Co Ltd
Current assignee: Shenzhen Obersi Intelligent Technology Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-05-03

Abstract

本发明涉及互联网技术领域，尤其为一种使用语音触发虚拟人物表情及口型动画的语音系统，包括语音输入模块、语义识别模块、回应语音模块、表情反应标识模块、口型标识模块、播放语音模块、播放对应口型动画模块以及播放表情动画模块。本发明通过对输入或者应答语音的分析，生成相应的表情和口型对应的标识，通过匹配标识，播放对应标识的表情动画和口型动画，产生对语音输入者的回应表现，通过这种方式，可以让虚拟人物对输入者的语音输入产生不同的情感表现，可以让虚拟人物对输入者的语音输入产生回应式的对话表现，让虚拟人物形象更趋于真实，方便虚拟人物和真实人类产生人机对话时获得真实的脸部动画表现。

Description

一种使用语音触发虚拟人物表情及口型动画的语音系统

技术领域

本发明涉及互联网技术领域，具体为一种使用语音触发虚拟人物表情及口型动画的语音系统。

背景技术

随着计算机动画技术的不断进步，人们对人机交互中口型动画的要求越来越高。但是，汉语口型动画的发展相对比较落后。一方面由于口型动画是一个多学科交叉的研究方向，包括了人机交互、计算机图形学、语音语言学等，而相关学科的发展不均衡，使得构建一个逼真的、高自动化程度口型动画系统仍是一个极富挑战性的研究课题。

现有语音系统中使用的虚拟人物，不会因为语音分析，产生相应的表情或者口型，只有提前定义的固定的表情或者动画。鉴于此，我们提供一种使用语音触发虚拟人物表情及口型动画的语音系统。

发明内容

本发明的目的在于提供一种使用语音触发虚拟人物表情及口型动画的语音系统，以解决上述背景技术中提出现如今语音系统中使用的虚拟人物，不会因为语音分析，产生相应的表情或者口型，只有提前定义的固定的表情或者动画的问题。

为实现上述目的，本发明提供如下技术方案：

一种使用语音触发虚拟人物表情及口型动画的语音系统，包括语音输入模块、语义识别模块、回应语音模块、表情反应标识模块、口型标识模块、播放语音模块、播放对应口型动画模块以及播放表情动画模块。

作为优选，所述语音输入模块用于接收语音，所述语义识别模块用于对输入的语音进行分析，生成相应的表情和口型对应的标识，所述回应语音模块用于生成输出的语音，所述表情反应标识模块用于与表情数据库中表情进行匹配，所述口型标识模块用于与口型数据库中的口型进行匹配，所述播放语音模块用于播放语音，所述播放对应口型动画模块用于播放匹配后的口型动画，所述播放表情动画模块用于播放匹配后的表情动画。

作为优选，各模块件之间的工作流程包括如下步骤：

S1：通过语音输入模块输入语音；

S2：通过语义识别模块对汉语语音进行分析，生成相应的表情和口型；

S3：通过回应语音模块生成输出的语音，通过表情反应标识模块将生成的表情与表情数据库中的表情进行匹配，通过口型标识模块将生成的口型与口型数据库中的口型进行匹配；

S4：将录制的语音、表情动画以及口型变化使用虚拟人物形象进行播放，通过播放语音模块播放录制的语音，通过播放对应口型动画模块播放口型动画，通过播放表情动画模块播放表情动画；

S5：将语音、口型动画和表情动画进行同步播放处理。

作为优选，所述表情数据库通过MPEG-4人脸动画标准进行人脸动画标准建模，所述表情数据库的建模步骤如下所示：

S1提取脸部特征点：在人脸上指定多个特征点，并定义出面部动画参数的参考点；

S2脸部动画参数：将人脸多个特征点分为10组定义脸部的不同部分，包括头部运动、舌、眼和嘴部控制；

S3表情参数定义：定义6个基本表情高兴、吃惊、悲伤、愤怒、厌恶和恐惧时人脸上特征点的位置，记录生成每个表情时每个特征点的轨迹，并记录生成表情数据库。

作为优选，所述特征点集中于脸颊、眼睛和口部。

作为优选，所述口型数据库的建模根据声母和韵母的组合进行构建，具体操作流程如下：

S1：将普通话中的汉字分成声部和韵部，分别用字母s和y表示，与汉语拼音中的声母和韵母相同；

S2：将标准汉语拼音中的声母根据口型进行声部定义，将标准汉语中韵母根据口型进行韵部定义；

S3：将汉字的标准拼音转换成由声部与韵部符号组成的口型拼音，并记录生成口型数据库。

作为优选，所述播放语音模块、播放对应口型动画模块以及播放表情动画模块保持同步进行。

与现有技术相比，本发明的有益效果是：

1、本使用语音触发虚拟人物表情及口型动画的语音系统建立一个既简单实用又能对复杂的嘴唇活动进行具有较高真实感合成的三维口型模型是语音同步口型动画实现的关键。而视觉上的真实感取决于人们对于合成口型模型的认同度，对于人类来说口型变换是一种非常熟悉的模式，任何细微的差别都会轻易地被人们所察觉，从而产生不自然的感觉。为了满足对口型动画合成自然度的要求，本项目将按照MPEG-4定义的人脸特征点参数，选取或定义唇区特征点，追踪特征点的状态数据并进行综合分析，规范唇区状态数据进行三维口型建模

2、本使用语音触发虚拟人物表情及口型动画的语音系统通过设置的表情数据库中定义一系列的虚拟人物表情动画和通过设置的口型数据库中定义一系列的人物口型动画，在语音输入时，通过对输入或者应答语音的分析，生成相应的表情和口型对应的标识，通过匹配标识，播放对应标识的表情动画和口型动画，产生对语音输入者的回应表现，通过这种方式，可以让虚拟人物对输入者的语音输入产生不同的情感表现，可以让虚拟人物对输入者的语音输入产生回应式的对话表现，让虚拟人物形象更趋于真实，方便虚拟人物和真实人类产生人机对话时获得真实的脸部动画表现。

附图说明

图1为本发明的流程框图；

图2为本发明的人脸动画参数单元图；

图3为本发明正脸特征点的位置标记图；

图4为本发明侧脸特征点的位置标记图；

图5为本发明双眼特征点的位置标记图；

图6为本发明牙齿特征点的位置标记图；

图7为本发明鼻子特征点的位置标记图；

图8为本发明舌头特征点的位置标记图；

图9为本发明嘴唇特征点的位置标记图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

进一步的，语音输入模块用于接收语音，语义识别模块用于对输入的语音进行分析，生成相应的表情和口型对应的标识，回应语音模块用于生成输出的语音，表情反应标识模块用于与表情数据库中表情进行匹配，口型标识模块用于与口型数据库中的口型进行匹配，播放语音模块用于播放语音，播放对应口型动画模块用于播放匹配后的口型动画，播放表情动画模块用于播放匹配后的表情动画，值得注意的是，播放语音模块、播放对应口型动画模块以及播放表情动画模块保持同步进行，此外，也可以根据情绪表现添加肢体动作。

如图1所示，各模块件之间的工作流程包括如下步骤：

S1：通过语音输入模块输入语音；

S5：将语音、口型动画和表情动画进行同步播放处理。

本实施例的语音触发虚拟人物表情及口型动画的语音系统通过设置的表情数据库中定义一系列的虚拟人物表情动画和通过设置的口型数据库中定义一系列的人物口型动画，在语音输入时，通过对输入或者应答语音的分析，生成相应的表情和口型对应的标识，通过匹配标识，播放对应标识的表情动画和口型动画，产生对语音输入者的回应表现，通过这种方式，可以让虚拟人物对输入者的语音输入产生不同的情感表现，可以让虚拟人物对输入者的语音输入产生回应式的对话表现，让虚拟人物形象更趋于真实，方便虚拟人物和真实人类产生人机对话时获得真实的脸部动画表现。

实施例2

作为本发明的第二种实施例，如图2-图8所示，表情数据库通过MPEG-4人脸动画标准进行人脸动画标准建模，表情数据库的建模步骤如下所示：

如图2-图9所示，为84个定义面部动画参数的特征点，特征点集中于脸颊、眼睛和口部。

进一步的，口型数据库的建模根据声母和韵母的组合进行构建，具体操作流程如下：

S1：将普通话中的汉字分成声部和韵部，详见实施例3，分别用字母s和y表示，与汉语拼音中的声母和韵母相同；

S2：将标准汉语拼音中的声母根据口型进行声部定义，将标准汉语中韵母根据口型进行韵部定义，如下表所示：

标准汉语拼音声母	口型声部定义
		b p m	s-b
f,w	s-f
		d t n l	s-d
zh ch sh r	s-r
		y j q x z c s	s-y
g k h	s-g

标准汉语拼音韵母	口型声部定义
		a、 ia 、 ai、 ao、 an 、 ua、 iao、 ian、 uai、 uan、 van、ang 、 iang、 uang	y-a
o 、 u 、 ü 、 üe 、 ou 、 uo 、 ui、 un、 iu、 iou、 ong、 iong、w	y-o
		e 、 er 、 ei 、 en、 uei 、 uen 、 ueng、 eng	y-e
i 、 ie 、 in、 ing	y-i

如以上两个表格所示，声部的定义主要是将发音口型特点相同或者类似的声母归类：s-b双唇紧闭，阻塞气流；s-f上齿触下唇形成窄逢；s-d嘴型微开，嘴唇放松，嘴型变化细微；s-g嘴型为下巴张开到最大角度的四分之一，嘴唇放松；s-r嘴唇前伸，绷紧；s-y嘴唇向两侧拉伸。同样根据口型特征，韵部可分为：y-a口型，主要是用于发音时嘴唇开度较大的不圆唇的韵母发音，例如a、an等；y-o口型，主要是用于发音时嘴唇略圆，嘴向前撮的韵母，例如o、ou等；y-e口型，主要是用于发音时嘴唇半张、口型不圆的韵母例如e、i等；y-o主要是用于发音时嘴唇向前突出成圆形只留较小缝的韵母，例如u等。

本发明将所有的汉字拼音转换成口型声部和口型韵部两个部分，例如“动画”两字就可以分别表示成s-d→y-o和s-d→y-a。如果把s-b、s-d、s-f、s-r、s-y、y-a、y-o、s-g和y-e、y-i做成9个口型模型，那么每两个模型关键帧之间的变化过程将构成一个汉字的发音口型动画。

此外，把汉字按照声、韵母分成声部和韵部口型的方法基本适用全部汉字，只有个别汉字拼音例外，即单因素汉字如 a(啊)、 o(哦)、 e(饿)、 ai(爱)、 ei(诶)、 ao(袄)、en(恩)、 er(儿)等，它们只有汉语拼音划分中的韵母。如果按照上面的分类，都只有一个口型韵部，那么在动画合成中就只存在单个韵部口型，为了统一把它们都加上一个固定的声部口型符号称为自然状态模型，记为“＆”。以上拼音转换的最终结果如下所示：

拼音	声部→韵部口型定义	拼音	声部→韵部口型定义
				a	＆→y-a	ei	＆→y-e
o	＆→y-o	ao	＆→y-a
				e	＆→y-e	en	＆→y-e
ai	＆→y-a	er	＆→y-e

完成口型拼音声部与韵部定义后接下来就是转换工作，就是将汉字的标准拼音转换成由声部与韵部符号组成的口型拼音。为了程序实现方便，本研究中把声部与韵部的口型记号简化，去掉前面的“s-”和“y-”只写成一个字母简化后符号字母共有10个：a、o、e、i、b、d、f、r、y、g。下表给出了一些汉字拼音转换的例子：

标准拼音	声部→韵部口型定义	简化后口型拼音
			dong	s-d→y-o	do
ren	s-r→y-e	re
			a	＆→y-a	&a

实施例3

作为本发明的第三种实施例，也可以将英语中的元音和辅音音素根据口型定型定音，并将标准英语中的元音音素归类于口型韵部定义，如下表所示：

标准汉语拼音韵母	口型韵部定义
		/ɑ:/，/eɪ/，/aɪ/，/eə/，	y-a
/ɒ/，/ɔ:/， [u] ，[u:]，/əʊ/，/aʊ/，/ɔɪ/，/ʊə/	y-o
		/ɜ:/，/ə/，/ʌ/，	y-e
/i:/，/i/，/e/，/æ/，/ɪə/，	y-i

将标准英语中的辅音音素归类于口型声部定义，如下表所示：

标准汉语拼音声母	口型声部定义
		/p/，/b/，/m/	s-b
/f/,/v/,/w/	s-f
		/d/，/t/，/l/,/n/,/ŋ/	s-d
/θ/,/ð/,/s/,/z/,/ʃ/，/ʒ/,/r/	s-r
		/j/,/tʃ/,/dʒ/,/ts/,/dz/, / tr /, / dr /	s-y
/h/,/k/,/g/	s-g

同理，声口型部的定义主要是将发音口型特点相同或者类似的声母归类：s-b双唇紧闭，阻塞气流；s-f上齿触下唇形成窄逢；s-d嘴型微开，嘴唇放松，嘴型变化细微；s-g嘴型为下巴张开到最大角度的四分之一，嘴唇放松；s-r嘴唇前伸，绷紧；s-y嘴唇向两侧拉伸。

本发明建立一个既简单实用又能对复杂的嘴唇活动进行具有较高真实感合成的三维口型模型是语音同步口型动画实现的关键。而视觉上的真实感取决于人们对于合成口型模型的认同度，对于人类来说口型变换是一种非常熟悉的模式，任何细微的差别都会轻易地被人们所察觉，从而产生不自然的感觉。为了满足对口型动画合成自然度的要求，本项目将按照MPEG-4定义的人脸特征点参数，选取或定义唇区特征点，追踪特征点的状态数据并进行综合分析，规范唇区状态数据进行三维口型建模。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种使用语音触发虚拟人物表情及口型动画的语音系统，其特征在于：包括语音输入模块、语义识别模块、回应语音模块、表情反应标识模块、口型标识模块、播放语音模块、播放对应口型动画模块以及播放表情动画模块。

2.根据权利要求1所述的使用语音触发虚拟人物表情及口型动画的语音系统，其特征在于：所述语音输入模块用于接收语音，所述语义识别模块用于对输入的语音进行分析，生成相应的表情和口型对应的标识，所述回应语音模块用于生成输出的语音，所述表情反应标识模块用于与表情数据库中表情进行匹配，所述口型标识模块用于与口型数据库中的口型进行匹配，所述播放语音模块用于播放语音，所述播放对应口型动画模块用于播放匹配后的口型动画，所述播放表情动画模块用于播放匹配后的表情动画。

3.根据权利要求1所述的使用语音触发虚拟人物表情及口型动画的语音系统，其特征在于：各模块件之间的工作流程包括如下步骤：

S1：通过语音输入模块输入语音；

S5：将语音、口型动画和表情动画进行同步播放处理。

4.根据权利要求3所述的使用语音触发虚拟人物表情及口型动画的语音系统，其特征在于：所述表情数据库通过MPEG-4人脸动画标准进行人脸动画标准建模，所述表情数据库的建模步骤如下所示：

5.根据权利要求4所述的使用语音触发虚拟人物表情及口型动画的语音系统，其特征在于：所述特征点集中于脸颊、眼睛和口部。

6.根据权利要求3所述的使用语音触发虚拟人物表情及口型动画的语音系统，其特征在于：所述口型数据库的建模根据声母和韵母的组合进行构建，具体操作流程如下：

7.根据权利要求1所述的使用语音触发虚拟人物表情及口型动画的语音系统，其特征在于：所述播放语音模块、播放对应口型动画模块以及播放表情动画模块保持同步进行。