CN108447474B

CN108447474B - 一种虚拟人物语音与口型同步的建模与控制方法

Info

Publication number: CN108447474B
Application number: CN201810199537.3A
Authority: CN
Inventors: 朱风云; 陈博; 张志平; 庞在虎
Original assignee: Beijing Lingban Future Technology Co ltd
Current assignee: Beijing Lingban Future Technology Co ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2020-10-16
Anticipated expiration: 2038-03-12
Also published as: CN108447474A

Abstract

本发明属于语音合成领域的虚拟人物姿态控制，具体涉及一种虚拟人物语音与口型同步的建模与控制方法。目的是减少口型动画数据标注量，并获得准确、自然流畅并与声音同步的口型动作。该方法包括：产生待同步语音对应的音素序列；将音素序列转换为音素类别序列；将音素类别序列转换为静态口型配置序列；通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置；将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象，同步配合语音信号进行展示。该方法可以不依赖于口型动画数据，并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。

Description

一种虚拟人物语音与口型同步的建模与控制方法

技术领域

本发明属于语音合成领域的虚拟人物姿态控制，具体涉及一种虚拟人物语音与口型同步的建模与控制方法。

背景技术

虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用，并且使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。

目前，给虚拟人物对口型是一项非常消耗时间和人力的工作，设计师需要根据音频的内容在时间轴上调整口型配置。一些基于机器学习的方法可以从大量口型动画中学习得到模型，并利用模型为其他输入语音产生口型。但这类方法依赖大量的口型动画作为训练数据，严重依赖数据量和标注工作。

因此，如何减少口型动画数据标注量，并获得准确、自然流畅并与声音同步的口型动作是目前亟需解决的问题。

发明内容

本发明提供一种虚拟人物语音与口型同步的建模与控制方法，无需口型动画数据标注量，并能够获得准确、自然流畅并与声音同步的口型动作。

一种口型建模方法，包括如下方法：

步骤一、将语音音素划分为不同的音素类别；

步骤二、为每个音素类别定义一个静态发音姿态；

步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。

如上所述的口型建模方法，其中：步骤一中，所述语音音素分为元音音素和辅音音素；对于元音音素，根据开口度和唇形将元音音素划分为多个元音音素类别；对于辅音音素，根据发音部位将辅音音素划分为多个辅音音素类别。

如上所述的口型建模方法，其中：步骤二中，所述静态发音姿态指该类别的音素在理想情况下，即发音完整的静态状态下的发音姿态。

如上所述的口型建模方法，其中：步骤三中，所述静态口型配置指虚拟人物渲染系统所定义的口型配置，形式为一个关键帧或一组口型关键点参数。

一种虚拟人物语音与口型同步的控制方法，包括如下步骤：

步骤一、产生待同步语音对应的音素序列，所述音素序列为排布在时间轴上的音素序列；

步骤二、将音素序列转换为音素类别序列；

步骤三，将音素类别序列转换为静态口型配置序列。

步骤四，通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置。

步骤五，将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象，同步配合语音信号进行展示。

如上所述的一种虚拟人物语音与口型同步的控制方法，其中：所述步骤四包括：

步骤4.1，将时间轴的单位转换为帧；

步骤4.2，利用动态模型计算出动态变化的口型配置。

如上所述的一种虚拟人物语音与口型同步的控制方法，其中：所述音素类别至少分为元音音素类别和辅音音素类别，所述元音音素根据开口度和唇形划分为若干类别，所述辅音音素根据发音部位划分为若干类别。

如上所述的一种虚拟人物语音与口型同步的控制方法，其中：所述静态口型配置序列为关键帧或口型参数。

如上所述的一种虚拟人物语音与口型同步的控制方法，其中：所述静态口型配置为对应音素类别的静态发音姿态。

如上所述的一种虚拟人物语音与口型同步的控制方法，其中：所述动态模型为插值模型或动态系统。

与现有技术相比，本发明具有以下优点：

本发明提供的一种虚拟人物语音与口型同步的建模与控制方法，实现对虚拟人物口型的控制，使虚拟人物的口型与其语音内容同步。其应用场景包括：

（1）控制虚拟人物的口型与语音合成器所产生的语音同步；

（2）控制虚拟人物的口型与某个人所发出的语音同步。

本发明基于语音识别和语音合成技术，可以不依赖于口型动画数据，并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。

本发明通过将音素划分为不同的音素类别，并对各音素类别建立发音姿态，音素类别根据发音特征划分，有可以应用于世界上所有人类语言的优点。

本发明通过利用关键帧或关键点参数对各音素类别的发音姿态建立静态口型配置，有参数物理意义直观、可解释性强，易于配置的优点。

本发明利用音素在理想情况下，即发音完整的静态状态下的发音姿态建立关键帧或关键点参数，有标注工作量小的优点。

本发明利用人体动力学先验知识，通过动态模型将时间轴上排布的静态口型配置序列转换为动态变化的口型配置，有模型物理意义明确、模型构建简单、不依赖于海量训练数据优点。

附图说明

图1为本发明提供的一种虚拟人物语音与口型同步的建模方法的流程图；

图2为本发明提供的一种虚拟人物语音与口型同步的控制方法的流程图；

图3为以基于口型参数的静态口型配置序列表示的“大家好”。

图4为在图3基础上用二阶动态系统得到的口型参数。

具体实施方式

下面将介绍本发明的实施方式，但是应当意识到本发明并不局限于所介绍的实施方式，并且在不脱离基本思想的情况下本发明的各种变型都是可行的。因此本发明的范围仅由所附的权利要求确定。

如图1所示，一种口型建模方法，包括如下步骤：

步骤一、将语音音素划分为不同的音素类别。

通常可将音素划分为元音音素和辅音音素；对于元音音素，根据开口度和唇形将元音音素划分为若干元音音素类别；对于辅音音素，根据发音部位将辅音音素划分为若干辅音音素类别。该方法基于音素的发音特征进行类别划分，发音特征是普适于全人类语言的属性，因此该方法可以适用于世界上的任何语言。

步骤二、为每个音素类别定义一个静态发音姿态。

静态发音姿态指该类别的音素在理想情况下，即发音完整的静态状态下的发音姿态。每个音素都具有语音学意义上明确的静态发音位置，只需要为每个音素定义一个静态发音姿态。

虚拟人物渲染系统是电影、动画、游戏等领域中常用的数字信息系统，该系统可以将可配置的人物姿态渲染成三维或二维的图像及视频。人物的口型是由渲染系统中的口型配置决定的。

静态口型配置指虚拟人物渲染系统所定义的口型配置，形式可以为一个关键帧，或一组关键点参数。

如图2所示，一种虚拟人物语音与口型同步的控制方法，包括如下步骤：

步骤一，产生待同步语音对应的音素序列。

当待同步语音是语音合成器所产生的语音的情况下，语音合成器在合成语音的同时输出语音对应的音素序列及音素出现的起始时间点。

当待同步语音是某个人所发出的语音的情况下，采用语音识别器识别语音并输出对应的音素序列及音素出现的起始时间点。

音素序列指在时间轴上排布的若干音素，包含若干音素及其起始时间。

具体地，以汉语句子“大家好。”为例，所述音素序列为：

起始时间（毫秒）	音素类别
		0	SIL
20	D
		40	A
180	J
		220	I
270	A
		350	H
390	A
		440	O
500	SIL

其中，音素中SIL为特殊符号，表示静音。

再以英语句子“Hello.”为例，所述音素序列为：

起始时间（毫秒）	音素类别
		0	SIL
20	h
		80	ə
160	l
		200	ə
240	ʊ
		300	SIL

步骤二，将音素序列根据所述音素划分方法转换为音素类别序列。

例如，可将音素划分为元音音素和辅音音素，元音音素根据开口度和唇形划分为若干类别，具体地，以汉语为例，划分规则可以为：

音素类别	音素集合
		V_A	{A}
V_O	{O}
		V_E	{E}
V_I	{I}
		V_U	{U}
V_V	{V}

由于汉语的六个元音音素的开口度和唇形差异较大，所以本实施例中每个音素划分为一个类别，对于其他语言划分规则需要按实际情况调整。

以英语为例，所述划分规则为：

音素类别	音素集合
		V_I	{iː, ɪ}
V_E	{e}
		V_AE	{æ}
V_ER	{ ɜː, ə}
		V_A	{ɑː, ʌ}
V_O	{ ɔː, ɒ}
		V_U	{ uː, ʊ}

辅音音素根据发音部位划分为若干类别，具体地，以汉语为例，所述划分规则可以为：

音素类别	音素集合
		C_SC	{B, P, M, SIL}
C_CC	{F}
		C_JQ	{Z, C, S}
C_SJ	{D, T, N, L}
		C_JH	{ZH, CH, SH, r}
C_SM	{J, Q, X}
		C_SG	{G, K, H, NG}

对于其他语言划分规则需要按实际情况调整。以英语为例，所述划分规则为：

音素类别	音素集合
		C_SC	{b, p, m, SIL}
C_SJ	{d, t, n, l, r}
		C_CY	{s, z, ts, dz}
C_CYH	{ʃ, ʒ, tr, dr}
		C_CJ	{θ, ð}
C_CC	{f, v}
		C_RE	{g, k, h, w, ŋ}

具体地，以汉语句子“大家好。”为例，所述转换后的音素类别序列为：

起始时间（毫秒）	音素类别
		0	C_SC
20	C_SJ
		40	V_A
180	C_SM
		220	V_I
270	V_A
		350	C_SG
390	V_A
		440	V_O
500	C_SC

再以英语句子“Hello.”为例，对应的音素类别序列为：

起始时间（毫秒）	音素类别
		0	C_SC
20	C_RE
		80	V_ER
160	C_SJ
		200	V_ER
240	V_U
		300	C_SC

步骤三，将音素类别序列转换为虚拟人物渲染系统所定义的口型配置序列。

假设虚拟人物渲染系统采用的口型配置为关键帧，具体地，以汉语句子“大家好。”为例，转换后的口型配置序列为：

起始时间（毫秒）	关键帧名称
		0	KF_C_SC
20	KF_C_SJ
		40	KF_V_A
180	KF_C_SM
		220	KF_V_I
270	KF_V_A
		350	KF_C_SG
390	KF_V_A
		440	KF_V_O
500	KF_C_SC

例如，“KF_C_SC”指音素类别“C_SC”的关键帧。此关键帧为对应音素类别的静态发音姿态，即指该音素类别在发音完整的静态状态下的发音姿态。

假设虚拟人物渲染系统采用的口型配置为口型参数，如二维参数，包括上下唇间距和左右嘴角间距；实际应用时也可以采用更复杂的参数表示，如六维参数，包括上下唇纵坐标、左右嘴角横纵坐标，或基于多关键点的坐标表示。具体地，以汉语句子“大家好。”为例，转换后的二维参数口型配置序列为：

起始时间（毫秒）	口型配置
		0	(10, 50)
20	(20, 50)
		40	(40, 50)
180	(20, 60)
		220	(20, 70)
270	(40, 50)
		350	(20, 50)
390	(40, 50)
		440	(40, 30)
500	(10, 50)

其中,口型配置为二维口型参数，格式为(上下唇间距, 左右嘴角间距)，单位为像素。

需要注意上述实施例为了简洁起见采用二维口型参数，具体实施时，口型参数的类型和维度以实际情况为准，如包括上下唇纵坐标、左右嘴角横纵坐标的六维参数，或基于多关键点的表示。

动态模型可以采用动态系统，例如可以采用但不限于二阶动态系统等；动态模型也可以是插值模型，例如可以采用但不限于线性插值、样条插值等。

对于基于关键帧的口型配置，动态模型给出某一时刻渲染的帧由各关键帧混合的比例。

对于基于口型参数的口型配置，经过动态模型计算后给出某一时刻的口型参数值。

步骤4.1，将时间轴的单位转换为帧，供视频、软件界面、虚拟现实或增强现实中的虚拟人物渲染使用。

以基于关键帧的静态口型配置序列为例：

起始时间（帧）	关键帧名称
		0	KF_C_SC
0.4	KF_C_SJ
		0.8	KF_V_A
3.6	KF_C_SM
		4.4	KF_V_I
5.4	KF_V_A
		7.0	KF_C_SG
7.8	KF_V_A
		8.8	KF_V_O
10.0	KF_C_SC

如附图3，以基于口型参数的静态口型配置序列为例：

起始时间（帧）	口型配置（二维口型参数）
		0	(10,50)
0.4	(20,50)
		0.8	(40,50)
3.6	(20,60)
		4.4	(20,70)
5.4	(40,50)
		7.0	(20,50)
7.8	(40,50)
		8.8	(40,30)
10.0	(10,50)

步骤4.2，利用动态模型计算给出动态变化的口型配置。

以插值模型，如线性插值为例，从上述基于关键帧的静态口型配置序列中插值计算出第0帧到第10帧的关键帧混合比例如下：

展示时间（帧）	关键帧名称及其混合比例
		0	KF_C_SC(100.0%)
1	KF_V_A(92.9%) KF_C_SM(7.1%)
		2	KF_V_A(57.1%) KF_C_SM(42.9%)
3	KF_V_A(21.4%) KF_C_SM(78.6%)
		4	KF_C_SM(50.0%) KF_V_I(50.0%)
5	KF_V_I(40.0%) KF_V_A(60.0%)
		6	KF_V_A(62.5%) KF_C_SG(37.5%)
7	KF_C_SG(100.0%)
		8	KF_V_A(80.0%) KF_V_O(20.0%)
9	KF_V_O(83.3%) KF_C_SC(16.7%)
		10	KF_C_SC(100.0%)

如附图4，以二阶动态系统

G(s)=ω^2/(s^2+2ζωs+ω^2),

ζ=0.5,ω=0.7

为例，其中ζ为阻尼系数，ω为自然频率，从上述基于口型参数的静态口型配置序列中计算出第0帧到第10帧的口型参数：

展示时间（帧）	口型配置（二维口型参数）
		0	(10.0, 50.1)
1	(37.3, 53.2)
		2	(19.5, 60.0)
3	(19.9, 60.0)
		4	(20.0, 68.4)
5	(42.4, 47.2)
		6	(17.2, 50.4)
7	(20.4, 50.0)
		8	(41.6, 43.6)
9	(31.2, 36.4)
		10	(9.9, 49.9)

步骤五，将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象，同步配合语音信号，在视频、软件界面、虚拟现实或增强现实的媒介上展示。

本发明提供的一种虚拟人物语音与口型同步的控制方法，包括建模步骤和口型同步步骤，其中建模步骤具体分为：

步骤S1.1、将语音音素划分为不同的音素类别。

通常可将音素划分为元音音素和辅音音素；对于元音音素，根据开口度和唇形将元音音素划分为若干元音音素类别；对于辅音音素，根据发音部位将辅音音素划分为若干辅音音素类别。

步骤S1.2、为每个音素类别定义一个静态发音姿态。

静态发音姿态指该类别的音素在理想情况下，即发音完整的静态状态下的发音姿态。

步骤S1.3、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。静态口型配置指虚拟人物渲染系统所定义的口型配置，形式可以为一个关键帧，或一组关键点参数。

其中，口型同步步骤具体分为：

步骤S2.1，产生待同步语音对应的音素序列。

步骤S2.2，将音素序列根据所述音素划分方法转换为音素类别序列。

步骤S2.3，将音素类别序列转换为静态口型配置序列。

步骤S2.4，通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置。

步骤S2.4.1，将时间轴的单位转换为帧，供视频、软件界面、虚拟现实或增强现实中的虚拟人物渲染使用。

步骤S2.4.2，利用动态模型计算给出动态变化的口型配置。

步骤S2.5，将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象，同步配合语音信号，在视频、软件界面、虚拟现实或增强现实的媒介上展示。

通过主观实验评测，基于本发明提出的方法构建的系统可以达到MOS（MeanOpinion Score）值3.3±0.2分。参与实验的被试为10名语音学或语言学专业的研究生，平均年龄为23.8±0.7岁，试验采用的素材为随机顺序呈现的50句合成语音，以及对应的合成视频，被试的任务是从口型自然度角度给出自己的主观评价分数，分数范围为1到5，表示从很不自然到很自然的自然度变化范围。

任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种虚拟人物语音与口型同步的控制方法，包括如下步骤：

步骤二、将音素序列转换为音素类别序列；

步骤三，将音素类别序列转换为静态口型配置序列；

步骤四，通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置；

步骤五，将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象，同步配合语音信号进行展示；

其中，所述步骤四包括：

步骤4.1，将时间轴的单位转换为帧；

步骤4.2，利用动态模型计算出动态变化的口型配置；

所述音素类别至少分为元音音素类别和辅音音素类别，所述元音音素根据开口度和唇形划分为若干类别，所述辅音音素根据发音部位划分为若干类别；

其中，口型配置序列为口型参数；

其中，所述动态模型为动态系统；

所述动态系统采用二阶动态系统：

G(s)＝ω²/(s²+2ζωs+ω²)，

ζ＝0.5，ω＝0.7

其中ζ为阻尼系数，ω为自然频率，从基于口型参数的静态口型配置序列中计算出每一帧的口型参数。

2.如权利要求1所述的一种虚拟人物语音与口型同步的控制方法，其特征在于：所述静态口型配置为对应音素类别的静态发音姿态。