CN116228934A

CN116228934A - 一种三维形象流畅发音口型模拟方法

Info

Publication number: CN116228934A
Application number: CN202310045674.2A
Authority: CN
Inventors: 周安斌; 晏武志; 邹方超; 潘见见
Original assignee: Shandong Jindong Digital Creative Co ltd
Current assignee: Shandong Jindong Digital Creative Co ltd
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-06-06

Abstract

本发明提供了一种三维形象流畅发音口型模拟方法，属于三维形象发音技术领域，该三维形象流畅发音口型模拟方法包括：获取三维形象需要发音的文本序列，并采用文本序列合成音发音音频；将所述文本序列转化为音素序列；根据所述音素序列和发音音频生成对应的口型视素序列；对口型视素序列补充过渡口型得到口型视素流畅序列；将口型视素流畅序列加载到三维形象模型中，将口型视素流畅序列按照时间轴播放并同时播放发音音频，实现三维形象流畅发音口型模拟。本方法解决了实现口型过渡需要大量的模型训练，且现有技术中三维形象发音口型不流畅的技术问题。

Description

一种三维形象流畅发音口型模拟方法

技术领域

本发明属于三维形象发音技术领域，具体而言，涉及一种三维形象流畅发音口型模拟方法。

背景技术

口型是角色面部动画的关键视点，口型动画是否逼真、流畅直接影响到角色面部整体动画的真实度，因此，口型动画的制作在电影、游戏以及虚拟现实等人机交互方式中占据着重要地位，因此，能够实现三维形象流畅发音口型成为众多三维团队追求的目标。

公开号为CN108447474B的中国发明专利(申请号：CN201810199537.3)公开了一种虚拟人物语音与口型同步的建模与控制方法，包括产生待同步语音对应的音素序列；将音素序列转换为音素类别序列；将音素类别序列转换为静态口型配置序列；通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置；将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象，同步配合语音信号进行展示。该方法采用静态口型序列进行排布组合，缺少口型之间的过渡，相邻口型之间直接跳转，因此，会导致发音口型模拟不流畅，给人以不真实的感觉。

公开号为CN115580743A的中国发明专利(申请号：CN202211568819.9)公开了一种视频中人物口型驱动方法及系统，该方法针对一段带有人物说话图形的视频以及一段语音，通过对语音的学习和视频的学习来驱动视频中人物的口型，其中，口型生成采用构建及训练口型生成网络模型，根据语音生成对应口型，解决了现有技术存在的难以准确驱动口型、编辑效率低等问题；由于采用了网络模型训练口型，其对口型之间的过渡有一定效果，但是需要进行大量的模型训练，实现流畅发音口型模拟成本高。

发明内容

有鉴于此，本发明提供一种三维形象流畅发音口型模拟方法，不需要大量的模型训练，即可实现三维形象流畅发音口型模拟。

本发明是这样实现的：

本发明提供一种三维形象流畅发音口型模拟方法，其中，包含如下步骤：

S10：获取三维形象需要发音的文本序列，并采用文本序列合成音发音音频；

S20：将所述文本序列转化为音素序列；

S30：根据所述音素序列和发音音频生成对应的口型视素序列；

S40：对口型视素序列补充过渡口型得到口型视素流畅序列；

S50：将口型视素流畅序列按照时间轴播放并同时播放发音音频，实现三维形象流畅发音口型模拟。

其中，将所述文本序列转化为音素序列的方式为：

若文本序列为中文，则首先将中文转化为拼音作为发音文本，若文本序列为字母语言，则以文本序列作为发音文本；

对发音文本拆分为音素序列。

其中，对口型视素序列补充过渡口型得到口型视素流畅序列用于使得口型视素序列按照时间轴播放时过渡平滑。

在上述技术方案的基础上，本发明的一种三维形象流畅发音口型模拟方法还可以做如下改进:

其中，所述“根据所述音素序列和发音音频生成对应的口型视素序列”具体包括如下步骤：

根据发音音频计算音素序列中每个音素的持续时长，并对音素序列进行时间长度标记，得到包含每个音素持续时长的音素序列；

根据包含每个音素持续时长的音素序列建立与序列中每个音素对应的口型视素序列，所述口型视素序列包含每个口型视素的持续时长；

采用滤波法对所述口型视素序列进行平滑处理。

进一步的，所述“对口型视素序列补充过渡口型得到口型视素流畅序列”具体包括：过渡口型迭代补充法和/或过渡口型组补充法，所述过渡口型迭代补充法具体步骤如下：

步骤一：计算口型视素序列中每两个相邻口型的相似度；

步骤二：若相邻口型相似度小于平滑阈值，则在相邻口型中插入过渡口型；

步骤三：以插入了过渡口型的相邻口型作为口型视素序列段，计算口型视素序列段中每两个相邻口型的相似度；

步骤四：迭代执行第二步、第三步，直到整个口型视素序列中每两个相邻口型的相似度都大于平滑阈值；

所述过渡口型组补充法具体步骤如下：

步骤a.计算口型视素序列中每两个相邻口型的相似度；

步骤b.若相邻口型相似度小于平滑阈值，则在相邻口型中插入过渡口型组，所述过渡口型组包含至少一个过渡口型，第一个过渡口型和相邻口型的左侧口型相似度需要大于平滑阈值，且最后一个过渡口型与相邻口型的右侧口型相似度需要大于平滑阈值；且相邻的过渡口型的相似度需要大于平滑阈值。

所述平滑阈值是可调整的。

进一步的，所述相邻口型的相似度计算方法为余弦相似度计算法。

进一步的，所述过渡口型来源于过渡口型序列，所述过渡口型为所述过渡口型序列中的排序中间的口型；

所述过渡口型序列的获取方法为：

第一步：在测试人员嘴部关键点粘贴多个小色块，其中所述小色块为直径小于2mm的圆形；

第二步：在测试人员正对面设置摄像机；

第三步：测试人员朗读包含所有音素任意音素之间两两相邻的文本，摄像机采集测试人员的朗读录像；

第四步：从朗读录像中获取测试人员的相邻口型的视频；

第五步：根据相邻口型的视频得到对应的每个小色块的运动轨迹并记为相邻口型小色块轨迹集；

第六步：建立三维虚拟人嘴部模型，并根据每个相邻口型小色块轨迹集建立相邻口型之间的变化模型；

第七步：根据相邻口型之间的变化模型按照相邻口型视频的时间轴拆分为过渡口型序列，所述过渡口型序列的第一个口型为相邻口型的左侧口型，所述过渡口型序列的最后一个口型为相邻口型的右侧口型。

另外的，也可以采用标记的方式在测试人员嘴部标记不同的颜色。

进一步的，所述步骤b还包括，所述“在相邻口型中插入过渡口型组”时，以过渡口型组中口型最少的过渡口型组作为需要插入的过渡口型组。

进一步的，所述嘴部关键点包括两个嘴角、上嘴唇中部和下嘴唇中部。

进一步的，所述嘴部关键点为MPEG-4标准下人脸动画系统中规定的嘴部关键点。

进一步的，所述在测试人员嘴部关键点粘贴的多个小色块之间的色彩具有明显区别，且小色块与测试热源嘴部的色彩不同。

进一步的，所述步骤“在测试人员嘴部关键点粘贴的多个小色块”之前，首先将测试人员的嘴部涂为白色。

与现有技术相比较，本发明提供的一种三维形象流畅发音口型模拟方法的有益效果是：本方法没有使用神经网络模型对口型进行训练，减少了大量的运算；根据文本生成音频，并根据音频对音素以及对应的口型视素的时长进行设定，采用滤波法对所述口型视素序列进行平滑处理，提高了口型视素的平滑度，有利于提高发音的口型过渡流畅度；另一方面，通过采集测试人员的口型变化录像并生成口型变化模型，当需要在相邻口型中插入过渡口型时，则从口型变化模型中选择过渡口型进行插入，提高发音的口型过渡的流畅度，使得三维形象发音口型流畅。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种三维形象流畅发音口型模拟方法的流程图；

图2为采用滤波法对所述口型视素序列进行平滑处理的示意图；

图3为MPEG-4标准下的嘴部关键点示意图；

图4为平面中余弦相似度的示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

如图1所示，是本发明提供的一种三维形象流畅发音口型模拟方法的流程图，本方法包含如下步骤：

S20：将文本序列转化为音素序列；

S30：根据音素序列和发音音频生成对应的口型视素序列；

S40：对口型视素序列补充过渡口型得到口型视素流畅序列；

音素(Phoneme)，是人类语言中能够区别意义的最小声音单位。视素(Viseme)，则是视觉方式呈现出的音素，描绘出发音时的嘴部姿态。音素与视素之间，并不是一一对应的关系。例如人类对音素b、p、m的发音方式相似度很高，因而可以对应相同的视素。

音素分为元音音素和辅音音素；对于元音音素，根据开口度和唇形将元音音素划分为多个元音音素类别；对于辅音音素，根据发音部位将辅音音素划分为多个辅音音素类别。因为有不同的音素，嘴形的变化有所不同。例如，中文音素：a、o、e、b、p、m、f等，英文音素：e,ε,ɑ,

t,s等。

由于文本序列是按照字的，每个字包含了多个音素，还需要基于声韵母对其进行拆分。

由于没有复声母，所以声母单独作为一个音素。

对于部分复韵母，可以认为是单韵母的组合，如iang可以认为是i,a,ng三个音素的组合。

这里需要注意的是：声母类似于辅音，在每个字的发音中占的比重较小；当一个字持续时间较长时，实际上后面大部分时间都体现的是最后一个音素的口型，而不是平均分配时间给到各个音素。

其中，在上述技术方案中，“根据音素序列和发音音频生成对应的口型视素序列”具体包括如下步骤：

根据包含每个音素持续时长的音素序列建立与序列中每个音素对应的口型视素序列，口型视素序列包含每个口型视素的持续时长；

采用滤波法对口型视素序列进行平滑处理。

如图2所示，为口型视素的中其中一个的时序图，曲折度大的线为平滑前时序图，可以看到不同口型视素之间的切换都是直接而生硬的。平滑的方法这里采用的是简单的时序滤波，滤波器的长度根据帧率不同，换算成时间为-180ms～180ms，因为一般一个音素的持续时间在120～180ms左右。曲折度小的曲线为平滑度后的时序图，通过滤波可以看到后面的时序图已经比较平滑了。

进一步的，在上述技术方案中，“对口型视素序列补充过渡口型得到口型视素流畅序列”具体包括：过渡口型迭代补充法和/或过渡口型组补充法，过渡口型迭代补充法具体步骤如下：

步骤一：计算口型视素序列中每两个相邻口型的相似度；

过渡口型组补充法具体步骤如下：

步骤a.计算口型视素序列中每两个相邻口型的相似度；

步骤b.若相邻口型相似度小于平滑阈值，则在相邻口型中插入过渡口型组，过渡口型组包含至少一个过渡口型，第一个过渡口型和相邻口型的左侧口型相似度需要大于平滑阈值，且最后一个过渡口型与相邻口型的右侧口型相似度需要大于平滑阈值；且相邻的过渡口型的相似度需要大于平滑阈值。

当平滑度阈值越大，则符合平滑度阈值的相邻口型之间的相似度越多，此时越多的相邻口型之间不需要添加过渡口型；当平滑度阈值越小，则符合平滑度阈值的相邻口型之间的相似度越少，此时越多的相邻口型之间需要添加过渡口型，也就是说，带来的三维形象发音口型越流畅。

进一步的，在上述技术方案中，相邻口型的相似度计算方法为余弦相似度计算法，余弦相似度，又称为余弦相似性，是通过测量两个向量的夹角的余弦值来度量它们之间的相似性，具体如下所示：

以口型的两嘴角中心为原点，建立水平、竖直以及口型前后方向的三维坐标系；

根据每个嘴部关键点在三维坐标系中的坐标建立N维向量，其中N为嘴部关键点的个数，相邻口型的左侧口型向量为A[A₁,A₂,……,A_N],相邻口型的右侧口型向量为B[B₁,YB₂,……,B_N]

此时AB的余弦相似度计算如下：

进一步的，在上述技术方案中，过渡口型来源于过渡口型序列，过渡口型为过渡口型序列中的排序中间的口型；

过渡口型序列的获取方法为：

第一步：在测试人员嘴部关键点粘贴多个小色块，其中小色块为直径小于2mm的圆形；

第二步：在测试人员正对面设置摄像机；

第四步：从朗读录像中获取测试人员的相邻口型的视频；

第七步：根据相邻口型之间的变化模型按照相邻口型视频的时间轴拆分为过渡口型序列，过渡口型序列的第一个口型为相邻口型的左侧口型，过渡口型序列的最后一个口型为相邻口型的右侧口型。

所有音素任意音素之间两两相邻的文本，即该文本包含所有音素对应的拼音、文字或字母，且包含任意两个音素相邻的所有组合。

进一步的，在上述技术方案中，步骤b还包括，“在相邻口型中插入过渡口型组”时，以过渡口型组中口型最少的过渡口型组作为需要插入的过渡口型组。

进一步的，在上述技术方案中，嘴部关键点包括两个嘴角、上嘴唇中部和下嘴唇中部。

进一步的，在上述技术方案中，嘴部关键点为MPEG-4标准下人脸动画系统中规定的嘴部关键点。

如图3所示，MPEG-4是一个国际多媒体压缩标准，具有通用性。它又包含一系列的子标准，诸如音/视频转换、编码、人脸动画标准等。由于“人”的情感表达与人机交互等在多媒体系统中所处的重要地位，MPEG-4有一个部分专门用于描述三维人脸动画的定义与合成。在这一部分中，MPEG-4定义了人脸定义参数(FDP,Facial Definition Parameters)，人脸动画参数(FAP,Facial Animation Parameters)和人脸动画参数单元(FAPU,FAP,FacialAnimation Parameters Unit)。FDP的作用是刻画特定三维人脸模型的位置信息与纹理特征；FAP的作用是实现人脸面部的运动；FAPU的作用是描述不同人脸在某些典型特征上的差异性，使FAP具有通用性。通过定义这些参数的使用方法，MPEG-4建立了一套完整的方案用于描述人脸动画的合成。

其中，MPEG-4给出了84个特征点在人脸上的位置，本方案以其中嘴部的特征点作为嘴部关键点。

进一步的，在上述技术方案中，在测试人员嘴部关键点粘贴的多个小色块之间的色彩具有明显区别，且小色块与测试热源嘴部的色彩不同。

进一步的，在上述技术方案中，步骤“在测试人员嘴部关键点粘贴的多个小色块”之前，首先将测试人员的嘴部涂为白色。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种三维形象流畅发音口型模拟方法，其特征在于，包含如下步骤：

S20：将所述文本序列转化为音素序列；

S40：对口型视素序列补充过渡口型得到口型视素流畅序列；

2.根据权利要求1所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述“根据所述音素序列和发音音频生成对应的口型视素序列”具体包括如下步骤：

采用滤波法对所述口型视素序列进行平滑处理。

3.根据权利要求2所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述“对口型视素序列补充过渡口型得到口型视素流畅序列”具体包括：过渡口型迭代补充法和/或过渡口型组补充法，所述过渡口型迭代补充法具体步骤如下：

步骤一：计算口型视素序列中每两个相邻口型的相似度；

所述过渡口型组补充法具体步骤如下：

步骤a.计算口型视素序列中每两个相邻口型的相似度；

4.根据权利要求3所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述相邻口型的相似度计算方法为余弦相似度计算法。

5.根据权利要求4所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述过渡口型来源于过渡口型序列，所述过渡口型为所述过渡口型序列中的排序中间的口型；

所述过渡口型序列的获取方法为：

第二步：在测试人员正对面设置摄像机；

第四步：从朗读录像中获取测试人员的相邻口型的视频；

6.根据权利要求3所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述步骤b还包括，所述“在相邻口型中插入过渡口型组”时，以过渡口型组中口型最少的过渡口型组作为需要插入的过渡口型组。

7.根据权利要求5所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述嘴部关键点包括两个嘴角、上嘴唇中部和下嘴唇中部。

8.根据权利要求5所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述嘴部关键点为MPEG-4标准下人脸动画系统中规定的嘴部关键点。

9.根据权利要求5所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述在测试人员嘴部关键点粘贴的多个小色块之间的色彩具有明显区别，且小色块与测试热源嘴部的色彩不同。

10.根据权利要求9所述的一种三维形象流畅发音口型模拟方法，其特征在于，所述步骤“在测试人员嘴部关键点粘贴的多个小色块”之前，首先将测试人员的嘴部涂为白色。