CN115690280A

CN115690280A - 一种三维形象发音口型模拟方法

Info

Publication number: CN115690280A
Application number: CN202211687841.5A
Authority: CN
Inventors: 周安斌; 晏武志; 李鑫; 潘见见; 彭辰
Original assignee: Shandong Jindong Digital Creative Co ltd
Current assignee: Shandong Jindong Digital Creative Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-02-03
Anticipated expiration: 2042-12-28
Also published as: CN115690280B

Abstract

本发明提供了一种三维形象发音口型模拟方法，属于三维虚拟技术领域，该三维形象发音口型模拟方法的步骤包括：在测试人员嘴部粘贴多个小色块，测试人员朗读文本，采集测试人员的朗读录像；对朗读录像按照音频中的音素进行拆分，得到音素录像集并处理得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集；建立三维虚拟人嘴部模型，并根据单音素小色块稳定坐标集建立每个音素对应的口型模型；根据需要读取的文本，建立口型模型序列，并对所述口型模型序列中相邻的口型，以音素变化小色块轨迹集构建口型变动过程。本方法考虑了相邻口型，避免了三维形象发音时单个音素对应的口型产生跳跃，给观众带来不真实的感觉的现象。

Description

一种三维形象发音口型模拟方法

技术领域

本发明属于三维虚拟技术领域，具体而言，涉及一种三维形象发音口型模拟方法。

背景技术

口型是角色面部动画的关键视点，口型动画是否逼真、自然直接影响到角色面部整体动画的真实度，因此，口型动画的制作在电影、游戏以及虚拟现实等人机交互方式中占据着重要地位。

公开号为CN108447474B的中国发明专利（专利号：CN201810199537.3）公开了一种虚拟人物语音与口型同步的建模与控制方法，能够减少口型动画数据标注量，并获得准确、自然流畅并与声音同步的口型动作。该方法包括：产生待同步语音对应的音素序列；将音素序列转换为音素类别序列；将音素类别序列转换为静态口型配置序列；通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置；将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象，同步配合语音信号进行展示。该方法可以不依赖于口型动画数据，并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。

由于汉语、英语等在连续发音时口型受到相邻音素的影响而产生变化，上述发明没有解决相邻音素对口型的影响问题，从而导致三维形象发音时单个音素对应的口型产生跳跃，给观众带来不真实的感觉。

发明内容

有鉴于此，本发明提供一种三维形象发音口型模拟方法能够解决相邻音素对口型的影响问题，避免了三维形象发音时单个音素对应的口型产生跳跃，给观众带来不真实的感觉的现象。

本发明是这样实现的：

本发明提供一种三维形象发音口型模拟方法，其中，包括以下步骤：

S10：在测试人员嘴部粘贴多个小色块，使得小色块覆盖满测试人员嘴部且相邻小色块之间的色彩不同，其中所述小色块为直径小于2mm的圆形；

S20：在测试人员正对面设置三个摄像机，其中所述三个摄像机的镜头相互垂直，并以三个摄像机的空间位置建立三维坐标系；

S30：测试人员朗读文本，三个摄像机采集测试人员的朗读录像；

S40：对朗读录像按照音频中的音素进行拆分，得到音素录像集，所述音素录像集的每个视频段为一个音素对应的录像；

S50：对得到的音素录像集进行处理，得到所述音素录像集中每个元素对应的每个小色块的运动轨迹并记为单音素小色块轨迹集；

S60：以音素录像集建立相邻录像集并进行处理，得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集；

S70：对单音素小色块轨迹集进行处理得到单音素小色块稳定坐标集；

S80：建立三维虚拟人嘴部模型，并根据单音素小色块稳定坐标集建立每个音素对应的口型模型；

S90：根据需要读取的文本，建立口型模型序列，并对所述口型模型序列中相邻的口型，以音素变化小色块轨迹集构建口型变动过程。

在上述技术方案的基础上，本发明的一种三维形象发音口型模拟方法还可以做如下改进:

其中，所述步骤S50中，对得到的音素录像集进行处理的具体步骤包括：

步骤一：将音素录像集中包含的视频段进行清晰化处理；

步骤二：对清晰化处理后的视频段中的每一帧中的各个小色块的中心坐标进行记录作为小色块坐标；

步骤三：将小色块坐标按照视频段的时间轴时域集合做为运动轨迹。

进一步的，所述步骤“将音素录像集中包含的视频段进行清晰化处理”具体为：

将视频流信号转成YUV三分量，并获取视频流信号内各帧图像中像素的Y分量；

对各像素的Y分量进行加权统计计算；其中，采用如下公式对各像素的Y分量进行加权统计计算：

其中，

和

分别表示第n帧图像中像素的加权统计计算的结果；n为大于0的自然数；i，j为像素的行列坐标；

＝0；

表示第n帧图像当前像素的Y分量；

；

根据加权统计计算的结果及相应像素的Y分量判断该像素是否存在噪声，根据加权统计计算的结果与相应像素的Y分量进行计算，计算公式如下：

根据计算结果L1与L2判断对应帧的像素是否存在噪声；

若是，则根据加权统计计算的结果对相应像素进行清晰处理，具体为：

获取存在噪声的像素加权统计计算的结果

；

将加权统计计算的结果

赋值给相应像素的Y分量。

其中，所述步骤S60中，以音素录像集建立相邻录像集并进行处理的步骤具体包括：

步骤一：提取相邻录像集中的相邻音素，所述提取方式为除第一个音素外，每一个音素与其前面的一个音素作为相邻音素；

步骤二：根据相邻音素中第一个音素和第二个音素的发音时长进行归一处理后作为发音权重，建立相邻音素发音权重序列；

步骤三：将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化得到音素变化小色块轨迹集。

进一步的，所述“将单音素色小块轨迹集与相邻音素发音权重序列拟合”的具体步骤为：

步骤一：将单音素小色块轨迹集与相邻音素发音权重按照音素进行匹配，得到相邻音素发音权重小色块轨迹集；

步骤二：在三维坐标轴中，相邻音素发音权重小色块轨迹集的坐标乘以权重，得到相邻音素发音权重序列拟合曲线。

进一步的，所述“将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化”中，优化的具体步骤为：

步骤一：选择全部的具有相同相邻音素的相邻音素发音权重序列拟合曲线作为归类集；

步骤二：利用近邻传播聚类算法对所述归类集中的每个相邻音素发音权重序列拟合曲线聚为一类，并得到该类的聚类中心，作为相邻录像对应的音素变化过程的小色块运动轨迹并记为音素变化小色块轨迹集。

其中，所述步骤S70中具体为：利用近邻传播聚类算法将单音素小色块轨迹集的所有坐标聚为一类，并得到该类的聚类中心作为单音素小色块稳定坐标集。

其中，所述步骤S10还包括：在测试人员嘴部粘贴多个小色块之前，将测试人员嘴部涂为白色。

其中，所述测试人员的朗读文本包含所有音素，且包含所有音素的相邻组合。

其中，所述小色块采用柔性材料制成，所述小色块的颜色与测试人员嘴部颜色有明显不同。

与现有技术相比较，本发明提供的一种三维形象发音口型模拟方法的有益效果是：利用小色块时域运动轨迹代替现有技术中常用的口型关键点，使得整个三维形象发音口型模拟流畅，同时以音素录像集建立相邻录像集并进行处理，得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集；根据需要读取的文本，建立口型模型序列，并对所述口型模型序列中相邻的口型，以音素变化小色块轨迹集构建口型变动过程，避免了三维形象发音时单个音素对应的口型产生跳跃，给观众带来不真实的感觉的现象。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种三维形象发音口型模拟方法的流程图；

图2为近邻传播聚类(AP)算法框图。

具体实施方式

如图1所示，是本发明提供的一种三维形象发音口型模拟方法的第一实施例，在本实施例中，包括以下步骤：

S10：在测试人员嘴部粘贴多个小色块，使得小色块覆盖满测试人员嘴部且相邻小色块之间的色彩不同，其中小色块为直径小于2mm的圆形；

S20：在测试人员正对面设置三个摄像机，其中三个摄像机的镜头相互垂直，并以三个摄像机的空间位置建立三维坐标系；

S40：对朗读录像按照音频中的音素进行拆分，得到音素录像集，音素录像集的每个视频段为一个音素对应的录像；

S50：对得到的音素录像集进行处理，得到音素录像集中每个元素对应的每个小色块的运动轨迹并记为单音素小色块轨迹集；

S90：根据需要读取的文本，建立口型模型序列，并对口型模型序列中相邻的口型，以音素变化小色块轨迹集构建口型变动过程。

由于人类语言中，当前音素的发音受之后音素发音的影响要远远大于受之前音素发音的影响，因此需要建立相邻录像集，并对相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集。

其中，在上述技术方案中，步骤S50中，对得到的音素录像集进行处理的具体步骤包括：

步骤一：将音素录像集中包含的视频段进行清晰化处理；

进一步的，在上述技术方案中，步骤“将音素录像集中包含的视频段进行清晰化处理”具体为：

其中，

和

＝0；

表示第n帧图像当前像素的Y分量；

；

根据计算结果L1与L2判断对应帧的像素是否存在噪声；

获取存在噪声的像素加权统计计算的结果

；

将加权统计计算的结果

赋值给相应像素的Y分量。

其中，YUV是编译true-color颜色空间的种类，“Y”表示像素的明亮度（Luminance、Luma），“U”和“V”则分别表示像素的色度、浓度（Chrominance、Chroma）。需要说明的是，上述将视频流信号转成YUV三分量可以采用已有技术，本发明中不予赘述。

对各像素的Y分量进行加权统计计算。即统计连续多帧视频图像的像素变化情况，离的越远的帧，它对当前帧各像素的影响权重就越低。需要说明的是，本发明中只对Y分量进行加权统计计算，而U分量与V分量保持不变。

其中，在上述技术方案中，步骤S60中，以音素录像集建立相邻录像集并进行处理的步骤具体包括：

步骤一：提取相邻录像集中的相邻音素，提取方式为除第一个音素外，每一个音素与其前面的一个音素作为相邻音素；

进一步的，在上述技术方案中，“将单音素色小块轨迹集与相邻音素发音权重序列拟合”的具体步骤为：

进一步的，在上述技术方案中，“将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化”中，优化的具体步骤为：

步骤二：利用近邻传播聚类算法对归类集中的每个相邻音素发音权重序列拟合曲线聚为一类，并得到该类的聚类中心，作为相邻录像对应的音素变化过程的小色块运动轨迹并记为音素变化小色块轨迹集。

其中，在上述技术方案中，步骤S70中具体为：利用近邻传播聚类算法将单音素小色块轨迹集的所有坐标聚为一类，并得到该类的聚类中心作为单音素小色块稳定坐标集。

其中，在上述技术方案中，步骤S10还包括：在测试人员嘴部粘贴多个小色块之前，将测试人员嘴部涂为白色。

其中，在上述技术方案中，测试人员的朗读文本包含所有音素，且包含所有音素的相邻组合。

其中，在上述技术方案中，小色块采用柔性材料制成，小色块的颜色与测试人员嘴部颜色有明显不同。

其中，近邻传播聚类算法(AP)是一种基于图论的聚类算法。其基本思想是将全部待聚类样本看作是网络中的节点，且都当作潜在的聚类中心，待聚类样本间通过相似度连线构成一个网络(相似度矩阵S)，再通过网络中各条边的消息(吸引度responsibility和归属度availability)的传递，进而计算出待聚类样本集的聚类中心。近邻传播聚类算法的框图如附图2所示。

根据数据标准化预处理后的待聚类样本集计算相似矩阵S(j ,h)，S(j ,h)表示数据点h（也就是单音素小色块轨迹集的坐标）适合作为数据点j的聚类中心的能力，一般使用负的欧式距离：

对于网络中的所有待聚类样本，借助图论中邻接矩阵的思想，我们可以计算得到吸引度矩阵R(j ,h)和归属度矩阵A(j ,h)。其中，R(j ,h)表示每个候选聚类中心h相对其他候选聚类中心

对待聚类样本j的吸引程度，A(j ,h)表示每个待聚类样本j对候选聚类中心h的归属度:

为避免在迭代计算过程中R(j ,h)和A(j ,h)出现震荡现象，引入衰减因子λ：

其中衰减因子λ的取值范围为（0,1）。

AP算法通过迭代更新上述吸引度矩阵R(j ,h)和归属度矩阵A(j ,h)的值的方式来实现聚类效果。当R(j ,h)和A(j ,h)达到稳定，或者达到最大迭代次数时，结束算法迭代，并选取R(j ,h)+ A(j ,h)最大的待聚类样本作为聚类中心c，将c作为单音素小色块稳定坐标集。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。