CN108492350A

CN108492350A - 基于唇读技术的角色口型动画制作方法

Info

Publication number: CN108492350A
Application number: CN201810281323.0A
Authority: CN
Inventors: 朱妹丽
Original assignee: Jilin Animation Institute
Current assignee: Jilin Animation Institute
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-09-04

Abstract

本发明涉及一种基于唇读技术的角色口型动画制作方法，属于计算机智能识别技术领域。利用唇读技术，解决角色口型动画中口型、表情、声音不一致的问题。本发明主要包括唇部检测与定位、唇动特征提取、唇语识别、角色交互控制。对于唇部检测与定位，采用ASM算法标定出人脸面部的68个关键点；对于唇动特征提取，使用鲁棒性较好的灰度能量图；对于唇语识别，运用动态时间规整算法。采用本发明的角色口型动画方法，可以使动画创作人员在角色动画制作过程中，通过唇读技术实现对角色口型的控制，这种口型动画制作方法能够减少口型动画制作复杂度与工作量，提高动画制作效率。

Description

基于唇读技术的角色口型动画制作方法

技术领域

本发明涉及计算机智能识别技术领域，特别涉及一种图像处理与角色口型动画制作相结合的基于唇读技术的角色口型动画制作方法。根据识别人物的唇动变化，完成角色口型动画制作。

背景技术

唇读(lip-reading/speech-reading)，是指通过观察说话者的口型变化，“读出”或“部分读出”其所说的内容，唇读技术源于听力弱者和听力障碍者学习、了解正常人语言表达的一种技巧。唇读技术研究涉及多个领域，包括人工智能、知识工程、模式识别、图像处理、自然语言理解等。随着自动语音识别、人机自然交互和计算机视觉技术的迅速发展，唇读技术不在仅仅是改善语音识别率的辅助手段，唇读作为新的人体生物特征、新的人机接口、新的编码方式、新的反恐手段，在人们生活中发挥着越来越重要的作用。

在三维角色动画制作中，面部动画最为关键，只有当表情、口型、声音三者一致时，角色动画看起来才会更加真实自然。在欧美的动画中，为了做到表情、口型、声音的对应，传统的方法先请配音演员录音，然后让动画师捕捉配音演员说话时的表情神采与口型，并以此设定角色形象。后来随着计算机图形图像技术的快速发展，欧美开始使用建立标准英文口型发音系统的方法来创作口型动画。而在国内，则基本上采用关键帧制作法，只把台词中夸张的口型部分做出来，其他部分则含糊带过，这使得国内动画中的角色口型与台词的契合度很低，角色面部动画生。计算机智能识别技术的日渐成熟，使得动画制作技术不断向智能化、便捷化发展，因此，对于角色口型动画而言，也需要智能化的制作方法来减轻动画制作人员繁重的、重复的工作，减少对制作人员专业与经验的高要求，简单易操作的动画制作工具成为动画生产的必然需求。

发明内容

本发明的目的在于提供一种基于唇读技术的角色口型动画制作方法，解决了现有技术存在的角色口型动画中口型、表情、声音不一致的问题。本发明能够让动画制作人员快捷、轻松的制作出高品质的口型动画，实现口型、配音、表情的一致。制作人员在口型动画制作过程中，通过唇读技术，实现与角色的实时交互，实现口型与配音的一致。

本发明的上述目的通过以下技术方案实现：

基于唇读技术的角色口型动画制作方法，包括以下步骤：

S1：通过摄像头拾取人脸视频信号，获取人脸图像序列；

S2：从人脸图像中检测与定位出唇部位置，唇部检测与定位采用主动形状模型法ASM，步骤如下：

S21：训练：构建形状模型，首先手动标记训练样本的脸部特征点，然后对特征进行归一化、对齐、PCA处理，最后为每个特征点构建局部特征，选取梯度特征为局部特征；

S22：搜索：首先计算嘴部的位置，对齐人脸，然后根据马氏距离匹配局部特征点；

S3：从标定出的唇部位置，提取包含唇动特征的特征值序列，唇动特征提取步骤如下：

S31：求取唇动图像序列的灰度图像；

S32：求取灰度能量图；

S33：对灰度能量图进行小波离散变换，分解尺度为3，采用db4小波；

S34：选取低频近似分量作为候选特征值，对候选特征值进行重采样处理，得到特征序列值；

S4：根据唇动特征值进行唇语识别，唇语识别采用动态时间规整方法，步骤如下：

S41：比较待比较模板的长度，如果长度差别大于阈值，则返回匹配失败；

S42：根据待比较模板的长度，将匹配区域划分为两段或三段；

S43：分别对每一段区域进行匹配；

S44：计算总累计距离；

S5：根据唇语识别结果，控制角色口型动画。

进一步，步骤S21所述的训练的过程包括以下步骤：

S211：搜集N个训练样本；

S212：手动记录下每个训练样本中的k个关键特征点，本方法k值为18，为唇部轮廓的关键点；

S213：构建训练集的形状向量，将一幅图中标定的k个关键特征点组成一个形状向量，

式中，表示第i个训练样本上第j个特征点的坐标，n表示训练样本的个数；

S214：形状归一化，采用Procrustes方法进行点分布模型对齐操作；

S215：将对齐后的形状向量进行PCA处理；

S216：为每个特征点构建局部特征。

进一步：步骤S22所述的搜索的过程包括以下步骤：

S221：计算每个特征点的新位置，初始模型为：

X＝M(s,θ)[a_i]+X_c

式中，M为旋转缩放矩阵，s表示缩放、θ表示旋转、X_c表示位移，选取马氏距离最小的特征点作为新位置；

S222：更新参数，直至迭代次数达到指点阈值；

X_c＝X_c+w_tdX_c，Y_c＝Y_c+w_tdY_c，θ＝θ+w_θdθ，s＝s(1+w_sds)，b＝b+w_bdb

式中，w_t，w_θ，w_s，w_b为控制参数变化的权值。

进一步，步骤S32所述的求取灰度能量图的步骤如下：

S321：根据步骤S2标定的唇部位置，从人脸图像序列中截取唇部图像，得到唇动序列图像，然后求取灰度唇动图像序列，计算公式为：

Gray＝(R*77+G*151+B*28)/256

式中，R、G、B分别表示红、绿、蓝通道的像素值；

S322：计算灰度能量，方法为计算灰度唇部序列的平均灰度图，公式为：

式中I(x,y,i)为第i帧图像像素点(x,y)的灰度值，N为图像帧数。

进一步，步骤S214所述的采用Procrustes方法进行点分布模型对齐操作，其中，分布模型对齐包括以下步骤：

S2141：将训练集中的所有唇部模型对齐到第一个唇部模型；

S2142：计算平均唇部模型

S2143：将所有唇部模型对齐到平均唇部模型

S2143：重复步骤S2142与步骤S2143直至收敛。

进一步，步骤S215所述的将对齐后的形状向量进行PCA处理，其中，PCA处理包括以下步骤：

S2151：计算平均形状向量，计算公式为：

式中，n表示特征点总数，a_i为第i个特征点的形状向量

S2152：计算协方差矩阵，计算公式为：

式中，n表示特征点总数，a_i为第i个特征点的形状向量，为平局形状向量

S2153：计算协方差矩阵的特征值，并将其按从大到小排列，训练向量使用线性模型表示，为：

式中，P_s为投影矩阵，b_s为参数向量，

进一步，步骤S216所述的为每个特征点构建局部特征，其中，局部特征构建包括以下步骤：

S2161：计算特征点的局部纹理，取其平均值，公式为：

式中，n表示特征点总数，，g_ij表示第i个特征点的局部纹理

S2162：计算方差，公式为：

式中，n表示特征点总数，g_ij表示第i个特征点的局部纹理，为第i个特征点的局部纹理均值。

本发明的有益效果在于：

1.本发明采用基于唇读技术的角色口型动画制作方法，可以是动画师通过自然语言实现对角色口型动画的制作，这种方法不需要昂贵的动作捕捉设备，直接使用自然语言，控制角色口型动画。

2.本发明使用主动形状模型法ASM确定唇部轮廓，从唇部灰度能量图中提取唇动特征值向量，并使用动态时间规整方法DTW来识别唇语，最终实现对角色口型动画的控制。该方法是一种高效的、鲁棒的唇语识别方法，ASM算法能够准确提取唇部区域，灰度能量图能够有效平滑去噪，以多尺度小波变换后的低频近似分量作为特征值在降低特征向量纬度的同时能够获得更好的识别效果。

3.本发明具有完备的口型--发音库，并通过嵌入式脚本与Maya软件相连，降低了口型动画制作的难度与复杂度，将动画师从繁杂重复的口型调试工作中解放出来，将更多的精力投入到动画影视作品的创意中。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明的口型动画制作系统；

图2为本发明的基于唇读技术的角色口型动画制作方法流程图；

图3为本发明的唇部区域获取过程；

图4为本发明的唇部轮廓标定结果；

图5为本发明的唇动灰度能量图。

具体实施方式

下面结合附图进一步说明本发明的详细内容及其具体实施方式。

参见图1至图5所示，本发明的基于唇读技术的角色口型动画制作方法，是一种唇语识别算法与利用唇读技术的角色口型动画制作方法。本发明利用唇读技术，解决角色口型动画中口型、表情、声音不一致的问题。本发明主要包括唇部检测与定位、唇动特征提取、唇语识别、角色交互控制。对于唇部检测与定位，采用ASM算法标定出人脸面部的68个关键点；对于唇动特征提取，使用鲁棒性较好的灰度能量图；对于唇语识别，运用动态时间规整算法。采用本发明的角色口型动画方法，可以使动画创作人员在角色动画制作过程中，通过唇读技术实现对角色口型的控制，这种口型动画制作方法能够减少口型动画制作复杂度与工作量，提高动画制作效率。

参见图1所示，为口型动画制作系统，包括通过摄像头获取人脸图像序列、智能识别算法和角色模型，本发明的智能识别算法通过嵌入式脚本语言开发完成，通过唇读识别结果，直接控制Maya中的角色口型动画制作。

参见图2所示，本发明的基于唇读技术的角色口型动画制作方法流程图，包括以下步骤：

S1：通过摄像头拾取人脸视频信号，获取人脸图像序列；

S21：训练：构建形状模型，首先手动标记训练样本的脸部特征点，然后对特征进行归一化、对齐、PCA处理，最后为每个特征点构建局部特征，局部特征选取梯度特征；

S31：求取唇动图像序列的灰度图像；

S32：求取灰度能量图；

S43：分别对每一段区域进行匹配；

S44：计算总累计距离；

S5：根据唇语识别结果，控制角色口型动画。

参见图3及图4所示，唇部区域获取过程、唇部轮廓标定结果，包括以下步骤：

进一步，步骤S21所述的训练的过程包括以下步骤：

S211：搜集N个训练样本；

S215：将对齐后的形状向量进行PCA处理；

S216：为每个特征点构建局部特征。

进一步：步骤S22所述的搜索的过程包括以下步骤：

S221：计算每个特征点的新位置，初始模型为：

X＝M(s,θ)[a_i]+X_c

S222：更新参数，直至迭代次数达到指点阈值；

式中，w_t，w_θ，w_s，w_b为控制参数变化的权值。

进一步，步骤S32所述的求取灰度能量图的步骤如下：

Gray＝(R*77+G*151+B*28)/256

式中，R、G、B分别表示红、绿、蓝通道的像素值；

式中，I(x,y,i)为第i帧图像像素点(x,y)的灰度值，N为图像帧数。

S2141：将训练集中的所有唇部模型对齐到第一个唇部模型；

S2142：计算平均唇部模型

S2143：将所有唇部模型对齐到平均唇部模型

S2143：重复步骤S2142与步骤S2143直至收敛。

S2151：计算平均形状向量，计算公式为：

式中，n表示特征点总数，a_i为第i个特征点的形状向量

S2152：计算协方差矩阵，计算公式为：

式中，P_s为投影矩阵，b_s为参数向量，

S2161：计算特征点的局部纹理，取其平均值，公式为：

式中n表示特征点总数，，g_ij表示第i个特征点的局部纹理

S2162：计算方差，公式为：

式中n表示特征点总数，g_ij表示第i个特征点的局部纹理，为第i个特征点的局部纹理均值。

以上所述仅为本发明的优选实例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于唇读技术的角色口型动画制作方法，其特征在于：包括以下步骤：

S1：通过摄像头拾取人脸视频信号，获取人脸图像序列；

S31：求取唇动图像序列的灰度图像；

S32：求取灰度能量图；

S43：分别对每一段区域进行匹配；

S44：计算总累计距离；

S5：根据唇语识别结果，控制角色口型动画。

2.根据权利要求1所述的基于唇读技术的角色口型动画制作方法，其特征在于：步骤S21所述的训练的过程包括以下步骤：

S211：搜集N个训练样本；

S215：将对齐后的形状向量进行PCA处理；

S216：为每个特征点构建局部特征。

3.根据权利要求1所述的基于唇读技术的角色口型动画制作方法，其特征在于：步骤S22所述的搜索的过程包括以下步骤：

S221：计算每个特征点的新位置，初始模型为：

X＝M(s,θ)[a_i]+X_c

式中，s表示缩放、θ表示旋转、X_c表示位移，选取马氏距离最小的特征点作为新位置；

S222：更新参数，直至迭代次数达到指点阈值；

式中w_t，w_θ，w_s，w_b为控制参数变化的权值。

4.根据权利要求1所述的基于唇读技术的角色口型动画制作方法，其特征在于：步骤S32所述的求取灰度能量图的步骤如下：

Gray＝(R*77+G*151+B*28)/256

式中，R、G、B分别表示红、绿、蓝通道的像素值；

式中I(x,y,i)为第i帧图像像素点(x,y)的灰度值，N为图像帧数。

5.根据权利要求2所述的基于唇读技术的角色口型动画制作方法，其特征在于：步骤S214所述的采用Procrustes方法进行点分布模型对齐操作，其中，分布模型对齐包括以下步骤：

S2141：将训练集中的所有唇部模型对齐到第一个唇部模型；

S2142：计算平均唇部模型

S2143：将所有唇部模型对齐到平均唇部模型

S2143：重复步骤S2142与步骤S2143直至收敛。

6.根据权利要求2所述的基于唇读技术的角色口型动画制作方法，其特征在于：步骤S215所述的将对齐后的形状向量进行PCA处理，其中，PCA处理包括以下步骤：

S2151：计算平均形状向量，计算公式为：

S2152：计算协方差矩阵，计算公式为：

S2153：计算协方差矩阵的特征值，并将其按从大到小排列，训练向量表示为：

式中，P为特征值构成的特征向量，b为参数向量，

7.根据权利要求2所述的基于唇读技术的角色口型动画制作方法，其特征在于：步骤S216所述的为每个特征点构建局部特征，其中，局部特征构建包括以下步骤：

S2161：计算特征点的局部纹理，取其平均值，公式为：

式中g_ij表示第i个特征点的局部纹理；

S2162：计算方差，公式为：