CN112001323A

CN112001323A - 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法

Info

Publication number: CN112001323A
Application number: CN202010864395.5A
Authority: CN
Inventors: 张赐; 吕云; 胡雨森
Original assignee: Chengdu Weiai New Economic And Technological Research Institute Co ltd
Current assignee: Chengdu Weiai New Economic And Technological Research Institute Co ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-27

Abstract

本发明公开了一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，涉及数字虚拟图像生成技术领域。本发明包括如下步骤：将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来，构建生成嘴型数据库；识别给定文本，生成拼音序列或音标序列，从序列中筛选出关键音素；对关键音素嘴型建模，完成不同关键音素对应不同嘴型参数匹配；通过插值算法，将声母和韵母或者音标动作混合在一起，形成给定文本发音的嘴型；将定文本发音的嘴型导入到数字虚拟人像中，驱动数字虚拟人动嘴。本发明以此来驱动数字虚拟人的嘴型动嘴，提高虚拟人物嘴型的生成准确率，降低三维虚拟动画的制作成本。

Description

一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法

技术领域

本发明属于数字虚拟图像生成技术领域，特别是涉及一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法。

背景技术

三维虚拟动画具有深远的文化意义，它以“寓教于乐”的方式在大众中传播着文化知识信息。好的动画作品可以宣扬人文精神和赞美大自然，更可以继承和发扬民族文化。

在动画角色中，常需要根据输入的对话展示面部表情，包括口型。然而，在实际应用中，受语速、嘴巴大小、语种、方言等因素的影响，语言口型的生成较为困难，导致汉语、英语嘴型的生成准确率较低，

因此，为了传承这种优秀的文化形式，本文要通过对拼音和英文音标与嘴型关系的研究，达到简便制作嘴型同步动画的效果，从而来丰富动漫虚拟人物的表情。

发明内容

本发明的目的在于提供一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，通过采集中文的声母和韵母或英文音标的每个发音的嘴型动作并构建嘴型库，获取给定文本中发音结构找到对应的嘴型，利用插值算法将嘴型动作混合，形成文本的发音嘴型，解决了现有的虚拟人物嘴型的生成准确率较低，制作成本高的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，包括如下步骤：

步骤S1：将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来，构建生成嘴型数据库；

步骤S2：识别给定文本，生成拼音序列或音标序列，从序列中筛选出关键音素；

步骤S3：对关键音素嘴型建模，完成不同关键音素对应不同嘴型参数匹配；

步骤S4：通过插值算法，将声母和韵母或者音标动作混合在一起，形成给定文本发音的嘴型；

步骤S5：将定文本发音的嘴型导入到数字虚拟人像中，驱动数字虚拟人动嘴。

优选地，所述步骤S1中，嘴型动作记录过程如下：

步骤S11：通过多个人读中文的声母和韵母或英文音标，同时使用摄像机进行拍摄，获取音频流数据和视频流数据；

步骤S12：将视频流分割成一帧一帧图片，找出中文的声母和韵母或英文音标对应的帧图片；

步骤S13：对正面人脸图像进行检测，获取中文的声母和韵母或英文音标所对应的嘴唇信息；

步骤S14：将嘴唇信息以及对应的中文的声母和韵母或英文音标录入嘴型数据库。

优选地，所述步骤S3中，对关键音素的特征数据进行训练和建模，通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理，消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差，把不同人的唇形形状归一化，把每一帧唇形图片上的二维坐标转化为高维空间上的点，将每个点合成一列高维向量，每一个向量代表一帧唇形图片信息，对所有向量进行分类与聚类分析处理，并划分到多个基本唇形类别中，利用语音帧和唇形帧在时间序列上的一一对应关系，将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。

本发明具有以下有益效果：

本发明通过采集中文的声母和韵母或英文音标的每个发音的嘴型动作并构建嘴型库，获取给定文本中发音结构找到对应的嘴型，利用插值算法将声母和韵母或英文音标的嘴型动作混合，形成文本的发音嘴型，并以此来驱动数字虚拟人的嘴型动嘴，提高虚拟人物嘴型的生成准确率，降低三维虚拟动画的制作成本。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法步骤图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，包括如下步骤：

其中，中文中包括24个韵母和23个声母；声母包括b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s和零声母，韵母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、i1、i2、ia、ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn、io；

英文中音标公有48个，包括元音20个，辅音28个；元音包括单元音([i:]、bai[I]、

[u:]、

[ɑ:]、

[e]、

)和双元音([eI]、[aI]、

)；辅音包括：[p]、[b]、[t]、[d]、[k]、[g]、[f]、[v]、[s]、[z]、[θ]、

[∫]、

[t∫]、[d3]、[tr]、[dr]、[ts]、[dz]、[m]、[n]、[η]、[h]、[l]、[r]、[j]、[w]。

其中，步骤S1中，嘴型动作记录过程如下：

其中，步骤S3中，对关键音素的特征数据进行训练和建模，通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理，消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差，把不同人的唇形形状归一化，把每一帧唇形图片上的二维坐标转化为高维空间上的点，将每个点合成一列高维向量，每一个向量代表一帧唇形图片信息，对所有向量进行分类与聚类分析处理，并划分到多个基本唇形类别中，利用语音帧和唇形帧在时间序列上的一一对应关系，将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，其特征在于，所述步骤S1中，嘴型动作记录过程如下：

3.根据权利要求1所述的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，其特征在于，所述步骤S3中，对关键音素的特征数据进行训练和建模，通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理，消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差，把不同人的唇形形状归一化，把每一帧唇形图片上的二维坐标转化为高维空间上的点，将每个点合成一列高维向量，每一个向量代表一帧唇形图片信息，对所有向量进行分类与聚类分析处理，并划分到多个基本唇形类别中，利用语音帧和唇形帧在时间序列上的一一对应关系，将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。