CN101826216B

CN101826216B - 一个角色汉语口型动画自动生成系统

Info

Publication number: CN101826216B
Application number: CN2010101390938A
Authority: CN
Inventors: 于海涛; 吴峰风; 杨一平; 张之益; 葛水英; 李朋; 臧亚男
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-03-31
Filing date: 2010-03-31
Publication date: 2011-12-07
Anticipated expiration: 2030-03-31
Also published as: CN101826216A

Abstract

本发明公开一个角色汉语口型动画自动生成系统，对白文本过滤编码模块对对白文本进行短语切分、拼音口型编码、整体认读标记设置及编码过滤，生成并输出对白口型编码、对白整体认读编码标识和对白口型过滤编码序列；对白语音切分模块对对白音频进行语音抽样和语音能量统计，生成并输出对白语音切分候选结果序列；对白切分编码整合模块连接对白文本过滤编码模块和对白语音切分模块，对对白语音切分候选结果序列进行整合修正，生成并输出对白切分编码序列；角色汉语口型动画生成模块与对白切分编码整合模块连接，根据对白切分编码序列生成并输出角色汉语口型动画。该发明处理过程中无需加载相应的语音库便可自动完成整个角色汉语口型动画的制作。

Description

一个角色汉语口型动画自动生成系统

技术领域

本发明属于计算机领域，涉及到自然语言处理，语音切分，计算机角色口型动画等应用技术，具体针对3D角色汉语口型动画制作，提出一个角色汉语口型动画自动生成系统。

背景技术

制作具有真实感的、准确的三维口型动画是计算机视觉和计算机动画领域的研究热点。在3D角色动画制作中，口型动画的一直是制作过程中一项比较耗时的工作，需要动画师一点点将口型与对话相匹配。

目前，国外的口型动画系统如Poser口型Mimic，3ds max口型插件Voice-O-Matic等，其设计主要针对英语，而对汉语不支持或支持的效果比较差；而国内部分的口型动画系统需要手动标定汉字发音的位置，或者需引用指定抽样频段的声音标本，才能有效地进行切分。

此外，一套完整的3D角色口型动画生成系统通常包括两部分：语音切分模块和口型动画生成模块。已有系统中这两个模块只是松散的耦合(单独对音频进行语音切分，然后利用切分的结果指导和设置动画口型的关键帧位置)，这两个部分之间几乎存在很少的交互，因此也很难根据角色对白语音强度和长度特点，自动完成对于发音位置的调节以及动画口型的整理。

发明内容

针对以上问题，本发明的目的在于提出了一个角色汉语口型动画自动生成系统，以提高角色汉语口型动画生成的效率，准确性和灵活性。该系统具有如下特点：(1)只需输入对白文本和音频，系统可自动在角色模型上实现口型动画；(2)可根据对白音频的特点，自动调节各个汉字语音切分的结果；(3)根据语音的强度调节相关动画口型变化的幅度；(4)根据语音的密度调节关键帧的设置，减少角色口型抖动。

为达成所述目的本发明提供一个角色汉语口型动画自动生成系统，该系统包括：对白文本过滤编码模块、对白语音切分模块、对白切分编码整合模块、以及角色汉语口型动画生成模块，对白文本过滤编码模块对对白文本进行短语切分、拼音口型编码、整体认读标记设置及编码过滤，生成并输出对白口型编码序列、对白整体认读编码标识序列和对白口型过滤编码序列；对白语音切分模块对对白音频进行语音抽样和语音能量统计，生成并输出对白语音切分候选结果序列；对白切分编码整合模块连接对白文本过滤编码模块和对白语音切分模块，对对白语音切分候选结果序列进行整合修正，生成并输出对白切分编码序列；角色汉语口型动画生成模块与对白切分编码整合模块连接，根据对白切分编码序列生成并输出角色汉语口型动画。

本发明的有益效果：本发明提出了一个角色汉语口型动画自动生成系统只需将对白的音频和文本输入系统，无需加载相应的语音库便可自动完成整个角色口型动画的制作。该处理过程完全基于数据驱动，可根据输入对白的音频和文本，自动完成对白编码，语音切分，并可根据对白特点完成切分结果和汉字编码的整合，并最终形成口型动画。因此该系统具有较高的实用性，准确性和智能性，可大幅提高汉语口型动画制作的效率。

附图说明：

图1是本发明一个角色汉语口型动画自动生成系统结构图；

图2是本发明对白过滤编码模块流程示意图；

图3是本发明对白语音切分模块流程示意图；

图4是本发明对白切分编码整合模块流程示意图；

图5是本发明角色汉语口型动画生成模块流程示意图；

图6是本发明7种基本口型示意图。

具体实施方式

下面结合附图，系统地对本发明如何对输入的对白文本和音频进行编码，切分以及形成角色口型动画的流程进行说明。

本发明的结构如图1所示。该系统实现中所需的基本的硬件条件为：一台主频为2.3GHz，内存为1G的电脑；所需软件条件为：动画制作环境(3dmax，maya均可)，编程环境(vs.net2005)。该系统主要包括对白文本过滤编码模块1、对白语音切分模块2、对白切分编码整合模块3和角色汉语口型动画生成模块4。对白文本过滤编码模块1对对白文本进行短语切分、拼音口型编码、整体认读标记设置及编码过滤，生成并输出对白口型编码序列、对白整体认读编码标识序列和对白口型过滤编码序列；对白语音切分模块2对对白音频进行语音抽样和语音能量统计，生成并输出对白语音切分候选结果序列；对白切分编码整合模块3连接对白文本过滤编码模块1和对白语音切分模块2，对对白语音切分候选结果序列进行整合修正，生成并输出对白切分编码序列；角色汉语口型动画生成模块4与对白切分编码整合模块3连接，根据对白切分编码序列生成并输出角色汉语口型动画。

下面对每一模块的功能和设计进行详细阐述。

一、对白过滤编码模块1

对白过滤编码模块1在处理过程中主要利用了汉字拼音库，拼音口型编码库，过滤编码库，以及整体认读音节序列。汉字拼音库主要包含如下信息：汉字，汉字拼音，韵母，声母；拼音口型编码库包括7种基本口型编码以及与声母、韵母的映射关系；过滤编码库可以由有经验的口型动画师进行维护和管理。整体认读音节序列由16种特定的音节组成，其处理流程如图2所示，其详细处理步骤：

步骤S11：整理汉字拼音，构建汉字拼音库，其中包含信息{汉字，拼音，声母，韵母}；

步骤S12：将汉语中整体认读音节进行归纳整理，构建整体认读音节库。将汉字音节划分为拼读音节和整体认读音节两类，其中。整体音节包括zhi，chi，shi，ri，zi，ci，si，yi，wu，yu，ye，yue，yin，yun，yuan和ying 16种，其余为拼读音节。整体认读音节在发音时无需从声母到韵母的过渡；拼读音节在发音时需要声母到韵母的过渡；

步骤S13：分析汉字声母和韵母发音时口型特点，将汉语音素发音归结为7种基本口型，构建拼音口型编码库；

(1)B口型：发音时双唇由闭合到打开，嘴型向外撅，对应音素包括b，m，p；

(2)F口型：发音时双唇由闭合到打开，咬唇，对应音素包括f；

(3)D口型：发音时嘴唇微微张开，对应音素包括d，t，n，l，g，k，h，j，q，x，zh，chi，sh，r，z，s；

(4)A口型：发音时嘴唇张开幅度较大，嘴型呈非圆形，对应音素包括a，ai，an，ang，ao，ia，ian，iao，ua，uai，uan，uang，

；

(5)O口型：发音时嘴唇张开幅度较大，嘴型呈圆形，对应音素包括o，ou，ong，uo，iong；

(6)E口型：发音时嘴唇张开幅度较小，嘴型非圆形并向两侧伸展，对应音素包括e，i，ie，er，ei，uei，en，in，uen，eng，ing，ueng，y；

(7)U口型：发音时嘴唇张开幅度较小，嘴型非圆形向前撅，对应的音素包括u，，ve，iou，un，ui，w。

步骤S14：通过分析7种动画口型之间的相互关系，构建口型过滤编码库，这里仅包括DE编码，即音节声母对应于D口型，音节韵母对应于E口型；

步骤S15：利用自然语言处理手段对白文本进行切分，生成对白短语数组；

步骤S16：根据汉字拼音库，获取对白短语数组中每一个汉字的拼音，生成对白短语拼音数组；

步骤S17：根据整体认读音节库，将对白短语拼音数组中整体认读的音节所对应的汉字进行标识，生成对白整体认读编码标识序列{汉字，拼音，位置}；

步骤S18：根据拼音口型编码库，对对白短语拼音数组中每一个汉字拼音进行口型编码，生成对白口型编码候选序列{对白汉字，对白汉字口型编码，声母口型编码，韵母口型编码}；

步骤S19：根据口型过滤编码库，对对白口型编码候选序列进行过滤，生成对白口型编码序列和对白口型过滤编码序列{未过滤对白汉字，为过滤对白汉字口型编码，声母口型编码，韵母口型编码}；

二、对白语音切分模块2

对白语音切分模块2主要分为语音抽样，语音能量统计和生成语音切分候选结果数组三个流程。

如图3示出的对白语音切分模块2流程示意图，其详细处理步骤为：

步骤S21：设定语音抽样窗的大小和移动的位移(移动的位移通常为语音抽样窗大小的一半)，对输入的对白音频进行语音抽样，生成语音抽样单元；

步骤S22：将抽样单元中语音能量最大值与最小值的差值作为该抽样单元的能量值；

步骤S23：根据相邻抽样单元能量值变化的情况，将能量值连续增加到最大值后再连续降低为最小值的连续抽样单元集合初步作为一个发音区间，并将抽样单元集合中抽样单元能量的最大值作为该发音区间的发音强度，生成对白语音切分候选结果序列{开始帧，最大帧，结束帧，发音强度}；

三、对白切分编码整合模块3

根据对白口型编码序列，对白整体认读编码标识序列以及对白口型过滤编码序列，对对白语音切分候选结果序列进行修正，形成对白切分编码序列。

如图4示出的对白切分编码整合模块3流程示意图，其详细处理步骤为：

步骤S31：如果对白语音切分候选结果序列长度大于对白口型编码序列长度，则切分的语音结果有冗余，首先针对那些切分区间过小或能量值变化较小的区间进行合并以剔除噪声引起的发音区间断开，然后将过滤编码按照顺序添加到对白口型编码序列中，直到两者长度相等，生成修正后的对白语音切分候选结果序列；否则如果对白语音切分候选结果序列长度小于对白口型编码序列长度，说明切分时将不同的汉字发声区间进行合并，则缩小语音抽样窗的长度，返回对白语音切分模块，重新生成对白语音切分候选结果序列；

步骤S32：在修正的对白语音切分候选结果序列中，如果出现连续首尾相连的若干个发音区间，说明该区间说话速率较快。为了减少口型动画的抖动，删除对白语音切分候选结果序列中位于相邻区间共有的关键帧，生成约简的对白语音切分候选结果序列；

步骤S33：针对约简的对白语音切分候选结果序列，根据对白整体认读编码标识序列，对语音切分候选结果进行整合，进一步降低出现动画角色口型的抖动现象；如果汉字属于整体认读标识序列，则在该发音区间设置开始、发音位置和结束这三个关键帧；否则如果汉字不属于整体认读标识序列，且发音区间长度大于4帧，则设置开始、声母发音位置、韵母发音位置和结束这些关键帧；

步骤S34：生成对白切分编码序列{对白音频地址；汉字编码(开始位置，发音位置，结束位置，汉字编码，发音强度)}

四、角色汉语口型动画生成模块4

为了有效地实现角色口型动画，我们在maya环境中设计并实现表情控制面板，利用表情控制面板控制和相关变形器的变化，制作7种基准口型，如图6所示。

由于后台采用Blendshape变形器，使得不同基本口型之间可以均匀的过渡。如图5示出本发明角色汉语口型动画生成模块流程示意图，其详细处理步骤为：

步骤S41：设计并实现表情控制面板和相应的Blendshape变形器，利用表情控制面板控制相关变形器的变化，来间接控制角色面部表情姿态；

步骤S42：选定角色，利用表情控制面板制作角色7种基本B口型，F口型，D口型，A口型，O口型，E口型，U口型对应的面部姿态；

步骤S43：根据对白切分编码序列，自动在每一个字发音的位置(声母发音，韵母发音，或整体发音的位置)上设置关键帧，并将角色模型该在关键帧的状态设置为口型编码所对应的口型姿态，并根据发音的强度确定口型打开的程度，生成角色汉语口型动画。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一个角色汉语口型动画自动生成系统，其特征在于：该系统包括：对白文本过滤编码模块、对白语音切分模块、对白切分编码整合模块、以及角色汉语口型动画生成模块，其中：

对白文本过滤编码模块对对白文本进行短语切分、拼音口型编码、整体认读标记设置及编码过滤，生成并输出对白口型编码序列、对白整体认读编码标识序列和对白口型过滤编码序列；

对白语音切分模块对对白音频进行语音抽样和语音能量统计，生成并输出对白语音切分候选结果序列；

对白切分编码整合模块连接对白文本过滤编码模块和对白语音切分模块，根据对白口型编码序列、对白整体认读编码标识序列及对白口型过滤编码序列，对对白语音切分候选结果序列进行整合修正，生成并输出对白切分编码序列；

角色汉语口型动画生成模块与对白切分编码整合模块连接，根据对白切分编码序列生成并输出角色汉语口型动画。

2.如权利要求1所述的角色汉语口型动画自动生成系统，其特征在于：对白文本过滤编码模块生成对白口型编码序列和对白口型过滤编码序列的步骤如下：

步骤S11：构建汉字拼音库；

步骤S12：构建整体认读音节库；

步骤S13：构建拼音口型编码库

步骤S14：构建口型过滤编码库；

步骤S15：对对白文本进行短语切分并生成对白短语数组；

步骤S 17：根据整体认读音节库，对对白短语拼音数组整体认读标识，生成对白整体认读编码标识序列；

步骤S18：根据拼音口型编码库，对对白短语拼音数组进行口型编码，生成对白口型编码候选序列；

步骤S19：根据口型过滤编码库，对对白口型编码候选序列进行过滤，生成对白口型编码序列和对白口型过滤编码序列。

3.如权利要求2所述的角色汉语口型动画自动生成系统，其特征在于：所述整体认读音节库包括：zhi，chi，shi，ri，zi，ci，si，yi，wu，yu，ye，yue，yin，yun，yuan和ying 16种整体认读音节。

4.如权利要求2所述的角色汉语口型动画自动生成系统，其特征在于：所述拼音口型编码库包括7种基本B口型，F口型，D口型，A口型，O口型，E口型，U口型。

5.如权利要求2所述的角色汉语口型动画自动生成系统，其特征在于：所述口型过滤编码库包括声母为D口型，韵母为E口型的口型编码。

6.如权利要求1所述的角色汉语口型动画自动生成系统，其特征在于：对白语音切分模块生成对白语音切分候选结果序列的步骤包括：

步骤S21：对对白音频进行语音抽样，形成语音抽样单元序列；

步骤S22：对语音抽样单元进行能量统计，获得语音每个抽样单元的能量值；

步骤S23：根据相邻语音抽样单元的能量值的变化规律，生成对白语音切分候选结果序列。

7.如权利要求1所述的角色汉语口型动画自动生成系统，其特征在于：对白切分编码整合模块对对白语音切分候选结果序列进行整合修正的步骤包括：

步骤S31：如果语音切分候选结果序列长度大于对白口型编码序列的长度，针对那些切分区间过小或能量值变化较小的区间进行合并以剔除噪声引起的发音区间断开，然后将过滤编码按照顺序添加到对白口型编码序列中，直到两者长度相等，生成修正后的对白语音切分候选结果序列；否则重新进行语音抽样，重新生成对白语音切分候选结果序列；

步骤S32：对修正后的对白语音切分候选结果序列中的发音相连的区间进行校正，避免出现角色口型动画抖动，生成并输出约简的对白语音切分候选结果序列；

步骤S33：针对约简的对白语音切分候选结果序列，利用对白整体认读编码标识序列，修正每个字的发音位置，生成并输出对白切分编码序列。

8.如权利要求1所述的一个角色汉语口型动画自动生成系统，其特征在于：所述的角色汉语口型动画生成模块的处理步骤包括：

步骤S41：创建并实现表情控制面板；

步骤S42：利用表情控制面板控制相关变形器的变化，制作角色7种基准口型对应面部姿态，使得不同基本口型之间能均匀的过渡；

步骤S43：根据对白切分编码序列和7种基准口型面部姿态，生成角色汉语口型动画。