CN101826216B - 一个角色汉语口型动画自动生成系统 - Google Patents
一个角色汉语口型动画自动生成系统 Download PDFInfo
- Publication number
- CN101826216B CN101826216B CN2010101390938A CN201010139093A CN101826216B CN 101826216 B CN101826216 B CN 101826216B CN 2010101390938 A CN2010101390938 A CN 2010101390938A CN 201010139093 A CN201010139093 A CN 201010139093A CN 101826216 B CN101826216 B CN 101826216B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- mouth
- shape
- speaks
- phonetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000011218 segmentation Effects 0.000 claims abstract description 61
- 238000005070 sampling Methods 0.000 claims abstract description 22
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 238000005520 cutting process Methods 0.000 claims description 34
- 150000001875 compounds Chemical class 0.000 claims description 12
- 238000013518 transcription Methods 0.000 claims description 9
- 230000035897 transcription Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000001815 facial effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 108091026890 Coding region Proteins 0.000 abstract 1
- 238000000034 method Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开一个角色汉语口型动画自动生成系统,对白文本过滤编码模块对对白文本进行短语切分、拼音口型编码、整体认读标记设置及编码过滤,生成并输出对白口型编码、对白整体认读编码标识和对白口型过滤编码序列;对白语音切分模块对对白音频进行语音抽样和语音能量统计,生成并输出对白语音切分候选结果序列;对白切分编码整合模块连接对白文本过滤编码模块和对白语音切分模块,对对白语音切分候选结果序列进行整合修正,生成并输出对白切分编码序列;角色汉语口型动画生成模块与对白切分编码整合模块连接,根据对白切分编码序列生成并输出角色汉语口型动画。该发明处理过程中无需加载相应的语音库便可自动完成整个角色汉语口型动画的制作。
Description
技术领域
本发明属于计算机领域,涉及到自然语言处理,语音切分,计算机角色口型动画等应用技术,具体针对3D角色汉语口型动画制作,提出一个角色汉语口型动画自动生成系统。
背景技术
制作具有真实感的、准确的三维口型动画是计算机视觉和计算机动画领域的研究热点。在3D角色动画制作中,口型动画的一直是制作过程中一项比较耗时的工作,需要动画师一点点将口型与对话相匹配。
目前,国外的口型动画系统如Poser口型Mimic,3ds max口型插件Voice-O-Matic等,其设计主要针对英语,而对汉语不支持或支持的效果比较差;而国内部分的口型动画系统需要手动标定汉字发音的位置,或者需引用指定抽样频段的声音标本,才能有效地进行切分。
此外,一套完整的3D角色口型动画生成系统通常包括两部分:语音切分模块和口型动画生成模块。已有系统中这两个模块只是松散的耦合(单独对音频进行语音切分,然后利用切分的结果指导和设置动画口型的关键帧位置),这两个部分之间几乎存在很少的交互,因此也很难根据角色对白语音强度和长度特点,自动完成对于发音位置的调节以及动画口型的整理。
发明内容
针对以上问题,本发明的目的在于提出了一个角色汉语口型动画自动生成系统,以提高角色汉语口型动画生成的效率,准确性和灵活性。该系统具有如下特点:(1)只需输入对白文本和音频,系统可自动在角色模型上实现口型动画;(2)可根据对白音频的特点,自动调节各个汉字语音切分的结果;(3)根据语音的强度调节相关动画口型变化的幅度;(4)根据语音的密度调节关键帧的设置,减少角色口型抖动。
为达成所述目的本发明提供一个角色汉语口型动画自动生成系统,该系统包括:对白文本过滤编码模块、对白语音切分模块、对白切分编码整合模块、以及角色汉语口型动画生成模块,对白文本过滤编码模块对对白文本进行短语切分、拼音口型编码、整体认读标记设置及编码过滤,生成并输出对白口型编码序列、对白整体认读编码标识序列和对白口型过滤编码序列;对白语音切分模块对对白音频进行语音抽样和语音能量统计,生成并输出对白语音切分候选结果序列;对白切分编码整合模块连接对白文本过滤编码模块和对白语音切分模块,对对白语音切分候选结果序列进行整合修正,生成并输出对白切分编码序列;角色汉语口型动画生成模块与对白切分编码整合模块连接,根据对白切分编码序列生成并输出角色汉语口型动画。
本发明的有益效果:本发明提出了一个角色汉语口型动画自动生成系统只需将对白的音频和文本输入系统,无需加载相应的语音库便可自动完成整个角色口型动画的制作。该处理过程完全基于数据驱动,可根据输入对白的音频和文本,自动完成对白编码,语音切分,并可根据对白特点完成切分结果和汉字编码的整合,并最终形成口型动画。因此该系统具有较高的实用性,准确性和智能性,可大幅提高汉语口型动画制作的效率。
附图说明:
图1是本发明一个角色汉语口型动画自动生成系统结构图;
图2是本发明对白过滤编码模块流程示意图;
图3是本发明对白语音切分模块流程示意图;
图4是本发明对白切分编码整合模块流程示意图;
图5是本发明角色汉语口型动画生成模块流程示意图;
图6是本发明7种基本口型示意图。
具体实施方式
下面结合附图,系统地对本发明如何对输入的对白文本和音频进行编码,切分以及形成角色口型动画的流程进行说明。
本发明的结构如图1所示。该系统实现中所需的基本的硬件条件为:一台主频为2.3GHz,内存为1G的电脑;所需软件条件为:动画制作环境(3dmax,maya均可),编程环境(vs.net2005)。该系统主要包括对白文本过滤编码模块1、对白语音切分模块2、对白切分编码整合模块3和角色汉语口型动画生成模块4。对白文本过滤编码模块1对对白文本进行短语切分、拼音口型编码、整体认读标记设置及编码过滤,生成并输出对白口型编码序列、对白整体认读编码标识序列和对白口型过滤编码序列;对白语音切分模块2对对白音频进行语音抽样和语音能量统计,生成并输出对白语音切分候选结果序列;对白切分编码整合模块3连接对白文本过滤编码模块1和对白语音切分模块2,对对白语音切分候选结果序列进行整合修正,生成并输出对白切分编码序列;角色汉语口型动画生成模块4与对白切分编码整合模块3连接,根据对白切分编码序列生成并输出角色汉语口型动画。
下面对每一模块的功能和设计进行详细阐述。
一、对白过滤编码模块1
对白过滤编码模块1在处理过程中主要利用了汉字拼音库,拼音口型编码库,过滤编码库,以及整体认读音节序列。汉字拼音库主要包含如下信息:汉字,汉字拼音,韵母,声母;拼音口型编码库包括7种基本口型编码以及与声母、韵母的映射关系;过滤编码库可以由有经验的口型动画师进行维护和管理。整体认读音节序列由16种特定的音节组成,其处理流程如图2所示,其详细处理步骤:
步骤S11:整理汉字拼音,构建汉字拼音库,其中包含信息{汉字,拼音,声母,韵母};
步骤S12:将汉语中整体认读音节进行归纳整理,构建整体认读音节库。将汉字音节划分为拼读音节和整体认读音节两类,其中。整体音节包括zhi,chi,shi,ri,zi,ci,si,yi,wu,yu,ye,yue,yin,yun,yuan和ying 16种,其余为拼读音节。整体认读音节在发音时无需从声母到韵母的过渡;拼读音节在发音时需要声母到韵母的过渡;
步骤S13:分析汉字声母和韵母发音时口型特点,将汉语音素发音归结为7种基本口型,构建拼音口型编码库;
(1)B口型:发音时双唇由闭合到打开,嘴型向外撅,对应音素包括b,m,p;
(2)F口型:发音时双唇由闭合到打开,咬唇,对应音素包括f;
(3)D口型:发音时嘴唇微微张开,对应音素包括d,t,n,l,g,k,h,j,q,x,zh,chi,sh,r,z,s;
(5)O口型:发音时嘴唇张开幅度较大,嘴型呈圆形,对应音素包括o,ou,ong,uo,iong;
(6)E口型:发音时嘴唇张开幅度较小,嘴型非圆形并向两侧伸展,对应音素包括e,i,ie,er,ei,uei,en,in,uen,eng,ing,ueng,y;
(7)U口型:发音时嘴唇张开幅度较小,嘴型非圆形向前撅,对应的音素包括u,,ve,iou,un,ui,w。
步骤S14:通过分析7种动画口型之间的相互关系,构建口型过滤编码库,这里仅包括DE编码,即音节声母对应于D口型,音节韵母对应于E口型;
步骤S15:利用自然语言处理手段对白文本进行切分,生成对白短语数组;
步骤S16:根据汉字拼音库,获取对白短语数组中每一个汉字的拼音,生成对白短语拼音数组;
步骤S17:根据整体认读音节库,将对白短语拼音数组中整体认读的音节所对应的汉字进行标识,生成对白整体认读编码标识序列{汉字,拼音,位置};
步骤S18:根据拼音口型编码库,对对白短语拼音数组中每一个汉字拼音进行口型编码,生成对白口型编码候选序列{对白汉字,对白汉字口型编码,声母口型编码,韵母口型编码};
步骤S19:根据口型过滤编码库,对对白口型编码候选序列进行过滤,生成对白口型编码序列和对白口型过滤编码序列{未过滤对白汉字,为过滤对白汉字口型编码,声母口型编码,韵母口型编码};
二、对白语音切分模块2
对白语音切分模块2主要分为语音抽样,语音能量统计和生成语音切分候选结果数组三个流程。
如图3示出的对白语音切分模块2流程示意图,其详细处理步骤为:
步骤S21:设定语音抽样窗的大小和移动的位移(移动的位移通常为语音抽样窗大小的一半),对输入的对白音频进行语音抽样,生成语音抽样单元;
步骤S22:将抽样单元中语音能量最大值与最小值的差值作为该抽样单元的能量值;
步骤S23:根据相邻抽样单元能量值变化的情况,将能量值连续增加到最大值后再连续降低为最小值的连续抽样单元集合初步作为一个发音区间,并将抽样单元集合中抽样单元能量的最大值作为该发音区间的发音强度,生成对白语音切分候选结果序列{开始帧,最大帧,结束帧,发音强度};
三、对白切分编码整合模块3
根据对白口型编码序列,对白整体认读编码标识序列以及对白口型过滤编码序列,对对白语音切分候选结果序列进行修正,形成对白切分编码序列。
如图4示出的对白切分编码整合模块3流程示意图,其详细处理步骤为:
步骤S31:如果对白语音切分候选结果序列长度大于对白口型编码序列长度,则切分的语音结果有冗余,首先针对那些切分区间过小或能量值变化较小的区间进行合并以剔除噪声引起的发音区间断开,然后将过滤编码按照顺序添加到对白口型编码序列中,直到两者长度相等,生成修正后的对白语音切分候选结果序列;否则如果对白语音切分候选结果序列长度小于对白口型编码序列长度,说明切分时将不同的汉字发声区间进行合并,则缩小语音抽样窗的长度,返回对白语音切分模块,重新生成对白语音切分候选结果序列;
步骤S32:在修正的对白语音切分候选结果序列中,如果出现连续首尾相连的若干个发音区间,说明该区间说话速率较快。为了减少口型动画的抖动,删除对白语音切分候选结果序列中位于相邻区间共有的关键帧,生成约简的对白语音切分候选结果序列;
步骤S33:针对约简的对白语音切分候选结果序列,根据对白整体认读编码标识序列,对语音切分候选结果进行整合,进一步降低出现动画角色口型的抖动现象;如果汉字属于整体认读标识序列,则在该发音区间设置开始、发音位置和结束这三个关键帧;否则如果汉字不属于整体认读标识序列,且发音区间长度大于4帧,则设置开始、声母发音位置、韵母发音位置和结束这些关键帧;
步骤S34:生成对白切分编码序列{对白音频地址;汉字编码(开始位置,发音位置,结束位置,汉字编码,发音强度)}
四、角色汉语口型动画生成模块4
为了有效地实现角色口型动画,我们在maya环境中设计并实现表情控制面板,利用表情控制面板控制和相关变形器的变化,制作7种基准口型,如图6所示。
由于后台采用Blendshape变形器,使得不同基本口型之间可以均匀的过渡。如图5示出本发明角色汉语口型动画生成模块流程示意图,其详细处理步骤为:
步骤S41:设计并实现表情控制面板和相应的Blendshape变形器,利用表情控制面板控制相关变形器的变化,来间接控制角色面部表情姿态;
步骤S42:选定角色,利用表情控制面板制作角色7种基本B口型,F口型,D口型,A口型,O口型,E口型,U口型对应的面部姿态;
步骤S43:根据对白切分编码序列,自动在每一个字发音的位置(声母发音,韵母发音,或整体发音的位置)上设置关键帧,并将角色模型该在关键帧的状态设置为口型编码所对应的口型姿态,并根据发音的强度确定口型打开的程度,生成角色汉语口型动画。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一个角色汉语口型动画自动生成系统,其特征在于:该系统包括:对白文本过滤编码模块、对白语音切分模块、对白切分编码整合模块、以及角色汉语口型动画生成模块,其中:
对白文本过滤编码模块对对白文本进行短语切分、拼音口型编码、整体认读标记设置及编码过滤,生成并输出对白口型编码序列、对白整体认读编码标识序列和对白口型过滤编码序列;
对白语音切分模块对对白音频进行语音抽样和语音能量统计,生成并输出对白语音切分候选结果序列;
对白切分编码整合模块连接对白文本过滤编码模块和对白语音切分模块,根据对白口型编码序列、对白整体认读编码标识序列及对白口型过滤编码序列,对对白语音切分候选结果序列进行整合修正,生成并输出对白切分编码序列;
角色汉语口型动画生成模块与对白切分编码整合模块连接,根据对白切分编码序列生成并输出角色汉语口型动画。
2.如权利要求1所述的角色汉语口型动画自动生成系统,其特征在于:对白文本过滤编码模块生成对白口型编码序列和对白口型过滤编码序列的步骤如下:
步骤S11:构建汉字拼音库;
步骤S12:构建整体认读音节库;
步骤S13:构建拼音口型编码库
步骤S14:构建口型过滤编码库;
步骤S15:对对白文本进行短语切分并生成对白短语数组;
步骤S16:根据汉字拼音库,获取对白短语数组中每一个汉字的拼音,生成对白短语拼音数组;
步骤S 17:根据整体认读音节库,对对白短语拼音数组整体认读标识,生成对白整体认读编码标识序列;
步骤S18:根据拼音口型编码库,对对白短语拼音数组进行口型编码,生成对白口型编码候选序列;
步骤S19:根据口型过滤编码库,对对白口型编码候选序列进行过滤,生成对白口型编码序列和对白口型过滤编码序列。
3.如权利要求2所述的角色汉语口型动画自动生成系统,其特征在于:所述整体认读音节库包括:zhi,chi,shi,ri,zi,ci,si,yi,wu,yu,ye,yue,yin,yun,yuan和ying 16种整体认读音节。
4.如权利要求2所述的角色汉语口型动画自动生成系统,其特征在于:所述拼音口型编码库包括7种基本B口型,F口型,D口型,A口型,O口型,E口型,U口型。
5.如权利要求2所述的角色汉语口型动画自动生成系统,其特征在于:所述口型过滤编码库包括声母为D口型,韵母为E口型的口型编码。
6.如权利要求1所述的角色汉语口型动画自动生成系统,其特征在于:对白语音切分模块生成对白语音切分候选结果序列的步骤包括:
步骤S21:对对白音频进行语音抽样,形成语音抽样单元序列;
步骤S22:对语音抽样单元进行能量统计,获得语音每个抽样单元的能量值;
步骤S23:根据相邻语音抽样单元的能量值的变化规律,生成对白语音切分候选结果序列。
7.如权利要求1所述的角色汉语口型动画自动生成系统,其特征在于:对白切分编码整合模块对对白语音切分候选结果序列进行整合修正的步骤包括:
步骤S31:如果语音切分候选结果序列长度大于对白口型编码序列的长度,针对那些切分区间过小或能量值变化较小的区间进行合并以剔除噪声引起的发音区间断开,然后将过滤编码按照顺序添加到对白口型编码序列中,直到两者长度相等,生成修正后的对白语音切分候选结果序列;否则重新进行语音抽样,重新生成对白语音切分候选结果序列;
步骤S32:对修正后的对白语音切分候选结果序列中的发音相连的区间进行校正,避免出现角色口型动画抖动,生成并输出约简的对白语音切分候选结果序列;
步骤S33:针对约简的对白语音切分候选结果序列,利用对白整体认读编码标识序列,修正每个字的发音位置,生成并输出对白切分编码序列。
8.如权利要求1所述的一个角色汉语口型动画自动生成系统,其特征在于:所述的角色汉语口型动画生成模块的处理步骤包括:
步骤S41:创建并实现表情控制面板;
步骤S42:利用表情控制面板控制相关变形器的变化,制作角色7种基准口型对应面部姿态,使得不同基本口型之间能均匀的过渡;
步骤S43:根据对白切分编码序列和7种基准口型面部姿态,生成角色汉语口型动画。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101390938A CN101826216B (zh) | 2010-03-31 | 2010-03-31 | 一个角色汉语口型动画自动生成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101390938A CN101826216B (zh) | 2010-03-31 | 2010-03-31 | 一个角色汉语口型动画自动生成系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101826216A CN101826216A (zh) | 2010-09-08 |
CN101826216B true CN101826216B (zh) | 2011-12-07 |
Family
ID=42690121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101390938A Expired - Fee Related CN101826216B (zh) | 2010-03-31 | 2010-03-31 | 一个角色汉语口型动画自动生成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101826216B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819856A (zh) * | 2012-07-10 | 2012-12-12 | 广东工业大学 | 一种根据中文对白生成连贯嘴型动画的方法 |
CN104361620B (zh) * | 2014-11-27 | 2017-07-28 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN104574477B (zh) * | 2014-12-22 | 2017-08-08 | 北京像素软件科技股份有限公司 | 动画角色汉语口型生成的方法及装置 |
CN106297792A (zh) * | 2016-09-14 | 2017-01-04 | 厦门幻世网络科技有限公司 | 一种语音口型动画的识别方法及装置 |
CN107831684A (zh) * | 2016-09-16 | 2018-03-23 | 天津思博科科技发展有限公司 | 应用机器视觉实现的口型发音转置 |
CN106653050A (zh) * | 2017-02-08 | 2017-05-10 | 康梅 | 一种动画口型与语音实时匹配的方法 |
CN107808191A (zh) * | 2017-09-13 | 2018-03-16 | 北京光年无限科技有限公司 | 虚拟人多模态交互的输出方法和系统 |
CN109949390B (zh) * | 2017-12-21 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 图像生成方法、动态表情图像生成方法及装置 |
CN110853614A (zh) * | 2018-08-03 | 2020-02-28 | Tcl集团股份有限公司 | 虚拟对象口型驱动方法、装置及终端设备 |
CN109830236A (zh) * | 2019-03-27 | 2019-05-31 | 广东工业大学 | 一种双视位口型合成方法 |
CN110413841A (zh) * | 2019-06-13 | 2019-11-05 | 深圳追一科技有限公司 | 多态交互方法、装置、系统、电子设备及存储介质 |
CN110400580B (zh) * | 2019-08-30 | 2022-06-17 | 北京百度网讯科技有限公司 | 音频处理方法、装置、设备和介质 |
CN111161755A (zh) * | 2019-12-25 | 2020-05-15 | 新华智云科技有限公司 | 基于3d渲染引擎的中文唇音同步方法 |
CN112750187A (zh) * | 2021-01-19 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种动画生成方法、装置、设备及计算机可读存储介质 |
CN113112575B (zh) * | 2021-04-08 | 2024-04-30 | 深圳市山水原创动漫文化有限公司 | 一种口型生成方法、装置、计算机设备及存储介质 |
CN114638918B (zh) * | 2022-01-26 | 2023-03-28 | 武汉艺画开天文化传播有限公司 | 一种实时表演捕捉虚拟直播与录制系统 |
CN117095672A (zh) * | 2023-07-12 | 2023-11-21 | 支付宝(杭州)信息技术有限公司 | 一种数字人唇形生成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936889A (zh) * | 2005-09-20 | 2007-03-28 | 文化传信科技(澳门)有限公司 | 动画生成系统以及方法 |
CN1971621A (zh) * | 2006-11-10 | 2007-05-30 | 中国科学院计算技术研究所 | 语音和文本联合驱动的卡通人脸动画生成方法 |
CN101120348A (zh) * | 2005-02-15 | 2008-02-06 | Sk电信有限公司 | 用于无线通信网络的利用三维人物提供新闻信息的方法和系统 |
CN101482975A (zh) * | 2008-01-07 | 2009-07-15 | 丰达软件(苏州)有限公司 | 一种文字转换动画的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100897149B1 (ko) * | 2007-10-19 | 2009-05-14 | 에스케이 텔레콤주식회사 | 텍스트 분석 기반의 입 모양 동기화 장치 및 방법 |
-
2010
- 2010-03-31 CN CN2010101390938A patent/CN101826216B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101120348A (zh) * | 2005-02-15 | 2008-02-06 | Sk电信有限公司 | 用于无线通信网络的利用三维人物提供新闻信息的方法和系统 |
CN1936889A (zh) * | 2005-09-20 | 2007-03-28 | 文化传信科技(澳门)有限公司 | 动画生成系统以及方法 |
CN1971621A (zh) * | 2006-11-10 | 2007-05-30 | 中国科学院计算技术研究所 | 语音和文本联合驱动的卡通人脸动画生成方法 |
CN101482975A (zh) * | 2008-01-07 | 2009-07-15 | 丰达软件(苏州)有限公司 | 一种文字转换动画的方法和装置 |
Non-Patent Citations (2)
Title |
---|
周维.汉语语音同步的真实感三维人脸动画研究.《中国科学技术大学博士学位论文》.2009,全文. * |
蔡涛.三维人脸的口型合成研究.《北京工业大学硕士论文》.2002,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN101826216A (zh) | 2010-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101826216B (zh) | 一个角色汉语口型动画自动生成系统 | |
CN103218842B (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成系统 | |
CN104637482B (zh) | 一种语音识别方法、装置、系统以及语言交换系统 | |
CN109523989A (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
WO2021047233A1 (zh) | 一种基于深度学习的情感语音合成方法及装置 | |
CN105760852A (zh) | 一种融合脸部表情和语音的驾驶员情感实时识别方法 | |
CN107972028A (zh) | 人机交互方法、装置及电子设备 | |
CN112352275A (zh) | 具有多级别文本信息的神经文本到语音合成 | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
Howell et al. | Visual units and confusion modelling for automatic lip-reading | |
Santoso et al. | Speech Emotion Recognition Based on Attention Weight Correction Using Word-Level Confidence Measure. | |
CN115330911A (zh) | 一种利用音频驱动拟态表情的方法与系统 | |
Huang et al. | Speech emotion recognition using autoencoder bottleneck features and LSTM | |
Qu et al. | Lipsound2: Self-supervised pre-training for lip-to-speech reconstruction and lip reading | |
Jalin et al. | Text to speech synthesis system for tamil using HMM | |
Zeng | Implementation of Embedded Technology-Based English Speech Identification and Translation System. | |
Wester et al. | Asynchronous articulatory feature recognition using dynamic Bayesian networks | |
Riad et al. | Signsworld; deeping into the silence world and hearing its signs (state of the art) | |
Lakra et al. | Application of fuzzy mathematics to speech-to-text conversion by elimination of paralinguistic content | |
Ling et al. | Articulatory control of HMM-based parametric speech synthesis driven by phonetic knowledge | |
Thangthai | Computer lipreading via hybrid deep neural network hidden Markov models | |
Morley | Sound structure and sound change: A modeling approach | |
CN112766101B (zh) | 一种中文唇语识别建模单元集的构建方法 | |
Wang et al. | Cross-attention is not enough: Incongruity-aware dynamic hierarchical fusion for multimodal affect recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111207 |