CN101751692B - 语音驱动唇形动画的方法 - Google Patents

语音驱动唇形动画的方法 Download PDF

Info

Publication number
CN101751692B
CN101751692B CN2009102635588A CN200910263558A CN101751692B CN 101751692 B CN101751692 B CN 101751692B CN 2009102635588 A CN2009102635588 A CN 2009102635588A CN 200910263558 A CN200910263558 A CN 200910263558A CN 101751692 B CN101751692 B CN 101751692B
Authority
CN
China
Prior art keywords
lip
frame
voice
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102635588A
Other languages
English (en)
Other versions
CN101751692A (zh
Inventor
章毅
王平安
周激流
郑伯川
吕建成
张蕾
彭德中
于佳丽
张海仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN2009102635588A priority Critical patent/CN101751692B/zh
Publication of CN101751692A publication Critical patent/CN101751692A/zh
Application granted granted Critical
Publication of CN101751692B publication Critical patent/CN101751692B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种语音驱动唇形动画的方法,其特征在于,包括以下步骤:将汉语中的音节结构采用Consonant-Vowel分类;采集若干个人的原始音频数据和视频数据;获取对应唇形信息;获取语音特征数据;对所获取的唇形信息和语音特征数据进行训练和建模,依据训练的模型实时输入语音合成的唇形运动序列。该方法克服了现有技术的缺陷,并且运算数据量小,可操做性强等特点。

Description

语音驱动唇形动画的方法
技术领域
本发明涉及三维人脸动画技术领域,具体涉及一种语音驱动唇形动画的方法。
背景技术
唇形动画是人脸表情动画研究的重要内容之一,也是难点之一,人类的语言具有多模态特性,说话人的声音以及唇部运动,即唇形的状态变化,共同影响着他人对说话者的语音理解,这表明语音与唇形之间存在着一定的、自然的联系。唇同步是音频流和视频流之间的一种时间映射关系,是指说话人的语音与唇形运动状态之间的一种同步关系,采用映射模型是一种广泛使用且有效的算法。
腾讯科技(深圳)有限公司申请的中国专利200910003083.9公开了一种语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置,属于计算机技术领域,该语音驱动嘴唇形状变化的方法包括:获取音频信号,根据所述音频信号的特征得到嘴唇形状的运动幅度比例;获取初始的嘴唇形状模型,根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值;根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库,生成变化的嘴唇形状网格模型集合。该方法可操作性较小,由于每个人的口型的形状大小不同,同时说话时口型的运动幅度也有所不同,因此通过语音特征获取口型的运动幅度的比例会产生一定的误差,而且此方法的实现较复杂。
中国专利CN100369469C(申请号200510093269.X)也公开了一种语音驱动头部图像合成影音文件的方法,一种语音驱动头部图像合成影音文件的方法。它包括取静态头部数码图像;提取头部、脸部及五官轮廓特征点数据坐标,并计算图像动画模式数据;生成包括口形闭合帧、口形张开帧、表情帧以及三种类型图像帧的各自数目在内的图像特征数据文件;采集语音数码信息;分析、提取语音特征数据,生成包括有声音语音帧和无声音语音帧在内的语音特征数据文件;将图像特征数据文件和语音特征数据文件同步合成,使得有声音语音帧对应口形张开帧,无声音语音帧对应口形闭合帧,然后输出。该方法采用将图像特征数据文件和语音特征数据文件同步合成的方法,由于图像特征的提取较为复杂,很难达到实时性的要求,而且只区分出有音帧与无音帧对应的唇形,但没有考虑到语音中噪音的情况,很可能把噪音当作有音帧来处理而发生错误。
中国专利申请200510086646.7也公开一种基于动态基元选取的语音驱动人脸动画方法,将输入的任何用户的任何语言的语音转换成语音和三维人脸动画的同步输出。此方法基于采用运动实时捕获系统建立的多模态数据库,对多模态数据进行音视频分析,分别获得相应的特征向量;以音素为基元单位对多模态数据进行同步分割;对用户给定的语音序列,计算每个基元的音频匹配误差和前后基元间的视觉匹配误差,最后在候选的基元中动态地选择一条最佳路径,输出与语音序列同步的人脸动画参数序列,以驱动三维人脸动画模型。该方法用于处理任何语言的语音与唇形动画的同步情况,由于每种语言的发音规律与发音特征各不相同,很难有一个同一的标准处理方法,而且以此方法每个基元的音频匹配误差和前后基元间的视觉匹配误差,产生的这么误差会很大,从候选的基元中动态地选择一条最佳路径有可能不是最佳路径。
发明内容
本发明所要解决的问题是:如何提供一种语音驱动唇形动画的方法,该方法克服了现有技术的缺陷,并且运算数据量小,可操做性强等特点。
本发明所提出的技术问题是这样解决的:提供一种语音驱动唇形动画的方法,其特征在于,包括以下步骤:
步骤一将汉语中的音节结构采用Consonant-Vowel分类:声母包括b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s和零声母,韵母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、i1、i2、ia、ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn、io;
步骤二采集若干个人的原始音频数据和视频数据:每个人读声母和韵母单词,同时使用DV或者摄像机拍摄,以获取音频流和视频流数据;
步骤三获取对应唇形信息:把视频流分割成一帧帧图片,找出声母与韵母所对应的图片帧,使用ASM算法对正面的人脸图片进行检测,获取声母和韵母所对应的唇形信息;
步骤四获取语音特征数据:对音频流进行分析处理,提取语音特征数据;
步骤五对步骤三所获取的唇形信息和步骤四所获取的语音特征数据进行训练和建模,依据训练的模型合成实时输入语音的唇形运动序列:将通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理,消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差,把不同人的唇形形状归一化,把每一帧唇形图片上的二维坐标转化为高维空间上的点,将每个点合成一列高位向量,每一个向量代表一帧唇形图片信息,对所有向量进行分类与聚类分析处理,并划分到N个基本唇形类别中,利用语音帧和唇形帧在时间上序列上的一一对应关系,将对应的语音帧也进行聚类划分成N个类别,其中N的取值通过观察唇形样本状态取值,将已经归类的语音帧和唇形帧的每一个类别建立BP网络模型,共建N个BP网络模型,分别训练N个BP网络模型中各个节点的连接权值和阀值,经过BP网络模型处理,把每个实时语音帧归类,以此类推,可得到与语音特征数据所对应的唇形帧序列,唇形帧序列经过平滑处理,就形成平滑与自然的唇形运动序列。
本发明的有益效果:本发明利用汉语具有较强的音节性这一特征,对声韵母进行建模处理,分别得到声韵母所对应的唇形类别,对与语音相对应的唇形序列帧进行平滑处理后可得到逼真的唇形动画效果。而且该方法可操作行较强,实现容易而且该算法运动效率较高,能达到实时语音与动画输出相同步的效果,此外,该方法是针对汉语语音的唇形动画的一种处理方式,在汉语语音驱动唇形动画能达到较为自然真实的效果。
附图说明
图1是本发明所采用的Phoneme-Viseme类别模型流程图;
图2是BP网络模型图;
图3是本发明的BP建模结构图;
图4是本发明的实时语音处理结构图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步描述:
本发明的语音驱动唇形动画的方法大致包括以下步骤:
建立语音数据库:
各种语言的发音规律不同,与之相对应的口形运动状态也有所差别,此方案主要是建立汉语语音库以及实现基于汉语语音的唇形动画,具有一定的通用性,若实现基于其他语言的唇形动画可作为参考,众所周知,汉语中的音节结构是典型的CV(Consonant-Vowel)结构,其中C是包括零声母在内的声母所对应的辅音,V为韵母所对应的元音。汉语的声韵结构:声母(Initial)有22个(b,p,m,f;d,t,n,l;g,k,h;j,q,x;zh,ch,sh,r;z,c,s和零声母),韵母有39个(a,ai,an,ang,ao,e,ei,en,eng,er,o,ong,ou,i,i1,i2,ia,ian,iang,iao,ie,in,ing,iong,iou,u,ua,uai,uan,uang,uei,uen,ueng,uo,v,van,ve,vn,io,其中ü简记作v).此外,每个人的发音有差异,但每个音节或声母与韵母对应的唇形大体相似,采集了多人的语音与视频数据材料建立语音库(采集10个男生,8个女生的音频数据):
1.每个人读声母与韵母单词,同时使用DV或者摄像机拍摄,以获取音频流与视频流的数据;
2.把视频分割成一帧帧图片,找出声母与韵母所对应的图片帧(即唇形运动状态),使用ASM对图片进行检测,从而获取声母与韵母所对应唇形的信息;
3.对音频文件进行分析处理,提取底层的语音特征参数(18维MFCC);
4.对获取的语音与唇形数据进行训练与建模,依据训练的模型,将实时输入的语音合成的唇形运动序列。
模型训练:
经过ASM检测后,获取了各种唇形信息,对语音与唇形数据进行分析处理:语音到基本唇形类别的映射模型(Phoneme-Viseme)如下图1所示。
经Phoneme-Viseme类别模型处理后,训练样本数据归于所属的类别,以此来建立BP网络模型,BP网络模型如图2所示,BP(Back Propagation)神经网络是一种神经网络学习算法,全称基于误差反向传播算法的人工神经网络。如图所示拓扑结构的单隐层前馈网络,一般称为三层前馈网或三层感知器,即:输入层、中间层(也称隐层)和输出层。它的特点是:各层神经元仅与相邻层神经元之间相互全连接,同层内神经元之间无连接,各层神经元之间无反馈连接,够成具有层次结构的前馈型神经网络系统。单计算层前馈神经网络只能求解线性可分问题,能够求解非线性问题的网络必须是具有隐层的多层神经网络。在人工神经网络发展历史中,很长一段时间里没有找到隐层的连接权值调整问题的有效算法。直到误差反向传播算法(BP算法)的提出,成功地解决了求解非线性连续函数的多层前馈神经网络权重调整问题。BP(Back Propagation)神经网络,即误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。
经过此模型处理,把每个实时语音帧归类,以此类推,可得到与语音数据所对应的唇形序列,唇形序列经过平滑处理,就形成平滑与自然的唇形运动序列。
具体实施方式:
样本唇形数据是通过SAM检测帧图片获得的,由于每个人的嘴唇宽度与高度的大小不同,依据一个量化规则归一到一个标准范围内,即虽然人们嘴唇的高度与宽度大小不同,但每个人嘴唇边缘点到中心点的距离与嘴唇的宽度(高度)比例大致是一致的,这样就可以在唇形聚类过程中,消除唇形采样数据因每个人嘴唇大小不同而产生的聚类误差,把不同人的唇形归一化。此外,把一帧唇形图片上的二维坐标点转化为高维空间上的点,这样一帧图片上的点合成一列高维向量,每一个列向量代表一帧唇形图片信息,对所有这些列向量进行聚类分析,把它们划分到N个基本唇形类别中,由于语音与唇形在时间序列上是一一对应的关系,即每一时刻都有一对语音帧与唇形帧,但有许多语音帧所对应的唇形帧相似,因此把聚类成N个类别,所对应的语音帧也划分到N个类别中,这就完成了Phoneme-Viseme类别模型的建立(如图1所示),其中N的取值可通过观察唇形样本状态获知,或者N先取一个较大的数值,在聚类过程中合并相近的类别。
由于对语音帧与唇形帧进行了处理,接着建立BP模型(如图3所示),已知语音帧与唇形帧所属的类别,为每一个类别建立一个BP网络模型,共有N个BP模型,分别训练N个BP模型中各个节点的连接权值与阀值。在实时驱动时,对语音数据进行分帧、加窗等预处理,提取底层语音特征参数,使用18维MFCC加上每帧的短时能量与平均幅度合成20维输入向量,记为X,经过N个BP模型计算后得到N个输出向量,即Y1,Y2,…,YN,每个模型的标准输出记为O1,O2,…,ON,计算Yi与Oi的误差,比较每个模型的输出与标准输出的误差,若误差最小者为第i个模型(i=1,…,N),输入向量X属于第i个唇形类别。如果建立三层BP模型:其中n为输入向量维数,m为输出向量维数,由于输入向量是20维,所以n取20,输入接点设为20个;唇形类别为19,所以m取值5,即输出接点有5个,通过大量的训练与数据统计,本模型中隐含层接点去200至300个为最优。

Claims (1)

1.一种语音驱动唇形动画的方法,其特征在于,包括以下步骤:
步骤一将汉语中的音节结构采用Consonant-Vowel分类:声母包括b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s和零声母,韵母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、i1、i2、ia、ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn、io;
步骤二采集若干个人的原始音频数据和视频数据:每个人读声母和韵母单词,同时使用DV或者摄像机拍摄,以获取音频流和视频流数据;
步骤三获取对应唇形信息:把视频流分割成一帧帧图片,找出声母与韵母所对应的图片帧,使用ASM算法对正面的人脸图片进行检测,获取声母和韵母所对应的唇形信息;
步骤四获取语音特征数据:对音频流进行分析处理,提取语音特征数据;
步骤五对步骤三所获取的唇形信息和步骤四所获取的语音特征数据进行训练和建模,依据训练的模型合成实时输入语音的唇形运动序列:将通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理,消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差,把不同人的唇形形状归一化,把每一帧唇形图片上的二维坐标转化为高维空间上的点,将每个点合成一列高维向量,每一个向量代表一帧唇形图片信息,对所有向量进行分类与聚类分析处理,并划分到N个基本唇形类别中,利用语音帧和唇形帧在时间序列上的一一对应关系,将对应的语音帧也进行聚类划分成N个类别,其中N的取值通过观察唇形样本状态取值,将已经归类的语音帧和唇形帧的每一个类别建立BP网络模型,共建N个BP网络模型,分别训练N个BP网络模型中各个节点的连接权值和阀值,经过BP网络模型处理,把每个实时语音帧归类,以此类推,可得到与语音特征数据所对应的唇形帧序列,唇形帧序列经过平滑处理,就形成平滑与自然的唇形运动序列。
CN2009102635588A 2009-12-24 2009-12-24 语音驱动唇形动画的方法 Expired - Fee Related CN101751692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102635588A CN101751692B (zh) 2009-12-24 2009-12-24 语音驱动唇形动画的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102635588A CN101751692B (zh) 2009-12-24 2009-12-24 语音驱动唇形动画的方法

Publications (2)

Publication Number Publication Date
CN101751692A CN101751692A (zh) 2010-06-23
CN101751692B true CN101751692B (zh) 2012-05-30

Family

ID=42478630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102635588A Expired - Fee Related CN101751692B (zh) 2009-12-24 2009-12-24 语音驱动唇形动画的方法

Country Status (1)

Country Link
CN (1) CN101751692B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10249291B2 (en) 2016-05-27 2019-04-02 Asustek Computer Inc. Animation synthesis system and lip animation synthesis method

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
CN104392729B (zh) * 2013-11-04 2018-10-12 贵阳朗玛信息技术股份有限公司 一种动画内容的提供方法及装置
CN104869326B (zh) * 2015-05-27 2018-09-11 网易(杭州)网络有限公司 一种配合音频的图像显示方法和设备
WO2016201679A1 (zh) * 2015-06-18 2016-12-22 华为技术有限公司 特征提取方法、唇语分类方法、装置及设备
CN106875955A (zh) * 2015-12-10 2017-06-20 掌赢信息科技(上海)有限公司 一种声音动画的制作方法及电子设备
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
US10600226B2 (en) * 2016-09-07 2020-03-24 The University Of Hong Kong System and method for manipulating a facial image and a system for animating a facial image
CN106297792A (zh) * 2016-09-14 2017-01-04 厦门幻世网络科技有限公司 一种语音口型动画的识别方法及装置
CN106447750A (zh) * 2016-09-30 2017-02-22 长春市机器侠科技有限公司 一种深度写真影像重构表情同步视频生成方法
CN108174123A (zh) * 2017-12-27 2018-06-15 北京搜狐新媒体信息技术有限公司 数据处理方法、装置及系统
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法
CN108538282B (zh) * 2018-03-15 2021-10-08 上海电力学院 一种由唇部视频直接生成语音的方法
CN108550173A (zh) * 2018-04-03 2018-09-18 西北工业大学 基于语音生成口型视频的方法
CN109118846A (zh) * 2018-04-23 2019-01-01 王朝 一种现代汉语语音教学唇形阻塞的矫正方法
CN108962216B (zh) * 2018-06-12 2021-02-02 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN108847234B (zh) * 2018-06-28 2020-10-30 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN110874557B (zh) * 2018-09-03 2023-06-16 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
CN109101953A (zh) * 2018-09-07 2018-12-28 大连东锐软件有限公司 基于人类面部表情的分区要素化的表情动作生成方法
CN111435268A (zh) * 2019-01-11 2020-07-21 合肥虹慧达科技有限公司 基于图像的识别与重建的人机交互方法和使用该方法的系统及装置
CN110347867B (zh) * 2019-07-16 2022-04-19 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN110910479B (zh) * 2019-11-19 2023-09-22 中国传媒大学 视频处理方法、装置、电子设备及可读存储介质
CN110942502B (zh) * 2019-11-29 2021-10-15 中山大学 语音唇形拟合方法、系统及存储介质
CN111145322B (zh) * 2019-12-26 2024-01-19 上海浦东发展银行股份有限公司 用于驱动虚拟形象的方法、设备和计算机可读存储介质
CN111415677B (zh) * 2020-03-16 2020-12-25 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN112002005A (zh) * 2020-08-25 2020-11-27 成都威爱新经济技术研究院有限公司 一种基于云端的远程虚拟协同主持的方法
CN112001323A (zh) * 2020-08-25 2020-11-27 成都威爱新经济技术研究院有限公司 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法
CN114141244A (zh) * 2020-09-04 2022-03-04 四川大学 基于音频媒体分析的语音识别技术
CN112150740B (zh) * 2020-09-10 2022-02-22 福建创识科技股份有限公司 无感安全支付系统和方法
CN112188304B (zh) * 2020-09-28 2022-11-15 广州酷狗计算机科技有限公司 视频生成方法、装置、终端及存储介质
CN112651310A (zh) * 2020-12-14 2021-04-13 北京影谱科技股份有限公司 一种视频人物唇形检测生成的方法及装置
CN112766166B (zh) * 2021-01-20 2022-09-06 中国科学技术大学 一种基于多音素选择的唇型伪造视频检测方法及系统
CN113112575B (zh) * 2021-04-08 2024-04-30 深圳市山水原创动漫文化有限公司 一种口型生成方法、装置、计算机设备及存储介质
CN115965724B (zh) * 2022-12-26 2023-08-08 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端
CN115810074A (zh) * 2023-02-06 2023-03-17 武汉织梦动漫文化设计有限公司 一种数字仿油墨版画的数字动画制作方法
CN117078811A (zh) * 2023-08-31 2023-11-17 华院计算技术(上海)股份有限公司 模型训练方法、图像生成方法、动画生成方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1556496A (zh) * 2003-12-31 2004-12-22 天津大学 唇形识别发声器
CN1707550A (zh) * 2005-04-14 2005-12-14 张远辉 语音发音与发音口型动画数据库的建立及其访问方法
CN1808519A (zh) * 2005-01-18 2006-07-26 无敌科技(西安)有限公司 同步播放语言音节发音及其口形图片的装置及方法
CN101482975A (zh) * 2008-01-07 2009-07-15 丰达软件(苏州)有限公司 一种文字转换动画的方法和装置
CN101510256A (zh) * 2009-03-20 2009-08-19 深圳华为通信技术有限公司 一种口型语言的转换方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1556496A (zh) * 2003-12-31 2004-12-22 天津大学 唇形识别发声器
CN1808519A (zh) * 2005-01-18 2006-07-26 无敌科技(西安)有限公司 同步播放语言音节发音及其口形图片的装置及方法
CN1707550A (zh) * 2005-04-14 2005-12-14 张远辉 语音发音与发音口型动画数据库的建立及其访问方法
CN101482975A (zh) * 2008-01-07 2009-07-15 丰达软件(苏州)有限公司 一种文字转换动画的方法和装置
CN101510256A (zh) * 2009-03-20 2009-08-19 深圳华为通信技术有限公司 一种口型语言的转换方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林鑫等.语音驱动唇形自动合成算法.《计算机工程》.2007,第33卷(第17期),237,238,269. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10249291B2 (en) 2016-05-27 2019-04-02 Asustek Computer Inc. Animation synthesis system and lip animation synthesis method

Also Published As

Publication number Publication date
CN101751692A (zh) 2010-06-23

Similar Documents

Publication Publication Date Title
CN101751692B (zh) 语音驱动唇形动画的方法
CN110992987B (zh) 语音信号中针对通用特定语音的并联特征提取系统及方法
Venkataramanan et al. Emotion recognition from speech
CN110634491B (zh) 语音信号中针对通用语音任务的串联特征提取系统及方法
CN108597539A (zh) 基于参数迁移和语谱图的语音情感识别方法
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
Ghai et al. Emotion recognition on speech signals using machine learning
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
Wang et al. Research on speech emotion recognition technology based on deep and shallow neural network
Shinde et al. Real time two way communication approach for hearing impaired and dumb person based on image processing
CN112101243A (zh) 一种基于关键姿势和dtw的人体动作识别方法
CN1952850A (zh) 基于动态基元选取的语音驱动三维人脸动画方法
Karpov et al. Audio-visual signal processing in a multimodal assisted living environment
Vasudevan et al. SL-Animals-DVS: event-driven sign language animals dataset
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
Rani et al. Speech recognition using neural network
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
Bharti et al. Automated speech to sign language conversion using Google API and NLP
Prasath Design of an integrated learning approach to assist real-time deaf application using voice recognition system
Mahyoub et al. Sign language recognition using deep learning
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
Shih et al. Speech-driven talking face using embedded confusable system for real time mobile multimedia
Xiaoning Application of artificial neural network in teaching quality evaluation
Goutsu et al. Multi-modal gesture recognition using integrated model of motion, audio and video
Roy Learning from multimodal observations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120530

Termination date: 20151224

EXPY Termination of patent right or utility model