CN102820030A - 发音器官可视语音合成系统 - Google Patents

发音器官可视语音合成系统 Download PDF

Info

Publication number
CN102820030A
CN102820030A CN2012102654487A CN201210265448A CN102820030A CN 102820030 A CN102820030 A CN 102820030A CN 2012102654487 A CN2012102654487 A CN 2012102654487A CN 201210265448 A CN201210265448 A CN 201210265448A CN 102820030 A CN102820030 A CN 102820030A
Authority
CN
China
Prior art keywords
model
motion
module
synthesis system
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102654487A
Other languages
English (en)
Other versions
CN102820030B (zh
Inventor
陶建华
杨明浩
李�昊
刘斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201210265448.7A priority Critical patent/CN102820030B/zh
Publication of CN102820030A publication Critical patent/CN102820030A/zh
Application granted granted Critical
Publication of CN102820030B publication Critical patent/CN102820030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种发音器官可视语音合成系统,包括:音频分析模块、参数映射模块、动画驱动模块和运动分析模块,其中:音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;参数映射模块,用于接收音频分析模块实时传递来的语音线谱对参数,并利用经过训练的混合高斯模型,将其转化为模型运动参数;动画驱动模块,用于接收参数映射模块实时生成的模型运动参数,驱动虚拟发音器官模型的关键点运动,进而带动整个虚拟发音器官模型的运动。本发明直接由输入语音的频域参数生成相应的运动参数来带动模型运动,具有不受在线数据库的限制和生理模型的限制优点。

Description

发音器官可视语音合成系统
技术领域
本发明涉及信息技术行业模拟现实技术领域,尤其涉及一种发音器官可视语音合成系统。
背景技术
可视语音合成技术是人机交互技术的重要组成部分,也是人们一直关注的技术,发音器官的可视化是视语音合成技术的重要组成部分,它能够通过对一个人的语音进行处理和分析,生成相应的发音时人的发音器官的运动参数,并驱动图形学模型的运动。其研究成果对人机语音交互,语音教学,发音器官发生障碍的治疗等领域都具有重要意义。
目前已有的语音驱动的发音器官运动技术中,一种是基于大量的语音及对应的运动数据库,根据输入语音,借助数据检索和匹配技术找到最适合的运动,来驱动计算机模型或机械模型运动,这类方法产生的合成效果逼真,但发音过程涉及的器官众多,难以用统一的方法来描述不同器官运动与语音间的映射关系;另一种是对发音器官建立生物物理模型,通过分析发音时的生理变化,驱动模型运动,这类方法通常计算复杂较高,不具有良好的实时性。
发明内容
(一)要解决的技术问题
为解决上述的一个或多个问题,本发明提供了一种发音器官可视语音合成系统。
(二)技术方案
根据本发明的一个方面,提供了一种发音器官可视语音合成系统,包括:音频分析模块、参数映射模块、运动分析模块和参数映射模块。其中:于在线转换阶段:音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;参数映射模块,用于接收音频分析模块实时传递来的语音线谱对参数,并利用经过训练的混合高斯模型,将其转化为模型运动参数;动画驱动模块,用于接收参数映射模块实时生成的模型运动参数,驱动虚拟发音器官模型的关键点运动,进而带动整个虚拟发音器官模型的运动。于模型训练阶段:运动分析模块,用于接收说话人发音时的发音器官关键点运动信息,并将其映射至虚拟发音器官模型上;参数映射模块,用于接收由音频分析模块和运动分析模块提供的成对的语音线谱对参数和虚拟发音器官模型运动参数,进行训练,得到经过训练的混合高斯模型。
(三)有益效果
从上述技术方案可以看出,本发明发音器官可视语音合成系统具有以下有益效果:
(1)本发明发音器官可视语音合成系统直接由输入语音的频域参数生成相应的运动参数来带动模型运动,具有不受在线数据库的限制和生理模型的限制优点,也更为高效;
(2)本实施例发音器官可视语音合成系统对说话人,说话文本没有要求,可任意输入语音,即可将其发音过程复现;
(3)本发明发音器官可视语音合成系统中,对训练人语音特征没有要求,一旦模型训练完成,便可以脱离数据库而进行语音到发音器官模型运动的映射;
(4)本发明发音器官可视语音合成系统中,基于混合高斯模型,以帧为单位建立语音频域参数到发音器官二维模型的运动参数的映射,该方法计算量小,可以实时进行,且基于帧的转换灵敏度较高,细节丰富,并且在模型训练时数据无需进行标注。
附图说明
图1A为本发明实施例发音器官可视语音合成系统处于在线转换阶段的结构示意图;
图1B为本发明实施例发音器官可视语音合成系统处于模型训练阶段的结构示意图;
图2为本发明实施例发音器官可视语音合成系统中音频分析模块的结构示意图;
图3为本发明实施例发音器官可视语音合成系统中运动分析模块的结构示意图;
图4为本发明实施例发音器官可视语音合成系统中参数映射模块的结构示意图;
图5为本发明实施例发音器官可视语音合成系统中动画驱动模块的结构示意图。
【主要元件符号说明】
1-音频分析模块;                2-运动分析模块;
3-参数映射模块;                4-动画驱动模块
11-音频预处理子模块;           12-音频编码子模块;
21-三维捕捉子模块;             22-数据平滑子模块;
23-坐标映射子模块;             31-模型训练子模块;
32-在线转换子模块;             41-模型驱动子模块
42-交互界面模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。且在附图中,以简化或是方便标示。再者,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
本发明发音器官可视语音合成系统中,利用电脑终端或数字移动设备,将说话人的实时语音或者录音输入转化为发音时的运动参数,带动基于计算机图形技术建立的二维发音器官模型运动。
在本发明的一个示例性实施例中,提供了一种发音器官可视语音合成系统。如图1A和图1B所示,本实施例发音器官可视语音合成系统包括:音频分析模块1,运动分析模块2,参数映射模块3,动画驱动模块4。
在线转换阶段,如图1A所示,音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;参数映射模块,与音频分析模块相连接,用于接收音频分析模块实时传递来的语音线谱对参数,并利用经过训练的混合高斯模型,将其转化为模型运动参数,输出至动画驱动模块;动画驱动模块,与参数映射模块相连接,用于接收参数映射模块实时生成的模型运动参数,驱动虚拟发音器官模型的关键点运动,进而带动整个虚拟发音器官模型的运动。
模型训练阶段,如图1B所示,音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;运动分析模块,用于接收说话人发音时的发音器官关键点运动信息,并将其映射至虚拟发音器官模型上;参数映射模块,与音频分析模块和运动分析模块相连接,用于接收由音频分析模块和运动分析模块提供的成对的语音线谱对参数和虚拟发音器官模型运动参数,进行训练,得到经过训练的混合高斯模型。
与现有技术相比,本发明发音器官可视语音合成系统直接由输入语音的频域参数生成相应的运动参数来带动模型运动,具有不受数据库的限制和生理模型的限制优点,也更为高效。同时,本发明发音器官可视语音合成系统对说话人,说话文本没有要求,可任意输入语音,即可将其发音过程复现。
以下分别对本实施例发音器官可视语音合成系统各个模块进行详细说明。
图2为本发明实施例发音器官可视语音合成系统中音频分析模块的结构示意图。如图2所示,音频分析模块1包括:音频预处理子模块11和音频编码子模块12。其中:音频预处理子模块11,与语音输入端相连,用于根据语音的能量信息,对语音进行静音判断,在模型训练阶段,切除训练数据的静音段;在线转换阶段,判断是否有语音输入,作为音频转换开始与结束的开关。音频编码子模块12,与音频预处理子模块11相连接,用于将预处理后的说话人的语音信号转化为帧为单位的语音线谱对参数。优选地,所述语音线谱对参数选取了16阶线谱对参数。同时,为保证语音参数与运动参数同步,设定适当的帧长和帧移,保证其频率与运动参数频率相同。帧长的范围通常为10ms至30ms;帧移常设置为帧长的一半。优选地,运动数据录制采样率设定为100Hz,设定语音帧长为20ms,帧移为10ms,由此得到的语音线谱对参数为每秒100帧,与运动数据保持一致。
本发明发音器官可视语音合成系统中,以帧为单位建立语音线谱对参数到发音器官二维模型的运动参数的映射,该方法计算量小,可以实时进行,且基于帧的转换灵敏度较高,细节丰富,并且在模型训练时数据无需进行标注。
图3为本发明实施例发音器官可视语音合成系统中运动分析模块的结构示意图。如图3所示,运动分析模块2包括:三维捕捉子模块21,用于捕捉说话人发音时的发音器官关键点运动的坐标信息;数据平滑子模块22,用于利用平滑算法消除三维捕捉子模块获得的坐标信息的抖动;坐标映射子模块23,用于将平滑后的坐标信息对应到虚拟发音器官模型的关键点上。
在三维捕捉子模块21中,关键点设置情况为:唇部关键点包括发音者上下唇中点各1个点,两个嘴角各1个点,共4个点;舌部关键点包括:上表面中线由舌根至舌尖依次等间隔分布3个点;下巴关键点,1个点;额头关键点,1个点;颧骨关键点,两侧各1个点,2个点。所有的关键点共计11个点。其中唇部和舌部的关键点用于记录唇部和舌部的非刚体运动,下巴的关键点用于判断下颚的张合,头部以及颧骨的关键点用于计算刚体运动和计算映射平面。
在数据平滑子模块22中,平滑算法采用前后帧三点线性平滑方法,来消除由录制设备或其他原因造成的抖动。
坐标映射子模块23包括:降维单元,用于将平滑后的三维坐标信息映射至两个二维平面上,即人唇部正面的第一平面和口腔内部侧剖面的第二平面,两个平面的位置由运动数据中额头和颧骨处的三个关键点计算获得,其中,第一平面通过额头关键点和颧骨处的两个关键点确定,与面部大致平行,第二平面通过额头关键点并垂直于颧骨处两个点的连线,处于人头部左右对称的截面上,唇部关键点的位移被分别平行投影至第一平面和第二平面上,舌部关键点和下颚关键点的位移被平行投影至第二平面上;对应单元,用于根据每个人的发音器官大小,将坐标进行比例调节处理,以驱动同一虚拟发音器官模型,方法是:先将降维后的唇部关键点位移除以数据录制者的唇宽,舌部关键点位移除以舌部关键点的平均距离,得到归一化唇部关键点位移数据;下巴关键点的位移除以数据录制者下巴至下颚根部的长度,得到归一化下巴关键点位移数据;在驱动模型时,将归一化唇部关键点位移乘以模型的唇宽,归一化舌部关键点位移乘以模型关键点平均距离,归一化下巴关键点位移乘以模型的下巴长度,得到模型的对应关键点得位移数据,即控制模型运动的参数。
图4为本发明实施例发音器官可视语音合成系统中参数映射模块的结构示意图。如图4所示,参数映射模块3包括:模型训练子模块31和在线转换子模块32,模型训练子模块31,用于在离线状态下接收语音线谱对参数和模型运动参数对,进行混合高斯模型的训练;在线转换子模块32,用于实时接收语音线谱对参数,将其在线转换为实时模型运动参数。
模型训练子模块31,采用最大期望(EM)算法进行训练,得到的模型为语音线谱对参数和动画参数的联合分布概率,其表示为:
p ( z t | λ ( z ) ) = Σ m = 1 M w m N ( z t ; μ m ( z ) , Σ m ( z ) ) - - - ( 1 )
其中,zt代表
Figure BDA00001943915200062
xt是第t帧的语音线谱对参数向量,yt是第t帧的运动参数,m是高斯成分的标号,高斯成分的总数为M。第m个高斯成分的权重为wm,N(·;μ,∑)表示以μ为均值,以∑为协方差矩阵的正态分布。λ(z)是包含了各高斯成分的权重,均值和协方差矩阵的参数集。均值向量
Figure BDA00001943915200063
和协方差矩阵可以写作:
μ m ( z ) = μ m ( x ) μ m ( y ) - - - ( 2 )
Σ m ( z ) = Σ m ( xx ) Σ m ( xy ) Σ m ( yx ) Σ m ( yy ) - - - ( 3 )
其中
Figure BDA00001943915200068
分别代表第m个高斯成分的语音线谱对参数向量和运动参数向量,
Figure BDA00001943915200069
Figure BDA000019439152000610
分别代表第m个高斯成分语音线谱对参数和运动参数的协方差矩阵,
Figure BDA000019439152000611
Figure BDA000019439152000612
代表第m个高斯成分的互协方差矩阵。
本发明发音器官可视语音合成系统中,建立语音参数到运动参数的转换过程中,需要建立语音以及与之对应的运动数据库,用于模型的训练。这样的数据库通过录音设备和运动捕捉设备获得,同时要保证其时序上的对应。对训练人语音特征和训练文本没有要求,一旦模型训练完成,便可以脱离数据库而进行语音到发音器官模型运动的映射。
在线转换模块32,其接受实时输入的语音线谱对参数,将其转换为模型运动参数的转换方法为:
y ^ t = Σ m = 1 M P ( m | x t , λ ( z ) ) E m , t ( y ) - - - ( 4 )
其中:
P ( m | x t , λ ( z ) ) = w m N ( x t ; μ m ( x ) , Σ m ( xx ) ) Σ n = 1 M w n N ( x t ; μ n ( x ) , Σ n ( xx ) ) - - - ( 5 )
E m , t ( y ) = μ m ( y ) + Σ m ( yx ) Σ m ( xx ) - 1 ( x t - μ m ( x ) ) - - - ( 6 )
其中,是第t帧输出的动画参数,给定一个xt,则会产生一个相应的
Figure BDA00001943915200075
图5为本发明实施例发音器官可视语音合成系统中动画驱动模块的结构示意图。如图5所示,动画驱动模块4包括:模型驱动子模块41,用于对接收到的模型运动参数流进行线行平滑,根据每一帧新的模型运动参数更新二维发音器官模型关键点位置,各关键点之间采用基于曲线插值技术得到的曲线相连,进而带动整个模型的运动。其中,该二维发音器官模型为一个基于计算机图形学技术建立的模型,分为两个子模型:正面唇部子模型和侧面发音器官子模型。正面唇部子模型由上下唇中点,两个嘴角4个关键点来驱动。侧面发音器官子模型中,由上下唇中点控制唇的张合;舌部上表面由舌根至舌尖依次等间隔分布5个点,控制舌部模型的非刚体运动;由输入的下颚转角参数控制下颚的张合。
此外,动画驱动模块4还可以包括:交互界面模块42,用于同步显示二维发音器官模型的运动情况以及实时的语音信号的频谱情况,它采用OpenGL技术,将上述模型的运动绘制出来,同时接受语音线谱对参数,并将其以曲线方式可视化。
综上所述,本发明构建了一种基于混合高斯模型状态映射的发音器官可视语音合成系统。该系统以C++语言编写,结合OpenGL图形程序接口,可在Windows平台编译运行,如有需要,也可移植至其他平台。
需要说明的是,上述对各部件的实现方式并不仅限于实施方式中提到的各种实现方式,本领域的普通技术人员可对其进行简单地熟知地替换,例如:
(1)运动参数可以不是关键点的位移信息,也可以是关键点的绝对坐标或者关键点的相对距离,如,使头部参考关键点固定抵消刚体运动后得到的各个关键点得绝对坐标,或者以每一帧嘴角两点的距离和上下唇亮点的距离来表征唇的运动,以舌部关键点之间的距离和夹角变化来表征舌部运动等方法;
(2)16阶语音线谱对参数,也可采用其他参数替代,如不同阶数的线谱对参数,线性预测参数,梅尔倒谱系数等参数。
(3)运动参数的平滑方法还可以采用高斯平滑等方法;
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种发音器官可视语音合成系统,包括:音频分析模块、参数映射模块、动画驱动模块和运动分析模块,其中:
于在线转换阶段:
所述音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;
所述参数映射模块,用于接收所述音频分析模块实时传递来的语音线谱对参数,并利用经过训练的混合高斯模型,将其转化为模型运动参数;
所述动画驱动模块,用于接收所述参数映射模块实时生成的模型运动参数,驱动虚拟发音器官模型的关键点运动,进而带动整个虚拟发音器官模型的运动;
于模型训练阶段:
所述运动分析模块,用于接收说话人发音时的发音器官关键点运动信息,并将其映射至所述虚拟发音器官模型上;
所述参数映射模块,用于接收由所述音频分析模块和运动分析模块提供的成对的语音线谱对参数和虚拟发音器官模型运动参数,进行训练,得到经过训练的混合高斯模型。
2.根据权利要求1所述的发音器官可视语音合成系统,其中,所述运动分析模块包括:
三维捕捉子模块,用于捕捉说话人发音时的发音器官关键点运动的坐标信息;
数据平滑子模块,用于利用平滑算法消除三维捕捉子模块获得的坐标信息的抖动;
坐标映射子模块,用于将平滑后的坐标信息对应到虚拟发音器官模型的关键点上。
3.根据权利要求2所述的发音器官可视语音合成系统,其中,所述数据平滑子模块中,采用的平滑算法为前后帧三点线性平滑方法。
4.根据权利要求2所述的发音器官可视语音合成系统,其中,所述三维捕捉子模块中关键点设置如下:
唇部关键点,包括发音者上下唇中点各1个点,左右嘴角各1个点,共4个点;
舌部关键点,包括上表面中线由舌根至舌尖依次等间隔分布3个点;
下巴关键点,共1个点;
额头关键点,共1个点;
颧骨关键点,包括两侧颧骨各1个点共2个点。
5.根据权利要求4所述的发音器官可视语音合成系统,其中,所述坐标映射子模块包括:
降维单元,用于将平滑后的三维坐标信息映射至两个二维平面上,即人唇部正面的第一平面和口腔内部侧剖面的第二平面;
对应单元,用于根据每个人的发音器官大小,将坐标进行比例调节处理,对应到虚拟发音器官模型的关键点上。
6.根据权利要求5所述的发音器官可视语音合成系统,其中,所述降维单元中,两个二维平面和关键点的关系如下:
第一平面和第二平面的位置由额头关键点和颧骨关键点计算获得,唇部关键点的位移被分别平行投影至第一平面和第二平面;
第一平面通过额头关键点和2个颧骨关键点确定,与面部平行;
第二平面通过额头关键点并垂直于2个颧骨关键点的连线,处于人头部左右对称的截面上,舌部关键点和下巴关键点的位移被平行投影至第二平面。
7.根据权利要求6所述的发音器官可视语音合成系统,其中,所述对应单元包括:
唇部关键点位移子单元,用于利用降维后的唇部关键点位移除以数据录制者的唇宽,得到归一化唇部关键点位移数据;
舌部关键点位移子单元,用于利用舌部关键点位移除以舌部关键点的平均距离,得到归一化舌部关键点位移数据;
下巴关键点位移子单元,用于利用下巴关键点的位移除以数据录制者下巴至下颚根部的长度,得到归一化下巴关键点位移数据;
驱动子单元,用于将归一化唇部关键点位移乘以模型的唇宽,归一化舌部关键点位移乘以模型关键点平均距离,归一化下巴关键点位移乘以模型的下巴长度,得到模型的对应关键点得位移数据。
8.根据权利要求7所述的发音器官可视语音合成系统,其中,所述参数映射模块包括:
模型训练子模块,用于在离线状态下接收语音线谱对参数和模型运动参数对,进行混合高斯模型的训练;
在线转换子模块,用于实时接收语音线谱对参数,将其在线转换为实时模型运动参数。
9.根据权利要求8所述的发音器官可视语音合成系统,其中,所述动画驱动模块包括:
模型驱动子模块,用于对接收到的模型运动参数流进行线行平滑,根据每一帧新的模型运动参数更新二维发音器官模型关键点位置,各关键点之间采用基于曲线插值技术得到的曲线相连,进而带动整个模型的运动。
10.根据权利要求9所述的发音器官可视语音合成系统,其中,所述模型驱动子模块中,所述二维发音器官模型分为两个子模型:正面唇部子模型和侧面发音器官子模型;
所述正面唇部子模型由全部4个唇部关键点来驱动;
所述侧面发音器官子模型中,由唇部关键点中的2个上下唇中点控制唇的张合;舌部关键点中的舌部上表面由舌根至舌尖依次等间隔分布3个点,控制舌部模型的非刚体运动;由输入的下颚转角参数控制下颚的张合。
11.根据权利要求1至10中任一项所述的发音器官可视语音合成系统,其中,所述音频分析模块包括:
音频预处理子模块,与语音输入端相连,用于根据语音的能量信息,对语音进行静音判断,在模型训练阶段,切除训练数据的静音段;在线转换阶段,判断是否有语音输入,作为音频转换开始与结束的开关;
音频编码子模块,与音频预处理子模块相连接,用于将预处理后的说话人的语音信号转化为帧为单位的语音线谱对参数。
12.根据权利要求11所述的发音器官可视语音合成系统,其中,所述音频编码子模块中,所述语音线谱对参数的帧长的范围为10ms至30ms;帧移为帧长的一半。
13.根据权利要求11所述的发音器官可视语音合成系统,其中,所述音频编码子模块中,所述语音线谱对参数选取了16阶线谱对参数。
CN201210265448.7A 2012-07-27 2012-07-27 发音器官可视语音合成系统 Active CN102820030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210265448.7A CN102820030B (zh) 2012-07-27 2012-07-27 发音器官可视语音合成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210265448.7A CN102820030B (zh) 2012-07-27 2012-07-27 发音器官可视语音合成系统

Publications (2)

Publication Number Publication Date
CN102820030A true CN102820030A (zh) 2012-12-12
CN102820030B CN102820030B (zh) 2014-03-26

Family

ID=47304115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210265448.7A Active CN102820030B (zh) 2012-07-27 2012-07-27 发音器官可视语音合成系统

Country Status (1)

Country Link
CN (1) CN102820030B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218841A (zh) * 2013-04-26 2013-07-24 中国科学技术大学 结合生理模型和数据驱动模型的三维发音器官动画方法
CN103258340A (zh) * 2013-04-17 2013-08-21 中国科学技术大学 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
CN105390133A (zh) * 2015-10-09 2016-03-09 西北师范大学 藏语ttvs系统的实现方法
CN106575500A (zh) * 2014-09-25 2017-04-19 英特尔公司 基于面部结构合成话音的方法和装置
CN106875955A (zh) * 2015-12-10 2017-06-20 掌赢信息科技(上海)有限公司 一种声音动画的制作方法及电子设备
CN111161368A (zh) * 2019-12-13 2020-05-15 天津大学 通过输入语音实时合成人体发声器官运动图像的方法
CN111554318A (zh) * 2020-04-27 2020-08-18 天津大学 一种手机端发音可视化系统的实现方法
CN115393945A (zh) * 2022-10-27 2022-11-25 科大讯飞股份有限公司 基于语音的图像驱动方法、装置、电子设备及存储介质
CN116012505A (zh) * 2022-12-29 2023-04-25 上海师范大学天华学院 基于关键点自检测与风格迁徙的发音动画生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
WO2005031654A1 (en) * 2003-09-30 2005-04-07 Koninklijke Philips Electronics, N.V. System and method for audio-visual content synthesis
CN101488346A (zh) * 2009-02-24 2009-07-22 深圳先进技术研究院 语音可视化系统及语音可视化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
WO2005031654A1 (en) * 2003-09-30 2005-04-07 Koninklijke Philips Electronics, N.V. System and method for audio-visual content synthesis
CN101488346A (zh) * 2009-02-24 2009-07-22 深圳先进技术研究院 语音可视化系统及语音可视化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
康永国等: "《基于混合映射模型的语音转换算法研究》", 《声学学报》, vol. 31, no. 6, 30 November 2006 (2006-11-30), pages 555 - 562 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258340A (zh) * 2013-04-17 2013-08-21 中国科学技术大学 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
CN103218841A (zh) * 2013-04-26 2013-07-24 中国科学技术大学 结合生理模型和数据驱动模型的三维发音器官动画方法
CN103218841B (zh) * 2013-04-26 2016-01-27 中国科学技术大学 结合生理模型和数据驱动模型的三维发音器官动画方法
CN106575500A (zh) * 2014-09-25 2017-04-19 英特尔公司 基于面部结构合成话音的方法和装置
CN105390133A (zh) * 2015-10-09 2016-03-09 西北师范大学 藏语ttvs系统的实现方法
CN106875955A (zh) * 2015-12-10 2017-06-20 掌赢信息科技(上海)有限公司 一种声音动画的制作方法及电子设备
CN111161368A (zh) * 2019-12-13 2020-05-15 天津大学 通过输入语音实时合成人体发声器官运动图像的方法
CN111554318A (zh) * 2020-04-27 2020-08-18 天津大学 一种手机端发音可视化系统的实现方法
CN111554318B (zh) * 2020-04-27 2023-12-05 天津大学 一种手机端发音可视化系统的实现方法
CN115393945A (zh) * 2022-10-27 2022-11-25 科大讯飞股份有限公司 基于语音的图像驱动方法、装置、电子设备及存储介质
CN116012505A (zh) * 2022-12-29 2023-04-25 上海师范大学天华学院 基于关键点自检测与风格迁徙的发音动画生成方法及系统

Also Published As

Publication number Publication date
CN102820030B (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN102820030B (zh) 发音器官可视语音合成系统
Morishima et al. A media conversion from speech to facial image for intelligent man-machine interface
US7136818B1 (en) System and method of providing conversational visual prosody for talking heads
US7349852B2 (en) System and method of providing conversational visual prosody for talking heads
CA2375350C (en) Method of animating a synthesised model of a human face driven by an acoustic signal
Kuratate et al. Kinematics-based synthesis of realistic talking faces
Kuratate et al. Audio-visual synthesis of talking faces from speech production correlates.
JP2518683B2 (ja) 画像合成方法及びその装置
JPH10312467A (ja) 像合成のための自動スピーチ整列方法
JP2003529861A5 (zh)
JP2007058846A (ja) リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
Barker et al. Evidence of correlation between acoustic and visual features of speech
JPH08235384A (ja) 音響支援画像処理
Yehia et al. Facial animation and head motion driven by speech acoustics
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
Pitermann et al. An inverse dynamics approach to face animation
Waters et al. DECface: A system for synthetic face applications
Morishima et al. Real-time facial action image synthesis system driven by speech and text
JP2974655B1 (ja) アニメーションシステム
Csapó Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging
Morishima et al. Speech-to-image media conversion based on VQ and neural network
Akdemir et al. Bimodal automatic speech segmentation based on audio and visual information fusion
GB2328849A (en) System for animating virtual actors using linguistic representations of speech for visual realism.
GB2346526A (en) System for providing virtual actors using neural network and text-to-linguistics
Vatikiotis-Bateson et al. Building talking heads: Production based synthesis of audiovisual speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170421

Address after: 100085 Beijing East Road, No. 35, building No. 1, floor 3, 1-312-316,

Patentee after: Extreme element (Beijing) intelligent Polytron Technologies Inc

Address before: 100190 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee after: Limit element (Hangzhou) intelligent Polytron Technologies Inc

Address before: 100085 1-312-316, 3 floor, 1 building, 35 hospital, Shanghai East Road, Haidian District, Beijing.

Patentee before: Extreme element (Beijing) intelligent Polytron Technologies Inc

CP03 Change of name, title or address
CP01 Change in the name or title of a patent holder

Address after: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee after: Zhongke extreme element (Hangzhou) Intelligent Technology Co., Ltd

Address before: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

CP01 Change in the name or title of a patent holder