CN106328163A - 维吾尔语音位‑视位参数的转换方法和系统 - Google Patents

维吾尔语音位‑视位参数的转换方法和系统 Download PDF

Info

Publication number
CN106328163A
CN106328163A CN201610675541.3A CN201610675541A CN106328163A CN 106328163 A CN106328163 A CN 106328163A CN 201610675541 A CN201610675541 A CN 201610675541A CN 106328163 A CN106328163 A CN 106328163A
Authority
CN
China
Prior art keywords
viseme
model
parameter
consonant
apparent place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610675541.3A
Other languages
English (en)
Other versions
CN106328163B (zh
Inventor
赵晖
刘学杰
秦添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN201610675541.3A priority Critical patent/CN106328163B/zh
Publication of CN106328163A publication Critical patent/CN106328163A/zh
Application granted granted Critical
Publication of CN106328163B publication Critical patent/CN106328163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种维吾尔语音位‑视位参数的转换方法和系统,属于语音‑人脸动画信息处理技术领域。增加了41个特征和齿与舌的可见度特征,对元音口形数据聚类得到元音基本静态视位集。分别对辅音与不同元音相结合的口形数据聚类,得到了辅音基本静态视位集。并在此基础上,提出了复合视位的概念,建立了维吾尔语基本动态视位集。然后,给出了复合动态视位模型,以及基于线性回归算法的动态视位模型参数估计方法,从而实现了维吾尔语音位‑视位的转换。根据本发明的基本动态视位集及其模型参数,对于待转换的维吾尔语文本,进行文本分析后,得到文本所包含的基本动态视位序列,进而可以生成与文本内容一致的人脸唇部可视语音动画。

Description

维吾尔语音位-视位参数的转换方法和系统
技术领域
本发明涉及语音-人脸动态信息之间的信息转换和处理技术领域,特别涉及一种维吾尔语音位-视位参数的转换方法和系统。
背景技术
音位是指语音系统中最小的能够区别词或词素意义的语音单位。维吾尔语音位共32个,包括8个元音和24个辅音。视位是指与某一音位相对应的嘴、舌头、下颚等可视发音器官的物理形状。一种语言的音位约有几十个,有些音位在发音时,其唇形、舌、齿等状态相似,因此,音位与视位存在多对一现象。视位是人脸口形动画和可视语音合成的基础。基本静态视位集的定义是将对应相似口形的音位合并,以减少视位的数目,在不影响动画效果的条件下,简化人脸口形参数的计算。MPEG-4按照国际音标定义了15个静态视位。各种语言具有不同的音位,相应的视位也有所不同。目前,国外定义了英语等语言的静态视位,国内定义了汉语等语言的静态视位,而维吾尔语基本静态视位集还没有见到一个完整的定义。
发音过程是一个动态过程,在连续语流中,某一音位的发音过程对应着唇部多个参数的动态变化过程。动态视位描述的是一个音素或多个音素组合的语音段的口形变化过程。
基本动态视位集是连续语流中描述口形动态过程的基本动态视位的集合。有些文献直接用基本静态视位集作为基本动态视位集,有些文献则采用多个音素的组合作为动态视位的最小单位。在语言中,很多辅音单独发音时口形相似,但与元音结合时,不同辅音发生不同变化,而同一辅音与不同元音结合,辅音的口形也发生不同变化。因此,直接采用元音和辅音单音素作为基本动态视位集,不能准确描述连续语流口形的动态变化过程。而采用多音素作为动态视位则会增加基本视位的个数,扩大动态视位模型的参数规模,使得参数估计变得异常复杂,降低对口形参数曲线的拟合精度,从而造成不能准确描述实际口形的动态变化过程,口形合成效果失真。由上所述可知,静态视位集定义的重点在于如何合理选择表示音位口形特点的特征,对元音、辅音正确分类,使得合并为一类的音位,在与不同音位结合时,都具有相似的口形。而动态视位集的定义的难点在于如何折中考虑,音位结合时发生的协同发音现象、参数计算的复杂度和拟合的精度。另外,动态视位模型的设计也对参数估计的复杂度和曲线拟合的精度有重要影响。
发明内容
本发明的目的在于提供一种维吾尔语音位-视位参数的转换方法和系统,给出维吾尔语基本静态视位集,解决现有技术存在的上述问题,填补了行业空白。首先,本发明基于维吾尔语音位特点扩展了MPEG-4,增加了41个特征和齿与舌的可见度特征,用以描述维吾尔语静态视位。并采用K均值聚类算法,对元音口形数据聚类得到元音基本静态视位集。接着,考查了CV和VC音节,分别对辅音与不同元音相结合的口形数据聚类,得到了辅音基本静态视位集。并在此基础上,提出了复合视位的概念,建立了维吾尔语基本动态视位集。然后,给出了复合动态视位模型,以及基于线性回归算法的动态视位模型参数估计方法,从而实现了维吾尔语音位-视位的转换。根据本发明的基本动态视位集及其模型参数,对于待转换的维吾尔语文本,进行文本分析后,得到文本所包含的基本动态视位序列,进而可以生成与文本内容一致的人脸唇部可视语音动画。本发明给出了与此功能相对应的系统结构。
本发明的上述目的通过以下技术方案实现:
维吾尔语音位-视位参数的转换方法,包括如下步骤:
(1)选择维吾尔语全部元音(V),元音+辅音(VC),辅音+元音(CV),辅音+元音+辅音+辅音(CVCC)作为录像录音的语音系列。
(2)选择发音标准的维吾尔语录制人,在读出上述的语音系列时,同步录制人脸正面和侧面图像及语音。
(3)从录制的音视频中确定维吾尔语静态视位抽取时刻
(3.1)对于元音(V),取语音短时能量曲线的中心时刻作为静态视位的抽取时刻。
(3.2)对于辅音(C),由于同一辅音与不同元音结合,其口形会有所不同。因此,选择CV和VC音节分别对辅音静态视位进行聚类分析。对于CV音节,取语音短时能量曲线的起始时刻作为静态视位的抽取时刻。对于VC音节,取语音短时能量曲线的结束时刻作为静态视位的抽取时刻。
(4)选择并扩展MPEG-4,以描述维吾尔语视位。
(4.1)从MPEG-4所定义的68个人脸动画参数FAP中选取24个FAP参数来描述维吾尔语视位,现列出如下:
(4.2)扩展了MPEG-4,本发明额外定义了41个参数,现列出如下:
(5)定义维吾尔语静态视位用于聚类分析特征集合
(5.1)维吾尔语静态视位聚类的特征集合中包含的第一类特征为唇形特征,它包含:内上唇中点下移量;内/外下唇中点上移量;内下唇左/右中点上移量;外下唇左/右中点上移量;内上唇左/右中点下移量;左/右内唇角拉开度;左/右外唇角拉开度;左/右内唇角上移量;左/右外唇角上移量;外上唇左/右中点下移量;外下唇左/右中点下移量;外上唇中点上/下移量;上/下唇突出度;外上唇左/右唇峰下移量;内/外上唇左中点右移量;内/外上唇右中点左移量;内/外上唇左唇峰右移量;内/外上唇右唇峰左移量;内/外上唇中点左移量;内/外下唇左中点右移量;内/外下唇右中点左移量;内/外下唇中点左移量;外下唇阴影点下/左移量;内上唇左/右唇峰下移量;外上唇右唇峰突出度;外上/下唇右中点突出度;右外嘴角突出度;外下唇中点突出度;外下唇阴影的突出度。第二类特征为下颚及下颌特征,它包含:下颚张开度;下颚突出度;下颚左移量;右下颚中点下/左移量;左下颌角点左移量;左/右下颌角点下移量;左下腭中点下/左移量;右下颌角点下左移量。第三类特征为根据维吾尔语发音特征所定义的齿和舌的可见程度特征。第四类特征为附加特征,它包含:左耳下附着点上/左移量;右耳下附着点上/右移量。
(5.2)上述特征的计算可通过手动和自动分别得到。
(6)采用K均值聚类算法,分别将维吾尔语音节V,CV和VC分类,根据聚类结果,得到维吾尔语元音基本静态视位集和辅音基本静态视位集。
(6.1)聚类分组:维吾尔语有8个元音,根据不同元音,分别将CV和VC分成8个组,再加上元音组V总共有17组聚类的数据。根据元音组V的聚类结果,得到维吾尔语元音基本静态视位集。综合分析16组CV和VC的聚类结果,得到维吾尔语辅音基本静态视位集。
(6.2)对每组数据,采用如下K均值聚类算法,将数据聚类为不同类别数的小类:
第一步:设定聚类类别数K;
第二步:选择K个不同的音节数据作为类初始中心;
第三步:根据样本到聚类中心的距离,将其他样本分到K个类别中;
第四部:重新计算类中心,若类中心不变,则到第五步,若类中心变化,则回到第三步;
第五步:计算类别数为K的聚类结果的误差平方和,
(6.3)对每组数据,画出相对误差平方和(JK/J2)随类别数变化的曲线图,选择类别相对误差平方和剧烈增加之前的类别数作为最佳的类别。
(6.4)聚类结果表明CV和VC的16组聚类结果对辅音的划分结果一致,元音组聚类结果对元音的最佳分类数为6个,辅音最佳分类数为7个,现列如下:
(7)根据维吾尔语基本静态视位集,确定维吾尔语的基本动态视位集为13个单音素视位和74个复合视位组成。由于辅音与元音结合为音节时,协同发音现象较为复杂,难以用单辅音和单元音的融合来准确描述其口形动态变化过程。因此,本发明提出了复合视位的概念,将CV和VC音节作为基本动态视位。在分析静态视位时,将元音分为6类,辅音分为7类,因此,CV和VC复合视位中的C和V分别为7类和6类。还有些元音和辅音的组合不存在,这样复合视位共74类,现列如下:
(8)建立用于描述维吾尔语单音素动态视位和复合动态视位对应的FAP参数变化过程的动态视位模型
单音素动态视位模型由一个元音或辅音控制权值函数和左右无声模型控制函数组成。复合动态视位模型由一个元音和一个辅音控制权值函数和左右无声模型控制函数组成。为简化参数计算,本发明将动态视位模型设为分段函数,每段函数由相邻二个控制权值函数组成。
其中,元音控制权值函数为:
W i p v 1 = α i p v e - θ i p v ( - ) ( t c i - t i f p - t ) t c i - t i f p - t > 0
W i p v 2 = α i p v e - θ i p v ( + ) ( t - t c i + t i f p ) t - t c i + t i f p > 0
辅音控制权值函数为:
W i p c 1 = α i p c e - θ i p c ( - ) ( t s i - t i i p - t ) t s i - t i i p - t > 0
W i p c 1 ′ = α i p c e - θ i p c ( - ) ( t e i - t i i p - t ) t e i - t i i p - t > 0
W i p c 2 = α i p c e - θ i p c ( + ) ( t - t s i + t i i p ) t - t s i + t i i p > 0
W i p c 2 ′ = α i p c e - θ i p c ( + ) ( t - t e i + t i i p ) t - t e i + t i i p > 0
左无声控制权值函数:
W l p = α l p e θ l p ( t s i - t l p - t )
右无声控制权值函数:
W r p = α r p e - θ r p ( t e i - t r p - t )
其中各参数的含义如下:Tipv元音视位在控制权值中心时刻的视位参数值;αipv元音视位模型的控制权值幅度;θipv(-)元音控制权值增加的速度;θipv(+)元音控制权值衰减的速度;tci语音段的中心时刻;tifp语音段中心时刻tci到元音权值中心时刻的距离;Tipc辅音视位在控制权值中心时刻的视位参数值;αipc辅音视位模型的控制权值幅度;θipc(-)辅音控制权值增加的速度;θipc(+)辅音控制权值衰减的速度;tsi语音段的起始时刻;tiip语音段起始时刻tsi到辅音权值中心时刻的距离或语音段结束时刻tei到辅音权值中心时刻的距离;αlp左无声模型的控制权值幅度;αrp右无声模型的控制权值幅度;θlp左无声模型控制权值衰减的速度;θrp右无声模型控制权值增加的速度;tei语音段的结束时刻;tlp语音段起始时刻tsi到左无声模型中心时刻的距离;trp语音段的结束时刻tei到右无声模型中心时刻的距离。
(8.1)单音素——元音或辅音,视位模型由有声模型及左、右无声模型构成。单音素动态视位模型分为两段,如下所示,其中每段视位参数曲线由两个权值函数组成。例如,辅音视位的第一段视位参数曲线由左无声权值函数Wlp和辅音权值函数Wipc1组成。
对于辅音视位的权值函数由以下两段构成:
FAP c 1 ( t ) = T i p c . W i p c 1 W i p c 1 + W l p
FAP c 2 ( t ) = T i p c . W i p c 2 W i p c 2 + W r p
其中Tipc为辅音视位在控制权值中心时刻的视位参数值
对于元音视位的权值函数由以下两段构成:
FAP v 1 ( t ) = T i p v . W i p v 1 W i p v 1 + W l p
FAP v 2 ( t ) = T i p v . W i p v 2 W i p v 2 + W r p
其中Tipv为元音视位在控制权值中心时刻的视位参数值
(8.2)复合视位模型——CV类或VC类,由元音和辅音模型及左、右无声模型构成。复合动态视位模型分为三段,如下所示,其中每段视位参数曲线也由两个权值函数组成。
对于CV类复合视位权值函数由以下三段构成:
FAPcv1(t)=FAPc1(t)
FAP c v 2 ( t ) = T i p c . W i p c 2 + T i p v . W i p v 1 W i p c 2 + W i p v 1
FAPcv3(t)=FAPv2(t)
对于VC类复合视位权值函数由以下三段构成:
FAPvc1(t)=FAPv1(t)
FAP v c 2 ( t ) = T i p v . W i p v 2 + T i p c . W i p c 1 ′ W i p v 2 + W i p c 1 ′
FAP v c 3 ( t ) = T i p c · W i p c 2 ′ W i p c 2 ′ + W r p
(8.3)在连续语流中,各个视位的口形受到其周围视位的影响,最终的FAP参数可以由各个FAP参数按基本控制权值函数值加权得到:
F A P ( t ) = Σ i = 1 J W i p ( t ) · T i p Σ i = 1 I W i p ( t )
其中,i包含有声模型和左、右无声模型,I为本时段连续语流所涉及有声及无声模型总个数;J只包含连续语流中有声模型总个数;Tip为对应有声模型权值中心时刻的FAP值;
(9)动态视位模型参数的确定
本发明中87个基本动态视位对应的动态视位模型参数的获取方法是:首先,对87个动态视位所对应的V,CV,VC及CVCC进行发音录像;然后,本发明取CVCC音节的最后一个辅音C的口形作为单辅音的口形,并经过手动或自动测量得到实际发音过程中的65个FAP参数曲线;再依次对每个视位的65个FAP参数曲线对应的动态视位模型参数进行估算,即每个动态视位对应的65个动态视位模型。如前面所述,本发明将动态视位模型设计为分段函数,每段包含二个控制权值函数,并设计了控制参数,以减少对应权值函数对下一段FAP参数取值的影响,C和CV类控制参数设计如下:
表示左无声模型在第一段结束时刻控制权值函数值;
表示辅音模型在0时刻的控制权值函数值;
表示元音模型在CV类第二段起始时刻的控制权值函数值;
表示辅音模型在C类或CV类第二段结束时刻的控制权值函数值;
表示元音模型在CV类第三段结束时刻的控制权值函数值;
表示右无声模型在C类第二段起始时刻或CV类第三段起始时刻的控制权值函数值;
V和VC控制参数如下:
表示左无声模型在第一段结束时刻控制权值函数值;
表示元音模型在0时刻的控制权值函数值;
表示辅音模型在VC类第二段起始时刻的控制权值函数值;
表示元音模型在V类或VC类第二段结束时刻的控制权值函数值;
表示辅音模型在VC类第三段结束时刻的控制权值函数值;
表示右无声模型在V类第二段起始时刻或VC类第三段起始时刻的控制权值
函数值;
如以上所述可以看出,本发明提出的动态视位模型分段函数中有两种类型的分段,分别如下:
第一种为:
F A P ( t ) = T i p c ( v ) . W i p c ( v ) W i p c ( v ) + W l ( r ) p
第二种为:
F A P ( t ) = T i p c ( v ) . W i p c ( v ) + T i p v ( c ) . W i p c ( c ) W i p c ( v ) + W i p v ( c )
下面分别以
F A P ( t ) = T i p c . W i p c 1 W i p c 1 + W l p
F A P ( t ) = T i p c . W i p c 2 + T i p v . W i p v 1 W i p c 2 + W i p v 1
为例,分析分段函数的性质。
F A P ( t ) = T i p c α i p c e - θ i p c ( - ) ( t s i - t i i p - t ) α i p c e - θ i p c ( - ) ( t s i - t i i p - t ) + α l p e θ l p ( t s i - t l p - t )
可得
ln ( T i p c F A P ( t ) - 1 ) = { ln α l p α i p c + ( θ l p + θ i p c ( - ) ) t s i - θ l p t l p - θ i p c ( - ) t i i p } - ( θ l p + θ i p c ( - ) ) t
令θlpipc(-)=c1
l n α l p α i p c + ( θ l p + θ i p c ( - ) ) t s i - θ l p t l p - θ i p c ( - ) t i i p = b 1
l n ( T i p c F A P ( t ) - 1 ) = y 1 ( t )
则有y1(t)=b1-c1t
F A P ( t ) = T i p c α i p c e θ i p c ( + ) ( t s i - t i i p - t ) + T i p v α i p v e - θ i p v ( - ) ( t c i - t i f p - t ) α i p c e θ i p c ( + ) ( t s i - t i i p - t ) + α i p v e - θ i p v ( - ) ( t c i - t i f p - t )
可得:
ln ( T i p v - T i p c F A P ( t ) - T i p c - 1 ) = ln α i p c α i p v + θ i p c ( + ) ( t s i - t i i p ) + θ i p v ( - ) ( t c i - t i f p ) - ( θ i p c ( + ) + θ i p v ( - ) ) t
令θipc(+)ipv(-)=c2
ln α i p c α i p v + θ i p c ( + ) ( t s i - t i i p ) + θ i p v ( - ) ( t c i - t i f p ) = b 2
ln ( T i p v - T i p c F A P ( t ) - T i p c - 1 ) = y 2 ( t )
则有y2(t)=b2-c2t
即本发明提出的分段函数在对数空间为线性函数,参数θlp与θipc(-)或θipc(+)与θipv(-)之和取负为直线斜率,其它参数与直线的截距有关。但是,FAP曲线的拟合精度仅由直线的斜率和截距来决定,即在保证直线的斜率和截距不变的情况下,参数的取值不影响曲线拟合精度。因此,参数估计可以分两步:首先,在对数空间采用线性回归算法求取直线斜率和截距以获得较高的曲线拟合精度;然后,再在参数取值范围内,对参数取值并使控制参数ε取值较小,以保证各段连接处曲线的光滑性。
动态视位模型参数估计问题,是使动态视位模型对应的FAP曲线与实际FAP曲线一致的最优化问题,本发明通过采用上述分段函数将其转化为线性回归问题。因此,本发明提出的参数估计方法具有参数估计简单、曲线拟合精度高、参数取值灵活等优点。
本发明提出的动态视位模型参数的估计方法如下。
(9.1)需要估计的参数:C类有αipc,θipc(+),θipc(-),θlp,θrp,trp,tlp;V类有αipv,θipv(-),θipv(+),θrp,θlp,trp,tlp;CV类和VC类有 αipc,αipv,θipc(+),θipv(-),θlp,θipc(-),θrp,θipv(+),trp,tlp
(9.2)估计模型参数
下面介绍C和CV视位模型参数的计算方法,V和VC视位模型参数的计算方法与C和CV计算方法相同,区别只在于参数符号的不同。
(9.2.1)将FAP实际取值投影到对数空间,投影计算方法如下:
第一段:原坐标空间:(t,FAP(t));目标坐标空间:
第二段:原坐标空间:(t,FAP(t));目标坐标空间:
(注:对于单音素C视位模型,不存在第二段,下同)
第三段:原坐标空间:(t,FAP(t));目标坐标空间:
(9.2.2)在对数空间,对于每段,采用线性回归算法获取该段数据的最优回归直线,如下表示:
段一:y1(t)=b1-c1t
段二:y2(t)=b2-c2t
段三:y3(t)=b3+c3t
(9.2.3)给定αipv、αipc的值,通常αipv、αipc的取值范围:0.5≤αipv≤1.5,0.5≤αipc≤1.5
(9.2.4)计算
lnα i p c = - b 1 + c 1 ( t s i - t i i p ) + lnϵ 2 1
lnα i p v = lnϵ 3 2 - b 2 + c 2 ( t c i - t i f p )
lnα i p c = lnϵ 2 2 + b 2 - c 2 ( t s i - t i i p )
lnα i p v = lnϵ 3 3 - b 3 - c 3 ( t c i - t i f p )
(9.2.5)计算θipc(+)、θipv(-)的值
θ i p c ( + ) = 1 t c i - t i f p - t s i + t i i p ( b 2 - c 2 ( t s i - t i i p ) + l n ϵ 2 2 ϵ 3 2 )
θ i p v ( - ) = 1 t c i - t i f p - t s i + t i i p ( - b 2 + c 2 ( t c i - t i f p ) - l n ϵ 2 2 ϵ 3 2 )
(9.2.6)给定(通常取)计算θlp、θipc(-)
θ l p = 1 t s i - t i i p ( b 1 - l n ϵ 2 1 ϵ 3 1 )
θipc(-)=c1lp
(9.2.7)给定(通常取)计算θrp、θipv(+)
θ r p = 1 t 3 - t c i + t i f p ( l n ϵ 2 3 ϵ 3 3 + b 3 + c 3 t 3 )
θipv(+)=c3rp
(9.2.8)令αlp=αipc计算tlp
t l p = t i i p + l n α l p ϵ 2 1 ( t s i - t i i p ) b 1 - l n ϵ 2 1 ϵ 3 1
(9.2.9)令αrp=αipv计算trp
t r p = t i f p + t e i - t c i - ln α r p ϵ 3 3 ( t 3 - t c i + t i f p ) b 3 + ln ϵ 2 3 ϵ 3 3 + c 3 · t 3
本发明另一目的在于提供一种维吾尔语音位-视位参数的转换系统,对于待转换的维吾尔语的文本,首先,根据公知的维吾尔语语法规则分析文本所包含的音位,并与本发明提供的维吾尔语基本动态视位集对比,得到文本所对应的单音素视位和复合视位序列;然后,由给定的时长信息,由本发明得到的动态视位模型参数,计算文本视位序列中每一视位的65个FAP参数曲线,进而生成人脸唇部文本-视位动画。另外,本发明提出的系统还可以根据已有的情感词典获取文本情感信息,并在人脸唇部文本-视位动画中加入人脸表情动画。如此,本发明给出的维吾尔语音位-视位转换系统包含以下模块:人脸模型模块、文本分析模块、人脸动画模块。其中,人脸模型模块包括人脸照片的输入,基于RBF的人脸纹理信息的获取,模型细化,构建特定人脸的Candide3人脸三维模型。文本分析模块包括维吾尔语文本的输入,基于维吾尔语语法规则和情感词典的文本分析,以及由此得到的与文本对应的视位序列和文本情感类型。人脸动画模块包括基于动态视位模型参数的口形动画参数的计算,基于设定表情的表情动画参数计算,以及三维人脸动画合成。
本发明的维吾尔语音位-视位参数的转换系统的使用方法,包括以下步骤:
1)输入维吾尔语文本,视位时长信息以及表情强度,表情起始、持续、结束时间或位置。
2)输入特定人脸照片,系统自动计算,构建出特定人脸的Candide3人脸三维模型。
3)系统自动对输入的文本进行分析,得到人脸动画要表现的视位序列以及文本的情感类别。
4)系统根据文本分析结果,自动计算口形动画参数和表情动画参数,合成人脸动画。
本发明的有益效果在于:与现有技术相比,本发明的优点和技术效果如下:
1.基于语音学理论,采用K均值聚类机器学习算法,科学全面合理地考查了维吾尔语32个音位的发音特点,在此基础上建立的维吾尔语基本静态视位集能够完整地、全面地反映维吾尔语视位特点,是维吾尔语基本动态视位集建立的重要基础。
其科学性合理性主要体现在:
(1)特征选择方面
基于维吾尔语发音唇齿舌等调音器官特征,一方面扩展了MPEG-4国际标准,增加了41个特征,以反映维吾尔语发音时唇部的特有特点。另一方面,在聚类分析时,添加了齿和舌可见度特征,这样能较全面反映各音位对应的视位特征。
(2)元音分类方面
维吾尔语元音共有8个。从唇形上来看,4个展唇音,4个圆唇音。4个展唇音唇形相似,但齿和舌面情况有较大差别,如上下齿缝隙较小,齿可见度大,舌可见度小;舌面前部向硬腭隆起;舌尖接触下齿龈;上下齿缝隙较大,齿可见度小。这些不同在与辅音结合发音时,会被进一步放大,因此不能聚为一类。本发明根据维吾尔语音位的这些特点,视位聚类时加入了齿和舌的特征,聚类结果将四个展唇音分为四类,合理地反映了实际情况。
(3)辅音分类方面
辅音是通过对元音的影响来展现其发音特征的。在维吾尔语中,很多辅音单独发音时口形相似,但与元音结合时,不同辅音口形发生不同变化。另外,同一辅音与不同元音结合时,展现的口形特征也不同。因此,对辅音聚类时,应基于辅音与同一元音结合时的数据进行研究。基于此,本发明分析对比了8种元音,以及CV和VC两种情况下共16组数据对辅音的聚类结果,最终根据16组数据的分析结果,将24个辅音数据视位分为7类。该分类结果是在全面地研究辅音与元音组合数据的基础上得到的,是基于科学方法的客观结论。
2.在动态视位集建立方面,目前很多文献中,直接用静态视位集作为动态视位集。但是,在连续语流中,音位与其它相邻音位相互作用会使得与音位对应视位的FAP参数的动态变化过程与单独发音的FAP参数动态变化过程不一致。例如,在维吾尔语中,一个辅音与不同元音结合发音时,辅音发出声音时的口形是不相同的。简单来说,调音器官在发辅音时,同时为发元音做好了准备。对于这种发音方式,通过对辅音与元音各自的权值函数在时间轴上的融合不能准确描述口形的动态变化过程。
为此,本发明定义了74个复合动态视位(包括CV和VC音节),加上13个单音节动态视位,基本动态视位集总共有87个视位。既解决了元辅音组合发音时口形特征与元音、辅音单独发音不同带来的问题,又控制了基本动态视位数量的规模。
3.在动态视位模型设计方面,本发明针对所提出的复合视位,提出了一种基于权值函数的动态视位模型。该模型与前人提出的动态视位模型不同之处在于,它是由分段函数构成的,对FAP参数曲线分段拟合,并且每段由两个指数函数组成。经证明,按此方法构成的模型具有对数线性特征,即投影到对数空间为线性模型,从而使得逼近实际FAP参数曲线的最优化问题变成了线性回归问题。因此,在很大程度上简化了模型参数的估计,并提高了曲线拟合的精度。传统的动态视位模型,对FAP参数曲线整体拟合,参数估计算法复杂,计算过程耗时,易陷入局部极小,曲线拟合精度相对较低。我们按前人方法设计复合视位的动态模型,采用误差平方和作为准则函数,采用梯度下降法估计参数,曲线拟合平均精度为85%,而本发明提出的分段模型,曲线拟合精度达到92%以上。
4.在系统实现方面,本发明的优点如下:
有时人们可以通过口形判断说话人所持语种,也就是说,不同语言有其独特的口形特征。维吾尔语中包括颤音,其口形独特。因此,为了能够使人脸口形动画与实际维吾尔语的口形更相符合,我们设计人脸动画系统时,修改了Candide3模型,添加了41个额外的FAP参数,经持维吾尔语为母语的人评测,本系统的口形比原Candide3模型更接近维吾尔语口形。另外,本系统根据维吾尔语语法规则设计了文本分析规则,以能够将维吾尔语文本分解为音节,再分解为本系统单音素视位和复合视位对应的元音,辅音,元音和辅音的结合,进而实现与文本对应的口形参数计算。最后,本系统利用所开发的情感词典,初步实现了文本情感分析。其可以根据文本内容表现出中性、高兴、愤怒、恐惧、悲伤、兴奋、厌恶7种基本表情,并由指定的情感强度和情感起始时间、结束时间、持续时间计算人脸特征表情参数,并与口形参数特征点叠加,生成有表情表现的人脸动画。将人脸特征点分为主动点和被动点,被动点由主动点驱动运动,而主动点的运动轨迹由口形参数和表情参数决定。这使得可以细化人脸模型以提高人脸平滑度和真实度,而不会加大口形参数和表情参数的计算量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明的维吾尔语音位-视位转换方法示意图;
图2为本发明的维吾尔语音位-视位转换系统示意图;
图3、图4为本发明用来描述维吾尔语视位的人脸特征点示意图;
图5为本发明的维吾尔语静态视位分类流程图;
图6、图7为本发明的维吾尔语元音和辅音静态视位分类相对误差平方和随视位分类数变化的曲线;
图8至图11为本发明的四种维吾尔语基本动态视位模型的控制权值函数及FAP参数曲线示意图;
图12、图13为本发明的维吾尔语动态视位模型参数计算流程图;
图14为本发明的维吾尔语文本到视位转换系统流程图;
图15为本发明的实例的线性回归直线方程图。
具体实施方式
下面结合附图进一步说明本发明的详细内容及其具体实施方式。
图1为本发明的维吾尔语音位-视位转换方法示意图。如图所示,本发明首先选定维吾尔语音节V,CV,VC,CVCC作为研究维吾尔语基本视位集的音节序列,然后对所选定的维吾尔语音节序列进行发音录音录像,并确定维吾尔语V,CV,VC静态视位抽取时刻。确定方法为:对于元音(V)取语音短时能量曲线的中心时刻作为静态视位的抽取时刻;对于辅音(C),由于同一辅音与不同元音结合,其口形会有所不同。因此,选择CV和VC音节分别对辅音静态视位进行聚类分析。对于CV音节,取语音短时能量曲线的起始时刻作为静态视位的抽取时刻。对于VC音节,取语音短时能量曲线的结束时刻作为静态视位的抽取时刻。然后本发明从MPEG-4所定义的68个人脸动画参数FAP中选取了24个FAP参数,并对MPEG-4进行扩展,又额外定义了41个FAP参数,总共65个FAP参数来描述维吾尔语视位,现列出如下:
在此基础上定义了维吾尔语静态视位聚类分析用到的特征集合,并在特征集合中加入了齿和舌的可见度特征。之后,基于K均值聚类算法进行视位聚类分析,得到维吾尔语基本静态视位集。维吾尔语基本静态视位集包含6类元音和7类辅音,现列出如下:
然后,基于维吾尔语基本静态视位集提出了维吾尔语复合动态视位,建立了维吾尔语基本动态视位集。维吾尔语基本动态视位集为13个单音素视位和74个复合视位组成(复合视位包括CV和VC两部分),现列如下:
最后设计了动态视位模型,提出了基于线性回归算法的视位模型参数学习方法,估计维吾尔语动态视位模型参数。
图2为维吾尔语音位-视位转换系统示意图。如图所示,本发明所给出的维吾尔语音位-视位转换系统包含以下三个模块:人脸模型模块、文本分析模块、人脸动画模块。其中,人脸模型模块包括人脸照片的输入,基于RBF的人脸纹理信息的获取,模型细化,构建特定人脸的Candide3人脸三维模型。文本分析模块包括维吾尔语文本的输入,基于维吾尔语语法规则和情感词典的文本分析,以及由此得到的与文本对应的视位序列和文本情感类型。人脸动画模块包括基于动态视位模型参数的口形动画参数计算,基于设定表情的表情动画参数计算,以及三维人脸动画合成。
图3、图4为本发明用来描述维吾尔语视位的人脸特征点示意图。如图所示,本发明定义了65个FAP参数用以描述维吾尔语静态视位。
图5为本发明的维吾尔语静态视位分类流程图,图6、图7为本发明的维吾尔语元音和辅音静态视位分类相对误差平方和随视位分类数变化的曲线,其中图6为维吾尔语辅音静态视位分类相对误差平方和随视位分类数变化的曲线,图7为维吾尔语元音静态视位分类相对误差平方和随视位分类数变化的曲线。本发明对维吾尔语元音和辅音分别进行聚类,鉴于辅音发音的复杂性,本发明对辅音与8种元音的组合,以及CV和VC两种音节共16组数据进行聚类,聚类算法如图5所示。然后,画出相对误差平方和随类别变化的曲线图,如图6、图7所示,选择类别相对误差平方和剧烈增加之前的类别数作为最佳的类别。最终将维吾尔语元音分为6类,辅音分为7类。
图8至图11为本发明的四种维吾尔语基本动态视位模型的控制权值函数及FAP参数曲线示意图。其中,图8是维吾尔语辅音(C)基本动态视位模型的控制权值函数及FAP参数曲线示意图,图9是维吾尔语元音(V)基本动态视位模型的控制权值函数及FAP参数曲线示意图,图10是维吾尔语辅音元音(CV)基本动态视位模型的控制权值函数及FAP参数曲线示意图,图11是维吾尔语元音辅音(VC)基本动态视位模型的控制权值函数及FAP参数曲线示意图,各参数含义如上文所述。
图12、图13为本发明的维吾尔语动态视位模型参数计算流程图。其中,图12是C和CV类动态视位模型参数计算流程图,图13是V和VC类动态视位模型参数计算流程图。如图所示,本发明将原数据点投影到对数空间,采用线性回归算法进行参数估计。
图14为本发明的维吾尔语文本到视位转换的系统流程图。如图所示。本系统对于输入的维吾尔语文本,根据维吾尔语语法规则及本发明提出的维吾尔语基本动态视位集得到与维吾尔语文本对应的视位序列,然后基于维吾尔语动态视位模型参数和维吾尔语音位的发音时长,相邻静音时长,计算出任意时刻各视位的控制权值函数,进而得到任意时刻FAP参数值及视位参数序列。
图15为本发明的以下实例的线性回归直线方程图。
下面以读一词时视位参数转换为例加以具体说明。
1、所需视位动态视位模型的建立:
(1)经文本分析得到一词涉及到的基本视位有三个CV类复合视位;
(2)将所涉及到的三个视位的发音录像和录音数据读入计算机,其中图像的采集率为25Hz,分辨率为720×576像素;语音的采集率为11.25KHz,16bit量化;
(3)利用计算机的计算语音的短时能量,帧长采用40ms,每帧样本点个数为N=300;统计所有帧短时能量的最大值Emax和最小值Emin,以TH=Emin+(Eman-Emin)/10为阈值区分出所有时刻范围内的语音段和无声段;
(4)根据已录制的音视频文件,得到视位对应的语音段时间范围,如表1中第3、4列所示:
表1各个视位在录像中相关时刻
(5)根据已述的方法测出面部各特征点的位置计算得出各个视位的FAP参数在不同时刻的值,如下表2所示为FAP#9的参数值:
表2各个视位不同时刻的FAP#9参数值
(6)对于得到的原始视位参数,按图1所示的计算流程,得到视位的动态视位模型参数。具体参数计算过程如下:
(A)将原空间的口形随时间变化的实际FAP参数值(见表2)投影到目标空间,如下表3所示:
表3各个视位不同时刻的FAP#9参数值
(B)视位线性回归方程
以视位为例,其坐标变换后的线性回归直线如图9所示,三段的线性回归方程如下:
第一段:回归曲线为y1(t)=-0.72t+0.14。
第二段:回归曲线为y2(t)=-1.67t+12.77。
第三段:回归曲线为y3(t)=1.21t-17.27。
(C)以视位为例,设定控制参数分别定义如下:
α l p e - θ l p ( t l p - t i i p ) = ϵ 2 1 ; α l p c e - θ l p c ( - ) ( t s i - t i i p ) = ϵ 3 1 ;
α i p v e - θ i p v ( - ) ( t c i - t i f p - t s i + t i i p ) = ϵ 2 2 ; α i p c e - θ i p c ( + ) ( t c i - t i f p - t s i + t i i p ) = ϵ 3 2 ;
α i p v e - θ i p v ( + ) ( t 3 - t c i + t i f p ) = ϵ 2 3 ; α r p e - θ r p ( t e i - t r p - t c i + t i f p ) = ϵ 3 3 ;
由上述控制参数定义的计算公式可以推导出与α的关系,如下所示:
第一段:
t l p = t i i p + ln α l p ϵ 2 1 ( t s i - t i i p ) b 1 - l n ϵ 2 1 ϵ 3 1 - - - ( 1 )
lnα i p c = - b 1 + c 1 ( t s i - t i i p ) + lnϵ 2 1 - - - ( 2 )
第二段:
lnα i p c = lnϵ 2 2 + b 2 - c 2 ( t s i - t i i p ) - - - ( 3 )
lnα i p v = lnϵ 3 2 - b 2 + c 2 ( t c i - t i f p ) - - - ( 4 )
第三段:
t r p = t i f p + t e i - t c i - ln α r p ϵ 3 3 ( t 3 - t c i + t i f p ) b 3 + ln ϵ 2 3 ϵ 3 3 + c 3 · t 3 - - - ( 5 )
lnα i p v = lnϵ 3 3 - b 3 - c 3 ( t c i - t i f p ) - - - ( 6 )
(D)视位模型参数求取
以视位为例:
Step1:给定αipv、αipc的值,取αipc=1.0、αipv=1.0。
Step2:根据Step1取αipc=1.0、αipv=1.0,根据式(2)(3)(4)(6)求得控制参数
Step3:由Step2求得根据式(7)(8)求得参数θipc(+)=0.934、θipv(-)=0.736。
θ i p c ( + ) = 1 t c i - t i f p - t s i + t i i p ( b 2 - c 2 ( t s i - t i i p ) + l n ϵ 2 2 ϵ 3 2 ) - - - ( 7 )
θ i p v ( - ) = 1 t c i - t i f p - t s i + t i i p ( - b 2 + c 2 ( t c i - t i f p ) - l n ϵ 2 2 ϵ 3 2 ) - - - ( 8 )
Step4:由Step2知时,根据式(9)(10)求得θlp=0.2、θipc(-)=0.517。
θ l p = 1 t s i - t i i p ( b 1 - l n ϵ 2 1 ϵ 3 1 ) - - - ( 9 )
θipc(-)=c1lp(10)
Step5:由Step2知求得θrp=0.6、θipv(+)=0.608。
θ r p = 1 t 3 - t c i + t i f p ( ln ϵ 2 3 ϵ 3 3 + b 3 + c 3 t 3 ) - - - ( 11 )
θipv(+)=c3rp (12)
Step6:使αlp=αipc=1,根据式(1)求得tlp=19.31。
Step7:使αrp=αipv=1,根据式(5)求得trp=-4.078。
重复上述过程计算视位的各个模型参数,如表4所示为视位FAP#9的模型参数值。
表4复合视位FAP#9的模型参数值
2、音位到视位参数的转换
(1)查找基本视位集中视位与视位类别号的对应关系,得到如表5所示的基本视位序列号(前后有无声模型,中间没有语音停顿,无声模型自动消失):
表5基本视位序列号
(2)根据语音合成系统从语音库中得到对应各音位的时长如下(也可以人为指定,单位为ms):
表6音位时长对应关系
总的视位参数变化过程为840ms。
(3)设对某一视位的协同发音只考虑其前后相邻的两个视位对它的影响,则根据(2)可得到计算不同时间范围内的视位参数时所用到的动态视位模型编号如表7所示:
表7计算不同时间范围内的视位参数时所用到的基本视位序号
0~160ms 160~320ms 320~560ms 560~760ms 760~960ms
0-14 0-14-34 14-34-43 34-43-0 43-0
(4)在以上各个时间段内,根据所用到的动态视位模型由公式计算出任意时刻视位参数值。表8为计算出的各时刻下唇外唇中点(FAP9#)参数值,其他参数计算方法相同。
表8FAP#9各时刻的参数值
帧序号 1 2 3 4 5 6 7 8 9
时间(ms) 0 40 80 120 160 200 240 280 320
FAP9# 0 0.02 0.09 0.08 0.177 4.638 10.313 8.066 4.423
帧序号 10 11 12 13 14 15 16 17 18
时间(ms) 360 400 440 480 520 560 600 640 680
FAP9# 4.296 4.539 4.774 4.740 4.501 4.175 6.206 9.206 10.373
帧序号 19 20 21 22 23 24 25 26 27
时间(ms) 720 760 800 840 880 920 960 1000
FAP9# 9.666 7.229 3.494 1.098 0.282 0.068 0.016 0
以上所述仅为本发明的优选实例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种维吾尔语音位-视位参数的转换方法,其特征在于:包括如下步骤:
(1)选择维吾尔语全部元音V,元音+辅音VC,辅音+元音CV,辅音+元音+辅音+辅音CVCC作为录像录音的语音系列;
(2)选择发音标准的维吾尔语录制人,在读出上述的语音系列时,同步录制人脸正面和侧面图像及语音;
(3)从录制的音视频中确定维吾尔语静态视位抽取时刻;
(4)选择并扩展MPEG-4,以描述维吾尔语视位;
(5)定义维吾尔语静态视位用于聚类分析特征集合;
(6)采用K均值聚类算法,分别将维吾尔语音节V,CV,和VC分类,根据聚类结果,得到维吾尔语元音基本静态视位集和辅音基本静态视位集;
(7)根据维吾尔语基本静态视位集,确定维吾尔语的基本动态视位集为13个单音素视位和74个复合视位组成;由于辅音与元音结合为音节时,协同发音现象较为复杂,难以用单辅音和单元音的融合来准确描述其口形动态变化过程;因此,提出了复合视位的概念,将CV和VC音节作为基本动态视位;在分析静态视位时,将元音分为6类,辅音分为7类,因此,CV和VC复合视位中的C和V分别为7类和6类;还有些元音和辅音的组合不存在,这样复合视位共74类,现列如下:
(8)建立用于描述维吾尔语单音素动态视位和复合动态视位对应的FAP参数变化过程的动态视位模型;
单音素动态视位模型由一个元音或辅音控制权值函数和左右无声模型控制函数组成;复合动态视位模型由一个元音和一个辅音控制权值函数和左右无声模型控制函数组成;为简化参数计算,将动态视位模型设为分段函数,每段函数由相邻二个控制权值函数组成;
其中,元音控制权值函数为:
W i p v 1 = α i p v e - θ i p v ( - ) ( t c i - t i f p - t ) t c i - t i f p - t > 0
W i p v 2 = α i p v e - θ i p v ( + ) ( t - t c i + t i f p ) t - t c i + t i f p > 0
辅音控制权值函数为:
W i p c 1 = α i p c e - θ i p c ( - ) ( t s i - t i i p - t ) t s i - t i i p - t > 0
W i p c 1 ′ = α i p c e - θ i p c ( - ) ( t e i - t i i p - t ) t e i - t i i p - t > 0
W i p c 2 = α i p c e - θ i p c ( + ) ( t - t s i + t i i p ) t - t s i + t i i p > 0
W i p c 2 ′ = α i p c e - θ i p c ( + ) ( t - t e i + t i i p ) t - t e i + t i i p > 0
左无声控制权值函数:
W l p = α l p e θ l p ( t s i - t l p - t )
右无声控制权值函数:
W r p = α r p e - θ r p ( t e i - t r p - t )
其中各参数的含义如下:Tipv元音视位在控制权值中心时刻的视位参数值;αipv元音视位模型的控制权值幅度;θipv(-)元音控制权值增加的速度;θipv(+)元音控制权值衰减的速度;tci语音段的中心时刻;tifp语音段中心时刻tci到元音权值中心时刻的距离;Tipc辅音视位在控制权值中心时刻的视位参数值;αipc辅音视位模型的控制权值幅度;θipc(-)辅音控制权值增加的速度;θipc(+)辅音控制权值衰减的速度;tsi语音段的起始时刻;tiip语音段起始时刻tsi到辅音权值中心时刻的距离或语音段结束时刻tei到辅音权值中心时刻的距离;αlp左无声模型的控制权值幅度;αrp右无声模型的控制权值幅度;θlp左无声模型控制权值衰减的速度;θrp右无声模型控制权值增加的速度;tei语音段的结束时刻;tlp语音段起始时刻tsi到左无声模型中心时刻的距离;trp语音段的结束时刻tei到右无声模型中心时刻的距离;
(8.1)单音素——元音或辅音,视位模型由有声模型及左、右无声模型构成;单音素动态视位模型分为两段,如下所示,其中每段视位参数曲线由两个权值函数组成;
对于辅音视位的权值函数由以下两段构成:
FAP c 1 ( t ) = T i p c . W i p c 1 W i p c 1 + W l p
FAP c 2 ( t ) = T i p c . W i p c 2 W i p c 2 + W r p
其中Tipc为辅音视位在控制权值中心时刻的视位参数值
对于元音视位的权值函数由以下两段构成:
FAP v 1 ( t ) = T i p v . W i p v 1 W i p v 1 + W l p
FAP v 2 ( t ) = T i p v . W i p v 2 W i p v 2 + W r p
其中Tipv为元音视位在控制权值中心时刻的视位参数值
(8.2)复合视位模型——CV类或VC类,由元音和辅音模型及左、右无声模型构成;复合动态视位模型分为三段,如下所示,其中每段视位参数曲线也由两个权值函数组成;
对于CV类复合视位权值函数由以下三段构成:
FAPcv1(t)=FAPc1(t)
FAP c v 2 ( t ) = T i p c . W i p c 2 + T i p v . W i p v 1 W i p c 2 + W i p v 1
FAPcv3(t)=FAPv2(t)
对于VC类复合视位权值函数由以下三段构成:
FAPvc1(t)=FAPv1(t)
FAP v c 2 ( t ) = T i p v . W i p v 2 + T i p c . W i p c 1 ′ W i p v 2 + W i p c 1
FAP v c 3 ( t ) = T i p c · W i p c 2 ′ W i p c 2 ′ + W r p
(8.3)在连续语流中,各个视位的口形受到其周围视位的影响,最终的FAP参数可以由各个FAP参数按基本控制权值函数值加权得到:
F A P ( t ) = Σ i = 1 J W i p ( t ) · T i p Σ i = 1 I W i p ( t )
其中,i包含有声模型和左、右无声模型,I为本时段连续语流所涉及有声及无声模型总个数;J只包含连续语流中有声模型总个数;Tip为对应有声模型权值中心时刻的FAP值;
(9)动态视位模型参数的确定
87个基本动态视位对应的动态视位模型参数的获取方法是:首先,对87个动态视位所对应的V,CV,VC及CVCC进行发音录像;然后,取CVCC音节的最后一个辅音C的口形作为单辅音的口形,并经过手动或自动测量得到实际发音过程中的65个FAP参数曲线;再依次对每个视位的65个FAP参数曲线对应的动态视位模型参数进行估算,即每个动态视位对应的65个动态视位模型;如前面所述,将动态视位模型设计为分段函数,每段包含二个控制权值函数,并设计了控制参数,以减少对应权值函数对下一段FAP参数取值的影响,C和CV类控制参数设计如下:
表示左无声模型在第一段结束时刻控制权值函数值;
表示辅音模型在0时刻的控制权值函数值;
表示元音模型在CV类第二段起始时刻的控制权值函数值;
表示辅音模型在C类或CV类第二段结束时刻的控制权值函数值;
表示元音模型在CV类第三段结束时刻的控制权值函数值;
表示右无声模型在C类第二段起始时刻或CV类第三段起始时刻的控制权值函数值;
V和VC控制参数如下:
表示左无声模型在第一段结束时刻控制权值函数值;
表示元音模型在0时刻的控制权值函数值;
表示辅音模型在VC类第二段起始时刻的控制权值函数值;
表示元音模型在V类或VC类第二段结束时刻的控制权值函数值;
表示辅音模型在VC类第三段结束时刻的控制权值函数值;
表示右无声模型在V类第二段起始时刻或VC类第三段起始时刻的控制权值函数值;
如以上所述可以看出,动态视位模型分段函数中有两种类型的分段,分别如下:
第一种为:
F A P ( t ) = T i p c ( v ) . W i p c ( v ) W i p c ( v ) + W l ( r ) p
第二种为:
F A P ( t ) = T i p c ( v ) . W i p c ( v ) + T i p v ( c ) . W i r p v ( c ) W i p c ( v ) + W i p v ( c )
下面分别以
F A P ( t ) = T i p c . W i p c 1 W i p c 1 + W l p
F A P ( t ) = T i p c . W i p c 2 + T i p v . W i p v 1 W i p c 2 + W i p v 1
为例,分析分段函数的性质;
F A P ( t ) = T i p c α i p c e - θ i p c ( - ) ( t s i - t i i p - t ) α i p c e - θ i p c ( - ) ( t s i - t i i p - t ) + α l p e θ l p ( t s i - t l p - t )
可得
ln ( T i p c F A P ( t ) - 1 ) = { ln α l p α i p c + ( θ l p + θ i p c ( - ) ) t s i - θ l p t l p - θ i p c ( - ) t i i p } - ( θ l p + θ i p c ( - ) ) t
令θlpipc(-)=c1
ln α l p α i p c + ( θ l p + θ i p c ( - ) ) t s i - θ l p t l p - θ i p c ( - ) t i i p = b 1
l n ( T i p c F A P ( t ) - 1 ) = y 1 ( t )
则有y1(t)=b1-c1t
F A P ( t ) = T i p c α i p c e θ i p c ( + ) ( t s i - t i i p - t ) + T i p v α i p v e - θ i p v ( - ) ( t c i - t i f p - t ) α i p c e θ i p c ( + ) ( t s i - t i i p - t ) + α i p v e - θ i p v ( - ) ( t c i - t i f p - t )
可得:
ln ( T i p v - T i p c F A P ( t ) - T i p c - 1 ) = ln α i p c α i p v + θ i p c ( + ) ( t s i - t i i p ) + θ i p v ( - ) ( t c i - t i f p ) - ( θ i p c ( + ) + θ i p v ( - ) ) t
令θipc(+)ipv(-)=c2
ln α i p c α i p v + θ i p c ( + ) ( t s i - t i i p ) + θ i p v ( - ) ( t c i - t i f p ) = b 2
ln ( T i p v - T i p c F A P ( t ) - T i p c - 1 ) = y 2 ( t )
则有y2(t)=b2-c2t
分段函数在对数空间为线性函数,参数θlp与θipc(-)或θipc(+)与θipv(-)之和取负为直线斜率,其它参数与直线的截距有关;但是,FAP曲线的拟合精度仅由直线的斜率和截距来决定,即在保证直线的斜率和截距不变的情况下,参数的取值不影响曲线拟合精度;因此,参数估计可以分两步:首先,在对数空间采用线性回归算法求取直线斜率和截距以获得较高的曲线拟合精度;然后,再在参数取值范围内,对参数取值并使控制参数ε取值较小,以保证各段连接处曲线的光滑性。
2.根据权利要求1所述的维吾尔语音位-视位参数的转换方法,其特征在于:步骤(3)所述的从录制的音视频中确定维吾尔语静态视位抽取时刻是:
(3.1)对于元音V取语音短时能量曲线的中心时刻作为静态视位的抽取时刻;
(3.2)对于辅音C,由于同一辅音与不同元音结合,其口形会有所不同;因此,分别对辅音与不同元音结合的CV和元音与不同辅音结合的VC音节进行聚类分析;对于CV音节,取语音短时能量曲线的起始时刻作为静态视位的抽取时刻;对于VC音节,取语音短时能量曲线的结束时刻作为静态视位的抽取时刻。
3.根据权利要求1所述的维吾尔语音位-视位参数的转换方法,其特征在于:步骤(4)所述的选择并扩展MPEG-4,以描述维吾尔语视位,步骤如下:
(4.1)从MPEG-4所定义的68个人脸动画参数FAP中选取24个FAP参数来描述维吾尔语视位,列出如下:
(4.2)扩展了MPEG-4,额外定义了41个参数,列出如下:
4.根据权利要求1所述的维吾尔语音位-视位参数的转换方法,其特征在于:步骤(5)所述的定义维吾尔语静态视位用于聚类分析特征集合是:
(5.1)维吾尔语静态视位聚类的特征集合中包含的第一类特征为唇形特征,它包含:内上唇中点下移量;内/外下唇中点上移量;内下唇左/右中点上移量;外下唇左/右中点上移量;内上唇左/右中点下移量;左/右内唇角拉开度;左/右外唇角拉开度;左/右内唇角上移量;左/右外唇角上移量;外上唇左/右中点下移量;外下唇左/右中点下移量;外上唇中点上/下移量;上/下唇突出度;外上唇左/右唇峰下移量;内/外上唇左中点右移量;内/外上唇右中点左移量;内/外上唇左唇峰右移量;内/外上唇右唇峰左移量;内/外上唇中点左移量;内/外下唇左中点右移量;内/外下唇右中点左移量;内/外下唇中点左移量;外下唇阴影点下/左移量;内上唇左/右唇峰下移量;外上唇右唇峰突出度;外上/下唇右中点突出度;右外嘴角突出度;外下唇中点突出度;外下唇阴影的突出度;第二类特征为下颚及下颌特征,它包含:下颚张开度;下颚突出度;下颚左移量;右下颚中点下/左移量;左下颌角点左移量;左/右下颌角点下移量;左下腭中点下/左移量;右下颌角点下左移量;第三类特征为根据维吾尔语发音特征所定义的齿和舌的可见程度特征;第四类特征为附加特征,它包含:左耳下附着点上/左移量;右耳下附着点上/右移量;
(5.2)上述特征的计算通过手动和自动分别得到。
5.根据权利要求1所述的维吾尔语音位-视位参数的转换方法,其特征在于:步骤(6)所述的采用K均值聚类算法,分别将维吾尔语音节V,CV,和VC分类,根据聚类结果,得到维吾尔语元音基本静态视位集和辅音基本静态视位集,步骤如下:
(6.1)聚类分组:维吾尔语有8个元音,根据不同元音,分别将CV和VC分成8个组,再加上元音组V总共有17组聚类的数据;根据元音组V的聚类结果,得到维吾尔语元音基本静态视位集;综合分析16组CV和VC的聚类结果,得到维吾尔语辅音基本静态视位集;
(6.2)对每组数据,采用如下K均值聚类算法,将数据聚类为不同类别数的小类:
第一步:设定聚类类别数K;
第二步:选择K个不同的音节数据作为类初始中心;
第三步:根据样本到聚类中心的距离,将其他样本分到K个类别中;
第四部:重新计算类中心,若类中心不变,则到第五步,若类中心变化,则回到第三步;
第五步:计算类别数为K的聚类结果的误差平方和,
(6.3)对每组数据,画出相对误差平方和(JK/J2)随类别数变化的曲线图,选择类别相对误差平方和剧烈增加之前的类别数作为最佳的类别;
(6.4)聚类结果表明CV和VC的16组聚类结果对辅音的划分结果一致,元音组聚类结果对元音的最佳分类数为6个,辅音最佳分类数为7个,现列如下:
6.根据权利要求1所述的维吾尔语音位-视位参数的转换方法,其特征在于:步骤(9)所述的依次对每个视位的65个FAP参数曲线对应的动态视位模型参数进行估算,其估算方法如下:
(9.1)需要估计的参数:C类有αipc,θipc(+),θipc(-),θlp,θrp,trp,tlp;V类有αipv,θipv(-),θipv(+),θrp,θlp,trp,tlp;CV类和VC类有 αipc,αipv,θipc(+),θipv(-),θlp,θipc(-),θrp,θipv(+),trp,tlp
(9.2)估计模型参数
C和CV视位模型参数的计算方法,V和VC视位模型参数的计算方法与C和CV计算方法相同,区别只在于参数符号的不同;
(9.2.1)将FAP实际取值投影到对数空间,投影计算方法如下:
第一段:原坐标空间:(t,FAP(t));目标坐标空间:
第二段:原坐标空间:(t,FAP(t));目标坐标空间:
对于单音素C视位模型,不存在第二段,下同;
第三段:原坐标空间:(t,FAP(t));目标坐标空间:
(9.2.2)在对数空间,对于每段,采用线性回归算法获取该段数据的最优回归直线,如下表示:
段一:y1(t)=b1-c1t
段二:y2(t)=b2-c2t
段三:y3(t)=b3+c3t
(9.2.3)给定αipv、αipc的值,通常αipv、αipc的取值范围:0.5≤αipv≤1.5,0.5≤αipc≤1.5
(9.2.4)计算
lnα i p c = - b 1 + c 1 ( t s i - t i i p ) + lnϵ 2 1
lnα i p v = lnϵ 3 2 - b 2 + c 2 ( t c i - t i f p )
lnα i p c = lnϵ 2 2 + b 2 - c 2 ( t s i - t i i p )
lnα i p v = lnϵ 3 3 - b 3 - c 3 ( t c i - t i f p )
(9.2.5)计算θipc(+)、θipv(-)的值
θ i p c ( + ) = 1 t c i - t i f p - t s i + t i i p ( b 2 - c 2 ( t s i - t i i p ) + l n ϵ 2 2 ϵ 3 2 )
θ i p v ( - ) = 1 t c i - t i f p - t s i + t i i p ( - b 2 + c 2 ( t c i - t i f p ) - l n ϵ 2 2 ϵ 3 2 )
(9.2.6)给定(通常取)计算θlp、θipc(-)
θ l p = 1 t s i - t i i p ( b 1 - l n ϵ 2 1 ϵ 3 1 )
θipc(-)=c1lp
(9.2.7)给定(通常取)计算θrp、θipv(+)
θ r p = 1 t 3 - t c i + t i f p ( l n ϵ 2 3 ϵ 3 3 + b 3 + c 3 t 3 )
θipv(+)=c3rp
(9.2.8)令αlp=αipc计算tlp
t l p = t i i p + l n α l p ϵ 2 1 ( t s i - t i i p ) b 1 - l n ϵ 2 1 ϵ 3 1
(9.2.9)令αrp=αipv计算trp
t r p = t i f p + t e i - t c i - l n α r p ϵ 3 3 ( t 3 - t c i + t i f p ) b 3 + l n ϵ 2 3 ϵ 3 3 + c 3 · t 3 .
7.一种维吾尔语音位-视位参数的转换系统,其特征在于:包括人脸模型模块、文本分析模块、人脸动画模块,其中,人脸模型模块包括人脸照片的输入,基于RBF的人脸纹理信息的获取,模型细化,构建特定人脸的Candide3人脸三维模型;文本分析模块包括维吾尔语文本的输入,基于维吾尔语语法规则和情感词典的文本分析,以及由此得到的与文本对应的视位序列和文本情感类型;人脸动画模块包括基于动态视位模型参数的口形动画参数的计算,基于设定表情的表情动画参数计算,以及三维人脸动画合成。
8.根据权利要求7所述的维吾尔语音位-视位参数的转换系统的使用方法,其特征在于:包括以下步骤:
1)输入维吾尔语文本,视位时长信息以及表情强度,表情起始、持续、结束时间或位置;
2)输入特定人脸照片,系统自动计算,构建出特定人脸的Candide3人脸三维模型;
3)系统自动对输入的文本进行分析,得到人脸动画要表现的视位序列以及文本的情感类别;
4)系统根据文本分析结果,自动计算口形动画参数和表情动画参数,合成人脸动画。
CN201610675541.3A 2016-08-16 2016-08-16 维吾尔语音位-视位参数的转换方法和系统 Active CN106328163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610675541.3A CN106328163B (zh) 2016-08-16 2016-08-16 维吾尔语音位-视位参数的转换方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610675541.3A CN106328163B (zh) 2016-08-16 2016-08-16 维吾尔语音位-视位参数的转换方法和系统

Publications (2)

Publication Number Publication Date
CN106328163A true CN106328163A (zh) 2017-01-11
CN106328163B CN106328163B (zh) 2019-07-02

Family

ID=57740432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610675541.3A Active CN106328163B (zh) 2016-08-16 2016-08-16 维吾尔语音位-视位参数的转换方法和系统

Country Status (1)

Country Link
CN (1) CN106328163B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108447474A (zh) * 2018-03-12 2018-08-24 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN109830236A (zh) * 2019-03-27 2019-05-31 广东工业大学 一种双视位口型合成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379348A (zh) * 2002-05-17 2002-11-13 清华大学 汉语音位-视位参数的计算机转换方法和系统
CN1466106A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于mpeg-4的任意格式人脸模型的动画实现方法
CN102609969A (zh) * 2012-02-17 2012-07-25 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN105528805A (zh) * 2015-12-25 2016-04-27 苏州丽多数字科技有限公司 一种虚拟人脸动画合成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379348A (zh) * 2002-05-17 2002-11-13 清华大学 汉语音位-视位参数的计算机转换方法和系统
CN1466106A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于mpeg-4的任意格式人脸模型的动画实现方法
CN102609969A (zh) * 2012-02-17 2012-07-25 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN105528805A (zh) * 2015-12-25 2016-04-27 苏州丽多数字科技有限公司 一种虚拟人脸动画合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹亮,赵辉: "具有情感表现力的可视语音合成研究综述", 《计算机工程与科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108389573B (zh) * 2018-02-09 2022-03-08 北京世纪好未来教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108447474A (zh) * 2018-03-12 2018-08-24 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN109830236A (zh) * 2019-03-27 2019-05-31 广东工业大学 一种双视位口型合成方法

Also Published As

Publication number Publication date
CN106328163B (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
KR101541907B1 (ko) 음성 기반 얼굴 캐릭터 형성 장치 및 방법
CN101064104B (zh) 基于语音转换的情感语音生成方法
CN105390133A (zh) 藏语ttvs系统的实现方法
Carlson et al. Experiments with voice modelling in speech synthesis
CN105654939B (zh) 一种基于音向量文本特征的语音合成方法
Coleman The phonetic interpretation of headed phonological structures containing overlapping constituents
Elie et al. Extension of the single-matrix formulation of the vocal tract: Consideration of bilateral channels and connection of self-oscillating models of the vocal folds with a glottal chink
CN106128450A (zh) 一种汉藏双语跨语言语音转换的方法及其系统
Naert et al. A survey on the animation of signing avatars: From sign representation to utterance synthesis
CN105931631A (zh) 语音合成系统和方法
Laprie et al. Articulatory copy synthesis from cine X-ray films
Weirich et al. Investigating the relationship between average speaker fundamental frequency and acoustic vowel space size
CN106328163A (zh) 维吾尔语音位‑视位参数的转换方法和系统
Pravena et al. Significance of incorporating excitation source parameters for improved emotion recognition from speech and electroglottographic signals
Alexander et al. A modular architecture for articulatory synthesis from gestural specification
Yunus et al. Sequence-to-sequence predictive model: From prosody to communicative gestures
CN117349427A (zh) 一种面向舆情事件应对的人工智能多模态内容生成系统
Chakladar et al. 3d avatar approach for continuous sign movement using speech/text
Gao et al. Articulatory copy synthesis using long-short term memory networks
JP2019097016A (ja) コーパス生成装置、コーパス生成方法、およびプログラム
Serra et al. A proposal for a visual speech animation system for European Portuguese
Kröger Computer-implemented articulatory models for speech production: A review
TWI402824B (zh) 中文自發性語音合成中發音變異產生之方法
Ni et al. Constrained tone transformation technique for separation and combination of Mandarin tone and intonation
Elie et al. Copy-synthesis of phrase-level utterances

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant