CN107221317A - 一种基于声管的语音合成方法 - Google Patents
一种基于声管的语音合成方法 Download PDFInfo
- Publication number
- CN107221317A CN107221317A CN201710300816.XA CN201710300816A CN107221317A CN 107221317 A CN107221317 A CN 107221317A CN 201710300816 A CN201710300816 A CN 201710300816A CN 107221317 A CN107221317 A CN 107221317A
- Authority
- CN
- China
- Prior art keywords
- mrow
- sound
- msub
- sound tube
- contraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000002194 synthesizing effect Effects 0.000 title abstract 2
- 230000008602 contraction Effects 0.000 claims abstract description 29
- 230000005404 monopole Effects 0.000 claims abstract description 12
- 238000001308 synthesis method Methods 0.000 claims description 15
- 238000000926 separation method Methods 0.000 claims description 11
- 230000001755 vocal effect Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 5
- 239000003570 air Substances 0.000 claims description 3
- 239000012080 ambient air Substances 0.000 claims description 3
- 210000004704 glottis Anatomy 0.000 claims description 3
- 210000000214 mouth Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000012530 fluid Substances 0.000 description 4
- 238000004088 simulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008288 physiological mechanism Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
一种基于声管的语音合成方法:输入数据包括发音时所有对应位置声管的面积函数值及声管的长度值,进行相关初始化,并设定声管个数;计算声管的声学元素;确定声管的收缩入口及收缩出口,对其求取平均值;确定磁单极子和偶极子源的位置,磁单极子放在收缩的最前部分,偶极子源放在一个具有代表性的障碍位置处;判断是否要激活噪声源;增加伯努利阻力,是将额外的阻力分离为Ri和重复上述过程,直至更新完成所有的声管,并将数据处理结果写入wave文件的数据体,更新数据体长度;更新wave文件长度和wave文件的数据头,得到最终的wave文件。本发明使得模型生成元音的准确度更高,而且可以生成辅音,提高了生成元音的准确度,并有效的避免了声伪像。
Description
技术领域
本发明涉及一种语音合成方法。特别是涉及一种考虑噪声源模型和流体动压的基于声管的语音合成方法。
背景技术
语音合成指利用电子计算机及一些专业装置来模拟人制造语音的技术,是当前人机语音交互的主要技术之一。现阶段,语音合成的研究还是集中到文字到语音的合成这一阶段,也就是TTS合成系统。
语音合成主要被分成两种方法,就是参数合成法以及波形拼接法。经过多年的发展,衔接合成是目前主要的高质量语音合成方法。从长远来看,似乎最有前途的是发音语音合成,它不受任何基本的限制,并且超出纯文本-语音合成的应用程序。而基于声管的语音合成是基于发音机理的语音合成方法的重要组成部分。
关于人类声道的数学模型,一直以来就有两种说法:第一个观点是将声道看成是由多个横截面积不一样的声管串联而形成的声道系统,被叫作声管模型;而第二个观点是将声道看成一个谐振腔,腔体的谐振频率由共振峰表示,用该方法来描述声道的模型即为共振峰模型。本发明中采用的是第一种,也就是声管模型。
有不同的技术来模拟离散管中声波的传播模型。最常用的技术是基于波数字滤波器,或者基于传输线电路模型的直接数值模拟,或者是基于时域-频域的混合仿真系统模拟声道。每种方法都有其特有的优点和缺点。
发明内容
本发明所要解决的技术问题是,提供一种不仅可以生成元音而且可以生成辅音,提高了生成元音准确度的基于声管的语音合成方法。
本发明所采用的技术方案是:一种基于声管的语音合成方法,包括如下步骤:
1)输入数据包括发音时所有对应位置声管的面积函数值及声管的长度值,进行相关初始化,并设定声管个数为500;
2)计算第n个声管的声学元素,所述的声学元素是传统输电线电路模型所需要的各个变量,n初始化为1,每循环一次,n加1;
3)确定声管的收缩位置,是分别确定声管的收缩入口及收缩出口,然后对所述的收缩入口及收缩出口求取平均值;
4)在确定声管的收缩位置的基础上确定磁单极子和偶极子源的位置,磁单极子放在收缩的最前部分,偶极子源放在一个具有代表性的障碍位置处,所述的具有代表性的障碍位置是由流动分离点与牙齿的距离来决定;
5)判断是否要激活噪声源,当收缩中雷诺数的平方Re2大于一定的阈值时,激
活噪声源,反之则不激活噪声源,其中Re=vcdc/v是收缩中的雷诺数,是临界雷诺数;
6)增加伯努利阻力,是将额外的阻力分离为Ri和公式如下:
其中,和是两个连续声管i和j的横截面积的平方,uij是这两个声管之间的体积速度,ρ是周围空气密度,uin,i是进入声管i的体积速度,uout,i是离开声管i的体积速度,Apred是声管i前一个声管的横截面积,Asucc是声管i后一个声管的横截面积,Rfric,i是声管i的粘摩擦力;
7)重复步骤2)~步骤6),直至更新完成所有的声管,并将数据处理结果写入wave文件的数据体,更新数据体长度;
8)重复步骤2)~步骤7),更新wave文件长度和wave文件的数据头,得到最终的wave文件。
步骤1)所述的初始化包括:设定声道上牙齿的位置和声门面积,根据输入的数据加载声道的初始化形状,以及设置wave文件头格式。
步骤2)所述的传统输电线电路模型所需要的各个变量包括:收缩部位的体积速度源、压力源及动态压降,非刚性壁声道内的压强p和体积速度v,声管内声压的振幅和力学阻力,声门末端及口腔出口的边界压强和体积速度,以及计算阻力时的粘滞系数。
步骤4)所述的磁单极子是收缩出口的体积速度源,所述的偶极子源是气流源击中一个障碍物或者击中声管表面部分时的压力源。
步骤4)所述的流动分离点是声管内气流流动分离的地方。
步骤5)所述的,Re=vcdc/v式中,vc是收缩中最窄声管部分的速度,dc是声管的直径,v是运动粘度。
本发明的一种基于声管的语音合成方法,在传统输电线模型的基础上增加噪声源和采用考虑到流体动压的方法从而形成新的声道模型,完善了现有的声管模型,比现有的模型生成元音的准确度更高并且可以生成辅音。本发明的方法没有限制每个管部分的长度,完善现有的元音的声管模型,使得模型不仅可以生成元音而且可以生成辅音,提高了生成元音的准确度,并有效的避免了声伪像;对推进语音合成在更广泛的领域的应用提供了极大的帮助。
附图说明
图1是本发明一种基于声管的语音合成方法的流程图;
图2是本发明中声道模型中每个声管的二端口电路图;
图3是本发明中一个实例元音/e/的频谱图;
图4是本发明中一个实例辅音/s/的频谱图。
具体实施方式
下面结合实施例和附图对本发明的一种基于声管的语音合成方法做出详细说明。
本发明的一种基于声管的语音合成方法,将基于核磁共振(MRI)数据,采用时域模拟方法,用传输线电路TLM来模拟声道,并加入了噪声源模型。模型中,控制声波生成和传播的声波方程通过应用一定的规则转化为离散变量,并在基于一个更现实的对流体动压变化的分布式考虑的基础上进行改进,同时考虑声道的分支将三个不同的稀疏矩阵运用数学方法合并成单一矩阵,以此来完善现有的元音的声管模型。
辅音与元音的不同之处主要有两点,一是计算辅音的时候需要在进行相关初始化之前设定牙齿的位置;另外一个就是在计算数据体的时候不需要计算声门的面积,因为计算辅音的时候声门的面积是一个常数。这两点是在辅音研究的实施例中需要自己手动进行的修改,并且这些都是由于声道在发元音及辅音的时候的不同生理机理而导致在研究中所需要做出的改变。
在得到WAV文件之后,对WAV文件通过不同的技术处理,得到对应声音文件的面积函数图,波形图及频谱图,主要通过比较这些声音的频谱图与实际发音得到的频谱图来判断结果的准确度。
如图1所示,本发明的一种基于声管的语音合成方法,包括如下步骤:
1)输入数据包括发音时所有对应位置声管的面积函数值及声管的长度值,进行相关初始化,并设定声管个数为500;所述的初始化包括:设定声道上牙齿的位置和声门面积,根据输入的数据加载声道的初始化形状,以及设置wave文件头格式。
2)计算第n个声管的声学元素,所述的声学元素是传统输电线电路模型所需要的各个变量,n初始化为1,每循环一次,n加1;所述的传统输电线电路模型所需要的各个变量包括:收缩部位的体积速度源、压力源及动态压降,非刚性壁声道内的压强p和体积速度v,声管内声压的振幅和力学阻力,声门末端及口腔出口的边界压强和体积速度,以及计算阻力时的粘滞系数。
3)确定声管的收缩位置,计算噪声源的第一步需要确定收缩位置,本发明在确定收缩位置时,是分别确定声管的收缩入口及收缩出口,然后对所述的收缩入口及收缩出口求取平均值;
4)在确定声管的收缩位置的基础上确定磁单极子和偶极子源的位置,磁单极子放在收缩的最前部分,偶极子源放在一个具有代表性的障碍位置处,所述的具有代表性的障碍位置是由流动分离点与牙齿的距离来决定;其中,所述的磁单极子是收缩出口的体积速度源,所述的偶极子源是气流源击中一个障碍物或者击中声管表面部分时的压力源。所述的流动分离点是声管内气流流动分离的地方。
磁单极子总是放在收缩的最前部分,即假定流动分离的地方。偶极子源总是放在一个具有代表性的障碍位置。当流动分离点(FSP)距离牙齿小于4cm时,偶极子源就放在牙齿处,因为,这是用来发齿槽音和后齿龈音的。相反,当将声道墙作为障碍物,对于软腭音的摩擦音,它被放置在FSP下游0.5cm的地方。当FSP的牙齿处或牙齿下游时,偶极子源放置在嘴唇的地方。
5)判断是否要激活噪声源,当收缩中雷诺数的平方Re2大于一定的阈值时,激活噪声源,反之则不激活噪声源,其中Re=vcdc/v是收缩中的雷诺数,是临界雷诺数;所述的,Re=vcdc/v式中,vc是收缩中最窄声管部分的速度,dc是声管的直径,v是运动粘度。
6)增加伯努利阻力,是将额外的阻力分离为Ri和公式如下:
其中,和是两个连续声管i和j的横截面积的平方,uij是这两个声管之间的体积速度,ρ是周围空气密度,uin,i是进入声管i的体积速度,uout,i是离开声管i的体积速度,Apred是声管i前一个声管的横截面积,Asucc是声管i后一个声管的横截面积,Rfric,i是声管i的粘摩擦力。
从而使得整个声管模型可以用统一的二端口网络图来表示,如图2所示,而,整个声道模型是由多个图2所示的二端口网络串联组成。同时这个方法还可以预防由于收缩位置改变造成的声伪像;
7)重复步骤2)~步骤6),直至更新完成所有的声管,并将数据处理结果写入wave文件的数据体,更新数据体长度;
8)重复步骤2)~步骤7),更新wave文件长度和wave文件的数据头,得到最终的wave文件。
本发明实例中采用了5个元音及6个摩擦音,摩擦音数据的面积函数初始化为40个离散值,牙齿的位置随着不同的发音而发生变化;元音数据的面积函数初始化为70左右的不同数量的管。
在得到WAV文件之后,使用praat软件生成对应的波形图与频谱图,然后与实际发音的频谱图来比较,从而判断模型的准确度。
实验结果表明,本实例使用的5个元音的发音结果准确度都比较高,频谱与实际的发音频谱很相似,即使是最直接的人耳听起来也不会有太大的差别。这是一个令人满意的结果。本实例在改进传统输电线之后可以生成辅音,只是在本实例使用的六个辅音中,只有四个辅音发音结果准确度比较高,还有两个准确度相对来讲要差一些,准确度较高的频谱图与实际发音的频谱图整体都比较一致,而另外两个相比实际发音会出现些许偏差。结果示意图见图3、图4。图3显示的是元音中结果准确度较高的音/e/的频谱图,图4显示的是摩擦音中结果准确度比较高的音/s/的频谱图。
本实例在传统输电线模型的基础上增加噪声源和采用考虑到流体动压的方法从而形成新的声道模型,比现有的模型生成元音的准确度更高并且可以生成辅音。
Claims (6)
1.一种基于声管的语音合成方法,其特征在于,包括如下步骤:
1)输入数据包括发音时所有对应位置声管的面积函数值及声管的长度值,进行相关初始化,并设定声管个数为500;
2)计算第n个声管的声学元素,所述的声学元素是传统输电线电路模型所需要的各个变量,n初始化为1,每循环一次,n加1;
3)确定声管的收缩位置,是分别确定声管的收缩入口及收缩出口,然后对所述的收缩入口及收缩出口求取平均值;
4)在确定声管的收缩位置的基础上确定磁单极子和偶极子源的位置,磁单极子放在收缩的最前部分,偶极子源放在一个具有代表性的障碍位置处,所述的具有代表性的障碍位置是由流动分离点与牙齿的距离来决定;
5)判断是否要激活噪声源,当收缩中雷诺数的平方Re2大于一定的阈值时,激活噪声源,反之则不激活噪声源,其中Re=vcdc/v是收缩中的雷诺数,是临界雷诺数;
6)增加伯努利阻力,是将额外的阻力分离为Ri和公式如下:
<mrow>
<msub>
<mi>R</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>f</mi>
<mi>r</mi>
<mi>i</mi>
<mi>c</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>+</mo>
<mo>|</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>n</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>|</mo>
<mi>&rho;</mi>
<mo>/</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<msubsup>
<mi>A</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
<mo>,</mo>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
<mo><</mo>
<mi>A</mi>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>d</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>f</mi>
<mi>r</mi>
<mi>i</mi>
<mi>c</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>,</mo>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
<mrow>
<msub>
<mover>
<mi>R</mi>
<mo>~</mo>
</mover>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>f</mi>
<mi>r</mi>
<mi>i</mi>
<mi>c</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>|</mo>
<msub>
<mi>u</mi>
<mrow>
<mi>o</mi>
<mi>u</mi>
<mi>t</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>|</mo>
<mi>&rho;</mi>
<mo>/</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<msubsup>
<mi>A</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>A</mi>
<mi>s</mi>
<mi>u</mi>
<mi>c</mi>
<mi>c</mi>
<mo><</mo>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>f</mi>
<mi>r</mi>
<mi>i</mi>
<mi>c</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>,</mo>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,和是两个连续声管i和j的横截面积的平方,uij是这两个声管之间的体积速度,ρ是周围空气密度,uin,i是进入声管i的体积速度,uout,i是离开声管i的体积速度,Apred是声管i前一个声管的横截面积,Asucc是声管i后一个声管的横截面积,Rfric,i是声管i的粘摩擦力;
7)重复步骤2)~步骤6),直至更新完成所有的声管,并将数据处理结果写入wave文件的数据体,更新数据体长度;
8)重复步骤2)~步骤7),更新wave文件长度和wave文件的数据头,得到最终的wave文件。
2.根据权利要求1所述的一种基于声管的语音合成方法,其特征在于,步骤1)所述的初始化包括:设定声道上牙齿的位置和声门面积,根据输入的数据加载声道的初始化形状,以及设置wave文件头格式。
3.根据权利要求1所述的一种基于声管的语音合成方法,其特征在于,步骤2)所述的传统输电线电路模型所需要的各个变量包括:收缩部位的体积速度源、压力源及动态压降,非刚性壁声道内的压强p和体积速度v,声管内声压的振幅和力学阻力,声门末端及口腔出口的边界压强和体积速度,以及计算阻力时的粘滞系数。
4.根据权利要求1所述的一种基于声管的语音合成方法,其特征在于,步骤4)所述的磁单极子是收缩出口的体积速度源,所述的偶极子源是气流源击中一个障碍物或者击中声管表面部分时的压力源。
5.根据权利要求1所述的一种基于声管的语音合成方法,其特征在于,步骤4)所述的流动分离点是声管内气流流动分离的地方。
6.根据权利要求1所述的一种基于声管的语音合成方法,其特征在于,步骤5)所述的,Re=vcdc/v式中,vc是收缩中最窄声管部分的速度,dc是声管的直径,v是运动粘度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710300816.XA CN107221317A (zh) | 2017-04-29 | 2017-04-29 | 一种基于声管的语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710300816.XA CN107221317A (zh) | 2017-04-29 | 2017-04-29 | 一种基于声管的语音合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107221317A true CN107221317A (zh) | 2017-09-29 |
Family
ID=59943756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710300816.XA Pending CN107221317A (zh) | 2017-04-29 | 2017-04-29 | 一种基于声管的语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107221317A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062217A1 (en) * | 2018-09-30 | 2020-04-02 | Microsoft Technology Licensing, Llc | Speech waveform generation |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916566A (zh) * | 2010-07-09 | 2010-12-15 | 西安交通大学 | 一种电子喉语音重建方法及其系统 |
CN103810992A (zh) * | 2012-11-14 | 2014-05-21 | 雅马哈株式会社 | 语音合成方法和语音合成设备 |
-
2017
- 2017-04-29 CN CN201710300816.XA patent/CN107221317A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916566A (zh) * | 2010-07-09 | 2010-12-15 | 西安交通大学 | 一种电子喉语音重建方法及其系统 |
CN103810992A (zh) * | 2012-11-14 | 2014-05-21 | 雅马哈株式会社 | 语音合成方法和语音合成设备 |
Non-Patent Citations (1)
Title |
---|
PETER BIRKHOLZ等: ""Simulation of Losses Due to Turbulence in the Time-Varying Vocal System"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062217A1 (en) * | 2018-09-30 | 2020-04-02 | Microsoft Technology Licensing, Llc | Speech waveform generation |
US11869482B2 (en) | 2018-09-30 | 2024-01-09 | Microsoft Technology Licensing, Llc | Speech waveform generation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Narayanan et al. | Noise source models for fricative consonants | |
JP5194197B2 (ja) | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 | |
Mullen et al. | Waveguide physical modeling of vocal tract acoustics: flexible formant bandwidth control from increased model dimensionality | |
US9230537B2 (en) | Voice synthesis apparatus using a plurality of phonetic piece data | |
Story et al. | A model of speech production based on the acoustic relativity of the vocal tract | |
Story et al. | An acoustically-driven vocal tract model for stop consonant production | |
CN107221317A (zh) | 一种基于声管的语音合成方法 | |
Elie et al. | Acoustic impact of the gradual glottal abduction degree on the production of fricatives: A numerical study | |
Yoshinaga et al. | A simplified vocal tract model for articulation of [s]: The effect of tongue tip elevation on [s] | |
JP3413384B2 (ja) | 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体 | |
Sondhi | Articulatory modeling: a possible role in concatenative text-to-speech synthesis | |
Story | Time dependence of vocal tract modes during production of vowels and vowel sequences | |
Sondhi et al. | Speech production models and their digital implementations | |
Birkholz | Vocaltractlab 2.1 user manual | |
Nowakowska et al. | On the model of vocal tract dynamics | |
Qinsheng et al. | Articulatory speech synthesis: a survey | |
Alexander et al. | VCV Synthesis Using Task Dynamics to Animate a Factor-Based Articulatory Model. | |
JP2005134685A (ja) | 声道形状パラメータの推定装置、音声合成装置、及びコンピュータプログラム | |
Raajan et al. | Mathematical modeling of speech production and its application to noise cancellation | |
Story et al. | Simulation and identification of vowels based on a time-varying model of the vocal tract area function | |
Mahdi | Visualisation of the vocal-tract shape for a computer-based speech training system for the hearing-impaired | |
Rugchatjaroen et al. | A study on dynamic vocal tract shaping for diphthong simulation using a 2D digital waveguide mesh | |
Rugchatjaroen | Articulatory-Based English Consonant Synthesis in 2-D Digital Waveguide Mesh | |
Elie et al. | Acoustic impact of the glottal chink on the production of fricatives: A numerical study,” | |
JPH0833749B2 (ja) | 音合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170929 |
|
RJ01 | Rejection of invention patent application after publication |