CN102810310B - 语音合成设备 - Google Patents
语音合成设备 Download PDFInfo
- Publication number
- CN102810310B CN102810310B CN201210179123.7A CN201210179123A CN102810310B CN 102810310 B CN102810310 B CN 102810310B CN 201210179123 A CN201210179123 A CN 201210179123A CN 102810310 B CN102810310 B CN 102810310B
- Authority
- CN
- China
- Prior art keywords
- fragment
- phoneme
- voice segments
- frame
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 27
- 238000003786 synthesis reaction Methods 0.000 title claims description 27
- 239000012634 fragment Substances 0.000 claims description 359
- 238000001228 spectrum Methods 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 43
- 239000000203 mixture Substances 0.000 claims description 11
- 239000012530 fluid Substances 0.000 claims description 10
- 241001269238 Data Species 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 238000002360 preparation method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 239000002131 composite material Substances 0.000 description 12
- 230000008859 change Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000005284 excitation Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000000214 mouth Anatomy 0.000 description 4
- 210000003928 nasal cavity Anatomy 0.000 description 4
- 210000000115 thoracic cavity Anatomy 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 241000167854 Bourreria succulenta Species 0.000 description 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 210000002050 maxilla Anatomy 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 210000005182 tip of the tongue Anatomy 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
- G10L21/049—Time compression or expansion by changing speed using thinning out or insertion of a waveform characterised by the interconnection of waveforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Electrophonic Musical Instruments (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种语音合成设备,其被设计来用于使用多个语音段数据合成语音信号,每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段。在该设备中,语音段调整器根据第一语音段和第二语音段来形成目标片段,以便将第一语音段和第二语音段相互连接,使得所述目标片段由第一语音段的后部音素片段和第二语音段的前部音素片段形成,并且所述语音段调整部分将所述目标片段扩展到目标时间长度以形成调整片段,使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分,从而产生具有所述目标时间长度的调整片段的合成语音段数据。语音合成器根据由所述语音段调整部分产生的合成语音段数据来产生语音信号。
Description
技术领域
本发明涉及一种用于将多个语音段互连以合成一个诸如谈话语音或歌唱语音之类的语音的技术。
背景技术
在用于将多个语音段互连以合成期望语音的语音段连接类型语音合成技术中,将语音段扩展和压缩到目标时间长度是必要的。日本专利申请公开No.H7-129193公开了这样一种结构,其中将多种语音段分类为稳定部分和过渡部分,并在正常部分和过渡部分中分别对每个语音段的时间长度进行调整。例如,将正常部分扩展和压缩得比过渡部分更大。
在日本专利申请公开No.H7-129193的技术中,在被分到正常部分或过渡部分中的语音段的范围内,时间长度是以固定的扩展和压缩率来调整的。然而,在实际发音时,扩展的程度会以一个片段接一个片段为基础发生变化,甚至在一个语音段(音素)范围内也如此。因此,在日本专利申请公开No.H7-129193的技术中,在扩展语音段的情况中将会合成出听起来不自然的语音(即,与实际发出的声音不同的语音)。
发明内容
已经考虑到上述问题作出了本发明,并且本发明的一个目的是即使在扩展语音段的情况中也能合成听起来自然的语音。
将要描述的是为了解决上述问题而在本发明中所采用的手段。同时,在以下描述中,为了便于理解本发明,与本发明各组件对应的实施例中的组件在括号中显示;然而本发明的范围并不限于所述实施例。
根据本发明第一方面的语音合成设备被设计来用于使用多个语音段数据合成语音信号,每个语音段数据表示含有至少两个对应于不同音素的音素片段(例如音素片段S1和音素片段S2)的语音段。所述设备包括:语音段调整部分(例如语音段调整部分26),其根据第一语音段(例如语音段V1)和第二语音段(例如语音段V2)来形成目标片段(例如目标片段WA)以便将第一语音段和第二语音段相互连接,使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成,并且所述语音段调整部分执行用于将所述目标片段扩展到目标时间长度以形成调整片段(例如调整片段WB)的扩展处理,使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分,从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据(例如合成语音段数据DB);以及语音合成部分(例如语音合成部分28),其根据由所述语音段调整部分产生的合成语音段数据来产生语音信号。
在上述构造中,在对应于辅音音素的目标片段中改变扩展率,因此,与其中扩展和压缩率在语音段范围内保持固定的日本专利申请公开No.H7-129193的构造相比,可以合成出听起来自然的语音。
在本发明的一个优选方面,每个语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据。在所述目标片段对应于浊辅音音素的情况下,所述语音段调整部分将所述目标片段扩展成所述调整片段,使得所述调整片段包含与所述目标片段的前部分(例如前部分σ1)对应的单位数据的时间序列、通过对与所述目标片段的中心点(例如时间点tAc)对应的单位数据进行重复而得到的多个重复单位数据的时间序列、以及与所述目标片段的后部分(例如后部分σ2)对应的多个单位数据的时间序列。
在上述方面中,将与目标片段的前部分对应的多个单位数据的时间序列和与目标片段的后部分对应的多个单位数据的时间序列用作调整片段的每个帧的单位数据,因此与例如对前部分和后部分两者进行扩展的构造相比,简化了扩展处理。根据上述方面的目标片段的扩展在目标片段对应于浊辅音音素的情况下尤为优选。
在本发明的一个优选方面中,浊辅音音素的帧的单位数据包括对语音的频谱的包络线中的形状的特性进行指示的包络数据和对该语音的频谱进行表示的频谱数据。语音段调整部分产生与所述目标片段的中心点对应的单位数据,使得产生的单位数据包括通过对所述目标片段的中心点前后的单位数据的包络数据进行内插而得到的包络数据以及恰在该中心点前后的单位数据的频谱数据。
在上述方面中,在扩展后的单位数据中包括了通过对目标片段的中心点前后的单位数据的包络数据进行内插而得到的包络数据,因此可以合成其中对目标片段中心点的语音成分进行了适当扩展的自然语音。
在本发明的一个优选方面中,语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据。在所述目标片段对应于清辅音音素的情况下,所述语音段调整部分顺序地选择所述目标片段的每个帧的单位数据来作为所述调整片段的每个帧的单位数据,以产生合成语音段数据,其中根据所述调整片段中的时间流逝对所述目标片段中与所述调整片段中的每个帧对应的每个帧进行改变所采用的速度(例如前进速度ν)从所述调整片段的前部分到中心点(例如中心点tBc)是减小的,而从所述调整片段的中心点到后部分是增大的。
根据上述方面的目标片段的扩展在目标片段对应于清辅音音素的情况下是尤为优选的。
在本发明的一个优选方面中,清音的帧的单位数据包括了表示清音频谱的频谱数据。语音段调整部分产生所述调整片段的帧的单位数据,使得产生的单位数据包括了含有预定噪声成分(例如噪声成分μ)的频谱的频谱数据,其中根据由所述目标片段中的帧的单位数据的频谱数据所表示的频谱的包络线(例如包络线ENV)对所述预定噪声成分进行了调整。
例如,优选的是语音段调整部分顺序地选择目标片段的每个帧的单位数据,并产生合成语音段数据以使得其单位数据包括含有预定噪声成分的频谱的频谱数据,其中基于由目标片段中所选的每个帧的单位数据的频谱数据所表示的频谱的包络线对所述预定噪声成分进行了调整(第二实施例)。
可选地,语音段调整部分选择目标片段的特定帧(例如与目标片段的中心点对应的一个帧)的单位数据,并产生合成语音段数据以使得其单位数据包括含有预定噪声成分的频谱的频谱数据,其中基于由在目标片段中所选的该特定帧的单位数据的频谱数据所表示的频谱的包络线对所述预定噪声成分进行了调整(第三实施例)。
在上述方面中,产生了其中基于由目标片段的单位数据表示的频谱的包络线来对噪声成分(典型的为白噪声)进行了调整的频谱的单位数据,因此,即使当在调整片段中的多个帧的范围中对目标片段中的帧进行重复的情况下,也可以合成其声学特性针对每一帧改变的自然语音。
顺便地说,实际发出的音素的扩展方式根据音素类型而不同。然而在日本专利申请公开No.H7-129193的技术中,扩展率仅在正常部分与过渡部分之间不同,结果是不能根据音素类型合成自然语音。考虑到上述问题,根据本发明第二方面的语音合成设备被设计来用于使用多个语音段数据合成语音信号,每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段,所述设备包括语音段调整部分,该语音段调整部分基于由语音段数据表示的音素的类型而使用不同的扩展处理。在上述方面中,根据要扩展的音素的类型来选择适当的扩展处理,因此其与日本专利申请公开No.H7-129193相比可以合成自然的语音。
例如,在将第一方面和第二方面相结合的一个优选示例中,与第一类型(例如类型C1a或类型C1b)的辅音音素相对应的、位于语音段后部处并且通过声道的短暂变形而发音的音素片段(例如音素片段S2)包括恰在声道变形前的预备过程(例如预备过程pA1或预备过程pB1),位于语音段前部处并且与该第一类型的辅音音素对应的音素片段(例如音素片段S1)包括其中作为声道短暂变形的结果而发出该音素的发音过程(例如发音过程pA2或发音过程pB2),与第二类型(例如第二类型C2)的辅音音素对应的位于语音段后部处并能正常延续的音素片段包括该音素的发音开始的过程(例如前部分pC1),位于语音段前部处并且与第二类型的辅音音素对应的音素片段包括该音素的发音结束的过程(例如后部分pC2)。
基于上述情形,在目标片段的辅音音素属于包括摩擦音和半元音的一种类型(即第二类型C2)的情况下,语音段调整部分执行已描述的扩展处理来将目标片段扩展到目标时间长度以形成调整片段,使得以比目标片段的前部和后部的扩展率高的扩展率来扩展目标片段的中间部分,并且,在目标片段的辅音音素属于包括爆破音、塞擦音、鼻音和流音的另一种类型(即第一类型C1)的情况下,语音段调整部分执行另一扩展处理,以在所述目标片段中的第一语音段的后部音素片段与第二语音段的前部音素片段之间插入中间片段。
在上述方面中,获得了与第一方面相同的效果,并且另外还可以适当地扩展通过声道短暂变形发音的第一类型的音素。
例如,在对应于目标片段的辅音音素是其中空气流在预备过程(例如预备过程pA1)中被阻塞的第一类型的音素(例如爆破音或塞擦音)的情况下,语音段调整部分插入无声片段作为中间片段。
此外,在对应于目标片段的辅音音素是其中在预备过程(例如预备过程pB1)中以气流通过来维持发音的第一类型的音素(例如流音或鼻音)的情况下,语音段调整部分在所述目标片段的辅音音素是鼻音或流音的情况下插入一个中间片段,该中间片段包含了对从第一语音段的后部音素片段或第二语音段的前部音素片段中选择的一个帧进行的重复。例如,语音段调整部分插入的中间部分包含了对第一语音段的后部音素片段的最后帧进行的重复。作为替代,语音段调整部分插入的中间片段包含了对第二语音段的前部音素片段的最前帧进行的重复
根据上述每个方面的语音合成设备通过比如专用于合成语音的数字信号处理器(DSP)之类的硬件(电子电路)来实现,并且另外还可以通过比如中央处理单元(CPU)之类的通用处理单元与程序的结合来实现。本发明的程序(例如程序PGM)由计算机运行来执行一种使用多个语音段数据合成语音信号的方法,每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段,所述方法包括:根据第一语音段和第二语音段来形成目标片段以便将第一语音段和第二语音段相互连接,使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成;执行用于将所述目标片段扩展到目标时间长度以形成调整片段的扩展处理,使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分,从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据;以及根据所述合成语音段数据来产生语音信号。
如上所述的程序实现了与根据本发明的语音合成设备相同的功能和效果。以将该程序存储在可由计算机读取的可机读记录介质中从而可以将该程序安装在计算机中的方式来将根据本发明的程序提供给用户,并且另外还以经由通信网络分发该程序从而可以将该程序安装在计算机中的方式来从服务器提供该程序。
附图说明
图1是根据本发明第一实施例的语音合成设备的框图。
图2是存储在存储单元中的语音段组的典型示图。
图3是示出音素的分类的示意图。
图4是示出爆破音或塞擦音的时域波形与语音段的每个音素片段之间的关系的典型示图。
图5是示出流音或鼻音的时域波形与语音段的每个音素片段之间的关系的典型示图。
图6是示出摩擦音或半元音的时域波形与语音段的每个音素片段之间的关系的典型示图。
图7是示出语音段的选择和合成时间长度的设定的示意图。
图8是示出目标片段的扩展的示图。
图9是示出由语音段调整部分执行的扩展辅音音素的操作的流程图。
图10是示出第一插入处理的示图。
图11是示出第二插入处理的示图。
图12是示出扩展处理的曲线图。
图13是示出扩展处理的内容的流程图。
图14是示出对浊音的音素执行的扩展处理的示图。
图15是示出对浊音的音素执行的扩展处理的示图。
图16是示出对清音的音素执行的扩展处理的曲线图。
图17是示出在第二实施例中对清音的音素执行的扩展处理的示图。
具体实施方式
<A:第一实施例>
图1是根据本发明第一实施例的语音合成设备100的框图。语音合成设备100是一种通过语音段连接类型的语音合成处理来产生诸如谈话语音或歌唱语音之类的语音的信号处理设备。如图1所示,语音合成设备100是通过包括中央处理单元12、存储单元14以及声音输出单元16的计算机系统来实现的。
中央处理单元(CPU)12运行存储单元14中所存储的程序PGM,以执行用于产生表示了合成声音波形的语音信号VOUT的多个功能(语音段选择部分22、音素长度设定部分24、语音段调整部分26、以及语音合成部分28)。同时,中央处理单元12的各个功能可通过多个集成电路来单独实现,或者一个诸如DSP之类的专用电子电路可实现一些功能。声音输出单元16(例如耳机或扬声器)输出与中央处理单元12所产生的语音信号VOUT相对应的声波。
存储单元14存储由中央处理单元12运行的程序PGM以及由中央处理单元12使用的各种数据(语音段组GA和合成信息GB)。可采用诸如半导体记录介质或磁记录介质之类的已知记录介质或者多种记录介质的组合来作为存储单元14。
如图2所示,存储在存储单元14中的语音段组GA是与不同语音段V对应的多个语音段数据DA的一个集合(语音合成库)。如图2所示,第一实施例中的语音段V是将对应于不同音素的两个音素片段S(S1和S2)互连的双连音(音素链)。音素片段S1是包括语音段V的起始点的片段。音素片段S2是包括语音段V的结束点的片段。音素片段S2跟在音素片段S1之后。下文为了方便起见将无声描述为一种音素。
如图2所示,每段语音段数据DA均包括分类信息DC和多个单位数据UA的时间序列。分类信息DC指定了分别对应于语音段V的音素片段S1和音素片段S2的音素的类型(以下称为“音素类型”)。例如,如图3所示,分类信息DC指定了音素类型,比如元音/a/、/i/和/u/、爆破音/t/、/k/和/p/、塞擦音/ts/、鼻音/m/和/n /、流音/r /、摩擦音/s/和/f/、以及半元音/w/和/y/。语音段V的语音段数据DA中所包括的多个单位数据UA的每一个指示了在时间轴上被划分出的语音段V(音素片段S1和音素片段S2)的每个帧的语音的频谱。如下文将描述的那样,与浊音的音素(元音或浊辅音)相对应的单位数据UA的内容和与清音(清辅音)相对应的单位数据UA的内容彼此不同。
如图2所示,与浊音的音素相对应的一段单位数据UA包括包络数据R和频谱数据Q。包络数据R包括形状参数R、音高pF和音量(能量)E。形状参数R是指示语音的频谱(音色)的信息。形状参数包括对语音频谱的包络线(音色)的形状特性进行指示的多个变量。包络数据R的第一实施例例如是激发共振(EpR)参数,其包括激励波形包络r1、胸腔共振r2、声道共振r3、以及差频谱r4。EpR参数通过公知的频谱模拟合成(SMS)分析来产生。同时,例如在日本专利No.3711880和日本专利申请公开No.2007-226174中公开了EpR参数和SMS分析。
激励波形包络(激励曲线)r1是近似于声带振动的频谱包络线的变量。胸腔谐振r2指示了近似于胸腔共振特性的预定数量的共振(带通滤波器)的带宽、中心频率以及幅值。声道共振r3指示了近似于声道共振特性的多个共振的每一个的带宽、中心频率以及幅值。差频谱r4意指近似于激励波形包络r1、胸腔共振r2以及声道共振r3的频谱与语音频谱之间的差异(误差)。
如图2所示,对应于一个清音音素的一个单位数据UA包括频谱数据Q。该清音的单位数据UA不包括包络数据R。在浊音和清音两者的单位数据UA中包括的频谱数据Q是表示语音频谱的数据。具体地说,频谱数据Q包括频率轴上多个频率的每一个的强度(功率和幅值)的序列。
如图3所示,基于清晰度法将属于每个音素类型的辅音音素分类为第一类型C1(C1a和C1b)和第二类型C2。在声道从预定预备状态短暂变形的状态下发出第一类型C1的音素。第一类型C1被划分成类型C1a和类型C1b。类型C1a的音素是在发音前的预备状态下空气在口腔和鼻腔两者中均完全被阻塞的音素。具体地说,爆破音/t/、/k/和/p/以及塞擦音/ts/属于类型C1a。类型C1b的音素是在预备状态下使气流通过受到限制、然而即使在预备状态下还是以气流通过口腔或鼻腔的一部分来维持发音的音素。具体地说,鼻音/m/和/n/以及流音/r/属于类型C1b。另一方面,第二类型C2的音素是正常发音可以持续的音素。具体地说,摩擦音/s/和/f/以及半元音/w/和/y/属于第二类型C2。
在图4至图6的部分(A)中示出了各个类型C1a、C1b和C2的音素的时域波形。如图4中的部分(A)所示,一个类型C1a的音素(例如爆破音/t/)在时间轴上被划分为预备过程pA1和发音过程pA2。预备过程pA1是对用于音素发音的声道进行封闭的过程。由于声道被封闭以阻塞气流通过,因此预备过程p A1具有几乎无声的状态。另一方面,发音过程pA2是短暂且快速地将声道从预备过程pA1变形以释放空气流从而实际发出音素的过程。具体地说,通过在发音过程pA2中例如在舌尖处移动上颚来将预备过程pA1中被压缩在声道上游侧中的空气立即释放。
在其中语音段V后部的音素片段S2对应于类型C1a的音素的情况下,如图4中的部分(B)所示,音素片段S2包括该音素的预备过程pA1。同样,如图4中的部分(C)所示,在语音段V的前部的与类型C1a的音素对应的音素片段S1包括该音素的发音过程pA2。即,在图4的部分(B)的音素片段S2后面跟随图4的部分(C)的音素片段S1,以合成类型C1a的一个音素(例如爆破音/t/)。
如图5的部分(A)所示,一个类型C1b的音素(例如鼻音/n/)在时间轴上被划分成预备过程pB1和发音过程pB2。预备过程pB1是对用于音素发音的声道的气流通过进行限制的过程。类型C1b的音素的预备过程pB1与类型C1a的音素的其中阻塞了气流通过因而几乎维持无声状态的预备过程pA1不同之处在于,来自声门(vocal chink)的气流通过受到限制,但是仍然以气流通过口腔或鼻腔的一部分来维持发音。另一方面,发音过程pB2是以与发音过程pA2相同的方式短暂且快速地将声道从预备过程pB1变形以实际发出音素的过程。如图5的部分(B)所示,类型C1b的音素的预备过程pB1包括在位于语音段V的后部处的音素片段S2中,并且类型C1b的音素的发音过程pB2包括在位于语音段V的前部处的音素片段S1中。在图5的部分(B)的音素片段S2后面跟随图5的部分(C)的音素片段S1,以合成类型C1b的一个音素(例如鼻音/n/)。
如图6的部分(A)所示,一个第二类型C2的音素(例如摩擦音/s/)在时间轴上被划分为前部分pC1和后部分pC2。前部分pC1是该音素的发音开始过渡到稳定持续状态的过程,并且后部分pC2是该音素的发音从正常持续状态结束的过程。如图6的部分(B)所示,前部分pC1包括在位于语音段V的后部处的音素片段S2中,并且如图6的部分(A)所示,后部分pC2包括在位于语音段V的前部处的音素段S1中。为了满足上述条件,从特定讲话者的语音提取每个语音段V,对每个音素片段S划界,并制作每个语音段V的语音段数据DA。
如图1所示,在存储单元14中存储了指示时间序列中的合成声音的合成信息(评分数据)GB。合成信息GB例如针对每个音符来指示时间序列中的合成声音的发音文字X1、发音时段X2、和音高X3。发音文字X1是例如在合成歌唱语音的情况中的歌词的字母序列,并且发音时段X2例如被指定为发音起始时间和持续时段。例如根据用户通过各种输入设备的操作来产生合成信息GB,并随后将其存储在存储单元14中。同时,通过通信网络从另一通信终端接收到的合成信息GB或者从移动记录介质发送来的合成信息GB可被用来产生语音信号VOUT。
图1的语音段选择部分22按时间序列从语音段组GA中顺序地选择与合成信息GB所指示的每个发音文字X1相对应的语音段数据V。例如,如图7所示,在将短语“go straight”指定为合成信息GB的发音文字X1的情况中,语音段选择部分22选择八个语音段V,比如[Sil-gh]、[gh-U]、[U-s]、[s-t]、[t-r]、[r-eI]、[eI-t]和[t-Sil]。其中,每个音素的符号基于机读音标(SAMPA,speech assessmentmethods phonetic alphabet)。X-SAMPA(扩展SAMPA)也采用相同的符号系统。其中,图7的符号“Sil”表示无声。
图1的音素长度设定部分24在用于针对由语音段选择部分22顺序选择的语音段V的每个音素片段S(S1和S2)来合成语音信号VOUT时可变地设定时间长度T(以下称为“合成时间长度”)。根据时间序列中由合成信息GB指示的发音时段X2来选择每个音素片段S的合成时间长度T。具体地说,如图7所示,音素长度设定部分24将每个音素片段S的合成时间长度T(T(Sil)、T(gh)、T(U)、…)设定为使得构成发音文字X1的基本元音的音素(图7的斜体音素)的起始点与发音文字X1的发音时段X2的起始点一致,并且在时间轴上无间隙地排列前后音素片段S。
图1的语音段调整部分26基于音素长度设定部分24针对由语音段选择部分22选择的语音段V的音素片段S而设定的合成时间长度T来对每个音素片段S进行扩展和压缩。例如,在语音段选择部分22选择了语音段V1和语音段V2的情况下,如图8所示,语音段调整部分26将通过对作为语音段V1后部音素的后部音素片段S2与作为语音段V2前部音素的前部音素片段S1进行互连而得到的时间长度LA的片段(以下称为“目标片段”)WA扩展和压缩成覆盖目标时间长度LB的片段(以下称为“调整片段”)WB,以产生对扩展和压缩之后的调整片段WB的语音进行表示的合成语音段数据DB。同时,图8中示出了扩展目标片段WA(LA<LB)的情况。调整片段WB的时间长度TB是语音段V1的音素片段S2的合成时间长度T与语音段V2的音素片段S1的合成时间长度T之和。如图8所示,由语音段调整部分26产生的合成语音段数据DB是与调整片段WB的时间长度LB相对应的许多(N个)单位数据UB的时间序列。如图7和图8所示,针对每一个第一语音段V1的后部音素片段S2和紧跟于其后的第二语音段V2的前部音素片段S1对(即针对每一音素)来产生一个合成语音段数据DB。
图1的语音合成部分28使用由语音段调整部分26针对每个音素产生的合成语音段数据DB来产生语音信号VOUT。具体地说,语音合成部分28将构成各个合成语音段数据DB的各个单位数据UB所表示的频谱转化为时域波形,将这些帧的转化后的频谱互连,并且基于合成信息GB的音高X3来调整声音的高度,以产生语音信号VOUT。
图9是示出语音段调整部分26扩展一个辅音音素来产生合成语音段数据DB的处理的流程图。只要针对辅音音素(以下称为“目标音素”)执行由语音段选择部分22进行的语音段V的选择和由音素长度设定部分24进行的合成时间长度T的设定,图9的处理就开始。如图8所示,假设由与语音段V1的目标音素对应的音素片段S2和与语音段V2的目标音素对应的音素片段S1所构成的具有时间长度LA的目标片段WA被扩展到调整片段WB的时间长度LB,以产生合成语音段数据DB(与调整片段WB的各个帧对应的N个单位数据UB的时间序列)。
一旦图9的处理开始,语音段调整部分26就确定目标音素是否属于类型C1a(SA1)。具体地说,语音段调整部分26在步骤SA1基于由语音段V1的语音段数据DA的分类信息DC针对目标音素的音素片段S1所指示的音素类型是否与属于类型C1a的预定类别(爆破音或塞擦音)相对应,来执行确定。在目标音素属于类型C1a的情况下(SA1:是),语音段调整部分26执行第一插入处理来产生调整部分WB的合成语音段数据DB(SA2)。
如图10所示,第一插入处理是在处于语音段V1的后部处的音素片段S2与处于紧随其后的语音段V2的前部处的音素片段S1之间插入中间片段MA,以将目标片段WA扩展成具有时间长度LB的调整片段WB的处理。如参照图4而描述的那样,在与类型C1a的音素对应的音素片段S2中包括了具有几乎无声的状态的预备过程pA1。因此,在步骤SA2的第一插入处理中,语音段调整部分26插入了多个表示无声的单位数据UA的时间序列来作为中间片段MA。即,如图10所示,在通过步骤SA2的第一插入处理产生的合成语音段数据DB由这样的N个单位数据UB的时间序列构成,其中依次排列了语音段V1的音素片段S2的各个单位数据UA、中间片段(无声片段)MA的各个单位数据UA、和语音段V2的音素片段S1的各个单位数据UA。
在目标音素不属于类型C1a的情况下(SA1:否),语音段调整部分26确定目标音素是否属于类型C1b(流音或鼻音)(SA3)。步骤SA3的确定方法与步骤SA1的相同。在目标音素属于类型C1b的情况下(SA3:是),语音段调整部分26执行第二插入处理以产生调整片段WB的合成语音段数据DB(SA4)。
如图11所示,第二插入处理是在处于语音段V1的后部处的音素片段S2与处于紧随其后的语音段V2的前部处的音素片段S1之间插入中间片段MB以将目标片段WA扩展成具有时间长度LB的调整片段WB的处理。如参照图5而描述的那样,在与类型C1b的音素对应的音素片段S2中包括了通过口腔或鼻腔的一部分维持发音的预备过程pB1。因此,在步骤SA4的第二插入处理中,语音段调整部分26插入这样的多个单位数据UA的时间序列来作为中间片段MB,其中该多个单位数据UA的时间序列是重复地排列了位于语音段V1的最末部分处的帧的单位数据UA(图11的阴影部分)。因此,通过步骤SA4的第二插入处理而产生的合成语音段数据DB由如下N个单位数据UB的时间序列构成:其中依次排列了语音段V1的音素片段S2的各个单位数据UA、音素片段S2的最末部分处的多个单位数据UA、和语音段V2的音素片段S1的各个单位数据UA。
在如上所述目标音素属于第一类型C1(C1a和C1b)的情况下,语音段调整部分26在处于语音段V1的后部处的音素片段S2与处于语音段V2的前部处的音素片段S1之间插入中间片段M(MA和MB)以产生调整片段WB的合成语音段数据DB。同时,在处在属于类型C 1a的音素的预备过程pA1(语音段V1的音素片段S2)的最末部分处的帧几乎是无声的,因此,在目标音素属于类型C1a的情况下,还可以以与步骤SA4相同的方式执行第二插入处理,即插入处在音素片段S2的最末部分处的帧的单位数据UA的时间序列来作为中间片段MB。
在目标音素属于第二类型C2的情况下(SA1为否并且SA3也为否),语音段调整部分26执行对目标片段WA进行扩展的扩展处理,以使得在目标音素的目标片段WA的时间轴方向上的中间部分的扩展率高于目标片段WA的前部分和后部分的扩展率(目标片段WA的中间部分比目标片段WA的前部分和后部分扩展得更多),以产生具有时间长度LB的调整片段WB的合成语音段数据DB(SA5)。
图12是示出在通过步骤SA5的扩展处理而进行了扩展之后的调整片段WB(水平轴)与扩展之前的目标片段WA(垂直轴)之间的基于时间的对应关系的曲线图。在目标片段WA中与调整片段WB中的每个帧相对应的每个时间点由黑点来表示。如图12中的轨迹z1(虚线)和轨迹z2(实线)所示,调整片段WB中的每个帧对应于目标片段WA中的时间点。具体地说,调整片段WB的起始点tBs的帧对应于目标片段WA的起始点tAs的帧,并且调整片段WB的结束点tBe的帧对应于目标片段WA的结束点tAe的帧。同样,调整片段WB的中点tBc的帧对应于目标片段WA的中点tAc的帧。基于处在与目标片段WA中的帧相对应的时间点处的单位数据UA来产生与调整片段WB中的每个帧相对应的单位数据UA。
以下将把目标片段WA中与调整片段WB中的预定单位时间相对应的时间长度(时间轴上的距离)表达为前进速度ν。即,前进速度ν是目标片段WA中与调整片段WB中的每个帧对应的每个帧根据调整片段WB中时间的经过而改变的速度。因此,在前进速度ν为1的片段(例如调整片段WB的前部分和后部分)中,目标片段WA中的每个帧与调整片段WB中的每个帧彼此一一对应,并且,在前进速度ν为0的片段(例如调整片段WB中的中间部分)中,调整片段WB中的多个帧对应于目标片段WA中的单个帧(即,目标片段WA中的帧没有根据调整片段WB中的时间经过而改变)。
在图12中还示出了显示调整片段WB中的前进速度ν的基于时间的变化的曲线。如图12所示,语音段调整部分26使得调整片段WB中的每个帧与目标片段WA中的每个帧对应,从而从调整片段WB的起始点tBs到中点tBc的前进速度ν从1减小到0,并且从调整片段WB的中点tBc到结束点tBe的前进速度ν从0增大到1。
具体地说,前进速度ν在从调整片段WB的起始点tBs到特定时间点tB1维持在1,随后从时间点tB1开始随时间减小,并在调整片段WB的中点tBc处达到0。在中点tBc之后,前进速度ν以这样的轨迹来变化:该轨迹是通过将从起始点tBs到中点tBc的片段在时间轴方向上关于中点tBc以线对称方式反转而得到的。作为前进速度ν如上增大和减小的结果,目标片段WA被扩展,使得目标音素的目标片段WA在时间轴方向上的中间部分的扩展率如前所述高于目标片段WA的前部分和后部分的扩展率。
如图12所示,前进速度ν的变化率(倾斜度)在处于时间点tB1与中点tBc之间的特定时间点tB2处改变(减小)。时间点tB2对应于从起始点tBs开始已过了目标片段WA的时间长度的一半(LA/2)的时间点。时间点tB1是将时间点tB2缩短了时间长度α·(LA/2)的时间点。变量α选自于从0到1的范围内。为了使调整片段WB的中点tBc与目标片段WA的中点tAc彼此对应,图12的三角形γ1和三角形γ2必须具有相同面积,根据变量α来选择处于时间点tB 1处的前进速度νREF以便满足上述条件。
从图12可以得知,随着变量α接近于1,调整片段WB中的前进速度ν开始降低的时间点tB1向起始点tBs靠拢。即,在将变量α设定为1的情况下,前进速度ν从调整片段WB的起始点tBs减小,并且在将变量α设定为0的情况下(tB1=tB2),前进速度ν在时间点tB2处不连续地从1改变为0。即,变量α是一个决定目标片段WA的待扩展片段的宽窄的数值(例如,随着变量α接近于1,整个目标片段WA被均匀地扩展)。图12中的虚线示出的轨迹z1代表在将变量α设定为0的情况下调整片段WB与目标片段WA之间的关系,并且图12中的实线示出的轨迹z2代表在将变量α设定为从0到1的数值(例如0.75)的情况下调整片段WB与目标片段WA之间的关系。
图13是示出在图9的步骤SA5执行的扩展处理的流程图。一旦开始该扩展处理,语音段调整部分26就确定目标音素是否为浊音(在考虑针对辅音来执行图9的处理的情况下,确定目标音素是否为浊辅音)(SB1)。在目标音素为浊音的情况下(SB1:是),语音段调整部分26扩展目标片段WA以使得调整片段WB和目标片段WA满足轨迹z1的关系,从而产生调整片段WB的合成语音段数据DB(SB2)。以下将详细描述步骤SB2的具体示例。
首先,如图14所示,假设目标片段WA包括奇数(2K+1)个帧FA[1]至FA[2K+1]。图14示出了目标片段WA包括7个帧FA[1]至FA[7]的(K=3)的情况。将目标片段WA划分成与其中心点的时间点tAc对应的帧FA[K+1]、包括了时间点tAc之前的K个帧FA[1]至FA[K]的前部分σ1、和包括了时间点tAc之后的K个帧FA[K+2]至FA[2K+1]的后部分σ2。语音段调整部分26产生如下N个单位数据UB(帧FB[1]至FB[N])的时间序列来作为合成语音段数据DB:在该时间序列中,依次排列了目标语音段的(2K+1)个单位数据UA的前部分σ1的K个帧FA[1]至FA[K]的单位数据UA的时间序列、与中心点tAc对应的被重复了多次的帧FA[K+1]的单位数据UA的时间序列、和后部分σ2的K个帧FA[K+2]至FA[2K+1]的单位数据UA的时间序列。
接下来,如图15所示,假设目标片段WA包括偶数(2K)个帧FA[1]至FA[2K]。在图15中示出了目标片段WA包括6个帧FA[1]至FA[6]的(K=3)的情况。包括偶数个帧FA的目标片段WA被划分成包括K个帧FA[1]至FA[K]的前部分σ1和包括K个帧FA[K+1]至FA[2K]的后部分σ2。与目标片段WA的中心点tAc对应的帧FA[K+0.5]不存在。因此,语音段调整部分26使用恰在中心点tAc之前的帧FA[K]的单位数据UA和恰在中心点tAc之后的帧FA[K+1]的单位数据UA来产生与目标片段WA的中心点tAc的帧FA[K+0.5]对应的单位数据UA。
如上所述,浊音的单位数据UA包括包络数据R和频谱数据Q。包络数据R可以针对各个变量r1至r4被内插在帧之间。另一方面,由频谱数据Q表示的频谱对于每一帧而言时刻在变化,结果是在帧之间内插频谱数据Q的情况中,会计算出其特性与内插前的频谱的特性不同的频谱。也就是说,难以适当地内插频谱数据Q。
考虑到上述问题,第一实施例的语音段调整部分26通过在恰在中心点tAc之前的帧FA[K]与恰在中心点tAc之后的帧FA[K+1]之间内插包络数据R的各个变量r1至r4,来计算目标片段WA的中心点tAc的帧FA[K+0.5]的单位数据UA的包络数据R。例如,在图15的例示中,通过内插帧FA[3]的包络数据R和帧FA[4]的包络数据R来产生帧FA[3.5]的单位数据UA的包络数据R。例如,任意采用各种内插处理(比如线性内插)来内插包络数据R。
同样,语音段调整部分26将恰在目标片段WA的中心点tAc之后的帧FA[K+1]的单位数据UA的频谱数据Q(或者恰在目标片段WA的中心点tAc之前的帧FA[K]的单位数据UA的频谱数据Q)充当与目标片段WA的中心点tAc对应的帧FA[K+0.5]的单位数据UA的频谱数据Q。例如,在图15的例示中,将帧FA[4](或帧FA[3])的单位数据UA的频谱数据Q选择为帧FA[3.5]的单位数据UA的频谱数据Q。从以上描述可以理解,语音段调整部分26产生的合成语音段数据DB包括N个单位数据UB(帧FB[1]至FB[N]),其中依次排列了目标语音段的2K个单位数据UA的前部分σ1的K个帧FA[1]至FA[K]的单位数据UA的时间序列、通过内插而产生的被重复了多次的帧FA[K+0.5]的单位数据UA的时间序列、和后部分σ2的K个帧FA[K+1]至FA[2K]的单位数据UA的时间序列。
另一方面,在目标音素是清音的情况下(SB1:否),语音段调整部分26扩展目标片段WA,以使得调整片段WB和目标片段WA满足轨迹z2的关系,从而产生调整片段WB的合成语音段数据DB(SB3)。如前文所述,清音的单位数据UA包括频谱数据Q但是不包括包络数据R。语音段调整部分26选择相对于构成目标片段WA的多个帧的调整片段WB中的各个帧而言与轨迹z2最接近的帧的单位数据UA作为调整片段WB的N个帧的每一个的单位数据UB,从而产生包括N个单位数据UB的合成语音段数据DB。
图16示出了与调整片段WB的任意帧FB[n]对应的目标片段WA中的时间点tAn。当在目标片段WA中不存在对于调整片段WB的帧FB[n]而言满足轨迹z2的关系的时间点tAn的帧的情况下,语音段调整部分26选择与目标片段WA中的时间点tAn最接近的帧FA的单位数据UA来作为调整片段WB的帧FB[n]的单位数据UB,而不进行单位数据UA的内插。即,选择时间点tAn近旁的帧FA(即,恰在目标片段WA中的时间点tAn之前的帧FA[m]或者恰在目标片段WA中的时间点tAn之后的帧FA[m+1])的单位数据UA来作为合成语音段数据DB的帧FB[n]的单位数据UB。因此,调整片段WB中的每个帧与目标片段WA中的每个帧之间的对应关系是由沿着轨迹z2的虚线所表示的轨迹z2a的关系。
如上所述,在第一实施例中,在与辅音音素对应的目标片段WA中扩展率发生改变,因此,其与日本专利申请公开No.H7-129193中在语音段的范围内始终不变地维持扩展率的情况相比,可以合成听起来更自然的语音。
另外,在第一实施例中,扩展方法根据辅音音素的类型C1a、C1b和C2而改变,因此,可以在不过度改变每个音素的特性(尤其是在听众区分一个音素时很重要的片段)的情况下扩展每个音素。
例如,对于类型C1a的一个音素(爆破音或塞擦音),在预备过程pA1与发音过程pA2之间插入无声的中间片段MA,因此,可以扩展目标片段WA而同时几乎不改变发音过程pA2的特性,这在听众区分一个音素时尤为重要。以相同的方式,对于类型C1b的一个音素(流音或鼻音),在预备过程pB1与发音过程pB2之间插入将预备过程pB1的最后帧进行重复的中间片段MB,因此,可以扩展目标片段WA而同时几乎不改变发音过程pB2的特性,这在区分一个音素时尤为重要。对于第二类型C2的一个音素(摩擦音或半元音),将目标片段WA扩展来使得目标音素的目标片段WA的中间部分的扩展率高于目标片段WA的前部分和后部分的扩展率,因此,可以扩展目标片段WA而不会过度改变前部分或后部分的特性,这在听众区分一个音素时尤为重要。
另外,在第二类型C2的音素的扩展处理中,对于难以进行内插的频谱数据Q,将语音段数据DA中的单位数据UA的频谱数据Q施加到合成语音段数据DB,并且对于包络数据R,将通过对目标片段WA中的中心点tAc之前和之后的帧进行内插而计算出的包络数据R包括在合成语音段数据DB的单位数据UB中。因此,与不对包络数据R内插的结构相比可以合成听起来自然的语音。
同时,例如可以采用通过内插来对调整片段WB中的每个帧的包络数据R进行计算以使得包络数据R跟随轨迹z1、并且从语音段数据D选择频谱数据Q以使得频谱数据Q跟随轨迹z2的方法(以下称为“比较示例”),作为对浊辅音的音素进行扩展的方法。然而,在比较示例的方法中,包络数据R和频谱数据Q的特性彼此不同,结果合成声音听起来可能不自然。在第一实施例中,产生合成语音段数据DB的每个单位数据,以使得包络数据R和频谱数据Q跟随轨迹z2,因此,与比较示例相比可以合成听起来更自然的语音。但是,这并非意在将比较示例排除在本发明的范围之外。
<B:第二实施例>
下文将描述本发明的第二实施例。其中,将要描述的各个实施例中的其操作或功能与第一实施例中相同的那些组件使用以上描述中相同的参考标号进行表示,并且适当地省略了对它们的详细描述。
在第一实施例中,在目标音素为清音的情况下,选择了对于构成目标片段WA的多个帧当中的调整片段WB中的每个帧而言满足轨迹z2的关系的帧的单位数据UA。在第一实施例的构造中,在调整片段WB中的多个帧(图16的重复片段τ)的范围中重复地选择了目标片段WA中的一个帧的单位数据UA。但是,由其中对一个单位数据UA进行重复的合成语音段数据DB所产生的合成声音可能是造作和不自然的。提供第二实施例来减小由一个单位数据UA的重复而导致的合成声音的不自然。
图17是示出第二实施例的语音段调整部分26的操作的示图。在目标音素为清音的情况下(SB1:否),语音段调整部分26针对调整片段WB中的N个帧的每个FB[n]执行以下处理来产生对应于每个帧的N个单位数据UB。
首先,语音段调整部分26以与第一实施例中相同的方式选择目标片段WA的多个帧FA当中最接近于与调整片段WB中的帧FB[n]对应的时间点tAn的帧FA,并且如图17所示计算由所选帧FA的单位数据UA的频谱数据Q表示的频谱的包络线ENV。接着,语音段调整部分26基于包络线ENV来计算其中对时间轴上随机地时刻改变的预定噪声成分μ进行了调整的语音成分的频谱q。在频率轴上宽的范围内其强度几乎保持均匀的白噪声优选地作为该噪声成分μ。例如通过将噪声成分μ的频谱乘以包络线ENV来计算频谱q。语音段调整部分26产生包括了表示频谱q的频谱数据Q的单位数据UA来作为调整片段WB中的帧FB[n]的单位数据UB。
如上所述,在第二实施例中,在目标音素为清音的情况下,将目标片段WA的单位数据UA所指示的频谱的频率特性(包络线ENV)添加到噪声成分μ中以产生合成语音段数据DB的单位数据UB。每个频率处的噪声成分μ的强度在时间轴上每秒随机地改变,因此,即使当在调整片段WB中的多个帧的范围中重复地选择目标片段WA中的一个单元数据UA的情况下,合成声音的特性也在时间上(每一帧)时刻地改变。因此根据第二实施例,除了具有与第一实施例相同的效果之外,其与第一实施例相比还可以减小由一个单位数据UA的重复而导致的合成声音的不自然。
<C:第三实施例>
如在第二实施例中所述的那样,对于清辅音,可以在调整片段WB中的多个帧的范围中重复目标片段WA的一个单位数据UA。另一方面,清辅音的每个帧基本是清音,但是可能混有浊音的帧。当在一个清辅音音素的合成声音中重复一个浊音帧的情况下,会发出非常刺耳的周期性噪声(嗡嗡声)。提供第三实施例以解决上述问题。
第三实施例的语音段调整部分26针对在调整片段WB的轨迹z2处的与目标片段WA中的帧连续对应的重复片段τ中的每个帧来选择对应于目标片段WA中的中心点tAc的帧的单位数据UA。接着,语音段调整部分26计算对与目标片段WA的中心点tAc对应的一个单位数据UA的频谱数据Q进行表示的频谱的包络线ENV,并且基于包络线ENV来产生包括其中对预定噪声成分μ进行了调整的频谱的频谱数据Q在内的单位数据UA,以作为在调整片段WB的重复片段τ中的每个帧的单位数据UB。即,频谱的包络线ENV对于重复片段τ中的多个帧而言是共同的。其中,将与目标片段WA的中心点tAc对应的单位数据UA选择作为包络线ENV的计算源的原因在于,在目标片段WA的中心点tAc附近能够稳定且容易地发出清辅音(存在清音的很大可能性)。
第三实施例也具有与第一实施例相同的效果。而且,在第三实施例中,使用根据目标片段WA中的一个单位数据UA(具体地为对应于中心点tAc的单位数据UA)而指定的包络线ENV来产生重复片段τ中的每个帧的单位数据UB,因此,减小了在一个清辅音音素的合成声音中重复一个浊音帧的可能性。因此,可以抑制由浊音帧的重复导致的周期性噪声的发生。
<D:变型>
可以以各种方式来修改上述实施例的每一个。下面将例示具体的变型。可以适当地组合从以下示例中随意选择的两个或多个变型。
(1)尽管在每个上述实施例中根据辅音音素的类型C1a、C1b和C2来使用对目标片段WA进行扩展的不同方法,然而还可以使用共同的方法来扩展每个类型的音素的目标片段WA。例如,还可以使用用于扩展目标片段WA以使得目标音素的目标片段WA的中间部分的扩展率高于目标片段WA的前部分和后部分的扩展率的扩展处理(图9的步骤SA5)来扩展类型C1a或类型C1b的音素的目标片段WA。
(2)可以适当改变在图9的步骤SA5处执行的扩展处理。例如,在目标音素为浊音的情况下(SB1:是),还可以扩展目标片段WA以使得调整片段WB的每个帧和目标片段WA的每个帧满足轨迹z2的关系。通过在各个帧之间对目标片段WA中的各个单位数据UA进行内插来产生调整片段WB中的每个帧的单位数据UB的包络形状参数R,并且将目标片段WA中的单位数据UA的频谱数据Q选择为单位数据UB中的频谱数据Q。同样,在目标音素为清音的情况下(SB1:否)还可以扩展目标片段WA以使得调整片段WB的每个帧和目标片段WA的每个帧满足轨迹z1的关系。
(3)在上述实施例的第二插入处理中,通过重复排列语音段V1的最后帧的单位数据UA(图11的阴影部分),来生成中间片段MB。在第二插入处理中有利的是自由改变单位数据UA在时间轴上的位置(帧)、用于生成中间片段MB的单位数据UA。例如,可以通过重复地排列语音段V2的最前帧的单位数据UA来生成中间片段MB。从上面的示例可以理解,第二插入处理包括用于插入中间片段的处理,该中间片段是通过重复排列第一语音段V1或第二语音段V2的一个特定帧或多个帧而得到的。
(4)尽管在第二实施例中使用了从目标片段WA选择的一个单位数据UA所表示的频谱的包络线ENV来调整噪声成分μ,然而还可以基于通过在帧之间内插而计算出的包络线ENV来调整噪声成分μ。例如,当在目标片段WA中不存在对于调整片段WB的帧FB[n]而言满足轨迹z1的关系的时间点tAn的帧时,如参照图16所示,对由恰在时间点tAn之前的帧FA[m]的单位数据UA所表示的频谱的包络线ENV[m]和由恰在时间点tAn之后的帧FA[m+1]的单位数据UA所表示的频谱的包络线ENV[m+1]进行内插,以产生时间点tAn的包络线ENV,并且以与第二实施例相同的方式基于内插之后的包络线来调整噪声成分μ。
(5)语音段数据DA或合成语音段数据DB的形式是可选的。例如,尽管在上述每个实施例中使用表示了语音段V每个帧的频谱的单位数据U的时间序列作为语音段数据DA,然而还可以使用时间轴上语音段V的采样序列来作为语音段数据DA。
(6)尽管在上述每个实施例中用于存储语音段数据组GA的存储单元14安装在语音合成设备100中,然而还可以存在独立于语音合成设备100的外部装置(例如服务器装置)来存储语音段数据组GA的配置。在这样的情况下,语音合成设备100(音素段选择部分22)通过例如通信网络从外部装置获取语音段V(语音段数据DA)以产生语音信号VOUT。采用类似方式,可以将合成信息GB存储在独立于语音合成设备100的外部装置中。从上述描述可理解,诸如上述用于存储语音段数据DA和合成信息GB的存储单元之类的装置并非语音合成设备100的不可或缺的组件。
Claims (10)
1.一种用于使用多个语音段数据合成语音信号的设备,每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段,所述设备包括:
语音段调整部分,其根据第一语音段和第二语音段来形成目标片段以便将第一语音段和第二语音段相互连接,使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成,并且所述语音段调整部分执行用于将所述目标片段扩展到目标时间长度以形成调整片段的扩展处理,使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分,从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据;以及
语音合成部分,其根据由所述语音段调整部分产生的合成语音段数据来产生语音信号,
其中所述语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据,
其中在所述目标片段对应于清辅音音素的情况下,所述语音段调整部分顺序地选择所述目标片段的每个帧的单位数据来作为所述调整片段的每个帧的单位数据,以产生合成语音段数据,并且
其中随着所述调整片段中的时间流逝对所述目标片段中与所述调整片段中的每个帧对应的每个帧进行改变所采用的速度从所述调整片段的前部分到中心点是减小的,而从所述调整片段的中心点到后部分是增大的。
2.根据权利要求1的设备,
其中每个语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据,并且
其中,在所述目标片段对应于浊辅音音素的情况下,所述语音段调整部分将所述目标片段扩展成所述调整片段,使得所述调整片段包含与所述目标片段的前部分对应的单位数据的时间序列、通过对与所述目标片段的中心点对应的单位数据进行重复而得到的多个重复单位数据的时间序列、以及与所述目标片段的后部分对应的多个单位数据的时间序列。
3.根据权利要求2的设备,
其中所述浊辅音音素的帧的单位数据包括对语音频谱的包络线中的形状的特性进行指示的包络数据和对该语音的频谱进行表示的频谱数据,并且
其中所述语音段调整部分产生与所述目标片段的中心点对应的单位数据,使得产生的单位数据包括通过对所述目标片段的中心点前后的单位数据的包络数据进行内插而得到的包络数据以及恰在该中心点前后的单位数据的频谱数据。
4.根据权利要求1的设备,
其中清音的帧的单位数据包括了表示清音频谱的频谱数据,并且
其中所述语音段调整部分产生所述调整片段的帧的单位数据,使得所产生的单位数据包括了含有预定噪声成分的频谱的频谱数据,其中根据由所述目标片段中的帧的单位数据的频谱数据所表示的频谱的包络线对所述预定噪声成分进行了调整。
5.根据权利要求1的设备,其中所述语音段调整部分在所述目标片段的辅音音素属于包括摩擦音和半元音的一种类型的情况下执行所述扩展处理,并且在所述目标片段的辅音音素属于包括爆破音、塞擦音、鼻音和流音的另一种类型的情况下执行另一扩展处理,所述另一扩展处理用于在所述目标片段中的第一语音段的后部音素片段与第二语音段的前部音素片段之间插入中间片段。
6.根据权利要求5的设备,其中在所述目标片段的辅音音素是爆破音或塞擦音的情况下,所述语音段调整部分在第一语音段的后部音素片段与第二语音段的前部音素片段之间插入无声片段来作为中间片段。
7.根据权利要求5的设备,其中在所述目标片段的辅音音素是鼻音或流音的情况下,所述语音段调整部分插入包含了对从第一语音段的后部音素片段或第二语音段的前部音素片段中选择的一个帧进行的重复的中间片段。
8.根据权利要求7的设备,其中所述语音段调整部分插入包含了对第一语音段的后部音素的最后帧进行的重复的中间片段。
9.根据权利要求7的设备,其中所述语音段调整部分插入包含了对第二语音段的前部音素片段的最前帧进行的重复的中间片段。
10.一种使用多个语音段数据合成语音信号的方法,每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段,所述方法包括:
根据第一语音段和第二语音段来形成目标片段以便将第一语音段和第二语音段相互连接,使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成;
执行用于将所述目标片段扩展到目标时间长度以形成调整片段的扩展处理,使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分,从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据;以及
根据所述合成语音段数据来产生语音信号,
其中所述语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据,
其中在所述目标片段对应于清辅音音素的情况下,顺序地选择所述目标片段的每个帧的单位数据来作为所述调整片段的每个帧的单位数据,以产生合成语音段数据,并且
其中随着所述调整片段中的时间流逝对所述目标片段中与所述调整片段中的每个帧对应的每个帧进行改变所采用的速度从所述调整片段的前部分到中心点是减小的,而从所述调整片段的中心点到后部分是增大的。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011-123770 | 2011-06-01 | ||
JP2011123770 | 2011-06-01 | ||
JP2012110358A JP6047922B2 (ja) | 2011-06-01 | 2012-05-14 | 音声合成装置および音声合成方法 |
JP2012-110358 | 2012-05-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102810310A CN102810310A (zh) | 2012-12-05 |
CN102810310B true CN102810310B (zh) | 2014-10-22 |
Family
ID=46397008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210179123.7A Expired - Fee Related CN102810310B (zh) | 2011-06-01 | 2012-06-01 | 语音合成设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9230537B2 (zh) |
EP (1) | EP2530672B1 (zh) |
JP (1) | JP6047922B2 (zh) |
CN (1) | CN102810310B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5817854B2 (ja) * | 2013-02-22 | 2015-11-18 | ヤマハ株式会社 | 音声合成装置およびプログラム |
KR102323393B1 (ko) | 2015-01-12 | 2021-11-09 | 삼성전자주식회사 | 디바이스 및 상기 디바이스의 제어 방법 |
JP6569246B2 (ja) * | 2015-03-05 | 2019-09-04 | ヤマハ株式会社 | 音声合成用データ編集装置 |
JP6561499B2 (ja) * | 2015-03-05 | 2019-08-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6728755B2 (ja) * | 2015-03-25 | 2020-07-22 | ヤマハ株式会社 | 歌唱音発音装置 |
CN111402858B (zh) * | 2020-02-27 | 2024-05-03 | 平安科技(深圳)有限公司 | 一种歌声合成方法、装置、计算机设备及存储介质 |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479564A (en) * | 1991-08-09 | 1995-12-26 | U.S. Philips Corporation | Method and apparatus for manipulating pitch and/or duration of a signal |
EP1220194A2 (en) * | 2000-12-28 | 2002-07-03 | Yamaha Corporation | Singing voice synthesis |
EP1220195A2 (en) * | 2000-12-28 | 2002-07-03 | Yamaha Corporation | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method |
CN1682275A (zh) * | 2002-09-17 | 2005-10-12 | 皇家飞利浦电子股份有限公司 | 使用语音波形并接的语音合成 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4128737A (en) * | 1976-08-16 | 1978-12-05 | Federal Screw Works | Voice synthesizer |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
US4470150A (en) * | 1982-03-18 | 1984-09-04 | Federal Screw Works | Voice synthesizer with automatic pitch and speech rate modulation |
US4586193A (en) * | 1982-12-08 | 1986-04-29 | Harris Corporation | Formant-based speech synthesizer |
JPS62245298A (ja) * | 1986-04-18 | 1987-10-26 | 株式会社リコー | 音声規則合成方式 |
US4852170A (en) * | 1986-12-18 | 1989-07-25 | R & D Associates | Real time computer speech recognition system |
US5163110A (en) * | 1990-08-13 | 1992-11-10 | First Byte | Pitch control in artificial speech |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5463715A (en) * | 1992-12-30 | 1995-10-31 | Innovation Technologies | Method and apparatus for speech generation from phonetic codes |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
JPH07129193A (ja) | 1993-10-28 | 1995-05-19 | Sony Corp | 音声出力装置 |
SE516521C2 (sv) | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
US5703311A (en) * | 1995-08-03 | 1997-12-30 | Yamaha Corporation | Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques |
US6240384B1 (en) * | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
US6088674A (en) * | 1996-12-04 | 2000-07-11 | Justsystem Corp. | Synthesizing a voice by developing meter patterns in the direction of a time axis according to velocity and pitch of a voice |
US6304846B1 (en) * | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
DE19861167A1 (de) * | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
JP2000305582A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2001117576A (ja) * | 1999-10-15 | 2001-04-27 | Pioneer Electronic Corp | 音声合成方法 |
GB0031840D0 (en) * | 2000-12-29 | 2001-02-14 | Nissen John C D | Audio-tactile communication system |
JP3838039B2 (ja) | 2001-03-09 | 2006-10-25 | ヤマハ株式会社 | 音声合成装置 |
JP3711880B2 (ja) | 2001-03-09 | 2005-11-02 | ヤマハ株式会社 | 音声分析及び合成装置、方法、プログラム |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
JP3963141B2 (ja) * | 2002-03-22 | 2007-08-22 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体 |
CN1682281B (zh) | 2002-09-17 | 2010-05-26 | 皇家飞利浦电子股份有限公司 | 在语音合成中用于控制持续时间的方法 |
GB0304630D0 (en) | 2003-02-28 | 2003-04-02 | Dublin Inst Of Technology The | A voice playback system |
JP2007226174A (ja) | 2006-06-21 | 2007-09-06 | Yamaha Corp | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP5029167B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP5046211B2 (ja) * | 2008-02-05 | 2012-10-10 | 独立行政法人産業技術総合研究所 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
WO2011025462A1 (en) * | 2009-08-25 | 2011-03-03 | Nanyang Technological University | A method and system for reconstructing speech from an input signal comprising whispers |
US20120215528A1 (en) * | 2009-10-28 | 2012-08-23 | Nec Corporation | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
-
2012
- 2012-05-14 JP JP2012110358A patent/JP6047922B2/ja not_active Expired - Fee Related
- 2012-05-31 EP EP12170129.6A patent/EP2530672B1/en not_active Not-in-force
- 2012-05-31 US US13/485,303 patent/US9230537B2/en active Active
- 2012-06-01 CN CN201210179123.7A patent/CN102810310B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479564A (en) * | 1991-08-09 | 1995-12-26 | U.S. Philips Corporation | Method and apparatus for manipulating pitch and/or duration of a signal |
EP1220194A2 (en) * | 2000-12-28 | 2002-07-03 | Yamaha Corporation | Singing voice synthesis |
EP1220195A2 (en) * | 2000-12-28 | 2002-07-03 | Yamaha Corporation | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method |
CN1682275A (zh) * | 2002-09-17 | 2005-10-12 | 皇家飞利浦电子股份有限公司 | 使用语音波形并接的语音合成 |
Also Published As
Publication number | Publication date |
---|---|
JP6047922B2 (ja) | 2016-12-21 |
CN102810310A (zh) | 2012-12-05 |
EP2530672B1 (en) | 2015-01-14 |
US20120310651A1 (en) | 2012-12-06 |
EP2530672A2 (en) | 2012-12-05 |
US9230537B2 (en) | 2016-01-05 |
EP2530672A3 (en) | 2014-01-01 |
JP2013011862A (ja) | 2013-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102810310B (zh) | 语音合成设备 | |
JP6024191B2 (ja) | 音声合成装置および音声合成方法 | |
US11289066B2 (en) | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning | |
CN101983402B (zh) | 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法 | |
WO2011025532A1 (en) | System and method for speech synthesis using frequency splicing | |
KR101016978B1 (ko) | 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템 | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
EP2634769B1 (en) | Sound synthesizing apparatus and sound synthesizing method | |
US7130799B1 (en) | Speech synthesis method | |
JP5914996B2 (ja) | 音声合成装置およびプログラム | |
JP6047952B2 (ja) | 音声合成装置および音声合成方法 | |
Fries | Hybrid time-and frequency-domain speech synthesis with extended glottal source generation | |
JPH09179576A (ja) | 音声合成方法 | |
JP2910587B2 (ja) | 音声合成装置 | |
JP3310217B2 (ja) | 音声合成方法とその装置 | |
Skare et al. | Using a Recurrent Neural Network and Articulatory Synthesis to Accurately Model Speech Output | |
JP3515268B2 (ja) | 音声合成装置 | |
JPH0836397A (ja) | 音声合成装置 | |
JPH0962295A (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JPS63285597A (ja) | 音素接続形パラメ−タ規則合成方式 | |
JPS63285596A (ja) | 音声合成における発話速度変更方式 | |
KR20060027645A (ko) | 감정정보 음색변환 장치 및 그 방법 | |
JPH0772898A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141022 Termination date: 20210601 |
|
CF01 | Termination of patent right due to non-payment of annual fee |