CN101271688A - 韵律修改装置和方法及存储有韵律修改程序的记录介质 - Google Patents
韵律修改装置和方法及存储有韵律修改程序的记录介质 Download PDFInfo
- Publication number
- CN101271688A CN101271688A CNA2008100867410A CN200810086741A CN101271688A CN 101271688 A CN101271688 A CN 101271688A CN A2008100867410 A CNA2008100867410 A CN A2008100867410A CN 200810086741 A CN200810086741 A CN 200810086741A CN 101271688 A CN101271688 A CN 101271688A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- authentic voice
- rhythm
- prosodic information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004048 modification Effects 0.000 title claims abstract description 140
- 238000012986 modification Methods 0.000 title claims abstract description 139
- 238000002715 modification method Methods 0.000 title 1
- 230000033764 rhythmic process Effects 0.000 claims description 424
- 239000003607 modifier Substances 0.000 claims description 93
- 239000000284 extract Substances 0.000 claims description 41
- 238000012360 testing method Methods 0.000 claims description 41
- 230000014509 gene expression Effects 0.000 claims description 25
- 238000013459 approach Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 18
- 239000002699 waste material Substances 0.000 description 11
- 241001417093 Moridae Species 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明涉及韵律修改装置和方法及存储有韵律修改程序的记录介质。该韵律修改装置包括:真实话音韵律输入部,用于接收从人类发声中提取的真实话音韵律信息;规则韵律生成部,用于针对真实话音韵律信息中的至少包括要修改的音素或音素串的部分,利用表示人类发声中的规则的或统计出的音素长度的数据来生成规则韵律信息(其具有确定音素之间的边界的规则音素边界和音素的规则音素长度);以及真实话音韵律修改部,其利用生成的规则韵律信息,重置真实话音音素边界,以使真实话音韵律信息中的要修改的音素或音素串的真实话音音素边界和真实话音音素长度接近于人类发声的实际音素边界和实际音素长度,由此修改真实话音韵律信息。
Description
技术领域
本发明涉及包括接收从人类发声中提取的真实话音韵律信息的真实话音韵律输入部和修改该真实话音韵律输入部接收到的所述真实话音韵律信息的真实话音韵律修改部的韵律修改装置、韵律修改方法,以及存储有韵律修改程序的记录介质。
背景技术
近年来,许多系统和装置使用了将字符串(文本)转换成语音并且输出获取的语音的语音合成技术。例如,将这种技术应用于IVR(交互话音响应)系统、车载信息终端,以及移动电话,以阅读关于操作方法的手册或邮件,支持用于视力减弱人员和语音减弱人员的系统等。然而,根据语音合成技术的当前状况,难于生成和人真实语音一样自然和富于表达的合成语音。
合成语音的韵律一般由执行诸如语素字素(morphogical)分析的处理来确定,即,分析字符串中的字的阅读和部分语音、分析子句和修改关系、设置重音、语调、停顿以及语速等。然而,根据处理技术的当前状况,难于和人类一样准确地考虑句子含义和进行上下文的分析,并且在分析的结果中可能包含错误。结果,与人类真实话音相比,语音合成技术生成的合成语音的韵律(韵律可确定诸如话音音调、语调、节奏等的讲话方式)可能在某种程度上不自然。
为了解决上述问题,已知下面的用于改进合成语音的韵律的质量的方法。在这种情况下,预先确定要转换成合成语音的字符串,从人类发声中提取韵律信息,以及利用提取的真实话音的韵律信息原样生成合成语音(例如,参见JP 10(1998)-153998A、JP 9(1997)-292897A、JP11(1999)-143483A,以及JP 7(1995)-140996A)。在这种方法中,要求预先进行提取人类发声及其韵律的操作,因为利用了从人类发声中提取的真实话音的韵律信息来生成合成语音,所以可以生成和人类真实话音一样自然和富于表达的合成语音。
同时,为了从人类发声中提取韵律信息,通过手动操作或者利用DP(动态编程)匹配、HMM(隐藏马尔可夫模型)等自动地针对各音素(phoneme)设置音素边界。
在前一情况下,例如,需要人基于显示的语音波形针对各音素可视地区别音素边界,以设置音素边界。这种操作需要关于语音的专业知识并且费时费力。
另一方面,在后一情况下,可能错误地提取韵律信息,其意指设置错误的音素边界。即使利用DP匹配、HMM等,由于类似声音和噪声的缘故,有时也难于设置正确的音素边界。如果从真实话音中错误地提取韵律信息,则生成韵律不自然的合成语音。从而,需要修改错误地提取的韵律信息。为了修改错误地提取的韵律信息,最终需要人可视地确认自动设置的音素边界,并且修改错误地设置的音素边界。这种操作和前一情况一样也需要关于语音的专业知识并且费时费力。
发明内容
本发明鉴于上述情况实现,其目的是提供一种可以修改从人类发声中错误地提取的真实话音韵律信息而不会减损人类真实话音的自然性和表达性并且不会费时费力的韵律修改装置、韵律修改方法以及存储有韵律修改程序的记录介质。
为了实现上述目的,一种根据本发明的韵律修改装置包括:真实话音韵律输入部,该真实话音韵律输入部接收从人类发声中提取的真实话音韵律信息;规则韵律生成部,该规则韵律生成部针对所述真实话音韵律信息中的至少包括要修改的音素或音素串的部分,利用表示人类发声中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规则韵律信息具有确定音素之间的边界的规则音素边界和音素的规则音素长度;以及真实话音韵律修改部,该真实话音韵律修改部利用所述规则韵律生成部生成的所述规则韵律信息,重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长度,由此,修改了所述真实话音韵律信息。
根据本发明的韵律修改装置,所述真实话音韵律输入部接收从人类发声中提取的真实话音韵律信息。所述规则韵律生成部针对所述真实话音韵律信息中的至少包括要修改的音素或音素串的部分,利用表示人类发声中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规则韵律信息具有确定音素之间的边界的规则音素边界和音素的规则的音素长度。所述真实话音韵律修改部利用生成的所述规则韵律信息,重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长度,由此,修改了所述真实话音韵律信息。因为重置了所述真实话音音素边界,使其接近于人类发声的实际音素边界,所以可以修改从该人类发声中错误地提取的真实话音韵律信息而不会减损人类真实话音的自然性和表达性并且不会费时费力。
优选的是,根据本发明的韵律修改装置还包括修改部分确定部,该修改部分确定部基于所述真实话音韵律信息的音素串类型或所述真实话音音素边界确定的各音素的所述真实话音音素长度,来确定所述真实话音韵律信息中的包括要修改的所述音素或所述音素串的所述部分。
利用上述构造,所述修改部分确定部基于所述真实话音韵律信息的音素串类型或所述真实话音音素长度来确定所述真实话音韵律信息中的包括要修改的所述音素或所述音素串的所述部分。由此,可以将所述真实话音韵律信息中的包括要修改的所述音素或所述音素串的所述部分限制成很可能要错误地提取真实话音韵律信息的部分。
在根据本发明的韵律修改装置中,优选的是,所述真实话音韵律修改部包括音素边界重置部,该音素边界重置部基于包括要修改的音素或音素串的所述部分中由所述规则音素边界确定的各音素的规则音素长度比来重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界,由此,修改所述真实话音韵律信息。
利用上述构造,所述音素边界重置部基于由所述部分中的所述规则音素边界确定的各音素的所述规则音素长度比来重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界,由此修改所述真实话音韵律信息。例如,所述音素边界重置部重置所述真实话音韵律信息的所述真实话音音素边界,以使所述部分中的各真实话音音素长度接近于所述部分中的各规则音素长度比,由此,修改所述真实话音韵律信息。换句话说,修改后的真实话音韵律信息总体上基于所述部分中的各音素的所述真实话音音素长度,并且局部地具有基于各音素的所述规则音素长度比重置的其真实话音音素边界。因此,可以修改从人类发声中错误地提取的所述真实话音韵律信息而不会减损人真实话音的自然性和表达性并且不会费时费力。
在根据本发明的韵律修改装置中,优选的是,所述真实话音韵律修改部包括音素边界重置部,该音素边界重置部基于所述规则韵律信息的各音素的所述规则音素长度和作为所述部分中的所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率的语速比,来重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界,由此,修改所述真实话音韵律信息。
利用上述构造,所述音素边界重置部基于所述规则韵律信息的各音素的所述规则音素长度和作为包括要修改的所述音素或所述音素串的所述部分中的所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率的语速比,来重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界,由此,修改所述真实话音韵律信息。按这种方式,因为所述真实话音韵律信息基于局部恰当的规则音素长度和所述语速比来修改,所以修改后的真实话音韵律信息总体上接近于真实话音中的发声。结果,可以修改从人发声中错误地提取的所述真实话音韵律信息而不会减损人真实话音的自然性和表达性并且不会费时费力。
优选的是,根据本发明的韵律修改装置还包括语速比检测部,该语速比检测部在由所述真实话音韵律信息中的包括要修改的所述音素在内的至少一个或更多个音素或短音节组成的语速计算范围内,基于所述真实话音音素边界确定的相应音素的所述真实话音音素长度的总和与所述语速计算范围中的音素或短音节的数量来计算针对要修改的所述音素的所述真实话音韵律信息的语速,并且基于所述规则音素边界确定的相应音素的所述规则音素长度的总和与所述语速计算范围中的音素或短音节的数量来计算针对要修改的所述音素的所述规则韵律信息的语速,以及计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率,作为所述语速比。优选的是,所述音素边界重置部基于所述规则韵律信息中的各所述音素的所述规则音素长度和所述语速比检测部计算出的所述语速比来计算包括要修改的所述音素或所述音素串的所述部分中的修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话音音素边界,以使所述部分中的每一个真实话音音素长度变为所述修改后的音素长度,由此,修改所述真实话音韵律信息。
利用上述构造,所述语速比检测部在语速计算范围内,基于各音素的所述真实话音音素长度的总和与所述语速计算范围中的音素或短音节的数量来计算针对要修改的所述音素的所述真实话音韵律信息的语速。所述语速比检测部还在所述语速计算范围内,基于各音素的所述规则音素长度的总和与所述语速计算范围中的音素或短音节的数量来计算针对要修改的所述音素的所述规则韵律信息的语速。而且,所述语速比检测部计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率,作为所述语速比。所述音素边界重置部基于每一个所述音素的所述规则音素长度和计算出的所述语速比来计算所述部分中的修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话音音素边界,以使所述部分中的每一个真实话音音素长度变为所述修改后的音素长度,由此修改所述真实话音韵律信息。按这种方式,因为将所述语速比应用至局部恰当的所述规则音素长度,所以修改的真实话音韵律信息总体上接近于真实话音中的发声。换句话说,修改的真实话音韵律信息是其中因再现节奏而造成人真实话音趋于改变的韵律信息。结果,可以修改从人类发声中错误地提取的所述真实话音韵律信息而不会减损人真实话音的自然性和表达性并且不会费时费力。
优选的是,根据本发明的韵律修改装置还包括:音素长度比计算部,该音素长度比计算部计算所述真实话音音素边界确定的各音素的所述真实话音音素长度与所述规则音素边界确定的所述音素的所述规则音素长度之间的比率,作为所述真实话音韵律信息中的包括要修改的所述音素或所述音素串的所述部分中的所述音素的音素长度比;和语速比计算部,该语速比计算部平滑所音素长度比计算部计算出的所述音素长度比,由此,计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率,作为所述语速比。优选的是,所述音素边界重置部基于所述规则韵律信息中的所述音素的所述规则音素长度和所述语速比计算部计算出的所述语速比来计算包括要修改的所述音素或所述音素串的所述部分中的修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话音音素边界,以使所述部分中的每一个真实话音音素长度变为所述修改后的音素长度,由此修改所述真实话音韵律信息。
利用上述构造,所述音素长度比计算部计算所述真实话音音素边界确定的各音素的所述真实话音音素长度与所述规则音素边界确定的所述音素的所述规则音素长度之间的比率,作为所述部分中的所述音素的音素长度比。所述语速比计算部平滑计算出的所述音素长度比,由此,计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率,作为所述语速比。所述音素边界重置部基于所述规则韵律信息的所述音素的所述规则音素长度和计算出的所述语速比来计算所述部分中的修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话音音素边界,以使所述部分中的每一个真实话音音素长度变为所述修改后的音素长度,由此修改所述真实话音韵律信息。按这种方式,因为将所述语速比应用至局部恰当的所述规则音素长度,所以修改后的真实话音韵律信息总体上接近于真实话音中的发声。换句话说,修改后的真实话音韵律信息是其中因再现节奏而造成人类真实话音趋于改变的韵律信息。结果,可以修改从人类发声中错误地提取的所述真实话音韵律信息而不会减损人真实话音的自然性和表达性并且不会费时费力。
优选的是,根据本发明的韵律修改装置包括:真实话音韵律存储部,该真实话音韵律存储部存储所述真实话音韵律输入部接收到的所述真实话音韵律信息或所述真实话音韵律修改部修改的所述真实话音韵律信息;和会聚判断部,该会聚判断部在所述真实话音韵律修改部修改的所述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之差不小于阈值时,在所述真实话音韵律存储部中写入所述真实话音韵律修改部修改的所述真实话音韵律信息并指令所述真实话音韵律修改部修改所述真实话音韵律信息,并且在所述真实话音韵律修改部修改的所述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之差小于所述阈值时,输出通过所述真实话音韵律修改部修改的所述真实话音韵律信息。
利用上述构造,所述会聚判断部判断所述真实话音韵律修改部修改的所述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之差是否小于阈值。如果所述差不小于所述阈值,则所述会聚判断部在所述真实话音韵律存储部中写入所述真实话音韵律修改部修改的所述真实话音韵律信息并指令所述真实话音韵律修改部修改所述真实话音韵律信息。另一方面,如果所述差小于所述阈值,则所述会聚判断部输出通过所述真实话音韵律修改部修改的所述真实话音韵律信息。结果,所述会聚判断部可以输出其中所述真实话音音素边界更接近于实际真实话音音素边界的所述真实话音韵律信息。
根据本发明的GUI装置允许编辑经上述韵律修改装置修改的所述真实话音韵律信息。
利用上述构造,所述GUI装置允许编辑经所述韵律修改装置修改的所述真实话音韵律信息。因为所述GUI装置编辑所述韵律修改装置修改的所述真实话音韵律信息,所以管理者例如可以针对所述真实话音韵律信息进行精细调节。
根据本发明的语音合成器输出基于经上述韵律修改装置修改的所述真实话音韵律信息所生成的合成语音。
利用上述构造,所述语音合成器可以输出基于所述韵律修改装置修改的所述真实话音韵律信息所生成的合成语音。
根据本发明的语音合成器输出基于通过上述GUI装置编辑的所述真实话音韵律信息所生成的合成语音。
利用上述构造,所述语音合成器可以输出基于通过所述GUI装置编辑的所述真实话音韵律信息所生成的合成语音。
为了实现上述目标,提供了一种根据本发明的韵律修改方法,其包括以下步骤:真实话音韵律输入操作步骤,在该真实话音韵律输入操作步骤中,设置在计算机中的真实话音韵律输入部接收从人类发声中提取的真实话音韵律信息;规则韵律生成操作步骤,在该规则韵律生成操作步骤中,设置在所述计算机中的规则韵律输生成部针对所述真实话音韵律信息中的至少包括要修改的音素或音素串在内的部分,利用表示人类发声中的规则或统计音素长度的数据来生成规则韵律信息,该规则韵律信息具有确定音素之间的边界的规则音素边界和音素的规则音素长度;以及真实话音韵律修改操作步骤,在该真实话音韵律修改操作步骤中,设置在所述计算机中的真实话音韵律修改部利用在所述规则韵律生成操作步骤中生成的所述规则韵律信息,重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长度,由此,修改所述真实话音韵律信息。
为了实现上述目标,提供了一种存储有根据本发明的韵律修改程序的记录介质,该韵律修改程序允许计算机执行以下处理:真实话音韵律输入处理,该真实话音韵律输入处理接收从人类发声中提取的真实话音韵律信息;规则韵律生成处理,该规则韵律生成处理针对所述真实话音韵律信息中的至少包括要修改的音素或音素串在内的部分,利用表示人类发声中的规则或统计音素长度的数据来生成规则韵律信息,该规则韵律信息具有确定音素之间的边界的规则音素边界和音素的规则音素长度;以及真实话音韵律修改处理,该真实话音韵律修改处理利用在所述规则韵律生成处理中生成的所述规则韵律信息,重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长度,由此,修改所述真实话音韵律信息。
根据本发明的韵律修改方法和存储有韵律修改程序的记录介质提供了和上述韵律修改装置的效果相同的效果。
附图说明
图1是示出了根据本发明的实施方式1的韵律修改系统的示意构造。
图2是示出了韵律修改系统中的真实话音韵律提取部提取的真实话音韵律信息的示例的概念图。
图3是示出了韵律修改系统中的规则韵律生成部生成的规则韵律信息的示例的概念图。
图4是示出了经韵律修改系统中的音素边界重置部修改的真实话音韵律信息的示例的概念图。
图5是示出了韵律修改系统的修改实施例中的示意构造的框图。
图6是示出了韵律修改系统的修改实施例中的示意构造的框图。
图7是示出了韵律修改系统中的韵律修改装置的操作的实施例的流程图。
图8是用于说明各音素与该音素的音素长度比之间的关系的图形。
图9是示出了根据本发明的实施方式2的韵律修改系统的示意构造的框图。
图10是示出了韵律修改系统中的韵律修改装置的操作的实施例的流程图。
图11是示出了根据本发明的实施方式3的韵律修改系统的示意构造的框图。
图12是用于说明在韵律修改系统中的真实话音韵律提取部所提取的真实话音韵律信息中的各音素与该音素的真实话音音素长度之间的关系的图形。
图13用于说明在韵律修改系统中的规则韵律生成部所生成的规则韵律信息中的各音素与该音素的规则音素长度之间的关系的图形。
图14是用于说明各音素与该音素的音素长度比之间的关系的图形。
图15是用于说明各音素与各经平滑音素的音素长度比之间的关系的图形。
图16是用于说明经韵律修改系统中的音素边界重置部修改的真实话音韵律信息中的各音素与该音素的真实话音音素长度之间的关系的图形。
图17是示出了韵律修改系统中的韵律修改装置的操作的实施例的流程图。
图18是示出了根据本发明的实施方式4的韵律修改系统的示意构造的框图。
图19是示出了根据本发明的实施方式5的韵律修改系统的示意构造的框图。
图20是示出了在韵律修改系统中的GUI装置的屏幕上显示的示例的概念图。
具体实施方式
下文中,参照附图,通过更具体的实施方式对本发明进行详细说明。
[实施方式1]
图1是示出了根据当前实施方式的韵律修改系统1的示意构造的方框图。根据本实施方式的韵律修改系统1包括韵律提取器2和韵律修改装置3。
在对韵律修改装置3的详细构造进行说明之前,对韵律提取器2的构造简要说明如下。
韵律提取器2包括:发声输入部21、字符串输入部22、以及真实话音韵律提取部23。该发声输入部21、字符串输入部22以及真实话音韵律提取部23还可由计算机的CPU根据用于实现这些部件的功能的程序进行操作来具体实现。
发声输入部21具有接收人类发声的功能,并且例如由麦克风或模拟-数字转换器构成。在当前实施方式中,假定发声输入部21接收了人类发声“雨が(“amega”)”,发声输入部21将接收到的人发声转换成可以由计算机处理的数字语音数据。发声输入部21将获得的语音数据输出至真实话音韵律提取部23。发声输入部21可以直接接收记录在诸如CD(光盘)和MD(迷你盘)的记录介质上的数字语音数据、经由有线或无线通信网络发等送来的数字语音数据等、以及通过播放预先记录在记录介质上的人类发声所获取的模拟语音。针对接收到的语音数据被压缩的情况,发声输入部21可以具有解压已压缩语音数据的功能。
字符串输入部22具有接收表示发声输入部21接收到的真实话音中的发声的内容的字符串(文本)的功能。在当前实施方式中,字符串输入部22接收唯一地标识真实话音中的发声的内容的这种字符串。例如,字符串由日语假名表字符、方日语字符、字母表等组成,如同“アメが”。字符串输入部22将接收到的字符串例如转换成按如同“AmEgA”的音素单位表达的字符串数据。字符串输入部22将获取的字符串数据输出至真实话音韵律提取部23和韵律修改装置3。字符串输入部22还接收并不唯一地标识发声的内容的字符串。例如,该字符串由混合汉语字符和日语假名表字符组成,如同“雨が”。接着,字符串输入部22可以执行针对接收到的字符串的语素字素分析,并且基于语素字素分析的结果将该字符串转换成按音素单位表达的字符串数据。
真实话音韵律提取部23基于从字符串输入部22输出的字符串数据,从发声输入部21输出的语音数据中提取真实话音韵律信息。具体来说,真实话音韵律提取部23从发声输入部21输出的语音数据中提取确定诸如话音音调、语调、节奏(rhythm)等的讲话方式的真实话音韵律信息。然而,在当前实施方式中,为便于说明,假定真实话音韵律提取部23仅提取关于节奏的真实话音韵律信息。在此应注意到,节奏指一系列音素和它们的音素长度。更具体地说,真实话音韵律提取部23针对真实话音的各音素设置音素边界和音素长度,由此,从语音数据中提取真实话音韵律信息。在此应注意到,音素指在任意单独语言中区别彼此含义的最小单位话音。针对各音素设置音素边界可以由确认语音波形的人人工地、或利用DP匹配、HMM等自动地执行。这里,设置方法没有被特别限制。
图2是示出了真实话音韵律提取部23提取的真实话音韵律信息的示例的概念图。在图2所示的示例中,按语音波形W的形式表达语音数据。L1到L6中的每一个都表示针对真实话音的各音素设置的音素边界(下文中,称为“真实话音音素边界”)。L1与L2之间的部分对应于音素“A”的真实话音音素长度V1。L2与L3之间的部分对应于音素“m”的真实话音音素长度V2。L3与L4之间的部分对应于音素“E”的真实话音音素长度V3。L4与L5之间的部分对应于音素“g”的真实话音音素长度V4。L5与L6之间的部分对应于音素“A”的真实话音音素长度V5。即,从发声输入部21输出的语音数据是表示“雨が”的数据。V表示总真实话音音素长度,作为相应真实话音音素长度V1到V5的总和。
这里,假定真实话音音素边界L4因类似声音和噪声而被错误较大地设置。换句话说,假定真实话音韵律提取部23错误地提取了韵律信息。而且,假定在实际发声中,真实话音音素边界L4应当正确地定位在真实话音音素边界C4处。因为错误地提取了韵律信息,所以音素“E”的真实话音音素长度V3变得比实际发声的真实话音音素长度(L3与C4之间的部分)短。而且,音素“g”的真实话音音素长度V4变得比实际发声的真实话音音素长度(C4与L5之间的部分)长。从而,当利用图2所示真实话音韵律信息生成合成语音时,合成语音在音素“E”和“g”的部分中具有不自然节奏。
[韵律修改装置的构造]
韵律修改装置3包括:真实话音韵律输入部31、修改部分确定部32、语速检测部33、规则韵律生成部34、真实话音韵律修改部35、以及真实话音韵律输出部36。
真实话音韵律输入部31接收从真实话音韵律提取部23输出的真实话音韵律信息。真实话音韵律输入部31将接收到的真实话音韵律信息输出至修改部分确定部32、语速检测部33、以及真实话音韵律修改部35。
基于从字符串输入部22输出的字符串数据或从真实话音韵律输入部31输出的真实话音韵律信息,修改部分确定部32确定从人类发声提取的真实话音韵律信息中的很可能是错误地提取出的真实话音韵律信息部分,作为真实话音韵律信息的要修改的修改部分。例如,在基于从字符串输入部22输出的字符串数据确定修改部分的情况下,修改部分确定部32将从无声或非发话音(unvoiced sound)与发话音之间的边界到随后的发话音与无声或非发话音之间的边界的部分确定为修改部分。按这种方式,当发话音与非发话音之间边界(在该处,不太可能错误地提取真实话音韵律信息)被设置为修改部分的各端部时,可以以更准确地执行修改。在修改部分确定部32基于真实话音韵律信息确定修改部分的情况下,即,在基于从真实话音韵律信息中提取的音素串确定修改部分的情况下,修改部分确定部32不必接收来自字符串输入部22的字符串数据。因而,在这种情况下,不需要图1中的从字符串输入部22到修改部分确定部32的箭头。
在当前实施方式中,假定修改部分确定部32将修改部分确定为由基于从字符串输入部22输出的字符串数据“AmEgA”中的五个连续音素“A”、“m”、“E”、“g”以及“A”组成的部分。因而,在当前实施方式中,修改部分确定部32将确定的修改部分“AmEgA”输出至语速检测部33、规则韵律生成部34、以及真实话音韵律修改部35。
在上述示例中,修改部分确定部32将整个输入音素确定为修改部分。然而,修改部分确定部32例如可以将表示“雨”的音素“AmE”任意地确定为修改部分。即,修改部分确定部32可以将被假定为是错误地提取的真实话音韵律信息的任何数量的任意部分确定为修改部分。例如,修改部分确定部32可以将修改部分确定为真实话音韵律信息的很可能是被错误地提取的部分,如连续元音部分、包括缩短音的连续发话音部分等。而且,如果假定没有错误地提取真实话音韵律信息,则修改部分确定部32不必确定出修改部分。修改部分确定部32可以包括接收韵律修改系统1的管理者确定的修改部分的修改部分指定部,该修改部分指定部可以接收韵律修改系统1的管理者指定的修改部分。
语速检测部33在从真实话音韵律输入部31输出的真实话音韵律信息中检测从修改部分确定部32输出的修改部分中的语音的速率。为此,语速检测部33包括:总真实话音音素长度计算部33a、短音节计算部33b、以及语速计算部33c。
总真实话音音素长度计算部33a在从真实话音韵律输入部31输出的真实话音韵律信息中计算从修改部分确定部32输出的修改部分中的总真实话音音素长度。在当前实施方式中,因为修改部分是“AmEgA”,所以总真实话音音素长度计算部33a计算出的总真实话音音素长度V是相应真实话音音素长度V1到V5的总和。总真实话音音素长度计算部33a将计算出的总真实话音音素长度输出至语速计算部33c。
短音节计数部33b对从修改部分确定部32输出的修改部分中包括的短音节(mora)的总数量进行计数。在当前实施方式中,因为从修改部分确定部32输出的修改部分是“AmEgA”,所以短音节计数部33b将针对“a”、“me”以及“ga”的三个短音节计数为短音节的总数。在此应注意到,短音节指具有特定音位时长的话音的子句单位。短音节计数部33b将计数出的短音节总数输出至语速比计算部33c。
语速计算部33c基于从总真实话音音素长度计算部33a输出的修改部分中的总真实话音音素长度和从短音节计数部33b输出的修改部分中的短音节的总数来计算语音的速率。更具体地说,语速计算部33c采用通过将总真实话音音素长度除以短音节的总数所获取的值的倒数,由此,将语音的速率计算为每秒钟短音节数。在当前实施方式中,语速计算部33c计算出语速为3/V。语速计算部33c将计算出的语速输出至规则韵律生成部34,作为语速信息。
针对至少包括从修改部分确定部32输出的修改部分“AmEgA”的部分,规则韵律生成部34利用表示与从语速检测部33输出的修改部分中的语速相同或大致相同的语速对应的人类发声中的规则的或统计出的音素长度的数据,来设置音素长度和用于确定音素之间的边界的音素边界,由此生成用于修改部分的规则韵律信息。为此,规则韵律生成部34包括音素长度表34a,该音素长度表34a存储有表示与语速相关联的人类发声中的规则的或统计出的音素长度的数据。例如,音素长度表34a按日语语音次序存储有表示音素“A”的平均音素长度的数据、表示音素“I”的平均音素长度的数据、表示音素“U”的平均音素长度的数据、…。这些数据中的每一个数据都和语速相关联,并且音素长度表34a存储有与多个语速有关的数据。代替音素长度表34a地,规则韵律生成部34可以具有根据语速生成表示音素长度的数据的功能。表示音素长度的数据可以通过分析由一个人发出的真实话音或者由多个人发出的真实话音来获取。虽然规则韵律信息是统计学上恰当的韵律信息,但这种信息是平均数据,由此,与真实话音韵律信息相比,表达性不足(节奏变化较小)。
图3是示出了规则韵律生成部34生成的规则韵律信息的示例的概念图。B1到B6中的每一个都表示针对修改部分中的各音素设置的音素边界(下文中,称为“规则音素边界”)。B1与B2之间的部分对应于音素“A”的规则音素长度R1。B2与B3之间的部分对应于音素“m”的规则音素长度R2。B3与B4之间的部分对应于音素“E”的规则音素长度R3。B4与B5之间的部分对应于音素“g”的规则音素长度R4。B5与B6之间的部分对应于音素“A”的规则音素长度R5。R表示总规则音素长度,作为相应规则音素长度R1到R5的总和。
在当前实施方式中,假定音素“A”的规则音素长度R1为“120”毫秒、音素“m”的规则音素长度R2为“70”毫秒、音素“E”的规则音素长度R3为“150”毫秒、音素“g”的规则音素长度R4为“60”毫秒,而音素“A”的规则音素长度R5为“140”毫秒。规则韵律生成部34将生成的规则韵律信息输出至真实话音韵律修改部35。
真实话音韵律修改部35利用从规则韵律生成部34输出的规则韵律信息重置真实话音韵律信息的真实话音音素边界,以使修改部分中的真实话音韵律信息的真实话音音素边界接近于实际真实话音音素边界,由此,修改真实话音韵律信息。为此,真实话音韵律修改部35包括规则音素长度比计算部35a和音素边界重置部35b。
规则音素长度比计算部35a计算从规则韵律生成部34输出的规则韵律信息的各规则音素长度比。在当前实施方式中,规则音素长度比计算部35a最初采用音素“A”的规则音素长度R1,即,“120”毫秒,作为基准规则音素长度比“1”。在这种情况下,音素“m”的规则音素长度比为R2/R1,音素“E”的规则音素长度比为R3/R1,音素“g”的规则音素长度比为R4/R1,而音素“A”的规则音素长度比为R4/R1。换句话说,规则音素长度比计算部35a计算出音素“A”的规则音素长度比“1”,音素“m”的规则音素长度比“0.58”,音素“E”的规则音素长度比“1.25”,音素“g”的规则音素长度比“0.5”、以及音素“A”的规则音素长度比“1.17”。在当前实施方式中,将各规则音素长度比计算成两个小数位。从而,规则韵律信息的相应规则音素长度之比为“1∶0.58∶1.25∶0.5∶1.17”。规则音素长度比计算部35a将计算出的相应规则音素长度之比输出至音素边界重置部35b。
音素边界重置部35b重置真实话音韵律信息的真实话音音素边界,以使修改部分中的相应真实话音音素长度的总和根据修改部分中的相应规则音素长度比分界,由此,修改真实话音韵律信息。在当前实施方式中,因为修改部分涉及五个音素“A”、“m”、“E”、“g”以及“A”,所以音素边界重置部35b根据相应规则音素长度之比“1∶0.58∶1.25∶0.5∶1.17”划分总真实话音音素长度V,以重置真实话音音素边界L2到L5,由此,修改真实话音韵律信息。而且,还可以通过获取修改过的音素长度(其为以规则音素长度比进行划分的结果)和从真实话音韵律输入部31输出的未经修改的音素长度的任意加权平均值来获取各音素的最终音素长度。可以更多地加权修改过的音素长度,以便确保更高稳定性,或者另选的是,可以更多地加权未修改音素长度,以便确保实际发声的节奏。按这种方式,可以获取希望的修改结果。
图4是示出了经音素边界重置部35b修改的真实话音韵律信息的实施例的概念图。mL2到mL5中的每一个都表示重置真实话音音素边界。L1与mL2之间的部分对应于音素“A”的修改后真实话音音素长度mV1。mL2与mL3之间的部分对应于音素“m”的修改后真实话音音素长度mV2。mL3与mL4之间的部分对应于音素“E”的修改后真实话音音素长度mV3。mL4与mL5之间的部分对应于音素“g”的修改后真实话音音素长度mV4。mL5与L6之间的部分对应于音素“A”的修改后真实话音音素长度mV5。与图2所示真实话音音素边界L4相比,图4所示真实话音音素边界mL4接近于实际真实话音音素边界C4。这是因为修改后的真实话音韵律信息总体上基于修改部分中的相应真实话音音素长度的总和,而局部地采用了规则的或统计学上恰当的规则韵律信息的缘故。音素边界重置部35b将修改的真实话音韵律信息输出至真实话音韵律输出部36。
真实话音韵律输出部36将从音素边界重置部35b输出的真实话音韵律信息输出至真实话音韵律修改装置3的外部。例如,从真实话音韵律输出部36输出的真实话音韵律信息被语音合成器使用,以生成和输出合成语音。因为从真实话音韵律输出部36输出的真实话音韵律信息已经修正了其提取中的错误,所以利用从真实话音韵律输出部36输出的真实话音韵律信息生成的合成语音和人类语音一样自然和富于表达。代替被语音合成器使用来生成合成语音地或除了被语音合成器使用来生成合成语音以外,从真实话音韵律输出部36输出的真实话音韵律信息还可以被韵律词典组织装置使用,以组织用于语音合成的韵律词典。而且,真实话音韵律信息可以被波形词典组织装置使用,以组织用于语音合成的波形词典。而且,真实话音韵律信息可以被声学模型生成装置使用,以生成用于语音识别的声学模型。即,不存在针对怎样使用从真实话音韵律输出部36输出的真实话音韵律信息的特别限制。
目前,韵律修改装置3还通过在诸如个人计算机的任意计算机上安装程序来实现。换句话说,真实话音韵律输入部31、修改部分确定部32、语速检测部33、规则韵律生成部34、真实话音韵律修改部35以及真实话音韵律输出部36可由计算机的CPU根据用于实现这些部件的功能的程序进行操作来具体实现。就此而言,用于实现真实话音韵律输入部31、修改部分确定部32、语速检测部33、规则韵律生成部34、真实话音韵律修改部35以及真实话音韵律输出部36的功能的程序或存储有这种程序的记录介质也是本发明的实施方式。
韵律修改系统1的构造不限于上述图1所示构造。例如,还可以提供韵律修改系统1a(参见图5),该韵律修改系统1a包括代替韵律修改部3中的语速检测部33和真实话音韵律修改部35的语速比检测部37和真实话音韵律修改部38。此外,还可以提供韵律修改系统1b(参见图6),该韵律修改系统1b包括代替韵律提取器2中的字符串输入部22的语音识别部24。
图5是示出了韵律修改系统1a的示意构造的框图,该韵律修改系统1a在韵律修改装置3中包括代替图1所示语速检测部33和真实话音韵律修改部35的语速比检测部37和真实话音韵律修改部38。在图5中,具有和图1中的组件的功能相同的功能的组件用相同标号指示。语速比检测部37包括总真实话音音素长度计算部37a、总规则音素长度计算部37b、以及语速比计算部37c。因为图5所示韵律修改装置3不包括图1所示语速检测部33,所以规则韵律输出部34不接收语速信息。由此,图5所示规则韵律生成部34仅必须生成与任意语速对应的规则韵律信息。然而,更优选的是,规则韵律生成部34可以利用与各种情况下的人语音的平均速率对应的音素长度数据来生成规则韵律信息。
总真实话音音素长度计算部37a计算修改部分中的真实话音韵律信息的相应真实话音音素长度的总和。这里,总真实话音音素长度计算部37a计算出总真实话音音素长度V,其是相应真实话音音素长度V1到V5的总和(参见图2)。总规则音素长度计算部37b计算修改部分中的规则韵律信息的相应规则音素长度的总和。这里,总规则音素长度计算部37b计算出总规则音素长度R,其是相应规则音素长度R1到R5的总和(参见图3)。语速比计算部37c计算总真实话音音素长度计算部37a计算出的真实话音音素长度的总和与总规则音素长度计算部37b计算出的规则音素长度的总和之比的倒数,作为语速比。这里,语速比计算部37c计算出语速比H为R/V。
真实话音韵律修改部38包括音素边界重置部38a。音素边界重置部38a重置真实话音音素边界L2到L6,以使修改部分中的相应真实话音音素长度变为相应音素长度R1/H、R2/H、…R5/H,其是通过将修改部分中的相应规则音素长度R1到R5分别乘以作为语速比计算部37c计算出的语速比H的倒数的1/H获取的,由此,修改真实话音韵律信息。结果,经音素边界重置部38a修改的真实话音韵律信息如图4所示,其与图1所示的音素边界重置部35b修改的真实话音韵律信息一样。换句话说,尽管语速比检测部37和真实话音韵律修改部38以与真实话音韵律修改部35的方式不同的方式修改真实话音韵律信息,但可以获取相同的修改结果。
在图5所示韵律修改系统1a中,可以在修改部分确定部32与规则韵律生成部34之间设置图1所示语速检测部33,以使规则韵律输生成部34可以生成与和真实话音韵律信息的语速相同或大致相同的语速对应的规则韵律信息,并将生成的规则韵律信息输出至语速比检测部37。
图6是示出了在韵律提取部2中包括语音识别部24的韵律修改系统1b的示意构造的框图。在图6中,具有和图1的组件的功能相同的功能的组件用相同标号来指示。语音识别部24具有识别发声的内容的功能。为此,语音识别部24最初将从发声输入部21输出的语音数据转换成特征值。利用获取的特征值,语音识别部24参照关于声学模型和语言模型(两种都未示出)的信息,输出用于表示输入的真实话音的内容的最可能词汇或字符串,作为识别的结果。语音识别部24将识别结果输出至真实话音韵律提取部23和韵律修改装置3。
如上所述,即使韵律修改系统1b不包括如在图1所示的韵律修改系统1中设置的用于接收表示真实话音中的发声内容的字符串“雨が”的字符串输入部22,语音识别部24也可以识别发声的内容,并将表示“雨が”的识别结果输出至真实话音韵律提取部23和韵律修改装置3。
[韵律修改装置的操作]
接下来,参照图7,对具有上述构造的韵律修改装置3的操作进行说明。
图7是示出了韵律修改装置3的操作的实施例的流程图。如图7所示,真实话音韵律输入部31接收从真实话音韵律提取部23输出的真实话音韵律信息(Op 1)。
接着,基于从字符串输入部22输出的字符串或在Op 1中接收到的真实话音韵律信息,修改部分确定部32确定从人类发声中提取的真实话音韵律信息中的很可能是错误地提取的真实话音韵律信息的部分,作为真实话音韵律信息的要修改的修改部分(Op 2)。语速检测部33计算在Op 1中接收到的真实话音韵律信息中的在Op 2中确定的修改部分内的语速(Op 3)。
此后,规则韵律生成部34利用表示与和Op 3中计算出的语速相同或大致相同的语速对应的人类真实话音中的规则的或统计出的音素长度的数据设置确定音素之间的边界的规则音素边界,由此,生成规则韵律信息(Op 4)。
此后,规则音素长度比计算部35a计算在Op 4中生成的规则韵律信息的相应规则音素长度之比(Op 5)。音素边界重置部35b重置真实话音韵律信息的真实话音音素边界,以使修改部分中的相应真实话音音素长度的总和根据Op 5中计算出的相应规则音素长度之比来分界,由此,修改真实话音韵律信息(Op 6)。真实话音韵律输出部36将Op 6中修改的真实话音韵律信息输出至真实话音韵律修改装置3的外部(Op 7)。
如上所述,根据当前实施方式的韵律修改装置3,在要修改的音素或音素串的部分中,音素边界重置部35b基于规则韵律信息中的各音素的规则音素长度和作为真实话音韵律信息的语速与规则韵律信息的语速之间的比率的语速比,重置真实话音韵律信息中的要修改的音素或音素串的真实话音音素边界,由此,修改真实话音韵律信息。换句话说,经修改的真实话音韵律信息总体上基于修改部分中的相应真实话音音素边界的总和,并且局部地具有根据统计学上恰当的规则音素长度比重置了的真实话音音素边界。结果,可以修改从人类发声中错误地提取的真实话音韵律信息而不会减损人类真实话音的自然性和可表达性并且不会费时费力。
下文中,参照图8A到8C,通过具体实施例的方式,对根据当前实施方式的韵律修改装置3的操作进行说明。图8A是用于说明图2所示的真实话音韵律信息的各音素与该音素的真实话音音素长度比之间的关系的图形。即,图8A所示标记o分别表示音素“A”、“m”、“E”、“g”以及“A”与真实话音韵律提取部23提取的真实话音韵律信息中的开始音素“A”的真实话音音素长度比。具体来说,音素“A”的真实话音音素长度V1是基准真实话音音素长度比“1”,音素“m”的真实话音音素长度比是V2/V1,音素“E”的真实话音音素长度比是V3/V1,音素“g”的真实话音音素长度比是V4/V1,而音素“A”的真实话音音素长度比是V5/V1。图8A所示标记◇表示在以实际真实话音音素边界C4定位图2所示真实话音音素边界L4的情况下音素“E”和“g”的真实话音音素长度比。
图8B是用于说明图3所示的规则韵律信息的各音素与该音素的规则音素长度比之间的关系的图形。即,图8B所示标记△分别表示音素“A”、“m”、“E”、“g”以及“A”与规则韵律生成部34生成的规则韵律信息中的开始音素“A”的规则音素长度比。如上所述,相应音素的规则音素长度比为“1∶0.58∶1.25∶0.5∶1.17”。
图8C是用于说明图4所示的真实话音韵律信息的各音素与该各音素的真实话音音素长度比之间的关系的图形。即,图8C所示标记△分别表示音素“A”、“m”、“E”、“g”以及“A”与经音素边界重置部35b修改的真实话音则韵律信息中的开始音素“A”的真实话音音素长度比。如图8C所示,音素“E”和“g”的真实话音音素长度比接近于图8C中标记◇表示的音素“E”和“g”的实际真实话音音素长度比。这是因为修改后的真实话音韵律信息总体上基于修改部分中的相应真实话音音素长度的总和,并且局部地采用统计学上恰当的规则韵律信息的缘故。
[实施方式2]
图9是示出了根据当前实施方式的韵律修改系统10的示意构造的框图。根据当前实施方式的韵律修改系统10包括代替图1所示韵律修改装置3的韵律修改装置4。在图9中,具有和图1中的组件的功能相同的功能的组件用相同标号指示,并且省略对其的详细说明。
[韵律修改装置的构造]
韵律修改装置4包括代替图1所示语速检测部33和真实话音韵律修改部35的语速比检测部41和真实话音韵律修改部42。语速比检测部41和真实话音韵律修改部42还可由计算机的CPU根据用于实现这些部件的功能的程序进行操作来具体实现。
语速比检测部41包括:语速计算范围设置部41a、短音节计数部41b、总真实话音音素长度计算部41c、真实话音语速计算部41d、总规则音素长度计算部41e、规则语速计算部41f、以及语速比计算部41g。
针对从修改部分确定部32输出的修改部分中的各音素,语速计算范围设置部41a设置由包括要修改的音素在内的至少一个或更多个音素或短音节组成的语速计算范围。在当前实施方式中,语速计算范围设置部41a设置分别用于修改部分中的音素“A”、“m”、“E”、“g”以及“A”的语速计算范围K[1]、K[2]、K[3]、K[4]以及K[5]。这里,假定语速计算范围设置部41a针对修改部分中的各音素,设置包括与包括要修改的音素在内的短音节相邻的两个短音节的三个短音节的语速计算范围。然而,语速计算范围设置部41a针对修改部分中的位于呼吸边界的短音节中的各音素,设置与包括要修改的音素在内的短音节相邻的两个短音节的语速计算范围。更具体地说,针对修改部分“AmEgA”中的第二音素“m”要被修改的情况,语速计算范围设置部41a设置具有三个短音节的由五个音素“A”、“m”、“E”、“g”以及“A”组成的语速计算范围K[2]。语速计算范围设置部41a将设置的语速计算范围K[n](n为1或以上的整数)输出至短音节计数部41b、总真实话音音素长度计算部41c,以及总规则音素长度计算部41e。
优选的是,语速计算范围设置部41a根据音素的环境动态地改变语音数据计算范围的设置。例如,语速计算范围设置部41a针对很可能是错误地提取的真实话音韵律信息的部分(如连续发出元音声的部分)中的音素将语速计算范围设置成更宽,而针对不太可能被错误地提取的真实话音韵律信息的部分(如包括发话声与非发话声之间的许多边界的部分)中的音素将语速计算范围设置成更窄。结果,变得可以针对不太可能错误地提取真实话音韵律信息的部分,以真实话音的较高重要性来计算语速,而针对很可能错误地提取的真实话音韵律信息的部分计算更稳定的语速。由此,变得可以计算接近于真实话音的节奏的语速,并且整体上稳定。
短音节计数部41b对从语速计算范围设置部41a输出的语速计算范围中的短音节的总数进行计数。在当前实施方式中,因为语速计算范围被设置成包括与包括要修改的音素在内的短音节相邻的两个短音节的三个短音节,所以短音节计数部41b将短音节的总数计数为3个。然而,如果按呼吸边界定位包括要修改的音素在内的短音节,则短音节计数部41b将短音节的总数计数为两个。短音节计数部41b将计数出的短音节总数输出至真实话音语速计算部41d和规则语速计算部41f。
总真实话音音素长度计算部41c计算真实话音韵律输入部31输出的真实话音韵律信息中,在语速计算范围设置部41a输出的语速计算范围内的总真实话音音素长度。在当前实施方式中,总真实话音音素长度计算部41c针对语速计算范围K[1]、K[2]、K[3]、K[4]以及K[5]分别计算总真实话音音素长度V[1]、V[2]、V[3]、V[4]以及V[5]。例如,针对语速计算范围是K[2]的情况,总真实话音音素长度计算部41c计算出总真实话音音素长度V为V[2],其是相应真实话音音素长度V1到V5的总和(参见图2)。总真实话音音素长度计算部41c将计算出的总真实话音音素长度V[n]输出至真实话音语速计算部41d。
真实话音语速计算部41d针对真实话音韵律信息中的修改部分中的要修改的音素计算出语速Sv,作为每秒钟发声的短音节数。更具体地说,真实话音语速计算部41d采用通过将从总真实话音音素长度计算部41c输出的总真实话音音素长度除以从短音节计数部41b输出的短音节总数所获取的值的倒数,由此,计算真实话音韵律信息的语速Sv。在当前实施方式中,真实话音语速计算部41d针对V[1]、V[2]、V[3]、V[4]以及V[5]分别计算语速SV[1]、SV[2]、SV[3]、SV[4]以及SV[5]。例如,针对总真实话音音素长度是V[2]的情况,真实话音语速计算部41d计算出语速SV[2]为3/V[2]。真实话音语速计算部41d将计算出的语速SV[n]输出至语速比计算部41g。
总规则音素长度计算部41e按从语速计算范围设置部41a输出的语速计算范围来计算从规则韵律生成部34输出的规则韵律信息中的总规则音素长度。在当前实施方式中,总规则音素长度计算部41e针对语速计算范围K[1]、K[2]、K[3]、K[4]以及K[5]分别计算总规则音素长度R[1]、R[2]、R[3]、R[4]以及R[5]。例如,针对语速计算范围是K[2]的情况,总规则音素长度计算部41e计算出总规则音素长度R为R[2],其是相应规则音素长度R1到R5的总和(参见图3)。总规则音素长度计算部41e将计算出的规则音素长度R[n]输出至规则语速计算部41f。
规则语速计算部41f针对规则韵律信息中的修改部分中的要修改的音素计算出语速SR,作为每秒钟发声的短音节数。更具体地说,规则语速计算部41f采用通过将从总规则音素长度计算部41e输出的总规则音素长度除以从短音节计数部41b输出的短音节总数所获取的值的倒数,由此,计算出规则韵律信息的语速SR。在当前实施方式中,规则语速计算部41f针对总规则音素长度R[1]、R[2]、R[3]、R[4]以及R[5]分别计算语速SR[1]、SR[2]、SR[3]、SR[4]以及SR[5]。例如,针对总规则音素长度是R[2]的情况,规则语速计算部41f计算出语速SR[2]为3/R[2]。规则语速计算部41f将计算出的语速SR[n]输出至语速比计算部41g。
语速比计算部41g计算从规则语速计算部41f输出的语速SR[n]与从真实话音语速计算部41d输出的语速SV[n]之间的比率,作为语速比H′[n]。更具体地说,语速比计算部41g计算出语速SV[n]与语速SR[n]之比,作为语速比H′[n]。换句话说,语速比H′[n]是SV[n]/SR[n]。在当前实施方式中,语速比计算部41g计算出语速比H′[1]为SV[1]/SR[1]、H′[2]为SV[2]/SR[2]、H′[3]为SV[3]/SR[3]、H′[4]为SV[4]/SR[4]以及H′[5]为SV[5]/SR[5]。语速比计算部41g将计算出的语速比H′[n]输出至真实话音韵律修改部42。
真实话音韵律修改部42包括音素边界重置部42a。音素边界重置部42a重置真实话音韵律信息的真实话音音素长度,以使修改部分中的每一个真实话音音素长度变为通过将修改部分中的每一个规则音素长度乘以从语速比检测部41输出的语速比H′[n]的倒数所获取的各音素长度。在当前实施方式中,音素边界重置部42a最初将图3所示相应规则音素长度R1到R5分别乘以从语速比检测部41输出的语速比H′[1]到H′[5]。换句话说,音素“A”的音素长度是R1/H′[1],音素“m”的音素长度是R2/H′[2],音素“E”的音素长度是R3/H′[3],音素“g”的音素长度是R4/H′[4],而音素“A”的音素长度是R5/H′[5]。音素边界重置部42a重置真实话音音素边界L2到L6,以使修改部分中的相应真实话音音素长度V1到V5分别变为如上所述计算出的音素长度R1/H′[1]到R5/H′[5],由此,修改了真实话音韵律信息。结果,修改了真实话音韵律提取部23错误地提取的韵律信息。这是因为由于将用于实现与真实话音的节奏接近的节奏的语速比H′应用到了统计学上恰当的规则韵律信息,所以将真实话音韵律信息修改成整体接近于真实话音的节奏,同时修改了其局部韵律杂乱的缘故。音素边界重置部42a将修改后的真实话音韵律信息输出至真实话音韵律输出部36。
音素边界重置部42a可以通过获取利用语速比H′所修改的音素长度Rn/H′[n]和从真实话音韵律输入部31输出的未修改的音素长度的任意加权平均值,来获取各音素的最终音素长度。可以更多地加权修改后的音素长度,以便确保更高的稳定性,或另选的是,可以更多地加权未修改的音素长度,以便确保实际发声的节奏。按这种方式,可以获取希望的修改结果。
[韵律修改装置的操作]
接下来,参照图10,对具有上述构造的韵律修改装置4的操作进行说明。在图10中,示出和图7中的处理相同的处理的部分用相同标号指示,并且省略了对其的详细说明。
图10是示出了韵律修改装置4的操作的实施例的流程图。图10所示Op 1和Op 2中的操作和图7所示Op 1和Op 2中的操作相同。在图10所示Op 3中,除了规则韵律生成部34没有接收语速信息以外,执行和图7所示Op 4中的操作几乎相同的操作。由此,在图10所示Op 3中,规则韵律生成部34生成与任意语速对应的规则韵律信息。
在Op 3之后,语速计算范围设置部41a针对Op 2中确定的修改部分中的各音素设置由包括要修改的音素在内的一个或更多个音素或短音节组成的语速计算范围(Op 11)。短音节计数部41b对Op 11中设置的语速计算范围中包括的短音节总数进行计数(Op 12)。
接着,总真实话音音素长度计算部41c计算从真实话音韵律输入部31输出的真实话音韵律信息中的在Op 11中设置的语速计算范围内的总真实话音音素长度(Op 13)。真实话音语速计算部41d采用通过将Op 13中计算出的总真实话音音素长度除以Op 12中计算出的短音节的总数所获取的值的倒数,由此,计算真实话音韵律信息的语速SV(Op 14)。
此后,总规则音素长度计算部41e计算Op 3中生成的规则韵律信息中的在Op 11中设置的语速计算范围内的总规则音素长度(Op 15)。规则语速计算部41f采用通过将Op 15中计算出的总规则音素长度除以Op12中计算出的短音节总数所获取的值的倒数,由此,计算出规则韵律信息的语速SR(Op 16)。
此后,语速比计算部41g计算Op 14中计算出的语速SV与Op 16中计算出的语速SR之比作为语速比H′(Op 17)。音素边界重置部42a重置真实话音韵律信息的真实话音音素边界,以使修改部分中的每一个真实话音音素长度变为通过将修改部分中的每一个规则音素长度乘以Op 17中计算出的语速比H′的倒数所获取的各音素长度,由此,修改真实话音韵律信息(Op 18)。
接着,如果音素边界重置部42a完成针对修改部分中的真实话音韵律信息中的所有音素的修改(Op 19中的是),则真实话音韵律输出部36将Op 18中修改过的真实话音韵律信息输出至韵律修改装置4的外部(Op20)。另一方面,如果音素边界重置部42a没有完成针对修改部分中的真实话音韵律信息中的所有音素的修改(Op 19中的否),则处理返回至Op11,跟着针对修改部分中的真实话音韵律信息中的未修改音素重复执行的Op 11到Op 18中的处理。
如上所述,根据当前实施方式中的韵律修改装置4,真实话音语速计算部41d基于相应音素的真实话音音素长度的总和与语速计算范围中的音素或短音节的数量,针对语速计算范围中要修改的各音素计算真实话音韵律信息的语速。而且,规则语速计算部41f基于相应音素的规则音素长度的总和与语速计算范围中的音素或短音节的数量,针对语速计算范围中要修改的各音素,计算规则韵律信息的语速。而且,语速比计算部41g计算真实话音韵律信息的语速与规则韵律信息的语速之间的比率,作为语速比。音素边界重置部42a基于修改部分中的各音素的规则音素长度和计算出的语速比来计算修改后的音素长度,并且重置真实话音韵律信息的真实话音音素长度,以使修改部分中的每一个真实话音音素长度变为修改后的音素长度,由此,修改了真实话音韵律信息。按这种方式,因为将语速比应用至局部恰当的规则音素长度,所以修改后的真实话音韵律信息总体上接近于真实话音中的发声。换句话说,修改后的真实话音韵律信息是其中因再现节奏而造成人真实话音趋于改变的韵律信息。结果,可以修改从人类发声中错误提取的真实话音韵律信息而不会减损人类真实话音的自然性和可表达性并且不会费时费力。
[实施方式3]
图11是示出了根据当前实施方式的韵律修改系统11的示意构造的框图。根据当前实施方式的韵律修改系统11包括代替图1所示的韵律修改装置3的韵律修改装置5。在图11中,具有和图1的组件的功能相同的功能的组件用相同标号指示,并且省略了对其的详细说明。
在当前实施方式中,与实施方式1和2不同,为便于说明,假定真实话音韵律提取部23提取表示“四万十川(shimantogawa)”的真实话音韵律信息。图12是用于说明真实话音韵律提取部23提取的真实话音韵律信息的各音素“sH”、“I”、“m”、“A”、“N”、“t”、“O”、“g”、“A”、“w”以及“A”与各该音素的真实话音音素长度之间的关系的图形。在图12所示示例中,假定确定音素“m”与“A”之间的边界的真实话音音素边界被错误地设置成更大范围。因此,在图12所示示例中,音素“m”的真实话音音素长度变得比实际真实话音音素长度长,而音素“A”的真实话音音素长度变得比实际音素长度短。从而,如果利用图12所示的真实话音韵律信息生成合成语音,则该合成语音在音素“m”和“A”的部分中韵律上不自然。
而且,在当前实施方式中,与实施方式1和2不同,为便于说明,假定字符串输入部22接收表示“シマントガワ”(“shimantogawa”)的字符串,将接收到的字符串转换成字符串数据“sHImANtOgAwA”,并且输出获取的字符串数据。而且,在当前实施方式中,假定修改部分确定部32基于从字符串输入部22输出的字符串数据“sHImANtOgAwA”确定由十一个音素“sH”、“I”、“m”、“A”、“N”、“t”、“O”、“g”、“A”、“w”以及“A”组成的修改部分。因此,在当前实施方式中,规则韵律生成部34生成表示“四万十川”规则韵律信息。图13是用于说明规则韵律生成部34生成的规则韵律信息的各音素“sH”、“I”、“m”、“A”、“N”、“t”、“O”、“g”、“A”、“w”以及“A”与各该音素的规则音素长度之间的关系的图形。虽然图13所示的规则韵律信息是统计学上恰当的韵律信息,但与图12所示真实话音韵律信息相比,这种信息表达不足(节奏变化较少)。
[韵律修改装置的构造]
韵律修改装置5包括代替图1所示的语速检测部33和真实话音韵律修改部35的语速比检测部51和真实话音韵律修改部52。语速比检测部51和真实话音韵律修改部52还可由计算机的CPU根据用于实现这些部件的功能的程序进行的操作来实现。
语速比检测部51包括:音素长度比计算部51a、平滑范围设置部51b、以及语速比计算部51c。
音素长度比设置部51a计算修改部分中的各音素的真实话音音素长度与各该音素的规则音素长度之比,作为音素长度比。在当前实施方式中,音素长度比计算部51a最初计算音素“sH”的真实话音音素长度与该音素的规则音素长度之比,作为音素长度比。接着,音素长度比计算部51a针对剩余音素“I”、“m”、“A”、“N”、“t”、“O”、“g”、“A”、“w”以及“A”重复这种操作。按这种方式,音素长度比计算部51a计算出各音素的音素长度比。图14是用于说明各音素“sH”、“I”、“m”、“A”、“N”、“t”、“O”、“g”、“A”、“w”以及“A”与各该音素的音素长度比之间的关系的图形。音素长度比计算部51a将计算出的各音素长度比输出至平滑范围设置部51b和语速比计算部51c。
平滑范围设置部51b设置平滑范围,即,针对音素长度比计算部51a计算出的各音素长度比进行平滑以计算语速比的范围。在当前实施方式中,假定平滑范围设置部51b将包括其中央处的任意音素的五个音素设置为平滑范围。平滑范围设置部51b将设置的平滑范围输出至语速比计算部51c。
优选的是,平滑范围设置部51b根据音素的环境动态地改变平滑范围的设置。例如,平滑范围设置部51b针对很可能被错误地提取的真实话音韵律信息的部分(如连续发出元音声的部分)中的音素将平滑范围设置成更宽,而针对不太可能被错误地提取的真实话音韵律信息的部分(如包括发话音与非发话音之间的许多边界的部分)中的音素将平滑范围设置成更窄。结果,变得可以针对不太可能错误地提取真实话音韵律信息的部分更重视真实话音地计算语速,而针对很可能错误地提取的真实话音韵律信息的部分计算更稳定的语速。由此,变得可以计算接近于真实话音的节奏的语速,并且整体上稳定。
平滑范围设置部51b可以包括检测音素长度比的变化的变化检测部。这里,变化检测部检测长度比计算部51a计算出的各音素长度比中音素长度比急剧地变大或变小的部分。结果,平滑范围设置部51b可以针对音素长度比急剧地改变的音素将平滑范围设置成更宽。在这种情况下,例如,平滑范围设置部51b可以计算检测到的音素长度比的不同值,以设置与计算出的不同值成比例的值,作为平滑范围。
针对修改部分中的各音素的音素长度比,语速比计算部51c在平滑范围设置部51b设置的平滑范围中平滑各音素长度比,并且计算平滑结果,作为语速比。在当前实施方式中,语速比计算部51c计算平滑范围中的相应音素的音素长度比的平均值,由此,计算出语速比。语速比计算部51c可以计算平滑范围中的相应音素的音素长度比的加权平均值。例如,语速比计算部51c针对很可能错误地提取的真实话音韵律信息的音素,通过将较小的权值分配给该音素的音素长度比,并且针对不太可能错误地提取真实话音韵律信息的音素,通过将较大权值分配给该音素的音素长度比,来计算平滑范围内的相应音素的音素长度比的平均值。图15是用于说明各音素“sH”、“I”、“m”、“A”、“N”、“t”、“O”、“g”、“A”、“w”以及“A”与通过平滑所获取的各该音素的语速比之间的关系的图形(应注意到,图15的图形表示每一个语速比的倒数)。语速计算部51c将通过平滑所获取的语速比输出至真实话音韵律修改部52。
真实话音韵律修改部52包括音素边界重置部52a。音素边界重置部52a重置真实话音韵律信息的真实话音音素边界,以使修改部分中的各音素的真实话音音素长度变为通过将修改部分中的各规则音素长度乘以从语速比计算部51c输出的各音素的语速比的倒数所获取的各音素的音素长度,由此,修改了真实话音韵律信息。在当前实施方式中,音素边界重置部52a最初地将图13所示各音素的规则音素长度乘以图15所示各音素的语速比的倒数。结果,计算出了各音素的修改后的音素长度。音素边界重置部52a重置真实话音音素边界,以使图12所示的各音素的真实话音音素长度变为最近计算出的各音素的修改后的音素长度,由此,修改真实话音韵律信息。图16是用于说明各音素“sH”、“I”、“m”、“A”、“N”、“t”、“O”、“g”、“A”、“w”以及“A”与该音素的修改真实话音音素长度之间的关系的图形。换句话说,图16所示真实话音韵律信息是修改图12所示的错误地提取的韵律信息的结果。这是因为将通过平滑所获取的语速比应用至统计学上恰当的规则韵律信息的缘故。音素边界重置部52a将修改的真实话音韵律信息输出至真实话音韵律输出部36。
[韵律修改装置的操作]
接下来,参照图17,对具有上述构造的韵律修改装置5的操作进行说明。在图17中,示出了和图7的处理相同的处理的部分用相同标号指示,并且省略了对其的详细说明。
图17是示出了韵律修改装置5的操作的实施例的流程图。图17所示Op 1和Op 2中的操作和图7所示Op 1和Op 2中的操作相同。在图17所示Op 3中,除了规则韵律生成部34没有接收语速信息以外,执行和图7所示Op 4中的操作几乎相同的操作。由此,在图17所示Op 3中,规则韵律生成部34生成与任意语速对应的规则韵律信息。
在Op 3之后,音素长度比计算部51a计算修改部分中的各音素的真实话音音素长度与规则音素长度之比,作为音素长度比(Op 21)。平滑范围设置部51b设置平滑范围,即,针对Op 21中计算出的各音素的音素长度比进行平滑以计算语速比的范围(Op 22)。
接着,针对修改部分中的各音素的音素长度比,语速比计算部51c在Op 22中设置的平滑范围内,平滑各音素的音素长度比,并且计算平滑结果,作为语速比(Op 23)。音素边界重置部52a重置真实话音韵律信息的真实话音音素边界,以使修改部分中的各音素的真实话音音素长度变为通过将修改部分中的各规则音素长度乘以Op 23中计算出的各音素的语速比的倒数所获取的各音素的修改后的音素长度,由此,修改了真实话音韵律信息(Op 24)。真实话音韵律输出部36将Op 24中修改的真实话音韵律信息输出至真实话音韵律修改装置5的外部(Op 25)。在图17中,可以针对修改部分中的各音素重复Op 22到Op 24中的处理。
如上所述,根据当前实施方式的韵律修改装置5,音素长度比计算部51a计算真实话音音素边界确定的各音素的真实话音音素长度与规则音素边界确定的各音素的规则音素长度之比,作为修改部分中的各音素的音素长度比。语速比计算部51c平滑计算出的各音素长度比,由此,计算出真实话音韵律信息的语速与规则韵律信息的语速之间的比率,作为语速比。音素边界重置部52a基于规则韵律信息中的各音素的规则音素长度和计算出的修改部分中的语速比来计算修改后的音素长度,并且重置真实话音韵律信息的真实话音音素边界,以使修改部分中的各真实话音音素长度变为修改后的音素长度,由此,修改了真实话音韵律信息。按这种方式,因为将语速比应用至局部恰当的规则音素长度,所以修改后的真实话音韵律信息总体上接近于真实话音中的发声。换句话说,修改后的真实话音韵律信息是其中因再现节奏而造成人类真实话音趋于改变的韵律信息。结果,可以修改从人类发声中错误地提取的真实话音韵律信息而不会减损人类真实话音的自然性和可表达性并且不会费时费力。
[实施方式4]
图18是示出了根据当前实施方式的韵律修改系统12的示意构造的框图。根据当前实施方式的韵律修改系统12包括代替图9所示的韵律修改装置4的韵律修改装置6。在图18中,具有和图9中的组件的功能相同的功能的组件用相同标号指示,并且省略了对其的详细说明。而且,参照图18所示语速比检测部14,其构成组件41a到41g中的每一个都未示出。参照图18所示的真实话音韵律修改部42,未示出音素边界重置部42a。
韵律修改装置6除了图9所示的韵律修改装置4的组件以外,还包括真实话音韵律存储部61和会聚判断部62。会聚判断部62还可由计算机的CPU根据用于实现该部件的功能的程序进行操作来实现。
真实话音韵律存储部61存储真实话音韵律输入部31接收到的真实话音韵律信息或真实话音韵律修改部42修改后的真实话音韵律信息。真实话音韵律存储部61最初存储从真实话音韵律输入部31输出的真实话音韵律信息。
会聚判断部62判断从真实话音韵律修改部42输出的真实话音韵律信息的真实话音音素长度与存储在真实话音韵律存储部61中的未修改真实话音韵律信息的真实话音音素长度之差是否不小于阈值。例如,会聚判断部62对单独真实话音音素长度的差进行求和,并且判断其总和是否不小于阈值。另选的是,例如,会聚判断部62采用针对单独真实话音音素长度的差中的最大差,作为代表值,并且判断该代表值是否不小于阈值。如果该差不小于阈值,则会聚判断部62将从真实话音韵律修改部42输出的真实话音韵律信息写入真实韵律存储部61中。结果,将经真实话音韵律修改部42修改的真实话音韵律信息最新地存储在真实话音韵律存储部61中。在这种情况下,会聚判断部62指令语速比检测部41再次计算语速比。而且,会聚判断部62指令真实话音韵律修改部42再次修改存储在真实话音韵律存储部61中的真实话音韵律信息。这时,会聚判断部62可以将差的结果输出至修改部分确定部32,并且修改部分确定部32仅可以确定大的差的范围,作为新的修改部分。结果,仅主要错误部分可以被考虑修改。
当接收到来自会聚判断部62的指令时,语速比检测部41读出存储在真实话音韵律存储部16中的真实话音韵律信息,并且计算修改部分中的新的语速比。真实话音韵律修改部42在接收到来自会聚判断部62的指令时,读出存储在真实话音韵律存储部61中的真实话音韵律信息,并且利用语速比检测部41计算出的新的语速比来修改真实话音韵律信息。
另一方面,如果所述差小于所述阈值,则会聚判断部62将从真实话音韵律修改部42输出的真实话音韵律信息输出至真实话音韵律输出部36。所述阈值被预先记录在设置在会聚判断部62中的存储器中,而其不限于此。例如,该阈值可以被韵律修改系统12的管理者被设置为恰当的。另选的是,该阈值可以根据音素串改变。
如上所述,根据当前实施方式的韵律修改装置6,会聚判断部62判断真实话音韵律修改部42修改的真实话音韵律信息的真实话音音素长度与存储在真实话音韵律存储部61中的未修改真实话音韵律信息的真实话音音素长度之差是否不小于阈值。如果该差不小于该阈值,则会聚判断部62将经真实话音韵律修改部42修改的真实话音韵律信息写入真实话音韵律存储部62中,并且指令真实话音韵律修改部42修改该真实话音韵律信息。另一方面,如果该差小于该阈值,则会聚判断部62输出经真实话音韵律修改部42修改的真实话音韵律信息。结果,会聚判断部62可以输出其中真实话音音素边界更接近于实际真实话音音素边界的真实话音韵律信息。
在上述实施例中,会聚判断部62判断从真实话音韵律修改部42输出的真实话音韵律信息的真实话音音素长度与存储在真实话音韵律存储部61中的未修改真实话音韵律信息的真实话音音素长度之差是否不小于阈值,但并不限于此。例如,会聚判断部62可以判断从真实话音韵律修改部42输出的真实话音韵律信息的真实话音音素长度与规则韵律生成部44生成的规则音韵律信息的规则音素长度之差是否不小于阈值。这允许会聚判断部62输出其中真实话音音素边界更接近于规则音素边界的真实话音韵律信息。
而且,在上述实施例中,图18所示的韵律修改装置6除了图9所示韵律修改装置4的组件以外,还包括真实话音韵律存储部61和会聚判断部62,但并不限于此。即,除了图11所示韵律修改装置5的组件以外,还还可以将包括真实话音韵律存储部和会聚判断部的韵律修改装置应用至当前实施方式。
[实施方式5]
图19是示出了根据当前实施方式的韵律修改系统13的示意构造的框图。根据当前实施方式的韵律修改系统13除了图1所示韵律修改系统1的组件以外还包括GUI(图形用户接口)装置7和语音合成器8。在图19中,具有和图1中的组件的功能相同的功能的组件用相同标号指示,并且省略了对其的详细说明。而且,参照图19所示韵律修改装置3,其构成组件32到36中的每一个都未示出。GUI装置7和语音合成器8可以设置在图5所示韵律修改系统1a、图6所示韵律修改系统1b、图9所示韵律修改系统10、图11所示韵律修改系统11以及图18所示韵律修改系统12中的任一个中。
与实施方式1到4不同,在当前实施方式中,假定真实话音韵律提取部23从发声输入部21输出的语音数据中除了关于节奏的真实话音韵律信息以外还提取了关于话音音调、语调等的真实话音韵律信息。
GUI装置7允许韵律修改系统13的管理者编辑从韵律修改装置3输出的真实话音韵律信息。为此,GUI装置7向管理者提供显示真实话音韵律信息的用户接口功能,并且允许管理者操作诸如鼠标器和键盘的指示装置。图20是示出了GUI装置7的显示画面的示例的概念图。如图20所示,GUI装置7的显示画面包括:真实话音波形显示部71、音调模式显示部72、合成波形显示部73、发声内容输入部74、读取假名(日语音标)输入部75、以及操作部76。GUI装置7除了允许管理者编辑从韵律修改装置3输出的真实话音韵律信息以外,还可以允许管理者编辑真实话音韵律提取部23提取的真实话音韵律信息。
真实话音波形显示部71显示输入至发声输入部21的语音的波形信息和关于经韵律修改装置3修改的节奏的真实话音韵律信息。更具体地说,真实话音波形显示部71以语音波形的形式显示语音数据,语音波形上显示有音素边界和对应音素类型。在图20所示的示例中,真实话音波形显示部71显示音素“kY”、“O-”、“w”、“A”、“h”、“A”、“r”、“E”、“d”、“E”、“s”以及“u”,和韵律修改装置3重置的相应真实话音音素边界。而且,真实话音波形显示部71以可以区别其它真实话音音素边界的方式,显示真实话音音素边界,针对该真实话音音素边界,经韵律修改装置3修改的真实话音韵律信息的真实话音音素边界与未修改的真实话音韵律信息的真实话音音素边界之差大于阈值。例如,真实话音波形显示部71使用不同颜色用于真实话音音素边界,或另选的是,允许真实话音音素边界闪烁。在图20所示的示例中,因为针对音素“r”与“E”之间的真实话音音素边界和音素“E”与“d”之间的真实话音音素边界的差大于阈值,所以真实话音波形显示部71允许这些真实话音音素边界闪烁(图20中虚线所示),以使它们可以与其它真实话音音素边界区别。在当前实施方式中,真实话音波形实现部71允许管理者利用指示装置进行操作来移动显示的真实话音音素边界,以使得可以重置真实话音音素边界。
音调模式显示部72显示有关于从韵律修改装置3输出的话音音调的真实话音韵律信息。更具体地说,音调模式显示部72显示音调模式(基础频率)。音调模式是表示话音音调或语调的随着时间的变化的时间序列数据。在图20所示示例中,音调模式显示部72显示利用标记o表示的控制点,和通过连接控制点获取的音调模式。在当前实施方式中,音调模式显示部72允许管理者利用指示装置进行操作来移动音调模式或控制点,以可以重置音调模式或控制点。例如,针对移动控制点的情况,管理者例如使鼠标器的指针接触要移动的控制点,向上或向下移动(拖拉)接触位置(指示位置),并且落在希望位置处,由此,在希望位置处设置该控制点。在这种情况下,自动修正控制点之间的音调模式。优选的是,音调模式显示部72以在光谱图上叠加的这种方式来显示音调模式。
合成波形显示部73显示基于从韵律修改装置3输出的真实话音韵律信息所生成的合成语音的波形。在图20所示的示例中,合成波形显示部73显示合成语音的波形、音素“kY”、“O-”、“w”、“A”、“h”、“A”、“r”、“E”、“d”、“E”、“s”以及“u”、韵律修改装置3重置的相应真实话音音素边界、以及真实话音波形显示部71重置的相应真实话音音素边界。
发声内容输入部74允许管理者按混合汉语字符和日语假名表字符的方式输入表示和人类发出的真实话音的内容相同的内容的字符串。在图20所示的示例中,发声内容输入部74允许管理者输入“今日は晴れです”(“kyo-waharedesu”)。
读取假名输入部75允许管理者按方日语字符将输入的字符串的读取假名输入发声内容输入部74。在图20所示的示例中,读取假名输入部75允许管理者输入“キヨ一ワワハレデス”。
操作部76包括:录音按钮76a、文本文件阅读按钮76b、真实话音韵律提取按钮76c、播放按钮76d、语音文件指定按钮76e、读取假名阅读按钮76f、韵律修改按钮76g、以及停止按钮76h。
录音按钮76a被设置用于对人类发出的真实话音进行录音。文本文件阅读按钮76b被设置用于阅读预先制备的字符串文本文件。真实话音韵律提取按钮76c被设置用于指令真实话音韵律提取部23提取真实话音韵律信息。播放按钮76d被设置用于播放向发声输入部21输入的语音数据或基于从韵律修改装置3输出的真实话音韵律信息所生成的合成语音数据。语音文件指定按钮76e被设置用于指定预先制备的语音数据的文件。读取假名阅读按钮76f被设置用于阅读预先制备的读取假名的文本文件。真实话音韵律修改按钮76g被设置用于指令韵律修改装置3修改真实话音韵律信息。停止按钮76h被设置用于停止播放合成语音数据。
语音合成器8具有输出(播放)从GUI装置7输出的合成语音的功能。为此,语音合成器8包括扬声器等。语音合成器8播放基于真实话音韵律提取部23提取的真实话音韵律信息所生成的合成语音数据、基于经韵律修改装置3修改的真实话音韵律信息所生成的合成语音数据,以及基于经GUI装置7编辑的真实话音韵律信息所生成的合成语音数据。结果,管理者可以通过收听其来比较相应合成语音。
如上所述,根据当前实施方式的韵律修改系统13,GUI装置7允许编辑经韵律修改装置3修改的真实话音韵律信息。因为GUI装置7编辑经韵律修改装置3修改的真实话音韵律信息,所以管理者例如可以针对真实话音韵律信息进行精细调节。
如上所述,作为包括接收从人类发声中提取的真实话音韵律信息的真实话音韵律输入部和修改该真实话音韵律输入部接收到的该真实话音韵律信息的真实话音韵律修改部的韵律修改装置、韵律修改方法或存储有韵律修改程序的记录介质,本发明是有用的。
在不脱离本发明的精神或基本特征的情况下,可以以其它形式对本发明进行具体实施。本申请中公开的实施方式在所有方面都是例示性而非限制性的。本发明的范围通过所附权利要求而非前述说明来指示,并且落入本权利要求的等同含义和范围内的全部改变都被涵盖于此。
Claims (12)
1、一种韵律修改装置,该韵律修改装置包括:
真实话音韵律输入部,该真实话音韵律输入部接收从人类发声中提取的真实话音韵律信息;
规则韵律生成部,该规则韵律生成部针对所述真实话音韵律信息中的至少包括要修改的音素或音素串的部分,利用表示人类发声中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规则韵律信息具有确定音素之间的边界的规则音素边界和音素的规则音素长度;以及
真实话音韵律修改部,该真实话音韵律修改部利用所述规则韵律生成部生成的所述规则韵律信息,重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长度,由此,修改了所述真实话音韵律信息。
2、根据权利要求1所述的韵律修改装置,所述韵律修改装置还包括修改部分确定部,该修改部分确定部基于所述真实话音韵律信息的音素串类型或所述真实话音音素边界确定的各音素的所述真实话音音素长度来确定所述真实话音韵律信息中的包括要修改的所述音素或所述音素串的所述部分。
3、根据权利要求1所述的韵律修改装置,其中,所述真实话音韵律修改部包括音素边界重置部,该音素边界重置部基于在包含要修改的所述音素或所述音素串的所述部分中由所述规则音素边界确定的各音素的规则音素长度比来重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界,由此修改所述真实话音韵律信息。
4、根据权利要求1所述的韵律修改装置,其中,所述真实话音韵律修改部包括音素边界重置部,该音素边界重置部基于所述规则韵律信息的各音素的所述规则音素长度和作为包括要修改的所述音素或所述音素串的所述部分中的所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率的语速比,来重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界,由此修改所述真实话音韵律信息。
5、根据权利要求4所述的韵律修改装置,所述韵律修改装置还包括语速比检测部,该语速比检测部在语速计算范围内,基于所述真实话音音素边界确定的各音素的真实话音音素长度的总和与所述语速计算范围中的音素或短音节的数量来计算要修改的所述音素的所述真实话音韵律信息的语速,并且基于所述规则音素边界确定的各音素的所述规则音素长度的总和与所述语速计算范围内的音素或短音节的数量来计算要修改的所述音素的所述规则韵律信息的语速,并计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率,作为所述语速比,其中所述语速计算范围由至少一个或更多个音素或短音节组成并且包括真实话音韵律信息中的要修改的所述音素,
其中,所述音素边界重置部基于所述规则韵律信息中的各所述音素的所述规则音素长度和所述语速比检测部计算出的所述语速比来计算包括要修改的音素或所述音素串的所述部分中的修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话音音素边界,以使所述部分中的每一个真实话音音素长度变为修改后的音素长度,由此,修改所述真实话音韵律信息。
6、根据权利要求4所述的韵律修改装置,所述韵律修改装置还包括:
音素长度比计算部,该音素长度比计算部计算所述真实话音音素边界确定的各音素的所述真实话音音素长度与所述规则音素边界确定的所述音素的所述规则音素长度之间的比率,作为所述真实话音韵律信息中的包括要修改的所述音素或所述音素串的所述部分中的所述音素的音素长度比;和
语速比计算部,该语速比计算部平滑所音素长度比计算部计算出的所述音素长度比,由此,计算所述真实话音韵律信息的语速与所述规则韵律信息的语速之间的比率,作为所述语速比,
其中,所述音素边界重置部基于所述规则韵律信息中的所述音素的所述规则音素长度和所述语速比计算部计算出的所述语速比来计算包括要修改的音素或音素串的所述部分中的修改后的音素长度,并且重置所述真实话音韵律信息的所述真实话音音素边界,以使所述部分中的各真实话音音素长度变为所述修改后的音素长度,由此修改所述真实话音韵律信息。
7、根据权利要求1所述的韵律修改装置,所述韵律修改装置包括:
真实话音韵律存储部,该真实话音韵律存储部存储所述真实话音韵律输入部接收到的所述真实话音韵律信息或经所述真实话音韵律修改部修改的所述真实话音韵律信息;和
会聚判断部,该会聚判断部在经所述真实话音韵律修改部修改的所述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之差不小于阈值时,在所述真实话音韵律存储部中写入所述真实话音韵律修改部修改的所述真实话音韵律信息并指令所述真实话音韵律修改部修改所述真实话音韵律信息,并且在经所述真实话音韵律修改部修改的所述真实话音韵律信息的所述真实话音音素长度与所述真实话音韵律存储部中存储的未修改的所述真实话音韵律信息的所述真实话音音素长度之差小于所述阈值时,输出经所述真实话音韵律修改部修改的所述真实话音韵律信息。
8、一种GUI装置,该GUI装置允许编辑经根据权利要求1所述的韵律修改装置修改的所述真实话音韵律信息。
9、一种语音合成器,该语音合成器输出基于经根据权利要求1所述的韵律修改装置修改的所述真实话音韵律信息所生成的合成语音。
10、一种语音合成器,该语音合成器输出基于根据权利要求8所述的GUI装置编辑的所述真实话音韵律信息所生成的合成语音。
11、一种韵律修改方法,该韵律修改方法包括以下步骤:
真实话音韵律输入操作步骤,在该真实话音韵律输入操作步骤中,设置在计算机中的真实话音韵律输入部接收从人类发声中提取的真实话音韵律信息;
规则韵律生成操作步骤,在该规则韵律生成操作步骤中,设置在所述计算机中的规则韵律输生成部针对所述真实话音韵律信息中的至少包括要修改的音素或音素串在内的部分,利用表示人类发声中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规则韵律信息具有音素的规则音素长度和确定音素之间的边界的规则音素边界;以及
真实话音韵律修改操作步骤,在该真实话音韵律修改操作步骤中,设置在所述计算机中的真实话音韵律修改部利用在所述规则韵律生成操作步骤中生成的所述规则韵律信息,重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长度,由此修改所述真实话音韵律信息。
12、一种存储有韵律修改程序的记录介质,该韵律修改程序允许计算机执行以下处理:
真实话音韵律输入处理,该真实话音韵律输入处理接收从人类发声中提取的真实话音韵律信息;
规则韵律生成处理,该规则韵律生成处理针对所述真实话音韵律信息中的至少包括要修改的音素或音素串在内的部分,利用表示人类发声中的规则的或统计出的音素长度的数据来生成规则韵律信息,该规则韵律信息具有音素的规则音素长度和用于确定音素之间的边界的规则音素边界;以及
真实话音韵律修改处理,该真实话音韵律修改处理利用在所述规则韵律生成处理中生成的所述规则韵律信息,重置所述真实话音韵律信息中的要修改的所述音素或所述音素串的真实话音音素边界,以使所述真实话音韵律信息中的要修改的所述音素或所述音素串的所述真实话音音素边界和真实话音音素长度接近于所述人类发声的实际音素边界和实际音素长度,由此修改所述真实话音韵律信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007073082A JP5119700B2 (ja) | 2007-03-20 | 2007-03-20 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
JP2007-073082 | 2007-03-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101271688A true CN101271688A (zh) | 2008-09-24 |
CN101271688B CN101271688B (zh) | 2011-07-20 |
Family
ID=39775644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100867410A Expired - Fee Related CN101271688B (zh) | 2007-03-20 | 2008-03-20 | 韵律修改装置和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8433573B2 (zh) |
JP (1) | JP5119700B2 (zh) |
CN (1) | CN101271688B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063898A (zh) * | 2010-09-27 | 2011-05-18 | 北京捷通华声语音技术有限公司 | 韵律短语预测方法 |
CN105529024A (zh) * | 2014-10-15 | 2016-04-27 | 雅马哈株式会社 | 音韵信息合成装置、语音合成装置以及音韵信息合成方法 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5029168B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP5130809B2 (ja) * | 2007-07-13 | 2013-01-30 | ヤマハ株式会社 | 楽曲を制作するための装置およびプログラム |
US8983841B2 (en) * | 2008-07-15 | 2015-03-17 | At&T Intellectual Property, I, L.P. | Method for enhancing the playback of information in interactive voice response systems |
JP5282469B2 (ja) * | 2008-07-25 | 2013-09-04 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US9484019B2 (en) * | 2008-11-19 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
US8332225B2 (en) * | 2009-06-04 | 2012-12-11 | Microsoft Corporation | Techniques to create a custom voice font |
JP5516192B2 (ja) * | 2010-07-28 | 2014-06-11 | 富士通株式会社 | モデル作成装置、モデル作成プログラムおよびモデル作成方法 |
JP5728913B2 (ja) * | 2010-12-02 | 2015-06-03 | ヤマハ株式会社 | 音声合成情報編集装置およびプログラム |
JP5593244B2 (ja) * | 2011-01-28 | 2014-09-17 | 日本放送協会 | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
US9508329B2 (en) * | 2012-11-20 | 2016-11-29 | Huawei Technologies Co., Ltd. | Method for producing audio file and terminal device |
US20140278403A1 (en) * | 2013-03-14 | 2014-09-18 | Toytalk, Inc. | Systems and methods for interactive synthetic character dialogue |
JP6261924B2 (ja) * | 2013-09-17 | 2018-01-17 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
CN104021784B (zh) * | 2014-06-19 | 2017-06-06 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
WO2016043322A1 (ja) * | 2014-09-19 | 2016-03-24 | 株式会社コティレドン・テクノロジー | 音声合成方法、プログラム及び装置 |
CN106980624B (zh) * | 2016-01-18 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法和装置 |
CN109727592A (zh) * | 2017-10-31 | 2019-05-07 | 上海幻电信息科技有限公司 | 基于自然语言语音交互的运维指令执行方法、介质及终端 |
US10418025B2 (en) * | 2017-12-06 | 2019-09-17 | International Business Machines Corporation | System and method for generating expressive prosody for speech synthesis |
US11830481B2 (en) * | 2021-11-30 | 2023-11-28 | Adobe Inc. | Context-aware prosody correction of edited speech |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5113449A (en) * | 1982-08-16 | 1992-05-12 | Texas Instruments Incorporated | Method and apparatus for altering voice characteristics of synthesized speech |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
JPH07140996A (ja) | 1993-11-16 | 1995-06-02 | Fujitsu Ltd | 音声規則合成装置 |
JP3563772B2 (ja) * | 1994-06-16 | 2004-09-08 | キヤノン株式会社 | 音声合成方法及び装置並びに音声合成制御方法及び装置 |
JPH08171394A (ja) * | 1994-12-19 | 1996-07-02 | Fujitsu Ltd | 音声合成装置 |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
JPH09292897A (ja) | 1996-04-26 | 1997-11-11 | Sanyo Electric Co Ltd | 音声合成装置 |
US6029131A (en) * | 1996-06-28 | 2000-02-22 | Digital Equipment Corporation | Post processing timing of rhythm in synthetic speech |
JPH10153998A (ja) | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US6006187A (en) * | 1996-10-01 | 1999-12-21 | Lucent Technologies Inc. | Computer prosody user interface |
JPH11143483A (ja) | 1997-08-15 | 1999-05-28 | Hiroshi Kurita | 音声発生システム |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
US6823309B1 (en) * | 1999-03-25 | 2004-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing system and method for modifying prosody based on match to database |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
JP2001306087A (ja) * | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | 音声データベース作成装置および音声データベース作成方法および記録媒体 |
JP3701850B2 (ja) * | 2000-09-19 | 2005-10-05 | 日本放送協会 | 音声言語の韻律表示装置および記録媒体 |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
JP3846300B2 (ja) * | 2001-12-14 | 2006-11-15 | オムロン株式会社 | 録音原稿作成装置および方法 |
US7280968B2 (en) * | 2003-03-25 | 2007-10-09 | International Business Machines Corporation | Synthetically generated speech responses including prosodic characteristics of speech inputs |
JP4225128B2 (ja) * | 2003-06-13 | 2009-02-18 | ソニー株式会社 | 規則音声合成装置及び規則音声合成方法 |
US7881934B2 (en) * | 2003-09-12 | 2011-02-01 | Toyota Infotechnology Center Co., Ltd. | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
JP4792703B2 (ja) * | 2004-02-26 | 2011-10-12 | 株式会社セガ | 音声解析装置、音声解析方法及び音声解析プログラム |
KR100590553B1 (ko) * | 2004-05-21 | 2006-06-19 | 삼성전자주식회사 | 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템 |
WO2005119650A1 (ja) * | 2004-06-04 | 2005-12-15 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US7558389B2 (en) * | 2004-10-01 | 2009-07-07 | At&T Intellectual Property Ii, L.P. | Method and system of generating a speech signal with overlayed random frequency signal |
JP2008545995A (ja) * | 2005-03-28 | 2008-12-18 | レサック テクノロジーズ、インコーポレーテッド | ハイブリッド音声合成装置、方法および用途 |
US7742921B1 (en) * | 2005-09-27 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | System and method for correcting errors when generating a TTS voice |
GB2433150B (en) * | 2005-12-08 | 2009-10-07 | Toshiba Res Europ Ltd | Method and apparatus for labelling speech |
GB2444539A (en) * | 2006-12-07 | 2008-06-11 | Cereproc Ltd | Altering text attributes in a text-to-speech converter to change the output speech characteristics |
US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
CN101606190B (zh) * | 2007-02-19 | 2012-01-18 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 |
-
2007
- 2007-03-20 JP JP2007073082A patent/JP5119700B2/ja active Active
-
2008
- 2008-02-11 US US12/029,316 patent/US8433573B2/en active Active
- 2008-03-20 CN CN2008100867410A patent/CN101271688B/zh not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063898A (zh) * | 2010-09-27 | 2011-05-18 | 北京捷通华声语音技术有限公司 | 韵律短语预测方法 |
CN102063898B (zh) * | 2010-09-27 | 2012-09-26 | 北京捷通华声语音技术有限公司 | 韵律短语预测方法 |
CN105529024A (zh) * | 2014-10-15 | 2016-04-27 | 雅马哈株式会社 | 音韵信息合成装置、语音合成装置以及音韵信息合成方法 |
Also Published As
Publication number | Publication date |
---|---|
US20080235025A1 (en) | 2008-09-25 |
JP5119700B2 (ja) | 2013-01-16 |
JP2008233542A (ja) | 2008-10-02 |
CN101271688B (zh) | 2011-07-20 |
US8433573B2 (en) | 2013-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101271688B (zh) | 韵律修改装置和方法 | |
Moberg | Contributions to Multilingual Low-Footprint TTS System for Hand-Held Devices | |
US6622121B1 (en) | Testing speech recognition systems using test data generated by text-to-speech conversion | |
US9196240B2 (en) | Automated text to speech voice development | |
CN101739870B (zh) | 交互式语言学习系统及交互式语言学习方法 | |
CN101785048B (zh) | 基于hmm的双语(普通话-英语)tts技术 | |
CN108847215B (zh) | 基于用户音色进行语音合成的方法及装置 | |
Narendra et al. | Development of syllable-based text to speech synthesis system in Bengali | |
US9484012B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product | |
JP2006048065A (ja) | 音声対話式言語指導法及び装置 | |
CN110782875B (zh) | 一种基于人工智能的语音韵律处理方法及装置 | |
CN112580340A (zh) | 逐字歌词生成方法及装置、存储介质和电子设备 | |
James et al. | Developing resources for te reo Māori text to speech synthesis system | |
Karhila et al. | Transparent pronunciation scoring using articulatorily weighted phoneme edit distance | |
US20230252971A1 (en) | System and method for speech processing | |
Zheng | [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
Ekpenyong et al. | Towards an unrestricted domain TTS system for African tone languages | |
Samsudin | A study on reusing resources of speech synthesis for closely-related languages | |
i Barrobes | Voice Conversion applied to Text-to-Speech systems | |
Proença et al. | Automatic annotation of disfluent speech in children’s reading tasks | |
Yong et al. | Low footprint high intelligibility Malay speech synthesizer based on statistical data | |
Kayte | Text-To-Speech Synthesis System for Marathi Language Using Concatenation Technique | |
Pärssinen | Multilingual text-to-speech system for mobile devices: Development and applications | |
Wilhelms-Tricarico et al. | The Lessac Technologies hybrid concatenated system for Blizzard Challenge 2013 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110720 |
|
CF01 | Termination of patent right due to non-payment of annual fee |