CN100354928C - 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置 - Google Patents

计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置 Download PDF

Info

Publication number
CN100354928C
CN100354928C CNB038226553A CN03822655A CN100354928C CN 100354928 C CN100354928 C CN 100354928C CN B038226553 A CNB038226553 A CN B038226553A CN 03822655 A CN03822655 A CN 03822655A CN 100354928 C CN100354928 C CN 100354928C
Authority
CN
China
Prior art keywords
text
voice unit
rule
dictionary
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB038226553A
Other languages
English (en)
Other versions
CN1685396A (zh
Inventor
M·科斯特纳
M·施内尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infineon Technologies AG
Intel Deutschland GmbH
Original Assignee
Infineon Technologies AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies AG filed Critical Infineon Technologies AG
Publication of CN1685396A publication Critical patent/CN1685396A/zh
Application granted granted Critical
Publication of CN100354928C publication Critical patent/CN100354928C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

本发明与一种利用文本分析规则以及不同的词典(lexicons)的语音合成方法有关,其会显著地降低所需要的内存空间并同时确保拥有足够佳的品质。

Description

计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置
技术领域
本发明系相关于一种计算机辅助语音合成一已储存的电子文本而形成一模拟语音信号的方法,一语音合成装置,以及一电信装置。
背景技术
现今,为了藉由一计算机而输出信息至一使用者,使用人工语音合成的情形已经是越来越多,其中,语音合成系需要特别的意义,以作为用于在系统的范围内输出信息至人们的通信装置,且在所述系统中,由于空间的原因,举例而言,因为无法获得、或是由于空间的原因而无法使用一用于呈现信息的监视器时,而没有可能有其它的输出媒体,举例而言,图形,的情形,因此,特别是对如此的其它输出媒体由于空间的原因而无法被使用的例子而言,即有需要能在计算功率方面,以及在所需的储存空间方面,对于可获得的资源的需求量非常低,并且,也仍然能提供完全的合成功能,举例而言,用于“读出”一文本,较佳地是,一电子讯息,的一语音合成装置以及一语音合成方法。
由于在所需储存空间方面的非常大的需求而未能在整合式系统(相嵌式系统)中使用的已知方法系通常会被分开成为,语音合成以所谓的双音子合成(diphonic synthesis)作为基础的语音合成系统,以及以所谓的基于语料库的语音合成(corpus-based speechsynthesis)作为基础的语音合成系统。
不过,即使是对一相对而言较小的储存空间即已足够的所述双音子合成系统而言也需要一大约20Mbyte(兆字节)的储存空间,并且,该基于语料库(corpus-based)的语音合成则是需要多至1Gbyte(千兆位组)、或更多的储存空间。
此储存空间需求对于要能在一嵌入式系统中执行来说,显然地是太大。
参考文献[5]中系叙述有在其中实行一文本转语音转换的一文字转语音转换器装置,以用于一已叙述的特殊例外词典(specialexception lexicon )。
参考文献[6]中系叙述有一语法装置(parser device),以用于决定来自对其传达信号的一语音信号序列的已预先定义的词句。
发明内容
本发明作为基础的问题系为,提供一种需要相较于已知语音合成方法、或语音合成装置而言的一降低的储存需求的语音合成。
该问题藉由具有根据独立权利要求的特征的用于计算机辅助语音合成一以储存电子文本而形成一模拟语音信号的方法,一语音合成装置,以及一电信装置而获得解决。
在一种计算机辅助语音合成一已储存的电子文本而形成一模拟语音信号的方法中,该已储存电子文本利用已预先定义的文本分析规则而接受一文本分析。
通常,该已储存电子文本被储存为一预先定义的电子文本处理格式,举例而言,ASCII,此外,该电子文本系亦可以包含一文本处理系统的控制字符,举例而言,断页控制字符(page break characters)、或格式控制字符。
此文本藉由该方法而被转换成为一模拟语音信号,而该模拟语音信号则是会藉由一扬声器而被输出至一使用者。
在此上下文中,文本分析规则被了解为一组规则,而该组规则则是会进行连续处理,且,正如将于之后进行更详尽解释的,通常是由会叙述将该电子文本的特殊部分移至一或多个语音单元上的一习惯性映像(mapping)的语言特有规则所构成。
针对所述文本分析规则分别所检验的电子文本来说被满足或已满足的情况,形成一第一语音单元序列。
根据本发明,特别是,下列的单元系可以被使用作为用于接续的连接语音合成的语音单元:
字音区段;
字音;
同位音(allophone);
双音子(diphone);
三音子(triphone);
半音节,特别是,起始半音节,以及最终半音节+基本组件,字尾;
用于覆盖共发声效果(coarticulation effects)的混合清单;
文字;或
一文字序列。
此外,根据本发明的该方法系会测试该电子文本是否被包含在一电子缩写词典(abbreviation lexicon)中。
该缩写词典系包含已编码为该电子文本所呈现的格式的预先定义缩写的一映像表,以及该缩写的相关语音录制,举例而言,在SAMPA中编码,以作为该相应的已预先定义缩写的一相对应表示。
当该电子文本系被包含在该电子缩写词典中时,形成一第二语音单元序列,并且,该第二序列系会被分配至在该缩写词典中的该电子文本的该分别电子缩写。
此外,测试该电子文本是否被包含在一电子功能字词典(functional word lexicon)中。
在此上下文中,该电子功能字词典是一具有已预先定义的功能字以及所述被分配至该相应的功能字的语音单元的映像表,且再次地,该些功能字系已编码为分别所使用的电子文本格式,且该单元系会于所述各语音录制中,较佳地是,SAMP,加以编码成为该相应的已预先定义功能自的一相对应代表。
在此上下文中,一功能字系被理解为功能上将名词、或动词连接至彼此的一个文字,举例而言,文字:“for”,“under”,“on”,“with”等。
当该电子文本系被包含在该电子功能字词典中时,形成一第三语音单元序列,以对应于在该电子功能字词典中的该相关词条。
当用于该电子文本的所述文本分析规则未受到满足,以及该电子文本未被包含在该缩写词典中、或是在该功能字词典中时,利用一例外词典(exception lexicon)形成一第四语音单元序列。
在一映像表中已预先定义的例外字符序列,再次地,藉由可使用者而预先定义的可能性,而被储存在该例外词典中,以及该相关的语音单元序列,其中,一资料变量值组(tuple)依序包括每个资料词条的两个组件的,以及该资料变量值组的该第一组件系为个别的名称,已编码为该电子文本的形式,以及该资料变量值组的该第二组件系为该第一组件的分别表述,已编码为所述各声音录制。
此外,对语音单元的该分别形成的序列而言,一韵律利用预先定义的韵律规则而产生,以及,接着,该语音信号,较佳地是,该待输出的模拟语音信号,产生自所述各语音单元序列以及为了所述各语音单元序列所形成的该韵律。
一用于合成一已储存电子文本而形成一模拟语音信号的语音合成装置系会具有一文本内存,以用于储存该电子文本,以及一规则内存,以用于储存文本分析规则以及用于储存韵律规则。
此外,一词典内存则是加以提供以储存一电子缩写词典,一电子功能字词典,以及一电子例外词典。
该语音合成装置亦具有一处理器,以利用所述已储存的文本分析规则与韵律规则,以及所述已储存的电子词典而实行上述的方法步骤的方式而加以建构。
再者,一具有根据本发明的一语音合成装置的电信装置系亦加以提供。
通过利用分别分级的且最佳地匹配于相应语言的电子词典的已严格模块化、以规则作为基础的方法,即使是在具有一非常受限的储存空间需求的一嵌入式系统中也能够实现具有足够好的品质的语音合成。
本发明一更进一步优点是,为了增加该语音合成的该可达成品质,也考虑到了非常轻易的可扩展性,因为所述相应的电子词典以及所述规则系可以非常轻易地既行延伸。
本发明的较佳发展是揭示于附属权利要求中。
根据本发明的一改进,所述语音单元利用已压缩的形式而进行储存,并且,至少一些已储存的已压缩语音单元,特别是,需要用以形成该语音单元序列的所述已压缩语音单元,在该相应的语音序列形成之前,特别是,该第一语音单元序列形成之前,先进行解压缩,而所述语音单元的该压缩所造成的结果是,达成在该储存语音需求上的一更进一步的大量减少。
无损失的压缩演算式,以及遭受到损失的压缩演算式,都可以被使用作为压缩方法。
显然地,特别是,下列的方法系非常的适合于确保该资料储库的一高度压缩,且仅具有一小量的品质损失:
ADPCM(Adapted Differential Pulse Code Modulation,自适应差分脉冲编码调制);
GSM;
LPC(Linear Predictive Coding,线性预测编码);或
CELP(Code Excited Linear Prediction,码激式线性预估)。
较佳地是,双音子被使用作为语音单元。
该方法系较佳地被使用于一嵌入式系统,为了这个理由,根据本发明的一实施例,该语音合成装置系加以建构为一嵌入式系统。
附图说明
本发明的示范性实施例系加以举例说明于图式中,并且将于之后进行更详尽的解释。
在所述图式中:
图1:其系显示具有根据本发明的一示范性实施例的一语音合成装置的一电信终端设备的一方块图;
图2:其系显示被相嵌在该通信终端设备中的个别构件的一方块图;
图3:其系显示举例说明根据本发明的一示范性实施例,用于语音合成的个别构件的一方块图;
图4:其系显示举例说明文本处理系统以及韵律控制系统的构件的更详细方块图;
图5A至5D:其系显示根据本发明的一示范性实施例,用以形成一总体音调轮廓的一音调模型的个别构件以及其额外重叠的略图;
图6:其系显示举例说明根据本发明的一示范性实施例,用于选择构件的个别方法步骤的一架构图;以及
图7:其系显示举例说明根据本发明的一示范性实施例,用于声学合成(acoustic synthesis)的个别方法步骤的一架构图;
具体实施方式
图1系显示一电信终端设备100,其系具有一资料显示单元101,以用于显示信息,一天线102,以用于接收以及发射无线信号,一扬声器103,以用于输出一模拟语音信号,一小型键盘104,具有输入键105,以用于控制该移动电话100,以及一麦克风106,以用于获取一语音信号。
该移动电话100系加以建构以根据GSM标准,或者,可取代地,根据UMTS标准,GPRS标准,或是任何其它适合的移动无线标准,而进行通信。
此外,该移动电话100系加以建构以传输以及接收文本的信息,举例而言,SMS讯息(Short Message Service Messages,短讯息服务讯息)、或是MMS讯息(Multimedia Service Messages,多媒体服务讯息)。
图2系显示被整合成为该移动电话100的所述个别构件的一方块图,特别地是,一语音合成单元,而其将于之后进行详尽的解释,并且,其系作为一嵌入式系统而被整合进入该移动电话100。
根据该方块图200,该麦克风106系会被耦接至一输入接口201。
此外,一中央处理单元202,一内存203,以及一ADPCM编码器/译码器单元204系会与一输出接口205一起加以提供,其中,所述个别构件系藉由一计算机总线206而彼此进行连接,该扬声器103系被连接至该输出接口205。
当在该双音子词典中的该已压缩双音子进行解压缩时,要注意的是,该解压缩利用该ADPCM编码器/译码器单元204、并依照该ADPCM而实时地加以实行。
该中央处理器单元202以之后所叙述的用于实行语音合成的方法步骤以及操作,特别是,译码以及编码移动无线信号,该移动电话所必须的方法步骤会加以实行的方式,而进行建构。
在替代的实施例中,系提供有一分开的计算机单元,特别地是,用于该语音合成者,且该单元系为,举例而言,特别地为了该语音合成所加以建构的一计算机卡,以减缓被提供用于该移动电话范围内的其它任务的该中央处理器单元201。
在一替代的实施例中,该移动电话100额外地为了语音辨识而进行建构。
一方面,所述用于操作该移动电话100所必须的计算机程序207,以及,另一方面,将于之后进行详细解释的相对应文本分析规则208,以及韵律规则209,系会被储存在该内存203中,再者,复数个不同的电子词典,根据此实施例,一缩写词典210,一功能自词典211,以及一例外词典212,也会被储存在该内存203中。
对于相应的语言而言为惯常使用的一预定数量的缩写,举例而言,接下来的词句以及相关于该分别缩写的语音单元序列,系会被储存在该缩写词典210中:“bsp.”,“bspw.”,“etc.”,“usw.”,“u.a.”,“d.h.”(“e.g.”,“e.g.”,“etc.”,“and so on”,“i.a.”,“i.e.”,...)。
一预定数量的功能字,以及在语音录制中相关于所述功能字的例子,换言之,相关于该相应的功能字的语音单元序列,系会被储存在该功能字词典211中,举例而言,在德语中所提供的功能字系为:für”,“unter”,“mit”,“auf”,...(“for”,“under”,“with”,“on”,...)。
在每一个例子中,对于一语音单元序列的一相对应映像进行定义,并且,被储存在该例外词典212中,以用于特殊的可预先定义的文本单元。
根据此示范性实施例,双音子系会被使用作为语音单元,而在该语音合成范围内所使用的该双音子则是会被储存在亦被储存于该记忆203中的一双音子词典213中。
该双音子词典213,亦被称之为一双音子资料储库、或是一资料储库,系会包含,如上所陈述的,用于语音合成的该双音子,但是根据此示范性实施例,它们在一8kHz的取样频率处进行映像,而如此的结果则是,由于通常也会使用该双音子的一16KHz、或者甚至更高的取样频率,因此,在所需储存空间的量上的一更进一步减少即可以加以达成,而此,当然,在根据本发明的一替代实施例中亦为有可能。
根据此示范性实施例,该双音子系亦会根据该ADPCM(AdaptedDifferential Pulse Code Modulation,自适应差分脉冲编码调制)而进行编码,并且,因此以已压缩的形式而被储存在该内存203中。
正如已经叙述过的,二者择一地,其系亦有可能使用一LPC方法,一CLEP方法,或是该GSM方法,以压缩该双音子,并且,一般而言,在确保由于该压缩所引起的信息损失系为一足够小量的同时,任何提供一足够大程度的压缩的压缩方法都可以加以使用,甚至是对小的信号区段也是一样,换言之,一压缩方法是要选择为具有该编码器的一短的瞬变恢复力,并且,所造成的是一小量的量化噪声。
被储存在该内存203中、并要被输出为一模拟语音信号的一文本讯息的一语音合成将以在图3中的该方块图300做为参考而进行解释。
一电子文本,其系被储存在一电子档案301中,并且,不仅较佳地具有ASCII编码文字,也具有用于形成储存在该电子档案301中的该电子文本的部分、或全部的特殊字符、或控制字符,例如,举例而言,一“新行”字符、或是一“新段”字符。
所以,为了语音合成的目的,该电子文本被递交于在一文本处理操作(区块302)范围内的不同预处理规则,接续地,该已处理电子文本303系会馈送至一模块,亦即,馈送至用于韵律控制304的一计算机程序构件,而在其中,正如于之后会有更详尽的解释的,产生会于该电子文本的该韵律。
接着,在此方法中所产生的该电子文本305实行一构件选择,亦即,语音单元的一选择,而该选择则是会利用该资料储库,亦即,利用其已压缩双音子306已经在接下来所叙述的处理之前藉由该ADPCM编码器/译码器而完成ADPCM译码的该双音子词典213,以及该选择是根据此示范性实施例的所需双音于307的一选择(区块308),再者,该所选择的双音子307,亦即,一般而言,所述所选择的语音单元,被馈送至一计算机程序构件,以用于声学合成(区块309),并且在该处进行结合,以形成一待输出的语音信号,其中,该待输出的语音信号系首先会呈现一数字形式,并且,会进行数字/模拟转换,以形成一模拟语音信号310,以经由该输出接口205而被馈送至该扬声器103,以及被输出至该移动电话100的该使用者。
图4系为更详尽显示该文本处理302以及该韵律控制304的一方块图400。
在该语音合成的范围中,一足够长的电子文本被储存在该电子档案301中,且该文本系会被传递至在一完全相关的内存区域中的该处理器单元202,而根据此示范性实施例,由于该电子文本具有至少一不完全的句子,因此就有可能会产生适当的韵律。
根据此示范性实施例,当该分别传递自该电子档案301的电子文本比一不完全句子更短时,亦即,当在所传递的电子文本范围内没有决定任何标点符号时,则该文本将会视为一不完全的句子,以及一句点将会人工地进行添加,以作为一标点符号。
该文本的该预处理(区块401)系具有适应被输入至在该语音合成的范围内部所使用的该字符组中的该电子文本的功能。
对源自不同来源的文本而言,系必须要将它们转换成为该内部使用的字符组,因为,举例而言,德文的元音变化并非在所有的字符组中皆会相关于相同的编码,再者,控制字符系会自该文本中被移除。
结合连字号的换行(line advances)系会被消除,所以,为了这个目的,制作对用于每一个字符的形式信息进行编码的一字符表,至于对亦被储存在该内存203中的该表(未显示)的存取则是藉由该字符的数值而实行。
接下来的分类系会进行区别,并且,亦会被储存在该内存203中的该表中:
[0-9]    数字                                             ZF
[a-z]    小写字母                                         KB
[A-Z]    大写字母                                         GB
[‘’‘-’‘\r\n’‘\n’‘\t’]白字符(white character)    WZ
(字的边界)
[.,;:?!]标点                                         IP
[*’”#$%&丶()+_/<>...]特殊字符                          SZ
[‘\n’‘\r\n’‘\t’]控制字符                            ST
控制字符、或是未被包含在该表中的字符系会自该被输入的电子文本中被删除,其中,该表系为两个程序构件,包括该文本预处理程序构件(区块401)以及之后会叙述的该“拼字”(区块408)程序构件,所使用。
所述各字符分类系会被编码于一字节中,并且,该字符的标点的形式被增加,以作为一字符链,亦即,作为一语音单元序列,亦即,作为根据该示范性实施例的一双音子序列。总而言之,此造成一大约为1kbyte(千字节)的储存需求。
接续地,已藉由该文本预处理装置401而进行过滤的该输入文本402受到在一字形字音(grapheme-phoneme)转换(区块403)范围内的一特殊文本分析规则机制的评估,其中,该文本分析规则机制被储存在该内存203中,且被用以侦测在该已过滤输入文本402中的数字的各式连接,以及用以转换它们(区块404),此外,由于数字系可以包含不仅数字序列,尚可以有因次数(dimensional number)、或货币指针(currency indications),因此,该评估在该已过滤电子文本402的更进一步分解之前加以实行。
接续地,已进行数字检查的该已过滤电子文本405系会利用编译器(tokenizer)(区块406)程序构件而被分开成为部分链(亦即,文字以及句子),之后,所述部分链被称之为符记(tokens)。
所述符记通过该词典转换装置、或是该字音测试分析规则机制407,当该符记无法藉由一处理阶段而进行转换,亦即,无法被转变成为一字音序列,亦即,成为一语音单元序列时,则所述各符记即会藉由在该输出程序范围中的拼字而进行转换,亦即,该符记系会在该语音输出中被视为一个别字母的序列,并且,字母系会相对应地被映像到用于所述个别字母的一双音子序列之上,以及此序列系会作为一已拼出的字符链(a spelled-out chain of characters),并藉由该“拼字”计算机程序构件而被输出至该使用者(区块408)。
利用来自所述文本分析规则的一特殊规则组,数字以及数字格式系会于该数字转换404的范围中进行侦测,并且,会被转换成为一语音单元序列。首先,根据该数字转换文本分析规则的检查系会加以实行,以决定该字符链是否会对应于一已知的数字序列,以及额外的信息。
如此的用于决定数字以及数字格式的数字转换文本分析规则的实例系利用该字音录制SAMPA而于之后加以载明:
“\Z{1900,1999}”,“n0Yntse:nhUnd@6t\1{-1900,0}”“\Z,\Z{0,99}  DM”,“\1{0}  mark\2{0}”
在此例子中,根据式子“\Z{1900,1999}”,则是在寻找一介于1900以及1999之间的数字,而当获得如此的数字时,则其被理解为年代的数字,并且,系会相对应地被转换成为一双音子序列,以及因此成为一字音序列,所以,该转换加以实行为在作为已获得、并藉由该规则机制的一第二阶段而进行转换的所述数字的语音单元以及空间标记的一双音子序列上的一映像。
所述数字转换文本分析规则的所述数字规则利用,在该无关于语言的控制解译器以及所述取决于语言的规则本身之间会具有一严格区分的方式,而加以执行。
要注意的是,在此上下文中,对于来自该文本形式的所述文本分析规则的读入与转换,以及于储存方面具效率的一二进元格式,系会与根据此示范性实施例的真实程序有所区别,而如此的结果则是,使得所述文本分析规则在该运作时间期间的有效掌握成为可能。
在所述转换规则的定义中,对于所述最重要的数字格式系具有一限制,以再次地节省内存空间,相反地,基数(cardinal number)与序数(ordinal number),资料与时间(包括该已附加的符记“o’clock”),系会进行转换,不过,藉由简单地对该数字转换文本分析规则进行增加,即可以轻易地在任何时间进行其它格式的增加。
当所述用于决定数字以及数字格式的规则的其中之一为可应用时,则该所获得的字符链依照该文本分析规则208而被转换成为该被分配至该相应的规则的双音子序列,换言之,该所发现的字符链为该规则标的所取代,其中,该规则标的系包含空间标记,以用于所述所获得、且已经藉由该规则机制的该第二阶段而完成转换的数字,在此,系具有已经藉由之前已写入的该第一阶段的所述规则而加以召集的复数组规则,举例而言,用于基数、序数、或年代的数字者。
所述基数的处理规则的实例总揽系显示如下:
>99,%10,=0,/100,,“\1{0}hUnd@6t”,“\1{0}hundert”>99,,,/100,100%,“\1{0}hUnd@6t\2{0}”,“\1{0} hundert\2{0}”>30,&10,=0,/10,,“\1{0}sIC”,“\1{0}zig”=30,,,,,“draIsIc”,“drei”sig”>20,,,%10,-0,“\1{0}?Unt\2{0}”,“\1{0}und\2{0}”
该待转换的数字系首先必须要满足一条件,否则,该下一个文本分析规则即会进行一检查,或者,其亦可选择地有可能测试一第二条件,为此,该数字系可以于事先进行改变,接着,在该用于最终转换的规则标的中所使用的两个数字,藉由算术运算而产生,而将上述所举例说明的该第一规则变为口语语言的一翻译将会产生,举例而言,如下:
“当该数字系大于99时,则剩余给定的一模数10操作(theremainder given a modulus 10 operation)相等于零,接着,将辅助数字1设定为由100所区隔的数字,利用所述基数规则而将其转换,以及将该字符链“hUnd@6T”增加至该结果。”
取样规则,亦即,上述用于该第一阶段的所述规则,以及数字规则,亦即,该第二阶段的所述规则,系会包含变为一自然语言的一额外转换,以有利于疑难排解,而在如此的例子中,为了要能够追随来自外界的规则创造的精准顺序,则任何所需的讯息皆可以被产生。
当一单一标点符号在该符记的该转换之后被遗留下来时,则在此时,一句子边界被插入。
无法满足任何所述既存的数字转换文本分析规则的所有数字格式,以一未处理的形式而被传递下去,以及,最终系会在该拼字模式408中被转换成为一双音子序列,在此,一个字母系会分开地一个一个进行转换,以及成为该模拟语音信号306,并且被输出至该使用者。
文字边界系藉由该“编译器”程序构件而进行侦测,亦即,个别的文字藉由位于它们之间的所述白字符而进行侦测,再者,根据所述字符的型态,该符记不是会被归类为一文字(大写以及小写字母)、就是会被视为一特殊格式(特殊字符)。
此外,句子边界在直接于一文字之后被侦测到跟随着空格符的标点符号的所有该些位置处进行标记,当一并非数字的符记系包含有多于一个的特殊字符时,则其藉由该写入模式而被映像进入该模拟语音信号,然后被输出。
此外,在该已过滤的电子文本中,被包含在该缩写词典210以及该功能自词典211中的该些文字、或词句利用所述词典210,211而加以决定,并且,所获得的所述缩写、或功能字被转换成为相对应的该双音子序列。
根据此示范性实施例,在所述词典210,211中寻找一符记之前,所有的所述大写字母系皆会被转换成为小写字母,且文字分类信息“名词”保留被写入为具有起始大写字母的文字,另外,当该文字系在所述各词典210,211中被发现时,藉由其字音录制,亦即,藉由如先前所解释的该双音子序列,而实行取代。
所述词典的结构对所有所储存的词条而言都是相同的:
该文字的该字形形式,以及具有重音标记与音节边界标记的该字音形式,与该文字分类一起进行分配。
根据此示范性实施例,接下来的文字分类是为了充分正确的重音以及分节所做的区分:
名词    S
动词    VB
副词    AV
形容词  ADJ
功能字  Fkt
该功能字分类系包含非常频繁发生的文字,以及因此,系具有一非常小的信息容量,并且,很少会强调重音,其中,此特性于该声学合成309的范围中加以利用,正如将于之后进行的更详尽解释。
所述文字分类系会为了稍候重音强调的目的而在一字节中进行编码,并且,系会被分配至所述各文字。
此外,实行检查,以决定该相应的文字、或是该相应的词句是否被包含于该例外词典212中。
当该文字未被包含在该例外词典212中时,则其系会利用该字音文本分析规则机制而进行转换,其中,所述字音文本分析规则系具有如下的结构:
XYZ→W
所述字音文本分析规则系如下进行:
当其系发生于该待录制文字中的X的右边以及Z的左边时,则Y为W所取代,在此,X,Z,以及W系可以为空的、或是包含一至五个字符、或分类符号,分类符号系为一字母群、或是字母序列的空间标记,正如在接下来的表中所定义的一样:
V={a e i o u _ _ üy}  #元音字母
B={a o u}    #后元音字母(rear vowels)
D={_u au ai ay ei ey eu}#双元音
C={b c ch d f g h j k l m n p  子音子母
ph qu r s sch t v w x z β}
P={b d g}    #浊音
破裂音
K={b d g p t k}    #破裂音
L={l m n r}    #流音
T={bb ck dd ff gg kk ll mm nn  #双子音字母pp rr ss tt zz}
S={abel al alis ant anz _rin ator#名词的重音衍生字尾
ell ent enz ett eur iant ibel
iell ient in ion ismus ist istik
istin it is iv ivum}
N={chen ler lein lich ling nis}#名词的未加重音衍生字尾
O={ein ik isch ium ius um ung}  #名词的未加重音衍生字尾
U={ier}    #动词的重音衍生字尾
E={e em en e ser ern n nen s ere#字尾
Erem eren erer eres ste sten}
I={e en est et ete eten etest etet  #动词字尾
N st t te ten test tet}
X以及Y系可以包括所述字符“@”以及“#”,其中,“@”系可以是任何字符的一空间标记,以及“#”系代表该文字边界。
所述规则根据该规则组的第一字母而加以安排,因此,在每一个例子中,需要进行搜寻的仅所有所述规则的一次组,而在该相应的区段的范围中,所述规则自最特殊到最一般地来进行整理,以确保至少会进行该最后的规则,当一规则系可以加以应用时,该系统系会自该规则的该处理跳脱,将该规则的该结果W附加至已经为了该当前文字而存在的该字音序列,并且,指针藉由在该规则组中的字符的数字而往前到达该待转换字符链。
为了提供代表在该内存203的储存范围内的该规则机制的一有效方法所做的努力是以1254个规则的数量作为基础,当一规则的所有四个部分皆被储存在具有一固定行数量以及列数量的一表格中时,则在每一个状况下,于一个直接在另一个后面的一行之上,该最长总体规则的长度系必须被使用作为该表格的宽度,在此例子中为19个字节,此外,对于所述规则的存取则是会由于此栏结构而变得非常简单,但是却具有一23kilobyte(千字节)的储存需求。
在一替代变化中,所述规则构件紧密地包装成为一矩阵,而为了这个理由,即会需要用于存取的具有一2500位组长度的指针的一另一字段,但是该总体储存需求却仅为15千字节。
当所有所述录制尝试皆已失败时,亦即,当根据所述字音文本分析规则的该映像也没有作用的时候,则该符记系会藉由将每一个字符取代以其相对应的语音代表而进行拼字,并且,系会利用一相对应的方式而将其输出,再者,由于该文本所产生的极度延长(藉由n个新字符而取代每一个字符),因此,根据此示范性实施例,每一个符记所可以进行拼字的字符数量将会被限制为一最大值10。
当该不完全链已经成功地被转换一流通的形式时,则该字音序列将会呈现为所述字音的一语音单元序列。
对在该韵律控制器34的范围,尤其是,该重音强调以及成为音节(区块409),声音长度控制器(length-of-sound controller)(区块410),以及音调控制器(区块411)的区分,之内的该接续韵律处理模块而言,很重要的是,必须要知道音节边界以及重音位置、或该计算机程序构件409所取得的重音型态。
此信息的一些系已经被包含在该符记得该字音序列中,当该符记已经利用具有用于转换数字以及数字间隔的所述规则、或是在该拼字模式中的所述词典210,211,212的其中之一而产生的时候,而在此部分中,该前述的信息收集自该字音序列。
但当该音节边界信息、或重音强调信息尚无法获得时,则其藉由一另一试探控制机制而产生,此将于之后有更详尽的解释。
来自该亦被储存在该内存203中的字音表的该信息系会被用于分析该字音序列的语法,并且被用于将个别的字音分类成为一长元音,短元音,摩擦音等,其中,该字音表包含49个字音,以及特殊字符(主要重音以及次要重音,音节分配器,中断),以及分类特征(长元音、短元音、双元音、子音种类等)。
所述音节区分规则以假设在所有语言中的特殊语音分类系会由于一般的生理条件而具有相似的作用来作为基础,而为了实行区分音节,音节核心、或多个音节核心型态先加以决定,并且,该音节边界根据试探规则而在该元音间子音序列的范围内做出决定。
一重音根据该重音规则而被分配给在该文字中、具有一长元音、或双元音的第一个音节,当没有任何此两种音节核心型态出现时,则该重音即会被分配给具有一短元音的第一个音节。
最终,某些文字重音与一试探结合,则远离在前句子的重音且落在该词组的范围中的该字符分类系会被升级至一句子重音,所以,为了该已合成语音的语音律动,一根据Klatt/Kohler的以声音为基础的规则机制加以执行(如参考文献[1]以及[2]所述)。
对每一个字音分类皆为不同、且被储存在该字音表中的毫秒等级的一起始声音长度,藉由考虑到各种影响因子的一规则机制而进行修饰。
根据此示范性实施例所使用的影响因子系为重音状况,相邻发音(共发声因子(coarticulation factor)),该声音在该音节中的位置,以及该音节在该文字以及在该句子中的位置,当然,其它适合的标准也可以列入考虑。
该起始声音长度系可以藉由分配至所述影响的因子而获得延长、或是缩短,其中,缩短仅允许缩短至一最小长度。
该声音长度系会根据下列的规则而进行计算:
声音长度=k·((Dinh-Dmin)·Pr cnt+Dmin)
其中,
k系为一共发声因子,
Dinh系为一固有声音长度,
Dmin系为一最小声音长度,以及
Prcnt系为整体影响因子。
该模型系提供了每一个声音的一特殊声音长度,以及系提供了在句法边界处中断的长度,再者,阶段边界、句子部分边界、以及段落边界系提供了具有成长长度的中断。
一语音旋律系藉由来自该程序构件声音长度控制(区块410)以及已经取得的重音信息的该先前所取得的声音长度资料,以及藉由已经获取自该字形/字音转换403的该句子型态信息,而在用于整个电子文本的该音调控制程序411的范围内进行计算,满足下列需求的下列模型被用于此:
重音为可听见,
词组以及功能结构系为可听见(中断、旋律轮廓),
具有自然变化的一代表,以及
由于缺乏对于该文本的了解,因此要确保一中性音调。
根据该所使用的模型,来自线性构件部分的音调轮廓(比较,图5A至图5D)藉由附加的重叠而放置在一起。
以重音作为基础的构件以及以词组作为基础的构件于程序中加以区分。
所述以词组作为基础的构件利用跨越每一个词组的知识而形成,基础频率系会自开始而连续地掉落至该词组的末端(倾斜),该基础频率移动的间隔宽度系可以自由地选择为该模型的一控制变量。
图5A系显示一最小基础频率501以及在一时间图表500中的一相对平均基础频率502,以及变量曲线503,该基础频率系沿着时间而绘制。
为了形成所述以句子型态作为基础的构件,所使用的辨识系为,在每一个词组的末端处,该倾斜线依据待了解的该句子的型态而被连结至该词组典型的一最终移动。
此移动自在该词组中的该最后句子重音的位置处延伸至该词组的末端,然而,最大是跨越该词组织的最后五个音节。
信息的提供以及惊叹号引起该基础频率朝向该词组的该末端的一额外下降,连续句子以及一词组边界引起在该基础频率中的一轻微上升,以及一疑问则是会引起在该基础频率中朝向该词组末端的一明显上扬。
这些词组决定的移动的数值范围系可以在该模型的范围中自由地进行选择。
图5B系显示在一第二时间图表510中,朝向该词组的该末端,用于不同句子型态的该基础频率变量曲线。一第一基础频率变量曲线511系代表该最终移动,一第二基础频率变量曲线512系代表一不间断的移动,亦即,一连续句子,以及一第三基础频率变量曲线513系代表一疑问。
此外,一以重音作为基础的构件系会被考虑作为一用于该整体韵律的构件,而所使用的辨识则是,当发声具有一句子重音的一音节时,该基础频率跨越该整个音节地进行上升,并且会跨越接下来音节的持续期间地在此下降至该倾斜线,再者,该重音的水平系可以利用其可自由地适应该应用的方式,而依次地被选择为该模型的一控制变量。
图5C系显示在一第三时间图表520中,用于不同音节的如此的不同重音强调,一由三个区域所组成的第一重音构件521,其中,该基础频率在一第一上升区域(在一第一时间期间522)中自该倾斜线上升至该重音的水平523,于一第二时间期间524被维持在该重音水平523,并且仅会在一第三时间期间525中再次地回复至该倾斜线。
一第二重音结构526系仅形成自两个时间期间,该基础频率会于其中自该倾斜线被增加至该重音水平523的上升分支527,以及该基础频率可以直接在该重音水平523已经达到之后再次地被连续降低至该倾斜线(第二时间期间528)的下降分支528。
图5D系显示在一第四时间图表530中的一总体韵律531,其中,该总体韵律系代表在图5A至图5C中所表示的所述个别构件的该附加重叠。
在该总体韵律,亦即,该总体轮廓531,的计算之后,在每一个例子中,一数值依照所决定的该总体韵律而被分配至所牵涉到的每一个字音,亦即,分配至在该总体旋律用以定的该文字链中的每一个字音。
接着,该音调轮廓在该声学合成309的范围内,藉由在所述以字音作为基础的参考点之间的线性插入而进行再制。
在本发明的一替代架构中,系提供有被用于文字的重音强调的一语言方面动机的重音算法。
根据上述的该示范性实施例,该重音被置于该第一长元音之上、或是若无法发现长元音时,被置于该文字的第一短元音之上。
在此上下文中,通常,仅名词会受到考虑,并且,文字的其它型态仅有在该文字重音发生在长时间之前时,才会加以考虑,以避免一单调的发音。
功能字发生的非常频繁,并且在考虑到某些程度的冗余之下,基本上未加重音。
在一替代实施例中,接下来的四个规则组被使用作为基础:
该“重”决定音节的延长,
倒数第二音节规则,
可以加重音的下一个音节的规则,以及
概略规则。
相对于上述的解决方案,所述文字音节自右至左地进行考虑,亦即,开始于该文字的该末端音节。
当该末端音节系为“重”音节时,则该加重音(1)移至该倒数第二音节,当该倒数第二音节可以进行加重音时,也就是说,不是一个“非重读央元音(shwa)”音节时,则该音节即会进行加重音,除此之外,在每一个步骤中,系会具有朝向该文字的开头方向的一音节的一飘移,直到发现一可加重音音节为止、或是已经到达该文字的开头为止。
将所述音节区分为字音种类,“重音节”,“轻音节”,以及“非重读央元音”音节是根据在参考文献[3]以及[4]中所提出的定义。
非重读央元音音节包含有非重读央元音声音,“@”,“n=”,“m=”,或“N=”,的其中之一的音节。
不具有一结尾的音节,也就是说,结束在一元音,系基本上为轻音节,而当该结尾由二、或多个子音所组成时,则其系为一重音节。
当该结尾精确地有一个子音所组成的例子将会更为复杂,在此状况下,以该音节核心作为基础,决定是否为一轻音节(具有一短元音,以作为音节核心)、或是一重音节(具有一长元音、或是在该音节核心中的双元音)。
利用该语音体系CV表述,且在其中,“延展的”(长)元音表示为VV,“未延展”的元音表示为V,以及子音表示为C,则系可以归结如下:
非重读央元音音节:@,n=,m=,N=作为核心,
轻音节:C+VV,C+VC,以及
重音节:C+VVC+,C+VCC+,
其中,C+系代表一或多个子音。
在决定该音节的加权中,该音节的开始(开头)并没有扮演任何角色。
此外,在一替代的实施例中,其系提供有对于该语音合成的强度的控制。而该强度参数藉由预处理加以产生,并且,被用以影响该已语音合成信号的动态范围(以及因此自然状态)。
该预处理藉由所谓的PSOLA算法、或是此方法的一适当衍生,而在连接之后周期性地加以实行,另外,该已语音合成信号的所述个别取样数值被乘上将该信号调整至该所需目标强度(以dB表示)的一因子。
此程序根据下列的规则而实行:
S Pu ( i ) = S Pu ( i ) &CenterDot; 10 I Pu 20 dB .
在此,SPu(i)系代表该待合成语音构件u的第p个周期的第i个取样数值,该所需的强度则是为了该字音构件u的每一个周期p,而藉由该语音信号的已于参考点处预先定义的所述目标强度系会在这些参考点间进行线性插入,来进行重新计算。
所述强度控制功能系可于一方法中与前述的运作该基础频率控制的该方法进行比较,其中,该强度控制的以及该基础频率控制的所述相应的参考点可以无关于彼此地自由进行选择。
所述目标强度是利用单元[dB]而加以载明。一0dB的目标强度并不会引起在所述信号构件的所述取样数值中的一改变,而所述待测试的目标强度则是会形成在所述资料储库模块中的该强度的相关改变的一指针,也就是说,较具优势地是,其使用具有已平衡的强度变量曲线的数据储库。
在图3中所表示的该模块选择器304将于之后有更详尽的解释。
该模块选择器304的功能系在于,自作为藉由该预处理装置所供给的该符号序列(字音序列或音节序列)的一函数的该数据储库、或该资料储库叙述中决定以及选择出所述适合的模块,以及根据该示范性实施例而决定以及选择出该声学合成所述适当双音子。
利用此方法所产生的该模块序列系会被提供以已藉由该预处理装置而产生的韵律附加信息,正如已于前述中解释过的(声音长度,基础频率变量曲线)。
为了利用一简化的方式来举例说明该模块选择程序,在所述个别构件的所述接口处的不同数据结构系加以定义如下。
该预处理装置系会产生该数据结构SMPROS的一数组,并且,会以必要的资料将其填满,且该结构以一拟码(pseufocode)的方式而载明如下:
Strut GF {
int      fn;
int      fn;
};
Struct SMPROS{
int      anzEI;
char**    EI;
char*    laut;
int      dauer;
int      gfAnz;
struct GF*  gf;
};
该数组的每一个组件系包含用于一符号的信息(字音,音节,...)。
再者,该数据结构SM的一数组结构是藉由该模块选择器加以产生,并且,会被传递至该声学合成装置。
该数据结构SM系显示如下:
Struct SM{
int         anzEI;
char**      EI;
char*       unit;
int         anzLaute;
struct SMPROS*laut;
};
该构件单元系包含该模块的名字,anzLaute,被包含在该模块中的符号(字音,音节,...)的数量,而所有其它的构件则是会自该数据结构SMPROS被传递至该预处理装置。
该数据结构INV的该数组系会包含有关一数据储库的叙述数据,而在开始之前,该数组读取自该待使用的资料储库的该相对应二进元档案。
该结构INV系显示如下:
Struct INV{
char        kanon[MAX_UNIT_LENGTH];
long        startBin;
int         anzPer;
long        startPm;
int         anzLaute;
int*        lastPer;
};
该数组INV的每一个组件包含一字音模块的资料,其中,所述组件系会根据该结构的该组件kanon的该起始符号,根据被包含在该模块中的符号(字音,音节,...)的数量,以及根据(在此序列中的)该结构的该组件序列kanon的长度,而进行储存,而此则是会允许对于在该数组中的该所需模块的有效寻找。
图6系显示在一架构图600中,根据本发明的该示范性实施例的该模块选择的程序。
在一第一步骤601中,一具有一长度零的中断系会被插入在藉由光标*SMPROS所辨识的该第一组件之前,此系被用以发现在该资料储库中的该起始模块,接着,变量i加以起始为0(步骤602),并且,接下来的步骤在该相应的SMPROS结构的所有所述组件(所有所述声音)的一第一音调回路603中实行,再者,在该资料储库中,决定适应于在该结构的该当前位置i处的该组件序列的该最长声音序列(步骤604)。
当已经发现如此的一模块时(步骤605,步骤606),则该模块即会被增加至该数据结构SM,以及该变量i藉由其符号序列会相等于该符号序列in*(SMPROS+i+j)的符号的最大数量的数值anz而进行增加。
此外,检查亦会加以执行,以决定在该模块中是否包含有所述声音的取代声音,以及若如此的一取代声音存在的话,则该声音即会被取代(步骤608),反之,该变量i的该数值藉由数值1而进行增加(步骤609),并且,所述步骤604至609的重复回路为了该变量i的新数值而运作,直到该SMPROS结构的所有所述组件都已经完成测试为止。
此即清楚的表示,当发现具有该相对应声音序列的一模块时,则该模块系会被增加至该SM结构,以及该SMPROS结构的该当前位置则是会藉由在该被发现的模块中的所述声音的数量而进行增加。
该声学合成309将于之后进行更详尽的解释。
该声学合成309的功能系在于,依照该模块选择的预先设定而连接所述信号区段。
在该连接的范围之内,该基础频率以及该声音长度藉由该PSOLA算法而加以操纵。
该声学合成309的该输入变量系为该“模块选择器”308程序构件所产生的该SM结构,其中,该SM结构系包含所述待连接的模块,以及相关于已藉由该预处理装置所产生的该基础频率以及该声音长度的信息。
在图7中的该架构图700中,该声学合成309的所述个别方法步骤系加以呈现。
在该声学合成305的范围中,该所要求模块的所有所述声音周期性地进行合成,亦即,一外接回路701系会为了在该结构SM中的所有所述组件i而加以运作。
在一第一步骤中,检查系会于每一个例子中加以实行,以决定该声音j是否代表一中断(步骤702)。
若是的话,则该中断就会被合成成为一语音信号(步骤703)。
然而,若不是的话,则接下来的音调回路704为了该模块的所有所述声音j而实行。
在该音调回路704的一第一区段中(步骤705),计算该所需的声音长度。
接着,该声音j的起始周期的数值被分配至变量k(步骤706)。
只要该变量k的该数值一小于、或是等于该声音j的该最终周期(检查步骤707),则就会实行下列的方法步骤:
在一步骤708中,决定具有下一个目标基础频率的一参考点(步骤707)。
接着,所需的周期长度系会根据该已插入基础频率轮廓而加以计算(步骤709)。
然后,系会执行检查,以决定该已于先前合成的声音长度是否短于、或相等于该成比例的所需声音长度(步骤710),以及,当此条件系获得满足时,则就会根据该PSOLA算法而合成具有该所需周期长度的该周期(步骤711)。
接着,再次地实行测试,以决定到目前为止所合成的该声音长度是否短于、或相等于该成比例的所需声音长度(步骤712)。
若不是的话,则该变量k的数值系会藉由数值1而进行增加(步骤713)。
此程序系清楚的表示,取决于周期的插入以及发散,不同的周期藉由该PSOLA算法而受到重叠,否则的话,该周期维持自己本身。
该基础频率轮廓是决定自藉由该PSOLA算法所获得的所述所需周期长度,而所述预先定义的声音长度则是大略地藉由周期的插入以及发散而加以获得。
所述信号区块,亦即,所述模块,连续地被储存在该内存(short*)中,有关所述模块的所述起始取样数值、周期的数量、所述周期的所述起始取样数值等的信息系会被储存在该结构INV中,以及有关每一个周期的取样数值的数量的信息系会被储存在如下所建构的结构PERIODE中:
struct  PERIDE  {
short        perLen;
unsigned char      anreg;
unsigned char      dummy;
};
下列的出版品系于此文件中作为参考之用:
[1]Donnis H.Klatt,Synthosis by rule of segmentaldurations in English sontencos,Frontiers of speechcommunication rosearch,ed.B.Lindblom and S.
Figure C0382265500281
Academic Press,London,pp.287-300,1979.
[2]Klaus J.Kohler,Zoitstrukturiorung in dorSprachsyntheso,in:Digitale Sprachverarbeitung,ITG-Tagung[Structuring of timo in speech synthesis,in:Digital speechprocessing,ITG conforenco],Bad Nauheim,edited by A.Lacroix,VDE-Verlag,Berlin,pp.165-170,1988.
[3]Caroline Fery,German Stress in Optimality Theory,Journal of Comparative Linguistics,pp.101-142,1998.
[4]Potra Wagnor,Systomaticsche _borprüfung doutscherWortbetonungsregeln[Systematic checking of German wordstress rulos],in W.Hess,K.St_ber(Editors),ElektroischeSprachsignalverarbeitung[Electronic speech signalprocessing],Conference papers from the 12th Conference 2001,pp.329-338,2001.
[5]WO 00/45373 A1
[6]DE 691 31 549 T2
参考符号列表
100    电信终端
101    数据显示单元
102    天线
103    扬声器
104    小型键盘
105    输入键
106    麦克风
200    方块图
201    输入接口
202    处理器单元
203    内存
204    ADPM编码器/译码器单元
205    输出接口
206    计算机总线
207    计算机程序
208    文本分析规则
209    韵律规则
210    缩写词典
211    功能字词典
212    例外词典
213    音子词典
300    方块图
301    档案
302    文本处理装置
303    已处理的电子文本
304    韵律控制
305    产生韵律之后的电子文本
306    已压缩双音子
307    双音子
308    模块选择器
309    声学合成
310    模拟语音信号
400    方块图
401    文本预处理装置
402    已过滤的输入文本
403    字形/字音转换
404    数字转换
405    搜寻过数字的已过滤文本
406    编译器
407    语音规则
406    重音强调/分开为音节
407    声音长度控制
408    音调控制
500    第一时间图表
501    最小基础频率
502    相关平均基础频率
503    音调轮廓
510    第二时间图表
511    第一轮廓变量曲线
512    第二轮廓变量曲线
513    第三轮廓变量曲线
520    第三时间图表
521    第一重音构件
522    第一时间期间
523    重音水平
524    第二时间期间
525    第三时间期间
526    第二重音构件
527    第一时间期间
528    第二时间期间
530    第四时间期间
531    总体音调轮廓变量曲线
600    架构图
601    方法步骤
602    方法步骤
603    方法步骤
604    方法步骤
605    方法步骤
606    方法步骤
607    方法步骤
608    方法步骤
609    方法步骤
700    架构图
701    方法步骤
702    方法步骤
703    方法步骤
704    方法步骤
705    方法步骤
706    方法步骤
707    方法步骤
708    方法步骤
709    方法步骤
710    方法步骤
711    方法步骤
712    方法步骤
713    方法步骤

Claims (7)

1.一种计算机辅助语音合成一已储存的电子文本而形成一模拟语音信号的方法,
其中,该已储存电子文本利用已预先定义的文本分析规则而接受一文本分析;
其中,当用于该电子文本的所述文本分析规则获得满足时,形成一第一语音单元序列;
其中,测试该电子文本是否被包含在一电子缩写词典中;
其中,当该电子文本是被包含在该电子缩写词典中时,形成一第二语音单元序列;
其中,测试该电子文本是否被包含在一电子功能字词典中;
其中,当该电子文本是被包含在该电子功能字词典中时,形成一第三语音单元序列;
其中,当用于该电子文本的所述文本分析规则未受到满足时,利用一例外词典形成一第四语音单元序列;以及
其中,所述各语音单元序列的一韵律是利用已预先定义的韵律规则而产生,
其中,该模拟语音信号是产生自所述各语音单元序列以及该韵律;
其中,所述语音单元是利用已压缩的形式而进行储存;以及
其中,至少一些已储存的已压缩语音单元在形成所述各语音单元序列之前,先进行解压缩。
2.根据权利要求1所述的方法,其中,该压缩是根据下列方法的其中之一而实行:
ADPCM;
GSM;
LPC;或
CELP。
3.根据权利要求1或2所述的方法,其中,双音子被使用作为语音单元。
4.根据权利要求1或2所述的方法,是被使用于一嵌入式系统中。
5.一种语音合成装置,用于合成一已储存电子文本,进而形成一模拟语音信号,包括,
一文本内存,以用于储存该电子文本;
一规则内存,以用于储存文本分析规则以及韵律规则;
一词典内存,以用于储存一电子缩写词典,一电子功能字词典,以及一电子例外词典;
一处理器,利用所述已储存的文本分析规则与韵律规则以及所述已储存的电子词典而实行下列步骤的方式来进行建构:
该已储存电子文本利用预先定义的文本分析规则而接受一文本分析;
当用于该电子文本的所述文本分析规则获得满足时,形成一第一语音单元序列;
测试该电子文本是否被包含在一电子缩写词典中;
当该电子文本是被包含在该电子缩写词典中时,形成一第二语音单元序列;
测试该电子文本是否被包含在一电子功能字词典中;
当该电子文本是被包含在该电子功能字词典中时,形成一第三语音单元序列;
当用于该电子文本的所述文本分析规则未受到满足时,利用一例外词典形成一第四语音单元序列;
所述各语音单元序列的一韵律是利用已预先定义的韵律规则而产生;以及
该模拟语音信号是产生自所述各语音单元序列以及该韵律,
所述语音单元是利用已压缩的形式而进行储存;以及
其中,至少一些已储存的已压缩语音单元在形成所述各语音单元序列之前,先进行解压缩。
6.根据权利要求5所述的语音合成装置,加以建构为一嵌入式系统。
7.一种电信装置,具有根据权利要求5或6所述的一语音合成装置。
CNB038226553A 2002-09-23 2003-09-23 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置 Expired - Fee Related CN100354928C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10244166.9 2002-09-23
DE10244166 2002-09-23

Publications (2)

Publication Number Publication Date
CN1685396A CN1685396A (zh) 2005-10-19
CN100354928C true CN100354928C (zh) 2007-12-12

Family

ID=32038177

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038226553A Expired - Fee Related CN100354928C (zh) 2002-09-23 2003-09-23 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置

Country Status (4)

Country Link
EP (1) EP1554715B1 (zh)
CN (1) CN100354928C (zh)
DE (1) DE50312627D1 (zh)
WO (1) WO2004029929A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013219828B4 (de) * 2013-09-30 2019-05-02 Continental Automotive Gmbh Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle
CN105895075B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 提高合成语音韵律自然度的方法及系统
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及系统
CN108231058A (zh) * 2016-12-17 2018-06-29 鸿富锦精密电子(天津)有限公司 语音辅助测试系统及语音辅助测试方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
CN1356687A (zh) * 2000-11-29 2002-07-03 松下电器产业株式会社 语音合成装置和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
CN1356687A (zh) * 2000-11-29 2002-07-03 松下电器产业株式会社 语音合成装置和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Issues in text-to-speech synthesis.MACCHI M.INTELLIGENCE AND SYSTEMS,1998.PROCEEDINGS.,IEEE INTERNATIONAL JOINT SYMPOSIA ON ROCKVILLE,MD,USA. 1998 *
New techniques for the compression of synthesizerdatabases.VAN DER VRECKEN O ET AL.CIRCUITS AND SYSTEMS,1997.ISCAS '97. 1997 *

Also Published As

Publication number Publication date
CN1685396A (zh) 2005-10-19
DE50312627D1 (de) 2010-05-27
EP1554715B1 (de) 2010-04-14
WO2004029929A1 (de) 2004-04-08
EP1554715A1 (de) 2005-07-20

Similar Documents

Publication Publication Date Title
US7558732B2 (en) Method and system for computer-aided speech synthesis
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
KR900009170B1 (ko) 규칙합성형 음성합성시스템
Allen Synthesis of speech from unrestricted text
US20080109225A1 (en) Speech Synthesis Device, Speech Synthesis Method, and Program
Olaszy et al. Profivox—A Hungarian text-to-speech system for telecommunications applications
WO2002080140A1 (en) Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
US5633984A (en) Method and apparatus for speech processing
US20060229874A1 (en) Speech synthesizer, speech synthesizing method, and computer program
Fletcher et al. Segment and syllable duration in Australian English
CN100354928C (zh) 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置
US5027409A (en) Apparatus for electronically outputting a voice and method for outputting a voice
Chettri et al. Nepali text to speech synthesis system using esnola method of concatenation
Ngugi et al. Swahili text-to-speech system
EP0144731B1 (en) Speech synthesizer
Furtado et al. Synthesis of unlimited speech in Indian languages using formant-based rules
KR920009961B1 (ko) 무제한 단어 한국어 합성 방법 및 회로
JP3060276B2 (ja) 音声合成装置
Huang et al. A Chinese text-to-speech synthesis system based on an initial-final model
Šef et al. Speaker (GOVOREC): a complete Slovenian text-to speech system
Narupiyakul et al. A stochastic knowledge-based Thai text-to-speech system
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Allen Speech synthesis from text

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: INTEL MOBILE COMMUNICATIONS TECHNOLOGY LTD.

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG

Effective date: 20120614

Owner name: INTEL MOBILE COMMUNICATIONS LTD.

Free format text: FORMER OWNER: INTEL MOBILE COMMUNICATIONS TECHNOLOGY LTD.

Effective date: 20120614

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: INFINEON TECHNOLOGIES AG

Free format text: FORMER NAME: INFENNIAN TECHNOLOGIES AG

CP03 Change of name, title or address

Address after: Neubiberg, Germany

Patentee after: Infineon Technologies AG

Address before: Munich, Germany

Patentee before: INFINEON TECHNOLOGIES AG

TR01 Transfer of patent right

Effective date of registration: 20120614

Address after: Neubiberg, Germany

Patentee after: Intel Mobile Communications GmbH

Address before: Neubiberg, Germany

Patentee before: Infineon Technologies AG

Effective date of registration: 20120614

Address after: Neubiberg, Germany

Patentee after: Intel Mobile Communications GmbH

Address before: Neubiberg, Germany

Patentee before: Intel Mobile Communications GmbH

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071212

Termination date: 20160923

CF01 Termination of patent right due to non-payment of annual fee