CN1685396A - 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置 - Google Patents

计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置 Download PDF

Info

Publication number
CN1685396A
CN1685396A CN 03822655 CN03822655A CN1685396A CN 1685396 A CN1685396 A CN 1685396A CN 03822655 CN03822655 CN 03822655 CN 03822655 A CN03822655 A CN 03822655A CN 1685396 A CN1685396 A CN 1685396A
Authority
CN
China
Prior art keywords
text
electronic
speech
vocabulary
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 03822655
Other languages
English (en)
Other versions
CN100354928C (zh
Inventor
M·科斯特纳
M·施内尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infineon Technologies AG
Intel Deutschland GmbH
Original Assignee
Infineon Technologies AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies AG filed Critical Infineon Technologies AG
Publication of CN1685396A publication Critical patent/CN1685396A/zh
Application granted granted Critical
Publication of CN100354928C publication Critical patent/CN100354928C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明与一种利用文本分析规则以及不同的语汇(lexicons)的语音合成方法有关,其会显著地降低所需要的内存空间并同时确保拥有足够佳的品质。

Description

计算机辅助语音合成储存电子文本成为 模拟语音信号方法、语音合成装置及电信装置
技术领域
本发明系相关于一种计算机辅助语音合成一已储存之电子文本而形成一模拟语音信号的方法,一语音合成装置,以及一电信装置。
背景技术
现今,为了藉由一计算机而输出信息至一使用者,使用人工语音合成的情形已经是越来越多,其中,语音合成系需要特别的意义,以作为用于在系统的范围内输出信息至人们的通信装置,且在该等系统中,乃是由于空间的原因,举例而言,因为无法获得、或是由于空间的原因而无法使用一用于呈现信息的监视器时,而没有可能有其它的输出媒体,举例而言,图形,的情形,因此,特别是对如此之其它输出媒体由于空间的原因而无法被使用的例子而言,即有需要能在计算功率方面,以及在所需之储存空间方面,对于可获得之资源的需求量非常低,并且,也仍然能提供完全之合成功能,举例而言,用于“读出”一文本,较佳地是,一电子讯息,的一语音合成装置以及一语音合成方法。
由于在所需储存空间方面之非常大的需求而未能在整合式系统(相嵌式系统)中使用的已知方法系通常会被分开成为,语音合成乃会于其中以被称之为双音子合成(diphonic synthesis)者而作为基础的语音合成系统,以及以被称之为基于语料库之语音合成(corpus-based speech synthesis)者而作为基础的语音合成系统。
不过,即使是对一相对而言较小之储存空间即已足够的该等双音子合成系统而言也需要一大约20Mbyte(兆字节)的储存空间,并且,该基于语料库(corpus-based)之语音合成则是需要多至1Gbyte(千兆位组)、或更多的储存空间。
此储存空间需求对于要能在一嵌入式系统中执行来说,显然地是太大。
参考文献[5]中系叙述有在其中实行一文本转语音转换的一文字转语音转换器装置,以用于一已叙述之特殊例外语汇(specialexception lexicon)。
参考文献[6]中系叙述有一语法装置(parser device),以用于决定来自对其传达信号的一语音信号序列之已预先定义的词句。
发明内容
本发明作为基础的问题系为,提供一种需要相较于已知语音合成方法、或语音合成装置而言之一降低的储存需求的语音合成。
该问题乃是藉由具有根据独立权利要求之特征的用于计算机辅助语音合成一以储存电子文本而形成一模拟语音信号的方法,一语音合成装置,以及一电信装置而获得解决。
在一种计算机辅助语音合成一已储存之电子文本而形成一模拟语音信号的方法中,该已储存电子文本乃是利用已预先定义的文本分析规则而提呈至一文本分析。
通常,该已储存电子文本乃会被储存为一预先定义的电子文本处理格式,举例而言,ASCII,此外,该电子文本系亦可以包含一文本处理系统的控制字符,举例而言,断页控制字符(page breakcharacters)、或格式控制字符。
此文本乃是藉由该方法而被转换成为一模拟语音信号,而该模拟语音信号则是会藉由一扬声器而被输出至一使用者。
在此上下文中,文本分析规则乃是被了解为一组规则,而该组规则则是会进行连续处理,且,正如将于之后进行更详尽解释的,通常是由会叙述将该电子文本的特殊部分移至一或多个语音单元上的一习惯性映像(mapping)的语言特有规则所构成。
若是在检验之下,该等文本分析规则受到满足、或是已经用于该分别电子文本时,则乃会形成一第一语音单元序列。
根据本发明,特别是,下列的单元系可以被使用作为用于接续之连接语音合成的语音单元:
字音区段;
字音;
同位音(allophone);
双音子(diphone);
三音子(triphone);
半音节,特别是,起始半音节,以及最终半音节+基本组件,字尾;
用于覆盖共发声效果(coarticulation effects)的混合清单;
文字;或
一文字序列。
此外,根据本发明的该方法系会测试该电子文本是否被包含在一电子缩写语汇(abbreviation lexicon)中。
该缩写语汇系包含已编码为该电子文本所呈现之格式之预先定义缩写的一映像表,以及该缩写的相关语音录制,举例而言,在SAMPA中编码,以作为该分别之已预先定义缩写的一相对应表示。
若是该电子文本系被包含在该电子缩写语汇中时,则即会形成一第二语音单元序列,并且,该第二序列系会被分配至在该缩写语汇中之该电子文本的该分别电子缩写。
此外,其乃会测试该电子文本是否被包含在一电子功能字语汇(functional word lexicon)中。
在此上下文中,该电子功能字语汇乃是一具有已预先定义之功能字以及该等被分配至该分别之功能字的语音单元的映像表,且再次地,该些功能字系已编码为分别所使用的电子文本格式,且该单元系会于该个别的语音录制中,较佳地是,SAMP,加以编码成为该分别之已预先定义功能自的一相对应代表。
在此上下文中,一功能字系被理解为功能上将名词、或动词连接至彼此的一个文字,举例而言,文字:“for”,“under”,“on”,“with”等。
若是该电子文本系被包含在该电子功能字语汇中时,则即会形成一第三语音单元序列,以对应于在该电子功能字语汇中的该相关词条。
若是用于该电子文本的该等文本分析规则未受到满足,以及该电子文本未被包含在该缩写语汇中、或是在该功能字语汇中时,则一第四语音单元序列乃会利用一例外语汇(exception lexicon)而形成。
在一映像表中已预先定义的例外字符序列,再次地,藉由可使用者而预先定义的可能性,而被储存在该例外语汇中,以及该相关的语音单元序列,其中,一资料变量值组(tuple)依序包括每个资料词条之两个组件的,以及该资料变量值组的该第一组件系为个别的名称,已编码为该电子文本之形式,以及该资料变量值组的该第二组件系为该第一组件的分别表述,已编码为该个别的声音录制。
此外,对语音单元的该分别形成的序列而言,一韵律乃是利用预先定义的韵律规则而产生,以及,接着,该语音信号,较佳地是,该待输出的模拟语音信号,乃会产生自该个别的语音单元序列以及为了该个别的语音单元序列所形成的该韵律。
一用于合成一已储存电子文本而形成一模拟语音信号的语音合成装置系会具有一文本内存,以用于储存该电子文本,以及一规则内存,以用于储存文本分析规则以及用于储存韵律规则。
此外,一语汇内存则是加以提供以储存一电子缩写语汇,一电子功能字语汇,以及一电子例外语汇。
该语音合成装置亦具有一处理器,其乃是以其会利用该等已储存之文本分析规则与韵律规则,以及该等已储存之电子语汇而实行上述之方法步骤的方式而加以建构。
再者,一具有根据本发明之一语音合成装置的电信装置系亦加以提供。
由于利用该等会适应分别之语言且为一最佳化方式之分别发展的电子语汇的已严格模块化、以规则作为基础的方法,一语音合成已经能够具有足够好的品质,即使是在具有一非常受限之储存空间需求的一嵌入式系统中。
本发明一更进一步优点是,为了增加该语音合成的该可达成品质,也考虑到了非常轻易的可扩展性,因为该等分别之电子语汇以及该等规则系可以非常轻易地既行延伸。
本发明的较佳发展是揭示于附属权利要求中。
根据本发明的一改进,该等语音单元乃是会利用已压缩的形式而进行储存,并且,该等已储存之已压缩语音单元的至少一些,特别是,需要用以形成该语音单元序列的该等已压缩语音单元,乃会在该分别之语音序列形成之前,特别是,该第一语音单元序列形成之前,先行进行解压缩,而该等语音单元的该压缩所造成的结果是,达成在该储存语音需求上的一更进一步的大量减少。
无损失的压缩演算式,以及遭受到损失的压缩演算式,都可以被使用作为压缩方法。
显然地,特别是,下列的方法系非常的适合于确保该资料储库的一高度压缩,且仅具有一小量的品质损失:
ADPCM(Adapted Differential Pulse Code Modulation,自适应差分脉冲编码调制);
GSM;
LPC(Linear Predictive Coding,线性预测编码);或
CELP(Code Excited Linear Prediction,码激式线性预估)。
较佳地是,双音子被使用作为语音单元。
该方法系较佳地被使用于一嵌入式系统,为了这个理由,根据本发明的一实施例,该语音合成装置系加以建构为一嵌入式系统。
附图说明
本发明的示范性实施例系加以举例说明于图式中,并且将于之后进行更详尽的解释。
在该等图式中:
图1:其系显示具有根据本发明之一示范性实施例之一语音合成装置的一电信终端设备的一方块图;
图2:其系显示被相嵌在该通信终端设备中之个别构件的一方块图;
图3:其系显示举例说明根据本发明之一示范性实施例,用于语音合成之个别构件的一方块图;
图4:其系显示举例说明文本处理系统以及韵律控制系统之构件的更详细方块图;
图5A至5D:其系显示根据本发明的一示范性实施例,用以形成一总体音调轮廓之一音调模型的个别构件以及其额外重叠的略图;
图6:其系显示举例说明根据本发明的一示范性实施例,用于选择构件之个别方法步骤的一架构图;以及
图7:其系显示举例说明根据本发明的一示范性实施例,用于声学合成(acoustic synthesis)之个别方法步骤的一架构图;
具体实施方式
图1系显示一电信终端设备100,其系具有一资料显示单元101,以用于显示信息,一天线102,以用于接收以及发射无线信号,一扬声器103,以用于输出一模拟语音信号,一小型键盘104,具有输入键105,以用于控制该移动电话100,以及一麦克风106,以用于获取一语音信号。
该移动电话100系加以建构以根据GSM标准,或者,可取代地,根据UMTS标准,GPRS标准,或是任何其它适合的移动无线标准,而进行通信。
此外,该移动电话100系加以建构以传输以及接收文本的信息,举例而言,SMS讯息(Short Message Service Messages,短讯息服务讯息)、或是MMS讯息(Multimedia Service Messages,多媒体服务讯息)。
图2系显示被整合成为该移动电话100之该等个别构件的一方块图,特别地是,一语音合成单元,而其将于之后进行详尽的解释,并且,其系作为一嵌入式系统而被整合进入该移动电话100。
根据该方块图200,该麦克风106系会被耦接至一输入接口201。
此外,一中央处理单元202,一内存203,以及一ADPCM编码器/译码器单元204系会与一输出接口205一起加以提供,其中,该等个别构件系藉由一计算机总线206而彼此进行连接,该扬声器103系被连接至该输出接口205。
当在该双音子语汇中的该已压缩双音子进行解压缩时,要注意的是,该解压缩乃是利用该ADPCM编码器/译码器单元204、并依照该ADPCM而实时的加以实行。
该中央处理器单元202乃是,以之后所叙述之用于实行语音合成之方法步骤以及操作,特别是,译码以及编码移动无线信号,该移动电话所必须之方法步骤会加以实行的方式,而进行建构。
在替代的实施例中,系提供有一分开的计算机单元,特别地是,用于该语音合成者,且该单元系为,举例而言,特别地为了该语音合成所加以建构的一计算机卡,以减缓被提供用于该移动电话范围内之其它任务的该中央处理器单元201。
在一替代的实施例中,该移动电话100乃会额外地为了语音辨识而进行建构。
一方面,该等用于操作该移动电话100所必须的计算机程序207,以及,另一方面,将于之后进行详细解释的相对应文本分析规则208,以及韵律规则209,系会被储存在该内存203中,再者,复数个不同的电子语汇,根据此实施例,一缩写语汇210,一功能自语汇211,以及一例外语汇212,也会被储存在该内存203中。
对于分别之语言而言为惯常使用之一预定数量的缩写,举例而言,接下来的词句以及相关于该分别缩写之语音单元序列,系会被储存在该缩写语汇210中:“bsp.”,“bspw.”,“etc.”,“usw.”,“u.a.”,“d.h.”(“e.g.”,“e.g.”,“etc.”,“and so on”,“i.a.”,“i.e.”,...)。
一预定数量的功能字,以及在语音录制中相关于该等功能字的例子,换言之,相关于该分别之功能字的语音单元序列,系会被储存在该功能字语汇211中,举例而言,在德语中所提供的功能字系为:
für”,“unter”,“mit”,“auf”,...(“for”,“under”,“with”,“on”,...)。
在每一个例子中,对于一语音单元序列的一相对应映像乃会进行定义,并且,被储存在该例外语汇212中,以用于特殊之可预先定义的文本单元。
根据此示范性实施例,双音子系会被使用作为语音单元,而在该语音合成范围内所使用的该双音子则是会被储存在亦被储存于该记忆203中的一双音子语汇213中。
该双音子语汇213,亦被称之为一双音子资料储库、或是一资料储库,系会包含,如上所陈述的,用于语音合成的该双音子,但是根据此示范性实施例,它们乃会在一8kHz的取样频率处进行映像,而如此的结果则是,由于通常也会使用该双音子的一16KHz、或者甚至更高的取样频率,因此,在所需储存空间之量上的一更进一步减少即可以加以达成,而此,当然,在根据本发明的一替代实施例中亦为有可能。
根据此示范性实施例,该双音子系亦会根据该ADPCM(AdaptedDifferential Pulse Code Modulation,自适应差分脉冲编码调制)而进行编码,并且,因此乃是以已压缩的形式而被储存在该内存203中。
正如已经叙述过的,二者择一地,其系亦有可能使用一LPC方法,一CLEP方法,或是该GSM方法,以压缩该双音子,并且,一般而言,在确保由于该压缩所引起的信息损失系为一足够小量的同时,任何提供一足够大程度之压缩的压缩方法都可以加以使用,甚至是对小的信号区段也是一样,换言之,一压缩方法是要选择为具有该编码器的一短的瞬变恢复力,并且,所造成的是一小量的量化噪声。
被储存在该内存203中、并要被输出为一模拟语音信号的一文本讯息的一语音合成将以在图3中的该方块图300做为参考而进行解释。
一电子文本,其系被储存在一电子档案301中,并且,不仅较佳地具有ASCII编码文字,也具有用于形成储存在该电子档案301中之该电子文本的部分、或全部的特殊字符、或控制字符,例如,举例而言,一“新行”字符、或是一“新段”字符。
所以,为了语音合成的目的,该电子文本乃会被递交于在一文本处理操作(区块302)范围内的不同预处理规则,接续地,该已处理电子文本303系会馈送至一模块,亦即,馈送至用于韵律控制304的一计算机程序构件,而在其中,正如于之后会有更详尽之解释的,乃会产生会于该电子文本的该韵律。
接着,在此方法中所产生的该电子文本305乃会实行一构件选择,亦即,语音单元的一选择,而该选择则是会利用该资料储库,亦即,利用其已压缩双音子306已经在接下来所叙述之处理之前藉由该ADPCM编码器/译码器而完成ADPCM译码的该双音子语汇213,以及该选择乃是根据此示范性实施例之所需双音子307的一选择(区块308),再者,该所选择的双音子307,亦即,一般而言,该等所选择的语音单元,乃会被馈送至一计算机程序构件,以用于声学合成(区块309),并且乃会在该处进行结合,以形成一待输出的语音信号,其中,该待输出的语音信号系首先会呈现一数字形式,并且,会进行数字/模拟转换,以形成一模拟语音信号310,以经由该输出接口205而被馈送至该扬声器103,以及被输出至该移动电话100的该使用者。
图4系为更详尽显示该文本处理302以及该韵律控制304的一方块图400。
在该语音合成的范围中,一足够长的电子文本乃会被储存在该电子档案301中,且该文本系会被传递至在一完全相关之内存区域中的该处理器单元202,而根据此示范性实施例,由于该电子文本乃会具有至少一不完全的句子,因此就有可能会产生适当的韵律。
根据此示范性实施例,若是该分别传递自该电子档案301的电子文本比一不完全句子更短时,亦即,若是在所传递之电子文本范围内没有决定任何标点符号时,则该文本将会视为一不完全的句子,以及一句点将会人工地进行添加,以作为一标点符号。
该文本的该预处理(区块401)系具有适应被输入至在该语音合成之范围内部所使用之该字符组中的该电子文本的功能。
对源自不同来源的文本而言,系必须要将它们转换成为该内部使用的字符组,因为,举例而言,德文的元音变化并非在所有的字符组中皆会相关于相同的编码,再者,控制字符系会自该文本中被移除。
结合连字号的换行(line advances)系会被消除,所以,为了这个目的,乃会制作对用于每一个字符之形式信息进行编码的一字符表,至于对亦被储存在该内存203中之该表(未显示)的存取则是藉由该字符之数值而实行。
接下来的分类系会进行区别,并且,亦会被储存在该内存203中之该表中:
[0-9]                            数字                       ZF
[a-z]                            小写字母                   KB
[A-Z]                            大写字母                   GB
[‘’‘-’‘\r\n’‘\n’‘\t’]  白字符(white character)    WZ
                                 (字的边界)
[.,;:?!]                    标点                       IP
[*’”#$%&`()+_/<>...]          特殊字符                   SZ
[‘\n’‘\r\n’‘\t’]           控制字符                   ST
控制字符、或是未被包含在该表中的字符系会自该被输入的电子文本中被删除,其中,该表系为两个程序构件,包括该文本预处理程序构件(区块401)以及之后会叙述的该“拼字”(区块408)程序构件,所使用。
该个别的字符分类系会被编码于一字节中,并且,该字符之标点的形式乃会被增加,以作为一字符链,亦即,作为一语音单元序列,亦即,作为根据该示范性实施例的一双音子序列。总言之,此乃会造成一大约为1kbyte(千字节)的储存需求。
接续地,已藉由该文本预处理装置401而进行过滤的该输入文本402乃会受到在一字形字音(grapheme-phoneme)转换(区块403)范围内之一特殊文本分析规则机制的评估,其中,该文本分析规则机制乃是被储存在该内存203中,且乃会被用以侦测在该已过滤输入文本402中之数字的各式连接,以及用以转换它们(区块404),此外,由于数字系可以包含不仅数字序列,尚可以有因次数(dimensionalnumber)、或货币指针(currency indications),因此,该评估乃会在该已过滤电子文本402的更进一步分解之前加以实行。
接续地,已进行数字检查的该已过滤电子文本405系会利用编译器(tokenizer)(区块406)程序构件而被分开成为部分链(亦即,文字以及句子),之后,该等部分链乃会被称之为符记(tokens)。
该等符记乃会通过该语汇转换装置、或是该字音测试分析规则机制407,若是该符记无法藉由一处理阶段而进行转换,亦即,无法被转变成为一字音序列,亦即,成为一语音单元序列时,则该个别的符记即会藉由在该输出程序范围中的拼字而进行转换,亦即,该符记系会在该语音输出中被视为一个别字母的序列,并且,字母系会相对应地被映像到用于该等个别字母的一双音子序列之上,以及此序列系会作为一已拼出的字符链(a spelled-out chain of characters),并藉由该“拼字”计算机程序构件而被输出至该使用者(区块408)。
利用来自该等文本分析规则之的一特殊规则组,数字以及数字格式系会于该数字转换404的范围中进行侦测,并且,会被转换成为一语音单元序列。首先,根据该数字转换文本分析规则的检查系会加以实行,以决定该字符链是否会对应于一已知的数字序列,以及额外的信息。
如此之用于决定数字以及数字格式之数字转换文本分析规则的实例系利用该字音录制SAMPA而于之后加以载明:
“\Z{1900,1999}”,“n 0Yntse:nhUnd@6t\1{-1900,0}”
“\Z,\Z{0,99}DM”,“\1{0}mark\2{0}”
在此例子中,根据式子“\Z{1900,1999}”,则是在寻找一介于1900以及1999之间的数字,而若是获得如此之数字时,则其乃会被理解为年代的数字,并且,系会相对应地被转换成为一双音子序列,以及因此成为一字音序列,所以,该转换乃会加以实行为在作为已获得、并藉由该规则机制的一第二阶段而进行转换之该等数字的语音单元以及空间标记的一双音子序列上的一映像。
该等数字转换文本分析规则的该等数字规则乃是利用,在该无关于语言之控制解译器以及该等取决于语言的规则本身之间会具有一严格区分的方式,而加以执行。
要注意的是,在此上下文中,对于来自该文本形式之该等文本分析规则的读入与转换,以及于储存方面具效率的一二进元格式,系会与根据此示范性实施例的真实程序有所区别,而如此的结果则是,使得该等文本分析规则在该运作时间期间的有效掌握成为可能。
在该等转换规则的定义中,对于该等最重要的数字格式系具有一限制,以再次地节省内存空间,相反地,基数(cardinal number)与序数(ordinal number),资料与时间(包括该已附加的符记“o’clock”),系会进行转换,不过,藉由简单地对该数字转换文本分析规则进行增加,即可以轻易地在任何时间进行其它格式的增加。
若是该等用于决定数字以及数字格式之规则的其中之一系为可应用时,则该所获得的字符链乃会依照该文本分析规则208而被转换成为该被分配至该分别之规则的双音子序列,换言之,该所发现的字符链乃会为该规则标的所取代,其中,该规则标的系包含空间标记,以用于该等所获得、且已经藉由该规则机制的该第二阶段而完成转换的数字,在此,系具有已经藉由之前已写入之该第一阶段的该等规则而加以召集的复数组规则,举例而言,用于基数、序数、或年代之数字者。
该等基数之处理规则的实例总揽系显示如下:
>99,%10,=0,/100,  ,“\1{0}hUnd@6t”,“\1{0}hundert”
>99,  ,  ,/100,100%,“\1{0}hUnd@6t\2{0}”,“\1{0}hundert\2{0}”
>30,&10,=0,/10,    ,“\1{0}sIC”    ,“\1{0}zig”
=30,  ,,  ,         ,“draIsIc”     ,“drei”sig”
>20,  ,,%10,-0     ,“\1{0}?Unt\2{0}”,“\1{0}und\2{0}”
该待转换的数字系首先必须要满足一条件,否则,该下一个文本分析规则即会进行一检查,或者,其亦可选择地有可能测试一第二条件,为此,该数字系可以于事先进行改变,接着,在该用于最终转换之规则标的中所使用的两个数字,乃会藉由算术运算而产生,而将上述所举例说明之该第一规则变为口语语言的一翻译将会产生,举例而言,如下:
“若是该数字系大于99时,则剩余给定之一模数10操作(theremainder given a modulus 10 operation)乃会相等于零,接着,将辅助数字1设定为由100所区隔之数字,利用该等基数规则而将其转换,以及将该字符链“hUnd@6T”增加至该结果。”
取样规则,亦即,上述用于该第一阶段的该等规则,以及数字规则,亦即,该第二阶段的该等规则,系会包含变为一自然语言的一额外转换,以有利于疑难排解,而在如此的例子中,为了要能够追随来自外界之规则创造的精准顺序,则任何所需的讯息皆可以被产生。
若是一单一标点符号在该符记的该转换之后被遗留下来时,则在此时,一句子边界乃会被插入。
无法满足任何该等既存之数字转换文本分析规则的所有该等数字格式,乃会以一未处理的形式而被传递下去,以及,最终系会在该拼字模式408中被转换成为一双音子序列,在此,一个字母系会分开地一个一个进行转换,以及成为该模拟语音信号306,并且被输出至该使用者。
文字边界系藉由该“编译器”程序构件而进行侦测,亦即,个别的文字乃会藉由位在它们之间的该等白字符而进行侦测,再者,根据该等字符的型态,该符记不是会被归类为一文字(大写以及小写字母)、就是会被视为一特殊格式(特殊字符)。
此外,句子边界乃会在直接于一文字之后被侦测到跟随着空格符之标点符号的所有该些位置处进行标记,若是一并非数字的符记系包含有多于一个的特殊字符时,则其乃会藉由该写入模式而被映像进入该模拟语音信号,然后被输出。
此外,在该已过滤之电子文本中,被包含在该缩写语汇210以及该功能自语汇211中的该些文字、或词句乃是利用该等语汇210,211而加以决定,并且,所获得的该等缩写、或功能字乃会被转换成为相对应的该双音子序列。
根据此示范性实施例,在该等语汇210,211中寻找一符记之前,所有的该等大写字母系皆会被转换成为小写字母,且文字分类信息“名词”乃会保留被写入为具有起始大写字母的文字,另外,若是该文字系在该个别的语汇210,211中被发现时,则即会藉由其字音录制,亦即,藉由如先前所解释之该双音子序列,而实行取代。
该等语汇的结构对所有所储存之词条而言都是相同的:
该文字的该字形形式,以及具有重音标记与音节边界标记的该字音形式,乃会与该文字分类一起进行分配。
根据此示范性实施例,接下来的文字分类乃是为了充分正确的重音以及分节所做的区分:
名词    S
动词    VB
副词    AV
形容词  ADJ
功能字  Fkt
该功能字分类系包含非常频繁发生的文字,以及因此,系具有一非常小的信息容量,并且,很少会强调重音,其中,此特性乃会于该声学合成309的范围中加以利用,正如将于之后进行的更详尽解释。
该等文字分类系会为了稍候重音强调的目的而在一字节中进行编码,并且,系会被分配至该个别的文字。
此外,乃会实行检查,以决定该分别之文字、或是该分别之词句是否被包含于该例外语汇212中。
若是该文字未被包含在该例外语汇212中时,则其系会利用该字音文本分析规则机制而进行转换,其中,该等字音文本分析规则系具有如下之结构:
XYZ→W
该等字音文本分析规则系如下进行:
若是其系发生于该待录制文字中之X的右边以及Z的左边时,则Y乃会为W所取代,在此,X,Z,以及W系可以为空的、或是包含一至五个字符、或分类符号,分类符号系为一字母群、或是字母序列的空间标记,正如在接下来的表中所定义的一样:
V={a e i o u   ü y}  #元音字母
B={a o u}              #后元音字母(rear vowels)
D={u au ai ay ei ey eu}  #双元音
C={b c ch d f g h j k l m n p  子音子母
ph qu r s s ch t v w x z β}
P={b d g}              #浊音
                        破裂音
K={b d g p t k}     #破裂音
L={l m n r}         #流音
T={bb ck dd ff gg kk ll mm nn  #双子音字母
pp rr ss tt zz}
S={abel al alis ant anz rin ator  #名词的重音衍生字尾
ell ent enz ett eur iant ibel
iell ient in ion ismus ist istik
istin it is iv ivum}
N={chen ler lein lich ling nis}  #名词的未加重音衍生字尾
O={ein ik isch ium ius um ung}  #名词的未加重音衍生字尾
U={ier}                #动词的重音衍生字尾
E={e em en e ser ern n nen s ere  #字尾
Erem eren erer eres ste sten}
I={e en est et ete eten etest etet  #动词字尾
N st t te ten test tet}
X以及Y系可以包括该等字符“@”以及“#”,其中,“@”系可以是任何字符的一空间标记,以及“#”系代表该文字边界。
该等规则乃是根据该规则组的第一字母而加以安排,因此,在每一个例子中,需要进行搜寻的仅所有该等规则的一次组,而在该分别之区段的范围中,该等规则乃是自最特殊到最一般地来进行整理,以确保至少会进行该最后的规则,当一规则系可以加以应用时,该系统系会自该规则的该处理跳脱,将该规则的该结果W附加至已经为了该当前文字而存在的该字音序列,并且,指针乃会藉由在该规则组中之字符的数字而往前到达该待转换字符链。
为了提供代表在该内存203之储存范围内之该规则机制的一有效方法所做的努力乃是以1254个规则的数量作为基础,若是一规则的所有四个部分皆被储存在具有一固定行数量以及列数量的一表格中时,则在每一个状况下,于一个直接在另一个后面的一行之上,该最长总体规则的长度系必须被使用作为该表格的宽度,在此例子中为19个字节,此外,对于该等规则的存取则是会由于此栏结构而变得非常简单,但是却具有一23kilobyte(千字节)的储存需求。
在一替代变化中,该等规则构件乃会紧密地包装成为一矩阵,而为了这个理由,即会需要用于存取之具有一2500位组长度之指针的一另一字段,但是该总体储存需求却仅为15千字节。
若是所有该等录制尝试皆已失败时,亦即,若是根据该等字音文本分析规则的该映像也没有作用的时候,则该符记系会藉由将每一个字符取代以其相对应的语音代表而进行拼字,并且,系会利用一相对应的方式而将其输出,再者,由于该文本所产生的极度延长(藉由n个新字符而取代每一个字符),因此,根据此示范性实施例,每一个符记所可以进行拼字的字符数量将会被限制为一最大值10。
若是该不完全链已经成功地被转换一流通的形式时,则该字音序列将会呈现为该等字音的一语音单元序列。
对在该韵律控制器34之范围,尤其是,该重音强调以及成为音节(区块409),声音长度控制器(length-of-sound controller)(区块410),以及音调控制器(区块411)的区分,之内的该接续韵律处理模块而言,很重要的是,必须要知道音节边界以及重音位置、或该计算机程序构件409所取得的重音型态。
此信息的一些系已经被包含在该符记得该字音序列中,当该符记若是已经利用具有用于转换数字以及数字间隔的该等规则、或是在该拼字模式中的该等语汇210,211,212的其中之一而产生的时候,而在此部分中,该前述的信息乃是收集自该字音序列。
但若是该音节边界信息、或重音强调信息尚无法获得时,则其乃会藉由一另一试探控制机制而产生,此将于之后有更详尽的解释。
来自该亦被储存在该内存203中的字音表的该信息系会被用于分析该字音序列的语法,并且被用于将个别的字音分类成为一长元音,短元音,摩擦音等,其中,该字音表乃会包含49个字音,以及特殊字符(主要重音以及次要重音,音节分配器,中断),以及分类特征(长元音、短元音、双元音、子音种类等)。
该等音节区分规则乃是以假设在所有语言中之特殊语音分类系会由于一般的生理条件而具有相似之作用来作为基础,而为了实行区分音节,音节核心、或多个音节核心型态乃会先行加以决定,并且,该音节边界乃会根据试探规则而在该元音间子音序列的范围内做出决定。
一重音乃会根据该重音规则而被分配给在该文字中、具有一长元音、或双元音的第一个音节,若是没有任何此两种音节核心型态出现时,则该重音即会被分配给具有一短元音的第一个音节。
最终,某些文字重音乃会与一试探结合,则远离在前句子之重音且落在该词组之范围中的该字符分类系会被升级至一句子重音,所以,为了该已合成语音之语音律动,一根据Klatt/Kohler之以声音为基础的规则机制乃会加以执行(如参考文献[1]以及[2]所述)。
对每一个字音分类皆为不同、且被储存在该字音表中之毫秒等级的一起始声音长度,乃会藉由考虑到各种影响因子的一规则机制而进行修饰。
根据此示范性实施例所使用的影响因子系为重音状况,相邻发音(共发声因子(coarticulation factor)),该声音在该音节中的位置,以及该音节在该文字以及在该句子中的位置,当然,其它适合的标准也可以列入考虑。
该起始声音长度系可以藉由分配至该等影响的因子而获得延长、或是缩短,其中,缩短仅允许缩短至一最小长度。
该声音长度系会根据下列的规则而进行计算:
声音长度=k·((Dinh-Dmin)·Pr cnt+Dmin)
其中,
k系为一共发声因子,
Dinh系为一固有声音长度,
Dmin系为一最小声音长度,以及
Prcnt系为整体影响因子。
该模型系提供了每一个声音的一特殊声音长度,以及系提供了在句法边界处中断的长度,再者,阶段边界、句子部分边界、以及段落边界系提供了具有成长长度的中断。
一语音旋律系藉由来自该程序构件声音长度控制(区块410)以及已经取得之重音信息的该先前所取得的声音长度资料,以及藉由已经获取自该字形/字音转换403的该句子型态信息,而在用于整个电子文本的该音调控制程序411的范围内进行计算,满足下列需求的下列模型乃被用于此:
重音为可听见,
词组以及功能结构系为可听见(中断、旋律轮廓),
具有自然变化的一代表,以及
由于缺乏对于该文本的了解,因此要确保一中性音调。
根据该所使用的模型,来自线性构件部分的音调轮廓(比较,图5A至图5D)乃藉由附加的重叠而放置在一起。
以重音作为基础的构件以及以词组作为基础的构件乃会于程序中加以区分。
该等以词组作为基础构件乃是利用跨越每一个词组的知识而形成,基础频率系会自开始而连续地掉落至该词组的末端(倾斜),该基础频率移动的间隔宽度系可以自由地选择为该模型的一控制变量。
图5A系显示一最小基础频率501以及在一时间图表500中的一相对平均基础频率502,以及变量曲线503,该基础频率系沿着时间而绘制。
为了形成该等以句子型态作为基础之构件,所使用的辨识系为,在每一个词组的末端处,该倾斜线乃会依据待了解之该句子的型态而被连结至该词组典型的一最终移动。
此移动乃是自在该词组中之该最后句子重音的位置处延伸至该词组的末端,然而,最大是跨越该词组织的最后五个音节。
信息的提供以及惊叹号乃会引起该基础频率朝向该词组之该末端的一额外下降,连续句子以及一词组边界乃会引起在该基础频率中的一轻微上升,以及一疑问则是会引起在该基础频率中朝向该词组末端的一明显上扬。
这些词组决定之移动的数值范围系可以在该模型的范围中自由地进行选择。
图5B系显示在一第二时间图表510中,朝向该词组之该末端,用于不同句子型态的该基础频率变量曲线。一第一基础频率变量曲线511系代表该最终移动,一第二基础频率变量曲线512系代表一不间断的移动,亦即,一连续句子,以及一第三基础频率变量曲线513系代表一疑问。
此外,一以重音作为基础的构件系会被考虑作为一用于该整体韵律的构件,而所使用的辨识则是,若是发声具有一句子重音的一音节时,该基础频率乃会跨越该整个音节地进行上升,并且会跨越接下来音节之持续期间地在此下降至该倾斜线,再者,该重音的水平系可以利用其可自由地适应该应用的方式,而依次地被选择为该模型的一控制变量。
图5C系显示在一第三时间图表520中,用于不同音节之如此的不同重音强调,一由三个区域所组成的第一重音构件521,其中,该基础频率乃会在一第一上升区域(在一第一时间期间522)中自该倾斜线上升至该重音的水平523,乃会于一第二时间期间524被维持在该重音水平523,并且仅会在一第三时间期间525中再次地回复至该倾斜线。
一第二重音结构526系仅形成自两个时间期间,该基础频率会于其中自该倾斜线被增加至该重音水平523的上升分支527,以及该基础频率可以直接在该重音水平523已经达到之后再次地被连续降低至该倾斜线(第二时间期间528)的下降分支528。
图5D系显示在一第四时间图表530中的一总体韵律531,其中,该总体韵律系代表在图5A至图5C中所表示之该等个别构件的该附加重叠。
在该总体韵律,亦即,该总体轮廓531,的计算之后,在每一个例子中,一数值乃会依照所决定的该总体韵律而被分配至所牵涉到的每一个字音,亦即,分配至在该总体旋律用以决定的该文字链中的每一个字音。
接着,该音调轮廓乃会在该声学合成309的范围内,藉由在该等以字音作为基础之参考点之间的线性插入而进行再制。
在本发明的一替代架构中,系提供有被用于文字之重音强调的一语言方面动机的重音算法。
根据上述的该示范性实施例,该重音乃会被置于该第一长元音之上、或是若无法发现长元音时,被置于该文字的第一短元音之上。
在此上下文中,通常,仅名词会受到考虑,并且,文字的其它型态仅有在该文字重音若是发生在长时间之前时,才会加以考虑,以避免一单调的发音。
功能字发生的非常频繁,并且在考虑到某些程度之冗余之下,基本上未加重音。
在一替代实施例中,接下来的四个规则组乃被使用作为基础:
该“重”决定音节的延长,
倒数第二音节规则,
可以加重音之下一个音节的规则,以及
概略规则。
相对于上述的解决方案,该等文字音节乃是自右至左地进行考虑,亦即,开始于该文字的该末端音节。
若是该末端音节系为“重”音节时,则该加重音(1)乃会移至该倒数第二音节,若是该倒数第二音节可以进行加重音时,也就是说,不是一个“非重读央元音(shwa)”音节时,则该音节即会进行加重音,除此之外,在每一个步骤中,系会具有朝向该文字之开头方向之一音节的一飘移,直到发现一可加重音音节为止、或是已经到达该文字的开头为止。
将该等音节区分为字音种类,“重音节”,“轻音节”,以及“非重读央元音”音节乃是根据在参考文献[3]以及[4]中所提出的定义。
非重读央元音音节乃是包含有非重读央元音声音,“@”,“n=”,“m=”,或“N=”,的其中之一的音节。
不具有一结尾的音节,也就是说,结束在一元音,系基本上为轻音节,而若是该结尾乃是由二、或多个子音所组成时,则其系为一重音节。
当该结尾精确地有一个子音所组成的例子将会更为复杂,在此状况下,以该音节核心作为基础,其乃会决定是否为一轻音节(具有一短元音,以作为音节核心)、或是一重音节(具有一长元音、或是在该音节核心中的双元音)。
利用该语音体系CV表述,且在其中,“延展的”(长)元音表示为VV,“未延展”的元音表示为V,以及子音表示为C,则系可以归结如下:
非重读央元音音节:@,n=,m=,N=作为核心,
轻音节:         C+VV,C+VC,以及
重音节:         C+VVC+,C+VCC+,
其中,C+系代表一或多个子音。
在决定该音节之加权中,该音节的开始(开头)并没有扮演任何角色。
此外,在一替代的实施例中,其系提供有对于该语音合成之强度的控制。而该强度参数乃是藉由预处理所加以产生,并且,乃会被用以影响该已语音合成信号的动态范围(以及因此自然状态)。
该预处理乃会藉由所谓的PSOLA算法、或是此方法的一适当衍生,而在连接之后周期性地加以实行,另外,该已语音合成信号的该等个别取样数值乃会被乘上将该信号调整至该所需目标强度(以dB表示)的一因子。
此程序乃是根据下列的规则而实行:
S Pu ( i ) = S Pu ( i ) &CenterDot; 10 I Pu 20 db .
在此,SPu(i)系代表该待合成语音构件u之第p个周期的第i个取样数值,该所需的强度则是为了该字音构件u的每一个周期p,而藉由该语音信号之已于参考点处预先定义的该等目标强度系会在这些参考点间进行线性插入,来进行重新计算。
该等强度控制功能系可于一方法中与前述之运作该基础频率控制的该方法进行比较,其中,该强度控制的以及该基础频率控制的该等分别之参考点乃可以无关于彼此地自由进行选择。
该等目标强度乃是利用单元[dB]而加以载明。一0dB的目标强度并不会引起在该等信号构件之该等取样数值中的一改变,而该等待测试之目标强度则是会形成在该等资料储库模块中之该强度的相关改变的一指针,也就是说,较具优势地是,其使用具有已平衡之强度变量曲线的数据储库。
在图3中所表示之该模块选择器304将于之后有更详尽的解释。
该模块选择器304的功能系在于,自作为藉由该预处理装置所供给之该符号序列(字音序列或音节序列)的一函数的该数据储库、或该资料储库叙述中决定以及选择出该等适合的模块,以及根据该示范性实施例而决定以及选择出该声学合成该等适当双音子。
利用此方法所产生的该模块序列系会被提供以已藉由该预处理装置而产生的韵律附加信息,正如已于前述中解释过的(声音长度,基础频率变量曲线)。
为了利用一简化的方式来举例说明该模块选择程序,在该等个别构件之该等接口处的不同数据结构系加以定义如下。
该预处理装置系会产生该数据结构SMPROS的一数组,并且,会以必要的资料将其填满,且该结构乃是以一拟码(pseufocode)的方式而载明如下:
Strut GF {
int      fn;
int      fn;
};
Struct SMPROS{
int      anzEI;
char**   EI;
char*    laut;
int      dauer;
int      gfAnz;
struct GF*  gf;
};
该数组的每一个组件系包含用于一符号的信息(字音,音节,...)。
再者,该数据结构SM的一数组结构乃是藉由该模块选择器所加以产生,并且,会被传递至该声学合成装置。
该数据结构SM系显示如下:
Struct SM {
int          anzEI;
char**       EI;
char*        unit;
int          anzLaute;
struct SMPROS*  laut;
};
该构件单元系包含该模块的名字,anzLaute,被包含在该模块中之符号(字音,音节,...)的数量,而所有其它的构件则是会自该数据结构SMPROS被传递至该预处理装置。
该数据结构INV的该数组系会包含有关一数据储库的叙述数据,而在开始之前,该数组乃会读取自该待使用之资料储库的该相对应二进元档案。
该结构INV系显示如下:
Struct  INV  {
char           kanon[MAX_UNIT_LENGTH];
long           startBin;
int            anzPer;
long           startPm;
int            anzLaute;
int*           lastPer;
};
该数组INV的每一个组件乃会包含一字音模块的资料,其中,该等组件系会根据该结构之该组件kanon的该起始符号,根据被包含在该模块中之符号(字音,音节,...)的数量,以及根据(在此序列中之)该结构的该组件序列kanon的长度,而进行储存,而此则是会允许对于在该数组中之该所需模块的有效寻找。
图6系显示在一架构图600中,根据本发明之该示范性实施例的该模块选择的程序。
在一第一步骤601中,一具有一长度零的中断系会被插入在藉由光标*SMPROS所辨识的该第一组件之前,此系被用以发现在该资料储库中的该起始模块,接着,变量i乃会加以起始为0(步骤602),并且,接下来的步骤乃会在该分别之SMPROS结构的所有该等组件(所有该等声音)的一第一音调回路603中实行,再者,在该资料储库中,乃会决定适应于在该结构之该当前位置i处的该组件序列的该最长声音序列(步骤604)。
若是已经发现如此的一模块时(步骤605,步骤606),则该模块即会被增加至该数据结构SM,以及该变量i乃会藉由其符号序列会相等于该符号序列in*(SMPROS+i+j)之符号的最大数量的数值anz而进行增加。
此外,检查亦会加以执行,以决定在该模块中是否包含有该等声音的取代声音,以及若是如此的一取代声音存在的话,则该声音即会被取代(步骤608),反之,该变量i的该数值乃会藉由数值1而进行增加(步骤609),并且,该等步骤604至609的重复回路乃会为了该变量i的新数值而运作,直到该SMPROS结构的所有该等组件都已经完成测试为止。
此即清楚的表示,若是发现具有该相对应声音序列的一模块时,则该模块系会被增加至该SM结构,以及该SMPROS结构的该当前位置则是会藉由在该被发现之模块中之该等声音的数量而进行增加。
该声学合成309将于之后进行更详尽的解释。
该声学合成309的功能系在于,依照该模块选择的预先设定而连接该等信号区段。
在该连接的范围之内,该基础频率以及该声音长度乃是藉由该PSOLA算法而加以操纵。
该声学合成309的该输入变量系为该“模块选择器”308程序构件所产生的该SM结构,其中,该SM结构系包含该等待连接的模块,以及相关于已藉由该预处理装置所产生之该基础频率以及该声音长度的信息。
在图7中的该架构图700中,该声学合成309的该等个别方法步骤系加以呈现。
在该声学合成305的范围中,该所要求模块的所有该等声音乃会周期性地进行合成,亦即,一外接回路701系会为了在该结构SM中的所有该等组件i而加以运作。
在一第一步骤中,检查系会于每一个例子中加以实行,以决定该声音j是否代表一中断(步骤702)。
若是的话,则该中断就会被合成成为一语音信号(步骤703)。
然而,若是不是的话,则接下来的音调回路704乃会为了该模块之所有该等声音j而实行。
在该音调回路704的一第一区段中(步骤705),乃会计算该所需的声音长度。
接着,该声音j的起始周期的数值乃会被分配至变量k(步骤706)。
只要该变量k的该数值一小于、或是等于该声音j的该最终周期(检查步骤707),则就会实行下列的方法步骤:
在一步骤708中,决定具有下一个目标基础频率的一参考点(步骤707)。
接着,所需的周期长度系会根据该已插入基础频率轮廓而加以计算(步骤709)。
然后,系会执行检查,以决定该已于先前合成的声音长度是否短于、或相等于该成比例的所需声音长度(步骤710),以及,若是此条件系获得满足时,则就会根据该PSOLA算法而合成具有该所需周期长度的该周期(步骤711)。
接着,再次地实行测试,以决定到目前为止所合成的该声音长度是否短于、或相等于该成比例的所需声音长度(步骤712)。
若是不是的话,则该变量k的数值系会藉由数值1而进行增加(步骤713)。
此程序系清楚的表示,取决于周期的插入以及发散,不同的周期乃会藉由该PSOLA算法而受到重叠,否则的话,该周期维持自己本身。
该基础频率轮廓乃是决定自藉由该PSOLA算法所获得的该等所需周期长度,而该等预先定义的声音长度则是大略地藉由周期的插入以及发散而加以获得。
该等信号区块,亦即,该等模块,乃会连续地被储存在该内存(short*)中,有关该等模块之该等起始取样数值、周期之数量、该等周期之该等起始取样数值等的信息系会被储存在该结构INV中,以及有关每一个周期之取样数值之数量的信息系会被储存在如下所建构的结构PERIODE中:
struct PERIDE {
short       perLen;
unsigned char    anreg;
unsigned char    dummy;
};
下列的出版品系于此文件中作为参考之用:
[1]Dennis H.Klatt,Synthesis by rule of segmentaldurations in English sentences,Frontiers of speechcommunication research,ed.B.Lindblom and S.hman,Academic Press,London,pp.287-300,1979.
[2]Klaus J.Kohler,Zeitstrukturierung in derSprachsynthese,in:Digitale Sprachverarbeitung,ITG-Tagung[Structuring of time in speech synthesis,in:Digital speechprocessing,ITG conference],Bad Nauheim,edited by A.Lacroix,VDE-Verlag,Berlin,pp.165-170,1988.
[3]Caroline Fery,German Stress in Optimality Theory,Journal of Comparative Linguistics,pp.101-142,1998.
[4]Petra Wagner,Systematicsche berprüfung deutscherWortbetonungsregeln[Systematic checking of German wordstress rules],in W.Hess,K.Stber(Editors),ElektroischeSprachsignalverarbeitung[Electronic speech signalprocessing],Conference papers from the 12th Conference 2001,pp.329-338,2001.
[5]WO 00/45373 A1
[6]DE 691 31 549 T2
参考符号列表
100                                    电信终端
101                                    数据显示单元
102                                    天线
103                                    扬声器
104                                    小型键盘
105                                    输入键
106                                    麦克风
200                                    方块图
201                                    输入接口
202                                    处理器单元
203                                    内存
204                                    ADPM编码器/译码器单元
205                                    输出接口
206                                    计算机总线
207                                    计算机程序
208                                    文本分析规则
209                                    韵律规则
210                                    缩写语汇
211                                    功能字语汇
212                                    例外语汇
213                                    双音子语汇
300                                    方块图
301                                    档案
302                                    文本处理装置
303                                    已处理之电子文本
304                                    韵律控制
305                                    产生韵律之后之电子文本
306                                    已压缩双音子
307                                    双音子
308                                    模块选择器
309                                    声学合成
310                                    模拟语音信号
400                                    方块图
401                                    文本预处理装置
402                                    已过滤之输入文本
403                                    字形/字音转换
404                                    数字转换
405                                    已搜寻过数字的已过滤文本
406                                    编译器
407                                    语音规则
406                                    重音强调/分开为音节
407                                    声音长度控制
408                                    音调控制
500                                    第一时间图表
501                                    最小基础频率
502                                    相关平均基础频率
503                                    音调轮廓
510                                    第二时间图表
511                                    第一轮廓变量曲线
512                                    第二轮廓变量曲线
513                                    第三轮廓变量曲线
520                                    第三时间图表
521                                    第一重音构件
522                                    第一时间期间
523                                    重音水平
524                                    第二时间期间
525                                    第三时间期间
526                                    第二重音构件
527                                    第一时间期间
528                                    第二时间期间
530                                    第四时间期间
531                                    总体音调轮廓变量曲线
600                                        架构图
601                                        方法步骤
602                                        方法步骤
603                                        方法步骤
604                                        方法步骤
605                                        方法步骤
606                                        方法步骤
607                                        方法步骤
608                                        方法步骤
609                                        方法步骤
700                                        架构图
701                                        方法步骤
702                                        方法步骤
703                                        方法步骤
704                                        方法步骤
705                                        方法步骤
706                                        方法步骤
707                                        方法步骤
708                                        方法步骤
709                                        方法步骤
710                                        方法步骤
711                                        方法步骤
712                                        方法步骤
713                                        方法步骤

Claims (7)

1.一种计算机辅助语音合成一已储存的电子文本而形成一模拟语音信号的方法,
其中,该已储存电子文本乃会利用已预先定义的文本分析规则而提呈至一文本分析;
其中,若是用于该电子文本的该等文本分析规则获得满足时,则即会形成一第一语音单元(phonetic units)序列;
其中,其乃会测试该电子文本是否被包含在一电子缩写语汇(abbreviation lexicon)中;
其中,若是该电子文本是被包含在该电子缩写语汇中时,则即会形成一第二语音单元序列;
其中,其乃会测试该电子文本是否被包含在一电子功能字语汇(functional word lexicon)中;
其中,若是该电子文本是被包含在该电子功能字语汇中时,则即会形成一第三语音单元序列;
其中,若是用于该电子文本的该等文本分析规则未受到满足时,则一第四语音单元序列乃会利用一例外语汇(exception lexicon)而形成;以及
其中,该个别的语音单元序列的一韵律(prosody)乃是利用已预先定义的韵律规则而产生,
其中,该模拟语音信号乃是产生自该个别的语音单元序列以及该韵律;
其中,该等语音单元乃是利用已压缩的形式而进行储存;以及
其中,该等已储存的已压缩语音单元的至少一些乃会在形成该个别的语音序列之前,先行进行解压缩。
2.根据权利要求1所述的方法,其中,该压缩乃是根据下列方法的其中之一而实行:
ADPCM;
GSM;
LPC;或
CELP。
3.根据权利要求1或2所述的方法,其中,双音子(diphone)乃会被使用作为语音单元。
4.根据权利要求1至3其中之一所述的方法,其乃被使用于一嵌入式系统中。
5.一种语音合成装置,用于合成一已储存电子文本,进而形成一模拟语音信号,包括,
一文本内存,以用于储存该电子文本;
一规则内存,以用于储存文本分析规则以及韵律规则(prosodyrules);
一语汇内存,以用于储存一电子缩写语汇,一电子功能字语汇,以及一电子例外语汇;
一处理器,其是以会利用该等已储存的文本分析规则与韵律规则以及该等已储存的电子语汇而实行下列步骤的方式来进行建构:
该已储存电子文本乃是利用预先定义的文本分析规则而提呈至一文本分析;
若是用于该电子文本的该等文本分析规则获得满足时,则即会形成一第一语音单元(phonetic units)序列;
其测试该电子文本是否被包含在一电子缩写语汇(abbreviationlexicon)中;
若是该电子文本是被包含在该电子缩写语汇中时,则即会形成一第二语音单元序列;
其测试该电子文本是否被包含在一电子功能字语汇(functionalword lexicon)中;
若是该电子文本是被包含在该电子功能字语汇中时,则即会形成一第三语音单元序列;
若是用于该电子文本的该等文本分析规则未受到满足时,则一第四语音单元序列乃会利用一例外语汇(exception lexicon)而形成;
该个别的语音单元序列的一韵律(prosody)乃是利用已预先定义的韵律规则而产生;以及
该模拟语音信号乃是产生自该个别的语音单元序列以及该韵律,
该等语音单元乃是利用已压缩的形式而进行储存;以及
其中,该等已储存的已压缩语音单元的至少一些乃会在形成该分别之语音序列之前,先行进行解压缩。
6.根据权利要求5所述的语音合成装置,乃加以建构为一嵌入式系统。
7.一种电信装置,其具有根据权利要求5或6所述的一语音合成装置。
CNB038226553A 2002-09-23 2003-09-23 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置 Expired - Fee Related CN100354928C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10244166.9 2002-09-23
DE10244166 2002-09-23

Publications (2)

Publication Number Publication Date
CN1685396A true CN1685396A (zh) 2005-10-19
CN100354928C CN100354928C (zh) 2007-12-12

Family

ID=32038177

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038226553A Expired - Fee Related CN100354928C (zh) 2002-09-23 2003-09-23 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置

Country Status (4)

Country Link
EP (1) EP1554715B1 (zh)
CN (1) CN100354928C (zh)
DE (1) DE50312627D1 (zh)
WO (1) WO2004029929A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105895076A (zh) * 2015-01-26 2016-08-24 科大讯飞股份有限公司 一种语音合成方法及系统
CN105895075A (zh) * 2015-01-26 2016-08-24 科大讯飞股份有限公司 提高合成语音韵律自然度的方法及系统
CN108231058A (zh) * 2016-12-17 2018-06-29 鸿富锦精密电子(天津)有限公司 语音辅助测试系统及语音辅助测试方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013219828B4 (de) * 2013-09-30 2019-05-02 Continental Automotive Gmbh Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105895076A (zh) * 2015-01-26 2016-08-24 科大讯飞股份有限公司 一种语音合成方法及系统
CN105895075A (zh) * 2015-01-26 2016-08-24 科大讯飞股份有限公司 提高合成语音韵律自然度的方法及系统
CN105895075B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 提高合成语音韵律自然度的方法及系统
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及系统
CN108231058A (zh) * 2016-12-17 2018-06-29 鸿富锦精密电子(天津)有限公司 语音辅助测试系统及语音辅助测试方法

Also Published As

Publication number Publication date
EP1554715B1 (de) 2010-04-14
WO2004029929A1 (de) 2004-04-08
DE50312627D1 (de) 2010-05-27
CN100354928C (zh) 2007-12-12
EP1554715A1 (de) 2005-07-20

Similar Documents

Publication Publication Date Title
CN1324556C (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1879147A (zh) 文本到语音转换方法和系统、及其计算机程序产品
CN1842702A (zh) 声音合成装置和声音合成方法
CN1328321A (zh) 通过语音提供信息的装置和方法
CN1168068C (zh) 语音合成系统与语音合成方法
EP2207165B1 (en) Information processing apparatus and text-to-speech method
CN1290031C (zh) 字符信息的转换处理系统
US7809572B2 (en) Voice quality change portion locating apparatus
CN1906660A (zh) 语音合成装置
CN1171396C (zh) 语音声音通信系统
US20010044724A1 (en) Proofreading with text to speech feedback
CN1702736A (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1014845B (zh) 在结构式文件中制作、扩展及收缩组元标记的技术
CN1731509A (zh) 移动语音合成方法
CN1438626A (zh) 具有语音合成功能的信息处理装置及方法
CN1813285A (zh) 语音合成设备、语音合成方法和程序
JP4811557B2 (ja) 音声再生装置及び発話支援装置
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
CN1855223A (zh) 音频字体输出设备、字体数据库和语言输入前端处理器
CN1598924A (zh) 利用多语言字典执行语音识别的系统和方法
CN1471078A (zh) 字识别设备、字识别方法和字识别程序
Schmidt et al. A Swiss German dictionary: Variation in speech and writing
CN1266633C (zh) 语音查询中的辨音方法
CN1685396A (zh) 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置
US20150293902A1 (en) Method for automated text processing and computer device for implementing said method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: INTEL MOBILE COMMUNICATIONS TECHNOLOGY LTD.

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG

Effective date: 20120614

Owner name: INTEL MOBILE COMMUNICATIONS LTD.

Free format text: FORMER OWNER: INTEL MOBILE COMMUNICATIONS TECHNOLOGY LTD.

Effective date: 20120614

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: INFINEON TECHNOLOGIES AG

Free format text: FORMER NAME: INFENNIAN TECHNOLOGIES AG

CP03 Change of name, title or address

Address after: Neubiberg, Germany

Patentee after: Infineon Technologies AG

Address before: Munich, Germany

Patentee before: INFINEON TECHNOLOGIES AG

TR01 Transfer of patent right

Effective date of registration: 20120614

Address after: Neubiberg, Germany

Patentee after: Intel Mobile Communications GmbH

Address before: Neubiberg, Germany

Patentee before: Infineon Technologies AG

Effective date of registration: 20120614

Address after: Neubiberg, Germany

Patentee after: Intel Mobile Communications GmbH

Address before: Neubiberg, Germany

Patentee before: Intel Mobile Communications GmbH

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071212

Termination date: 20160923

CF01 Termination of patent right due to non-payment of annual fee