CN1801321B

CN1801321B - 文字转语音的系统与方法

Info

Publication number: CN1801321B
Application number: CN2005100042522A
Authority: CN
Inventors: 沈家麟; 廖文伟; 蔡锦和
Original assignee: Delta Optoelectronics Inc
Current assignee: Delta Electronics Inc; Delta Optoelectronics Inc
Priority date: 2005-01-06
Filing date: 2005-01-06
Publication date: 2010-11-10
Anticipated expiration: 2025-01-06
Also published as: CN1801321A

Abstract

本发明提供一种文字转语音系统，其包含：一文字处理器，用以将包含至少一第一语言与一第二语言的文字字符串区分为一第一语言文字数据与一第二语言文字数据；一通用音标库，包含多个通用音标，其是该第一语言与该第二语言通用的音标；至少一第一语音合成单元与一第二语音合成单元，用以通过该多个通用音标，分别产生对应于该第一语言文字数据的一第一语音数据以及对应于该第二语言文字数据的一第二语音数据；以及一韵律处理器，用以将该第一语音数据与该第二语音数据的韵律最佳化。

Description

文字转语音的系统与方法

技术领域

本发明是关于一种处理文字转语音的系统与方法，更特别地，本发明是关于一种用于处理多语言文字转语音的系统与方法。

背景技术

对于文字转语音(text-to-speech)系统而言，无论接受的是一段文字的输入或是一篇文章，这些文字本身并没有包含任何声学特性(说话的声调、停顿方式、发音长短等韵律)，只有语言学的特性，所以必须通过自动预测的机制来产生这些文字的可能的声学特性(acustic feature)，近来流行串接法，就是以一个录好声音的语料库来当作比对的标的，从语料库中抓出相对应的声音单元。

文字转语音系统主要的功能在于将所输入的文字转换成自然流畅的语音输出。请参阅图6，其是说明对于处理单一语言的公知文字转与语音系统的运作流程，其中首先所输入的一文字字符串(text string)先经过语言处理(linguistic processing)，将文字字符串拆分成数个语义段落(semanticsegments)，该语义段落包含相对应的音标(acoustic unit)。语言处理在不同的语言会有不同的考虑，以中文“你吃过早餐了吗”为例，经过断词、破音字处理以及声调处理等语言处理后，变成：“你(音标：ni3)吃过(chi1guo4)早餐(zao3 can1)了(le5)吗(ma1)”；然而以英文“Have you hadbreakfast”为例，并不需要断词，而是要处理每个英文单字所对应的音标及重音的位置等，成为“Have(haev)you(yu)had(haed)breakfast(breykfast)”。在语言处理后，接着对于每一个语义段落利用合成处理(synthesis process)的技术，组合出相对应的语音数据，最后进行韵律处理(prosody processing)，对于整句话中每个音素的基周曲线(pitch contour)、音量及音长等作一个整体的处理。

美国专利6,141,642揭示一种多语言文字转语音装置与方法，其中是包含不同的语言处理系统，分别处理不同语言的文字转语音工作，而后将不同语言处理系统所得到的语音数据合并后一起输出。美国专利6,243,681B1揭示一种用于计算机电话整合(Computer Telephony Integration)系统中的多语言语音合成器，其中包含多个语音合成器，分别执行不同语言的文字转语音工作，而后将不同语言处理系统所得到的语音数据合并后一起输出。

上述两篇美国专利皆是结合不同语言的语音数据库，而在语音输出时，使用者会听到不同语言是来自于不同的声音，除了音色不同之外，整句话的韵律也不连续。再者，即使是以同样的语者录下不同语言的所有单字，这样虽然可以解决音色不同的问题，但是要录下不同语言的所有单字，所需成本极高，显然对于多语言文字转语音的处理方法，公知技艺仍不尽理想。

为了克服公知技艺的上述缺点，发明人创作出本发明的文字转语音的系统与方法，以创新的概念进行多语言的语音合成处理，而产生韵律连续的语音输出。

发明内容

本发明的一目的是提供一种文字转语音系统，用以提升多语言语音输出的自然度与流畅度。本发明的文字转语音系统包含一文字处理器，用以将包含至少一第一语言与一第二语言的文字数据区分为一第一语言文字数据与一第二语言文字数据；一通用音标库，包含多个通用音标，其是该第一语言与该第二语言通用的音标；至少一第一语音合成单元与一第二语音合成单元，用以通过该多个通用音标，分别产生对应于该第一语言文字数据的一第一语音数据以及对应于该第二语言文字数据的一第二语音数据；以及一韵律处理器，用以将该第一语音数据与该第二语音数据的韵律最佳化。

根据上述构想，该第一与第二语言文字数据分别包含音标数据。

根据上述构想，该通用音标库较佳是由同一语者所建立。

根据上述构想，该韵律处理器包含一组参考韵律。

根据上述构想，该韵律处理器根据该参考韵律，分别决定该第一语音数据与该第二语音数据的第一韵律参数与第二韵律参数。

根据上述构想，该第一与第二韵律参数是定义语音的音素、音量及音长。

根据上述构想，该韵律处理器根据该第一韵律参数与该第二韵律参数，通过阶层式的方式，分层串接该第一语音数据与该第二语音数据，达到韵律连续的目的。

根据上述构想，该韵律处理器还进一步调整串接后的该第一语音数据与第二语音数据。

本发明的另一目的是提供一种用于文字转语音的方法，以提升多语言语音输出的自然度与流畅度。该方法包含下列步骤：(a)提供包含至少一第一语言与一第二语言的文字数据；(b)将该文字数据区分为一第一语言文字数据与一第二语言文字数据；(c)提供该第一语言与该第二语言通用的多个通用音标；(d)通过该多个通用音标，分别产生对应于该第一语言文字数据的一第一语音数据以及对应于该第二语言文字数据的一第二语音数据；以及(e)将该第一语音数据与该第二语音数据的韵律最佳化。

根据上述构想，该多个通用音标是由同一语者所建立。

根据上述构想，该步骤(e)还包含一步骤(e1)：提供一组参考韵律。

根据上述构想，该步骤(e)还包含一步骤(e2)：根据该参考韵律，分别决定该第一语音数据与该第二语音数据的第一韵律参数与第二韵律参数。

根据上述构想，该步骤(e)还包含一步骤(e3)：根据该第一韵律参数与该第二韵律参数，通过阶层式的方式，分层串接该第一语音数据与该第二语音数据，达到韵律连续的目的。

根据上述构想，该步骤(e)还包含一步骤(e4)：进一步调整串接后该第一语音数据与第二语音数据的韵律。

本发明的另一目的是提供一种文字转语音系统，其可将多语言的文字数据转换为单一语言，并通过韵律的调整，提升语音输出的自然度与流畅度。该文字转语音系统包含一文字处理器，用以将包含至少一第一语言与一第二语言的文字数据区分为一第一语言文字数据与一第二语言文字数据；一翻译模块，用以将该第二语言文字数据翻译成为以该第一语言呈现的一翻译数据；一语音合成单元，用以接收该第一语言文字数据与该翻译数据，而后产生一语音数据；以及一韵律处理器，用以将该语音数据的韵律最佳化。

根据上述构想，该第二语言文字数据包含单字、词组以及句子至少其一。

根据上述构想，该语音合成单元还包含一剖析模块，其根据该第一语言的语法及语义，而重组该第一语言文字数据与该翻译数据，以得到具有正确语法及语义的该语音数据。

根据上述构想，该韵律处理器包含一组参考韵律。

根据上述构想，该韵律处理器系根据该参考韵律，决定该语音数据的韵律参数。

根据上述构想，该韵律参数是定义语音的音素、音量及音长。

根据上述构想，该韵律处理器根据该韵律参数，调整该语音数据，达到韵律连续的目的。

本发明的另一目的是提供一种用于文字转语音的方法，其可将多语言的文字数据转换为单一语言，并通过韵律的调整，提升语音输出的自然度与流畅度。该方法包含下列步骤：(a)提供包含至少一第一语言与一第二语言的文字数据；(b)将该文字数据区分为一第一语言文字数据与一第二语言文字数据；(c)将该第二语言文字数据翻译成为以该第一语言呈现的一翻译数据；(d)产生一语音数据对应于该第一语言文字数据与该翻译数据；以及(e)将该语音数据的韵律最佳化。

根据上述构想，该第二语言文字数据是包含单字、词组以及句子至少其

根据上述构想，该步骤(d)还包含一步骤(d1)：根据该第一语言的语法及语义，而重组该第一语言文字数据与该翻译数据，以得到具有正确语法及语义的该语音数据。

根据上述构想，该步骤(e)还包含一步骤(e2)：根据该参考韵律，决定该语音数据的韵律参数。

根据上述构想，该步骤(e)还包含一步骤(e3)：根据该韵律参数，调整该语音数据，达到韵律连续的目的。

附图说明

图1A是根据本发明的第一较佳实施例，说明本发明的文字转语音系统。

图1B是说明本发明用于文字转音的方法的实施方式。

图2与图3是根据本发明的第二较佳实施例，说明本发明所提供文字转语音系统的实施方式。

图4A是根据本发明的第三较佳实施例，说明本发明的文字转语音系统。

图4B是根据本发明的第三较佳实施例，说明本发明用于文字转音的方法的实施方式。

图5是根据本发明之第四较佳实施例，说明本发明所提供文字转语音系统的实施方式。

图6是说明公知技艺文字转语音系统的运作流程。

1：文字转语音系统 11：文字处理器

12：通用音标库 131：第一语音合成单元

132：第二语音合成单元 14：韵律处理器

101：文字字符串 1021：第一语言文字数据

1022：第二语言文字数据 103：通用音标库

1041：第一语音数据 1042：第二语音数据

105：韵律最佳化的合成语音 21：通用音标库

22：文字处理器 231：英文语音合成单元

232：中文语音合成单元 24：韵律处理器

4：文字转语音系统 41：文字处理器

42：翻译模块 43：语音合成单元

431：剖析模块 44：韵律处理器

401：文字字符串 4021：第一语言文字数据

4022：第二语言文字数据 403：翻译数据

404：语音数据 405：韵律最佳化的合成语音

51：文字处理器 52：翻译模块

53：语音合成单元 531：剖析模块

54：韵律处理器

具体实施方式

请参阅图1A，其是根据本发明的第一较佳实施例，说明本发明的文字转语音系统。本发明的文字转语音系统1包含一文字处理器11、一通用音标库12、第一语音合成单元131、第二语音合成单元132以及一韵律处理器14。该文字转语音系统1的元件及其功能如下所述：该文字处理器11用以接收文字字符串，其中该文字字符串是包含至少一第一语言与一第二语言的文字数据，且该文字处理器11依不同语言而将该文字字符串处理区分为一第一语言文字数据与一第二语言文字数据，其中该第一语言文字数据与第二语言文字数据包含音标数据与语义段落。该通用音标库12包含多个通用音标，其是该第一语言与该第二语言通用的音标，该通用音标库12较佳为统一语者所录制。该第一语音合成单元131与第二语音合成单元132利用算法，自动取得该第一语言文字数据与第二语言文字数据中所定义的音标，当该第一语言文字数据与第二语言文字数据中所定义的音标为通用音标库中所具有的通用音标时，则该第一语音合成单元131与第二语音合成单元132使用该通用音标进行语音合成，进而分别产生对应于该第一语言文字数据的一第一语音数据以及对应于该第二语言文字数据的一第二语音数据。该韵律处理器14用以接收该第一语音数据与该第二语音数据并将其韵律最佳化，其中该韵律处理器14包含一组参考韵律，根据该参考韵律，该韵律处理器14分别决定第一韵律参数与第二韵律参数，用以分别代表第一语音数据与该第二语音数据的音高、音量、语速及音长，而后，该韵律处理器14根据该第一韵律参数与该第二韵律参数，通过阶层式的方式，分层串接该第一语音数据与该第二语音数据，进而完成韵律连续与流畅的合成语音以供输出。

图1B是说明本发明用于文字转音的方法的实施方式。本发明用于文字转语音的方法包含：首先提供包含至少一第一语言与一第二语言的文字字符串101，其次将该文字字符串区分为一第一语言文字数据1021与一第二语言文字数据1022，其中该第一语言文字数据1021与第二语言文字数据1022包含音标数据与语义段落，而后提供一通用音标库103，其具有该第一语言与该第二语言通用的多个通用音标，并通过该多个通用音标，分别产生对应于该第一语言文字数据1021的一第一语音数据1041以及对应于该第二语言文字数据1022的一第二语音数据1042，最后通过韵律处理，将该第一语音数据1041与该第二语音数据1042形成韵律最佳化的合成语音105，作为语音输出。

图2与图3是根据本发明的第二较佳实施例，说明本发明所提供文字转语音系统的实施方式。请参阅图2，在此实施例中，所提供的通用音标库21具有可供中文、英文与日文共享的通用音标。当在本发明的文字处理器22中输入文字字符串“father与mother”，则该文字处理器22依中文与英文，将该文字字符串区分为“father”、“与”以及“mother”的三段语言文字数据，其中该语言文字数据包含依音标数据而切割为“fa th er”、“与(ㄩv)”以及“mo th er”，而“fa”以及“mo”的音标为该通用音标库内中文、英文与日文通用的音标，因此英文语音合成单元231接收“father”及“mother”的语言文字数据后，以运算法自动取得其中所定义的音标，而其中“fa”以及“mo”的音标是直接由该通用音标库21取得，而其它“th”与“er”的音标则是取自英语语音合成单元231中内建的音标库，以完成“father”及“mother”的英文语音合成；而中文语音合成单元232接收到“与(ㄩv)”的语言文字数据后，以运用算法自动取得其中所定义的音标，然而由于“与”的音标并未建立于该通用音标库中，所以自中文语音合成单元内建的音标库中取得，以完成“与”的中文合成语音，接着再将所合成的英文合成语音与中文合成语音输入至韵律处理器24中进行整体韵律处理。请参阅图3，由于所输入的文字字符串“father与mother”经由本发明的文字转语音系统处理后，英文合成语音与中文合成语音交错出现，为了使不同语言交错的合成语音具有流畅的韵律变化，所以需调整整体基本的音高(F0 base)、音量(Volbase)、语速(Speed base)及音长(duration)，为达到此目的，本发明的韵律处理器具有参考韵律作为调整的依据，并进一步分别决定英文合成语音的韵律参数与中文合成语音的韵律参数，该韵律参数(F0 base，Vol base，Speed base，Duration base)是定义个别合成语音的音高(F0 base)、音量(Volbase)、语速(Speed base)及音长(duration)，因而本发明的韵律处理器可依参考韵律与韵律参数，以阶层式的方式，将不同语言一层一层放上去，让整体韵律连续顺畅。例如，在此实施例中的文字字符串“father与mother”中，英文是主要语言，而中文是少数语言，根据参考韵律，先决定少数语言“与”的韵律参数(F0_b，Vol_b)(F0_e，Vol_e)，而两端的主要语言则是依参考韵律决定出韵律参数之后，该韵律处理器依少数语言的韵律参数而进一步调整主要语言“father”及“mother”的韵律参数分别为[(F0₁，Vol₁)…(F0_n，Vol_n)]及[(F0₁，Vol₁)…(F0_m，Vol_m)]，以达到整体合成语音的韵律连续顺畅。当然，也可先决定主要语音的参考韵律，再依主要语言的参考韵律而修改少数语言的参考韵律。

请参阅图4A，其是根据本发明的第三较佳实施例，说明本发明的文字转语音系统。本发明的文字转语音系统4包含一文字处理器41、一翻译模块42、一语音合成单元43以及一韵律处理器44。该文字转语音系统4的元件及其功能如下所述：该文字处理器41用以接收文字字符串，其中该文字字符串包含至少一第一语言与一第二语言的文字数据，且该文字处理器41是依不同语言而将该文字字符串处理区分为一第一语言文字数据与一第二语言文字数据，其中该第二语言文字数据包含单字、词组以及句子至少其一；该翻译模块42将该第二语言文字数据翻译为第一语言形式的翻译数据；该语音合成单元43用以接收该第一语言文字数据与该翻译数据，而后产生一语音数据，且该语音合成单元43还包含一剖析模块431，其根据该第一语言的语法及语义，而将该第一语言文字数据与该翻译数据重组，以得到具有正确语法及语义的该语音数据；该韵律处理器44用以将该语音数据的韵律最佳化，其中该韵律处理器44还包含一组参考韵律，且根据该参考韵律决定该语音数据的韵律参数。该韵律参数定义语音的音高、音量、语速及音长，以使该韵律处理器根据该韵律参数调整该语音数据，达到韵律连续的目的。

图4B说明本发明用于文字转音的方法的实施方式。本发明用于文字转语音的方法包含：首先提供包含至少一第一语言与一第二语言的文字字符串401；其次将该文字字符串区分为一第一语言文字数据4021与一第二语言文字数据4022，其中该第二语言文字数据包含单字、词组以及句子至少其一；将该第二语言文字数据翻译成为以该第一语言呈现的一翻译数据403；根据该第一语言的语法及语义，而将该第一语言文字数据4021与该翻译数据403重组，以得到具有正确语法及语义的该语音数据产生一语音数据404，其对应于该第一语言文字数据4021与该翻译数据403；以及将该语音数据403的韵律最佳化，而得韵律最佳化的合成语音405，进而完成语音输出。根据本发明，将该语音数据的韵律最佳化的方法为：提供一组参考韵律；根据该参考韵律，决定该语音数据的韵律参数，其中该韵律参数是定义语音的音高、音量、语速及音长；根据该韵律参数调整该语音数据，达到韵律连续的目的。

图5是根据本发明的第四较佳实施例，说明本发明所提供文字转语音系统的实施方式。当在本发明的文字处理器51中输入文字字符串“tomorrow会下雨吗”，则该文字处理器51依中文与英文，将该文字字符串区分为“tomorrow”、“会下雨吗”两段语言文字数据，其中语言文字数据“会下雨吗”经由翻译模块52翻译为英文“will it rain？”，而后该语音合成单元53接收“tomorrow”与“will it rain？”的文字数据后，将其转换为语音数据，且该语音合成单元53还包含一剖析模块531，其根据该英文的语法及语义，而将该所接收的“tomorrow”与“will it rain？”重组，以得到具有正确语法及语义的该语音数据“Will it rain tomorrow？”；而后，该韵律处理器54用以将该语音数据的韵律最佳化，其中该韵律处理器54还包含一组参考韵律，且根据该参考韵律，决定该语音数据的韵律参数。该韵律参数定义语音的音高、音量、语速及音长，以使得该韵律处理器54根据该韵律参数，调整该语音数据，达到韵律连续的目的。

上述实施例皆是以输入“中文”与“英文”的混合语言字符串进行说明，当然本发明文字转语音的系统与方法也可应用于其它各种不同的混合语言。

综上所述，本发明文字转语音的系统与方法可将混合多种语言的文字字符串，通过一通用音标库与特定韵律处理，而产生具有高自然度与流畅度的多语言合成语音；此外，本发明的文字转语音系统与方法还可包含一翻译模块，而将混合多种语言的文字字符串，通过该翻译模块与特定韵律处理，而产生具有高自然度与流畅度的单一语言合成语音。本发明的确克服了公知技艺中多语言文字转语音不顺畅的缺点，故本发明不但具有新颖性、进步性，更具有产业上的利用性。

本发明可由本领域技术人员进行各种变化和改型，然而这些变化和改型皆不脱离所附权利要求的保护范围。

Claims

1.一种文字转语音系统，其中包含：

一文字处理器，用以将包含至少一第一语言与一第二语言的文字字符串区分为一第一语言文字数据与一第二语言文字数据；

一通用音标库，包含多个通用音标，其是该第一语言与该第二语言通用的音标；

至少一第一语音合成单元与一第二语音合成单元，第一语音合成单元通过该多个通用音标产生对应于该第一语言文字数据的第一语音数据以及第二语音合成单元通过该多个通用音标产生对应于该第二语言文字数据的一第二语音数据；以及

一韵律处理器，用以将该第一语音数据与该第二语音数据的韵律最佳化。

2.如权利要求1的文字转语音系统，其中该第一与第二语言文字数据分别包含音标数据。

3.如权利要求1的文字转语音系统，其中该通用音标库是由同一语者所建立。

4.如权利要求1的文字转语音系统，其中：

该韵律处理器包含一组参考韵律；

该韵律处理器根据该参考韵律，决定该第一语音数据的第一韵律参数与该第二语音数据的第二韵律参数；

该第一韵律参数定义第一语音数据的音高、音量、语速及音长以及第二韵律参数定义第二语音数据的音高、音量、语速及音长；及

该韵律处理器根据该第一韵律参数，通过阶层式的方式，分层串接该第一语音数据并且根据该第二韵律参数，通过阶层式的方式，分层串接该第二语音数据，并调整串接后的该第一语音数据与第二语音数据，达到韵律连续的目的。

5.一种用于文字转语音的方法，其中包含下列步骤：

(a)提供包含至少一第一语言与一第二语言的文字字符串；

(b)将该文字字符串区分为一第一语言文字数据与一第二语言文字数据；

(c)提供该第一语言与该第二语言通用的多个通用音标；

(d)通过该多个通用音标，分别产生对应于该第一语言文字数据的一第一语音数据以及对应于该第二语言文字数据的一第二语音数据；以及

(e)将该第一语音数据与该第二语音数据的韵律最佳化。

6.如权利要求5的方法，其中该步骤(c)包含下列步骤：

提供一通用音标库，包含该多个通用音标。

7.如权利要求5的方法，其中该第二语言文字数据包含单字、词组以及句子至少其一。