CN101350195A

CN101350195A - 语音合成器产生系统与方法

Info

Publication number: CN101350195A
Application number: CNA200710137109XA
Authority: CN
Inventors: 郭志忠; 沈民新
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2007-07-19
Filing date: 2007-07-19
Publication date: 2009-01-21
Anticipated expiration: 2027-07-19
Also published as: CN101350195B

Abstract

提供一种语音合成器产生系统与方法。使用者输入语音输出需求规格至语音合成器产生系统，该系统可自动产生符合该需求描述的语音合成器。使用者亦可将此需求规格通过语音合成器产生系统的录音脚本产生器自动产生录音脚本，使用者依此脚本录制客制化或扩充语料。此语料经上传至语音合成器产生系统后，语音合成器产生器可自动产生符合需求的语音合成器。客户端的语音输出即可藉由该语音合成器完成。

Description

语音合成器产生系统与方法

技术领域

本发明涉及一种语音输出系统与方法，且特别是涉及一种自动产生语音合成器的系统与方法。

现有技术

随着科技的进步，自动化的服务与设备需求与日遽增。在这些需求中，语音输出是常见的服务，藉由语音的导引，除了可节省人力费用外，更可提供自动化的服务。而对于高品质语音输出更是各种服务中常常需要的一个使用者界面。特别是在显示画面有限的行动装置上，最自然、方便、安全的信息输出就是语音。另外，有声书读物也是充分运用时间的有效学习方式，特别是外语学习更是如此。

然而，目前的语音输出，基本上有两种可能模式，亦各有其缺点。一种模式为人工录音，此模式制作费时、成本高、语音输出内容为固定。而另外一种模式则为语音合成，其成品的语音品质较差、制作的语音不具弹性、且声音客制化困难。

请参照图1，在美国第7,013,282号专利中，AT&T公司提出一种在可携式装置中文字转换语音的系统与方法(System and method fortext-to-speech processing in a portable device)，在此方法中，使用者130输入文句(Text)到桌上型计算机110内。而桌上型计算机110将输入的文句经由文句转换语音(Text-to-Speech，底下称为“TTS”)模块112转换，也就是经由文句分析模块(Text Analysis Module)114与语音合成模块(Speech Synthesis Module)116的操作，转换为语音输出118。此发明是将文句转换语音(TTS)的转换操作设置在运算能力比较强的桌上型计算机110上。而合成的语音信号118从桌上型计算机110传送到运算能力较差的手持式电子装置120。TTS模块112所输出的语音信号118包括载句音段(CarrierPhrase)与词槽音段(Slot Information)，传送到手持式电子装置120的内存中。此装置端的语音输出即为这些载句音段与词槽音段的串接。

然而，在此专利中，所使用的文句转换语音的内容固定不变，缺乏弹性。另外，由桌上型计算机110端的语音合成引擎完成转换，此语音合成引擎固定不变。另外，桌上型计算机110与手持式电子装置120必须同步操作。

另外，在美国第6,725,199号专利与第7,062,439号专利中，HP公司提出一种语音合成装置与选择方法(Speech synthesis apparatus andselection method)，在这些专利中，提出一种音质评量的方法，主要是以「客观音质评估器」对整句评分。而音质改善从多个文句转换语音(TTS)模块中挑选分数最高者。若只有一个文句转换语音(TTS)模块，则将文句改写成其它语意相同的文句，再挑选音质分数较高的语音输出。

发明内容

本发明提出一种新的语音输出系统，能够在人工录音和语音合成之间取得平衡。亦即此系统能够保有语音合成的输出内容弹性，却具有较佳的语音合成音质，并且容易客制化声音与减少人工录音的成本。

本发明提出一种语音合成器产生系统，其中，至少包含来源语料库与语音合成器产生器。使用者输入语音输出需求规格至语音合成器产生系统，语音合成器产生器可自动产生符合该需求描述的语音合成器。

本发明提出一种语音合成器产生系统，更包括录音脚本产生器与合成单元产生器，使用者可将语音输出需求规格通过该脚本产生器以自动产生录音脚本，使用者依此脚本录制客制化或扩充语料。此语料经上传至语音合成器产生系统后，合成单元产生器将其转换为语音合成单元并汇入来源语料库，然后，语音合成器产生器可自动产生符合需求的语音合成器。

本发明提出一种语音合成器产生系统，包括语音语料库、语音合成器产生器、录音脚本产生器以及合成单元产生器。此来源语料库用以储存多数个语音语料。而语音合成器产生器用以接收语音输出需求规格，并根据此语音输出需求规格，从来源语料库中选择语音语料后，产生一语音合成器。录音脚本产生器则用以接收语音输出需求规格，并产生录音脚本，以便让使用者依脚本录制一客制化或扩充语料。合成单元自动产生器则根据该语料，产生符合语音输出需求规格的多个合成单元，并传送到来源语料库，用以让上述语音合成器产生器可选择性地根据来自该客制化或扩充语料所产生的合成单元更新语音合成器。

本发明提出一种语音合成器产生方法，包括根据语音输出规格产生一录音脚本。根据此录音脚本产生一录音界面。使用此录音界面，根据一客制化要求或一扩充语料的内容，完成多个合成单元输入一来源语料库。根据此来源语料库产生符合此语音输出规格的语音合成器。

为让本发明的上述特征和优点能更明显易懂，下文特举较佳实施例，并配合附图，作详细说明如下。

附图说明

图1是现有的一种在可携式装置中文字转换语音的系统示意图。

图2是依照本发明一较佳实施例的语音合成器产生系统的结构的示意图。

图3是本发明一较佳实施例的语音输出需求规格的格式示意图。

图4是说明本发明实施例的语音合成器产生器，以及语音合成引擎与语音合成单元库产生的方法示意图。

图5A与5B分别说明本发明实施例的系统运作流程。

附图符号说明

130：使用者

110：桌上型计算机

120：手持式电子装置

112：文句转换语音(TTS)模块

114：文句分析模块(Text Analysis Module)

116：语音合成模块(Speech Synthesis Module)

118：语音输出

200：语音合成器产生系统

201：语音合成器产生器

202：来源语料库

203：录音脚本产生器

204：录音界面工具模块

205：合成单元产生器

210：语音输出规格

220：录音脚本

230：客制化或扩充语料

240：语音合成器

241：语音合成引擎

242：语音合成单元库

510：语音输出规格

512：语音合成器产生器

514：来源语料库

516：语音合成器

520：录音脚本产生器

522：录音脚本

524：录音界面工具模块

526：客制化或扩充语料

528：合成单元产生器。

具体实施方式

本发明提出一种新的语音输出系统，能够在人工录音和语音合成之间取得平衡。亦即此系统能够保有语音合成的输出内容弹性，却具有较佳的语音合成音质，并且容易客制化声音与减少人工录音的成本。此系统可解决目前两种语音输出模式的缺点：(1)若采用人工录音，则制作费时、成本高、以及语音输出内容固定；(2)若完全采用语音合成，则语音品质较差、声音客制化困难。

本发明提出一种新的语音输出系统，其文句内容不受限，可达成会员制语音输出服务。此语音输出藉由客户端的语音合成引擎与特定服务相关的语音合成单元库所构成。会员可以是个人使用者，也可以是服务提供者，经由上传标准的语音输出需求规格至此系统，便可下载获得所需的语音输出功能。

本发明所提出语音合成器产生系统的结构的实施例，则如图2所示。此语音合成器产生系统200至少包括一个大型的来源语料库202，其包含欲合成的目标语言的所有单音。语音输出藉由在客户端的语音合成器240，也就是包括语音合成引擎241与特定服务相关的语音合成单元库242所输出。此语音合成器产生系统200的使用对象可以是个人使用者或是服务提供者(Service Provider)。使用者经由上传语音输出需求规格210至此系统200的语音合成器产生器201，便可下载获得所需的语音合成器240。

若使用者希望以属意的语者声音建立语音合成器240，则此系统200亦可根据录音脚本产生器203所输入的语音输出规格210自动产生录音脚本220，以便录制客制化或扩充语料230，此语料230经上传至系统200后，再经由合成单元产生器205产生语音合成单元，并传送到来源语料库210，以便供语音合成器产生器201使用更新，而让使用者下载由属意的语者声音所得到的语音合成器240。

语音输出需求规格

请参照图3，主要是说明使用者可以提供的语音输出规格的格式。在每个语音输出规格中包含了许多文句的描述，必须针对所有需要转换成语音的文字做详细的描述。而此描述包含几个元素(Element)，例如可以是句子(Sentence)或是词汇(Vocabulary)。而描述的参数(Attribute)有语法(Syntax)方式或是语意(Semantics)方式等等。

例如针对句子，可以如底下的方式描述：

语法(syntax)：句型词槽(Template-slot)/语法树(Syntax Tree)/上下文免文法(Context free grammar)/常规表达式(Regular expression)等等，

语意(Semantics)：问候句/质问句/直述句/命令句/肯定句/否定句/惊叹句...等等。

例如针对词汇，可以如底下的方式描述：

语法(syntax)：穷举法/文数字符号的排列组合/常规表达式(Regularexpression)等等，

语意(Semantics)：专有名词(人名/地名/城市名...)、数字(电话/金额/时间...)等等。

在一说明例中，如使用者所提供的语音输出需求规格为温度的查询，那么例如以句型词槽(Template-slot)方式描述的内容如下：

句子：<city><date>的气温是<tempt>度

词汇：

<city>语法：c(1..8) 语意：名称(name)

<date>语法：无语意：日期(date：md)

<tempt>语法：d(0..99) 语意：数字(number)

也可以文法(Grammar)描述句子，内容如下：

句子：

S →NP的气温是<tempt>度

NP→<city><date>|<date><city>

此文法可产生的部分句子实例如下：

新竹十月三日的气温是二十七度

十月三日新竹的气温是二十七度

使用者所提供的语音输出需求规格的格式，可根据语音合成器产生系统200的要求而调整，并非限制在上列的实施例中。

除了内容的描述之外，使用者亦可在语音输出规格中描述合成器的执行软硬件平台以及语者条件，例如：国籍、性别、年龄、学历、职业、语音特色、录音样本等。

语音合成器产生器

请参照图4，以便说明本发明实施例的语音合成器产生器，以及语音合成引擎与语音合成单元库产生的方法。首先，如图4所示，根据使用者提供的语音输出需求规格210，语音合成器产生器201从一个大型的来源语料库202当中，自动产生最佳的语音合成单元库241。

在一实施例中，可以使用可扩展标示语言(Extensible Markup Language，简称XML)来撰写语音输出需求描述，来源语料库则包含目标语言的所有单音，并利用现有的串接式语音合成技术的单元挑选方法来实作此产生器与客户端语音合成引擎。一般而言，单元挑选方法首先经过文字分析后再产生N个最佳的侯选语音单元(例如对于底下方程式(1)最小化)，然后计算这些候选语音单元的成本，例如关于声音失真(Acoustic distortion)方程式(2)、关于语音串接成本(Concatenation cost)的方程式(3)、以及整体成本的方程式(4)，最后挑出成本最小的当作最佳单元，例如使用Viterbi搜寻算法(ViterbiSearch Algorithm)。这些最佳单元即可组成语音合成单元库，并可视需求决定是否要再压缩。

而语音合成引擎242的语料库挑选方法亦可依循上述步骤，并再加上文字分析(text analysis)及语音串接(Concatenation)步骤，包括解压缩(Decompression)、韵律调整(Prosodic Modification)、或平滑化(smoothing)等步骤即可完成此语音合成引擎。

因此，本发明实施例的语音合成器产生器，所产生的语音合成单元库与语音合成引擎，即为符合使用者语音输出需求规格的一个特定应用语音合成器。

<方程式(1)>

语言失真(Linguistic distortion)

CUVdist (U_{i}^{l}, L_{i}^{l}) =

w_{0} * LToneCost (U_{i}^{l} . lTone, L_{i}^{l} . lTone) +

w_{1} * RToneCost (U_{i}^{l} . rTone, L_{i}^{l} . rTone) +

w_{2} * LPhoneCost (U_{i}^{l} . lPhone, L_{i}^{l} . lPhone) +

w_{3} * RPhoneCost (U_{i}^{l} . rPhone, L_{i}^{l} . rPhone) +

w_{4} * IntraWord (U_{r}^{l}, L_{i}^{l}) + w_{5} * IntraSentence (U_{i}^{l}, L_{i}^{l})

其中，“U”为语音合成单元库(Unit Inventory)；“L”为输入文句(InputText)的语言特征(Linguistic features)；“l”为语音合成单元的长度(UnitLeng th)；以及“i”为目前处理中的句子的音节指标(Syllable Index)，其中，“i+l”小于等于目前处理中的句子的音节数量(Syllable Count)。而LToneCost、RToneCost、LPhoneCost、RPhoneCost、IntraWord与IntraSentence都是语音合成单元的失真计算函式(Unit DistortionFunction)。

<方程式(2)>

声音(目标)失真Acoustic(target)distortion

C^{i} (U_{i}^{l}, A_{i}^{l}) =

Σ_{j = i}^{i + l} \{\begin{matrix} w_{0} * | \log (\frac{a_{A_{j}}^{0}}{a_{U_{j}}^{0}}) | + w_{1} * Σ_{p = 1}^{3} | \log (| \frac{a_{A_{j}}^{p}}{a_{U_{j}}^{p}} |) | + \\ w_{2} * | \log (\frac{{Initial}_{A_{i}}}{{Initial}_{U_{j}}}) | + w_{3} * | \log (\frac{{Final}_{A_{i}}}{{Final}_{U_{j}}}) | \end{matrix}\}

其中，“U”为语音合成单元库(Unit Inventory)；“A”为输入文句(InputText)的声音特征(Acoustic features)；“l”为语音合成单元的长度(UnitLength)；a0-a3为雷建德多项式参数(Legendre polynomial parameters)；“i”为目前处理中的句子的音节指标(Syllable Index)；以及“i+l”为目前处理中的句子的音节数量(Syllable Count)。

<方程式(3)>

语音串接成本(Concatenation cost)

其中，阶数“ORDER”为12；“Rp”为在结束端(End side)最后一个封包(Frame)的梅尔倒频谱(Mel-Cepstrum)；“Lp”为在开始端(Beginning side)第一个封包(Frame)的梅尔倒频谱(Mel-Cepstrum)；“a0”为音高(Pitch)；而LToneCost、RToneCost、LPhoneCost与RPhoneCost都是语音合成单元的失真计算函式(Unit Distortion Function)。

<方程式(4)>

整体成本(Total Cost)为

C (t_{1}^{n}, u_{1}^{n}) =

W^{i} Σ_{i = 1}^{n} C^{i} (t_{i}, u_{i}) + W^{c} (Σ_{i = 2}^{n} C^{c} (u_{i - 1}, u_{i}) + C^{c} (s, u_{1}) + C^{c} (u_{n}, s))

其中，“n”为目前处理中的句子的音节数量(Syllable Count)；“Ct”为目标失真值(Target Distortion)；“Cc”为语音串接成本(Concatenationcost)；“Cc(s，u1)”为第一个语音合成单元开始转为静音(Silence)；以及“Cc(un，s)”为最后一个语音合成单元开始转为静音(Silence)。

录音脚本产生器与合成单元产生器

请参照图2，以便说明本发明实施例的录音脚本自动产生器(ScriptGenerator)与合成单元产生器，以及搭配本发明实施例的语音合成系统自动产生器，以及语音合成引擎与语音合成单元库产生之方法。

在本实施例中的录音脚本产生器203，根据使用者提供的语音输出需求规格210，自动产生有效率的录音脚本。使用者则可以根据此录音脚本，使用录音界面工具模块204，录制客制化或扩充语料230。此客制化或扩充语料230输入至合成单元产生器205，切割整理为可使用的语音合成单元，再汇入来源语料库202。再如前述的方法，通过语音合成器产生器240，产生语音合成单元库242供使用者下载更新，或是产生一个新的语音合成器240给使用者。

在一实施例中，可以使用可扩展标示语言(XML)来撰写语音输出需求描述，首先以文字分析此描述后，可得知下列信息：

X：使用者所需转成语音的所有文句

X_s：录音脚本中所含盖的文句

U：使用者所需转成语音的所有文句的单元类别(unit type)

U_s：录音脚本中所含盖的单元类别(unit type)

X′：可由U_s产生的所有文句

由上可知：

X_{s} &SubsetEqual; X &SubsetEqual; X^{'}

且

U_{s} &SubsetEqual;U,

据此可再定义含盖率(Covering Rate)r_C与命中率(Hit Rate)r_H如下：

<方程式(5)>

r_{C} = \frac{| Us |}{| U |}

<方程式(6)>

r_{H} = \frac{| X^{'} |}{| X |}

r_C、r_H、再加上录音脚本空间限制|X_s|即为3个脚本挑选原则。

在挑选算法方面，则可视合成单元类别的定义而有所变化，以中文而言，可分成无音调音节、有音调音节、上下文有音调音节等类别。因为若X中缺少有(无)音调音节，将完全产生此文字的合成语音。因此，挑选算法可以用多阶段挑选法(Multi-stage Selection)，而在各个阶段再根据选定合成单元类别(Unit Type)与脚本挑选原则(r_C、r_H|X_s|)做最佳化，最后即可产生符合使用者语音输出需求描述的录音脚本。

除了上述的录音脚本产生器之外，亦可采用与本案相同申请人的工研院，所提出的台湾第I247219号专利，或是美国专利申请案第10/384,938号专利的内容，在此将上列专利的内容参照至本专利申请案中，内容不再冗述。

合成单元产生器可采用与本案相同申请人的工研院，所提出的台湾第I220511号专利，或是美国专利申请案第10/782,955号专利的内容，在此将上列专利的内容参照至本专利申请案中，内容不再冗述。

综上所述，本发明提出一种语音合成器产生系统，其中，至少包含来源语料库、语音合成器产生器、录音脚本产生器以及合成单元产生器。使用者输入语音输出需求规格至语音合成器产生系统，语音合成器产生器可自动产生符合该需求描述的语音合成器。使用者亦可将此需求规格通过语音合成系统的脚本产生器自动产生录音脚本，使用者依此脚本录制客制化或扩充语料。此语料经上传至系统后，经合成单元产生器产生合成单元再存入来源语料库，然后语音合成器产生器可自动产生符合需求的语音合成系统。而使用者端的语音输出即可藉由此系统产生的语音合成器完成，系统运作流程如图5A与5B所示。

请参照图5A，为一种根据本发明实施例的系统运作流程，首先，根据一语音输出规格510，经由语音合成器产生器512参考一来源语料库514，则可产生符合语音输出规格510的语音合成器516。另外，如图5B所示的另一种本发明实施例的系统运作流程，根据一语音输出规格510，经由语音合成器产生器512参考一来源语料库514产生符合语音输出规格510的语音合成器516，但是此流程中更详述根据语音输出规格510产生一录音脚本产生器520，而此录音脚本产生器520根据一录音脚本522产生录音界面工具模块524，而后根据客制化或扩充语料526的内容，完成合成单元产生器528，而输入上述的来源语料库514中以便作为产生符合语音输出规格510的语音合成器516。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，因此本发明的保护范围当视本发明的申请专利范围所界定者为准。

Claims

1.一种语音合成器产生系统，包括：

一语音输出规格，描述欲合成的句型与词汇、合成器的执行软硬件平台、以及语者条件；

一欲合成的目标语言的来源语料库，包含欲合成的语言的所有单音；

一语音合成器产生器，用以接收该语音输出规格，并根据该规格从该来源语料库中选择该些语音语料后，产生一能在指定平台上执行的语音合成器，该合成器包含一语音合成单元库与一语音合成引擎。

2.如权利要求1所述的语音合成器产生系统，其中，该语音输出规格中的句型与词汇可采用一语法或一语意方式定义。

3.如权利要求2所述的语音合成器产生系统，其中，该语音输出规格中的该句型的语法定义方式包括一句型词槽、一语法树、一上下文无关文法或一常规表达式其中之一的方式。

4.如权利要求2所述的语音合成器产生系统，其中，该语音输出规格中的该句型的语意采用一语用方式定义，包括问候句、质问句、直述句、命令句、肯定句、否定句或惊叹句其中之一的方式。

5.如权利要求2所述的语音合成器产生系统，其中，该语音输出规格中的该词汇的语法定义方式可采用穷举、文数字符号的排列组合、或常规表达式其中之一的方式。

6.如权利要求2所述的语音合成器产生系统，其中，该语音输出规格中的该词汇的语意定义方式可用人名、地名、组织名、或城市名其中之一的方式定义专有名词，或是可用电话、金额、或时间其中之一的方式定义数字。

7.一种语音合成器产生系统，包括：

一录音脚本产生器，用以接收该语音输出规格，并根据该规格产生录音用的标音文字脚本，以便让使用者依该脚本录制一客制化或扩充语料；

一录音界面工具模块，提供录音员进行录音；

一合成单元产生器，用以接收该客制化或扩充语料，汇入该来源语料库；以及

8.如权利要求7所述的语音合成器产生系统，其中，该语音输出规格中的一句型与一词汇可采用语法或语意方式定义。

9.如权利要求8所述的语音合成器产生系统，其中，该语音输出规格中的该句型的语法定义方式包括句型词槽、语法树、上下文无关文法或常规表达式其中之一的方式。

10.如权利要求8所述的语音合成器产生系统，其中，该语音输出规格中的该句型的语意定义方式包括问候句、质问句、直述句、命令句、肯定句、否定句、或惊叹句其中之一的方式。

11.如权利要求8所述的语音合成器产生系统，其中，该语音输出规格中的该词汇的语法定义方式可采用穷举、文数字符号的排列组合、或常规表达式其中之一方式。

12.如权利要求8所述的语音合成器产生系统，其中，该语音输出规格中的该词汇的语意定义方式，是使用人名、地名、组织名或城市名其中之一的方式定义专有名词，或是采用电话、金额、或时间其中之一的方式定义数字。

13.一种语音合成器产生方法，包括：

根据一语音输出规格产生一录音脚本；

根据该录音脚本产生一录音界面；

使用该录音界面，根据一客制化要求或一扩充语料的内容，完成多个合成单元输入一来源语料库；以及

根据该来源语料库产生符合该语音输出规格的该语音合成器。

14.如权利要求13所述的语音合成器产生方法，其中，该语音输出规格中的句型与词汇可采用一语法或一语意方式定义。

15.如权利要求14所述的语音合成器产生方法，其中，该语音输出规格中的该句型的语法定义方式包括句型词槽、语法树、上下文无关文法或常规表达式。

16.如权利要求14所述的语音合成器产生方法，其中，该语音输出规格中的该句型的语意采用语用方式定义，包括问候句、质问句、直述句、命令句、肯定句、否定句或惊叹句其中之一的方式。

17.如权利要求14所述的语音合成器产生方法，其中，该语音输出规格中的该词汇的语法定义方式可采用穷举、文数字符号的排列组合、或常规表达式其中之一的方式。

18.如权利要求14所述的语音合成器产生方法，其中，该语音输出规格中的该词汇的语意定义方式，是使用人名、地名、组织名或城市名其中之一的方式定义专有名词，或使用电话、金额、或时间其中之一的方式定义数字。