CN1320482C

CN1320482C - 标识文本串中的自然语音停顿的方法

Info

Publication number: CN1320482C
Application number: CNB031327087A
Authority: CN
Inventors: 陈桂林; 祖漪清
Original assignee: Motorola Inc
Current assignee: Nuance Communications Inc
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2007-06-06
Anticipated expiration: 2023-09-29
Also published as: RU2319221C1; EP1668631A4; KR20060056403A; EP1668631A1; WO2005034085A1; CN1604183A

Abstract

本发明公开了一种用于自动标识文本串中的自然语音停顿的方法(400)，该停顿用于在电子设备(100)上进行的文语转换之中。该方法(400)包括：获取包括两端的所述文本串(420)，这两端是开始端和结束端。然后进行分析步骤(440)，分析所述文本串中的至少一个单词以判断所述单词附近是否存在自然语音停顿，所述分析是基于至少一个用于所述单词的预设门限值的，所述预设门限值与所述单词和文本串的所述两端中的一端之间的音节的数量相关联。然后提供插入步骤(460)，将所述自然语音停顿插入到文本串的合成语音信号输出表示中。

Description

标识文本串中的自然语音停顿的方法

技术领域

本发明一般涉及文语转换(TTS)合成。本发明对于确定文本段的合成语言中的自然停顿尤其有用。

背景技术

文语(TTS)转换，通常也被称作连续文本到语音的合成，其允许电子设备接收输入的文本串并以合成语音的形式提供该文本串的转换后的表示。但是，对于需要将来自不定数量的接收到的文本串进行语音合成的设备来说，提供高质量的逼真的合成语音是非常困难的。这是因为需要合成的每个单词或者音节(对于汉语字符及类似的字符)的语言都是上下文相关和位置相关的。例如，句子(输入的文本串)结尾处单词的语言可以拉长或者延长。甚至如果在自然语音停顿中需要强调的地方出现在句子的中间，相同单词的语言也可以延长。

在大多数语言中，单词的语言取决于音韵参数，音韵参数包括音调(基音周期)、音量(功率或幅度)和时长。单词的韵律参数值取决于单词在词组中的位置和自然语音停顿的位置。但是，在文语转换(TTS)合成的现有技术中并不容易出现用于改变随机输入文本模式的自然语音停顿的标识。

在本说明书以及权利要求书中，术语“包括(comprise)”、“包含(comprising)”或其它类似术语指的是非排他性的包含，例如一种包括一系列单元的方法或装置，其不仅包括那些已单独列出的单元，还可能很好地包括那些并没有列出的单元。

发明内容

根据本发明的一个方面，提供了一种用于自动标识文本串中自然语音停顿的方法，该停顿用于在电子设备上进行的文语转换中，该方法包括：

获取包括两端的文本串，这两端是开始端和结束端；

分析文本串中的至少一个单词以判断该单词附近是否存在自然语音停顿，该分析是基于至少一个用于单词的预设门限值的，该预设门限值与该单词和文本串两端中的一端之间的音节的数量相关联；和

将自然语音停顿插入到文本串的合成语音信号输出表示中。

优选地，所述的至少一个预设门限值包括P单词(P_word)门限值，其基于开始端和该单词之间的音节的数量。

优选地，所述的至少一个预设门限值包括F单词(F_word)门限值，其基于结束端和该单词之间的音节的数量。

优选地，所述的至少一个预设门限值是通过下述步骤确定的：

向口述记录(transcription)的训练集提供至少一个由插入的标识符所标识的自然语音停顿；

将每个口述记录中的单词标识为P单词和F单词；

统计地分析训练集中的P单词和F单词；

从统计分析的结果中确定F单词门限值和P单词门限值。

优选地，插入的自然语音停顿还可包括标识为词性(POS)模式自然停顿的停顿。

优选地，插入的自然语音停顿还可包括标识为组合词自然停顿的停顿。

附图说明

为了使本发明易于理解并付诸实施，现在将结合附图来参考引用所示的优选实施例，其中：

图1是根据本发明的电子设备的示意性框图；

图2说明了用于确定与文本串中的自然语音停顿相关联的门限值的方法200；

图3A到3D说明了用于图2的方法的口述记录示例。

图4说明了用于自动标识文本串中的自然语音停顿的方法；和

图5是图4的分析步骤的详细说明。

具体实施方式

参看图1，以无线电话的形式示出了电子设备100，该电子设备100包括设备处理器102，其通过总线103有效地连接到用户界面104，典型地，用户界面104是接触屏或显示屏和键区。电子设备100还具有语言语料库106、语音合成器110、非易失性存储器120、只读存储器118和无线通信模块116，它们全都通过总线103有效地连接到处理器102。语音合成器110具有输出端，该输出端连接并驱动扬声器112。语料库106包括单词或者音素的表示及相关采样的、数字化的并处理过的语言波形PUW。换句话说，如下所述，非易失性存储器120(存储模块)提供了用于文语转换(TTS)合成的文本串(该文本可由模块116或其它设备接收)。波形语言语料库还包括表示词组及相应的采样并数字化的语言波形的口述记录，和位于与如下所述的自然停顿边界相关的位置的文本串。

如本领域技术人员所显而易见的，典型地，射频通信单元116是一个具有公用天线的组合的接收器和发射器。该射频通信单元116具有通过射频放大器连接到天线的收发器。该收发器还连接到将通信单元116连接到处理器102的公用的调制器/解调器。同时，在该实施例中，非易失性存储器120(存储模块)储存可编程的电话簿数据库Db，而只读存储器118储存用于设备处理器102的操作代码(OC)。

参看图2，说明了用于确定与文本串中的自然语音停顿相关联的门限值的方法200。该门限值基于训练集TS中的口述记录中的前、后的多个音节。在开始步骤210之后，方法200实施提供步骤220，用于向口述记录(典型地是一些句子)的训练集TS提供至少一个由手工插入的标点符号或标识符“|”所标识的自然语音停顿。图3A到3D中示出了这样的口述记录或者句子示例。这些口述记录中的一个300是“Based on our history|in China，”，其在单词“history”和“in”之间具有自然语音停顿310。对于口述记录300来说，有一个开始端305和一个结束端315。如本领域技术人员所显而易见的，图3A到3D中的所有的口述记录300都具有至少一个自然语音停顿310以及开始端305和结束端315。对这些口述记录的进一步的分析如下所示：

Based＝2个音节

on＝1个音节

our＝1个音节

history＝3个音节

in＝1个音节

China＝2个音节

同时，口述记录中的每个单词都可以被指定为：(i)P单词：口述记录中紧挨着前面的、由标点符号“|”标识的自然停顿的单词；(ii)F单词：口述记录中紧挨着后面的、由标点符号“|”标识的自然停顿的单词；(iii)中间词：在口述记录中旁边没有自然语音停顿的单词。在步骤220之后，标识步骤230将把每个口述记录中的单词标识为(i)P单词；(ii)F单词；或(iii)中间词。由此，对于口述记录“Based onour history|in China，”，下面的表1标识了口述记录中的每个单词的属性：

单词	P单词	F单词	音节数量	停顿
单词	P单词	F单词	音节数量	停顿	Based	N	N	0	N
on	N	N	2	N	Based	N	N	0	N
on	N	N	2	N	our	N	N	3	N
history	N	Y	4	后	our	N	N	3	N
history	N	Y	4	后	in	Y	N	7	前
China	N	N	1	N	in	Y	N	7	前

表1对口述记录“Based on our history in China”的分析

然后，方法200进行统计分析步骤240。在此步骤240，如果所提供的训练集TS具有90,000条口述记录(例如句子)并且假定单词“in”在训练集中出现了10,000次的话，那么对于“in”的这10,000个例子来说，可以观察到下面的统计分析：

(i)“in”作为P单词出现(OPW)的数量＝8,000例；

(ii)“in”作为F单词出现(OFW)的数量＝1,000例；

(iii)“in”作为中间单词(既不是P单词，也不是F单词)出现(ONW)的数量＝1,000例；

进一步地，从训练集TS中标识的“in”的8,000例作为P单词的出现中，可以观察到下面的统计分析：

(i)前面出现8个或更多的音节(OPS)＝0；

(ii)前面出现7个音节(OPS)＝400；

(iii)前面出现6个音节(OPS)＝600；

(iv)前面出现5个音节(OPS)＝2,000；

(v)前面出现4个音节(OPS)＝3,000；

(vi)前面出现3个音节(OPS)＝1,000；

(vii)前面出现2个音节(OPS)＝1,000；

(viii)前面出现1个音节(OPS)＝0；

直觉和试验所选取的启发率(heuristic ratio)HR为0.75，其用于确定单词“in”的P单词停顿门限值PT。这个门限值PT是在确定门限值步骤250确定的，其步骤如下：

从观察到的音节的最大数量到观察到的音节的最小数量，从最大的OPS执行，直到：

OPS的和/OPW 0.75

将PT选取为由OPS求和中的最后一个OPS所标识的观察到的音节的数量；

结束。

因此，“in”的PT将在步骤250如下地确定：

400/8,000＝0.05 7个在前的音节；

(400+600)/8,000＝0.125 6个在前的音节；

(400+600+2,000)/8,000＝0.375 5个在前的音节；

(400+600+2,000+3,000)/8,000＝0.75 4个在前的音节；

因此PT选择为4。

使用相似的统计分析来在步骤250确定“in”的F单词停顿门限值，再次使用0.75的启发率HR。同时，为训练集TS中所有其它单词的所有其它P单词和F单词的例子确定PT和FT值(使用0.75的启发率HR)。方法200随后在步骤260结束，训练集TS中所有单词的所有P单词和F单词的例子都被储存在非易失性存储器120中。

参看图4，说明了用于自动标识文本串STR中的自然语音停顿的方法400，该停顿用于在电子设备100上进行的文语转换中。在开始步骤410之后，方法400实施获取包括两端的文本串STR的步骤420，这两端是开始端SE和结束端FE。选择单词步骤430选择一个单词(或者组合词CW)，分析步骤440用于分析文本串STR中的至少一个单词(或组合词CW)，以判断该单词(或组合词CW)附近是否存在自然语音停顿，这个分析是基于该单词的至少一个预设门限值(PT或FT)的，该门限值与该单词和文本串的两端中的一端之间的音节的数量相关联。门限值包括P单词门限值PT，其基于开始端和该单词之间的音节的数量。门限值还包括F单词门限值FT，其基于结束端和该单词之间的音节的数量。

如果测试步骤450判断步骤440标识了停顿的话，那么在步骤460，就会插入自然语音停顿用于语音合成。否则将不会为在步骤430选择的单词插入停顿。然后，在步骤470，检查以判断是否已经分析了文本串STR中的所有单词，如果还有单词没有分析的话就返回到步骤430。否则，语音合成步骤480将在合成器110使用语料库106进行语音合成，其中将出现的一个或多个自然语音停顿(在步骤460插入到文本串STR中)插入到文本串STR的合成语音信号输出表示中。

参看图5，说明了分析步骤440的更详细的图。首先，在步骤441检查文本串STR，以判断其是否具有词性(POS)模式自然停顿。POS模式自然停顿的例子如下所示：

1.数词+名词

例如：two thousand books

2.动词+副词

例如：look carefully

3.介词+名词

例如：with telescopes

4.形容词+名词

例如：beautiful city

如果在步骤441确定具有停顿的话，那么将进行步骤446，该停顿被标识为F单词停顿。如果在步骤441确定没有停顿的话，那么将在步骤442检查文本串STR，以判断其是否具有组合词自然停顿插入停顿。组合词自然停顿的例子如下所示：

a bit of

a body of

a few

a fleet of

a flooding of

a fraction of

a function of

a good deal

a good deal of

a great deal

a great deal of

a hint of

a large body of

a large number of

a lot ofland

a majority of

如果在步骤442确定具有停顿的话，那么将进行步骤446，该停顿被标识为F单词停顿。如果在步骤442确定没有停顿被标识的话，那么在步骤443，将进行一个测试以判断是否达到了所选单词的P单词门限值PT。通过比较文本串STR中开始端与所选单词之间的音节的数量来进行这个判断。如果达到了所选单词的P单词门限值PT的话，那么就会确定存在自然停顿，并在步骤444将其标识为P单词停顿。另外，如果在步骤443没有停顿被标识的话，那么在步骤445，将进行一个测试以判断是否达到了所选单词的F单词门限值FT。通过比较文本串STR中结束端与所选单词之间的音节的数量来进行这个判断。如果达到了所选单词的F单词门限值FT的话，那么就会确定存在自然停顿，并在步骤446将其标识为F单词停顿。否则，在步骤447没有停顿被标识。

本发明的优点在于，允许标识文本串中的自然语音停顿，用于文语转换(TTS)合成，由此改善合成语音的质量。

以上的详细说明书仅仅是提供了优选的示范实施例，而并不希望限制本发明的范围、适用性或者配置。优选示范实施例的详细说明是为了使本领域技术人员可以实现本发明的优选示范实施例。应该可以理解，在不背离如所附权利要求中所阐述的本发明的精神和范围的前提下，在元素的功能和结构上可以作出多种的改变。

Claims

1.一种用于自动标识文本串中的自然语音停顿的方法，该停顿用于在电子设备上进行的文语转换之中，该方法包括：

获取包括两端的所述文本串，这两端是开始端和结束端；

分析所述文本串中的至少一个单词以判断所述单词附近是否存在自然语音停顿，所述分析基于至少一个用于所述单词的预设门限值，所述预设门限值与所述单词和文本串的所述两端中的一端之间的音节的数量相关联；和

将所述自然语音停顿插入到文本串的合成语音信号输出表示中。

2.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法，其中，所述的至少一个预设门限值包括P单词门限值，其基于所述开始端和所述单词之间的音节的数量。

3.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法，其中，所述的至少一个预设门限值包括F单词门限值，其基于所述结束端和所述单词之间的音节的数量。

4.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法，其中，所述的至少一个预设门限值是通过下述步骤确定的：

向口述记录的训练集提供至少一个由插入的标识符所标识的自然语音停顿；

将每个所述口述记录中的单词都标识为P单词和F单词；

统计地分析所述训练集中的所述P单词和F单词；

从所述的统计分析的结果中确定所述F单词门限值和P单词门限值。

5.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法，其中，所述插入的自然语音停顿还可包括标识为词性模式自然停顿的停顿。

6.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法，其中，所述插入的自然语音停顿还可包括标识为组合词自然停顿的停顿。