CN1692403A

CN1692403A - 具有个人化语音段的语音合成设备

Info

Publication number: CN1692403A
Application number: CNA038235919A
Authority: CN
Inventors: E·T·P·M·阿勒夫斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-10-04
Filing date: 2003-09-12
Publication date: 2005-11-02
Also published as: US20060074672A1; EP1552502A1; AU2003260854A1; JP2006501509A; WO2004032112A1

Abstract

本发明涉及一种语音合成设备，包括：用于输入自然语音的装置(102，104)，用于处理所述自然语音以提供个人化语音段(114)的装置(106，108，110，112，113)，基于所述个人化语音段来合成语音的装置(118)。

Description

具有个人化语音段的语音合成设备

本发明涉及语音合成领域，更加具体而非限制性地来说，涉及文本到语音的合成领域。

文本到语音(TTS)合成系统的功能是从一种给定语言的一般文本来合成语音。现今，TTS系统已经被应用到许多应用的实际操作中，诸如通过电话网络访问数据库或帮助残疾人。一种合成语音的方法是把语音子单元的记录集合的元素(诸如半音节或多音素)串连起来。多数成功的商业系统使用了多音素的串连。

多音素包括两个(双音素)、三个(三音素)或多个音素的组，并且通过在稳定的谱域上分割期望的音素组，可以根据无意义的字来确定所述多音素。在基于串连的合成中，为确保合成语音的质量，两个邻近音素之间转换的对话是至关重要的。通过选择多音素作为基本的子单元，两个邻近音素之间的转换被保存在已记录的子单元中，并且在相似音素之间执行串连。然而，在合成之前，必须修改音素的音长和音调以便达到包含这些音素的新字的韵律约束条件。该处理是必须的，以避免产生单调发声的合成语音。在TTS系统中，该功能是通过韵律模块来实施的。为了提供已记录的子单元中的音长和音调，许多基于串连的TTS系统使用时域音调同步重叠相加(TD-PSOLA)(E.Moulines and F.Charpentier，“Ptich synchronous waveformprocessing techniques for text-to-speech synthesis usingdiphones”，Speech Commum.，vol.9，pp.453-467，1990)合成模型。在TD-PSOLA模型中，语音信号首先被执行音调标记算法。该算法在发声段内的信号峰值处分配有标志，并且在未发声段中以10毫秒为间隔分配标志。上述的合成是通过对集中在音调标志处的Hanning窗口段进行叠加，并且从先前音调标志延伸到下一音调标志而实施的。上述的音长修改是通过删除或复制一些窗口段来提供的。另一方面，上述音调周期的修改是通过增加或减少窗口段之间的叠加来提供的。文献EP-0363233、美国专利No.5479564、EP-0706170中定义了所述PSOLA方法的实例。并且一种为MBR-PSOLA方法的特殊实例由T.Dutoit和H.Leich在Speech Communication，ElsevierPublisher，November 1993，Vol.13，N.degree.3-4，1993中公布。文献美国专利No.5479564所描述的方法提出一种通过对从信号中提取的短期信号进行重叠相加来修改该信号频率的装置。用于获得所述短期信号的加权窗口的长度大约等于音频信号周期的两倍，并且它们的位置在周期内能够被设置为任一值(假设连续窗口之间的时间偏移等于所述音频信号周期)。文献美国专利No.5479564也描述一种如下配置的装置，即在段之间内插波形以便串连，从而平滑不连续性。在文本到语音系统的现有技术中，一组预先记录的语音片断(fragment)以特定顺序串连以便将确定的文本转换为自然发声的语音。使用小语音片断的文本到语音系统具有许多这样的串连点。以双音素合成技术或单元选择合成技术为基础的TTS系统通常包含一个数据库，预先记录的声音部分存储在该数据库中。这些语音段在合成系统中被使用以产生语音。本领域如今的状态是声音部分的记录发生在受控的实验室环境中，因为记录活动耗费时间并且需要声音信号处理的专门知识，尤其是用于人工后处理的专门知识。直到现在，这种受控环境仅能在语音合成技术的供应商那里被发现。

TTS系统的现有技术的共同缺陷在于：诸如用户设备的商业产品的制造商仅能从语音合成供应商提供的声音的有限集合中选择，这些制造商希望将语音合成模块集成到这些商业或用户产品中。如果一个制造商需要一种新的声音，那么他不得不为记录所需的供应商的受控环境中的声音部分以及为人工后处理而付费给供应商。现有技术中的用户产品典型地仅具有一种声音或者终端用户仅能从非常有限的声音集合中选择。所述用户设备实例包括音频、视频、家庭用品、电信、计算机、个人数字助理、汽车导航和其他设备。

诸如美国专利6078885和美国专利5842167的现有技术仅提供非常有限的用于改变所提供的语音合成系统的选项，该选项是就扩展字典和适应关于音量、语音和音调的声音而言的。然而，现有技术中的系统不能改变这种声音。

因此，本发明的一个目标是提供一种能够合成个人化语音的语音合成设备和语音合成方法。

本发明提供一种能够合成个人化自然发声的语音的语音合成设备。这种设备是这样实现的，即将自然语音输入到所述语音合成设备，处理所述自然语音以提供个人化语音段，以及将所述个人化语音段用于语音合成。

本发明显著的优点在于：其能够提供一种具有个人化语音合成能力的用户设备，诸如音频、视频、家庭用品、电信、个人数字助理、或汽车导航设备。例如，用户设备的终端用户能够借助于该用户设备记录他或她的声音，然后该用户设备处理所述声音样本以提供个人化声音段数据库。作为选择，所述终端用户能够使得另一人(诸如他或她的家庭成员)来输入自然语音，从而使用户设备合成其听起来像特定家庭成员的声音的语音。

例如，类似于包括DECT、GSM的移动电话或有绳电话的用户设备能够配备根据本发明的语音合成设备，以便将个人化的“声音”提供给电话。同样，类似于电视机、DVD播放器、个人电脑和便携式设备的其他用户设备的用户接口能够配备有所述语音合成设备。

以下列出了一些应用实例：

记录家庭成员的声音以便训练语音合成系统。这样做能够利用家庭成员的声音对家庭成员发送到诸如计算机或PDA那样的用户设备的用户的电子邮件中包含的文本进行语音合成。换句话说，计算机上所接收的电子邮件调用根据本发明的文本到语音系统。电子邮件的源地址用于选择一个对应的个人化语音段数据库。接下来，借助于选定的个人化语音段数据库来合成电子邮件中所包含的文本。合成的语音听上去就像电子邮件发送者他/她自己读电子邮件文本给接收者一样。使得数据库能够为其他用户所用的另一应用是输出个人化语音数据库并且发送个人化语音段数据库给另一用户，从而使得当用户接收到电子邮件时，电子邮件的文本被基于个人化语音段数据库来合成。例如，用户记录了他或她自己的声音，并且将该个人化语音段数据库提供给他或她在国外的家人，这样当借助于本发明的语音合成系统将该用户的电子邮件从文本转换为语音时，其家人能够听到该用户自然发出的合成声音。

记录孩子的声音，并且在玩具的语音合成模块中使用该记录的声音。

使用本发明的个人化语音段数据库以呈现音频和/或视频节目的数字化表示，例如诸如在数字音频和/或视频广播中被编码为MPEG文件或流的电视节目。

下载诸如流行明星、演员或政治家的名人的个人化语音段数据库，并且在商业产品的语音合成系统中使用这些个人化语音段数据库。

记录一个知道他或她在将来将失去他/她的声音的人的声音，他/她的失声是由于诸如咽喉癌那样的进行性疾病或影响肌肉的其他慢性病(像多发性硬化)导致的。对于失去他或她的声音的人来说，上述已记录的声音元素可以在通信设备的语音合成部分中被处理和使用。

记录孩子的一个或多个父母的声音并且在装备有语音合成系统的电子育婴产品或玩具中使用产生的个人化语音段数据库。

应该指出：本发明并非限于某类语音合成技术，而是能够使用基于诸如双音素、三音素、多音素的语音段或单元选择技术来合成语音的任一语音合成技术。

根据本发明优选实施例，无意义载体字被用于收集语音合成所需的所有双音素。例如，能够使用Iasrd，S.，and Miller，D.Diphonesynthesis techniques in Proceedings of IEE InternationalConference on Speech Input/Output(1986)，pp.77-82中所描述的双音素合成技术。

作为选择，也能够使用自然载体短语(phrase)，但是优选使用无意义载体字，因为其通常使得双音素的传递更加一致。优选地设计无意义载体字从而使得能够从所述字的中间提取双音素。

根据本发明的另一优选实施例，使用一种预先记录并且预先处理的语音段数据库。提供该语音段数据库作为用户设备的组成部分，使得在制造所述用户设备之后，其已直接具有了“声音”。

为了产生个人化语音段数据库而使用这个语音段数据库。其是通过找到数据库的语音段与从终端用户声音的记录中所提取的对应语音段之间的最佳匹配而实现的。当已经找到所述最佳匹配时，被分配给数据库的语音段的标志信息被复制到提取的语音段。由此，避免了为添加标志信息的目的而对提取的语音段进行的人工后处理。

根据本发明的又一优选实施例，为找到上述最佳匹配而使用一种称为动态时间扭曲(DTW)的技术。借助于DTW，通过改变信号的时间/标度和/或幅度，而将提取的语音段与其对应的存储在预先记录的和预先处理的语音段数据库中的语音段进行比较以便发现两者之间的最有可能的匹配。例如，将具有分配的标志信息的预先记录的语音段(诸如双音素)与通过DTW而从对应的无意义字中获得的语音段对准。为此目的，能够使用Malfrer，F.，and Dutoit，T.“high qualityspeech synthesis for phonetic speech segmentation”InEurospeech97(Rhodes，Greece，1997)，pp.2631-2634中描述的一种技术。

根据本发明的再一优选实施例，借助于语音合成模块，通过呈现无意义字来提示用户说出确定的无意义字。优选地，这些提示是以恒定的音调和音长而产生的，以便鼓励说话者照做。此外，这样使得在数据库中找到最佳匹配，因为预先确定了数据库中属于讲出的语音段的语音段。

应当指出：DTW技术可以根据Sakoe，H.& Chiba，S.(1978)“Dynamic programming algorithm optimization for spoken wordrecognition”IEEE transaction.Acoustics，Speech，and SignalProcessing 26.43-49而知道。

根据本发明的再一优选实施例，用户设备具有一种用户接口，该用户接口具有用于显示要被用户说出的无意义字列表的显示器。作为选择或附加地，用户接口具有音频反馈功能，诸如呈现由语音合成器提供的音频提示。优选地，用户能够从列表中选择无意义字，然后其被合成作为对用户重复该无意义字的提示。当用户重复无意义字时，其被记录以便获得对应的语音段。然而，应当指出：所述用户接口不是本发明所必需的，并且没有用户接口，本发明也是能够实现的。

应该指出：多个个人化双音素数据库能够被有利地用于希望合成多个讲话者的声音的其他应用。上述个人化双音素数据库可以由用户借助于本发明的用户产品而建立，或者通过第三方(诸如最初的制造商、另外的制造商或双音素数据库内容提供者)来提供。例如，双音素数据库内容提供者提供从互联网上下载的各种各样的声音的双音素数据库。

以下通过参考附图，将更为详细地描述本发明优选的实施例，其中：

图1是本发明语音合成设备的第一优选实施例的框图，

图2是用于提供个人化语音数据库的说明性流程图，

图3是用于个人化语音合成的说明性流程图，

图4是本发明另一优选实施例的框图，

图5是关于图4实施例的操作的说明性流程图。

图1示出了具有集成的语音合成器的用户设备100。该用户设备100能够是任一类型的用户设备，诸如家庭应用、用户电子设备、或电信或计算机设备。然而，应该指出：本发明不限于用户设备中的应用，而且还能够被用于其他的用户接口，诸如工业控制系统中的用户接口。所述用户设备100具有耦合到声音记录模块104的麦克风102。声音记录模块104被耦合到临时存储器模块106。该临时存储器模块106用于存储已记录的无意义字。

此外，所述用户设备100具有制造商提供的双音素数据库108。动态时间扭曲(DTW)模块110被耦合于临时存储器模块106和双音素数据库108之间。所述的双音素数据库108包含预先记录的和预先处理的双音素，该双音素具有分配给它的标志信息。DTW模块110耦合到标记模块112，在找到所述双音素与由临时存储器模块106提供的已记录的无意义字之间的最佳匹配之后，该标记模块112从双音素数据库108中复制双音素的标志信息。所产生的已标记的声音记录被输入到双音素提取模块113中。然后将由双音素提取模块113提供的双音素输入到个人化双音素数据库114中。换句话说，临时存储器模块106中存储的语音记录与制造商提供的双音素数据库108中所包含的双音素最佳匹配。当找到最佳匹配时，通过标记模块112将标记或标志信息从双音素数据库108的最佳匹配双音素复制到语音记录。上述结果就是具有被复制的标志信息的被标记的语音记录。根据该被标记的语音记录，所述双音素被提取出来并被输入到个人化双音素数据库114中。这是由从被标记的语音记录中删掉双音素的双音素提取模块113来完成的。个人化双音素数据库114被耦合到输出模块116，该输出模块116能够实现个人化双音素数据库114的输出，以便将其提供到另一应用或另一用户设备。此外，用户设备100具有语音合成模块118。语音合成模块118能够基于任何语音合成技术。

语音合成模块118具有耦合到控制器122的文本输入模块120。控制器122将文本提供给文本输入模块120，然后借助于语音合成模块118进行合成并且通过扬声器124输出。此外，所述用户设备100具有用户接口126。用户接口126被耦合到存储无意义字列表的模块128，该无意义字列表用作为输入所需语音段的载体，也就是在此所考虑的实例中的双音素。所述模块128也被耦合到语音合成模块118。当所述用户设备100被交付给终端用户时，所述个人化双音素数据库114是空的。为了给用户设备100提供个人化语音，用户不得不提供自然的语音，所述自然的语音形成利用对应的语音段来填充所述个人化双音素数据库114的基础，然后该对应的语音段被语音合成模块118用于个人化语音的合成。

当载体字存储在模块128时，语音输入是借助于该载体字来实施的。这个载体字列表显示在用户接口126上。来自模块128中存储的列表的无意义字被输入到语音合成模块118以合成对应的语音。用户听到合成的无意义字，并且通过将其读入麦克风102而重复该无意义字。讲出的字被声音记录模块104捕获，并且借助于双音素提取模块106提取感兴趣的双音素。通过DTW模块110来比较双音素数据库108内的对应的双音素与由双音素提取模块106所提供的被提取的双音素。DTW模块110通过改变信号的时间/标度和/或幅度而对两个双音素信号进行比较，以便找到两者之间最有可能的匹配。当找到所述最佳匹配时，双音素数据库108的双音素的标志信息就可以借助于标记模块112而复制到被提取的双音素。然后将具有标志信息的被标记的双音素存储在个人化双音素数据库114中。

上述过程是对模块128的字列表中所包含的所有无意义字实施的。当全部的字列表都已经被处理过，那么个人化双音素数据库114就完成了并且可以通过语音合成模块118用于达到语音合成的目的。当通过控制器122而将文本输入到文本输入模块120时，语音合成模块118能够使用所述个人化双音素数据库114以便对听起来像用户声音的语音进行合成。

借助于输出模块116，个人化双音素数据库114能够被输出以将其提供给另一应用或另一用户设备，从而将用户声音提供给其他应用或用户设备。

图2示出了说明图1所示的个人化双音素数据库114的生成的对应流程图。在步骤200中，借助于制造商提供的双音素数据库来合成无意义字列表的无意义字i。作为响应，在步骤202中，用户重复该无意义字i并且记录自然语音。在步骤204中，从已记录的无意义字i中提取相关的双音素。在步骤206中，借助于DTW方法来识别被提取的双音素与由制造商提供的双音素数据库中对应的双音素之间的最佳匹配。

当找到所述最佳匹配时，将制造商提供的双音素数据库中的双音素的标志复制到被提取的双音素中。然后在步骤210中，将具有标志信息的被提取的双音素存储在个人化双音素数据库中。在步骤212中，递增所述索引i，以便达到列表中的下一个无意义字。从此处，所述控制返回到步骤200。这一过程会被重复直到整个无意义字列表都已经被处理过。

图3说明了在完成个人化双音素数据库之后用户设备的使用。在步骤300中，用户能够对于预先设置的声音或个人化声音(也就是制造商提供的双音素数据库或个人化双音素数据库)输入他或她的选择。在步骤302中，通过用户设备的应用而产生文本，并且该文本被提供给语音合成模块的文本输入端。接下来在步骤304中，借助于用户选择的双音素数据库合成所述语音，并且在步骤306中，通过扬声器输出所述语音。

图4示出了用户设备400的一种可替换的实施例。该用户设备400具有电子邮件系统402。该电子邮件系统402被耦合到选择模块404。选择模块404被耦合到个人化双音素数据库1、2、3...的集合406。每一个个人化双音素数据库具有一个分配的源地址，也就是个人化双音素数据库1具有源地址A，个人化双音素数据库2具有源地址B，个人化双音素数据库3具有源地址C，...。

每一个个人化数据库1、2、3...均可以被耦合到语音合成模块408。借助于参考图2所描述的方法获得每一个个人化双音素数据库1、2、3...。通过用户设备400本身和/或一个或多个输入到所述集合406的个人化双音素数据库1、2、3...来执行所述方法。

例如，用户设备100的用户B(比较图1)输出它的个人化双音素数据库，并且将个人化双音素数据库作为电子邮件的附件发送到用户设备400。在电子邮件系统402接收到所述电子邮件之后，所述个人化双音素数据库作为具有分配的源地址B的个人化双音素数据库2而被输入到集合406中。

在操作中，电子邮件消息410由用户设备400的电子邮件系统402接收。如果用户B已经发送了电子邮件以及用户设备400的用户的目的地址，那么该电子邮件消息具有诸如源地址B的源地址。此外，所述电子邮件消息410在电子邮件消息本身中包含文本。

当电子邮件系统402接收到电子邮件消息410时，所述选择模块404被调用。选择模块404选择集合406中的个人化双音素数据库1、2、3...中的一个，该被选定的个人化双音素数据库具有与电子邮件消息410的源地址相匹配的源地址。例如，如果用户B已经发送了电子邮件消息410，那么选择模块404选择集合406内的个人化双音素数据库。

包含在电子邮件消息410自身中的文本被提供给语音合成模块408。语音合成模块408借助于由选择模块404选择的个人化双音素数据库来执行语音合成。通过这种方法，用户设备400的用户会有这样的感觉，即用户B将电子邮件的文本读给他或她。

图5示出了对应的流程图。在步骤500中，接收电子邮件消息。该电子邮件消息具有确定的源地址。在步骤502中，被分配该源地址的个人化双音素数据库被选择。如果先前没有输入所述个人化双音素数据库，那么检查所述电子邮件是否具有附加的个人化双音素数据库。如果是这种情况，那么附加到该电子邮件的个人化双音素数据库被输入和选择。如果不存在具有分配的源地址的个人化双音素数据库，那么选择默认的双音素数据库。接下来，基于选定的个人化或默认的双音素数据库将电子邮件自身包含的文本转换为语音。

Claims

1.一种语音合成设备，包括：

用于输入自然语音的装置，

用于处理所述自然语音以提供个人化语音段的装置，

基于所述个人化语音段来合成语音的装置。

2.根据权利要求1的语音合成设备，用于处理自然语音的装置包括从自然语音中提取语音段的装置。

3.根据权利要求1或2的语音合成设备，进一步包括：

用于存储语音段的语音段数据库，该语音段具有分配给它的标志信息，

用于找到语音段数据库中的语音段与自然语音之间的最佳匹配的装置，

用于在执行最佳匹配之后，将标志信息复制到自然语音的装置。

4.根据权利要求3的语音合成设备，用于找到最佳匹配的装置适于执行动态时间扭曲(DTW)类型方法。

5.根据权利要求1-4中任一权利要求的语音合成设备，进一步包括一种用于存储被提取出的语音段的个人化语音段数据库(114)，上述被提取的语音段具有分配给它的标志信息。

6.根据权利要求1-5中任一权利要求的语音合成设备，进一步包括用于存储由讲话者说出的字的列表以提供个人化语音段的装置。

7.根据权利要求1-6中任一权利要求的语音合成设备，进一步包括用于显示要被用户说出的字的用户接口。

8.根据权利要求1-7中任一权利要求的语音合成设备，进一步包括用于在输入自然语音之前呈现要被说出的字的装置。

9.根据权利要求1-8中任一权利要求的语音合成设备，进一步包括：

用于不同讲话者的个人化语音段数据库的集合，

用于从上述个人化语音段数据库集合中选择其中一个个人化语音段数据库的装置。

10.根据权利要求1-9中任一权利要求的语音合成设备，进一步包括用于输出个人化语音段的装置。

11.根据权利要求1-10中任一权利要求的语音合成设备，要被输入的自然语音包括无意义字列表。

12.根据权利要求1-11中任一权利要求的语音合成设备，语音段是双音素、三音素和/或多音素。

13.根据权利要求1-12中任一权利要求的语音合成设备，用于合成语音的装置适于通过PSOLA类型方法来执行语音合成。

14.根据权利要求1-13中任一权利要求的语音合成设备，进一步包括用于将文本提供给用于合成语音的装置的控制装置。

15.一种诸如音频、视频、家庭用品、照相机、计算机、电信、汽车导航和/或个人数字助理设备的用户设备，包括根据权利要求1-14中任一权利要求的语音合成设备，该语音合成设备用于提供个人化自然语音输出。

16.一种语音合成方法，包括以下步骤：

将自然语音输入到用户设备，

由用户设备处理所述自然语音以提供个人化语音段，

基于要由用户设备输出的文本的个人化语音段来进行文本到语音的合成，以提供个人化语音输出。

17.根据权利要求16的方法，进一步包括从自然语音中提取语音段。

18.根据权利要求16或17的方法，进一步包括以下步骤：

识别对于数据库中输入的自然语音的最佳匹配语音段，该数据库包括具有分配给它的标志信息的语音段，

将识别出的最佳匹配语音段的标志信息分配给自然语音。

19.根据权利要求16、17或18的方法，由此采用动态时间扭曲(DTW)类型方法以用于识别最佳匹配语音段。

20.一种诸如数字存储介质的计算机程序产品，包括用于执行以下步骤的计算机程序装置：

将自然语音输入到用户设备，

在用户设备内处理所述自然语音以提供个人化语音段，