CN1549999A

CN1549999A - 适用于提高合成语音可懂性的运行时合成器

Info

Publication number: CN1549999A
Application number: CNA028061586A
Authority: CN
Inventors: ά; 彼得维普莱克
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-03-08
Filing date: 2002-03-07
Publication date: 2004-11-24
Anticipated expiration: 2022-03-07
Also published as: US6876968B2; RU2003129075A; EP1374221A1; CN1316448C; RU2294565C2; EP1374221A4; JP2004525412A; US20020128838A1; WO2002073596A1

Abstract

一种用于合成语音的运行时改进的方法和系统。方法包括根据文本输入(16)和多个运行时控制参数值(42)产生合成语音的步骤(40)。根据一个输入信号(46)产生实时数据(44)，其中输入信号表征语音对于收听者的可懂性。方法进一步提供了根据实时数据(20)修改(48)一个或更多的运行时控制参数值，从而提高语音的可懂性。在运行时而不是在设计阶段修改参数值提供了通过惯用方式不能取得的自适应水平。

Description

适用于提高合成语音可懂性的运行时合成器

技术领域

本发明涉及语音合成。更具体地讲，本发明涉及一种用于根据实时数据提高运行时合成语音的可懂性的方法和系统。

背景技术

在诸如汽车车厢、机舱和驾驶室、以及住宅和办公室之类的许多环境中，已经开发了多种系统来提高呈现给收听者的可听见声音的可懂性。例如，近来改进汽车声频系统输出的努力导致可以手动或自动调节声频系统的频谱输出的均衡器。尽管这一直是响应收听者对各种控制的操纵进行的，但最近的研究涉及到收听者环境的声频抽样。声频系统均衡方法一般需要有关系统要在其中使用的预期环境的大量知识。因此，这种类型的应用在声频系统输出受到限制，并且，在轿车的情况下，一般固定到特殊类型和型号的轿车。

实际上，多年来航空和军用型通信中一直使用语音拼音字母表(即，alhpa，bravo，Charlie，...)以在严酷环境下消除拼读字母的歧义。因此，这种措施也是基于在存在信号和/或背景噪声的情况下，某些声音天生比其它的声音更容易听懂的基本理论。

可懂性改进的另一个例子涉及蜂窝电话中信号处理以减小上行链路/下行链路信道中或基站网中发送错误造成的声频失真。十分重要的是，这种方法与信道(或卷积)噪声有关，并且没有考虑到收听者环境中存在的背景(或附加)噪声。还有另一个例子是经常在电话会议中使用的惯用回声消除系统。

也应当着重指出，所有上述技术都没有提供用于在运行时改进合成语音的机构。这是十分关键的，因为最近在改进语音合成器输出方面取得的进展，使得语音合成迅速地流行。尽管取得了这些最近的进展，语音合成方面仍然存在着许多困难。实际上，一个特别的困难是，所有惯用语音合成器需要事先了解预期的环境知识，以便能够在设计时设置各种控制参数值。很容易理解，这样一种方式是极端不灵活的，并且能够很好地使用这种合成器的环境范围是十分有限的。因此，非常希望能够提供一种根据实时数据改进合成语音，从而提高语音的可懂性的方法和系统。

发明内容

通过根据本发明的一种改进合成语音的方法可以达到上述和其它目的。方法包括根据文本输入和多个运行时控制参数值产生合成语音的步骤。实时数据是根据一个输入信号产生的，其中输入信号表征了语音对于一个收听者的可懂性。方法进一步提供了根据实时数据修改一个或更多的运行时控制参数值，从而提高语音的可懂性。在运行时而不是在设计阶段修改参数值提供了通过惯用方法不能取得的自适应水平。

此外，根据本发明，提供了一种修改一个或更多的语音合成器运行时控制参数的方法。方法包括接收实时数据，和根据实时数据识别合成语音的有关特性的步骤。有关特性具有对应的运行时控制参数。方法进一步提供了将调节值应用到控制参数的参数值，从而能够以希望的方式改变语音的有关特性。

在本发明的另一方面，一种语音合成器适配系统包括文本到语音(TTS)合成器，声频输入系统和适配控制器。合成器根据文本输入和多个运行时控制参数值产生语音。声频输入系统根据包含在语音重放的环境中的各种类型的背景噪声产生实时数据。适配控制器连接到合成器和声频输入系统。适配控制器根据实时数据修改一个或更多的运行时控制参数值，从而减小了背景噪声与语音之间的干扰。

应当理解，无论上面的一般性说明，还是下面的详细说明，都是为了举例说明本发明和为了理解权利要求中指出的本发明的性质和特征而提供的综述和框架。说明书包括了附图，以提供对本发明的进一步的理解，并且附图结合在说明书中并构成说明书的一部分。附图示出了本发明的各种特征和实施例，并且与说明书一起用来解释本发明的原理和操作。

附图简要说明

通过阅读下面的说明书和附属的权利要求，并且参考附图，熟悉本领域的人员将会了解本发明的各种优点，在附图中：

图1是根据本发明的原理的一个语音合成器适配系统的方框图；

图2是根据本发明的原理的改进合成语音的方法的流程图；

图3是根据本发明的一个实施例的根据一个输入信号产生实时数据的过程的流程图；

图4是根据本发明的一个实施例的一个用实时数据表示背景噪声的特性的过程的流程图；

图5是根据本发明的一个实施例的一个改进一个或更多的运行时控制参数值的过程的流程图；和

图6是显示根据本发明的一个实施例的有关特性和对应的运行时控制参数的示意图。

优选实施例详细说明

现在参考图1，图1示出了一个优选的语音合成器适配系统10。通常，适配系统10具有一个用于根据文本输入16和多个运行时控制参数值42产生合成语音14的文本到语音(TTS)合成器12，一个根据包含在语音14重放的环境24中的背景噪声22产生实时数据(RTD)20的声频输入系统18，一个连接到合成器12和声频输入系统18的适配控制器26。适配控制器26根据实时数据20修改一个或更多的运行时控制参数值42从而减小背景噪声22与语音14之间的干扰。声频输入系统18优选包括一个声-电信号转换器，例如，一个将声波转换成电信号的话筒。

背景噪声22可以包括来自如图所述的多个来源的分量。将干扰源根据来源的类型和特性分类。例如，诸如警车警笛28和过往的飞机(未示出)之类的一些噪声源产生通常是迅速改变特性的瞬时高水平干扰。诸如操作中的机械30和空调单元(未示出)之类的其它噪声源一般产生低水平的固定背景噪声。此外，诸如无线电32和各种娱乐设施(未示出)通常产生诸如音乐和歌声之类的具有类似于合成语音14特性的进行中干扰。此外，环境24中存在的竞争说话者34可能是一种具有实际上与合成语音14相同的属性的干扰源。此外，环境24本身也可能影响合成语音14的输出。因此，环境24及其影响可以随时间动态地改变。

应当强调指出，尽管示出适配系统10是根据包含在语音14重放的环境24中的背景噪声22产生实时数据20的，但是，本发明不限于此。例如，如下面将要更详细地说明的，也可以根据从收听者34经过输入设备19的输入产生实时数据20。

现在转到图2，图2示出了一种改进合成语音的方法38。可以看到，在步骤40，根据文本输入16和多个运行时控制参数值42产生了合成语音。在步骤44，根据一个输入信号46产生了实时数据20，其中输入信号46表征了语音对于收听者的可懂性。如已经说明过的，输入信号46可以直接来源于环境中的背景噪声，或来自一个收听者(或其它使用者)。尽管如此，输入信号46包含着有关语音可懂性的数据，从而代表了一个在运行时适配语音的有价值的信息源。在步骤48，根据实时数据20修改一个或更多的运行时控制参数值42，从而提高了语音的可懂性。

如已经讨论过的，一个实施例涉及根据包含在重放语音的环境中的背景噪声产生实时数据20。因此，图3示出了在步骤44产生实时数据20的优选方式。更具体地讲，可以看到，在步骤52将背景噪声22转换成一个电信号50。在步骤54，从一个模式数据库(未示出)检索出一个或更多的干扰模式56。因此，可以在步骤58根据电信号50和干扰模式56用实时数据20表示出背景噪声22的特性。

图4示出了在步骤58表示背景噪声的特性的优选方式。更具体地讲，可以看到，在步骤60，对电信号50执行了时域分析。产生的时间数据62提供了要在这里所述的操作中使用的大量信息。同样地，在步骤64，对电信号50进行频域分析，以获得频率数据66。应当着重指出，执行步骤60和64的顺序对于总体结果并不是关键。

也要着重指出，表征特性的步骤58涉及识别背景噪声中各种类型的干扰。这些干扰例子包括，但不限于，高水平的干扰、低水平的干扰、瞬时干扰、连续干扰、变化的干扰和固定干扰。表征特性的步骤58也可以包括识别背景噪声的潜在来源，识别背景噪声的语音和确定所有这些源的位置。

现在转到图5，图5详细地示出了修改运行时控制参数值42的优选方式。更具体地讲，可以看到，在步骤68，接收到实时数据20，在步骤70，根据实时数据20识别出语音的有关特性72。有关特性72具有对应的运行时控制参数。在步骤74，将调节值应用到控制参数的参数值，从而以希望的方式改变语音的有关特性72。

现在转到图6，图6详细地示出了潜在的有关特性72。一般可以将有关特性72分类成说话者特性76，情绪特性77，方言特性78和内容特性79。可以把说话者特性76进一步分类成话音特性80和讲话风格特性82。影响话音特性80的参数包括但不限于语音速率、音高(基本频率)、音量、参量均衡、共振峰(共振峰频率和带宽)、声门源、语音功率频谱的摆动、性别、年龄和身份。影响讲话风格特性82的参数包括但不限于动态韵律(例如，节奏、重音和音调)和清晰度。因此，充分清晰地发出闭辅音等等，可以取得超清晰度，潜在地导致更好的可懂性。

诸如紧急性之类的有关情绪特性77的参数也可以用于吸引听众的注意力。可以通过发音和清晰度(共振峰，等等)影响方言特性78。应当进一步理解，诸如冗余、重复和词汇量之类的参数与内容特性79有关。例如，利用同义字和短语在语音中添加或删除冗余(例如，5PM＝5pm与下午五点)。重复包括有选择地重复合成语音的某些部分，以便更好地强调重要内容。此外，允许用有限的词汇量和有限的句子结构来减小语言的复杂性，也可以提高可懂性。

现在转到图1，应当知道，可以与一个声频输出系统84联合地使用多音声频处理，以根据实时数据20改变语音14的空间位置。

从上述的说明中，熟悉本领域的人员现在可以知道，可以用各种不同的形式实现本发明的广义地说明。因此，尽管可以结合本发明的特定例子说明本发明，但是，本发明的真实范围应当不限于此，因为熟悉本领域的实践者在研究了附图、说明书和附属的权利要求之后，可以知道还有其它的修改形式。

Claims

1、一种改进合成语音的方法，包括步骤：

根据文本输入和多个运行时控制参数值产生合成语音；

根据一个输入信号产生实时数据，该输入信号表征所述语音对于收听者的可懂性；和

根据实时数据修改一个或更多的运行时控制参数值从而提高语音的可懂性。

2、根据权利要求1所述的方法，进一步包括根据包含在语音重放的环境中的背景噪声产生实时数据的步骤。

3、根据权利要求2所述的方法，进一步包括步骤：

将背景噪声转换成电信号；

从模式数据库检索一个或更多的干扰模式；和

根据电信号和干扰模式用实时数据表示出背景噪声的特性。

4、根据权利要求3所述的方法，进一步包括对电信号进行时域分析的步骤。

5、根据权利要求3所述的方法，进一步包括对电信号进行频域分析的步骤。

6、根据权利要求3所述的方法，其中表示特性的步骤是从实际上由下述步骤组成的组中选择的：

识别背景噪声中的高水平干扰；

识别背景噪声中的低水平干扰；

识别背景噪声中的瞬时干扰；

识别背景噪声中的连续干扰；

识别背景噪声中的变化干扰；

识别背景噪声中的固定干扰；

识别背景噪声源的空间位置；

识别背景噪声的潜在源；和

识别背景噪声中语音。

7、根据权利要求1所述的方法，进一步包括步骤：

接收实时数据；

根据实时数据识别语音的有关特性，该有关特性具有对应的运行时控制参数；和

将调节值应用到控制参数的参数值，从而以希望的方式改变语音的有关特性。

8、根据权利要求7所述的方法，进一步包括改变语音的有关说话者特性的步骤。

9、根据权利要求8所述的方法，进一步包括改变语音的有关话音特性的步骤。

10、根据权利要求9所述的方法，进一步包括改变从实际上由下面的特性组成的组中选择的特性的步骤：

语音速率；

音高；

音量；

参量均衡；

共振峰频率和带宽；

声门源；

语音功率频谱摆动；

性别；

年龄；和

身份。

11、根据权利要求8所述的方法，进一步包括改变语音的有关讲话风格特性的步骤。

12、根据权利要求11所述的方法，进一步包括改变从实际是由下面的特性组成的组中选择的特性的步骤：

动态韵律；和

清晰度。

13、根据权利要求7所述的方法，进一步包括改变语音的有关情绪特性的步骤。

14、根据权利要求13所述的方法，进一步包括改变语音的紧急特性的步骤。

15、根据权利要求7所述的方法，进一步包括改变语音的有关方言特性的步骤。

16、根据权利要求15所述的方法，进一步包括改变从实际上由下面的特性组成的组中选择的特性的步骤：

发音；和

清晰度。

17、根据权利要求7所述的方法，进一步包括改变语音的有关内容特性的步骤。

18、根据权利要求17所述的方法，进一步包括改变从实际上由下面的特性组成的组中选择的特性的步骤：

重复；

冗余；和

词汇量。

19、根据权利要求1所述的方法，进一步包括使用多音声频处理以根据实时数据改变语音的空间位置的步骤。

20、根据权利要求1所述的方法，进一步包括根据收听者的输入产生实时数据的步骤。

21、根据权利要求1所述的方法，进一步包括在汽车应用中使用合成语音的步骤。

22、一种修改一个或多个语音合成器运行时控制参数的方法，包括步骤：

接收实时数据；

根据实时数据识别合成语音的有关特性，该有关特性具有对应的运行时控制参数；和

23、根据权利要求22所述的方法，进一步包括改变语音的有关讲话者特性的步骤。

24、根据权利要求23所述的方法，进一步包括改变语音的有关话音特性的步骤。

25、根据权利要求23所述的方法，进一步包括改变语音的有关讲话风格特性的步骤。

26、根据权利要求22所述的方法，进一步包括改变语音的有关情绪特性的步骤。

27、根据权利要求22所述的方法，进一步包括改变语音的有关方言特性的步骤。

28、根据权利要求22所述的方法，进一步包括改变语音的有关内容特性的步骤。

29、一种语音合成器适配系统，包括：

用于根据文本输入和多个运行时控制参数值产生语音的文本到语音合成器；

用于根据包含在语音重放环境中的背景噪声产生实时数据的声频输入系统；和

连接到合成器和声频输入系统的适配控制器，该适配控制器根据实时数据修改一个或多个的运行时控制参数值，从而降低背景噪声与语音之间的干扰。

30、根据权利要求29所述的适配系统，其中声频输入系统包括一个声-电信号转换器。