CN1379392A

CN1379392A - 具有情感的语音－语音翻译系统和方法

Info

Publication number: CN1379392A
Application number: CN01116524A
Authority: CN
Inventors: 唐道南; 沈丽琴; 施勤; 张维
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-04-11
Filing date: 2001-04-11
Publication date: 2002-11-13
Anticipated expiration: 2021-04-11
Also published as: KR20030085075A; US7461001B2; DE60216069T2; US20040172257A1; CN1159702C; EP1377964B1; ATE345561T1; DE60216069D1; WO2002084643A1; US7962345B2; JP4536323B2; EP1377964A1; JP2005502102A; US20080312920A1

Abstract

本发明公开了一种具有情感的语音－语音翻译系统和方法。本发明的系统包括:语音识别装置、机器翻译装置、文本－语音生成装置、情感表述参数检测装置以及情感表述参数映射装置,其中,情感表述参数检测装置用于从原始语音信号中提取情感表述参数,而情感表述参数映射装置,用于将所述情感表述参数从一种语言(方言)映射到另一种语言(方言),并将映射结果作用于文本－语音生成装置,使其产生可以传达情感的语音输出。

Description

具有情感的语音-语音翻译系统和方法

本发明一般涉及机器翻译，具体地说涉及具有情感的语音-语音翻译系统和方法。

机器翻译是利用计算机使一种语言的文字或语音翻译为另一种语言的文字或语音的技术。即在语言学的关于语言形式和结构分析的理论基础上，依靠数学方法建立词典、语法并利用计算机巨大的存储容量和数据处理能力，在没有人工干预的情况下实现从一种语言到另一种语言的自动翻译。

目前的机器翻译系统通常是基于文本的翻译系统，即用于将一种语言文字翻译为另一种语言文字。但随着社会发展，需要基于的语音翻译系统，即能够进行语音-语音的翻译。可以利用现有的语音识别技术、基于文本的翻译技术以及TTS(文本-语音)技术实现语音-语音的翻译，即，首先利用语音识别技术对第一种语言的语音进行识别，形成第一种语言的文本表示；使用现有的翻译技术将第一种语言的文本表示翻译成第二种语言的文本表示；再利用成熟的TTS技术根据第二种语言的文本表示产生第二种语言的语音输出。

然而，现有的TTS(文本-语音)系统通常产生缺乏情感的单调的语音。在现有的TTS系统中，首先对所有字/词的标准发音按合成音记录并对此进行分析，然后在字/词级将用于标准“表述”的相关参数存储在字典中。通过字典中定义的标准控制参数和常用的平滑技术由各个合成分量产生合成的字/词。这种语音生成方式不能基于语句的含义和讲话者的情绪状态生成可以生动地表征情感的语音。

为此，本发明提出了一种具有情感的语音-语音翻译系统和方法。

根据本发明的具有情感的语音-语音翻译系统和方法，利用从原始语音信号中获得的情感表述参数驱动标准TTS系统，产生可以带有情感的语音输出。

本发明的一个目标是提供一种具有情感的语音-语音翻译系统，包括：语音识别装置，用于对语言A的语音表示进行识别，形成语言A的文本表示；机器翻译装置，用于将语言A的文本表示翻译成语言B的文本表示；文本-语音生成装置，用于根据语言B的文本表示生成语言B的语音表示，所述具有情感的语音-语音翻译系统的特征在于还包括：情感表述参数检测装置，用于从语言A的语音表示中提取情感表述参数；以及情感表述参数映射装置，用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B，并将映射结果作用于文本-语音生成装置，使其产生可以传达情感的语音输出。

本发明的再一个目标是提供一种可以传达情感的语音-语音翻译方法，包括以下步骤：对语言A的语音表示进行识别，形成语言A的文本表示；将语言A的文本表示翻译成语言B的文本表示；根据语言B的文本表示生成语言B的语音表示，所述能够传达情感的语音-语音翻译方法的特征在于还包括以下步骤：从语言A的语音表示中提取情感表述参数；以及将在情感表述参数检测步骤提取的情感表述参数从语言A映射到语言B，并将映射结果作用于文本-语音生成步骤，从而产生可以传达情感的语音输出。

此外，本发明还提供了可以在同种语言的不同方言之间进行语音-语音翻译的方法和系统。

所述具有情感的语音-语音翻译系统包括：语音识别装置，用于对一种方言A的语音进行识别，形成其文本表示；文本-语音生成装置，根据所述文本表示生成另一种方言B的语音表示；所述具有情感的语音-语音翻译系统的特征还在于包括：情感表述参数检测装置，用于从方言A的语音表示中提取情感表述参数；以及情感表述参数映射装置，用于将情感表述参数检测装置提取的情感表述参数从方言A映射到方言B并将映射结果作用于文本-语音生成装置，使其产生可以传达情感的语音输出。

所述能够传达情感的语音-语音翻译方法包括以下步骤：对一种方言A的语音进行识别，形成其文本表示；根据所述文本表示生成另一种方言B的语音表示；所述能够传达情感的语音-语音翻译方法的特征还在于包括以下步骤：从方言A的语音表示中提取情感表述参数；以及将情感表述参数检测步骤提取的情感表述参数从方言A映射到方言B并将映射结果作用于文本-语音生成步骤，从而产生可以传达情感的语音输出。

本发明的具有情感的语音-语音翻译系统和方法可以改善翻译系统或TTS系统的语音输出质量。

通过以下结合附图的说明，本发明的其它目标和优点将会更加清楚。详细的描述和具体的实施例只是为了进行说明而提供的，因为在本发明的精神范围内对于这些实施例的添加和改进对于本领域技术人员来说是显而易见的。

图1是根据本发明一优选实施例的具有情感的语音-语音翻译系统的方框图；

图2是根据本发明一优选实施例的图1中的情感表述参数检测装置的方框图；

图3是根据本发明一优选实施例的图1中的情感表述参数映射装置的方框图；

图4是根据本发明另一优选实施例的具有情感的语音-语音翻译系统的方框图；

图5是一流程图，描述了根据本发明一优选实施例的可以传达情感的语音-语音翻译过程；

图6是一流程图，描述了根据本发明一优选实施例的情感表述参数检测过程；

图7是一流程图，描述了根据本发明一优选实施例的情感表述参数映射以及调节TTS参数的形成过程；以及

图8是一流程图，描述了根据本发明另一优选实施例的可以传达情感的语音-语音翻译过程。

如图1所示，根据末发明一优选实施例的具有情感的语音-语音翻译系统包括：语音识别装置101、机器翻译装置102、文本-语音生成装置103、情感表述参数检测装置104以及情感表述参数映射装置105。其中，语音识别装置101用于对语言A的语音表示进行识别，形成语言A的文本表示；机器翻译装置102用于将语言A的本文表示翻译成语言B的文本表示；文本-语音生成装置103用于根据语言B的文本表示生成语言B的语音表示；情感表示参数检测装置104用于从语言A的语音表示中提取情感表述参数；并且，情感表述参数映象装置105用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B，并将映射结果作用于文本-语音生成装置，使其产生可以传达情感的语音输出。

正如本领域技术人员所熟知的，语音识别装置、机器翻译装置以及TTS装置都是可以使用现有技术来实现的。因此，以下只结合图2和图3描述一下根据本发明优选实施例的情感表述参数检测装置和情感表述参数映射装置。

首先介绍一下可以反映语音情感的关键性参数。可以在不同层次上定义反映语音情感的关键性参数。

1.在字/词级，反映语音情感的关键性参数有：速度(持续时间)、响度(能量级)以及基频(包括范围和音调)。注意，由于一个词通常由几个语音合成单元(在汉语中大多数词由两个以上字/音节组成)，所以还必须在语音合成单元级以向量或时间序列的形式定义语音的情感表述参数。例如，当人们很生气时，他/她所说的字/词的响度就非常高，字/词的基频也比通常高，并且其包络不平滑，而且许多基频消失，同时持续时间变短。另一例子是，当人们在正常情况下说话时，可能会强调语句中的一些字/词，这样这些字/词的基频、响度、持续时间就会发生变化。

2.在语句级，我们将焦点放在语调上。例如，疑问句的包络不同于陈述句。

以下就结合图2和图3描述一下根据本发明一优选实施例的情感表述参数检测装置以及情感表述参数映射装置是如何工作的。即如何提取情感表述参数以及如何利用提取的情感表述参数驱动现有的TTS装置产生能够传达情感的语音输出。

如图2所示，本发明情感表述参数检测装置包括以下模块：

模块A：分析说话者语音的基频、持续时间和响度。在模块A，我们利用语音识别的结果进行语音和字/词(或字符)之间的对准。并按如下结构记录对准结果：

句子内容

{

字/词编号

字/词内容

{ 文本；

文本的语音；

字/词位置；

字/词属性；

语音开始时间；

语音结束时间；

^*语音的波形；

语音参数内容；

{^*绝对参数；

^*相对参数；

}

然后我们使用Short Time Analyze(短时分析)方法得到如下参数：

1.每个短时窗口的短时能量。

2.检测字/词的基频包络。

3.字/词的持续时间。

由以上参数进一步得出：

1.字/词中平均短时能量。

2.字/词中最大的N个短时能量。

3.基频范围、最大基频、最小基频以及一个字/词中的基频数。

4.字/词的持续时间。

模块B：该模块根据语音识别的结果(文本)，使用标准语言A的TTS系统产生不表征情感的语言A的语音。然后分析无情感TTS的参数。以此参数作为基准。

模块C：分析有情感语音和标准语音之间以上参数的变化。其原因是不同人讲话的响度、基频以及速度可能不同，即使相同的人，在不同时间说相同的语句其参数也可能不同，所以在根据基准语音分析字/词在语句中的作用时，我们使用相对参数。

我们使用对参数进行归一化的方法从绝对参数中得到相对参数：

1.字/词中相对平均短时能量。

2.字/词中最大的N个相对短时能量。

3.字/词中相对基频范围、相对最大基频、相对最小基频。

4.字/词的相对持续时间。

模块D：根据来自标准语音参数的基准，在字/词级和语句级分析表述情感的参数。

1.在字/词级，我们比较有情感语音和标准语音之间的相对参数，以检测出哪些字/词的参数发生了大的变化。

2.在语句级，根据变化的等级以及字/词的特性对字/词排序，找出语句中关键的带有情感表述的字/词。

模块E：根据参数比较的结果和有关什么样的情感将引起哪参数变化的知识，得出句子的表征情感的参数，即检测出情感表述参数，并按以下结构记录：

情感表述信息

{

语句的情感表述类型；

字/词内容

{ 文本；

情感表述类型；

情感表述级；

^*情感表述参数；

}；

}

例如，当用汉语生气地说“闭嘴！”时，很多基频消失，并且其绝对响度大于基准，同时相对响度非常尖锐，持续时间大大短于基准，于是可以在语句级得出该句子的情感为生气。情感表述关键词是“闭嘴”。

下面再结合图3A，3B描述一下根据本发明一优选实施例的情感表述参数映射装置是如何构成的。其包括：

模块A：用于根据机器翻译的结果把表征情感的参数结构从语言A映射到语言B。其关键是找出语言A中对于表述情感来说是关键的字/词对应于语言B中的哪些字/词。其映射结果如下：

语言B的语句内容

{

语句情感表述类型；

语言B的字/词内容；

{ 文本；

文本的语音；

在语句中的位置；

在语言A中的字/词情感表述信息；

在语言B中的字/词情感表述信息；

}

语言A的字/词情感表述

{ 文本；

情感表述类型；

情感表述级；

^*情感表述参数；

}

语言B的字/词情感表述

{

情感表述类型；

情感表述级；

^*情感表述参数；

}

模块B：根据映射结果产生可以驱动语言B的TTS的调节参数，在此，我们使用语言B的情感表述参数表，其根据情感表述参数给出字/词的合成参数。表中参数是一相对调节参数。

具体过程如图3B所示，语言B的情感表述参数经过两级变换表(字/词级变换表和语句级变换表)变换之后形成用于调节TTS的参数。

两级变换表分别是：

1.字/词级变换表，用于将情感表述参数变换成调节TTS的参数，表的结构如下：

字/词TTS调节参数的结构

{

情感表述参数类型；

情感表述参数；

TTS调节参数；

}；

TTS调节参数的结构

{

float Fsen_P_rate；

float Fsen_am_rate；

float Fph_t_rate；

struct Equation Expressive_equat；(用于改变基频包络的曲线特性)

}；

2.语句级变换表，用于根据语句的类型给出语句级上的韵律参数，该韵律参数可用于对上述字/词TTS调节参数做进一步调整。

语句级TTS调节参数的结构

{

情感类型；

字/词位置；

字/词属性；

TTS调节参数；

}；

TTS调节参数的结构

{

float Fsen_P_rate；

float Fsen_am_rate；

float Fph_t_rate；

struct Equation Expressive_equat；(用于改变基频包络的曲线特性)

}；

以上结合具体实施例描述了根据本发明的语音-语音翻译系统。正如本领域一般技术人员所认识别的，本发明还可以用于在同一种语言的不同方言之间进行语音-语音的翻译。如图4所示，该系统类似于图1所示的翻译系统，区别仅在于，在同种语言不同方言之间进行语音翻译就不再需要机器翻译装置。具体地说，语音识别装置10l用于对一种方言A的语音进行识别，形成其文本表示；文本-语音生成装置103根据所述文本表示生成另一种方言B的语音表示；情感表述参数检测装置104用于从方言A的语音表示中提取情感表述参数；并且，情感表述参数映射装置105用于将情感表述参数检测装置104提取的情感表述参数从方言A映射到方言B，并将映射结果作用于文本-语音生成装置，使其产生可以传达情感的语音输出。

以上结合图1-图4介绍了根据本发明的具有情感的语音-语音翻译系统，其利用从原始语音信号等中获得的情感表述参数驱动标准TTS系统，产生可以传达情感的语音输出。

本发明还提供了一种可以传达情感的语音-语音翻译方法。下面就结合图5-图8描述一下根据本发明一个具体实施例的可以传达情感的语音-语音翻译过程。

如图5所示，根据末发明一优选实施例的可以传达情感的语音-语音翻译方法包括以下步骤：对语言A的语音表示进行识别，形成语言A的文本表示(501)；将语言A的本文表示翻译成语言B的文本表示(502)；根据语言B的文本表示生成语言B的语音表示(503)；从语言A的语音表示中提取情感表述参数(504)；以及，将情感表述参数检测步骤提取的情感表述参数从语言A映射到语言B，并将映射结果作用于文本-语音生成步骤，从而产生可以传达情感的语音输出(505)。

以下就结合图6和图7描述一下根据本发明一优选实施例的情感表述参数检测过程以及情感表述参数映射过程。即如何提取情感表述参数以及如何利用提取的情感表述参数驱动现有的TTS过程产生可以传达情感的语音输出。

如图6所示，本发明情感表述参数检测过程包括以下步骤：

步骤601：分析说话者语音的基频、持续时间和响度。在步骤601，我们利用语音识别的结果进行语音和字/词(或字符)之间的对准。然后我们使用Short Time Analyze(短时分析)方法得到如下参数：

1.每个短时窗口的短时能量。

2.检测字/词的基基频的包络。

3.字/词的持续时间。

由以上参数进一步得出：

1.字/词中平均短时能量。

2.字/词中最大的N个短时能量。

4.字/词的持续时间。

步骤602：根据语音识别的结果(文本)，使用标准语言A的TTS过程产生不表征情感的语言A的语音。然后分析无情感TTS的参数。以此参数作为基准。

步骤603：分析有情感语音和标准语音之间以上参数的变化。其原因是不同人讲话的响度、基频以及速度可能不同，即使相同的人，在不同时间说相同的语句其参数也可能不同，所以在根据基准语音分析字/词在语句中的作用时，我们使用相对参数。

1.字/词中相对平均短时能量。

2.字/词中最大的N个相对短时能量。

3.字/词中相对基频范围、相对最大基频、相对最小基频。

4.字/词的相对持续时间。

步骤604：根据来自标准语音参数的基准，在字/词级和语句级分析表述情感的参数。

步骤605：根据参数比较的结果和有关什么样的情感将引起哪参数变化的知识，得出句子的表征情感的参数，即检测出情感表述参数。

下面再结合图7描述一下根据本发明一优选实施例的情感表述参数映射过程。其包括：

步骤701：用于根据机器翻译的结果把表征情感的参数结构从语言A映射到语言B。其关键是找出语言A中对于表述情感来说是重要的字/词对应于语言B中的哪些字/词。

步骤702：根据映射结果产生可以驱动语言B的TTS的参数，以产生表征情感的语音输出。在此，我们使用语言B的情感表述参数表，其根据情感表述参数给出字/词的合成参数。

以上结合具体实施例描述了根据本发明的语音-语音翻译方法。正如本领域一般技术人员所认识别的，本发明还可以用于在同一种语言的不同方言之间进行语音-语音的翻译。如图8所示，该过程类似于图5所示的翻译过程，区别仅在于，在同种语言不同方言之间进行语音翻译就不再需要文本翻译过程。具体地说包括以下步骤：对一种方言A的语音进行识别，形成其文本表示(801)；根据所述文本表示生成另一种方言B的语音表示(802)；从方言A的语音表示中提取情感表述参数(803)；以及，将情感表述参数检测步骤提取的情感表述参数从方言A映射到方言B，并将映射结果作用于文本-语音生成过程，从而产生可以传达情感的语音输出(804)。

以上结合附图描述了根据本发明优选实施例的具有情感的语音-语音翻译系统和方法。正如本领域技术人员所熟知的，在不背离本发明的精神实质和范围的情况下，本发明可以具有许多修改和变型，本发明将包括所有的这些修改和变型，本发明的保护范围应由所附来限定。

Claims

1.一种具有情感的语音-语音翻译系统，包括：

语音识别装置，用于对语言A的语音表示进行识别，形成语言A的文本表示；

机器翻译装置，用于将语言A的文本表示翻译成语言B的文本表示；

文本-语音生成装置，用于根据语言B的文本表示生成语言B的语音表示，

所述具有情感的语音-语音翻译系统的特征在于还包括：

情感表述参数检测装置，用于从语言A的语音表示中提取情感表述参数；以及

情感表述参数映射装置，用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B，并将映射结果作用于文本-语音生成装置，使其产生可以传达情感的语音输出。

2.根据权利要求1的系统，其特征在于所述情感表述参数检测装置从不同层次提取情感表述参数。

3.根据权利要求2的系统，其特征在于所述情感表述参数检测装置从字、词级提取情感表述参数。

4.根据权利要求2的系统，其特征在于所述情感表述参数检测装置从语句级提取情感表述参数。

5.根据权利要求1的系统，其特征在于所述情感表述参数映射装置把所述情感表述参数从语言A映射到语言B，然后再通过字词级变换映射和语句级变换映射将用于语言B的情感表述参数变换成用于调节文本-语音生成装置的参数。

6.一种具有情感的语音-语音翻译系统，包括：

语音识别装置，用于对一种方言A的语音进行识别，形成其文本表示；

文本-语音生成装置，根据所述文本表示生成另一种方言B的语音表示；

所述具有情感的语音-语音翻译系统的特征还在于包括：

情感表述参数检测装置，用于从方言A的语音表示中提取情感表述参数；以及

情感表述参数映射装置，用于将情感表述参数检测装置提取的情感表述参数从方言A映射到方言B并将映射结果作用于文本-语音生成装置，使其产生可以传达情感的语音输出。

7.根据权利要求6的系统，其特征在于所述情感表述参数检测装置从不同层次提取情感表述参数。

8.根据权利要求7的系统，其特征在于所述情感表述参数检测装置从字、词级提取情感表述参数。

9.根据权利要求7的系统，其特征在于所述情感表述参数检测装置从语句级提取情感表述参数。

10.根据权利要求6的系统，其特征在于所述情感表述参数映射装置把所述情感表述参数从方言A映射到方言B，然后再通过字词级变换映射和语句级变换映射将用于方言B的情感表述参数变换成用于调节TTS的参数。

11.一种能够传达情感的语音-语音翻译方法，包括以下步骤：

对语言A的语音表示进行识别，形成语言A的文本表示；

将语言A的文本表示翻译成语言B的文本表示；

根据语言B的文本表示生成语言B的语音表示，

所述能够传达情感的语音-语音翻译方法的特征在于还包括以下步骤：

从语言A的语音表示中提取情感表述参数；以及

将情感表述参数检测步骤提取的情感表述参数从语言A映射到语言B，并将映射结果作用于文本-语音生成步骤，从而产生可以传达情感的语音输出。

12.根据权利要求11的方法，其特征在于所述情感表述参数检测步骤从不同层次提取情感表述参数。

13.根据权利要求12的方法，其特征在于所述情感表述参数检测步骤从字、词级提取情感表述参数。

14.根据权利要求12的方法，其特征在于所述情感表述参数检测步骤从语句级提取情感表述参数。

15.根据权利要求11的方法，其特征在于所述情感表述参数映射步骤把所述情感表述参数从语言A映射到语言B，然后再通过字词级变换映射和语句级变换映射将用于语言B的情感表述参数变换成用于调节TTS的参数。

16.一种传达表征情感的语音-语音翻译方法，包括以下步骤：

对一种方言A的语音进行识别，形成其文本表示；

根据所述文本表示生成另一种方言B的语音表示；

所述能够传达情感的语音-语音翻译方法的特征还在于包括以下步骤：

从方言A的语音表示中提取情感表述参数；以及

将情感表述参数检测步骤提取的情感表述参数从方言A映射到方言B并将映射结果作用于文本-语音生成步骤，从而产生可以传达情感的语音输出。

17.根据权利要求16的方法，其特征在于所述情感表述参数检测步骤从不同层次提取情感表述参数。

18.根据权利要求17的方法，其特征在于所述情感表述参数检测步骤从字、词级提取情感表述参数。

19.根据权利要求17的方法，其特征在于所述情感表述参数检测步骤从语句级提取情感表述参数。

20.根据权利要求16的方法，其特征在于所述情感表述参数映射步骤把所述情感表述参数从方言A映射到方言B，然后再通过字词级变换映射和语句级变换映射将用于方言B的情感表述参数变换成用于调节TTS的参数。