CN101727904B

CN101727904B - 语音翻译方法和装置

Info

Publication number: CN101727904B
Application number: CN2008101746288A
Authority: CN
Inventors: 双志伟; 孟繁平; 张世磊; 秦勇
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2008-10-31
Filing date: 2008-10-31
Publication date: 2013-04-24
Anticipated expiration: 2028-10-31
Also published as: US20100114556A1; CN101727904A; US9342509B2

Abstract

提出了一种语音翻译方法，该方法包括：接收源语音；提取源语音中的非文字信息；将源语音翻译为目标语音；以及根据所述提取的非文字信息调整所述翻译的目标语音，从而使得最终的目标语音中保留所述源语音中的非文字信息。

Description

语音翻译方法和装置

技术领域

本发明涉及语音处理领域，具体涉及一种语音翻译方法和装置。

背景技术

目前语音到语音的机器翻译流程，是首先将语音识别成文字，然后将文字翻译成目标语音的文字，再使用语音合成技术将目标语音的文字合成为目标语音。

语音中包含了远远丰富于文字信息的诸多信息，比如，笑声，叹气声等语气音，以及每个词或音节等语音单元的时长、音高和能量等韵律信息。这些信息对于理解说话人的真正含意是非常有帮助的。然而，语音合成技术合成出来的语音仅仅是依赖于翻译后的文字信息，这样文字背后的很多信息便丢失掉了。

发明内容

考虑到如果能够在语音翻译过程中保留语气音和韵律信息等非文字信息，将会对理解原说话人的真正意图有很大的帮助，而提出了本发明的技术方案。

根据本发明的一个方面，提供了一种语音翻译方法，包括：接收源语音；提取源语音中的非文字信息；将源语音翻译为目标语音；以及根据所述提取的非文字信息调整所述翻译的目标语音，从而使得最终的目标语音中保留所述源语音中的非文字信息。

根据本发明的另一个方面，提供了一种语音翻译装置，包括：接收模块，用于接收源语音；提取模块，用于提取源语音中的非文字信息；翻译模块，用于将源语音翻译为目标语音；以及控制模块，用于根据所述提取的非文字信息调整所述翻译的目标语音，从而使得最终的目标语音中保留所述源语音中的非文字信息。

本发明的技术方案能够在语音翻译过程中保留源语音中除文字信息之外的更为丰富的信息，从而使得人们能够通过目标语音更充分和有效地理解原说话人的真实意图。

附图说明

所附权利要求中阐述了被认为是本发明的特点的创造性特征。但是，通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点，在附图中：

图1示出了根据本发明的实施例的一种语音翻译方法；以及

图2示出了根据本发明的实施例的一种语音翻译装置。

具体实施方式

下面参照附图来说明本发明的实施例。在下面的说明中，阐述了许多具体细节以便更全面地了解本发明。但是，对于本技术领域内的技术人员明显的是，本发明的实现可不具有这些具体细节中的一些。此外，应当理解的是，本发明并不限于所介绍的特定实施例。相反，可以考虑用下面的特征和要素的任意组合来实施本发明，而无论它们是否涉及不同的实施例。因此，下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定，除非权利要求中明确提出。

本发明提出了一种在语音到语音翻译中保留源语音中非文字信息的方案。其中，首先抽取语音中的非文字信息，如语气音及韵律特征.接下去在对文字信息进行翻译合成的同时，对非文字信息进行利用，以达到更好的语音翻译的效果。

下面参照图1，其示出了根据本发明的实施例的一种语音翻译方法。如图所示，该方法包括如下步骤。

在步骤101，接收源语音。所述源语音可以是任何语言的语音，如英语、汉语等等；且可以是任何长度的，例如包含一个句子或任意多个句子。

在步骤102，提取源语音中的非文字信息。提取源语音中的非文字信息的具体方法可参见后文中的对本发明的实施例的相关描述。

在步骤103，将源语音翻译为目标语音。所述目标语音可以是与源语音不同或相同的另一个语言的语音，例如英语、汉语等。可以使用本领域中所知的任何方法将源语音翻译为目标语音，例如可以首先使用本领域中所知的任何语音识别方法(例如通过一语音识别引擎)对源语音进行语音识别，从而生成源语音的文字，然后使用本领域中所知的任何文字到文字翻译方法将源语音的文字翻译为目标语音的文字，最后使用本领域中所知的任何语音合成方法根据目标语音的文字合成出目标语音。当然，也可以使用本领域中已知的或未来开发的任何其他方法将源语音翻译为目标语音。

在步骤104，根据所述提取的非文字信息调整所述翻译的目标语音，从而使得最终的目标语音中保留所述源语音中的非文字信息。

根据本发明的一些实施例，所述非文字信息包括非文字声音信息，例如，笑声、叹气声等语气音。在这样的实施例中，所述步骤102包括提取源语音中的语气音等非文字声音信息。可以使用本领域中所知的任何方法来提取源语音中的非文字声音。例如，可以在进行语音识别时首先对非文字声音进行建模。这样，语音识别引擎就能够识别出这些非文字声音，并将其与文字语音切分开来。

根据本发明的进一步的实施例，该方法还包括：识别源语音中的非文字声音信息在源语音中的相对位置，并且上述根据所述提取的非文字信息调整翻译的目标语音的步骤104包括：在翻译的目标语音中相应的相对位置处添加相应的非文字声音信息。可以使用本领域中所知的任何方法来识别源语音中的非文字声音信息在源语音中的相对位置。例如，可以由语音识别引擎在对源语音中的文字声音和非文字声音进行语音识别的同时标定非文字声音和文字语音的起始结束位置，从而获得非文字声音和文字语音的相对位置关系，这样就可以根据该相对位置关系将所述非文字声音插入到目标语音中。

例如，语音识别引擎对于一段示例性源语音“我今天去北京”中的文字语音和非文字声音的识别和切分的结果如下：

0S(秒)-1S(秒)：[笑声]

1S(秒)-2.3S(秒)：我今天去北京

接着，对该源语音中的文字语音进行语音到语音翻译。然后，可以利用语音识别引擎识别出来的非文字声音，即根据它与文字语音的相对位置关系将其添加到翻译后的目标语音中，例如，可以直接将非文字声音按照源语音中原始的位置加入到翻译后的目标语音中。例如，将上述示例性中文语音片段翻译为英文，并插入原语音中的语气音后的结果如下：

0S-1S：[笑声]

1S-2.3S：I go to Beijing today！

在语音到语音的翻译中，合成的语音通常很难保持原始说话人的特征.在一种简单的语音到语音的翻译中，系统直接使用语音合成音库中的声音进行合成。这样原始的非文字声音和翻译之后的文字语音可能存在明显的不匹配。

为此，根据本发明的进一步的实施例，上述根据提取的非文字信息调整翻译的目标语音的步骤104包括：对提取的非文字声音信息或翻译的语音进行后处理，以使提取的非文字声音信息和翻译的目标语音的语音特征相匹配；以及将经后处理的非文字声音信息添加到翻译的目标语音中，或将提取的非文字声音信息添加到经后处理的目标语音中。

这就是说，可以使用如下两种方法来使非文字声音和翻译后的文字语音更匹配：

一种方法是通过信号处理对非文字声音进行修改，以使其更匹配翻译之后的语音信息。比如，可以用语音转换(voice morphing)的方法，如频率弯曲(Frequency Warping)，以合成语音库的声音作为目标，对非文字声音进行转换，使其吻合翻译之后的语音信息。如果不要求保留原始说话者的特征，则这种方法是优选的，因为文字语音信息的可懂度不会受到语音转换带来的音质损伤的影响。

另一种方法是在语音到语音翻译中加入音色转换步骤，将合成的声音转换为接近原始说话人的声音。这样的缺点在于修改导致的音质损伤可能会损害文字语音的可懂度。相对而言，对非文字信息修改带来的音质损伤则一般不会降低其可懂度。

当然，在本发明的其他实施例中，也可以不包括对提取的非文字声音信息或目标语音进行后处理的步骤。

经过以上步骤，源语音中非文字声音例如笑声便被保留在目标语音中。由于实际上源语音中的文字信息本身例如“我今天去北京”可以有多种含义，例如可以是简单的陈述，也可以是兴奋，也可以是疑问，等等，单纯从字面上很难判断说话人真实意图。而在目标语音中加入了原始的非文字声音例如笑声，就可以帮助人们更好地判断说话人的真实意图。

根据本发明的另一些实施例，所述非文字信息包括源语音中的语音单元的韵律信息。

根据本发明的实施例，所述语音单元可以是句子、短语、词、字或音节、音素中的任何一个。

根据本发明的实施例，所述韵律信息可以包括每个语音单元的时长、基频和能量中的任何一个或多个。

这就是说，在对源语音进行语音识别的同时，实际上同时可以获得每个语音单元的起始和结束位置，即识别出每个语音单元。所述语音单元可以是字、音节或音素，也可以是词、短语或句子。对于汉语，所述单元可以是字。这样便可以使用本领域中所知的任何方法提取每个语音单元对应的韵律信息：如时长，基频以及能量等。这些韵律信息也包含了丰富的信息。事实上，对于同样的文字，可以使用不同的韵律来表达不同的意义。比如，对同样的文字，可以通过不同的韵律，来强调不同的重点。比如对于“我今天去北京”，可以通过加长“北京”的时长以及提高“北京”的基频，来强调我要去“北京”而不是其他地方。同样也可以通过加长“今天”的时长以及提高“今天”的基频，来强调我是“今天”去而不是“明天”。

如果源语音中的某些语音单元在目标语音中没有对应的语音单元，则源语音中的这些语音单元的信息可被舍弃.

下面是针对一具有特定时长的示例性源语音，所抽取的具有特定时长的各语音单元。

0S-1.85S：我今天去北京

0S-0.242S：我

0.242S-0.486S：今

0.486S-0.735S 天

0.735S-1.002S：去

1.002S-1.495S：北

1.495S-1.850S：京

可以利用从源语音中提取的韵律信息来控制翻译后的目标语音的韵律信息。如上所述，控制的单元(即所述语音单元)可以是以较大单元，如句子，也可以是较小的单元，如词。但通常而言，控制的最小单元要与语音翻译中的最小单元一致。比如，语音翻译中的最小单元为词，则控制的最小单元也应该为词。这样可以在源语音的单元和目标语音的单元之间建立对应关系，以便利用源语音单元的韵律信息对目标语音的单元进行控制.

使用从源语音中提取的韵律信息对目标语音中的韵律信息进行控制可以有两种方法：

第一种方法是使用韵律信息的绝对值，即使得目标语音中的语音单元具有与源语音中相应的语音单元相同的韵律信息。比如源语音“我今天去北京”的时长为1.85S，那么翻译之后的目标语音“I go to Beijing today”的时长也可以设定为1.85S。又比如源语音“我今天去北京”的平均基频为200HZ，翻译之后的语音“I go to Beijing today”的平均基频也可以设定为200HZ。再比如，对于目标语音“I go to Beijing today”中的每个语音单元“I”、“go to”、“Beijing”、“today”，可以将平均基频设定为与源语音“我今天去北京”中相应的语音单元“我”、“去”、“北京”、“今天”平均基频相一致。

第二种方法使用韵律信息的相对值，即使用源语音中语音单元的韵律信息的真实值与该语音单元的韵律信息的基准值之间的比率来控制目标语音中的相应语音单元的韵律信息，所述韵律信息的基准值反映了该语音单元在正常情况下的或平均的韵律信息。比如一个特定源语音“我今天去北京”的真实时长为1.85S。首先估计句子“我今天去北京”的基准时长，即该句子在正常情况下的时长或该句子的平均时长，例如为1.375S。这样就可以获得源语音的真实时长与基准时长的比率，比如，该比率为1.85S/1.375S＝1.2，这说明该特定源语音比正常语音的速度要慢。然后，估计目标语音的“I go to Beijing”的基准时长，例如为1.3S，这样，就可以获得该目标语音的时长为1.3S*1.2＝1.65S。同样的方法可以应用于比句子更小的语音单元，例如词。例如，可以使用上述示例性源语音“我今天去北京”中语音单元“我”、“去”、“北京”、“今天”的时长和/或基频的相对值来控制目标语音“I go to Beijing today”中相应的语音单元“I”、“go to”、“Beijing”、“today”的时长和/或基频的值，从而可以更精确地反映说话者所强调的重点。当使用的语音单元较小例如为词时，优选利用韵律信息的相对值进行控制，因为语音翻译后的语音单元的韵律信息的绝对值可能相差很大，而其相对值仍然是有用的。

某个语音单元的韵律信息的基准值既可以代表该语音单元的该韵律信息在所有说话者中的平均值或正常值，也可以代表该语音单元的该韵律信息在某一类别(例如，儿童、成人、老人等类别)的所有说话者中的平均值或正常值。可以使用本领域中所知的很多方法来估计韵律信息的基准值。例如，对于句子的基准时长，一种简单的方法是根据字数乘以字的正常平均时长；也可以为每个字分别统计平均时长，然后将这些字的时长进行累加，以估计句子的基准时长。

当拥有足够的训练数据时，还可以构建决策树以对基准韵律信息进行更精确的估计。所述决策树包含语音单元(例如字)的韵律环境信息与其基准韵律信息之间的对应关系，所述韵律环境信息包括该语音单元在句子中所处的位置、其前后的语音等信息。使用训练数据构建这样的决策树的方法在本领域中是已知的。在这种更精确的基准韵律信息估计方法中，首先分析一特定源语音(例如句子)中每个语音单元(例如字)的韵律环境信息，并根据每个语音单元的韵律环境信息并使用所构建的决策树来预测每个语音单元的基准韵律信息，例如每个字的基准时长和/或基频等。然后，获得该特定源语音中每个语音单元的真实韵律信息，例如每个字的时长和/或基频等，这样就可以获得该特定源语音中每个语音单元的真实韵律信息与基准韵律信息之间的相对值。最后，可以使用所述相对值以及目标语音中各相应语音单元的基准韵律信息(所述目标语音中的基准韵律信息可以通过与以上相同的方法利用决策树来获得)来获得目标语音中各相应语音单元的最终韵律信息。当然，也可以将通过决策树获得的句子中每个字的基准时长进行累加，以估计出整个句子的基准时长。然后，将句子的真实时长除以基准时长，得到句子时长信息的相对值，以便利用这一相对值对翻译后的目标语音进行句子时长控制。

因此，根据本发明的一个实施例，上述提取源语音中的非文字信息的步骤102包括：提取每个语音单元的韵律信息；通过将每个语音单元的韵律信息与每个语音单元的基准韵律信息进行比较获得每个单元的韵律信息的相对值；并且其中，所述根据提取的非文字信息调整翻译的目标语音的步骤104包括根据所述获得的每个单元的韵律信息的相对值调整翻译的目标语音中相应单元的韵律信息。

根据本发明的一个实施例，根据该单元的韵律环境信息以及包含语音单元的韵律环境信息与其基准韵律信息之间的对应关系的决策树，获得所述每个单元的基准韵律信息。

以上描述了根据本发明的实施例的语音翻译方法，应指出的是，以上描述仅为示例，而不是对本发明的限制。在本发明的其他实施例中，该方法可具有更多、更少或不同的步骤，各步骤之间的顺序可以与所描述的不同或者可以并行执行，且某些步骤可以合并为更大的步骤或拆分为更小的步骤。例如，上述步骤102、104均可以和步骤103并行执行，或者可以在执行步骤103的过程中执行步骤102和104。所有这些变化都处于本发明的范围之内。

现在参照图2，其示出了根据本发明的实施例的一种语音翻译装置。该语音翻译装置可用于执行上述根据本发明的实施例的语音翻译方法。为简明起见，在以上描述中省略了与以上重复的部分细节，因此，可参照以上描述获得对本发明的语音翻译装置的更详细的了解。

如图所示，该语音翻译装置包括：接收模块201，用于接收源语音；提取模块202，用于提取源语音中的非文字信息；翻译模块203，用于将源语音翻译为目标语音；以及调整模块204，用于根据所述提取的非文字信息调整所述翻译的目标语音，从而使得最终的目标语音保留所述源语音中的非文字信息。

根据本发明的实施例，其中，所述非文字信息包括非文字声音信息。

根据本发明的进一步实施例，该装置还包括：位置识别模块，用于识别所述源语音中的非文字声音信息在所述源语音中的相对位置；并且其中，所述调整模块204用于在翻译的目标语音中相应的相对位置处添加相应的非文字声音信息。

根据本发明的实施例，其中所述调整模块204包括：后处理装置，用于对提取的非文字声音信息或翻译的目标语音进行后处理，以使提取的非文字声音信息和翻译的目标语音的语音特征相匹配；以及用于将经后处理的非文字声音信息添加到翻译的目标语音中，或将提取的非文字声音信息添加到经后处理的目标语音中的装置。

根据本发明的实施例，所述非文字信息包括源语音中语音单元的韵律信息。

根据本发明的实施例，所述语音单元是句子、短语、词、字或音节、音素中的任何一个。

根据本发明的实施例，所述韵律信息包括时长、基频和能量中的任何一个或多个。

根据本发明的实施例，所述提取模块202包括；用于提取每个单元的韵律信息的装置；用于通过将每个单元的韵律信息与每个单元的基准韵律信息进行比较获得每个单元的韵律信息的相对值的装置；并且所述调整模块204用于根据所述获得的每个单元的韵律信息的相对值控制所述目标语音中相应单元的韵律信息。

根据本发明的实施例，所述基准韵律信息是根据该单元的韵律环境信息以及包含语音单元的韵律环境信息与其基准韵律信息之间的对应关系的决策树获得的。

以上描述了根据本发明的实施例的语音翻译装置，应指出的是，以上描述仅为示例，而不是对本发明的限制。在本发明的其他实施例中，该装置可具有更多、更少或不同的模块，各步骤之间的连接、包含和功能关系可以与所描述的不同，且某些模块可以合并为更大的模块或拆分为更小的模块。例如，接收模块201、提取模块202和控制模块204中的任何一个或多个可以位于所述翻译模块203之内。所述这些变化都处于本发明的范围之内。

本发明可以硬件、软件、或硬件与软件的结合的方式实现。本发明可以集中的方式在一个计算机系统中实现，或以分布方式实现，在这种分布方式中，不同的部件分布在若干互连的计算机系统中。适于执行本文中描述的方法的任何计算机系统或其它装置都是合适的。一种典型的硬件和软件的组合可以是带有计算机程序的通用计算机系统，当该计算机程序被加载和执行时，控制该计算机系统而使其执行本发明的方法，并构成本发明的装置。

本发明也可体现在计算机程序产品中，该程序产品包含使能实现本文中描述的方法的所有特征，并且当其被加载到计算机系统中时，能够执行所述方法。

尽管已参照优选实施例具体示出和说明了本发明，但是本领域内的那些技术人员应理解，可在形式和细节上对其进行各种改变而不会背离本发明的精神和范围。

Claims

1.一种语音翻译方法，包括：

接收源语音；

提取源语音中的非文字信息；

将源语音翻译为目标语音；以及

根据所述提取的非文字信息调整所述翻译的目标语音，从而使得最终的目标语音中保留所述源语音中的非文字信息，

其中，所述非文字信息包括语气音，所述方法还包括：识别所述源语音中的语气音在所述源语音中的相对位置；并且

其中，根据提取的非文字信息调整翻译的目标语音包括：在翻译的目标语音中相应的相对位置处，添加相应的语气音。

2.根据权利要求1的方法，其中，根据提取的非文字信息调整翻译的目标语音包括：

对提取的语气音或翻译的目标语音进行后处理，以使提取的语气音和翻译的目标语音的语音特征相匹配；以及

将经后处理的语气音添加到翻译的目标语音中，或将提取的语气音添加到经后处理的目标语音中。

3.根据权利要求1的方法，其中，所述非文字信息进一步包括源语音中的语音单元的韵律信息。

4.根据权利要求3的方法，其中所述语音单元是句子、短语、词、字或音节、音素中的任何一个。

5.根据权利要求4的方法，其中所述韵律信息包括语音单元的时长、基频和能量中的任何一个或多个。

6.根据权利要求3的方法，其中，所述提取源语音中的非文字信息包括：

提取每个语音单元的韵律信息；

通过将每个语音单元的韵律信息与该语音单元的基准韵律信息进行比较获得该语音单元的韵律信息的相对值；并且

其中，所述根据提取的非文字信息调整翻译的目标语音包括根据所述获得的每个语音单元的韵律信息的相对值调整翻译的目标语音中相应语音单元的韵律信息。

7.根据权利要求6的方法，其中，所述每个语音单元的基准韵律信息是根据该语音单元的韵律环境信息以及包含语音单元的韵律环境信息与其基准韵律信息之间的对应关系的决策树获得的。

8.一种语音翻译装置，包括：

接收模块，用于接收源语音；

提取模块，用于提取源语音中的非文字信息；

翻译模块，用于将源语音翻译为目标语音；以及调整模块，用于根据所述提取的非文字信息调整所述翻译的目标语音，从而使得最终的目标语音中保留所述源语音中的非文字信息，

其中，所述非文字信息包括源语音中的语气音，所述装置还包括：位置识别模块，用于识别所述源语音中的语气音在所述源语音中的相对位置；并且

其中，所述调整模块用于在翻译的目标语音中相应的相对位置处添加相应的语气音。

9.根据权利要求8的装置，所述调整模块包括：

后处理装置，用于对提取的语气音或翻译的目标语音进行后处理，以使提取的语气音和翻译的目标语音的语音特征相匹配；以及

用于将经后处理的语气音添加到翻译的目标语音中，或将提取的语气音添加到经后处理的目标语音中的装置。

10.根据权利要求8的装置，其中，所述非文字信息进一步包括源语音中语音单元的韵律信息。

11.根据权利要求10的装置，其中所述语音单元是句子、短语、词、字或音节、音素中的任何一个。

12.根据权利要求11的装置，其中所述韵律信息包括语音单元的时长、基频和能量中的任何一个或多个。

13.根据权利要求10的装置，其中，所述提取模块包括；

用于提取语音单元的韵律信息的装置；

用于通过将语音单元的韵律信息与该语音单元的基准韵律信息进行比较获得该语音单元的韵律信息的相对值的装置；并且

其中，所述调整模块用于根据所述获得的语音单元的韵律信息的相对值控制翻译的目标语音中相应语音单元的韵律信息。

14.根据权利要求13的装置，其中，所述基准韵律信息是根据该语音单元的韵律环境信息以及包含语音单元的韵律环境信息与其基准韵律信息之间的对应关系的决策树获得的。