CN101458681A

CN101458681A - 语音翻译方法和语音翻译装置

Info

Publication number: CN101458681A
Application number: CNA200710193374XA
Authority: CN
Inventors: 李剑峰; 王海峰; 吴华
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-12-10
Filing date: 2007-12-10
Publication date: 2009-06-17
Also published as: US20090150139A1; JP2009140503A

Abstract

本发明提供了语音翻译方法和语音翻译装置。根据本发明的一个方面，提供了一种语音翻译方法，包括：将上述语音识别为文本，所述文本包括至少一个包含多个单句的长句；将上述至少一个长句切分为多个单句；以及将上述多个单句中的每一个翻译为目标语种的句子。本发明的语音翻译方法和装置在语音识别模块与机器翻译模块之间，插入一个长句切分模块，其能够将识别出的文本中的长句并自动切分为若干个简单、完整的单句，从而降低了机器翻译的难度，提高了机器翻译的质量。此外，本发明还提供了一个与用户交互的界面，使得用户可以方便的修改自动切分的结果。同时，用户的修改操作将被记录下来，用以实时更新切分模型，不断地提高自动切分的效果。

Description

语音翻译方法和语音翻译装置

技术领域

[0001]本发明涉及信息处理技术，具体地涉及语音翻译技术。

背景技术

[0002]通常，对语音进行翻译时，首先需要使用语音识别技术将语音识别成文本，然后利用机器翻译技术进行翻译。

[0003]语音识别技术的具体细节参见L.Rabiner和Biing-HwangJuang的文献“Fundamentals of Speech Recognition”，Prentice Hall，1993(以下称为参考文献1)，在此通过参考引入其整个内容。

[0004]机器翻译技术主要分为三类：基于规则的翻译、基于实例的翻译、和基于统计的翻译。这些翻译方法已经较为成功的应用到书面语的翻译中。

[0005]机器翻译技术的具体细节参见Hutchins，John的文献“Retrospect and prospect in computer-based translation”，1999，In Proc.ofMachine Translation Summit VII，pages 30-34(以下称为参考文献2)，在此通过参考引入其整个内容。

[0006]自然语流不如书面语流畅，往往会出现停顿、重复、修正等语音现象，这使得语音识别模块不能有效地识别出一个个完整的单句，从而将用户的若干个单句或句子片段组合成一个较长的句子输出给机器翻译模块。由于其输出的长句包含若干个单句，这就给翻译模块带来很大的困难。

[0007]因此，需要一种将语音识别模块识别出的长句切分为若干个单句的方法。

[0008]此外，现有技术也有对长句进行自动切分的方法，但是现有技术的自动切分模块是事先训练好的，在线使用过程中不能根据用户的实际需求自动更新，因此出现切分错误的现象很严重。

[0009]因此，还需要一种有效地减少切分错误、适应用户需求的切分方法。

发明内容

[0010]为了解决上述现有技术中存在的问题，本发明提供了语音翻译方法和语音翻译装置。

[0011]根据本发明的一个方面，提供了一种语音翻译方法，包括：将上述语音识别为文本，所述文本包括至少一个包含多个单句的长句；将上述至少一个长句切分为多个单句；以及将上述多个单句中的每一个翻译为目标语种的句子。

[0012]根据本发明的另一个方面，提供了一种语音翻译装置，包括：语音识别单元，用于将上述语音识别为文本，所述文本包括至少一个包含多个单句的长句；切分单元，用于将上述至少一个长句切分为多个单句；以及翻译单元，用于将上述多个单句中的每一个翻译为目标语种的句子。

附图说明

[0013]相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

[0014]图1是根据本发明的一个实施例的语音翻译方法的流程图；

[0015]图2是根据本发明的一个实施例的语音翻译方法的详细流程图；

[0016]图3是示出训练切分模型的过程的详细示意图；

[0017]图4是示出搜索最优切分路径的过程的详细示意图；

[0018]图5是示出修正过程和更新切分模型的过程的详细示意图；以及

[0019]图6是根据本发明的另一个实施例的语音翻译装置的方框图。

具体实施方式

[0020]下面就结合附图对本发明的各个优选实施例进行详细的说明。

[0021]语音翻译方法

[0022]图1是根据本发明的一个实施例的语音翻译方法的流程图。下面就结合该图，对本实施例进行描述。

[0023]如图1所示，首先，在步骤101，将用户说出的语音识别为文本。在本实施例中，可以使用本领域的技术人员公知的或未来开发的任何语音识别技术，例如上述参考文献1中所公开的语音识别技术，本发明对此没有任何限制，只要能够将输入的语音识别为文本即可。

[0024]在本实施例中，在步骤101中识别出的文本包括一个和多个包含多个单句的长句。这些长句是由若干个简单、完整的单句构成，例如下面的句子：

That′s very kind of you but I don′t think I will I′m driving.

其由下面的3个单句构成：

That′s very kind of you.

But I don′t think I will.

I′m driving.

[0025]接着，在步骤105，将步骤101中识别出的文本中的一个和多个长句切分为多个单句。下面参考图2详细描述本实施例的将长句切分为单句的切分过程。

[0026]图2是根据本发明的一个实施例的语音翻译方法的详细流程图。如图2所示，在步骤105，利用切分模型M1将步骤101中识别出的文本中的长句切分为多个单句。下面首先参考图3对切分模型M1进行详细描述。

[0027]图3是示出训练切分模型的过程的详细示意图。在本实施例中，利用切分语料库M2训练切分模型M1。如图3所示，所述切分语料库M2包括进行了正确切分的文本，所述切分模型M1类似于n元(n-gram)语言模型，只不过句边界标记“‖”也作为一个普通词看待，在所述训练出的切分模型M1中具有多个n元组和低阶元组以及它们的概率。此外，切分模型M1的训练过程也类似于n元语言模型的训练过程。应该理解，在本实施例中使用的切分模型M1可以是本领域的技术人员公知的任何切分模型，本发明对此没有任何限制，只要能够利用该切分模型将步骤101中识别出的文本中的长句切分为多个单句即可。

[0028]下面参考图4详细描述本实施例中在步骤105利用切分模型M1对长句进行切分的过程。

[0029]图4是示出搜索最优切分路径的过程的详细示意图。首先，针对输入的句子建立一个切分网络，在该切分网络中，待切分的句子中的每一个词都登记为一个词结点，每一个词边界都登记为一个候选句边界结点。所有的词结点和零个或任意的一个或多个候选句边界结点组成一条切分路径，作为一条候选切分路径。例如对于下面的句子：

That′s verykindof you but I don′t think I will I′m driving.

可以得到如下候选切分路径

That′s verykind of you‖but I don′t think I will I′m driving.‖

That′s‖very kind of you but I don′t think I will‖I′m driving.

That′s very kind ofyou but‖I don′t think‖I will I′m driving.‖

……

[0030]然后，利用一个高效的搜索算法来寻找最优的切分路径。在该搜索过程中，对每一条候选切分路径进行评价打分，该过程类似于中文分词过程。具体地，例如，可以使用Viterbi算法来搜索最优切分路径，Viterbi算法的具体细节参见A.J.Viterbi的文献“Error Bounds forConvolutional Codesand An Asymptotically Optimum DecodingAlgorithm”，1967，IEEE Trans.On Information Theory，13(2)，p.260-269(以下称为参考文献3)，在此通过参考引入其整个内容。

[0031]最后，将得分最高的候选切分路径作为最优的切分路径，如图4所示，将如下切分路径作为最优的切分路径：

That′s very kind of you‖but I don′t think I will I′m driving.‖

[0032]返回到图1，在步骤105将步骤101中识别出的文本中的长句切分为多个单句后，在步骤110，将多个单句中的每一句翻译为目标语种的句子。例如，对于上述例句，分别对如下两个句子进行翻译：

That′s very kind of you‖

But I don′t think I will I′m driving.‖

[0033]在本实施例中，可以采用任何机器翻译技术，例如基于规则的翻译、基于实例的翻译或基于统计的翻译，对上述单句进行翻译。具体地，例如可以采用上述参考文献2中公开的机器翻译技术对上述单句进行翻译，本发明对此没有任何限制，只要能够将切分后的单句翻译为目标语种的句子即可。

[0034]此外，在本实施例中，如图2所示，在步骤105将步骤101中识别出的文本中的长句切分为单句后，可选地，在步骤106，允许用户对步骤105的切分结果进行修正。下面通过参考图5详细描述本实施例的修正过程。

[0035]图5是示出修正过程和更新切分模型的过程的详细示意图。如图5所示，如果在步骤105进行切分的切分结果中存在错误，则用户可以通过简单地点击进行修改。例如，在上述切分结果中切分后的如下单句存在错误：

But I don′t think I will I′m driving.‖

其由如下两个单句构成：

But I don′t think I will.

I′m driving.

[0036]因此，在步骤106，用户可以点击漏识的切分位置，即在“will”和“I′m”之间进行点击，由于用户点击处不是一个句边界，则将点击处作为句边界进行断句。此外，如果用户点击误识的切分位置，即点击的是句边界，则删除此句边界，例如，在如下自动切分结果中：

We also serve‖

Tsing Tao Beer here

存在多余的句边界，因此切分存在错误。此时，用户可以点击该多余的句边界，以删除该句边界。

[0037]通过步骤106的修正过程，用户可以很方便地修正在步骤105自动切分获得的切分结果。

[0038]此外，在步骤106进行修正之后，本实施例的方法还可以在步骤107将在步骤106中进行的修正操作作为指导信息，对上述切分模型M1进行更新。

[0039]具体地，如图5所示，在步骤107中，根据上述修正操作，加强用户修正操作产生的新n元组的概率，而减弱用户修正操作删除的n元组的概率。

[0040]例如，在图5中，如果在步骤106中在“will”和“I′m”之间增加了句边界“‖”，则在步骤107中，加强用户修正操作产生的如下新n元组的概率：

Pr(‖|will，I)+＝δ，即增加在I will之后断句的概率；

Pr(I′m|‖，will)+＝δ，即增加在will和I′m之间断句的概率；

Pr(driving|I′m，‖)+＝δ，即增加在I′m driving之前断句的概率。

[0041]另一方面，在步骤107中，减弱用户修正操作删除的如下n元组的概率：

Pr(I′m|will，I)-＝δ，即减小在I will后接I′m的概率；

Pr(driving|I′m，will)-＝δ，即减小在will和I′m后接driving的概率。

[0042]此外，如果在步骤106中删除了在“serve”和“Tsing”之间的句边界“‖”，则在步骤107中，加强用户修正操作产生的如下新n元组的概率：

Pr(Tsing|serve，also)+＝δ，即增加在also server后接Tsing的概率；

Pr(Tao|Tsing，serve)+＝δ，即增加在serve和Tsing后接Tao的概率。

[0043]另一方面，在步骤107中，减弱用户修正操作删除的如下n元组的概率：

Pr(‖|serve，also)-＝δ，即减小在also serve之后断句的概率；

Pr(Tsing|‖，serve)-＝δ，即减小在serve和Tsing之间断句的概率；

Pr(Tao|Tsing，‖)-＝δ，即减小在Tsing Tao之前断句的概率。

[0044]通过以上描述可知，本实施例的语音翻译方法在语音识别与机器翻译之间，插入一个长句切分步骤，其能够将识别出的文本中的长句自动切分为若干个简单、完整的单句，从而降低了机器翻译的难度，提高了机器翻译的质量。

[0045]此外，为了避免错误的自动切分结果，该语音翻译方法还提供了一个与用户交互的界面，使得用户可以方便的修改自动切分的结果。同时，用户的修改操作将被记录下来，用以实时更新切分模型，使之更适合用户的个性化需求。长期使用该语音翻译方法会逐渐提高自动切分的质量，降低自动切分出错的可能性，从而使得用户的干预越来越少。

[0046]语音翻译装置

[0047]在同一发明构思下，图6是根据本发明的另一个实施例的语音翻译装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

[0048]如图6所示，本实施例的语音翻译装置600包括：语音识别单元601，用于将上述语音识别为文本，所述文本包括至少一个包含多个单句的长句；切分单元605，用于将上述至少一个长句切分为多个单句；以及翻译单元610，用于将上述多个单句中的每一个翻译为目标语种的句子。

[0049]在本实施例中，语音识别单元601可以是本领域的技术人员公知的或未来开发的任何语音识别技术，例如上述参考文献1中所公开的语音识别技术，本发明对此没有任何限制，只要能够将输入的语音识别为文本即可。

[0050]在本实施例中，语音识别单元601识别出的文本包括一个和多个包含多个单句的长句。这些长句是由若干个简单、完整的单句构成，例如下面的句子：

That′s very kind of you but I don′t think I will I′m driving.

其由下面的3个单句构成：

That′s very kind of you.

But I don′t think I will.

I′m driving.

[0051]在本实施例中，切分单元605将语音识别单元601识别出的文本中的一个和多个长句切分为多个单句。下面详细描述本实施例的切分单元605将长句切分为单句的切分过程。

[0052]在本实施例中，切分单元605利用切分模型M1将语音识别单元601识别出的文本中的长句切分为多个单句。下面首先参考图3对切分模型M1进行详细描述。

[0053]图3是示出训练切分模型的过程的详细示意图。在本实施例中，利用切分语料库M2训练切分模型M1。如图3所示，所述切分语料库M2包括进行了正确切分的文本，所述切分模型M1类似于n元(n-gram)语言模型，只不过句边界标记“‖”也作为一个普通词看待，在所述训练出的切分模型M1中具有多个n元组和低阶元组以及它们的概率。此外，切分模型M1的训练过程也类似于n元语言模型的训练过程。应该理解，在本实施例中使用的切分模型M1可以是本领域的技术人员公知的任何切分模型，本发明对此没有任何限制，只要能够利用该切分模型将语音识别单元601识别出的文本中的长句切分为多个单句即可。

[0054]下面参考图4详细描述本实施例中切分单元605利用切分模型M1对长句进行切分的过程。图4是示出搜索最优切分路径的过程的详细示意图。

[0055]在本实施例中，切分单元605包括候选切分路径生成单元，用于为上述至少一个长句生成多个候选切分路径。具体地，针对输入的句子建立一个切分网络，在该切分网络中，待切分的句子中的每一个词都登记为一个词结点，每一个词边界都登记为一个候选句边界结点。所有的词结点和零个或任意的一个或多个候选句边界结点组成一条切分路径，作为一条候选切分路径。例如对于下面的句子：

That′s very kind of you but I don′t think I will I′m driving.

可以得到如下候选切分路径：

That′s very kind of you‖but I don′t think I will I′m driving.‖

That′s‖very kind of you but I don′t think I will‖I′m driving.

That′s very kind of you but‖I don′t think‖I will I′m driving.‖

……

[0056]在本实施例中，切分单元605还包括得分计算单元，用于利用上述切分模型计算上述多个候选切分路径中的每一个的得分。具体地，利用一个高效的搜索算法来寻找最优的切分路径。在该搜索过程中，对每一条候选切分路径进行评价打分，该过程类似于中文分词过程。具体地，例如，可以使用Viterbi算法来搜索最优切分路径，Viterbi算法的具体细节参见A.J.Viterbi的文献“Error Bounds for Convolutional Codes and AnAsymptotically Optimum Decoding Algorithm”，1967，IEEE Trans.OnInformation Theory，13(2)，p.260-269(以下称为参考文献3)，在此通过参考引入其整个内容。

[0057]此外，本实施例的切分单元605还包括最优切分路径选择单元，用于选择得分最高的候选切分路径作为最优的切分路径，如图4所示，将如下切分路径作为最优的切分路径：

That′s very kind of you‖but I don′t think I will I′m driving.‖

[0058]返回到图6，在切分单元605将语音识别单元601识别出的文本中的长句切分为多个单句后，翻译单元610将多个单句中的每一句翻译为目标语种的句子。例如，对于上述例句，分别对如下两个句子进行翻译：

That′s very kind of you‖

But I don′t think I will I′m driving.‖

[0059]在本实施例中，翻译单元610可以是任何机器翻译装置，例如基于规则的翻译、基于实例的翻译或基于统计的翻译，对上述单句进行翻译。具体地，例如可以采用上述参考文献2中公开的机器翻译装置对上述单句进行翻译，本发明对此没有任何限制，只要能够将切分后的单句翻译为目标语种的句子即可。

[0060]此外，可选地，本实施例的语音翻译装置600还包括修正单元607，用于在切分单元605将语音识别单元601识别出的文本中的长句切分为单句后，允许用户对切分单元605的切分结果进行修正。下面通过参考图5详细描述本实施例的修正单元607的修正过程。

[0061]图5是示出修正单元607的修正过程的详细示意图。如图5所示，如果在切分单元605切分的切分结果中存在错误，则修正单元607允许用户通过简单地点击进行修改。例如，在上述切分结果中切分后的如下单句存在错误：

But I don′t think I will I′m driving.‖

其由如下两个单句构成：

But I don′t think I will.

I′m driving.

[0062]因此，修正单元607允许用户点击漏识的切分位置，即在“will”和“I′m”之间进行点击，由于用户点击处不是一个句边界，则将点击处作为句边界进行断句。此外，如果用户点击误识的切分位置，即点击的是句边界，则删除此句边界，例如，在如下自动切分结果中：

We also serve‖

Tsing Tao Beer here

[0063]通过修正单元607的修正，用户可以很方便地修正切分单元605自动切分获得的切分结果。

[0064]此外，可选地，本实施例的语音翻译装置600还包括模型更新单元，用于将修正单元607进行的修正操作作为指导信息，对上述切分模型M1进行更新。

[0065]具体地，如图5所示，模型更新单元根据上述修正单元607进行的修正操作，加强用户修正操作产生的新n元组的概率，而减弱用户修正操作删除的n元组的概率。

[0066]例如，在图5中，如果修正单元607在“will”和“I′m”之间增加了句边界“‖”，则模型更新单元加强用户修正操作产生的如下新n元组的概率：

Pr(‖|will，I)+＝δ，即增加在I will之后断句的概率；

Pr(I′m|‖，will)+＝δ，即增加在will和I′m之间断句的概率；

[0067]另一方面，模型更新单元减弱用户修正操作删除的如下n元组的概率：

Pr(I′m|will，I)-＝δ，即减小在I will后接I′m的概率；

[0068]此外，如果修正单元607删除了在“serve”和“Tsing”之间的句边界“‖”，则模型更新单元加强用户修正操作产生的如下新n元组的概率：

Pr(Tsing|serve，also)+＝δ，即增加在also server后接Tsing的概率；

Pr(Tao|Tsing，serve)+＝δ，即增加在serve和Tsing后接Tao的概率。

[0069]另一方面，模型更新单元减弱用户修正操作删除的如下n元组的概率：

Pr(‖|serve，also)-＝δ，即减小在also serve之后断句的概率；

Pr(Tsing|‖，serve)-＝δ，即减小在serve和Tsing之间断句的概率；

Pr(Tao|Tsing，‖)-＝δ，即减小在Tsing Tao之前断句的概率。

[0070]通过以上描述可知，本实施例的语音翻译装置600在语音识别单元与机器翻译单元之间，插入一个长句切分单元，其能够将语音识别单元识别出的文本中的长句自动切分为若干个简单、完整的单句，从而降低了机器翻译的难度，提高了机器翻译的质量。

[0071]此外，为了避免错误的自动切分结果，该语音翻译装置600还提供了一个与用户交互的修正单元，使得用户可以方便的修改自动切分的结果。同时，该语音翻译装置600还提供了一个模型更新单元，其将修正单元的修改操作记录下来，用以实时更新切分模型，使之更适合用户的个性化需求。长期使用该语音翻译装置600会逐渐提高自动切分的质量，降低自动切分出错的可能性，从而使得用户的干预越来越少。

[0072]以上虽然通过一些示例性的实施例对本发明的语音翻译方法和语音翻译装置进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种语音翻译方法，包括：

将上述语音识别为文本，所述文本包括至少一个包含多个单句的长句；

将上述至少一个长句切分为多个单句；以及

将上述切分的多个单句中的每一个翻译为目标语种的句子。

2.根据权利要求1所述的语音翻译方法，其中，上述将上述至少一个长句切分为多个单句的步骤包括：

利用切分模型将上述至少一个长句切分为多个单句。

3.根据权利要求2所述的语音翻译方法，其中，上述利用切分模型将上述至少一个长句切分为多个单句的步骤包括：

为上述至少一个长句生成多个候选切分路径；

利用上述切分模型计算上述多个候选切分路径中的每一个的得分；以及

选择得分最高的候选切分路径作为最优的切分路径。

4.根据权利要求2或3所述的语音翻译方法，其中，上述切分模型包括多个n元组(n-gram)及其概率。

5.根据权利要求1-4中任何一项所述的语音翻译方法，还包括：

修正上述将上述至少一个长句切分为多个单句的切分结果。

6.根据权利要求5所述的语音翻译方法，其中，上述修正上述将上述至少一个长句切分为多个单句的切分结果的步骤包括：

删除或增加上述切分结果中的切分位置。

7.根据权利要求5或6所述的语音翻译方法，还包括：

根据上述修正后的切分结果更新上述切分模型。

8.根据权利要求7所述的语音翻译方法，其中，上述根据上述修正后的切分结果更新上述切分模型的步骤包括：

加强上述修正步骤增加的n元组的概率。

9.根据权利要求7所述的语音翻译方法，其中，上述根据上述修正后的切分结果更新上述切分模型的步骤包括：

减弱上述修正步骤删除的n元组的概率。

10.一种语音翻译装置，包括：

语音识别单元，用于将上述语音识别为文本，所述文本包括至少一个包含多个单句的长句；

切分单元，用于将上述至少一个长句切分为多个单句；以及

翻译单元，用于将上述切分单元切分的多个单句中的每一个翻译为目标语种的句子。

11.根据权利要求10所述的语音翻译装置，其中，上述切分单元用于：

利用切分模型将上述至少一个长句切分为多个单句。

12.根据权利要求11所述的语音翻译装置，其中，上述切分单元包括：

候选切分路径生成单元，用于为上述至少一个长句生成多个候选切分路径；

得分计算单元，用于利用上述切分模型计算上述多个候选切分路径中的每一个的得分；以及

最优切分路径选择单元，用于选择得分最高的候选切分路径作为最优的切分路径。

13.根据权利要求11或12所述的语音翻译装置，其中，上述切分模型包括多个n元组(n-gram)及其概率。

14.根据权利要求10-13中任何一项所述的语音翻译装置，还包括：

修正单元，用于修正上述切分单元的切分结果。

15.根据权利要求14所述的语音翻译装置，其中，上述修正单元用于：

删除或增加上述切分结果中的切分位置。

16.根据权利要求14或15所述的语音翻译装置，还包括：

模型更新单元，用于根据上述修正单元修正后的切分结果更新上述切分模型。

17.根据权利要求16所述的语音翻译装置，其中，上述模型更新单元用于：

加强上述修正单元增加的n元组的概率。

18.根据权利要求16所述的语音翻译装置，其中，上述模型更新单元用于：

减弱上述修正单元删除的n元组的概率。