CN104462071A

CN104462071A - 语音翻译设备和语音翻译方法

Info

Publication number: CN104462071A
Application number: CN201410472159.3A
Authority: CN
Inventors: 釜谷聪史; 住田一男; 河村聪典
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-19
Filing date: 2014-09-16
Publication date: 2015-03-25
Also published as: JP2015060095A; US20150081270A1; US9471568B2

Abstract

本公开涉及一种语音翻译设备和一种语音翻译方法。根据一个实施例，使用用以识别第一语言和第二语言的语音识别词典来识别第一语言的语音，并且生成所述第一语言的源句子。将所述源句子翻译成第二语言，并且生成所述第二语言的翻译句子。检测所述翻译句子中包括的未知词。所述未知词没有被存储在所述语音识别词典中。依据所述未知词的表达，评估所述未知词的第一发音候选。依据对应于所述未知词的、包括在所述源句子中的原始词的发音，评估所述未知词的第二发音候选。将所述未知词、所述第一发音候选和所述第二发音候选相应地登记到所述语音识别词典中。

Description

语音翻译设备和语音翻译方法

技术领域

这里描述的实施例总体上涉及语音翻译设备和语音翻译方法。

背景技术

存在有机器翻译装置，该机器翻译装置用以接受以第一语言描述的源语言的字符串的输入，并且将字符串翻译成用第二语言(用户希望的语言)描述的另一字符串。此外，通过语音语言处理技术的最近发展，实现了用以将一个用户(第一说话者)说出的第一语言的语音翻译成第二语言并且输出至另一用户(第二说话者)的语音翻译装置。

在语音翻译装置目前使用的语音识别词典和翻译词典中，仅存储由开发者提供的在一个范围内的词汇。尤其地，在语音翻译装置中，通过基于使用该装置的场景或者情况来限制或者转换可识别的词汇和可翻译的词汇，性能得以提高。可以通过这样的事实来想象这个原因，即与不具有前提了解相比，如果用户具有一些程度的前提了解而听谈话，对于用户来说，理解谈话是更容易的。

在另一方面，在PCT国际公开WO 2009/129315中公开了用以将第一语言的新词翻译成第二语言并且将此翻译结果登记到用于第二语言的语音识别词典中的技术。

在通过语音诠释(interpretation)装置的实际会话中，通过听相互发声并且通过在第一和第二说话者之间确认各自的诠释结果，会话得以推进。对于在另一方的语言(第二说话者的语言)中不存在的词，例如，在从日语到汉语的翻译中，或者从日语到英语的翻译中，该词被音译为以拉丁字母方式的表达。此外，在将英语翻译成日语中，以字母方式的表达将该词原样输出，或者将该词音译成以日语字音表(假名)方式的表达。

在这种情况下，当另一方(第二说话者)不可以依据翻译结果的表达评估语音时，另一方常常基于第一说话者的发声而发声。相应地，如果语音识别词典根据传统技术仅通过词的表达而更新，用与语音识别词典所不同的发音说出该词，该词不能被正确地识别。

例如，考虑日语词“納豆(Nattou)”(发酵的大豆)。该词被翻译成汉语“納豆”(拼音(汉语拼音系统)：na4dou4)和英语词“Natto”。当外国人观看此翻译结果并且尝试在接下来的语音中说出此词时，除了通过观看他/她的母语的表达的发声之外，外国人通常通过模仿日语发音“Nattou”而说出。该日语发音“Nattou”没有直接关联到汉语词“納豆”和英语词“Natto”。相应地，在用以识别外国人的发声的传统技术中，该传统技术仅使用依据翻译结果的字符串而评估的发音，外国人的发声的语音识别是失败的。

此外，为了提高翻译准确性，考虑将所有可翻译的词和所有作为翻译结果而获得的词事先登记到语音识别词典中。然而，如果可识别的词的数目无序地增加，生成具有类似于正确词的发声的非正确词的可能性被提高。于是，诠释准确性并不总是被改善。

发明内容

实施例提供一种语音识别设备和语音识别方法，所述设备和方法能够识别这样的词，该词对应的发音具有很高的可能性由说话者在流畅会话中说出。

根据一个实施例，一种语音翻译设备包括语音识别单元、翻译单元、未知词检测单元、发音评估单元和词典更新单元。所述语音识别单元被配置为，通过使用用以识别第一语言和第二语言的语音识别词典识别语音，将第一语言的语音转换成第一语言的源句子。所述翻译单元被配置为将所述源句子转换成所述第二语言的翻译句子。所述未知词检测单位被配置为检测包括在所述翻译句子中的未知词。所述未知词没有被存储在所述语音识别词典中。所述发音评估单元被配置为依据所述未知词的表达，来评估所述未知词的第一发音候选，并且依据对应于所述未知词的、所述源句子中包括的原始词的发音，来评估所述未知词的第二发音候选。词典更新单元被配置为将所述未知词、所述第一发音候选和所述第二发音候选相应地登记到所述语音识别词典中。

根据实施例，可以提供一种语音识别设备和一种语音识别方法，所述设备和方法能够识别这样的词，该词对应的发音具有很高的可能性由说话者在流畅会话中说出。

附图说明

图1为根据各种实施例的语音翻译设备的框图。

图2为根据第一实施例的语音翻译设备的处理的流程图。

图3为对应于源语言发音的语音识别结果和翻译结果的一个实例。

图4为从图3的翻译结果检测到的未知词A和B。

图5为根据第一实施例的发音对应表的一个实例。

图6为根据第一实施例的登记到语音识别词典中的发音候选的一个实例。

图7为根据第二实施例的语音翻译设备的处理的流程图。

图8为根据第二实施例的语际发音对应表的一个实例。

图9A、9B和9C为根据第二实施例的用以提取未知词的发音候选的处理的一个实例。

图10为根据第三实施例的语音翻译设备的处理的流程图。

图11为根据第三实施例的登记到语音识别词典中的优选词的一个实例。

图12为根据第三实施例的优选语音识别的一个实例。

具体实施方式

在下面的实施例中，作为假设，将解释第一语言到第二语言的语音翻译。然而，翻译方向可是逆向的。此外，即使语音翻译设备应用一种机制以同时地处理多种语言，显然可以以类似方式处理翻译方向。

图1为根据各种实施例的语音翻译设备的内部部件的框图。如图1中所示，语音翻译设备包括语音识别单元100、翻译单元120、未知词检测单元130、发音评估单元140和词典更新单元150。语音识别单元100内部或者外部连接语音识别词典110。

语音识别单元100接受用户(说话者)的发声作为语音信号。例如，该语音信号可以通过麦克风而收集并且通过模拟/数字转换器(A/D转换器)而获得。此外，可通过用记录介质读取语音(事先记录的)来接受该语音信号。通过参考语音识别词典110，使用语音识别技术，语音识别单元100将接受的语音信号转换成对应的文本字符串。作为语音识别单元100使用的语音识别技术(自动语音识别)，采用了诸如隐马尔科夫模型法(Hidden Markov Model Method)的广泛知道的传统技术。这里，省略了其解释。

翻译单元120通过参考翻译词典(图1中未示出)将第一语言的源语言句子(由语音识别单元100输出)翻译成第二语言的目标语言句子，并且将该目标语言句子输出。作为翻译单元120的翻译处理，可以应用在传统机器翻译技术中所使用的各种方法，例如，一般传递方法(generaltransfer method)、基于实例方法(example-based method)、统计方法、语际方法。

未知词检测单元130从作为翻译单元120的翻译结果的目标语言句子检测语音识别单元100的未知词，以识别第二语言。例如，如果至少一个词未被登记在被参考用以识别第二语言的语音识别词典中，该词被检测为未知词。

发音评估单元140评估一组未知词(由未知词检测单元130输出)中的每个未知词的发音。作为评估方法，可以使用语音合成(文本-至-语音)技术。省略了其解释。

此外，发音评估单元140基于对应于第二语言的未知词的第一语言的词，来评估发音。此后，用以评估发音的该过程被称为“依据源语言的发音评估”。这里，可依据与第二语言的未知词对应的词在源语言句子中的表达来评估第一语言的发音。此外，该发音的评估可基于与对应于未知词的源语言句子中的词等效的、第一语言的发声声音的波形信息。

例如，通过产生在第一语言和第二语言之间的规则或者声音对应表，使用“依据源语言的发音评估”。此外，通过大规模地收集第一语言和第二语言的发音对，并且通过使用机器学习在其之间建模变化规律，可以应用用于统计地评估新未知词的发音的方法。

词典更新单元150将未知词(由未知词检测单元130所检测)与由发音评估单元140所评估的发音相对应，并且将未知词登记到被语音识别单元100所参考的词典110中。

此外，词典更新单元150更新未知词和(新登记的)发音对，以便在语音识别处理中被语音识别单元100优先选择。例如，当操作语音识别单元100时，如果未知词(被登记以便被优先选择)被包括在候选中，语音识别单元100优先选择该未知词。该未知词可被登记，使得优先级随着时间的推移而降低，或者在完成一系列对话之后从登记中删除。

以下，将解释各种实施例的语音翻译设备的操作。在下列解释中，第一语言为日语，并且第二语言为汉语。然而，可以将本原理应用到两种不同的语言。

(第一实施例)

图2为根据第一实施例的语音翻译设备的处理的流程图。以下，将通过示出具体实例结合图2的流程图，解释每一处理。

现在，如图3的上面一行中所示，作为源语言发声S，将“MITODENATTOUWOTABETAKOTOGAARIMASUKA”输入到语音识别单元100。接着，如图3的中间行中所示，语音识别单元100输出语音识别结果R“水戸で納豆を食べたことがありますか？”(你是否曾经在水户吃过发酵的大豆？)接着，如图3的下面一行中所示，翻译单元120获得汉语翻译结果T(S200)。

然后，在用以获得汉语翻译结果T的过程中，如图4中所示，通过未知词检测单元130，检测到包括两个未知词A和B的未知词组U，因为它们未在汉语的语音识别词典110中登记。未知词组U被输出到发音评估单元140(S210)。此后，对于两个汉语词“水戸”和“納豆”，这些词表示下列汉语表达。

「水户」「纳豆」

接着，对于作为未知词组U的元素的每个未知词，发音评估单元140评估发音。这里，在第一实施例的语音翻译设备中，首先，依据每个未知词的在第二语言(汉语)中的未登记词的表达评估发音。例如，对于汉语词“水戸”，获得发音候选“shui3hu4”。对于汉语词“納豆”，获得发音候选“na4dou4”。

此外，发音评估单元140依据每个未知词的源语言词在第一语言中的发音来评估发音候选，即，“MITO”对应于“水戸”，并且“NATTOU”对应于“納豆”。在此评估中，通过使用语际发音对应表，转换发音候选。于是，对于汉语词“水戸”，获得“mi1tou”。对于汉语词“納豆”，获得“na4tuo2”。

通过上述两个发音候选的评估处理，如图6中所示，作为汉语词“水戸”的发音候选，获得“shui3hu4”和“mi1tou”。作为汉语词“納豆”的发音候选，获得“na4dou4”和“na4tuo2”。以这种方式，获得发音候选组P(S220)。

词典更新单元150将每个未知词(包括在未知词组U中的)与发音候选组P(由词典更新单元150评估)相对应，并且将其登记到汉语的语音识别词典110中(S230)。

通过上述处理，基于日语的了解，可以将汉语说话者很高可能性说出的发音登记到语音识别词典110中。相应地，对于汉语说话者很高可能性在流畅会话中使用的发音，可以将对应于该发音的词识别为语音。于是，改善在语音会话中的语音识别的识别准确性，并且改善语音翻译设备的诠释。

通过这种方式，在第一实施例中，语音输入并不总为必需的。这个原因从这样的事实而显而易见，即，汉语发音的评估并不参考日语的原始发声的信息。作为语音输入的替代，可以通过触摸屏、鼠标、键盘和手写，输入作为翻译目标的源语言句子。

接着，例如，基于汉语说话者的日语了解，汉语说话者不是以汉语发音“na4dou4”、而是以类似的汉语发音“na2tuo2”说出汉语词“納豆”。这里，在第一实施例中，对于汉语词“納豆”，发音候选“na2tuo2”没有被包括。相应地，没有获得汉语说话者所希望的语音识别结果。在第二实施例中，此问题得以解决。

(第二实施例)

将解释第二实施例。图7为根据第二实施例的语音翻译设备的处理的流程图。图8为在第二实施例中使用的语际发音对应表。图9A、9B和9C为示出根据第二实施例的用以提取未知词的发音候选的过程的示意图。

首先，图4中的处理S400～S420分别对应于图2中的处理S200～S220。相应地，省略其解释。

在S430，对于未知词组U的每个元素，发音评估单元140通过从语音识别结果R收集对应的语音声音获得语音声音组W。简要地，对于作为由未知词检测单元130所输出的未知词组U的元素的每个未知词，发音评估单元140提取对应于未知词的第一语言的语音声音。例如，如图9A中所示，通过提取对应于未知词“水戸”的语音声音“MITO”，并且通过提取对应于未知词“納豆”的语音声音“NATTOU”，获得语音声音组W。

接着，在S440，语音评估单元140依据对应于未知词的语音声音评估发音候选，并且将发音候选添加到发音候选组P。在第二实施例中，通过使用图8中所示的语际发音对应表，转换发音候选。于是，如图9B中所示，对于汉语词“水戸”，评估“mi1tou”。对于汉语词“納豆”，评估“na2tou2”。这些评估的候选被添加到发音候选组P。

最后，在S440，词典更新单元150将每个未知词(被包括在未知词组U中)与由发音评估单元140评估的发音候选组P相对应，并且将这些对登记到汉语的语音识别词典110中。在这种情况下，这些对被收集，以便不与在S400～S420获得的发音候选重叠。如图9C中所示，作为汉语词“水戸”的发音候选，获得包括“shui3hu4”和“mi1tou”的发音候选组P。此外，作为汉语词“納豆”的发音候选，获得包括“na4dou4”、“na4tuo2”和“na2tou2”的发音候选组P。词典更新单元150将每个未知词(被包括在未知词组U中)与发音候选组P相对应，并且将这些对登记到汉语的语音识别词典110中。

于是，例如，当日语说话者通过利用此系统实际上发声时，汉语说话者所实际上听到的类似于该发声的发音可以被登记到语音识别词典110中。相应地，作为对一方(日语说话者)在流畅会话中实际使用的发声的响应，由另一方(汉语说话者)说出的发音的词可以被识别为语音。于是，可以呈现具有更高翻译准确性的语音翻译设备。

例如，在汉语说话者听到在他们的会话中日语说话者的发声“NATTOU”后，汉语说话者不是以汉语发音“na4dou4”、而是以类似的汉语发音“na2tou2”发出汉语词“納豆”。在这种情况下，通过使用上述更新的语音识别词典100，可以正确地识别汉语词“納豆”。

(第三实施例)

接着，将解释根据第三实施例的优选词的登记。图10为根据第三实施例的语音翻译设备的处理的流程图。图11为到语音识别词典110中的优先登记的一个实例。图12为优先语音识别的一个实例。

在图10中，S500～S520的处理分别对应于图2中的S200～S220的处理。此外，S530和S540的处理分别对应于图7中的S430和S440的处理。相应地，省略其解释。

在S550，词典更新单元150将每个未知词(被包括在未知词组U中)与由词典更新单元150评估的发音候选相对应。此外，该未知词被登记到汉语的语音识别词典110中，作为相对于与未知词具有相同发音的其它(已经登记的)词的优选词。

图11示出被优先登记到语音识别词典110中的词的一个实例。这里，对于发音“na4tuo2”，具有此相同发音的两个候选被登记如下。

纳豆那头

在这两个候选之中，下面的词被登记为优先1(更优选的词)。

纳豆

在这种情况下，如图12的上面一行中所示，对于汉语发声“wo3xiang3mai3na4tou2”，提取如图12的中间行中所示的四种语音识别候选。如果汉语词“納豆”被设置为优选1，那么通过在四种语音识别候选之中评估优选顺序或者评估通过参考语言模型而计算的似然性，选择如图12的下面一行中所示的一个语音识别结果。相应地，在语音识别中优先选择与主题匹配的词。于是，可以沿着主题实现语音翻译，并且改善语音诠释的准确性。

在上述实施例中，可以基于作为软件的程序，执行在处理步骤中示出的指示。通过事先将该程序存储到通用计算机中并且通过从中读取程序，可以获得与上述机器翻译设备相同的效果。将上述实施例中描述的指示记录到磁盘(例如软盘、硬盘)、光盘(例如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、蓝光(被登记为商标)碟)、半导体存储器或者与其相似的记录介质中，作为计算机可执行的程序。如果记录介质为嵌入式系统或者计算机可读的，记录格式可为任何形式。当计算机从该记录介质读取该程序并且通过CPU执行在程序中描述的指示时，可以实现与上述实施例的机器翻译设备相同的操作。当然，计算机可通过网络获得或者读取程序。

此外，基于从记录介质安装到计算机或者嵌入式系统中的程序的指示，在计算机上操作的OS(操作系统)、数据库管理软件或者诸如网络的MW(中间件)，可执行每个处理的一部分，以实现本实施例。

此外，在本实施例中，记录介质不限于与计算机或者嵌入式系统独立的介质。通过下载通过LAN或者因特网传输的程序，存储或者暂时存储程序的记录介质被包括在内。

此外，记录介质不限于一个/一种。如果使用多个介质执行本实施例的处理，它们被包括在本实施例的记录介质中。介质可具有任何部件。

此外，在本实施例中，基于在记录介质中所存储的程序，使用计算机或者嵌入式系统用于执行本实施例的每个处理。它可以具有一个设备(例如个人计算机、微型计算机)或者系统的任何部件，该系统包括通过网络而连接的多个设备。

此外，在本实施例中，计算机不限于个人计算机。计算机包括操作处理设备(被包括在信息处理装置中)、微型计算机等等。简要地，计算机被一般地命名为能够通过程序执行本发实施例的功能的装置或者设备。

尽管已经描述某些实施例，但这些实施例仅通过举例的方式呈现，并且不旨在限制本发明的范围。事实上，本文所描述的新颖实施例可以以各种其它形式来实施；此外，可在不脱离本发明的精神下，对本文所描述的实施例的形式做出各种省略、替代和改变。所附权利要求以及它们的等价物旨在将此类形式或者修改覆盖落在本发明范围和精神内。

Claims

1.一种语音翻译设备，包括：

语音识别单元，所述语音识别单元被配置为，通过使用用以识别第一语言和第二语言的语音识别词典来识别语音，将第一语言的语音转换成第一语言的源句子；

翻译单元，所述翻译单元被配置为将所述源句子转换成所述第二语言的翻译句子；

未知词检测单元，所述未知词检测单元被配置为检测所述翻译句子中包括的未知词，所述未知词没有被存储在所述语音识别词典中；

发音评估单元，所述发音评估单元被配置为依据所述未知词的表达，评估所述未知词的第一发音候选，并且依据对应于所述未知词的、包括在所述源句子中的原始词的发音，评估所述未知词的第二发音候选；以及

词典更新单元，所述词典更新单元被配置为将所述未知词、所述第一发音候选和所述第二发音候选相应地登记到所述语音识别词典中。

2.根据权利要求1的设备，其中，

所述发音评估单元依据对应于所述原始词的、包括在所述语音中的语音声音来评估第三发音候选。

3.根据权利要求1的设备，其中，

所述词典更新单元登记所述未知词，使得所述未知词与已经被登记到所述语音识别词典中的其它词相比更为优先地被选择，所述其它词对应于在所述语音识别词典中的所述第一发音候选或者所述第二发音候选。

4.一种语音翻译方法，包括：

通过使用用以识别第一语言和第二语言的语音识别词典来识别语音，将第一语言的语音转换成所述第一语言的源句子；

将所述源句子转换成所述第二语言的翻译句子；

检测所述翻译句子中包括的未知词，所述未知词没有被存储在所述语音识别词典中；

依据所述未知词的表达，评估所述未知词的第一发音候选；

依据对应于所述未知词的、包括在所述源句子中的原始词的发音，评估所述未知词的第二发音候选；以及

将所述未知词、所述第一发音候选和所述第二发音候选相应地登记到所述语音识别词典中。

5.根据权利要求4的方法，其中，

评估第二发音候选包括

依据对应于所述原始词的、包括在所述语音中的语音声音，来评估第三发音候选。

6.根据权利要求5的方法，其中，

所述登记包括

将所述未知词、所述第一发音候选、所述第二发音候选和所述第三发音候选相应地登记到所述语音识别词典中。