CN1932807A

CN1932807A - 用于翻译语音和进行翻译结果的语音合成的装置和方法

Info

Publication number: CN1932807A
Application number: CNA2006101538750A
Authority: CN
Inventors: 土井美和子
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-09-15
Filing date: 2006-09-14
Publication date: 2007-03-21
Also published as: JP2007080097A; JP4087400B2; US20070061152A1

Abstract

一种语音对话翻译装置，包括：语音识别单元，用于识别将被翻译的源语言的用户语音并输出识别结果；源语言存储单元，用于存储所述识别结果；翻译判定单元，基于对正在进行的语音的一部分是否将被翻译进行定义的规则，来判定在所述源语言存储单元中存储的所述识别结果是否将被翻译；翻译单元，用于在判定所述识别结果将被翻译时，将所述识别结果转换成以目标语言描述的译文并且输出所述译文；以及语音合成器，用于将所述译文合成为所述目标语言的语音。

Description

用于翻译语音和进行翻译结果的语音合成的装置和方法

技术领域

本发明涉及用于翻译语音和进行翻译结果的语音合成的装置和方法。

背景技术

近年来，已经达到退休年龄的在生育高峰时期出生的人出于观光和技术援助的目的已经开始大批地去外国访问，而作为一种用于帮助他们交流的技术，机器翻译已经变得广为人知。机器翻译还被用于以日语翻译和显示通过因特网等检索的以外语写成的Web页面的服务。所述机器翻译技术，其基本做法是每次翻译一个句子，可用于翻译诸如Web页面或技术性的操作手册的所谓的书面语。

另一方面，用于海外旅行等的翻译机需要小尺寸和便携性。鉴于此，利用基于语言资料库(corpus-based)的机器翻译技术的便携式翻译机在商业上是可行的。在这种产品中，通过利用旅行会话实例集等来构建语言资料库。许多包含在旅行会话实例集中的句子长于普通对话中所用到的句子。因此，当使用从旅行会话实例集构建语言资料库的便携式翻译机时，除非所讲的是以句号结束的正确的句子，否则翻译准确度有可能降低。为了防止翻译准确度降低，使用者被迫说正确的句子，从而使可操作性恶化。

对于利用笔、按钮或键盘直接输入句子的方法，很难减小所述装置的尺寸。因此，该方法，不适合用于所述便携式翻译机。鉴于此，用于通过对经由麦克风等输入的语音进行识别来输入句子的语音识别技术的应用，被期望是有前途的。所述语音识别，然而，具有这样的缺点，即，除非使用头戴式耳机等，识别准确度在非低噪音环境中将恶化。

Hori和Tsukata，“Speech Recognition with Weighted Finite StateTransducer，”Information Processing Society of Japan Journal‘Information Processing’Vol.45，No.10，pp.1020-1026(2004)(在下文中称为，“Hori etc.”)提出了一种易扩展的、高速的语音识别技术，其用于利用加权有限状态转换器在听觉上顺序地识别语音输入并利用书面语来替代它们，从而无需降低识别准确度即可识别所述语音。

一般而言，即使在这样的情况下，即语音识别的条件满足头戴式耳机等的要求并且如Hori etc.中所描述的为了语音识别对算法进行改进，也不能完全消除语音识别中的识别误差。因此，在语音识别技术在便携式翻译机上的应用中，为了防止由于所述识别误差引起的机器翻译准确度的恶化，必须在执行所述机器翻译之前校正被错误地识别的部分。

所述常规的机器翻译假定句子被完整地输入，因此，问题在于，在完成输入之前不进行翻译和语音合成，导致沉默期间持续很长并且对话不能流畅地进行。

同样，在发生识别误差的情况下，在输入整个句子之后，需要返回到显示在显示屏上的整个句子的被错误地识别的部分来进行校正，从而使操作变得复杂。即使是Hori etc.的方法，在其中所述语音识别结果被顺序地输出，由于这样的事实，即通常在听觉上识别和输出整个句子之后进行所述机器翻译和语音合成，也提出了类似的问题。

同样，在校正时，沉默存在并且用户的视线不指向对话的另一方而集中于所述便携式翻译机的显示屏。这提出了会对流畅的对话产生很大的有害影响的问题。

发明内容

根据本发明的一方面，一种语音对话翻译装置，包括：语音识别单元，用于识别将被翻译的源语言的用户语音并输出识别结果；源语言存储单元，用于存储所述识别结果；翻译判定单元，基于对正在进行的语音的一部分是否将被翻译进行定义的规则，来判定在所述源语言存储单元中存储的所述识别结果是否将被翻译；翻译单元，用于在判定所述识别结果将被翻译时，将所述识别结果转换成以目标语言描述的译文并且输出所述译文；以及语音合成器，用于将所述译文合成为所述目标语言的语音。

根据本发明的另一方面，一种语音对话翻译方法，包括步骤：识别将被翻译的源语言的用户语音；输出识别结果；基于对正在进行的语音的一部分是否将被翻译进行定义的规则，判定存储在源语言存储单元中的所述识别结果是否将被翻译；在判定所述识别结果将被翻译时，将所述识别结果转换成以目标语言描述的译文并且输出所述译文；以及将所述译文合成为所述目标语言的语音。

附图说明

图1是示出了根据第一实施例的语音对话翻译装置的构造的框图；

图2是用于说明源语言存储单元的数据结构的例子的示图；

图3是用于说明翻译判定规则存储单元的数据结构的例子的示图；

图4是用于说明译文存储单元的数据结构的例子的示图；

图5是示出了根据所述第一实施例的语音对话翻译处理的总流程的流程图；

图6是用于说明在常规的语音对话翻译装置中处理的数据的一个例子的示图；

图7是用于说明在所述常规的语音对话翻译装置中处理的数据的另一个例子的示图；

图8是用于说明在根据所述第一实施例的语音对话翻译装置中的语音对话翻译处理的具体例子的示图；

图9是用于说明在发生语音识别误差时执行的语音对话翻译处理的具体例子的示图；

图10是用于说明在发生语音识别误差时执行的语音对话翻译处理的具体例子的示图；

图11是用于说明在发生语音识别误差时执行的语音对话翻译处理的另一个具体例子的示图；

图12是用于说明在发生语音识别误差时执行的语音对话翻译处理的再一个具体例子的示图；

图13是示出了根据第二实施例的语音对话翻译装置的构造的框图；

图14是示出了图像识别单元的详细构造的框图；

图15是用于说明所述翻译判定规则存储单元的数据结构的一个例子的示图；

图16是用于说明所述翻译判定规则存储单元的数据结构的另一个例子的示图；

图17是示出了根据所述第二实施例的语音对话翻译处理的总流程的流程图；

图18是示出了根据所述第二实施例的图像识别处理的总流程的流程图；

图19是用于说明在所述图像识别处理中处理的信息的例子的示图；

图20是用于说明规格化模式的例子的示图；

图21是示出了根据第三实施例的语音对话翻译装置的构造的框图；

图22是用于说明由加速度传感器检测的操作的例子的示图；

图23是用于说明所述翻译判定规则存储单元的数据结构的例子的示图；以及

图24是示出了根据所述第三实施例的语音对话翻译处理的总流程的流程图。

具体实施方式

参照附图，在以下详细地说明了根据实现本发明的最佳模式的语音对话翻译装置和语音对话翻译方法。

在根据第一实施例的语音对话翻译装置中，在听觉上识别输入语音，并且每次判定一个短语被输入时，翻译所述识别结果，同时对构成翻译结果的译文进行语音合成和输出。

在如下的描述中，假定利用日语作为所述源语言以及利用英语作为译成的语言(在下文中称为目标语言)来执行所述翻译处理。然而，所述源语言和所述目标语言的组合不受限于日语和英语，并且本发明可应用于任何语言的组合。

图1是示出了根据第一实施例的语音对话翻译装置100的构造的框图。如图1所示，所述语音对话翻译装置100包括：操作输入接收单元101、语音输入接收单元102、语音识别单元103、翻译判定单元104、翻译单元105、显示控制单元106、语音合成器107、语音输出控制单元108、存储控制单元109、源语言存储单元121、翻译判定规则存储单元122以及译文存储单元123。

操作输入接收单元101接收来自诸如按钮的操作单元(未示出)的操作输入。例如，接收诸如来自用户的用以开始所述语音的语音输入开始指令或来自用户的用以结束所述语音的语音输入结束指令的操作输入。

语音输入接收单元102接收来自诸如麦克风的用以输入由用户说出的源语言的语音的语音输入单元(未示出)的语音输入。

语音识别单元103，在通过操作输入接收单元101接收到所述语音输入开始指令之后，对通过语音输入接收单元102接收的输入语音执行识别处理，并且输出识别结果。由语音识别单元103执行的所述语音识别处理能够利用任何常用的语音识别方法，这些方法包括LPC分析、隐马尔可夫模型(HMM)、动态规划、神经网络以及N gram语言模型。

根据所述第一实施例，以短于一个句子的短语等为单位顺序地执行所述语音识别处理和所述翻译处理，并因此语音识别单元103利用诸如在Hori etc.中描述的高速语音识别方法。

翻译判定单元104分析所述语音识别的结果，并参照存储在翻译判定规则存储单元122中的规则，判定所述识别结果是否将被翻译。根据第一实施例，构成句子的诸如字或短语的预定语言单位被定义为输入单位，并且可以判定所述语音识别结果是否对应于所述预定的语言单位。当输入语言单位的源语言时，获取对应于所述特定语言单位的在翻译判定规则存储单元122中定义的翻译规则，并且依照所述特定的方法来判定所述翻译处理的执行。

当分析所述识别结果并提取诸如字或短语的所述语言单位时，可以使用用于诸如语素分析和语法分析的自然语言分析处理的所有常用技术。

作为翻译规则，可以指定用于对所述输入语言单位的所述识别结果执行翻译处理的部分翻译或用于将整个句子作为单位进行翻译的整体翻译。同样，可以制定这样的规则，删除迄今输入的所有语音并且重复所述输入而不执行所述翻译。所述翻译规则不限于此，可以定义用于指定由翻译单元105执行的翻译处理的任何规则。

同样，翻译判定单元104通过参照由操作输入接收单元101接收的所述操作输入，来判定所述用户的语音是否已经结束。具体地，操作输入接收单元101，在接收到来自所述用户的输入结束指令时，判定所述语音已经结束。在判定所述语音已经结束时，翻译判定单元104判定执行整体翻译，通过所述整体翻译，对从所述语音输入开始到所述语音输入结束输入的所有识别结果进行翻译。

翻译单元105将日语形式的源语言句子翻译成目标语言句子，即英语。由翻译单元105执行的所述翻译处理能够使用可用于所述机器翻译系统的所有方法的任何一种，这些方法包括普通转换方案、基于例子的方案、基于统计的方案以及中间语言方案。

翻译单元105，在翻译判定单元104判定执行部分翻译时，从存储在源语言存储单元121中的识别结果中获取未被翻译的最后的识别结果，并且对这样获取的识别结果执行翻译处理。另一方面，当翻译判定单元104判定执行整体翻译时，对于由在源语言存储单元121中存储的所有识别结果构成的句子执行所述翻译处理。

当所述翻译集中于用于部分翻译的短语时，可能执行与先前翻译的短语的上下文不符合的翻译。因此，可以将先前翻译中的语义分析的结果存储在存储单元(未示出)中，并且当翻译新短语时对其加以参照以确保更高准确度的翻译。

显示控制单元106将通过语音识别单元103获得的识别结果以及由翻译单元105获得的翻译结果显示在显示单元(未示出)上。

在语音合成器107中，从翻译单元105输出的译文被作为构成所述目标语言的合成英语语音输出。该语音合成处理能够使用所有常用方法的任何一种，所述方法包括采用了音素编译语音合成或构形成分语音合成的文本到语音系统。

语音输出控制单元108控制由诸如扬声器的语音输出单元(未示出)执行的处理，以输出来自语音合成器107的所述合成的语音。

存储控制单元109响应于来自操作输入接收单元101的指令，执行处理，以删除在源语言存储单元121和译文存储单元123中存储的源语言和译文。

源语言存储单元121存储所述源语言，即从语音识别单元103输出的识别结果，并且其能够由诸如HDD、光盘以及存储卡的常用存储介质的任何一种构成。

图2是用于说明源语言存储单元121的数据结构的例子的示图。如图2所示，源语言存储单元121存储了用于唯一地标识所述源语言的ID以及构成从语音识别单元103输出的识别结果的源语言作为相应的数据。用于执行所述翻译处理的翻译单元105，以及用于删除所述识别结果的存储控制单元109可以访问源语言存储单元121。

翻译判定规则存储单元122存储了当翻译判定单元104判定所述识别结果是否将被翻译时所参考的规则，并且能够由诸如HDD、光盘和存储卡的常用存储介质的任何一种所构成。

图3是用于说明翻译判定规则存储单元122的数据结构的例子的示图。如图3所示，翻译判定规则存储单元122存储了用于提供标准的条件和相应的判定内容。翻译判定单元104访问翻译判定规则存储单元122以判定所述识别结果是否将被翻译，并且如果将被翻译，其将被部分地还是完全地翻译。

在所示的情况下，所述短语的类型被分类成名词短语、动词短语、孤立短语(诸如不同于所述名词短语和动词短语的电话和日期以及时间的短语)，并且制定规则以达到这样的效果，即，对于每个短语，如果被输入，则将被部分地翻译。同样，这样地设置所述规则，即，在操作输入接收单元101接收到所述输入结束指令的情况下，执行所述整体翻译。

译文存储单元123用于存储从翻译单元105输出的译文，并且能够由包括HDD、光盘和存储卡的常用存储介质的任何一种构成。

图4是用于说明译文存储单元123的数据结构的例子的示图。如图4所示，译文存储单元123已经在其中存储了用于唯一地标识所述译文的ID和从翻译单元105输出的相应译文。

接下来，说明由根据以上述方式构成的第一实施例的语音对话翻译装置100执行的语音对话翻译处理。图5是示出了根据所述第一实施例的语音对话翻译处理的总流程的流程图。所述语音对话翻译处理被定义为，包括用户说出一个句子的步骤到语音合成和特定句子输出的步骤的处理。

首先，操作输入接收单元101接收由用户输入的语音输入开始指令(步骤S501)。接下来，语音输入接收单元102接收由用户说出的源语言的语音输入(步骤S502)。

然后，语音识别单元103对所接收的所述源语言的语音执行识别，并且将识别结果存储在源语言存储单元121中(步骤S503)。语音识别单元103通过在用户的全部发言完成之前顺序地执行所述语音识别处理，来输出所述识别结果。

接下来，显示控制单元106将从语音识别单元103输出的所述识别结果显示在显示屏上(步骤S504)。后面描述了所述显示屏的构造例。

接下来，操作输入接收单元101判定所述删除按钮是否已经被所述用户按下一次(步骤S505)。当所述删除按钮被按下一次时(在步骤S505为“是”)，存储控制单元109删除在源语言存储单元121中存储的最后的识别结果(步骤S506)，并且所述处理返回到并重复所述语音输入接收处理(步骤S502)。所述最后的识别结果被定义为，在从所述语音输入开始到结束之中的并且在源语言存储单元121中存储的，但未受到由翻译单元105进行的所述翻译处理的语音识别结果。

当在步骤S505判定所述删除按钮没有被按下一次时(在步骤S505为“否”)，操作输入接收单元101判定所述删除按钮是否已经被连续按下两次(步骤S507)。当所述删除按钮被连续按下两次时(在步骤S507为“是”)，存储控制单元109删除在源语言存储单元121中存储的所有识别结果(步骤S508)，并且所述处理返回到所述语音输入接收处理。

因此，当所述删除按钮已经被连续按下两次时，删除了到此为止输入的全部语音并且所述输入能够从开始重复进行。作为选择，每次按下所述删除按钮时，可以基于后入先出顺序地删除所述识别结果。

另一方面，当在步骤S507判定所述删除按钮没有被连续按下两次时(在步骤S507为“否”)，翻译判定单元104从源语言存储单元121获取未被翻译的识别结果(步骤S509)。

接下来，翻译判定单元104判定所获取的识别结果是否对应于在翻译判定规则存储单元122的条件部分中描述的短语(步骤S510)。当所述回答为肯定时(在步骤S501为“是”)，翻译判定单元104访问翻译判定规则存储单元12，并获取对应于所述特定短语的判定内容(步骤S511)。例如，当如图3所示的规则被存储在翻译判定规则存储单元122中，并且所获取的识别结果为名词短语时，“部分翻译”被获取为判定的内容。

另一方面，当在步骤S510判定所获取的识别结果不对应于条件部分的所述短语时(在步骤S501为“否”)，翻译判定单元104判定是否已经从操作输入接收单元101接收到所述输入结束指令(步骤S512)。

当未接收到所述输入结束指令时(在步骤S512为“否”)，所述处理返回到所述语音输入接收处理并且整个处理重新开始(步骤S502)。当接收到所述输入结束指令时(在步骤S512为“是”)，翻译判定单元104访问翻译判定规则存储单元122，并获取对应于所述输入结束指令的判定内容(步骤S513)。当如图3所示的所述规则被存储在翻译判定规则存储单元122中时，例如，“整体翻译”被获取为对应于所述输入结束指令的判定内容。

在步骤S511或S513获取判定内容之后，翻译判定单元104判定所述判定内容是否为部分翻译(步骤S514)。当涉及所述部分翻译时(在步骤S514为“是”)，翻译单元105从源语言存储单元121获取最后的识别结果，并且对所获取的识别结果执行部分翻译(步骤S515)。

另一方面，当不涉及部分翻译时，即，在涉及整体翻译的情况下(在步骤S514为“否”)，翻译单元105从源语言存储单元121读取完整的识别结果，并且以所述完整读取的识别结果作为一个单位来执行所述整体翻译(步骤S516)。

接下来，翻译单元105将构成所述翻译结果的译文(翻译的文字)存储在译文存储单元123中(步骤S517)。接下来，显示控制单元106将从翻译单元105输出的所述译文显示在显示屏上(步骤S518)。

接下来，语音合成器107对从翻译单元105输出的译文进行语音合成并输出(步骤S519)。然后，语音输出控制单元108将由语音合成器107合成的所述译文的语音输出到扬声器等的语音输出单元(步骤S520)。

翻译判定单元104判定是否已经执行了所述整体翻译(步骤S512)，并且在未执行所述整体翻译的情况下(在步骤S521为“否”)，所述处理返回到所述语音输入接收处理，以从开始重复所述处理(步骤S502)。另一方面，当执行了所述整体翻译时(在步骤S521为“是”)，所述语音对话翻译处理结束。

接下来，说明在具有上述构造的根据第一实施例的语音对话翻译装置100中的语音对话翻译处理的具体例子。首先，说明在常规的对话翻译装置中的语音对话翻译处理的具体例子。

图6是用于说明在常规的语音对话翻译装置中处理的数据的例子的示图。在所述常规的语音对话翻译装置中，一个句子的整体被输入并且用户输入所述输入结束指令，然后以利用在字之间的空格写成的短语接短语的方式，将整个句子的语音识别结果显示在显示屏上。在图6中示出的屏幕601是处于这种状态的显示屏的例子。在输入结束之后，立即将屏幕601上的光标611定位于第一个短语。能够通过再次输入语音来校正所述光标定位于的短语。

当在听觉上正确地识别所述第一个短语时，按下OK按钮，或者相反光标前进到下一个短语处。屏幕602指示了光标612被定位于一个被错误地在听觉上识别的短语的状态。

在这种情况下，在听觉上输入所述校正。如屏幕603所示，由光标613指示的短语被再次识别的结果所替代。当所述再次识别的结果是正确的时，按下所述OK按钮并且光标前进到所述句子的结尾。如屏幕604所示，显示了所述整体翻译的结果，并且在听觉上合成所述翻译结果并输出。

图7是用于说明在常规的语音对话翻译装置中处理的数据的另一个例子的示图。在图7所示的例子中，由于识别误差产生的不需要的短语由光标711显示在屏幕701上。所述删除按钮被按下以删除光标711的短语，并且如屏幕702所示，将光标712定位于将被校正的短语。

在这种情况下，输入听觉的校正。如屏幕703所示，由光标713指示的短语被所述重复识别的结果所替代。当所述重复识别的结果是正确的时，按下所述OK按钮，并且所述光标前进到所述句子的结尾。因而，如屏幕704所示显示所述整体翻译的结果，而同时进行对所述翻译结果的语音合成和输出。

如上所述，在所述常规的语音对话翻译装置中，在输入一个句子的整体后执行翻译和语音合成，因此延长了所述沉默期间，使得不能进行流畅的对话。同样，当存在错误的语音识别时，将光标移动到错误识别点并再次执行输入操作的操作是复杂的，从而增加了操作负担。

相反，在根据第一实施例的语音对话翻译装置100中，所述语音识别结果被顺序地显示在屏幕上，并且在出现识别误差的情况下，为了校正立即重复所述输入操作。同样，所述识别结果被顺序地翻译、在听觉上合成和输出。因此，缩短了所述沉默期间。

图8到12是用于说明由根据第一实施例的语音对话翻译装置100执行的语音对话翻译处理的具体例子的示图。

如图8所示，假定由用户输入的语音开始(步骤S501)，并且从听觉上输入意思是“自由女神像”的语音“jiyuunomegamini”(步骤S502)。语音识别单元103从听觉上识别所述输入语音(步骤S503)，并且将得到的日语801显示在屏幕上(步骤S504)。

日语801是名词短语，并且因此翻译判定单元104判定执行部分翻译(步骤S509到S511)，从而使得翻译单元105翻译日语801(步骤S515)。将构成所述翻译结果的英语811显示在所述屏幕上(步骤S518)，同时从听觉上合成所述翻译结果并输出(步骤S519到520)。

图8示出了这样的例子，在其中所述用户然后输入了意思是“我想去”的语音“ikitainodakedo”。在类似的处理中，将日语802和作为翻译结果的英语812显示在所述屏幕上，并且对英语812从听觉上进行合成并输出。同样，在输入意思是“拥挤的”的语音“komukashira”的情况下，将日语803和构成翻译结果的英语813显示在所述屏幕上，并且对英语813从听觉上进行合成并输出。

最后，用户输入输入结束指令。然后，翻译判定单元104判定执行所述整体翻译(步骤S512)，并且所述整体翻译由翻译单元105执行(步骤S516)。结果，将构成所述整体翻译的结果的英语814显示在所述屏幕上(步骤S518)。这个实施例表示了这样的例子，在其中每次进行顺序翻译时从听觉上合成并输出所述语音，本发明不必受限于该例子。例如，可以只在整体翻译之后可选地合成和输出所述语音。

在海外旅行时的对话中，通常不讲完整的英语，而仅仅通过英语单词的排列常常能够理解语音的意图。在上述根据第一实施例的语音对话翻译装置100中，输入的日语被顺序地翻译成英语并且在完成语音之前以不完全的状态输出。即使这种内容的不完全形式，也对语音意图的传达提供了充分的帮助。同样，最后整个句子被再次翻译并输出，并因此能够确定地传达所述语音的含义。

图9和10是用于说明在发生语音识别误差时所述语音对话翻译处理的一个具体例子的示图。

图9示出了在第二次语音识别期间发生识别误差的情况，并显示了错误的日语901。在这种情况下，所述用户确认显示的日语901是错误的，并且按下删除按钮(步骤S505)。响应于此，存储控制单元109从源语言存储单元121中删除构成最后的识别结果的日语901(步骤S506)，由此日语902被单独地显示在所述屏幕上。

然后，用户输入意思为“去”的语音“iku”，并且构成识别结果的日语903和构成翻译结果的英语913被显示在所述屏幕上。对英语913从听觉上合成并输出。

这样，总是在所述屏幕上确认最后的识别结果，并且在发生识别误差时，无需移动所述光标就能够容易地校正被错误地识别的部分。

图11和12是用于说明在发生语音识别误差时所述语音对话翻译处理的另一个具体例子的示图。

图11示出了这样的例子，在其中，与图9一样，识别误差出现在第二次语音识别期间，并且显示了错误的日语1101。在图11的情况下，再次输入的语音同样会出现识别误差，并且显示了错误的日语1102。

考虑这样的情况，在其中用户完全地删除所述输入，并且从开始重新开始所述语音。在这种情况下，用户连续按下所述删除按钮两次(步骤S507)。响应于此，存储控制单元109删除在源语言存储单元121中存储的全部识别结果(步骤S508)，并且因此，如屏幕的左上部分所示，从所述屏幕上删除全部显示。在随后重复的输入处理中，语音合成和输出处理类似于先前的处理。

如上所述，在根据第一实施例的语音对话翻译装置100中，在听觉上识别所述输入语音，并且每次判定一个句子被输入时，翻译识别结果，并且从听觉上合成并输出所述翻译结果。因此，减少了沉默时间的发生并促进了流畅的对话。另外，减小了对识别误差进行校正所带来的操作负担。因此，能够减少由于集中于所述校正操作所造成的沉默时间，并进一步促进了流畅的对话。

根据所述第一实施例，翻译判定单元104基于语言知识判定所述翻译是否将被执行。因此，当由于噪音等原因造成语音识别误差频繁发生时，不能接收到在语言上校正的信息并且不能进行正常的翻译判定。因此，基于除了语言知识之外的信息来判定所述翻译是否将被执行的方法是有效的。

根据所述第一实施例，即使在说出日语时也输出英语合成语音，因此在日语和英语之间的语音叠加可能引起麻烦。

在根据第二实施例的语音对话翻译装置中，参考了来自用于检测用户面部的位置和表情的图像识别单元的信息，并且在判定用户面部的位置或者表情已经改变时，翻译所述识别结果，并且对所述翻译结果从听觉上进行合成并输出。

图13是示出了根据第二实施例的语音对话翻译装置1300的构造的框图。如图13所示，语音对话翻译装置1300包括操作输入接收单元101、语音输入接收单元102、语音识别单元103、翻译判定单元1304、翻译单元105、显示控制单元106、语音合成器107、语音输出控制单元108、存储控制单元109、图像输入接收单元1310、图像识别单元1311、源语言存储单元121、翻译判定规则存储单元1322以及译文存储单元123。

第二实施例与第一实施例的不同之处在于，加入了图像输入接收单元1310和图像识别单元1311，翻译判定单元1304具有不同的功能以及翻译判定规则存储单元1322的内容不同。所述结构和功能的其他组成部分，其类似于在图1的框图中所示的根据第一实施例的语音对话翻译装置100的相应组成部分，被分别以相同的参考数字表示，并不再被描述。

图像输入接收单元1310接收来自诸如摄像头(camera)的用于输入人脸图像的图像输入单元(未示出)的图像输入。近年来，对诸如配备有摄像头的移动电话的具有图像输入单元的便携式终端的使用已经普及，并且已经以这样的方式构成所述装置，即能够使用附属于所述便携式终端的图像输入单元。

图像识别单元1311用于从通过图像输入接收单元1310所接收的图像(输入图像)对用户的面部图像进行识别。图14是示出了图像识别单元1311的详细构造的框图。如图14中所示，图像识别单元1311包括面部区域提取单元1401、面部部件检测器1402以及特征数据提取单元1403。

面部区域提取单元1401用于从所述输入图像中提取面部区域。面部部件检测器1402用于从由面部区域提取单元1401所提取的面部区域中检测作为面部部件的构成面部的诸如眼睛、鼻子和嘴的器官。特征数据提取单元1403用于通过从由面部部件检测器1402检测的面部部件提取构成了表征所述面部区域的信息的特征数据以输出。

能够通过常用方法的任何一种来执行图像识别单元1311的这种处理，这些方法包括在Kazuhiro Fukui and Osamu Yamaguchi，“Face FeaturePoint Extraction by Shape Extraction and Pattern Collation Combined，”The Institute of Electronics，Information and Communication EngineersJournal，Vol.J80-D-II，No.8，pp.2170-2177(1977)中所描述的方法。

翻译判定单元1304判定从图像识别单元1311输出的特征数据是否已经改变，并且在判定其已经改变时，判定将在所述面部图像信息的变化之前在源语言存储单元121中存储的识别结果作为一个单位，执行翻译。

具体地，在用户将他/她的面部朝向摄像头并且面部图像第一次被识别的情况下，输出表征所述面部区域的特征数据，并因而能够检测到面部图像信息中的变化。同样，例如，在用户的表情朝着笑脸变化时，输出表征笑脸的特征数据，并因而能够检测到面部图像信息中的变化。还能够以类似的方式检测面部位置的变化。

翻译判定单元1304，在如上所述检测到面部图像信息的变化时，判定将在所述面部图像信息的变化之前在源语言存储单元121中存储的识别结果作为一个单元，执行所述翻译处理。因此，无需考虑语言信息，能够通过非语言的面部信息来判定是否执行翻译。

翻译判定规则存储单元1322用于存储被翻译判定单元1304所参考以判定所述识别结果是否将被翻译的规则，并且可以由诸如HDD、光盘和存储卡的常用存储介质的任何一种所构成。

图15是用于说明翻译判定规则存储单元1322的数据结构的一个例子的示图。如图15中所示，翻译判定规则存储单元1322中已经存储了提供标准的条件和对应于所述条件的判定内容。

在图15中所示的情况下，例如，所述规则被定义为，在用户注视他/她自身的设备并且所述面部图像被检测的情况下，或者在所述面部位置被改变的情况下，执行所述部分翻译。根据该规则，当在说话期间注视所述屏幕以确认语音识别的结果的情况下，到此为止输入的识别结果得到部分翻译。

同样，在所示的例子中，可以这样制定规则，即在用户点头或用户的表情变化为笑脸的情况下，执行整体翻译。该规则利用了这样的事实，即用户在确认语音识别结果正确时，会点头或微笑。

当用户点头时，可以将其判定为面部位置的变化，在这种情况下，给予关于点头的规则以优先并且执行所述整体翻译。

图16是用于说明翻译判定规则存储单元1322的数据结构的另一个例子的示图。在所示的情况下，示出了将非所述用户的、另一方的面部表情的变化作为条件的翻译判定规则。

当对话的另一方点头或另一方的表情变化为笑脸时，与所述用户的情况一样，应用整体翻译的规则。该规则地利用了这样的事实，即只要对话的另一方能够理解被顺序地说出的合成语音，他/她可能点头或微笑。

同样，可以这样设置规则，即在另一方的头部倾斜或摇动的情况下，不执行翻译，并且删除所有先前的识别结果并且再次输入语音。该规则利用了这样的事实，即因为对话的另一方不能理解被顺序地说出的合成语音而倾斜头部或者摇动他/她的头部作为否认。

在这种情况下，存储控制单元109根据翻译判定单元1304的判定发出删除的指令，从而使得在源语言存储单元121和译文存储单元123中存储的所有源语言和译文被删除。

接下来，说明由具有上述构造的根据第二实施例的语音对话翻译装置1300执行的语音对话翻译处理。图17是示出了根据第二实施例的语音对话翻译处理的总流程的流程图。

步骤S1701到S1708的语音输入接收处理和识别结果删除处理类似于根据第一实施例的语音对话翻译装置100的步骤S501到S508的所述处理，并因此不再说明。

当在步骤S1707判定所述删除按钮没有被连续按下两次时(在步骤S1707为“否”)，翻译判定单元1304获取由图像识别单元1311输出的构成所述面部图像信息的特征数据(步骤S1709)。顺便提及，在由图像识别单元1311执行所述图像识别处理的同时，进行所述语音对话翻译处理。后面将详细地描述所述图像识别处理。

接下来，翻译判定单元1304判定符合所获取的面部图像信息的变化的条件是否被包括在翻译判定规则存储单元1322的条件中(步骤1710)。在缺少相一致的条件时(在步骤S1710为“否”)，所述处理返回到所述语音输入接收处理，以重新开始整个处理(步骤S1702)。

另一方面，当存在相一致的条件时(在步骤S1710为“是”)，翻译判定单元1304从翻译判定规则存储单元1322获取对应于所述特定条件的判定内容(步骤S1711)。具体地，假定如图15所示的规则被定义在翻译判定规则存储单元1322中。当由于所述用户的面部位置已经改变的效果而检测到所述面部图像信息的变化时，获取构成对应于条件“面部位置变化”的判定内容的“部分翻译”。

步骤S1712到S1719的所述翻译处理、语音合成和输出处理类似于根据第一实施例的语音对话翻译装置100的步骤S514到S521的所述处理，并因此不再说明。

接下来，将详细地说明与所述语音对话翻译处理同时执行的图像识别处理。图18是示出了根据第二实施例的图像识别处理的总流程的流程图。

首先，图像输入接收单元1310接收通过诸如摄像头的图像输入单元摄取的图像输入(步骤S1801)。然后，面部区域提取单元1401从所接收的图像中提取所述面部区域(步骤S1802)。

面部部件检测器1402从由面部区域提取单元1401提取的所述面部区域检测面部部件(步骤S1803)。最后，特征数据提取单元1403从由面部区域提取单元1401提取的面部区域和由面部部件检测器1402检测的面部部件，来提取用于提供所述特征数据的规格化模式以输出，并因而结束所述图像识别处理。

接下来，将说明在所述图像识别处理中处理的图像和特征数据的具体例子。图19是用于说明在所述图像识别处理中处理的信息的例子的示图。

如图19(a)中所示，示出了从摄取的用户面部图像通过模式匹配检测的由白色矩形所定义的面部区域。同样，可以看出，检测出由白色十字指示的眼睛、鼻孔和嘴。

在图19(b)中示出了示意性地表示所检测的面部区域和面部部件的示图。如图19(c)中所示，只要从在连接右眼和左眼的线段上的中点C到每一个部件的距离(比如，V2)表示从右眼到左眼的距离(V1)的预定的比，所述面部区域被定义为如图19(d)中所示的m像素乘n像素的灰度矩阵信息。特征数据提取单元1403提取该灰度矩阵信息作为特征数据。该灰度矩阵信息也被称为规格化模式。

图20是用于说明所述规格化模式的例子的示图。类似于图19(d)的m像素乘n像素的灰度矩阵信息被示于图20的左侧。另一方面，图20的右侧示出了以向量表示所述规格化模式的特征向量的例子。

在将所述规格化模式表示为向量(Nk)时，假定m×n个像素的第j个像素的亮度被定义为i_j。然后，通过从所述灰度矩阵信息的左上部像素到右下部像素排列所述亮度i_j，由下面的等式(1)表示向量Nk。

Nk＝(i₁，i₂，i₃，…，i_m×n) (1)

当这样提取的规格化模式符合预定的面部图像模式时，能够判定检测出所述面部。同样能够通过模式匹配来检测面部的位置(方向)和表情。

在上述例子中，所述面部图像信息被用于判定由翻译单元105执行翻译的动因。作为可选择的，所述面部图像信息可以被用于判定由语音合成器107执行语音合成的动因。具体地，语音合成器107被配置以通过类似于翻译判定单元1304的方法，依照面部图像中的变化执行语音合成。在所述处理中，与在第一实施例中一样，翻译判定单元1304能够被配置以判定利用短语输入时间点作为动因，执行所述翻译。

此外，取代通过检测出所述面部图像信息中的变化来执行所述翻译，在用户不说话的沉默期间超出预定时间的情况下，将在所述沉默期间开始之前在源语言存储单元121中存储的识别结果作为一个单位进行翻译。结果，通过适当地判定所述语音的结束，能够执行所述翻译和所述语音合成，与此同时最小化所述沉默期间，从而进一步促进了流畅的对话。

如上所述，在根据第二实施例的语音对话翻译装置1300中，在判定诸如用户或对方的面部位置或表情的面部图像信息发生变化时，翻译所述识别结果，并且对该翻译结果从听觉上进行合成并输出。因此，能够促进正确地反映了用户与对方的心理状态以及对话情景的流畅的对话。

此外，当日语语音中断并且所述面部朝向所述显示屏时，能够从听觉上合成英语，因此在所述日语语音和所述合成的英语语音输出之间的叠加的可能性被减小，从而可能进一步促进流畅的对话。

在根据第三实施例的语音对话翻译装置中，访问来自用于检测用户自有装置的操作的加速度传感器的信息，并且在判定所述装置的操作对应于预定操作时，翻译所述识别结果，并且从听觉上合成并输出译文，即所述翻译结果。

图21是示出了根据第三实施例的语音对话翻译装置2100的构造的框图。如图21所示，语音对话翻译装置2100包括操作输入接收单元101、语音输入接收单元102、语音识别单元103、翻译判定单元2104、翻译单元105、显示控制单元106、语音合成器107、语音输出控制单元108、存储控制单元109、操作检测器2110、源语言存储单元121、翻译判定规则存储单元2122以及译文存储单元123。

第三实施例与所述第一实施例的不同之处在于，加入了操作检测器2110、翻译判定单元2104具有不同的功能以及翻译判定规则存储单元2122的内容不同。所述构造和功能的其他组成部分，其类似于在图1的框图中所示的根据第一实施例的语音对话翻译装置100的对应部分，分别由相同的参考数字指示，并且不再被描述。

操作检测器2110是加速度检测器或类似的装置，用于检测自有装置的操作。近年来，具有所述加速度传感器的便携式终端已经可以在市场上获得，因此这种附属于所述便携式终端的传感器可以被用作为操作检测器2110。

图22是用于说明由所述加速度传感器检测的操作的例子的示图。在图22中示出了使用双轴加速度传感器的例子。能够由此传感器分别地测量绕X和Y轴的旋转角θ和φ。不过，所述操作检测器2110不限于所述双轴加速度传感器，只要能够检测所述自有装置的操作，可以使用诸如三轴加速度传感器的任何检测器。

翻译判定单元2104用于判定由操作检测器2110检测的所述自有装置的操作是否对应于预定的操作。具体地，其判定在指定方向上的旋转角是否已经超出预定值，或者所述操作是否对应于预定周期的周期性振动。

翻译判定单元2104，在判定所述自有装置的操作符合预定操作时，判定将在所述对应于预定操作的判定之前在源语言存储单元121中存储的所述识别结果作为一个单位执行翻译处理。结果，能够基于包括了所述装置操作的非语言信息而无需语言信息，来进行翻译是否将被执行的判定。

翻译判定规则存储单元2122用于存储由翻译判定单元2104参考以判定所述识别结果是否将被翻译的规则，并且能够由诸如HDD、光盘以及存储卡的常用存储介质的任何一种所构成。

图23是用于说明翻译判定规则存储单元2122的数据结构的例子的示图。如图23中所示，翻译判定规则存储单元2122已经在其中存储了用于提供标准的条件和对应于所述条件的判定内容。

在所示的情况下，所述规则被定义以在这样的情况下执行所述部分翻译，即用户绕X轴将所述自有装置转动到所述自有装置的显示屏可见的位置，并且旋转角θ超过预定的阈值α。该规则被设置以确保在此时间点之前输入的识别结果的部分翻译，其中在所述时间点，所述自有装置被向视线倾斜以确认在讲话期间的语音识别的结果。

此外，在所示的情况下，所示规则被定义以在这样的情况下执行所述整体翻译，即，将所述自有装置的显示屏绕Y轴旋转到所述显示屏可为所述另一方可见的位置，并且旋转角φ超过预定的阈值β。该规则被设置以确保所有识别结果的整体翻译，其鉴于这样的事实，即，将所述显示屏朝向对话的另一方的用户操作确认了所述语音识别结果是正确的。

进一步地，所述规则可以被定义为，在没有正确地执行所述语音识别并且所述用户周期性地水平地摇动所述自有设备时，从最初的输入操作重新开始，不进行翻译并且删除全部先前的识别结果，以从开始重复所述语音输入。以行为为条件的规则不限于前述情况，并且能够定义任何规则，以对依照所述自有装置的运动的翻译处理的内容进行指定。

接下来，说明由具有上述构造的根据第三实施例的语音对话翻译装置2100执行的语音对话翻译处理。图24是示出了根据第三实施例的语音对话翻译处理的总流程的流程图。

步骤S2401到S2408的语音输入接收处理和识别结果删除处理类似于根据第一实施例的语音对话翻译装置100的步骤S501到S508的所述处理，因此不再对其进行说明。

在步骤S2407判定所述删除按钮没有被连续按下两次时(在步骤S2407为“否”)，翻译判定单元2104获取从操作检测器2110输出的操作量(步骤S2409)。顺便提及，在所述语音对话翻译处理的同时，执行由操作检测器2110进行的操作检测处理。

接下来，翻译判定单元2104判定所获取的操作量是否满足翻译判定规则存储单元2122的条件(步骤2410)。在不存在符合的条件时(在步骤2410为“否”)，所述处理返回到所述语音输入接收处理以重新开始整个处理(步骤S2402)。

另一方面，在存在符合的条件时(在步骤S2410为“是”)，翻译判定单元2104从翻译判定规则存储单元2122获取对应于所述特定条件的判定内容(步骤S2411)。具体地，假定如图23所示的规则被定义在翻译判定规则存储单元2122中。例如，当用户将所述装置绕X轴旋转以确认所述语音识别结果并且旋转角θ超出预定的阈值α时，构成了对应于条件θ＞α的判定内容的“部分翻译”被获取。

步骤S2412到S2419的翻译处理、语音合成和输出处理类似于根据第一实施例的语音对话翻译装置100的步骤S514到S521的所述处理，并因此不再对其进行说明。

在上述例子中，利用由操作检测器2110检测的操作量来判定通过翻译单元105执行所述翻译的动因。作为选择，所述操作量能够被用于判定通过语音合成器107执行所述语音合成的动因。具体地，在根据与翻译判定单元2104相似的方法来判定所检测的操作是否对应于预定操作之后，由语音合成器107执行所述语音合成。在所述处理中，翻译判定单元2104与在第一实施例中一样，可以被配置以利用作为动因的短语输入来判定翻译的执行。

如上所述，在根据第三实施例的语音对话翻译装置2100中，在判定所述自有装置的运动对应于预定运动之后，翻译所述识别结果，并且对所述翻译结果在听觉上进行合成并输出。因此，能够促进在其中反映了在对话期间用户的自然行为或动作的流畅的对话。

顺便提及，由根据第一到第三实施例的语音对话翻译装置执行的语音对话翻译程序，可以是嵌入到ROM(只读存储器)等中的形式。

由根据第一到第三实施例的语音对话翻译装置执行的语音对话翻译程序，可以被配置为可安装的或可执行的文件，所述文件可以被记录在诸如CD-ROM(只读光盘存储器)、软盘(FD)、CD-R(可刻录光盘)、DVD(数字多用途光盘)等的计算机可读记录介质中。

进一步地，由根据第一到第三实施例的语音对话翻译装置执行的语音对话翻译程序，能够被配置为存储在连接到诸如因特网的网络的计算机中，并且适合于通过所述网络下载。此外，由根据第一到第三实施例的语音对话翻译装置执行的语音对话翻译程序，能够被配置为通过诸如因特网的网络进行提供或发布。

由根据第一到第三实施例的语音对话翻译装置执行的语音对话翻译程序，由包括上述各个部分(操作输入接收单元，语音输入接收单元，语音识别单元，翻译判定单元，翻译单元，显示控制单元，语音合成器，语音输出控制单元，存储控制单元，图像输入接收单元以及图像识别单元)的模块所构成。作为实际的硬件，CPU(中央处理单元)通过从ROM读取所述语音对话翻译程序来运行，从而在主存储单元上加载和生成上述各个部分。

本领域技术人员将容易地想到其它的优点和变型。因此，本发明在其广义方面不限于在这里示出和描述的具体细节和代表性实施例。于是，无需偏离由所附权利要求及其等同内容所定义的一般发明概念的精神或范围，可以进行各种的变型。

Claims

1.一种语音对话翻译装置，包括：

语音识别单元，用于识别将被翻译的源语言的用户语音并输出识别结果；

源语言存储单元，用于存储所述识别结果；

翻译判定单元，基于对正在进行的语音的一部分是否将被翻译进行定义的规则，来判定在所述源语言存储单元中存储的所述识别结果是否将被翻译；

翻译单元，用于在判定所述识别结果将被翻译时，将所述识别结果转换成以目标语言描述的译文并且输出所述译文；以及

语音合成器，用于将所述译文合成为所述目标语言的语音。

2.根据权利要求1的语音对话翻译装置，

其中，所述翻译判定单元判定是否输出构成句子的预定语言单位的所述识别结果，并且在判定输出所述语言单位的所述识别结果时，判定所述语言单位的所述识别结果被作为一个单位翻译。

3.根据权利要求1的语音对话翻译装置，

其中，所述翻译判定单元判定所述用户的沉默期间是否已经超出预定的时间长度，并且在判定所述沉默期间已经超出所述预定的时间长度时，判定在所述沉默期间开始之前在所述源语言存储单元中存储的所述识别结果被作为一个单位翻译。

4.根据权利要求1的语音对话翻译装置，进一步包括：操作输入接收单元，用于接收来自所述用户的结束所述语音的指令，

其中，所述翻译判定单元，在通过所述操作输入接收单元接收到所述用户的所述语音的结束时，判定从所述语音的开始到结束在所述源语言存储单元中存储的所述识别结果被作为一个单位翻译。

5.根据权利要求1的语音对话翻译装置，进一步包括：

显示单元，用于在其上显示所述识别结果；

操作输入接收单元，用于接收指令的输入以删除所述显示的识别结果；以及

存储控制单元，在通过所述操作输入接收单元接收到删除指令时，响应于所述删除指令，从所述源语言存储单元删除所述识别结果。

6.根据权利要求1的语音对话翻译装置，进一步包括：

图像输入接收单元，用于接收由图像摄取单元摄取的所述用户和对话的另一方中的一个的面部图像；以及

图像识别单元，用于识别所述面部图像并且获取面部图像信息，其中所述面部图像信息包括所述用户和所述另一方中的所述一个的表情和面部的方向，

其中，所述翻译判定单元判定所述面部图像信息是否已经改变，并且在判定所述面部图像信息已经改变时，判定在所述面部图像信息的改变之前在所述源语言存储单元中存储的所述识别结果被作为一个单位翻译。

7.根据权利要求6的语音对话翻译装置，

其中，所述语音合成器判定所述面部图像信息是否已经改变，并且在判定所述面部图像信息已经改变时，将所述译文合成为所述目标语言的语音。

8.根据权利要求6的语音对话翻译装置，

其中，所述翻译判定单元判定所述面部图像信息是否已经改变，并且在判定所述面部图像信息已经改变时，判定从所述源语言存储单元删除所述识别结果；

所述装置进一步包括：存储控制单元，用于在通过所述翻译判定单元判定将从所述源语言存储单元删除所述识别结果时，从所述源语言存储单元删除所述识别结果。

9.根据权利要求1的语音对话翻译装置，进一步包括：用于检测所述语音对话翻译装置的操作的动作检测器，

其中，所述翻译判定单元判定所述操作是否对应于预定操作，并且在判定所述操作对应于所述预定操作时，判定在所述预定操作之前在所述源语言存储单元中存储的所述识别结果被作为一个单位翻译。

10.根据权利要求9的语音对话翻译装置，

其中，所述语音合成器判定所述操作是否对应于预定操作，并且在判定所述操作对应于所述预定操作时，将所述译文合成为所述目标语言的语音。

11.根据权利要求9的语音对话翻译装置，

其中，所述翻译判定单元判定所述操作是否对应于预定操作，并且在判定所述操作对应于所述预定操作时，判定从所述源语言存储单元删除所述识别结果，

12.一种语音对话翻译方法，包括以下步骤：

识别将被翻译的源语言的用户语音；

输出识别结果；

基于对正在进行的语音的一部分是否将被翻译进行定义的规则，判定存储在源语言存储单元中的所述识别结果是否将被翻译；

在判定所述识别结果将被翻译时，将所述识别结果转换成以目标语言描述的译文并且输出所述译文；以及

将所述译文合成为所述目标语言的语音。