CN105426362A

CN105426362A - 语音翻译装置、方法及程序

Info

Publication number: CN105426362A
Application number: CN201510566882.2A
Authority: CN
Inventors: 住田一男; 釜谷聪史; 阿部一彦; 长健太
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2014-09-11
Filing date: 2015-09-08
Publication date: 2016-03-23
Also published as: JP2016057986A; US20160078020A1

Abstract

本发明的实施方式涉及语音翻译装置、方法及程序。目的在于提供能够实现顺畅的语音对话的语音翻译装置、方法及程序。本实施方式所涉及的语音翻译装置包含语音识别部、检测部、变换部及翻译部。语音识别部对基于第1语言的语音进行语音识别，生成识别结果字符串。检测部从上述识别结果字符串检测适于翻译的翻译单位，生成基于该翻译单位将该识别结果字符串分割后的翻译单位字符串。变换部将上述翻译单位字符串变换为适于机器翻译的表达即变换字符串。翻译部将上述变换字符串翻译为与上述第1语言不同的第2语言，生成翻译字符串。

Description

语音翻译装置、方法及程序

相关申请

本申请以日本专利申请2014-185583(申请日:2014年9月11日)为基础，享有该申请的优先权。本申请通过参照该申请，包含该申请的全部内容。

技术领域

本发明的实施方式涉及语音翻译装置、方法及程序。

背景技术

伴随近年的全球化，支持以不同语言为母语的用户彼此的交流的翻译装置的需求提高。作为这样的装置的一例，有在智能手机等终端工作的语音翻译应用。进而，也有假定用于会议或演讲等的语音翻译系统。

但是，在一般的语音翻译应用中，仅假定用于旅行中假定的会话等简单的会话。进而，在会议或讲演等中，难以对说话人的说话方式设置制约，需要进行考虑了自由发言的处理，但是在上述的语音翻译系统中，未考虑自由发言。

发明内容

本公开是为了解决上述的问题而提出的，其目的在于提供能够实现顺畅的语音对话的语音翻译装置、方法及程序。

本实施方式所涉及的语音翻译装置包含语音识别部、检测部、变换部及翻译部。语音识别部对基于第1语言的语音进行语音识别，生成识别结果字符串。检测部从上述识别结果字符串检测适于翻译的翻译单位，生成基于该翻译单位将该识别结果字符串分割后的翻译单位字符串。变换部将上述翻译单位字符串变换为适于机器翻译的表达即变换字符串。翻译部将上述变换字符串翻译为与上述第1语言不同的第2语言，生成翻译字符串。

根据上述构成的语音翻译装置，能够实现顺畅的语音对话。

附图说明

图1是表示第1实施方式所涉及的语音翻译装置的方框图。

图2是表示由翻译单位检测部使用的判别模型的制作例的图。

图3是表示使用判别模型检测翻译单位的一例的图。

图4是表示由语句变换部参照的变换辞典的一例的图。

图5是表示第1实施方式所涉及的语音翻译装置的工作的流程图。

图6是表示识别结果字符串的生成定时和翻译单位的检测定时的图。

图7是表示由语音翻译装置的各部分输出的字符串的具体例的图。

图8是表示第1实施方式所涉及的显示部中的显示例的图。

图9是表示第2实施方式所涉及的语音翻译系统的方框图。

图10是表示数据存储部中存储的数据的一例的图。

图11是表示第2实施方式所涉及的语音翻译服务器的工作的流程图。

图12是表示终端中的语音输出处理的流程图。

图13是表示第2实施方式所涉及的显示部的显示例的图。

图14是表示显示部中的显示的第1其他例的图。

图15是表示显示部中的显示的第2其他例的图。

图16是表示在终端彼此进行通信的情况下的终端(语音翻译装置)的方框图。

具体实施方式

以下，参照附图详细说明本实施方式所涉及的语音翻译装置、方法及程序。在以下的实施方式中，设定标注了同一参照符号的部分进行同样的工作，并适宜省略重复的说明。

另外，在以下的实施方式中，以从英语到日语的语音翻译为前提进行说明，但是在从日语到英语的语音翻译、或者其他语言的组合、或者处理3种语言以上的语言间的语音翻译的情况下，也可以同样地进行处理。

(第1实施方式)

参照图1的方框图说明第1实施方式所涉及的语音翻译装置。

第1实施方式所涉及的语音翻译装置100包含语音取得部101、语音识别部102、翻译单位检测部103、语句变换部104、机器翻译部105及显示部106。

语音取得部101从用户取得基于第1语言的语音作为语音信号。具体地，例如，可以对用户的发言经由麦克风进行集音，将所集音的发言通过模拟数字变换而变换为数字信号的语音信号。

语音识别部102从语音取得部101接收语音信号，对语音信号进行语音识别处理，生成语音识别结果的字符串即识别结果字符串。这里，语音识别处理假定是识别连续的语音的连续语音识别处理，例如，可以使用隐马尔科夫模型(HiddenMarkovModel)。另外，也可以将应用了深层神经网络的音韵判别方法、使用了WFST(WeightedFiniteStateTransducer：加权有限状态变换器)的最佳单词序列的搜索用作语音识别处理，由于使用一般的语音识别处理即可，所以省略这里的详细说明。

一般地，语音识别处理基于单词辞典和/或语言模型等的信息，从发言的开始向后方进行依次缩减可能正确的单词序列的处理。因此，在单词序列不缩减而存在不确定的多个单词序列的情况下，依以后取得的语音信号，有可能在某时刻第1位的优先顺序的单词序列被取代，而不同的单词序列成为第1位的优先顺序。从而，即使对途中阶段的语音识别结果进行机器翻译，也无法获得正确的翻译结果。为了确定作为语音识别结果的单词序列，在无歧义的语言要素出现了的情况下、或检测到发言的暂停(例如，200毫秒以上的无音区间)的情况下，可以确定之前的单词序列。

翻译单位检测部103从语音识别部102接收识别结果字符串，检测适于机器翻译的翻译单位，生成基于翻译单位分割识别结果字符串而得到的字符串即翻译单位字符串。

一般，人的发言即自由发言中不存在书面语言所包含的句号和逗号等明确的划分。因此，为了实现同步性高、品质佳的语音翻译，需要将识别结果字符串分割为适于翻译的单位。另外，本实施方式中使用的翻译单位的检测方法假定至少以语音的停顿或发言中的补白词作为线索进行检测，关于详细情况将参照图2及图3后面描述，但是关于翻译单位的检测方法也可以使用一般的方法。

语句变换部104从翻译单位检测部103接收翻译单位字符串，将翻译单位字符串变换为适于机器翻译的表达即变换字符串。具体地，语句变换部104例如参照变换辞典，从翻译单位字符串删除不必要词语，将翻译单位字符串中的口语表达变换为书面语表达，由此生成变换字符串。不必要词语是例如“えーと”、“あの一”这样的补白词。关于由语句变换部104参照的变换辞典的详细情况，参照图4进行说明。

机器翻译部105从语句变换部104接收变换字符串，从第1语言翻译到第2语言，生成翻译字符串。由于机器翻译部105中的翻译处理使用转换翻译方式、用例翻译方式、统计翻译方式、中间语言翻译方式等已有的机器翻译处理即可，因此省略这里的说明。

显示部106是例如液晶显示器，从机器翻译部105接收变换字符串和翻译字符串，将变换字符串及翻译字符串相对应地显示于画面。

另外，语音翻译装置100也可以包含将变换字符串及翻译字符串的至少一方作为语音输出的输出部。

接着，参照图2及图3说明翻译单位检测部103中的翻译单位的检测方法的一例。

图2是表示制作翻译单位的判别模型的一例的图。图2表示在使翻译单位检测部工作之前预先制作判别模型时的处理。

在图2的例子中，表示学习用的语料201被进行词素分析而得到的词素分析结果202。这里，句子中的标签表示语音中的停顿，标签表示有可能成为翻译单位的开始位置的词素的位置。标签通过手动预先标注。

接着，对词素分析结果202，变换为标注了与应该分割句子的位置(类别B)、应该继续句子的位置(类别I)对应的标签的学习数据203。这里，假定基于CRF(conditionalRandomFields，条件随机场)的学习。将学习数据203作为输入，对各词素列，学习是应该分割句子的词素列还是继续句子的词素列的带条件概率作为判别模型。另外，在学习数据203中，标签表示处于翻译单位的途中的词素的位置。

图3是表示使用通过图2所示的处理获得的2类判别模型(即，判别为类别B和类别I的模型)检测翻译单位的一例的图。

翻译单位检测部103对识别结果字符串301进行词素分析，获得词素分析结果302。翻译单位检测部103参照判别模型，判定作为对象的词素列是应该分割句子的词素列还是应该继续句子的词素列。例如，如果作为带条件概率的P(B|up，today，)的值比P(I|up，today，)的值大，则能够判定为是分割位置(翻译单位)。因此，生成的前段部分即字符串“cuztime'suptoday”作为翻译单位字符串。

接着，参照图4说明由语句变换部104参照的变换辞典的一例。

图4表示存储补白词401和口语表达402及书面语表达403的一览的变换辞典。例如，作为补白词401，在变换辞典中预先存储“んー”、“えーっと”，如果在翻译单位字符串中包含“んー”、“えーっと”这样的单词，则语句变换部104从翻译单位字符串删除对应的单词。

另外，如果口语表达402与翻译单位字符串中的口语表达一致，则将口语表达402改变为书面语表达403。例如，如果口语表达402“cuz”包含在翻译单位字符串中，则将口语表达402“cuz”变换为书面语表达403“Because”。

接着，参照图5的流程图说明第1实施方式所涉及的语音翻译装置100的工作。

这里，表示到显示部106显示变换字符串及翻译字符串为止的处理。另外，假定语音取得部101依次取得语音，语音识别部102依次进行语音信号的语音识别处理。

在步骤S501，语音识别部102初始化用于存储识别结果字符串的缓冲器。缓冲器既可以包含在语音识别部102，也可以利用外部的缓冲器。

在步骤S502，语音识别部102判定语音识别处理是否完成。这里，所谓语音识别处理完成，指语音识别处理完成而随时能够将所确定的部分的识别结果字符串向翻译单位检测部103输出的状态。在语音识别处理完成了的情况下前进至步骤S503，在语音识别处理未完成的情况下前进至步骤S506。

在步骤S503，语音识别部102将新生成的识别结果字符串连结于缓冲器中存储的识别结果字符串。另外，在最初的处理等中缓冲器为空的情况下，直接存储识别结果字符串。

在步骤S504，翻译单位检测部103从缓冲器接收识别结果字符串，从识别结果字符串尝试检测翻译单位。在翻译单位的检测成功了的情况下前进至步骤S505，在翻译单位的检测失败即不存在翻译单位的情况下，返回步骤S502，反复同样的处理。

在步骤S505，翻译单位检测部103基于检测到的翻译单位，生成翻译单位字符串。

在步骤S506，语音识别部102判定经过时间是否在阈值时间以内。经过时间是否在阈值时间以内只要在语音识别部102中，例如通过计时器等计测从生成识别结果字符串起的经过时间，并判定经过时间是否在阈值以内即可。如果经过时间在阈值时间以内，则返回步骤S502，反复同样的处理。如果经过时间比阈值时间大，则前进至步骤S507。

在步骤S507，翻译单位检测部103取得缓冲器中存储的识别结果字符串作为翻译单位字符串。

在步骤S508，语句变换部104从翻译单位字符串删除不必要词语，将口语表达变换为书面语表达，生成变换字符串。

在步骤S509，机器翻译部105将变换字符串从第1语言翻译为第2语言，生成翻译字符串。

在步骤S510，显示部106将变换字符串与翻译字符串相对应地显示。以上，第1实施方式所涉及的语音翻译装置100的工作结束。

接着，参照图6说明识别结果字符串的生成定时和翻译单位的检测定时。

图6的上部是语音识别结果即识别结果字符串。图6的下部是翻译单位字符串，表示沿时序的检测定时。

语音识别部102在用户暂停发言、经过阈值以上的时间(例如，检测200毫秒以上的暂停期间)时，可以确定之前的语音识别结果，输出语音识别结果。这里，如图6所示，若在t₁、t₂、t₃、t₄、t₅及t₆检测到暂停期间，则语音识别部102确定识别结果字符串。

即，翻译单位检测部103分别在t₂接收期间601中的识别结果字符串，在t₃接收期间602中的识别结果字符串，在t₅接收期间603中的识别结果字符串，在t₆接收期间604中的识别结果字符串。

另一方面，在翻译单位检测部103中，有能够将所取得的识别结果字符串检测为翻译单位的情况和不能够将所取得的识别结果字符串检测为翻译单位的情况。

例如，期间601中的识别结果字符串“cuztime'suptoday”由于能够通过图3中上述的处理判定为翻译单位，所以能够生成为翻译单位字符串611。但是，在期间602中的识别结果字符串“Hmm，Let'shaveanextmeeting”中，虽然有暂停，但是由于句子的联结是否已切断不清楚，所以无法判定为翻译单位。

因而，不确定为翻译单位字符串，直到能够利用下一期间603的语音识别结果为止，如图5所示的步骤S503那样，在t₅的时刻，将连结期间602的识别结果字符串与期间603的识别结果字符串的字符串作为对象进行处理。由此，能够检测翻译单位，能够生成翻译单位字符串612“hmmlet'shaveanextmeetingonMonday”。

另外，检测翻译单位的结果，有时会将识别结果字符串的后半部分判定为应该作为后续的翻译单位。例如，在生成了翻译单位字符串612的时刻，在期间605生成的识别结果字符串“er”由于不被判定为翻译单位，所以等待到后续的语音识别结果能够利用为止。在t₆的时刻，将连结期间604的识别结果字符串与期间605的识别结果字符串的字符串检测为翻译单位字符串613“eristhatOKforyou”。

这样，翻译单位检测部103通过按时序顺序依次读入由语音识别部102生成的识别结果字符串，检测翻译单位而生成翻译单位字符串。另外，在图6中，假定在检测到暂停的情况下生成语音识别结果的情况，但是语音识别部102也可以在检测到无歧义的语言要素的情况下确定为识别结果字符串。

接着，参照图7说明由语音翻译装置的各部分输出的字符串的具体例。

如图7所示，假定从用户取得了语音701“Cuztime'suptoday.Hmm,Let'shaveanextmeetingonMonday.IsthatOKforyou？”。

语音识别部102通过对语音701进行语音识别处理，获得识别结果字符串702“Cuztime'suptoday.Hmm,Let'shaveanextmeetingonMonday.IsthatOKforyou？”。

接着，翻译单位检测部103通过对识别结果字符串702检测翻译单位，生成3个句子“cuztime'suptoday”、“hmmlet'shaveanextmeetingonMonday”、“IsthatOKforyou”，作为翻译单位字符串703。

接着，语句变换部104对翻译单位字符串703，删除补白词“hmm”，将口语表达“cuz”变换为书面语表达“Because”，生成变换字符串704“Becausetime'suptoday.”、“Let'shaveanextmeetingonMonday.”、“IsthatOKforyou？”。

最后，机器翻译部105将变换字符串704从第1语言翻译为第2语言。这里，从英语翻译为日语，生成翻译字符串705“今日は時間切れなので。”、“月曜日に次の会議を持ちましょう。”、“大丈夫でしょうか？”。

接着，参照图8说明显示部106中的显示例。

如图8所示，作为某用户的发言，变换字符串“議論すべき項目は他にありますか？”和对应的翻译字符串“Doyouhaveanyotheritemstobediscussed？”以一组显示在气球形框801。作为与之相对的另一用户的发言，气球形框802、气球形框803及气球形框804沿时序在生成翻译字符串的定时显示。例如，变换字符串“Becausetime'suptoday.”和对应的翻译字符串“今日は時間切れなので”作为一组显示在气球形框802。

根据以上所示的第1实施方式，通过对翻译单位字符串删除不必要词语，并将口语表达变换为书面语表达，能够获得用户期待的机器翻译结果，能够实现顺畅的语音对话。

(第2实施方式)

在假定在语音会议系统中利用语音翻译装置的情况下，假定以多种语言作为母语进行发言。在该情况下，假定有对对方语言的理解能力高并能够听语音来理解对方语言的参加者、如果通过文字辨识则能够理解对方语言的参加者、完全不能够理解对方语言而需要翻译为自身的语言的参加者这样的各种参加者。

在第2实施方式中，假定例如在语音会议系统中利用的、由多个用户利用语音翻译装置的情况。

参照图9说明第2实施方式所涉及的语音翻译系统。

语音翻译系统900包含语音翻译服务器910及多个终端920。

在图9的例子中，假定终端920-1、终端920-2及终端920-n(n是3以上的正数)分别由一个用户利用的情况。另外，以下，以终端920-1作为终端920的说明的例子进行说明。

终端920从用户取得语音，并对语音翻译服务器910发送语音信号。

语音翻译服务器910存储接收到的语音信号。进而，基于语音信号，生成翻译单位字符串、变换字符串及翻译字符串并分别存储。语音翻译服务器910向终端920发送变换字符串及翻译字符串。在向多个终端920发送变换字符串及翻译字符串的情况下，只要语音翻译服务器910向各终端920广播变换字符串及翻译字符串即可。

终端920显示接收到的变换字符串及翻译字符串。另外，在有来自用户的指示的情况下，向语音翻译服务器910请求与由用户指示的变换字符串或翻译字符串对应的区间的语音信号。

语音翻译服务器910根据来自终端920的请求，向终端920发送与变换字符串或翻译字符串对应的区间的语音信号即部分语音信号。

终端920将部分语音信号作为语音从扬声器等输出。

接着，说明语音翻译服务器910和终端920的详细情况。

语音翻译服务器910包含语音识别部102、翻译单位检测部103、语句变换部104、机器翻译部105、数据存储部911及服务器通信部912。

语音识别部102、翻译单位检测部103、语句变换部104及机器翻译部105由于进行与第1实施方式同样的工作，所以省略这里的说明。

数据存储部911从各终端920接收语音信号，并与发送了语音信号的终端的终端ID相对应地存储。另外，接收并存储翻译单位字符串等。关于数据存储部911的详细情况，将参照图10后面描述。

服务器通信部912经由网络930进行从终端920接收语音信号并向终端920发送翻译字符串及变换字符串等数据通信。

接着，终端920包含语音取得部101、指示取得部921、语音输出部922、显示部106及终端通信部923。

语音取得部101及显示部106的工作由于与第1实施方式同样，因此省略这里的说明。

指示取得部921取得来自用户的指示。具体地，例如，取得用户使用手指和/或笔触摸显示部106的显示区域这样的来自用户的输入作为指示。另外，也可以取得基于鼠标等指示装置的来自用户的输入作为指示。

语音输出部922从后述的终端通信部923接收数字形式的语音信号，对数字形式的语音信号进行数字模拟变换(DA变换)，将模拟形式的语音信号通过例如扬声器作为语音输出。

终端通信部923经由网络930进行向语音翻译服务器910发送语音信号并从语音翻译服务器910接收语音信号、变换字符串及翻译字符串等这样的数据通信。

接着，参照图10说明数据存储部911中存储的数据的一例。

在数据存储部911，包含存储作为语音翻译服务器910侧的处理结果的数据的第1数据区域和存储与来自终端920的语音信号有关的数据的第2数据区域。另外，为了方便说明，将数据区域分为2个，但是不限于此，既可以汇总为一个数据区域，也可以存在3个以上的数据区域。

在第1数据区域，相对应地存储终端ID1001、句子ID1002、开始时刻1003、结束时刻1004、语句变换结果1005及机器翻译结果1006。

终端ID1001是按每个终端赋予的标识符。另外，终端ID1001也可以用使用者的ID取代。句子ID1002是按每个翻译单位字符串赋予的标识符。开始时刻1003是被赋予了句子ID1002的翻译单位字符串的开始时刻。结束时刻1004是被赋予了句子ID1002的翻译单位字符串的结束时刻。语句变换结果1005是根据被赋予了句子ID1002的翻译单位字符串生成的变换字符串。机器翻译结果1006是根据变换字符串生成的翻译字符串。这里，开始时刻1003和结束时刻1004是与对应的语句变换结果1005及机器翻译结果1006的各个时刻对应的值。

在第2数据区域，包含终端ID1001、语音信号1007、开始时刻1008及结束时刻1009。

语音信号1007是从终端ID1001接收的语音信号。开始时刻1008是语音信号1007的开始时刻。结束时刻1009是语音信号1007的结束时刻。另外，由于第2数据区域中存储的数据的单位是由语音识别部102生成的识别结果字符串的单位，所以开始时刻1008及结束时刻1009成为与识别结果字符串对应的值。即，与开始时刻1008及结束时刻1009之间的识别结果字符串对应的语音信号(部分语音信号)作为语音信号1007存储。

另外，也可以将与终端ID1001及句子ID1002对应的语句变换结果1005及机器翻译结果1006存储在终端920。这样，在终端920中，在针对变换字符串及翻译字符串有来自用户的指示的情况下，能够尽早从数据存储部911读出对应的语音信号，能够提高处理效率。

接着，参照图11的流程图说明第2实施方式所涉及的语音翻译服务器910的工作。

另外，步骤S501到步骤S509的处理由于与第1实施方式同样，所以省略说明。

在步骤S1101，语音识别部102从终端920接收终端ID和语音信号，数据存储部911将与语音识别部102的处理结果即识别结果字符串对应的语音信号、开始时刻及结束时刻相对应地存储。

在步骤S1102，数据存储部911将终端ID、句子ID、翻译单位字符串、变换字符串及翻译字符串与开始时刻及结束时刻相对应地存储。

在步骤S1103，语音翻译服务器910向终端920发送变换字符串和翻译字符串。

接着，参照图12的流程图说明终端920中的语音输出处理。

在步骤S1201，指示取得部921判定是否取得了来自用户的指示。在取得了来自用户的指示的情况下，前进至步骤S1202，在未取得来自用户的指示的情况下，等待到取得指示为止。

在步骤S1202，指示取得部921基于终端ID和用户指示的句子的句子ID，参照语音翻译服务器910的数据存储部911，取得对应的开始时刻及结束时刻。

在步骤S1203，指示取得部921基于终端ID、开始时刻及结束时刻，从数据存储部911取得对应的区间的语音信号(部分语音信号)。

在步骤S1204，语音输出部922输出语音信号。以上，结束终端920中的语音输出处理。

接着，参照图13说明第2实施方式所涉及的显示部106的显示例。

在图13的例子中，除了图8的气球形框801到气球形框804之外，还显示图标1301。通过用户触摸图标1301，将与气球形框的变换字符串或翻译字符串对应的部分语音信号输出为语音。

具体地，例如，在用户希望听到与气球形框802中的“Becausetime'suptoday.”有关的语音的情况下，通过触摸处于气球形框的旁侧的图标1301，输出与“Becausetime'suptoday.”对应的原始的语音信号“cuztime'suptoday”。

接着，参照图14说明显示部106中的显示的第1其他例。

在本实施方式中，在语音取得部101中，取得来自用户的发言，在语音翻译服务器910的语音识别部102中，边将语音识别结果即识别结果字符串存储在缓冲器，边通过翻译单位检测部103从前方开始进行翻译单位的检测。因此，在显示部106，翻译字符串的显示有可能产生时滞。

因而，如图14所示，也可以在获得了识别结果字符串的时刻，在从生成翻译单位字符串起到生成翻译字符串为止的期间，在显示区域1401显示识别结果字符串。由此，能够减小识别结果字符串的显示的时滞。进而，在获得了翻译字符串的情况下，也可以删除在显示区域1401显示的识别结果字符串。

接着，参照图15说明显示部106中的显示的第2其他例。

例如，对于在语音会议等中完全无法理解对方语言的用户，也考虑不必显示对方语言的情况。因而，只要将作为对方语言的变换字符串或翻译字符串设为非显示即可。如图15所示，只要在母语为英语的用户的情况下，在气球形框1501显示英语，在母语为日语的用户的情况下，在气球形框1502显示日语即可。

另一方面，在能够在某种程度上理解对方语言但是听写能力没那么高的用户的情况下，也可以将翻译字符串设为非显示，而显示变换字符串。

另外，在上述的第2实施方式中，语音识别部102、语句变换部104及机器翻译部105包含于语音翻译服务器910，但是也可以包含于终端920。但是，在假定支持使用了2种以上的语言的会话的情况下，期望至少机器翻译部105包含于语音翻译服务器910。

另外，也可以不使用语音翻译服务器910，而由成为包含上述的语音翻译服务器910的构成和终端920的构成的语音识别装置的终端彼此进行处理。由终端彼此进行通信的情况下的终端的方框图示于图16。

终端1600包含语音取得部101、语音识别部102、翻译单位检测部103、语句变换部104、机器翻译部105、显示部106、数据存储部911、服务器通信部912、指示取得部921、语音输出部922及终端通信部923。由此，通过终端1600彼此进行通信，能够进行与语音对话系统同样的处理，能够实现点对点(P2P)系统。

根据以上所示的第2实施方式，能够根据用户的指示，输出与变换字符串及翻译字符串对应的部分语音信号。另外，能够选择与用户的理解水平相应的显示，能够进行顺畅的语音对话。

上述的实施方式中表示的处理步骤所示的指示可以基于作为软件的程序而执行。通用的计算机系统通过预先存储该程序并读入该程序，也可以获得与由上述语音翻译装置实现的效果同样的效果。上述的实施方式中描述的指示作为能够使计算机执行的程序，可以存储在磁盘(软盘、硬盘等)、光盘(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(注册商标)Disc等)、半导体存储器或与之类似的记录介质。只要是计算机或嵌入系统可以读取的记录介质，其存储形式可以是任意的形态。计算机若从该记录介质读入程序并基于该程序由CPU执行程序所描述的指示，则能够实现与上述实施方式的语音翻译装置同样的工作。当然，在计算机取得或读入程序的情况下，也可以通过网络取得或读入。

另外，基于从记录介质安装到计算机和/或嵌入系统的程序的指示而在计算机上工作的OS(操作系统)和/或数据库管理软件、网络等MW(中间件)等也可以执行用于实现本实施方式的各处理的一部分。

进而，本实施方式中的记录介质不限于与计算机或者嵌入系统独立的介质，也包含下载并存储或暂时存储通过LAN和/或因特网等传递的程序的记录介质。

另外，记录介质不限于一个，在从多个介质执行本实施方式中的处理的情况也包含在本实施方式中的记录介质，介质的构成可以是任意的构成。

另外，本实施方式中的计算机或嵌入系统是用于基于记录介质中存储的程序来执行本实施方式中的各处理的装置，可以是包括个人计算机、微计算机等一个设备的装置、多个装置进行网络连接而成的系统等任意的构成。

另外，本实施方式中的计算机不限于个人计算机，也包含信息处理设备所包含的运算处理装置、微计算机等，是可以通过程序实现本实施方式中的功能的设备、装置的总称。

虽然说明了本发明的几个实施方式，但是这些实施方式是作为例子而呈现的，而并非要限定发明的范围。这些新实施方式能够以其他各种方式实施，在不脱离发明的主旨的范围，可以进行各种省略、置换、改变。这些实施方式和/或其变形包含于发明的范围和/或主旨，并且包含于权利要求的范围所记载的发明及其均等的范围。

Claims

1.一种语音翻译装置，其特征在于，具备：

语音识别部，其对基于第1语言的语音进行语音识别，生成识别结果字符串；

检测部，其从上述识别结果字符串检测适于翻译的翻译单位，生成基于该翻译单位将该识别结果字符串分割后的翻译单位字符串；

变换部，其将上述翻译单位字符串变换为适于机器翻译的表达即变换字符串；以及

翻译部，其将上述变换字符串翻译为与上述第1语言不同的第2语言，生成翻译字符串。

2.权利要求1所述的语音翻译装置，其特征在于，

上述变换部删除上述翻译单位字符串中包含的不必要词语。

3.权利要求1所述的语音翻译装置，其特征在于，

上述变换部将上述翻译单位字符串中包含的口语表达变换为书面语表达。

4.权利要求1所述的语音翻译装置，其特征在于，还具备：

显示部，其将上述变换字符串与上述翻译字符串相对应地显示。

5.权利要求4所述的语音翻译装置，其特征在于，

上述显示部在从上述翻译单位字符串被生成开始到上述翻译字符串被生成为止的期间，显示上述识别结果字符串。

6.权利要求4或5所述的语音翻译装置，其特征在于，

上述显示部关于上述变换字符串或上述翻译字符串，将基于上述第1语言及上述第2语言的某一方的表示设为非显示。

7.权利要求1所述的语音翻译装置，其特征在于，

上述检测部至少以上述语音的停顿、发言中的补白词作为线索进行检测。

8.权利要求1所述的语音翻译装置，其特征在于，还具备：

语音取得部，其取得基于上述第1语言的语音作为语音信号；

存储部，其存储上述语音信号、该语音信号的开始时刻、该语音信号的结束时刻、从该语音信号生成的翻译单位字符串、从该翻译单位字符串变换的变换字符串和从该变换字符串生成的翻译字符串；

指示取得部，其取得来自用户的指示；以及

输出部，其根据上述指示，输出与上述变换字符串或上述翻译字符串对应的区间的语音信号即部分语音信号作为语音。

9.一种语音翻译方法，其特征在于，包括：

对基于第1语言的语音进行语音识别，生成识别结果字符串；

从上述识别结果字符串检测适于翻译的翻译单位，生成基于该翻译单位将该识别结果字符串分割后的翻译单位字符串；

将上述翻译单位字符串变换为适于机器翻译的表达即变换字符串；以及

将上述变换字符串翻译为与上述第1语言不同的第2语言，生成翻译字符串。

10.一种语音翻译程序，其用于使计算机作为以下单元起作用：

语音识别单元，其对基于第1语言的语音进行语音识别，生成识别结果字符串；

检测单元，其从上述识别结果字符串检测适于翻译的翻译单位，生成基于该翻译单位将该识别结果字符串分割后的翻译单位字符串；

变换单元，其将上述翻译单位字符串变换为适于机器翻译的表达即变换字符串；以及

翻译单元，其将上述变换字符串翻译为与上述第1语言不同的第2语言，生成翻译字符串。