附图说明
图1是表示在现有的对话支持装置中,根据构成语句的单词数来进行解码所需的平均处理时间的一例的表。(现有技术)
图2是表示本发明的对话支持装置的一实施形态的结构框图。(实施形态1)
图3是表示图2所示的输出时刻决定部的结构的一例的框图。(实施形态1)
图4是表示图2所示的第一输入部的更详细的结构的一例的框图。(实施形态1)
图5是表示本发明的对话支持装置的一实施形态的用户接口的图。(实施形态1)
图6是表示本发明的对话支持装置的动作流程图。(实施形态1)
图7是表示图6所示的步骤S403的对话支持装置的更详细的动作的流程图。(实施形态1)
图8是表示在图6所示的步骤S403中进行并行处理的情况下的对话支持装置的更详细动作的一例的流程图。(实施形态1)
图9是表示图3所示的计算资源信息部保持的表格的数据结构的一例的图。(实施形态1)
图10是表示图3表示的对话履历分析部保持的特征表的数据结构的一例的图。(实施形态1)
图11是表示图3所示的对话履历存储部的内容和基于该内容通过时刻计算部204算出的搜索时间的上限的初始值的一例的表格。(实施形态1)
图12是表示最先用户1发声时的对话支持装置的翻译发声信息的输出例和显示例的图。(实施形态1)
图13是表示对图12所示的用户1的发声进行更新的对话履历存储部的内容和基于该内容,通过时刻计算部算出的下一搜索时间的上限t的例子的图。(实施形态1)
图14是表示对用户1的发声,用户2发声时的对话支持装置的翻译发声信息的输出例和显示例的图。(实施形态1)
图15是表示对图14所示的用户2的发声,进一步更新后的对话履历存储部的内容和基于该内容,通过时刻计算部算出的下一搜索时间的上限t的例子的图。(实施形态1)
图16是表示对图14所示的用户2的发声,用户1发声时的对话支持装置的翻译发声信息的输出例和显示例的图。(实施形态1)
图17是表示对图16所示的用户1的发声,进一步更新后的对话履历存储部的内容和基于该内容,通过时刻计算部算出的下一搜索时间的上限t的例子的图。(实施形态1)
图18是以对话履历及搜索时间的上限来对比基于本发明的对话支持装置和现有方式的对话支持装置的的效果的图。(实施形态1)
图19是表示基于本发明的对话支持装置的平均翻译处理时间和现有方式的平均翻译处理时间的对比的曲线。(实施形态1)
图20是表示本发明的对话支持装置的变形例的结构框图。(实施形态1)
图21是表示本发明的对话支持装置的变形例的用户接口的图。(实施形态1)
图22是表示本发明的对话支持装置的第二变形例的结构框图。(实施形态1)
图23是表示实施形态2的对话支持装置的用户接口的图。(实施形态2)
图24是表示语言1是中文,语言2是英语的情况下的特征表的数据结构的一例的图。(实施形态2)
图25是表示最先用户1发声时的对话支持装置的翻译发声信息的输出例和显示例的图。(实施形态2)
图26是表示对图25所示的用户1的发声更新后的对话履历存储部的内容和基于该内容通过时刻计算部算出的下一搜索时间的上限t的例子的图。(实施形态2)
图27是表示对用户1的发声,用户2发声时的对话支持装置的翻译发声信息的输出例和显示例的图。(实施形态2)
图28是表示对图27所示的用户2的发声进一步更新后的对话履历存储部的内容和对应于此通过时刻计算部算出的下一搜索时间的上限t的例子的图。(实施形态2)
图29是表示对图27所示的用户2的发声,用户1发声时的对话支持装置的翻译发声信息的输出例和显示例的图。(实施形态2)
图30是表示对图29所示的用户1的发声进一步更新后的对话履历存储部的内容和对应于此通过时刻计算部算出的下一搜索时间的上限t的例子的图。(实施形态2)
图31是用对话履历和搜索时间的上限来对比本发明的对话支持装置的效果和现有方式的对话支持装置的效果后的图。(实施形态2)
图32是表示本发明的对话支持装置的变形例的结构框图。(实施形态2)
图33是表示本发明的对话支持装置的硬件结构的一例的框图。(实施形态1)(实施形态2)
符号说明
101第一输入部 102第一翻译处理部 103第一输出部 04第二输入部
105第二翻译处理部 106第二输出部 107输出时刻决定部
201对话履历存储部 202对话履历分析部 203计算资源信息部
204时刻计算部 301麦克风 302输入发声信息 303输入开始按钮
304扬声器 305翻译发声信息 306翻译开始按钮 307麦克风
308输入发声信息 309输入开始按钮 310扬声器 311翻译发声信息
312翻译开始按钮 S401输出时刻初始化步骤 S402发声输入等待步骤
S403输出时刻计算步骤 701对话履历存储部 201的内容
702第一翻译处理部或第二翻译处理部的输出内容
703时刻计算部204的动作 901对话履历存储部 201的内容
902第一翻译处理部或第二翻译处理部的输出内容
903时刻计算部 204的动作 1101对话履历存储部 201的内容
1102第一翻译处理部或第二翻译处理部的输出内容
1103时刻计算部204的动作 1301对话履历存储部 201的内容
1302第一翻译处理部或第二翻译处理部的输出内容
1303时刻计算部204的动作 1401通过现有方式支持的对话
1402通过本发明支持的对话 1501、1502终端
1503~1510通信部 1701、1702终端 1703服务器
1704~1711通信部 1901声音识别部 1902发声信息存储部
3200对话支持装置 3201扬声器 3202麦克风 3203外部存储器
3204显示部 3205 ROM 3206 CPU(处理器) 3207 RAM
3208通信部 3209输入部 3210总线
具体实施方式
本发明的对话支持装置,支持不同语言的对话,其特征在于,包括:输入部,将用户的发声作为输入来加以接受;翻译处理部,将接受到的所述发声翻译为预定的语言,并输出翻译所得到的翻译发声信息;输出部,将所输出的所述翻译发声信息传送输出到用户;以及输出时刻决定部,分析所述用户的发声中包含的特征,决定翻译接下来接受到的发声用的翻译时间。由此,对话支持装置可以分析用户的发声中包含的特征,来决定翻译接着接收的发声用的翻译时间。即,在某句话中包含的特征表示为即使对下一句话的翻译不太流畅,意思也通顺的情况下,可以缩短对下一句话的翻译时间。另外,在某一句话中包含的特征表示为在对下一发声的翻译不流畅,意思不通顺的情况下,可以变长对下一发声的翻译时间。
另外,本发明的所述输入部具有:第一输入部,将基于第一语言的第一用户的发声作为输入来加以接受;和第二输入部,将基于第二语言的第二用户的发声作为输入加以接受,所述翻译处理部具有:第一翻译处理部,将所述第一用户的发声翻译为第二语言,并输出翻译所得到的第一翻译发声信息;和第二翻译处理部,将所述第二用户的发声翻译为所述第一语言,并输出翻译所得到的第二翻译发声信息,所述输出部具有:第一输出部,将所输出的所述第一翻译发声信息传送输出到第二用户;和第二输出部,将所输出的所述第二翻译发声信息传送输出给第一用户,所述输出时刻决定部分析所述第一用户的发声或所述第二用户的发声中包含的特征,决定输出时刻,该输出时刻表示所述第一翻译处理部或所述第二翻译处理部翻译所述第一用户的发声或所述第二用户的发声的下一个接受到的发声的翻译时间的上限,所述第一翻译处理部或所述第二翻译处理部,输出到所述输出时刻为止得到的翻译结果即所述第一翻译发声信息或所述第二翻译发声信息。由此,对话支持装置可以根据第一用户的发声或所述第二用户的发声的内容,来决定表示对下一发声的翻译时间的上限的输出时刻,并输出在该输出时刻为止得到的翻译结果。
这里,所述翻译处理部也可通过统计机械翻译方式来进行翻译处理。统计机械翻译方式尤其有若没有花上一定以上的翻译时间,则不怎么能得到合适的对译,但是即使花了某种程度以上的翻译时间也不见得会得到可以与翻译时间成正比的好的对译的性质。因此,根据本发明的对话支持装置,所述第一翻译处理部或第二翻译处理部在输出在所述输出时刻为止得到的翻译结果的情况下,输出时刻决定部决定一定范围内的输出时刻后,有可以得到一定水平以上的翻译结果的效果。
进一步,本发明的所述输出时刻决定部可以按发声的顺序来保持以所述第一用户的发声作为字符串的第一发声信息和以所述第二用户的发声作为字符串的第二发声信息的履历,参照所述履历中包含的在先的第一发声信息或第二发声信息的特征,来决定接下来被保持的第一发声信息或第二发声信息的所述输出时刻。因此,根据本发明的对话支持装置,可以根据按发声的顺序保持第一发声信息或第二发声信息的履历,来决定所述输出时刻。
本发明的成为所述输出时刻决定部决定所述输出时刻的根据的所述特征的种类可以为相互理解,在所述分析的结果为所接受到的所述发声中包含有相互理解的特征的情况下,决定所述输出时刻,使得所述翻译时间变得更短。这里,在所述发声包含了相互理解的特征的情况下,表示对对话内容的用户之间的理解深。因此,认为即使翻译结果不那么流畅,也可进行意思的交流。因此,根据本发明的对话支持装置,在所述发声中包含了相互理解的特征的情况下,可以用更短的时间输出翻译结果,可以流畅地进行对话。
本发明的成为所述输出时刻决定部决定所述输出时刻的根据的所述特征的种类可以为表层表现的连续性,在所述分析的结果为所接受到的所述发声中包含有表示表层表现的连续性的情况下,决定所述输出时刻,使得所述翻译时间变得更短,在所述发声中包含有表示表层表现的不连续性的情况下,决定所述输出时刻,使得所述翻译时间变得更长。这里,在所述发声中包含了表示表层表现的连续性的情况下,在接着的发声中连续包含所述发声中使用的表层表现的一部分的可能性高,若得到了该表层表现,则认为即便对下一发声整体的翻译结果不怎么流畅,也可得到意思的交流。因此,根据本发明的对话支持装置,在所述发声中包含表示表层表现的连续性的特征的情况下,可以在更短的时间中输出翻译结果,可以顺畅进行对话。相反,在所述发声中包含表示表层表现的不连续性的特征的情况下,在下一发声中包含所述发声中使用的表层表现的一部分的可能低,该表层表现重要的情况很多。因此,根据本发明的对话支持装置,在所述发声中包含表示表层表现的不连续性的特征的情况下,输出更加流畅的翻译结果,来实现意思的交流。
本发明的成为所述输出时刻决定部决定所述输出时刻的根据的所述特征的种类可以为话题转换,在所述分析的结果为所接受到的所述发声中包含话题转换的特征的情况下,将所述输出时刻决定为初始值,使得所述翻译时间成为标准长度。这里,在所述发声中包含话题转换的特征的情况下,认为在所述发声的前后,对话的内容没有关系。因此,根据本发明的对话支持装置,在所述发声中包含话题转换的特征的情况下,可以输出在标准的翻译时间下得到的翻译结果。
本发明的所述对话支持装置还具有计算资源信息部,该计算资源信息部提供与所述对话支持装置的计算资源有关的信息;所述输出时刻决定部参照与计算资源有关的所述信息,来决定所述第一翻译发声信息或所述第二翻译发声信息的输出时刻。由此,本发明的对话支持装置可以决定考虑了对话支持装置的计算资源的状态的输出时刻。
本发明的所述第一输出部和所述第二输出部的至少一个具有:声音合成部,通过合成声音来再现第一翻译发声信息和/或第二翻译发声信息;以及文字图像显示部,显示输出第一翻译发声信息和/或第二翻译发声信息。由于,本发明的对话支持装置,可以通过合成声音和文字图像显示使第一用户和/或第二用户知道第一翻译发声信息和/或第二翻译发声信息。因此,第一用户和/或第二用户在仅通过合成声音难以听到第一翻译发声信息和/或第二翻译发声信息的情况下,通过确认文字图像显示部的显示输出,来更正确地进行理解。
本发明的所述声音合成部,在所述第一翻译发声信息和/或所述第二翻译发声信息的似然(尤度)低于一定的阈值的情况下,不动作。由此,本发明的对话支持装置可以预先防止由通过合成声音听取了似然低于一定的阈值的所述第一翻译发声信息和/或所述第二翻译发声信息所造成的听取错误和误解了发声内容。
本发明的所述文字图像显示部在所述第一翻译发声信息和/或所述第二翻译发声信息的似然低于一定的阈值的情况下,仅强调显示所述第一翻译发声信息和/或所述第二翻译发声信息中包含的独立词。因此,根据本发明的对话支持装置,在似然低于一定的阈值的情况下,通过仅强调显示独立词,可以防止因独立词之外的似然低的部分而误解翻译内容。
本发明的一种对话支持系统,通过经由通信网彼此进行通信的每个用户的对话支持装置,来支持不同语言的对话,其特征在于:第一对话支持装置具有:第一输入部,将基于第一语言的第一用户的发声作为输入来加以接受;第一翻译处理部,将所接受到的所述第一用户的发声翻译为预定的语言,并输出翻译所得到的第一翻译发声信息;第一发送部,将所输出的所述第一翻译发声信息发送到第二对话支持装置;第一输出时刻决定部,分析所述第一用户的发声中包含的特征,来决定输出时刻,该输出时刻表示翻译所述第一用户的发声的下一个所接受到的发声的翻译时间的上限;以及第一输出时刻发送部,将所决定的所述输出时刻发送到所述第二对话支持装置,所述第二对话支持装置具有:第二接收部,从所述第一对话支持装置接收所述第一翻译发声信息,并传送到第二用户;第二输出时刻接收部,从所述第一对话支持装置接收由所述第一对话支持装置决定的所述输出时刻;第二输入部,将基于所述预定语言的第二用户的发声作为输入来加以接受;第二翻译处理部,将所接受到的所述第二用户的发声翻译为所述第一语言,并输出翻译所得到的第二翻译发声信息;以及第二发送部,将所输出的所述第二翻译发声信息发送到所述第一对话支持装置,所述第二翻译处理部将到所接收的所述输出时刻为止所得到的翻译结果即所述第二翻译发声信息输出。由此,本发明的对话支持系统可以经通信网来支持位于彼此分开的位置中的用户彼此的不同语言进行的对话。进一步,除此之外,第一对话支持装置中,根据第一用户的发声中包含的特征来决定作为对下一发声的翻译时间的上限的输出时刻,在第二对话支持装置中,可以到从第一对话支持装置接收到的所述输出时刻为止,输出将第二用户的话翻译为所述第一语言得到的所述第二翻译发声信息。即,第二对话支持装置中,在对应于第一用户的发声中包含的特征的翻译时间的上限之前进行翻译处理,而可以输出第二翻译发声信息。
本发明的对话支持系统,使用经由通信网与服务器相连的第一对话支持装置和第二对话支持装置,来支持对话,其特征在于:所述第一对话支持装置具有:第一输入部,将以第一语言说话的第一用户的发声作为输入来加以接受;第一发送部,将所接受到的所述第一用户的发声发送到所述服务器;第二接收部,从所述服务器接收将第二用户相对于所述第一用户的发声的发声翻译为所述第一语言的翻译结果即第二翻译发声信息;以及第一输出部,将所接收到的所述第二翻译发声信息传送到所述第一用户;所述第二对话支持装置具有:第二输入部,将以第二语言说话的第二用户的发声作为输入来加以接受;第二发送部,将所接受到的所述第二用户的发声发送到所述服务器;第一接收部,从所述服务器接收将所述第一用户相对于所述第二用户的发声的发声翻译为所述第二语言的翻译结果即第一翻译发声信息;以及第二输出部,将所接收到的所述第一翻译发声信息传送到所述第二用户;所述服务器具有:第一发声接收部,从所述第一对话支持装置接收所述第一用户的发声;第一翻译处理部,将所接收的所述第一用户的发声翻译为所述第二语言,并输出翻译所所得的第一翻译发声信息;第一发送部,将所输出的第一翻译发声信息发送到所述第二对话支持装置;第二发声接收部,从所述第二对话支持装置接收所述第二用户的发声;第二翻译处理部,将所接收到的所述第二用户的发声翻译为所述第一语言,并输出翻译所得到的第二翻译发声信息;第二发送部,将所输出的第二翻译发声信息发送到所述第一对话支持装置;以及输出时刻决定部,分析所接收到的所述第一用户的发声或所述第二用户的发声中包含的特征,来决定输出时刻,该输出时刻表示翻译所述发声的下一个所接收的发声的所述第一翻译处理部或所述第二翻译处理部的翻译时间的上限,所述第一翻译处理部或所述第二翻译处理部,将到所决定的所述输出时刻为止所得到的翻译结果即所述第一翻译发声信息或所述第二翻译发声信息输出。因此,根据本发明的对话支持系统,由于全部由服务器进行发声中包含的特征的分析,基于此来进行输出时刻的决定和到所决定的输出时刻为止的翻译处理,所以在各用户的所有第一对话支持装置和第二对话支持装置中可以简化结构。
下面,参照附图来说明本发明的实施形态。
(实施形态1)
图2是表示本发明的一实施形态的对话支持装置的结构框图。本实施形态的对话支持装置是支持不同语言的两个用户的对话的装置,具有根据某句话中包含的特征,对下一句话改变搜索对译语言数据库的时间的功能。如图2所示,这种对话支持装置具有第一输入部101、第一翻译处理部102、第一输出部103、第二输入部104、第二翻译处理部105、第二输出部106和输出时刻决定部107。第一输入部101输入第一语言(例如日语)的用户1(第一用户)的话,而输出以用户1的话为字符串的第一发声信息。第一翻译处理部102将第一发声信息翻译为用户2(第二用户)的第二语言(预定的语言,例如英语),并输出第一翻译发声信息和第一翻译发声信息的似然。所谓似然是表示翻译发声信息相对发声信息的流畅度或含义的准确度的指示。第一输出部103将第一翻译发声信息作为合成声音的话输出到用户2。第二输入部104输入用户2的第二发声,输出以用户2的话为字符串的第二发声信息。第二翻译处理部105将第二发声信息翻译为用户1的第一语言后,输出第二翻译发声信息和第二翻译发声信息的似然。第二输出部106将第二翻译发声信息作为合成声音的话输出到用户1。输出时刻决定部107输入第一发声信息或第二发声信息,来决定作为第一翻译处理部102或第二翻译处理部105对接着输入的第一发声信息或第二发声信息的处理时间(即,指对发声信息的翻译时间,还包含对译语言数据库的搜索时间和某特定处理的循环次数等)的上限的输出时刻。
图3是表示图2所示的输出时刻决定部107的结构的一例的框图。输出时刻决定部107是根据某句发声信息的特征,来决定对接着输入的发声信息的对译语言数据库的搜索时间的处理部,具有对话履历存储部201、对话履历分析部202、计算资源信息部203、时刻计算部204和特征表205。对话履历存储部201以发生时间的顺序来存储第一发声信息和第二发声信息。特征表205是描述发声特征的表格,该发声特征成为决定输出时刻的变差系数(変動係数)的依据。对话履历分析部202比较对话履历存储部201的内容和特征表205的内容,判断对话履历存储部201中存储的发声信息中是否包含特征表205中描述的特征,若包含特征,则输出与该特征对应的输出时刻的变差系数。在不包含特征的情况下,输出系数α=0。计算资源信息部203存储与本装置操作的计算资源有关的信息。计算资源信息部203检测出因对话支持装置内的其他应用程序的动作等的影响形成的对话支持装置的工作状况,求出对话支持装置的硬件性能,与图9所示的表格参考值相比较,来调整输出时刻的改变幅度等。时刻计算部204参照输出时刻的变差系数和计算资源信息部203,来决定第一翻译处理部102和第二翻译处理部105的输出时刻t。
第一输入部101通过连续声音识别处理或键盘将用户1通过声音或打字输入的发声作为文字信息取得,而作为第一发声信息输出。用户1的第一发声信息是相当于用户1的发声的字符串。图4是表示具有声音识别处理的功能的情况下的第一输入部101的结构的一例的图。第一输入部101具有声音识别部1901和发声信息存储部1902。声音识别部1901将相当于用户1的发声的声音变换为文字信息。发声信息存储部1902暂时存储声音识别部1901输出的文字信息。发声信息存储部1902根据伴随用户1的发声的指示输出暂时存储的第一发声信息。同样,第二输入部104通过连续声音识别处理或键盘将用户2通过声音或打字输入的发声作为文字信息取得,而作为第二发声信息输出。第二发声信息是相当于用户2的话的字符串。
第一翻译处理部102由从用户1的语言变换为用户2的语言的统计翻译处理构成。统计翻译处理在用户1的语言为S,用户2的语言为T的情况下,得到第一发声信息S1的译文T2,在S和T的对译语言数据库中计算P(T|S1)最大的T=T2。根据贝叶斯定理,与搜索P(S1|T)P(T)最大的T=T2等效。P(S|T)是翻译模型,P(T)是语言模型。并且,最大值P(T2|S1)是译文T2的似然。同样,第二翻译处理部105由从用户2的语言变换为用户1的语言的统计翻译处理构成。统计翻译处理在用户2的语言为S,用户1的语言为T的情况下,得到第二发声信息S2的译文T1,在S和T的对译语言数据库中计算P(T|S2)最大的T=T1。根据贝叶斯定理,与搜索P(S2|T)P(T)最大的T=T1等效。P(S|T)是翻译模型,P(T)是语言模型。并且,最大值P(T1|S2)是译文T1的似然。但是,任意一种统计翻译处理都不能超过输出时刻决定部107决定的输出时刻t来继续进行处理。处理时间在到达输出时刻t的时刻中断,在该时刻输出最佳的译文和译文的似然。
第一输出部103由声音合成处理和图像显示处理构成,将第一翻译发声信息作为声音或文字图像向用户2输出。另外,第一输出部103具有阈值U1。阈值U1由第一翻译处理部102生成流畅和含义明确度的评价值为预定值80%的译文时的似然的平均值来决定。在从第一翻译处理部102输出的似然比阈值U1小的情况下不进行声音合成处理,在构成第一翻译发声信息的单词中仅强调显示独立词。另外,第二输出部106由声音合成处理和图像显示处理构成,将第二翻译发声信息作为声音或文字图像向用户1输出。另外,第二输出部106具有阈值U2。阈值U2由第二翻译处理部105生成流畅和含义明确度的评价值为预定值80%的译文时的似然的平均值来决定。在从第二翻译处理部105输出的似然比阈值U2小的情况下不进行声音合成处理,在构成第二翻译发声信息的单词中仅强调显示独立词。
图5是表示本发明的对话支持装置的一实施形态的用户接口的图。图5表示安装了本发明的硬件的用户接口。用户1使用左侧的用户接口,用户2使用右侧的用户接口。麦克风301、输入发声信息302和输入开始按钮303相当于第一输入部101,扬声器304和翻译发声信息311相当于第二输出部106。翻译开始按钮306是开始第一翻译处理部102的翻译处理的按钮。同样,麦克风307、输入发声信息308和输入开始按钮309相当于第二输入部104,扬声器310和翻译发声信息305相当于第一输出部103。翻译开始按钮312是开始第二翻译处理部105的翻译处理的按钮。
图6是表示本发明的整体动作的流程图。步骤S401中,输出时刻决定部107在开始使用本装置前将输出时刻t设置为初始值T。步骤S402中,等待用户1或用户2的发声输入。在发声输入完成的阶段,即,按下了翻译开始按钮306或翻译开始按钮312的时刻,进入到步骤S403。步骤S403中,第一翻译处理部102或第二翻译处理部105最多花t秒时间进行翻译处理后,将译文输出给对方。同样,由输出时刻决定部107更新对话履历存储部201的内容,计算接着的翻译处理用的输出时刻t。并且,回到步骤S402。
步骤S403中,输出时刻t的计算具体如下那样来进行计算。
首先,图7是表示图6所示的步骤S403中的对话支持装置的更详细的动作的流程图。第一翻译处理部102或第二翻译处理部105内部具有定时器,若由用户1或用户2按下了翻译开始按钮306或翻译开始按钮312,则启动内部的定时器,而开始通过输出时刻决定部107设置的输出时刻t(初始值T)的测量(S601)。第一输入部101或第二输入部104通过所输入的第一发声信息或第二发声信息来更新对话履历存储部201(S602)。第一翻译处理部102或第二翻译处理部105在对译语言数据库内,对所输入的第一发声信息或第二发声信息搜索似然最高的对译汇编(corpus)(S603)。第一翻译处理部102或第二翻译处理部105检查定时器,判断是否经过了通过输出时刻设置部107设置的输出时刻t秒(S604),若没有经过,则回到步骤S603,继续进行对译语言数据库的搜索。步骤S604中,在经过了输出时刻t秒的情况下,在该时刻终止对译汇编的搜索,输出在该时刻求出的翻译发声信息(S605)。
接着,对话履历分析部202参照特征表205(S606),分析对话履历存储部201中存储的对话信息中是否包含了特征表205中描述的特征(S607)。在发声信息中包含了特征表205中描述的特征的情况下,对话履历分析部202从特征表205中取得与该特征对应的系数α,输出到时刻计算部204中。时刻计算部204参照计算资源信息部203的表格来算出改变幅度ΔT(S608)。进一步,时刻计算部204从所取得的系数α和改变幅度ΔT中算出相当于对下一发声信息的对译语言数据库的搜索时间的上限的输出时刻t=(t+α·ΔT),设置接着翻译处理用的新的输出时刻t而终止处理(S609)。另外,在步骤S607中,发声信息中不包含特征表205中描述的特征的情况下,时刻计算部204什么都不做而终止处理。时刻计算部204作为与该情况相当的处理,也可设系数α=0,设置接着的翻译处理用的新的输出时刻t而终止处理。由此,在接着开始步骤S403的处理时,第一翻译处理部102或第二翻译处理部105的内部定时器测量在该步骤S609中通过输出时刻决定部107设置的新的输出时刻t,第一翻译处理部102或第二翻译处理部105搜索对译语言数据库,直到经过新的输出时刻t。
以上,说明了在第一翻译处理部102或第二翻译处理部105进行的对译语言数据库的搜索终止后,输出时刻决定部107算出对接着的发声的搜索时间,但是本发明并不限于此。例如,第一输入部101或第二输入部104、第一翻译处理部102或第二翻译处理部105与输出时刻决定部107也可并行进行处理。即,也可并行处理对话履历存储部201的更新、对译语言数据库的搜索和对下一发声的翻译发声信息的输出时刻的决定。
图8是表示在图6所示的步骤S403中进行并行处理的情况下的对话支持装置的更详细动作的一例的流程图。首先,从第一输入部101或第二输入部104输入用户1或用户2的话,在按下翻译开始按钮306或翻译开始按钮312后,第一翻译处理部102或第二翻译处理部105启动内部定时器,而开始通过输出时刻决定部107设置的输出时刻t的测量(S601)。并且,第一翻译处理部102或第二翻译处理部105搜索对译语言数据库,直到经过了通过输出时刻决定部107设置的输出时刻t(S603~S604)。若经过了输出时刻t,则第一翻译处理部102或第二翻译处理部105中止对译语言数据库的搜索,而输出在该时刻求出的翻译发声信息(S605)。
与以上的步骤S601、S603、S604、S605的处理并行,第一输入部101或第二输入部104、对话履历分析部202、计算资源信息部203和时刻计算部204进行以下的处理。即,第一输入部101或第二输入部104生成与所输入的话对应的第一发声信息或第二发声信息,并通过所生成的第一发声信息或第二发声信息来更新对话履历存储部201(S602)。即,若按下输入开始按钮303或输入开始按钮309而输入了发声,则第一输入部101或第二输入部104生成第一发声信息或第二发声信息,而与第一翻译处理部102或第二翻译处理部105的动作无关,并通过所生成的第一发声信息或第二发声信息来更新对话履历存储部201。接着,对话履历分析部202参照特征表205(S606),来分析更新后的对话履历存储部201中是否存在特征表205中所描述的特征(S607)。在发声信息中有特征表205中描述的特征的情况下,对话履历分析部202从特征表205中取得与该特征对应的系数α,而输出到时刻计算部204中。另外,时刻计算部204参照计算资源信息部203的表格来算出改变幅度ΔT(S608)。进一步,时刻计算部204从所取得的系数α和改变幅度ΔT中算出相当于对下一发声信息的对译语言数据库的搜索时间的上限的输出时刻t=(t+α·ΔT),设置下一翻译处理用的新输出时刻t而终止处理(S609)。另外,在步骤S607中,在发声信息中没有包含特征表205中描述的特征的情况下,时刻计算部204什么都不做而终止处理。另外,时刻计算部204作为与其相当的处理,也可设置下一翻译处理用的新的输出时刻t来终止处理。这样,通过进行并行处理,可以在定时器测量的开始到输出时刻t经过为止,没有浪费地将通过时刻计算部204算出的输出时刻t用于对译语言数据库的搜索。另外,通过进行并行处理,由于在进行对译语言数据库的搜索期间,可以完成对下一发声的输出时刻t的计算,所以在用户1和用户2没有间断地进行对话的情况下,可以快速开始翻译处理。
图9表示计算资源信息部203的结构。图9是表示图3表示的计算资源信息部203保持的表格的数据结构的一例的图。图9中的各参数中,T是输出时刻t的初始值,ΔT是输出时刻t的改变幅度,minT是输出时刻t的最小值。参考值的行是将本装置安装在CPU性能600MIPS(Million Instructionsper second)的计算机上时的值,需要根据实际安装的计算机的性能(装置的硬件性能)来进行计算。图9的例子中,由于CPU性能在当前时刻是1200MIPS,所以将所有的参数设置为600/1200倍,即0.5倍。另外,由于CPU性能一般可以根据当前处理中的过程数或优先级的关系、可使用的主存储的量等实时变化,所以通过与当前的CPU的平均负载(0~100的值)成反比的计算,可以准确设置翻译处理所需的时间。例如,通过将(1-负载/100)的值乘以本来的CPU性能,若本装置的CPU性能是1200MIPS,负载是50%,则将CPU性能作为600MIPS,可以适当设置T和ΔT的值。
图10是表示图3所示的对话履历分析部保持的特征表格的表格结构的一例的图。接着,图10表示对话履历分析部202参照的特征表格205的数据结构。这里,作为特征的种类,分类为相互理解、表层表现的连续性和话题转换三个。
(1)在发声人的话中包含的特征是相互理解的情况下,由于发生了与发声对方的相互理解,所以认为即使接着发声的对话对方的翻译发声信息多少有点不清晰,也可以理解发声者。
(2)接着,所谓表层表现的连续性是指在存在某个表层表现的话时,表示该表层表现的一部分是否有容易包含在接着的话中的倾向的性质。并且,这时,在该表层表现的一部分在下一发声中具有重要的含义的情况下,特别抽出到特征表格中。认为对发声人来说,在自己使用的表层表现的一部分具有重要的含义而包含在对话对方的话中的情况下,即使翻译发声信息不怎么流畅,发声人也可以理解。相反,在表层表现的一部分不包含在下一发声中的可能性高,该表层表现具有重要的含义的情况下,对发声对方的话,希望是更合适、流畅的翻译发声信息。
(3)进一步,在发声人的话中包含的特征是话题转换的情况下,由于进行与之前的对话没有关联的其他发声的可能提高,所以认为在最先开始对话时,需要具有同种程度的流畅度的翻译对话信息。这里,作为特征的种类,举相互理解、表层表现的连续性和话题转换三种为例,但是也可对特征与其不同的种类,或更多特征的种类生成特征表205。对这种特征的种类,特征表205主要由语言1的特征、语言2的特征、系数α三个项目的组构成。系数α通过分析经翻译处理实际上进行的对话来加以决定。即,在即使接着发声A的下一句话B是很粗的翻译,对方也能理解含义的情况下,发声A的特征系数α算出是负的值,在若不是正确的翻译,对方就不领会含义的情况下,发声A的特征的系数α算出正的值。通过根据翻译处理的粗细和正确度,使系数α的绝对值变化,可以决定更合适的输出时刻,但是这里为了使说明简单,使用±1的值来加以说明。对话履历分析部202从对话履历存储部201中存储的对话的履历中检测出特征表205中的特征,并输出与该特征对应的系数α。但是在系数α为reset的情况下,是指时刻计算部204将输出时刻t返回到初始值T。另外,在没有发现特征的情况下,作为α=0输出。
时刻计算部204从计算资源信息部203中获得各参数的值,获得对话履历分析部202输出的系数α,来计算输出时刻t。t的计算通过按系数α的方向以与ΔT成正比的值来增减当前的t的值来进行。例如,作为最简单的计算,作为t←t+αΔT来加以计算。其中,在输出时刻t为t<minT的情况下为t←minT。
下面,详细说明本发明中支持不同语言的对话的情况下的具体动作。设用户1的母语是日语,用户2的母语是英语。
图11是表示图3所示的对话履历存储部的内容和基于该内容,时刻计算部204算出的搜索时间的上限的初始值的一例的表格。图11是为容易把握发明的动作,将根据用户的话(第一发声信息或第二发声信息)更新的对话履历存储部201的内容记作701,将通过第一翻译处理部102或第二翻译处理部105处理同一发声后输出的译文(第一翻译发声信息或第二翻译发声信息)和似然记作702,将时刻计算部204的输出时刻t的计算结果记作703。在本装置的使用开始之后,在步骤S41中,时刻计算部204参照计算资源信息部203的内容而将输出时刻t设置为T。本装置的状态进入到步骤S402。
图12是表示最先用户1发声时的对话支持装置的翻译发声信息的输出例和显示例的图。设在图12所示的对话支持装置上,用户1按下输入开始按钮303而说“こんにちは”。通过麦克风301,第一输入部101输出“こんにちは”来作为第一发声信息。若用户1按下翻译开始按钮306,则进入到步骤S403,第一翻译处理部102花最大t时间而开始翻译处理。图13是表示表示对图12所示的用户1的对话进行更新后的对话履历存储部的内容和基于该内容,时刻计算部算出的下一搜索时间的上限t的例子的图。如图13的902所示,第一翻译处理部102将“hello”和似然1.0作为第一翻译发声信息输出。由于在第一输出部103的阈值U1=0.6的情况下,该似然比U1大,所以第一翻译发声信息“hello”原样显示为翻译发声信息305,并通过声音合成处理从扬声器310中再现“hello”。与翻译处理的开始同时,对话履历存储部201如图13所示的901那样来进行更新,对话履历分析部202分析对话履历的内容901的特征,但是由于什么特征也没有,所以输出系数α=0。由于时刻计算部204计算的输出时刻t没有变化,所以如903所示那样,原样为t=T。处理进入到步骤S402。
图14是表示对于用户1的话,用户2发声时的对话支持装置的翻译发声信息的输出例和显示例的图。图14所示,设听到用户1的翻译发声的用户2按下输入开始按钮309而发声“Which do you like,tea or coffee?”。通过麦克风313第二输入部104输出“Which do you like,tea or coffee?”来作为第二发声信息。在用户2按下翻译开始按钮312后,进入到步骤S403,第二翻译处理部105花费最大t时间来开始翻译处理。如1102所示,第二翻译处理部105将“お茶とコ一ヒ一どちらがは好きですか?”和似然0.9作为第二翻译发声信息输出。在第二输出部106的阈值U2=0.6的情况下,由于该似然比U2大,所以第二翻译发声信息“お茶とコ一ヒ一どちらがは好きですか?”原样显示为翻译发声信息311,并通过声音合成处理从扬声器304中再现“ぉ茶とコ一ヒ一どちらがは好きですか?”。图15是表示对图14所示的用户2的话,进一步更新的对话履历存储部的内容和基于该内容通过时刻计算部算出的下一搜索时间的上限t的例子的图。同时,对话履历存储部201如图15所示的1101那样来进行更新,对话履历分析部202分析对话履历1101的特征。用户2的发声信息“Which do you like,tea or coffee?”在图10的特征中,(表层表现的连续性,1)较合适。因此,输出该系数α=-1。时刻计算部204将输出时刻t设置为t+αΔT=T-ΔT。处理进入到步骤S402。
图16表示对图14所示的用户2的发声,用户1发声时的对话支持装置的翻译发声信息的输出例和显示例的图。图17是表示对图16所示的用户1的发声,进一步更新的对话履历存储部的内容和基于该内容通过时刻计算部算出的下一搜索时间的上限t的例子的图。图16表示听到了用户2的翻译发声的用户1按下输入开始按钮303而开始“コ一ヒ一がいいです”的情况下的例子。通过麦克风301第一输入部101输出“コ一ヒ一がいいです”来作为第一发声信息。用户1在按下翻译开始按钮306后,进入到步骤S403,第一翻译处理部102最大花t=T-ΔT的时间来开始翻译处理。如902所示,第一翻译处理部102将“coffee good would”和似然0.5作为第一翻译发声信息输出。由于第一输出部103的阈值U1=0.6,所以该似然比U1小。第一翻译发声信息“coffee good would”中,作为独立词的““coffee”和“good”强调显示为翻译发声信息305。但是,由于不进行声音合成处理,所以不从扬声器310中再现任何声音。与翻译处理的开始同时,对话履历存储部201如图17所示的1301那样来进行更新,对话履历分析部202分析对话履历的内容1301的特征,由于什么特征都没有,所以输出系数α=0。由于时刻计算部204计算的输出时刻t没有变化,所以如图1303所示那样,原样为t=T-ΔT。处理进入到步骤S402。
本发明的效果如下这样来表现。即,若用图9的各参数的具体数值来进行说明,则在25秒内处理用户1的最初的谈话和用户2的第二次的谈话,但是在15秒内处理了用户1的第三次谈话。因此,由于不清楚即使花了25秒是否能得到正确的翻译,但是由于花15秒得到了继续进行对话所需的充分的译文,所以用户1和用户2可以迅速完成对话。另外,由于继续进行对话所需的充分的译文不流畅和含义不充分明确,则若通过声音合成来读取,则会使对方混乱。本发明中,在根据译文的似然,不流畅或含义不充分明确的情况下,停止声音合成处理,通过在译文的显示中强调显示独立词语,避免了对方的混乱,可以快速进行进行对话。
图18是与现有方式的对话支持装置用对话履历和搜索时间的上限来对比基于本发明的对话支持装置的效果后的图。这里,进一步定量验证本发明的效果。图18表示将自动翻译功能原样用于对话支持的现有方式的对话1401和通过本发明支持的对话1402。在现有方式的对话中,由于各翻译处理所需的时间的上限一定,所以对8句话需要8T的时间。根据图9的各参数值,该8句话的对话的翻译时间需要3分20秒,用户1不能向用户2传达自己的意思。但是,在通过本发明支持的对话中,由于根据对话的上下文使翻译处理的上限时间变化,所以对同样的8句话,仅需要(8T-2ΔT)的时间。即,3分钟内用户1和用户2彼此明白了意思。因此,在现实中,在必须快速完成对话的状况中,本发明的效果有效。另外,在图18(a)所示的例子中,与(b)所示的现有例相比,由于对话时间缩短了2ΔT,但是本发明的对话支持装置不见得必然缩短了对话时间,但是可以得到与现有的对话支持装置相同的对话时间。但是,本发明的对话支持装置中,不是如现有技术那样,总是用相同的时间来搜索对译语言数据库,而仅在发现了要求更准确和流畅的对话的特征的情况下对搜索花上时间。由此,可以得到更基于对话的流程的翻译结果,结果,有即使在对话中花上相同的时间,也有获得与对话对方的意思交流的概率高的效果。
进一步从其他观点来验证本发明的效果。图19是表示基于本发明的对话支持装置的平均翻译处理时间和基于现有方式的平均翻译处理时间的对比的曲线。图18中,用对话履历和搜索时间的上限来对比现有方法和本发明,但是图19表示对对话履历和搜索时间,从平均翻译处理时间的观点从对话开始到对话完成所描绘的图。某个时刻t的平均翻译处理时间是到时刻t为止所花费的翻译处理时间的总和除以到时刻t为止的发声句数的翻译处理时间的平均值。由于现有方式中翻译处理时间一定,所以平均翻译处理时间也一定。但是,本发明中,若对话进行,则对话的履历的累积量增加,同时,翻译处理时间的平均值减少。因此,在意思交流的水平为相同的水平来完成对话时,本发明的方法与现有方式相比,还有对话所需的时间减少的效果。
图20是表示本发明的对话支持装置的变形例的结构框图。图21是表示本发明的对话支持装置的变形例的用户接口的图。图5表示了本发明的用户接口的一例,但是如图20所示,也可以通过在图2的结构上加上通信部1503~1510,将图2的结构分为终端1501和终端1502,并通过图21所示的用户接口来进行安装。通过为这种结构,用户1的终端1501中,可以省略决定输出时刻的处理。即,用户1的终端1501中,可以根据从用户2的终端1502接收的输出时刻来进行第一翻译处理部102的翻译处理。具体的,如图21所示,在用户1的终端1501中,预先从用户2的终端1502中接收输出时刻。并且,在用户1按下输入开始按钮303而输入“こんにちは”,接着按下翻译开始按钮306后,第一翻译处理部102将用户1的发声信息“こんにちは”翻译为英语,直到从终端1502接收的输出时刻。终端1501中,将作为第一翻译处理部102的翻译结果的翻译发声信息和似然从通信部1503送到终端1502的通信部1504,终端1502中,将所接收的翻译发声信息“Hello.”通过扬声器310进行再现输出。终端1502中,经通信部1507和通信部1508接收通过终端部1 501输入的话“こんにちは”的发声信息,分析所接收的发声信息“こんにちは”,算出对下一发声的翻译发声信息的输出时刻。这里,为终端1501不具有输出时刻决定部的结构,但是本发明并不限于此,终端1501还为与具有输出时刻决定部的终端1502相同的结构。
图22是表示本发明的对话支持装置的第二变形例的结构框图。如图22所示,通过在图2的结构上加上通信部1704~1711,而也可将第一翻译处理部102、第二翻译处理部105和输出时刻决定部107安装到服务器1703上,安装为使得分别经通信线路将终端1701和终端1702连接到服务器1703。由此,可以简化终端1701和终端1702的结构,可以实现终端1701和终端1702的小型化、轻量化和节电力化等。
另外,在对话履历分析部202从对话履历存储部201的内容中发现特征时,通过将参照的对话信息的范围扩展到之前的n句话,可以进一步进行精细的翻译处理时间的控制。例如,通过累积之前的6句话中出现图10的特征表205中的相互理解的特征的系数α,可以更准确算出用户1和用户2的相互理解的程度,通过基于此来计算输出时刻t的值,可以决定更需要的充分的翻译处理时间的上限。
另外,通过用所输入的发声信息的单词数来正规化计算资源信息部203保持的各参数的值,可以进一步进行精细的翻译处理时间的控制。例如,在上述的例子中,根据发声信息的平均单词数W来计算T和ΔT的值,但是若所输入的发声信息的单词数是W/2,则通过将已经算出的t的值正规化为1/2的t/2作为翻译处理时间的上限,在翻译处理开始之前设置,可决定更需要的充分的翻译处理时间的上限。或,若输入的发声信息的单词数是2W,则通过将已经算出的t正规化为2倍后的2t作为翻译处理时间的上限,在翻译处理开始之前设置,则决定了更需要的充分的翻译处理时间的上限。另外,这种情况下,表示本发明的效果的图19的曲线应在t的值回到正规化前的时间后绘图解释。
另外,在上述的实施形态中,用时间t来限制翻译处理时间的上限,但是即使使用与时间t成正比的其他参数来间接限制翻译处理时间的上限,也可以为相同的效果。例如,由于统计翻译处理中的译文的搜索的深度d和翻译处理时间成正比,所以设置平均的搜索深度D和与ΔT相当的搜索的深度的改变幅度ΔD,通过将上述的处理中的T和D原样进行记号替换来加以实施,可以为相同的效果。当然除了搜索的深度之外,若用搜索的步数或搜索范围的广度等的规定翻译处理量的参数来代替,也可得到相同的效果。
作为一例,举出了日语和英语,但是对于法语、德语、韩语和中文等其他语言,也可同样加以实施,本发明不依赖于语言。
(实施形态2)
上述实施形态1中,设作用户1的母语是日语,用户2的母语是英语,而详细说明了在本发明中支持不同语言的对话的情况下的具体动作,但是在下面的实施形态2中,说明用户1的母语是中文,用户2的母语是英语来支持两者的对话的对话支持装置的例子。实施形态2的对话支持装置的结构仅作为各处理部的处理对象的语言不同,各处理部的处理内容与图2所示的内容相同,所以省略图示。实施形态2的对话支持装置和实施形态1的对话支持装置的不同点如下。
第一输入部101输入基于第一语言(中文)的用户1(第一用户)的话,并输出以用户1的话为字符串的第一发声信息。第一翻译处理部102将第一发声信息翻译为用户2(第二用户)的第二语言(英语)而输出第一翻译发声信息和第一翻译发声信息的似然。
图23是表示实施形态2的对话支持装置的用户接口的图。图23表示安装了本发明的硬件的用户接口。说中文的用户1使用左侧的用户接口,说英语的用户2使用右侧的用户接口。鼠标301、输入发声信息302和输入开始按钮303相当于第一输入部101,扬声器304、翻译发声信息311和翻译发声信息311相当于第二输出部106。翻译开始按钮306是开始第一翻译处理部102的翻译处理的按钮。同样,麦克风307、输入发声信息308和输入开始按钮309相当于第二输入部104,扬声器310和翻译发声信息305相当于第一输出部103。翻译开始按钮312是开始第二翻译处理部105的翻译处理的按钮。
图24是表示语言1是中文,语言2是英文的情况下的特征表的数据结构的一例的图。图10中,说明了用户1的母语是语言1(日语),用户2的母语是语言2(英语)的情况下的特征表的数据结构。但是,图24中,在用户1的母语是语言1(中文)的方面与图10的特征表不同。
图25是表示最先用户1发声时的对话支持装置的翻译发声信息的输出例和显示例的图。设图25的对话支持装置中,用户1按下输入开始按钮303,而说“你好”。通过麦克风301第一输入部101输出“你好”来作为第一发声信息。在用户1按下翻译开始按钮306后,第一翻译处理部102花最大t时间来开始翻译处理。图26是表示对图25所示的用户1的话更新后的对话履历存储部的内容和基于该内容通过时刻计算部算出的下一搜索时间的上限t的例子的图。如图26的902所示,第一翻译处理部102输出“hello”和似然1.0来作为第一翻译发声信息。在第一输出部103的阈值U1=0.6的情况下,由于该似然比U1大,所以第一翻译发声信息“hello”原样显示为翻译发声信息305,并通过声音合成处理部从扬声器310中再现“hello”。与翻译处理的开始同时,对话履历存储部201如图26所示的901那样来进行更新,对话履历分析部202分析对话履历的内容901的特征,但是由于什么特征都没有,所以输出系数α=0。由于时刻计算部204计算的输出时刻t不变化,所以如图903所示那样,仍为t=T。
图27是表示对用户1的话,用户2发声时的对话支持装置的翻译发声信息的输出例和显示例的图。听到了图27所示的用户1的翻译发声的用户2按下输入开始按钮309而说“Which do you like,tea or coffee?”。通过麦克风313,第二输入部104输出“Which do you like,tea or coffee”作为第二发声信息。在用户2按下翻译开始按钮312后,第二翻译处理部105花上最大t时间来开始翻译处理。如1102所示那样,第二翻译处理部105输出“茶和咖啡喜欢哪个”和似然0.9来作为第二翻译发声信息。在第二输出部106的阈值U2=0.6的情况下,由于该似然比U2大,所以第二翻译发声信息“茶和咖啡喜欢哪个”原样显示到翻译发声信息311上。进一步,通过声音合成处理,从扬声器304再现“茶和咖啡喜欢哪个”。图28是表示对图27所示的用户2的话,进一步更新后的对话履历存储部的内容和基于该内容通过时刻计算部算出的下一搜索时间的上限t的例子的图。同时,对话履历存储部201如图28所示的1101那样来进行更新,对话履历分析部202分析对话履历1101的特征。图24的特征中(表层表现的连续性,1)适合用户2的发声信息“which do you like tea or coffee”。因此,输出该系数α=-1 。时刻计算部204将输出时刻t设置为t+αΔT=T-ΔT。
图29是表示对图27所示的用户2的对话,用户1发声时的对话支持装置的翻译发声信息的输出例和显示例的图。另外,图30是表示对图29所示的用户1的话,进一步更新后的对话履历存储部的内容和基于该内容通过时刻计算部计算出的下一搜索时间的上限t的例子的图。图29表示听了用户2的翻译发声的用户1按下输入开始按钮303,而说“喜欢咖啡”的情况行下的例子。通过麦克风301第一输入部101输出“喜欢咖啡”来作为第一发声信息。若用户1按下翻译开始按钮306,第一翻译处理部102花最大t=T-ΔT的时间来开始翻译处理。如图902所示,第一翻译处理部102输出“coffeegood would”和似然0.5来作为第一翻译发声信息。由于第一输出部103的阈值U1=0.6,所以该似然比U1小。因此,将第一翻译发声信息“coffee goodwould”中,独立词的“coffee”和“good”强调显示为翻译发声信息305。但是,由于不进行声音合成处理,所以从扬声器310什么都不再现。与翻译处理的开始同时,对话履历存储部201如图30所示的1301那样来加以更新,对话履历分析部202分析对话履历的内容1301的特征,但是由于没有任何特征,所以输出系数α=0。由于时刻计算部204计算出的输出时刻t不变化,所以如1303所示那样,仍为t=T-ΔT。
如下这样来表现本发明的效果。即,与实施形态1相同,若用图9的各参数的具体数值来加以说明,则用户1的最初的发声和用户2的第二次的发声在25秒内进行了翻译处理,但是用户1的第三次的发声在15秒内进行处理。因此,由于不清楚即使对用户1的第三次发声的翻译处理花上25秒能否得到需要的译文,但是花上15秒就得到了继续进行对话所需的充分的译文,所以用户1和用户2可以快速完成对话。另外,由于继续进行对话所需的充分译文中,不流畅或含义不充分明确,所以若通过声音合成读出,则会使对方混乱。本发明中,在根据译文的似然不流畅和含义不充分明确的情况下,停止声音合成处理,而在译文的显示中强调显示独立语,避免了对方的混乱,同时可以快速进行进行对话。
这里,进一步定量验证本发明的效果。图31是用对话履历和搜索时间的上限来对比本发明的对话支持装置的效果和现有方式的对话支持装置的效果的图。图3 1表示将自动翻译功能原样用于对话支持的现有方式的对话1401和通过本发明来支持的对话1402。现有方式的对话中,由于各翻译处理所需的时间上限一定,所以对8句话需要8T的时间。根据图9的各参数值,该8句话的对话的翻译时间需要3分20秒,用户1不能向用户2传达自己的意思。但是,在通过本发明支持的对话中,由于根据对话的上下文使翻译处理的上限时间变化,所以对同样的8句话,仅需要(8T-2ΔT)的时间。即在3分钟内用户1和用户2相互理解了意思。因此,在现实世界中必须快速完成对话的状况中,本发明的效果有效。在图31(a)所示的例子中,与(b)所示的现有例相比,对话时间缩短了2ΔT,但是在本发明的对话支持装置中,不见得必然缩短了对话时间,但是可以产生与现有的对话支持装置相同的对话时间。但是,本发明的对话支持装置中,不是如现有技术那样,总是用相同的时间来搜索对译语言数据库,仅在发现了要求更准确和流畅的对话的特征的情况下对搜索花上时间。由此,可以得到更基于对话的流程的翻译结果,结果,有即使在对话中花上相同的时间,也有得到与对话对方的意思的交流的概率高的效果。
进一步从其他观点来验证本发明的效果。图31用对话履历和搜索时间的上限对比了现有方式和本发明,但是对对话履历和搜索时间,图19表示根据平均翻译处理时间的观点从对话开始到对话完成来进行描绘的图。某个时刻t的平均翻译处理时间是到时间t为止所花费的翻译处理时间的总和除以到时间t为止的发声句数的翻译处理时间的平均值。由于现有方式中翻译处理时间一定,所以平均翻译处理时间也一定。但是,本发明中,若对话进行,则对话的履历的累积量增加,同时,翻译处理时间的平均值减少。因此,在意思交流的水平为相同的水平来完成对话时,本发明与现有方式相比,还有对话所需的时间减少的效果。
图32是表示本发明的对话支持装置的变形例的结构框图。本实施形态2中,也可通过将通信部1503~1510加到图2的结构中,而将图2的结构分为终端1501和终端1502,而通过如图32所示的用户接口来实现。该用户接口的具体内部结构与图21所示的结构相同。
图33是表示本发明的对话支持装置的硬件结构的一例的框图。如该图所示,本发明的对话支持装置3200具有扬声器3201、麦克风3202、外部存储器3203、显示部3204、ROM3205、CPU(处理器)3206、RAM3207、通信部3208、输入部3209和总线3210。
扬声器3201实现第一输出部103和第二输出部106,用合成声音来输出所翻译的话。麦克风3202实现第一输入部101和第二输入部104的一部分,接收用户1和用户2的声音的输入。外部存储器3203是硬盘、DVD和IC卡等的大容量存储器,存储语法和对译汇编等来实现对译语言数据库。另外,外部存储器3203在对译支持装置3200的启动后,存储装载到RAM3207中加以执行的程序等。显示部3204是液晶显示器等,显示第一发声信息和第二发声信息等。ROM3205是非易失性的只读半导体存储器,存储对话支持装置3200的启动用程序等。CPU3206通过执行ROM3205和RAM3207中存储的程序,来实现图2、图3、图4、图20和图22的框图中所示的对话支持装置内的各处理部。RAM3207是易失性的可读写半导体存储器,在对话支持装置3200的启动后,向CPU3206供给装载后的程序,同时,通过保持CPU3206的处理中间的数据来提供操作区域。通信部3208实现图20和图22所示的通信部1503~1510和通信部1704~1711,而通过红外线通信和近距离无线通信等来进行数据的发送接收。输入部3209是输入开始按钮303、309和翻译开始按钮306、312等的操作按钮,接收用户的操作输入。总线3210是对话支持装置3200内的并行数据传送路径,进行各处理部之间的数据传送。
另外,框图(图2-图4、图20和图22等)的各功能框图典型地由作为集成电路的LSI来实现。这些可以分别单芯片化,也可集成单芯片化,使其包含一部分或全部。
例如,存储器之外的功能块可以是一个芯片。
这里,作为LSI根据集成度的不同,还称作IC、系统LSI、超级LSI和顶级LSI。
集成化的方法并不限于LSI,也可通过专用电路或通用处理器来实现。在LSI制造后,也可利用可编程的FPGA(Field Programmable GateArray)或可重新构成LSI内部的电路单元的连接或设定的可重构处理器。
进一步,若因半导体技术的进步或所派生的其他技术,替换LSI的集成的技术出现,则当然可以使用该其他技术来进行功能块的集成。可以适用生物技术等。
另外,各功能块中,也可不使存储作为编码或解码的对象的数据的单元单芯片化,而分开构成。