CN109891498A

CN109891498A - 语音对话系统、语音对话装置、用户终端以及语音对话方法

Info

Publication number: CN109891498A
Application number: CN201780065619.2A
Authority: CN
Inventors: 广江厚夫; 冈本拓磨; 木俵丰
Original assignee: State-Run Research And Development Legal Person Nict
Current assignee: State-Run Research And Development Legal Person Nict
Priority date: 2016-11-08
Filing date: 2017-11-06
Publication date: 2019-06-14
Also published as: JP6767046B2; US11024286B2; US20200066254A1; JP2018077306A; WO2018088355A1

Abstract

以往，在用户与语音对话装置之间的一系列的对话进行了一定程度之后，该用户或者其他用户无法对过去的对话的状况进行确认等。本发明的跨语言的语音对话系统在配对服务器接收到来自用户终端的指示的情况下，存储在存储介质中的对话信息被发送至用户终端，根据该语音对话系统，在用户与语音对话装置之间的一系列的对话进行了一定程度之后，该用户或者其他用户能够确认或者认知过去的对话的状况。

Description

语音对话系统、语音对话装置、用户终端以及语音对话方法

技术领域

本发明涉及在混有多个语言的环境下使用的跨语言的语音对话装置等。

背景技术

语音对话系统在用户相对于系统用语音讲话提问等时，系统相对于该讲话进行如以下(1)至(4)的处理，将得到的响应用语音或者文字等输出。

(1)语音识别：将语音讲话转换成对应的文本。

(2)语言理解：将语音识别结果分类成与意思相应的概念，并且进行在响应生成中使用的关键词的提取等。

(3)对话控制：根据概念以及关键词生成与其相应的响应的文本。还根据需要进行通过进行对话履历的反映和对话情景的迁移等，来对相同的语音讲话生成不同的响应等处理。

(4)语音合成：将响应的文本转换成相应的语音波形。

另外，在机场或著名景点等、说各种语言的人聚集的场所，进行设施向导或观光向导的语音对话系统优选与多个语言相对应。将仅与单个语言相对应的系统称为单语言(语音)对话系统，将与多个语言相对应的系统称为多语言(语音)对话系统。语言的切换除了用户的手动操作之外，在技术上也能够实现自动识别用户讲话的语言并使用与该语言相匹配的语音识别、语言理解、响应生成、语音合成。

进一步，也考虑在如上所述存在说各种语言的人们的环境下，分别说不同语言的多个人同时使用一台系统的场景。在这种场景下，在某用户用一个语言进行了与系统的对话之后，说其他语言的用户开始与系统的对话的情况下，如果接管此前的对话履历进行响应生成，则在以下各方面有益。

(1)在想要对之前的用户进行的提问追加提问的情况下，由于无需在语言切换时重新输入之前的提问，因此与没有语言间的对话的接管的情况相比，能够在相同时间供多个用户使用。

(2)由于说不同语言的用户之间也能够协作使用一台系统，因此能够作为交流促进工具。

将具有如上所述的特点的语音对话系统称为跨语言语音对话系统。

而且，关于跨语言对话系统，在以下的非专利文献1、非专利文献2的以往技术中已被公开。该跨语言对话系统为使用加权有限状态转换器(WFST)的框架的语音对话系统。

在上述语音对话系统中，具备用全部的对应语言显示用户的讲话以及系统的响应的机构。将它称为“实况转播显示器”。实况转播显示器的例子如图27所示。在图27中，由作为语言对话系统的一台机器人(R)与说英语、日语、中文的三个用户(EU、JU、CU)进行对话。在此，说英语的用户(EU)对机器人(R)用英语讲话，机器人(R)也用英语对其响应，说日语的用户(JU)以及说中文的用户(CU)也分别用自己的语言讲话，机器人(R)用与之相同的语言响应。另一方面，在实况转播显示器的显示中，用户的讲话除了用户讲话的语言之外，还用其他对应语言显示。另外，机器人(R)的响应也同样地，除了与用户讲话相同的语言之外，还用其他对应语言显示。

通过这种实况转播显示器，参与跨语言对话的、彼此说不同语言的用户能够容易地理解其他用户的讲话以及系统的响应。另外，在该对话系统的周围观看对话的人们(以下适当地称为“观众”)也能够理解进行着什么样的对话，因此便于从中途开始参与对话。

在先技术文献

非专利文献

非专利文献1：冈本拓磨，广江厚夫，堀智织，河井恒，“言語理解WFST並列連続に基づくクロスリンガル音声対話”，2015年秋季日本声学会研究发表会讲演论文集，pp.35～38，2015年9月。

非专利文献2：“クロスリンガル音声対話システムの紹介”，[online]，[2016年10月30日检索]，互联网[URL：https://www.nict.go.jp/video/cross-lingual.html]

发明内容

发明所要解决的技术问题

然而，在以往的语音对话系统中，存在如下技术问题：即在用户与语音对话系统之间的一系列的对话进行了一定程度之后，该用户或者其他用户无法确认或者认知过去的对话的状况。

进一步详细而言，在上述实况转播显示器中存在例如以下(A)至(C)的技术问题。

(A)在对话系统不具有显示器的情况下无法适用。

(B)由于通过一台显示器相对于全部用户用全部语言显示信息，因此无法显示过多的信息。即，用户讲话与系统响应为最新的内容，或者最多只能显示几轮前的内容。因此，观众为了理解对话就必须从对话开始(对话会话的开始)一直观看实况转播显示器。

(C)虽然观众能够从对话的中途开始参与，但是在不想打扰已有用户的对话的情况下、或者不想被别人听见讲话的情况下，会犹豫从中途开始参与。

鉴于以上技术问题，本发明中的至少一部分的目的在于，在跨语言语音对话系统等中，在用户与语音对话系统之间的一系列的对话进行了一定程度之后，该用户或者其他用户也确认或者认知过去的对话的状况。

另外，本发明中的至少一部分的目的在于，从一系列的对话的中途开始独立于第一个用户继续对话。

用于解决技术问题的方案

在本申请的第一发明的语音对话系统中，在存储介质中存储对话信息，所述对话信息是一系列的对话的信息，并具有用户的讲话输入语音的语音识别结果即讲话文本、根据该讲话文本生成的一个以上的讲话翻译结果、相对于所述讲话文本的系统的响应即响应文本、以及根据该响应文本生成的响应翻译结果，在跨语言的语音对话系统中的对话的进行中，在从用户终端接收到配对的指示的情况下，进行与该用户终端之间的配对的处理，向该用户终端发送所述对话信息。

根据该结构，在跨语言语音对话系统中，在用户与语音对话系统之间的一系列的对话进行了一定程度之后，该用户或者其他用户能够确认或者认知过去的对话的状况。

另外，本申请的第二发明的语音对话装置具备：对话信息存储部，存储对话信息，所述对话信息是一系列的对话的信息，并具有用户的讲话输入语音的语音识别结果即讲话文本、以及相对于该讲话文本的系统的响应即响应文本；受理部，受理能够通过两个以上的不同语言发声的输入语音；语音识别部，对输入语音进行语音识别，生成语音识别结果即讲话文本；对话控制部，使用讲话文本，生成相对于该讲话文本的响应即响应文本；翻译部，根据讲话文本生成一个以上的讲话翻译结果，并且根据响应文本中生成一个以上的响应翻译结果；语音合成部，取得与响应文本相应的语音；语音输出部，输出语音；指示接收部，从用户终端接收配对的指示；以及对话信息发送部，在指示接收部从用户终端接收到指示的情况下，将存储在对话信息存储部中的对话信息发送至用户终端。

根据该结构，在用户与语音对话装置之间的一系列的对话进行了一定程度之后，该用户或者其他用户能够确认或者认知过去的对话的状况。

另外，相对于第二发明，本申请的第三发明的语音对话装置为如下的语音对话装置：受理部还受理来自用户终端的输入语音，对话控制部在来自用户终端的输入语音被受理的情况下，根据与该输入语音相对应的讲话文本，生成相对于该讲话文本的响应即响应文本，该响应文本被发送至所述用户终端。

根据该结构，在用户对用户终端讲话的情况下，同步被解除，能够产生对话履历的分支。也就是说，例如第二个以后的用户能够通过对自己的用户终端讲话，来从对话的中途开始独立于第一个用户继续对话。

另外，相对于第三发明，本申请的第四发明的语音对话装置为如下的语音对话装置：对话控制部还受理表示一系列的对话的对话信息中的一个位置的位置信息，使用作为对话信息中的对话的信息的、到与位置信息相对应的位置为止的对话的信息，根据与来自用户终端的输入语音相对应的讲话文本，生成相对于该讲话文本的响应即响应文本。

根据该结构，能够回溯到过去的对话的交互进行对话的分支。

另外，本申请的第五发明的用户终端具备：终端发送部，在与语音对话系统或者语音对话装置之间的一系列的对话的中途，发送配对的指示；终端接收部，与指示的发送相应地，接收作为到当前为止的一系列的对话的信息的对话信息；终端存储部，存储识别用户所使用的语言的语言识别符；以及终端输出部，仅输出终端接收部接收的对话信息中的、通过语言识别符识别出的语言的信息。

根据该结构，在用户与语音对话装置之间的一系列的对话进行了一定程度之后，其他用户能够用自己使用的语言确认或者认知过去的对话的状况。

发明的效果

根据本发明的语音对话系统等，在与用户之间的一系列的对话进行了一定程度之后，该用户或者其他用户也能够确认或者认知过去的对话的状况。

附图说明

图1是示出第一实施方式中的语音对话系统1的系统构成图的例子的图。

图2是构成该实施方式中的语音对话系统1的语音识别服务器11的框图。

图3是该实施方式中的对话控制服务器12的框图。

图4是构成该实施方式中的对话控制服务器12的对话控制模块122的框图。

图5是该实施方式中的语音合成服务器13的框图。

图6是该实施方式中的机器翻译服务器14的框图。

图7是该实施方式中的配对服务器15的框图。

图8是该实施方式中的对话客户端16以及机器人17的框图。

图9是该实施方式中的用户终端18的框图。

图10是对该实施方式中的对话控制服务器12的动作进行说明的流程图。

图11是对该实施方式中的用户终端18的动作进行说明的流程图。

图12是示出该实施方式中的显示例的图。

图13是示出该实施方式中的显示例的图。

图14是示出该实施方式中的显示例的图。

图15是示出该实施方式中的显示例的图。

图16是示出该实施方式中的对话情景的例子的图。

图17是示出该实施方式中的作为对话履历的对话信息的图。

图18是示出该实施方式中的对话客户端16的详细的例子的图。

图19是示出该实施方式中的跨语言语音对话系统1的一个状态的图。

图20是示出该实施方式中的跨语言语音对话系统1的一个状态的图。

图21是示出该实施方式中的跨语言语音对话系统1的一个状态的图。

图22是示出该实施方式中的作为对话履历的对话信息的图。

图23是第二实施方式中的语音对话系统2的框图。

图24是对该实施方式中的语音对话装置21的动作进行说明的流程图。

图25是第一实施方式、第二实施方式的计算机系统的外观图。

图26是示出该计算机系统的内部结构的框图。

图27是示出以往技术的实况转播显示器的例子的图。

具体实施方式

下面，参照附图，对语音对话系统等的实施方式进行说明。此外，在实施方式中赋予了相同的附图标记的结构要素进行相同的动作，因此存在省略再次说明的情况。

(第一实施方式)

在本实施方式中，对如下所述的语音对话系统进行说明：即在跨语言的语音对话系统中的对话的进行中，在存储介质中存储对话信息，所述对话信息是一系列的对话的信息，所述对话信息具有作为用户的讲话的输入语音的语音识别结果即讲话文本、以及相对于讲话文本的系统的响应即响应文本，在对话的进行中，在从用户终端接收到配对的指示的情况下，进行与用户终端之间的配对的处理，向用户终端发送对话信息。

另外，在本实施方式中，对语音对话系统与用户终端之间同步的语音对话系统进行说明。

另外，在本实施方式中，对在用户相对于用户终端讲话的情况下，与语音对话系统之间的同步被解除，能够产生对话履历的分支的语音对话系统进行说明。

另外，在本实施方式中，对还能够通过用户终端上的操作来回溯到过去的交互进行分支的语音对话系统进行说明。

图1是本实施方式中的语音对话系统1的系统构成图的例子。语音对话系统1具备语音识别服务器11、对话控制服务器12、语音合成服务器13、机器翻译服务器14、配对服务器15、对话客户端16、机器人17以及一个或者两个以上的用户终端18。此外，也可以认为语音对话系统1不具备用户终端18。

或者，假设语音识别服务器11、对话控制服务器12、语音合成服务器13、机器翻译服务器14、配对服务器15、对话客户端16以及用户终端18能够通过互联网或者局域网等网络相互通信。

此外，假设语音对话系统1作为现实的对话代理而具备机器人17，并且能够由对话客户端16对其进行控制。

另外，语音识别服务器11、对话控制服务器12、语音合成服务器13、机器翻译服务器14、配对服务器15以及对话客户端16通常为所谓的服务器装置，例如为云服务器、ASP服务器，其种类不限。上述服务器也可以通过所谓的个人计算机等来实现。机器人17为进行对话的用户搭话的机器人。机器人既可以是人型，也可以是模仿动物等的形状。也就是说，机器人的形状不限。机器人17将受理到的用户的语音传送至对话客户端16，并输出从对话客户端16受理到的语音。另外，对话客户端16与机器人17当然也可以为一体。进一步，用户终端18例如为所谓的智能手机、平板终端、个人计算机、手机等，其种类不限。此外，将机器人17适当地称为对话机器人17。

图2是构成本实施方式中的语音对话系统1的语音识别服务器11的框图。语音识别服务器11具备语音受理部111、语言识别部112、语音识别引擎113以及讲话文本送出部114。此处的语音识别引擎113具有与日语、英语等两个以上的语言相对应的每个语言的语音识别引擎113，当然也可以由一个语音识别引擎113对多个语言的语音进行语音识别处理。

语音识别服务器11受理能够通过两个以上的不同语言发声的输入语音，对输入语音进行语音识别，生成语音识别结果即讲话文本。进一步详细地，语音识别服务器11特定与受理的语音波形相对应的语言，并且进行识别结果的生成，将作为语言识别结果的语言识别符与识别结果的组合发送至客户端。此外，此处所说的客户端是委托服务(此处为语音识别处理)的装置。客户端例如是对话客户端16，但是也可以是用户终端18等，是任意的。

另外，语音识别服务器11还受理来自用户终端18的输入语音。此处的受理通常是指接收。但是，受理也可以是对来自未图示的麦克风的输入语音的受理。输入语音为用户对机器人17或者用户终端18发出的语音的数据。此外，语音识别服务器11进行的语音识别处理考虑各种算法，由于语音识别处理为公知技术，因此省略详细的说明。

下面，对语音识别服务器11的详细进行叙述。构成语音识别服务器11的语音受理部111受理输入语音。

语言识别部112根据语音受理部111受理的输入语音，进行识别语言的处理，取得语言识别符。语言识别符只要是识别语言的信息即可，其数据构造不限。语言识别符例如为“日语”、“英语”、“中文”、“韩语”或者“日”、“英”、“中”、“韩”等。此外，语言识别部112的处理为公知技术，因此省略详细的说明。

语音识别引擎113对语音受理部111受理的输入语音进行语音识别，取得语音识别结果即讲话文本。

讲话文本送出部114送出由语音识别引擎113取得的讲话文本。讲话文本送出部114通常将讲话文本发送至客户端。此外，此处的客户端例如是语音识别服务器11、对话控制服务器12、对话客户端16、用户终端18，但是也可以是其他装置。

图3是对话控制服务器12的框图。对话控制服务器12具备讲话文本受理部121、对话控制模块122以及响应文本送出部123。对话控制服务器12例如为了能够应对将在后面进行说明的产生了分支的情况，能够存在多个各对话控制模块122。

对话控制服务器12受理语音识别服务器11生成的讲话文本，生成相对于讲话文本的响应即响应文本。对话控制服务器12在来自用户终端18的输入语音被受理的情况下，也根据与该输入语音相对应的讲话文本，生成相对于讲话文本的响应即响应文本。

另外，对话控制服务器12将过去的讲话文本与响应文本作为对话履历保存，还能够根据来自客户端的请求进行其发送。由于需要对每个客户端分别进行对话控制以及履历的管理，因此对话控制服务器通常保持有与各客户端相对应的对话控制模块。此外，此处的客户端例如是用户终端18，但是也可以是其他装置。

对话控制服务器12也可以还受理表示一系列的对话的对话信息中的一个位置的位置信息。在这种情况下，对话控制服务器12能够使用一系列的对话的对话信息中的、到该位置信息所示的位置为止的对话信息，生成相对于受理的讲话文本的响应即响应文本。对话信息为一系列的对话的履历的信息。对话信息通常具有讲话文本、一个以上的讲话翻译结果、响应文本、以及一个以上的响应翻译结果。讲话文本是作为用户的讲话的输入语音的语音识别结果。讲话翻译结果是翻译成讲话文本的语言之外的语言的讲话文本的翻译结果。响应文本是相对于讲话文本的系统的响应。响应翻译结果是翻译成响应文本的语言之外的语言的响应文本的翻译结果。

构成对话控制服务器12的讲话文本受理部121受理讲话文本。讲话文本受理部121通常从语音识别服务器11接收讲话文本。

对话控制模块122根据讲话文本受理部121受理的讲话文本，生成与该讲话文本表示的讲话相对应的响应即响应文本。对话控制模块122的算法不限。对话控制模块122例如能够使用日本特开2013-168169、日本特开2011-248549、日本特开2009-211629、日本特愿2016-148984等中记载的、根据讲话文本生成响应文本的算法。另外，根据讲话文本生成响应文本的算法能够使用各种公知的算法。

图4是构成对话控制服务器12的对话控制模块122的框图的例子。对话控制模块122例如具备对话情景存储部1221、数据库1222、对话履历存储部1223、语言理解部1224、情景控制部1225以及响应生成部1226。此外，虽然在图4中对话控制模块122具有与各语言相对应的多个语言理解部1224，但是也可以由一个语言理解部1224进行对多个语言的处理。

构成对话控制模块122的对话情景存储部1221存储用于对话控制的对话情景。对话情景是对话的情景，也就是表示对话的进程的信息。

对话情景例如是以下的对话构造信息。对话构造信息是指，表示对话的关联的信息，具有一个以上的对话连接信息。对话连接信息具有对第一说话者(通常为用户)的输入语音进行抽象的第一对话行为标签、以及对第二说话者(通常为语音对话系统1)的输出语音进行抽象的第二对话行为标签。在此，第一说话者例如表示使用语音对话系统1的用户。第二说话者表示语音对话系统1内的虚拟说话者。另外，第一对话行为标签与第二对话行为标签中的某一个可以为空。另外，输入语音或者输出语音的抽象是指，从构成输入语音或者输出语音的语句的意义、意思等的角度，按照种类对输入语音或者输出语音进行分类。此外，按照种类对输入语音或者输出语音进行分类是指，相对于输入语音或者输出语音，确定多个种类中的一个种类。而且，对输入语音或者输出语音进行了抽象的对话行为标签是表示对话行为的种类的信息。表示对话行为的种类的信息例如有“q.spot”、“q.weather”、“q.how-to-take”、“q.cost”、“thanks”等。q.spot是表示询问观光场所的提问的对话行为标签，q.weather是表示询问今天天气的提问的对话行为标签，q.how-to-take是表示询问如何前往目的地的提问的对话行为标签，q.cost是表示询问到目的地为止所需的金额的提问的对话行为标签，thanks是表示谢意的对话行为标签。第二说话者的输出语音通常是与第一说话者的输入语音相对应的响应的语音等。对话连接信息也可以具有起始端节点识别符、终止端节点识别符、第一对话行为标签和第二对话行为标签。另外，对话连接信息优选还具有表示从通过起始端节点识别符识别出的节点向通过终止端节点识别符识别出的节点迁移的概率的信息即权重信息。对话连接信息优选还进一步具有表示动作的信息即动作识别符。另外，对话连接信息也可以具有起始端节点识别符与终止端节点识别符，并且具有第一对话行为标签、第二对话行为标签、动作识别符中的一个以上的信息。动作识别符是指，例如函数名、方法名、执行模块名等。在此，节点表示概念性的对话的状态。此外，起始端节点识别符是指，识别表示对话的起始端的节点的信息。另外，终止端节点识别符是指，识别表示对话的终止端的节点的信息。通过起始端节点识别符与终止端节点识别符实现了一次对话的传达(catch ball，提问与回答等)。此外，表示对话的关联的信息既可以是指通过对话连接信息中包含的起始端节点识别符与对话连接信息中包含的终止端节点识别符来表示关联的信息，也可以是通过有向链接将对话连接信息之间关联起来从而表示关联的信息。另外，动作识别符例如具有如下几个种类：对第一说话者输入的语句进行处理的前处理的动作识别符、对第二说话者的输出语句进行处理的后处理的动作识别符、进行其他一般处理的动作识别符等，被应用的语句与信息也可以不同。

数据库1222具有用于生成响应文本的信息。该信息例如是表示交通工具等的路线的信息、交通工具的交通费用的信息、路线的所需时间的信息等。但是，该信息的种类和内容不限。

对话履历存储部1223存储对话的履历即对话信息。该对话信息例如是已经出现过的对话语句。此外，对话履历存储部1223也可以存在于未图示的外部的存储介质。在对话履历存储部1223存在于外部的存储介质的情况下，能够从对话控制服务器12访问该存储介质。

语言理解部1224进行用于讲话文本的理解的处理。语言理解部1224基本上按照每个对应语言存在。语言理解部1224例如进行以下两个处理。(1)将作为语音识别结果的讲话文本转换成非语言依存的概念符号。(2)从讲话文本中提取出生成响应的关键语句，如景点名和时刻等。

情景控制部1225使用语言理解部1224的处理结果，生成用于生成响应文本的命令。情景控制部1225例如将由语言理解部1224生成的概念符号以及关键词作为输入，在对话情景上迁移状态并且生成用于生成响应的命令。

响应生成部1226根据由情景控制部1225生成的响应生成用命令，生成响应文本。此外，在本发明的跨语言的语音对话系统1中，由于使用全部对应语言来显示响应，因此生成全部对应语言的响应文本。

在响应生成过程中，需要根据用户的讲话(例如提问)的内容来调查路线、交通费用、所需时间等，响应生成部1226根据需要参照数据库1222，取得路线、交通费用、所需时间等信息，并使用该信息生成响应文本。

图3的响应文本送出部123送出响应生成部1226生成的响应文本。此处的送出通常是发送。但是，送出也可以是向其他模块的传送等。

图5是语音合成服务器13的框图。语音合成服务器13具备响应文本受理部131、语音合成引擎132以及语音送出部133。此外，虽然在图5中语音合成服务器13具有与各语言相对应的多个语音合成引擎132，但是也可以由一个语音合成引擎132进行对多个语言的语音合成处理。

语音合成服务器13生成与响应文本相应的语音。语音合成服务器13生成与从客户端发送过来的响应文本相对应的语音波形，发送至客户端。此外，此处的客户端例如是对话控制服务器12，但是也可以是其他装置。

构成语音合成服务器13的响应文本受理部131受理从对话控制服务器12送出的响应文本。

语音合成引擎132对响应文本受理部131受理的响应文本进行语音合成处理，取得语音。

语音送出部133通常将语音合成引擎132取得的语音送出到对话客户端16。

图6是机器翻译服务器14的框图。机器翻译服务器14具备文本受理部141、机器翻译引擎142以及翻译结果送出部143。此外，虽然在图6中机器翻译服务器14具有与全部语言对相对应的多个机器翻译引擎142，但是也可以由一个机器翻译引擎142进行对多个语言对的机器翻译处理。

机器翻译服务器14将讲话文本翻译成该讲话文本的语言之外的一个以上的语言，取得一个以上的讲话翻译结果。另外，机器翻译服务器14将响应文本翻译成该响应文本的语言之外的一个以上的语言，取得一个以上的响应翻译结果。

详细地，机器翻译服务器14例如根据从客户端发送的翻译源语言的文本以及翻译源语言的ID(＝语言识别符)、与一个以上的翻译目标语言的ID，生成翻译目标语言的文本，发送至客户端。在机器翻译服务器14中，辅助性地在实况转播显示器上用原语言之外的全部对应语言显示用户讲话。机器翻译服务器14的内部如图6所示，具备将各对应语言的一个作为翻译源语言并且将另一个作为翻译目标语言的机器翻译引擎142。假设对应语言数为N，则也可以准备N×(N-1)个机器翻译引擎142。此外，机器翻译服务器14为公知技术，因此省略详细的说明。此外，此处的客户端例如是语音识别服务器11、对话控制服务器12、用户终端18，但是也可以是其他装置。

文本受理部141受理来自语音识别服务器11的讲话文本以及来自对话控制服务器12的响应文本。

机器翻译引擎142对文本受理部141受理的文本进行机器翻译处理，取得目标语言的文本。该文本是一个以上的讲话翻译结果或者一个以上的响应翻译结果。

翻译结果送出部143送出由机器翻译引擎142取得的翻译结果的文本。此处的送出是向客户端的发送。

图7是配对服务器15的框图。配对服务器15例如具备配对信息存储部151、指示接收部152、配对信息积累部153以及配对关联信息送出部154。

配对服务器15用于在对话客户端16(以及机器人17)与用户终端18之间进行配对。配对服务器15通常接收来自用户终端18的配对的指示，进行与该指示相应的配对的处理。配对服务器15例如接收来自用户终端18的配对的指示，积累与指示相应的配对信息。在此，配对的指示例如包含识别用户终端18的终端识别符、或者存储有对话信息的存储区域的URL等。

配对服务器15进行的配对能够使用已有的技术，例如使用如下所述的方法(1)至(4)。

(1)预先对配对服务器15赋予URL。另外，在对话客户端16与配对服务器15之间预先建立会话，使在两者之间能够进行数据的交互。

(2)预先将嵌入有该URL的码(例如QR码(注册商标)、二维码等)或者其类似物印刷到对话客户端16或者机器人17上。

(3)当在用户终端18上启动读码器的应用或者其类似物，用用户终端18的摄像机拍摄该码时，在用户终端18与配对服务器15之间建立起会话。

(4)由于在对话客户端16与配对服务器15之间已经建立了会话，因此连同(3)在对话客户端16与用户终端18之间完成了配对。

构成配对服务器15的配对信息存储部151存储表示与用户终端18之间的配对的信息即一个以上的配对信息。配对信息例如是用户终端18的终端识别符。

指示接收部152例如接收具有终端识别符的配对的指示。指示接收部152通常从用户终端18接收指示。

配对信息积累部153在指示接收部接收到配对的指示的情况下，将与指示相对应的配对信息积累在配对信息存储部151中。

配对关联信息送出部154送出用于在对话客户端16与用户终端18之间进行配对的配对关联信息。配对关联信息的数据构造等不限。配对关联信息例如是对话客户端16用于向用户终端18发送文本所使用的终端识别符。

图8是对话客户端16以及机器人17的框图。对话客户端16具备语音受理部161以及语音输出部162。

对话客户端16受理并输出语音合成服务器13取得的语音。此处的输出通常是向机器人17的传送。另外，对话客户端16从机器人17受理输入语音。

对话客户端16例如是主要进行以下处理的模块。

(1)从机器人17的麦克风取得语音波形，将其发送至语音识别服务器11，接收语音识别结果(响应文本)与语言识别符。

(2)将语音识别结果与语言识别符发送至对话控制服务器12，接收全部语言的响应文本。

(3)将全部语言的响应文本中对应于与语言识别符一致的语言的响应文本发送至语音合成服务器13，接收与该文本相对应的语音波形。

(4)从机器人17的扬声器输出接收到的语音波形。

(5)根据需要，从对话控制服务器12接收包含用户讲话与系统响应等的对话履历，对该信息进行加工后进行向显示器的显示或者向用户终端18的发送。

构成对话客户端16的语音受理部161受理输入语音。此处的受理通常是从机器人17处的接收。

语音输出部162将语音受理部161受理的输入语音送出到语音识别服务器11。另外，语音输出部162将从语音合成服务器13受理的语音送出到机器人17。

机器人17从用户受理输入语音。另外，机器人17输出与响应文本相应的语音。此处的输出通常是语音输出。在机器人17具有显示器的情况下，优选将讲话文本、一个以上的讲话翻译结果、响应文本、一个以上的响应翻译结果显示在该显示器上。此外，将该显示器称为实况转播显示器。

图9是用户终端18的框图。用户终端18具备终端存储部181、终端受理部182、终端处理部183、终端发送部184、终端接收部185以及终端输出部186。

用户终端18是参与对话的用户所持有的终端。用户终端18通常除了进行显示在实况转播显示器上的语句中的、用户能够理解的语言的语句的显示之外，还能够进行虚拟代理的提出和同步、分支等。将在后面对虚拟代理的提出和同步、分支等的详细进行说明。

构成用户终端18的终端存储部181存储有各种信息。各种信息是指，例如识别用户所使用的语言的语言识别符、识别用户终端18的终端识别符等。

终端受理部182受理输入语音和配对的指示等各种信息和指示等。各种信息和指示等的输入单元可以是麦克风、摄像机、触摸面板、菜单画面等，是任意的。终端受理部182能够通过输入单元的设备驱动器和菜单画面的控制软件等来实现。

终端处理部183进行各种处理。各种处理是指，例如从接收的对话信息中取得与终端存储部181的语言识别符相对应的文本的过滤处理、根据终端受理部182受理的信息和指示等构成要发送的信息和指示等的处理、将终端接收部185接收的信息构成为用于显示的信息的处理等。

终端发送部184发送各种信息和指示等。终端发送部184例如在与语音对话系统1之间的一系列的对话的中途发送配对的指示。

终端接收部185接收各种信息。终端接收部185例如与配对的指示的发送相应地，接收作为到当前为止的一系列的对话的信息的对话信息。

终端输出部186对终端接收部185接收的信息进行过滤并输出。终端输出部186优选仅输出终端接收部185接收的对话信息中的、通过语言识别符识别出的语言的信息。也就是说，终端输出部186优选仅输出终端处理部183进行的过滤处理的结果即被提取出的文本。

语言识别部112、语音识别引擎113、语言理解部1224、情景控制部1225、响应生成部1226、语音合成引擎132、机器翻译引擎142、配对信息积累部153以及终端处理部183通常能够通过MPU和存储器等来实现。语言识别部112等的处理步骤通常通过软件来实现，该软件存储在ROM等的存储介质中。但是，也可以通过硬件(专用电路)来实现。

语音受理部111、讲话文本受理部121、响应文本受理部131、文本受理部141、指示接收部152、语音受理部161以及终端接收部185通常通过无线或者有线的通信单元来实现，但是也可以通过接收广播的单元来实现。

讲话文本送出部114、响应文本送出部123、语音送出部133、翻译结果送出部143、配对关联信息送出部154、语音输出部162以及终端发送部184通常通过无线或者有线的通信单元来实现，但是也可以通过广播单元来实现。

终端输出部186由显示器和扬声器等输出设备与其驱动软件构成。

接下来，对语音对话系统1的动作进行说明。首先，使用图10的流程图，对对话控制服务器12的动作进行说明。

(步骤S1001)讲话文本受理部121判断是否受理了讲话文本。在受理了讲话文本的情况下进入步骤S1002，在未受理讲话文本的情况下进入步骤S1006。

(步骤S1002)对话控制模块122根据在步骤S1001中受理的讲话文本，生成与该讲话文本相对应的响应文本。

(步骤S1003)响应文本送出部123送出在步骤S1002中生成的响应文本等。响应文本等通常是指响应文本、或者讲话文本与响应文本。响应文本送出部123例如将响应文本送出到语音合成服务器与对话客户端16。另外，响应文本送出部123例如将讲话文本与响应文本送出到机器翻译服务器14。

(步骤S1004)对话控制服务器12的文本受理部121判断是否受理了机器翻译服务器14的处理结果即翻译结果。在受理了翻译结果的情况下进入步骤S1005，在未受理翻译结果的情况下重复步骤S1004。此外，翻译结果是指一个以上的讲话翻译结果、或者一个以上的讲话翻译结果与一个以上的响应翻译结果。另外，讲话翻译结果和响应翻译结果通常与识别语言的语言识别符相对应。

(步骤S1005)对话控制服务器12的未图示的处理部例如将讲话文本、响应文本以及翻译结果积累在对话控制模块122的对话履历存储部1223中，返回步骤S1001。

(步骤S1006)对话控制服务器12的未图示的受理部判断是否受理了配对关联信息。在受理了配对关联信息的情况下进入步骤S1007，在未受理配对关联信息的情况下进入步骤S1009。此外，在对话客户端16(以及机器人17)与用户终端18之间进行了配对的情况下，受理配对关联信息。

(步骤S1007)对话控制服务器12的未图示的处理部从对话控制模块122的对话履历存储部1223中取得表示到当前为止的一系列的对话的内容的对话信息。

(步骤S1008)对话控制服务器12的未图示的发送部向与配对关联信息相对应的用户终端18发送在步骤S1007中取得的对话信息，返回步骤S1001。

(步骤S1009)对话控制服务器12的未图示的接收部判断是否受理了来自用户终端18的信息。在受理了来自用户终端18的信息的情况下进入步骤S1010，在未受理来自用户终端18的信息的情况下返回步骤S1001。此外，被受理的信息通常包含讲话文本与位置信息。

(步骤S1010)对话控制模块122从来自用户终端18的信息中取得位置信息。

(步骤S1011)对话控制模块122使用到与在步骤S1010中取得的位置信息相对应的位置为止的对话信息，根据来自用户终端18的信息中包含的讲话文本，生成响应文本。

(步骤S1012)对话控制服务器12的未图示的发送部向发送信息过来的用户终端18发送例如还包含讲话文本的响应文本等。

(步骤S1013)对话控制服务器12的未图示的处理部将讲话文本以及响应文本与终端识别符相对应地积累，返回步骤S1001。

此外，在图10的流程图中，处理通过电源关闭或处理结束的中断而结束。

接下来，使用图11的流程图，对用户终端18的动作进行说明。

(步骤S1101)终端受理部182判断是否受理了配对的指示。在受理了配对的指示的情况下进入步骤S1102，在未受理配对的指示的情况下进入步骤S1106。此外，例如通过经由用户终端18的未图示的摄像机进行的QR码的读取、基于Bluetooth(注册商标)的通信的开始，来受理配对的指示。

(步骤S1102)终端发送部184将在步骤S1101中受理的配对的指示发送至配对服务器15。

(步骤S1103)终端接收部185与在步骤S1102中的配对的指示的发送相应地，判断是否接收到对话信息。在接收到对话信息的情况下进入步骤S1104，在未接收到对话信息的情况下重复步骤S1103。

(步骤S1104)终端处理部183进行从在步骤S1103中接收的对话信息中取得与终端存储部181的语言识别符相对应的文本的过滤处理。

(步骤S1105)终端输出部186输出作为在步骤S1104中取得的文本的对话信息，返回步骤S1101。

(步骤S1106)终端接收部185判断是否接收到文本。在接收到文本的情况下进入步骤S1107，在未接收到文本的情况下进入步骤S1109。此外，此处的文本例如是配对后在其他用户与机器人17之间进行的实时的对话的信息，是机器人17上的显示与用户终端18上的显示同步时的对话的信息。另外，此处的文本例如是配对后用户终端18从与机器人17之间的同步中分支出来，用户独自地与语音对话系统1对话时的对话的信息。

(步骤S1107)终端处理部183进行从在步骤S1106中接收的文本中取得与终端存储部181的语言识别符相对应的文本的过滤处理。

(步骤S1108)终端输出部186输出在步骤S1107中过滤后的文本，返回步骤S1101。

(步骤S1109)终端受理部182判断是否受理了用户的输入语音。在受理了输入语音的情况下进入步骤S1110，在未受理输入语音的情况下返回步骤S1101。

(步骤S1110)终端处理部183取得位置信息。该位置信息例如是表示在一系列的对话的对话信息中此刻被聚焦的讲话文本或者响应文本的位置的信息。另外，位置信息例如也可以是表示在已输出的对话信息中用户所指示的讲话文本或者响应文本的位置的信息。

(步骤S1111)终端发送部184发送在步骤S1109中受理的输入语音以及在步骤S1110中取得的位置信息，返回步骤S1101。此外，终端发送部184通常将输入语音与位置信息发送至对话控制服务器12。

此外，在图11的流程图中，处理通过电源关闭或处理结束的中断而结束。

下面，对本实施方式中的语音对话系统1的具体的动作进行说明。语音对话系统1的系统构成图为图1。

如上所述，以往的语音对话系统中的实况转播显示器例如存在“发明所要解决的技术问题”中所述的(A)至(C)的技术问题。

而且，语音对话系统1为了解决技术问题(A)与(B)而采取以下的解决方案。也就是说，在语音对话系统1中，在用户持有的用户终端18上具备进行与实况显示显示器同等的显示的机构。其显示的例子如图12所示。图12的1201是以往的实况转播显示器，用户的讲话(用户讲话)与来自以机器人的方式体现的系统的响应(系统响应)通过全部对应语言(在图12中为日英中韩的四种语言)来显示。此外，1201的星形符号是实际上讲话的语言的字符串。

另一方面，在用户终端18上，使用该终端的显示语言设定等的信息(与上述的语言识别符意思相同)，仅通过用户终端18的持有者通常使用的语言(在1202中为日语)来显示。另外，不仅显示最近的用户讲话以及系统响应，还显示从对话的会话开始到当前为止的用户讲话以及系统响应。不同于实况转播显示器，由于能够由各个用户对用户终端18进行操作，因此能够通过滚动等来在用户终端18的画面上、而且用自己能够理解的语言确认过去的对话的交互。

如上所述，即使在不具有显示器的语音对话系统1中，用户也能够理解当前正在进行什么样的对话。另外，由于还能够确认可通过实况转播显示器显示的范围之前的对话的交互，因此，从中途到达语音对话系统1尤其是机器人17所处的地点的用户也易于在理解了之前进行了什么样的对话的基础上参与对话。

此外，为了在语音对话系统1与自己的用户终端18之间进行协作，需要在两者之间进行如配对等操作。作为配对的方案，例如能够使用如下已有的(1)或者(2)的方法。

(1)预先将嵌入有规定的URL的QR码印刷到对话系统(机器人17主体等)上，当使用用户终端18的QR代码读取器读取该QR码时，用户终端18访问规定的URL，进行与对话系统之间的配对。

(2)利用Bluetooth的配对的机构。

另外，在语音对话系统1中，为了解决技术问题(C)而采取以下解决方案。也就是说，在语音对话系统1中准备与机器人17等相对应的虚拟代理，导入该虚拟代理的“提出”以及“同步、分支”机构。此外，虚拟代理是指在用户终端18上进行语音对话的、存在于应用内的角色。此外，以下，将现实的对话系统称为对话机器人，将存在于用户终端18内的角色称为虚拟代理来进行区别。

而且，当在语音对话系统1与用户终端18之间进行配对时，对话机器人17与用户终端18变成同步状态。而且，在用户终端18的画面上显示作为与实况转播显示器相同内容的、通常用户能够理解的语言的语句。此外，在用户终端18上显示的语句的语言与用户终端18的显示语言设定相匹配。另外，在用户终端18上，如在图12中进行的说明那样，还显示过去的对话的交互。

在同步的状态下，在用户对对话机器人17讲话的情况下，从机器人17以与用户讲话相同的语言输出响应。并且，用户讲话与机器人响应用全部语言显示在实况转播显示器上，与之同步地，用户讲话与机器人响应也显示在用户终端18上。只要用户对对话机器人讲话，对话机器人与虚拟代理便持续同步。

另一方面，在同步的状态下，在用户朝向用户终端18讲话的情况下，同步被解除，响应仅从用户终端18被输出。而且，在用户终端18内存在虚拟代理1301。将这称为“虚拟代理的提出”。另外，在该阶段，用户终端18的显示为如图13的状态。此外，虚拟代理是指模拟了系统的装置，是显示在用户终端18上的虚拟的对话机器人。

而且，图13是该状态下的用户终端18的显示例。在图13中，在用户朝向用户终端18讲话的语句被显示之前，虚拟代理1301就被显示在用户终端18上，也可以如以下图14所示，与朝向用户终端18讲话发出的语句等一起或者在显示该语句等之后显示虚拟代理1301。

而且，图14是用户朝向用户终端18讲话的语句等也被显示的状态。在图14中，假设了用户对用户终端18用日语“是否有其他路线”讲话的状况。由于此前的对话是关于前往京都站的方法，因此语音对话系统1理解为用户询问前往京都站的其他路线，并作为响应输出其路线。但是，仅在用户终端18上进行该输出，而不从对话机器人17以及实况转播显示器输出。即实况转播显示器相对于图12的1201的状态不变。

以上，对朝向用户终端18讲话并且同步被解除的情况(即，用户终端18被分支的情况)下，使虚拟代理出现，使用户目视确认处于分支状态的形态进行了说明。

然而，也可以在语音对话系统1与用户终端18之间进行了配对时，在用户终端18上显示虚拟代理，之后在用户终端18被分支的情况下，改变虚拟代理的显示形态(色彩等)，从而能够目视确认用户处于分支状态。

下面，对“同步、分支”进一步进行说明。尚未参与对话的用户(在图14中假设了说英语、日语、中文的三个用户已经参与到对话，因此指第四个用户)在用户终端18上确认了此前的对话的交互之后想参与对话时，只要对对话机器人17讲话即可。另一方面，在想要进行继续此前的对话的进程的讲话但是不想影响已有用户与对话机器人17之间的对话的情况下，只要对自己的用户终端18讲话而不被已有用户听到即可。在后者的情况下，在对话机器人17与虚拟代理之间产生分支。产生了一次分支之后，用户无需与对话机器人17位于同一地点，而能够前往其他地点继续对话。

进一步，如果是相同会话的对话，则能够回溯到过去的任意的交互进行分支。使用图15对此进行说明。

在图15中，假设在进行有关于前往京都站的方法的对话之前，进行了有关于前往奈良站的方法的对话。而且假设用户(与图14同样地，尚未参与对话的第四个用户)在用户终端18上确认了过去进行过这样的对话，想要追加提问前往奈良站的交通费用。

在当前时间点，由于对话的内容如图14所示变成了有关于前往京都站的方法的对话，因此即使在此对对话机器人17讲话“多少钱”，对话机器人17回答的也是前往京都站的交通费用，而不是奈良站。此外，如果对对话机器人17讲话“前往奈良站多少钱”，则机器人会进行回答，但是由于对话的话题在此发生切换，因此有可能会导致想要继续进行有关于前往京都站的路线的话题的已有用户不悦。在以往的系统中，新用户鉴于此有可能放弃询问本身。

因此，用户一边在用户终端18上指定前往奈良站的方法作为话题的时间点的对话的交互(在图15中为机器人响应的“可乘坐公交车或电车前往奈良站。……(以下略)”或者用户讲话的“告诉我前往奈良站的方法”)一边讲话“多少钱”。在该情况下，上述位置信息是识别机器人响应“可乘坐公交车或电车前往奈良站。……(以下略)”或者用户讲话“告诉我前往奈良站的方法”的信息。

于是，对话系统在该时间点使对话机器人与虚拟代理分支。其结果是，作为其响应的“580日元”仅从用户终端18被输出。与此同时，在虚拟代理中，删除“可乘坐公交车或电车前往奈良站。……(以下略)”之后(在图15中“告诉我前往奈良站的方法”以下)的交互后，追加本次的用户讲话“多少钱”与系统响应“580日元”。

通过导入这种虚拟代理的“提出”以及“同步、分支”的机构，尚未参与对话的用户放下了参与对话的心理负担。即，能够在提出虚拟代理之后不受时间或地点的制约地回溯到过去的任意的交互继续对话。

此外，虚拟代理的提出本身是作为以往技术存在的，但是与以往的虚拟代理的不同之处在于以下(1)至(3)。(1)能够提出对话已进行的状态的对话系统。(2)只要残留有过去的对话的交互，便能够从任意位置使对话分支。换言之，在回溯到交互的开头进行分支的情况下，与以往的“提出”等价。(3)是跨语言对话系统。

接下来，使用图16，对存储在构成对话控制模块122的对话情景存储部1221中的对话情景的例子进行说明。在该图中，用三个状态的自动机来表现对话情景中的状态，圆为状态(节点)，箭头标记为箭弧。在图16中，状态1表示对话刚刚开始之后的状态。在该状态下，例如在如询问前往奈良站的路线的讲话被输入的情况下，迁移至状态2。而且，在状态2下询问交通费用和所需时间的讲话被输入的情况下，系统理解为分别询问前往奈良站的交通费用以及所需时间，并进行与其相对应的响应。

另一方面，在如询问前往京都站的路线的讲话被输入的情况下，迁移至状态3。而且，在状态3下询问交通费用和所需时间的讲话被输入的情况下，系统理解为分别询问前往京都站的交通费用以及所需时间，并进行与其相对应的响应。

接下来，使用图17，对对话履历存储部1223的对话履历即对话信息进行说明。对话信息例如以表格的形式被保存。在“讲话者”一栏中填入“用户”与“系统”中的一个，前者表示该行是用户讲话，后者表示该行是系统响应。另外，“讲话语言”表示用户讲话或者系统响应是用什么语言进行的。另外，“全部语言的文本”是全部对应语言中的用户讲话或者系统响应。在讲话者为“系统”的情况下，在该栏中保存由响应生成部1226生成的全部对应语言的响应文本。另一方面，在讲话者为“用户”的情况下，与讲话语言相同的文本被保存为语音识别结果，除此之外的语言的文本则为基于机器翻译服务器14的翻译结果。例如，在图17的最上一行中，讲话语言为日语，因此“全部语言的文本”中的日语“奈良駅への行き方を教えて”(日语，意为“告诉我前往奈良站的方法”)为语言识别结果，除此之外的语言的文本则为机器翻译的翻译结果。进一步，“情景的状态”是存储响应生成时产生的对话情景上的迁移的栏。例如，在图17的表中，第一行与第二行表示在对话系统1与用户进行了以下对话时，在图16的对话情景中产生了从状态1向状态2的迁移(参照1701的情景的状态的属性值“状态1→状态2”的记录)。

在如上所述的对话履历中，通过一起存储情景的状态，能够在如图15所示一边指定过去的对话的交互中的一个一边讲话的情况下，从该处开始产生分支。

接下来，使用图18，对对话客户端16的详细的例子进行说明。构成对话客户端16的麦克风&AD转换器163取得用户的讲话，将其转换成数字信号的语音波形。

语音区间检测单元164从连续输入的波形中剪切出与从用户的讲话的起始端到终止端相当的部分的语音波形。该处理既可以自动地进行，也可以是对在用户按下规定的按钮的期间的波形进行剪切的处理。

扬声器165用于将由语音合成服务器13生成的对话响应的语音波形作为声音来输出。

显示器166用作所述的实况转播显示器。

对话履历167是在图4中对话控制模块122所具备的对话履历存储部1223的对话履历的复制版。也可以不具有对话履历的复制版，而根据需要从对话控制模块122中取得。此外，对话履历也可以称为对话信息。

此外，麦克风&AD转换器163与语音区间检测单元164相当于语音受理部161，扬声器165相当于语音输出部162。

接下来，对实现虚拟代理的“提出”以及“同步、分支”的方法进行说明。

图19是提出虚拟代理之前的状态，这与以往的跨语言语音对话系统1相同。在该时间点，在对话控制服务器12中只有一个对话控制模块122动作。在该状态下，在一个以上的用户与对话机器人17之间进行跨语言对话。

在用户与对话机器人17之间进行了跨语言对话之后，当用户(既可以是已有用户也可以是新用户)在自己的用户终端18与对话客户端16之间进行配对时，如图20所示，对话客户端16与用户终端18变为连接的状态。准确地说，用户终端18与对话客户端16之间通过配对服务器15被转播，但是为了简略图示，记述为直接连接。

对话客户端16将保持在内部的对话履历发送至用户终端18。或者，从对话控制模块122取得最新的对话履历，将其发送至用户终端18。对话履历中例如保存有全部语言的文本，但是在用户终端18上仅过滤并显示与显示语言设定一致的文本，从而进行如图12的1202那样的显示。

而且，在用户对机器人17讲话的情况下，每次讲话时对话履历都被更新，并且每次都将对话履历发送至用户终端18。

在该阶段，机器人17与用户终端18同步。换言之，看起来是存在对话机器人17与虚拟代理这两个对话代理，但是由于进行响应生成等的对话控制模块122只有一个，因此对话履历也只有一个。

在此，当用户对用户终端18讲话时，在机器人17与虚拟代理之间产生分支。分支后的状态如图21所示。在该图21中，对话客户端16与用户终端18之间的连接消失(会话被切断)。也就是说，对话客户端16或者用户终端18切断该会话。

另一方面，在对话控制服务器12中，对话控制模块122被复制。复制是指复制图4的各模块，但是在不造成妨碍的情况下，也可以在原始版与复制版之间参照共同的模块。但是，能够将对话情景与对话履历分别复制到与原始版不同的存储器空间，分别对原始版与复制版进行更新。在以下的说明中，将对话控制模块122的原始版作为122(1)，将复制版作为122(2)。对于使用了位置信息的复制处理的详细，将在后面进行说明。

由于分支，用户终端18与122(2)连接(准确地说两者通过配对服务器15被转播)。另外，从用户终端18也能够直接访问语音识别服务器11以及语音合成服务器13(进一步根据需要能够直接访问机器翻译服务器14)。

而且，在产生了一次分支之后，对话机器人17与虚拟代理分别连接到不同的对话控制模块122，因此当对用户终端18讲话时，仅从用户终端18输出响应，而不从对话机器人17输出。反之亦然。

为了分支后在用户终端18上显示用户讲话以及系统响应，用户终端18不从对话客户端16取得对话履历，而从对话控制模块122(2)取得对话履历，进行基于语言的过滤后显示在画面上。图13的1301为该状态。

接下来，对作为分支的其他例子，如图15所示，说明用户一边指定过去的对话的交互中的一个一边对用户终端18讲话的情况。

在这种情况下，分支后的状态也为图21所示，但是对话控制模块122(2)所保持的对话履历不是图17所示那样，而是图22所示那样。即，表格的上两行(2201)相同，但是从第三行(2202)开始产生不同。下面，对这一点进行说明。

在图15的1501中，用户一边指定过去的履历“可乘坐公交车或电车前往奈良站。……(以下略)”这一系统响应一边讲话“多少钱”。从图17可知，该系统响应与表格的第二行相对应，根据该响应，对话情景迁移至状态2(表示与前往奈良站的方法相关的话题的状态)。因此对话控制模块122在对话履历的复制时，仅复制1701的部分。它就是2201(或者在复制了图17的表格整体后删除1702的部分。)。然后，在将对话情景的状态返回状态2后，进行相对于“多少钱”这一用户讲话的响应生成。其结果是，生成了相当于2202的部分。该对话履历被发送至用户终端18，在进行基于语言的过滤后进行1502的显示。

以上，根据本实施方式，在跨语言语音对话系统中，在用户与语音对话系统之间的一系列的对话进行了一定程度之后，该用户或者其他用户能够确认或者认知过去的对话的状况。

另外，根据本实施方式，语音对话系统1与用户终端18能够同步。

另外，根据本实施方式，在用户对用户终端18讲话的情况下，同步被解除，能够产生对话履历的分支。也就是说，例如第二个以后的用户能够通过对自己的用户终端18讲话，来从对话的中途开始独立于第一个用户继续对话。

另外，根据本实施方式，能够回溯到过去的对话的交互进行对话的分支。

另外，在本实施方式中，构成语音对话系统1的语音识别服务器11、对话控制服务器12、语音合成服务器13、机器翻译服务器14、配对服务器15、对话客户端16以及机器人17无需为分离的装置。也就是说，语音对话系统1可以通过一个或者两个以上的装置来实现。

进一步，构成本实施方式中的语音对话系统1的各装置的处理也可以通过软件来实现。而且，也可以通过软件下载等来发布该软件。另外，也可以将该软件存储在CD-ROM等的存储介质中进行传播。此外，该方法也适合本说明书中的其他实施方式。

(第二实施方式)

在本实施方式中，对通过一个语音对话装置来实现构成第一实施方式的语音对话系统1的语音识别服务器11、对话控制服务器12、语音合成服务器13、机器翻译服务器14、配对服务器15、对话客户端16以及机器人17的情况的例子进行说明。此外，当然可以通过若干装置来实现构成语音对话系统1的各装置的功能。

图23是本实施方式中的语音对话系统2的框图。语音对话系统2具备语音对话装置21以及一个或者两个以上的用户终端18。此处的用户终端18除了在与语音对话装置21之间进行各种信息的发送接收之外，其余与第一实施方式的用户终端18相同，因此省略说明。

语音对话装置21具备存储部211、受理部212、处理部213、输出部214、接收部215以及发送部216。

存储部211具备对话信息存储部2111以及配对信息存储部2112。

处理部213具备语音识别部2131、对话控制部2132、对话信息积累部2133、语音合成部2134、机器翻译部2135以及配对信息积累部2136。

输出部214具备语音输出部2141。

接收部215具备指示接收部2151以及用户信息接收部2152。

发送部216具备对话信息发送部2161。

在构成语音对话装置21的存储部211中存储各种信息。

构成存储部211的对话信息存储部2111存储作为一系列的对话的履历的对话信息。对话信息通常具有讲话文本、一个以上的讲话翻译结果、响应文本、以及一个以上的响应翻译结果。

配对信息存储部2112存储作为表示与用户终端18之间的配对的信息的一个或者两个以上的配对信息。

受理部212受理能够通过两个以上的不同语言发声的输入语音。

处理部213进行各种处理。各种处理是将在后面进行说明的配对处理、语音识别部2131等进行的处理。

语音识别部2131对输入语音进行语音识别，生成语音识别结果即讲话文本。此外，语音识别部2131通常还取得识别输入语音的语言的语言识别符。

对话控制部2132使用语音识别部2131生成的讲话文本，生成相对于讲话文本的响应即响应文本。

对话控制部2132在用户信息接收部2152接收到输入语音或者讲话文本(均包含在用户信息中)的情况下，根据与用户信息接收部2152接收的输入语音相对应的讲话文本或者用户信息接收部2152接收的讲话文本，生成相对于讲话文本的响应即响应文本。

对话控制部2132使用作为对话信息中的对话的信息的、到与位置信息相对应的位置为止的对话的信息，根据与用户信息接收部2152接收的输入语音相对应的讲话文本或者用户信息接收部2152接收的讲话文本，生成相对于讲话文本的响应即响应文本。

对话信息积累部2133将作为对话履历的对话信息积累在对话信息存储部2111中。对话信息积累部2133将包含讲话文本与响应文本的对话信息积累在对话信息存储部2111中。另外，对话信息积累部2133将包含讲话文本、一个以上的讲话翻译结果、响应文本、以及一个以上的响应翻译结果的对话信息积累在对话信息存储部2111中。

语音合成部2134对对话控制部2132生成的响应文本进行语音合成处理，取得语音。

机器翻译部2135将讲话文本翻译成讲话文本的语言以外的一个以上的语言，取得一个以上的讲话翻译结果。另外，机器翻译部2135将响应文本翻译成响应文本的语言以外的一个以上的语言，取得一个以上的响应翻译结果。

此外，包括讲话文本的语言在内的两个以上的语言是预先设定的。例如，在存储部211中存储有需要日语、英语、中文、韩语的四个国家的语言的文本这一点的情况下(存储部211中存储有四个语言的语言识别符的情况下)，机器翻译部2135在受理的文本为日语的情况下，将该文本翻译成英语、中文、韩语的三个国家的语言，取得翻译结果。另外，例如在存储部211中存储有需要日语、英语、中文、韩语的四个国家的语言的文本这一点的情况下，机器翻译部2135在受理的文本为英语的情况下，将该文本翻译成日语、中文、韩语的三个国家的语言，取得翻译结果。

配对信息积累部2136在指示接收部2151接收到配对的指示的情况下，将与指示相对应的配对信息积累在配对信息存储部2112中。

输出部214输出各种信息。此处的输出通常是声音输出，但是也可以是显示在显示器上、发送至显示装置等。显示在显示器上例如是上述实况转播显示器。

语音输出部2141输出语音。

接收部215接收各种信息和指示等。各种信息和指示等例如是配对的指示、将在后面进行说明的用户信息。

指示接收部2151从用户终端18接收配对的指示。配对的指示例如包含终端识别符、或者存储有对话信息的URL等。

用户信息接收部2152从用户终端18接收用户信息。用户信息例如是输入语音或者讲话文本。另外，用户信息例如可以具有表示对话信息中的一个位置的位置信息。此外，在用户信息为讲话文本的情况下，用户终端18对输入语音进行语音识别，取得讲话文本。

发送部216发送各种信息。

对话信息发送部2161在指示接收部2151从用户终端18接收到指示的情况下，将存储在对话信息存储部2111中的对话信息发送至用户终端18。

对话信息发送部2161将对话信息、或者作为对话信息中的信息的、与用户终端18相对应的语言的信息发送至用户终端18。

对话信息发送部2161在每当受理部212受理输入语音时，将讲话文本发送至用户终端18，在每当对话控制部2132生成响应文本时，将响应文本发送至用户终端18。

对于与存储在配对信息存储部2112中的一个以上的各配对信息相对应的一个以上的用户终端18，对话信息发送部2161在每当受理部212受理输入语音时，将讲话文本发送至用户终端18，在每当对话控制部2132生成响应文本时，发送响应文本。

对话信息发送部2161将对话控制部2132生成的响应文本发送至用户终端18。

存储部211、对话信息存储部2111以及配对信息存储部2112优选为非易失性的存储介质，但是也能够通过易失性的存储介质来实现。

信息被存储到存储部211等的过程不限。例如，既可以通过存储介质将信息存储在存储部211等中，也可以将经由通信线路等发送的信息存储在存储部211等中，或者还可以将通过输入设备输入的信息存储在存储部211等中。

处理部213、语音识别部2131、对话控制部2132、对话信息积累部2133、语音合成部2134、机器翻译部2135以及配对信息积累部2136通常能够通过MPU和存储器等来实现。处理部213等的处理步骤通常通过软件来实现，该软件存储在ROM等的存储介质中。但是，也可以通过硬件(专用电路)来实现。

输出部214包括显示器和扬声器等输出设备与其驱动软件。

接收部215、指示接收部2151以及用户信息接收部2152通常通过无线或者有线的通信单元来实现，但是也可以通过接收广播的单元来实现。

发送部216以及对话信息发送部2161通常通过无线或者有线的通信单元来实现，但是也可以通过广播单元来实现。

接下来，使用图24的流程图，对语音对话装置21的动作进行说明。

(步骤S2401)受理部212判断是否受理了输入语音。在受理了输入语音的情况下进入步骤S2402，在未受理输入语音的情况下进入步骤S2409。

(步骤S2402)语音识别部2131对在步骤S2401中受理的输入语音进行语音识别，生成讲话文本。

(步骤S2403)对话控制部2132根据在步骤S2402中生成的讲话文本，生成相对于该讲话文本的响应文本。

(步骤S2404)语音合成部2134对在步骤S2403中生成的响应文本进行语音合成处理，取得语音。

(步骤S2405)机器翻译部2135将在步骤S2402中生成的讲话文本翻译成讲话文本的语言以外的一个以上的语言，取得一个以上的讲话翻译结果。另外，机器翻译部2135将在步骤S2403中生成的响应文本翻译成响应文本的语言以外的一个以上的语言，取得一个以上的响应翻译结果。

(步骤S2406)处理部213将在步骤S2402中生成的讲话文本、在步骤S2403中生成的响应文本以及在步骤S2405中取得的翻译结果相对应地积累在对话信息存储部2111中。

(步骤S2407)输出部214显示在步骤S2402中生成的讲话文本、在步骤S2403中生成的响应文本以及在步骤S2405中取得的翻译结果。

(步骤S2408)语音输出部2141输出在步骤S2404中取得的语音，返回步骤S2401。

(步骤S2409)指示接收部2151判断是否从用户终端18接收到配对的指示。在接收到配对的指示的情况下进入步骤S2410，在未接收配对的指示的情况下进入步骤S2413。

(步骤S2410)处理部213进行用于用户终端18与语音对话装置21之间的配对的处理。该处理是在第一实施方式中所述的处理，是配对信息积累部2136将配对信息积累在配对信息存储部2112中的处理。

(步骤S2411)处理部213从对话信息存储部2111中取得对话信息。

(步骤S2412)对话信息发送部2161将在步骤S2410中取得的对话信息发送至发送配对的指示过来的用户终端18，返回步骤S2401。

(步骤S2413)用户信息接收部2152判断是否从用户终端18接收到信息。在接收到信息的情况下进入步骤S2414，在未接收信息的情况下返回步骤S2401。

(步骤S2414)处理部213从在步骤S2413中接收的信息中取得输入语音、位置信息。

(步骤S2415)语音识别部2131对在步骤S2414中取得的输入语音进行语音识别，生成讲话文本。在此，语音识别部2131通常还取得语音识别符。

(步骤S2416)对话控制部2132使用在步骤S2415中生成的讲话文本，生成相对于讲话文本的响应即响应文本。

(步骤S2417)发送部216向发送信息过来的用户终端18发送响应文本等。此外，响应文本等是指，例如讲话文本与响应文本、或者响应文本。

(步骤S2418)处理部213将讲话文本以及响应文本与终端识别符相对应地积累，返回步骤S2401。

此外，在图24的流程图中，处理通过电源关闭或处理结束的中断而结束。

下面，本实施方式中的语音对话系统2的具体动作与语音对话系统1的具体动作相同，因此省略说明。

以上，根据本实施方式，在跨语言语音对话中，在用户与语音对话装置21之间的一系列的对话进行了一定程度之后，该用户或者其他用户能够确认或者认知过去的对话的状况。

另外，根据本实施方式，语音对话装置21与用户终端能够同步。

另外，根据本实施方式，在用户相对于用户终端讲话的情况下，同步被解除，能够产生对话履历的分支。也就是说，例如第二个以后的用户能够通过对自己的用户终端讲话，来从对话的中途开始独立于第一个用户继续对话。

进一步，根据本实施方式，能够回溯到过去的对话的交互进行对话的分支。

另外，图25示出实现通过执行本说明书中所述的程序来构成上述各种实施方式的语音对话系统1的各装置、语音对话装置21等的计算机的外观。上述实施方式也可以通过计算机硬件以及在其中执行的计算机程序来实现。图25是该计算机系统300的外观图，图26是示出系统300的内部结构的框图。

在图25中，计算机系统300包括包含有CD-ROM驱动器的计算机301、键盘302、鼠标303、显示器304、麦克风305以及扬声器306。

在图26中，计算机301除了包括CD-ROM驱动器3012之外，还包括：MPU3013；总线3014，连接到CD-ROM驱动器3012等；ROM3015，用于存储启动程序等程序；RAM3016，连接到MPU3013，用于临时存储应用程序的命令并且提供临时存储空间；以及硬盘3017，用于存储应用程序、系统程序以及数据。在此，虽然未进行图示，但是计算机301也可以进一步包括提供向局域网进行连接的网卡。

使计算机系统300执行上述实施方式的语音对话装置21等的功能的程序也可以存储在CD-ROM3101中，将其插入到CD-ROM驱动器3012中，再传送至硬盘3017。取而代之地，也可以经由未图示的网络将程序发送至计算机301，并存储于硬盘3017。程序在执行时被加载到RAM3016。也可以从CD-ROM3101或者网络直接加载程序。

程序也可以不必包含使计算机301执行上述实施方式的语音对话装置21等的功能的操作系统(OS)或者第三方程序等。程序也可以只包含在被控制的状态下调用适当的功能(模块)以获得期望结果的命令部分。计算机系统300如何工作是公知的，因而省略详细说明。

此外，在上述程序中，在发送信息的步骤与接收信息的步骤等中不包含由硬件进行的处理，例如在发送步骤中由调制解调器与接口卡等进行的处理(只能由硬件进行的处理)。

另外，执行上述程序的计算机既可以为单个，也可以为多个。即，既可以进行集中处理，或者也可以进行分散处理。

另外，在上述各实施方式中，存在于一个装置中的两个以上的通信单元当然也可以物理性地通过一个介质来实现。

另外，在上述各实施方式中，各处理既可以通过由单个装置集中处理来实现，或者也可以通过由多个装置分散处理来实现。

本发明并不局限于以上的实施方式，能够进行各种变更，当然，这些变更也包含在本发明的保护范围内。

产业上的利用可能性

如上所述，本发明所涉及的语音对话系统具有在用户与装置之间的一系列的对话进行了一定程度之后，该用户或者其他用户能够确认或者认知过去的对话的状况的效果，作为语音对话系统等是有用的。

附图标记说明

1、2：语音对话系统

11：语音识别服务器

12：对话控制服务器

13：语音合成服务器

14：机器翻译服务器

15：配对服务器

16：对话客户端

17：机器人

18：用户终端

21：语音对话装置

111、161：语音受理部

112：语言识别部

113：语音识别引擎

114：讲话文本送出部

121：讲话文本受理部

122：对话控制模块

123：响应文本送出部

131：响应文本受理部

132：语音合成引擎

133：语音送出部

141：文本受理部

142：机器翻译引擎

143：翻译结果送出部

151、2112：配对信息存储部

152、2151：指示接收部

153、2136：配对信息积累部

154：配对关联信息送出部

162、2141：语音输出部

163：麦克风&AD转换器

164：语音区间检测单元

165：扬声器

166：显示器

167：对话履历

181：终端存储部

182：终端受理部

183：终端处理部

184：终端发送部

185：终端接收部

186：终端输出部

211：存储部

212：受理部

213：处理部

214：输出部

215：接收部

216：发送部

1221：对话情景存储部

1222：数据库

1223：对话履历存储部

1224：语言理解部

1225：情景控制部

1226：响应生成部

1301：虚拟代理

2111：对话信息存储部

2131：语音识别部

2132：对话控制部

2133：对话信息积累部

2134：语音合成部

2135：机器翻译部

2152：用户信息接收部

2161：对话信息发送部

Claims

1.一种语音对话系统，在存储介质中存储对话信息，所述对话信息是一系列的对话的信息，并具有用户的讲话输入语音的语音识别结果即讲话文本、根据该讲话文本生成的一个以上的讲话翻译结果、相对于所述讲话文本的系统的响应即响应文本、以及根据该响应文本生成的响应翻译结果，

在跨语言的语音对话系统中的对话的进行中，在从用户终端接收到配对的指示的情况下，进行与该用户终端之间的配对的处理，向该用户终端发送所述对话信息。

2.一种语音对话装置，具备：

对话信息存储部，存储对话信息，所述对话信息是一系列的对话的信息，并具有用户的讲话输入语音的语音识别结果即讲话文本、以及相对于该讲话文本的系统的响应即响应文本；

受理部，受理能够通过两个以上的不同语言发声的输入语音；

语音识别部，对所述输入语音进行语音识别，生成语音识别结果即讲话文本；

对话控制部，使用所述讲话文本，生成相对于该讲话文本的响应即响应文本；

翻译部，根据所述讲话文本生成一个以上的讲话翻译结果，并且根据所述响应文本生成一个以上的响应翻译结果；

语音合成部，取得与所述响应文本相应的语音；

语音输出部，输出所述语音；

指示接收部，从用户终端接收配对的指示；以及

对话信息发送部，在指示接收部从所述用户终端接收到所述指示的情况下，将存储在所述对话信息存储部中的对话信息发送至所述用户终端。

3.根据权利要求2所述的语音对话装置，其中，

所述受理部还受理来自用户终端的输入语音，

所述对话控制部在来自用户终端的输入语音被受理的情况下，根据与该输入语音相对应的讲话文本，生成相对于该讲话文本的响应即响应文本，

该响应文本被发送至所述用户终端。

4.根据权利要求3所述的语音对话装置，其中，

所述对话控制部还受理表示一系列的对话的对话信息中的一个位置的位置信息，使用作为所述对话信息中的对话的信息的、到与所述位置信息相对应的位置为止的对话的信息，根据与来自所述用户终端的输入语音相对应的讲话文本，生成相对于该讲话文本的响应即响应文本。

5.一种用户终端，具备：

终端发送部，在与权利要求1所述的语音对话系统或者权利要求2至4中任一项所述的语音对话装置之间的一系列的对话的中途，发送配对的指示；

终端接收部，与所述指示的发送相应地，接收作为到当前为止的一系列的对话的信息的对话信息；

终端存储部，存储识别用户所使用的语言的语言识别符；以及

终端输出部，仅输出所述终端接收部接收的对话信息中的、通过所述语言识别符识别出的语言的信息。

6.一种语音对话方法，在存储介质中存储对话信息，所述对话信息是一系列的对话的信息，并具有用户的讲话输入语音的语音识别结果即讲话文本、根据该讲话文本生成的一个以上的讲话翻译结果、相对于所述讲话文本的系统的响应即响应文本、以及根据该响应文本生成的响应翻译结果，

该语音对话方法具备：

在跨语言的语音对话系统中的对话的进行中，从用户终端接收配对的指示的步骤；

在接收到所述配对的指示的情况下，进行与该用户终端之间的配对的处理的步骤；以及

向该用户终端发送所述对话信息的步骤。