CN109568973A

CN109568973A - 对话装置、对话方法、服务器装置及计算机可读存储介质

Info

Publication number: CN109568973A
Application number: CN201811122774.6A
Authority: CN
Inventors: 河村义裕
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-09-27
Filing date: 2018-09-26
Publication date: 2019-04-05
Anticipated expiration: 2038-09-26
Also published as: JP2019061098A; CN109568973B; JP6962105B2; US20190096405A1

Abstract

本发明提供一种对话装置、对话方法、服务器装置及计算机可读存储介质，其能够改善对话装置的通信状况恶劣情况的应答技术。本发明的对话装置(100)包括麦克(21)、声音存储部(111)、通信部(25)、响应句信息取得部(113)以及响应部(114)。麦克(21)将用户发声出的声音作为声音数据而取得。声音存储部(111)存储基于麦克(21)所取得了的声音数据的声音信息。通信部(25)与外部的服务器装置进行通信。响应句信息取得部(113)在与根据通信部(25)的服务器装置的通信暂时切断了之后又恢复了的状态下，将通信切断中由声音存储部(111)所存储了的声音信息发送至服务器装置，从服务器装置取得声音信息所对应的响应句信息。响应部(114)通过基于响应句信息取得部(113)所取得了的响应句信息而生成了的响应句响应用户。

Description

对话装置、对话方法、服务器装置及计算机可读存储介质

相关申请的引用

本申请主张以2017年9月27日申请的日本专利申请特愿2017-186013为基础的优先权，该基础申请的内容全部包含在本申请中。

技术领域

本发明涉及机器人等通过声音与用户进行对话的技术。

背景技术

能够与用户对话的终端、机器人的开发正在进行。然后，这些终端、机器人与用户对话时，使例如声音识别处理、语言理解处理等高负荷的处理、对未存储于机器人的存储单元的信息进行检索的处理等，在外部的服务器上进行的系统的开发也正在进行。例如，在日本特开2003-111981号公报中，记载有如下的机器人装置，即：根据与用户的交互而与外部的服务器网络连接，动态地取得需要的数据、程序，灵活用于与用户的交流中。

发明内容

专利文献1中记载的机器人装置在与外部的服务器的通信情况不好时、通信被切断时，不能取得需要的数据，因此，通过继续合适的对话、行动，使与用户的对话不中断。但是，根据该机器人装置的合适的对话、行动仅限于此，因此，可能会对在此之后的与用户的交流中产生障碍。

例如，若在与外部服务器的通信被切断时，用户对该机器人装置进行某些询问，能够考虑机器人装置进行继续点头的行动作为对该询问的适当的行动。但是，该机器人只是将该用户的询问置若罔闻，因此，即使此后变成与外部服务器可通信的状态，也不能进行对于该询问的适当的回答。而且，尽管对用户的询问点头并倾听，对于不能进行合适的回答的该机器人而言，用户可能会抱有不信任感。这样，在现有的对话装置中，对通信状况恶劣情况下的应答技术而言还有改善的余地。

本发明是鉴于上述实际情况而做出的，目的在于改善对话装置的通信状况恶劣情况下的应答技术。

为了达成上述目的，本发明的对话装置是将用户发声出的声音所对应的响应句与外部的服务器装置进行通信并生成的对话装置，包括：

声音取得部，将用户发生出的声音作为声音数据取得；

声音存储部，基于所述声音取得部所取得了的声音数据存储声音信息；

通信部，与所述服务器装置进行通信；

响应句信息取得部，在与根据所述通信部的所述服务器装置的通信暂时切断了之后又恢复了的状态下，将通信切断中所述声音存储部存储完毕的声音信息发送至所述服务器装置，将所述声音信息对应的响应句信息从所述服务器装置取得；以及

响应部，通过基于所述响应句信息取得部所取得了的响应句信息而生成了的响应句响应用户。

根据本发明，能够改善对话装置的通信状况恶劣情况的应答技术。

附图说明

结合以下附图考虑以下的详细描述，则能够更加深刻地理解本申请。

图1是表示本发明的第一实施方式的对话系统的结构的图。

图2是表示第一实施方式的对话装置的外观的图。

图3是表示第一实施方式的对话装置的结构的图。

图4是表示第一实施方式的对话装置所存储的附加信息附声信息的一例的图。

图5是表示第一实施方式的服务器装置的结构的图。

图6是表示第一实施方式的服务器装置所存储的响应句生成规则的一例的图。

图7是第一实施方式的对话装置的对话控制处理的流程图。

图8是第一实施方式的对话装置表面线程的流程图。

图9是第一实施方式的服务器装置的响应句生成处理的流程图。

图10是表示本发明的第二实施方式的对话装置的结构的图。

图11是表示第二实施方式的对话装置所存储的响应句信息列表的一例的图。

图12是第二实施方式的对话装置的对话控制处理的流程图。

图13是第二实施方式的服务器装置的响应句生成处理的流程图。

图14是表示本发明的第三实施方式的对话装置的结构的图。

图15是表示第三实施方式的对话装置所存储的位置历史数据的一例的图。

图16是第三实施方式的对话装置的对话控制处理的流程图。

图17是表示第三实施方式的服务器装置向对话装置发送的特征单词、响应句及地址名的示例的图。

图18是第三实施方式的服务器装置的响应句生成处理的流程图。

具体实施方式

接下来，参照图表对本发明的实施方式进行说明。另外，对图中相同或相应部分赋予相同符号。

(第一实施方式)

如图1所示，本发明的第一实施方式的对话系统1000包括通过声音与用户U对话的机器人即对话装置100和执行对话装置100与用户U对话时所需的各种处理(例如声音识别处理、响应句生成处理等)的服务器装置200。对话装置100将用户U发声出的声音的数据(声音数据)发送至外部的服务器装置200，在该服务器装置200上执行声音识别处理、响应句信息生成等，由此，使与用户U对话时的对话装置100本身的处理负荷变轻。

如图2所示，对话装置100由头20和身体30构成。然后，在对话装置100的头20上设有麦克21、相机22、扬声器23和传感器组24。

在头20的左右，人脸处的耳朵位置设有多个麦克21，构成麦克阵列。麦克21作为声音取得部发挥作用，将在对话装置100周围的用户U发声出的声音作为声音数据取得。

相机22是设置于头20的前面的中央部、人脸处的鼻子位置的拍摄装置。相机22作为取得对话装置100的正面的图像的数据(图像数据)的图像取得部发挥作用，将取得了的图像数据输入至后述的控制部110。

扬声器23设置于相机22的下侧，人脸处的嘴的位置。扬声器23作为输出声音的声音输出部发挥作用。

传感器组24设置于人脸处的眼睛的位置。传感器组24包含加速度传感器、障碍物探测传感器等，检测各种物理量，为了对话抓装置100的姿势控制、碰撞回避、安全确保等而使用。

如图2所示，对话装置100的头20和身体30通过由虚线表示的头关节31彼此连接。头关节31包含多个电机。后述的控制部110驱动这些多个电机，由此，能够使对话装置100的头20通过上下方向、左右方向及倾斜方向的3轴旋转。由此，对话装置100能够进行例如点头的动作。

如图2所示，对话装置100的身体30的下部设有行走部32。行走部32包含4个车轮(轮子)和驱动电机。4个车轮中，2个作为前轮在身体30的前侧，其余2个作为后轮在身体30的后侧分别配置。作为车轮，例如可以使用全方位轮、机械轮等。若后述的控制部110控制驱动电机而使车轮旋转，对话装置100移动。

下面，参照图3，说明对话装置100的功能结构。如图3所示，对话装置100，除了上述的结构以外，包括通信部25、操作按钮33、控制部110和存储部120。

通信部25是用于与服务器装置200等外部装置进行无线通信的，包含天线的无线模块。例如，通信部25是用于通过无线LAN(Local Area Network)进行无线通信的无线模块。通过使用通信部25，对话装置100能够向服务器装置200发送声音数据等声音信息，此外，从服务器200接收后述的响应句信息。对话装置100和服务器装置200的无线通信可以是直接通信，也可以是经基站、接入点等的通信。

操作按钮33未图示，设置于身体30的背后的位置。操作按钮33是用于操作对话装置100的各种按钮。操作按钮33包含电源按钮、扬声器23的音量调节按钮等。

控制部110由CPU(Central Processing Unit)等构成。控制部110执行存储部120中存储的程序，由此，作为后述的声音存储部111、表面部112、响应句信息取得部113及响应部114发挥作用。此外，控制部110包括时钟功能及计时器功能，能够取得当前时刻(当前日期时间)、经过时间。

存储部12由ROM(Read Only Memory)、RAM(Random Access Memory)等构成，存储控制部110的CPU所执行的程序、各种数据等。此外，存储部120还存储对声音取得部(麦克21)所取得了的声音数据附加了发声日期时间等的附加信息附声信息121。

如图4所示，附加信息附声信息121是将用户U发声出的内容与通信状态及发声日期时间一起存储的数据。如果是通信部25与服务器200可通信的状态，通信状态的值是“连接”，如果是不能通信的状态，通信状态的值变为“切断”。在图4中，不根据通信状态而存储附加信息附声信息121，但也可以是，仅将通信状态是“切断”的附加信息附声信息121存储至存储部120。此外，也可以是，触发通信切断的检测而开始附加信息附声信息121的存储。此外，也可以是，通信状态的值未包含于附加信息附声信息121，服务器装置200基于发声日期时间判断通信状态。

下面，对控制部110所实现的各功能进行说明。控制部110如前述的那样，通过执行存储部120所存储的程序，作为声音存储部111、表面部112、响应句信息取得部113及响应部114发挥作用。此外，控制部110对应于多线程功能，能够平行执行多个线程(不同的处理流程)。

声音存储部111向声音取得部(麦克21)所取得了的声音数据中附加发声日期时间等而作为附加信息附声信息121，存储于存储部120。另外，在本实施方式中如后述的那样通过服务器装置200进行声音识别处理，但也能够考虑通过对话装置100进行声音识别处理的实施方式。此时，声音存储部111也可以将对声音数据进行声音识别后的文本数据存储在存储部120上。因此，对话装置100将向服务器装置200发送的信息表现为声音信息。在本实施方式中，声音信息是声音取得部所取得的声音数据，但也能够考虑声音信息是进行声音识别后的文本数据的实施方式。然后，向声音信息附加了发声日期时间等的信息即附加信息附声信息121。

表面部112执行控制，该控制用于在与根据通信部25的服务器装置200的通信被切断时，对用户U进行看起来像正在听用户U所发声的内容的动作。具体地，控制头关节31、扬声器23等，以进行点头、附和等动作。

响应句信息取得部113将服务器装置200所生成了的响应句相关的信息(响应句信息)经通信部25取得。后述响应句信息。

响应部114通过响应句对用户U进行响应，该响应句是基于响应句信息取得部113所取得了的响应句信息而生成的。具体地，响应部114将基于响应句信息而生成了的响应句进行声音合成，通过扬声器23输出该响应句的声音。另外，也能够考虑服务器装置200进行声音合成处理的实施方式。在这样的实施方式中，声音合成后的声音数据作为响应句信息从服务器装置200发送，因此，响应部114能够不需要进行声音合成处理，保持原样将该声音数据通过扬声器23输出。

以上，说明了对话装置100的功能结构。接下来，说明服务器装置200的功能结构。如图5所示，服务器装置200包括控制部210、存储部220和通信部230。

控制部210由CPU等构成，控制部210执行存储部220所存储的程序，由此，作为后述的声音识别部211、特征单词提取部212及响应生成部213发挥作用。

存储部220由ROM、RAM等构成，存储控制部210的CPU所执行的程序、各种数据等。此外，存储部220还存储后述的响应句生成规则221。

如图6所示，响应句生成规则221是向每个指定的单词(特征单词)对应响应句的规则。另外，在图6中，响应句生成规则221，成为分配作为特征单词的“热”、“电影”、“可爱”这样的具体的单词的规则，但不限于此。例如，也可以是，将特征单词定义为“表示冷热的负面形容词：X”，向与之对应的响应句赋予“若一直说X、X，就会变得更X呀”的规则。此外，作为表示冷热的形容词的其他响应句生成规则的示例，例如，也可以是，将特征单词定义为“表示冷热的正面形容词:Y”,向与之对应的响应句赋予“最近是不是变成了Y气候，如果是Y心情很好”的规则。在这里，作为“表示冷热的负面形容词”，举出例如“热”、“冷等”，作为“表示冷热的正面形容词”，举出例如“凉爽”、“温暖”等。

通信部230是用于与对话装置100等外部装置进行无线通信的、包含天线的无线模块。例如，通信部230是用于通过无线LAN(Local Area Network)进行无线通信的无线模块。通过使用通信部230，服务器装置200能够从对话装置100接收声音数据等声音信息，此外，向对话装置100发送后述的响应句信息。控制部210在经通信部230从对话装置100接收声音信息时作为接收部发挥作用，经通信部230向对话装置100发送响应句信息时作为发送部发挥作用。

接下来，对控制部210所实现的各功能进行说明。控制部210如前述的那样，通过执行存储部220存储的程序，作为声音识别部211、特征单词提取部212及响应生成部213发挥作用。

声音识别部211对从对话装置100发送了的附加信息附声信息121所包含的声音数据进行声音识别，生成表示用户U的发声内容的文本数据。如上述的那样，在对话装置100执行声音识别的实施方式中，不需要声音识别部211，此时，声音识别后的文本数据被包含于从对话装置100发送了的附加信息附声信息121中。

特征单词提取部212从声音识别部211所生成了的文本数据(或附加信息附声信息121所包含的文本数据)中，提取该文本数据所包含的具有特征的单词即特征单词。特征单词例如是，文本数据中所包含的指定单词(名词、动词、形容词、形容动词)中，包含最多的指定单词。此外，文本数据中所包含的指定单词中，被强调修饰词(“非常”、“相当”等)所修饰的指定单词也能够作为特征单词。

响应生成部213基于响应规则生成响应句相关信息(响应句信息)。在本实施方式中，该响应规则是对特征单词提取部212所提取出的特征单词适用存储部220所存储的响应句生成规则221而生成响应句信息的规则。也可以使用其他规则作为响应规则。另外，在本实施方式中，响应生成部213生成作为响应句信息而完成了的响应句，但不限于此。在对话处理中，存在对用户U所发声出的声音进行声音识别、进行语法分析等、生成响应句、进行声音合成的一系列处理，但也可以是，服务器装置200执行它们中的一部分，对话处理装置100执行余下的处理。例如，也可以是，服务器装置200执行声音识别、语法分析等繁重的处理，对话装置100执行使响应句完成的处理。将这些处理中的哪个通过哪个装置执行是任意的。因此，服务器装置200将向对话装置100发送的信息表现为响应句信息，对话装置100将向用户U发声的信息表现为响应句。有时响应句信息和响应句相同(即使是数字数据还是模拟声音等的信号方式不同，作为内容是相同的)。在本实施方式中，响应句信息与响应句相同。

以上，说明了服务器装置200的功能结构。接下来，参照图7，说明对话装置100的控制部110所执行的对话控制处理。若对话装置100启动而完成初始设定，则该处理开始。

首先，控制部110判断与根据通信部25的服务器装置200的通信是否被切断(步骤S101)。例如，通信部25经接入点与服务器装置200进行通信时，如果不能接收该接入点的电波，则判断为与服务器装置200的通信被切断。

若与服务器装置200的通信被切断(步骤S101:是)，控制部110将当前时刻(通信被切断了的时刻)存储在存储部120上(步骤S102)。然后，作为表面部112的控制部110启动后述的表面线程(步骤S103)，并行进行表面线程的处理。

然后，作为声音存储部111的控制部110，向声音取得部(麦克21)所取得了的声音数据中附加通信状态(切断)及当前时刻的信息，作为附加信息附声信息121存储在存储部120上(步骤S104)。步骤S104也成为声音存储步骤。之后，控制部110判断与服务器装置200的通信是否恢复了(步骤S105)。如果与服务器装置200的通信未恢复(步骤S105:否)，控制部110回到步骤S104,存储附加信息附声信息121并待机直到通信回复。如果与服务器装置200的通信恢复(步骤S105:是)，控制部110使表面线程结束(步骤S106)。

然后，控制部110将通过步骤S102存储在了存储部220上的从通信切断时刻到当前时刻的(通信切断中的)附加信息附声信息121经通信部25发送至服务器装置200(步骤S107)。另外，在这里，对话装置100检测通信的恢复，但也可以是，服务器装置200检测通信的恢复，请求向对话装置100发送附加信息附声信息121。对话装置100通过步骤S107发送了的附加信息附声信息121由服务器装置200进行声音识别，服务器装置200将响应句信息发送给对话装置100。

然后，作为响应句信息取得部113的控制部110经通信部25取得服务器装置200所发送了的响应句信息(步骤S108)。步骤S108也称为响应句信息取得步骤。在本实施方式中，将作为完成文的响应句作为响应句信息而取得，但不限于此，也可以是，当服务器装置200负责非响应句生成的全部的一部分时，取得作为部分信息的响应句信息(例如后述的特征单词的信息)，在对话装置100内完成响应句。

然后，作为响应部的114的控制部110，基于响应句信息取得部113所取得了的响应句信息，响应用户(步骤S109)。在本实施方式中，响应句信息是响应句本身，因此，具体地，响应部114声音合成响应句的内容，通过扬声器23发声响应句。该响应句通过服务器装置200与对话装置100的合作，成为与通信切断中的声音对应的内容的响应句，因此，用户能够确认对话装置100在通信切断中也仔细地倾听了用户的发声内容。步骤S109也成为响应步骤。然后，控制部100使处理回到步骤S101。

另一方面，如果在步骤S101中，与服务器装置200的通信未被切断(步骤S101:否)，作为声音存储部111的控制部110,向麦克21所取得了的声音附加通信状态(连接)及当前时刻的信息，作为附加信息附声信息121存储在存储部120上(步骤S110)。然后，控制部110将通过步骤S110存储了的(通信连接中的)附加信息附声信息121经通信部25发送至服务器装置200(步骤S111)。

另外，当仅通信状态是“切断”的附加信息附声信息121被存储在存储部120上时，跳过步骤S110的处理，代替步骤S111的处理，控制部110向麦克21所取得了的声音数据中附加通信状态(连接)及当前时刻，作为附加信息附声信息121，经通信部25发送至服务器装置200。

在本实施方式中，在上述任意的情况，均通过服务器装置200对在这里被发送了的附加信息附声信息121所包含的声音数据进行声音识别，服务器装置200向对话装置100发送响应句。后述根据该服务器装置200的处理(响应句生成处理)。

然后，作为响应句信息取得部113的控制部110经通信部25取得由服务器装置200发送了的响应句信息(步骤S112)。然后，作为响应部114的控制部110基于响应句信息取得部113所取得了的响应句信息响应用户(步骤S113)。在本实施方式中，响应句信息是响应句本身，因此，具体地，响应部114声音合成响应句的内容，通过扬声器23使响应句发声。该响应句通过服务器装置200与对话装置100的合作，成为与通信连接中的声音对应的内容的响应句，因此，是与通过现有技术生成的响应句相同的内容。然后，控制部110使处理回到步骤S101。

接下来，参照图8对通过步骤S103启动的表面线程的处理进行说明。

首先，控制部110将控制部110所具备的定时器重置，为了在进行解释的间隔设定用中使用(步骤S201)。此后将该计时器称为解释用计时器。

然后，控制部110对相机22所取得了的图像进行识别(步骤S202),对话装置100判断是否被用户注视着(步骤S203)。如果对话装置100被用户注视着(步骤S203:是)，对用户进行例如“现在，脑袋不清楚，不能准确地回答。对不起。”等类似的解释(步骤S204)。因为此时与服务器200之间的通信被切断，不能进行声音识别、响应句生成。

然后，通过进行了解释，控制部110将解释用定时器重置(步骤S205)。然后，控制部110等待10秒后(步骤S206)回到步骤S202。在这里，该10秒的值，是等待时间的举例，用于使对话装置100不会频繁地重复相同的动作，不需要限定为10秒，也可以变更为3秒、1分等任意的值。另外，为了与其他等待时间进行区别，将步骤S206中的该等待时间称为表面等待基准时间。

另一方面，若在步骤S203中,对话装置100未被用户注视着(步骤S203:否)，控制部110判断解释用定时器的值是否经过重置后3分钟(步骤S207)。另外该3分钟的值，是等待时间的举例，用于使对话装置100不会频繁地进行解释，不需要限定为3分钟。例如，能够变更为1分钟、10分钟等任意的值。另外，为了将该等待时间与其他的等待时间进行区分，称为解释基准时间。

若经过3分钟(步骤S207:是)，进入步骤S204，之后的处理如上所述。若未经过3分钟(步骤S207:否)，控制部110判断从麦克21取得的声音是否中断了(步骤S208)。该判断，例如，若在从麦克21取得的声音中，无声期间持续基准无声时间(例如1秒)以上，控制部110判断为声音中断了。

若声音未中断(步骤S208:否)，回到步骤S202。若声音中断(步骤S208:是)，控制部110从“点头”、“附和”、“小声说话”3个中随机选择一个，控制头关节31、扬声器23等,以进行选择了的动作(步骤S209)。

例如，如果选择了“点头”，控制部110使用头关节31使头20以纵向摇摆的方式动作。关于该点头的动作，也可以是，控制部110在执行步骤S209时，随机改变摇摆头20的次数、速度。此外，如果选择了“附和”，控制部110使用头关节31使头20以纵向摇摆的方式动作，并且，通过扬声器23发声“是”、“原来如此”、“嗯”等。关于该附和的动作，也可以是，在控制部110执行步骤S209时，控制部110随机改变摇摆头20的次数、速度、通过扬声器23发声的内容。

此外，如果选择了“小声说话”，控制部110通过扬声器23发声合适的自言自语。在这里，合适的自言自语可以是人类的自言自语，但也可以是，模仿动物叫声的声音、对机器人而言常有对人类而言无法解释的电子音等。关于该自言自语，也可以是，在控制部110执行步骤S209时，使由控制部110从几个种类中随机选择出的自言自语发声。

然后，进入步骤S206，之后的处理如上所述。以上，根据说明了的表面线程的处理，对话装置100即使在与服务器装置200的通信被切断时，也能够给予用户看起来像正在倾听的印象。

接下来，参照图9对服务器装置200执行的响应句生成处理进行说明。另外，若服务器装置200启动，则开始响应句生成处理。

首先，服务器装置200的通信部230接收对话装置100所发送了的附加信息附声信息121(步骤S301)。如果附加信息附声信息121未被从对话装置100发送，直到被发送为止在步骤S301待机。然后，控制部210判断接收了的附加信息附声信息121是否是通信切断中的信息(步骤S302)。如图4所示，附加信息附声信息121中，包含表示通信状态的信息，因此，通过参照该信息，能够判断接收了的附加信息附声信息121是否是通信切断中的信息。此外，服务器装置200能够掌握与对话装置100的通信情况，因此，即使附加信息附声信息121中不包含表示通信状态的信息，也能够基于附加信息附声信息121中包含的发声日期时间信息，判断该附加信息附声信息121是否是通信切断中的信息。

若接收了的附加信息附声信息121是通信切断中的信息(步骤S302:是)，作为声音识别部211的控制部210对附加信息附声信息121中包含的声音数据进行声音识别而生成文本数据(步骤S303)。然后，作为特征单词提取部212的控制部210从生成了的文本数据中提取特征单词(步骤S304)。然后，作为响应生成部213的控制部210基于提取出的特征单词和响应句生成规则221生成响应句信息(在本实施方式中是响应句本身)(步骤S305)。然后，响应句生成部213将生成完毕的响应句(响应句信息)经通信部230发送至对话装置100(步骤S306)。然后，回到步骤S301。

另一方面，若接收了的附加信息附声信息121不是通信切断中的信息(步骤S302:否)，作为声音识别部211的控制部210对附加信息附声信息121中包含的声音数据进行声音识别而生成文本数据(步骤S307)。然后，作为响应生成部213的控制部210，将对应于生成了的文本数据的响应句信息(在本实施方式中是响应句本身)使用现有的响应句生成技术生成(步骤S308)。然后，响应生成部213将生成完毕的响应句(响应句信息)经通信部230发送至对话装置100(步骤S309)。然后，回到步骤S301。

根据以上说明了的响应句生成处理，通信连接中生成通常的响应句信息，通信切断中基于特征单词及响应句生成规则生成响应句信息。而且，服务器装置200能够针对与对话装置100的通信被切断期间的声音信息，生成用于使人想到像是正在仔细倾听用户的发声的响应句信息。

然后，根据上述的对话装置100的对话控制处理，从服务器装置200取得与服务器装置200的通信被切断期间的声音信息所对应的响应句信息，由此，对话装置100能够发声如下内容：使人想到如正在仔细倾听用户的发声那样的响应句。

例如，对于图4的编号1至编号3所示的用户的发声内容，对话装置100在该时刻不能回答响应句，但在与服务器装置200的通信恢复了的时刻，这些编号1到编号3所示的用户的发声内容被发送至服务器装置200。然后，通过服务器装置200的特征单词提取部212，从这些用户发声内容中，提取“热”作为使用最多的指定单词。将该“热”适用于图6所示的响应句生成规则，由此，响应句生成部213生成“若一直说热、热，就会变得更热呀”这样的响应句信息(在本实施方式中，是响应句本身)。然后，对话装置100的响应句信息取得部113取得该响应句(响应句信息)，通过响应部114，对话装置100能够对用户进行“若一直说热、热，就会变得更热呀”的发声。

这样，对话装置100在与服务器装置200的通信被切断时不能进行迅速的响应，当在通信恢复了时，发声出基于切断中的用户的发声内容中包含的特征单词(使用最多的指定单词等)的响应句，由此，能够通过相对短的响应句，向用户表示出在通信切断中也仔细地倾听用户的发声内容。这样，对话装置100能够改善通信情况不好时的应答技术。

(第二实施方式)

在上述的第一实施方式中，对话装置100通过响应句响应，该响应句对应于在与服务器装置200的通信被切断期间在用户发声了的全体内容中使用最多的指定单词等(1个特征单词)。特征单词容易留在用户的印象中，因此，能够认为这样的响应句不太会产生问题，但根据情况，用户在发声中改变话题，随着时间的经过多个特征单词被使用同样多次也有可能。此时，有时能够考虑如下优选的情况：提取每个话题分别最多使用的特征单词，根据提取出的多个特征单词分别对应的响应句进行多次响应。

因此，通过这样的多个响应句对能够响应的第二实施方式进行说明。

第二实施方式的对话系统1001包括对话装置101与服务器装置201这一点与第一实施方式对话系统1000相同。第二实施方式的对话装置101的外观与第一实施方式的对话装置100相同。如图10所示，对话装置101的功能结构，与第一实施方式的对话装置100进行比较，在存储部120中存储响应句信息列表122这一点不同。此外，服务器装置201的功能结构与第一实施方式的服务器装置200相同。

如图11所示，响应句信息列表122包含“发声日期时间”、“特征单词”、“用户的声音对应的响应句”，它们是从服务器装置201发送出的信息。例如，图11的编号1是用户从2017年9月5日10点3分5秒到2017年9月5日10点3分11秒间所发声出的内容中所包含的特征单词“热”，表示出该用户的发声对应的响应句是“若一直说热、热，就会变得更热呀”编号2以后也相同。另外，是用于说明的一例，图11所示的“用户的声音对应的响应句”所对应的“用户的发声内容”表示在图4所示的附加信息附声信息121中。

接下来，参照图12说明对话装置101的控制部110所进行得对话控制处理。该处理与第一实施方式的对话装置100的对话控制处理(图7)进行比较，除了一部分以外是相同的，以不同之处为中心进行说明。

步骤S101到步骤S107及步骤S110到步骤S113与参照图7说明了的处理相同。在步骤S107的下一步骤即步骤S121中，作为响应句信息取得部113的控制部110经通信部25取得服务器装置201所发送了的响应句信息列表122。接下来，响应句信息列表122中包含1个以上的响应句信息，因此，作为响应句信息取得部113的控制部110从响应句信息列表122中取出1个响应句信息(步骤S122)。

如图11所示，从响应句信息列表122取出了的响应句信息包含“发声日期时间”。控制部110判断“发声日期时间”的结束时刻与当前时刻相比是否是2分钟以上之前(步骤S123)。由于此处的2分钟，是用于判断是否在接下来描述的步骤S214中追加前置的时间，也就是前置判断基准时间，不限于2分钟。前置判断基准时间能够变更为例如3分、10分等任意的值。

若“发声日期时间”的结束时刻与当前时刻相比是2分钟以上之前(步骤S123:是)，作为响应部114的控制部110向响应句信息追加前置。这里的前置，是例如“说起来，说到了热”这样的句子。更一般地，能够表示为“说起来，说到了‘特征单词’”。通过追加该前置，能够避免给与用户“特征单词”所对应的响应句被唐突地发声这样的印象。另外，若“发声日期时间”的结束时刻与当前时刻相比不是2分钟以上之前(步骤S123:否)，不追加前置，进入步骤S125。

然后，作为响应部114的控制部110基于响应句信息取得部113所取得了的响应句信息(是在步骤S124中追加了前置时，附加前置的响应句信息)，响应用户(步骤S125)。在本实施方式中，响应句信息是响应句本身，因此，具体地，响应部114声音合成响应句(或附加前置的响应句)的内容，通过扬声器23使响应句发声。然后，控制部110判断响应句信息列表122中是否存在下一个的响应句信息(还未成为发声的对象的响应句信息)(步骤S126)。

如果存在下一个的响应句信息(步骤S126:是)，回到步骤S122，直到响应句信息列表中存在的全部响应句信息被发声为止，重复步骤S122到步骤S125的处理。如果不存在下一个响应句信息(步骤S126:否)，回到步骤S101。该响应句信息列表中包含由服务器装置201生成了的、通信切断中的声音对应的内容的多个响应句，因此，用户能够确认在对话装置101通信切断中也仔细地倾听用户的发声内容。

接下来，参照图13对服务器装置201所进行的响应句生成处理进行说明。该处理与第一实施方式的服务器装置200的响应句生成处理(图9)相比，除了一部分以外是相同的，以不同之处为中心进行说明。

步骤S301到步骤S303及步骤S307到步骤S309与参照图9而说明了的处理相同。步骤S303的下一个步骤即步骤S321中，控制部210从对话装置101所发送了的声音信息(在本实施方式中是声音数据)中提取说话的段落(话题)。它可以是基于步骤S303所生成了的文本数据而提取说话的段落(话题)，也可以是，基于声音数据例如基于声音的中断等提取说话的段落(话题)。

接下来，作为特征单词提取部212的控制部210对每个由步骤S321所提取出的说话的段落(话题)提取特征单词(步骤S322)。例如，假设如下的情况：声音数据的说话的段落是从发声开始3分的位置和5分的位置被提取出的。此时，将直到发声开始后3分的部分中包含最多的指定单词作为最初的话题的特征单词提取。然后，将从发声开始后3分到5分的部分中包含最多的指定单词作为第二话题的特征单词提取。然后，将发声开始后5分以后的部分中包含最多的指定单词作为第三话题的特征单词提取。

然后，作为响应生成部213的控制部210将从每个说话的段落(话题)提取出的特征单词适用于响应句生成规则221而生成响应句信息(在本实施方式中是响应句本身)，在该响应句中附加发声日期时间及特征单词，生成如图11所示的响应句信息列表(步骤S323)。然后，响应生成部213，将生成完毕的响应句信息列表经通信部230发送至对话装置101(步骤S324)。然后，回到步骤S301。

根据以上说明了的响应句生成处理，即使用户进行了由在通信切断中多个话题组成的发声，基于各话题分别含有的特征单词生成响应句信息列表。而且，服务器装置201能够生成在与对话装置101的通信被切断期间发声了的多个话题分别对应的响应句信息。

然后，根据上述的对话装置101的对话控制处理，从服务器装置201取得在与服务器装置201的通信切断期间的声音信息所对应的响应句信息列表，由此，对话装置101能够进行根据多个响应句的响应。据此，与根据1个响应句的响应相比，能够进行使人想到像是更加仔细倾听用户的发声的响应。

例如，对于图4的编号8至编号12所示的用户的发声内容，对话装置101在该时刻无法回复响应句，但在与服务器装置201的通信恢复了的时刻，将这些编号8到编号12所示的用户的发声内容发送至服务器装置201。然后，根据服务器装置201的响应句生成处理，根据这些用户的发声内容生成图11的编号2及编号3所示的响应句信息列表。然后，对话装置101的响应句信息取得部113取得该响应句信息列表，通过响应部114，对话装置101能够对用户发声“说起来，说到了电影，电影很好啊，我也最喜欢电影”、“说起来，说到了可爱，是说我可爱吗？高兴。”等。

这样，对话装置101在与服务器装置201的通信切断时不能进行迅速的响应，但在通信恢复了时，即使切断中的用户的发声内容中包含多个话题，也能够发声基于各个话题中的特征单词(使用最多的特征单词等)的响应句。而且，对话装置101能够表示针对各话题仔细地倾听了用户的发声内容。这样，对话装置101能够进一步改善通信状况恶劣情况的应答技术。

(第三实施方式)

若使对话装置能够取得自己的位置，则成为能够在响应句中包含与位置相关的信息的方式，变得还能够表示在哪里倾听了用户的发声内容。对这样的第三实施方式进行说明。

第三实施方式的对话系统1002包含对话装置102和服务器装置202这一点与第一实施方式的对话系统1000相同。第三实施方式的对话装置102与第一实施方式的对话装置100外观相同。如图14所示，对话装置102的功能结构与第一实施方式的对话装置100相比，包括位置取得部26这一点和存储部120存储位置历史数据123这一点不同。此外，服务器202的功能结构与第一实施方式的服务器200相同。

位置取得部26接收来自GPS(Global Positioning System)卫星的电波，由此，能够取得自身位置的坐标(位置数据)。自身位置的坐标信息通过纬度及经度表示。

如图15所示，位置历史数据123是取得了自身位置的日期时间和自身位置的坐标(纬度及经度)的成对历史。

接下来，参照图16说明对话装置102的控制部110所执行的对话控制处理。该处理与第一实施方式的对话装置100的对话控制处理(图7)相比，除了一部分以外是相同的，以不同之处为中心进行说明。

步骤S101到步骤S103、步骤S105到步骤S106及步骤S110到步骤S113，与参照图7而说明了的处理相同。在步骤S103的下一个步骤即步骤S131中，作为声音存储部111的控制部110，将麦克21所取得了的声音数据与通信状态(切断)及当前时刻一起作为附加信息附声信息121存储在存储部120中，此外，控制部110将位置取得部26所取得了的位置数据与取得日期时间一起作为位置历史数据123存储在存储部120中。

然后，在步骤S106的下一个步骤即步骤S132中，控制部110将在步骤S102中存储部220中存储了的从通信切断时刻到当前时刻为止(通信切断中的)附加信息附声信息121和位置历史数据123经通信部25发送至服务器装置202。在这里发送了的附加信息附声信息121及位置历史数据123通过服务器装置202进行声音识别及地点名检索，服务器装置202向对话装置102发送特征单词、响应句及位置所对应的地点名。若表示具体示例，如果位置所对应的地点名存在，服务器装置202例如，如图17的编号1所示的那样，发送特征单词“热”、响应句及地点名“第一公园”。此外，如果位置所对应的地点名不存在，服务器装置202例如，如图17的编号2所示的那样，发送特征单词“电影”、响应句及表示没有地点名的数据“---”。后述根据该服务器装置202的处理(响应句生成处理)。

随后，作为响应句信息取得部113的控制部110经通信部25取得服务器装置202所发送了的特征单词、响应句信息(在本实施方式中是响应句本身)及位置所对应的地点名(步骤S133)。然后，作为响应部114的控制部110判断位置所对应的地点名是否存在(步骤S134)。如果位置所对应的地点名存在(步骤S134:是)，响应句信息取得部113向取得了的响应句信息中追加地点相关的前置(步骤S135)。地点相关的前置例如是“说起来，刚才在公园时，说到了热”这样的语句。更一般地，能够表示成“说起来，刚才在‘位置所对应的地点名’时，说到了‘特征单词’”。另外，如果位置所对应的地点名不存在(步骤S134:否)，不追加前置，进入步骤S136。

(然后，作为响应部114的控制部110基于响应句信息取得部113所取得了的响应句信息(是通过步骤S135追加了前置时的附加前置的响应句信息)，响应用户(步骤S136)。在本实施方式中，响应句信息是响应句本身，因此，具体地，响应部114声音合成响应句(或附加前置的响应句)的内容，通过扬声器23使响应句发声。然后，控制部110使处理回到步骤S101。

接下来，参照图18对服务器装置202所进行的响应句生成处理进行说明。该处理与第一实施方式的服务器装置200的响应句生成处理(图9)相比，除了一部分以外均相同，以不同之处为中心进行说明。

步骤S301到步骤S302、步骤S303到步骤S305及步骤S307到步骤S309，与参照图9而说明了的处理相同。在步骤S302的判断为是的情况的处理即步骤S331中，通信部230接收对话装置102所发送了的位置历史数据123。然后，关于包含在位置历史数据123中的各坐标，控制部210利用根据纬度及经度取得地点名的云服务，取得地点名(步骤S332)。例如，从google(注册商标)、善邻(zenrin，注册商标)等持有地图数据库的企业接受信息提供，由此，能够取得大厦名等相当详细的地址名。但是，由于还存在未定义地址名的坐标，有时也不能取得地址名。

然后，在步骤S305的下一个步骤即步骤S333中，控制部210判断在步骤S332中是否取得了地址名。如果取得了地址名(步骤S333:是)，响应生成部213将步骤S304中提取出的特征单词、步骤S305中生成了的响应句信息及步骤S332中取得了的地址名经通信部230发送至对话装置102(步骤S334)。该发送数据是例如图17的编号1、编号3所示的那样的数据。

如果未取得地址名(步骤S333:否)，响应生成部213将步骤S304中提取出的特征单词、步骤S305中生成了的响应句信息及表示没有地址名的数据经通信部230发送至对话装置102(步骤S335)。该发送数据是例如图17的编号2所示的那样的数据。

然后，任意情况(取得了地址名的情况和未取得地址名的情况)之后均回到步骤S301。

通过以上说明了的响应句生成处理，能够在通信切断中的发声内容所对应的响应句信息中附加上特征单词的信息和地址名信息而发送至对话装置102。然后，通过上述的对话装置102的对话控制处理，从服务器装置202取得在与服务器装置202的通信切断期间的声音信息所对应的响应句信息，由此，对话装置102能够通过使人想到像是正在仔细倾听用户在什么地点说了什么样的话的响应句进行响应。这样，对话装置102能够进一步改善通信情况恶劣情况的应答技术。

(变形例)

上述的各实施方式能够任意组合。例如通过将第二实施方式与第三实施方式组合，能够使多个话题所对应的响应句与发声了各话题的地点相关的前置一起发声。由此，能够使对话装置进行例如“说起来，刚才，在第一公园的时候，说起了热，若一直说热、热，就会变得更热呀”、“说起来，说起了电影，电影很好啊，我也最喜欢电影”、“说起来，刚才，在第三食堂的时候，说到了可爱，是说我可爱吗？高兴。”这样的发声。由此，对话装置与服务装置不能通信状态时的用户的发声内容的话题的变化、各话题在什么地点发声，对此，能够好像对话装置仔细倾听那样地进行应答。而且，该对话装置的变形例能够进一步改善通信状况恶劣情况的应答技术。

此外，在上述的各实施方式中，假设服务器装置与对话装置的通信情况混乱而说明，也能够适用于为了节电等有意切断两装置间的通信的情况。

此外，在上述的各实施方式中，以对话装置对应1名用户的情景进行了说明，对话装置搭载个人识别功能，由此，能够对多个用户分别进行对应的应答。

另外，对话装置100、101、102的各功能也能够通过通常的PC(Personal Computer)等计算机实施。具体地，在上述实施方式中，对话装置100、101、102所进行得对话控制处理等的程序作为被预先存储在存储部120的ROM中的程序而说明。但是，也可以是，将程序收纳而配置于软盘、CD-ROM(Compact Disc Read Only Memory)、DVD(Digital VersatileDisc)及MO(Magneto-Optical Disc)等计算机可读取的存储介质中，将该程序读取而安装于计算机中，由此，构成能够实现上述的各功能的计算机。

以上，说明了本发明的优选实施方式，但本发明不限于所述指定的实施方式，本发明中包含权利要求的范围所记载的发明及其等同范围。

(实施方式的作用效果)

(1)通信恢复后的响应句基于规定的响应句生成规则、基础特征单词而生成，因此，用户能够感到不太有违和感、自然的应答。

(2)能够根据响应句生成规则，生成使用户能感到自然的响应句。

(3)即使是通信长时间被切断的情况，也能够对每个话题提取特征单词，针对各话题生成合适的响应句。此外，能够生成附加了用于使用户想起对应的特征单词的前置的响应句。

(4)即使是通信长时间被切断的情况，也能够将用户在哪里何时说过的内容发送至服务器，因此，能够生成附加了包含地址信息的前置的响应句。

Claims

1.一种对话装置，其特征在于，

包括存储器、通信部和控制部，

所述控制部进行如下动作：

将基于用户发声出的声音的声音信息存储至所述存储器；

经由外部的服务器装置和所述通信部进行通信；

在与所述服务器装置的通信暂时切断了之后又恢复了的状态下，将通信切断中存储完毕的声音信息发送至所述服务器装置，将所述声音信息相对的响应句信息从所述服务器装置取得；以及，

通过基于所取得的所述响应句信息而生成的、与通信切断中存储了的声音信息相关联的响应句，响应用户，

其中，所述响应句信息基于响应规则而生成。

2.根据权利要求1所述对话装置，其特征在于，

所述响应句信息，基于包含于根据所述声音信息得到的文本数据中的特征单词而生成。

3.根据权利要求1所述的对话装置，其特征在于，

在与所述服务器装置的通信暂时切断了之后又恢复了的状态下响应用户的所述响应句，不同于在与所述服务器装置的通信未被切断而继续的状态下响应所述用户的响应句。

4.根据权利要求1所述的对话装置，其特征在于，

所述控制部进行用于在与所述服务器装置的通信切断期间对用户进行看起来正在听那样的动作的控制。

5.根据权利要求4所述的对话装置，其特征在于，

所述控制部进行如下控制，即：根据所取得的所述声音数据而执行点头、随声附和、小声说话的至少一个的控制。

6.根据权利要求4所述的对话装置，其特征在于，

所述控制部进行如下控制，即：经过解释基准时间后，对用户解释无法进行适当的响应的控制。

7.根据权利要求1所述的对话装置，其特征在于，

所述控制部将用户发声出的声音经麦克风作为声音数据取得，通过所述响应句经扬声器响应用户。

8.根据权利要求2所述的对话装置，其特征在于，

所述特征单词是对所述声音数据进行声音识别而取得的文本数据中包含最多的指定单词。

9.根据权利要求2所述的对话装置，其特征在于，

所述特征单词是对所述声音数据进行声音识别而取得的文本数据中包含的指定单词中，被强调修饰词修饰的指定单词。

10.根据权利要求1所述的对话装置，其特征在于，

所述响应句信息通过对所述特征单词适用所述响应句生成规则而生成。

11.根据权利要求1所述的对话装置，其特征在于，

所述控制部进行如下动作：

将响应句信息从所述服务器装置取得，该响应句信息对应于在通信切断中所存储的所述声音信息的每个话题的所述声音信息；以及

通过基于所取得的所述每个话题的响应句信息而生成了的响应句来响应用户。

12.根据权利要求1所述的对话装置，其特征在于，

所述控制部通过在基于所取得的所述响应句信息而生成了的响应句中追加了前置的响应句来响应用户。

13.根据权利要求1所述的对话装置，其特征在于，

还包括取得自身位置数据的位置取得部，

所述控制部在在与所述服务器装置的通信暂时切断了之后又恢复了的状态下，将通信切断中存储完毕的所述声音信息及通信切断中取得了的所述位置数据发送至所述服务器装置，将所述声音信息对应的响应句信息及所述位置数据对应的地点名从所述服务器装置取得；

通过在基于所取得的所述响应句信息而生成了的响应句中追加了包含所取得的所述地点名的前置的响应句来响应用户。

14.一种对话方法，其特征在于，包括以下步骤：

将基于用户发声出的声音的声音信息进行存储；

在与外部的服务器装置的通信暂时切断了之后又恢复了的状态下，将通信切断中存储完毕的所述声音信息所对应的响应句信息在所述服务器装置上生成；以及

通过基于从所述服务器装置接收了的所述响应句信息而生成了的响应句响应用户，

其中，所述响应句信息基于响应规则生成。

15.一种服务器装置，其特征在于，

在包括将对应于用户发声出的声音的响应句与外部的服务器装置进行通信并生成的对话装置和所述服务器装置的对话系统中，

该服务器装置包括：

通信部，与所述对话装置进行通信；

接收部，将基于所述用户发声出的声音的声音信息从所述对话装置经所述通信部接收；

声音识别部，对所述接收部接收完毕的声音信息进行声音识别而生成文本数据；

特征单词提取部，从所述声音识别部生成的文本数据中提取包含于该文本数据的具有特征的单词即特征单词；

响应生成部，基于所述特征单词提取部提取出的特征单词生成响应句信息；以及

发送部，将所述响应生成部生成完毕的响应句信息经所述通信部发送；其中，

在与根据所述通信部的所述对话装置的通信暂时切断了之后又恢复了的状态下，将通信切断中的声音信息从所述对话装置接收，生成接收了的所述声音信息所对应的响应句信息而发送至所述对话装置。

16.一种存储有程序的计算机可读取记录介质，其特征在于，

该程序用于使将用户发声了的声音所对应的响应句与外部的服务器装置进行通信并生成的对话装置的计算机执行如下步骤：

声音存储步骤，存储基于用户发声了的声音的声音信息；

响应句信息取得步骤，在与所述服务器装置的通信暂时切断了之后又恢复了的状态下，将在通信切断中由所述声音存储步骤存储完毕的声音信息发送给所述服务器装置，将所述声音信息对应的响应句信息从所述服务器装置取得；以及，

响应步骤，使用由所述响应句取得步骤取得了的响应句信息，通过按照规定的响应句生成规则而生成了的响应句响应用户，

其中，所述响应句基于特征单词而生成，所述特征单词包含于对所述声音信息所包含的声音数据进行声音识别而取得的文本数据中。