CN108810244B

CN108810244B - 语音对话系统以及信息处理装置

Info

Publication number: CN108810244B
Application number: CN201810364088.3A
Authority: CN
Inventors: 水摩智; 池野笃司; 山口博士; 山本勇太; 西岛敏文; 佐佐木悟; 刀根川浩巳; 梅山伦秀
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-04-27
Filing date: 2018-04-23
Publication date: 2021-05-25
Anticipated expiration: 2038-04-23
Also published as: US11056106B2; CN108810244A; JP6508251B2; JP2018185758A; US20180315423A1

Abstract

本公开涉及语音对话系统以及信息处理装置。一种语音对话系统，包括：信息处理装置，具有第一语音输入输出设备；以及语音接口装置，具有第二语音输入输出设备，经由近距离无线通信与所述信息处理装置音频连接，其中，所述信息处理装置具有：语音输入输出单元，使用所述第一语音输入输出设备或者第二语音输入输出设备来进行语音的输入输出；对话单元，进行与用户的语音对话；以及处理单元，使用语音输入输出来进行所述语音对话以外的处理，所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间，在所述处理单元成为需要语音输入输出的第一状态的情况下，将用于语音的输入输出的设备切换为所述第一语音输入输出设备。

Description

语音对话系统以及信息处理装置

技术领域

本发明涉及利用语音与人对话的装置。

背景技术

近年来，已开发出通过与人进行对话而提供各种信息的机器人。例如，在日本特开2015-013351号公报中，公开了在网络上处理利用麦克风输入的语音并用语音返回针对输入的应答的沟通机器人。

如日本特开2015-013351号公报记载的系统，在沟通机器人的领域中，为了削减成本，作为接口的机器人与控制装置(例如智能手机等便携型计算机)进行无线通信，在控制装置侧进行语音的识别、应答的生成这样的结构成为一般的例子。

发明内容

在作为沟通机器人的控制装置利用了智能手机等的情况下，在语音对话过程中来电话的情况下的处理成为问题。例如，在机器人和智能手机保持音频连接的状态下接到电话时，对方的语音从机器人输出，对用户造成不协调感。

即，需要适合地切换由电话机自身进行的语音输入输出、和利用机器人的语音输入输出。

本发明是考虑上述课题而完成的，其目的在于，在机器人和控制装置通过无线方式连接的语音对话系统中适合地切换语音输入输出设备。

本发明所涉及的语音对话系统包括：信息处理装置，具有第一语音输入输出设备；以及语音接口装置，具有第二语音输入输出设备，经由近距离无线通信而与所述信息处理装置音频连接。

具体而言，其特征在于，所述信息处理装置具有：语音输入输出单元，使用所述第一语音输入输出设备或者第二语音输入输出设备来进行语音的输入输出；对话单元，进行与用户的语音对话；以及处理单元，使用语音输入输出来进行所述语音对话以外的处理，所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间，在所述处理单元成为需要语音输入输出的第一状态的情况下，将用于语音的输入输出的设备切换为所述第一语音输入输出设备。

本发明所涉及的语音接口装置是通过与信息处理装置进行通信而进行与用户的对话的对话接口。另外，信息处理装置是控制与用户的对话的装置(例如进行语音的识别、应答文的生成、语音的合成等的装置)，典型地是智能手机等便携型的计算机。在语音接口装置和信息处理装置双方都具备语音输入输出设备。

信息处理装置具有的语音输入输出单元能够从本装置具有的第一语音输入输出设备、或者语音接口装置具有的第二语音输入输出设备选择进行语音的输入输出的设备。在选择出第二语音输入输出设备的情况下，经由利用近距离无线通信的语音连接来传送语音。

另外，处理单元是使用语音输入输出来进行语音对话以外的处理的单元。处理单元例如既可以是进行语音通话的单元，也可以是执行其他应用(例如电话应用)等的单元。

另外，在本发明中，在使用第二语音输入输出设备来进行语音对话的期间，在处理单元成为需要语音输入输出的状态的情况(例如有针对电话、通话应用的语音来电的情况等)下，将用于语音的输入输出的设备切换为第一语音输入输出设备。

根据上述结构，在与用户对话的状态下，能够利用通过近距离无线通信连接的语音接口装置，在接到电话等的情况下，能够将语音接口装置断开而用本装置应答。

另外，也可以特征在于，所述处理单元是经由无线通信网进行语音通话的单元。

本发明能够适合地应用于信息处理装置进行语音对话和语音通话双方的方式。

另外，也可以特征在于，所述信息处理装置以及所述语音接口装置之间利用蓝牙(注册商标)标准的语音规范(profile)来连接。

信息处理装置和语音接口装置在相互配对的状态下进行近距离通信，所以利用蓝牙的连接是适合的。另外，具有能够将智能手机用于信息处理装置等、并且能够抑制功耗这样的优点。另外，通过利用语音用的规范，能够进行延迟少的通信。

另外，也可以特征在于，所述处理单元在成为所述第一状态的情况下，向所述语音接口装置发送第一通知，所述语音接口装置在接收到所述第一通知的情况下，解除与所述信息处理装置的音频连接。

在通过蓝牙确立连接、且处理单元成为第一状态的情况下，通过将该意思发送到语音接口装置，能够解除音频连接。

另外，也可以特征在于，所述处理单元在语音输入输出变得不需要的情况下，针对所述语音接口装置发送第二通知，所述语音接口装置在接收到所述第二通知的情况下，使与所述信息处理装置的音频连接恢复。

例如，在通话结束的情况下等在处理单元侧语音输入输出变得不需要的情况下，语音接口装置无法探测该情况。因此，能够构成为从信息处理装置侧发送通知，从语音接口装置侧恢复音频连接。

另外，也可以特征在于，所述处理单元在成为所述第一状态的情况下，向所述语音接口装置发送第一通知，所述语音接口装置在接收到所述第一通知的情况下，在针对所述处理单元发送拒绝应答之后，解除与所述信息处理装置的音频连接。

另外，也可以特征在于，所述处理单元接收所述拒绝应答、且所述音频连接被解除的情况下，在语音输入输出变得不需要的情况下，通过针对所述语音接口装置发送第二通知，使所述音频连接恢复。

通过在解除音频连接之前发送拒绝应答，能够将“起因于信息处理装置而将音频连接切断”通知到信息处理装置侧。由此，信息处理装置能够识别使连接恢复的必要性。

另外，本发明所涉及的信息处理装置的特征在于，具有：

第一语音输入输出设备；语音输入输出单元，使用所述第一语音输入输出设备或者经由近距离无线通信而连接的语音接口装置具有的第二语音输入输出设备中的任意语音输入输出设备来进行语音的输入输出；对话单元，进行与用户的语音对话；以及处理单元，使用语音输入输出来进行所述语音对话以外的处理，所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间，在所述处理单元成为需要语音输入输出的第一状态的情况下，将用于语音的输入输出的设备切换为所述第一语音输入输出设备。

此外，本发明能够确定为包括上述单元的至少一部分的语音对话系统或者信息处理装置。另外，还能够确定为所述语音对话系统进行的语音对话方法、信息处理装置进行的信息处理方法。上述处理、单元只要不产生技术上的矛盾，就能够自由地组合来实施。

根据本发明，能够在机器人和控制装置通过无线方式连接的语音对话系统中适合地切换语音输入输出设备。

附图说明

图1是第一实施方式所涉及的语音对话系统的系统结构图。

图2是说明机器人10和控制装置20的连接的图。

图3是说明第一实施方式中的连接流程的图。

图4是机器人10、控制装置20、服务器装置30之间的数据流程图。

图5是说明第二实施方式中的连接流程的图。

图6是说明第三实施方式中的连接流程的图。

具体实施方式

以下，参照附图，说明本发明的优选的实施方式。

本实施方式所涉及的语音对话系统是通过取得用户发出的语音来进行语音识别，并根据识别结果生成应答文，从而进行与用户的对话的系统。

(第一实施方式)

图1是第一实施方式所涉及的语音对话系统的系统结构图。本实施方式所涉及的语音对话系统包括机器人10、控制装置20以及服务器装置30。

机器人10是具有扬声器、麦克风等，承担与用户的接口的单元。机器人10既可以是人型、角色型，也可以是其他形状。

控制装置20是控制经由机器人10进行的与用户的对话的装置。另外，服务器装置30是根据从控制装置20发送的请求，进行语音的识别和提供给用户的应答(应答文)的生成的装置。在本实施方式中，控制装置20是具有通话功能的智能手机。

在本实施方式中，机器人10仅作为语音接口发挥功能，控制装置20进行控制对话的处理。另外，服务器装置30进行发声内容的识别、应答文的生成等。

首先，说明机器人10。机器人10包括语音输入输出部11和近距离通信部12。

语音输入输出部11是取得用户发出的语音，再现从控制装置20发送的语音的单元。具体而言，使用内置的麦克风将语音变换为电信号(以下称为语音数据)。取得的语音数据经由后述近距离通信部12被发送到控制装置20。另外，使用内置的扬声器，将从控制装置20发送的语音数据变换为语音。

近距离通信部12是与控制装置20进行近距离无线通信的单元。在本实施方式中，近距离通信部12利用蓝牙(注册商标)标准来进行通信。近距离通信部12存储有与成为配对目的地的控制装置20有关的信息，能够用简便的处理进行连接。此外，蓝牙标准还被称为IEEE802.15.1。

接下来，说明控制装置20。控制装置20是进行机器人10的控制的装置，典型地是可移动计算机、便携电话、智能手机等小型的计算机。控制装置20能够构成为具有CPU、主存储装置、辅助存储装置的信息处理装置。在辅助存储装置中存储的程序被加载到主存储装置，由CPU执行，从而图1图示的各单元发挥功能。此外，图示的功能的全部或者一部分也可以使用专用设计的电路来执行。

控制装置20包括近距离通信部21、控制部22、通信部23、蜂窝通信部24、语音输入输出部25。

近距离通信部21具有的功能与上述近距离通信部12相同，所以省略详细的说明。

控制部22是从机器人10取得语音，取得针对该取得的语音的应答的单元。具体而言，将从机器人10取得的语音经由通信部23发送到服务器装置30(都将后述)，从服务器装置30接收对应的应答文。另外，通过语音合成功能，将应答文变换为语音数据，发送到机器人10。另外，发送到机器人10的语音经由语音输出部13被提供给用户。由此，用户能够进行利用自然语言的会话。

另外，控制部22还是控制利用语音的通话的单元。例如，经由后述蜂窝通信部24与蜂窝网络连接，进行电话的呼叫接听。

通信部23是通过经由通信线路(例如无线LAN、便携电话网)接入网络来进行与服务器装置30的通信的单元。

蜂窝通信部24是与便携电话网进行通信的单元。例如，使用第3代的语音通信方式(3G)来进行通信，但也可以利用这以外的通信方式。例如，也可以经由第4代以后的数据通信方式(LTE等)进行通信。

语音输入输出部25是与语音输入输出部11同样地，取得用户发出的语音并且输出语音的单元。语音输入输出部25例如也可以是内置于智能手机的扬声器以及麦克风。

服务器装置30是在识别从控制装置20发送的语音之后，生成对用户提供的应答文的装置，包括通信部31、语音识别部32、应答生成部33。

通信部31具有的功能与上述通信部23相同，所以省略详细的说明。

语音识别部32是针对机器人具有的语音输入输出部11取得的语音进行语音识别并变换为文本的单元。语音识别能够通过既知的技术进行。例如，在语音识别部32中存储有声音模型和识别词典，比较取得的语音数据和声音模型来提取特征，使提取出的特征与识别词典匹配，从而进行语音识别。识别结果被发送到应答生成部33。

应答生成部33是根据从语音识别部32取得的文本来生成提供给用户的应答文的单元。提供的应答文例如既可以是基于事先存储的对话脚本(对话词典)的应答文，也可以是基于检索数据库、WEB而得到的信息的应答文。详细的处理内容将后述。

应答生成部33取得的信息以文本形式被发送到控制装置20，之后被变换为合成语音，经由机器人10输出给用户。

服务器装置30也能够构成为具有CPU、主存储装置、辅助存储装置的信息处理装置。在辅助存储装置中存储的程序被加载到主存储装置，由CPU执行，从而图1图示的各单元发挥功能。此外，图示的功能的全部或者一部分也可以使用专用设计的电路来执行。

接下来，说明机器人10与控制装置20之间的信息的发送接收方法。

在机器人10与控制装置20之间，发送接收如下两种数据：(1)从机器人向控制装置发送的语音数据，(2)从控制装置向机器人发送的语音数据。

在本实施方式中，在机器人10与控制装置20之间进行使用了蓝牙的语音连接，进行语音的发送接收。

图2是机器人10和控制装置20的连接时序的一个例子。此外，在本例子中，设为机器人10作为连接目的地具有控制装置20的信息。即，设为配对完成。

在两者处于未连接状态的情况下，机器人10周期性地(例如以1秒为周期)检索控制装置20，在发现控制装置20后，开始利用HFP(Hands-Free Profile，免提规范)的连接(步骤S11)。HFP是指专用于语音的传送的规范，通过利用它，能够双向地传送语音。此外，在本实施方式中，机器人10与HFP中的免提单元对应，控制装置20与音频网关对应。

在由控制装置20接收到连接请求时，执行各种初始化处理(步骤S12)。在此，进行降噪功能的设定(NREC)、扬声器音量的设定(VGS)、麦克风增益设定(VGM)等。此外，在利用HFP的初始化处理中要花费一些时间，所以机器人10、控制装置20也可以并行地进行其他处理。在利用HFP的连接完成后，进行用于设置实际上传送语音的信道的音频连接(步骤S13)，由此，成为在机器人10与控制装置20之间开通了语音信道的状态。

在此成为问题的是如下方面：控制装置20成为利用机器人10的语音输入输出部来进行语音的输入输出的状态，所以在从外部来电话的情况下，从机器人10传出语音。例如，在机器人和智能手机保持语音连接的状态下接到电话时，对方的语音从机器人输出，对用户造成不协调感。

为了解决该问题，在第一实施方式中，在来电话的情况下，控制部22解除机器人10与控制装置20之间的音频连接，在通话结束之后，再次确立与机器人10的音频连接。

图3是第一实施方式中的机器人10和控制装置20的连接时序图。如图所示，在本实施方式中，在控制装置20从外部接收到来电的情况下，解除在步骤S13中进行的音频连接(步骤S14)。由此，经由语音输入输出部11进行的语音输入输出变为经由语音输入输出部25进行。即，能够利用智能手机自身的扬声器以及麦克风来通话。

在通话结束后，控制部22针对机器人10发送通话结束通知(本发明中的第二通知)(步骤S15)，探测到此的机器人10再次进行音频连接(步骤S16)。

接下来，参照作为说明处理内容以及数据的流动的流程图的图4，说明语音对话处理。

首先，在步骤S21中，机器人10具有的语音输入输出部11经由麦克风取得用户发出的语音。取得的语音被变换为语音数据，经由通信部被发送到控制装置20具有的控制部22。另外，控制部22将取得的语音数据发送到服务器装置30具有的语音识别部32。

接下来，语音识别部32针对取得的语音数据进行语音识别并变换为文本(步骤S22)。语音识别的结果得到的文本被发送到应答生成部33。接下来，应答生成部33根据从用户得到的发声的内容生成应答(步骤S23)。

如上所述，应答文既可以使用本装置具有的对话词典(对话脚本)来生成，也可以使用处于外部的信息源(数据库服务器、WEB服务器)来生成。生成的应答文被发送到控制装置20，通过控制部22被变换为语音数据(步骤S24)。语音数据被发送到机器人10，进行语音数据的再现(步骤S25)。

如以上说明，本实施方式所涉及的控制装置20在与机器人10之间确立音频连接的状态下从外部收到来电的情况下，解除音频连接，在通话结束之后，通过发送通话结束通知而使机器人10再次确立音频连接。

根据上述结构，能够防止在与用户的语音对话中来电话而从机器人传出对方的语音。

(第二实施方式)

在第一实施方式中，在有来电的情况下控制装置20解除了音频连接，但也可以从机器人10侧解除音频连接。图5是第二实施方式中的机器人10和控制装置20的连接时序图。

在第二实施方式中，在有来电的情况下，从控制装置20向机器人10发送来电通知(本发明中的第一通知)(步骤S141)。该通知在进行HFP连接的情况下，通过中间件(middleware)被自动地发送，但来电通知也可以经由HFP连接以外的规范发送。然后，机器人10在探测到该来电通知的情况下解除音频连接(步骤S143)。

这样，也可以机器人10成为主体而进行音频连接的解除以及再确立。通过将来电通知发送到机器人10，机器人10能够掌握针对控制装置20有来电，能够顺畅地切换语音的路径。

(第三实施方式)

在第二实施方式中，控制部22探测通话结束，针对机器人10发送了通话结束通知。但是，在控制装置20无法探测到起因于来电而音频连接被解除的情况下，发生无法正确地判断是否应发送通话结束通知的情形。

因此，在第三实施方式中，在步骤S141中被发送了来电通知时，如果机器人10发送拒绝通知(步骤S142)，则之后解除音频连接。

另外，控制装置20在通话结束、且最近接收到拒绝通知的情况下，发送通话结束通知。

根据第三实施方式，控制装置20能够掌握起因于来电而音频连接被解除的情况。

(变形例)

上述实施方式只不过是一个例子，本发明能够在不脱离其要旨的范围内适宜地变更而实施。

例如，在实施方式的说明中，服务器装置30进行了语音识别，但也可以使控制装置20具有进行语音识别的单元。另外，在实施方式的说明中，在对话服务器20中进行应答文的生成，但也可以由控制装置20进行应答文的生成。

另外，在实施方式的说明中，例示了针对控制装置20从外部收到来电的情况，但也可以通过与语音通话有关的触发(来电以及通话结束)以外的方式来切换音频连接。例如，也可以在需要语音输入输出的应用请求了语音的输入输出的情况下，解除与机器人10的音频连接。在该情况下，也可以在该应用中的语音的输入输出变得不需要的情况下使音频连接恢复。另外，也可以构成为在控制部22中执行这样的应用。

Claims

1.一种语音对话系统，包括：

信息处理装置，具有第一语音输入输出设备；以及

语音接口装置，由所述信息处理装置控制，具有第二语音输入输出设备，经由近距离无线通信而与所述信息处理装置音频连接，

其中，所述信息处理装置具有：

语音输入输出单元，使用所述第一语音输入输出设备或者第二语音输入输出设备来进行语音的输入输出；

对话单元，从所述语音接口装置取得来自用户的语音数据，并向所述语音接口装置发送对应于所述语音数据的应答文，以使用所述第二语音输入输出设备进行与所述用户的语音对话；以及

处理单元，使用语音输入输出来进行所述语音对话以外的处理，

所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间，在所述处理单元成为需要语音输入输出的第一状态的情况下，将用于语音的输入输出的设备切换为所述第一语音输入输出设备。

2.根据权利要求1所述的语音对话系统，其中，

所述处理单元是经由无线通信网进行语音通话的单元。

3.根据权利要求1所述的语音对话系统，其中，

所述信息处理装置以及所述语音接口装置之间利用蓝牙标准的语音规范来连接。

4.根据权利要求2所述的语音对话系统，其中，

5.根据权利要求3所述的语音对话系统，其中，

所述处理单元在成为所述第一状态的情况下，向所述语音接口装置发送第一通知，

所述语音接口装置在接收到所述第一通知的情况下，解除与所述信息处理装置的音频连接。

6.根据权利要求1至5中的任意一项所述的语音对话系统，其中，

所述处理单元在语音输入输出变得不需要的情况下，针对所述语音接口装置发送第二通知，

所述语音接口装置在接收到所述第二通知的情况下，使与所述信息处理装置的音频连接恢复。

7.根据权利要求3所述的语音对话系统，其中，

所述语音接口装置在接收到所述第一通知的情况下，在针对所述处理单元发送拒绝应答之后，解除与所述信息处理装置的音频连接。

8.根据权利要求7所述的语音对话系统，其中，

所述处理单元在接收到所述拒绝应答并且所述音频连接被解除的情况下，在语音输入输出变得不需要的情况下，针对所述语音接口装置发送第二通知，从而使所述音频连接恢复。

9.一种信息处理装置，对语音接口装置进行控制，所述信息处理装置具有：

第一语音输入输出设备；

语音输入输出单元，使用所述第一语音输入输出设备或者经由近距离无线通信而连接的语音接口装置具有的第二语音输入输出设备中的任意语音输入输出设备来进行语音的输入输出；