CN111243581A

CN111243581A - 问答装置、问答方法以及程序

Info

Publication number: CN111243581A
Application number: CN201911134749.4A
Authority: CN
Inventors: 中野景子
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-11-28
Filing date: 2019-11-19
Publication date: 2020-06-05
Also published as: US11455338B2; US20200167390A1; JP2020086203A; JP7044040B2

Abstract

本发明涉及问答装置、问答方法以及程序。问答装置具有：受理部，受理在车辆内所发出的语音；生成部，其基于语音识别来生成所述语音所示的字符串；第1取得部，其取得对于所述字符串所示的提问的回答；第2取得部，其取得用于使所述回答的语音在所述车辆内定位于与该回答关联的位置的控制信息；以及输出部，其输出所述控制信息。

Description

问答装置、问答方法以及程序

技术领域

本发明涉及问(问题、提问)答(应答、回答)装置、问答方法以及程序。

背景技术

以往，研究了在用语音(声音)对车载器输入问题后通过语音从车辆内的扬声器输出对于该问题的回答(答案)的技术(例如，日本特开2015-28566)。

发明内容

然而，例如在用语音输出对于与车辆的某个功能的操作方法有关的问题的回答的情况下，有时会难以表达作为操作对象的开关类等的位置。

例如，在用语音输出“是位于方向盘的右下方的、带有汽车和仪表的标记的手柄”这一回答时，为了准确地传达位置，说明语句会变得复杂，对于用户而言，难以有直观的理解。

另外，在对ETC卡的插入口(卡槽)进行回答的情况下，可考虑输出“位于手套箱的下面”这一语音。在该情况下，虽然说明语句简洁，但是在用户不知道手套箱(glove box，杂物箱)这一名称的情况下，用户则无法理解该回答，其结果是无法掌握与回答关联的位置。

本发明是鉴于上述之处所做出的，其目的在于使得易于掌握在车辆内的与对于提问的回答关联的位置。

本发明的实施方式的问答装置具有：受理部，其受理在车辆内所发出的语音；生成部，其基于语音识别来生成所述语音所示的字符串；第1取得部，其取得对于所述字符串所示的提问的回答；第2取得部，其取得用于使所述回答的语音在所述车辆内定位于与该回答关联的位置的控制信息；以及输出部，其输出所述控制信息。

为此，对于提问的回答的语音通过立体声(立体音响)而定位于与该回答关联的位置。

因此，能够使得易于掌握在车辆内的与对于提问的回答关联的位置。

在本发明的其他实施方式的问答装置中，所述第2取得部在所述提问是与车辆的某个位置有关的提问的情况下取得所述控制信息。

为此，对于与车辆的某个位置有关的提问的回答的语音通过立体声而定位于与该回答关联的位置。

在本发明的其他实施方式的问答装置中，所述输出部输出与所述回答关联的位置所对应的指示器(indicator)的点亮命令。

为此，与对于提问的回答关联的位置所对应的车辆内的指示器被点亮。

本发明的实施方式的问答方法为，计算机执行：受理步骤，受理在车辆内所发出的语音；生成步骤，基于语音识别来生成所述语音所示的字符串；第1取得步骤，取得对于所述字符串所示的提问的回答；第2取得步骤，取得用于使所述回答的语音在所述车辆内定位于与该回答关联的位置的控制信息；以及输出步骤，输出所述控制信息。

为此，对于提问的回答的语音通过立体声而定位于与该回答关联的位置。

本发明的实施方式的程序使计算机执行：受理步骤，受理在车辆内所发出的语音；生成步骤，基于语音识别来生成所述语音所示的字符串；第1取得步骤，取得对于所述字符串所示的提问的回答；第2取得步骤，取得用于使所述回答的语音在所述车辆内定位于与该回答关联的位置的控制信息；以及输出步骤，输出所述控制信息。

因此，对于提问的回答的语音通过立体声而定位于与该回答关联的位置。

附图说明

以下，参照附图对本发明的示例性实施方式的特征、优点以及技术和产业意义进行说明，在附图中相同的附图标记表示相同的要素，并且其中：

图1是表示第1实施方式中的问答系统的构成例的图。

图2是表示第1实施方式中的服务器装置10的硬件构成例的图。

图3是表示第1实施方式中的车载器30以及服务器装置10的功能构成例的图。

图4是用于对在第1实施方式中车载器30所执行的处理步骤的一例进行说明的流程图。

图5是用于对在第1实施方式中服务器装置10所执行的处理步骤的一例进行说明的流程图。

图6是表示第1实施方式中的提问回答(问答)DB(数据库)17的构成例的图。

图7是表示第1实施方式中的输出控制DB18的构成例的图。

图8是表示语音被定位于与回答关联的位置的例子的图。

图9是表示第2实施方式中的输出控制DB18的构成例的图。

具体实施方式

以下，基于附图来说明本发明的实施方式。图1是表示第1实施方式中的问答系统1的构成例的图。在图1中，问答系统1包括服务器装置10以及一个以上的车辆20。

车辆20例如是汽车，包括车载器30、麦克风40、显示装置50以及两个以上的扬声器60等。麦克风40是将语音转换为电信号(以下，称为“语音信号”。)的装置。在本实施方式中，麦克风40被利用于在车辆20内由车辆20的乘员(驾驶员或者同乘者等。以下称为“用户”。)发出的与车辆20的功能有关的提问的语音的收集。显示装置50例如是液晶显示器。在本实施方式中，显示装置50被利用于与对于提问的回答关联的信息的显示。扬声器60是基于电信号输出语音的装置。在本实施方式中，扬声器60被利用于表示对于提问的回答的语音的输出。此外，回答通过使用两个以上的扬声器60的立体声来输出。通过使用立体声，表示回答的语音在车辆20内定位于与回答关联的位置。换言之，输出回答的语音，以使得对于用户而言就像是从该位置的方向听到声音一样。

车载器30是具有信息处理功能以及通信功能的装置，经由包括作为以许多基站为末端的无线通信网的移动体通信网、互联网等在内的网络N1与服务器装置10连接。在本实施方式中，车载器30将包含记录有从麦克风40输出的语音信号的数字数据(以下,称为“语音数据”。)和表示车辆20的车型(车辆型式)的信息(以下,称为“车型信息”。)在内的数据(以下,称为“提问数据”。)发送给服务器装置10。另外，车载器30接收从服务器装置10应答的表示对于提问的回答的输出的控制方法的信息(以下，称为“输出控制信息”。)。输出控制信息中包含关于显示的输出控制信息以及关于语音输出的输出控制信息。车载器30基于关于显示的输出控制信息(以下，称为“显示控制信息”。)，对于与回答关联的信息，控制其在显示装置50中的显示。另外，车载器30基于关于语音输出的输出控制信息(以下，称为“语音控制信息”。)，对于表示回答的语音，控制其通过从扬声器60的立体声的输出。

服务器装置10是取得对于从车载器30发送来的提问数据所示的提问的回答并将关于该回答的输出控制信息向车载器30进行应答的一个以上的计算机。

图2是表示第1实施方式中的服务器装置10的硬件构成例的图。图2的服务器装置10具有分别通过总线B相互连接的驱动装置100、辅助存储装置102、存储器装置103、CPU104以及接口装置105等。

实现服务器装置10中的处理的程序由CD-ROM等记录介质101提供。存储有程序的记录介质101被置(set)于驱动装置100时，程序从记录介质101经由驱动装置100安装于辅助存储装置102。但是，程序的安装不一定需要由记录介质101进行，也可以经由网络从其他计算机下载。辅助存储装置102保存被安装的程序，并且保存所需的文件、数据等。

存储器装置103在有程序的启动指示的情况下，从辅助存储装置102读取程序并将其进行保存。CPU104按照保存于存储器装置103的程序来执行服务器装置10所涉及的功能。接口装置105用作用于与网络连接的接口。

图3是表示第1实施方式中的车载器30以及服务器装置10的功能构成例的图。在图3中，车载器30具有提问数据发送部31、输出控制信息接收部32、语音控制部33以及显示控制部34等。它们各部分通过安装于车载器30的一个以上的程序使车载器30的CPU执行的处理来实现。

提问数据发送部31基于从麦克风40输出的语音信号，生成语音数据，并将包含该语音数据和车型信息的提问数据发送给服务器装置10。

输出控制信息接收部32接收相对于提问数据而从服务器装置10应答的输出控制信息。输出控制信息接收部32将输出控制信息中的语音控制信息输入到语音控制部33，将输出控制信息中的显示控制信息输入到显示控制部34。

语音控制部33基于语音控制信息，对于表示回答的语音，控制其通过从多个扬声器60的立体声的输出。

显示控制部34基于显示控制信息，对于与回答关联的信息，控制其在显示装置50中的显示。

另一方面，服务器装置10具有提问数据接收部11、语音识别部12、提问推定部13、回答检索部14、输出控制信息取得部15以及输出控制信息发送部16等。它们各部分通过安装于服务器装置10的一个以上的程序使CPU104执行的处理来实现。另外，服务器装置10利用提问回答DB17以及输出控制DB18等数据库(存储部)。上述各数据库例如能够使用辅助存储装置102或者能经由网络与服务器装置10连接的存储装置等实现。

提问数据接收部11接收从车载器30发送来的提问数据。语音识别部12对提问数据所包含的语音数据所示的语音执行语音识别，生成该语音所示的字符串(文本数据)。

提问推定部13推定文本数据的内容所示的提问(的意图)。具体而言，提问推定部13推定文本数据的内容是预先假定的多个提问中的哪个提问。

回答检索部14从提问回答DB17取得对于由提问推定部13推定出的提问的回答、和与该回答关联的功能(与车辆20有关的功能)的名称(以下，称为“功能名”。)。即，在提问回答DB17中，与预先假定的多个提问的每一个相关联地存储有回答以及功能名。

输出控制信息取得部15从输出控制DB18取得与由回答检索部14所取得的功能名有关的输出控制信息。即，在输出控制DB18中，按每个功能名存储有输出控制信息(语音控制信息、显示控制信息)。

输出控制信息发送部16将由输出控制信息取得部15所取得的输出控制信息发送给提问数据的发送源的车载器30。

以下，对车载器30以及服务器装置10分别所执行的处理步骤进行说明。图4是用于对在第1实施方式中车载器30所执行的处理步骤的一例进行说明的流程图。

当用户所说的话语的语音通过麦克风40而输入时，提问数据发送部31生成记录有该语音的语音数据(S101)。此外，既可以对所有话语执行步骤S101及之后的处理，也可以对用户在车辆20内进行了预定的操作(例如，预定按钮的按下等)后的话语执行步骤S101及之后的处理。在前者的情况下，话语的内容不一定限于是提问。此外，提问数据发送部31也可以将发声开始之后到发声中断一定时间以上为止识别为一条话语。

接下来，提问数据发送部31取得车辆20的车型信息(S102)。例如，也可以从车载器30内或者车辆20内的非易失性存储器取得车型信息。

接下来，提问数据发送部31向服务器装置10发送包含步骤S101中所生成的语音数据和步骤S102中所取得的车型信息的提问数据(S103)。之后，输出控制信息接收部32等待接收从服务器装置10回复的输出控制信息(S104)。

输出控制信息接收部32接收到输出控制信息时(S104：是)，语音控制部33基于该输出控制信息所包含的语音控制信息，对于表示回答的语音，控制其通过使用多个扬声器60的立体声的输出(S105)。

接下来，或者与步骤S105并行地，显示控制部34基于该输出控制信息所包含的显示控制信息，将与回答关联的信息显示于显示装置50(S106)。

提问数据接收部11接收到在图4的步骤S103中从车载器30发送来的提问数据时(S201)，语音识别部12对该提问数据所包含的语音数据所示的语音执行语音识别，将该语音转换为文本数据(S202)。即，生成表示该语音的文本数据。

接下来，提问推定部13推定文本数据的内容是提问回答DB17所存储的多个提问中的哪个提问(S203)。例如，也可以预先利用机器学习生成提问推定器，提问推定部13利用该提问推定器来推定提问。在该情况下，也可以按每个车型来生成提问推定器。在该情况下，提问推定部13也可以利用与提问数据所包含的车型信息所示的车型对应的提问推定器，推定提问。或者，提问推定部13也可以算出该文本数据与存储于提问回答DB17的各提问的字符串之间的相似度，将在相似度大于等于阈值的提问之中相似度最高的提问作为推定结果。此外，关于字符串彼此间的相似度的算出，使用公知技术即可。

在提问的推定失败、即没能确定提问的情况下(S204：否)，结束图5的处理步骤。或者，输出控制信息发送部16也可以向车载器30回复问题不明这一意思的应答。例如，在文本数据的内容仅仅是在车辆20内的对话和/或是预想之外的提问等情况下，提问的推定失败。

在提问的推定成功、即确定了提问的情况下(S204：是)，回答检索部14从提问回答DB17检索与所确定的提问(以下，称为“对象提问”。)对应的回答及功能名(S205)。

图6是表示第1实施方式中的提问回答DB17的构成例的图。如图6所示，在提问回答DB17中，按每个车型存储有提问回答表T1a、T1b及T1c等(以下，不区分彼此的情况下称为“提问回答表T1”。)。此外，虽然在图6中表示了三个提问回答表T1，但是提问回答表T1的数量可以根据车型的数量来增减。

在各提问回答表T1中，与提问相关联地存储有功能名及回答。功能名是与对于提问的回答关联的功能的名称。回答是对于提问的回答。

因此，在步骤S205中，从与提问数据所包含的车型信息所示的车型对应的提问回答表T1，检索(取得)与对象提问对应的回答(以下称为“对象回答”。)以及功能名(以下，称为“对象功能名”。)。

此外，各提问回答表T1中所登记的提问也可以限定于与车辆20的零件和/或地方等、车辆20的某个位置有关的提问。在该情况下，在步骤S203中，对于文本数据，会推定出与车辆20的某个位置有关的提问，因此步骤S205及之后的处理会在对象提问是与车辆20的某个位置有关的提问的情况下执行。

接下来，输出控制信息取得部15从输出控制DB18取得与对象功能名对应的输出控制信息(S206)。

图7是表示第1实施方式中的输出控制DB18的构成例的图。如图7所示，在输出控制DB18中，按每个车型存储有输出控制表T2a、T2b及T2c等(以下，不区分彼此的情况下称为“输出控制表T2”。)。此外，虽然在图7中表示了三个输出控制表T2，但是输出控制表T2的数量可以根据车型的数量来增减。

在各输出控制表T2中，与功能名相关联地存储有语音控制信息以及显示控制信息。语音控制信息是用于使语音定位于该功能名所涉及的功能的位置(车辆20内的位置)的表示从扬声器60的语音输出的控制内容的信息。显示控制信息例如也可以是由文本、图像等表示与该功能名有关的功能等的信息。此外，在图7中，以车辆20搭载有两个扬声器60的情况为前提，示出了左右的扬声器60的音量之比作为语音控制信息，但只要是用于实现立体声的信息，也可以使用其他形式的信息作为语音控制信息。例如，可以将表示车辆20内的特定的位置的坐标值作为语音控制信息，也可以将表示在将车辆20内分割成多个区域的情况下的某个区域的信息作为语音控制信息。

因此，在步骤S206中，从与提问数据所包含的车型信息所示的车型对应的输出控制表T2，取得与对象功能名对应的语音控制信息以及显示控制信息。

此外，在本实施方式中，说明了扬声器60的种类、数量以及配置位置等(以下，称为“扬声器构成”。)根据车型而不同的情况，但在扬声器构成根据与车型不同的划分而不同的情况下，只要按该划分来准备输出控制表T2即可。在该情况下，包含该划分的信息包含于提问数据即可。

接下来，输出控制信息发送部16将对象回答和在步骤S206中取得的语音控制信息以及显示控制信息发送给提问数据的发送源的车载器30(S207)。此外，输出控制信息发送部16也可以根据按照语音控制信息的内容，生成从扬声器60输出对象回答的语音数据，将该语音数据代替语音控制信息发送给车载器30。

在图4的步骤S105中，基于这种语音控制信息或者语音数据，对于表示对象回答的语音进行通过使用多个扬声器60的立体声的输出。其结果，该语音被定位于与对象回答关联的位置。

图8是表示语音被定位于与回答关联的位置的例子的图。在图8中，表示了对象回答的语音被定位于手套箱b1下面一带的例子。在该情况下，用户将表示“ETC卡在手套箱的下面”这一回答的语音的输出方向识别为手套箱b1下面一带的方向。其结果，用户能够直观地掌握与该回答关联的位置。

如上所述，根据第1实施方式，对于提问的回答的语音通过立体声而定位于与该回答关联的功能的位置。因此，能够将该位置直观地传达给用户。其结果，能够使得易于掌握在车辆20内的与对于提问的回答关联的位置。

接着，对第2实施方式进行说明。在第2实施方式中对与第1实施方式的不同之处进行说明。因此，关于没有特别提及之处，可以与第1实施方式是同样的。

在第2实施方式中，输出控制DB18的构成与第1实施方式不同。图9是表示第2实施方式中的输出控制DB18的构成例的图。

在图9中，各输出控制表T2还将指示器点亮指令ID与功能名相关联地进行存储。指示器点亮指令ID是对于车辆20内的特定的指示器的点亮命令的识别信息，点亮对象或点亮方法按每个指示器点亮指令ID而不同。

因此，在图5的步骤S206中，输出控制信息取得部15还从与提问数据所包含的车型信息所示的车型对应的输出控制表T2取得与对象功能名对应的指示器点亮指令ID。

在步骤S207中，发送部还发送该指示器点亮指令ID。

在图4的步骤S106中，显示控制部34按照从服务器装置10接收到的指示器点亮指令ID，使指示器(例如，LED灯等)点亮。其结果，与回答对应的位置的指示器点亮。

如上所述，根据第2实施方式，与回答关联的位置的指示器点亮。其结果，能够使用户在视觉上掌握该位置。

此外，在第2实施方式中，可以采用不从扬声器60输出语音的形态。在该情况下，也可以为，输出控制DB18中没有存储语音控制信息。

此外，在上述各实施方式中，服务器装置10是问答装置的一例。但是，也可以使得车辆20(车载器30)具有在上述各实施方式中服务器装置10所具有的功能。在该情况下，车载器30成为问答装置的一例。提问数据接收部11是受理部的一例。语音识别部12是生成部的一例。回答检索部14是第1取得部的一例。输出控制信息取得部15是第2取得部的一例。输出控制信息发送部16是输出部的一例。

以上，对本发明的实施方式进行了详述，但本发明不限定于上述特定的实施方式，而能够在技术方案中记载的本发明的要旨的范围内进行各种变形/变更。

Claims

1.一种问答装置，其特征在于，具有：

受理部，其受理在车辆内所发出的语音；

生成部，其基于语音识别来生成所述语音所示的字符串；

第1取得部，其取得对于所述字符串所示的提问的回答；

第2取得部，其取得用于使所述回答的语音在所述车辆内定位于与该回答关联的位置的控制信息；以及

输出部，其输出所述控制信息。

2.根据权利要求1所述的问答装置，其特征在于，

所述第2取得部在所述提问是与车辆的某个位置有关的提问的情况下取得所述控制信息。

3.根据权利要求1或2所述的问答装置，其特征在于，

所述输出部输出与所述回答关联的位置所对应的指示器的点亮命令。

4.一种问答方法，其特征在于，计算机执行：

受理步骤，受理在车辆内所发出的语音；

生成步骤，基于语音识别来生成所述语音所示的字符串；

第1取得步骤，取得对于所述字符串所示的提问的回答；

第2取得步骤，取得用于使所述回答的语音在所述车辆内定位于与该回答关联的位置的控制信息；以及

输出步骤，输出所述控制信息。

5.一种程序，其特征在于，使计算机执行：

受理步骤，受理在车辆内所发出的语音；

生成步骤，基于语音识别来生成所述语音所示的字符串；

第1取得步骤，取得对于所述字符串所示的提问的回答；

输出步骤，输出所述控制信息。