CN111724777A

CN111724777A - 智能体装置、智能体装置的控制方法及存储介质

Info

Publication number: CN111724777A
Application number: CN202010189237.4A
Authority: CN
Inventors: 本田裕; 栗原正树
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-03-19
Filing date: 2020-03-17
Publication date: 2020-09-29
Also published as: US20200321006A1; JP2020154082A; JP7280074B2

Abstract

本发明涉及能够提供更适当的响应结果的智能体装置、智能体装置的控制方法及存储装置。实施方式的智能体装置具备：多个智能体功能部，所述多个智能体功能部分别具备用于识别车辆的乘员的讲话的声音的识别部，根据所述识别部的声音识别结果来提供包括响应的服务；以及存储控制部，所述存储控制部将所述乘员的讲话的声音存储于存储部，所述多个智能体功能部中的由所述乘员选择出的第一智能体功能部将存储于所述存储部的声音和由所述第一智能体功能部所具备的识别部识别出的声音识别结果向其他的智能体功能部输出。

Description

智能体装置、智能体装置的控制方法及存储介质

技术领域

本发明涉及智能体装置、智能体装置的控制方法及存储介质。

背景技术

目前，公开了与智能体功能有关的技术，所述智能体功能是指一边与车辆的乘员进行对话一边提供与和乘员的要求对应的驾驶支援有关的信息、车辆的控制、其他的应用等的功能(例如，日本特开2006-335231号公报)。

近年来，将多个智能体功能搭载于车辆这一技术的实用化日益进展，但在使用了多个智能体的情况下，需要乘员呼叫出一个智能体来告知要求。因此，乘员若没有掌握各智能体的特征，则有时无法呼叫出最适合执行针对要求的处理的智能体，从而无法获得适当的结果。

发明内容

本发明的方案考虑到上述情况而提出，其目的之一在于提供能够提供更适当的响应结果的智能体装置、智能体装置的控制方法及存储介质。

本发明的智能体装置、智能体装置的控制方法及存储介质采用了以下的结构。

(1)：本发明的一方案的智能体装置具备：多个智能体功能部，所述多个智能体功能部分别具备用于识别车辆的乘员的讲话的声音的识别部，根据所述识别部的声音识别结果来提供包括响应的服务；以及存储控制部，所述存储控制部将所述乘员的讲话的声音存储于存储部，所述多个智能体功能部中的由所述乘员选择出的第一智能体功能部将存储于所述存储部的声音和由所述第一智能体功能部所具备的识别部识别出的声音识别结果向其他的智能体功能部输出。

(2)：在上述(1)的方案的基础上，所述第一智能体功能部在由所述识别部获得了针对所述乘员的讲话的声音识别结果的时机，将存储于所述存储部的声音和所述声音识别结果向其他的智能体功能部输出。

(3)：在上述(1)的方案的基础上，所述智能体装置还具备使输出部输出针对所述乘员的讲话的响应结果的输出控制部，所述输出控制部在由所述第一智能体功能部获得的响应结果的确信度小于阈值的情况下，将要提供给所述乘员的响应结果变更为由所述其他的智能体功能部获得的响应结果而使所述输出部输出。

(4)：在上述(1)的方案的基础上，所述其他的智能体功能部基于所述第一智能体功能部的响应结果来生成针对所述乘员的要求内容的响应结果。

(5)：在上述(1)的方案的基础上，所述第一智能体功能部基于所述识别部的声音识别结果，从所述多个智能体功能部中选择一个以上的其他的智能体功能部，并向选择出的其他的智能体功能部输出存储于所述存储部的声音和所述声音识别结果。

(6)：本发明的另一方案的智能体装置的控制方法使计算机执行如下处理：使多个智能体功能部起动，所述多个智能体功能部分别具备用于识别车辆的乘员的讲话的声音的识别部；作为起动了的所述智能体功能部的功能，根据所述识别部的声音识别结果来提供包括响应的服务；将所述乘员的讲话的声音存储于存储部；以及所述多个智能体功能部中的由所述乘员选择出的第一智能体功能部将存储于所述存储部的声音和由所述第一智能体功能部所具备的识别部识别出的声音识别结果向其他的智能体功能部输出。

(7)：本发明的又一方案的存储介质中存储有程序，所述程序使计算机执行如下处理：使多个智能体功能部起动，所述多个智能体功能部分别具备用于识别车辆的乘员的讲话的声音的识别部；作为起动了的所述智能体功能部的功能，根据所述识别部的声音识别结果来提供包括响应的服务；将所述乘员的讲话的声音存储于存储部；以及所述多个智能体功能部中的由所述乘员选择出的第一智能体功能部将存储于所述存储部的声音和由所述第一智能体功能部所具备的识别部识别出的声音识别结果向其他的智能体功能部输出。

根据上述(1)～(7)的方案，能够提供更适当的响应结果。

附图说明

图1是包括智能体装置的智能体系统的结构图。

图2是表示实施方式的智能体装置的结构和搭载于车辆M的设备的图。

图3是表示显示、操作装置及扬声器单元的配置例的图。

图4是表示智能体服务器的结构和智能体装置的结构的一部分的图。

图5是表示在乘员讲话之前的场景下通过显示控制部显示的图像的一例的图。

图6是表示在第一智能体功能部处于起动中的场景下通过显示控制部显示的图像的一例的图。

图7是表示输出响应结果的情形的一例的图。

图8是用于说明输出由其他的智能体功能部获得的响应结果的情形的图。

图9是用于说明其他的智能体功能部响应乘员的情形的图。

图10是表示由智能体装置执行的处理的流程的一例的流程图。

图11是表示在变形例中由智能体装置执行的处理的流程的一例的流程图。

具体实施方式

以下，参照附图来说明本发明的智能体装置、智能体装置的控制方法及存储介质的实施方式。智能体装置是实现智能体系统的一部分或全部的装置。以下，作为智能体装置的一例，对搭载于车辆(以下称为车辆M)且具备多个种类的智能体功能的智能体装置进行说明。智能体功能例如是指一边与车辆M的乘员进行对话一边基于乘员的讲话中包含的要求(指令)进行各种信息的提供、调用网络服务的功能。在智能体功能中也可以包括进行车辆内的设备(例如与驾驶控制、车身控制相关的设备)的控制等的功能。

智能体功能例如通过综合地利用如下处理来实现，所述处理除了包括识别乘员的声音的声音识别功能(将声音文本化的功能)以外，还包括自然言语处理功能(理解文本的结构、意思的功能)、对话管理功能、经由网络来检索其他装置、或者检索本装置带有的规定的数据库的网络检索功能等。上述的功能的一部分或全部可以通过AI(ArtificialIntelligence)技术来实现。用于进行上述的功能的结构的一部分(尤其是声音识别功能、自然言语处理解释功能)可以搭载于能够与车辆M的车载通信装置或车辆M自带的通用通信装置进行通信的智能体服务器(外部装置)。在以下的说明中，以结构的一部分搭载于智能体服务器且通过智能体装置与智能体服务器协同配合来实现智能体系统为前提。将智能体装置与智能体服务器协同配合而假想出现的服务提供主体(服务实体)称为智能体。

<整体结构>

图1是包括智能体装置100的智能体系统1的结构图。智能体系统1例如具备智能体装置100和多个智能体服务器200-1、200-2、200-3、…。符号的末尾的连字符之后的数字是用于区分智能体的识别符。在不区分是哪个智能体服务器的情况下，有时简称为智能体服务器200。在图1中，示出了三个智能体服务器200，但智能体服务器200的数目可以是两个，也可以是四个以上。各智能体服务器200例如是由彼此不同的智能体系统的提供者来运营的智能体服务器。因此，本实施方式中的智能体是由彼此不同的提供者来实现的智能体。作为提供者，例如可以举出机动车制造商、网络服务从业者、电子商务从业者、便携式终端的销售者等，任意的主体(法人、团体、个人等)都能成为智能体系统的提供者。

智能体装置100经由网络NW与智能体服务器200进行通信。网络NW例如包括互联网、蜂窝网、Wi-Fi网、WAN(Wide Area Network)、LAN(Local Area Network)、公众线路、电话线路、无线基站等中的一部分或全部。在网络NW接入有各种网络服务器300，智能体服务器200或智能体装置100能够借助网络NW而从各种网络服务器300经由网页、Web API(WebApplication Programming Interface)来取得各种信息。

智能体装置100与车辆M的乘员进行对话，将来自乘员的声音向智能体服务器200发送，并将从智能体服务器200获得的回答以声音输出、图像显示的形式提示给乘员。智能体装置100基于来自乘员的要求来进行对车辆设备50的控制等。

<第一实施方式>

[车辆]

图2是表示实施方式的智能体装置100的结构和搭载于车辆M的设备的图。在车辆M上例如搭载有一个以上的话筒10、显示、操作装置20、扬声器单元30、导航装置40、车辆设备50、车载通信装置60、乘员识别装置80和智能体装置100。有时智能手机等通用通信装置70会被带入车室内并作为通信装置来使用。上述的装置通过CAN(Controller Area Network)通信线等多路通信线、串行通信线、无线通信网等彼此连接。图2所示的结构只不过是一例，可以省略结构的一部分，也可以进一步追加其他的结构。显示、操作装置20和扬声器单元30合起来是“输出部”的一例。

话筒10是收集在车室内的讲话的声音的收音部。显示、操作装置20是显示图像并可接受输入操作的装置(或者装置组)。显示、操作装置20例如包括作为触摸面板而构成的显示器装置。显示、操作装置20还可以包括HUD(Head Up Display)、机械式的输入装置。扬声器单元30例如包括配设在车室内的彼此不同的位置处的多个扬声器(声音输出部)。也可以在智能体装置100和导航装置40中共用显示、操作装置20及扬声器单元30。关于上述结构的详细情况将会在后进行叙述。

导航装置40具备导航HMI(Human Machine Interface)、GPS(Global PositioningSystem)等位置测定装置、存储有地图信息的存储装置和进行路径探索等的控制装置(导航控制器)。话筒10、显示、操作装置20及扬声器单元30中的一部分或全部可以作为导航HMI来使用。导航装置40探索用于从由位置测定装置确定出的车辆M的位置移动到乘员输入的目的地为止的路径(导航路径)，并使用导航HMI来输出引导信息以使得车辆M能够沿着路径行驶。路径探索功能可以位于能够经由网络NW来访问的导航服务器。这种情况下，导航装置40从导航服务器取得路径并输出引导信息。智能体装置100可以以导航控制器为基盘来构筑，这种情况下，导航控制器和智能体装置100在硬件上一体地构成。

车辆设备50例如包括发动机、行驶用马达等驱动力输出装置、发动机的启动马达、门锁装置、车门开闭装置、空调装置等。

车载通信装置60例如是能够利用蜂窝网、Wi-Fi网来访问网络NW的无线通信装置。

乘员识别装置80例如包括就座传感器、车室内相机、图像识别装置等。就座传感器包括设置于座位的下部的压力传感器、安装于安全带的张力传感器等。车室内相机是设置在车室内的CCD(Charge Coupled Device)相机、CMOS(Complementary Metal OxideSemiconductor)相机。图像识别装置对车室内相机的图像进行解析，识别各座位上有无乘员、面部朝向等。

图3是表示显示、操作装置20及扬声器单元30的配置例的图。显示、操作装置20例如包括第一显示器22、第二显示器24和操作开关ASSY26。显示、操作装置20也可以包括HUD28。显示、操作装置20还可以包括设置在仪表板中的与驾驶员座DS面对的部分处的仪表显示器29。第一显示器22、第二显示器24、HUD28和仪表显示器29合起来是“显示部”的一例。

在车辆M上例如设置有设有方向盘SW的驾驶员座DS、以及相对于驾驶员座DS在车宽方向(图中Y方向)上设置的副驾驶员座AS。第一显示器22是从仪表板中的位于驾驶员座DS与副驾驶员座AS的中间附近的位置延伸到仪表板中的与副驾驶员座AS的左端部对置的位置为止的横长形状的显示器装置。

第二显示器24设置于驾驶员座DS与副驾驶员座AS的车宽方向上的中间附近的位置且设置于第一显示器的下方。例如，第一显示器22和第二显示器24均以触摸面板的形式构成，具备LCD(Liquid Crystal Display)、有机EL(Electroluminescence)、等离子体显示器等来作为显示部。操作开关ASSY26是集成有旋钮开关、按键式开关等的开关。HUD28例如是重叠于风景来视觉确认图像的装置，作为一例，通过向车辆M的前风窗玻璃、组合型HUD投射包含图像的光来使乘员视觉确认到虚像。仪表显示器29例如是LCD、有机EL等，用于显示速度仪、旋转速度仪等计量仪器类。显示、操作装置20将由乘员进行的操作的内容向智能体装置100输出。上述的各显示部显示的内容可以由智能体装置100来决定。

扬声器单元30例如包括扬声器30A～30F。扬声器30A设置于驾驶员座DS侧的车窗柱(所谓的A柱)。扬声器30B设置于靠近驾驶员座DS的车门的下部。扬声器30C设置于副驾驶员座AS侧的车窗柱。扬声器30D设置于靠近副驾驶员座AS的车门的下部。扬声器30E设置于第二显示器24的附近。扬声器30F设置于车室的顶板(车顶)。扬声器单元30也可以设置于靠近右侧后部座位、左侧后部座位的车门的下部。

在上述配置中，例如在专门使扬声器30A及扬声器30B输出声音的情况下，声像定位于驾驶员座DS附近。“声像定位”例如是指通过调节向乘员的左右耳传递的声音的大小来决定乘员感受到的声源的空间上的位置。在专门使扬声器30C及扬声器30D输出声音的情况下，声像定位于副驾驶员座AS附近。在专门使扬声器30E输出声音的情况下，声像定位于车室的前方附近，在专门使扬声器30F输出声音的情况下，声像定位于车室的上方附近。并不局限于此，扬声器单元30通过使用混声器、放大器来调整各扬声器输出的声音的分配，由此能够使声像定位于车室内的任意的位置。

[智能体装置]

返回到图2，智能体装置100具备管理部110、智能体功能部150-1、150-2、150-3、配对应用执行部152和存储部160。管理部110例如具备音响处理部112、按智能体区分的WU(Wake Up)判定部114、存储控制部116和输出控制部120。以下，在不区分是哪个智能体功能部的情况下，简称为智能体功能部150。示出了三个智能体功能部150只不过是与图1中的智能体服务器200的数目对应的一例，智能体功能部150的数目可以是两个，也可以是四个以上。为了便于说明而将图2所示的软件配置简化示出，实际上，例如可以在智能体功能部150与车载通信装置60之间设置管理部110来任意地进行改变。

智能体装置100的各构成要素例如通过CPU(Central Processing Unit)等硬件处理器执行程序(软件)来实现。上述的构成要素中的一部分或全部可以通过LSI(LargeScale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序可以预先保存于HDD(Hard Disk Drive)、闪存器等存储装置(具备非暂时性的存储介质的存储装置)，也可以保存于DVD、CD-ROM等能够装拆的存储介质(非暂时性的存储介质)，并通过将存储介质装配于驱动装置来安装。

存储部160通过上述的各种存储装置来实现。在存储部160例如保存有声音信息162等数据、程序。声音信息162例如包括从话筒10获得的乘员的讲话的声音(原始声音数据)和由音响处理部112进行了音响处理后的声音(声音流)中的一方或双方。

管理部110通过执行OS(Operating System)、中间件等程序而发挥功能。

管理部110的音响处理部112接受从话筒10收集的声音，并对接受到的声音进行音响处理以使其成为适合于识别按智能体预先设定的唤醒词的状态。音响处理例如是通过带通滤波器等的过滤来去除噪音、放大声音等处理。

按智能体区分的WU判定部114分别与智能体功能部150-1、150-2、150-3对应地存在，用于识别按智能体预先设定的唤醒词。按智能体区分的WU判定部114根据进行了音响处理后的声音(声音流)来识别声音是否是唤醒词。首先，按智能体区分的WU判定部114基于声音流中的声音波形的振幅和零交叉来检测出声音区间。按智能体区分的WU判定部114也可以根据基于混合高斯分布模型(GMM：Gaussian mixture model)的帧单位的声音识别及非声音识别来进行区间检测。

接着，按智能体区分的WU判定部114将检测出的声音区间中的声音文本化，作成文字信息。然后，按智能体区分的WU判定部114判定文本化后的文字信息是否符合唤醒词。在判定为是唤醒词的情况下，按智能体区分的WU判定部114使对应的智能体功能部150起动。与按智能体区分的WU判定部114相当的功能也可以搭载于智能体服务器200。这种情况下，管理部110将由音响处理部112进行了音响处理的声音流向智能体服务器200发送，在智能体服务器200判定为是唤醒词的情况下，按照来自智能体服务器200的指示来使智能体功能部150起动。各智能体功能部150也可以始终起动且自行进行唤醒词的判定。这种情况下，管理部110不需要具备按智能体区分的WU判定部114。

存储控制部116对存储于存储部160的信息进行控制。例如，存储控制部116在多个智能体功能部150中的某个智能体功能部对乘员的讲话进行响应的情况下，将从话筒10输入的声音、由音响处理部112处理后的声音作为声音信息162而存储于存储部160。存储控制部116也可以在从存储声音信息162起算经过了规定时间的情况下或者在针对声音信息162中包含的乘员的要求进行的响应完成了的情况下，进行将声音信息162从存储部160删除的控制。

输出控制部120根据来自管理部110或智能体功能部150的指示来使显示部或扬声器单元30输出响应结果等信息，由此向乘员提供服务等。输出控制部120例如具备显示控制部122和声音控制部124。

显示控制部122根据来自输出控制部120的指示而使显示部的至少一部分区域显示图像。以下，说明将与智能体有关的图像显示于第一显示器22的示例。显示控制部122在输出控制部120的控制下例如生成在车室内与乘员进行交流的拟人化的智能体的图像(以下称为智能体图像)，并使生成的智能体图像显示于第一显示器22。智能体图像例如是向乘员搭话这种形态的图像。智能体图像可以包含例如至少能由观看者(乘员)识别出表情、面部朝向这种程度的面部图像。例如，智能体图像可以是在面部区域中呈现出模仿眼睛、鼻子的部位并基于该部位在面部区域中的位置来识别表情、面部朝向的图像。智能体图像也可以是通过包含能由观看者立体地感受到的三维空间中的头部图像来识别智能体的面部朝向或者通过包含本体(身体、手脚)的图像来识别智能体的动作、举止、姿态等的图像。智能体图像还可以是动画图像。例如，显示控制部122可以使接近由乘员识别装置80识别出的乘员的位置的显示区域显示智能体图像、生成面部朝向乘员的位置的智能体图像并显示。

声音控制部124根据来自输出控制部120的指示而使扬声器单元30所包括的扬声器中的一部分或全部输出声音。声音控制部124可以使用多个扬声器单元30来进行使智能体声音的声像定位到与智能体图像的显示位置对应的位置的控制。与智能体图像的显示位置对应的位置例如是指预测为乘员感到智能体图像在发出智能体声音的位置，具体而言，是指智能体图像的显示位置附近(例如2～3[em]以内)的位置。

智能体功能部150与对应的智能体服务器200协同配合来使智能体出现，并根据车辆的乘员的讲话来提供服务，其中服务包括使输出部输出用声音进行的响应。智能体功能部150也可以包括被赋予了控制车辆设备50的权限的智能体功能部。智能体功能部150还可以经由配对应用执行部152来与通用通信装置70协作而与智能体服务器200进行通信。

例如，对智能体功能部150-1赋予了控制车辆设备50的权限。智能体功能部150-1经由车载通信装置60来与智能体服务器200-1进行通信。智能体功能部150-2经由车载通信装置60来与智能体服务器200-2进行通信。智能体功能部150-3经由配对应用执行部152来与通用通信装置70协作而与智能体服务器200-3进行通信。

配对应用执行部152例如通过Bluetooth(注册商标)来与通用通信装置70进行配对，从而使智能体功能部150-3与通用通信装置70连接。智能体功能部150-3也可以通过利用了USB(Universal Serial Bus)等的有线通信来与通用通信装置70连接。

以下，有时将通过智能体功能部150-1与智能体服务器200-1防同配合而出现的智能体称为智能体1，将通过智能体功能部150-2与智能体服务器200-2协同配合而出现的智能体称为智能体2，将通过智能体功能部150-3与智能体服务器200-3协同配合而出现的智能体称为智能体3。智能体功能部150-1～150-3分别执行针对从话筒10、音响处理部112等输入的乘员的讲话(声音)进行的处理，并将执行结果(例如，针对讲话中包含的要求的响应结果)向管理部110输出。

智能体功能部150-1～150-3分别将从话筒10输入的声音、声音识别结果、响应结果等交接给其他的智能体功能部来使其他的智能体功能部执行处理。针对上述功能的详细情况将会在后进行叙述。

[智能体服务器]

图4是表示智能体服务器200的结构和智能体装置100的结构的一部分的图。以下，对智能体服务器200的结构及智能体功能部150等的动作进行说明。这里，省略针对从智能体装置100到网络NW的物理通信的说明。以下，主要以智能体功能部150-1及智能体服务器200-1为中心来进行说明，其他的智能体功能部、智能体服务器的组虽然在各自的详细的功能、数据库等方面不同，但进行基本相同的动作。

智能体服务器200-1具备通信部210。通信部210例如是NIC(Network InterfaceCard)等网络接口。进而，智能体服务器200-1例如具备声音识别部220、自然言语处理部222、对话管理部224、网络检索部226、响应文生成部228和存储部250。上述的构成要素例如通过CPU等硬件处理器执行程序(软件)来实现。上述的构成要素中的一部分或全部可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序可以预先保存于HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置)，也可以保存于DVD、CD-ROM等能够装拆的存储介质(非暂时性的存储介质)，并通过将存储介质装配于驱动装置来安装。声音识别部220和自然言语处理部222合起来是“识别部”的一例。

存储部250通过上述的各种存储装置来实现。在存储部250例如保存有字典DB(数据库)252、个人资料254、知识库DB256、响应规则DB258等数据、程序。

在智能体装置100中，智能体功能部150-1将从话筒10、音响处理部112等获得的声音流或者进行了压缩、符号化等处理的声音流向智能体服务器200-1发送。可以是，智能体功能部150-1在识别出能够本地处理(不借助智能体服务器200-1的处理)的指令(要求内容)的情况下，执行指令所要求的处理。

能够本地处理的指令例如是指能够通过参照智能体装置100所具备的存储部160来响应的指令。更具体而言，能够本地处理的指令例如是从存在于存储部160内的电话簿数据中检索特定者的姓名并向与一致的姓名建立了对应关系的电话号码拨打电话(呼叫对方)的指令。因此，智能体功能部150-1可以具有智能体服务器200-1所具备的功能的一部分、在取得声音流时，声音识别部220进行声音识别来输出文本化后的文字信息，自然言语处理部222针对文字信息一边参照字典DB252一边进行意思解释。字典DB252例如是将抽象化的意思信息与文字信息建立了对应关系的数据。字典DB252可以包含同义词、近义词的一览信息。声音识别部220的处理和自然言语处理部222的处理可以不是明确地分阶段进行的处理，而是通过声音识别部220接受自然言语处理部222的处理结果来修正识别结果等方式彼此互相影响地进行的处理。

自然言语处理部222在例如识别出“今天的天气是”、“天气如何”等文本来作为声音识别结果的情况下，生成将用户意图置换为“天气：今天”的内部状态。由此，即便在请求的声音中存在文字差异、措辞不同的情况下，也能够容易地进行符合要求的对话。自然言语处理部222例如可以使用利用了概率的机械学习处理等人工智能处理来识别文字信息的意思、生成基于识别结果的指令。

对话管理部224基于输入了的指令，一边参照个人资料254、知识库DB256、响应规则DB258一边决定对车辆M的乘员的响应内容(例如，向乘员发出的讲话内容、向乘员输出的图像)。个人资料254包括按乘员保存的乘员的个人信息、兴趣喜好、过去的对话的履历等。知识库DB256是规定了事物的关联性的信息。响应规则DB258是规定了智能体相对于指令应进行的动作(回答、设备控制的内容等)的信息。

对话管理部224可以使用从声音流获得的特征信息来与个人资料254进行对照，由此确定乘员。这种情况下，在个人资料254中，例如将个人信息与声音的特征信息建立对应关系。声音的特征信息例如是与声音的高低、语调、节奏(声音的高低的模式)等说话方式的特征、基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients)等确定的特征量有关的信息。声音的特征信息例如是通过使乘员在其初始登记时发出规定的单词、文章等的声音并识别讲话的声音来获得的信息。

在指令是要求可经由网络NW来检索的信息的指令的情况下，对话管理部224使网络检索部226进行检索。网络检索部226经由网络NW来访问各种网络服务器300，取得所希望的信息。“可经由网络NW来检索的信息”例如是指一般用户针对位于车辆M的周边的餐馆的评价结果、与当日的车辆M的位置对应的天气预报。

响应文生成部228生成响应文并将生成的响应文(响应结果)向智能体装置100发送，以使由对话管理部224决定的讲话的内容传递给车辆M的乘员。也可以是，响应文生成部228从智能体装置100取得乘员识别装置80的识别结果，在根据取得的识别结果而确定进行了包含指令的讲话的乘员是登记在个人资料254中的乘员的情况下，称呼乘员的姓名、以近似于乘员的说话方式的说话方式生成响应文。

智能体功能部150在取得响应文时，指示声音控制部124进行声音合成来输出声音。智能体功能部150指示显示控制部122匹配声音输出地显示智能体图像。这样，能够实现假想出现的智能体响应车辆M的乘员这样的智能体功能。

[智能体功能部的功能]

以下，对智能体功能部150的功能的详细情况具体进行说明。以下，主要以智能体功能部150的功能和在智能体功能部150的功能下通过输出控制部120输出并提供给乘员(以下称为乘员P)的响应结果为中心来进行说明。以下，将由乘员P选择出的智能体功能部称为“第一智能体功能部”。“由乘员P选择”例如是指通过乘员P的讲话中包含的唤醒词、智能体起动开关等来起动(或呼叫出)。

图5是表示在乘员P讲话之前的场景下通过显示控制部122显示的图像IM1的一例的图。图像IM1所显示的内容、布局等并不局限于此。图像IM1是基于来自输出控制部120等的指示而由显示控制部122生成的图像。上述的内容针对之后的图像的说明也是同样的。

输出控制部120例如在乘员P没有与智能体进行对话的状态(不存在第一智能体功能部的状态)下，使显示控制部122生成图像IM1来作为初始状态画面，并使生成的图像IM1显示于第一显示器22。

图像IM1例如包括文字信息显示区域A11和响应结果显示区域A12。在文字信息显示区域A11中例如显示与可使用的智能体的数目、种类有关的信息。可使用的智能体例如是能够针对乘员的讲话进行响应的智能体。可使用的智能体例如基于车辆M正行驶的地域、时段、智能体的状况、由乘员识别装置80识别的乘员P来设定。智能体的状况例如包括车辆M由于存在于地下、隧道内而无法与智能体服务器200进行通信的状况、或者基于其他的指令进行的处理已经处于执行中而无法针对接下来的讲话执行处理的状况。在图5的示例中，在文字信息显示区域A11中显示有“三个智能体可使用”这样的文字信息。

在响应结果显示区域A12中显示与可使用的智能体建立了对应关系的智能体图像。在图5的示例中，在响应结果显示区域A12中显示有与智能体功能部150-1～150-3建立了对应关系的智能体图像EI1～E13。由此，乘员P能够容易地掌握可使用的智能体的数目、种类。

这里，按智能体区分的WU判定部114识别乘员P的讲话中包含的唤醒词，并使与识别出的唤醒词对应的第一智能体功能部(例如智能体功能部150-1)起动。智能体功能部150-1利用显示控制部122的控制来使智能体图像EI1显示于第一显示器22。

图6是表示在第一智能体功能部处于起动中的场景下通过显示控制部122显示的图像IM2的一例的图。图像IM2例如包括文字信息显示区域A21和响应结果显示区域A22。在文字信息显示区域A21中例如显示与和乘员P进行对话的智能体有关的信息。在图6的示例中，在文字信息显示区域A21中显示有“智能体1处于响应中”这样的文字信息。在该场景下，也可以不使文字信息显示区域A21显示文字信息。

在响应结果显示区域A22中显示与对话中的智能体建立了对应关系的智能体图像。在图6的示例中，在响应结果显示区域A22显示有与智能体功能部150-1建立了对应关系的智能体图像EI1。由此，乘员P能够容易地掌握智能体1已经起动这一情况。

接着，在乘员P发出“最近流行的店铺在哪？”这样的声音的情况下，存储控制部116将从话筒10或音响处理部112输入的声音或声音流作为声音信息162存储于存储部160。智能体功能部150-1基于讲话内容来进行声音识别。并且，智能体功能部150-1在获得了声音识别结果的情况下，生成基于声音识别结果作成的响应结果(响应文)并将生成的响应结果向乘员P输出来向乘员P确认。

在图6的示例中，声音控制部124与由智能体1(智能体功能部150-1、智能体服务器200-1)生成的响应文对应地生成“去检索最近流行的店铺！”这样的声音，并使扬声器单元30输出生成的声音。声音控制部124进行使上述的响应文的声音定位到响应结果显示区域A22所显示的智能体图像EI1的显示位置附近的声像定位处理。显示控制部122也可以生成使乘员P视觉确认为智能体图像EI1正在与声音输出匹配地说话的动画图像等并进行显示。显示控制部122也可以使响应文显示于响应结果显示区域A22。由此，乘员P能够更为准确地掌握智能体1是否能够识别讲话内容。

接着，智能体功能部150-1执行基于声音识别后的内容进行的处理，并生成响应结果。智能体功能部150-1在讲话的声音的识别结束了的时间点将存储于存储部160的声音信息162和声音识别结果向其他的智能体功能部(例如智能体功能部150-2、智能体功能部150-3)输出，来使其他的智能体功能部分别执行处理。向其他的智能体功能部输出的声音识别结果例如可以是由声音识别部220文本化了的文字信息，也可以是基于自然言语处理部222作出的意思解析结果，还可以是指令(要求内容)，或者可以是它们的多个组合。

在输出声音信息162及声音识别结果时，若是其他的智能体功能部没有起动，则智能体功能部150-1在使其他的智能体功能部起动之后输出声音信息162及声音识别结果。

智能体功能部150-1也可以基于预先决定的多个其他的智能体功能部各自的特征、功能，选择声音信息162或声音识别结果中对该智能体功能部来说必需的信息并将其向其他的智能体功能部输出。

智能体功能部150-1也可以不向多个其他的智能体功能部全都输出声音信息162及声音识别结果，而是向多个其他的智能体功能部中的选择出的智能体功能部输出声音信息162及声音识别结果。例如，智能体功能部150-1根据声音识别结果来识别为了响应所必需的功能(例如，店铺的检索功能)，选择能够实现识别的功能的其他的智能体功能部并仅向选择出的其他的智能体功能部输出声音信息162及声音识别结果。由此，能够减轻针对预测到无法进行响应或者无法期待适当的响应结果的智能体的处理负荷。

智能体功能部150-1基于自己的声音识别结果来生成响应结果。通过智能体功能部150-1取得了声音信息162及声音识别结果的其他的智能体功能部基于取得的信息来分别生成响应结果。智能体功能部150-1通过在获得了声音识别结果的时机下向其他的智能体功能部输出信息，由此能够使各智能体功能部并行地执行用于生成各响应结果的处理。因此，能够在短时间内取得多个智能体的响应结果。由其他的智能体功能部生成的响应结果例如向智能体功能部150-1输出。

智能体功能部150-1在通过智能体服务器200-1等的处理获得了响应结果的情况下，使输出控制部120输出该响应结果。图7是表示输出响应结果的情形的一例的图。在图7的示例中，示出了显示于第一显示器22的图像IM3。图像IM3例如包括文字信息显示区域A31和响应结果显示区域A32。在文字信息显示区域A31中与文字信息显示区域A21同样地显示有与对话中的智能体1有关的信息。

在响应结果显示区域A32中例如显示对话中的智能体图像、智能体的响应结果。在图7的示例中，在响应结果显示区域A32中显示有智能体图像EI1及智能体1的响应结果即“意大利餐厅：AAA”这样的文字信息。在该场景下，声音控制部124生成由智能体功能部150-1作出的响应结果的声音，并进行使该声音定位到智能体图像EI1的显示位置附近的声像定位处理。在图7的示例中，声音控制部124使“我介绍的是意大利餐厅：AAA”这样的声音输出。

智能体功能部150-1也可以在取得了来自其他的智能体功能部的响应结果的情况下，进行使输出控制部120输出该响应结果的处理。图8是用于说明输出由其他的智能体功能部获得的响应结果的情形的图。在图8的示例中，示出了显示于第一显示器22的图像IM4。图像IM4例如包括文字信息显示区域A41和响应结果显示区域A42。在文字信息显示区域A41中与文字信息显示区域A31同样地显示有与响应中的智能体有关的信息。

在响应结果显示区域A42中例如显示响应中的智能体图像、智能体的响应结果。显示控制部122从智能体功能部150-1取得响应结果及生成了响应结果的其他的智能体功能部的识别信息，并基于取得的信息来生成显示于响应结果显示区域A42的图像。

在图8的示例中，在响应结果显示区域A42显示有智能体图像EI1及智能体2的响应结果即“智能体2介绍中国餐馆：BBB”这样的文字信息。在该场景下，声音控制部124生成与响应结果对应的声音，并进行使该声音定位到智能体图像EI1的显示位置附近的声像定位处理。由此，乘员不仅能够取得由唤醒词指示的智能体的响应结果，还能够取得其他的智能体的响应结果。智能体功能部150-1在从智能体功能部150-3取得了响应结果的情况下，与图8同样地使输出部输出智能体3的响应结果。

智能体功能部150-1也可以取代如图7及图8所示那样将各智能体功能部的响应结果全部输出的方案，而是将多个响应结果中的选择出的响应结果输出。这种情况下，智能体功能部150-1例如基于为各响应结果设定的确信度来选择要输出的响应结果。确信度例如是指针对乘员P的讲话中包含的要求(指令)的响应结果被推定为是正确的回答的程度(指标值)。确信度例如是指针对乘员的讲话的响应被推定为是与乘员的要求一致的回答或者是乘员所期待的回答的程度。多个智能体功能部150-1～150-3的例如分别基于各存储部250中设置的个人资料254、知识库DB256、响应规则DB258来决定响应内容，并且为响应内容决定确信度。

例如，对话管理部224在从乘员P接受到“最近流行的店铺在哪？”这样的指令的情况下，通过网络检索部226而从各种网络服务器300取得“洋装的店铺”、”鞋子的店铺”、”意大利餐厅的店铺”这样的信息来作为与指令对应的信息。这里，对话管理部224参照个人资料254来将与乘员P的兴趣的一致度高的响应结果的确信度设定得高。例如，在乘员P的兴趣是“食物”的情况下，对话管理部224将“意大利餐厅的店铺”的确信度设定为比其他的信息高。对话管理部224也可以如下进行设定：从各种网络服务器300取得的针对各店铺的一般用户的评价结果(推荐程度)越高，越将该店铺的确信度设定得高。

对话管理部224也可以基于作为针对指令的检索结果而获得的响应候选的数目来决定确信度。例如，对话管理部224在响应候选的数目为1的情况下，由于不存在其他的候选，因此将确信度设定为最高。对话管理部224以响应候选的数目越多越降低各候选的确信度的方式进行设定。

另外，对话管理部224也可以基于作为针对指令的检索结果而获得的响应内容的充实度来决定确信度。例如，对话管理部224在不仅能取得文字信息还能取得图像信息来作为检索结果的情况下，由于充实度高而将确信度设定为比无法取得图像的情况下的确信度高。

对话管理部224也可以使用指令和响应内容的信息并参照知识库DB256而基于两者的关系性来设定确信度。可以是，对话管理部224参照个人资料254，参照在最近(例如1个月以内)的对话的履历中是否存在同样的问题，在存在同样的问题的情况下，将与该回答同样的响应内容的确信度设定得高。对话的记录可以是与讲话的乘员P进行对话的记录，也可以是乘员P以外的个人资料254中包含的对话的记录。对话管理部224也可以将上述的多个确信度的设定条件分别组合来设定确信度。

对话管理部224也可以针对确信度进行正规化。例如，对话管理部224按上述的各设定条件来对确信度进行正规化以使其成为0～1的范围。由此，即便是在利用根据多个设定条件来设定的确信度进行比较的情况下，由于确信度被同等地定量化，因此任何设定条件的确信度都不会偏大。其结果是，能够基于确信度来选择更适当的响应结果。

例如，设智能体功能部150-1的响应结果的确信度为0.2，智能体功能部150-2的响应结果的确信度为0.8，智能体功能部150-3的响应结果的确信度为0.5。这种情况下，智能体功能部150-1使输出部输出确信度最高的智能体2的响应结果(即，上述的图8所示的图像、声音)。智能体功能部150-1也可以使响应结果的确信度为阈值以上的响应结果输出。

智能体功能部150-1在自己的响应结果的确信度小于阈值的情况下，也可以使输出部输出从其他的智能体功能部取得的响应结果来作为智能体功能部150-1的响应结果。这种情况下，智能体功能部150-1在从其他的智能体功能部取得的响应结果的确信度比自己的响应结果大的情况下，使从其他的智能体功能部取得的响应结果输出。

智能体功能部150-1也可以在进行了图7所示的信息的输出之后，将自己的响应结果向其他的智能体功能部输出，并且使其他的智能体功能部与乘员P进行对话。这种情况下，其他的智能体功能部基于智能体功能部150-1的响应结果来生成针对乘员P的要求内容的响应结果。例如，其他的智能体功能部可以生成将智能体功能部150-1的响应结果考虑在内的响应结果，也可以生成与智能体功能部150-1的响应结果不同的响应结果。“将智能体功能部150-1的响应结果考虑在内”例如是指使用智能体功能部150-1的响应结果的一部分或全部。

图9是用于说明其他的智能体功能部响应乘员的情形的图。以下，设其他的智能体功能部是智能体功能部150-2来进行说明。在图9的示例中，示出了显示于第一显示器22的图像IM5。图像IM5例如包括文字信息显示区域A51和响应结果显示区域A52。在文字信息显示区域A51中显示有与和乘员P对话中的智能体2有关的信息。

在响应结果显示区域A52中例如显示对话中的智能体图像、智能体的响应结果。在图9的示例中，在响应结果显示区域A52中显示有智能体图像EI2及智能体2的响应结果即“中国餐馆：BBB”这样的文字信息。在该场景下，声音控制部124生成附加有智能体功能部150-1的响应结果的声音信息来作为响应结果的声音信息，并进行使该声音定位到智能体图像EI2的显示位置附近的声像定位处理。在图9的示例中，从扬声器单元30输出“智能体1介绍意大利餐厅：AAA，但我介绍中国餐馆：BBB”这样的声音。由此，乘员P能够取得来自多个智能体的信息。

乘员P无需为了取得来自多个智能体的信息而一个一个地呼叫出智能体来发出声音，因此能够提高便利性。

[处理流程]

图10是表示由智能体装置100执行的处理的流程的一例的流程图。本流程图的处理例如可以按照规定周期或在规定的时机下反复执行。

首先，按智能体区分的WU判定部114判定是否从由音响处理部112进行了音响处理后的乘员的讲话中接受到唤醒词(步骤S100)。在判定为接受到唤醒词的情况下，按智能体区分的WU判定部114使对应的智能体功能部(第一智能体功能部)执行乘员的响应(步骤S102)。

接着，第一智能体功能部判定是否从话筒10接受到乘员的讲话的输入(步骤S104)。在判定为接受到乘员的讲话的输入的情况下，存储控制部116将乘员讲话的声音(声音信息162)存储于存储部160(步骤S106)。接着，第一智能体功能部使智能体服务器200执行针对讲话的声音进行的声音识别及自然言语处理，取得声音识别结果(步骤S108、步骤S110)。接着，第一智能体功能部将声音信息162和声音识别结果向其他的智能体功能部输出(步骤S112)。

接着，第一智能体功能部生成基于声音识别结果作出的响应结果(步骤S114)，并使输出部输出生成的响应结果(步骤S116)。接着，第一智能体功能部使输出部输出来自其他的智能体功能部的响应结果(步骤S118)。在步骤S118的处理中，例如，第一智能体控制部可以取得来自其他的智能体功能部的响应结果并将其输出，也可以从其他的智能体功能部输出响应结果。由此，本流程图的处理结束。在步骤S100的处理中判定为没有接受到唤醒词的情况下或者在步骤S104的处理中判定为没有接受到乘员的讲话的输入的情况下，本流程图的处理结束。在步骤S104的处理中，在第一智能体功能部虽已经因唤醒词而起动但在从起动起算的规定时间以上都没接受到讲话的输入的情况下，智能体装置100的管理部110也可以进行结束第一智能体功能部的处理。

[变形例]

在上述的实施方式中，设为由乘员P呼叫出的第一智能体功能部在获得了乘员P的讲话的声音识别结果的时机下向其他的智能体功能部输出声音信息、声音识别结果，但也可以在其他的时机下输出。例如，第一智能体功能部在向其他的智能体功能部输出声音信息、声音识别结果之前生成响应结果，并在生成的自己的响应结果的确信度小于阈值的情况下使其他的智能体输出声音信息、声音识别结果等来执行处理。

图11是表示在变形例中由智能体装置100执行的处理的流程的一例的流程图。图11所示的流程图与上述的图10的流程图相比，不同之处在于取代步骤S112～S118的处理而具备步骤S200～S208的处理。因此，以下，主要以步骤S200～S208的处理为中心来进行说明。

在步骤S108及步骤S110的处理中取得声音识别结果之后，第一智能体功能部生成基于声音识别结果作出的响应结果及确信度(步骤S200)。接着，第一智能体功能部判定响应结果的确信度是否小于阈值(步骤S202)。在判定为小于阈值的情况下，第一智能体功能部将声音信息162和声音识别结果向其他的智能体功能部输出(步骤S204)，使输出部输出来自其他的智能体功能部的响应结果(步骤S206)。

在步骤S206的处理中，也可以在使输出部输出其他的智能体功能部的响应结果之前判定该响应结果的确信度是否小于阈值，在不小于阈值的情况下输出。在其他的智能体功能部的响应结果的确信度小于阈值的情况下，第一智能体功能部可以使输出部输出表示无法获得响应结果的信息，也可以使输出部输出第一智能体功能部及其他的智能体功能部各自的响应结果。

在步骤S202的处理中判定为响应结果的确信度不小于阈值的情况下，第一智能体功能部使输出部输出生成的响应结果(步骤S208)。

根据上述的变形例，仅在响应结果的确信度低的情况下使其他的智能体功能部执行处理，因此能够有效地执行处理。能够向乘员输出对乘员来说确信度高的信息。

在上述的实施方式中，智能体装置100的功能中的一部分或全部可以包括在智能体服务器200中。智能体服务器200的功能中的一部分或全部也可以包括在智能体装置100中。即，智能体装置100及智能体服务器200中的功能的划分可以根据各装置的构成要素、智能体服务器200或智能体系统1的规模等来适当变更。智能体装置100及智能体服务器200中的功能的划分也可以按车辆M来设定。

根据上述的实施方式的智能体装置100，具备：多个智能体功能部150，这多个智能体功能部150分别具备用于识别车辆M的乘员P的讲话的声音的识别部(声音识别部220、自然言语处理部222)，根据识别部的声音识别结果来提供包括响应的服务；以及存储控制部116，其将乘员P的讲话的声音存储于存储部160，多个智能体功能部150中的由乘员P选择出的第一智能体功能部将存储于存储部160的声音和由识别部识别出的声音识别结果向其他的智能体功能部输出，由此能够提供更适当的响应结果。

根据实施方式的智能体装置100，通过将乘员的声音(原始声音数据)和声音识别结果向其他的智能体功能部输出，由此各智能体功能部能够与各自的声音识别等级、识别条件匹配地执行声音识别，因此能够抑制声音识别的可靠性的降低。因此，即便是乘员在没有掌握各智能体的特征、功能的状态下呼叫出某智能体来讲出要求的情况下，也能够使其他的智能体执行针对讲话进行处理，从而将更适当的响应结果提供给乘员。即便乘员提出了与呼叫出的智能体无法实现的功能有关的要求(指令)的情况下，也能够将处理交接给其他的智能体而使其来替代地执行处理。

以上，使用实施方式说明了本发明的具体实施方式，但本发明丝毫不被这样的实施方式限定，在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims

1.一种智能体装置，其特征在于，具备：

多个智能体功能部，所述多个智能体功能部分别具备用于识别车辆的乘员的讲话的声音的识别部，根据所述识别部的声音识别结果来提供包括响应的服务；以及

存储控制部，所述存储控制部将所述乘员的讲话的声音存储于存储部，

所述多个智能体功能部中的由所述乘员选择出的第一智能体功能部将存储于所述存储部的声音和由所述第一智能体功能部所具备的识别部识别出的声音识别结果向其他的智能体功能部输出。

2.根据权利要求1所述的智能体装置，其中，

所述第一智能体功能部在由所述识别部获得了针对所述乘员的讲话的声音识别结果的时机，将存储于所述存储部的声音和所述声音识别结果向其他的智能体功能部输出。

3.根据权利要求1所述的智能体装置，其中，

所述智能体装置还具备使输出部输出针对所述乘员的讲话的响应结果的输出控制部，

所述输出控制部在由所述第一智能体功能部获得的响应结果的确信度小于阈值的情况下，将要提供给所述乘员的响应结果变更为由所述其他的智能体功能部获得的响应结果而使所述输出部输出。

4.根据权利要求1所述的智能体装置，其中，

所述其他的智能体功能部基于所述第一智能体功能部的响应结果来生成针对所述乘员的要求内容的响应结果。

5.根据权利要求1所述的智能体装置，其中，

所述第一智能体功能部基于所述识别部的声音识别结果，从所述多个智能体功能部中选择一个以上的其他的智能体功能部，并向选择出的其他的智能体功能部输出存储于所述存储部的声音和所述声音识别结果。

6.一种智能体装置的控制方法，其特征在于，所述智能体装置的控制方法使计算机执行如下处理：

使多个智能体功能部起动，所述多个智能体功能部分别具备用于识别车辆的乘员的讲话的声音的识别部；

作为起动了的所述智能体功能部的功能，根据所述识别部的声音识别结果来提供包括响应的服务；

将所述乘员的讲话的声音存储于存储部；以及

7.一种存储介质，其存储有程序，所述程序使计算机执行如下处理：

将所述乘员的讲话的声音存储于存储部；以及