CN110968048B

CN110968048B - 智能体装置、智能体控制方法以及存储介质

Info

Publication number: CN110968048B
Application number: CN201910907973.6A
Authority: CN
Inventors: 田中亮介
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-09-28
Filing date: 2019-09-20
Publication date: 2023-04-14
Anticipated expiration: 2039-09-20
Also published as: US10901503B2; JP2020055348A; US20200103964A1; CN110968048A

Abstract

本发明提供用于使乘客容易地掌握显示图像的位置的智能体装置、智能体控制方法以及存储介质。智能体装置具备：话筒，其收集车室内的声音；扬声器，其向所述车室内输出声音；识别部，其识别由所述话筒收集到的声音的意思；显示部，其设于所述车室内；以及智能体控制部，其使对乘客搭话的形态的智能体图像显示于所述显示部，并且使所述扬声器输出所述智能体图像搭话的声音，所述智能体控制部在向所述乘客提供的提供图像显示于所述显示部的情况下，生成将所述乘客的视线向所述提供图像的显示位置引导的智能体图像。

Description

智能体装置、智能体控制方法以及存储介质

技术领域

本发明涉及智能体装置、智能体控制方法以及存储介质。

背景技术

以往，已知有如下的显示系统，该显示系统在车室内具备多个显示部，基于导航系统的设定、影像等的条目的选择、播放等操作输入，在多个显示部中的特定的显示部进行地图及引导的显示、影像条目的显示等(例如，日本特开2018-103880号公报)。

然而，在现有的技术中，需要搜索基于乘客的操作输入得到的显示结果被输出到哪个显示部的哪个显示位置。因此，在搜索显示位置的期间，驾驶员的视线从监视区域离开，结果可能阻碍驾驶。

发明内容

本发明的方案是考虑了上述的情况而做成的，其目的之一在于提供用于使乘客容易地掌握显示图像的位置的智能体装置、智能体控制方法以及存储介质。

该发明的智能体装置、智能体控制方法及存储介质采用了以下的结构。

(1)：该发明的一方案的智能体装置中，其特征在于，具备：话筒，其收集车室内的声音；扬声器，其向所述车室内输出声音；识别部，其识别由所述话筒收集到的声音的意思；显示部，其设于所述车室内；以及智能体控制部，其使对乘客搭话的形态的智能体图像显示于所述显示部，并且使所述扬声器输出所述智能体图像搭话的声音，所述智能体控制部在向所述乘客提供的提供图像显示于所述显示部的情况下，生成将所述乘客的视线向所述提供图像的显示位置引导的智能体图像。

(2)：在上述(1)的方案中，所述智能体控制部使所述智能体图像的显示位置向给所述乘客提供的提供图像的显示位置移动。

(3)：在上述(2)的方案中，所述智能体控制部以使所述智能体图像搭话的声音的输出对象与所述智能体图像的显示位置的移动相应地移动的方式对声像进行定位。

(4)：在上述(1)～(3)方案的任一方案中，所述显示部具备多个显示部，所述智能体控制部利用所述智能体图像将所述乘客的视线从所述多个显示部中的第一显示部朝向第二显示部引导。

(5)：在上述(4)的方案中，所述第一显示部设置于比所述第二显示部接近所述乘客的车辆驾驶时的视线方向的位置。

(6)：在上述(4)或(5)的方案中，所述第二显示部的视角比所述第一显示部的视角大。

(7)：在上述(1)～(6)方案的任一方案中，还具备对所述乘客的视线进行检测的视线检测部，所述智能体控制部在使所述智能体图像显示于由所述视线检测部检测出的所述乘客的视线位置之后，使所述智能体图像朝向给所述乘客提供的提供图像移动。

(8)：在上述(1)～(7)方案的任一方案中，还具备对所述乘客的视线进行检测的视线检测部，所述智能体控制部在所述提供图像未存在于由所述视线检测部检测出的所述乘客的视线位置的情况下，执行基于所述智能体图像对所述乘客的视线的引导。

(9)：本发明的另一方案的智能体控制方法中，其特征在于，使智能体装置的计算机进行如下处理：收集车室内的声音；识别收集到的所述声音的意思；使对乘客搭话的形态的智能体图像显示于在所述车室内设置的显示部，并且使向所述车室内输出声音的扬声器输出所述智能体图像搭话的声音；以及在向所述乘客提供的提供图像显示于所述显示部的情况下，生成将所述乘客的视线向所述提供图像的显示位置引导的智能体图像。

(10)：本发明的另一方案的存储介质中，其特征在于，所述存储介质存储有程序，该程序使智能体装置的计算机进行如下处理：收集车室内的声音；识别收集到的所述声音的意思；使对乘客搭话的形态的智能体图像显示于在所述车室内设置的显示部，并且使向所述车室内输出声音的扬声器输出所述智能体图像搭话的声音；以及在向所述乘客提供的提供图像显示于所述显示部的情况下，生成将所述乘客的视线向所述提供图像的显示位置引导的智能体图像。

根据上述(1)～(10)的方案，能够使乘客地容易地掌握图像所显示的位置。

附图说明

图1是包括实施方式的智能体装置的智能体系统的结构图。

图2是示意性地表示设置于车辆的显示部及扬声器的图。

图3是用于说明后部座位附近的扬声器的位置的图。

图4是用于说明使声像定位的位置移动的情形的图。

图5是表示回答信息DB的内容的一例的图。

图6是用于说明智能体控制装置的处理的图。

图7是用于说明智能体图像的显示位置的移动的情形的图。

图8是用于说明基于视线位置进行的控制部的处理的图。

图9是用于说明在视线位置附近存在有回答图像的场景的图。

图10是表示由智能体装置进行的一系列处理的流程的一例的流程图。

具体实施方式

以下，参照附图对本发明的智能体装置、智能体控制方法以及存储介质的实施方式进行说明。以下，作为智能体装置的一例，使用搭载于车辆(以下，称作车辆M)且具备对话型智能体功能的智能体装置。所谓对话型智能体，例如是一边与车辆M的乘客对话一边基于乘客的要求进行各种信息提供、车辆内的设备的控制的装置。对话型智能体例如通过除了识别乘客的声音的声音识别处理(将声音文本化的处理)之外，还综合地利用自然语言功能(理解文本的结构、意思的处理)、对话控制处理、检索处理等来实现。这些处理的一部分或全部由AI(Artificial Intelligence)技术来实现。进行这些处理的结构的一部分或全部可以设置于能够与车辆M通信的服务器装置等。智能体装置生成在车内与乘客进行交流的拟人化的智能体的图像(以下，称作智能体图像)，并使生成的智能体图像显示于车室内的显示部。

[整体结构]

图1是包括实施方式的智能体装置的智能体系统1的结构图。智能体系统1例如具备智能体装置100和服务器装置200中的一方或两方。智能体装置100与服务器装置200例如通过互联网、WAN(Wide Area Network)、LAN(Local Area Network)等网络NW而以能够进行数据的收发的状态连接。服务器装置200能够进行与多个智能体装置100的通信，但是，以下，为了便于说明，设为与一个智能体装置100通信。

智能体装置100与车辆M的乘客进行对话，针对来自乘客的通过声音等的询问，向服务器装置200进行请求，将从服务器装置200得到的针对请求的回答以规定的输出形态提示给乘客。在以下的说明中，所谓乘客，例如为就座于驾驶员座的乘客(以下，简称为驾驶员)，但是，除此之外，也可以是就座于副驾驶员座、后部座位的乘客(同乘者)。

智能体装置100例如具备通信装置110、车室内相机112、话筒114、显示部116、扬声器118、AMP(放大器)120、操作部130、导航装置140、智能体控制装置(智能体控制部的一例)150。这些装置、设备通过CAN(Controller Area Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。图1所示的结构终归只是一例，既可以省略结构的一部分，也可以还追加别的结构。

通信装置110例如利用蜂窝网、Wi-Fi网、Bluetooth(注册商标)、DSRC(DedicatedShort Range Communication)等，经由网络NW而与服务器装置200、其他车辆、乘客所持的终端装置通信。例如，通信装置110将与由声音输入部152输入的声音、由车辆状态识别部154识别出的车辆状态信息、由视线检测部156检测出的驾驶员的视线有关的信息等发送到服务器装置200。通信装置110从服务器装置200接收对话信息。

车室内相机112例如拍摄包括就座于在车辆M的车室内设置的座椅的乘客的面部的图像。车室内相机112例如是利用了CCD(Charge Coupled Device)、CMOS(ComplementaryMetal Oxide Semiconductor)等固体摄像元件的数码相机。车室内相机112例如在规定的时机对驾驶员进行拍摄。车室内相机112的拍摄图像被向智能体控制装置150输出。

话筒114是收集车室内的声音的声音输入装置。例如，话筒114设置于地图照明灯附近、转向盘、仪表板或座椅。话筒114可以在车室内设置多个。

显示部116设置于就座于车室内的座椅的乘客的前方附近。扬声器118设置于车室内的座椅附近或显示部116附近。显示部116及扬声器118可以在车室内设置多个。

图2是示意性地表示设置于车辆M的显示部及扬声器的图。在图2所示的车辆M的车室内设置有显示部116A～116D和扬声器118A～118F。显示部116A是“第一显示部”的一例。显示部116B～116D中的至少一个是“第二显示部”的一例。显示部116A例如是HUD(Head-UpDisplay)装置。HUD装置是使图像重叠于风景而被视觉确认的装置，作为一例，是通过向车辆M的前风窗玻璃、组合器投射包含图像的光而使驾驶员视觉确认虚像的装置。

显示部116A设置于比显示部116B～116D靠近驾驶员的车辆运转时的视线方向(例如，车辆M的行进方向的监视区域)的位置(更具体而言，车外监视区域)。在显示部116A例如显示与由导航装置140执行的导航处理对应的图像、由智能体控制装置150生成的图像等。

显示部116B设置于仪表板IP中的驾驶员座(例如离转向盘最近的座位)的正面附近，设置于驾驶员能够从转向盘的间隙或越过转向盘视觉确认的位置。显示部116B例如是LCD(Liquid Crystal Display)、有机EL(Electro Luminescence)显示装置等。在显示部116B例如显示车辆M的速度、发动机转速、燃料剩余量、散热器水温、行驶距离、其他信息的图像、由智能体控制装置150生成的图像等。

显示部116C设置于仪表板IP的中央附近。显示部116C例如与显示部116B同样，是LCD、有机EL显示装置等。显示部116C例如显示与由导航装置140执行的导航处理对应的图像、由智能体控制装置150生成的图像等。显示部116C也可以显示电视节目，播放DVD，或者显示下载的电影等的条目。

显示部116D设置于仪表板IP中的副驾驶员座(驾驶员座的旁边的座位)的正面附近。在显示部116D例如显示电视节目、从服务器装置200下载的电影等的条目图像、基于其他应用程序的执行而生成的图像、由智能体控制装置150生成的图像等。在车室内，除了上述的显示部以外，还可以设置有用于显示通过车外相机获取的车辆M的侧后方的图像的显示部(电子镜)。

显示部116B～116D的视角比显示部116A的视角大。因此，智能体控制装置150在显示相对于驾驶员的问题的回答结果的情况下，使回答结果显示于显示部116B～116D，从而能够使驾驶员容易地视觉确认回答结果。智能体控制装置150通过使回答结果显示于显示部116C、116D，从而不仅是驾驶员，也能够使其他同乘者容易地识别回答结果。

扬声器118A及扬声器118B例如设置于车辆M的左右的前方的窗柱(所谓的A柱)。扬声器118C设置于驾驶员座侧的车门的下部，扬声器118D设置于副驾驶员座侧的车门的下部。扬声器118E设置于显示部116C附近、即仪表板IP的中央附近。扬声器118F设置于车室内的天棚的中央部附近。

在车辆M，也可以在后部座位附近设置有扬声器。图3是用于说明后部座位附近的扬声器的位置的图。在图3的例子中，除了图2所示的扬声器118A～118F之外，还在设置于驾驶员座ST1和副驾驶员座ST2的后方的后部座位ST3附近设置有扬声器118G及扬声器118H。具体而言，扬声器118G及扬声器118H设置于左右的方向车门的下部。扬声器118可以设置于在车辆M的前方车门与后方车门之间设置的窗柱(所谓的B柱)，也可以设置于后部座位的后方。

AMP120通过由声音生成部164进行的控制来对从扬声器118输出的声音的大小进行调整。例如，AMP120能够相对于成为基准的声音的大小(最大强度)在0～100％之间进行声音的调节。AMP120例如具备混频器122。混频器122具备对所输入的多个声音进行合成的功能。混频器122具备在存在有多个扬声器118的情况下，对向各个扬声器输出的声音进行分配的功能。

操作部130接受来自乘客的操作。操作部130例如具备开关、按钮、按键等。操作部130例如设置于转向盘、仪表板。操作部130也可以作为触摸面板而与显示部116一体构成。

导航装置140例如基于从GNSS(Global Navigation Satellite System)卫星接收到的信号，确定车辆M的位置。导航装置140参照地图信息142来决定从确定出的车辆M的位置(或者所输入的任意的位置)到由乘客使用操作部130、显示部116输入的目的地为止的路径(以下，称为地图上路径)。地图信息142例如是利用表示道路的线路和由线路连接的节点来表现道路形状的信息。地图信息142也可以包括道路的曲率、POI(Point Of Interest)信息等。

导航装置140也可以基于地图上路径而通过基于显示部116的地图图像显示、基于扬声器的声音输出来进行路径引导。导航装置140例如也可以通过乘客所持有的智能手机、平板终端等终端装置的功能来实现。导航装置140也可以经由通信装置110向服务器装置200或导航服务器发送当前位置和目的地，从服务器装置200、导航服务器获取与地图上路径同等的路径。

导航装置140也可以通过由智能体控制装置150执行的导航用的应用程序(导航应用176)的功能来实现上述的导航装置140的功能。

[智能体控制装置]

智能体控制装置150例如具备声音输入部152、车辆状态识别部154、视线检测部156、输出控制部160、图像生成部162、声音生成部164、应用调出部166、存储部170及控制部180。这些构成要素例如通过由CPU(Central Processing Unit)等计算机处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以由LSI(Large ScaleIntegration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于存储部170，也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性的存储介质)并通过将存储介质装配于驱动装置而安装于存储部170。

声音输入部152接受由话筒114收集的乘客的声音的输入。声音输入部152将接受到的声音(声音流)经由通信装置110向服务器装置200发送。声音输入部152也可以与将声音发送到服务器装置200的时刻同步地将由车辆状态识别部154识别出的车辆状态信息(例如，车辆M的位置)发送到服务器装置200。声音输入部152对接受到的声音进行解析，判断声音中是否包含特定语言，在包含特定语言的情况下，之后将规定时间或声音区间的声音发送到服务器装置200。所谓特定语言，例如是用于开始由智能体装置100进行的信息提示等的控制的唤醒语言。

车辆状态识别部154例如基于由导航装置140确定出的车辆M的位置、由搭载于车辆的车辆传感器获取的速度、加速度、绕铅垂轴的角速度、车辆M的朝向等，来识别车辆的状态。车辆M的状态例如包括车辆M是处于停止还是处于行驶等的状态、是否正在进行左右转弯、车道变更等的状态。

视线检测部156对由车室内相机112拍摄的图像(以下，称为相机图像)进行解析处理，来检测驾驶员的视线。例如，视线检测部156使用模板匹配等的方法，根据相机图像来检测驾驶员的头部与眼睛的位置关系、眼睛中的基准点与动点的组合等。例如，在基准点为眼角的情况下，动点为虹膜。在基准点为角膜反射区域的情况下，动点为瞳孔。并且，视线检测部156基于眼睛相对于头部的位置而导出面部的朝向。视线检测部156基于动点相对于基准点的位置而导出视线的朝向。视线检测部156也可以与所检测出的视线的朝向建立对应地检测驾驶员所注视着的位置、视界区域。所谓视界区域，是以注视位置为中心的规定的范围内的区域。视线检测部156也可以根据视线的朝向来推定驾驶员看着的显示部。以下，将由视线检测部156检测出的各信息称为“视线位置”。

输出控制部160基于由服务器装置200得到的信息(例如，对话信息)等来控制向乘客提供的信息。对话信息例如包含向乘客提供的声音信息或图像信息中的一方或双方。向乘客提供的信息例如包含由显示部116显示于画面的图像、由扬声器118输出的声音、由用于实现车辆内的各功能的应用执行的功能等。

例如，输出控制部160基于由服务器装置200得到的对话信息，而使图像生成部162生成进行规定的表情、行为的智能体图像，或使声音生成部164生成与对话信息对应的声音信息。

图像生成部162通过输出控制部160或控制部180的控制，来生成与乘客进行对话的智能体图像，并使生成的智能体图像显示于显示部116的规定的显示位置。智能体图像例如是对乘客搭话的形态的图像。智能体图像例如至少包括由观看者(乘客)识别表情、面部朝向的程度的面部图像。例如，智能体图像在面部区域中呈现模仿眼睛、鼻子的部件，使得表情、面部朝向基于面部区域中的部件的位置而被识别。智能体图像也可以通过包含由观看者立体地感受的三维空间中的头部图像而使得智能体的面部朝向被识别，或者通过包含主体(身体、手脚)的图像而使得智能体的动作、行为被识别。

图像生成部162将由服务器装置200得到的向乘客提供的提供图像转换为用于显示于由输出控制部160指示的显示部116的显示形态(例如，图像尺寸、图像格式)，并使变换后的图像显示于显示部116。

声音生成部164与对话信息对应地生成智能体图像搭话的声音，并使生成的声音从扬声器118输出。此时，声音生成部164使用多个扬声器118，生成用于使声像定位于与智能体图像的显示位置对应的位置的声音。所谓声像定位，例如是通过调节向乘客的左右耳传递的声音的大小，确定乘客感到的声源的空间上的位置。声像例如基于声源原本持有的声特性、车室内环境的信息、头部传递函数(HRTF；Head-related transfer function)而确定。利用这样的原理，能够使声像定位于规定的位置。

图4是用于说明使声像定位的位置移动的情形的图。在图4中，为了简化说明，使用上述的扬声器118C～118E，但可以使用设于车室内的扬声器118A～118H在空间上移动使声像定位的位置。例如，在使声像定位于图4所示的三维坐标(X、Y、Z)确定的空间位置MP1的情况下，在AMP120基于由声音生成部164生成的声音而针对规定的输出对象的声音从扬声器118C进行最大强度的5％的输出、从扬声器118D进行最大强度的80％的输出、且从扬声器118E进行最大强度的15％的输出的情况下，从乘客P1的位置感到声像定位于图4所示的空间位置MP1。

在AMP120针对输出对象的声音从扬声器118C进行最大强度的45％的输出、从扬声器118D进行最大强度的45％的输出、且从扬声器118E进行最大强度的10％的输出的情况下，从乘客P1的位置能够感到声像定位于图4所示的空间位置MP2。这样，通过调整设于车室内的多个扬声器和从各个扬声器输出的声音的大小，能够使声像定位的位置发生变化。以下，将声像定位的空间上的位置MP称为“声像位置MP”。

应用调出部166从存储于存储部170的应用调出与由输出控制部160进行控制的控制内容对应的应用，通过在控制部180执行所调出的应用，来实现该应用的功能。应用例如包含电话应用172、收音机应用174、导航应用176等。在由控制部180执行了电话应用172的情况下，经由通信装置110而与具备外部的通话功能的终端通信，使用话筒114、扬声器118实现与对象目标的通话。在由控制部180执行了收音机应用174的情况下，经由通信装置110而从广播电台获取以乘客指定的频率发送的声音信息，实现将所获取的声音信息从扬声器118输出的功能。在由控制部180执行了导航应用176的情况下，实现与导航装置140协作的路径探索、路径引导等功能。

存储部170例如通过HDD、闪存器、EEPROM(Electrically Erasable ProgrammableRead Only Memory)、ROM(Read Only Memory)或RAM(Random Access Memory)等来实现。存储部170例如保存电话应用172、收音机应用174、导航应用176等由处理器读出并执行的程序及其他信息等。

控制部180对智能体控制装置150的各功能部的执行及停止进行控制。控制部180例如通过API(Application Programming Interface)接受来自各功能部的要求，选择执行基于接受到的要求的处理的功能部，经由API使所选择的功能部执行处理。控制部180也可以通过使应用(例如，智能体应用)执行智能体控制部150的各功能部的处理来实现。

[服务器装置]

服务器装置200例如具备通信部210、识别部220、对话生成部230以及存储部240。这些构成要素例如通过由CPU等计算机处理器执行程序(软件)来实现。另外，这些构成要素中的一部分或全部既可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部：circuitry)来实现，也可以由软件与硬件的协同配合来实现。程序既可以预先保存于存储部240，也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性的存储介质)，并通过将存储介质装配于驱动装置而安装于存储部240。

通信部210例如利用蜂窝网、Wi-Fi网、Bluetooth、DSRC等，经由网络NW而与智能体装置100通信。通信部210接收从智能体装置100发送的声音流。通信部210将由对话生成部230生成的声音、图像等对话信息向智能体装置100发送。

识别部220根据从通信部210接收的声音流来识别声音的意思。识别部220例如具备声音区间检测部222、声音识别部224以及自然语言处理部226。声音区间检测部222根据从智能体装置100发送的声音流来检测声音区间。例如，声音区间检测部222基于声音流中的声音波形的振幅和零交叉来检测声音区间。声音区间检测部222也可以通过基于混合高斯分布模型(GMM；Gaussian mixture model)进行的帧单位的声音、非声音识别来进行区间检出。声音区间检测部222也可以通过与预先存储于存储部240等的、用于根据声音流的特征信息检测声音区间的数据库的匹配处理来进行声音的区间检测。

声音识别部224识别由声音区间检测部222检测出的声音区间中的声音，并将声音文本化为文字信息。声音识别部224也可以根据识别出的声音确定发声者的特征。发声者的特征例如包含性别、年龄、是否是驾驶员、是否是同乘者的信息。

声音识别部224也可以使用从声音得到的特征信息与存储于存储部240的个人资料242进行对照。个人资料242例如将个人信息与声音的特征信息建立对应关系。声音的特征信息例如是与基于声音的高度、语调、节奏(声音的高低的图案)、停顿等的说话方式的特征、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients)等的特征量有关的信息。声音的特征信息例如是在乘客初始登录时使乘客发生规定的单词、文章等的声音，并对发出的声音进行解析而得到的信息。个人信息例如包含名字、住址、年龄、兴趣、过去的服务器装置200的使用履历。名字、住址、年龄、兴趣在乘客初始登录时与声音的特征信息一起设定，之后通过设定变更等而适当更新。声音识别部224对从声音得到的特征信息与存储于存储部240的个人资料242的特征信息进行对照，来识别与相符的特征信息建立了对应关系的个人信息。

自然语言处理部226执行针对由声音识别部224文本化了的文字信息的自然语言处理，识别文字信息的意思。自然语言处理包括词素解析、句法解析、意思解析、上下文解析等。词素解析例如将文字信息分割为具有意思的最小的表达要素的单位，解析每个分割出来的单位(词素)的词类等。句法解析例如基于通过词素解析而得到的词素，解析句子的构造。意思解析例如基于通过句法解析而得到的句法，判别具有意思的总结。上下文解析例如以句子单位、上下文单位来识别意思。

自然语言处理部226生成与解释出的意思对应的指令。例如，作为解释结果，解释出了“距东京站几公里？”、“距东京站行驶多远？”等意思的情况下，自然语言处理部226生成置换为标准文字信息“距东京站的距离是？”的指令。由此，即便是请求的声音存在文字差异的情况下也能够容易获取回答信息。自然语言处理部226例如也可以使用利用了概率的机械学习处理等人工智能处理来识别文字信息的意思，生成基于解释结果的指令。

自然语言处理部226使用所生成的指令，参照存储于存储部240的回答信息DB244的指令，获取与相符的指令对应的控制内容。图5是表示回答信息DB244的内容的一例的图。回答信息DB244例如将由智能体装置100执行的控制内容与指令建立对应关系。控制内容例如包含应用的执行、结束、设备的起动、停止、声音控制、显示控制、对话用的文章格式等的信息。

自然语言处理部226抽出与相符的指令建立了对应关系的控制内容。例如，在指令为“打开收音机”的情况下，抽出用于执行收音机应用的控制内容。在获取距东京站的距离的情况下，自然语言处理部226也可以基于从智能体装置100发送的车辆M的位置信息，参照存储于存储部240或外部装置的地图信息(未图示)，导出从车辆的位置到东京站的行驶距离，并将导出的行驶距离带入对话用的声音控制“从这里开始是＊＊＊[km]。”的“＊＊＊”而生成声音输出用的文字信息。

对话生成部230基于由自然语言处理部226获取的控制内容生成用于与乘客对话的对话信息。例如，对话生成部230作为对话信息而生成针对从回答信息DB244得到的内容(文字信息)的声音信息(声音流)。声音信息例如包含智能体图像与乘客搭话的声音。对话生成部230也可以生成针对显示控制的图像、影像、文字信息等，或生成针对设备控制的控制信息(例如，应用执行指令)，并将生成的信息包含于对话信息。

对话生成部230在获得从个人资料242得到的个人信息的情况下，也可以基于个人信息生成通过声音呼叫乘客的名字、与乘客的说话方式相似的说话方式的声音信息。对话生成部230也可以获取与从个人资料得到的乘客的兴趣有关的信息，将获取到的信息包含于对话信息。对话生成部230将生成的对话信息经由通信部210发送到智能体装置100。

在上述的识别部220及对话生成部230的处理中，也可以为，首先，识别部220对所输入的声音进行解析，判断所输入的声音中是否包含唤醒语言等的特定语言，在包含特定语言的情况下，进行上述的处理。

存储部240例如通过HDD、闪存器、EEPROM、ROM或RAM等来实现。存储部240例如保存个人资料242、回答信息DB244及其他信息等。

[智能体控制装置]

以下，关于智能体控制装置150的功能的详细内容进行说明。图6是用于说明智能体控制装置150的处理的图。智能体控制装置150的输出控制部160或控制部180例如在驾驶员驾驶车辆M的过程中显示与驾驶员搭话的形态的智能体图像的情况下，使智能体图像显示于驾驶员能够一边监视车辆M的行进方向的外界一边视觉确认智能体图像的位置。在图6的例子中，在显示部116A的一部分区域显示智能体图像EI。

在此，在驾驶员对智能体说了提问等的请求的情况下，其内容由话筒114收集为声音，并将收集的声音发送到服务器装置200。并且，在从服务器装置200获取对话信息所包含的图像(以下，称为回答图像CI)的情况下，输出控制部160将指定了显示回答图像CI的显示部116及显示位置(例如，画面上的坐标位置)的信息与回答图像CI一起输出到图像生成部162。回答图像CI是向驾驶员提供的提供图像的一例。

图像生成部162对回答图像CI进行用于显示于指定的显示部116的尺寸转换、格式转换，并将转换后的信息显示于所指定的显示部116的至少一部分区域。输出控制部160将与智能体图像EI的显示位置有关的信息与对话信息所包含的声音信息一起输出到声音生成部164。声音生成部164以在由输出控制部160指示的智能体图像EI的显示位置附近(例如，距显示位置为几[cm]以内)的三维位置设定声像位置MP的方式调整基于扬声器118A～118F等的声音的输出强度，并输出对话信息所包含的声音信息。

在此，驾驶员在驾驶中监视车辆M的行进方向，无法迅速地识别在哪个显示部的哪个位置提示回答结果(回答图像CI)。在寻找回答结果的显示位置的期间，可能会将视线从前方监视离开而阻碍驾驶。因此，在本实施方式中，输出控制部160使智能体图像EI的显示位置移动，以使得驾驶员的视线迅速地移动到显示回答结果的位置。

图7是用于说明智能体图像EI的显示位置的移动的情形的图。以下，时刻t1～t7设为“t1＜t2＜t3＜t4＜t5＜t6＜t7”的关系成立。EI(t＊)表表示在时刻t＊显示的智能体图像的位置，MP(t＊)表示时刻t＊的声像位置。

例如，在显示部116C显示回答图像CI的情况下，输出控制部160通过图像生成部162生成使智能体图像EI的显示位置朝向显示回答图像CI的显示部116C移动的图像，并显示所生成的图像。在图7的例子中，图像生成部162生成显示于显示部116A的智能体图像EI(t1)～EI(t4)和显示于显示部116C的智能体图像EI(t7)。在时刻t3、t4，图像生成部162生成智能体图像EI从显示部116A的画面渐渐消失那样的图像。图像生成部162也可以生成智能体图像在规定的时刻向智能体图像EI(t1)～EI(t4)移动的动画图像。图像生成部162也可以生成使智能体的朝向面向回答图像CI的显示位置的智能体图像，使生成的智能体图像移动。由此，能够使驾驶员的视线追随智能体图像EI而将驾驶员的视线迅速地引导至回答图像CI。

输出控制部160也可以通过声音生成部164以使智能体图像EI搭话的声音的输出对象与智能体图像EI的移动相应地移动的方式对声像进行定位。在图7的例子中，声音生成部164将声像位置MP设定于伴随时间的经过而移动的智能体图像EI(t1)～EI(t4)、EI(t7)的显示位置并输出声音。这样，通过使声像位置移动，能够容易地将驾驶员的视线引导至显示回答图像CI的位置。通过在无法显示智能体图像EI的时间带(例如，图7所示的时刻t5、t6)也继续使声像定位移动，能够继续容易地引导驾驶员的视线。

控制部180基于由视线检测部156检测的驾驶员的视线位置，进行智能体图像EI的显示位置、声像位置的控制。控制部180也可以与输出控制部160协作地进行基于智能体图像IM、声像位置的移动的、驾驶员的视线的引导控制。

图8是用于说明基于视线位置的控制部180的处理的图。控制部180例如在由图像生成部162生成智能体图像EI的情况下，基于由视线检测部156检测出的驾驶员的视线位置来调整智能体图像的显示位置。例如，在如图示那样驾驶员的视线位置EP位于显示部116A内的情况下，控制部180将通过图像生成部162显示的智能体图像EI1的位置调整至与驾驶员的视线位置EP建立了对应关系的位置。例如，控制部180以使智能体图像EI显示于视线位置EP附近(例如，以视线位置为中心约3～5[cm]以内)的方式对图像生成部162进行控制。控制部180以将声像定位于与在视线位置EP附近显示的智能体图像EI建立了对应关系的位置的方式对声音生成部164进行控制。

控制部180基于乘客的视线位置EP判定是否能视觉确认回答图像CI。例如，控制部180在视线位置EP与回答信息的距离为规定距离以上的情况下，或存在于与视线位置EP对应的位置的显示部与显示回答图像CI的显示部不同的情况下，判定为无法视觉确认回答图像CI。在判定为无法视觉确认回答图像CI的情况下，控制部180执行使智能体图像E1、声像位置MP移动的控制，以使视线位置EP移动到回答图像CI的显示位置。在该情况下，首先，控制部180通过图像生成部162使智能体图像EI(t1)显示在回答图像CI被显示之前的乘客的视线位置EP附近，并且通过声音生成部164使从扬声器118输出的声音定位于声像位置MP(t1)。接着，控制部180使智能体图像EI及声像位置MP朝向回答图像CI的显示位置移动，在时刻t5，使智能体图像EI(t5)显示于回答图像CI附近，使声音定位于声像位置MP(t5)。由此，能够以当前的视线位置为基准进行驾驶员的视线的引导，因此，能够减轻驾驶员的视线移动的负担。

控制部180也可以为，在智能体图像EI、声像位置MP的移动中继续检测驾驶员的视线位置EP，在视线位置EP未追随智能体图像EI、声像位置MP的移动的情况下，将智能体图像EI、声像位置MP再次定位于视线位置EP，进行视线的引导控制。由此，能够容易地将驾驶员的视线可靠地定位于回答信息CI的显示位置。

控制部180在进行基于智能体图像EI、声像位置MP的视线的引导之前，在乘客的视线位置存在于回答图像CI附近的情况下，不进行基于智能体图像EI、声像位置MP的视线的引导控制。图9是用于说明回答图像存在于视线位置附近的场景的图。在进行视线的引导控制之前，在视线位置EP存在于回答图像CI附近的情况下，控制部180推定为乘客能够视觉确认回答图像CI，以从智能体图像EI(t1)切换为智能体图像EI(t2)进行显示的方式对图像生成部162进行控制。控制部180与智能体图像的切换配合地从声像位置MP(t1)切换设定为声像位置MP(t2)。这样，控制部180能够与驾驶员的视线位置EP配合地对智能体图像的显示位置及声像位置适当地进行控制。

控制部180在回答图像CI的显示结束的情况下使智能体图像EI显示于显示部116A，并且使智能体图像搭话的声音定位于智能体图像EI的显示位置附近。回答图像CI的显示结束的情况例如是在显示回答图像CI之后经过了规定时间的情况或由乘客进行了使显示结束的操作的情况。

输出控制部160及控制部180也可以关于智能体图像搭话的声音以外的声音(例如，收音机声音、节目声音)与智能体图像配合地进行声像定位的调整。

[处理流程]

以下，使用流程图对由智能体装置100进行的一系列处理的流程进行说明。图10是表示由智能体装置100进行的一系列处理的流程的一例的流程图。在图10的处理中，主要是关于基于智能体图像、声像定位进行乘客的视线引导的情况的处理的流程进行说明。本流程图的处理例如可以以规定的周期反复执行。

首先，图像生成部162使智能体图像显示于显示部116A(步骤S100)。接着，输出控制部160判定是否针对来自乘客的请求(问题)显示从服务器装置200等获取的回答图像(步骤S102)。在判定为显示回答图像的情况下，控制部180获取由视线检测部156检测出的乘客的视线位置(步骤S104)，并基于获取到的视线位置判定乘客的视线位置是否位于回答图像的显示位置附近(步骤S106)。在判定为乘客的视线位置位于回答图像的显示位置附近的情况下，控制部180通过图像生成部162使智能体图像显示于回答图像的显示位置附近(步骤S108)。接着，控制部180通过声音生成部164使声像定位于智能体图像的显示位置附近(步骤S110)。

在步骤S106的处理中，在判定为乘客的视线位置不位于回答图像的显示位置附近的情况下，控制部180通过图像生成部162使智能体图像显示于乘客的视线位置(步骤S112)，并且使智能体图像朝向回答图像的显示位置移动(步骤S114)。控制部180通过声音生成部164使声像定位于智能体图像的显示位置附近(步骤S116)。由此，本流程图的处理结束。在步骤S102的处理中，在未显示回答图像的情况下，本流程图的处理结束。

根据以上说明的实施方式，能够使乘客容易地掌握显示图像的位置。具体而言，根据实施方式，在使针对乘客的询问的回答结果等显示于显示部的情况下，通过使智能体图像、智能体发出的声音的定位朝向显示回答结果的显示位置移动，能够使乘客直观地掌握回答结果的显示位置。因此，乘客能够在驾驶轻松的情况下等立即看见回答结果。回答结果与乘客驾驶时的车辆M的周边监视相比优先度低，因此，不通过声音进行“请看显示部”这样的强制性的指示，而间接地促进视线的引导，从而能够进行抑制了驾驶阻碍的信息提供。

以上，使用实施方式说明了本发明的具体实施方式，但本发明丝毫不被这样的实施方式限定，在不脱离本发明的主旨的范围内能够施加各种变形及替换。例如，上述的实施方式的服务器装置200的构成要素中的一部分或全部也可以设于智能体装置100内。请求保护的技术方案记载的智能体装置也包括仅为车载器的情况也包括包含了车载器与服务器装置的系统的情况。智能体装置100也可以与其他智能体装置协作地获取针对乘客的请求的回答，将获取的回答提供给乘客。

Claims

1.一种智能体装置，其特征在于，

所述智能体装置具备：

话筒，其收集车室内的声音；

扬声器，其向所述车室内输出声音；

识别部，其识别由所述话筒收集到的声音的意思；

显示部，其设于所述车室内；以及

智能体控制部，其使对乘客搭话的形态的智能体图像显示于所述显示部，并且使所述扬声器输出所述智能体图像搭话的声音，

所述智能体控制部在向所述乘客提供的提供图像显示于所述显示部的情况下，生成将所述乘客的视线向所述提供图像的显示位置引导的智能体图像，

所述智能体控制部使所述智能体图像的显示位置向给所述乘客提供的提供图像的显示位置移动，

所述智能体控制部以使所述智能体图像搭话的声音的输出对象与所述智能体图像的显示位置的移动相应地移动的方式对声像进行定位。

2.根据权利要求1所述的智能体装置，其中，

所述显示部具备多个显示部，

所述智能体控制部利用所述智能体图像将所述乘客的视线从所述多个显示部中的第一显示部朝向第二显示部引导。

3.根据权利要求2所述的智能体装置，其中，

所述第一显示部设置于比所述第二显示部接近所述乘客驾驶车辆时的视线方向的位置。

4.根据权利要求2或3所述的智能体装置，其中，

所述第二显示部的视角比所述第一显示部的视角大。

5.根据权利要求1～3中任一项所述的智能体装置，其中，

所述智能体装置还具备对所述乘客的视线进行检测的视线检测部，

所述智能体控制部在使所述智能体图像显示于由所述视线检测部检测出的所述乘客的视线位置之后，使所述智能体图像朝向给所述乘客提供的提供图像移动。

6.根据权利要求1～3中任一项所述的智能体装置，其中，

所述智能体控制部在所述提供图像不存在于由所述视线检测部检测出的所述乘客的视线位置的情况下，执行基于所述智能体图像对所述乘客的视线的引导。

7.一种智能体控制方法，其特征在于，

所述智能体控制方法使智能体装置的计算机进行如下处理：

收集车室内的声音；

识别收集到的所述声音的意思；

使对乘客搭话的形态的智能体图像显示于在所述车室内设置的显示部，并且使向所述车室内输出声音的扬声器输出所述智能体图像搭话的声音；

在向所述乘客提供的提供图像显示于所述显示部的情况下，生成将所述乘客的视线向所述提供图像的显示位置引导的智能体图像；

使所述智能体图像的显示位置向给所述乘客提供的提供图像的显示位置移动；以及

以使所述智能体图像搭话的声音的输出对象与所述智能体图像的显示位置的移动相应地移动的方式对声像进行定位。

8.一种存储介质，其特征在于，

所述存储介质存储有程序，所述程序使智能体装置的计算机进行如下处理：

收集车室内的声音；

识别收集到的所述声音的意思；