CN111016824B

CN111016824B - 交流支援系统、交流支援方法及存储介质

Info

Publication number: CN111016824B
Application number: CN201910956039.3A
Authority: CN
Inventors: 远藤航; 关口敦; 杉原大志
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-10-10
Filing date: 2019-10-08
Publication date: 2023-05-09
Anticipated expiration: 2039-10-08
Also published as: US20200114834A1; JP2020060696A; US11014508B2; CN111016824A

Abstract

提供一种能够有效地支援车室内的交流的交流支援系统、交流支援方法及存储介质。交流支援系统具备：话筒，其设置于车室内；声音输出部，其设置于所述车室内；识别部，其识别由所述话筒收集到的声音数据所包含的讲话内容；以及控制部，其基于由所述识别部识别的识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使所述声音输出部朝向所述其他乘客输出所生成的声音。

Description

交流支援系统、交流支援方法及存储介质

技术领域

本发明涉及交流支援系统、交流支援方法及存储介质。

背景技术

以往，已知有如下的装置：将讲话者的影像显示于与讲话者以外对应的监视器，并且，从与讲话者以外对应的扬声器输出讲话者的声音，由此，支援车室内的交流(例如，日本特开2018-076035号公报)。

然而，在以往的技术中，在讲话对象没有想要积极地进行交流的情况下，例如，在孩子在后部座位玩耍而驾驶员座的父母提醒他们那样的状况下，有时讲话的内容难以传递给对象。

发明内容

本发明的方案是考虑这样的情形而完成的，其目的之一在于提供一种能够有效地支援车室内的交流的交流支援系统、交流支援方法及存储介质。

用于解决课题的方案

本发明的交流支援系统、交流支援方法及存储介质采用了以下的结构。

(1)：本发明的一方案的交流支援系统，其具备：话筒，其设置于车室内；声音输出部，其设置于所述车室内；识别部，其识别由所述话筒收集到的声音数据所包含的讲话内容；以及控制部，其基于由所述识别部识别的识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使所述声音输出部朝向所述其他乘客输出所生成的声音。

(2)：在上述(1)的方案中，所述控制部生成对与发出了收集到的所述声音的乘客不同的人发声进行模拟得到的声音。

(3)：在上述(1)或(2)的方案中，所述控制部基于所述乘客的座位位置与所述其他乘客的座位位置的关系来决定所述车室内的规定的位置，以使声像定位于所述规定的位置的方式使所述声音输出部输出声音。

(4)：在上述(1)或(2)的方案中，所述声音输出部包括设置于所述车室内的不同位置的多个声音输出装置，所述控制部指示所述多个声音输出装置中的靠近所述其他乘客的声音输出装置输出声音。

(5)：在上述(1)或(2)的方案中，所述控制部指示具备指向性的所述声音输出部沿着从所述乘客朝向所述其他乘客的方向输出声音。

(6)：在上述(1)～(5)中的任一方案中，所述控制部基于由所述识别部识别的识别结果，参照与各乘客预先建立了对应关系的唤醒词，在所述讲话内容中包含所述唤醒词的情况下，使基于收集到的所述声音而生成的声音朝向与所述唤醒词建立了对应关系的乘客输出。

(7)：在上述(1)～(6)中的任一方案中，所述控制部基于由所述识别部识别的识别结果，判定所述其他乘客是否对发出了收集到的所述声音的乘客的讲话做出了应答，在所述其他乘客没有对发出了收集到的所述声音的乘客的讲话做出应答的情况下，使基于收集到的所述声音而生成的声音朝向所述其他乘客输出。

(8)：在上述(1)～(7)中的任一方案中，所述交流支援系统还具备：摄像部，其对所述车室内进行拍摄；以及图像解析部，其对由所述摄像部拍摄到的图像进行解析，所述控制部基于由所述图像解析部解析的图像解析结果，判定所述其他乘客是否正在睡觉，在所述其他乘客没有正在睡觉的情况下，使基于收集到的所述声音而生成的声音朝向所述其他乘客输出。

(9)：在上述(1)～(8)中的任一方案中，所述控制部基于由所述识别部识别的识别结果来推定讲话者的感情，生成与推定出的所述感情相应的所述传递消息。

(10)：在上述(9)的方案中，所述控制部在推定出的所述感情的等级为规定值以上的情况下，生成变更为如下表达的所述传递消息，其中，所述表达是与所述讲话内容相比抑制了感情的表达。

(11)：本发明的一方案的交流支援系统，其中，所述交流支援系统具备：话筒，其设置于车室内；识别部，其识别由所述话筒收集到的声音数据所包含的讲话内容；以及控制部，其基于由所述识别部识别的识别结果，参照与所述车室内的各乘客预先建立了对应关系的唤醒词，在所述讲话内容中包含所述唤醒词的情况下开始交流支援。

(12)：本发明的一方案的交流支援方法，使计算机进行如下处理：识别由设置于车室内的话筒收集到的声音数据所包含的讲话内容；以及基于识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使设置于所述车室内的声音输出部朝向所述其他乘客输出所生成的声音。

(13)：本发明的一方案的存储介质，存储有程序，所述程序使计算机进行如下处理：识别由设置于车室内的话筒收集到的声音数据所包含的讲话内容；以及基于识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使设置于所述车室内的声音输出部朝向所述其他乘客输出所生成的声音。

根据上述(1)～(13)的方案，能够有效地支援车室内的交流。

附图说明

图1是实施方式的包括智能体装置的交流支援系统的结构图。

图2是示意性地示出设置于车辆的话筒、显示部及扬声器的图。

图3是用于说明后部座位附近的扬声器的位置的图。

图4是用于说明使声像定位的位置移动的情形的图。

图5是示出个人资料的内容的一例的图。

图6是示出座位信息的内容的一例的图。

图7是示出基于交流支援系统进行的设定处理的流程的一例的流程图。

图8是示出基于交流支援系统进行的居间处理(其一)的流程的一例的流程图。

图9是用于对执行了处理的其一的一例进行说明的参考图。

图10是示出基于交流支援系统进行的居间处理(其二)的流程的一例的流程图。

图11是用于对执行了处理的其二的一例进行说明的参考图。

具体实施方式

以下，参照附图，对本发明的交流支援系统、交流支援方法及存储介质的实施方式进行说明。以下，作为交流支援系统的一例，使用搭载于车辆并具备智能体功能的智能体装置。智能体装置是交流支援系统的一例。智能体装置例如进行用于支援车辆的乘客彼此的对话的传递的各种信息处理、车室内的设备的控制。用于支援车辆的乘客彼此的对话的传递的各种处理、控制例如是进行用于将讲话者的讲话内容向讲话对象有效地传递的支援，例如在满足了规定条件的情况下执行。

智能体装置也可以为了使乘客视认假想的对话者而使拟人化的动物、形象等图像(以下，称作智能体图像)显示于显示部。智能体图像例如至少包括由观看者识别表情、面部朝向的程度的面部图像。例如，智能体图像在面部区域中呈现模仿眼睛、鼻子的部件，使得面部朝向基于面部区域中的部件的位置而被识别。另外，智能体图像也可以通过包含由观看者立体地感受的三维空间中的头部图像而使得面部朝向被识别。

交流支援系统例如通过除了识别乘客的声音的声音识别处理(将声音文本化的处理)之外，还综合地利用自然语言功能(理解文本的构造、意思的处理)、对话控制处理、检索处理等来实现。这些处理的一部分或全部由AI(Artificial Intelligence)技术来实现。进行这些处理的结构的一部分或全部可以设置于能够与车辆通信的服务器装置等，也可以设置于车辆侧。

在以下的说明中，以右舵的车辆为例进行说明，但在应用左舵的车辆的情况下，将左右颠倒即可。在以下的说明中，对车室内的座位的构成为前列和后列这两列的例子进行说明，但是，也可以是三列以上的车辆。在该情况下，也存在成为第二列是前列，第三列是后列这一关系的情况，也存在成为第一列是前列，第三列是后列这一关系的情况。以下，将就座于驾驶员座或者副驾驶员座(驾驶员座旁边的座位)的乘客记作前乘客，将就座于比前乘客靠后的席位的乘客记作后乘客。

[整体结构]

图1是实施方式的包括智能体装置的交流支援系统1的结构图。交流支援系统1具备智能体装置(交流支援系统)100和服务器装置200。智能体装置100与服务器装置200例如由互联网、WAN(Wide Area Network)、LAN(Local Area Network)等网络NW以能够进行数据的收发的状态连接。服务器装置200能够进行与多个智能体装置100的通信，但是，以下为了便于说明，设为与1个智能体装置100通信。

智能体装置100例如具备通信装置110、车室内相机112、话筒114、显示部116、扬声器118、操作部120、智能体控制装置150。这些装置、没备通过CAN(Controller AreaNetwork)通信线等多路通信线、串行通信线、无线通信网等而互相连接。图1所示的结构终归只是一例，既可以省略结构的一部分，也可以还追加别的结构。

通信装置110例如利用蜂窝网、Wi-Fi网、Bluetooth(注册商标，以下省略)、DSRC(Dedicated Short Range Communication)等，经由网络NW而与其他车辆、服务器装置200通信。

车室内相机112例如拍摄包括就座于在车辆M的车室内设置的座椅的各乘客的面部的图像。车室内相机112例如是利用了CCD(Charge Coupled Device)、CMOS(Complementary Metal Oxide Semiconductor)等固体摄像元件的数码相机。车室内相机112例如在规定的时机对各乘客进行拍摄。车室内相机112的拍摄图像被向智能体控制装置150输出。

话筒114是收集车室内的声音的声音输入装置。例如，话筒114设置于乘客就座于车室内的座椅时的前方附近。例如，话筒114设置于地图灯、转向盘、仪表板或座椅的附近。话筒114可以在车室内设定多个。

显示部116例如设置于就座于车室内的座椅的乘客的前方附近。扬声器118例如设置于车室内的座椅附近或显示部116附近。显示部116及扬声器118可以在车室内设置多个。

图2是示意性地示出设置于车辆的话筒、显示部及扬声器的图。在图2的车室内设置有话筒114A～114B、显示部116A～116D、扬声器118A～118F。话筒114A是主要收集驾驶员的讲话的话筒，例如设置于转向盘。话筒114B是主要收集副驾驶员座乘客的讲话的话筒，设置于仪表板IP中的副驾驶员座的正面附近。

显示部116A例如设置于驾驶员视认车外时的视线的前方。显示部116A例如是HUD(Head-Up Display)装置。HUD装置是使图像重叠于风景而被视认的装置，作为一例，是通过向车辆的前风窗玻璃、组合器投射包含图像的光而使乘客视认虚像的装置。乘客主要是驾驶员，但是，也可以是驾驶员以外的乘客。

显示部116B设置于仪表板IP中的驾驶员座(例如离转向盘最近的座位)的正面附近，设置于乘客能够从转向盘的间隙或越过转向盘视认的位置。显示部116B例如是LCD(Liquid Crystal Display)、有机EL(Electro Luminescence)显示装置等。在显示部116B例如显示车辆M的速度、发动机转速、燃料剩余量、散热器水温、行驶距离、其他信息的图像。

显示部116C设置于仪表板IP的中央附近。显示部116C例如与显示部116B同样，是LCD、有机EL显示装置等。显示部116C也可以显示电视节目、或者播放DVD、或者显示下载的电影等的条目。

显示部116D设置于仪表板IP中的副驾驶员座的正面附近。在显示部116D显示电视节目、或者播放DVD、或者显示下载的电影等的条目。也可以在车室内设置有通过车外相机取得乘客通过车辆M的侧部后视镜能够视认的信息并显示所取得的信息的显示部。

扬声器118A及扬声器118B例如设置于车辆M的左右的前方的窗柱(所谓的A柱)。扬声器118C设置于驾驶员座侧的车门的下部，扬声器118D设置于副驾驶员座侧的车门的下部。扬声器118E设置于显示部116C附近即仪表板IP的中央附近。扬声器118F设置于车室内的天棚的中央部附近。

也可以在车辆中在后部座位附近设置有话筒和扬声器。图3是用于说明后部座位附近的扬声器的位置的图。在图3的例子中，除了图2所示的话筒、扬声器之外，还在设置于驾驶员座ST1的后方的后部座位ST3附近设置有话筒114C和扬声器118G。在设置于副驾驶员座ST2的后方的后部座位ST4附近设置有话筒114D和扬声器118H。例如，话筒114C及114D和扬声器118G及118H设置于左右的方向车门的下部。扬声器118既可以设置于在车辆M的前方车门与后方车门之间设置的窗柱(所谓的B柱)，也可以设置于后部座位的方向。ST1～ST4例如是识别各座位的识别信息即座位ID。

操作部120接受来自乘客的手动的操作。操作部120例如具备开关、按钮、按键等。操作部120例如设置于转向盘、仪表板。操作部120也可以作为触摸面板而与显示部116一体构成。

[智能体控制装置]

智能体控制装置150基于在车室内收集到的声音，生成传递消息的声音，使其向车室内输出。不限定于此，智能体控制装置150可以将在车室内收集到的声音向服务器装置200发送，使由服务器装置200生成的传递消息向车室内输出。传递消息是从作为讲话者的乘客向作为讲话对象的其他乘客传递的消息。传递消息例如包括将与讲话者不同的第三者(智能体)设为讲话者的讲话内容。传递消息既可以是与作为讲话者的乘客的讲话内容相同的消息，也可以是基于讲话内容而生成的消息。

智能体控制装置150例如具备声音输入部152、图像解析部156、声音解析部158、提示控制部160、图像生成部162、声音生成部164、存储部170、控制部180。这些构成要素例如通过由CPU(Central Processing Unit)等计算机处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以由LSI(Large Scale Integration)、ASIC(ApplicationSpecific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(GraphicsProcessing Unit)等硬件(电路部：包括circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于存储部170，也可以保存于DVD、CD-ROM等可装卸的存储介质并通过将存储介质装配于驱动装置而安装于存储部170。

声音输入部152接受基于话筒114的声音的输入。声音输入部152也可以将接受到的声音(声音流，下同)经由通信装置110向服务器装置200发送。声音输入部152也可以将接受到的声音作为集音数据178的一部分而保存于存储部170。

图像解析部156进行对由车室内相机112拍摄到的图像的解析处理，提取人物形状、面部形状等特征信息。图像解析部156例如针对每个座位提取特征信息，预先将座位ID与提取结果建立对应关系。图像解析部156也可以通过提取特征信息，来取得与就座于车室内的座椅的乘客的位置、乘客的行为、视线相关的信息。乘客的行为例如包括乘客的面部的朝向、身体的姿态。

声音解析部158进行对由话筒114收集到的声音的解析处理，取得表示声音的性质的信息。表示声音的性质的信息包括表示声音的音调(表示音阶的高低的指标)、声音的大小等的信息、表示频率变化的信息等。

提示控制部160按照控制部180的指示，使由图像生成部162生成的图像显示于显示部116。提示控制部160按照控制部180的指示，使扬声器118输出由声音生成部164生成的声音。

图像生成部162例如生成智能体图像、虚拟形象图像，并向显示部116输出。虚拟形象图像是模仿各用户的面部而表达的智能体图像那样的图像，针对每个用户而预先设定，保存于存储部170。图像生成部162也可以基于讲话者的状态、传递消息的内容，生成使智能体、虚拟形象的表情变化的图像。例如，在讲话者正生气的情况下，图像生成部162可以生成正生气的表情的虚拟形象图像，也可以生成为难的表情的智能体图像。

声音生成部164基于由控制部180决定出的定位位置(后述)，使用一个以上的扬声器118，生成用于使声像定位于定位位置的声音。所谓声像定位，例如是通过调节从扬声器118输出并向乘客的左右耳传递的声音的大小，确定乘客感到的声源的空间上的位置。声像例如基于声源原本持有的声特性、车室内环境的信息、头部传递函数(HRTF；Head-relatedtransfer function)而确定。声音生成部164利用这样的原理，能够使声像定位于规定的位置。

图4是用于说明使声像定位的位置移动的情形的图。在图4中，为了简化说明，例示了使用上述的扬声器118C～118E使声像定位。在图4的例子中，在声音生成部164与扬声器118C～118E之间具备AMP164A和混声器164B。AMP164A调整通过由声音生成部164进行的控制而从扬声器118C～118E分别输出的声音的大小。例如，AMP164A能够在相对于成为基准的声音的大小(最大强度)而言0～100％之间调节声音。混声器164B具备将被输入的多个声音合成的功能。混声器164B具备分配向扬声器118C～118E分别输出的声音的功能。

例如，在使声像定位于图4所示的空间位置MP1的情况下，在AMP164A基于由声音生成部164生成的声音而针对规定的输出对象的声音从扬声器118C进行最大强度的5％的输出、从扬声器118D进行最大强度的80％的输出、且从扬声器118E进行最大强度的15％的输出的情况下，从乘客P1的位置感到声像定位于图4所示的空间位置MP1。

在AMP164A针对输出对象的声音从扬声器118C进行最大强度的45％的输出、从扬声器118D进行最大强度的45％的输出、且从扬声器118E进行最大强度的10％的输出的情况下，从乘客P1的位置能够感到声像定位于图4所示的空间位置MP2。这样，通过调整从立体地设置于车室内的多个扬声器中的被选择的一个以上的扬声器分别输出的声音的大小，能够使声像定位的位置变化。

存储部170例如通过HDD、闪存器、EEPROM(Electrically Erasable ProgrammableRead Only Memory)、ROM(Read Only Memory)或RAM(Random Access Memory)等来实现。存储部170例如保存智能体应用(程序)172、个人资料174、座位信息176、集音数据178等。智能体应用172例如既可以经由网络NW而从其他装置下载，也可以预先预安装于智能体装置100。

控制部180针对智能体控制装置150的各功能部而控制执行及停止。控制部180例如通过API(Application Programming Interface)接受来自各功能部的要求，选择执行基于接受到的要求进行的处理的功能部，经由API使所选择的功能部执行处理。

控制部180例如包括登记部181、乘客确定部182、设定部183、乘客状态推定部184、讲话者确定部185、讲话对象确定部186、就座位置确定部187、判定部188、消息生成部189。这些结构例如通过由CPU(Central Processing Unit)等处理器执行存储于存储部170的智能体应用172来实现。

登记部181将使用操作部120而输入的个人信息与作为识别各用户的识别信息的用户ID建立对应关系，保存于存储部170的个人资料174。个人信息例如包括与各用户的称呼、属性(性别，年龄)、座位相关的信息等。登记部181将表示基于由车室内相机112拍摄到的图像而由图像解析部156提取出的面部的特征量的信息与用户ID建立对应关系，保存于存储部170的个人资料174。

图5是示出个人资料174的内容的一例的图。个人资料174例如针对用户ID，包括称呼、属性、设定座位、面部信息等。用户ID是用于识别各用户的识别信息。称呼包括名字的一部分、家庭内的称呼、昵称等。设定座位既可以是作为各用户经常就座的座位而预先设定的座位，也可以是作为根据时间段、星期几经常就座的座位而设定的座位。设定座位既可以由用户使用操作部120来设定，也可以通过基于过去的履历信息由登记部181导出经常就座的座位来设定。面部信息包括表示各用户的面部的特征量的信息等。

乘客确定部182使用面部认证技术，来确定就座于车室内的座椅的乘客。例如，乘客确定部182将基于图像解析部156的解析结果与个人资料174的面部信息进行对照，在个人资料174中登记有与解析结果相符的面部信息的情况下，确定就座于车室内的座椅的乘客的用户ID。乘客就座着的座位与由图像解析部156拍摄到的图像建立了对应关系，针对由乘客确定部182确定出的乘客的用户ID，赋予表示各乘客是正就座于哪个座位的乘客的座位ID。

设定部183设定由乘客确定部182确定出的乘客的座位位置、唤醒词。例如，设定部183将由乘客确定部182确定出的乘客的用户ID与该乘客就座的座位ID建立对应关系，作为座位信息176的一部分而保存于存储部170。图6是示出座位信息176的内容的一例的图。座位信息176是将用户ID和唤醒词与座位ID建立了对应关系的信息。唤醒词是使用了智能体功能的各处理的执行触发器，例如包括各用户的称呼。唤醒词不限定于在座位信息176中保存的每个用户的信息，也可以是在多个用户之间共通的词语。例如，唤醒词例如可以包括“喂”、“向后说”、“听着”等。也可以将“喂”设定成呼叫同一列的用户的唤醒词，将“喂，喂”设定成呼叫不同列的用户的唤醒词。

设定部183也可以基于来自操作部120的输入，将用户ID与座位ID建立对应关系，作为座位信息176的一部分而保存于存储部170。

设定部183可以在每个规定的时机，更新由乘客确定部182确定出的乘客的座位位置。通过这样做，即便在乘车期间用户换了座位，也能够配合当前的状况而变更座位信息176。

乘客状态推定部184基于由图像解析部156解析的解析结果、由声音解析部158解析的解析结果，来推定乘客的状态。乘客的状态包括感情、清醒状态(是在睡觉还是醒着)等。例如，在声音的音调低的情况、包括斥责声的情况下，乘客状态推定部184推定为感情中含有愤怒。在眼睛闭合的状态持续了规定时间以上的情况下，乘客状态推定部184判断为乘客正在睡觉。

讲话者确定部185基于由图像解析部156解析的解析结果、由声音解析部158解析的解析结果，来确定讲话者。例如，讲话者确定部185将嘴正在动的乘客正就座的座位、正发出声音的方向的座位判断为讲话者的座位ID。讲话者确定部185参照座位信息176，取得与讲话者的座位ID建立了对应关系的用户ID，确定为所取得的用户ID的用户是讲话者。

讲话对象确定部186基于由服务器装置200识别到的讲话内容，来确定讲话对象。例如，在讲话内容包含唤醒词的情况下，将在座位信息176中与唤醒词建立了对应关系的乘客确定为讲话对象。在与唤醒词建立了对应关系的乘客存在多个的情况下，讲话对象确定部186将多个乘客确定为讲话对象。

即便在讲话内容中没有表示讲话对象的言语(例如唤醒词、其他称呼)的情况下，讲话对象确定部186也可以根据讲话内容来推定讲话对象，从而确定讲话对象。例如，在讲话内容是面向孩子们的情况下，讲话对象确定部186将乘客中所包含的孩子确定为讲话对象。讲话对象确定部186也可以在基于由服务器装置200识别到的识别结果、由声音解析部158解析的解析结果而成功取得了讲话对象的说话方式的特征的情况下，基于说话方式的特征来确定讲话对象。例如，讲话对象确定部186可以在声音的音调高的情况下确定为正在以孩子为对象而说话，在声音的音调低的情况下确定为正在以大人为对象而说话。

就座位置确定部187参照座位信息176，来确定乘客正就座的位置(座位ID)。例如，就座位置确定部187从座位信息176中读出与由讲话者确定部185确定出的讲话者即用户的用户ID建立了对应关系的座位ID，来确定讲话者的座位。就座位置确定部187在由讲话对象确定部186确定出讲话对象的情况下，同样地确定讲话对象的座位。

判定部188判定是否居间进行传递消息的传递。例如，判定是否讲了唤醒词(以下，记作第一条件)。例如，判定部188参照座位信息176，基于从服务器装置200接收到的讲话内容的识别结果，判定讲话内容中是否包含唤醒词，在讲话内容中包含唤醒词的情况下，判定为满足第一条件。在满足第一条件的情况下，判定部188可以判定为居间进行传递消息的传递。所谓居间进行传递消息的传递，是将生成了讲话内容的声音向其他乘客传递。在满足第一条件的情况下，控制部180可以将与唤醒词对应的乘客决定为讲话对象。

判定部188基于由就座位置确定部187确定出的座位，来判定讲话对象的座位是否比讲话者的座位靠后(以下，记作第二条件)。在满足第二条件的情况下，判定部188可以判定为居间进行传递消息的传递。

判定部188判定讲话对象是否针对讲话者的讲话没有做出应答(以下，记作第三条件)。例如，在从讲话者的讲话起规定时间以内讲话对象没有讲话的情况、该讲话对象的讲话内容不是对来自讲话者的讲话做出应答的内容的情况下，判定部188判定为满足第三条件。在满足第三条件的情况下，判定部188可以判定为居间进行传递消息的传递。

判定部188基于由乘客状态推定部184推定的推定结果，来判定讲话对象是否处于没有在睡觉的状态(以下，记作第四条件)。在满足第四条件的情况下，判定部188可以判定为居间进行传递消息的传递。

判定部188既可以在满足第一条件～第四条件中的至少一个的情况下判定为居间进行传递消息的传递，也可以在全部满足的情况下判定为居间进行传递消息的传递。

判定部188可以决定对传递消息进行传递的主体(传递者)。例如，在由乘客状态推定部184推定出的感情的等级为规定值以上的情况下(例如，讲话者勃然大怒的情况下)，判定部188将智能体图像决定为传递者而非虚拟形象图像。

消息生成部189基于由自然语言处理部240理解到的讲话内容等，生成传递消息。消息生成部189也可以在由讲话者确定部185成功确定出讲话者的情况下，从个人资料174中取得表示讲话者的称呼，生成包含所取得的讲话者的称呼的传递消息。消息生成部189也可以在由乘客状态推定部184推定出讲话者的感情的情况下，生成与讲话者的感情相应的传递消息。例如，在由乘客状态推定部184推定出的感情的等级为规定值以上的情况下(例如，讲话者勃然大怒的情况下)，生成变更为如下表达的传递消息，所述表达是抑制了感情的表达。消息生成部189将生成的传递消息向提示控制部160输出。通过这样做，讲话对象容易听取传递消息。

控制部180指示提示控制部160进行以下这样的处理。例如，控制部180控制显示部116及扬声器118，以朝向讲话对象输出传递消息。例如，控制部180基于讲话者的座位与讲话对象的座位的位置关系，来决定输出传递消息的方向(以下，记作输出方向)。例如，在讲话者是驾驶员座ST1而讲话对象是后部座位ST4的情况下，控制部180将从驾驶员座ST1朝向后部座位ST4的方向决定为输出方向。

控制部180也可以根据传递者而决定输出方向。例如，即便讲话者位于驾驶员座ST1，在传递者是智能体图像的情况下，控制部180也可以将从后部座位ST4中与驾驶员座ST1相反的一侧(车辆的左侧)朝向后部座位ST4的方向决定为输出方向。通过这样做，后部座位ST4的乘客从没有乘客的方向听到声音，所以，能够直观地识别到乘客以外的第三者是讲话者。

控制部180基于所决定的输出方向，来决定想要使声像定位的位置(定位位置)，并指示声音生成部164。定位位置例如既可以在车室内决定在表示输出方向的假想线上，也可以决定在该假想线的附近。另外，定位位置也可以决定在该假想线上的与讲话者相比靠近讲话对象的位置。

例如，控制部180指示从多个扬声器118A～118H中的离定位位置最近的扬声器输出声音。例如，在输出方向是从驾驶员座ST1朝向后部座位ST4的方向的情况下，控制部180将与驾驶员座ST1相比靠近后部座位ST4的位置决定为定位位置。并且，控制部180指示从离定位位置最近的扬声器118F输出声音。通过这样做，后部座位ST4的乘客从驾驶员座ST1那一方听到声音，所以，能够直观地识别到驾驶员座ST1的乘客是讲话者。

在多个扬声器118A～118H具备指向性的情况下，控制部180也可以指示从具备与所决定的输出方向相符的指向性的扬声器输出声音。通过这样做，能够起到与上述同样的效果。

控制部180也可以基于表示讲话者与讲话对象的位置关系的信息(例如，所决定的输出方向)，来决定使图像显示的位置(显示位置)，并指示图像生成部162。例如，控制部180将从讲话对象看到的讲话者的方向决定为智能体图像的显示位置。显示位置既可以表示设置于车室内的多个显示部116(也包括后部座位用的显示器等)中的一部分，也可以连显示部116中的画面内的位置也包括在内。如上所述，显示部116也可以具备后部座位用的显示器等各座位用的显示器。通过这样做，控制部180能够将智能体图像显示于各座位用的显示器。

控制部180也可以基于讲话内容，来决定对乘客提示的内容。例如，在将智能体作为讲话者而使传递消息输出的情况下，控制部180控制声音生成部164以生成对传递消息进行传递的智能体声音并使扬声器118输出，并且使智能体图像显示于显示部116。所谓智能体声音，是模仿与讲话者不同的人发声而得到的声音。

在传递消息中直接包含讲话者的讲话内容的情况下，控制部180也可以取代智能体图像而使讲话者的虚拟形象图像显示于显示部116。在传递消息中直接包含讲话者的讲话内容的情况下，控制部180也可以决定生成局部包含在集音数据178中保存的声音的智能体声音，使讲话者的虚拟形象的图像(以下，记作虚拟形象图像)显示于显示部116。例如，在传递消息是“○○人说了‘…’。”的情况下，将“…”的部分设为在集音数据178中保存的○○的声音，将其他部分设为智能体声音。所谓智能体声音，是模仿与讲话者不同的第三者(智能体)发声而得到的声音。

[服务器装置]

服务器装置200例如具备通信部210、声音区间检测部220、声音识别部230、自然语言处理部240及存储部280。这些构成要素例如通过由CPU等计算机处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以由LSI、ASIC、FPGA、GPU等硬件(包括电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于存储部280，也可以保存于DVD、CD-ROM等可装卸的存储介质并通过将存储介质装配于驱动装置而安装于存储部280。

通信部210例如利用蜂窝网、Wi-Fi网、Bluetooth、DSRC等，经由网络NW而与智能体装置100通信。通信部210接收从智能体装置100发送的声音流。

声音区间检测部220根据从智能体装置100发送的声音流检测声音区间。例如，声音区间检测部220例如基于声音流中的声音波形的振幅和零交叉来检测声音区间。声音区间检测部220可以通过基于混合高斯分布模型(GMM；Gaussian mixture model)的帧单位的声音·非声音识别来进行区间检测，还可以通过与预先存储于存储部260等的用于检测声音区间的数据库的匹配处理来进行区间检测。

声音识别部230针对由声音区间检测部220检测的每个声音区间而识别声音，将声音文本化为文字信息。

自然语言处理部240理解由声音识别部230文本化后的文字信息的构造、讲话内容的意思。自然语言处理包括词素解析、句法解析、意思解析、上下文解析等。词素解析例如将文字信息分割为具有意思的最小的表达要素的单位，解析每个分割出来的单位(词素)的词类等。句法解析例如基于通过词素解析而得到的词素，解析句子的构造。意思解析例如基于通过句法解析而得到的句法，判别具有意思的总结。上下文解析例如以句子单位、上下文单位来解释意思。自然语言处理部240例如也可以使用利用了概率的机器学习处理等人工智能处理来解释文字信息的意思。自然语言处理部240将讲话内容的文本数据和表示理解到的讲话内容的意思的信息从通信部210向智能体装置100发送。

存储部280例如由HDD、闪存器、EEPROM、ROM或RAM等来实现。存储部280例如保存个人资料284、其他信息等。个人资料284例如是将声音的特征信息、性别、年龄、喜欢的流派、过去的服务器装置200的使用履历等与个人的识别信息建立了对应关系的信息。

[处理流程]

以下，使用流程图来说明由交流支援系统1进行的一系列处理的流程。

首先，对处理的其一进行说明。处理的其一是直接传递收集到的讲话内容的方法。

图7是示出由交流支援系统1进行的设定处理的流程的一例的流程图。首先，图像解析部156进行对由车室内相机112拍摄到的图像的解析处理，提取人物形状、面部形状等特征信息(步骤S101)。乘客确定部182将由图像解析部156提取出的特征信息与个人资料174的面部信息对照，在个人资料174中登记有与提取出的特征信息相符的面部信息的情况下，确定就座于车室内的座椅的乘客的用户ID(步骤S103)。

设定部183将由乘客确定部182确定出的乘客的用户ID与该乘客正就座的座位ID建立对应关系，作为座位信息176的一部分而保存于存储部170，由此，设定用户ID与座位ID的对应关系(步骤S105)。接下来，设定部183将唤醒词与用户ID建立对应关系，作为座位信息176的一部分而保存于存储部170，由此，设定唤醒词(步骤S107)。例如，在个人资料174中，对于设定有称呼的用户ID，将称呼设定为唤醒词。

图8是示出由交流支援系统1进行的居间处理(其一)的流程的一例的流程图。首先，智能体装置100监视讲话状况(步骤S301)。例如，声音输入部152接受通过话筒114进行的声音的输入，向服务器装置200发送。声音区间检测部220根据接收到的声音检测声音区间。声音识别部230针对每个声音区间而识别声音，将声音作为文字信息而文本化，生成讲话内容的文本数据。自然语言处理部240基于所生成的文本数据，理解讲话内容，使用通信部210将识别结果向智能体装置100发送。

判定部188基于讲话内容的文本数据，判定是否讲了唤醒词(步骤S303)。即，判定部188判定是否满足第一条件。在讲了唤醒词的情况下(即，满足第一条件的情况下)，讲话对象确定部186将被分配了唤醒词的乘客决定为讲话对象(步骤S305)。接下来，讲话者确定部185基于由图像解析部156解析的解析结果、由声音解析部158解析的解析结果，来确定讲话者(步骤S307)。就座位置确定部187参照座位信息176，确定讲话者的座位ID和讲话对象的座位ID(步骤S309)。

接下来，控制部180基于讲话者的座位ID和讲话对象的座位ID，来决定输出传递消息的输出方向(步骤S311)。控制部180基于输出方向，来决定想要使声像定位的定位位置(步骤S313)。然后，控制部180基于在步骤S301中识别到的讲话内容，生成声音(步骤S315)。声音生成部164生成在步骤S315中生成的、用于使声像定位于在步骤S313中决定出的定位位置的声音(步骤S317)。图像生成部162基于在步骤S301中识别到的讲话内容，生成虚拟形象图像(或者智能体图像)，提示控制部160使所生成的图像显示于显示部116(步骤S319)。

图9是用于对执行了处理的其一的一例进行说明的参考图。例如，如图9(a)所示，假设后部座位ST4的太郎君在吵闹。于是，如图9(b)所示，假设驾驶员座ST1的父亲讲了“太郎，安静点。”。在“太郎”被设置成唤醒词的情况下，智能体装置100如图9(c)所示，使得从设置于车室内的天棚的中央部附近的扬声器118F输出“太郎，安静点。”这一生成的声音。由此，太郎君即便是在难以听见父亲的讲话的情况下，也能够通过来自扬声器118F的声音而听见父亲的讲话内容。并且，如图9(d)所示，太郎君可以回答“是”。

这样，通过讲话者在讲话中包含唤醒词，来使智能体功能起动，能够将讲话内容向讲话对象有效地传递。

接着，对处理的其二进行说明。处理的其二是基于收集到的讲话内容、讲话者的状态而生成传递消息并向讲话者传递的方法。对于与处理的其一相同的处理，省略说明。以下，主要对与处理的其一不同的处理进行说明。

图10是示出基于交流支援系统1的居间处理(其二)的流程的一例的流程图。在步骤S303中判定为讲了唤醒词的情况下，乘客状态推定部184根据基于图像解析部156的解析结果、基于声音解析部158的解析结果，来推定乘客的状态(步骤S304)。然后，消息生成部189基于在步骤S304中推定出的乘客的状态、从服务器装置200接收到的信息等，生成传递消息(步骤S308)。控制部180基于在步骤S308中生成的传递消息，生成声音(步骤S316)。图像生成部162基于在步骤S308中生成的传递消息而生成智能体图像，提示控制部160使所生成的图像显示于显示部116(步骤S320)。

图11是用于对执行了处理的其二的一例进行说明的参考图。例如，如图11(a)所示，假设后部座位ST4的太郎君在吵闹。于是，如图11(b)所示，假设驾驶员座ST1的父亲生气而讲了“太郎，给我安静点。”。在“太郎”被设置成唤醒词的情况下，智能体装置100如图11(c)所示，使得从设置于车室内的后部座位ST4附近的扬声器118H输出“太郎君，安静点吧。父亲生气了哦。”这一生成的声音。由此，太郎君即便是在难以听见父亲的讲话的情况下，也能够通过来自扬声器118H的声音而听见父亲的讲话内容。虽然是看不到父亲的表情的位置关系，但是，能够知道父亲生气了。然后，如图11(d)所示，太郎君可以回答“是-，对不起。”。

这样，通过将讲话者的状况向讲话对象传递，能够有效地传递讲话内容。

判定部188也可以在规定的时机(例如，比在步骤S311中决定输出方向的处理靠前)判定是否满足第二条件～第四条件。在满足第二条件～第四条件的情况下，执行向步骤S311转移的处理。

根据以上说明的实施方式，具备：话筒，其设置于车室内；声音输出部，其设置于所述车室内；识别部，其识别由所述话筒收集到的声音数据所包含的讲话内容；以及控制部，其基于由所述识别部识别的识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使所述声音输出部朝向所述其他乘客输出所生成的声音，由此，能够有效地支援车室内的交流。

例如，通过利用智能体功能，使用所生成的声音、智能体图像(或者虚拟形象图像)将讲话内容向讲话对象传递，能够引起讲话对象的注意，有效地进行传递。由此，不用驾驶员座的乘客大声向后部座位搭话，就能够实现交流。驾驶员座的乘客也不用再多次向后部座位搭话，能够专心驾驶。

通过在包含唤醒词的情况下起动智能体功能，能够限制传递内容。由此，能够避免将驾驶员座的乘客与副驾驶员座的乘客之间的会话向后部座位传递。

在讲话对象对讲话内容做出了应答的情况、讲话对象正在睡觉的情况下，避免传递讲话内容，由此，能够在将车室内的环境保持得舒适的同时，仅在必要时利用智能体功能传递讲话内容。

以上使用实施方式说明了本发明的具体实施方式，但本发明丝毫不被这样的实施方式限定，在不脱离本发明的主旨的范围内能够施加各种变形及替换。

例如，说明了在满足第一条件的情况下进行传递消息的传递，但不限定于此。例如，即便是不包含唤醒词的情况下，也可以在满足第二条件的情况下，朝向讲话对象进行传递消息的传递。通过这样做，驾驶员座的乘客与副驾驶员座的乘客之间的会话不被向后部座位传递，但是，驾驶员座或副驾驶员座的乘客的讲话能够向后部座位传递。

Claims

1.一种交流支援系统，其中，

所述交流支援系统具备：

话筒，其设置于车室内；

声音输出部，其设置于所述车室内；

识别部，其识别由所述话筒收集到的声音数据所包含的讲话内容；以及

控制部，其基于由所述识别部识别的识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使所述声音输出部朝向所述其他乘客输出所生成的声音，

所述控制部基于由所述识别部识别的识别结果，判定所述其他乘客是否对发出了收集到的所述声音的乘客的讲话做出了应答，在所述其他乘客没有对发出了收集到的所述声音的乘客的讲话做出应答的情况下，使基于收集到的所述声音而生成的声音朝向所述其他乘客输出。

2.根据权利要求1所述的交流支援系统，其中，

所述控制部生成对与发出了收集到的所述声音的乘客不同的人发声进行模拟得到的声音。

3.根据权利要求1或2所述的交流支援系统，其中，

所述控制部基于所述乘客的座位位置与所述其他乘客的座位位置的关系来决定所述车室内的规定的位置，以使声像定位于所述规定的位置的方式使所述声音输出部输出声音。

4.根据权利要求1或2所述的交流支援系统，其中，

所述声音输出部包括设置于所述车室内的不同位置的多个声音输出装置，

所述控制部指示所述多个声音输出装置中的靠近所述其他乘客的声音输出装置输出声音。

5.根据权利要求1或2所述的交流支援系统，其中，

所述控制部指示具备指向性的所述声音输出部沿着从所述乘客朝向所述其他乘客的方向输出声音。

6.根据权利要求1或2所述的交流支援系统，其中，

所述控制部基于由所述识别部识别的识别结果，参照与各所述乘客预先建立了对应关系的唤醒词，在所述讲话内容中包含所述唤醒词的情况下，使基于收集到的所述声音而生成的声音朝向与所述唤醒词建立了对应关系的乘客输出。

7.一种交流支援系统，其中，

所述交流支援系统具备：

话筒，其设置于车室内；

声音输出部，其设置于所述车室内；

识别部，其识别由所述话筒收集到的声音数据所包含的讲话内容；

控制部，其基于由所述识别部识别的识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使所述声音输出部朝向所述其他乘客输出所生成的声音；

摄像部，其对所述车室内进行拍摄；以及

图像解析部，其对由所述摄像部拍摄到的图像进行解析，

所述控制部基于由所述图像解析部解析的图像解析结果，判定所述其他乘客是否正在睡觉，在所述其他乘客没有正在睡觉的情况下，使基于收集到的所述声音而生成的声音朝向所述其他乘客输出。

8.一种交流支援系统，其中，

所述交流支援系统具备：

话筒，其设置于车室内；

声音输出部，其设置于所述车室内；

所述控制部基于由所述识别部识别的识别结果来推定讲话者的感情，生成与推定出的所述感情相应的所述传递消息。

9.根据权利要求8所述的交流支援系统，其中，

所述控制部在推定出的所述感情的等级为规定值以上的情况下，生成变更为如下表达的所述传递消息，其中，所述表达是与所述讲话内容相比抑制了感情的表达。

10.一种交流支援方法，其中，

所述交流支援方法使计算机进行如下处理：

识别由设置于车室内的话筒收集到的声音数据所包含的讲话内容；

基于识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使设置于所述车室内的声音输出部朝向所述其他乘客输出所生成的声音；以及

基于识别结果，判定所述其他乘客是否对发出了收集到的所述声音的乘客的讲话做出了应答，在所述其他乘客没有对发出了收集到的所述声音的乘客的讲话做出应答的情况下，使基于收集到的所述声音而生成的声音朝向所述其他乘客输出。

11.一种交流支援方法，其中，

所述交流支援方法使计算机进行如下处理：

基于识别结果，生成从发出了收集到的所述声音的乘客向其他乘客传递的传递消息，生成基于生成的所述传递消息得到的声音，使设置于所述车室内的声音输出部朝向所述其他乘客输出所生成的声音；

对所述车室内进行拍摄；

对拍摄到的图像进行解析；以及

基于图像解析结果，判定所述其他乘客是否正在睡觉，在所述其他乘客没有正在睡觉的情况下，使基于收集到的所述声音而生成的声音朝向所述其他乘客输出。

12.一种交流支援方法，其中，

所述交流支援方法使计算机进行如下处理：

基于识别结果来推定讲话者的感情，生成与推定出的所述感情相应的所述传递消息。

13.一种存储介质，其中，

所述存储介质存储有程序，所述程序使计算机进行如下处理：

14.一种存储介质，其中，

对所述车室内进行拍摄；

对拍摄到的图像进行解析；以及

15.一种存储介质，其中，