CN111667824A - 智能体装置、智能体装置的控制方法及存储介质 - Google Patents

智能体装置、智能体装置的控制方法及存储介质 Download PDF

Info

Publication number
CN111667824A
CN111667824A CN202010149146.8A CN202010149146A CN111667824A CN 111667824 A CN111667824 A CN 111667824A CN 202010149146 A CN202010149146 A CN 202010149146A CN 111667824 A CN111667824 A CN 111667824A
Authority
CN
China
Prior art keywords
agent
unit
occupant
response
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010149146.8A
Other languages
English (en)
Inventor
栗原正树
菊池慎一
本田裕
久保田基嗣
大井裕介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of CN111667824A publication Critical patent/CN111667824A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Arrangement of adaptations of instruments
    • B60K35/10
    • B60K35/80
    • B60K35/85
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • B60K2360/111
    • B60K2360/1438
    • B60K2360/148
    • B60K2360/56
    • B60K2360/5899
    • B60K2360/592
    • B60K2360/595
    • B60K35/265
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

提供一种智能体装置、智能体装置的控制方法及存储介质。智能体装置具备:多个智能体功能部,它们根据车辆的乘员的讲话,提供包含使输出部输出响应的服务;识别部,其识别所述乘员的讲话所包含的要求;以及智能体选择部,其将由所述识别部识别到的要求向所述多个智能体功能部输出,且基于所述多个智能体功能部各自的响应的结果,选择所述多个智能体功能部中的、使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。

Description

智能体装置、智能体装置的控制方法及存储介质
技术领域
本发明涉及智能体装置、智能体装置的控制方法及存储介质。
背景技术
以往,公开了与智能体功能相关的技术,该智能体功能一边与车辆的乘员进行对话,一边提供与乘员的要求相应的驾驶支援相关的信息、车辆的控制、其他应用程序等(日本特开2006-335231号公报)。
发明内容
近年来,关于将多个智能体向车辆的搭载,正在推进实用化,但是,即便在一个车辆搭载有多个智能体的情况下,乘员也需要调出一个智能体来传达要求。因此,乘员若没有掌握到每个智能体的特征,则无法调出对于执行针对要求的处理而言最佳的智能体,存在无法得到合适的结果的情况。
本发明是考虑这样的情形而完成的,目的之一在于,提供一种能够提供更合适的响应的结果的智能体装置、智能体装置的控制方法及存储介质。
本发明的智能体装置、智能体装置的控制方法及存储介质采用了以下的结构。
(1):本发明的一方案的智能体装置,具备:多个智能体功能部,它们根据车辆的乘员的讲话,提供包含使输出部输出响应的服务;识别部,其识别所述乘员的讲话所包含的要求;以及智能体选择部,其将由所述识别部识别到的要求向所述多个智能体功能部输出,且基于所述多个智能体功能部各自的响应的结果,选择所述多个智能体功能部中的、使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
(2):在上述(1)的方案中,所述智能体装置具备:多个智能体功能部,它们分别具备识别车辆的乘员的讲话所包含的要求的声音识别部,且根据所述讲话,提供包含使输出部输出响应的服务;以及智能体选择部,其针对所述车辆的乘员的讲话,基于所述多个智能体功能部各自的响应的结果,选择使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
(3):在上述(2)的方案中,所述多个智能体功能部分别具备:声音接受部,其接受所述乘员的讲话的声音;以及处理部,其进行针对由所述声音接受部接受到的声音的处理。
(4):在上述(1)~(3)中任一项的方案中,所述智能体装置还具备显示控制部,所述显示控制部使显示部显示所述多个智能体功能部各自的响应的结果。
(5):在上述(1)~(4)中任一项的方案中,所述智能体选择部优先选择所述多个智能体功能部中的、从所述乘员的讲话时机到响应为止的时间短的智能体功能部。
(6):在上述(1)~(5)中任一项的方案中,所述智能体选择部优先选择所述多个智能体功能部中的、针对所述乘员的讲话的响应的确信度高的智能体功能部。
(7):在上述(6)的方案中,所述智能体选择部将所述确信度归一化,基于归一化的结果来选择所述智能体功能部。
(8):在上述(4)的方案中,所述智能体选择部优先选择在由所述显示部显示的所述多个智能体功能部各自的响应的结果中取得了由所述乘员选择了响应的结果的智能体功能部。
(9):本发明的另一方案的智能体装置的控制方法,其使计算机进行如下处理:使多个智能体功能部启动;作为启动了的所述智能体功能部的功能,根据车辆的乘员的讲话,提供包含使输出部输出响应的服务;识别所述乘员的讲话所包含的要求;以及将识别到的所述要求向所述多个智能体功能部输出,且基于所述多个智能体功能部各自的响应的结果,选择所述多个智能体功能部中的、使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
(10):本发明的另一方案的智能体装置的控制方法,其使计算机进行如下处理:使分别具备识别车辆的乘员的讲话所包含的要求的声音识别部的多个智能体功能部启动;作为启动了的所述智能体功能部的功能,根据所述乘员的讲话,提供包含使输出部输出响应的服务;以及针对所述车辆的乘员的讲话,基于所述多个智能体功能部各自的响应的结果,选择使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
(11):本发明的另一方案的存储介质,其存储有程序,所述程序使计算机进行如下处理:使多个智能体功能部启动;作为启动了的所述智能体功能部的功能,根据车辆的乘员的讲话,提供包含使输出部输出响应的服务;识别所述乘员的讲话所包含的要求;以及将识别到的所述要求向所述多个智能体功能部输出,且基于所述多个智能体功能部各自的响应的结果,选择所述多个智能体功能部中的、使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
(12):本发明的另一方案的存储介质,其存储有程序,所述程序使计算机进行如下处理:使分别具备识别车辆的乘员的讲话所包含的要求的声音识别部的多个智能体功能部启动;作为启动了的所述智能体功能部的功能,根据所述乘员的讲话,提供包含使输出部输出响应的服务;以及针对所述车辆的乘员的讲话,基于所述多个智能体功能部各自的响应的结果,选择使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
根据上述(1)~(12)的方案,能够提供更合适的响应的结果。
附图说明
图1是包含智能体装置的智能体系统的结构图。
图2是示出第一实施方式的智能体装置的结构和搭载于车辆的设备的图。
图3是示出显示·操作装置及扬声器单元的配置例的图。
图4是示出智能体服务器的结构和智能体装置的结构的一部分的图。
图5是用于对智能体选择部的处理进行说明的图。
图6是用于对基于响应的结果的确信度来选择智能体功能部进行说明的图。
图7是示出作为智能体选择画面而显示于第一显示器的图像IM1的一例的图。
图8是示出在乘员讲话之前的场景下通过显示控制部显示的图像IM2的一例的图。
图9是示出在乘员进行了包含指令的讲话的场景下通过显示控制部显示的图像IM3的一例的图。
图10是示出在选择智能体的场景下通过显示控制部显示的图像IM4的一例的图。
图11是示出在选择了智能体图像的场景下通过显示控制部显示的图像IM5的一例的图。
图12是示出由第一实施方式的智能体装置执行的处理的流程的一例的流程图。
图13是示出第二实施方式的智能体装置的结构和搭载于车辆的设备的图。
图14是示出第二实施方式的智能体服务器的结构和智能体装置的结构的一部分的图。
图15是示出由第二实施方式的智能体装置执行的处理的流程的一例的流程图。
具体实施方式
以下,参照附图,对本发明的智能体装置、智能体装置的控制方法及存储介质的实施方式进行说明。智能体装置实现智能体系统的一部分或全部的装置。以下,作为智能体装置的一例,对搭载于车辆(以下,车辆M)并具备多个种类的智能体功能的智能体装置进行说明。所谓智能体功能,例如是如下功能:一边与车辆M的乘员进行对话,一边进行基于乘员的讲话中所包含的要求(指令)的各种信息提供,或者居间于网络服务的功能。智能体功能中,可以存在具有进行车辆内的设备(例如与驾驶控制、车身控制相关的设备)的控制等的功能的智能体功能。
智能体功能例如除了识别乘员的声音的声音识别功能(将声音文本化的功能)之外,还综合地利用自然语言处理功能(理解文本的构造、意思的功能)、对话管理功能、经由网络而检索其他装置或检索自身装置所持有的规定的数据库的网络检索功能等来实现。这些功能的一部分或全部可以利用AI(Artificial Intelligence)技术来实现。进行这些功能的结构的一部分(尤其是,声音识别功能、自然语言处理解释功能)也可以搭载于能够与车辆M的车载通信装置或被带入到车辆M中的通用通信装置进行通信的智能体服务器(外部装置)。在以下的说明中,将结构的一部分搭载于智能体服务器且智能体装置与智能体服务器协同配合而实现智能体系统作为前提。将智能体装置与智能体服务器协同配合而假想地出现的服务提供主体(服务·实体)称作智能体。
<整体结构>
图1是包含智能体装置100的智能体系统1的结构图。智能体系统1例如具备智能体装置100和多个智能体服务器200-1、200-2、200-3、…。附图标记的末尾的连字符以下数字设为用于区分智能体的标识符。在不对是哪一个智能体服务器进行区分的情况下,存在简称作智能体服务器200的情况。在图1中示出了3个智能体服务器200,但是,智能体服务器200的数量既可以是2个,也可以是4个以上。各智能体服务器200例如由互不相同的智能体系统的提供者运营。因此,本实施方式中的智能体是由互不相同的提供者实现的智能体。作为提供者,例如可以举出机动车制造商、网络服务商、电子商贸商、便携终端的销售者等,任意的主体(法人、团体、个人等)都能够成为智能体系统的提供者。
智能体装置100经由网络NW而与智能体服务器200通信。网络NW例如包括互联网、蜂窝网、Wi-Fi网、WAN(Wide Area Network)、LAN(Local Area Network)、公用线路、电话线、无线基地站等中的一部分或全部。网络NW连接有各种网页服务器300,智能体服务器200或智能体装置100能够经由网络NW而从各种网页服务器300取得网页。
智能体装置100与车辆M的乘员进行对话,将来自乘员的声音向智能体服务器200发送,将从智能体服务器200得到的回答以声音输出、图像显示的形式向乘员提示。
<第一实施方式>
[车辆]
图2是示出第一实施方式的智能体装置100的结构和搭载于车辆M的设备的图。在车辆M例如搭载有一个以上的话筒10、显示·操作装置20、扬声器单元30、导航装置40、车辆设备50、车载通信装置60、乘员识别装置80及智能体装置100。存在智能手机等通用通信装置70被带入到车室内,作为通信装置而被使用的情况。这些装置通过CAN(Controller AreaNetwork)通信线等多路通信线、串行通信线、无线通信网等而互相连接。图2所示的结构只不过是一例,既可以省略结构的一部分,也可以还追加别的结构。
话筒10是收集在车室内产生的声音的收音部。显示·操作装置20是显示图像并且能够接受输入操作的装置(或装置群)。显示·操作装置20例如包括作为触摸面板而构成的显示器装置。显示·操作装置20也可以还包括HUD(Head Up Display)、机械式的输入装置。扬声器单元30例如包括配设于车室内的互不相同的位置的多个扬声器(声音输出部)。显示·操作装置20也可以在智能体装置100和导航装置40中共用。关于它们的详情后述。
导航装置40具备导航HMI(Human Machine Interface)、GPS(Global PositioningSystem)等位置测定装置、存储有地图信息的存储装置、进行路径搜素等的控制装置(导航控制器)。话筒10、显示·操作装置20及扬声器单元30中的一部分或全部也可以作为导航HMI而被使用。导航装置40搜素用于从由位置测位装置确定出的车辆M的位置移动至由乘员输入的目的地的路径(导航路径),使用导航HMI输出引导信息,以便车辆M沿着路径行驶。路径搜素功能也可以处于能够经由网络NW访问的导航服务器中。在该情况下,导航装置40从导航服务器取得路径而输出引导信息。智能体装置100也可以以导航控制器为基础而构筑,在该情况下,导航控制器与智能体装置100硬件上构成为一体。
车辆设备50例如包括发动机、行驶用马达等驱动力输出装置、发动机的启动马达、车门锁定装置、车门开闭装置、空调装置等。
车载通信装置60例如是能够利用蜂窝网、Wi-Fi网访问网络NW的无线通信装置。
乘员识别装置80例如包括就座传感器、车室内相机、图像识别装置等。就座传感器包括设置于座位的下部的压力传感器、安装于座椅安全带的张力传感器等。车室内相机是设置于车室内的CCD(Charge Coupled Device)相机、CMOS(Complementary Metal OxideSemiconductor)相机。图像识别装置对车室内相机的图像进行解析,识别每个座位的乘员的有无、面部朝向等。
图3是示出显示·操作装置20及扬声器单元30的配置例的图。显示·操作装置20例如包括第一显示器22、第二显示器24、操作开关ASSY26。显示·操作装置20也可以还包括HUD28。显示·操作装置20也可以还包括设置于仪表板中的与驾驶员座DS对面的部分的仪表显示器29。第一显示器22、第二显示器24、HUD28及仪表显示器29合起来是“显示部”的一例。
在车辆M中,例如存在设置有转向盘SW的驾驶员座DS、和相对于驾驶员座DS设置于车宽方向(图中Y方向)的副驾驶员座AS。第一显示器22是从仪表板中的驾驶员座DS与副驾驶员座AS的中间附近延伸至与副驾驶员座AS的左端部对置的位置的横长形状的显示器装置。第二显示器24设置于驾驶员座DS与副驾驶员座AS的车宽方向上的中间附近且第一显示器的下方。例如,第一显示器22和第二显示器24均作为触摸面板而构成,具备LCD(LiquidCrystal Display)、有机EL(Electroluminescence)、等离子体显示器等作为显示部。操作开关ASSY26是拨码开关、按钮式开关等聚集而成的。显示·操作装置20将由乘员进行了的操作的内容向智能体装置100输出。第一显示器22或第二显示器24显示的内容可以由智能体装置100决定。
扬声器单元30例如包括扬声器30A~30F。扬声器30A设置于驾驶员座DS侧的窗柱(所谓的A柱)。扬声器30B设置于靠近驾驶员座DS的车门的下部。扬声器30C设置于副驾驶员座AS侧的窗柱。扬声器30D设置于靠近副驾驶员座AS的车门的下部。扬声器30E设置于第二显示器24的附近。扬声器30F设置于车室的天棚(roof)。扬声器单元30也可以设置于靠近右侧后部座位、左侧后部座位的车门的下部。
在该配置中,例如,在专门使扬声器30A及30B输出了声音的情况下,声像会定位于驾驶员座DS附近。所谓“声像定位”,例如是通过调节向乘员的左右耳传递的声音的大小来设定乘员感到的声源的空间上的位置。在专门使扬声器30C及30D输出了声音的情况下,声像会定位于副驾驶员座AS附近。在专门使扬声器30E输出了声音的情况下,声像会定位于车室的前方附近,在专门使扬声器30F输出了声音的情况下,声像会定位于车室的上方附近。不限定于此,扬声器单元30能够通过使用混音器、放大器调整各扬声器输出的声音的分配,来使声像定位于车室内的任意的位置。
[智能体装置]
返回图2,智能体装置100具备管理部110、智能体功能部150-1、150-2、150-3、配对应用执行部152。管理部110例如具备声响处理部112、声音识别部114、自然语言处理部116、智能体选择部118、显示控制部120、声音控制部122。在不对是哪一个智能体功能部进行区分的情况下,简称作智能体功能部150。示出了3个智能体功能部150,这不过是与图1中的智能体服务器200的数量对应的一例,智能体功能部150的数量也可以是2个,还可以是4个以上。图2所示的软件配置是为了说明而简易地示出,实际上,能够像例如也可以在智能体功能部150与车载通信装置60之间介入有管理部110那样任意地改变。
智能体装置100的各构成要素例如通过由CPU(Central Processing Unit)等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以通过LSI(LargeScale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括电路部;circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于HDD(Hard Disk Drive)、闪存器等存储装置(具备非暂时性的存储介质的存储装置)中,也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性的存储介质)并通过将存储介质装配于驱动装置而安装。声响处理部112是“声音接受部”的一例。声音识别部114和自然语言处理部116合起来是“识别部”的一例。
智能体装置100具备存储部160。存储部160通过上述各种存储装置来实现。在存储部160中例如保存有字典DB(数据库)162等数据、程序。
管理部110通过执行OS(Operating System)、中间件等程序而发挥功能。
管理部110的声响处理部112接受从话筒10收集的声音,对接受到的声音进行声响处理,以使得成为适于利用声音识别部114进行声音的识别的状态。所谓声响处理,例如是通过带通滤波器等的滤波实现的噪声去除、声音的放大等。
声音识别部114从进行了声响处理的声音(声音流)识别声音的意思。首先,声音识别部114基于声音流中的声音波形的振幅和零交叉来检测声音区间。声音识别部114也可以进行通过基于混合高斯分布模型(GMM;Gaussian mixture model)的帧单位的声音识别及非声音识别而实现的区间检测。接着,声音识别部114将检测到的声音区间中的声音文本化,将文本化了的文字信息向自然语言处理部116输出。
自然语言处理部116针对从声音识别部114输入的文字信息一边参照字典DB162一边进行意思解释。字典DB162中,对于文字信息,抽象化了的意思信息建立了对应关系。字典DB162也可以包含同义词、近义词的一览信息。声音识别部114的处理和自然语言处理部116的处理可以不明确分阶段,而是接受自然语言处理部116的处理结果而声音识别部114修正识别结果等相互影响地进行。
自然语言处理部116例如在识别到“今天的天气是”、“天气怎么样”等意思(要求)作为识别结果的情况下,也可以生成置换为标准文字信息“今天的天气”的指令。所谓指令,例如是用于执行智能体功能部150-1~150-3各自所具备的功能的命令。由此,即便在请求的声音存在了表述差异的情况下,也能够容易地进行与要求相符的对话。自然语言处理部116例如也可以使用利用了概率的机器学习处理等人工智能处理来识别文字信息的意思,生成基于识别结果的指令。在各智能体功能部150中用于执行功能的指令的格式、参数不同的情况下,自然语言处理部116也可以针对每个智能体功能部150而生成能够识别的指令。
自然语言处理部116将所生成的指令向智能体功能部150-1~150-3输出。声音识别部114关于智能体功能部150-1~150-3中的、需要进行声音流的输入的智能体功能部,也可以除了声音指令之外还输出声音流。
智能体功能部150与对应的智能体服务器200协同配合而控制智能体,根据车辆的乘员的讲话而提供包含通过声音进行的响应的服务。在智能体功能部150中可以包含被赋予了控制车辆设备50的权限的功能部。智能体功能部150中可以存在经由配对应用执行部152而与通用通信装置70协作来与智能体服务器200通信的功能部。例如,对智能体功能部150-1赋予了控制车辆设备50的权限。智能体功能部150-1经由车载通信装置60而与智能体服务器200-1通信。智能体功能部150-2经由车载通信装置60而与智能体服务器200-2通信。智能体功能部150-3经由配对应用执行部152而与通用通信装置70协作来与智能体服务器200-3通信。
配对应用执行部152例如通过Bluetooth(注册商标)与通用通信装置70进行配对,使智能体功能部150-3与通用通信装置70连接。智能体功能部150-3也可以通过利用了USB(Universal Serial Bus)等的有线通信而连接于通用通信装置70。以下,存在将智能体功能部150-1与智能体服务器200-1协同配合而出现的智能体称作智能体1,将智能体功能部150-2与智能体服务器200-2协同配合而出现的智能体称作智能体2,将智能体功能部150-3与智能体服务器200-3协同配合而出现的智能体称作智能体3的情况。智能体功能部150-1~150-3的各个智能体功能部执行基于从管理部110输入的声音指令的处理,将执行结果向管理部110输出。
智能体选择部118基于针对指令而由多个智能体功能部150-1~150-3分别进行了的响应的结果,选择多个智能体功能部150-1~150-3中的进行针对乘员的讲话的响应的智能体功能。关于智能体选择部118的功能的详情后述。
显示控制部120根据来自智能体选择部118或智能体功能部150的指示,使显示部的至少一部分的区域显示图像。以下,设为使第一显示器22显示与智能体相关的图像来进行说明。显示控制部120通过智能体选择部118或智能体功能部150的控制,例如生成在车室内进行与乘员的交流的拟人化了的智能体的图像(以下,称作智能体图像),使第一显示器22显示所生成的智能体图像。智能体图像例如是对乘员搭话的形态的图像。智能体图像例如可以包含至少由观看者(乘员)识别到表情、面部朝向的程度的面部图像。例如,智能体图像可以是,在面部区域中呈现模仿眼睛、鼻子的部件,基于面部区域中的部件的位置而识别表情、面部朝向。智能体图像也可以被立体地感受,通过包含三维空间中的头部图像而由观看者识别智能体的面部朝向,通过包含主体(身躯、手脚)的图像而由观看者识别智能体的动作、举止、姿态等。智能体图像也可以是动画图像。例如,显示控制部120也可以使靠近由乘员识别装置80识别到的乘员的位置的显示区域显示智能体图像,或者生成使面部朝向乘员的位置的智能体图像并进行显示。
声音控制部122根据来自智能体选择部118或智能体功能部150的指示,使扬声器单元30所包含的扬声器中的一部分或全部输出声音。声音控制部122也可以进行使用多个扬声器单元30来使智能体声音的声像定位于与智能体图像的显示位置对应的位置的控制。所谓与智能体图像的显示位置对应的位置,例如是被预测为乘员感到智能体图像正在讲出智能体声音的位置,具体而言,是智能体图像的显示位置附近(例如,2~3[cm]以内)的位置。
[智能体服务器]
图4是示出智能体服务器200的结构和智能体装置100的结构的一部分的图。以下,与智能体服务器200的结构一起,对智能体功能部150等的动作进行说明。在此,省略关于从智能体装置100到网络NW的物理上的通信的说明。以下,主要以智能体功能部150-1及智能体服务器200-1为中心来进行说明,但是,关于其他智能体功能部、智能体服务器的组也是,尽管存在各自的详细的功能不同的情况,但是进行大致同样的动作。
智能体服务器200-1具备通信部210。通信部210例如是NIC(Network InterfaceCard)等网络接口。而且,智能体服务器200-1例如具备对话管理部220、网络检索部222、响应文生成部224。这些构成要素例如通过由CPU等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部;circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置)中,也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性的存储介质)并通过将存储介质装配于驱动装置而安装。
智能体服务器200具备存储部250。存储部250通过上述各种存储装置来实现。在存储部250中例如保存有个人简介252、知识库DB254、响应规则DB256等数据、程序。
在智能体装置100中,智能体功能部150-1将指令(或进行了压缩、编码等处理的指令)向智能体服务器200-1发送。智能体功能部150-1也可以在识别到能够进行本地处理(不经由智能体服务器200-1的处理)的指令的情况下,进行通过指令要求的处理。所谓能够进行本地处理的指令,例如是通过参照智能体装置100所具备的存储部160而能够回答的指令。更具体而言,所谓能够进行本地处理的指令,例如是从电话本检索特定者的名字并给与相一致的名字建立了对应关系的电话号码打电话(呼叫对方)的指令。因此,智能体功能部150-1也可以具有智能体服务器200-1所具备的功能的一部分。
对话管理部220基于所输入的指令,一边参照个人简介252、知识库DB254、响应规则DB256,一边决定针对车辆M的乘员的响应内容(例如,向乘员的讲话内容、输出的图像)。个人简介252包含针对每个乘员保存着的乘员的个人信息、兴趣偏好、过去的对话的履历等。知识库DB254是规定了事物的关系性的信息。响应规则DB256是规定了针对指令而智能体应该进行的动作(回答、设备控制的内容等)的信息。
对话管理部220也可以通过使用从声音流得到的特征信息而与个人简介252进行对照,来确定乘员。在该情况下,个人简介252中,例如声音的特征信息与个人信息建立了对应关系。所谓声音的特征信息,例如是与声音的高度、语调、节奏(声音的高低的模式)等说话方式的特征、基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients)等的特征量相关的信息。声音的特征信息例如是在乘员的初始登记时使乘员对规定的单词、句子等进行发声,通过识别发出的声音而得到的信息。
对话管理部220在指令是要求能够经由网络NW而检索的信息的指令的情况下,使网络检索部222进行检索。网络检索部222经由网络NW而访问各种网页服务器300,取得期望的信息。所谓“能够经由网络NW而检索的信息”,例如是处于车辆M的周边的餐厅的由一般用户评价的评价结果,或者是与当天的车辆M的位置相应的天气预报。
响应文生成部224以使得由对话管理部220决定出的讲话的内容向车辆M的乘员传达的方式,生成响应文,并向智能体装置100发送。响应文生成部224从智能体装置100取得基于乘员识别装置80的识别结果,在根据所取得的识别结果确定了进行了包含指令的讲话的乘员是在个人简介252中登记了的乘员的情况下,也可以呼叫乘员的名字,生成模仿乘员的说话方式的说话方式的响应文。
智能体功能部150当取得响应文后,指示声音控制部122进行声音合成并输出声音。智能体功能部150指示显示控制部120与声音输出相配合地显示智能体图像。这样,假想地出现的智能体对车辆M的乘员进行响应的智能体功能得以实现。
[智能体选择部]
以下,对智能体选择部118的功能的详情进行说明。智能体选择部118针对对于指令而由多个智能体功能部150-1~150-3分别进行了的响应的结果,基于规定的条件,选择进行针对乘员的讲话的响应的智能体功能部。以下,设为从多个智能体功能部150-1~150-3全部得到了响应的结果来进行说明。智能体选择部118在存在没有得到响应的结果的智能体功能部、不具有针对指令的功能本身的智能体功能部的情况下,也可以将该智能体功能部从选择对象中排除。
例如,智能体选择部118基于多个智能体功能部150-1~150-3的响应的速度,选择多个智能体功能部150-1~150-3中的进行针对乘员的讲话的响应的智能体功能部。图5是用于对智能体选择部118的处理进行说明的图。智能体选择部118针对智能体功能部150-1~150-3,分别对从由自然语言处理部116输出指令起到取得响应的结果为止的时间(以下,称作响应时间)进行计时。然后,智能体选择部118选择各响应时间中的时间最短的智能体功能部,作为针对乘员的讲话进行响应的智能体功能部。智能体选择部118也可以选择响应时间比规定时间短的多个智能体功能部,作为进行响应的智能体功能部。
在图5的例子中,在智能体功能部150-1~150-3将针对指令的响应的结果A~C向智能体选择部118输出了的情况下,设为各响应时间为2.0[秒]、5.5[秒]、3.8[秒]。在该情况下,智能体选择部118优先选择响应时间最短的智能体功能部150-1(智能体1),作为对乘员的讲话进行响应的智能体。所谓优先选择,例如是仅选择该智能体功能部的响应的结果(在图5的例子中,响应的结果A),或者在输出多个响应的结果A~C的情况下,将响应的结果A的内容与其他响应的结果相比强调输出。所谓强调输出,例如,使响应的结果的文字较大地显示,改变颜色,增大音量,将显示顺序、输出顺序设为最先等。这样,通过基于响应的速度(即响应时间的长短)选择智能体,能够以短时间向乘员提供针对讲话的响应。
智能体选择部118也可以取代上述的响应时间(或除此之外还)基于响应的结果A~C的确信度,选择进行针对乘员的讲话的响应的智能体功能部。图6是用于对基于响应的结果的确信度来选择智能体功能部进行说明的图。所谓确信度,例如是针对指令的响应的结果被推定为是正确的答案的程度(指标值)。所谓确信度,是针对乘员的讲话的响应被推定为与乘员的要求相一致或是乘员所期待的答案的程度。多个智能体功能部150-1~150-3分别例如基于设置于各存储部250的个人简介252、知识库DB254、响应规则DB256来决定响应内容,并且决定针对响应内容的确信度。
例如,对话管理部220在从乘员接受了“最近流行的店铺是?”这一指令的情况下,设为通过网络检索部222从各种网页服务器300取得了“西装店”、“鞋店”、“意大利风味餐厅的店铺”的信息,作为与指令对应的信息。在此,对话管理部220参照个人简介252,将与乘员的兴趣的一致度高的响应的结果的确信度设定得高。例如,在乘员的兴趣是“吃饭”的情况下,对话管理部220将“意大利风味餐厅的店铺”的确信度设定得比其他信息高。对话管理部220也可以是,针对从各种网页服务器300取得的各店的一般用户的评价结果(推荐程度)越高,则将确信度设定得越高。
对话管理部220也可以基于作为针对指令的检索结果而得到的响应候补的数量来决定确信度。例如,对话管理部220在响应候补的数量为1个的情况下,由于不存在其他的候补,所以将确信度设定得最高。响应候补的数越多,则对话管理部220将各确信度设定得越低。
对话管理部220也可以基于作为针对指令的检索结果而得到的响应内容的丰富度来决定确信度。例如,对话管理部220在作为检索结果,不仅是文字信息还成功取得了图像信息的情况下,由于与没能取得图像的情况相比丰富度高,所以将确信度设定得高。
对话管理部220也可以使用指令和响应内容的信息,参照知识库DB254,基于两者的关系性来设定确信度。对话管理部220也可以参照个人简介252,参照在最近(例如,1个月以内)的对话的履历中是否存在同样的提问,在存在同样的提问的情况下,将与该回答同样的响应内容的确信度设定得高。对话的履历既可以是与讲话了的乘员的对话的履历,也可以是乘员以外的个人简介252所包含的对话的履历。对话管理部220也可以将上述的多个确信度的设定条件分别组合来设定确信度。
对话管理部220也可以进行针对确信度的归一化(normalization)。例如,对话管理部220进行针对上述的各设定条件而确信度处于0~1的范围的归一化。由此,即便是以根据多个设定条件设定的确信度进行比较的情况下,由于均匀地定量化,所以,不会仅某一个设定条件的确信度变大。其结果是,能够基于确信度来选择更合适的响应的结果。
在图6的例子中,在响应的结果A的确信度为0.2,响应的结果B的确信度为0.8,响应的结果C的确信度为0.5的情况下,智能体选择部118选择与输出了确信度最高的响应的结果B的智能体功能部150-2对应的智能体2,作为对乘员的讲话进行响应的智能体。智能体选择部118也可以选择输出了确信度为阈值以上的响应的结果的多个智能体,作为对讲话进行响应的智能体。由此,能够使适于乘员的要求的智能体进行响应。
智能体选择部118也可以将智能体功能部150-1~150-3各自的响应的结果A~C进行比较,选择输出了同样的响应内容多的智能体功能部150,作为进行针对乘员的讲话的响应的智能体功能部(智能体)。智能体选择部118也可以选择输出了同样的响应内容的多个智能体功能部中的预先设定了的特定的智能体功能部,还可以选择响应时间最早的智能体功能部。由此,能够将从多个响应的结果中以多数决定得到的响应向乘员输出,并且能够提高响应的结果的可靠性。
智能体选择部118也可以除了上述的智能体的选择方法之外,还使第一显示器22显示与产生了针对指令的响应的结果的多个智能体相关的信息,基于来自乘员的指示,选择进行响应的智能体。作为使乘员选择智能体的场景,例如是存在多个响应时间、确信度为相同的值的智能体的情况、预先通过乘员的指示而进行了选择智能体的意旨的设定的情况。
图7是示出作为智能体选择画面而显示于第一显示器22的图像IM1的一例的图。关于图像IM1中显示的内容、布局等,并不限定于此。图像IM1基于来自智能体选择部118的信息,由显示控制部120生成。上述的内容,关于以后的图像的说明也设为是同样的。
图像IM1中,例如包括文字信息显示区域A11和选择项目显示区域A12。在文字信息显示区域A11,例如显示存在针对乘员P的讲话的响应的结果的智能体的数量及促进乘员P进行智能体的选择的信息。例如,在乘员P讲出了“最近流行的店铺是哪呢?”的情况下,智能体功能部150-1~150-3取得针对从讲话得到的指令的响应的结果并向智能体选择部118输出。显示控制部120从智能体选择部118接受使智能体选择画面显示的指示,生成图像IM1,使第一显示器22显示所生成的图像IM1。在图7的例子中,在文字信息显示区域A11中,显示有“从3个智能体产生了响应。选哪个智能体?”这一文字信息。
在选择项目显示区域A12例如显示用于选择智能体的图标IC。在选择项目区域A12,也可以显示各智能体的响应的结果的至少一部分。在选择项目显示区域A12,也可以显示与上述的响应时间、确信度相关的信息。
在图7的例子中,在选择项目显示区域A12,显示有与智能体功能部150-1~150-3分别对应的GUI(Graphical User Interface)开关IC1~IC3和响应的结果的简要说明(例如,店铺的类别)。显示控制部120在基于来自智能体选择部118的指示显示GUI开关IC1~IC3的情况下,既可以按各智能体的响应时间短的顺序(响应速度快的顺序)排列来显示,也可以按响应的结果的确信度的顺序排列来显示。
智能体选择部118在通过乘员P对第一显示器22的操作而接受了GUI开关IC1~IC3中的任意GUI开关的选择的情况下,选择与所选择的GUI开关IC建立了对应关系的智能体,作为对乘员的讲话进行响应的智能体,使该智能体执行响应。由此,能够通过乘员所指定的智能体来进行响应。
在此,显示控制部120也可以取代使上述的GUI开关IC1~IC3显示,而使与智能体1~3对应的智能体图像EI1~EI3显示。以下,针对每个场景分开说明显示于第一显示器22的智能体图像。
图8是示出在乘员讲话之前的场景下通过显示控制部120显示的图像IM2的一例的图。图像IM2中例如包含文字信息显示区域A21和智能体显示区域A22。在文字信息显示区域A21例如显示与能够使用的智能体的数、种类相关的信息。所谓能够使用的智能体,例如是能够针对乘员的讲话进行响应的智能体。能够使用的智能体例如基于车辆M正在行驶的地域、时间段、智能体的状况、由乘员识别装置80识别的乘员P来设定。智能体的状况中例如包括因车辆M存在于地下、隧道内而无法与智能体服务器200通信的状况、或已经正在执行基于其他指令的处理而无法执行针对接下来的指令的处理的状况。在图8的例子中,在文字信息显示区域A21显示有“能够使用3个智能体”这一文字信息。
在智能体显示区域A22显示与能够使用的智能体建立了对应关系的智能体图像。在图8的例子中,在智能体显示区域A22显示有与智能体1~3建立了对应关系的智能体图像EI1~EI3。由此,乘员能够直观地掌握能够使用的智能体的数量。
图9是示出在乘员进行了包含指令的讲话的场景下通过显示控制部120显示的图像IM3的一例的图。在图9中,示出了乘员P进行了“最近流行的店铺是哪呢?”这一讲话的例子。图像IM3中例如包含文字信息显示区域A31和智能体显示区域A32。在文字信息显示区域A31例如显示表示智能体的状况的信息。在图9的例子中,在文字信息显示区域A21显示有表示智能体正在执行处理中的“思考中!”这一文字信息。
在从智能体1~3分别开始针对讲话内容的处理起到得到针对讲话的响应的结果为止的期间,显示控制部120进行从智能体显示区域A22消除智能体图像EI1~EI3的控制。由此,能够使乘员直观地识别到智能体处于处理中。显示控制部120也可以取代消除智能体图像EI1~EI3,使智能体图像EI1~EI3的显示形态与乘员P讲话之前的显示形态不同。在该情况下,显示控制部120例如显示将智能体图像EI1~EI3的表情设为“正在思考的表情”、“烦恼的表情”或者进行表示处理处于执行中的动作(例如,打开字典并翻页那样的动作、使用终端装置正在检索的动作)的智能体图像。
图10是示出在选择智能体的场景下通过显示控制部120显示的图像IM4的一例的图。图像IM4中例如包含文字信息显示区域A41和智能体选择区域A42。在文字信息显示区域A41例如显示存在针对乘员P的讲话的响应的结果的智能体的数量及促进乘员P进行智能体的选择的信息及智能体的选择方法。在图10的例子中,在文字信息显示区域A41显示有“从3个智能体产生了响应。选哪个智能体?”及“请触摸智能体。”这样的文字信息。
在智能体选择区域A42例如显示与产生了针对乘员P的讲话的响应的结果的智能体1~3对应的智能体图像EI1~EI3。在显示智能体图像EI1~EI3的情况下,显示控制部120也可以基于上述的响应时间、响应的结果的确信度,变更智能体图像EI的显示形态。所谓该场景下的智能体图像的显示形态,例如是智能体图像的表情、大小、颜色等。例如,显示控制部120在响应的结果的确信度为阈值以上的情况下,生成笑脸的智能体图像,在确信度小于阈值的情况下,生成困惑的表情、悲伤的表情的智能体图像。显示控制部120也可以以确信度越大则智能体图像越大的方式,控制显示形态。这样,通过根据响应的结果而使智能体图像的显示形态不同,乘员P能够直观地掌握到每个智能体的响应的结果的自信度等,能够设为用于选择智能体的一个指标。
智能体选择部118在通过乘员P对第一显示器22的操作而接受了智能体图像EI1~EI3中的任意智能体图像的选择的情况下,选择与所选择的智能体图像EI建立了对应关系的智能体作为对乘员的讲话进行响应的智能体,执行该智能体的响应。
图11是示出在选择了智能体图像EI1之后的场景下通过显示控制部120显示的图像IM5的一例的图。图像IM5中例如包含文字信息显示区域A51和智能体显示区域A52。在文字信息显示区域A51显示与进行了响应的智能体1相关的信息。在图11的例子中,在文字信息显示区域A51显示有“智能体1响应中”这样的文字信息。在选择了智能体图像EI1的场景下,显示控制部120也可以进行不使文字信息显示区域A51显示文字信息的控制。
在智能体显示区域A52显示所选择的智能体图像、智能体1的响应的结果。在图11的例子中,在智能体显示区域A52显示有智能体图像EI1及智能体结果“是意大利风味餐厅‘AAA’。”。在该场景下,声音控制部122进行使由智能体功能部150-1进行了响应的结果的声音定位于智能体图像EI1的显示位置附近的声像定位处理。在图11的例子中,声音控制部122输出“我推荐的是意大利风味餐厅‘AAA’。”及“显示从此出发的路径吗?”这样的声音。显示控制部120也可以与声音输出相配合地,生成使乘员P视认到智能体图像EI1正在说话的动画图像等并使之显示。
智能体选择部118也可以使声音控制部122生成与显示于上述的图7~图11的显示区域的信息同样的声音,从扬声器单元30输出所生成的声音。智能体选择部118在从话筒10接受了由乘员P指定智能体的声音的情况下,选择与所接受的智能体建立了对应关系的智能体功能部150,作为对乘员P的讲话进行响应的智能体功能部。由此,即便是乘员P由于驾驶中等理由而无法观看第一显示器22的状况下,也能够通过声音来确定智能体。
由智能体选择部118选择出的智能体进行针对乘员P的讲话的响应,直到一系列的对话结束。在一系列的对话结束的情况下,例如包括即便从输出响应的结果起经过规定时间也没有来自乘员P的响应(例如,讲话)的情况、输入了不同于与响应的结果相关的信息的讲话的情况、或通过乘员P的操作而使智能体功能结束了的情况。即,在进行了与被输出的响应的结果相关的讲话的情况下,由智能体选择部118选择出的智能体继续进行响应。在图11的例子中,在输出“显示从此出发的路径吗?”这一声音之后,在从乘员P进行了“显示路径”这一讲话的情况下,智能体1通过显示控制部120显示与路径相关的信息。
[处理流程]
图12是示出由第一实施方式的智能体装置100执行的处理的流程的一例的流程图。本流程图的处理例如可以以规定周期或规定的时机反复执行。
首先,声响处理部112判定是否从话筒10接受了乘员的讲话的输入(步骤S100)。在判定为接受了乘员的讲话的输入的情况下,声响处理部112进行针对乘员的讲话的声音的声响处理(步骤S102)。接着,声音识别部114进行被进行了声响处理的声音(声音流)的识别,将声音文本化(步骤S104)。接着,自然语言处理部116执行针对文本化了的文字信息的自然语言处理,进行文字信息的意思解析(步骤S106)。
接着,自然语言处理部116判定通过意思解析而得到的乘员的讲话内容是否包含指令(步骤S108)。在包含指令的情况下,自然语言处理部116将指令向多个智能体功能部150输出(步骤S110)。接着,多个智能体功能部按每个智能体功能部执行针对指令的处理(步骤S112)。
接着,智能体选择部118取得由多个智能体功能部的分别进行了的响应的结果(步骤S114),基于所取得的响应的结果,选择智能体功能部(步骤S116)。接着,智能体选择部118使所选择的智能体功能部执行针对乘员的讲话的响应(步骤S118)。由此,本流程图的处理结束。在步骤S100的处理中没有接受乘员的讲话的输入的情况或在步骤S108的处理中讲话内容不包含指令的情况下,本流程图的处理结束。
根据上述的第一实施方式的智能体装置100,具备:多个智能体功能部150,它们根据车辆M的乘员的讲话,提供包含通过声音进行的响应的服务;识别部(声音识别部114,自然语言处理部116),其识别乘员的讲话所包含的声音指令;以及智能体选择部118,其将由识别部识别到的声音指令向多个智能体功能部150输出,基于由多个智能体功能部150分别得出的结果,选择多个智能体功能部150中的、进行针对乘员的讲话的响应的智能体功能部,由此,能够提供更合适的响应的结果。
根据第一实施方式的智能体装置100,即便是在乘员忘记了智能体的启动方法(例如,后述的唤醒词)的情况、没有掌握到每个智能体的特征的情况、进行无法确定智能体那样的要求的情况下,也能够使多个智能体执行针对讲话的处理,使具有更合适的响应的结果的智能体进行乘员的响应。
[变形例]
在上述的第一实施方式中,声音识别部114也可以除了上述的处理之外,还识别进行了声响处理的声音所包含的唤醒词。所谓唤醒词,例如是为了调出(启动)智能体而分配的词。唤醒词针对每个智能体而设定不同的词。在由声音识别部114识别到确定各智能体的唤醒词的情况下,智能体选择部118使多个智能体功能部150-1~150-3中的分配给唤醒词的智能体响应。由此,在识别到唤醒词的情况下,能够即刻进行智能体功能部的选择,能够向乘员提供基于乘员所指定的智能体的响应的结果。
声音识别部114也可以在识别到预先调出多个智能体的唤醒词(组唤醒词)的情况下,使与组唤醒词建立了对应关系的多个智能体启动,执行由上述的多个智能体进行的处理。
<第二实施方式>
以下,对第二实施方式进行说明。第二实施方式的智能体装置在使各智能体功能部或智能体服务器具有管理部110综合地进行的与声音识别相关的功能这一点,与第一实施方式的智能体装置不同。因此,以下,设为主要以上述的不同点为中心来进行说明。在后述的说明中,关于与上述的第一实施方式同样的结构,设为标注同样的名称或附图标记,此处的具体的说明省略。
图13是示出第二实施方式的智能体装置100A的结构和搭载于车辆M的设备的图。在车辆M例如搭载有一个以上的话筒10、显示·操作装置20、扬声器单元30、导航装置40、车辆设备50、车载通信装置60、乘员识别装置80及智能体装置100A。存在通用通信装置70被带入到车室内,作为通信装置而被使用的情况。这些装置通过CAN通信线等多路通信线、串行通信线、无线通信网等而互相连接。
智能体装置100A具备管理部110A、智能体功能部150A、150A-2、150A-3、配对应用执行部152。管理部110A例如具备智能体选择部118、显示控制部120、声音控制部122。智能体装置100A的各构成要素例如通过由CPU等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部;circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置)中,也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性的存储介质)并通过将存储介质装配于驱动装置而安装。第二实施方式中的声响处理部151是“声音接受部”的一例。
智能体装置100A具备存储部160A。存储部160A通过上述各种存储装置来实现。在存储部160A中例如保存有各种数据、程序。
智能体装置100A例如具备多核处理器,由1个核处理器(处理部的一例)实现1个智能体功能部。智能体功能部150A-1~150A-3的各个智能体功能部通过由核处理器等执行OS、中间件等程序而发挥功能。在第二实施方式中,多个话筒10的各个话筒被分配给智能体功能部150A-1~智能体功能部150A-3的某一个。在该情况下,各话筒10也可以组装于智能体功能部150A内。
智能体功能部150A-1~150A-3分别具备声响处理部151-1~151-3。声响处理部151-1~151-3进行针对从被分配给各自的话筒10输入的声音的声响处理。声响处理部151-1~151-3执行与智能体功能部150A-1~150A-3建立了对应关系的各声响处理。声响处理部151-1~151-3的各个响处理部将声响处理后的声音(声音流)向针对每个智能体功能部建立了对应关系的智能体服务器200A-1~200A-3输出。
图14是示出第二实施方式的智能体服务器200A的结构和智能体装置100A的结构的一部分的图。以下,与智能体服务器200A的结构一起,对智能体功能部150A等的动作进行说明。以下,设为主要以智能体功能部150A-1及智能体服务器200A-1为中心来进行说明。
智能体服务器200A-1与第一实施方式的智能体服务器200-1相比较,在追加了声音识别部226及自然语言处理部228这一点及在存储部250A中追加了字典DB258这一点不同。因此,以下,主要以声音识别部226及自然语言处理部228为中心来进行说明。声音识别部226与自然语言处理部228合起来是“识别部”的一例。
智能体功能部150A-1进行由被分配给各自的话筒10收集到的声音的声响处理,将进行了声响处理的声音流向对应的智能体服务器200A-1发送。当智能体服务器200A-1的声音识别部226取得声音流后,声音识别部226进行声音识别并将文本化了的文字信息输出,自然语言处理部228针对文字信息一边参照字典DB258一边进行意思解释。字典DB258中,对于文字信息,抽象化了的意思信息建立了对应关系,也可以包含同义词、近义词的一览信息。字典DB258也可以是针对每个智能体服务器200而不同的数据。声音识别部226的处理和自然语言处理部228的处理可以不明确分阶段,而是接受自然语言处理部228的处理结果而声音识别部226修正识别结果等相互影响地进行。自然语言处理部228例如也可以使用利用了概率的机器学习处理等人工智能处理来识别文字信息的意思,生成基于识别结果的指令。
对话管理部220基于自然语言处理部228的处理结果(指令),一边参照个人简介252、知识库DB254、响应规则DB256,一边决定针对车辆M的乘员的讲话的内容。
[处理流程]
图15是生成由第二实施方式的智能体装置100A执行的处理的流程的一例的流程图。图15所示的流程图与上述的图12的第一实施方式中的流程图相比较,在取代步骤S102~S112的处理而具备步骤S200~S202的处理这一点不同。因此,以下,主要以步骤S200~S202的处理为中心来进行说明。
在步骤S100的处理中在判定为接受了乘员的讲话的输入的情况下,管理部110A将讲话的声音向多个智能体功能部150A-1~150A-3输出(步骤S200)。多个智能体功能部150A-1~150A-3分别执行针对声音的处理(步骤S202)。步骤S202的处理中例如包括声响处理、声音识别处理、自然语言处理、对话管理处理、网络检索处理、响应文生成处理等。接着,智能体选择部118取得由多个智能体功能部分别进行了的响应的结果(步骤S114)。
根据上述的第二实施方式的智能体装置100A,除了起到与第一实施方式的智能体装置100同样的效果之外,还能够针对每个智能体功能部并列地进行声音识别。根据第二实施方式,通过针对每个智能体功能部分配话筒,执行针对来自话筒的声音的声音识别,即便是针对每个智能体而声音的输入条件不同的情况、使用特有的声音识别方法,也能够进行合适的声音识别。
上述的第一实施方式及第二实施方式的各个实施方式也可以组合其他实施方式的一部分或全部。智能体装置100(100A)的功能的中的一部分或全部也可以包含于智能体服务器200(200A)。智能体服务器200(200A)的功能中的一部分或全部也可以包含于智能体装置100(100A)。即,智能体装置100(100A)及智能体服务器200(200A)中的功能的划分可以根据各装置的构成要素、智能体服务器200(200A)、智能体系统1的规模等而适当变更。智能体装置100(100A)及智能体服务器200(200A)中的功能的划分可以针对每个车辆M而设定。
以上使用实施方式说明了本发明的具体实施方式,但本发明丝毫不被这样的实施方式限定,在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims (12)

1.一种智能体装置,其中,
所述智能体装置具备:
多个智能体功能部,它们根据车辆的乘员的讲话,提供包含使输出部输出响应的服务;
识别部,其识别所述乘员的讲话所包含的要求;以及
智能体选择部,其将由所述识别部识别到的要求向所述多个智能体功能部输出,且基于所述多个智能体功能部各自的响应的结果,选择所述多个智能体功能部中的、使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
2.一种智能体装置,其中,
所述智能体装置具备:
多个智能体功能部,它们分别具备识别车辆的乘员的讲话所包含的要求的声音识别部,且根据所述乘员的讲话,提供包含使输出部输出响应的服务;以及
智能体选择部,其针对所述车辆的乘员的讲话,基于所述多个智能体功能部各自的响应的结果,选择使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
3.根据权利要求2所述的智能体装置,其中,
所述多个智能体功能部分别具备:声音接受部,其接受所述乘员的讲话的声音;以及处理部,其进行针对由所述声音接受部接受到的声音的处理。
4.根据权利要求1~3中任一项所述的智能体装置,其中,
所述智能体装置还具备显示控制部,所述显示控制部使显示部显示所述多个智能体功能部各自的响应的结果。
5.根据权利要求1~4中任一项所述的智能体装置,其中,
所述智能体选择部优先选择所述多个智能体功能部中的、从所述乘员的讲话时机到响应为止的时间短的智能体功能部。
6.根据权利要求1~5中任一项所述的智能体装置,其中,
所述智能体选择部优先选择所述多个智能体功能部中的、针对所述乘员的讲话的响应的确信度高的智能体功能部。
7.根据权利要求6所述的智能体装置,其中,
所述智能体选择部将所述确信度归一化,基于归一化的结果来选择所述智能体功能部。
8.根据权利要求4所述的智能体装置,其中,
所述智能体选择部优先选择由所述显示部显示的所述多个智能体功能部各自的响应的结果中的响应的结果被所述乘员选择了的智能体功能部。
9.一种智能体装置的控制方法,其中,
所述智能体装置的控制方法使计算机进行如下处理:
使多个智能体功能部启动;
作为启动了的所述智能体功能部的功能,根据车辆的乘员的讲话,提供包含使输出部输出响应的服务;
识别所述乘员的讲话所包含的要求;以及
将识别到的所述要求向所述多个智能体功能部输出,且基于所述多个智能体功能部各自的响应的结果,选择所述多个智能体功能部中的、使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
10.一种智能体装置的控制方法,其中,
所述智能体装置的控制方法使计算机进行如下处理:
使分别具备识别车辆的乘员的讲话所包含的要求的声音识别部的多个智能体功能部启动;
作为启动了的所述智能体功能部的功能,根据所述乘员的讲话,提供包含使输出部输出响应的服务;以及
针对所述车辆的乘员的讲话,基于所述多个智能体功能部各自的响应的结果,选择使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
11.一种存储介质,其存储有程序,其中,
所述程序使计算机进行如下处理:
使多个智能体功能部启动;
作为启动了的所述智能体功能部的功能,根据车辆的乘员的讲话,提供包含使输出部输出响应的服务;
识别所述乘员的讲话所包含的要求;以及
将识别到的所述要求向所述多个智能体功能部输出,且基于所述多个智能体功能部各自的响应的结果,选择所述多个智能体功能部中的、使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
12.一种存储介质,其存储有程序,其中,
所述程序使计算机进行如下处理:
使分别具备识别车辆的乘员的讲话所包含的要求的声音识别部的多个智能体功能部启动;
作为启动了的所述智能体功能部的功能,根据所述乘员的讲话,提供包含使输出部输出响应的服务;以及
针对所述车辆的乘员的讲话,基于所述多个智能体功能部各自的响应的结果,选择使所述输出部输出针对所述乘员的讲话的响应的智能体功能部。
CN202010149146.8A 2019-03-07 2020-03-05 智能体装置、智能体装置的控制方法及存储介质 Pending CN111667824A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-041771 2019-03-07
JP2019041771A JP2020144274A (ja) 2019-03-07 2019-03-07 エージェント装置、エージェント装置の制御方法、およびプログラム

Publications (1)

Publication Number Publication Date
CN111667824A true CN111667824A (zh) 2020-09-15

Family

ID=72335419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010149146.8A Pending CN111667824A (zh) 2019-03-07 2020-03-05 智能体装置、智能体装置的控制方法及存储介质

Country Status (3)

Country Link
US (1) US20200286479A1 (zh)
JP (1) JP2020144274A (zh)
CN (1) CN111667824A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117396365A (zh) 2021-06-03 2024-01-12 日产自动车株式会社 对话服务装置和对话系统控制方法
EP4350689A4 (en) 2021-06-03 2024-04-24 Nissan Motor DISPLAY CONTROL DEVICE AND DISPLAY CONTROL METHOD

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090545A (ja) * 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
US20080109285A1 (en) * 2006-10-26 2008-05-08 Mobile Content Networks, Inc. Techniques for determining relevant advertisements in response to queries
JP2014222509A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
CN104488027A (zh) * 2012-07-09 2015-04-01 独立行政法人情报通信研究机构 声音处理系统以及终端装置
US20170300831A1 (en) * 2016-04-18 2017-10-19 Google Inc. Automated assistant invocation of appropriate agent
US20180040324A1 (en) * 2016-08-05 2018-02-08 Sonos, Inc. Multiple Voice Services
US20180301147A1 (en) * 2017-04-13 2018-10-18 Harman International Industries, Inc. Management layer for multiple intelligent personal assistant services
US20180357473A1 (en) * 2017-06-07 2018-12-13 Honda Motor Co.,Ltd. Information providing device and information providing method

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020052913A1 (en) * 2000-09-06 2002-05-02 Teruhiro Yamada User support apparatus and system using agents
JP2004096530A (ja) * 2002-09-02 2004-03-25 Matsushita Electric Ind Co Ltd 選局装置およびテレビ受信システム
JP4645310B2 (ja) * 2005-06-02 2011-03-09 株式会社デンソー エージェントキャラクタ表示を利用した表示システム
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
JP5858400B2 (ja) * 2011-12-09 2016-02-10 アルパイン株式会社 ナビゲーション装置
KR101416378B1 (ko) * 2012-11-27 2014-07-09 현대자동차 주식회사 영상 이동이 가능한 디스플레이 장치 및 방법
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
CN108701142A (zh) * 2016-02-26 2018-10-23 索尼公司 信息处理系统、客户终端、信息处理方法和记录介质
JP7340940B2 (ja) * 2019-03-07 2023-09-08 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090545A (ja) * 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
US20080109285A1 (en) * 2006-10-26 2008-05-08 Mobile Content Networks, Inc. Techniques for determining relevant advertisements in response to queries
JP2008165737A (ja) * 2006-10-26 2008-07-17 Mobile Content Networks Inc クエリに応答して、関連性のある広告を決定する技術
JP2014222509A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
CN104488027A (zh) * 2012-07-09 2015-04-01 独立行政法人情报通信研究机构 声音处理系统以及终端装置
US20170300831A1 (en) * 2016-04-18 2017-10-19 Google Inc. Automated assistant invocation of appropriate agent
US20180040324A1 (en) * 2016-08-05 2018-02-08 Sonos, Inc. Multiple Voice Services
US20180301147A1 (en) * 2017-04-13 2018-10-18 Harman International Industries, Inc. Management layer for multiple intelligent personal assistant services
JP2018181330A (ja) * 2017-04-13 2018-11-15 ハーマン インターナショナル インダストリーズ インコーポレイテッド 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ
US20180357473A1 (en) * 2017-06-07 2018-12-13 Honda Motor Co.,Ltd. Information providing device and information providing method

Also Published As

Publication number Publication date
US20200286479A1 (en) 2020-09-10
JP2020144274A (ja) 2020-09-10

Similar Documents

Publication Publication Date Title
CN111661068B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11380325B2 (en) Agent device, system, control method of agent device, and storage medium
CN111667824A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111746435B (zh) 信息提供装置、信息提供方法及存储介质
CN111559328B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111717142A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111731320B (zh) 智能体系统、智能体服务器及其控制方法、存储介质
CN111661065B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111667823B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11437035B2 (en) Agent device, method for controlling agent device, and storage medium
CN111754288A (zh) 服务器装置、信息提供系统、信息提供方法及存储介质
CN111752235A (zh) 服务器装置、智能体装置、信息提供方法及存储介质
CN111731323A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US11355114B2 (en) Agent apparatus, agent apparatus control method, and storage medium
JP2020142758A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111559317B (zh) 智能体装置、智能体装置的控制方法及存储介质
JP7297483B2 (ja) エージェントシステム、サーバ装置、エージェントシステムの制御方法、およびプログラム
CN111824174A (zh) 智能体装置、智能体装置的控制方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200915