CN111661065B - 智能体装置、智能体装置的控制方法及存储介质 - Google Patents

智能体装置、智能体装置的控制方法及存储介质 Download PDF

Info

Publication number
CN111661065B
CN111661065B CN202010145341.3A CN202010145341A CN111661065B CN 111661065 B CN111661065 B CN 111661065B CN 202010145341 A CN202010145341 A CN 202010145341A CN 111661065 B CN111661065 B CN 111661065B
Authority
CN
China
Prior art keywords
agent
unit
request
function
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010145341.3A
Other languages
English (en)
Other versions
CN111661065A (zh
Inventor
我妻善史
古屋佐和子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of CN111661065A publication Critical patent/CN111661065A/zh
Application granted granted Critical
Publication of CN111661065B publication Critical patent/CN111661065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Arrangement of adaptations of instruments
    • B60K35/10
    • B60K35/28
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • B60K2360/11
    • B60K2360/148
    • B60K2360/161
    • B60K35/22
    • B60K35/26
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • B60W2050/143Alarm means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • B60W2050/146Display means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Combustion & Propulsion (AREA)
  • Chemical & Material Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

提供智能体装置、智能体装置的控制方法及存储介质。智能体装置具备:第一取得部,其取得利用者的声音;识别部,其识别由所述第一取得部取得的声音;以及多个智能体功能部,它们基于由所述识别部识别的识别结果,提供包含使输出部输出响应的服务,所述多个智能体功能部所包含的第一智能体功能部在无法应对由所述识别部识别到的声音所包含的要求、且所述多个智能体功能部中的其他智能体功能部能够应对所述要求的情况下,使所述输出部输出向所述利用者推荐所述其他智能体功能部的信息。

Description

智能体装置、智能体装置的控制方法及存储介质
技术领域
本发明涉及智能体装置、智能体装置的控制方法及存储介质。
背景技术
以往,公开了与智能体功能相关的技术,该智能体功能一边与车辆的乘员进行对话,一边提供与乘员的要求相应的驾驶支援相关的信息、车辆的控制、其他应用程序等(日本特开2006-335231号公报)。
发明内容
近年来,关于多个智能体功能向一个智能体装置的搭载,正在推进实用化,但是,即便是搭载有多个智能体功能的情况下,存在若利用者所指定的智能体功能无法对来自利用者的请求进行响应,则无法判断应该向哪一个智能体发出请求的情况。其结果是,存在无法进行向利用者的合适的支援的情况。
本发明是考虑这样的情形而完成的,目的之一在于,提供一种能够对利用者进行更合适的支援的智能体装置、智能体装置的控制方法及存储介质。
本发明的智能体装置、智能体装置的控制方法及存储介质采用了以下的结构。
(1):本发明的一方案的智能体装置,其具备:第一取得部,其取得利用者的声音;识别部,其识别由所述第一取得部取得到的声音;以及多个智能体功能部,它们基于由所述识别部识别的识别结果,提供包含使输出部输出响应的服务,所述多个智能体功能部所包含的第一智能体功能部在无法应对由所述识别部识别到的声音所包含的要求、且所述多个智能体功能部中的其他智能体功能部能够应对所述要求的情况下,使所述输出部输出向所述利用者推荐所述其他智能体功能部的信息。
(2):在上述(1)的方案中,所述第一智能体功能部在无法应对所述要求、且所述其他智能体功能部能够应对所述要求的情况下,向所述利用者提供表示所述第一智能体功能部无法应对所述要求的信息,并且使所述输出部输出向所述利用者推荐所述其他智能体功能部的信息。
(3):在上述(1)或(2)的方案中,所述智能体装置还具备第二取得部,所述第二取得部取得所述多个智能体功能部各自的功能信息,所述第一智能体功能部基于由所述第二取得部取得的功能信息,取得能够应对所述要求的其他智能体功能部的信息。
(4):在上述(1)~(3)中任一项的方案中,所述第一智能体功能部在无法应对所述要求、且所述要求中包括规定的要求的情况下,不使所述输出部输出向所述利用者推荐所述其他智能体功能部的信息。
(5):在上述(4)的方案中,所述规定的要求包括使所述第一智能体功能部执行特定的功能的要求。
(6):在上述(5)的方案中,所述特定的功能包括进行搭载有所述多个智能体功能部的移动体的控制的功能。
(7):本发明的另一方案的智能体装置的控制方法,其使计算机进行如下处理:启动多个智能体功能部;作为启动了的所述智能体功能部的功能,识别所取得的利用者的声音,基于识别结果,提供包含使输出部输出响应的服务;以及所述多个智能体功能部所包含的第一智能体功能部在无法应对识别到的声音所包含的要求、且所述多个智能体功能部的其他智能体功能部能够应对所述要求的情况下,向所述利用者推荐所述其他智能体功能部。
(8):本发明的另一方案的存储介质,其存储有程序,所述程序使计算机进行如下处理:启动多个智能体功能部;作为所述启动了的智能体功能部的功能,识别所取得的利用者的声音,基于识别结果,提供包含使输出部输出响应的服务;以及所述多个智能体功能部所包含的第一智能体功能部在无法应对识别到的声音所包含的要求、且所述多个智能体功能部的其他智能体功能部能够应对所述要求的情况下,向所述利用者推荐所述其他智能体功能部。
根据上述(1)~(8)的方案,能够对利用者进行更合适的支援。
附图说明
图1是包含智能体装置的智能体系统的结构图。
图2是示出第一实施方式的智能体装置的结构和搭载于车辆的设备的图。
图3是示出显示·操作装置的配置例的图。
图4是示出扬声器单元的配置例的图。
图5是示出功能DB的内容的一例的图。
图6是示出第一实施方式的智能体服务器的结构和智能体装置的结构的一部分的图。
图7是用于对乘员使智能体启动的场景进行说明的图。
图8是示出在智能体处于启动中的场景下由显示控制部显示的图像的一例的图。
图9是用于对输出了包含表示智能体无法应对的信息的响应内容的场景进行说明的图。
图10是用于对使智能体启动来使其进行处理的场景进行说明的图。
图11示出在进行了包含规定的要求的讲话的场景下由显示控制部显示的图像IM5的一例的图。
图12是示出由第一实施方式的智能体装置执行的处理的流程的一例的流程图。
图13是示出第二实施方式的智能体装置的结构和搭载于车辆的设备的图。
图14是示出由第二实施方式的智能体装置执行的处理的流程的一例的流程图。
具体实施方式
以下,参照附图,对本发明的智能体装置、智能体装置的控制方法及存储介质的实施方式进行说明。智能体装置是实现智能体系统的一部分或全部的装置。以下,作为智能体装置的一例,对搭载于车辆(以下,车辆M)并具备多个种类的智能体功能的智能体装置进行说明。车辆M是移动体的一例。本发明的适用上,不一定必须智能体装置具有多个种类的智能体功能,另外,智能体装置也可以是智能手机等可移动型终端装置,但是,在以下的说明,将具备搭载于车辆的多个种类的智能体功能的智能体装置作为前提。所谓智能体功能,例如是如下功能:一边与车辆M的乘员(利用者的一例)进行对话,一边进行基于乘员的讲话中所包含的要求(指令)的各种信息提供、各种设备控制,或者居间于网络服务的功能。多个种类的智能体的各自起到的功能、处理步骤、控制、输出形态·内容也可以分别不同。另外,智能体功能中,可以存在具有进行车辆内的设备(例如与驾驶控制、车身控制相关的设备)的控制等的功能的智能体功能。
智能体功能例如除了识别乘员的声音的声音识别功能(将声音文本化的功能)之外,还综合地利用自然语言处理功能(理解文本的构造、意思的功能)、对话管理功能、经由网络而检索其他装置或检索自身装置所持有的规定的数据库的网络检索功能等来实现。这些功能的一部分或全部可以利用AI(Artificial Intelligence)技术来实现。用于进行这些功能的结构的一部分(尤其是,声音识别功能、自然语言处理解释功能)也可以搭载于能够与车辆M的车载通信装置或被带入到车辆M中的通用通信装置进行通信的智能体服务器(外部装置)。在以下的说明中,将结构的一部分搭载于智能体服务器且智能体装置与智能体服务器协同配合地实现智能体系统作为前提。智能体装置与智能体服务器协同配合而假想地出现的服务提供主体(服务·实体)称作智能体。
<整体结构>
图1是包含智能体装置100的智能体系统1的结构图。智能体系统1例如具备智能体装置100和多个智能体服务器200-1、200-2、200-3、…。附图标记的末尾的连字符以下数字设为用于区分智能体的标识符。在不对是哪一个智能体服务器进行区分的情况下,存在简称作智能体服务器200的情况。在图1中示出了3个智能体服务器200,但是,智能体服务器200的数既可以是2个,也可以是4个以上。各智能体服务器200由互不相同的智能体系统的提供者运营。因此,本实施方式中的智能体是由互不相同的提供者实现的智能体。作为提供者,例如可以举出机动车制造商、网络服务商、电子商贸商、便携终端的销售者及制造者等,任意的主体(法人、团体、个人等)都能够成为智能体系统的提供者。
智能体装置100经由网络NW而与智能体服务器200通信。网络NW例如包括互联网、蜂窝网、Wi-Fi网、WAN(Wide Area Network)、LAN(Local Area Network)、公用线路、电话线、无线基地站等中的一部分或全部。网络NW连接有各种网页服务器300,智能体服务器200或智能体装置100能够经由网络NW而从各种网页服务器300取得网页。
智能体装置100与车辆M的乘员进行对话,将来自乘员的声音向智能体服务器200发送,将从智能体服务器200得到的回答以声音输出、图像显示的形式向乘员提示。
<第一实施方式>
[车辆]
图2是示出第一实施方式的智能体装置100的结构和搭载于车辆M的设备的图。在车辆M例如搭载有一个以上的话筒10、显示·操作装置20、扬声器单元30、导航装置40、车辆设备50、车载通信装置60、乘员识别装置80、及智能体装置100。存在智能手机等通用通信装置70被带入到车室内,作为通信装置而被使用的情况。这些装置通过CAN(Controller AreaNetwork)通信线等多路通信线、串行通信线、无线通信网等而互相连接。图2所示的结构只不过是一例,既可以省略结构的一部分,也可以还追加别的结构。显示·操作装置20和扬声器单元30中的至少一方是“输出部”的一例。
话筒10是收集在车室内产生的声音的收音部。显示·操作装置20是显示图像并且能够接受输入操作的装置(或装置群)。显示·操作装置20例如包括作为触摸面板而构成的显示器装置。显示·操作装置20也可以还包括HUD(Head Up Display)、机械式的输入装置。扬声器单元30例如包括配设于车室内的互不相同的位置的多个扬声器(音输出部)。显示·操作装置20也可以在智能体装置100和导航装置40中共用。关于它们的详情后述。
导航装置40具备导航HMI(Human Machine Interface)、GPS(Global PositioningSystem)等位置测定装置、存储有地图信息的存储装置、及进行路径搜索等的控制装置(导航控制器)。话筒10、显示·操作装置20及扬声器单元30中的一部分或全部可以作为导航HMI而被使用。导航装置40搜索用于从由位置测定装置确定出的车辆M的位置移动至由乘员输入的目的地的路径(导航路径),使用导航HMI输出引导信息,以便车辆M能够沿着路径行驶。路径搜索功能也可以处于能够经由网络NW访问的导航服务器中。在该情况下,导航装置40从导航服务器取得路径而输出引导信息。智能体装置100也可以以导航控制器为基础而构筑,在该情况下,导航控制器与智能体装置100硬件上构成为一体。
车辆设备50例如包括发动机、行驶用马达等驱动力输出装置、发动机的启动马达、车门锁定装置、车门开闭装置、车窗、车窗的开闭装置、车窗的开闭控制装置、座椅、座椅位置的控制装置、车室内后视镜及其角度位置控制装置、车辆内外的照明装置、照明装置的控制装置、刮水器、除雾器及各自的控制装置、方向指示灯、方向指示灯的控制装置、空调装置、行驶距离、轮胎的空气压的信息、燃料的残余量信息等的车辆信息装置等。
车载通信装置60例如是能够利用蜂窝网、Wi-Fi网访问网络NW的无线通信装置。
乘员识别装置80例如包括就座传感器、车室内相机、图像识别装置等。就座传感器包括设置于座位的下部的压力传感器、安装于座椅安全带的张力传感器等。车室内相机是设置于车室内的CCD(Charge Coupled Device)相机、CMOS(Complementary Metal OxideSemiconductor)相机。图像识别装置对车室内相机的图像进行解析,识别每个座位的乘员的有无、面部朝向等。
图3是示出显示·操作装置20的配置例的图。显示·操作装置20例如包括第一显示器22、第二显示器24、操作开关ASSY26。显示·操作装置20也可以还包括HUD28。显示·操作装置20也可以还包括设置于仪表板中的与驾驶员座DS面对的部分的仪表显示器29。第一显示器22、第二显示器24、HUD28及仪表显示器29合起来是“显示部”的一例。
在车辆M中,例如存在设置有转向盘SW的驾驶员座DS、和相对于驾驶员座DS设置于车宽方向(图中Y方向)的副驾驶员座AS。第一显示器22是从仪表板中的驾驶员座DS与副驾驶员座AS的中间附近延伸至与副驾驶员座AS的左端部对置的位置的横长形状的显示器装置。第二显示器24设置于驾驶员座DS与副驾驶员座AS的车宽方向上的中间附近且第一显示器的下方。例如,第一显示器22和第二显示器24均作为触摸面板而构成,作为显示部而具备LCD(Liquid Crystal Display)、有机EL(Electroluminescence)、等离子体显示器等。操作开关ASSY26是拨码开关、按钮式开关等集聚而成的。HUD28例如是使图像重叠于风景而供目视确认的装置,作为一例,通过向车辆M的前风窗玻璃、组合器投射包含图像的光,来使乘员目视确认虚像。仪表显示器29例如是LCD、有机EL等,显示速度表、旋转速度表等计量仪器类。显示·操作装置20将由乘员进行的操作的内容向智能体装置100输出。上述的各显示部显示的内容可以由智能体装置100决定。
图4是示出扬声器单元30的配置例的图。扬声器单元30例如包括扬声器30A~30H。扬声器30A设置于驾驶员座DS侧的窗柱(所谓的A柱)。扬声器30B设置于靠近驾驶员座DS的车门的下部。扬声器30C设置于副驾驶员座AS侧的窗柱。扬声器30D设置于靠近副驾驶员座AS的车门的下部。扬声器30E设置于靠近右侧后部座位BS1侧的车门的下部。扬声器30F设置于靠近左侧后部座位BS2侧的车门的下部。扬声器30G设置于第二显示器24的附近。扬声器30H设置于车室的顶棚(roof)。
在该配置中,例如,在专门使扬声器30A及30B输出了声音的情况下,声像会定位于驾驶员座DS附近。所谓“声像定位”,例如,通过调节向乘员的左右耳传递的声音的大小、时机,来设定乘员感到的声源的空间上的位置。在专门使扬声器30C及30D输出了声音的情况下,声像会定位于副驾驶员座AS附近。在专门使扬声器30E输出了声音的情况下,声像会定位于车室的前方附近,在专门使扬声器30F输出了声音的情况下,声像会定位于车室的上方附近。在专门使扬声器30G输出了声音的情况下,声像会定位于车室的前方附近,在专门使扬声器30H输出了声音的情况下,声像会定位于车室的上方附近。不限定于此,扬声器单元30能够通过使用混音器、放大器调整各扬声器输出的声音的分配,来使声像定位于车室内的任意的位置。
[智能体装置]
返回图2,智能体装置100具备管理部110、智能体功能部150-1、150-2、150-3、配对应用执行部160、存储部170。管理部110例如具备声响处理部112、按每个智能体WU(WakeUp)判定部114、功能取得部116、输出控制部120。以下,在不对是哪一个智能体功能部进行区分的情况下,简称作智能体功能部150。示出了3个智能体功能部150,这不过是与图1中的智能体服务器200的数量对应的一例,智能体功能部150的数量也可以是2个,还可以是4个以上。图2所示的软件配置是为了说明而简易地示出,实际上,能够像例如也可以在智能体功能部150与车载通信装置60之间介入有管理部110那样任意地改变。以下,存在将智能体功能部150-1与智能体服务器200-1协同配合而出现的智能体称作“智能体1”,将智能体功能部150-2与智能体服务器200-2协同配合而出现的智能体称作“智能体2”,将智能体功能部150-3与智能体服务器200-3协同配合而出现的智能体称作“智能体3”的情况。
智能体装置100的各构成要素例如通过由CPU(Central Processing Unit)等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以通过LSI(LargeScale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括电路部;circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于HDD(Hard Disk Drive)、闪存器等存储装置(具备非暂时性的存储介质的存储装置)中,也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性的存储介质)并通过将存储介质装配于驱动装置而安装。话筒10与声响处理部112组合来是“第一取得部”的一例。第一实施方式中的功能取得部116是“第二取得部”的一例。
存储部170通过上述的各种存储装置来实现。在存储部170中例如保存功能DB172等数据、程序。关于功能DB172的详情后述。
管理部110通过执行OS(Operating System)、中间件等程序而发挥功能。
管理部110的声响处理部112接受从话筒10收集到的声音,对接受到的声音进行声响处理,以使得成为适于识别针对每个智能体预先设定的唤醒词的状态。所谓唤醒词,例如是用于使对象的智能体启动的单词(word)、短语等。所谓声响处理,例如是通过带通滤波器等的滤波实现的噪声去除、声音的放大等。声响处理部112将进行了声响处理的声音向按每个智能体WU判定部114、启动中的智能体功能部输出。
按每个智能体WU判定部114与智能体功能部150-1、150-2、150-3分别相对应地存在,识别针对每个智能体预先设定的唤醒词。按每个智能体WU判定部114从进行了声响处理的声音(声音流)识别声音的意思。首先,按每个智能体WU判定部114基于声音流中的声音波形的振幅和零交叉来检测声音区间。按每个智能体WU判定部114也可以进行通过基于混合高斯分布模型(GMM;Gaussian mixture model)的帧单位的声音识别及非声音识别实现的区间检测。
接着,按每个智能体WU判定部114将检测到的声音区间中的声音文本化,设为文字信息。然后,按每个智能体WU判定部114判定文本化了的文字信息是否符合唤醒词。在判定为是唤醒词的情况下,按每个智能体WU判定部114使对应的智能体功能部150启动。与按每个智能体WU判定部114相当的功能也可以搭载于智能体服务器200。在该情况下,管理部110将由声响处理部112进行了声响处理的声音流向智能体服务器200发送,在智能体服务器200判定为是唤醒词的情况下,按照来自智能体服务器200的指示,智能体功能部150启动。各智能体功能部150可以始终启动且自行进行唤醒词的判定。在该情况下,无需管理部110具备按每个智能体WU判定部114。
按每个智能体WU判定部114在以与上述的步骤同样的步骤识别到进行了讲话的声音所包含的结束词、且与结束词对应的智能体处于启动着的状态(以下,根据需要,称作“启动中”)的情况下,使启动着的智能体功能部结束(停止)。智能体的启动及结束例如也可以通过从显示·操作装置20接受规定的操作来执行,但是,以下,说明通过声音实现的启动及停止的例子。也可以在规定时间以上未接受声音的输入的情况下使启动中的智能体停止。
功能取得部116取得与搭载于车辆M的各智能体1~3各自能够执行的功能相关的信息(以下,称作功能信息),将所取得的功能信息作为功能DB(数据库)172而保存于存储部170。图5是示出功能DB172的内容的一例的图。功能DB172中,例如,作为对智能体进行识别的识别信息的智能体ID与功能可否信息建立了对应关系。功能可否信息中,表示是否能够执行与功能类别建立了对应关系的功能的信息与各智能体建立了对应关系。在图5的例子中,作为功能类别,示出了车辆设备控制、天气预报、路径引导、家庭设备控制、音乐播放、店铺检索、商品订购、电话(免提通话),但是,关于功能的数及种类,不限定于此。在图5的例子中,对于智能体能够执行的功能,保存有“1”,对于不能实现的功能,保存有“0”,但是,也可以使用能够识别可否的其他信息。
功能取得部116针对各智能体功能部150-1~150-3,以规定的时机、规定周期,进行针对上述的各功能的执行可否的询问,将作为询问结果而得到的功能信息保存于功能DB172中。所谓规定的时机,例如是所搭载的智能体的软件被升级了的时机、新的智能体被进行了追加、删除或用于系统维护的暂时的休止的时机、从显示·操作装置20或车辆M的外部装置接受了通过功能取得部116实现的处理的执行指示的时机。功能取得部116在不进行上述的询问而从智能体功能部150接受了与功能信息相关的信息的情况下,基于所接受的信息,更新功能DB172。更新包括功能信息的新注册、变更、删除等。
功能取得部116也可以取得由能够经由车载通信装置60等通信的外部装置(例如,数据库服务器、服务器等)生成的功能DB172。
输出控制部120通过根据来自管理部110或智能体功能部150的指示使显示部或扬声器单元30输出响应结果等信息,向乘员进行服务等的提供。输出控制部120例如具备显示控制部122和声音控制部124。
显示控制部122根据来自输出控制部120的指示,使显示部的规定的区域显示图像。以下,设为使第一显示器22显示与智能体相关的图像来进行说明。显示控制部122通过输出控制部120的控制,例如生成在车室内进行与乘员的交流的拟人化了的智能体的图像(以下,称作智能体图像),使所生成的智能体图像显示于第一显示器22。智能体图像例如是对乘员搭话的形态的图像。智能体图像例如可以包含至少由观看者(乘员)识别表情、面部朝向的程度的面部图像。例如,智能体图像可以在面部区域中呈现模仿眼睛、鼻子的部件,基于面部区域中的部件的位置而识别表情、面部朝向。智能体图像也可以被立体地感受,通过包含三维空间中的头部图像而由观看者识别智能体的面部朝向,通过包含主体(身躯、手脚)的图像而由观看者识别智能体的动作、举止、姿态等。智能体图像也可以是动画图像。例如,显示控制部122也可以在靠近由乘员识别装置80识别到的乘员的位置的显示区域显示智能体图像,或者生成使面部朝向乘员的位置的智能体图像并使其显示。
声音控制部124根据来自输出控制部120的指示,使扬声器单元30所包含的扬声器中的一部分或全部输出声音。声音控制部124也可以进行使用多个扬声器单元30而使智能体声音的声像定位于与智能体图像的显示位置对应的位置的控制。所谓与智能体图像的显示位置对应的位置,例如是被预测为乘员感到智能体图像正在讲出智能体声音的位置,具体而言,是智能体图像的显示位置附近(例如,2~3[cm]以内)的位置。
智能体功能部150与对应的智能体服务器200协同配合而使智能体出现,与车辆的乘员的讲话相应地,提供包含通过声音进行的响应的服务。在智能体功能部150中可以包含被赋予了控制车辆M(例如,车辆设备50)的权限的功能部。智能体功能部150中可以存在经由配对应用执行部160而与通用通信装置70协作来与智能体服务器200通信的功能部。例如,对智能体功能部150-1赋予了控制车辆M(例如,车辆设备50)的权限。智能体功能部150-1经由车载通信装置60而与智能体服务器200-1通信。智能体功能部150-2经由车载通信装置60而与智能体服务器200-2通信。智能体功能部150-3经由配对应用执行部160而与通用通信装置70协作来与智能体服务器200-3通信。
配对应用执行部160例如通过Bluetooth(注册商标)与通用通信装置70进行配对,使智能体功能部150-3与通用通信装置70连接。智能体功能部150-3也可以通过利用了USB(Universal Serial Bus)等的有线通信而连接于通用通信装置70。
智能体功能部150-1~150-3在接受了来自功能取得部116的针对各功能的执行可否的询问的情况下,经由智能体服务器200等生成针对询问的回答(功能信息),将所生成的回答向功能取得部116输出。智能体功能部150-1~150-3分别也可以在与来自功能取得部116的询问无关地自己进行了智能体功能的更新等的情况下将功能信息向功能取得部116发送。智能体功能部150-1~150-3分别执行针对从声响处理部112等输入的乘员的讲话(声音)的处理,将执行结果(例如,针对讲话所包含的要求的响应结果)向管理部110输出。关于通过智能体功能部150及智能体服务器200实现的智能体的功能的详情后述。
[智能体服务器]
图6是示出第一实施方式的智能体服务器200的结构和智能体装置100的结构的一部分的图。以下,与智能体服务器200的结构一起,对智能体功能部150等的动作进行说明。在此,省略关于从智能体装置100到网络NW的物理上的通信的说明。以下,主要以智能体功能部150-1及智能体服务器200-1为中心进行说明,但是,关于其他智能体功能部、智能体服务器的组也是,尽管各自中能够执行的功能、数据库等不同,但是以大致同样的流程执行处理。
智能体服务器200-1具备通信部210。通信部210例如是NIC(Network InterfaceCard)等网络接口。而且,智能体服务器200-1例如具备声音识别部220、自然语言处理部222、对话管理部224、网络检索部226、响应文生成部228、存储部250。这些构成要素例如通过由CPU等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部;circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置)中,也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性的存储介质)并通过将存储介质装配于驱动装置而安装。声音识别部220与自然语言处理部222合起来是“识别部”的一例。
存储部250通过上述的各种存储装置来实现。在存储部250中例如保存有字典DB252、个人简介254、知识库DB256、响应规则DB258等数据、程序。
在智能体装置100中,智能体功能部150-1例如将从声响处理部112等输入的声音流、或进行了压缩、编码等处理的声音流向智能体服务器200-1发送。智能体功能部150-1也可以在识别到能够进行本地处理(不经由智能体服务器200-1的处理)的指令(要求内容)的情况下,进行通过指令要求的处理。所谓能够进行本地处理的指令,例如是通过参照智能体装置100所具备的存储部170而能够响应的指令。更具体而言,所谓能够进行本地处理的指令,例如,是从存在于存储部170内的电话本数据(未图示)中检索特定者的名字并给与相一致的名字建立了对应关系的电话号码打电话(呼叫对方)的指令。因此,智能体功能部150-1也可以具有智能体服务器200-1所具备的功能的一部分。
当取得声音流后,声音识别部220进行声音识别并将文本化了的文字信息输出,自然语言处理部222针对文字信息一边参照字典DB252一边进行意思解释。字典DB252中,例如对于文字信息,抽象化了的意思信息建立了对应关系。字典DB252例如包含功能字典252A和通用字典252B。功能字典252A是用于涵盖智能体服务器200-1与智能体功能部150-1协同配合而实现的智能体1提供的功能的字典。例如,在智能体1提供控制车载空调的功能的情况下,功能字典252A中,“空调”、“空调机”、“打开”、“关闭”、“温度”、“上升”、“下降”、“室内气氛”、“室外气氛”等单词与动词、宾语等单词类别及抽象化了的意思建立对应关系并进行了登记。功能字典252A中,也可以包含表示能够同时使用的单词间链接信息。通用字典252B是与不限于智能体1提供的功能而将一般的事物的事项抽象化了的意思建立了对应关系的字典。功能字典252A和通用字典252B分别也可以包含同义词、近义词的一览信息。功能字典252A和通用字典252B可以与多个语言分别相对应地准备,在该情况下,声音识别部220及自然语言处理部222使用与预先设定的语言设定相应的功能字典252A及通用字典252B、以及语法信息(未图示)。声音识别部220的处理和自然语言处理部222的处理,可以不明确分阶段,而是接受自然语言处理部222的处理结果而声音识别部220修正识别结果等相互影响地进行。
作为基于由声音识别部220识别的识别结果的意思解析之一,自然语言处理部222取得与为了应对声音所包含的要求所需的功能相关的信息(以下,称作所需功能)。例如,作为识别结果,在识别到“打开自己家的空调”的意思的情况下,自然语言处理部222参照字典DB252等,作为所需功能,取得“家庭设备控制”这一功能类别。然后,自然语言处理部222将所取得的所需功能向智能体功能部150-1输出,取得针对所需功能的执行可否的判定结果。自然语言处理部222在能够执行所需功能的情况下,认为能够应对要求,生成识别到的意思所包含的指令。
例如,自然语言处理部222在识别到“今天的天气是”、“天气怎么样”等意思作为识别结果、且与识别到的意思对应的功能是能够执行的功能的情况下,生成置换为标准文字信息“今天的天气”的指令。由此,即便在请求的声音存在了表述差异的情况下,也能够容易进行与要求相符的对话。自然语言处理部222例如也可以使用利用了概率的机器学习处理等人工智能处理来识别文字信息的意思,生成基于识别结果的指令。
对话管理部224基于所输入的指令,一边参照个人简介254、知识库DB256、响应规则DB258,一边决定针对车辆M的乘员的响应内容(例如,向乘员的讲话内容、从输出部输出的图像、声音)。个人简介254包含针对每个乘员保存着的乘员的个人信息、兴趣偏好、过去的对话的履历等。知识库DB256是规定了事物的关系性的信息。响应规则DB258是规定了针对指令而智能体应该进行的动作(回答、设备控制的内容等)的信息。
对话管理部224也可以通过使用从声音流得到的特征信息而与个人简介254进行对照,来确定乘员。在该情况下,个人简介254中,例如声音的特征信息与个人信息建立了对应关系。所谓声音的特征信息,例如是与声音的高度、语调、节奏(声音的高低的模式)等说话方式的特征、基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients)等的特征量相关的信息。声音的特征信息例如是在乘员的初始登记时使乘员对规定的单词、句子等进行发声,通过识别发出的声音得到的信息。
对话管理部224在指令是要求能够经由网络NW而检索的信息的指令的情况下,使网络检索部226进行检索。网络检索部226经由网络NW而访问各种网页服务器300,取得期望的信息。所谓“能够经由网络NW而检索的信息”,例如是处于车辆M的周边的餐厅的基于一般用户的评价结果、与当日的车辆M的位置相应的天气预报。
响应文生成部228以使得由对话管理部224决定出的讲话的内容向车辆M的乘员传达的方式,生成响应文,将所生成的响应文(响应内容)向智能体装置100发送。响应文生成部228从智能体装置100取得基于乘员识别装置80的识别结果,在根据所取得的识别结果确定了进行了包含指令的讲话的乘员是在个人简介254中登记了的乘员的情况下,也可以呼叫乘员的名字,生成模仿乘员的说话方式的说话方式的响应文。响应文生成部228在不能执行包含所需功能的功能的情况下,生成用于向乘员传达无法应对要求的响应文,或者生成推荐其他智能体的响应文,或者生成能够执行的智能体处于维护中的意旨的响应文。
智能体功能部150当取得响应文后,指示声音控制部124进行声音合成并输出声音。智能体功能部150与声音输出相配合地生成智能体图像,指示显示控制部122显示所生成的智能体图像、响应内容所包含的图像等。这样,假想地出现的智能体对车辆M的乘员进行响应的智能体功能得以实现。
[智能体的功能]
以下,对通过智能体功能部150及智能体服务器200实现的智能体的功能的详请进行说明。以下,将智能体装置100所包含的多个智能体功能部150-1~150-3中的智能体功能部150-1设为“第一智能体功能部”来进行说明,但是,智能体功能部150-2或智能体功能部150-3也可以是“第一智能体功能部”。所谓“第一智能体功能部”,是由车辆M的乘员(以下,乘员P)选择的智能体功能部。所谓“由乘员P选择”,例如是通过乘员P的讲话所包含的唤醒词而启动(调出)。以下,对通过智能体的功能而向乘员P提供的响应内容的具体例也进行说明。
图7是用于对乘员P使智能体启动的场景进行说明的图。在图7的例子中,示出了由显示控制部122在第一显示器22的规定的区域显示的图像IM1。关于在图像IM1中显示的内容、布局等,并不限定于此。图像IM1是基于来自输出控制部120等的指示而由显示控制部122生成并在第一显示器22(显示部的一例)的规定的区域显示的图像。上述的内容,设为关于以后的图像的说明也是同样的。
输出控制部120例如在特定的智能体处于没有启动着的状态(换言之,第一智能体功能部没有被确定的状态)的情况下,使显示控制部122生成图像IM1作为初始状态画面,使第一显示器22显示所生成的图像IM1。
图像IM1中例如包括文字信息显示区域A11和智能体显示区域A12。在文字信息显示区域A11,例如显示与能够使用的智能体的数量、种类相关的信息。所谓能够使用的智能体,例如是乘员P能够启动的智能体。能够使用的智能体,例如基于车辆M正在行驶的地域、时间段、智能体的状况、由乘员识别装置80识别的乘员P而设定。智能体的状况中,例如包括由于车辆M存在于地下、隧道内而智能体装置100与智能体服务器200无法通信的状况、或者针对其他要求等的处理已经处于执行中而无法执行针对接下来的讲话的处理的状况。在图7的例子中,在文字信息显示区域A11,显示有“能够使用3个智能体”这一文字信息。
在智能体显示区域A12,显示与能够使用的智能体建立了对应关系的智能体图像。在智能体显示区域A12,也可以显示智能体图像以外的识别信息。在图7的例子中,在智能体显示区域A12,显示有与智能体1~3建立了对应关系的智能体图像EI1~EI3和识别各智能体的识别信息(智能体1~3)。由此,乘员P能够容易地掌握到能够使用的智能体的数量、种类。
在此,设为乘员P讲出了作为使智能体1启动的唤醒词的“喂,智能体1!”。在该情况下,按每个智能体WU判定部114识别从话筒10输入并由声响处理部112进行了声响处理的讲话的声音所包含的唤醒词,使与识别到的唤醒词对应的智能体功能部150-1(第一智能体功能部)启动。智能体功能部150-1通过显示控制部122的控制,使第一显示器22显示智能体图像EI1。
图8是示出在智能体1处于启动中的场景下由显示控制部122显示的图像IM2的一例的图。图像IM2中例如包括文字信息显示区域A21和智能体显示区域A22。在文字信息显示区域A21,例如显示与同乘员P进行对话的智能体相关的信息。在图8的例子中,在文字信息显示区域A21,显示有“智能体1响应中”这一文字信息。在该场景下,显示控制部122也可以不使文字信息显示区域A21显示文字信息。
在智能体显示区域A22,显示与响应中的智能体建立了对应关系的智能体图像。在图8的例子中,在智能体显示区域A22,显示有与智能体1建立了对应关系的智能体图像EI1。由此,乘员P能够容易地掌握到智能体1处于启动中。
在此,如图8所示,假设乘员P讲出了“打开自己家的空调!”。智能体功能部150-1将从话筒10输入并由声响处理部112进行了声响处理的讲话的声音(声音流)向智能体服务器200-1发送。智能体服务器200-1通过声音识别部220及自然语言处理部222进行声音识别及意思解析,取得“家庭设备控制”这一所需功能。智能体服务器200-1将所取得的所需功能向智能体功能部150-1输出。
智能体功能部150-1使用由智能体服务器200-1输出的所需功能,参照功能DB172的功能可否信息,取得与同所需功能相一致的功能类别及自身智能体ID建立了对应关系的功能可否信息。根据图5的功能可否信息,智能体1无法执行家庭设备控制的功能。因此,作为应对可否结果,智能体功能部150-1将表示自身智能体(智能体1)无法执行所需功能(无法应对乘员P的要求)的信息向智能体服务器200-1输出。在智能体1能够执行家庭设备控制的功能的情况下,作为应对可否结果,智能体功能部150-1将表示自身智能体能够执行所需功能(能够应对乘员P的要求)的信息向智能体服务器200-1输出。
在无法执行所需功能的情况下,智能体功能部150-1也可以参照功能DB172,取得能够执行所需功能的其他智能体,将与所取得的其他智能体相关的信息向智能体服务器200-1输出。例如,根据图5的功能可否信息,能够执行家庭设备控制的功能的智能体是智能体2。因此,作为应对可否结果,智能体功能部150-1将表示能够应对乘员P的要求的智能体是智能体2的信息向智能体服务器200-1输出。
智能体服务器200-1基于来自智能体功能部150-1的所需功能的应对可否结果等,生成应对乘员P的讲话的响应文。具体而言,由于智能体1无法执行所需功能,所以智能体服务器200-1生成推荐能够应对的其他智能体(智能体2)的响应文。然后,智能体服务器200-1将所生成的响应文向智能体功能部150-1输出。智能体功能部150-1基于由智能体服务器200-1输出的响应文,使输出控制部120输出响应内容。
在图8的例子中,在智能体显示区域A22,作为响应内容,显示有“关于家庭设备控制,推荐智能体2。”这一文字信息。在该场景下,声音控制部124生成由智能体1进行了的响应内容的声音,进行使所生成的声音定位于智能体图像EI1的显示位置附近并输出的声像定位处理。在图8的例子中,声音控制部124使得输出“关于家庭设备控制,推荐智能体2。”这一声音。由此,能够使乘员P容易地掌握到其他智能体(智能体2)能够应对乘员P的要求。因此,能够对乘员P进行更合适的支援(服务)。在上述的例子中,作为响应内容的输出形态,进行了画面显示及声音输出,但是,输出控制部120也可以进行图像显示和声音输出中的一方。在以后的输出形态的说明中也设为同样。
智能体1(智能体功能部150-1、智能体服务器200-1)也可以除了推荐能够应对乘员P的讲话所包含的要求的其他智能体(智能体2)之外,还使表示通过启动中的智能体1无法应对要求(无法执行针对要求的功能)的信息包含于响应内容而输出。
图9是用于对输出了包含表示智能体1无法应对的信息的响应内容的场景进行说明的图。在图9的例子中,示出了由显示控制部122在第一显示器22显示的图像IM3。图像IM3中例如包括文字信息显示区域A31和智能体显示区域A32。在文字信息显示区域A31,显示有与文字信息显示区域A21同样的文字信息。
显示控制部122除了与智能体显示区域A22同样的智能体图像EI1及“关于家庭设备控制,推荐智能体2。”这一文字信息之外,还使智能体显示区域A32显示表示启动中的智能体(智能体1)无法应对要求的响应内容。在图9的例子中,在智能体显示区域A32,显示有“不会。关于家庭设备控制,推荐智能体2。”这一文字信息。在图9的例子中,声音控制部124使得输出“不会。关于家庭设备控制,推荐智能体2。”这一声音。由此,除了其他智能体(智能体2)能够应对要求之外,能够使乘员P更加容易明确地还掌握到通过启动中的智能体无法应对。由此,乘员P在下次以后提出相同的要求的情况下,能够使智能体2而非智能体1启动,能够使处理顺利地执行。
例如,乘员P当掌握到基于智能体1的如上述的图8或图9所示的响应内容后,使智能体1结束并使智能体2启动,使启动了的智能体2执行目的的处理。图10是用于对使智能体2启动来使其执行处理的场景进行说明的图。在图10的例子中,示出了由显示控制部122在第一显示器22显示的图像IM4。在乘员P讲出了“那么,智能体2!打开自己家的空调!”的情况下,首先,按每个智能体WU判定部114识别从话筒10输入并由声响处理部112进行了声响处理的讲话的声音所包含的智能体2的唤醒词,使与识别到的唤醒词对应的智能体功能部150-2启动。智能体功能部150-2通过显示控制部122的控制,使第一显示器22显示智能体图像EI2。智能体功能部150-2通过与智能体服务器200-2的协同配合,进行讲话的声音识别、意思解析等的处理,执行应对声音所包含的要求的功能,使输出部输出包含执行结果的响应内容。
在图10的例子中,图像IM4中例如包括文字信息显示区域A41和智能体显示区域A42。在文字信息显示区域A41,例如显示与同乘员P进行对话的智能体相关的信息。在文字信息显示区域A41,显示有“智能体2响应中”这一文字信息。在该场景下,显示控制部122也可以不使文字信息显示区域A41显示文字信息。
在智能体显示区域A42,显示与响应中的智能体2建立了对应关系的智能体图像EI2及响应内容。在图10的例子中,在智能体显示区域A42,作为响应内容,显示有“自己家的空调的电源接通了。”这一文字信息。在该场景下,声音控制部124生成由智能体2进行了的响应内容的声音,进行使所生成的声音定位于智能体图像EI2的显示位置附近并输出的声像定位处理。在图10的例子中,声音控制部124使得输出“自己家的空调的电源接通了。”这一声音。由此,能够使乘员P容易地掌握到由智能体2执行了针对乘员P的要求的控制。通过上述的与智能体相关的输出形态,能够对乘员P进行更合适的支援。
[变形例]
接着,对第一实施方式的变形例进行说明。通过乘员P的唤醒词等而启动的第一智能体功能部也可以在无法应对讲话的声音所包含的要求、且在声音所包含的要求中包括规定的要求的情况下,不向乘员P推荐能够应对的其他智能体(其他智能体功能部),而是向乘员P提供表示无法应对要求的信息。所谓规定的要求,是执行特定的功能的要求。所谓特定的功能,例如是如车载设备控制那样进行车辆M的控制的功能,是通过该控制而有可能对车辆M的状况直接产生影响的功能。特定的功能中也可以包括有可能损害乘员P的安全性的功能、没有向其他智能体公开具体的控制内容的功能等。
图11是示出在进行了包含规定的要求的讲话的场景下由显示控制部122显示的图像IM5的一例的图。以下,设为智能体3(智能体功能部150-3、智能体服务器200-3)处于启动中、规定的要求是车辆设备控制来进行说明。在图11的场景下,智能体功能部150-3是第一智能体功能部。
图像IM5中例如包括文字信息显示区域A51和智能体显示区域A52。在文字信息显示区域A51,例如显示与同乘员P进行对话的智能体相关的信息。在图11的例子中,在文字信息显示区域A51,显示有“智能体3响应中”这一文字信息。在该场景下,显示控制部122也可以不使文字信息显示区域A51显示文字信息。
在智能体显示区域A52,显示与响应中的智能体建立了对应关系的智能体图像。在图11的例子中,在智能体显示区域A52,显示有与智能体3建立了对应关系的智能体图像EI3。在此,如图11所示,设为乘员P讲出了“打开车辆的窗!”。智能体功能部150-3将从话筒10输入并由声响处理部112进行了声响处理的讲话的声音(声音流)向智能体服务器200-3发送。智能体服务器200-3通过声音识别部220及自然语言处理部222进行声音识别及意思解析,作为所需功能,取得“车载设备控制”。该所需功能是智能体3无法执行的功能,且包含于规定的要求。因此,智能体服务器200-3不推荐能够应对要求的其他智能体。在该情况下,智能体服务器200-3例如生成表示通过自身智能体无法应对要求的响应文。在此,由于智能体服务器200-3还没有取得其他智能体的应对可否结果,所以,实际上其他智能体有可能能够应对要求。因此,智能体服务器200-3生成明确通过自身智能体无法应对(通过其他智能体有可能能够应对)的响应文。然后,智能体服务器200-3将所生成的响应文向智能体功能部150-3输出。智能体功能部150-3基于由智能体服务器200-3输出的响应文,使输出控制部120输出响应内容。
在图11的例子中,在智能体显示区域A52,作为响应内容,显示有“我不会。”这一文字信息。通过包含“我”这一文字,能够使乘员P容易地掌握到虽然自身智能体无法应对,但若是其他智能体则也许能够应对。声音控制部124生成与响应内容对应的声音,进行使所生成的声音定位于智能体图像EI3的显示位置附近并输出的声像定位处理。在图11的例子中,声音控制部124使得输出“我不会。”这一声音。通过提供包含“我”这一信息的响应结果,能够使乘员P容易地掌握到虽然自身智能体无法应对,但若是其他智能体则也许能够应对。
在上述的第一实施方式中,第一智能体功能部使用功能DB172来判定乘员P的讲话所包含的所需功能的执行可否,但是,也可以取而代之,根据是否是自身智能体处于无法执行所需功能的状况(无法应对要求的状况)的情况,来判定执行可否。所谓处于无法执行所需功能的状况的情况,例如是,推定为自身智能体已经正在执行其他功能而到执行结束为止会花费规定时间以上的情况、推定为明显其他智能体能够进行合适的应对的情况。由此,在启动中的智能体处于无法应对要求的状况的情况下,也能够推荐能够应对的其他智能体。其结果是,能够对乘员P进行更合适的支援。
[处理流程]
图12是示出由第一实施方式的智能体装置100执行的处理的流程的一例的流程图。本流程图的处理例如可以以规定周期或规定的时机反复执行。以下,设为根据基于乘员P的唤醒词的讲话等而第一智能体功能部启动了。以下,对第一智能体功能部150与智能体服务器200协同配合而实现的智能体的处理进行说明。
首先,智能体装置100的声响处理部112判定是否从话筒10接受了乘员P的讲话的输入(步骤S100)。在判定为接受了乘员P的讲话的输入的情况下,声响处理部112进行针对乘员P的讲话的声音的声响处理(步骤S102)。接着,智能体服务器200的声音识别部220进行从智能体功能部150输入的、进行了声响处理的声音(声音流)的识别,将声音文本化(步骤S104)。接着,自然语言处理部222执行针对文本化了的文字信息的自然语言处理,进行文字信息的意思解析(步骤S106)。
接着,自然语言处理部222基于意思解析结果,取得乘员P的讲话所包含的要求所需的功能(所需功能)(步骤S108)。接着,智能体功能部150参照功能DB172(步骤S110),判定自身智能体(第一智能体功能部)是否能够应对包含所需功能的要求(是否能够执行应对所需功能的处理)(步骤S112)。在判定为能够应对的情况下,智能体功能部150执行应对要求的功能(步骤S114),使输出部输出包含执行结果的响应结果(步骤S116)。
在步骤S112的处理中判定为无法应对要求的情况下,智能体功能部150判定其他智能体(其他智能体功能部)是否能够应对所需功能(步骤S118)。在判定为其他智能体能够应对的情况下,智能体功能部150使输出部输出与能够应对的其他智能体相关的信息(步骤S120)。在步骤S120的处理中,智能体功能部150也可以除了输出与其他智能体相关的信息之外,还输出表示自身智能体无法应对的信息。在步骤S118的处理中判定为其他智能体无法应对的情况下,智能体功能部150使输出部输出表示无法应对的信息(步骤S122)。由此,本流程图的处理结束。在步骤S100中没有接受乘员P的讲话的输入的情况下,本流程图的处理结束。在即便从第一智能体功能部启动之后经过了规定时间也没有接受乘员P的讲话的输入的情况下,智能体装置也可以进行使启动中的智能体结束的处理。
根据上述的第一实施方式的智能体装置100,其具备:第一取得部(话筒10、声响处理部112),其取得车辆M的乘员P的声音;识别部(声音识别部220、自然语言处理部222),其识别由第一取得部取得的声音;以及多个智能体功能部150,其基于由识别部识别的识别结果,提供包含通过声音进行的响应的服务,多个智能体功能部所包含的第一智能体功能部在无法进行针对由识别部识别的识别结果的响应、且多个智能体功能部的其他智能体功能部能够应对的情况下,向乘员P推荐其他智能体功能部,由此,能够对乘员P进行更合适的支援(服务)。
<第二实施方式>
以下,对第二实施方式进行说明。第二实施方式的智能体装置与第一实施方式的智能体装置100相比较,在以下点不同:在无法应对乘员P的要求的情况下,向其他智能体功能部询问应对可否,基于其结果,取得与能够应对的其他智能体相关的信息。因此,以下,设为主要以上述的不同点为中心来进行说明。在后述的说明中,关于与上述的第一实施方式同样的结构,设为标注同样的名称或附图标记,此处的具体的说明省略。
图13是示出第二实施方式的智能体装置100A的结构和搭载于车辆M的设备的图。在车辆M例如搭载有一个以上的话筒10、显示·操作装置20、扬声器单元30、导航装置40、车辆设备50、车载通信装置60、乘员识别装置80、及智能体装置100A。存在通用通信装置70被带入到车室内,作为通信装置而被使用的情况。
智能体装置100A具备管理部110A、智能体功能部150A、150A-2、150A-3、配对应用执行部160、存储部170A。管理部110A例如具备声响处理部112、按每个智能体WU判定部114、输出控制部120。智能体功能部150A-1~150A-3例如分别具备应对可否询问部152A-1~152A-3。智能体装置100A的各构成要素例如通过由CPU等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部;circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置)中,也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性的存储介质)并通过将存储介质装配于驱动装置而安装。第二实施方式中的应对可否询问部152A是“第二取得部”的一例。
存储部170A通过上述的各种存储装置来实现。在存储部170A中例如保存各种数据、程序。
以下,将智能体功能部150A-1~150A-3中的智能体功能部150A-1作为第一智能体功能部来进行说明。智能体功能部150A-1将来自智能体服务器200-1的所需功能和预先决定的自身智能体的功能进行比较,判定针对要求的应对可否(所需功能的执行可否)。自身智能体的功能既可以保存于智能体功能部150A-1的存储器中,也可以以其他智能体功能部无法参照的状态保存于存储部170A中。并且,在判定为无法应对要求(无法执行与所需功能对应的功能)的情况下,应对可否询问部152A-1针对其他智能体功能部150A-2、150A-3,询问应对可否(所需功能的执行可否)。
其他智能体功能部150A-2、150A-3的应对可否询问部152A-2、152A-3分别基于来自应对可否询问部152A-1的应对可否的询问,将所需功能与自身智能体的功能进行比较,将应对可否结果向应对可否询问部152A-1输出。上述的应对可否结果是“功能信息”的一例。
应对可否询问部152A-1将来自应对可否询问部152A-2、152A-3的应对可否结果向智能体服务器200-1输出。然后,智能体服务器200-1基于由智能体功能部150A-1输出的应对可否结果,生成响应文。
[处理流程]
图14是示出由第二实施方式的智能体装置100A执行的处理的流程的一例的流程图。图14所示的流程图,与上述的图12的第一实施方式中的流程图相比较,在追加了步骤S200~S202的处理这一点不同。因此,以下,主要以步骤S200~S202的处理为中心来进行说明。以下,设为第一智能体功能部是智能体功能部150A-1来进行说明。
在第二实施方式的步骤S112的处理中,智能体功能部150-1将所需功能与预先决定的自身智能体的功能进行比较,判定是否能够应对要求。在此,在通过自身智能体能够应对的情况下,进行步骤S114及S116的处理。在自身智能体无法应对的情况下,智能体功能部150-1的应对可否询问部152A-1向其他智能体功能部150-2及150-3询问针对要求的应对可否(步骤S200)。接着,应对可否询问部152A-1取得来自其他应对可否询问部152A-2及152A-3的询问结果(应对可否结果、功能信息)(步骤S202),基于所取得的结果,执行步骤S118~S122的处理。
在上述的第二实施方式的说明中,智能体功能部150-1向其他智能体功能部150-2、150-3进行了应对可否的询问,但是,也可以取而代之,由智能体服务器200-1向其他智能体服务器200-2、200-3进行应对可否的询问。
根据上述的第二实施方式的智能体装置100A,除了起到与第一实施方式的智能体装置100同样的效果之外,即便没有功能DB172,也能够从输出部输出包含其他智能体的应对可否的响应结果。能够取得与其他智能体实时更新的应对可否信息进行了比较的应对可否结果。
上述的第一实施方式及第二实施方式也可以分别将其他实施方式的一部分或全部组合。智能体装置100(100A)的功能中的一部分或全部也可以包含于智能体服务器200。智能体服务器200的功能中的一部分或全部也可以包含于智能体装置100(100A)。即,智能体装置100(100A)及智能体服务器200中的功能的划分可以根据各装置的构成要素、智能体服务器200、智能体系统1的规模等而适当变更。智能体装置100(100A)及智能体服务器200中的功能的划分也可以针对每个车辆M而设定。
在上述的实施方式中,作为移动体的一例,使用了车辆M,但是,例如也可以是船舶、飞行物体等其他移动体。在上述的实施方式中,作为利用者的一例,使用了车辆M的乘员P,但是,也可以包括在没有乘坐车辆M的状态下利用智能体的功能的利用者。该情况下的利用者例如包括使得通用通信装置70、智能体的功能执行的利用者、存在于车辆M附近(具体而言,讲话的声音能够由话筒10收集的位置))并从车外使得智能体的功能执行的利用者等。移动体也可以包括可移动型便携终端。
以上使用实施方式说明了本发明的具体实施方式,但本发明丝毫不被这样的实施方式限定,在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims (6)

1.一种智能体装置,其中,
所述智能体装置具备:
第一取得部,其取得在移动体上搭乘中的利用者的声音;
识别部,其识别由所述第一取得部取得到的声音;以及
多个智能体功能部,它们基于由所述识别部识别的识别结果,提供包含使输出部输出响应的服务,
所述多个智能体功能部所包含的第一智能体功能部在无法应对由所述识别部识别到的声音所包含的要求、所述要求不包括规定的要求的情况下、所述第一智能体功能部向所述多个智能体功能部中的其他智能体功能部询问针对要求的应对可否,在所述多个智能体功能部中的其他智能体功能部能够应对所述要求的情况下,使所述输出部输出向所述利用者推荐所述其他智能体功能部的信息,
所述第一智能体功能部在无法应对所述要求、且所述要求中包括规定的要求的情况下,不向所述利用者推荐所述其他智能体功能部,
所述规定的要求包括执行进行搭载有所述多个智能体功能部的所述移动体的控制的功能的要求。
2.根据权利要求1所述的智能体装置,其中,
所述第一智能体功能部在无法应对所述要求、且所述其他智能体功能部能够应对所述要求的情况下,向所述利用者提供表示所述第一智能体功能部无法应对所述要求的信息,并且使所述输出部输出向所述利用者推荐所述其他智能体功能部的信息。
3.根据权利要求1或2所述的智能体装置,其中,
所述智能体装置还具备第二取得部,所述第二取得部取得所述多个智能体功能部各自的功能信息,
所述第一智能体功能部基于由所述第二取得部取得的功能信息,取得能够应对所述要求的其他智能体功能部的信息。
4.根据权利要求1所述的智能体装置,其中,
所述第一智能体功能部在无法应对所述要求的情况下,向所述利用者提供表示若是所述其他智能体功能部则也许能够应对的信息。
5.一种智能体装置的控制方法,其中,
所述控制方法使计算机进行如下处理:
启动多个智能体功能部;
作为启动了的所述智能体功能部的功能,识别在移动体上搭乘中的利用者的声音,基于识别结果,提供包含使输出部输出响应的服务;以及
所述多个智能体功能部所包含的第一智能体功能部在无法应对识别到的声音所包含的要求、所述要求不包括规定的要求的情况下、所述第一智能体功能部向所述多个智能体功能部中的其他智能体功能部询问针对要求的应对可否,在所述多个智能体功能部的其他智能体功能部能够应对所述要求的情况下,使所述输出部输出向所述利用者推荐所述其他智能体功能部的信息,
所述第一智能体功能部在无法应对所述要求、且所述要求中包括规定的要求的情况下,不向所述利用者推荐所述其他智能体功能部,
所述规定的要求包括执行进行搭载有所述多个智能体功能部的所述移动体的控制的功能的要求。
6.一种存储介质,其存储有程序,其中,
所述程序使计算机进行如下处理:
启动多个智能体功能部;
作为所述启动了的智能体功能部的功能,识别在移动体上搭乘中的利用者的声音,基于识别结果,提供包含使输出部输出响应的服务;以及
所述多个智能体功能部所包含的第一智能体功能部在无法应对识别到的声音所包含的要求、所述要求不包括规定的要求的情况下、所述第一智能体功能部向所述多个智能体功能部中的其他智能体功能部询问针对要求的应对可否,在所述多个智能体功能部的其他智能体功能部能够应对所述要求的情况下,使所述输出部输出向所述利用者推荐所述其他智能体功能部的信息,
所述第一智能体功能部在无法应对所述要求、且所述要求中包括规定的要求的情况下,不向所述利用者推荐所述其他智能体功能部,
所述规定的要求包括执行进行搭载有所述多个智能体功能部的所述移动体的控制的功能的要求。
CN202010145341.3A 2019-03-07 2020-03-04 智能体装置、智能体装置的控制方法及存储介质 Active CN111661065B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019041996A JP7280066B2 (ja) 2019-03-07 2019-03-07 エージェント装置、エージェント装置の制御方法、およびプログラム
JP2019-041996 2019-03-07

Publications (2)

Publication Number Publication Date
CN111661065A CN111661065A (zh) 2020-09-15
CN111661065B true CN111661065B (zh) 2024-02-13

Family

ID=72354289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010145341.3A Active CN111661065B (zh) 2019-03-07 2020-03-04 智能体装置、智能体装置的控制方法及存储介质

Country Status (3)

Country Link
US (1) US20200320997A1 (zh)
JP (1) JP7280066B2 (zh)
CN (1) CN111661065B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022079933A1 (ja) * 2020-10-14 2022-04-21 住友電気工業株式会社 コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146612A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 语音引导方法、装置、智能设备及服务器
CN107290974A (zh) * 2017-08-18 2017-10-24 三星电子(中国)研发中心 一种智能家居交互方法和装置
US9817383B1 (en) * 2016-07-11 2017-11-14 Johnson Controls Technology Company Systems and methods for agent interaction with building management system
WO2018067404A1 (en) * 2016-10-03 2018-04-12 Google Inc. Synthesized voice selection for computational agents
CN107991897A (zh) * 2017-12-29 2018-05-04 深圳市欧瑞博科技有限公司 控制方法及装置
CN108847229A (zh) * 2018-05-23 2018-11-20 上海爱优威软件开发有限公司 一种基于语音助手的信息交互方法及终端
CN109203941A (zh) * 2018-08-06 2019-01-15 芜湖莫森泰克汽车科技股份有限公司 一种具有语音控制功能的天窗控制系统及其控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4193300B2 (ja) * 1999-08-17 2008-12-10 株式会社エクォス・リサーチ エージェント装置
US20090204407A1 (en) * 2008-02-08 2009-08-13 Shields T Russell System and method for processing a spoken request from a user
US9959129B2 (en) * 2015-01-09 2018-05-01 Microsoft Technology Licensing, Llc Headless task completion within digital personal assistants
CN109074292B (zh) * 2016-04-18 2021-12-14 谷歌有限责任公司 适当的代理的自动化助理调用
US20180336045A1 (en) * 2017-05-17 2018-11-22 Google Inc. Determining agents for performing actions based at least in part on image data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9817383B1 (en) * 2016-07-11 2017-11-14 Johnson Controls Technology Company Systems and methods for agent interaction with building management system
WO2018067404A1 (en) * 2016-10-03 2018-04-12 Google Inc. Synthesized voice selection for computational agents
CN107146612A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 语音引导方法、装置、智能设备及服务器
CN107290974A (zh) * 2017-08-18 2017-10-24 三星电子(中国)研发中心 一种智能家居交互方法和装置
CN107991897A (zh) * 2017-12-29 2018-05-04 深圳市欧瑞博科技有限公司 控制方法及装置
CN108847229A (zh) * 2018-05-23 2018-11-20 上海爱优威软件开发有限公司 一种基于语音助手的信息交互方法及终端
CN109203941A (zh) * 2018-08-06 2019-01-15 芜湖莫森泰克汽车科技股份有限公司 一种具有语音控制功能的天窗控制系统及其控制方法

Also Published As

Publication number Publication date
JP7280066B2 (ja) 2023-05-23
JP2020144712A (ja) 2020-09-10
US20200320997A1 (en) 2020-10-08
CN111661065A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111661068B (zh) 智能体装置、智能体装置的控制方法及存储介质
JP7266432B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111681651B (zh) 智能体装置、智能体系统、服务器装置、智能体装置的控制方法及存储介质
CN111746435B (zh) 信息提供装置、信息提供方法及存储介质
CN111559328B (zh) 智能体装置、智能体装置的控制方法及存储介质
JP7239359B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111661065B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111667824A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111731320B (zh) 智能体系统、智能体服务器及其控制方法、存储介质
CN111667823B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11437035B2 (en) Agent device, method for controlling agent device, and storage medium
JP7252029B2 (ja) サーバ装置、情報提供方法、およびプログラム
US11797261B2 (en) On-vehicle device, method of controlling on-vehicle device, and storage medium
JP7245695B2 (ja) サーバ装置、情報提供システム、および情報提供方法
JP2020142758A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020160133A (ja) エージェントシステム、エージェントシステムの制御方法、およびプログラム
CN111559317B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11518399B2 (en) Agent device, agent system, method for controlling agent device, and storage medium
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111726772A (zh) 智能体系统及其控制方法、服务器装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant