CN111739524B - 智能体装置、智能体装置的控制方法及存储介质 - Google Patents

智能体装置、智能体装置的控制方法及存储介质 Download PDF

Info

Publication number
CN111739524B
CN111739524B CN202010198716.2A CN202010198716A CN111739524B CN 111739524 B CN111739524 B CN 111739524B CN 202010198716 A CN202010198716 A CN 202010198716A CN 111739524 B CN111739524 B CN 111739524B
Authority
CN
China
Prior art keywords
agent
occupant
service
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010198716.2A
Other languages
English (en)
Other versions
CN111739524A (zh
Inventor
内木贤吾
久保田基嗣
古屋佐和子
我妻善史
仓持俊克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of CN111739524A publication Critical patent/CN111739524A/zh
Application granted granted Critical
Publication of CN111739524B publication Critical patent/CN111739524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Abstract

本发明提供一种能够提供更适当的响应结果的智能体装置、智能体装置的控制方法及存储介质。智能体装置具备多个智能体功能部,所述多个智能体功能部分别根据车辆的乘员的讲话而提供包括使输出部输出利用声音进行的响应的服务;以及选择部,其针对乘员的讲话内容而参照表示所述多个智能体功能部各自执行的服务的品质的履历的履历信息,从所述多个智能体功能部选择针对所述车辆的乘员的讲话进行响应的智能体功能部。

Description

智能体装置、智能体装置的控制方法及存储介质
技术领域
本发明涉及智能体装置、智能体装置的控制方法及存储介质。
背景技术
以往,公开有关于如下的智能体功能的技术:所述智能体功能是指一边与车辆的乘员进行对话一边提供与乘员的要求相应的驾驶支援相关的信息、进行车辆的控制,提供其他应用程序等(日本特开2006-335231号公报)。
近年来,关于在车辆搭载智能体功能的技术已付诸实用,但在使用多个智能体的情况下需要乘员呼叫一个智能体传达要求。因此,若乘员不能掌握各个智能体的特征,则有时无法呼叫最适于执行针对要求的处理的智能体,无法获得最适当的结果。
发明内容
本发明是考虑上述情况而做出的,目的之一在于提供一种能够提供更适当的响应结果的智能体装置、智能体装置的控制方法及存储介质。
本发明涉及的智能体装置、智能体装置的控制方法及存储介质采用以下的构成。
(1):本发明的一方案涉及的智能体装置,具备:多个智能体功能部,所述多个智能体功能部分别根据车辆的乘员的讲话而提供包括使输出部输出利用声音进行的响应的服务;以及选择部,其针对乘员的讲话内容而参照表示所述多个智能体功能部各自执行的服务的品质的履历的履历信息,从所述多个智能体功能部选择针对所述车辆的乘员的讲话进行响应的智能体功能部。
(2)在上述(1)的方案中,所述履历信息包含记录,所述记录包含所执行的服务的内容、提供源的智能体功能部及表示服务品质的信息,所述选择部在表示所述乘员的讲话的信息与所执行的服务相符的记录中,选择与所述服务的品质优良的记录对应的所述智能体功能部,作为针对所述车辆的乘员的讲话而使输出部输出利用声音进行的响应的智能体功能部。
(3)在上述(1)或(2)的方案中,所述智能体装置还包括使用输出部向所述乘员通知各种信息的通知控制部,所述选择部从根据所述履历信息动态选择针对某一讲话开始提供服务的所述智能体功能部的状态转变到固定选择针对某一讲话开始提供服务的所述智能体功能部的状态,所述通知控制部使用所述输出部向所述乘员通知所述选择部确定为固定选择的所述智能体功能部。
(4)在上述(3)的方案中,所述通知控制部在所述乘员的讲话与所述服务的提供之间使用所述输出部向所述乘员通知所述选择部确定为固定选择的所述智能体功能部。
(5)在上述(3)或(4)的方案中,所述通知控制部在所述服务的提供之后,使用所述输出部向所述乘员通知所述选择部确定为固定选择的所述智能体功能部。
(6)在上述(3)~(5)中任一项的方案中,所述多个智能体功能部分别设定有起动所用的短语,即使所述乘员的讲话包含所述短语,在提供所述乘员的讲话中的短语以外的部分所要求的服务的所述智能体功能部已确定的情况下,所述选择部选择该确定的所述智能体功能部作为针对所述车辆的乘员的讲话进行响应的智能体功能部。
(7)在上述(1)~(5)中任一项的方案中,所述多个智能体功能部分别设定有起动所用的短语,所述选择部在所述乘员的讲话不包含所述短语的情况下,选择所述智能体功能部。
(8):本发明的另一方案涉及的智能体装置的控制方法,该方法使计算机执行如下处理:使多个智能体功能部起动,所述多个智能体功能部分别根据车辆的乘员的讲话而提供包括使输出部输出利用声音进行的响应的服务,针对乘员的讲话内容而参照表示所述多个智能体功能部各自执行的服务的品质的履历的履历信息,从所述多个智能体功能部选择针对所述车辆的乘员的讲话进行响应的智能体功能部。
(9):本发明的另一方案涉及的存储介质,其存储有程序,所述程序使计算机执行如下处理:使多个智能体功能部起动,所述多个智能体功能部分别根据车辆的乘员的讲话而提供包括输出利用声音进行的响应的服务,针对乘员的讲话内容而参照表示所述多个智能体功能部各自执行的服务的品质的履历的履历信息,从所述多个智能体功能部选择针对所述车辆的乘员的讲话进行响应的智能体功能部。
根据(1)~(9),能够提供更适当的响应结果。
附图说明
图1是表示第一实施方式涉及的包括智能体装置的智能体系统的构成图。
图2是表示第一实施方式涉及的智能体装置的构成和搭载于车辆的设备的图。
图3是表示显示、操作装置及扬声器单元的配置例的图。
图4是表示扬声器单元的配置例的图。
图5是表示智能体服务器的构成和智能体装置的一部分构成的图。
图6是表示履历信息的内容的一例的图。
图7是概念性表示履历信息生成部获取响应时间及信息量的评价指标的处理的图。
图8是概念性表示履历信息生成部获取确信度的评价指标的处理的图。
图9是表示第一实施方式涉及的智能体装置的动作的一系列流程的流程图。
图10是表示第二实施方式涉及的智能体装置的构成和搭载于车辆的设备的图。
图11是表示确定智能体信息的内容的一例的图。
图12是表示在乘员的讲话与服务提供之间介绍所确定的智能体的对话的一例的图。
图13是表示在提供服务后介绍所确定的智能体的对话的一例的图。
图14是表示选择部生成确定智能体信息的处理的一系列流程的流程图。
图15是表示第二实施方式涉及的智能体装置的动作的一系列流程的流程图。
具体实施方式
以下,参照附图对本发明的智能体装置、智能体装置的控制方法及存储介质的实施方式进行说明。智能体装置是实现智能体系统的一部分或全部的装置。以下,作为智能体装置的一例,对搭载于车辆(以下,称为车辆M)、具有多种智能体功能的智能体装置进行说明。所谓智能体功能,例如是如下功能:一边与车辆M的乘员进行对话,一边基于乘员的讲话中所含的要求(指令)进行各种信息提供,或提供网络服务。多种智能体各自所起到的功能、处理顺序、控制、输出方案、内容可以各不相同。智能体功能中,可以具有进行车辆内设备(例如与驾驶控制、车身控制相关的设备)的控制等的功能。
智能体功能例如通过识别乘员的声音的声音认识功能(将声音转换为文本的功能)之外,还综合地利用自然语言处理功能(理解文本的结构、意思的功能)、对话管理功能、经由网络检索其他装置、或检索本装置所具有的规定数据库的网络检索功能等来实现。上述功能的一部分或全部可以由AI(Artificial Intelligence)技术实现。用于进行上述功能的构成的一部分(尤其是声音认识功能、自然语言处理解释功能)可以搭载于车辆M的车载通信装置、或能够与车辆M所持有的通用通信装置进行通信的智能体服务器(外部装置)。在以下的说明中,以构成的一部分搭载于智能体服务器、智能体装置和智能体服务器协同配合来实现智能体系统为前提。将智能体装置和智能体服务器协同配合而假想表现出的服务提供主体(服务实体)称为智能体。
<第一实施方式>
<整体结构>
图1是第一实施方式涉及的包括智能体装置100的智能体系统1的构成图。智能体系统1例如具备:智能体装置100、多个智能体服务器200-1、200-2、200-3、…。符号末尾的连字符以后的数字是用于区别智能体的识别符。在不区分是哪一个智能体服务器的情况下,有时仅称为智能体服务器200。在图1中示出3个智能体服务器200,但智能体服务器200的数目可以是2个,也可以是4个以上。各个智能体服务器200可以是互不相同的智能体系统的提供者运营。因而,本发明中的智能体是由互不相同的提供者实现的智能体。作为提供者,可举出例如汽车制造商、网络服务从业者、电子商务从业者、移动终端的销售者、制造者等,任意主体(法人、团体、个人等)均可作为智能体系统的提供者。
智能体装置100经由网络NW而与智能体服务器200通信。网络NW包括例如互联网、蜂窝网、Wi-Fi网、WAN(Wide Area Network)、LAN(Local Area Network)、公众线路、电话线路、无线基站等中的一部分或全部。各种网站服务器300连接于网络NW,智能体服务器200或智能体装置100能够经由网络NW而从各种网站服务器300获取网页。
智能体装置100与车辆M的乘员进行对话,将来自乘员的声音发送到智能体服务器200,并将从智能体服务器200获得的回答以声音输出、图像显示的形式提示给乘员。
<第一实施方式>
[车辆]
图2是表示第一实施方式涉及的智能体装置100的构成和搭载于车辆M的设备的图。在车辆M例如搭载有:一个以上的话筒10、显示、操作装置20、扬声器单元30、导航装置40、车辆设备50、车载通信装置60、乘员认识装置80和智能体装置100。有时智能手机等通用通信装置70被带入车室内,作为通信装置而使用。上述装置通过CAN(Controller AreaNetwork)通信线路等多重通信线路、串行通信线路、无线通信网等而相互连接。图2所示的结构终归只是一例,既可以省略结构的一部分,也可以还追加别的结构。
话筒10是收集在车室内所发出的声音的收音部。显示、操作装置20是显示图像、并可受理输入操作的装置(或装置组)。显示、操作装置20例如包括作为触摸面板而构成的显示器装置。显示、操作装置20还可以包括HUD(Head Up Display)、机械式输入装置。扬声器单元30包括例如设置在车室内的互不相同位置的多个扬声器(声音输出部)。可以在智能体装置100和导航装置40共用显示、操作装置20。关于上述部件的详情将后述。
导航装置40具备导航HMI(Human machine Interface)、GPS(Global PositioningSystem)等位置测定装置、存储有地图信息的存储装置、进行路径探索等的控制装置(导航控制器)。话筒10、显示、操作装置20及扬声器单元30中的一部分或全部可以用作导航HMI。导航装置40探索用于从由位置测定装置确定出的车辆M的位置移动到由乘员输入的目的地为止的路径(导航路径),并以使车辆M能够沿着路径行驶的方式,使用导航HMI输出向导信息。路径探索功能可以位于可经由网络NW访问的导航服务器。在该情况下,导航装置40从导航服务器获取路径并输出向导信息。智能体装置100可以以导航控制器为基盘而构筑,这种情况下,导航控制器和智能体装置100一体地由硬件构成。
车辆设备50例如包括:发动机、行驶用电动机等驱动力输出装置、发动机的启动电机、门锁装置、车门开闭装置、车窗、车窗的开闭装置及车窗的开闭控制装置、座椅、座椅位置的控制装置、后视镜及其角度位置控制装置、车辆内外的照明装置及其控制装置、雨刷器、除雾器及各自的控制装置、方向指示灯及其控制装置、空调装置、行驶距离、轮胎气压的信息、燃料的剩余量信息等车辆信息装置等。
车载通信装置60例如是可利用蜂窝网、Wi-Fi网来访问网络NW的无线通信装置。
乘员认识装置80例如包括:就座传感器、车室内相机、图像认识装置等。就座传感器包括设置于座椅下部的压力传感器、安装于安全带上的张力传感器等。车室内相机是设于车室内的CCD(Charge Coupled Device)相机、CMOS(Complementary Metal OxideSemiconductor)相机。图像认识装置对车室内相机的图像进行解析,识别各座椅上乘员的有无、面部朝向等。
图3是表示显示、操作装置20及扬声器单元30的配置例的图。显示、操作装置20例如包括第一显示器22、第二显示器24、操作开关ASSY26。显示、操作装置20还可以包括HUD28。显示、操作装置20还可以包括仪表板中、设置在面对驾驶员座DS的部分的仪表显示器29。第一显示器22、第二显示器24、HUD28和仪表显示器29组合而成的部件为“显示部”的一例。
在车辆M例如设置有设有方向盘SW的驾驶员座DS、和相对于驾驶员座DS而设置于车宽方向(图中Y方向)的副驾驶员座AS。第一显示器22是从仪表板中的驾驶员座DS与副驾驶员座AS的中间附近延伸到与副驾驶员座AS的左端部相对的位置的横长形状的显示器装置。第二显示器24设置于驾驶员座DS与副驾驶员座AS的车宽方向上的中间附近,且设置于第一显示器22的下方。例如,第一显示器22和第二显示器24均构成为触摸面板,具备作为显示部的LCD(Liquid Crystal Display)、有机EL(Electroluminescence)、等离子体显示器等。操作开关ASSY26是集成了旋钮开关、按键式开关等的部件。显示、操作装置20将由乘员进行的操作的内容输出到智能体装置100。第一显示器22或第二显示器24所显示的内容可以由智能体装置100决定。
图4是表示扬声器单元30的配置例的图。扬声器单元30例如包含扬声器30A~30F。扬声器30A设置于驾驶员座DS侧的车窗柱(所谓的A柱)。扬声器30B设置于靠近驾驶员座DS的车门的下部。扬声器30C设置于副驾驶员座AS侧的车窗柱。扬声器30D设置于靠近副驾驶员座AS的车门的下部。扬声器30E设置于第二显示器24的附近。扬声器30F设置于车室的顶板(车顶)。扬声器单元30可以设置于靠近右侧后部座椅、左侧后部座椅的车门的下部。
在这样的配置中,例如在专门使扬声器30A及30B输出声音的情况下,声像定位于驾驶员座DS附近。所谓“声像定位”例如是通过调节向乘员的左右耳传递的声音的大小,确定乘员感到的声源的空间上的位置。在专门使扬声器30C及30D输出声音的情况下,声像定位于副驾驶员座AS附近。在专门使扬声器30E输出声音的情况下,声像定位于车室的前方附近,在专门使用扬声器30F输出声音的情况下,声像定位于车室的上方附近。不限于此,扬声器单元30通过使用混声器、放大器来调整各扬声器所输出的声音的分配,由此能够使声像定位于车室内的任意位置。
[智能体装置]
返回图2,智能体装置100具备管理部110、智能体功能部150-1、150-2、150-3和配对应用执行部152。管理部110例如具备音响处理部112、按智能体区分的WU(Wake Up)判定部114、显示控制部116、声音控制部118、声音认识部120、自然语言处理部122、履历信息生成部124和选择部126。在不区分是哪一个智能体功能部的情况下,仅称为智能体功能部150。示出3个智能体功能部150只不过是与图1的智能体服务器200的数目对应的一例,智能体功能部150的数目可以是2个,也可以是4个以上。为了便于说明而将图2所示的软件配置简化示出,实际上,例如,可以在智能体功能部150与车载通信装置60之间设置管理部110,也可以任意改变。
智能体装置100的各构成要素例如通过CPU(Central Processing Unit)等硬件处理器执行程序(软件)而实现。上述构成要素中的一部分或全部可以通过LSI(Large ScaleIntegration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括电路部:circuitry)实现,也可以通过软件与硬件的协同配合而实现。程序可以预先保存于HDD(Hard Disk Drive)、闪存等存储装置(具有非暂时性存储介质的存储装置),也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性存储介质),通过存储介质安装于驱动装置来安装程序。
智能体装置100具备存储部160。存储部160通过上述的各种存储装置而实现。在存储部160例如保存词典DB(数据库)162、履历信息164等数据、程序。关于词典DB162及履历信息164的详情将后述。
管理部110通过执行OS(Operating System)、中间件等的程序而发挥功能。
管理部110的音响处理部112受理从话筒10收集的声音,并对所受理的声音进行音响处理,以成为适于用自然语言处理部122进行声音识别的状态。所谓音响处理例如是利用带通滤波器等的滤波而进行噪音去除、声音放大等。
按智能体区分的WU判定部114与智能体功能部150-1、150-2、150-3各自分别对应地存在,识别按各智能体而预先设定的唤醒词。按智能体区分的WU判定部114从进行了音响处理后的声音(声音流)识别声音的意思。首先,按智能体区分的WU判定部114基于声音流中的声音波形的振幅和零交叉来检测声音区间。按智能体区分的WU判定部114可以根据基于高斯混合模型(GMM;Gaussian mixture model)的帧单位的声音识别及非声音识别进行区间检测。
接着,按智能体区分的WU判定部114将检测到的声音区间中的声音文本化,作成文字信息。然后,按智能体区分的WU判定部114判定文本化后的文字信息是否符合唤醒词(短语)。在判定为是唤醒词的情况下,按智能体区分的WU判定部114使对应的智能体功能部150起动。可以在智能体服务器200搭载相当于按智能体区分的WU判定部114的功能。在该情况下,管理部110将通过音响处理部112进行了音响处理的声音流发送到智能体服务器200,在智能体服务器200判定为是唤醒词的情况下,按照来自智能体服务器200的指示而使智能体功能部150起动。各智能体功能部150可以是处于始终起动状态且自行进行唤醒词的判定。在该情况下,管理部110不需要具备按智能体区分的WU判定部114。
显示控制部116根据基于智能体功能部150的指示而使图像显示于显示部的至少一部分区域。以下,设为使与智能体相关的图像显示于第一显示器22来进行说明。显示控制部116通过选择部126或智能体功能部150的控制,例如生成在车室内与乘员进行交流的拟人化的智能体的图像(以下,称为智能体图像),并使所生成的智能体图像显示于第一显示器22。智能体图像例如是向乘员搭话的形态的图像。智能体图像可以包含例如至少能由观看者(乘员)认识到表情、面部朝向的程度的面部图像。例如,智能体图像可以是:在面部区域中呈现出模仿眼睛、鼻子的部位,基于该部位在面部区域中的位置来认识表情、面部朝向。智能体图像可以是通过包括能由观看者立体地感受到的三维空间中的头部图像而使得智能体的面部朝向被识别的图像,智能体图像也可以是包括主体(身体、手脚)的图像而使得智能体的动作、行为、姿势等被识别的图像。智能体图像还可以是动画图像。例如,显示控制部116可以使智能体图像显示在接近由乘员认识装置80认识到的乘员的位置处的显示区域、或生成并显示面部朝向乘员位置的智能体图像。
声音控制部118根据来自选择部126或智能体功能部150的指示而使扬声器单元30所包含的扬声器中的一部分或全部输出声音。声音控制部118可以使用多个扬声器单元30来进行将智能体声音的声像定位于与智能体图像的显示位置对应的位置的控制。所谓与智能体图像的显示位置对应的位置例如是可预测乘员感知智能体图像发出智能体声音的位置,具体而言,是智能体图像的显示位置附近(例如,2~3[cm]以内)的位置。
声音认识部120从进行了音响处理后的声音(声音流)来识别声音的意思。首先,声音认识部120基于声音流中的声音波形的振幅和零交叉来检测声音区间。声音认识部120可以根据基于高斯混合模型(GMM;Gaussian mixture model)的帧单位的声音识别及非声音识别进行区间检测。接着,声音认识部120将检测出的声音区间中的声音文本化,将文本化后的文字信息向自然语言处理部122输出。
自然语言处理部122对于从声音认识部120输入的文字信息参照词典DB162进行意思解释。词典DB162中对文字信息关联了抽象化的意思信息。词典DB162可以包含同义词、近义词的一览信息。声音认识部120的处理和自然语言处理部122的处理可以不是明确区分阶段的处理,而是相互影响地进行处理:如接受自然语言处理部122的处理结果而声音认识部120对识别的结果加以修正等。
自然语言处理部122例如作为认识结果而认识到“今天的天气”“天气如何”等意思(要求)的情况下,生成置换为标准文字信息“今天的天气”的指令。所谓指令例如是用于执行智能体功能部150-1~150-3各自所具备的功能的指令。由此,即便是请求的声音存在文字差异的情况下也能够容易进行所要求的对话。自然语言处理部122例如也可以使用利用了概率的机械学习处理等人工智能处理来识别文字信息的意思,生成基于识别结果的指令。用于用各个智能体功能部150执行功能的指令的格式、参数不同的情况下,自然语言处理部122可以生成按各个智能体功能部150而识别的指令。
自然语言处理部122将所生成的指令输出到智能体功能部150-1~150-3。声音认识部120可以对于智能体功能部150-1~150-3中的需要输入声音流的智能体功能部,添加声音指令来输出声音流。
履历信息生成部124基于智能体功能部150向智能体服务器200发送指令、并从智能体服务器200获取响应结果为止的处理涉及的信息,生成履历信息164。关于履历信息生成部124的处理详情将后述。
选择部126选择由按智能体区分的WU判定部114识别到唤醒词的智能体功能部150作为针对乘员讲话进行响应的智能体功能部150。在由按智能体区分的WU判定部114未识别到唤醒词的情况下,选择部126参照履历信息164,选择实现由自然语言处理部122特定的功能(也就是说,应对乘员的讲话)的智能体功能部150。关于选择部126选择智能体功能部150的处理详情将后述。选择部126向所选择的智能体功能部150发送声音流,使智能体功能部150起动。
智能体功能部150与对应的智能体服务器200协同配合而表现出智能体,根据车辆的乘员的讲话,提供包括使输出部输出利用声音进行的响应的服务。在智能体功能部150可以包括赋予了控制车辆设备50的权限的功能部。智能体功能部150中有经由配对应用执行部152而与通用通信装置70联动,并与智能体服务器200进行通信的功能部。例如,智能体功能部150-1被赋予控制车辆设备50的权限。智能体功能部150-1经由车载通信装置60与智能体服务器200-1进行通信。智能体功能部150-2经由车载通信装置60与智能体服务器200-2进行通信。智能体功能部150-3经由配对应用执行部152而与通用通信装置70联动,并与智能体服务器200-3进行通信。
配对应用执行部152例如通过Bluetooth(注册商标)而与通用通信装置70进行配对,将智能体功能部150-3与通用通信装置70连接。智能体功能部150-3可以通过使用USB(Universal Serial Bus)等的有线通信而连接于通用通信装置70。以下,有时将智能体功能部150-1与智能体服务器200-1协同配合而表现出的智能体称为智能体1,将智能体功能部150-2与智能体服务器200-2协同配合而表现出的智能体称为智能体2,将智能体功能部150-3与智能体服务器200-3协同配合而表现出的智能体称为智能体3。智能体功能部150-3~150-3分别执行基于从管理部110输入的声音指令的处理,并将执行结果输出到管理部110。
[智能体服务器]
图5是表示智能体服务器200的构成和智能体装置100的一部分构成的图。以下,将智能体功能部150等的动作与智能体服务器200的构成一起说明。在此,省略了关于从智能体装置100到网络NW的物理通信的说明。以下,主要以智能体功能部150-1和智能体服务器200-1为中心进行说明,对于其他智能体功能部、智能体服务器的组,虽然有时各自的详细功能不同,但基本上进行同样的动作。
智能体服务器200-1具备通信部210。通信部210例如是NIC(Network InterfaceCard)等网络接口。而且,智能体服务器200-1例如具备:对话管理部220、网络检索部222、响应文生成部224。上述构成要素通过例如CPU等硬件处理器执行程序(软件)而实现。上述构成要素中的一部分或全部可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部:circuitry)而实现,也可以通过软件与硬件的协同配合而实现。程序可以预先保存于HDD、闪存等存储装置(具有非暂时性存储介质的存储装置),也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性存储介质),通过存储介质安装于驱动装置来安装程序。
智能体服务器200具备存储部250。存储部250通过上述的各种存储装置而实现。在存储部250保存有个人资料252、知识库DB254、响应规则DB256等数据、程序。
在智能体装置100中,智能体功能部150-1将指令(或进行了压缩、编码化等处理后的指令)发送到智能体服务器200-1。智能体功能部150-1在认识到可进行本地处理(不经由智能体服务器200-1的处理)的指令的情况下,可以进行由指令所要求的处理。可进行本地处理的指令是指通过参照智能体装置100所具备的存储部160就能回答的指令。更具体而言,可进行本地处理的指令例如是从电话簿检索特定人员的姓名、并对符合的姓名所关联的电话号码拨打电话(呼叫对方)的指令。因而,智能体功能部150-1可以具有智能体服务器200-1所具备的一部分功能。
对话管理部220基于所输入的指令,一边参照个人资料252、知识库DB254、响应规则DB256一边决定针对车辆M的乘员的响应内容(例如针对乘员的讲话内容、输出图像)。个人资料252包括按各乘员保存的乘员个人信息、兴趣嗜好、过去的对话履历等。知识库DB254是规定事务关联性的信息。响应规则DB256是规定了智能体针对指令而应进行的动作(回答、设备控制的内容等)的信息。
对话管理部220可以通过使用从声音流得到的特征信息,与个人资料252进行对照,由此来确定乘员。在该情况下,个人资料252中,例如对声音的特征信息关联了个人信息。所谓声音的特征信息例如是与声高、声调、节奏(声音高低的模式)等说话方式的特征、基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients)等的特征量相关的信息。声音的特征信息例如是通过在乘员的初次登记时使乘员发出规定的单词、语句等、并认识所发出的声音,由此得到的信息。
在指令是要求可经由网络NW检索的信息的情况下,对话管理部220使网络检索部222进行检索。网络检索部222经由网络NW访问各种网站服务器300,获取所希望的信息。“可经由网络NW检索的信息”是指例如对于位于车辆M周边的餐馆的基于一般用户的评价结果、与当日的车辆M位置相应的天气预报。
响应文生成部224生成响应文,并将生成的响应文发送到智能体装置100,以使由对话管理部220决定的讲话内容传达到车辆M的乘员。在从智能体装置100获取基于乘员认识装置80的识别结果、并通过所获取的识别结果而确定为进行包含指令的讲话的乘员是个人资料252中登记的乘员的情况下,响应文生成部224可以称呼乘员的姓名、以近似于乘员的说话方式的说话方式生成响应文。
智能体功能部150在获取响应文时,对声音控制部118进行指示,以进行声音合成并输出声音。智能体功能部150对显示控制部116进行指示,以配合声音输出地显示智能体的图像。如此,假想表现出的智能体实现了响应车辆M的乘员的智能体功能。
[关于履历信息生成部124的处理]
以下,说明履历信息生成部124生成履历信息164的处理的详情。图6是表示履历信息164的内容的一例的图。履历信息164中包含例如记录R,记录R是将智能体可提供的服务(也就是说,可执行的功能)和表示该服务的品质的信息与作为服务提供源的各个智能体分别赋予关联而成。服务的品质包含例如从向智能体服务器200发送指令直到得到回答所涉及的时间的程度(以下,响应时间)、针对乘员的询问而从智能体服务器200得到的回答的信息量、该回答的确信度。所谓确信度是指例如针对指令的响应结果推定为正确回答的程度(指标值)。所谓确信度是指针对乘员讲话的响应符合乘员的要求、或者推定为是乘员所期待的回答的程度。表示服务的品质的信息仅为一例,但不限于此,可以包含上述以外的信息。
以下,以分别用3级评价指标表示履历信息164的服务品质的情况为一例进行说明。在该一例中,响应时间由“短”、“普通”及“长”中的任一个表示,信息量由“多”、“普通”及“少”中的任一个表示,确信度由“高”、“普通”及“低”中的任一个表示。服务的品质可以通过2级评价指标表示,也可以通过4级以上的评价指标表示,也可以通过无级的值表示。
在图6所示的履历信息164中,智能体1~3分别可执行“地图检索功能”、“天气预报功能”及“信息检索功能”。在图6所示的履历信息164中,智能体1可执行的功能均关联了表示响应时间为“短”的信息、表示信息量为“多”的信息和表示确信度为“高”的信息。智能体2可执行的功能均关联了表示响应时间为“普通”的信息、表示信息量为“普通”的信息和表示确信度为“普通”的信息。由于“天气预报功能”不使用智能体2,因此在智能体2的“天气预报功能”未关联表示服务品质的信息。智能体3可执行的功能均关联了表示响应时间为“长”的信息、表示信息量为“少”的信息和表示确信度为“低”的信息。由于“天气预报功能”不使用智能体3,因此智能体2的“信息检索功能”未关联表示服务品质的信息。
首先,履历信息生成部124在生成履历信息164之际,智能体功能部150-1~150-3分别将由自然语言处理部122认识的服务涉及的指令输出到智能体服务器200-1~200-3,分别对从指令被输出起、至从智能体服务器200-1~200-3获取响应结果A~C为止的响应时间进行计时。然后,履历信息生成部124根据响应时间涉及的规定阈值,将计时的响应时间分类为“短”、“普通”及“长”中的任一个,并将分类后的信息分别与履历信息164的通过该指令而提供的服务赋予关联。
履历信息生成部124可以以同一时刻进行智能体功能部150-1~150-3的各响应时间的计时,也可以在不同的时刻进行。在关于同一指令对响应时间计时的情况下,履历信息生成部124对自然语言处理部122基于乘员的讲话而生成指令、并将所生成的指令同时输出到智能体功能部150-1~150-3全部时的响应时间分别进行计时。该情况下,由于指令的输出时刻一致,因此能够统一各响应时间的计时的开始时刻,履历信息生成部124能够降低计时涉及的处理负荷。在关于不同的指令对响应时间计时的情况下,履历信息生成部124对自然语言处理部122基于乘员的讲话而生成指令、并将所生成的指令输出到智能体功能部150-1~150-3中的任一个(例如,与用唤醒词指定的智能体对应的智能体功能部150)时的响应时间进行计时。该情况下,能够唯一获取针对某一指令的响应结果,因此能够省略选择部126从多个响应结果选择向乘员提供的响应结果的处理、或统合多个响应结果的处理。
图7是概念性表示履历信息生成部124获取响应时间及信息量的评价指标的处理的图。在图7的例子中设为:在智能体功能部150-1~150-3将针对“地图检索功能”涉及的指令的响应结果A~C输出到管理部110的情况下,各自的响应时间为2.0[秒]、3.5[秒]、5.8[秒]。根据响应时间涉及的规定阈值,将小于2.5[秒]分类为“短”,将2.5[秒]以上~不足5[秒]分类为“普通”,将5[秒]以上分类为“长”的情况下,履历信息生成部124将响应结果A的响应时间分类为“短”,将响应结果B的响应时间分类为“普通”,将响应结果C的响应时间分类为“长”,并分别关联于履历信息164的对应功能。
履历信息生成部124分别获取从智能体服务器200-1~200-3获取的响应结果A~C的信息量。然后,履历信息生成部124基于信息量涉及的规定阈值,将所获取的信息量分类为“多”、“普通”及“少”中的任一个,并将分类后的信息分别与履历信息164通过该指令而提供的服务赋予关联。
在图7的例子中,例如,智能体服务器200-1~200-3的对话管理部220从乘员接收到“去往○○餐馆的路线?”这一指令的情况下,由网络检索部222从各种网站服务器300获取去往“○○餐馆”的路线涉及的信息而作为与指令对应的信息。智能体功能部150-1~150-3将从智能体服务器200-1~200-3获取的响应结果A~C各自的信息量设为512[KB]、143[KB]、27[KB]。根据信息量涉及的规定阈值,将500[KB]以上作为信息量“多”、将100[KB]以上且小于500[KB]作为信息量“普通”、将小于100[KB]作为信息量“少”来进行分类的情况下,履历信息生成部124将响应结果A的信息量分类为“多”,将响应结果B的信息量分类为“普通”,将响应结果C的信息量分类为“少”,并分别关联于履历信息164的对应功能。
响应时间涉及的规定阈值及信息量涉及的规定阈值可以是根据服务的种类而分别不同的值。在此,根据服务的种类而有时响应结果的信息量不同,根据信息量而有时响应时间不同。关于信息量多、响应时间长的功能,履历信息生成部124将响应时间涉及的规定阈值设定为较长,将信息量涉及的规定阈值设定为较多。关于信息量少、响应时间短的功能,履历信息生成部124将响应时间涉及的规定阈值设定为较短,将信息量涉及的规定阈值设定为较少。
图8是概念性表示履历信息生成部124获取确信度的评价指标的处理的图。多个智能体功能部150-1~150-3例如分别基于各个存储部250所设置的个人资料252、知识库DB254、响应规则DB256来决定响应内容,并决定针对响应内容的确信度。
例如,对话管理部220在从乘员接收“最近流行的店铺有哪些”这一指令的情况下,由网络检索部222从各种网站服务器300获取“西服店”“鞋店”“意大利餐馆”的信息而作为与指令对应的信息。在此,对话管理部220参照个人资料25,将与乘员的兴趣的符合度高的响应结果的确信度设定为高。例如,在乘员的兴趣为“饮食”的情况下,对话管理部220将“意大利餐馆”的确信度设定为比其他信息高。对话管理部220可以是针对从各种网站服务器300获取的各个店的一般用户的评价结果(推荐指数)越高、将确信度设定得越高。
对话管理部220也可以基于作为针对指令的检索结果而得的响应候选的数目来决定确信度。例如,对话管理部220在响应候选的数目为1个的情况下,由于不存在其他候选,因此将确信度设定为最高。对话管理部220以响应候选的数目越多则越降低各自的确信度的方式设定。
对话管理部220可以基于作为针对指令的检索结果而得的响应内容的充实度来决定确信度。例如,对话管理部220在作为检索结果不仅获取到文字信息也能获取图像信息的情况下,由于相比于无法获取图像的情况而言充实度高,因此将确信度设定得高。
对话管理部220可以使用指令和响应内容的信息并参照知识库DB254,根据二者的关联性来设定确信度。对话管理部220参照个人资料252,参照在最近(例如,1个月以内)的对话履历是否有同样的疑问,在存在同样的疑问的情况下,可以将与该回答同样的响应内容的确信度设定得高。对话的履历可以是与讲话的乘员的对话履历,也可以是乘员以外的个人资料252所包含的对话履历。对话管理部220可以将上述的多个确信度的设定条件分别组合来设定确信度。
对话管理部220可以进行针对确信度的标准化。例如,对话管理部220进行按上述的各个设定条件而使确信度处于0~1范围的标准化。由此,即使通过根据多个设定条件设定的确信度进行比较的情况下,也能均一地定量化,因此不会出现仅某一设定条件的确信度变大的情况。结果,能够根据确信度来选择更适当的响应结果。
在图8的例子中设为:智能体功能部150-1决定的响应结果A的确信度为0.8,智能体功能部150-2决定的响应结果B的确信度为0.5,智能体功能部150-3决定的响应结果C的确信度为0.2。在根据确信度涉及的规定阈值,将0.8以上作为确信度“高”、将0.5以上且小于0.8作为确信度“普通”、将小于0.5作为确信度“低”而进行分类的情况下,履历信息生成部124将响应结果A的确信度分类为“高”,将响应结果B的确信度分类为“普通”,将响应结果C的确信度分类为“低”,并分别关联于履历信息164的对应功能。
履历信息生成部124例如通过上述处理,在乘员每次讲话、或每次对应的智能体的功能被使用时,获取涉及服务品质的信息,生成(更新)履历信息164。
在上述中,说明了智能体装置100具备履历信息生成部124、生成履历信息164的情况,但不限于此。可以在智能体装置100的存储部160存储预先生成的履历信息164。该情况下,智能体装置100以外的装置生成履历信息164,智能体装置100可以不具备履历信息生成部124。
[关于选择部126的处理]
以下,说明选择部126基于履历信息164来选择进行针对乘员讲话的响应的智能体功能部150的处理详情。选择部126参照在乘员的讲话之前生成的履历信息164,比较智能体功能部150-1~150-3各自的服务品质,选择品质优良的智能体功能部150,作为进行针对乘员讲话的响应的智能体功能部150(智能体)。首先,选择部126将由自然语言处理部122确定的功能作为检索关键词来检索履历信息164,确定可执行该功能的智能体。然后,选择部126选择所确定的智能体中的提供服务品质最优良的功能的智能体功能部150作为进行针对乘员讲话的响应的智能体功能部150。例如在存在多个表示服务品质的评价指标的情况下,选择部126可以综合全部的评价指标来选择智能体功能部150,也可以基于多个评价指标中的一个以上的(任意的)评价指标来选择智能体功能部150。
例如将通过3级表示的评价指标按服务品质从低到高的顺序转换为“1”“2”“3”的数值,选择部126选择评价指标的合计值最高的智能体功能部150作为进行针对乘员讲话的响应的智能体功能部150。
在上述中,说明了履历信息164包含通过3级表示的评价指标来作为表示服务品质的信息的情况,但不限于此。例如,履历信息164中可以包含在获取通过履历信息生成部124所获取的服务品质时所用的字面值(响应时间、信息量、确信度等)。该情况下,选择部126基于履历信息164所示的字面值,选择服务的品质优良的智能体功能部150。选择部126例如选择响应速度最快的智能体、信息量最多的智能体及确信度最高的智能体等作为服务品质优良的智能体功能部150。在选择部126综合多个评价指标来选择智能体功能部150的情况下,可以是通过对获取服务品质时所用的各种字面值(响应时间、信息量、确信度等)进行符号转换、标准化等数据转换,从而能够以同一尺度进行评价,之后根据其值的合计值来选择智能体功能部150。例如,选择部126以值越大则服务品质越优良、值越小则服务品质越差的方式,对各个字面值进行数据转换。选择部126特定数据转换后的值的合计值最大的智能体,并选择实现所确定的智能体的智能体功能部150。
[动作流程]
图9是表示第一实施方式涉及的智能体装置100的动作的一系列流程的流程图。本流程图的处理例如每间隔规定时间、或在规定的时刻而重复执行。
首先,声音认识部120判定是否通过话筒10接收到乘员的讲话(步骤S100)。声音认识部120在判定为通过话筒10接收到乘员的讲话的情况下,针对乘员讲话的声音进行音响处理(步骤S102)。接着,声音认识部120对进行了音响处理后的声音(声音流)进行识别,将声音文本化(步骤S104)。接着,自然语言处理部122对文本化后的文字信息进行自然语言处理,进行文字信息的意思解析(步骤S106)。
接着,自然语言处理部122判定通过意思解析而得的乘员的讲话内容是否包含指令(步骤S108)。自然语言处理部122在乘员的讲话内容不包含指令的情况下结束处理。选择部126在通过自然语言处理部122判定为在乘员的讲话内容包含指令的情况下,将由自然语言处理部122确定的指令(功能)作为检索关键词来检索履历信息164,选择实现服务品质最优良的智能体的智能体功能部150作为进行针对乘员讲话的响应的智能体功能部150(步骤S110)。
选择部126向所选择的智能体功能部150输出由自然语言处理部122确定的指令(步骤S112)。接收到指令的智能体功能部150执行针对指令的处理(步骤S114)。选择部126从所选择的智能体功能部150获取响应结果,执行针对乘员讲话的响应(步骤S116)。由此,本流程图的处理结束。
[第一实施方式的总结]
如以上所说明,根据本实施方式的智能体装置100,具备:多个智能体功能部150,其根据车辆M的乘员的讲话而提供包括使输出部输出利用声音进行的响应的服务;认识部(声音认识部120、自然语言处理部122),其对乘员的讲话所包含的声音指令进行识别;以及选择部126,其从多个智能体功能部150选择服务品质优良的智能体功能部150,该智能体功能部150执行通过认识部识别的声音指令来应对乘员的讲话,由此,能够提供更适当的响应结果。
<第二实施方式>
以下,说明第二实施方式。在第二实施方式中,对存在服务品质优良这一情况已确定的智能体的情况进行说明。关于与上述实施方式相同的构成,标注相同符号而省略说明。
图10是表示第二实施方式涉及的智能体装置100A的构成和搭载于车辆M的设备的图。在车辆M例如搭载有:一个以上的话筒10、显示、操作装置20、扬声器单元30、导航装置40、车辆设备50、车载通信装置60、乘员认识装置80和智能体装置100A。有时通用通信装置70被带入车室内,作为通信装置而使用。上述装置通过CAN通信线路等多重通信线路、串行通信线路、无线通信网等而相互连接。
智能体装置100A中取代智能体装置100所具备的存储部160(或在此基础上),具备存储部160A。存储部160A保存有例如词典DB162、履历信息164以及确定智能体信息166等数据、程序。确定智能体信息166是表示服务品质优良已确定的智能体的信息。
图11是表示确定智能体信息166的内容的一例的图。确定智能体信息166为例如智能体可提供的服务(也就是说,可执行的功能)和能够服务品质最优良地提供该功能的智能体彼此赋予关联而成的信息。本实施方式的选择部126例如执行生成确定智能体信息166的处理。例如对某一智能体的功能,在服务品顾涉及的信息为规定阈值以上(也就是说,服务品质优良)、且该功能有过被提供给乘员为规定次数以上的情况下,选择部126例如将该智能体判定为能够服务品质最优良地提供该功能的智能体,并将该功能与该智能体彼此赋予关联而生成(更新)确定智能体信息166。
本实施方式的选择部126从根据履历信息164而动态选择服务品质最优良的智能体的状态,转移到如下状态:根据确定智能体信息166而固定选择实现能够服务品质最优良地提供的智能体的智能体功能部150。首先,将由自然语言处理部122特定的功能作为检索关键词而检索确定智能体信息166,判定该功能是否包含于确定智能体信息166。选择部126在该功能包含于确定智能体信息166的情况下,将与该功能赋予关联的智能体确定作为服务品质最优良的智能体。然后,选择部126固定选择实现所确定的智能体的智能体功能部150而作为进行针对乘员讲话的响应的智能体功能部150。关于通过选择部126选择了智能体功能部150之后的处理及确定智能体信息166不包含由自然语言处理部122确定的功能的情况下的处理,与上述实施方式相同,因此省略说明。
选择部126可以在判定对象的功能可使用于任意智能体的情况下进行确定服务品质最优良的智能体的处理。例如,在图6的履历信息164中,智能体2的“天气预报功能”未关联表示服务品质的信息,因此选择部126不会进行确定能够服务品质最优良地提供“天气预报功能”的智能体的处理。由此,选择部126能够抑制在未使用功能的智能体为能够服务品质最优良地提供的智能体的情况下,将其他智能体确定为能够服务品质最优良地提供的智能体。
在此,在确定智能体信息166包含某一功能之后,首次向乘员提供该功能的情况下,智能体功能部150可以在乘员的讲话与服务的提供之间向乘员通知对于该某一功能、确定能够服务品质最优良地提供的智能体并固定地选择该智能体这一情况。图12是表示在乘员的讲话与服务的提供之间介绍所确定的智能体的对话的一例的图。首先,乘员对智能体进行包含要求提供地图检索功能这一内容的讲话CV1。讲话CV1例如是“去往○○餐馆的路线?”等词汇。接受此内容的选择部126,例如将通过上述处理而由自然语言处理部122确定的功能(在该例中为地图检索功能)作为检索关键词,检索确定智能体信息166。在图11所示的确定智能体信息166中,关于“地图检索功能”,智能体1确定作为能够服务品质最优良地提供的智能体。因此,选择部126固定选择智能体功能部150-1而作为进行针对乘员讲话的响应的智能体功能部150。
由选择部126固定选择的智能体功能部150(在该例中为智能体功能部150-1)从对应的智能体服务器200(在该例中为智能体服务器200-1)获取针对讲话CV1的响应结果RP1,并对声音控制部118进行指示,以对该响应结果RP1进行声音合成来输出声音。
响应结果RP1例如包含介绍实现在讲话CV1中所要求的功能的智能体功能部150的智能体的词汇。响应结果RP1例如包含将确定了服务品质最优良的智能体这一内容传达给乘员的词汇。响应结果RP1包含在传达了服务品质最优良的智能体之后,服务提供涉及的词汇(也就是说,表示乘员讲话的回答的词汇)。响应结果RP1中包含例如“您好,我是△△(智能体1)。今后,我来提供地图检索功能。去往○○餐馆…”等词汇。
响应结果可以在服务提供涉及的词汇之后,传达服务品质最优良的智能体。图13是表示在服务提供之后、介绍所确定的智能体的对话的一例的图。响应结果RP2包含例如介绍实现在讲话CV1中所要求的功能的智能体功能部150的智能体的词汇。响应结果RP2包含服务提供涉及的词汇。响应结果RP2包括例如在提供了服务之后,将服务品质最优良的智能体已确定这一内容传达给乘员的词汇。该情况下,响应结果RP2包含例如“您好,我是△△(智能体1)。今后,我来提供地图检索功能。去往○○餐馆…”等词汇。
通过如图12的响应结果RP1或图13的响应结果RP2这样回答,从而智能体功能部150能够向乘员通知服务品质自然最优良的智能体。选择部126在服务品质最优良的智能体已确定的情况下,在乘员的讲话中,只要接收到服务的要求就能选择智能体(智能体功能部150),因此能够在服务的要求时省略唤醒词。
智能体功能部150可以是,在从乘员有指定的情况下,如图12的响应结果RP1这样通知服务品质最优良的智能体涉及的信息希望在服务提供涉及的词汇之前这一内容,在从乘员有指定的情况下,如图13的响应结果RP2这样通知服务品质最优良的智能体涉及的信息希望在服务提供涉及的词汇之后这一内容,如此控制通知的方式。智能体功能部150可以在服务提供涉及的词汇之前和之后这二者通知服务品质最优良的智能体涉及的信息。
选择部126可以在参照确定智能体信息166而在乘员的讲话识别到唤醒词和指令的情况下,由该唤醒词指定的智能体不是能够以最优良品质提供由自然语言处理部122识别的服务的智能体时,选择能够以最优良品质提供确定智能体信息166所示服务的智能体而作为进行针对乘员讲话的响应的智能体(智能体功能部150)。选择部126可以在参照确定智能体信息166而对乘员的讲话识别到唤醒词和指令的情况下,由该唤醒词指定的智能体不是能够以最优良品质提供由自然语言处理部122识别的服务的智能体时,向乘员通知能够以最优良品质提供服务的智能体。该情况下,选择部126例如通过声音控制部118输出介绍能够以最优良品质提供服务的智能体。在介绍智能体的处理中,声音控制部118为“通知控制部”的一例。显示控制部116可以将介绍智能体的图像显示于第一显示器22、第二显示器24及仪表显示器29等。该情况下,显示控制部116为“通知控制部”的一例。
[动作流程]
图14是表示选择部126生成确定智能体信息166的处理的一系列流程的流程图。本流程图的处理例如每间隔规定时间、或在规定的时刻而重复执行。
首先,选择部126确定履历信息164所示功能中的、判定是否是服务品质最优良的智能体的判定对象的功能(步骤S200)。选择部126根据履历信息164,判定可实现确定的功能的智能体中是否存在未执行该功能的智能体(步骤S202)。选择部126在存在未执行该功能的智能体的情况下,设为不处于确定服务品质最优良的智能体的阶段,处理进入步骤S210。选择部126判定实现所确定的功能的智能体中是否存在在通过乘员讲话要求了该功能的提供时、作为服务品质最优良的智能体而被选择了规定次数以上的智能体(步骤S204)。选择部126在不存在选择了规定次数以上的智能体的情况下,设为不处于确定服务品质最优良的智能体的阶段,处理进入步骤S210。
选择部126在存在选择了规定次数以上的智能体的情况下,判定在步骤S200确定的功能涉及的该智能体的表示服务品质的信息是否在规定阈值以上(例如,响应速度为规定阈值以上的快速,信息量为规定阈值以上的多,或者确信度为规定阈值以上的高等)(步骤S206)。选择部126在表示服务品质的信息不是规定阈值以上的情况下,不将其确定为服务品质最优良的智能体,处理进入步骤S208。
选择部126在表示服务品质的信息为规定阈值以上的情况下,将该智能体确定作为提供最优良服务品质的智能体,将该智能体与在步骤S200所确定的功能赋予关联并生成(更新)确定智能体信息166(步骤S208)。选择部126对于履历信息164所示的全部功能,在进行上述处理的期间重复进行步骤S200~S208的处理(步骤S210)。
图15是表示第二实施方式涉及的智能体装置100A的动作的一系列流程的流程图。本流程图的处理例如每间隔规定时间、或在规定的时刻而重复执行。图15所示的流程图与上述图10的第一实施方式的流程图相比,不同点在于取代步骤S100~S116的处理而具备步骤S300~S306的处理。因而,以下,主要以步骤S300~S306的处理为中心进行说明。
选择部126在步骤S108判定为在自然语言处理部122通过意思解析而得的乘员的讲话内容包含指令的情况下,参照确定智能体信息166,判定提供该指令涉及的功能的服务品质最优良的智能体是否确定(步骤S300)。选择部126在服务品质最优良的智能体未确定的情况下,处理进入步骤S110。选择部126在判定为服务品质最优良的智能体已确定的情况下,固定选择该确定的智能体(智能体功能部150),对选择的智能体功能部150输出由自然语言处理部122确定的指令(步骤S302)。接收指令的智能体功能部150执行针对指令的处理(步骤S304)。选择部126从所选择的智能体功能部150获取响应结果,执行针对乘员讲话的响应(步骤S306)。由此,本流程图的处理结束。
[第二实施方式的总结]
如以上所说明,根据本实施方式的智能体装置100A,具备:多个智能体功能部150,其根据车辆M的乘员的讲话而提供包括使输出部输出利用声音进行的响应的服务;认识部(声音认识部120、自然语言处理部122),对乘员的讲话所包含的声音指令进行识别;以及选择部126,从多个智能体功能部150选择服务品质优良的智能体功能部150,该智能体功能部150执行通过认识部识别的声音指令来应对乘员的讲话,选择部126根据确定智能体信息166来选择已确定服务品质最优良的智能体,由此,能够提供更适当的响应结果。
[关于声音认识部及自然语言处理部的功能]
在上述的实施方式中,说明了智能体装置100及100A具备声音认识部120及自然语言处理部122的情况,不限于此。可以由智能体服务器200提供相当于声音认识部120及自然语言处理部122的功能。该情况下,智能体装置100及100A将通过音响处理部112进行了音响处理的声音流供给到智能体服务器200,通过相当于声音认识部120及自然语言处理部122的功能,特定乘员的讲话中(也就是说,声音流)所含的指令(功能),并供给到选择部126。选择部126基于由智能体服务器200供给的功能涉及的信息而执行处理。
以上,使用实施方式说明了本发明的具体实施方式,但本发明丝毫不被这样的实施方式限定,在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims (8)

1.一种智能体装置,其特征在于,具备:
多个智能体功能部,所述多个智能体功能部分别根据车辆的乘员的讲话而提供包括使输出部输出利用声音进行的响应的服务;
选择部,其针对乘员的讲话内容而参照表示所述多个智能体功能部各自执行的服务的品质的履历的履历信息,从所述多个智能体功能部选择针对所述车辆的乘员的讲话进行响应的智能体功能部;
通知控制部,其使用输出部向所述乘员通知各种信息;以及
确定智能体信息,其是智能体功能部能够提供的服务和能够服务品质最优良地提供该服务的智能体功能部彼此赋予关联而成的信息,
在所述确定智能体信息包括根据所述乘员的讲话特定的服务的情况下,所述选择部从动态选择针对某一讲话开始提供服务的所述智能体功能部的状态转变到固定选择能够服务品质最优良地提供服务的所述智能体功能部的状态,
在所述确定智能体信息不包括根据所述乘员的讲话特定的服务的情况下,所述选择部根据所述履历信息从所述多个智能体功能部选择针对所述乘员的讲话开始提供服务的智能体功能部,
所述通知控制部使用所述输出部向所述乘员通知所述选择部确定为固定选择的所述智能体功能部。
2.根据权利要求1所述的智能体装置,其中,
所述履历信息包含记录,所述记录包含所执行的服务的内容、提供源的智能体功能部及表示服务品质的信息,
所述选择部在表示所述乘员的讲话的信息与所执行的服务相符的记录中,选择与所述服务的品质优良的记录对应的所述智能体功能部,作为针对所述车辆的乘员的讲话而使输出部输出利用声音进行的响应的智能体功能部。
3.根据权利要求1或2所述的智能体装置,其中,
所述通知控制部在所述乘员的讲话与所述服务的提供之间使用所述输出部向所述乘员通知所述选择部确定为固定选择的所述智能体功能部。
4.根据权利要求1或2所述的智能体装置,其中,
所述通知控制部在所述服务的提供之后,使用所述输出部向所述乘员通知所述选择部确定为固定选择的所述智能体功能部。
5.根据权利要求1或2所述的智能体装置,其中,
所述多个智能体功能部分别设定有起动所用的短语,
即使所述乘员的讲话包含所述短语,在提供所述乘员的讲话中的短语以外的部分所要求的服务的所述智能体功能部已确定的情况下,所述选择部选择该确定的所述智能体功能部作为针对所述车辆的乘员的讲话进行响应的智能体功能部。
6.根据权利要求1或2所述的智能体装置,其中,
所述多个智能体功能部分别设定有起动所用的短语,
所述选择部在所述乘员的讲话不包含所述短语的情况下,选择所述智能体功能部。
7.一种智能体装置的控制方法,其特征在于,所述智能体装置的控制方法使计算机执行如下处理:
使多个智能体功能部起动,所述多个智能体功能部分别根据车辆的乘员的讲话而提供包括输出利用声音进行的响应的服务,
针对乘员的讲话内容而参照表示所述多个智能体功能部各自执行的服务的品质的履历的履历信息,
从所述多个智能体功能部选择针对所述车辆的乘员的讲话进行响应的智能体功能部,
使用输出部向所述乘员通知各种信息,
将智能体功能部能够提供的服务和能够服务品质最优良地提供该服务的智能体功能部彼此赋予关联而生成确定智能体信息,
在所述确定智能体信息包括根据所述乘员的讲话特定的服务的情况下,从动态选择针对某一讲话开始提供服务的所述智能体功能部的状态转变到固定选择能够服务品质最优良地提供服务的所述智能体功能部的状态,
在所述确定智能体信息不包括根据所述乘员的讲话特定的服务的情况下,根据所述履历信息从所述多个智能体功能部选择针对所述乘员的讲话开始提供服务的智能体功能部,
使用所述输出部向所述乘员通知被确定为固定选择的所述智能体功能部。
8.一种存储介质,其特征在于,
其存储有程序,所述程序使计算机执行如下处理:
使多个智能体功能部起动,所述多个智能体功能部分别根据车辆的乘员的讲话而提供包括输出利用声音进行的响应的服务,
针对乘员的讲话内容而参照表示所述多个智能体功能部各自执行的服务的品质的履历的履历信息,
从所述多个智能体功能部选择针对所述车辆的乘员的讲话进行响应的智能体功能部,
使用输出部向所述乘员通知各种信息,
将智能体功能部能够提供的服务和能够服务品质最优良地提供该服务的智能体功能部彼此赋予关联而生成确定智能体信息,
在所述确定智能体信息包括根据所述乘员的讲话特定的服务的情况下,从动态选择针对某一讲话开始提供服务的所述智能体功能部的状态转变到固定选择能够服务品质最优良地提供服务的所述智能体功能部的状态,
在所述确定智能体信息不包括根据所述乘员的讲话特定的服务的情况下,根据所述履历信息从所述多个智能体功能部选择针对所述乘员的讲话开始提供服务的智能体功能部,
使用所述输出部向所述乘员通知被确定为固定选择的所述智能体功能部。
CN202010198716.2A 2019-03-25 2020-03-19 智能体装置、智能体装置的控制方法及存储介质 Active CN111739524B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-055984 2019-03-25
JP2019055984A JP7274901B2 (ja) 2019-03-25 2019-03-25 エージェント装置、エージェント装置の制御方法、およびプログラム

Publications (2)

Publication Number Publication Date
CN111739524A CN111739524A (zh) 2020-10-02
CN111739524B true CN111739524B (zh) 2024-03-08

Family

ID=72643068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010198716.2A Active CN111739524B (zh) 2019-03-25 2020-03-19 智能体装置、智能体装置的控制方法及存储介质

Country Status (3)

Country Link
US (1) US11355114B2 (zh)
JP (1) JP7274901B2 (zh)
CN (1) CN111739524B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090545A (ja) * 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
CN104516449A (zh) * 2013-09-27 2015-04-15 歌乐株式会社 车辆用装置、服务器和信息处理方法
CN107851437A (zh) * 2015-08-10 2018-03-27 歌乐株式会社 语音操作系统、服务器装置、车载设备和语音操作方法
WO2018067402A1 (en) * 2016-10-03 2018-04-12 Google Inc. Selection of computational agent for task performance
EP3389044A1 (en) * 2017-04-13 2018-10-17 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4645310B2 (ja) 2005-06-02 2011-03-09 株式会社デンソー エージェントキャラクタ表示を利用した表示システム
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080109285A1 (en) * 2006-10-26 2008-05-08 Mobile Content Networks, Inc. Techniques for determining relevant advertisements in response to queries
US20140270243A1 (en) * 2013-03-15 2014-09-18 Commercial Vehicle Group, Inc. Mobile device to vehicle integration
WO2017184587A1 (en) * 2016-04-18 2017-10-26 Google Inc. Automated assistant invocation of appropriate agent
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10311856B2 (en) * 2016-10-03 2019-06-04 Google Llc Synthesized voice selection for computational agents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090545A (ja) * 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
CN104516449A (zh) * 2013-09-27 2015-04-15 歌乐株式会社 车辆用装置、服务器和信息处理方法
CN107851437A (zh) * 2015-08-10 2018-03-27 歌乐株式会社 语音操作系统、服务器装置、车载设备和语音操作方法
WO2018067402A1 (en) * 2016-10-03 2018-04-12 Google Inc. Selection of computational agent for task performance
EP3389044A1 (en) * 2017-04-13 2018-10-17 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services

Also Published As

Publication number Publication date
JP7274901B2 (ja) 2023-05-17
JP2020160108A (ja) 2020-10-01
US20200321001A1 (en) 2020-10-08
CN111739524A (zh) 2020-10-02
US11355114B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
CN111661068B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11380325B2 (en) Agent device, system, control method of agent device, and storage medium
CN111681651B (zh) 智能体装置、智能体系统、服务器装置、智能体装置的控制方法及存储介质
CN111739525B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111746435B (zh) 信息提供装置、信息提供方法及存储介质
US20200286479A1 (en) Agent device, method for controlling agent device, and storage medium
CN111559328B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111717142A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111739524B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111667823B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11437035B2 (en) Agent device, method for controlling agent device, and storage medium
US11797261B2 (en) On-vehicle device, method of controlling on-vehicle device, and storage medium
CN111661065B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111731320B (zh) 智能体系统、智能体服务器及其控制方法、存储介质
US11542744B2 (en) Agent device, agent device control method, and storage medium
US20200319634A1 (en) Agent device, method of controlling agent device, and storage medium
CN111754288A (zh) 服务器装置、信息提供系统、信息提供方法及存储介质
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111559317B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111726772B (zh) 智能体系统及其控制方法、服务器装置、存储介质
JP2020160133A (ja) エージェントシステム、エージェントシステムの制御方法、およびプログラム
JP2020142758A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US20200321006A1 (en) Agent apparatus, agent apparatus control method, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant