CN112805182B - 智能体装置、智能体控制方法及存储介质 - Google Patents

智能体装置、智能体控制方法及存储介质 Download PDF

Info

Publication number
CN112805182B
CN112805182B CN201880098254.8A CN201880098254A CN112805182B CN 112805182 B CN112805182 B CN 112805182B CN 201880098254 A CN201880098254 A CN 201880098254A CN 112805182 B CN112805182 B CN 112805182B
Authority
CN
China
Prior art keywords
agent
sound
occupant
agent function
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880098254.8A
Other languages
English (en)
Other versions
CN112805182A (zh
Inventor
杉原大志
关口敦
松浦侑纪
相马英辅
远藤航
田中亮介
仓持俊克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of CN112805182A publication Critical patent/CN112805182A/zh
Application granted granted Critical
Publication of CN112805182B publication Critical patent/CN112805182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Arrangement of adaptations of instruments
    • B60K35/10
    • B60K35/265
    • B60K35/29
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • B60R11/0217Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for loud-speakers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • B60R11/0247Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for microphones or earphones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • B60K2360/148
    • B60K2360/182
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • H04R5/023Spatial or constructional arrangements of loudspeakers in a chair, pillow
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Abstract

智能体装置具备:话筒,其收集车室内的声音;扬声器,其向所述车室内输出声音;以及功能不同的多个智能体功能部,所述多个智能体功能部分别基于由所述话筒收集到的声音的含义来生成对车辆的乘员搭话的智能体声音,并使所述扬声器输出所生成的智能体声音,成为与所述乘员对话的主体的智能体功能部基于由所述话筒收集到的声音的内容而切换。

Description

智能体装置、智能体控制方法及存储介质
技术领域
本发明涉及智能体装置、智能体控制方法及程序。
背景技术
以往,已知一种涉及智能体的技术,该智能体一边与车辆的乘员进行对话一边提供与乘员的要求相应的关于驾驶支援的信息、车辆的控制、以及其他应用程序等(例如,参照专利文献1)。
在先技术文献
专利文献
专利文献1:日本特开2006-335231号公报
发明内容
发明要解决的课题
然而,乘员的要求是多种多样的,因此有时仅一个智能体不能应对。另外,即便在使用了多个智能体的情况下,在乘员呼叫的一个智能体启动了时,其他智能体装置也成为停止状态,因此有时智能体间的协作不能充分进行。其结果是,有时不能对乘员进行适当的支援。
本发明的方案是考虑这样的情况而完成的,其目的之一在于提供能够对乘员进行更适当的支援的智能体装置、智能体控制方法及程序。
用于解决课题的方案
本发明的智能体装置、智能体控制方法及程序采用了以下的结构。
(1):本发明的一方案的智能体装置具备:话筒,其收集车室内的声音;扬声器,其向所述车室内输出声音;以及功能不同的多个智能体功能部,所述多个智能体功能部分别基于由所述话筒收集到的声音的含义来生成对车辆的乘员搭话的智能体声音,并使所述扬声器输出所生成的智能体声音,成为与所述乘员对话的主体的智能体功能部基于由所述话筒收集到的声音的内容而切换。
(2):在上述(1)的方案的基础上,所述多个智能体功能部分别以使所述生成的智能体声音的声像定位于规定的位置的方式,使所述扬声器输出所述智能体声音。
(3):在上述(1)或(2)的方案的基础上,所述智能体装置还具备主智能体功能部,该主智能体功能部基于由所述话筒收集到的声音的含义,来切换与所述乘员对话的主体,所述多个智能体功能部中,通过由所述主智能体功能部进行的切换控制,使成为与所述乘员对话的主体的智能体功能部切换。
(4):在上述(3)的方案的基础上,所述多个智能体功能部中的一个与所述主智能体功能部一体地进行动作。
(5):在上述(3)或(4)的方案的基础上,所述智能体装置还具备存储部,该存储部存储与所述多个智能体功能部分别能够执行的功能相关的功能信息,所述主智能体功能部基于所述声音的含义,参照所述功能信息,切换为能够实现与所述声音的含义对应的功能的智能体功能部。
(6):在上述(3)~(5)中任一项的方案的基础上,对搭载于所述车辆的设备进行的控制由所述多个智能体功能部中的特定的智能体功能部执行。
(7):在上述(3)~(5)中任一项的方案的基础上,所述智能体装置还具备显示图像的显示部,所述多个智能体功能部生成进行与所述乘员之间的交流的拟人化的智能体图像,所述主智能体功能部使所述显示部显示由所述多个智能体功能部生成的智能体图像,并且在与所述乘员对话的主体切换的情况下,使所述智能体图像的显示方式变更。
(8):在上述(3)~(7)中任一项的方案的基础上,所述智能体装置在所述车室内具备多个所述话筒,所述多个话筒设置于所述车室内的规定距离以内的位置。
(9):在上述(8)的方案的基础上,来自所述多个话筒的输入中的一个被分配给所述主智能体功能部。
(10):在上述(8)或(9)的方案的基础上,被分配给所述主智能体功能部的话筒的性能比其他话筒的性能高。
(11):在上述(8)~(10)中任一项的方案的基础上,所述主智能体功能部始终输入来自被分配的话筒的声音。
(12):在上述(8)~(11)中任一项的方案的基础上,由所述多个话筒收集到的各声音能够向所述主智能体功能部的声音输入接口输入。
(13):本发明的另一方案的智能体控制方法使计算机进行如下处理:使功能不同的多个智能体功能部分别基于由收集车室内的声音的话筒收集到的声音的含义来生成对车辆的乘员搭话的智能体声音,使向所述车室内输出声音的扬声器输出所生成的智能体声音,成为与所述乘员对话的主体的智能体功能部基于由所述话筒收集到的声音的内容而切换。
(14):本发明的又一方案的程序使计算机进行如下处理:使功能不同的多个智能体功能部分别基于由收集车室内的声音的话筒收集到的声音的含义来生成对车辆的乘员搭话的智能体声音,使向所述车室内输出声音的扬声器输出所生成的智能体声音,成为与所述乘员对话的主体的智能体功能部基于由所述话筒收集到的声音的内容而切换。
发明效果
根据(1)~(14),能够对乘员进行更适当的支援。
附图说明
图1是包括第一实施方式的智能体装置在内的智能体系统1的结构图。
图2是示意性地表示设置于车辆M的话筒、显示部及扬声器的图。
图3是用于说明后部座位附近的扬声器的位置的图。
图4是表示功能信息表172的内容的一例的图。
图5是用于说明使声像所定位的位置移动的图。
图6是表示服务器装置200的功能结构的一例的图。
图7是表示服务器装置200A所具备的回答信息DB244A的内容的一例的图。
图8是表示服务器装置200B所具备的回答信息DB244B的内容的一例的图。
图9是用于说明在第一场景中由智能体装置100执行的处理的图。
图10是用于说明在第二场景中由智能体装置100执行的处理的图。
图11是用于说明在第三场景中由智能体装置100执行的处理的图。
图12是用于说明在第四场景中由智能体装置100执行的处理的图。
图13是表示由智能体装置100进行的一系列处理的流程的一例的流程图。
图14是包括第二实施方式的智能体装置在内的智能体系统2的结构图。
图15是包括第三实施方式的智能体装置在内的智能体系统3的结构图。
具体实施方式
以下,参照附图来说明本发明的智能体装置、智能体控制方法及程序的实施方式。另外,以下,作为智能体装置的一例,说明搭载于车辆(以下称作车辆M)且具备对话型智能体功能的智能体装置。对话型智能体功能例如是通过一边与车辆M的乘员进行对话一边执行基于乘员的要求进行的各种信息的提供、车辆内的设备的控制等,来对乘员进行支援的功能。对话型智能体功能例如除了利用对乘员的声音进行辨识的声音辨识处理(将声音文本化的处理)以外,还综合性地利用自然语言功能(对文本的构造、含义进行理解的处理)、对话控制处理、检索处理等来实现。这些处理的一部分或全部通过AI(ArtificialIntelligence)技术来实现。另外,进行这些处理的结构的一部分或全部也可以设置于能够与车辆M进行通信的服务器装置(外部装置)。
(第一实施方式)
[整体结构]
图1是包括第一实施方式的智能体装置在内的智能体系统1的结构图。智能体系统1例如具备智能体装置100和服务器装置200。智能体装置100与服务器装置200例如以能够通过互联网、WAN(Wide Area Network)、LAN(Local Area Network)等网络NW进行数据的收发的状态连接。图1所示的服务器装置200A~200C例如与后述的副智能体功能部154A~154C对应。以下,在不对服务器装置200A~200C分别进行区别的情况下,称作“服务器装置200”来进行说明。关于其他名称也设为同样。
智能体装置100与车辆M的乘员进行对话,针对基于来自乘员的声音等进行的提问等要求而对服务器装置200进行请求,将从服务器装置200得到的回答以规定的输出方式提示给乘员,由此进行对乘员的支援。乘员例如是就座于驾驶员座的乘员(以下称作驾驶员),但除此以外,也可以是就座于副驾驶员座、后部座位的乘员(同乘者)。规定的输出方式例如是声音输出、图像输出等方式。另外,智能体装置100响应于来自乘员的基于声音的指示而执行针对车载设备或家庭设备等的控制。
智能体装置100例如具备通信装置110、操作部120、车载设备130、导航装置140及智能体控制装置150。这些装置、设备由CAN(Controller Area Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。需要说明的是,图1所示的结构只是一例,可以省略结构的一部分,也可以进一步追加别的结构。
通信装置110例如利用蜂窝网、Wi-Fi网、Bluetooth(注册商标)、DSRC(DedicatedShort Range Communication)等来与服务器装置200、其他车辆、乘员所持的终端装置等通信。与服务器装置200之间的通信由网络NW中介。通信装置110例如将从智能体控制装置150输入的包含声音在内的信息向服务器装置200发送。另外,通信装置110接收由服务器装置200生成的对话信息及输出控制信息。对话信息中例如包含与后述的声音的输出控制相关的信息。输出控制信息例如包括与图像等的显示控制相关的信息、与其他各种设备控制相关的信息等。
操作部120接受来自乘员的操作。操作部120例如具备声音输入部122。声音输入部122对存在于车室内的乘员的声音进行收集。声音输入部122例如具备多个话筒124。多个话筒124也可以是性能不同的话筒。话筒的性能例如包括灵敏度、指向性、频率特性、强度。以下,使用话筒124A及话筒124B这两个话筒进行说明,话筒124A的性能比话筒124B的性能高。由各话筒收集的声音(声音流)向后述的主智能体功能部152所具备的声音输入接口(声音输入IF)152a输入。另外,操作部120也可以具备开关、按钮、按键、触摸面板等。
车载设备130是智能体控制装置150所控制的对象的一例。车载设备130例如具备显示部132、扬声器134、放大器(AMP)136、混声器138及车辆控制设备139。
显示部132设置于在车室内的座椅上就座的乘员的前方附近。另外,扬声器134设置于车室内的座椅附近或显示部132附近。显示部132及扬声器134可以在车室内设置有多个。
图2是示意性地表示设置于车辆M的话筒、显示部及扬声器的图。在图2所示的车辆M的车室内,设置有话筒124A~124B、显示部132A~132D、扬声器134A~134F。
话筒124A及话筒124B在仪表板IP的任意部位处于规定距离以内的位置设置。通过在规定距离以内的位置设置,能够从话筒124A及话筒124B这两方输入大致同样的声音。另外,话筒124A及话筒124B也可以设置于转向盘、座椅。
显示部132A例如是HUD(Head-Up Display)装置。HUD装置是使图像与风景重叠而供视觉辨识的装置,作为一例,是通过向车辆M的前风窗玻璃、合成器投射包含图像的光而使驾驶员视觉辨识虚像的装置。在显示部132A上,例如显示与由导航装置140执行的导航处理对应的图像、由智能体控制装置150生成的图像等。
显示部132B设置于仪表板IP中的驾驶员座(例如距转向盘最近的座位)的正面附近,且设置于驾驶员能够从转向盘的间隙或越过转向盘而进行视觉辨识的位置。显示部132B例如是LCD(Liquid Crystal Display)、有机EL(Electro Luminescence)显示装置等。在显示部132B上,例如显示车辆M的速度、发动机转速、燃料余量、散热器水温、行驶距离、其他信息的图像、以及由智能体控制装置150生成的图像等。
显示部132C设置于仪表板IP的中央附近。显示部132C例如与显示部132B同样地,是LCD、有机EL显示装置等。在显示部132C上,例如显示与由导航装置140执行的导航处理对应的图像、由智能体控制装置150生成的图像等。另外,显示部132C也可以显示电视节目,或者播放DVD,或者显示下载的电影等条目(contents)。
显示部132D设置于仪表板IP中的副驾驶员座(驾驶员座旁边的座位)的正面附近。在显示部132D上,例如显示电视节目、从服务器装置200下载的电影等条目图像、基于其他应用程序的执行而生成的图像、由智能体控制装置150生成的图像等。需要说明的是,在车室内也可以除了设置上述的显示部以外还设置对利用车外相机取得的车辆M的侧后方的图像进行显示的显示部(电子后视镜)。
智能体控制装置150例如使针对来自乘员的请求进行回答的回答结果显示于显示部132A~132D中的至少一个。例如,智能体控制装置150在使针对驾驶员的提问进行回答的回答结果显示的情况下,通过使显示部132A或显示部132B进行显示,能够使驾驶员容易一边监视车辆前方一边视觉辨识回答结果。另外,智能体控制装置150通过使显示部132C、132D显示回答结果,从而不仅是驾驶员,能够也使其他同乘者容易辨识回答结果。关于使哪个显示部132进行显示,例如可以基于回答结果的内容、车辆状况(行驶中或停止中)来决定,也可以基于乘员的指示来决定。
扬声器134A及扬声器134B例如设置于车辆M的左右的前方的窗柱(所谓的A柱)。另外,扬声器134C设置于驾驶员座侧的车门的下部,扬声器134D设置于副驾驶员座侧的车门的下部。扬声器134E设置于显示部132C附近、即仪表板IP的中央附近。扬声器134F设置于车室内的顶棚的中央部附近。
另外,也可以在车辆M中在后部座位附近设置有扬声器。图3是用于说明后部座位附近的扬声器的位置的图。在图3的例子中,除了设置图2所示的扬声器134A~134F以外,还在驾驶员座ST1和副驾驶员座ST2的后方处设置的后部座位ST3附近设置有扬声器134G及扬声器134H。具体而言,扬声器134G及扬声器134H设置于左右的方向车门的下部。另外,扬声器134可以在设置于车辆M的前方车门与后方车门之间的窗柱(所谓的B柱)上设置,也可以设置于后部座位的后方。
AMP136调整通过基于声音控制部158的控制而从扬声器134输出的声音的大小。例如,AMP136能够针对成为基准的声音的大小(最大强度)而在0~100%的区间进行声音的调节。另外,AMP136例如具备混声器138。混声器138具备对输入的多个声音进行合成的功能。另外,混声器138具备在存在多个扬声器134的情况下向各个扬声器分配要输出的声音的功能。智能体控制装置150使声音从扬声器134A~134H中的至少一个扬声器输出。
另外,车辆控制设备139是用于对车辆M或车室内的状态进行控制的设备,例如是空调(Air Conditioner)、使室内灯点亮或熄灭的照明装置、使座位的位置、躺倒角度自动变化的座椅驱动装置、使侧风窗玻璃开闭的电动车窗单元。另外,车载设备130可以包括导航装置140。
导航装置140例如基于从GNSS(Global Navigation Satellite System)卫星接收到的信号,来确定车辆M的位置。另外,导航装置140参照地图信息142来决定从确定出的车辆M的位置(或者输入的任意的位置)到由乘员使用操作部120、显示部132而输入的目的地的路径(以下称作地图上路径)。地图信息142例如是通过表示道路的线路和由线路连接的节点来表现道路形状的信息。地图信息142也可以包含道路的曲率、POI(Point OfInterest)信息等。另外,地图信息142例如也可以包括车道的中央的信息或车道的边界的信息、车道的类别的信息等。另外,地图信息142也可以包括道路信息、交通限制信息、住所信息(住所、邮政编码)、设施信息、电话号码信息等。地图信息142可以通过通信装置110与其他装置通信而随时被更新。
另外,导航装置140例如也可以通过乘员持有的智能手机、平板终端等终端装置的功能来实现。另外,导航装置140也可以经由通信装置110而向服务器装置200或导航服务器发送当前位置和目的地,并从服务器装置200、导航服务器取得与地图上路径同等的路径。另外,导航装置140也可以通过由智能体控制装置150执行的导航用的应用程序(导航应用)的功能来实现上述的导航装置140的功能。另外,导航装置140也可以基于地图上路径,通过基于显示部132的地图图像显示、基于扬声器134的声音输出来进行路径引导。
[智能体控制装置]
智能体控制装置150例如具备主智能体功能部152、多个副智能体功能部(智能体功能部的一例)154、显示控制部156、声音控制部158、设备控制部160、以及存储部170。这些构成要素例如通过CPU(Central Processing Unit)等计算机处理器执行程序(软件)来实现。另外,这些构成要素中的一部分或全部可以通过LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable GateArray)、GPU(Graphics Processing Unit)等硬件(包含电路部:circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于存储部170,也可以保存于DVD、CD-ROM等能够装卸的存储介质,并通过存储介质装配于驱动装置而安装于存储部170。以下,作为多个副智能体功能部154的一例,使用三个副智能体功能部154A~154C。
存储部170例如由HDD、闪存器、EEPROM(Electrically Erasable ProgrammableRead Only Memory)、ROM(Read Only Memory)或RAM(Random Access Memory)等实现。在存储部170中,例如保存功能信息表172、由处理器读出并执行的程序、其他信息等。关于功能信息表172的内容见后述。
[主智能体功能部]
主智能体功能部152具备能够从话筒124A及话筒124B输入声音的声音输入接口152a。另外,副智能体功能部154A~154C具备能够分别从话筒124B输入声音的声音输入接口154Aa~154Ca。即,话筒124A被分配给声音输入接口152a,话筒124B根据针对乘员的要求进行处理的处理状态而能够向主智能体功能部152和副智能体功能部154A~154C中任一项切换而分配。通过将比话筒124B的性能高的话筒124A向主智能体功能部152分配,主智能体功能部152能够输入音质比话筒124B好的声音。
主智能体功能部152从由声音输入接口152a输入的声音(声音流)辨识声音的含义。具体来说,首先,主智能体功能部152基于输入的声音流中的声音波形的振幅和零交叉来检测声音区间。另外,主智能体功能部152也可以通过基于混合高斯分布模型(GMM;Gaussian mixture model)的帧单位的声音识别及非声音识别来进行区间检测。
接着,主智能体功能部152辨识检测到的声音区间中的声音,并将辨识到的声音文本化而成为文字信息。并且,主智能体功能部152执行针对文本化后的文字信息的自然语言处理,辨识文字信息的含义。自然语言处理包括词素解析、行文解析、含义解析、文脉解析等。词素解析例如将文字信息分割为具有含义的最小的表现要素的单位,并解析分割后的每个单位(词素)的词类等。行文解析例如基于通过词素解析得到的词素来解析文句的构造。含义解析例如基于通过行文解析得到的行文,来判别具有含义的集块。文脉解析例如以文句单位来辨识含义。
接着,主智能体功能部152基于辨识到的含义,来辨识词语或指令。例如,辨识输入的声音为“喂!”、“嗨!”等呼叫任意的智能体(对话型智能体)的词语、指定由副智能体功能部154A~154C分别实现的智能体而呼叫的词语(例如唤醒词)。
另外,主智能体功能部152生成与辨识到的含义对应的指令。例如,作为辨识结果,在辨识到“打开空调”、“请接入空调的电源”等含义的情况下,主智能体功能部152生成置换为标准文字信息“空调的启动”的指令。由此,即便在请求的声音中存在表述差异的情况下,也能够容易执行符合要求的控制。另外,主智能体功能部152例如也可以使用利用了概率的机器学习处理等人工智能处理来辨识文字信息的含义、生成基于辨识结果得到的指令。
另外,主智能体功能部152基于辨识到的词语、指令,来决定进行与乘员之间的对话的副智能体。例如,在辨识到呼叫任意智能体的词语的情况下,决定为预先指定的智能体(例如由副智能体功能部154A实现的智能体A)。另外,主智能体功能部152在指定特定的智能体的词语被辨识到的情况下,决定为以辨识到的词语指定的智能体。另外,主智能体功能部152也可以基于辨识到的指令,参照存储于存储部170的功能信息表172,将能够实现与指令建立对应关系的功能的智能体决定为进行与乘员之间的对话的智能体。
图4是表示功能信息表172的内容的一例的图。在功能信息表172中,智能体识别信息与功能信息建立了对应关系。功能信息例如包括车载设备控制、店铺检索、路径引导、交通信息通知、收音机控制、家庭设备控制、商品订购。另外,在智能体信息中,例如包括由副智能体功能部154A~154C实现的智能体A~C。另外,在图4的例子中,对智能体能够实现的功能保存“1”,对不能实现的功能保存“0”,但也可以使用其他识别信息。
例如,主智能体功能部152在辨识到的指令为“空调的启动”的情况下,参照功能信息表172来决定能够执行与指令对应的控制即车载设备控制的智能体。在图4的例子中,主智能体功能部152取得能够执行空调的启动的智能体为智能体A这一情况,将与乘员对话的智能体决定为智能体A。需要说明的是,在如店铺检索那样是多个智能体能够执行的功能的情况下,主智能体功能部152也可以基于针对每个功能而预先决定的优先顺序来决定智能体。
另外,主智能体功能部152在辨识到呼叫特定的智能体的唤醒词的情况下,也可以基于唤醒词来决定进行与乘员之间的对话的智能体。
主智能体功能部152使与决定出的智能体对应的副智能体功能部154成为能够与乘员对话的状态。因此,主智能体功能部152将来自话筒124B的声音向与乘员对话的副智能体功能部154的声音输入接口分配。由此,通过主智能体功能部152而成为了能够进行对话的状态的副智能体功能部154能够基于通过声音输入接口而输入的来自话筒124B的声音,取得来自乘员的请求、与乘员进行对话。
另外,主智能体功能部152即便规定的副智能体功能部154是能够与乘员对话的状态,也始终输入由话筒124A收集到的声音。由此,主智能体功能部152例如能够掌握副智能体功能部154A与乘员之间的对话内容,并且进行选定存在能够获得更适当的回答的可能性的其他副智能体功能部154并切换为所选定的其他副智能体功能部154这样的控制。由此,能够提高多个智能体的协作性,并且能够实现对乘员更适当的支援。
另外,主智能体功能部152在副智能体功能部154不是能够对话的状态的情况下,能够从话筒124A及话筒124B这两方输入声音,因此能够输入更高性能的声音。另外,主智能体功能部152能够基于话筒124A及话筒124B这两方的声音的相位差,来辨识从车室内的哪个方向听到声音。
另外,主智能体功能部152调整副智能体功能部154A~154C分别输出的声音的输出位置、图像的显示位置等。关于主智能体功能部152中的声音的输出位置、图像的显示位置的调整的详细情况见后述。
[副智能体功能部]
副智能体功能部154将包含从声音输入接口输入的声音在内的信息经由网络NW而向服务器装置200发送,取得与发送出的声音对应的对话信息、输出控制信息。另外,副智能体功能部154在将包含输入的声音在内的信息向服务器装置200发送的情况下,也可以发送与车辆M的状态(例如车辆M的位置、周围环境)相关的信息。
副智能体功能部154在所取得的对话信息中包含声音控制的情况下,使声音控制部158执行声音的生成、声音控制。另外,副智能体功能部154在所取得的输出控制信息中包含显示控制的情况下,使显示控制部156执行图像的生成、显示控制。另外,副智能体功能部154在所取得的输出控制信息中包含对车辆控制设备139进行的控制的情况下,使设备控制部160执行针对对象的设备的控制。另外,副智能体功能部154也可以根据来自主智能体功能部152的指示而进行图像的生成、声音的生成。
需要说明的是,副智能体功能部154也可以通过API(Application ProgrammingInterface)来接受来自话筒124B的声音、从通信装置110得到的对话信息及输出控制信息的输入,并选择执行基于接受到的输入进行的处理的功能部(显示控制部156、声音控制部158及设备控制部160),且使选择出的功能部借助API而执行处理。
显示控制部156通过副智能体功能部154的控制而生成在车内进行与乘员之间的交流的拟人化的智能体的图像(以下称作智能体图像),并使所生成的智能体图像显示于显示部132。智能体图像例如是对乘员搭话的形态的图像。智能体图像例如包括至少由观看者(乘员)辨识表情、脸朝向的程度的脸图像。例如,在智能体图像中,在脸区域中表示出模拟眼睛、鼻子的部件,基于脸区域中的部件的位置来辨识表情、脸朝向。另外,智能体图像也可以被立体地感知,通过包含三维空间中的头部图像而由观看者辨识智能体的脸朝向,通过包含主体(躯体、手脚)的图像而由观看者辨识智能体的动作、举止、姿态等。另外,智能体图像也可以是动画图像。
另外,显示控制部156将输出控制信息所包含的图像变换为用于使由副智能体功能部154指示的显示部132显示的显示方式(例如图像尺寸、图像格式),并使变换后的图像显示于所指示的显示部132。
声音控制部158通过副智能体功能部154的控制而使对话信息所包含的智能体图像对乘员搭话的声音(以下称作智能体声音)、智能体声音以外的声音(例如与收音机、音乐、影像等条目对应的声音)从扬声器134输出。此时,声音控制部158也可以使用多个扬声器134而进行使智能体声音的声像定位于与智能体图像的显示位置对应的位置的控制。与智能体图像的显示位置对应的位置例如是预测为使乘员感到智能体图像正在讲出智能体声音的位置,具体而言是智能体图像的显示位置附近(例如2~3[em]以内)的位置。另外,声像定位例如是指通过调节向乘员的左右耳传递的声音的大小来确定乘员感到的声源的空间位置。声像例如基于声源原本持有的声音特性、车室内环境的信息、头部传递函数(HRTF;Head-related transfer function)而确定。利用这样的原理,能够使声像定位于规定的位置。
图5是用于说明使声像所定位的位置移动的图。在图5中,为了简化说明而使用上述的扬声器134C~134E,但也能够使用设置于车室内的扬声器134A~134H来使声像定位的位置进行空间移动。例如,在使声像定位于图5所示的由三维坐标(X、Y、Z)确定的空间位置MP1的情况下,AMP136基于由声音控制部158生成的声音,针对规定的输出对象的声音,从扬声器134C进行了最大强度的5%的输出,从扬声器134D进行了最大强度的80%的输出,从扬声器134E进行了最大强度的15%的输出时,从乘员P1的位置感到声像定位于图5所示的空间位置MP1。
另外,在AMP136针对输出对象的声音,从扬声器134C进行了最大强度的45%的输出,从扬声器134D进行了最大强度的45%的输出,从扬声器134E进行了最大强度的45%的输出时,从乘员P1的位置能够感到声像定位于图4所示的空间位置MP2。这样,通过调整设置于车室内的多个扬声器和从各个扬声器输出的声音的大小,能够使声像所定位的位置变化。以下,将声像所定位的空间上的位置MP称作“声像位置MP”。
设备控制部160基于输出控制信息所包含的设备控制信息,来执行车辆控制设备139的控制。车辆控制设备139的控制例如是空调的开闭、温度调整、室内灯的亮灭、躺倒角度的调整、侧风窗玻璃的开闭等。
[服务器装置]
接着,使用图来说明服务器装置200的简要结构。需要说明的是,图1所示的服务器装置200A~200C针对副智能体功能部154A~154C中的每个而设置,但关于它们各个的简要结构,除了后述的回答信息DB(database:数据库)的内容以外大致相同,因此作为“服务器装置200”而汇总说明。
图6是表示服务器装置200的功能结构的一例的图。服务器装置200例如具备通信部210、辨识部220、对话生成部230及存储部240。这些构成要素例如通过CPU等计算机处理器执行程序(软件)来实现。另外,这些构成要素中的一部分或全部可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部:circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于存储部240,也可以保存于DVD、CD-ROM等能够装卸的存储介质,并通过存储介质装配于驱动装置而安装于存储部240。
存储部240例如由HDD、闪存器、EEPROM、ROM或RAM等实现。存储部240例如保存个人简介242、回答信息DB244、其他信息等。
通信部210例如利用蜂窝网、Wi-Fi网、Bluetooth、DSRC等,经由网络NW而与智能体装置100通信。通信部210接收从智能体装置100发送的包含声音(例如声音流)在内的信息。另外,通信部210将由对话生成部230生成的包含声音在内的对话信息、图像或对设备的输出控制信息发送给智能体装置100。
辨识部220例如根据由通信部210接收到的声音流来辨识声音的含义。具体而言,辨识部220基于从智能体装置100发送出的声音流中的声音波形的振幅、零交叉等来检测声音区间。另外,辨识部220也可以根据基于GMM的帧单位的声音/非声音识别来进行区间检测。另外,辨识部220辨识检测到的声音区间中的声音,将声音文本化为文字信息。另外,辨识部220也可以根据辨识出的声音来确定讲话者的特征。讲话者的特征例如包括性别、年龄、是驾驶员还是同乘者的信息。
另外,辨识部220也可以使用从声音得到的特征信息,来与存储于存储部240的个人简介242进行对照。在个人简介242中,例如个人信息与声音的特征信息建立了对应关系。声音的特征信息例如是与声音的高度、语调、节奏(声音的高低的图案)、停顿等谈吐方式的特征、基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients)等的特征量相关的信息。声音的特征信息例如是通过在乘员的初始登记时使乘员对规定的单词、文章等进行发声并辨识发声的声音而得到的信息。个人信息例如包括姓名、住所、年龄、兴趣、过去的服务器装置200的使用履历。姓名、住所、年龄、兴趣在乘员的初始登记时与声音的特征信息一起被设定,之后通过设定变更等而被适当更新。辨识部220将从声音得到的特征信息与存储于存储部240的个人简介242的特征信息进行对照,来辨识与吻合的特征信息建立了对应关系的个人信息。
另外,辨识部220执行针对文本化了的文字信息的自然语言处理,辨识文字信息的含义。自然语言处理包括词素解析、行文解析、含义解析、文脉解析等。另外,辨识部220生成与辨识到的含义对应的指令。
另外,对话生成部230使用从辨识部220输入的指令来参照存储于存储部240的回答信息DB244的指令,取得与吻合的指令对应的控制内容。需要说明的是,回答信息DB244根据副智能体功能部154A~154C能够执行的功能而不同。以下,说明服务器装置200A及服务器装置200B分别具备的回答信息DB。
图7是表示服务器装置200A所具备的回答信息DB244A的内容的一例的图。在回答信息DB244A中,例如使副智能体功能部154A执行的控制内容与指令信息建立了对应关系。在回答信息DB244B的控制内容中,例如包含与针对车载设备的设备控制(启动、停止)相关的信息、智能体声音的输出控制、使显示部132显示的图像控制等。回答信息DB244A所包含的内容与上述的图4所示的功能信息表172中的能够执行的功能建立了对应关系。图7所示的针对“空调的启动”、“空调的停止”、“车内灯的点亮”的指令的控制是车载设备控制功能所包含的控制。另外,针对“到A的距离是?”的指令的控制是路径引导功能所包含的控制。另外,针对“处于附近的餐厅是?”的指令的控制是店铺检索功能所包含的控制。
图8是表示服务器装置200B所具备的回答信息DB244B的内容的一例的图。在回答信息DB244B中,例如使副智能体功能部154B执行的控制内容与指令信息建立了对应关系。在回答信息DB244B中,包括智能体声音的输出控制、使显示部132显示的图像控制、应用执行控制等。例如,图8所示的针对“打开收音机”的指令的控制是收音机控制功能所包含的控制。这样,服务器装置200针对各个特性、领域分别具备对应的回答信息DB244,由此能够从多种信息中提供符合乘员的要求的信息。
对话生成部230取得与指令建立了对应关系的控制内容。例如,在指令为“空调的启动”的情况下,对话生成部230取得使搭载于车辆M的空调启动的设备控制的控制内容、输出“启动了空调。”这样的声音的声音控制的控制内容、以及显示车室内温度及设定温度的显示控制的控制内容。
另外,在指令为“到A站的距离是?”的情况下,对话生成部230取得输出“距此处***[km]。”这样的声音的声音控制的控制内容、以及显示到A站的路径图像这样的显示控制的控制内容。在该情况下,对话生成部230基于从智能体装置100发送的车辆M的位置信息,参照存储于存储部240或外部装置的地图信息(未图示),导出从车辆M的位置到A站的行驶距离。并且,对话生成部230也可以向取得的声音控制的控制内容即“据此***[km]。”的“***”的部分代入所导出的行驶距离而生成最终的声音信息。
另外,对话生成部230基于取得的控制内容来生成用于与乘员进行对话的对话信息及输出控制信息。例如,对话生成部230作为对话信息而生成针对从回答信息DB244得到的内容(文字信息)的声音信息(声音流)。在声音信息中例如包括智能体声音、其他声音。另外,对话生成部230也可以生成与智能体声音的内容对应的智能体图像。另外,对话生成部230作为输出控制信息而生成向乘员提示的图像、影像、文字信息等、生成针对设备控制的控制信息。例如,在根据回答信息DB244而得到的回答是“显示控制:显示到A站的路径图像”的情况下,对话生成部230参照地图信息,生成从车辆M的位置到A站的路径图像。
另外,对话生成部230在由辨识部220得到了针对声音的个人信息的情况下,也可以基于个人信息,通过声音呼叫乘员的名字、生成设为与乘员的说话方式相仿的说话方式的声音信息。另外,对话生成部230也可以取得从个人简介得到的与乘员的兴趣相关的信息,并在对话信息中包含所取得的信息。对话生成部230将生成的对话信息及输出控制信息经由通信部210向智能体装置100发送。
[由智能体装置执行的处理的详细情况]
接着,关于由智能体装置100执行的处理的详细情况,针对不同的场景中的每个场景而进行说明。以下,说明由智能体装置100输出的智能体图像显示于显示部132A的情况。
<第一场景>
图9是用于说明在第一场景中由智能体装置100执行的处理的图。第一场景例如是由主智能体功能部152从乘员的声音中辨识到呼叫任意的智能体的词语的场景。需要说明的是,在第一场景中,通过话筒124A及话筒124B分别输入的声音向主智能体功能部152的声音输入接口152a输入。
在第一场景中,主智能体功能部152在呼叫任意的智能体的词语被辨识到的情况下,使副智能体功能部154A~154C分别生成智能体图像EIA~EIC。此时,主智能体功能部152变更各个智能体图像的显示方式。例如,在辨识到呼叫任意的智能体的词语的情况下,主智能体功能部152将预先指定的副智能体功能部154A的智能体A决定为与乘员进行对话的智能体。并且,主智能体功能部152使由显示控制部156生成的与副智能体功能部154A~154C对应的智能体图像EIA~EIC中进行对话的智能体图像EIA比其他智能体EIB及智能体EIC靠从乘员观察时的跟前处显示。需要说明的是,主智能体功能部152也可以根据图像空间上的智能体图像EIA~EIC的位置关系来调整各智能体图像的大小。
如图9所示,通过使能够与乘员对话的智能体所对应的智能体图像EIA~EIC显示于显示部132,能够使乘员容易掌握到存在多个智能体。另外,通过使进行对话的智能体图像EIA在从乘员观察时跟前的位置显示,能够容易直观地掌握进行对话的智能体。
另外,主智能体功能部152使由话筒124B收集的声音输入副智能体功能部154A的声音输入接口154Aa。由此,能够基于由话筒124B收集到的声音,来在副智能体功能部154A的智能体与乘员之间进行对话,并且基于从话筒124A始终输入的声音,使主智能体功能部152的功能继续。
副智能体功能部154A使声音控制部158调整智能体声音的声像位置MPA而与显示于显示部132A的智能体图像EIA的显示位置建立对应关系。在图9的例子中,从服务器装置200取得的对话信息所包含的“有什么请求吗?”这样的智能体声音被调整声像位置MPA,以便从智能体图像EIA的显示位置附近听到。
<第二场景>
图10是用于说明在第二场景中由智能体装置100执行的处理的图。第二场景例如是从乘员输入包含与“空调的启动”对应的请求在内的声音、且执行了与输入的请求对应的控制的场景。另外,第二场景是上述的第一场景以后的连续的场景。
在第二场景中,主智能体功能部152基于通过乘员的声音辨识到的指令“空调的启动”,参照功能信息表172的指令信息,将能够实现车载设备控制的智能体A(副智能体功能部154A)决定为与乘员对话的智能体。此时,主智能体功能部152使决定出的智能体A的智能体图像EIA比其他智能体图像EIB及智能体图像EIC靠跟前处显示,但在第一场景中,已经在跟前位置显示着智能体图像EIA,因此图9所示的智能体图像的显示方式继续。
另外,在第二场景中,副智能体功能部154A基于从服务器装置200取得的输出控制信息,来执行设备控制。另外,副智能体功能部154A基于输出控制信息所包含的显示控制,取得由搭载于车辆M的车辆传感器(未图示)检测到的车室内温度、以及由空调设定着的设定温度,并使显示部132显示与所取得的车室内温度及设定温度相关的文字信息CI。在图10的例子中,副智能体功能部154A通过显示控制部156的控制,使显示部132A显示着表示车室内温度为32[℃]且设定温度为28[℃]的文字信息CI。
另外,副智能体功能部154A在设备控制被执行了的情况下,基于对话信息所包含的声音控制内容,使智能体声音的声像位置MPA定位于智能体图像EIA的显示位置附近,并使“启动了空调。”这样的智能体声音输出。
需要说明的是,副智能体功能部154A也可以基于针对乘员的请求的控制内容,来使智能体图像EIA的表情、智能体声音的音调等变化。例如,在成功地执行了针对乘员的请求的控制的情况下,副智能体功能部154A使喜悦的表情的智能体图像显示、使智能体声音的音调比基准的音调高地输出。另外,在没能够执行针对乘员的请求的控制的情况下,副智能体功能部154A使悲伤的表情的智能体图像显示、使智能体声音的音调比基准的音调低地输出。
需要说明的是,智能体图像、智能体声音的变化可以是回应了请求的智能体,也可以是其他智能体。在图10的例子中,回应了乘员的请求的副智能体功能部154A的智能体图像EIA、以及未回应请求的副智能体功能部154B的智能体图像EIB的表情变化为微笑的表情。这样的使表情变化的图像的生成由从主智能体功能部152接受到指示的副智能体功能部154执行。
<第三场景>
图11是用于说明在第三场景中由智能体装置100执行的处理的图。第三场景例如是关于智能体A不能执行的功能控制而从乘员产生有请求的场景。
在第三场景中,主智能体功能部152基于与通过乘员的声音而辨识到的请求对应的指令,参照功能信息表172的指令信息,将能够实现与指令对应的功能的智能体(在图11的例子中为智能体B)决定为与乘员对话的智能体。此时,主智能体功能部152在将与乘员进行对话的主体从副智能体功能部154A切换为副智能体功能部154B的时机,以使智能体图像EIB比其他智能体图像EIA及智能体图像EIC靠跟前处显示的方式变更显示方式。
另外,主智能体功能部152在调换智能体图像EIA与智能体图像EIB的显示位置的情况下,也可以使对象的副智能体功能部154生成表示对话的智能体切换了的智能体声音。例如,如图11所示,在与乘员进行对话的主体从智能体A向智能体B切换的情况下,主智能体功能部152使得从智能体A输出“该请求由智能体B进行回应。”等智能体声音,并从智能体B输出“由我进行回应。”等智能体声音。在该情况下,主智能体功能部152使针对智能体A的智能体声音的声像位置MPA定位于智能体图像EIA的显示位置附近,使针对智能体B的智能体声音的声像位置MPB定位于智能体图像EIB的显示位置附近。由此,能够使乘员感到智能体间进行着顺利的协作这样的感觉。
另外,主智能体功能部152将话筒124B收集到的声音的输入从副智能体功能部154A的声音输入接口154Aa向副智能体功能部154B的声音输入接口154Ba切换。由此,能够在智能体B与乘员之间实现对话等。
<第四场景>
图12是用于说明在第四场景中由智能体装置100执行的处理的图。第四场景例如是在第三场景中智能体B对乘员的支援结束了的场景。
在第四场景中,主智能体功能部152进行使与乘员对话的主体返回智能体A的控制。具体而言,主智能体功能部152使智能体图像EIA比其他智能体图像EIB及智能体图像EIC靠跟前处显示,并且将话筒124B收集到的声音的输入从副智能体功能部154B的声音输入接口154Ba向副智能体功能部154A的声音输入接口154Aa切换。
另外,主智能体功能部152也可以在将智能体图像EIA与智能体图像EIB的显示位置调换的情况下,输出表示对话的智能体切换了的智能体声音。例如,如图12所示,在与乘员对话的主体从智能体B向智能体A切换的情况下,主智能体功能部152使得从智能体A向智能体B输出“谢谢啦!”等智能体声音,从智能体B向智能体A输出“有事儿再叫我哈!”等智能体声音。在该情况下,主智能体功能部152使智能体声音的声像位置MPA及声像位置MPB定位于智能体图像EIA及智能体图像EIB的显示位置附近。这样,通过使智能体间的模拟的会话输出,能够使乘员感到在智能体间进行着更顺利的协作这样的感觉。
这样,主智能体功能部152针对多个智能体而进行自动地切换与乘员对话的主体的控制,由此能够执行通过多个智能体进行的更适当的支援。
另外,主智能体功能部152在针对如店铺检索这样的一个请求而能够由多个智能体进行信息提示的情况下,不仅是乘员通过唤醒词而指定的智能体,其他智能体也能够代为进行信息提示。因此,能够进一步向乘员提供最佳的信息。另外,主智能体功能部152通过管理多个智能体的功能,例如能够在使智能体C进行着商品订购的状态下,通过智能体A来进行空调的启动控制。
[处理流程]
以下,使用流程图来说明由第一实施方式的智能体装置100进行的一系列处理的流程。图13是表示由智能体装置100进行的一系列处理的流程的一例的流程图。需要说明的是,在图13中,是主要用于说明由主智能体功能部152进行的处理的流程的图。图13的处理也可以在规定的时机反复被执行。
首先,主智能体功能部152通过声音输入接口152a而输入由话筒124收集到的声音,辨识输入的声音的含义(步骤S100)。接着,主智能体功能部152根据辨识到的声音的含义,决定预先设定的多个副智能体功能部154中的成为与乘员对话的主体的副智能体功能部154(步骤S102)。接着,主智能体功能部152使决定出的副智能体功能部154为能够对话的状态(步骤S104)。
接着,主智能体功能部152使与决定出的副智能体功能部154执行与请求对应的控制(步骤S106)。另外,主智能体功能部152判定是否辨识到其他请求(步骤S108)。在辨识到其他请求的情况下,主智能体功能部152判定是否能够利用进行着与乘员之间的对话的副智能体功能部154来执行针对该请求的功能(步骤S110)。在能够执行的情况下,返回步骤S106的处理。
另外,在不能执行的情况下,主智能体功能部152决定多个副智能体功能部154中的能够执行的其他副智能体功能部(步骤S112)。接着,主智能体功能部152将与乘员对话的主体切换为决定出的副智能体功能部(步骤S114),并返回步骤S106的处理。另外,在步骤S108的处理中未辨识到其他请求的情况下,本流程图的处理结束。
根据以上说明的第一实施方式,能够使乘员进行更适当的支援。具体而言,根据第一实施方式,通过管理多个智能体能够执行的功能,能够针对乘员的期望而切换为更适当的智能体来进行对话。
(第二实施方式)
接着,说明第二实施方式的智能体装置的结构。在第二实施方式中,与第一实施方式的智能体装置100相比,不同点在于,智能体控制装置150具备多个副智能体功能部中的一个和主智能体功能部一体进行动作的主/副智能体功能部。因此,以下,主要以主/副智能体功能部的结构为中心进行说明。
图14是包括第二实施方式的智能体装置在内的智能体系统2的结构图。第二实施方式中的智能体装置100#例如具备通信装置110、操作部120、车载设备130、导航装置140及智能体控制装置150#。另外,智能体控制装置150#例如具备主/副智能体功能部151、副智能体功能部154B及副智能体功能部154C、显示控制部156、声音控制部158、设备控制部160、以及存储部170。
主/副智能体功能部151例如具备声音输入接口151a。另外,主/副智能体功能部151例如具备第一实施方式中的主智能体功能部152及副智能体功能部154A的功能。因此,由主/副智能体功能部151提供的智能体A作为管理其他智能体的主智能体而发挥功能。
例如,智能体A能够基于从话筒124A向声音输入接口151a始终输入的声音,顺利地进行向其他智能体的切换等。而且,智能体A例如即便其他智能体(例如智能体B或智能体C)正在与乘员对话中,也能够立刻应对智能体A的呼叫,并且能够与其他智能体同时进行店铺检索等,在智能体间进行调整而向乘员提示更适当的信息。另外,通过智能体A具备控制车载设备的功能,从而在从乘员输入了控制车载设备的指令的情况下,能够不使其他智能体介入而迅速地应对。
根据上述的第二实施方式,除了起到与第一实施方式同样的效果以外,通过使特定的智能体作为主智能体而常驻,能够进行与其他智能体之间的协作的管理、输出内容的调整等。
(第三实施方式)
接着,说明第三实施方式的智能体装置的结构。在第三实施方式中,与第一实施方式的智能体系统1相比,不同点在于,将服务器装置200的功能设置于智能体控制装置内。因此,以下,主要以智能体控制装置的结构为中心进行说明。
图15是包括第三实施方式的智能体装置在内的智能体系统3的结构图。第三实施方式中的智能体装置100##例如具备通信装置110、操作部120、车载设备130、导航装置140及智能体控制装置150##。另外,智能体控制装置150##例如具备主智能体功能部152、副智能体功能部154A#~154C#、显示控制部156、声音控制部158、设备控制部160及存储部170#。
在存储部170#中,具备功能信息表172、个人简介174及回答信息DB176。个人简介174与第一实施方式的个人简介242相当。另外,回答信息DB176与第一实施方式的回答信息DB244相当。需要说明的是,回答信息DB176也可以针对副智能体功能部154A#~154C#中的每个副智能体功能部而设置。
另外,副智能体功能部154A#例如具备声音输入接口154Aa、辨识部154Ab及对话生成部154Ac。同样地,副智能体功能部154B#例如具备声音输入接口154Ba、辨识部154Bb及对话生成部154Bc。副智能体功能部154C#例如具备声音输入接口154Ca、辨识部154Cb及对话生成部154Cc。各辨识部及对话生成部与第一实施方式的设置于服务器装置200的辨识部220及对话生成部230相当。
根据第三实施方式,副智能体功能部154A#~154#C能够不进行与服务器装置200之间的通信而利用辨识部154Ab~154Cb来辨识包含声音在内的信息,利用对话生成部154Ac~对话生成部154Cc来参照回答信息DB176而生成对话信息、输出控制信息。另外,副智能体功能部154A#~154#C能够参照个人简介174,生成基于乘员的喜好得到的对话信息、输出控制信息。
根据上述的第三实施方式,副智能体功能部154A#~154C#具备辨识部及对话生成部的功能,由此无需进行与服务器装置200之间的通信,就能够执行针对来自乘员的请求进行的迅速的信息提供。需要说明的是,上述的第一~第三实施方式也可以组合其他实施方式的结构的一部分或全部。
以上使用实施方式说明了本发明的具体实施方式,但本发明丝毫不被这样的实施方式限定,在不脱离本发明的主旨的范围内能够施加各种变形及替换。例如,上述的实施方式的服务器装置200的构成要素中的一部分或全部也可以设置于智能体装置100内。另外,上述的实施方式的智能体装置的构成要素中的一部分或全部也可以设置于服务器装置200内。
附图标记说明:
1…智能体系统、100…智能体装置、110…通信装置、120…操作部、122…声音输入部、124A、124B…话筒、130…车载设备、132…显示部、134…扬声器、139…车辆控制设备、140…导航装置、150…智能体控制装置、151…主/副智能体功能部、152…主智能体功能部、154…副智能体功能部、156…显示控制部、158…声音控制部、160…设备控制部、170、240…存储部、172…功能信息表、174、242…个人简介、176、244…回答信息DB、200…服务器装置、210…通信部、220…辨识部、230…对话生成部。

Claims (9)

1.一种智能体装置,其中,
所述智能体装置具备:
话筒,其收集车室内的声音;
扬声器,其向所述车室内输出声音;
功能不同的多个智能体功能部;
主智能体功能部,其基于由所述话筒收集到的声音的含义,来切换与所述车室内的乘员对话的主体;以及
存储部,其存储与所述多个智能体功能部分别能够执行的功能相关的功能信息,
所述主智能体功能部基于由所述话筒收集到的声音的含义,参照所述功能信息,切换为能够实现与所述声音的含义对应的功能的智能体功能部,
所述多个智能体功能部分别基于由所述话筒收集到的声音的含义来生成对所述乘员搭话的智能体声音,并使所述扬声器输出所生成的智能体声音,成为与所述乘员对话的主体的智能体功能部通过由所述主智能体功能部进行的切换控制而切换,
所述智能体装置在所述车室内具备多个所述话筒,
来自所述多个话筒的输入中的一个被分配给所述主智能体功能部,
被分配给所述主智能体功能部的话筒的性能比其他话筒的性能高,
所述主智能体功能部始终输入来自被分配的话筒的声音,即便所述乘员与所述智能体功能部处于对话中,也使切换与所述乘员对话的主体的功能继续。
2.根据权利要求1所述的智能体装置,其中,
所述多个智能体功能部分别以使所述生成的智能体声音的声像定位于规定的位置的方式,使所述扬声器输出所述智能体声音。
3.根据权利要求1或2所述的智能体装置,其中,
所述多个智能体功能部中的一个与所述主智能体功能部一体地进行动作。
4.根据权利要求1或2所述的智能体装置,其中,
对车载设备进行的控制由所述多个智能体功能部中的特定的智能体功能部执行。
5.根据权利要求1或2所述的智能体装置,其中,
所述智能体装置还具备显示图像的显示部,
所述多个智能体功能部生成进行与所述乘员之间的交流的拟人化的智能体图像,
所述主智能体功能部使所述显示部显示由所述多个智能体功能部生成的智能体图像,并且在与所述乘员对话的主体切换的情况下,使所述智能体图像的显示方式变更。
6.根据权利要求1或2所述的智能体装置,其中,
所述多个话筒设置于所述车室内的规定距离以内的位置。
7.根据权利要求6所述的智能体装置,其中,
由所述多个话筒收集到的各声音能够向所述主智能体功能部的声音输入接口输入。
8.一种智能体控制方法,其中,
所述智能体控制方法使计算机进行如下处理:
使功能不同的多个智能体功能部分别基于由收集车室内的声音的话筒收集到的声音的含义来生成对所述车室内的乘员搭话的智能体声音,
使向所述车室内输出声音的扬声器输出所生成的智能体声音,
由主智能体功能部基于由所述话筒收集到的声音的内容而切换成为与所述乘员对话的主体的智能体功能部,
在所述车室内具备多个所述话筒,
来自所述多个话筒的输入中的一个被分配给所述主智能体功能部,
被分配给所述主智能体功能部的话筒的性能比其他话筒的性能高,
向所述主智能体功能部始终输入来自被分配的话筒的声音,即便所述乘员与所述智能体功能部处于对话中,也使切换与所述乘员对话的主体的功能继续。
9.一种存储介质,其存储有程序,其中,
所述程序使计算机进行如下处理:
使功能不同的多个智能体功能部分别基于由收集车室内的声音的话筒收集到的声音的含义来生成对所述车室内的乘员搭话的智能体声音,
使向所述车室内输出声音的扬声器输出所生成的智能体声音,
由主智能体功能部基于由所述话筒收集到的声音的内容而切换成为与所述乘员对话的主体的智能体功能部,
在所述车室内具备多个所述话筒,
来自所述多个话筒的输入中的一个被分配给所述主智能体功能部,
被分配给所述主智能体功能部的话筒的性能比其他话筒的性能高,
向所述主智能体功能部始终输入来自被分配的话筒的声音,即便所述乘员与所述智能体功能部处于对话中,也使切换与所述乘员对话的主体的功能继续。
CN201880098254.8A 2018-10-05 2018-10-05 智能体装置、智能体控制方法及存储介质 Active CN112805182B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/037392 WO2020070878A1 (ja) 2018-10-05 2018-10-05 エージェント装置、エージェント制御方法、およびプログラム

Publications (2)

Publication Number Publication Date
CN112805182A CN112805182A (zh) 2021-05-14
CN112805182B true CN112805182B (zh) 2024-01-12

Family

ID=70054619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880098254.8A Active CN112805182B (zh) 2018-10-05 2018-10-05 智能体装置、智能体控制方法及存储介质

Country Status (4)

Country Link
US (1) US11798552B2 (zh)
JP (1) JP7133029B2 (zh)
CN (1) CN112805182B (zh)
WO (1) WO2020070878A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154994A (ja) * 2019-03-22 2020-09-24 本田技研工業株式会社 エージェントシステム、エージェントサーバ、エージェントサーバの制御方法、およびプログラム
JP7338493B2 (ja) * 2020-01-29 2023-09-05 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム
JP2021123133A (ja) * 2020-01-31 2021-08-30 トヨタ自動車株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7318587B2 (ja) 2020-05-18 2023-08-01 トヨタ自動車株式会社 エージェント制御装置
CN111816189B (zh) * 2020-07-03 2023-12-26 斑马网络技术有限公司 一种车辆用多音区语音交互方法及电子设备
JP2022102306A (ja) * 2020-12-25 2022-07-07 トヨタ自動車株式会社 エージェント表示方法、プログラム、及びエージェント表示システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020888A (ja) * 1998-07-07 2000-01-21 Aqueous Reserch:Kk エージェント装置
JP2002163054A (ja) * 2000-11-29 2002-06-07 Sanyo Electric Co Ltd ユーザ支援方法、装置およびシステム
JP2002199499A (ja) * 2000-12-22 2002-07-12 Sony Corp 車載装置、自動車及び情報処理方法
JP2006284454A (ja) * 2005-04-01 2006-10-19 Fujitsu Ten Ltd 車載用エージェントシステム
CN101437064A (zh) * 2007-11-16 2009-05-20 丰田自动车株式会社 车辆用通话装置及通话方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4694198B2 (ja) 2004-12-28 2011-06-08 パイオニア株式会社 対話装置、対話方法、対話プログラムおよびコンピュータに読み取り可能な記録媒体
JP4645310B2 (ja) 2005-06-02 2011-03-09 株式会社デンソー エージェントキャラクタ表示を利用した表示システム
US8344870B2 (en) * 2008-10-07 2013-01-01 Cisco Technology, Inc. Virtual dashboard
US20170235361A1 (en) * 2016-01-20 2017-08-17 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Interaction based on capturing user intent via eye gaze
CN107888653A (zh) * 2016-09-30 2018-04-06 本田技研工业株式会社 发话装置、沟通装置和移动体
US10481858B2 (en) * 2017-12-06 2019-11-19 Harman International Industries, Incorporated Generating personalized audio content based on mood
EP4191412A1 (en) * 2017-12-08 2023-06-07 Google LLC Signal processing coordination among digital voice assistant computing devices
US20190196779A1 (en) * 2017-12-21 2019-06-27 Harman International Industries, Incorporated Intelligent personal assistant interface system
US20190311713A1 (en) * 2018-04-05 2019-10-10 GM Global Technology Operations LLC System and method to fulfill a speech request
US10904306B2 (en) * 2018-05-07 2021-01-26 Spotify Ab Personal media streaming appliance system
CN115346525A (zh) * 2018-05-07 2022-11-15 谷歌有限责任公司 验证与数字助理应用交接的代理的操作状态
US10198877B1 (en) * 2018-05-23 2019-02-05 Google Llc Providing a communications channel between instances of automated assistants
CN112272846A (zh) * 2018-08-21 2021-01-26 谷歌有限责任公司 用于调用自动助理的动态的和/或特定于场境的热词
KR20230145521A (ko) * 2018-08-23 2023-10-17 구글 엘엘씨 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020888A (ja) * 1998-07-07 2000-01-21 Aqueous Reserch:Kk エージェント装置
JP2002163054A (ja) * 2000-11-29 2002-06-07 Sanyo Electric Co Ltd ユーザ支援方法、装置およびシステム
JP2002199499A (ja) * 2000-12-22 2002-07-12 Sony Corp 車載装置、自動車及び情報処理方法
JP2006284454A (ja) * 2005-04-01 2006-10-19 Fujitsu Ten Ltd 車載用エージェントシステム
CN101437064A (zh) * 2007-11-16 2009-05-20 丰田自动车株式会社 车辆用通话装置及通话方法

Also Published As

Publication number Publication date
US20220005470A1 (en) 2022-01-06
CN112805182A (zh) 2021-05-14
JP7133029B2 (ja) 2022-09-07
JPWO2020070878A1 (ja) 2021-09-02
US11798552B2 (en) 2023-10-24
WO2020070878A1 (ja) 2020-04-09

Similar Documents

Publication Publication Date Title
CN112805182B (zh) 智能体装置、智能体控制方法及存储介质
JP7068986B2 (ja) エージェントシステム、エージェント制御方法、およびプログラム
US11176948B2 (en) Agent device, agent presentation method, and storage medium
CN110968048B (zh) 智能体装置、智能体控制方法以及存储介质
CN111661068A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111007968A (zh) 智能体装置、智能体提示方法及存储介质
CN111660955A (zh) 车载智能体系统、车载智能体系统的控制方法及存储介质
CN111746435B (zh) 信息提供装置、信息提供方法及存储介质
JP2020060861A (ja) エージェントシステム、エージェント方法、およびプログラム
JP7274404B2 (ja) 情報提供装置、情報提供方法、およびプログラム
CN111559328B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111731320B (zh) 智能体系统、智能体服务器及其控制方法、存储介质
CN111667823B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111724778B (zh) 车载装置、车载装置的控制方法及存储介质
CN111752235A (zh) 服务器装置、智能体装置、信息提供方法及存储介质
CN111660966A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2020059401A (ja) 車両制御装置、車両制御方法、プログラム
CN111559317B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11518399B2 (en) Agent device, agent system, method for controlling agent device, and storage medium
JP2020060623A (ja) エージェントシステム、エージェント方法、およびプログラム
CN111824174A (zh) 智能体装置、智能体装置的控制方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant