CN113053372A - 智能体系统、智能体方法及存储介质 - Google Patents

智能体系统、智能体方法及存储介质 Download PDF

Info

Publication number
CN113053372A
CN113053372A CN202011543975.0A CN202011543975A CN113053372A CN 113053372 A CN113053372 A CN 113053372A CN 202011543975 A CN202011543975 A CN 202011543975A CN 113053372 A CN113053372 A CN 113053372A
Authority
CN
China
Prior art keywords
instruction
unit
information
determined
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011543975.0A
Other languages
English (en)
Inventor
小池将郎
田中孝浩
萩原智彰
古屋佐和子
石井幸治
暮桥昌宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of CN113053372A publication Critical patent/CN113053372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

提供确定操作者通过讲话进行的指示,并且在不能确定操作者的指示的情况下,能够基于操作者的习惯来确定针对操作对象的设备的指示的智能体系统、智能体方法及存储介质。智能体系统具备:取得部,其取得表示利用者讲话的声音的数据;声音识别部,其基于数据来识别利用者的讲话内容;推定部,其基于利用者与本系统之间的交流来推定利用者的习惯;指示确定部,其确定讲话内容所包含的指示;处理确定部,其确定与指示相应的处理,或者在不能确定与指示相应的处理的情况下,基于习惯来确定与指示相应的处理;以及输出控制部,其使包括扬声器的信息输出装置通过声音来输出表示由指示确定部确定的指示的信息和表示由处理确定部确定的处理的信息。

Description

智能体系统、智能体方法及存储介质
技术领域
本发明涉及智能体系统、智能体方法及存储介质。
背景技术
近年来,已知有如下技术:代替操作者通过手操作来输入针对操作对象的设备作出的指示等,操作者进行讲话,通过对讲话所包含的指示等进行声音识别,由此能够通过声音来简便地进行输入操作(例如,参照日本特开2008-14818号公报)。另外,已知有累积操作者的饮食习惯所涉及的信息,并对操作者提供用餐所涉及的信息的技术(例如,参照日本特开2014-182075号公报)。
发明内容
发明要解决的课题
在此,操作者有时通过与自身的习惯相应的简洁的语句来讲出针对操作对象的设备作出的指示。然而,在以往的技术中,即便通过与操作者的习惯相应的简洁的语句来进行针对操作对象的设备作出的指示的讲话,在不是预先登记的指示的情况下,也难以识别指示。
本发明的方案的目的之一在于提供确定操作者通过讲话进行的指示,并且在不能确定操作者的指示的情况下,能够基于操作者的习惯来确定针对操作对象的设备的指示的智能体系统、智能体方法及存储介质。
用于解决课题的方案
本发明所涉及的智能体系统、智能体方法及存储介质采用了以下的结构。
(1)本发明的一方案的智能体系统具备:取得部,其取得表示利用者讲话的声音的数据;声音识别部,其基于由所述取得部取得的所述数据,来识别所述利用者的讲话内容;推定部,其基于所述利用者与本系统之间的交流,来推定所述利用者的习惯;指示确定部,其确定由所述声音识别部识别到的所述讲话内容所包含的指示;处理确定部,其确定与由所述指示确定部确定出的所述指示相应的处理,或者在不能确定与由所述指示确定部确定出的所述指示相应的处理的情况下,基于由所述推定部推定出的所述习惯来确定与所述指示相应的所述处理;以及输出控制部,其使包括扬声器在内的信息输出装置通过声音来输出表示由所述指示确定部确定出的所述指示的信息和表示由所述处理确定部确定出的所述处理的信息。
(2)的方案在上述(1)的方案的智能体系统的基础上,所述处理确定部基于表示指示的信息与表示处理的信息互相建立了对应关系的对应信息,来确定所述处理,所述处理确定部在基于由所述推定部推定出的所述习惯而确定出所述处理的情况下,根据表示由所述指示确定部确定出的所述指示的信息和表示所确定出的所述处理的信息,来更新所述对应信息。
(3)的方案在上述(2)的方案的智能体系统的基础上,所述指示确定部在由所述指示确定部确定出的基于所述讲话内容而确定出的指示为预先设定的规定指示以外的指示的情况下,根据确定出的所述指示和所述处理来更新所述对应信息。
(4)的方案在上述(3)的方案的智能体系统的基础上,所述规定指示是指示目的地的场所、向目的地的出发时刻、目的地的抵达时刻、目的地的评价、以及目的地的范畴中的至少一个的规定指示,所述处理确定部在由所述指示确定部确定出的所述指示为所述规定指示的情况下,确定与所述规定指示相应的目的地所涉及的处理,在由所述指示确定部确定出的所述指示不是所述规定指示的情况下,所述处理确定部基于由所述推定部推定出的所述习惯,来确定与所述指示相应的所述处理。
(5)的方案在上述(2)至(4)中任一方案的智能体系统的基础上,所述输出控制部使所述信息输出装置输出表示由所述处理确定部更新所述对应信息这一情况的信息。
(6)的方案在上述(2)至(5)中任一方案的智能体系统的基础上,在由所述信息输出装置输出了表示所述指示的信息和表示所述处理的信息时,在由所述声音识别部识别到的所述讲话内容中包含对表示所述指示的信息进行更正的内容的情况下,所述指示确定部重新确定所述指示,并根据表示所重新确定出的所述指示的信息和表示所述处理的信息来更新所述对应信息。
(7)的方案在上述(2)至(6)的任一方案的智能体系统的基础上,在由所述信息输出装置输出了表示基于所述利用者的习惯而确定出的所述处理的信息时,在由所述声音识别部识别到的所述讲话内容中包含对所述处理进行更正的内容的情况下,所述推定部重新推定所述利用者的习惯。
(8)的方案在上述(1)至(7)中任一方案的智能体系统的基础上,所述处理确定部还基于由所述声音识别部识别到的所述讲话内容所包含的所述利用者的辨别信息来确定所述处理。
(9)的方案在上述(1)至(7)中任一方案的智能体系统的基础上,所述智能体系统还具备利用者确定部,该利用者确定部确定由所述声音识别部识别到的所述讲话内容所涉及的进行了该讲话的利用者,所述处理确定部按由所述利用者确定部确定出的每个所述利用者来确定所述处理。
(10)本发明的另一方案的智能体方法使计算机进行如下处理:
取得表示利用者讲话的声音的数据;基于取得的所述数据,来识别所述利用者的讲话内容;基于所述利用者与本系统之间的交流,来推定所述利用者的习惯;确定所识别到的所述讲话内容所包含的指示;确定与所确定出的所述指示相应的处理,或者在不能确定与所确定出的所述指示相应的处理的情况下,基于推定出的所述习惯来确定与所述指示相应的所述处理;以及使包括扬声器在内的信息输出装置通过声音来输出表示所确定出的所述指示的信息和表示所确定出的所述处理的信息。
(11)本发明的另一方案的存储介质存储有程序,所述程序使计算机进行如下处理:取得表示利用者讲话的声音的数据;基于取得的所述数据,来识别所述利用者的讲话内容;基于所述利用者与本系统之间的交流,来推定所述利用者的习惯;确定所识别到的所述讲话内容所包含的指示;确定与所确定出的所述指示相应的处理,或者在不能确定与所确定出的所述指示相应的处理的情况下,基于所推定出的所述习惯来确定与所述指示相应的所述处理;以及使包括扬声器在内的信息输出装置通过声音来输出表示所确定出的所述指示的信息和表示所确定出的所述处理的信息。
发明效果
根据(1)~(10)的方案,确定操作者通过讲话进行的指示,并且在不能确定指示的情况下,能够基于操作者的习惯来确定针对操作对象的设备的指示。
根据(2)的方案,能够基于操作者的习惯而容易确定针对操作对象的设备的指示。
根据(3)的方案,能够将操作者新讲出的简洁的语句作为指示进行更新。
根据(4)的方案,能够基于操作者的习惯来确定操作者的目的地所涉及的指示。
根据(5)的方案,能够向操作者通知简洁的语句被作为指示而更新了。
根据(6)~(7)的方案,能够适当登记简洁的语句的指示。
根据(8)的方案,能够针对每个操作者而确定与操作者相应的指示。
附图说明
图1是表示实施方式的智能体系统1的结构的一例的图。
图2是表示实施方式的智能体装置的结构的一例的图。
图3是表示从驾驶员座观察到的车室内的一例的图。
图4是表示从上观察车辆时的车室内的一例的图。
图5是表示实施方式的服务器装置的结构的一例的图。
图6是表示回答信息的内容的一例的图。
图7是表示推定乘员的习惯的场景的一例的图。
图8是表示习惯信息的内容的一例的图。
图9是表示为了能够通过简洁的语句来进行指示而催促乘员的场景的一例的图。
图10是表示对应信息的内容的一例的图。
图11是表示乘员通过简洁的语句来进行指示的场景的一例的图。
图12是表示乘员基于习惯来确定指示的场景的一例的图。
图13是表示重新确定指示的场景的一例的图。
图14是表示伴随由乘员更正了指示这一情况而更新了的对应信息的内容的一例的图。
图15是表示重新推定习惯的场景的一例的图。
图16是表示伴随由乘员更正了习惯这一情况而更新了的习惯信息的内容的一例的图。
图17是表示实施方式的智能体装置的一系列处理的流程的流程图。
图18是表示实施方式的服务器装置的一例的处理的流程的流程图。
图19是表示实施方式的服务器装置的一例的处理的流程的流程图。
图20是表示合成信息的内容的一例的图。
图21是表示变形例的智能体装置的结构的一例的图。
附图标记说明:
1…智能体系统、100、100A…智能体装置、102、202…通信部、106、106A、106B、106C、106D、106E…话筒、108、108A、108B、108C、108D、108E…扬声器、110、110A、110B、110C…显示部、120、120a、210…控制部、121、211…取得部、122…声音合成部、123、218…通信控制部、124…输出控制部、125…设备控制部、150、150a、230…存储部、152…车载设备信息、200…服务器装置、212…讲话区间提取部、213…声音识别部、214…推定部、215…指示确定部、216…处理确定部、217…智能体数据生成部、232…回答信息、234…习惯信息、236…对应信息、M…车辆、VE…车载设备。
具体实施方式
以下,参照附图来说明本发明的智能体系统、智能体方法及存储介质的实施方式。
<实施方式>
[系统结构]
图1是表示实施方式的智能体系统1的结构的一例的图。实施方式的智能体系统1例如具备搭载于车辆M的智能体装置100和存在于车辆M外的服务器装置200。车辆M例如是二轮、三轮、四轮等的车辆。这些车辆的驱动源可以是柴油发动机、汽油发动机等内燃机、电动机、或者它们的组合。电动机使用由与内燃机连结的发电机发出的发电电力、或二次电池、燃料电池的放电电力来进行动作。
智能体装置100与服务器装置200经由网络NW而以能够通信的方式连接。网络NW包括LAN(Local Area Network)、WAN(Wide Area Network)等。网络NW可以包括利用了例如Wi-Fi、Bluetooth(注册商标,以下省略)等无线通信的网络。
智能体系统1也可以由多个智能体装置100及多个服务器装置200构成。以后,说明智能体系统1具备一个智能体装置100和一个服务器装置200的情况。
智能体装置100使用智能体功能来取得来自车辆M的乘员的声音,并将取得的声音向服务器装置200发送。另外,智能体装置100基于从服务器装置得到的数据(以下称作智能体数据)等,来与乘员进行对话、提供图像、影像等信息、控制搭载于车辆M的车载设备VE、其他装置。乘员为“利用者”的一例。以下,将智能体装置100与服务器装置200协同配合而假想地出现的服务提供主体(服务·实体)称作智能体。
服务器装置200与搭载于车辆M的智能体装置100通信,从智能体装置100取得各种数据。服务器装置200基于取得的数据来生成适合作为针对车辆M的乘员作出的响应的智能体数据,并将生成的智能体数据向智能体装置100提供。
[智能体装置的结构]
图2是表示实施方式的智能体装置100的结构的一例的图。实施方式的智能体装置100例如具备通信部102、话筒(麦克风)106、扬声器108、显示部110、控制部120及存储部150。这些装置、设备可以通过CAN(Controller Area Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。需要说明的是,图2所示的智能体装置100的结构只是一例,可以省略结构的一部分,也可以还追加别的结构。
通信部102包括NIC(Network Interface controller)等通信接口。通信部102经由网络NW而与服务器装置200等通信。
话筒106是将车室内的声音电信号化而进行接收的声音输入装置。话筒106将接收到的声音的数据(以下称作声音数据)向控制部120输出。例如,话筒106设置于乘员就座于车室内的座椅时的前方附近。例如,话筒106设置于地毯灯、转向盘、仪表板或座椅的附近。话筒106也可以在车室内设置有多个。
扬声器108例如设置于车室内的座椅附近或显示部110附近。扬声器108基于由控制部120输出的信息来输出声音。
显示部110包括LCD(Liquid Crystal Display)、有机EL(Electroluminescence)显示器等显示装置。显示部110基于由控制部120输出的信息来显示图像。将扬声器108与显示部110组合起来是“信息输出装置”的一例。
图3是表示从驾驶员座观察时的车室内的一例的图。在图示的例子的车室内,设置有话筒106A~106C、扬声器108A~108C、以及显示部110A~110C。话筒106A例如设置于转向盘,主要接收驾驶员讲话的声音。话筒106B例如设置于副驾驶员座正面的仪表板(前围板或装饰件)IP,主要接收副驾驶员座的乘员讲话的声音。话筒106C例如设置于仪表板的中央(驾驶员座与副驾驶员座之间)附近。
扬声器108A例如设置于驾驶员座侧的车门的下部,扬声器108B例如设置于副驾驶员座侧的车门的下部,扬声器108C例如设置于显示部110C的附近、即仪表板IP的中央附近。
显示部110A例如是使虚像显示于驾驶员对车外进行视觉辨识时的视线的前方的HUD(Head-Up Display)装置。HUD装置例如是通过向车辆M的前风窗玻璃、或者被称作合成器的具有光的透过性的透明的构件投射光来使乘员视觉辨识虚像的装置。乘员主要是驾驶员,但也可以是驾驶员以外的乘员。
显示部110B设置于驾驶员座(距转向盘最近的座位)的正面附近的仪表板IP,设置于乘员能够从转向盘的间隙或者隔着转向盘而视觉辨识的位置。显示部110B例如是LCD、有机EL显示装置等。在显示部110B例如显示车辆M的速度、发动机转速、燃料余量、散热器水温、行驶距离、其他信息的图像。
显示部110C设置于仪表板IP的中央附近。显示部110C例如与显示部110B同样,是LCD、有机EL显示装置等。显示部110C显示电视节目、电影等条目(contents)。
需要说明的是,在车辆M中,可以还在后部座位附近设置有话筒和扬声器。图4是表示从上方观察车辆M时的车室内的一例的图。在车室内,可以除了图3所例示的话筒扬声器以外,还设置话筒106D、106E、扬声器108D、108E。
话筒106D例如设于在副驾驶员座ST2的后方设置的后部座位ST3的附近(例如副驾驶员座ST2的后表面),主要接收就座于后部座位ST3的乘员讲话的声音。话筒106E例如设于在驾驶员座ST1的后方设置的后部座位ST4的附近(例如驾驶员座ST1的后表面),主要接收就座于后部座位ST4的乘员讲话的声音。
扬声器108D例如设置于后部座位ST3侧的车门的下部,扬声器108E例如设置于后部座位ST4侧的车门的下部。
需要说明的是,说明了图1所例示的车辆M如图3或图4所例示那样是具备作为乘员的驾驶员能够操作的转向盘的车辆的情况,但不限定于此。例如,车辆M也可以是不存在车顶、即不存在车室(或不存在其明确的区分)的车辆。
另外,在图3或图4的例子中,说明了对车辆M进行驾驶操作的驾驶员所就座的驾驶员座、以及其他不进行驾驶操作的乘员所就座的副驾驶员座、后部座位处于一个室内的情况,但不限定于此。例如,车辆M也可以是代替转向盘而具备转向车把的跨骑型机动二轮车辆。
另外,在图3或图4的例子中,说明了车辆M为具备转向盘的车辆的情况,但不限定于此。例如,车辆M也可以是未设置转向盘这样的驾驶操作设备的自动驾驶车辆。自动驾驶车辆例如不依赖于乘员的操作而控制车辆的转向和加减速中的一方或双方来执行驾驶控制。
返回图2的说明,控制部120例如具备取得部121、声音合成部122、通信控制部123、输出控制部124及设备控制部125。这些构成要素例如通过CPU(Central ProcessingUnit)、GPU(Graphics Processing Unit)等处理器执行程序(软件)来实现。另外,这些构成要素中的一部分或全部可以通过LSI(Large Scale Integration)、ASIC(ApplicationSpecific IntegratedCircuit)、FPGA(Field-Programmable Gate Array)等硬件(包含电路部:circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于存储部150(具备非暂时性的存储介质的存储装置),也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质),并通过存储介质装配于驱动装置而安装于存储部150。
存储部150由HDD、闪存器、EEPROM(Electrically Erasable Programmable ReadOnly Memory)、ROM(Read Only Memory)、或RAM(Random Access Memory)等实现。在存储部150中例如保存由处理器参照的程序等、车载设备信息152。车载设备信息152是表示搭载于车辆M的车载设备VE的一览的信息。
取得部121从话筒106取得声音数据、其他信息。
声音合成部122在通信部102从服务器装置200接收到的智能体数据包含声音指示内容的情况下,生成与作为声音控制而通过讲话作出了声音指示的声音数据对应的人工的合成声音。以下,将声音合成部122生成的人工的合成声音也记载为智能体声音。
通信控制部123通过通信部102将由取得部121取得的声音数据向服务器装置200发送。通信控制部123通过通信部102来接收从服务器装置200发送的智能体数据。
输出控制部124例如根据智能体数据所包含的各种指示,来控制信息输出装置,使信息输出装置输出各种信息。例如,输出控制部124当由声音合成部122根据智能体数据所包含的指示而生成智能体声音时,使扬声器108输出该智能体声音。输出控制部124根据智能体数据所包含的指示,来使显示部110显示图像数据。需要说明的是,输出控制部124也可以使显示部110显示声音数据的识别结果(短语等文本数据)的图像。
设备控制部125例如根据智能体数据所包含的各种指示,来控制车载设备VE。
需要说明的是,输出控制部124和设备控制部125也可以以根据智能体数据所包含的各种指示来控制车载设备VE的方式构成为一体。以下,为了便于说明,说明输出控制部124进行控制车载设备VE中的信息输出装置的处理、设备控制部125进行控制车载设备VE中的除了信息输出装置以外的其他车载设备VE的处理。
[服务器装置的结构]
图5是表示实施方式的服务器装置200的结构的一例的图。实施方式的服务器装置200例如具备通信部202、控制部210及存储部230。
通信部202包括NIC等通信接口。通信部202经由网络NW而与搭载于各车辆M的智能体装置100等通信。
控制部210例如具备取得部211、讲话区间提取部212、声音识别部213、推定部214、指示确定部215、处理确定部216、智能体数据生成部217及通信控制部218。这些构成要素例如通过CPU、GPU等处理器执行程序(软件)来实现。另外,这些构成要素中的一部分或全部可以通过LSI、ASIC、FPGA等硬件(包含电路部:circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于存储部230(具备非暂时性的存储介质的存储装置),也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质),并通过存储介质装配于驱动装置而安装于存储部230。
存储部230通过HDD、闪存器、EEPROM、ROM、或RAM等来实现。在存储部230中,例如除了由处理器参照的程序以外,还保存回答信息232、习惯信息234及对应信息236等。以下,关于回答信息232进行说明,关于习惯信息234及对应信息236的详细情况见后述。
图6是表示回答信息232的内容的一例的图。在回答信息232中,例如使控制部120执行的处理(控制)内容与含义信息建立了对应关系。含义信息例如是由声音识别部213根据讲话内容整体而识别出的含义。在处理内容中,例如包括与车载设备VE的控制相关的车载设备控制内容、输出智能体声音的声音的内容和控制内容、使显示部110显示的显示控制内容等。例如,在回答信息232中,相对于“导航装置的目的地检索”这样的含义信息,“使导航装置检索符合指定的条件的目的地”这样的车载设备控制、“找到了(检索结果的数)。”这样的声音控制内容、及对表示检索结果的位置的图像进行显示的显示控制内容被建立了对应关系。
返回图5,取得部211通过通信部202来取得从智能体装置100发送的声音数据。
讲话区间提取部212从由取得部121取得的声音数据中,提取乘员正在讲话的期间(以下称作讲话区间)。例如,讲话区间提取部212可以利用零交叉法,基于声音数据所包含的声音信号的振幅来提取讲话区间。另外,讲话区间提取部212可以基于混合高斯分布模型(GMM;Gaussian mixture model)来从声音数据提取讲话区间,也可以通过与将讲话区间特有的声音信号模板化了的数据库进行模板匹配处理,来从声音数据提取讲话区间。
声音识别部213针对由讲话区间提取部212提取到的每个讲话区间而识别声音数据,并将提取到的声音数据文本化,由此生成包含讲话内容的文本数据。例如,声音识别部213将讲话区间的声音信号分离为低频率、高频率等多个频带,并对分类出的各声音信号进行傅里叶变换,由此生成频谱图。声音识别部213通过将生成的频谱图输入递归神经网络,从而从频谱图中得到字符串。递归神经网络例如可以通过利用教示数据而预先学习,所述教示数据是指相对于根据学习用的声音而生成的频谱图,与该学习用的声音对应的已知的字符串被作为教示标签而建立了对应关系。并且,声音识别部213将从递归神经网络得到的字符串的数据作为文本数据输出。
另外,声音识别部213进行自然语言的文本数据的文章结构解析,将文本数据划分为词素,根据各词素来解释文本数据所包含的文句的含义。
推定部214基于乘员与智能体之间的交流,来推定乘员的习惯。推定部214基于推定出的乘员的习惯,来生成(更新)习惯信息234。关于推定部214的处理的详细情况见后述。
指示确定部215确定由声音识别部213识别到的乘员的讲话内容(声音数据)所包含的指示。指示确定部215例如基于由声音识别部213解释出的讲话内容的含义,参照回答信息232的含义信息,确定符合的含义信息的指示。需要说明的是,作为声音识别部213的识别结果,在解释出“打开空调机”、“请接入空调机的电源”等含义的情况下,指示确定部215将上述的含义置换为标准文字信息“空调机的起动”等。由此,即便讲话内容的要求存在表现差异、文本化的文字差异等的情况下,也能够容易取得符合要求的指示。
处理确定部216确定使车载设备VE进行的与由指示确定部215确定的指示相应的处理。处理确定部216例如确定在回答信息232中与由指示确定部215确定的指示建立了对应关系的处理内容,来作为使车载设备VE进行的处理。另外,处理确定部216在不能确定与由指示确定部215确定出的指示相应的处理的情况下,基于由推定部214推定出的乘员的习惯,来确定与指示相应的处理。关于处理确定部216的处理的详细情况见后述。
智能体数据生成部217生成用于使与所取得的处理内容(例如车载设备控制、声音控制及显示控制中的至少一个)对应的处理执行的智能体数据。
通信控制部218通过通信部202将由智能体数据生成部217生成的智能体数据向智能体装置100发送。由此,智能体装置100能够通过控制部120来执行与智能体数据对应的控制。
以下,说明推定部214的处理的详细情况、以及处理确定部216基于乘员的习惯来确定处理的处理的详细情况。
[乘员的习惯的推定]
图7是表示推定乘员的习惯的场景的一例的图(需要说明的是,该图中的“智能体”是朝向乘员而在显示部110显示的表示智能体的图像)。首先,乘员相对于智能体进行指示使车载设备VE执行的处理的讲话CV11。讲话CV11例如是“‘喂,○○(智能体名)’(唤醒词),检索处于这周边的提供着1000日元以下的午餐的评价3星以上的餐厅(条件1)?(指示1)”等话语。在讲话CV11中,包含指示使作为车载设备VE的导航装置检索目的地的处理的话语(指示1)、以及表示检索条件的话语(条件1)。接受到该情况,服务器装置200生成使导航装置根据(条件1)来执行(指示1)的智能体数据、将与指示相应的处理的结果向乘员通知的智能体数据。智能体装置100基于智能体数据来执行各种处理。并且,智能体回答出与讲话CV11对应的响应文RP11。响应文RP11例如是“找到了2件。去往A店和B店中哪个?”等话语。
在响应文RP11中包含催促乘员的回答的话语,因此乘员进行与响应文RP11对应的讲话CV12。讲话CV12例如是“去往A店(条件2)。(指示2)”等话语。在讲话CV12中,包含指示使作为车载设备VE的导航装置进行路径的引导的处理的话语(指示2)、以及表示路径的引导的条件的话语(条件2)。接受到该情况,服务器装置200生成使导航装置根据(条件2)来执行(指示2)的智能体数据、将与指示相应的处理的结果向乘员通知的智能体数据。智能体装置100基于智能体数据,来执行各种处理。并且,智能体回答出与讲话CV12对应的响应文RP12。响应文RP12例如是“检索到了到A店为止的路径。”等话语。
推定部214推定乘员讲话的指示是否存在习惯性(即,是否反复进行了指示)。推定部214例如参照表示乘员的讲话内容的信息、表示由指示确定部215确定的指示的信息、表示由处理确定部216确定的处理的信息、以及表示进行该讲话、该指示或该处理的日期时刻的信息建立了对应关系的履历信息(未图示),来判定包含指示的讲话是否过去在同样的时机进行了。同样的时机例如是同样的星期几、一样地在平日、一样地在假日、同样的时刻、车辆M的位置同样的位置、一样地乘车的(或者一样地从乘车起规定时间后的)时机、一样地下车(或者一样地距预定下车时刻规定时间前的)时机等。在图7中,乘员习惯性地在平日的午前11时30分左右进行使导航装置根据(条件1)来执行(指示1)的讲话。推定部214例如在同样的时机乘员讲出了使同样的处理进行的指示达规定次数以上的情况下,推定为该指示存在习惯性。
需要说明的是,推定部214也可以基于履历信息所包括的含有指示的讲话的内容与含有指示的讲话的一致的程度,而推定为该指示存在习惯性。在该情况下,推定部214在进行了相同的讲话(例如决定的讲话等)达规定次数以上的情况下,推定为该指示存在习惯性。另外,推定部214也可以基于目的地的场所、向目的地的出发时刻、目的地的抵达时刻、目的地的评价、以及目的地的范畴等,而推定为该指示存在习惯性。推定部214例如也可以参照点评网站等的评价来确定目的地的评价。
推定部214在推定为乘员讲话的指示存在习惯性的情况下,关于习惯化的内容而生成习惯信息234。图8是表示习惯信息234的内容的一例的图。习惯信息234例如是包含一个以上的记录的信息,在该记录中,表示进行存在习惯性的指示的时机的信息、表示指示的内容的信息、以及表示根据该指示而进行的处理的内容的信息互相建立了对应关系。推定部214确定包含推定为存在习惯性的指示在内的讲话所进行的时机,并将确定的时机、由指示确定部215确定的指示、以及由处理确定部216确定的处理互相建立对应关系而生成记录,并生成(更新)习惯信息234。
在图8中,推定部214生成如下记录,并生成(更新)习惯信息234,在该记录中,表示“平日的午前11时30分左右”这样的时机的信息、作为处理内容而“使导航装置检索符合处于这周边的提供着1000日元以下的午餐的评价3星以上的餐厅(条件1)的目的地(指示1)”这样的车载设备控制、“找到了(检索结果的数)件。”这样的声音控制内容、以及对表示检索结果的位置的图像进行显示的显示控制内容互相建立了对应关系。
[通过简洁的语句进行的指示]
在此,服务器装置200也可以关于由推定部214推定为存在习惯性的指示,对乘员催促能够通过简洁的语句进行指示。图9是表示对乘员催促能够通过简洁的语句进行指示的场景的一例的图。在图9所示的场景中,在由乘员进行了讲话CV11的存在习惯性的讲话的时机,推定部214推定为乘员讲话的指示存在习惯性。并且,智能体数据生成部217关于讲话CV11所涉及的处理在响应文RP12中完结之后由推定部214推定为存在习惯性的指示,生成催促能够通过预先设定的简洁的语句来执行与该指示相应的处理的智能体数据。预先设定的简洁的语句例如是“老规矩”、“做那个”、“抄近路”等语句。以下,预先设定的简洁的语句是“老规矩”。预先设定的简洁的语句为“规定指示”的一例。
智能体装置100基于智能体数据,来执行各种处理。并且,智能体回答出响应文RP13。响应文RP13例如是“在平日的此时间段均进行了同样的指示吧,将以…(条件1)检索的处理(指示1)以‘老规矩’(简洁的语句的一例)这样的指示进行登记吗?”等话语。响应文RP13中的“平日的此时间段均进行了同样的指示吧”等话语是与由推定部214推定为存在习惯性的时机相应的话语。在图9中,响应文RP13包含催促乘员的回答的话语,因此乘员进行与响应文RP13对应的讲话CV13。讲话CV13例如是“拜托。(指示3)”等同意响应文RP13这样的话语。处理确定部216在针对响应文RP13而从乘员得到了合适的回答的情况下,生成(更新)对应信息236。
图10是表示对应信息236的内容的一例的图。对应信息236是包含一以上的如下记录的信息,在该记录中,表示预先设定的简洁的语句的信息、以及表示根据推定为存在习惯性的指示而进行的处理内容的信息互相建立了对应关系。推定部214催促能够通过简洁的语句进行指示,在得到了合适的回答的情况下,生成将表示简洁的语句的含义信息与表示根据简洁的语句的指示而进行的处理的内容的信息互相建立了对应关系的记录,生成(更新)习惯信息234。在图10中,对应信息236生成如下记录,并生成(更新)对应信息236,在该记录中,“老规矩”这样的含义信息、作为在指示为“老规矩”的情况下进行的处理的处理内容“使导航装置检索符合处于这周边的提供着1000日元以下的午餐的评价3星以上的餐厅(条件1)的目的地(指示1)”这样的车载设备控制、“找到了(检索结果的数)件。”这样的声音控制内容、以及对表示检索结果的位置的图像进行显示的显示控制内容互相建立了对应关系。
图11是表示乘员通过简洁的语句来进行指示的场景的一例的图。首先,乘员相对于智能体进行指示使车载设备VE进行的处理的讲话CV21。讲话CV21例如是“‘喂○○(智能体名)’(唤醒词),老规矩(指示4)拜托。”等话语。接受到该情况,指示确定部215作为由声音识别部213识别到的乘员的讲话内容(声音数据)所包含的指示,确定“老规矩”(指示4)。处理确定部216将作为由指示确定部215确定的指示的“老规矩”(指示4)作为检索关键词而检索对应信息236。处理确定部216将作为检索到的结果而与“老规矩”(指示4)建立了对应关系的处理内容确定为使车载设备VE进行的处理。
智能体数据生成部217生成用于使车载设备VE执行由处理确定部216确定的处理的智能体数据。智能体装置100基于智能体数据来执行各种处理。并且,智能体回答出与讲话CV21对应的响应文RP21。在响应文RP21中,例如包含“找到了2件处于这周边的提供着1000日元以下的午餐的评价3星以上的餐厅(条件1)。去往A店和B店中的哪个?”等对通过乘员的简单的语句作出的指示(的意图)进行复述的话语、以及表示与指示相应的处理的结果的话语。以后的应对乘员的讲话CV的处理与上述的处理同样,因此省略说明。
由此,智能体系统1能够通过车辆M的乘员的简洁的语句的讲话,来使车载设备VE进行与乘员的习惯性的指示相应的处理。另外,由此,智能体系统1通过使用习惯信息234、对应信息236来确定乘员的指示,能够容易基于乘员的习惯来确定对操作对象的车载设备VE的指示。
[基于乘员的习惯进行的指示的确定]
在此,车辆M的乘员有时通过尚未对应有处理的简洁的语句来进行指示。在该情况下,处理确定部216基于习惯信息234,来确定与乘员的指示相应的处理。
图12是表示乘员基于习惯来确定指示的场景的一例的图。首先,乘员对智能体进行指示使车载设备VE执行的处理的讲话CV31。讲话CV31例如是“‘喂○○(智能体名)’(唤醒词),做那个(指示5)。”等话语。接受到该情况,指示确定部215作为由声音识别部213识别到的乘员的讲话内容(声音数据)所包含的指示,确定“做那个”(指示5)。处理确定部216将作为由指示确定部215确定的指示的“做那个”(指示5)作为检索关键词来检索对应信息236。如图10的对应信息236所示那样,表示通过“做那个”(指示5)这样的简洁的语句进行的指示的记录尚未被登记为对应信息236的记录。另外,同样地,在回答信息232中,未登记包含“做那个”这样的含义信息的记录。因此,处理确定部216不能基于回答信息232、对应信息236来确定与乘员的指示对应的处理。
在该情况下,处理确定部216基于习惯信息234来确定与乘员的指示对应的处理。处理确定部216确定乘员的讲话所进行的时机的特征。时机的特征例如是星期几、平日和假日中的哪个、时刻、车辆M的位置、是乘车的时机(或者从乘车起规定时间后的时机)还是下车的时机(或者距预定下车时刻规定时间前的时机)等。
在图12中,处理确定部216确定为乘员的讲话所进行的时机是平日的午前11:30左右。处理确定部216将确定的时机作为检索关键词来检索习惯信息234。处理确定部216确定作为检索的结果而与确定的时机相符合的时机、或者与确定的时机相符合的程度高的时机所对应的处理内容。
智能体数据生成部217生成用于使车载设备VE执行由处理确定部216确定的处理的智能体数据。另外,智能体数据生成部217生成用于向乘员确认在习惯信息234中与由处理确定部216确定的处理建立了对应关系的指示内容的智能体数据。智能体装置100基于智能体数据,来执行各种处理。并且,智能体回答出与讲话CV31对应的响应文RP31。在响应文RP31中,例如包含“不知道‘做那个(指示5)’。姑且根据A先生/女士的习惯而检索处于这周边的提供着1000日元以下的午餐的评价3星以上的餐厅(条件1),找到了2件。去往A店和B店中的哪个?”等对通过乘员的简单的语句作出的指示(的意图)进行复述的话语、以及表示与指示相应的处理的结果的话语。以后的应对乘员的讲话CV的处理与上述的处理同样,因此省略说明。
需要说明的是,也可以是,关于尚未作为对应信息236的记录而登记的简洁的语句的指示,处理确定部216基于习惯信息234来确定处理,在确定的指示被乘员接受了的情况下,处理确定部216生成表示该简洁的语句的指示的信息与表示处理的内容的信息互相建立了对应关系的记录,更新对应信息236。另外,此时,智能体数据生成部217也可以生成用于将生成新的记录并登记于习惯信息234这一情况向乘员通知的智能体数据,智能体装置100的信息输出装置基于智能体数据来向乘员进行通知。
由此,智能体系统1确定乘员通过讲话进行的指示,并且在不能确定乘员的指示的情况下,能够基于乘员的习惯来确定针对操作对象的车载设备VE的指示。另外,由此,智能体系统1能够将乘员新讲出的简洁的语句更新为指示。另外,由此,智能体系统1能够向乘员通知简洁的语句已被更新为指示这一情况。
[指示的更正]
在此,车辆M的乘员有时使用错误的语句而进行了指示、将与设想的语句不同的语句和指示建立了对应关系。在乘员的讲话内容中包含更正指示的内容的情况下,指示确定部215进行重新确定指示的处理。以下,说明由指示确定部215进行的与指示的更正相关的处理。
图13是表示重新确定指示的场景的一例的图。首先,乘员相对于智能体进行指示使车载设备VE执行的处理的讲话CV21。讲话CV21例如是“‘喂○○(智能体名)’(唤醒词),老规矩(指示4)拜托。”等话语。接受到该情况,指示确定部215作为由声音识别部213识别到的乘员的讲话内容(声音数据)所包含的指示而确定出“老规矩”(指示4)。处理确定部216将作为由指示确定部215确定的指示的“老规矩”(指示4)作为检索关键词来检索对应信息236。处理确定部216将作为检索的结果而与“老规矩”(指示4)建立了对应关系的处理内容确定为使车载设备VE进行的处理。
智能体数据生成部217生成用于使车载设备VE执行由处理确定部216确定的处理的智能体数据。智能体装置100基于智能体数据来执行各种处理。并且,智能体回答出与讲话CV21对应的响应文RP21。在响应文RP21中,例如包括“找到了2件处于这周边的提供着1000日元以下的午餐的评价3星以上的餐厅(条件1)。去往A店和B店中的哪个?”等对通过乘员的简单的语句而作出的指示(的意图)进行复述的话语、以及表示与指示相应的处理的结果的话语。
在此,响应文RP21的回答是进行与乘员所设想的指示不同的指示所对应的处理的意旨的回答。因此,乘员根据响应文RP21而进行更正指示的讲话CV51。讲话CV51例如是“不对呀(更正)。检索早上能够吃茶点的评价3以上的咖啡店(条件3)?(指示1)”等话语。在讲话CV51中,包含对在响应文RP21中提示的指示进行更正的话语(在该情况下是“不对呀”)、指示使作为车载设备VE的导航装置检索目的地的处理的话语(指示1)、以及表示检索条件的话语(条件3)。接受到该情况,指示确定部215例如基于由声音识别部213识别到的讲话内容的含义,作为指示而重新确定使导航装置根据(条件3)来执行(指示1)。
处理确定部216重新确定使车载设备VE进行的与由指示确定部215重新确定的指示相应的处理。处理确定部216例如将在回答信息232中与由指示确定部215确定的指示建立了对应关系的处理内容确定为使车载设备VE进行的处理。
需要说明的是,处理确定部216也可以在由指示确定部215重新确定了指示的情况下,基于由声音识别部213识别到的乘员的讲话内容(声音数据),来确定该讲话内容所包含的处理(在该情况下是根据(条件3)来执行(指示1)的处理)。
智能体数据生成部217生成用于使车载设备VE执行由处理确定部216确定的处理的智能体数据。智能体装置100基于智能体数据来执行各种处理。并且,智能体回答出与讲话CV51对应的响应文RP52。响应文RP52例如是“找到了2件早上能够吃茶点的评价3以上的咖啡店(条件3)。去往C店和D店中的哪个?”等话语。以后的应对乘员的讲话CV的处理与上述的处理同样,因此省略说明。
指示确定部215在由乘员更正了指示的情况下,也可以从对应信息236中删除表示该被更正的指示的含义信息和处理内容互相建立了对应关系的记录。另外,处理确定部216也可以生成将表示由指示确定部215重新确定的指示的信息和表示与重新确定的指示相应的处理的信息互相建立了对应关系的记录,并在对应信息236进行登记(更新)。以下,在由乘员更正了指示的情况下,处理确定部216生成记录,并更新对应信息236。
图14是表示伴随由乘员更正了指示而更新了的对应信息236的内容的一例的图。在该情况下,处理确定部216生成将表示更正了的指示的简洁的语句的含义信息和表示与由指示确定部215重新确定的指示相应的处理的信息互相建立了对应关系的记录,并在对应信息236更新。由此,在对应信息236中包含如下记录,在该记录中,“老规矩”(指示4)这样的含义信息、作为在指示为“老规矩”的情况下进行的处理的处理内容而“使检索符合早上能够吃茶点的评价3以上的咖啡店(条件3)的目的地(指示1)”这样的车载设备控制、“找到了(检索结果的数)件。”这样的声音控制、以及对表示检索结果的位置的图像进行显示的显示控制互相建立了对应关系。
需要说明的是,指示确定部215也可以在对应信息236中某一个指示对应有多个处理的情况下,基于习惯信息234和时机的特征,来确定多个处理中的、与确定的时机的特征相符合的时机、或者与确定的时机的特征相符合的程度高的时机所对应的处理内容。
由此,智能体系统1能够在适当使乘员登记简洁的语句的指示的同时,通过简便的方法来使乘员更正指示。
[习惯的更正]
在此,有时,推定部214作为车辆M的乘员的习惯而推定出的内容是错误的。在该情况下,处理确定部216有时基于错误的习惯来确定与乘员的指示相应的处理。在乘员的讲话内容中包含更正习惯的内容的情况下,推定部214进行重新推定习惯的处理。以下,说明由推定部214进行的与习惯的更正相关的处理。
图15是表示重新推定习惯的场景的一例的图。首先,乘员相对于智能体进行指示使车载设备VE执行的处理的讲话CV21。讲话CV21例如是“‘喂○○(智能体名)’(唤醒词),做那个(指示5)”等话语。接受到该情况,指示确定部215作为由声音识别部213识别到的乘员的讲话内容(声音数据)所包含的指示而确定出“做那个”(指示5)。处理确定部216将作为由指示确定部215确定的指示的“做那个”(指示5)作为检索关键词来检索对应信息236。如图10的对应信息236所示,表示通过“做那个”(指示5)这样的简洁的语句进行的指示的记录尚未被登记为对应信息236的记录。另外,同样地,在回答信息232中,未登记包含“做那个”这样的含义信息的记录。因此,处理确定部216不能基于回答信息232、对应信息236来确定与乘员的指示对应的处理。
在该情况下,处理确定部216基于习惯信息234,来确定与乘员的指示对应的处理。处理确定部216确定乘员的讲话所进行的时机的特征。在图15中,处理确定部216确定为乘员的讲话所进行的时机是星期日的午前10:00左右。处理确定部216将确定的时机作为检索关键词来检索习惯信息234。处理确定部216确定作为检索的结果而与确定的时机相符合或与确定的时机相符合的程度高的时机所对应的处理内容。在图8所示的习惯信息234中,不存在与星期日的午前10:00左右相符合的时机的记录,但存在与午前10:00左右相符合的程度高的时机的记录。因此,处理确定部216将如下记录确定为与乘员的指示相应的处理,表示“平日的午前11时30分左右”这样的时机的信息、作为处理内容而“使导航装置检索符合处于这周边的提供着1000日元以下的午餐的评价3星以上的餐厅(条件1)的目的地(指示1)”这样的车载设备控制、“找到了(检索结果的数)件。”这样的声音控制、以及对表示检索结果的位置的图像进行显示的显示控制互相建立了对应关系的记录。
智能体数据生成部217生成用于使车载设备VE执行由处理确定部216确定的处理的智能体数据。智能体装置100基于智能体数据来执行各种处理。并且,智能体回答出与讲话CV21对应的响应文RP31。在响应文RP31中,例如,包含“不知道‘做那个(指示5)’。姑且根据A先生/女士的习惯而检索处于这周边的提供着1000日元以下的午餐的评价3星以上的餐厅(条件1),找到了2件。去往A店和B店中的哪个?”等对通过乘员的简单的语句而作出的指示(的意图)进行复述的话语、以及表示与指示相应的处理的结果的话语。
在此,响应文RP31的回答是进行与乘员设想的指示不同的指示所对应的处理的意旨的回答。因此,乘员根据响应文RP31而进行更正指示的讲话CV61。讲话CV61例如是“不对呀(更正)。在该星期几的此时间段(时机)检索早上能够吃茶点的评价3以上的咖啡店(条件3)?(指示1)”等话语。在讲话CV61中,包含在响应文RP31中提示的对成为指示的根据的习惯进行更正的话语(在该情况下为“不对呀”)、表示习惯的时机的特征的话语(在该情况下为“该星期几的此时间段”)、指示使作为车载设备VE的导航装置检索目的地的处理的话语(指示1)、以及表示检索条件的话语(条件3)。接受到该情况,指示确定部215例如基于由声音识别部213识别到的讲话内容的含义,作为指示而重新确定使导航装置根据(条件3)来执行(指示1)。
处理确定部216重新确定使车载设备VE进行的与由指示确定部215重新确定出的指示相应的处理。处理确定部216例如确定在回答信息232中与由指示确定部215确定出的指示建立了对应关系的处理内容,来作为使车载设备VE进行的处理。
推定部214在由乘员更正了习惯的情况下,也可以从习惯信息234删除该被更正的习惯所涉及的记录。另外,推定部214也可以生成将表示由指示确定部215重新确定的指示的信息、以及表示由处理确定部216根据重新确定的指示而确定出的处理的信息互相建立了对应关系的记录,并在习惯信息234登记(更新)。以下,在由乘员更正了指示的情况下,推定部214生成记录,更新习惯信息234。
图16是表示伴随由乘员更正了习惯这一情况而更新了的习惯信息234的内容的一例的图。在该情况下,推定部214生成如下记录,并更新习惯信息234,在该记录中,将表示更正了的习惯的时机的信息、表示由指示确定部215重新确定的指示的内容的信息、以及表示由处理确定部216根据重新确定的指示而确定的处理的信息互相建立了对应关系。由此,在习惯信息234中包含如下记录,在该记录中,表示“星期日的午前10时00分左右”这一的时机的信息、作为处理内容而“使导航装置检索符合早上能够吃茶点的评价3以上的咖啡店(条件3)的目的地(指示1)”这样的车载设备控制、“找到了(检索结果的数)件。”这样的声音控制、以及对表示检索结果的位置的图像进行显示的显示控制互相建立了对应关系。
由此,智能体系统1能够在适当使乘员登记简洁的语句的指示的同时,通过简便的方法来使乘员更正指示。
[处理流程]
接着,使用流程图来说明实施方式的智能体系统1的处理的流程。需要说明的是,以下,将智能体装置100的处理与服务器装置200的处理分开说明。另外,以下所示的处理的流程可以在规定的时机反复执行。规定的时机例如是从声音数据提取到使智能体装置起动的特定单词(例如唤醒词)的时机、接受到搭载于车辆M的各种开关中的使智能体装置100起动的开关的选择的时机等。
图17是表示实施方式的智能体装置100的一系列处理的流程的流程图。首先,取得部121在识别到唤醒词之后,判定是否由话筒106收集到乘员的声音数据(即,是否存在乘员的讲话)(步骤S100)。取得部121在直至乘员的声音数据被收集为止的期间进行待机。接着,通信控制部123使通信部102向服务器装置200发送声音数据(步骤S102)。接着,通信控制部123使通信部102从服务器装置200接收智能体数据(步骤S104)。
输出控制部124、设备控制部125基于智能体数据来控制车载设备VE,执行智能体数据所包含的处理(步骤S106)。例如,输出控制部124在声音控制所涉及的智能体数据被接收到的情况下,使扬声器108输出智能体声音,在显示控制所涉及的智能体数据被接收到的情况下,使显示部110显示指示的图像数据。设备控制部125在智能体数据为声音控制、显示控制以外的控制(即扬声器108及显示部110以外的车载设备VE所涉及的控制)的情况下,基于智能体数据来控制各车载设备VE。
图18~图19是表示实施方式的服务器装置200的一例的处理的流程的流程图。首先,通信部202从智能体装置100取得声音数据(步骤S200)。接着,讲话区间提取部212提取声音数据所包含的讲话区间(步骤S202)。接着,声音识别部213根据提取出的讲话区间中的声音数据,来识别讲话内容。具体而言,声音识别部213使声音数据为文本数据,并最终识别文本数据所包含的文句(步骤S204)。
指示确定部215判定由声音识别部213识别到的讲话内容中是否包含对指示或习惯进行更正的内容(步骤S206)。指示确定部215在判定为包含更正的内容的情况下,使处理前进至步骤S224。指示确定部215在判定为不包含更正的内容的情况下,确定由声音识别部213识别到的乘员的讲话内容(声音数据)所包含的指示,并判定确定的指示是否包含于对应信息236(步骤S208)。智能体数据生成部217在由指示确定部215判定为指示包含于对应信息236的情况下,生成基于对应信息236得到的智能体数据(步骤S210)。
具体而言,处理确定部216确定对应信息236的记录中的与由指示确定部215确定的指示建立了对应关系的记录,并将该记录所包含的处理内容确定为与乘员的指示对应的处理。智能体数据生成部217生成用于使车载设备VE执行由处理确定部216确定的处理的智能体数据。接着,通信控制部218经由通信部202将智能体数据向智能体装置100发送(步骤S222)。
处理确定部216在由指示确定部215判定为乘员的讲话内容所包含的指示不包含于对应信息236的情况下,基于回答信息232,根据讲话内容的含义信息来判定是否能够确定与指示相应的处理(步骤S212)。处理确定部216例如在乘员的指示通过简洁的语句而作出了、且在对应信息236中不存在处理内容与该简洁的语句的指示建立了对应关系的记录的情况下,判定为不能确定与指示相应的处理。处理确定部216例如在乘员的指示不是简洁的语句的指示而通过文章作出了的情况下,判定为能够确定与指示相应的处理。
智能体数据生成部217在由处理确定部216判定为能够根据讲话内容的含义信息而确定与指示相应的处理的情况下,生成使车载设备VE进行该处理的智能体数据(步骤S214)。推定部214推定乘员讲出的指示是否存在习惯性(即,是否反复进行了指示)(步骤S216)。推定部214在判定为指示存在习惯性的情况下,基于由指示确定部215确定的指示、由处理确定部216确定的处理、以及乘员的讲话所进行的时机的特征,来更新习惯信息234(步骤S218)。推定部214在判定为指示不存在习惯性的情况下,使处理前进至步骤S222。
处理确定部216在判定为根据讲话内容的含义信息不能确定与指示相应的处理的情况下,基于习惯信息234来确定与指示相应的处理(步骤S220)。处理确定部216例如确定乘员的讲话所进行的时机,基于习惯信息234来确定与确定的时机相符合的时机、或者与确定的时机相符合的程度高的时机所对应的处理内容,来作为与乘员的指示相应的处理。智能体数据生成部217生成用于使车载设备VE进行由处理确定部216确定的处理的智能体数据(步骤S221),使处理前进至步骤S222。
指示确定部215在判定为讲话包含更正的内容的情况下,判定讲话是否为更正指示的内容(步骤S224)。指示确定部215在判定为讲话内容是更正指示的内容的情况下,基于由声音识别部213识别的讲话内容整体的含义,来重新确定乘员的指示(步骤S226)。处理确定部216确定与由指示确定部215重新确定出的指示对应的处理(步骤S228)。智能体数据生成部217生成使车载设备VE进行由处理确定部216确定的处理的智能体数据(步骤S230),并使处理前进至步骤S222。
指示确定部215在判定为更正的内容不是更正指示的内容的情况下,判定讲话是否为更正习惯的内容(步骤S232)。指示确定部215在判定为讲话不是更正习惯的内容的情况下,认为不能确定讲话所涉及的指示、处理,且也不能确定更正所涉及的内容,并结束处理。需要说明的是,在该情况下,智能体系统1不能进行识别,因此也可以再次进行催促乘员的讲话那样的通知。
指示确定部215在判定为讲话内容是更正习惯的内容的情况下,基于由声音识别部213识别到的讲话内容整体的含义,来重新确定乘员的指示(步骤S234)。处理确定部216确定与由指示确定部215重新确定的指示对应的处理(步骤S236)。智能体数据生成部217生成使车载设备VE进行由处理确定部216确定的处理的智能体数据(步骤S238)。推定部214基于由指示确定部215重新确定的指示和由处理确定部216确定的处理,来更新习惯信息234(步骤S240),使处理前进至步骤S222。
需要说明的是,在车辆M的乘员不唯一确定的情况下,在习惯信息234、对应信息236中,也可以包含能够对乘员进行辨别的辨别信息(以下称作用户ID)。例如,取得部121可以是在乘员向车辆M乘车了时使用车辆M所具备的HMI(Human machine Interface)等而从乘员取得用户ID,也可以是通过对以能够拍摄乘员的方式设置于车辆M的车内的相机拍摄乘员得到的图像进行图像识别处理来识别乘员,从用户ID的数据库取得乘员的用户ID,还可以是通过对话筒106接收到的声音的数据进行生物体认证来识别乘员。也可以是,针对乘员使用的车辆M的每个智能钥匙而设定了用户ID,通过与车辆M的智能钥匙收发信息来取得用户ID。指示确定部215、处理确定部216基于与用户ID建立了对应关系的习惯信息234、对应信息236的记录中的、与由取得部121取得的用户ID相符合的用户ID所对应的记录,来确定乘员的指示、与该指示建立了对应关系的处理。指示确定部215、处理确定部216在确定与用户ID建立了对应关系的习惯信息234、对应信息236的记录中的、与由取得部121取得的用户ID相符合的用户ID所对应的记录的处理中,为“利用者确定部”的一例。
由此,智能体系统1能够根据更适合乘员的指示来确定使车载设备VE进行的处理。
[习惯信息234与对应信息236的合成]
另外,在上述中,说明了在存储部150中,习惯信息234和对应信息236分别存储的情况,但不限定于此。在存储部150中,例如也可以代替习惯信息234和对应信息236,而存储有将习惯信息234与对应信息236合成的合成信息。图20是表示合成信息的内容的一例的图。合成信息例如是包含一个以上的如下记录的信息,在该记录中,表示预先设定的简洁的语句的信息、表示推定为存在习惯性的指示所进行的时机的信息、表示指示的内容的信息、以及表示根据该指示而进行的处理的内容的信息互相建立了对应关系。推定部214、处理确定部216通过上述的处理来生成(更新)合成信息。另外,推定部214基于合成信息来推定习惯,处理确定部216基于合成信息来确定指示、处理。由此,智能体系统1能够根据时机来区分使用、区分听取简洁的语句(例如‘老规矩’这样的语句)。
[实施方式的总结]
如以上所说明那样,本实施方式的智能体系统1具备:取得部121,其表示取得利用者讲话的声音的数据;声音识别部213,其基于由取得部121取得的数据,来识别利用者的讲话内容;推定部214,其基于利用者与智能体系统1(智能体)之间的交流,来推定利用者的习惯;指示确定部215,其确定由声音识别部213识别到的讲话内容所包含的指示;处理确定部216,其确定与由指示确定部215确定的指示相应的处理,或者在不能确定与由指示确定部215确定的指示相应的处理的情况下,基于由推定部214推定的习惯来确定与指示相应的处理;以及输出控制部124,其使包括扬声器108在内的信息输出装置通过声音来输出表示由指示确定部215确定的指示的信息、以及表示由处理确定部216确定的处理的信息。由此,本实施方式的智能体系统1在不能确定操作者的指示的情况下,能够基于操作者的习惯来确定对操作对象的设备的指示。
<变形例>
在上述的实施方式中,说明搭载于车辆M的智能体装置100与服务器装置200为互不相同的装置的情况,但并不限定于此。例如,智能体功能所涉及的服务器装置200的构成要素也可以包含于智能体装置100的构成要素。在该情况下,服务器装置200也可以作为由智能体装置100的控制部120假想地实现的假想机器而发挥功能。以下,将包含服务器装置200的构成要素在内的智能体装置100A作为变形例来进行说明。需要说明的是,在变形例中,关于与上述的实施方式同样的构成要素,标注同样的附图标记,省略此处的具体的说明。
图21是表示变形例的智能体装置100A的结构的一例的图。智能体装置100A例如具备通信部102、话筒106、扬声器108、显示部110、控制部120a及存储部150a。控制部120a例如具备取得部121、声音合成部122、通信控制部123、输出控制部124、讲话区间提取部212、声音识别部213、推定部214、指示确定部215、处理确定部216及智能体数据生成部217。
另外,存储部150a例如除了由处理器参照的程序以外,还包含车载设备信息152、回答信息232、以及习惯信息234、对应信息236。回答信息232也可以根据从服务器装置200取得的最新的信息而更新。
智能体装置100A的处理例如是如下处理:在图17所示的流程图的步骤S100的处理之后,执行图18~图19所示的流程图的步骤S202~步骤S222的处理,之后执行图17所示的流程图的步骤S106以后的处理。
根据以上说明的变形例的智能体装置100A,除了起到与第一实施方式同样的效果以外,而且无需每次取得来自乘员的声音时均经由网络NW而与服务器装置200进行通信,因此能够更迅速地识别讲话内容。另外,车辆M即便是在不能与服务器装置200通信的状态下,也能够生成智能体数据而向乘员提供信息。
以上使用实施方式说明了本发明的具体实施方式,但本发明丝毫不被这样的实施方式限定,在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims (11)

1.一种智能体系统,其中,
所述智能体系统具备:
取得部,其取得表示利用者讲话的声音的数据;
声音识别部,其基于由所述取得部取得的所述数据,来识别所述利用者的讲话内容;
推定部,其基于所述利用者与本系统之间的交流,来推定所述利用者的习惯;
指示确定部,其确定由所述声音识别部识别到的所述讲话内容所包含的指示;
处理确定部,其确定与由所述指示确定部确定出的所述指示相应的处理,或者在不能确定与由所述指示确定部确定出的所述指示相应的处理的情况下,基于由所述推定部推定出的所述习惯来确定与所述指示相应的所述处理;以及
输出控制部,其使包括扬声器在内的信息输出装置通过声音来输出表示由所述指示确定部确定出的所述指示的信息和表示由所述处理确定部确定出的所述处理的信息。
2.根据权利要求1所述的智能体系统,其中,
所述处理确定部基于表示指示的信息与表示处理的信息互相建立了对应关系的对应信息,来确定所述处理,
所述处理确定部在基于由所述推定部推定出的所述习惯而确定出所述处理的情况下,根据表示由所述指示确定部确定出的所述指示的信息和表示所确定出的所述处理的信息,来更新所述对应信息。
3.根据权利要求2所述的智能体系统,其中,
所述指示确定部在由所述指示确定部确定出的基于所述讲话内容而确定出的指示为预先设定的规定指示以外的指示的情况下,根据确定出的所述指示和所述处理来更新所述对应信息。
4.根据权利要求3所述的智能体系统,其中,
所述规定指示是指示目的地的场所、向目的地的出发时刻、目的地的抵达时刻、目的地的评价、以及目的地的范畴中的至少一个的规定指示,
所述处理确定部在由所述指示确定部确定出的所述指示为所述规定指示的情况下,确定与所述规定指示相应的目的地所涉及的处理,在由所述指示确定部确定出的所述指示不是所述规定指示的情况下,所述处理确定部基于由所述推定部推定出的所述习惯,来确定与所述指示相应的所述处理。
5.根据权利要求2至4中任一项所述的智能体系统,其中,
所述输出控制部使所述信息输出装置输出表示由所述处理确定部更新所述对应信息这一情况的信息。
6.根据权利要求2至4中任一项所述的智能体系统,其中,
在由所述信息输出装置输出了表示所述指示的信息和表示所述处理的信息时,在由所述声音识别部识别到的所述讲话内容中包含对表示所述指示的信息进行更正的内容的情况下,所述指示确定部重新确定所述指示,并根据表示所重新确定出的所述指示的信息和表示所述处理的信息来更新所述对应信息。
7.根据权利要求2至4中任一项所述的智能体系统,其中,
在由所述信息输出装置输出了表示基于所述利用者的习惯而确定出的所述处理的信息时,在由所述声音识别部识别到的所述讲话内容中包含对所述处理进行更正的内容的情况下,所述推定部重新推定所述利用者的习惯。
8.根据权利要求2至4中任一项所述的智能体系统,其中,
所述处理确定部还基于由所述声音识别部识别到的所述讲话内容所包含的所述利用者的辨别信息来确定所述处理。
9.根据权利要求2至4中任一项所述的智能体系统,其中,
所述智能体系统还具备利用者确定部,该利用者确定部确定由所述声音识别部识别到的所述讲话内容所涉及的进行了该讲话的利用者,
所述处理确定部按由所述利用者确定部确定出的每个所述利用者来确定所述处理。
10.一种智能体方法,其中,
所述智能体方法使计算机进行如下处理:
取得表示利用者讲话的声音的数据;
基于取得的所述数据,来识别所述利用者的讲话内容;
基于所述利用者与本系统之间的交流,来推定所述利用者的习惯;
确定所识别到的所述讲话内容所包含的指示;
确定与所确定出的所述指示相应的处理,或者在不能确定与所确定出的所述指示相应的处理的情况下,基于推定出的所述习惯来确定与所述指示相应的所述处理;以及
使包括扬声器在内的信息输出装置通过声音来输出表示所确定出的所述指示的信息和表示所确定出的所述处理的信息。
11.一种存储介质,其存储有程序,其中,
所述程序使计算机进行如下处理:
取得表示利用者讲话的声音的数据;
基于取得的所述数据,来识别所述利用者的讲话内容;
基于所述利用者与本系统之间的交流,来推定所述利用者的习惯;
确定所识别到的所述讲话内容所包含的指示;
确定与所确定出的所述指示相应的处理,或者在不能确定与所确定出的所述指示相应的处理的情况下,基于所推定出的所述习惯来确定与所述指示相应的所述处理;以及
使包括扬声器在内的信息输出装置通过声音来输出表示所确定出的所述指示的信息和表示所确定出的所述处理的信息。
CN202011543975.0A 2019-12-26 2020-12-23 智能体系统、智能体方法及存储介质 Pending CN113053372A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019235788A JP7254689B2 (ja) 2019-12-26 2019-12-26 エージェントシステム、エージェント方法、及びプログラム
JP2019-235788 2019-12-26

Publications (1)

Publication Number Publication Date
CN113053372A true CN113053372A (zh) 2021-06-29

Family

ID=76508135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011543975.0A Pending CN113053372A (zh) 2019-12-26 2020-12-23 智能体系统、智能体方法及存储介质

Country Status (2)

Country Link
JP (1) JP7254689B2 (zh)
CN (1) CN113053372A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
JP2011039185A (ja) * 2009-08-07 2011-02-24 Toyota Central R&D Labs Inc 音声対話装置及び音声対話プログラム
US20170123757A1 (en) * 2015-11-03 2017-05-04 Honeywell International Inc. Intent managing system
CN106782526A (zh) * 2016-12-12 2017-05-31 深圳Tcl数字技术有限公司 语音控制方法和装置
CN106992009A (zh) * 2017-05-03 2017-07-28 深圳车盒子科技有限公司 车载语音交互方法、系统及计算机可读存储介质
CN108682419A (zh) * 2018-03-30 2018-10-19 京东方科技集团股份有限公司 语音控制方法及设备、计算机可读存储介质及设备
CN110027409A (zh) * 2018-01-11 2019-07-19 丰田自动车株式会社 车辆控制装置、车辆控制方法以及计算机可读取记录介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297185A (ja) * 2001-03-29 2002-10-11 Pioneer Electronic Corp 情報処理装置および情報処理方法
JP4144443B2 (ja) * 2003-06-19 2008-09-03 富士通株式会社 対話装置
JP2005181358A (ja) * 2003-12-16 2005-07-07 Victor Co Of Japan Ltd 音声認識合成システム
JP4637793B2 (ja) * 2006-06-09 2011-02-23 三菱電機株式会社 施設検索装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
JP2011039185A (ja) * 2009-08-07 2011-02-24 Toyota Central R&D Labs Inc 音声対話装置及び音声対話プログラム
US20170123757A1 (en) * 2015-11-03 2017-05-04 Honeywell International Inc. Intent managing system
CN106782526A (zh) * 2016-12-12 2017-05-31 深圳Tcl数字技术有限公司 语音控制方法和装置
CN106992009A (zh) * 2017-05-03 2017-07-28 深圳车盒子科技有限公司 车载语音交互方法、系统及计算机可读存储介质
CN110027409A (zh) * 2018-01-11 2019-07-19 丰田自动车株式会社 车辆控制装置、车辆控制方法以及计算机可读取记录介质
CN108682419A (zh) * 2018-03-30 2018-10-19 京东方科技集团股份有限公司 语音控制方法及设备、计算机可读存储介质及设备

Also Published As

Publication number Publication date
JP2021105636A (ja) 2021-07-26
JP7254689B2 (ja) 2023-04-10

Similar Documents

Publication Publication Date Title
JP7091807B2 (ja) 情報提供システムおよび情報提供方法
CN111599356B (zh) 智能体系统、信息处理装置、信息处理方法及存储介质
US11450316B2 (en) Agent device, agent presenting method, and storage medium
CN110556113A (zh) 基于声纹识别的车辆控制方法与云端服务器
JP7020098B2 (ja) 駐車場評価装置、駐車場情報提供方法およびプログラム
KR102403355B1 (ko) 차량, 그와 통신하는 모바일 기기 및 차량의 제어 방법
CN110956967A (zh) 基于声纹识别的车辆控制方法与车辆
JP2023127059A (ja) 車載装置、情報処理方法及びプログラム
JP2020060861A (ja) エージェントシステム、エージェント方法、およびプログラム
CN111724798B (zh) 车载设备控制系统、车载设备控制装置、车载设备控制方法及存储介质
CN111746435B (zh) 信息提供装置、信息提供方法及存储介质
CN112908320B (zh) 智能体装置、智能体方法及存储介质
CN113053372A (zh) 智能体系统、智能体方法及存储介质
US20220208187A1 (en) Information processing device, information processing method, and storage medium
CN111902864A (zh) 用于运行机动车的声音输出装置的方法、语音分析与控制装置、机动车和机动车外部的服务器装置
CN111661065B (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2020144285A (ja) エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム
CN111754288A (zh) 服务器装置、信息提供系统、信息提供方法及存储介质
JP2020060623A (ja) エージェントシステム、エージェント方法、およびプログラム
US20220208213A1 (en) Information processing device, information processing method, and storage medium
JP7449852B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7003839B2 (ja) エージェント推薦システム
WO2023144574A1 (ja) 音声認識方法及び音声認識装置
JP2020166075A (ja) 音声インタフェイスシステム
JP2020166074A (ja) 音声インタフェイスシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination