CN112995270B - 智能体系统、智能体系统的控制方法及存储介质 - Google Patents
智能体系统、智能体系统的控制方法及存储介质 Download PDFInfo
- Publication number
- CN112995270B CN112995270B CN202011479683.5A CN202011479683A CN112995270B CN 112995270 B CN112995270 B CN 112995270B CN 202011479683 A CN202011479683 A CN 202011479683A CN 112995270 B CN112995270 B CN 112995270B
- Authority
- CN
- China
- Prior art keywords
- content
- speech
- unit
- agent
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004044 response Effects 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 15
- 239000003795 chemical substances by application Substances 0.000 description 228
- 230000006870 function Effects 0.000 description 129
- 238000004891 communication Methods 0.000 description 36
- 238000003058 natural language processing Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 7
- 239000013589 supplement Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000013543 active substance Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 235000017845 Persicaria vulgaris Nutrition 0.000 description 1
- 244000170788 Persicaria vulgaris Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
- H04L67/025—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
Abstract
即使是基于短的讲话的内容的声音操作也能得到准确的响应的智能体系统、智能体系统的控制方法及存储介质。智能体系统具备:响应显示控制部,其使显示部显示对操作进行了响应的内容的图像;讲话内容解释部,其解释由利用者进行的讲话的内容;讲话内容判定部,其判定由所述讲话内容解释部解释出的讲话的内容是否为单独作为服务要求而成立的内容;以及智能体控制部,其在由所述讲话内容判定部判定为不是单独作为服务而成立的内容的情况下,执行用于提供基于操作脉络信息的内容和所述讲话的内容而确定的服务的控制,所述操作脉络信息表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络。
Description
技术领域
本发明涉及智能体系统、智能体系统的控制方法及存储介质。
背景技术
以往已知如下导航装置,该导航装置在对根据向用户的询问而输入的操作声音进行声音识别的结果是判定为非语言的情况下,根据非语言的输入时的状况,来判断非语言的输入的有效性,并根据有效性的判断结果,来判断是进行作业内容的确认、作业内容的暂且搁置、以及作业内容的执行中的哪一方(例如,日本特开2008-46299号公报)。
发明内容
发明要解决的课题
关于声音操作,优选的是,虽然是短的讲话的内容但是也能得到准确的响应。然而,在以往的技术中,难以实现如下事项:即使作为声音操作而讲出了基于不成一段话的语句等表现的短的内容,基于讲出的内容也得到准确的响应。
本发明的目的之一在于尽管是基于短的讲话的内容进行的声音操作也能得到准确的响应。
用于解决课题的方案
本发明的智能体系统、智能体系统的控制方法及存储介质采用了以下的结构。
(1):本发明的一方案的智能体系统具备:响应显示控制部,其使显示部显示对操作进行了响应的内容的图像;讲话内容解释部,其解释由利用者进行的讲话的内容;讲话内容判定部,其判定由所述讲话内容解释部解释出的讲话的内容是否为单独作为服务要求而成立的内容;以及智能体控制部,其在由所述讲话内容判定部判定为不是单独作为服务而成立的内容的情况下,执行用于提供基于操作脉络信息的内容和所述讲话的内容而确定的服务的控制,所述操作脉络信息表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络。
(2):在上述(1)的方案的智能体系统中,在作为所述操作而进行了手动操作的情况下,所述响应显示控制部使对所述手动操作进行了响应的内容的图像显示,在作为所述操作而进行了基于讲话的操作的情况下,所述响应显示控制部使对所述讲话的内容进行了响应的内容的图像显示。
(3):在上述(1)或(2)的方案的智能体系统中,在由所述讲话内容判定部判定为单独作为服务要求而成立的内容的情况下,所述智能体控制部在维持表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络的操作脉络信息的内容的基础上,进行控制以提供判定出的讲话的内容所要求的服务。
(4):在上述(3)的方案的智能体系统中,所述智能体控制部在维持所述操作脉络信息的内容的基础上,在进行控制以提供判定出的讲话的内容所要求的服务之后,由所述讲话内容解释部解释出的讲话的内容被所述讲话内容判定部判定为不是单独作为服务而成立的内容的情况下,执行用于提供如下服务的控制,该服务基于表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络的操作脉络信息的内容、以及所述讲话的内容来确定。
(5):本发明的一方案的智能体系统的控制方法使智能体系统中的计算机进行如下处理:使显示部显示对操作进行了响应的内容的图像;解释由利用者进行的讲话的内容;判定解释出的所述讲话的内容是否为单独作为服务要求而成立的内容;以及在判定为所述讲话的内容不是单独作为服务而成立的内容的情况下,维持表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络的操作脉络信息的内容,并执行用于提供基于维持了的操作脉络信息的内容和该讲话的内容而确定的服务的控制。
(6):本发明的一方案的存储介质存储有程序,该程序使计算机进行如下处理:使显示部显示对操作进行了响应的内容的图像;解释由利用者进行的讲话的内容;判定解释出的所述讲话的内容是否为单独作为服务要求而成立的内容;以及在判定为所述讲话的内容不是单独作为服务而成立的内容的情况下,维持表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络的操作脉络信息的内容,并执行用于提供基于维持了的操作脉络信息的内容和该讲话的内容而确定的服务的控制。
发明效果
根据(1)、(5)、(6),在对显示于显示部的图像进行的声音操作的讲话的内容由于相当于例如文中的一部分从而不是单独作为服务要求而成立的内容的情况下,能够作为在当前时间点为止的操作的脉络下进行了基于此次的讲话的内容的声音操作这一情况来处理。由此,即使声音操作中的讲话的内容短也能够得到准确的响应。
根据(2),对显示于显示部的图像进行的操作也可以是手动操作和声音操作中的任意操作。在该情况下,在讲话的内容不是单独作为服务要求而成立的内容的情况下使用的操作脉络信息可以包含基于手动操作的履历和声音操作的履历。由此,即使乘员的以前的操作为手动操作和声音操作中的任意操作,也能够进行基于直截了当且短的讲话的内容的声音操作。
根据(3)、(4),在此次的讲话的内容为单独作为服务要求而成立的内容的情况下,目前为止的操作脉络信息不被清除而被维持。在此基础上,根据此次的讲话的内容,来进行与操作脉络信息所对应的服务不同的其他的服务的提供。在其他的服务的提供完成之后,由于维持着操作脉络信息,因此乘员能够从进行此次的讲话之前的状态起使操作再次开始。
附图说明
图1是表示本实施方式中的智能体系统的结构例的图。
图2是表示本实施方式中的智能体装置的结构和搭载于车辆的设备的图。
图3是表示本实施方式中的智能体服务器的结构和智能体装置的结构的一部分的图。
图4是表示本实施方式的智能体系统与由乘员进行的对触摸面板的操作相关联而执行的处理步骤例的流程图。
图5是表示针对乘员对触摸面板的操作步骤作出了响应的智能体系统的动作的一具体例的序列图。
附图标记说明:
1…智能体系统、10…话筒、20…显示·操作装置、30…扬声器、40…导航装置、50…车载通信装置、100…智能体装置、110…管理部、112…声响处理部、114…智能体唤醒判定部、116…通信控制部、120…输出控制部、122…显示控制部、124…声音控制部、130…智能体功能部、140…车载通信部、150…存储部、200…智能体服务器、210…通信部、220…声音识别部、221…自然语言处理部、222…对话管理部、224…网络检索部、224…响应内容生成部、250…存储部、300…网页服务器。
具体实施方式
以下,参照附图来说明本发明的智能体系统、智能体装置的控制方法及存储介质的实施方式。
<实施方式>
[关于智能体功能]
智能体装置是实现本实施方式的包含通知控制系统在内的智能体系统1的一部分或全部的装置。以下,作为智能体装置的一例来说明搭载于乘员(利用者的一例)搭乘的车辆(以下称作车辆M)、且具备智能体功能的智能体装置。需要说明的是,在本发明的适用上,未必需要是智能体装置具有智能体功能。另外,智能体装置也可以是智能手机等可移动型终端装置(通用终端),以下以搭载于车辆的具备智能体功能的智能体装置为前提来说明。智能体功能例如是一边与车辆M的乘员对话一边进行基于乘员的讲话中包含的要求(指令)的各种的信息提供、各种设备控制或者对网络服务进行中介的功能。在智能体装置具有多个智能体功能的情况下,智能体功能分别起到的功能、处理步骤、控制、输出形态·内容也可以分别不同。另外,在智能体功能中,可以存在具有进行车辆内的设备(例如驾驶控制、车身控制所涉及的设备)的控制等的功能的智能体功能。
智能体功能例如除了识别乘员的声音的声音识别功能(将声音文本化的功能)之外还综合地利用自然语言处理功能(理解文本的构造、含义的功能)、对话管理功能、经由网络而检索其他装置或者检索本装置所持有的规定的数据库的网络检索功能等而实现。这些功能的一部分或全部可以由AT(Artificial Intelligence)技术实现。另外,用于发挥这些功能的结构的一部分(尤其是,声音识别功能、自然语言处理解释功能)也可以搭载于能够与车辆M的车载通信装置或带进车辆M的通用通信装置通信的智能体服务器(外部装置)。在以下的说明中,以结构的一部分搭载于智能体服务器且智能体装置和智能体服务器协同配合而实现智能体系统为前提。另外,将智能体装置和智能体服务器协同配合而虚拟地出现的服务提供主体(服务实体)称作智能体。
[智能体系统]
图1是表示包括智能体装置100的智能体系统1的结构例的图。智能体系统1例如具备智能体装置100和一个以上的智能体服务器200。关于提供本实施方式的智能体系统1的提供者,例如可举出机动车厂商、网络服务运营商、电子商贸运营商、便携终端的销售者、制造者等,任意的主体(法人、团体、个人等)能够成为智能体系统1的提供者。需要说明的是,在图1中,说明了智能体服务器200为一个的情况,但不限定于此,智能体系统1也可以具备两个以上的智能体服务器200。在该情况下,各智能体服务器200也可以由互不相同的任意的主体提供。
智能体装置100经由网络NW与智能体服务器200通信。网络NW例如包括互联网、蜂窝网、Wi-Fi网、WAN(Wide Area Network)、LAN(Local Area Network)、公用线路、电话线路、无线基站等通信网中的一部分或全部。在网络NW中连接有各种网页服务器300,智能体服务器200或智能体装置100能够经由网络NW从各种网页服务器300取得网页。
智能体装置100与车辆M的乘员进行对话,将来自乘员的声音向智能体服务器200发送,将从智能体服务器200得到的回答以声音输出、图像显示的形式向乘员提示。
[车辆]
图2是表示实施方式的智能体装置100的结构和搭载于车辆M的设备的图。在车辆M例如搭载有一个以上的话筒10、显示·操作装置20、扬声器30、导航装置40、车载通信装置50及智能体装置100。这些装置通过CAN(Controller Area Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。需要说明的是,图2所示的结构只不过是一例,既可以省略结构的一部分,也可以还追加别的结构。
话筒10是收集在车室内发出的声音的收音部。显示·操作装置20是显示图像并且能够接受输入操作的装置(或者装置群)。显示·操作装置20例如包括构成为触摸面板的显示器装置。显示·操作装置20也可以进一步包括HUD(Head Up Display)、机械式的输入装置。扬声器30例如包括配设于车室内的扬声器(声音输出部)。显示·操作装置20也可以由智能体装置100和导航装置40共用。扬声器30是“声音输出部”的一例。
导航装置40具备导航HMI(Human Machine Interface)、GPS(Global PositioningSystem)等位置测定装置、存储有地图信息的存储装置、以及进行路径搜索等的控制装置(导航控制器)。话筒10、显示·操作装置20及扬声器30中的一部分或全部也可以作为导航HMI来使用。导航装置40搜索用于从由位置测定装置确定出的车辆M的位置移动到由乘员输入的目的地的路径(导航路径),以使车辆M能够沿着路径行驶的方式,使用导航HMI来输出引导信息。路径搜索功能也可以存在于能够经由网络NW而访问的导航服务器。在该情况下,导航装置40从导航服务器取得路径并输出引导信息。
需要说明的是,智能体装置100也可以以导航控制器为基础而构筑。在该情况下,导航控制器和智能体装置100在硬件上一体构成。显示·操作装置20的显示器装置和导航装置40的导航HMI是“显示部”的一例。
车载通信装置50例如是利用蜂窝网、Wi-Fi网能够访问网络NW的无线通信装置。
[智能体装置]
智能体装置100具备管理部110、智能体功能部130、车载通信部140及存储部150。管理部110例如具备声响处理部112、智能体唤醒(Wake Up)判定部114、通信控制部116及输出控制部120。图2所示的软件配置为了说明而简易地示出,实际上,例如,能够以也可以在智能体功能部130与车载通信装置50之间存在管理部110的方式任意地改变。另外,以下,有时将智能体功能部130和智能体服务器200协同配合而出现的智能体简称作“智能体”。
智能体装置100的各构成要素例如通过CPU(Central Processing Unit)等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部也可以通过LSI(LargeScale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括电路部:circuitry)来实现,还可以通过软件与硬件的协同配合来实现。存储部150可以由HDD(HardDisk Drive)、闪存器等存储装置(具备非暂时性的存储介质的存储装置)来实现,也可以由DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质)来实现,还可以是装配于驱动装置的存储介质。另外,存储部150的一部分或全部也可以是NAS、外部的存储服务器等智能体装置100能够访问的外部装置。在存储部150中例如存储在智能体装置100中执行的程序等信息。
管理部110通过执行OS(Operating System)、中间件等程序而发挥功能。
管理部110的声响处理部112接受从话筒10收集的声音,对接受到的声音进行识别针对每个智能体而预先设定的唤醒词或者使得成为适合于识别其他讲话内容的状态的声响处理。唤醒词例如是用于使对象的智能体启动的词(单词)、短句等。唤醒词可以使单个智能体启动,也可以使多个智能体启动。声响处理例如是基于带通滤波器等的滤波的噪声去除、声音的放大等。另外,声响处理部112将声响处理后的声音向智能体唤醒判定部114、启动中的智能体功能部130输出。
智能体唤醒判定部114识别对智能体预先设定的唤醒词。智能体唤醒判定部114根据进行了声响处理后的声音(声音流)来识别讲话的声音。首先,智能体唤醒判定部114基于声音流中的声音波形的振幅和零交叉来检测声音区间。智能体唤醒判定部114也可以进行基于以混合高斯分布模型(GMM;Gaussian mixture model)为基础的帧单位的声音辨识及非声音辨识的区间检测。
接着,智能体唤醒判定部114将检测到的声音区间中的声音文本化,设为文字信息。然后,智能体唤醒判定部114判定进行了文本化的文字信息是否符合唤醒词。在判定为是唤醒词的情况下,智能体唤醒判定部114使与唤醒词对应的智能体功能部130启动。需要说明的是,相当于智能体唤醒判定部114的功能也可以搭载于智能体服务器200。在该情况下,管理部110将由声响处理部112进行声响处理后的声音流向智能体服务器200发送,在智能体服务器200判定为是唤醒词的情况下,按照来自智能体服务器200的指示而智能体功能部130启动。另外,各智能体功能部130也可以始终处于启动状态且自己进行唤醒词的判定。在该情况下,管理部110无需具备智能体唤醒判定部114。
另外,智能体唤醒判定部114在以与上述的步骤同样的步骤识别到讲话的声音中包含的结束词、且与结束词对应的智能体是启动的状态(以下,根据需要而称作“启动中”)的情况下,使启动中的智能体功能部结束(停止)。需要说明的是,智能体的启动及结束例如也可以通过从显示·操作装置20接受规定的操作而执行,但以下说明基于声音的启动及停止的例子。另外,启动中的智能体也可以在规定时间以上未接受到声音的输入的情况下停止。
通信控制部116进行用于能够将智能体功能部130与网络NW连接的控制。例如,通信控制部116控制智能体功能部130经由网络而与外部装置(例如智能体服务器200)进行通信的情况下的连接状态等。另外,通信控制部116进行通信中断的情况下的再连接、连接状态的切换等的控制。
输出控制部120根据来自通信控制部116或智能体功能部130等的指示使显示部或扬声器30输出响应内容等信息,由此向乘员进行服务等的提供。输出控制部120例如具备显示控制部122和声音控制部124。
显示控制部122基于智能体功能部130从智能体服务器200取得的信息,来使显示·操作装置20的显示器装置显示用于将智能体对车辆M的乘员的讲话进行响应的响应内容向车辆M的乘员通知的图像。
声音控制部124基于智能体功能部130从智能体服务器200取得的信息,来使扬声器30输出用于将智能体对车辆M的乘员的讲话进行响应的响应内容向车辆M的乘员通知的声音。
智能体功能部130与智能体服务器200协同配合,根据车辆的乘员的讲话来提供包括基于声音及图像的响应的服务。对智能体功能部130例如赋予了控制车辆M或搭载于车辆M的车载设备的权限,在通过后述的处理而由智能体服务器200识别到的车辆M的讲话内容是指示搭载于车辆M的车载设备的动作的指令的情况下,智能体功能部130基于指令来控制这些车载设备。在车载设备中包括导航装置40。智能体功能部130基于通信控制部116的控制,利用车载通信部140来经由车载通信装置50而与智能体服务器200通信。
需要说明的是,对于智能体功能部130,也可以根据法律、条例、提供智能体的运营商彼此的合同等而分配控制车载设备的权限。
车载通信部140例如在智能体功能部130与网络NW连接的情况下,使其经由车载通信装置50而通信。车载通信部140将来自智能体功能部130的信息经由车载通信装置50而向智能体服务器200、其他外部装置输出。另外,车载通信部140将经由车载通信装置50而输入的信息向智能体功能部130输出。
智能体功能部130基于由智能体唤醒判定部114作出的启动指示而启动,对于乘员的讲话,经由智能体服务器200而生成针对乘员的讲话的声音中包含的要求进行响应的响应内容,将生成的响应内容向输出控制部120输出。另外,智能体功能部130在与智能体服务器200进行通信的情况下,通过由通信控制部116控制的连接状态来进行通信。另外,智能体功能部130也可以基于由智能体唤醒判定部114进行的控制而使智能体停止。
[智能体服务器]
图3是表示实施方式的智能体服务器200的结构和智能体装置100的结构的一部分的图。以下,与智能体服务器200的结构一起,对智能体功能部130等的动作进行说明。在此,省略关于从智能体装置100到网络NW的物理通信的说明。
智能体服务器200具备通信部210。通信部210例如是NIC(Network InterfaceCard)等网络接口。而且,智能体服务器200例如具备声音识别部220、自然语言处理部221、对话管理部222、网络检索部223、响应内容生成部224的功能部。这些构成要素例如通过CPU等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部也可以由LSI、ASIC、FPGA、GPU等硬件(包括电路部:circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置),也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质),并通过存储介质向驱动装置装配而安装。将声音识别部220和自然语言处理部221组合起来是“讲话内容解释部”的一例。
另外,智能体服务器200具备存储部250。存储部250通过与实现上述的存储部150的各种存储装置同样的装置来实现。在存储部250中例如保存字典数据库252、个人简介254、知识库数据库256、响应规则数据库258等数据、程序。
在智能体装置100中,智能体功能部130例如将从声响处理部111等输入的声音流或进行了压缩、编码等处理后的声音流向智能体服务器200发送。智能体功能部130也可以在成功识别到能够进行本地处理(不经由智能体服务器200的处理)的指令(要求内容)的情况下,执行由指令要求的处理。能够进行本地处理的指令例如是能够通过参照智能体装置100所具备的存储部150而响应的指令。更具体而言,能够进行本地处理的指令例如是从存在于存储部150内的电话簿数据(未图示)检索特定者的名字,并向与吻合的名字建立了对应关系的电话号码拨打电话(呼叫对方)的指令。因此,智能体功能部130也可以具有智能体服务器200所具备的功能的一部分。
当取得声音流时,声音识别部220进行声音识别并输出文本化的文字信息,自然语言处理部221对文字信息一边参照字典数据库252一边进行含义解释。字典数据库252例如是抽象化的含义信息相对于文字信息建立了对应关系的数据库。字典数据库252例如包括功能字典252A和通用字典252B。
功能字典252A是用于涵盖智能体服务器200与智能体功能部130协同配合而实现的智能体所提供的功能(服务)的字典。例如,在智能体提供控制车载空调机的功能的情况下,在功能字典252A中,“空调机”、“空调”、“打开”、“关闭”、“温度”、“提高”、“降低”、“内气”、“外气”等单词与动词、宾语等单词类别及抽象化的含义建立对应关系而登记。另外,在功能字典252A中,可以包括表示能够同时使用的单词间关联信息。
通用字典252B是不限于智能体所提供的功能而将一般的事物的现象与抽象化的含义建立了对应关系的字典。功能字典252A和通用字典252B也可以分别包含同义词、近义词的一览信息。功能字典252A和通用字典252B可以与多种语言分别对应地准备,在该情况下,声音识别部220及自然语言处理部221使用与预先设定的语言设定相应的功能字典252A及通用字典252B、以及语法信息(未图示)。声音识别部220的处理和自然语言处理部221的处理并不明确地划分阶段,可以如声音识别部220接受自然语言处理部221的处理结果来修正识别结果等这样相互影响地进行。
自然语言处理部221作为基于由声音识别部220识别的识别结果进行的含义解析之一而取得为了应对声音中包含的服务的要求而需要的功能所相关的信息(以下称作功能需要信息)。例如,在作为识别结果而识别到指示车辆M的车载设备的控制的“打开窗户”、“提高空调的温度”等文本的情况下,自然语言处理部221参照字典数据库252等,来取得“车辆设备控制”这一对象设备·功能类别。并且,自然语言处理部221将取得的功能需要信息向智能体功能部130输出。自然语言处理部221基于功能需要信息来取得相对于服务要求可否执行的判定结果。自然语言处理部221在要求的功能能够执行的情况下,认为能够应对服务的要求,生成与解释出的讲话内容对应的指令。
对话管理部222基于由自然语言处理部221生成的指令,一边参照个人简介254、知识库数据库256、响应规则数据库258一边决定对车辆M的乘员进行响应的响应内容(例如,对乘员讲话的讲话内容、从输出部输出的图像、声音)。知识库数据库256是规定了事物的关系性的信息。响应规则数据库258是规定了智能体对于指令应该进行的动作(回答、设备控制的内容等)的信息。
另外,对话管理部222也可以使用从声音流得到的特征信息来与个人简介254进行对照,由此确定乘员。在该情况下,在个人简介254中,例如进一步对应有声音的特征信息。声音的特征信息例如是与声音的高度、语调、节奏(声音的高低的模式)等说话方式的特征、基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients)等的特征量相关的信息。声音的特征信息例如是通过在乘员初始登记时使乘员说出规定的单词、文章等并识别发出的声音而得到的信息。
对话管理部222在指令要求经由网络NW而能够检索的信息的情况下,使网络检索部223进行检索。网络检索部223经由网络NW访问规定的网页服务器300等外部设备,来取得期望的信息。
响应内容生成部224以使由对话管理部222决定的讲话的内容被车辆M的乘员理解的方式生成响应文,并将生成的响应文向智能体装置100发送。另外,响应内容生成部224也可以从智能体装置100取得基于相机对车室内进行拍摄的图像而识别到车辆M的乘员的识别结果,在通过取得的识别结果而确定了进行了包含指令的讲话的乘员为登记于个人简介254的乘员的情况下,生成叫出乘员的名字、设为了模仿乘员的讲话方式的讲话方式的响应文。
智能体功能部130当取得响应文时,指示声音控制部124进行声音合成并输出声音。另外,智能体功能部130指示显示控制部122显示包含响应文的图像等。
在具有上述结构的本实施方式的智能体系统1中,作为对设置为显示·操作装置20的触摸面板(显示部的一例)进行的操作,乘员能够同时使用手动操作和声音操作。
手动操作是乘员使用手指等操作体对物理地设置的输入器件、操作件进行的操作。作为一例,针对触摸面板的手动操作是使手指等操作体触碰触摸面板的显示面(操作面)而进行的操作。
声音操作是根据乘员利用本实施方式的智能体系统1所具备的智能体功能而进行了讲话这一情况,使作为各种服务的车辆M的设备的控制等执行的操作。
乘员也能够通过声音操作来进行作为手动操作而对触摸面板能够进行的操作。即,在本实施方式的智能体系统中,乘员也能够通过手动操作和声音操作中的任意操作来进行对触摸面板进行的操作。
另外,以后的说明中的“服务”是指不仅响应声音操作也响应一并使用手动操作进行的操作而提供的功能。
参照图4的流程图,来说明本实施方式的智能体系统1与由乘员进行的对触摸面板的操作(手动操作、声音操作)相关联而执行的处理步骤例。该图的处理在智能体已经启动的状态下进行。另外,在该图的说明中,例举出管理部110执行与对触摸面板进行的手动操作的响应相关的控制的情况。
首先,在智能体装置100中,管理部110判定触摸面板是否接受到手动操作(步骤S100)。
在触摸面板接受到手动操作的情况下,管理部110响应对触摸面板进行的手动操作而执行控制(响应控制),以得到车辆M中的设备的动作(步骤S102)。此时,管理部110(响应显示控制部的一例)可以以在触摸面板中显示的图像响应了此次进行的手动操作的方式来执行显示控制。
另外,在触摸面板接受到手动操作的情况下,智能体功能部130执行关于对话状态继续标志的控制(对话状态继续标志控制)(步骤S104)。
需要说明的是,在触摸面板接受到手动操作时智能体功能部130为未启动的状态的情况下,智能体唤醒判定部114可以使智能体功能部130启动,执行步骤S104的处理。
对话状态继续标志是根据设置的有无而表示智能体系统1是否继续着对话状态的标志。智能体系统1在对话状态继续标志为激活而继续着对话状态时,接受声音操作,执行响应了讲话的内容的控制。另一方面,智能体系统1在对话状态继续标志为非激活而停止对话状态时,不接受声音操作。在是从最后进行了的操作(手动操作或声音操作)起经过了一定时间的状态的情况下,对话状态继续标志从激活成为非激活。
作为该步骤S104的对话状态继续标志控制,在对话状态继续标志为非激活的状态的情况下,智能体功能部130使对话状态继续标志激活。即,本实施方式中的智能体功能部130在被进行了手动操作的情况下,也使对话状态继续标志激活,成为能够接受以后的声音操作的状态。
另外,在对话状态继续标志为激活的状态、且通过此次对触摸面板的操作而完成了1个服务的提供的情况下,以后,智能体功能部130无需接受与该1个服务相应的操作。在该情况下,智能体功能部130作为对话状态继续标志控制而使对话状态继续标志为非激活。
另外,在对话状态继续标志为激活的状态、且通过此次对触摸面板的操作还未完成1个服务的提供的情况下,能够接受关于该1个服务的以后的操作。于是,该情况下的智能体功能部130作为对话状态继续标志控制而使对话状态继续标志维持激活的状态。
在步骤S106的处理之后、或者在步骤S104中判定为对话状态继续标志为激活的情况下,智能体功能部130执行与操作脉络信息相关的控制(操作脉络信息控制)(步骤S108)。
操作脉络信息是表示在以服务单位进行的一系列的操作步骤下的操作的履历的信息。例如,若是乘员为了得到当前位置的附近的汽油加油站的信息而进行了POI(pointof interest)检索的情况,则作为操作步骤之一成为POI检索的执行指示、检索对象的范畴选择、针对选择出的范畴的收缩范围检索指示、从收缩范围检索结果中选择成为信息提示对象的1个汽油加油站这样的流程。操作脉络信息中,示出这样的操作步骤中的每个操作的内容。例如,若是上述那样的检索汽油加油站的情况,则由操作脉络信息示出[POI检索的执行指示]、[作为检索对象的范畴而选择“汽油加油站”]、[以收缩范围条件“赤坂周边”进行收缩范围检索]、[从收缩范围检索结果中选择“A店”]这样的每个操作的内容。另外,由操作脉络信息反映的各操作也可以包括手动操作和声音操作中的任一方。
另外,在此次的步骤S100中接受到的对触摸面板的手动操作为与某1个服务对应的最初的操作(例如,若为POI检索则指示POI检索开始的操作)的情况下,智能体功能部130可以作为该步骤S108的操作脉络信息控制而执行以下的处理。即,智能体功能部130新生成作为履历而包含根据此次的步骤S100而接受到的触摸面板的手动操作的内容的操作脉络信息,并保持生成的操作脉络信息。在保持操作脉络信息时,智能体功能部130可以使存储部150存储操作脉络信息。
另外,智能体功能部130在此次对触摸面板的手动操作为1个服务中的第2次以后的操作的情况下,关于已经保持的操作脉络信息,以追加此次对触摸面板的手动操作的内容的履历的方式进行更新。
另外,智能体功能部130在通过此次对触摸面板的手动操作而完成了1个服务的提供的情况下,清除操作脉络信息。
在没有进行对触摸面板的手动操作的情况下,例如智能体功能部139判定是否由声响处理部112接受到由话筒10等收集到的声音(步骤S108)。
在接受到声音的情况下,智能体功能部130将声响处理部112接受并实施声响处理后的声音向智能体服务器200发送。在智能体服务器200中,声音识别部220以接收到的声音为对象执行声音识别处理,由此将接收到的声音变换为文本(步骤S110)。
接着,自然语言处理部221(讲话内容解释部的一例)执行针对文本化的文字信息的自然语言处理,并进行文字信息的含义解释(步骤S112)。通过步骤S112的含义解释,来识别乘员的讲话内容是怎样的含义。
接着,自然语言处理部221判定当前对话状态继续标志是否激活(步骤S114)。此时,自然语言处理部221可以经由与智能体装置100之间的通信,来向智能体功能部130询问对话状态继续标志的状态。
在对话状态继续标志为激活的情况下,当前处于在1个服务的提供下正在等待接下来进行的操作的状态。在这样的状态下,对话状态继续标志维持激活的状态,操作脉络信息不被清除而由智能体功能部130保持。
在该情况下,自然语言处理部221(讲话内容判定部的一例)判定通过步骤S112而识别到含义的讲话内容是否为单独作为服务要求而成立的内容(步骤S116)。
单独作为服务要求而成立的讲话内容例如像“检索赤坂周边的汽油加油站”、“使空调机的温度为20度”这般、作为一段话的含义而要求的服务可确定是什么这样的讲话内容。对于该讲话内容,凭借其自身可掌握要求通过POI检索来检索赤坂周边的汽油加油站的含义,因此是单独作为服务要求而成立的讲话内容。
另一方面,单独作为服务要求而不成立的讲话内容是例如像“赤坂周边”这样从一段话中抽出一部分而得的语句。对于这样的讲话内容,凭借其自身则不能够确定具体要求怎样的服务。为了确定这样的讲话内容,例如需要补充目前为止的操作脉络是怎样的。
该步骤S116的判定可以如以下这样进行。例如,自然语言处理部221可以在参照字典数据库252而取得功能需要信息时,基于是否能够通过识别到的讲话内容自身来取得功能需要信息,来进行步骤S116的判定。即,若能够取得功能需要信息,则自然语言处理部221判定为识别到的讲话内容是单独作为服务要求而成立的内容。与此相对,若不能够取得功能需要信息,则自然语言处理部221判定为识别到的讲话内容不是单独作为服务要求而成立的内容。
在识别到的讲话内容不是单独作为服务要求而成立的内容的情况下,自然语言处理部221关于由智能体功能部130保持的操作脉络信息不作清除而维持保持的状态。此外,自然语言处理部221(智能体控制部的一例)参照维持保持的操作脉络信息(步骤S118)。
接着,自然语言处理部221根据由步骤S118参照的操作脉络信息所示的操作内容的履历,来补充由此次的步骤S112识别到的讲话内容的含义(步骤S120)。具体而言,自然语言处理部221将通过此次的步骤S112而识别到含义的讲话内容,作为继目前为止根据1个服务而对触摸面板进行了的操作(手动操作、声音操作)之后的声音操作的讲话内容来处理。
在步骤S120的补充时,自然语言处理部221例如利用字典数据库252,来判定此次识别到的讲话内容的含义是否为目前为止对触摸面板的操作脉络中的下一操作。在判定为是作为下一操作内容而连续的情况下,自然语言处理部221进行对此次识别到的讲话内容的含义的补充。另一方面,在判定为不是作为下一操作内容而连续的情况下,自然语言处理部221可以认为不可对此次的讲话内容进行响应而执行与错误(error)相应的处理,对此省略该图中的关于处理的图示。
智能体装置100的智能体功能部130执行用于对通过此次的步骤S108而接受到的声音的讲话内容进行响应的控制(响应控制)(步骤S122)。此时,智能体功能部130(响应显示控制部的一例)接收自然语言处理部221基于由步骤S112识别到的含义和由步骤S120补充的结果而生成的指令,智能体功能部130根据接收到的指令来执行车辆M的设备的控制。此时,智能体功能部130根据由步骤S120生成的指令,来执行显示控制,以使触摸面板中的图像的显示为响应了此次的声音操作的内容。
另外,智能体功能部130从智能体服务器200的响应内容生成部224接收与由步骤S120生成的指令相应的声音等响应内容(对话内容),并将接收到的响应内容输出。
另外,智能体功能部130执行操作脉络信息控制(步骤S124)。所谓该步骤S124中的操作脉络信息控制,是关于已经保持的操作脉络信息以追加根据此次识别到的讲话内容而进行的声音操作的操作内容的履历的方式进行更新。
当结束步骤S124的处理时,返回步骤S100进行处理。
在认定为是单独作为服务要求而成立的内容的情况下,智能体功能部130作为对通过此次的步骤S108而接受到的声音的讲话内容的响应控制,执行基于插队处理的响应控制(步骤S126)。该情况为插队处理,因此智能体功能部130不清除与目前为止的触摸面板操作相应的操作脉络信息而维持保持的状态。由此,在步骤S126的处理之后,乘员能够对显示了与此次的插队处理相应的声音操作之前相同的图像的触摸面板,继续再次开始以后的操作(既可以是手动操作也可以是声音操作)。另外,当步骤S126的处理后再次开始对触摸面板的操作时,能够执行步骤S116~S122的处理。即,智能体功能部130在基于声音操作的讲话内容为单独服务要求而不成立的内容的情况下,能够继承以前对触摸面板的操作脉络而适当地执行响应控制。
另外,在对话状态继续标志成为了非激活的情况下,与基于此次的步骤S108进行的声音的接受相应的声音操作通过声音操作而开始了与新的1个服务相应的操作。于是,智能体功能部130执行对此次的声音操作的响应控制(步骤S128)。智能体功能部130在该步骤S128的响应控制时,执行与自然语言处理部221基于通过此次的步骤S112识别到的含义而生成的指令相应的控制。此时,在指令是与对触摸面板的规定的操作对应的指令的情况下,智能体功能部130控制触摸面板显示对此次的声音操作作出了响应的内容的图像。
接着,智能体功能部130判定此次的步骤S128中的响应控制是否为对触摸面板的操作进行响应的控制(步骤S130)。在是对触摸面板操作进行响应的控制的情况下,智能体功能部130作为对话状态继续标志控制而激活对话状态继续标志(步骤S132)。
另外,智能体功能部130作为操作脉络信息控制,根据此次的步骤S128中的响应控制而生成由自然语言处理部221识别到的操作内容被作为履历示出的操作脉络信息(步骤S134)。智能体功能部130保持生成的操作脉络信息。在步骤S134的处理之后、或者判定为通过步骤S128进行的响应控制不是对触摸面板的操作进行响应的控制的情况下,返回步骤S100进行处理。
在判定出未接受到声音的情况下,声音操作和对触摸面板的手动操作均未进行。在该情况下,智能体功能部130判定是否从最后的操作起经过了一定时间(步骤S136)。此处的最后的操作是手动操作和声音操作中的任一方。
在未从最后的操作起经过一定时间的情况下,返回步骤S100进行处理。
当从最后的操作起经过一定时间时,智能体功能部130作为对话状态继续标志控制,在对话状态继续标志为激活的状态的情况下,使对话状态继续标志为非激活(步骤S138)。另外,智能体功能部130根据从最后的操作起经过了一定时间这一情况,在当前进行了操作脉络信息保持的情况下,清除该操作脉络信息(步骤S140)。根据步骤S138、S140的处理,在未对显示着与某服务对应的图像的触摸面板进行操作而经过了一定时间的情况下,成为超时,触摸面板例如成为等待与服务的开始相应的操作的状态。
[关于本实施方式中的触摸面板操作的具体例]
参照图5的序列图,来说明对乘员对触摸面板进行的操作步骤作出了响应的智能体系统1的动作的一具体例。在以下的说明中,举出乘员使导航装置40执行POI检索来检索汽油加油站的情况的例子。在该图中,示出操作步骤、对操作步骤作出了响应的智能体系统1的动作步骤。
首先,乘员通过对触摸面板的手动操作而指示POI检索的开始(步骤S200)。
在智能体装置100中,管理部110响应于通过步骤S200进行的手动操作,使导航装置40开始POI检索。导航装置40在开始POI检索时,将作为范畴选择画面的图像显示于触摸面板(步骤S202)。该步骤S202的动作如以下这样实现。即,根据触摸面板接受到指示POI检索的开始的手动操作这一情况,管理部110执行图4的步骤S102的处理,由此使导航装置40的POI检索功能启动。启动了POI检索功能的导航装置40在触摸面板显示范畴选择画面。
智能体功能部130根据通过步骤S202进行了显示范畴选择画面的动作这一情况,生成操作脉络信息(步骤S204)。该步骤S204的动作是图4中的步骤S106的处理。
通过步骤S202而显示出的范畴选择画面是从在POI检索能够检索的范畴的候补中选择成为检索对象的范畴的操作被进行的画面。该情况下的成为乘员检索对象的范畴是汽油加油站。于是,乘员通过对显示于触摸面板的范畴选择画面进行手动操作,进行了选择汽油加油站作为检索对象的范畴的操作(步骤S206)。
对由步骤S206进行了的手动操作作出响应,管理部110执行图4的步骤S102的处理,由此向导航装置40指示汽油加油站的检索的执行。根据该指示,导航装置40例如执行以当前地点为基准的一定范围内的汽油加油站的POI检索(步骤S208)。导航装置40将表示对汽油加油站检索后的结果的检索结果提示画面显示于触摸面板(步骤S210)。
智能体功能部130根据通过步骤S210进行了显示检索结果提示画面的动作这一情况,来执行图4的步骤S106的处理,由此更新操作脉络信息(步骤S212)。
在该图中,示出了通过步骤S212进行的操作脉络信息的更新后的操作脉络信息D1的内容例。操作脉络信息D1表示与作为POI检索功能的服务相应的操作到目前为止以指示POI检索的启动的操作、选择汽油加油站作为范畴的操作的顺序而进行了。
考虑在表示关于汽油加油站而检索后的结果的检索结果提示画面被显示了的状态下,乘员想要从由检索结果提示画面提示出的汽油加油站中收缩到赤坂周边的汽油加油站的范围而进行检索。在此,乘员未通过目前为止的手动操作而通过声音操作来进行赤坂周边的汽油加油站的收缩范围检索。于是,乘员作为声音操作而讲出了“赤坂周边”(步骤S214)。
通过图4的步骤S108~S116的处理,“赤坂周边”的讲话内容被判定为是单独作为服务要求而不成立的内容。在该情况下,继续执行步骤S118~S122的处理。
即,“赤坂周边”的讲话内容在POI检索的服务下,作为继智能体功能部130保持的操作脉络信息D1所示的操作步骤之后的下一声音操作而被处理。其结果是,智能体功能部130作为图4的通过步骤S122进行的响应控制,应对显示于触摸面板的检索结果提示画面,指示以赤坂中的规定位置为基准的汽油加油站的收缩范围检索。即,该情况下的智能体功能部130在使目前为止显示出的检索结果提示画面维持的基础上,使对该检索结果提示画面进行了指示收缩范围检索的操作的结果产生。
根据上述的响应控制,导航装置40执行收缩范围检索(步骤S216)。即,导航装置40从通过步骤S210显示出的检索结果提示画面上提示出的汽油加油站中,提取以赤坂的规定位置为基准而与收缩范围检索对应地确定的一定地域范围中包含的汽油加油站。
导航装置40使触摸面板显示提示出通过步骤S216进行的收缩范围检索结果的收缩范围检索结果提示画面(步骤S218)。另外,智能体系统1通过图4的基于步骤S122的响应控制,来使对通过“赤坂周边”的讲话进行的声音操作作出响应的响应声音从扬声器30输出(步骤S220)。
另外,智能体功能部130根据通过步骤S218进行了显示收缩范围检索结果提示画面的动作这一情况,来执行图4的步骤S124的处理,由此更新操作脉络信息(步骤S222)。
例如,以往在识别到的讲话内容的含义不是单独作为服务要求而成立的内容的情况下,例如作为错误而被处理。因此,乘员在使基于汽油加油站的范畴而进行的POI检索执行之后、通过声音操作使赤坂周边的汽油加油站的收缩范围检索执行的情况下,例如需要讲出“检索赤坂周边的汽油加油站”。即,需要讲出单独作为服务要求而成立的内容。在该情况下,作为乘员应该讲话的内容,语句多从而变长。
与此相对,在本实施方式中,即使为单独作为服务要求而不成立的讲话内容,也作为在目前为止的操作脉络下进行了的声音操作而被处理。由此,乘员能够通过短的讲话内容来进行声音操作。
需要说明的是,在上述实施方式中,智能体服务器200执行与声音操作相应的讲话内容的含义识别、响应内容的生成等智能体功能的一部分。然而,在本实施方式中,构成为设置于车辆M的智能体装置100也能够执行智能体服务器200执行的功能,因此可以由车辆M完结图4所示的处理。
以上使用实施方式说明了本发明的具体实施方式,但本发明丝毫不被这样的实施方式限定,在不脱离本发明的主旨的范围内能够施加各种变形及替换。
Claims (6)
1.一种智能体系统,其中,
所述智能体系统具备:
响应显示控制部,其使显示部显示对操作进行了响应的内容的图像;
讲话内容解释部,其解释由利用者进行的讲话的内容;
讲话内容判定部,其判定由所述讲话内容解释部解释出的讲话的内容是否为单独作为服务要求而成立的内容;以及
智能体控制部,其在由所述讲话内容判定部判定为不是单独作为服务要求而成立的内容的情况下,执行用于提供基于操作脉络信息的内容和所述讲话的内容而确定的服务的控制,所述操作脉络信息表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络,
所述单独作为服务要求而成立的内容是指,凭借由所述讲话内容解释部解释出的讲话的内容自身能够确定具体要求怎样的服务的讲话的内容,
另一方面,不是所述单独作为服务要求而成立的内容是指,凭借由所述讲话内容解释部解释出的讲话的内容自身则不能够确定具体要求怎样的服务的讲话的内容。
2.根据权利要求1所述的智能体系统,其中,
在作为所述操作而进行了手动操作的情况下,所述响应显示控制部使对所述手动操作进行了响应的内容的图像显示,在作为所述操作而进行了基于讲话的操作的情况下,所述响应显示控制部使对所述讲话的内容进行了响应的内容的图像显示。
3.根据权利要求1或2所述的智能体系统,其中,
在由所述讲话内容判定部判定为单独作为服务要求而成立的内容的情况下,所述智能体控制部在维持表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络的操作脉络信息的内容的基础上,进行控制以提供判定出的讲话的内容所要求的服务。
4.根据权利要求3所述的智能体系统,其中,
所述智能体控制部在维持所述操作脉络信息的内容的基础上,在进行控制以提供判定出的讲话的内容所要求的服务之后,由所述讲话内容解释部解释出的讲话的内容被所述讲话内容判定部判定为不是单独作为服务要求而成立的内容的情况下,执行用于提供如下服务的控制,该服务基于表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络的操作脉络信息的内容、以及所述讲话的内容来确定。
5.一种智能体系统的控制方法,其中,
所述智能体系统的控制方法使智能体系统中的计算机进行如下处理:
使显示部显示对操作进行了响应的内容的图像;
解释由利用者进行的讲话的内容;
判定解释出的所述讲话的内容是否为单独作为服务要求而成立的内容;以及
在判定为所述讲话的内容不是单独作为服务要求而成立的内容的情况下,执行用于提供基于操作脉络信息的内容和所述讲话的内容而确定的服务的控制,所述操作脉络信息表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络,
所述单独作为服务要求而成立的内容是指,凭借解释出的所述讲话的内容自身能够确定具体要求怎样的服务的讲话的内容,
另一方面,不是所述单独作为服务要求而成立的内容是指,凭借解释出的所述讲话的内容自身则不能够确定具体要求怎样的服务的讲话的内容。
6.一种存储介质,其存储有程序,其中,
所述程序使计算机进行如下处理:
使显示部显示对操作进行了响应的内容的图像;
解释由利用者进行的讲话的内容;
判定解释出的所述讲话的内容是否为单独作为服务要求而成立的内容;以及
在判定为所述讲话的内容不是单独作为服务要求而成立的内容的情况下,执行用于提供基于操作脉络信息的内容和所述讲话的内容而确定的服务的控制,所述操作脉络信息表示与进行了所述讲话时对应而由所述显示部显示了的图像的内容所对应的操作的脉络,
所述单独作为服务要求而成立的内容是指,凭借解释出的所述讲话的内容自身能够确定具体要求怎样的服务的讲话的内容,
另一方面,不是所述单独作为服务要求而成立的内容是指,凭借解释出的所述讲话的内容自身则不能够确定具体要求怎样的服务的讲话的内容。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-228232 | 2019-12-18 | ||
JP2019228232A JP2021096380A (ja) | 2019-12-18 | 2019-12-18 | エージェントシステム、エージェントシステムの制御方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112995270A CN112995270A (zh) | 2021-06-18 |
CN112995270B true CN112995270B (zh) | 2024-03-05 |
Family
ID=76344987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011479683.5A Active CN112995270B (zh) | 2019-12-18 | 2020-12-15 | 智能体系统、智能体系统的控制方法及存储介质 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021096380A (zh) |
CN (1) | CN112995270B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250474A (zh) * | 2016-07-29 | 2016-12-21 | Tcl集团股份有限公司 | 一种语音控制的处理方法及系统 |
CN106792047A (zh) * | 2016-12-20 | 2017-05-31 | Tcl集团股份有限公司 | 一种智能电视的语音控制方法及系统 |
CN109473100A (zh) * | 2018-11-12 | 2019-03-15 | 四川驹马科技有限公司 | 基于语音识别的业务场景语音人机交互方法及其系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626963B2 (en) * | 2013-04-30 | 2017-04-18 | Paypal, Inc. | System and method of improving speech recognition using context |
-
2019
- 2019-12-18 JP JP2019228232A patent/JP2021096380A/ja active Pending
-
2020
- 2020-12-15 CN CN202011479683.5A patent/CN112995270B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250474A (zh) * | 2016-07-29 | 2016-12-21 | Tcl集团股份有限公司 | 一种语音控制的处理方法及系统 |
CN106792047A (zh) * | 2016-12-20 | 2017-05-31 | Tcl集团股份有限公司 | 一种智能电视的语音控制方法及系统 |
CN109473100A (zh) * | 2018-11-12 | 2019-03-15 | 四川驹马科技有限公司 | 基于语音识别的业务场景语音人机交互方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2021096380A (ja) | 2021-06-24 |
CN112995270A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9691390B2 (en) | System and method for performing dual mode speech recognition | |
US11176934B1 (en) | Language switching on a speech interface device | |
CN110503949B (zh) | 对话系统、具有对话系统的车辆和对话处理方法 | |
US20200319841A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
CN111661065B (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
CN111667824A (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
US11709065B2 (en) | Information providing device, information providing method, and storage medium | |
CN111731320B (zh) | 智能体系统、智能体服务器及其控制方法、存储介质 | |
CN111559328B (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
US20200321006A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
CN112995270B (zh) | 智能体系统、智能体系统的控制方法及存储介质 | |
CN111717142A (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
CN111798842B (zh) | 对话系统和对话处理方法 | |
CN111667823B (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
US11250845B2 (en) | Vehicle virtual assistant systems and methods for processing a request for an item from a user | |
JP2021033929A (ja) | 制御システム、及び制御方法 | |
JP2020152298A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
US11355114B2 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
JP2021026188A (ja) | 通信制御システム、通知制御方法、及び通信制御プログラム | |
JP2020160133A (ja) | エージェントシステム、エージェントシステムの制御方法、およびプログラム | |
JP2020142758A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
CN111726772B (zh) | 智能体系统及其控制方法、服务器装置、存储介质 | |
CN111824174B (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
JP2021047507A (ja) | 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム | |
CN112241628A (zh) | 智能体装置、智能体装置的控制方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |