JP2021096380A - Agent system, agent system control method, and program - Google Patents
Agent system, agent system control method, and program Download PDFInfo
- Publication number
- JP2021096380A JP2021096380A JP2019228232A JP2019228232A JP2021096380A JP 2021096380 A JP2021096380 A JP 2021096380A JP 2019228232 A JP2019228232 A JP 2019228232A JP 2019228232 A JP2019228232 A JP 2019228232A JP 2021096380 A JP2021096380 A JP 2021096380A
- Authority
- JP
- Japan
- Prior art keywords
- content
- utterance
- agent
- unit
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 36
- 230000004044 response Effects 0.000 claims abstract description 87
- 230000006870 function Effects 0.000 description 129
- 238000012545 processing Methods 0.000 description 39
- 238000004891 communication Methods 0.000 description 36
- 238000003058 natural language processing Methods 0.000 description 35
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 5
- 230000001052 transient effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
- H04L67/025—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Acoustics & Sound (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
本発明は、エージェントシステム、エージェントシステムの制御方法、及びプログラムに関する。 The present invention relates to an agent system, a control method of the agent system, and a program.
従来、ユーザへの問い掛けに応じて入力された操作音声について音声認識した結果、非言語であると判定された場合には、非言語の入力時の状況に応じて、非言語の入力の有効性を判断し、有効性の判断結果に応じて、作業内容の確認、作業内容の保留、および、作業内容の実行のいずれかを判断するナビゲーション装置が知られている(例えば、特許文献1参照)。 Conventionally, when it is determined that the operation voice is non-verbal as a result of voice recognition of the operation voice input in response to a question to the user, the effectiveness of the non-language input is determined according to the situation at the time of the non-language input. There is known a navigation device that determines whether to confirm the work content, hold the work content, or execute the work content according to the result of determining the effectiveness (see, for example, Patent Document 1). ..
音声操作に関しては、短い発話の内容でありながらも的確な応答が得られるようにすることが好ましい。しかしながら、従来の技術では、音声操作として、一文として成立しない語句等による短い内容を発話したとしても、発話された内容に基づいて的確な応答を得ることが困難であった。 Regarding voice operation, it is preferable to obtain an accurate response even though the content of the short utterance is short. However, in the conventional technique, it is difficult to obtain an accurate response based on the uttered content even if a short content such as a phrase that does not hold as one sentence is uttered as a voice operation.
本発明は、このような事情を考慮してなされたものであり、短い発話の内容による音声操作でありながらも的確な応答が得られるようにすることを目的の一つとする。 The present invention has been made in consideration of such circumstances, and one of the objects of the present invention is to enable an accurate response to be obtained even though it is a voice operation based on the content of a short utterance.
この発明に係るエージェントシステム、エージェントシステムの制御方法、及びプログラムは、以下の構成を採用した。
(1):この発明の一態様に係るエージェントシステムは、操作に応答した内容の画像を表示部に表示させる応答表示制御部と、利用者による発話の内容を解釈する発話内容解釈部と、前記発話内容解釈部により解釈された発話の内容が、単独でサービス要求として成立するものであるか否かを判定する発話内容判定部と、前記発話内容判定部により単独でサービスとして成立するものではないと判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容と前記発話の内容とに基づいて特定されるサービスを提供するための制御を実行するエージェント制御部とを備える。
The agent system, the control method of the agent system, and the program according to the present invention have adopted the following configurations.
(1): The agent system according to one aspect of the present invention includes a response display control unit that displays an image of the content in response to an operation on the display unit, an utterance content interpretation unit that interprets the content of the utterance by the user, and the above. The utterance content determination unit that determines whether or not the utterance content interpreted by the utterance content interpretation unit is independently established as a service request, and the utterance content determination unit are not independently established as a service. When it is determined that, based on the content of the operation context information indicating the operation context according to the content of the image displayed on the display unit corresponding to the utterance and the content of the utterance. It is provided with an agent control unit that executes control for providing the specified service.
(2):上記(1)の態様に係るエージェントシステムにおいて、前記応答表示制御部は、前記操作として手動操作が行われた場合には前記手動操作に応答した内容の画像を表示させ、前記操作として発話による操作が行われた場合には前記発話の内容に応答した内容の画像を表示させる。 (2): In the agent system according to the aspect (1), when a manual operation is performed as the operation, the response display control unit displays an image of the content in response to the manual operation, and the operation. When the operation by the utterance is performed, the image of the content corresponding to the content of the utterance is displayed.
(3):上記(1)または(2)の態様に係るエージェントシステムにおいて、前記エージェント制御部は、前記発話内容判定部により単独でサービス要求として成立するものであると判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容を維持したうえで、判定された発話の内容が要求するサービスが提供されるように制御する。 (3): In the agent system according to the aspect (1) or (2), when the agent control unit is determined by the utterance content determination unit to be independently satisfied as a service request, the utterance is said. A service required by the content of the determined utterance after maintaining the content of the operation context information indicating the operation context according to the content of the image displayed on the display unit in response to the occurrence of. Is controlled to be provided.
(4):上記(3)の態様に係るエージェントシステムにおいて、前記エージェント制御部は、前記操作文脈情報の内容を維持したうえで、判定された発話の内容が要求するサービスが提供されるように制御した後において、前記発話内容解釈部により解釈された発話の内容が、前記発話内容判定部により単独でサービスとして成立するものではないと判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容と前記発話の内容とに基づいて特定されるサービスを提供するための制御を実行する。 (4): In the agent system according to the aspect (3) above, the agent control unit maintains the content of the operation context information and provides the service required by the content of the determined utterance. After the control, if the content of the utterance interpreted by the utterance content interpretation unit is determined by the utterance content determination unit that it cannot be established as a service independently, it corresponds to the time when the utterance is made. The control for providing the service specified based on the content of the operation context information indicating the operation context according to the content of the image displayed on the display unit and the content of the utterance is executed.
(5):この発明の一態様に係るエージェントシステムの制御方法は、エージェントシステムにおけるコンピュータが、操作に応答した内容の画像を表示部に表示させ、利用者による発話の内容を解釈し、解釈された前記発話の内容が、単独でサービス要求として成立するものであるか否かを判定し、前記発話の内容が単独でサービスとして成立するものではないと判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容を維持し、維持された操作文脈情報の内容と当該発話の内容とに基づいて特定されるサービスを提供するための制御を実行する。 (5): In the control method of the agent system according to one aspect of the present invention, the computer in the agent system displays an image of the content in response to the operation on the display unit, interprets the content of the utterance by the user, and is interpreted. It is determined whether or not the content of the utterance is independently established as a service request, and when it is determined that the content of the utterance is not independently established as a service, the utterance is made. The content of the operation context information indicating the operation context according to the content of the image displayed on the display unit is maintained, and the content of the maintained operation context information and the content of the utterance are used. Take control to provide the identified service.
(6):この発明の一態様に係るプログラムは、コンピュータに、操作に応答した内容の画像を表示部に表示させ、利用者による発話の内容を解釈させ、解釈された前記発話の内容が、単独でサービス要求として成立するものであるか否かを判定させ、前記発話の内容が単独でサービスとして成立するものではないと判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容を維持し、維持された操作文脈情報の内容と当該発話の内容とに基づいて特定されるサービスを提供するための制御を実行させるものである。 (6): The program according to one aspect of the present invention causes a computer to display an image of the content in response to the operation on the display unit, interprets the content of the utterance by the user, and the interpreted content of the utterance is If it is determined whether or not the utterance is independently established as a service request, and if it is determined that the content of the utterance is not independently established as a service, the display corresponds to the time when the utterance is made. Maintains the content of operation context information that indicates the context of the operation according to the content of the image displayed in the department, and provides a service that is specified based on the content of the maintained operation context information and the content of the utterance. It is intended to execute the control for doing so.
(1)、(5)、(6)によれば、表示部に表示される画像に対する音声操作としての発話の内容が、例えば文中の一部分に相当するようなものであることにより単独でサービス要求として成立するものでない場合には、現時点までの操作の文脈のもとで、今回の発話の内容による音声操作が行われたものとして扱うことができる。これにより、音声操作における発話の内容が短いものであっても的確な応答が得られるようにすることができる。 According to (1), (5), and (6), a service request is made independently because the content of the utterance as a voice operation for the image displayed on the display unit corresponds to, for example, a part of the sentence. If it does not hold, it can be treated as if the voice operation was performed according to the content of the current utterance in the context of the operation up to the present time. As a result, it is possible to obtain an accurate response even if the content of the utterance in the voice operation is short.
(2)によれば、表示部に表示される画像に対する操作としては手動操作と音声操作とのいずれであってもよい。この場合、発話の内容が単独でサービス要求として成立するものでない場合に用いられる操作文脈情報は、手動操作による履歴と音声操作の履歴とが含まれてよい。これにより、乗員は、以前の操作が手動操作と音声操作とのいずれであっても端的で短い発話の内容による音声操作を行うことが可能になる。 According to (2), the operation for the image displayed on the display unit may be either a manual operation or a voice operation. In this case, the operation context information used when the content of the utterance is not independently established as a service request may include a history of manual operation and a history of voice operation. As a result, the occupant can perform a voice operation with a simple and short utterance content regardless of whether the previous operation is a manual operation or a voice operation.
(3)、(4)によれば、今回の発話の内容が単独でサービス要求として成立するものである場合には、これまでの操作文脈情報がクリアされることなく維持される。そのうえで、今回の発話の内容に応じて、操作文脈情報が対応するサービスとは異なる他のサービスの提供が行われるようにされる。他のサービスの提供が完了した後には、操作文脈情報が維持されていることから、乗員が今回の発話が行われる前の状態から操作を再開させることができる。 According to (3) and (4), when the content of the current utterance is independently established as a service request, the operation context information so far is maintained without being cleared. Then, depending on the content of the utterance this time, other services different from the service to which the operation context information corresponds are provided. After the provision of other services is completed, the operation context information is maintained, so that the occupant can resume the operation from the state before the current utterance was made.
以下、図面を参照し、本発明のエージェントシステム、エージェント装置の制御方法、及びプログラムの実施形態について説明する。
<実施形態>
[エージェント機能について]
エージェント装置は、本実施形態の通知制御システムを含むエージェントシステム1の一部または全部を実現する装置である。以下では、エージェント装置の一例として、乗員(利用者の一例)が搭乗する車両(以下、車両M)に搭載され、エージェント機能を備えたエージェント装置について説明する。なお、本発明の適用上、必ずしもエージェント装置がエージェント機能を有している必要はない。また、エージェント装置は、スマートフォン等の可搬型端末装置(汎用端末)であってもよいが、以下では、車両に搭載されたエージェント機能を備えたエージェント装置を前提として説明する。エージェント機能とは、例えば、車両Mの乗員と対話をしながら、乗員の発話の中に含まれる要求(コマンド)に基づく各種の情報提供や各種機器制御を行ったり、ネットワークサービスを仲介したりする機能である。エージェント装置が複数のエージェント機能を有する場合、エージェント機能は、それぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント機能の中には、車両内の機器(例えば運転制御や車体制御に関わる機器)の制御等を行う機能を有するものがあってよい。
Hereinafter, the agent system of the present invention, the control method of the agent device, and the embodiment of the program will be described with reference to the drawings.
<Embodiment>
[About agent function]
The agent device is a device that realizes a part or all of the agent system 1 including the notification control system of the present embodiment. Hereinafter, as an example of the agent device, an agent device mounted on a vehicle (hereinafter, vehicle M) on which a occupant (an example of a user) is boarded and having an agent function will be described. For the application of the present invention, the agent device does not necessarily have to have an agent function. Further, the agent device may be a portable terminal device (general-purpose terminal) such as a smartphone, but the following description will be made on the premise of an agent device having an agent function mounted on a vehicle. The agent function is, for example, providing various information based on a request (command) included in the utterance of the occupant, controlling various devices, and mediating a network service while interacting with the occupant of the vehicle M. It is a function. When the agent device has a plurality of agent functions, the agent functions may have different functions, processing procedures, controls, and output modes / contents. In addition, some of the agent functions may have a function of controlling devices in the vehicle (for example, devices related to driving control and vehicle body control).
エージェント機能は、例えば、乗員の音声を認識する音声認識機能(音声をテキスト化する機能)に加え、自然言語処理機能(テキストの構造や意味を理解する機能)、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、AI(Artificial Intelligence)技術によって実現されてよい。また、これらの機能を行うための構成の一部(特に、音声認識機能や自然言語処理解釈機能)は、車両Mの車載通信装置または車両Mに持ち込まれた汎用通信装置と通信可能なエージェントサーバ(外部装置)に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバとが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体(サービス・エンティティ)をエージェントと称する。 Agent functions include, for example, a voice recognition function that recognizes the voice of an occupant (a function that converts voice into text), a natural language processing function (a function that understands the structure and meaning of text), a dialogue management function, and a network. It is realized by using a network search function that searches for another device or a predetermined database owned by the own device in an integrated manner. Some or all of these functions may be realized by AI (Artificial Intelligence) technology. In addition, a part of the configuration for performing these functions (particularly, the voice recognition function and the natural language processing interpretation function) is an agent server capable of communicating with the in-vehicle communication device of the vehicle M or the general-purpose communication device brought into the vehicle M. It may be mounted on (external device). In the following description, it is assumed that a part of the configuration is mounted on the agent server, and the agent device and the agent server cooperate to realize the agent system. Further, a service provider (service entity) in which an agent device and an agent server cooperate to appear virtually is called an agent.
[エージェントシステム]
図1は、エージェント装置100を含むエージェントシステム1の構成例を示す図である。エージェントシステム1は、例えば、エージェント装置100と、一以上のエージェントサーバ200と、を備える。本実施形態におけるエージェントシステム1を提供する提供者は、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者や製造者等が挙げられ、任意の主体(法人、団体、個人等)がエージェントシステム1の提供者となり得る。なお、図1では、エージェントサーバ200が一つである場合について説明したが、これに限られず、エージェントシステム1は、二以上のエージェントサーバ200を備えるものであってもよい。この場合、各エージェントサーバ200は、互いに異なる任意の主体によって提供されてもよい。
[Agent system]
FIG. 1 is a diagram showing a configuration example of an agent system 1 including an
エージェント装置100は、ネットワークNWを介してエージェントサーバ200と通信する。ネットワークNWは、例えば、インターネット、セルラー網、Wi−Fi網、WAN(Wide Area Network)、LAN(Local Area Network)、公衆回線、電話回線、無線基地局等の通信網のうち一部または全部を含む。ネットワークNWには、各種ウェブサーバ300が接続されており、エージェントサーバ200またはエージェント装置100は、ネットワークNWを介して各種ウェブサーバ300からウェブページを取得することができる。
The
エージェント装置100は、車両Mの乗員と対話を行い、乗員からの音声をエージェントサーバ200に送信し、エージェントサーバ200から得られた回答を、音声出力や画像表示の形で乗員に提示する。
The
[車両]
図2は、実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。車両Mには、例えば、一以上のマイク10と、表示・操作装置20と、スピーカ30と、ナビゲーション装置40と、車載通信装置50と、エージェント装置100とが搭載される。これらの装置は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図2に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
[vehicle]
FIG. 2 is a diagram showing the configuration of the
マイク10は、車室内で発せられた音を収集する収音部である。表示・操作装置20は、画像を表示するとともに、入力操作を受付可能な装置(或いは装置群)である。表示・操作装置20は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置20は、更に、HUD(Head Up Display)や機械式の入力装置を含んでもよい。スピーカ30は、例えば、車室内に配設されたスピーカ(音出力部)を含む。表示・操作装置20は、エージェント装置100とナビゲーション装置40とで共用されてもよい。スピーカ30は、「音声出力部」の一例である。
The
ナビゲーション装置40は、ナビHMI(Human Machine Interface)と、GPS(Global Positioning System)等の位置測位装置と、地図情報を記憶した記憶装置と、経路探索等を行う制御装置(ナビゲーションコントローラ)とを備える。マイク10、表示・操作装置20、及びスピーカ30のうち一部または全部がナビHMIとして用いられてもよい。ナビゲーション装置40は、位置測位装置によって特定された車両Mの位置から、乗員によって入力された目的地まで移動するための経路(ナビ経路)を探索し、経路に沿って車両Mが走行できるように、ナビHMIを用いて案内情報を出力する。経路探索機能は、ネットワークNWを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置40は、ナビゲーションサーバから経路を取得して案内情報を出力する。
The
なお、エージェント装置100は、ナビゲーションコントローラを基盤として構築されてもよい。この場合、ナビゲーションコントローラとエージェント装置100は、ハードウェア上は一体に構成される。表示・操作装置20のディスプレイ装置と、ナビゲーション装置40のナビHMIとは、「表示部」の一例である。
The
車載通信装置50は、例えば、セルラー網やWi−Fi網を利用してネットワークNWにアクセス可能な無線通信装置である。
The in-
[エージェント装置]
エージェント装置100は、管理部110と、エージェント機能部130と、車載通信部140と、記憶部150とを備える。管理部110は、例えば、音響処理部112と、エージェントWU(Wake Up)判定部114と、通信制御部116と、出力制御部120と備える。図2に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部130と車載通信装置50の間に管理部110が介在してもよいように、任意に改変することができる。また、以下では、エージェント機能部130とエージェントサーバ200が協働して出現させるエージェントを、単に「エージェント」と称する場合がある。
[Agent device]
The
エージェント装置100の各構成要素は、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。記憶部150は、HDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)により実現されてもよく、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)により実現されてもよく、ドライブ装置に装着される記憶媒体であってもよい。また、記憶部150の一部又は全部は、NASや外部のストレージサーバ等、エージェント装置100がアクセス可能な外部装置であってもよい。記憶部150には、例えば、エージェント装置100において実行されるプログラム等の情報が記憶される。
Each component of the
管理部110は、OS(Operating System)やミドルウェア等のプログラムが実行されることで機能する。
The
管理部110の音響処理部112は、マイク10から収集される音を受け付け、受け付けた音に対して、エージェントごとに予め設定されているウエイクアップワードを認識したり、その他の発話内容を認識するのに適した状態になるようにしたりする音響処理を行う。ウエイクアップワードとは、例えば、対象のエージェントを起動させるためのワード(単語)やフレーズ等である。ウエイクアップワードは、単体のエージェントを起動させるものでもよく、複数のエージェントを起動させるものでもよい。音響処理とは、例えば、バンドパスフィルタ等のフィルタリングによるノイズ除去や音の増幅等である。また、音響処理部112は、音響処理された音声を、エージェントWU判定部114や起動中のエージェント機能部130に出力する。
The
エージェントWU判定部114は、エージェントに予め定められているウエイクアップワードを認識する。エージェントWU判定部114は、音響処理が行われた音声(音声ストリーム)から発話された音声を認識する。まず、エージェントWU判定部114は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。エージェントWU判定部114は、混合ガウス分布モデル(GMM;Gaussian mixture model) に基づくフレーム単位の音声識別及び非音声識別に基づく区間検出を行ってもよい。
The agent
次に、エージェントWU判定部114は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、エージェントWU判定部114は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合、エージェントWU判定部114は、ウエイクアップワードに対応するエージェント機能部130を起動させる。なお、エージェントWU判定部114に相当する機能が、エージェントサーバ200に搭載されてもよい。この場合、管理部110は、音響処理部112によって音響処理が行われた音声ストリームをエージェントサーバ200に送信し、エージェントサーバ200がウエイクアップワードであると判定した場合、エージェントサーバ200からの指示に従ってエージェント機能部130が起動する。また、各エージェント機能部130は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部110がエージェントWU判定部114を備える必要はない。
Next, the agent
また、エージェントWU判定部114は、上述した手順と同様の手順で、発話された音声に含まれる終了ワードを認識した場合であり、且つ、終了ワードに対応するエージェントが起動している状態(以下、必要に応じて「起動中」と称する)である場合、起動中のエージェント機能部を終了(停止)させる。なお、エージェントの起動及び終了は、例えば、表示・操作装置20から所定の操作を受け付けることによって実行されてもよいが、以下では、音声による起動及び停止の例を説明する。また、起動中のエージェントは、音声の入力を所定時間以上受け付けなかった場合に停止させてもよい。
Further, the agent
通信制御部116は、エージェント機能部130を、ネットワークNWに接続可能にするための制御を行う。例えば、通信制御部116は、エージェント機能部130がネットワークを介して外部装置(例えば、エージェントサーバ200)と通信を行う場合の接続状態等を制御する。また、通信制御部116は、通信が途切れた場合の再接続や、接続状態の切り替え等の制御を行う。
The
出力制御部120は、通信制御部116またはエージェント機能部130等からの指示に応じて表示部またはスピーカ30に応答内容等の情報を出力させることで、乗員にサービス等の提供を行う。出力制御部120は、例えば、表示制御部122と、音声制御部124とを備える。
The
表示制御部122は、エージェント機能部130がエージェントサーバ200から取得した情報に基づいて、エージェントが車両Mの乗員の発話に応答する応答内容を、車両Mの乗員に通知するために用いられる画像を表示・操作装置20のディスプレイ装置に表示させる。
The
音声制御部124は、エージェント機能部130がエージェントサーバ200から取得した情報に基づいて、エージェントが車両Mの乗員の発話に応答する応答内容を、車両Mの乗員に通知するために用いられる音声をスピーカ30に出力させる。
The
エージェント機能部130は、エージェントサーバ200と協働して、車両の乗員の発話に応じて、音声、及び画像による応答を含むサービスを提供する。エージェント機能部130には、例えば、車両M、又は車両Mに搭載される車載機器を制御する権限が付与されており、後述する処理によりエージェントサーバ200によって認識された車両Mの発話内容が、車両Mに搭載される車載機器の動作を指示するコマンドである場合、エージェント機能部130は、コマンドに基づいてそれらの車載機器を制御する。車載機器には、ナビゲーション装置40が含まれる。エージェント機能部130は、通信制御部116の制御に基づいて、車載通信部140によって車載通信装置50を介してエージェントサーバ200と通信する。
The
なお、エージェント機能部130には、法律や条例、エージェントを提供する事業者同士の契約等に応じて、車載機器を制御する権限が割り振られるものであってもよい。
The
車載通信部140は、例えば、エージェント機能部130がネットワークNWに接続する場合に、車載通信装置50を介して通信させる。車載通信部140は、エージェント機能部130からの情報を、車載通信装置50を介してエージェントサーバ200やその他の外部装置に出力する。また、車載通信部140は、車載通信装置50を介して入力された情報をエージェント機能部130に出力する。
The vehicle-mounted
エージェント機能部130は、エージェントWU判定部114による起動指示に基づいて起動し、乗員の発話に対して、エージェントサーバ200を介して乗員の発話の音声に含まれる要求に対する応答内容を生成し、生成した応答内容を出力制御部120に出力する。また、エージェント機能部130は、エージェントサーバ200と通信を行う場合には、通信制御部116により制御された接続状態によって通信を行う。また、エージェント機能部130は、エージェントWU判定部114による制御に基づいて、エージェントを停止させてもよい。
The
[エージェントサーバ]
図3は、実施形態に係るエージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。以下、エージェントサーバ200の構成とともに、エージェント機能部130等の動作について説明する。ここでは、エージェント装置100からネットワークNWまでの物理的な通信についての説明を省略する。
[Agent server]
FIG. 3 is a diagram showing a configuration of the
エージェントサーバ200は、通信部210を備える。通信部210は、例えば、NIC(Network Interface Card)等のネットワークインターフェースである。更に、エージェントサーバ200は、例えば、音声認識部220と、自然言語処理部221と、対話管理部222と、ネットワーク検索部223と、応答内容生成部224との機能部を備える。これらの構成要素は、例えば、CPU等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPU等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリ等の記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。音声認識部220と、自然言語処理部221とを組み合わせたものは、「発話内容解釈部」の一例である。
The
また、エージェントサーバ200は、記憶部250を備える。記憶部250は、上記の記憶部150を実現する各種記憶装置と同様の装置により実現される。記憶部250には、例えば、辞書DB252、パーソナルプロファイル254、知識ベースDB256、応答規則DB258等のデータやプログラムが格納される。
Further, the
エージェント装置100において、エージェント機能部130は、例えば、音響処理部111等から入力される音声ストリーム、或いは圧縮や符号化等の処理を行った音声ストリームを、エージェントサーバ200に送信する。エージェント機能部130は、ローカル処理(エージェントサーバ200を介さない処理)が可能なコマンド(要求内容)が認識できた場合には、コマンドで要求された処理を実行してもよい。ローカル処理が可能なコマンドとは、例えば、エージェント装置100が備える記憶部150を参照することで応答可能なコマンドである。より具体的には、ローカル処理が可能なコマンドとは、例えば、記憶部150内に存在する電話帳データ(不図示)から特定者の名前を検索し、合致した名前に対応付けられた電話番号に電話をかける(相手を呼び出す)コマンドである。したがって、エージェント機能部130は、エージェントサーバ200が備える機能の一部を有してもよい。
In the
音声ストリームを取得すると、音声認識部220が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部221が文字情報に対して辞書DB252を参照しながら意味解釈を行う。辞書DB252は、例えば、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書DB252は、例えば、機能辞書252Aと、汎用辞書252Bとを含む。
When the voice stream is acquired, the
機能辞書252Aは、エージェントサーバ200がエージェント機能部130と協働して実現するエージェントが提供する機能(サービス)をカバーするための辞書である。例えば、エージェントが車載エアコンを制御する機能を提供する場合、機能辞書252Aには、「エアコン」、「空調」、「つける」、「消す」、「温度」、「上げる」、「下げる」、「内気」、「外気」等の単語が、動詞、目的語等の単語種別、及び抽象化された意味と対応付けられて登録されている。また、機能辞書252Aには、同時に使用可能であることを示す単語間リンク情報が含まれてよい。
The
汎用辞書252Bは、エージェントの提供する機能に限らず、一般的な物事の事象を抽象化された意味と対応付けた辞書である。機能辞書252Aと汎用辞書252Bのそれぞれは、同義語や類義語の一覧情報を含んでもよい。機能辞書252Aと汎用辞書252Bとは、複数の言語のそれぞれに対応して用意されてよく、その場合、音声認識部220及び自然言語処理部221は、予め設定されている言語設定に応じた機能辞書252A及び汎用辞書252B、並びに文法情報(不図示)を使用する。音声認識部220の処理と、自然言語処理部221の処理は、段階が明確に分かれるものではなく、自然言語処理部221の処理結果を受けて音声認識部220が認識結果を修正する等、相互に影響し合って行われてよい。
The general-
自然言語処理部221は、音声認識部220による認識結果に基づく意味解析の一つとして、音声に含まれるサービスの要求に対応するために必要な機能に関する情報(以下、機能必要情報)を取得する。例えば、認識結果として、車両Mの車載機器の制御を指示する「窓を開けて」、「空調の温度を上げて」等のテキストが認識された場合、自然言語処理部221は、辞書DB252等を参照し、「車両機器制御」という対象機器・機能種別を取得する。そして、自然言語処理部221は、取得した機能必要情報をエージェント機能部130に出力する。自然言語処理部221は、機能必要情報に基づきサービス要求に対する実行可否の判定結果を取得する。自然言語処理部221は、要求された機能が実行可能である場合に、サービスの要求に対応できるものとして、解釈された発話内容に対応したコマンドを生成する。
The natural
対話管理部222は、自然言語処理部221により生成されたコマンドに基づいて、パーソナルプロファイル254や知識ベースDB256、応答規則DB258を参照しながら車両Mの乗員に対する応答内容(例えば、乗員への発話内容や出力部から出力する画像、音声)を決定する。知識ベースDB256は、物事の関係性を規定した情報である。応答規則DB258は、コマンドに対してエージェントが行うべき動作(回答や機器制御の内容等)を規定した情報である。
The
また、対話管理部222は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル254と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル254には、例えば、音声の特徴情報が更に応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム(音の高低のパターン)等の喋り方の特徴や、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients)等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。
Further, the
対話管理部222は、コマンドがネットワークNWを介して検索可能な情報を要求するものである場合、ネットワーク検索部223に検索を行わせる。ネットワーク検索部223は、ネットワークNWを介して所定のウェブサーバ300等の外部機器にアクセスし、所望の情報を取得する。
The
応答内容生成部224は、対話管理部222により決定された発話の内容が車両Mの乗員に理解されるように、応答文を生成し、生成した応答文をエージェント装置100に送信する。また、応答内容生成部224は、カメラが車室内を撮像した画像に基づいて車両Mの乗員を認識した認識結果をエージェント装置100から取得し、取得した認識結果によりコマンドを含む発話を行った乗員がパーソナルプロファイル254に登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にしたりした応答文を生成してもよい。
The response
エージェント機能部130は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部124に指示する。また、エージェント機能部130は、応答文を含む画像等を表示するように表示制御部122に指示する。
When the
上記構成を有する本実施形態の エージェントシステム1において、乗員は、表示・操作装置20として備えられるタッチパネル(表示部の一例)に対する操作として、手動操作と音声操作とを併用することができる。
手動操作は、物理的に設けられた入力デバイスや操作子を乗員が指等の操作体を用いて行う操作である。一例として、タッチパネルに対する手動操作は、タッチパネルの表示面(操作面)に対して指等の操作体を触れさせて行う操作である。
音声操作は、本実施形態のエージェントシステム1が備えるエージェント機能を利用して、乗員が発話を行ったことに応じて、各種サービスとしての車両Mの機器のコントロール等を実行させる操作である。
乗員は、タッチパネルに対して手動操作として可能な操作を、音声操作によっても行うことができる。つまり、本実施形態におけるエージェントシステムにおいて、乗員は、タッチパネルに対応して行う操作を、手動操作と音声操作とのいずれによっても行うことが可能とされている。
また、以降の説明における「サービス」は、音声操作だけではなく、手動操作も併用して行われる操作に応答して提供される機能をいう。
In the agent system 1 of the present embodiment having the above configuration, the occupant can use both manual operation and voice operation as operations on the touch panel (an example of the display unit) provided as the display /
The manual operation is an operation in which the occupant uses an operating body such as a finger to perform a physically provided input device or operator. As an example, the manual operation on the touch panel is an operation performed by touching the display surface (operation surface) of the touch panel with an operation body such as a finger.
The voice operation is an operation in which the agent function provided in the agent system 1 of the present embodiment is used to control the equipment of the vehicle M as various services in response to the occupant speaking.
The occupant can also perform operations that can be performed manually on the touch panel by voice operation. That is, in the agent system of the present embodiment, the occupant can perform the operation corresponding to the touch panel by both the manual operation and the voice operation.
Further, the "service" in the following description refers to a function provided in response to an operation performed not only by voice operation but also by manual operation.
図4のフローチャートを参照して、本実施形態のエージェントシステム1が、乗員により行われるタッチパネルへの操作(手動操作、音声操作)に関連して実行する処理手順例について説明する。同図の処理は、エージェントが既に起動されている状態のもとで行われる。また、同図の説明において、タッチパネルに対して行われた手動操作に対する応答に関する制御については、管理部110が実行するようにされた場合を例に挙げる。
An example of a processing procedure executed by the agent system 1 of the present embodiment in connection with an operation (manual operation, voice operation) on the touch panel performed by the occupant will be described with reference to the flowchart of FIG. The processing shown in the figure is performed while the agent has already been started. Further, in the description of the figure, the case where the
まず、エージェント装置100において、管理部110は、タッチパネルが手動操作を受け付けたか否かについて判定する(ステップS100)。
タッチパネルが手動操作を受け付けた場合、管理部110は、タッチパネルに対して行われた手動操作に応答して車両Mにおける機器の動作が得られるように制御(応答制御)を実行する(ステップS102)。この際、管理部110(応答表示制御部の一例)は、タッチパネルにおいて表示される画像について、今回行われた手動操作に応答したものとなるように表示制御を実行してよい。
First, in the
When the touch panel accepts a manual operation, the
また、タッチパネルが手動操作を受け付けた場合、エージェント機能部130が、対話状態継続フラグについての制御(対話状態継続フラグ制御)を実行する(ステップS104)。
なお、タッチパネルが手動操作を受け付けた際に、エージェント機能部130が起動されていない状態の場合には、エージェントWU判定部114がエージェント機能部130を起動させて、ステップS104の処理を実行させるようにしてよい。
対話状態継続フラグは、セットの有無に応じて、エージェントシステム1が対話状態を継続しているか否かを示すフラグである。エージェントシステム1は、対話状態継続フラグがオンとされて対話状態を継続しているときには、音声操作を受け付けて、発話の内容に応答した制御を実行する。一方、エージェントシステム1は、対話状態継続フラグがオフとされて対話状態を停止しているときには、音声操作を受け付けない。対話状態継続フラグは、最後に行われた操作(手動操作または音声操作)から一定時間を経過した状態である場合にオンからオフとなる。
エージェント機能部130は、当該ステップS104の対話状態継続フラグ制御として、対話状態継続フラグがオフの状態であった場合には、対話状態継続フラグをオンにする。つまり、本実施形態におけるエージェント機能部130は、手動操作が行われた場合にも、対話状態継続フラグをオンとして、以降の音声操作を受け津可能な状態とする。
また、対話状態継続フラグがオンの状態であり、かつ、今回のタッチパネルに対する操作によって1のサービスの提供が完了した場合には、以降においてエージェント機能部130が当該1のサービスに応じた操作を受け付ける必要が無い。この場合、エージェント機能部130は、対話状態継続フラグ制御として、対話状態継続フラグをオフとする。
また、対話状態継続フラグがオンの状態であり、かつ、今回のタッチパネルに対する操作によっては、未だ1のサービスの提供が完了していない場合には、当該1のサービスについての以降の操作を受け付けることができる。そこで、この場合のエージェント機能部130は、対話状態継続フラグ制御として、対話状態継続フラグがオンの状態を維持する。
When the touch panel accepts a manual operation, the
If the
The dialogue state continuation flag is a flag indicating whether or not the agent system 1 continues the dialogue state depending on the presence or absence of the set. When the dialogue state continuation flag is turned on and the dialogue state is continued, the agent system 1 accepts a voice operation and executes control in response to the content of the utterance. On the other hand, the agent system 1 does not accept the voice operation when the dialogue state continuation flag is turned off and the dialogue state is stopped. The dialogue state continuation flag is turned on and off when a certain period of time has passed since the last operation (manual operation or voice operation).
As the dialogue state continuation flag control in step S104, the
Further, when the dialogue state continuation flag is on and the provision of one service is completed by the operation on the touch panel this time, the
In addition, if the dialogue state continuation flag is on and the provision of the service of 1 has not been completed depending on the operation on the touch panel this time, the subsequent operations of the service of the 1 are accepted. Can be done. Therefore, the
ステップS106の処理の後、或いはステップS104にて対話状態継続フラグがオンであると判定された場合、エージェント機能部130は、操作文脈情報に関する制御(操作文脈情報制御)を実行する(ステップS108)。
操作文脈情報は、サービス単位で行われる一連の操作手順のもとでの操作の履歴を示す情報である。例えば、乗員が現在位置の近くのガソリンスタンドの情報を得るためにPOI(point of interest)検索を行う場合であれば、操作手順としては、1つには、POI検索の実行指示、検索対象のカテゴリ選択、選択されたカテゴリに対する絞り込み検索指示、絞り込み検索結果から情報提示対象となる1のガソリンスタンドの選択、といった流れとなる。操作文脈情報は、このような操作手順における操作ごとの内容が示される。例えば、上記のようなガソリンスタンドを検索する場合であれば、[POI検索の実行指示]、[検索対象のカテゴリとして「ガソリンスタンド」を選択]、「絞り込み条件「赤坂周辺」で絞り込み検索」、「絞り込み検索結果から「A店」を選択」といった操作ごとの内容が操作文脈情報により示される。また、操作文脈情報に反映される各操作は、手動操作と音声操作とのいずれが含まれてもよい。
また、今回のステップS100にて受け付けられたタッチパネルに対する手動操作が、或る1のサービスに対応する最初の操作(例えば、POI検索であれば、POI検索開始を指示する操作)である場合、エージェント機能部130は、当該ステップS108の操作文脈情報制御として以下の処理を実行してよい。つまり、エージェント機能部130は、今回のステップS100に応じて受け付けられたタッチパネルの手動操作の内容を履歴として含む操作文脈情報を新規に生成し、生成した操作文脈情報を保持する。操作文脈情報の保持にあたり、エージェント機能部130は、操作文脈情報を記憶部150に記憶させてよい。
また、エージェント機能部130は、今回のタッチパネルに対する手動操作が、1のサービスにおける2回目以降の操作である場合には、既に保持されている操作文脈情報について、今回のタッチパネルに対する手動操作の内容の履歴が追加されるように更新する。
また、エージェント機能部130は、今回のタッチパネルに対する手動操作により1のサービスの提供が完了した場合には、操作文脈情報をクリアする。
After the processing of step S106, or when it is determined in step S104 that the dialogue state continuation flag is on, the
The operation context information is information indicating the history of operations under a series of operation procedures performed for each service. For example, when a occupant performs a POI (point of interest) search in order to obtain information on a gas station near the current position, one of the operation procedures is an instruction to execute a POI search and a search target. The flow is such as category selection, narrowing search instruction for the selected category, and selection of one gas station to be presented with information from the narrowed search result. The operation context information indicates the content of each operation in such an operation procedure. For example, when searching for a gas station like the one above, [POI search execution instruction], [Select "gas station" as the search target category], "Refine search by narrowing down condition" Akasaka area "", The contents of each operation such as "select" A store "from the refined search results" are indicated by the operation context information. Further, each operation reflected in the operation context information may include either a manual operation or a voice operation.
Further, when the manual operation on the touch panel received in step S100 this time is the first operation corresponding to a certain service (for example, in the case of POI search, the operation instructing the start of POI search), the agent The
Further, when the manual operation on the touch panel this time is the second and subsequent operations in one service, the
Further, the
タッチパネルに対する手動操作が行われなかった場合、例えばエージェント機能部139は、マイク10等にて収集された音声が音響処理部112にて受け付けられたか否かについて判定する(ステップS108)。
音声が受け付けられた場合、エージェント機能部130は、音響処理部112が受け付けて音響処理を施した音声をエージェントサーバ200に送信する。エージェントサーバ200において音声認識部220は、受信された音声を対象として音声認識処理を実行することで、受信された音声をテキストに変換する(ステップS110)。
次に、自然言語処理部221(発話内容解釈部の一例)は、テキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味解釈を行う(ステップS112)。ステップS112の意味解釈によって、乗員の発話内容の意味がどういったものであるのかが認識される。
When the manual operation on the touch panel is not performed, for example, the agent function unit 139 determines whether or not the voice collected by the
When the voice is received, the
Next, the natural language processing unit 221 (an example of the utterance content interpretation unit) executes natural language processing on the textualized character information and interprets the meaning of the character information (step S112). By interpreting the meaning of step S112, it is recognized what the meaning of the utterance content of the occupant is.
次に、自然言語処理部221は、現在において対話状態継続フラグがオンであるか否かについて判定する(ステップS114)。この際、自然言語処理部221は、エージェント装置100との通信を介して、エージェント機能部130に対話状態継続フラグの状態を問合せるようにされてよい。
Next, the natural
対話状態継続フラグがオンである場合、現在においては、1のサービスの提供のもとで次に行われる操作を待機している状態にある。このような状態では、対話状態継続フラグはオンの状態が維持され、操作文脈情報はクリアされることなくエージェント機能部130により保持されている。
この場合、自然言語処理部221(発話内容判定部の一例)は、ステップS112により意味が認識された発話内容が、単独でサービス要求として成立するものであるか否かについて判定する(ステップS116)。
単独でサービス要求として成立する発話内容は、例えば「赤坂周辺のガソリンスタンドを検索して」であるとか「エアコンの温度を20度にして」といったように、一文の意味として要求するサービスが何であるのかが特定されるような発話内容となる。この発話内容は、それ自体で、POI検索により赤坂周辺のガソリンスタンドを検索することを要求する意味であると把握されることから、単独でサービス要求として成立する発話内容である。
一方、単独でサービス要求として成立しない発話内容は、例えば「赤坂周辺」といったように、一文から一部が抜き出された語句となる。このような発話内容は、それ自体では、どのようなサービスを具体的に要求するものであるのかが特定できない。このような発話内容を特定するには、例えばこれまでの操作文脈がどのようなものであったのかといったことの補完が必要となる。
当該ステップS116の判定は、以下のように行われてよい。例えば、自然言語処理部221は、辞書DB252を参照して機能必要情報を取得するにあたり、認識された発話内容自体により機能必要情報の取得が可能であったか否かに基づいて判定してよい。つまり、自然言語処理部221は、機能必要情報の取得が可能だったのであれば、認識された発話内容は、単独でサービス要求として成立するものであると判定する。これに対して、自然言語処理部221は、機能必要情報の取得ができなかったのであれば、認識された発話内容は、単独でサービス要求として成立するものでないと判定する。
When the dialogue state continuation flag is on, it is currently in a state of waiting for the next operation under the provision of one service. In such a state, the dialogue state continuation flag is maintained in the ON state, and the operation context information is held by the
In this case, the natural language processing unit 221 (an example of the utterance content determination unit) determines whether or not the utterance content whose meaning is recognized in step S112 is independently satisfied as a service request (step S116). ..
The content of the utterance that is independently established as a service request is, for example, "Search for a gas station around Akasaka" or "Set the temperature of the air conditioner to 20 degrees". The content of the utterance will be such that it will be specified. Since this utterance content is understood to mean that a POI search is required to search for gas stations around Akasaka, the utterance content is independently established as a service request.
On the other hand, the utterance content that cannot be satisfied as a service request by itself is a phrase that is partially extracted from one sentence, for example, "around Akasaka". The content of such an utterance cannot identify what kind of service is specifically requested by itself. In order to specify the content of such an utterance, it is necessary to supplement, for example, what the operation context has been so far.
The determination in step S116 may be performed as follows. For example, when the natural
認識された発話内容が、単独でサービス要求として成立するものではない場合、自然言語処理部221は、エージェント機能部130により保持されていた操作文脈情報についてクリアすることなく、保持された状態が維持されるようにする。そのうえで、自然言語処理部221(エージェント制御部の一例)は、保持が維持された操作文脈情報を参照する(ステップS118)。
次に、自然言語処理部221は、ステップS118により参照した操作文脈情報が示す操作内容の履歴により、今回のステップS112により認識された発話内容の意味を補完する(ステップS120)。具体的に、自然言語処理部221は、今回のステップS112により意味が認識された発話内容を、これまでに1のサービスに応じてタッチパネルに対して行われた操作(手動操作、音声操作)に続く音声操作としての発話内容として扱う。
ステップS120の補完にあたり、自然言語処理部221は、例えば辞書DB252を利用して、今回認識された発話内容の意味が、これまでのタッチパネルに対する操作文脈における次の操作となるものであるか否かについて判定する。次の操作内容としてつながるものであると判定した場合、自然言語処理部221は、今回認識された発話内容の意味についての補完を行う。一方、次の操作内容としてつながるものではないと判定した場合、同図における処理についての図示は省略するが、自然言語処理部221は、今回の発話内容に対する応答が不可であるとして、エラーに応じた処理を実行してよい。
When the recognized utterance content is not independently established as a service request, the natural
Next, the natural
In complementing step S120, the natural
エージェント装置100のエージェント機能部130は、今回のステップS108により受け付けた音声の発話内容に対して応答するための制御(応答制御)を実行する(ステップS122)。この際、エージェント機能部130(応答表示制御部の一例)は、自然言語処理部221が、ステップS112により認識した意味と、ステップS120にて補完した結果とに基づいて生成したコマンドを受信する、エージェント機能部130は、受信したコマンドに応じて車両Mの機器の制御を実行する。この際、エージェント機能部130は、ステップS120により生成されたコマンドに応じて、タッチパネルにおける画像の表示が今回の音声操作に応答した内容のものとなるように表示制御を実行する。
また、エージェント機能部130は、ステップS120により生成されたコマンドに応じた音声等の応答内容(対話内容)をエージェントサーバ200の応答内容生成部224から受信し、受信した応答内容を出力する。
The
Further, the
また、エージェント機能部130は、操作文脈情報制御を実行する(ステップS124)。当該ステップS124での操作文脈情報制御は、既に保持されている操作文脈情報について、今回認識された発話内容により行われた音声操作の操作内容の履歴を追加するように更新するものとなる。
ステップS124の処理が終了されるとステップS100に処理が戻される。
Further, the
When the process of step S124 is completed, the process is returned to step S100.
単独でサービス要求として成立するものであると認定された場合、エージェント機能部130は、今回のステップS108により受け付けた音声の発話内容に対する応答制御として、割り込みに処理による応答制御を実行する(ステップS126)。この場合は割り込み処理であるため、エージェント機能部130は、これまでにおけるタッチパネル操作に応じた操作文脈情報をクリアすることなく保持されている状態を維持するようにされる。これにより、ステップS126の処理の後において、乗員は、今回の割り込み処理に応じた音声操作の前と同じ画像が表示されたタッチパネルに対して、引き続き、以降の操作(手動操作でも音声操作でもよい)を再開することが可能になる。また、ステップS126の処理後における、タッチパネルに対する操作の再開にあたっては、ステップS116〜S122の処理が実行可能とされている。つまり、エージェント機能部130は、音声操作による発話内容が単独でサービス要求として成立しないものであった場合には、以前のタッチパネルに対する操作文脈を引き継いで適正に応答制御を実行することができる。
When it is determined that the service request is independently satisfied, the
また、対話状態継続フラグがオフであった場合、今回のステップS108による音声の受け付けに応じた音声操作は、新たな1のサービスに応じた操作が音声操作によって開始されたことになる。そこで、エージェント機能部130は、今回の音声操作に対する応答制御を実行する(ステップS128)。エージェント機能部130は、当該ステップS128の応答制御にあたり、今回のステップS112により認識された意味に基づいて自然言語処理部221が生成したコマンドに応じた制御を実行する。この際、コマンドがタッチパネルに対する所定の操作に対応するものである場合、エージェント機能部130は、タッチパネルにて今回の音声操作に応答した内容の画像が表示されるように制御する。
Further, when the dialogue state continuation flag is off, the voice operation corresponding to the reception of the voice in step S108 this time means that the operation corresponding to the new service 1 is started by the voice operation. Therefore, the
次に、エージェント機能部130は、今回のステップS128による応答制御がタッチパネルに対する操作に対して応答するものであったか否かを判定する(ステップS130)。タッチパネル操作に対して応答するものであった場合、エージェント機能部130は、対話状態継続フラグ制御として、対話状態継続フラグをオンとする(ステップS132)。
また、エージェント機能部130は、操作文脈情報制御として、今回のステップS128による応答制御に応じて自然言語処理部221により認識された操作内容が履歴として示される操作文脈情報を生成する(ステップS134)。エージェント機能部130は、生成された操作文脈情報を保持する。ステップS134の処理の後、或いはステップS128による応答制御がタッチパネルに対する操作に対して応答するものではないと判定された場合、ステップS100に処理が戻される。
Next, the
Further, as the operation context information control, the
音声が受け付けられないことが判定された場合、音声操作とタッチパネルに対する手動操作とのいずれも行われなかったことになる。この場合、エージェント機能部130は、最後の操作から一定時間が経過したか否かについて判定する(ステップS136)。ここでの最後の操作は、手動操作と音声操作とのいずれかとなる。
最後の操作から一定時間が経過していない場合、ステップS100に処理が戻される。
If it is determined that the voice cannot be accepted, it means that neither the voice operation nor the manual operation on the touch panel has been performed. In this case, the
If a certain time has not passed since the last operation, the process is returned to step S100.
最後の操作から一定時間が経過すると、エージェント機能部130は、対話状態継続フラグ制御として、対話状態継続フラグがオンの状態であった場合には、対話状態継続フラグをオフとする(ステップS138)。また、エージェント機能部130は、最後の操作から一定時間が経過したことに応じて、現在において操作文脈情報保持されていた場合には、当該操作文脈情報をクリアする(ステップS140)。ステップS138、S140の処理によって、或るサービスに対応する画像を表示しているタッチパネルに対して操作が行われることなく一定時間が経過した場合には、タイムアウトとなって、タッチパネルは、例えばサービスの開始に応じた操作を待機する状態となる。
When a certain time has elapsed from the last operation, the
[本実施形態におけるタッチパネル操作についての具体例]
図5のシーケンス図を参照して、タッチパネルに対する乗員の操作手順に応答したエージェントシステム1の動作の一具体例について説明する。以下の説明においては、乗員が、ナビゲーション装置40にPOI検索を実行させてガソリンスタンドを検索する場合を例に挙げる。同図では、操作手順と、操作手順に応答したエージェントシステム1の動作手順とが示される。
まず、乗員は、タッチパネルに対する手動操作によってPOI検索の開始を指示する(ステップS200)。
エージェント装置100において管理部110は、ステップS200により行われた手動操作に応答して、名ナビゲーション装置40にPOI検索を開始させる。ナビゲーション装置40は、POI検索の開始にあたり、カテゴリ選択画面としての画像をタッチパネルに表示する(ステップS202)。当該ステップS202の動作は以下のようにして実現される。つまり、タッチパネルがPOI検索の開始を指示する手動操作を受け付けたことに応じて、管理部110は、図4のステップS102の処理を実行することで、ナビゲーション装置40のPOI検索機能を起動させる。POI検索機能が起動されたナビゲーション装置40は、タッチパネルにカテゴリ選択画面を表示する。
[Specific example of touch panel operation in this embodiment]
A specific example of the operation of the agent system 1 in response to the operation procedure of the occupant with respect to the touch panel will be described with reference to the sequence diagram of FIG. In the following description, an example will be given in which the occupant causes the
First, the occupant instructs the start of the POI search by manually operating the touch panel (step S200).
In the
エージェント機能部130は、ステップS202によりカテゴリ選択画面を表示する動作が行われたことに応じて、操作文脈情報を生成する(ステップS204)。当該ステップS204の動作は、図4におけるステップS106の処理によるものである。
The
ステップS202により表示されたカテゴリ選択画面は、POI検索において検索可能なカテゴリの候補のうちから、検索対象とするカテゴリを選択する操作が行われる画面である。この場合の乗員が検索対象とするカテゴリはガソリンスタンドである。そこで、乗員は、タッチパネルに表示されたカテゴリ選択画面に対する手動操作によって、検索対象のカテゴリとしてガソリンスタンドを選択する操作を行った(ステップS206)。
ステップS206により行われた手動操作に応答して、管理部110は、図4のステップS102の処理を実行することで、ナビゲーション装置40にガソリンスタンドの検索の実行を指示する。当該指示に応じて、ナビゲーション装置40は、例えば現在地点を基準とする一定範囲内のガソリンスタンドのPOI検索を実行する(ステップS208)。ナビゲーション装置40は、ガソリンスタンドについて検索した結果を示す検索結果提示画面をタッチパネルに表示する(ステップS210)。
The category selection screen displayed in step S202 is a screen on which an operation of selecting a category to be searched from among the searchable category candidates in the POI search is performed. The category searched by the occupants in this case is a gas station. Therefore, the occupant manually selected the gas station as the category to be searched by manually operating the category selection screen displayed on the touch panel (step S206).
In response to the manual operation performed in step S206, the
エージェント機能部130は、ステップS210により検索結果提示画面を表示する動作が行われたことに応じて図4のステップS106の処理を実行することで、操作文脈情報を更新する(ステップS212)。
The
同図においては、ステップS212による操作文脈情報の更新後の操作文脈情報D1の内容例が示されている。操作文脈情報D1は、POI検索機能としてのサービスに応じた操作が、これまでに、POI検索の起動を指示する操作、カテゴリとしてガソリンスタンドを選択する操作の順で行われたことを示す。 In the figure, an example of the contents of the operation context information D1 after the operation context information is updated in step S212 is shown. The operation context information D1 indicates that the operation according to the service as the POI search function has been performed in the order of the operation of instructing the activation of the POI search and the operation of selecting the gas station as the category.
ガソリンスタンドについて検索した結果を示す検索結果提示画面が表示された状態のもとで、乗員は、検索結果提示画面により提示されたガソリンスタンドのうちから、赤坂周辺のガソリンスタンドに絞り込み検索を行いたいと考えた。ここで、乗員は、これまでの手動操作ではなく、音声操作によって赤坂周辺のガソリンスタンドの絞り込み検索を行わせることとした。そこで、乗員は音声操作として「赤坂周辺」と発話した(ステップS214)。
「赤坂周辺」の発話内容は、図4のステップS108〜S116の処理によって、単独でサービス要求として成立しないものであると判定される。この場合、続けてステップS118〜S122の処理が実行される。
つまり、「赤坂周辺」との発話内容は、POI検索のサービスのもとで、エージェント機能部130が保持する操作文脈情報D1により示される操作手順に続く次の音声操作として扱われる。この結果、エージェント機能部130は、図4のステップS122による応答制御として、タッチパネルにて表示されている検索結果提示画面に対応させて、赤坂における所定位置を基準とするガソリンスタンドの絞り込み検索を指示する。つまり、この場合のエージェント機能部130は、これまで表示されていた検索結果提示画面を維持させたうえで、当該検索結果提示画面に対して絞り込み検索を指示する操作が行われた結果を生じさせる。
上記の応答制御に応じて、ナビゲーション装置40は、絞り込み検索を実行する(ステップS216)。つまり、ナビゲーション装置40は、ステップS210により表示させた検索結果提示画面において提示されたガソリンスタンドのうちから、赤坂の所定位置を基準として、絞り込み検索に対応して定められた一定地域範囲に含まれるガソリンスタンドを抽出する。
ナビゲーション装置40は、ステップS216による絞り込み検索結果を提示した絞り込み検索結果提示画面タッチパネルに表示させる(ステップS218)。また、エージェントシステム1は、図4のステップS122による応答制御により、「赤坂周辺」の発話による音声操作に対する応答音声をスピーカ30から出力させる(ステップS220)。
また、エージェント機能部130は、ステップS218により絞り込み検索結果提示画面を表示する動作が行われたことに応じて図4のステップS124の処理を実行することで、操作文脈情報を更新する(ステップS222)。
With the search result presentation screen showing the search results for gas stations displayed, the occupant wants to narrow down the search to the gas stations around Akasaka from the gas stations presented on the search result presentation screen. I thought. Here, the occupants decided to narrow down the search for gas stations around Akasaka by voice operation instead of the conventional manual operation. Therefore, the occupant spoke "around Akasaka" as a voice operation (step S214).
It is determined that the utterance content of "around Akasaka" is not independently satisfied as a service request by the processing of steps S108 to S116 of FIG. In this case, the processes of steps S118 to S122 are subsequently executed.
That is, the content of the utterance of "around Akasaka" is treated as the next voice operation following the operation procedure indicated by the operation context information D1 held by the
In response to the above response control, the
The
Further, the
例えば、従来においては、認識された発話内容の意味が、単独でサービス要求として成立するものでない場合には、例えばエラーとして処理されていた。このため、乗員が、ガソリンスタンドのカテゴリによるPOI検索を実行させた後、音声操作によって赤坂周辺のガソリンスタンドの絞り込み検索を実行させる場合には、例えば「赤坂周辺のガソリンスタンドを検索」といったように発話する必要がある。つまり、単独でサービス要求として成立する内容を発話する必要がある。この場合、乗員が発話すべき内容としては、語句が多いことから長くなってしまう。
これに対して、本実施形態においては、単独でサービス要求として成立しない発話内容であっても、これまでの操作文脈のもとで行われた音声操作として扱われる。これにより、乗員は、短い発話内容で音声操作を行うことが可能になる。
For example, in the past, when the meaning of the recognized utterance content was not independently established as a service request, it was treated as an error, for example. For this reason, when the occupant executes a POI search by gas station category and then executes a narrowing search for gas stations around Akasaka by voice operation, for example, "Search for gas stations around Akasaka". I need to speak. In other words, it is necessary to utter the content that is satisfied as a service request independently. In this case, the content that the occupant should speak is long because there are many words and phrases.
On the other hand, in the present embodiment, even if the utterance content is not satisfied as a service request by itself, it is treated as a voice operation performed under the operation context so far. As a result, the occupant can perform voice operations with a short utterance content.
なお、上記実施形態においては、音声操作に応じた発話内容の意味認識、応答内容の生成等のエージェント機能の一部をエージェントサーバ200が実行するようにされている。しかしながら、本実施形態においては、エージェントサーバ200が実行する機能も車両Mに設けられるエージェント装置100が実行可能なように構成することで、図4に示した処理が車両Mにて完結するようにされてよい。
In the above embodiment, the
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1…エージェントシステム、10…マイク、20…表示・操作装置、30…スピーカ、40…ナビゲーション装置、50…車載通信装置、100…エージェント装置、110…管理部、112…音響処理部、114…エージェントWU判定部、116…通信制御部、120…出力制御部、122…表示制御部、124…音声制御部、130…エージェント機能部、140…車載通信部、150…記憶部、200…エージェントサーバ、210…通信部、220…音声認識部、221…自然言語処理部、222…対話管理部、224…ネットワーク検索部、224…応答内容生成部、250…記憶部、300…ウェブサーバ 1 ... Agent system, 10 ... Microphone, 20 ... Display / operation device, 30 ... Speaker, 40 ... Navigation device, 50 ... In-vehicle communication device, 100 ... Agent device, 110 ... Management unit, 112 ... Sound processing unit, 114 ... Agent WU determination unit, 116 ... communication control unit, 120 ... output control unit, 122 ... display control unit, 124 ... voice control unit, 130 ... agent function unit, 140 ... in-vehicle communication unit, 150 ... storage unit, 200 ... agent server, 210 ... Communication unit, 220 ... Voice recognition unit, 221 ... Natural language processing unit, 222 ... Dialogue management unit, 224 ... Network search unit, 224 ... Response content generation unit, 250 ... Storage unit, 300 ... Web server
Claims (6)
利用者による発話の内容を解釈する発話内容解釈部と、
前記発話内容解釈部により解釈された発話の内容が、単独でサービス要求として成立するものであるか否かを判定する発話内容判定部と、
前記発話内容判定部により単独でサービスとして成立するものではないと判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容と前記発話の内容とに基づいて特定されるサービスを提供するための制御を実行するエージェント制御部と
を備えるエージェントシステム。 A response display control unit that displays an image of the content in response to the operation on the display unit,
The utterance content interpretation department that interprets the content of the utterance by the user,
An utterance content determination unit that determines whether or not the utterance content interpreted by the utterance content interpretation unit is independently satisfied as a service request.
When the utterance content determination unit determines that the service cannot be established independently, the context of the operation according to the content of the image displayed on the display unit in response to the utterance. An agent system including an agent control unit that executes control for providing a service specified based on the content of the operation context information indicating the above and the content of the utterance.
前記操作として手動操作が行われた場合には前記手動操作に応答した内容の画像を表示させ、前記操作として発話による操作が行われた場合には前記発話の内容に応答した内容の画像を表示させる
請求項1に記載のエージェントシステム。 The response display control unit
When a manual operation is performed as the operation, an image of the content corresponding to the manual operation is displayed, and when an operation by utterance is performed as the operation, an image of the content corresponding to the content of the utterance is displayed. The agent system according to claim 1.
前記発話内容判定部により単独でサービス要求として成立するものであると判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容を維持したうえで、判定された発話の内容が要求するサービスが提供されるように制御する
請求項1または2に記載のエージェントシステム。 The agent control unit
When the utterance content determination unit determines that the service request is independently established, the operation according to the content of the image displayed on the display unit corresponding to the utterance is performed. The agent system according to claim 1 or 2, wherein the operation indicating the context maintains the content of the context information and controls the content of the determined utterance to provide the required service.
前記操作文脈情報の内容を維持したうえで、判定された発話の内容が要求するサービスが提供されるように制御した後において、前記発話内容解釈部により解釈された発話の内容が、前記発話内容判定部により単独でサービスとして成立するものではないと判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容と前記発話の内容とに基づいて特定されるサービスを提供するための制御を実行する
請求項3に記載のエージェントシステム。 The agent control unit
After maintaining the content of the operation context information and controlling so that the service required by the determined utterance content is provided, the utterance content interpreted by the utterance content interpretation unit is the utterance content. When the determination unit determines that the service cannot be established independently, an operation indicating the context of the operation according to the content of the image displayed on the display unit in response to the utterance. The agent system according to claim 3, which executes control for providing a service specified based on the content of context information and the content of the utterance.
操作に応答した内容の画像を表示部に表示させ、
利用者による発話の内容を解釈し、
解釈された前記発話の内容が、単独でサービス要求として成立するものであるか否かを判定し、
前記発話の内容が単独でサービスとして成立するものではないと判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容と当該発話の内容とに基づいて特定されるサービスを提供するための制御を実行する
エージェントシステムの制御方法。 The computer in the agent system
Display the image of the content in response to the operation on the display,
Interpret the content of the utterance by the user and
It is determined whether or not the interpreted content of the utterance is independently satisfied as a service request.
When it is determined that the content of the utterance is not independently established as a service, the context of the operation according to the content of the image displayed on the display unit corresponding to the time when the utterance is made is set. A control method of an agent system that executes control to provide a service specified based on the content of the operation context information shown and the content of the utterance.
操作に応答した内容の画像を表示部に表示させ、
利用者による発話の内容を解釈させ、
解釈された前記発話の内容が、単独でサービス要求として成立するものであるか否かを判定させ、
前記発話の内容が単独でサービスとして成立するものではないと判定された場合、前記発話が行われたときに対応して前記表示部にて表示されていた画像の内容に応じた操作の文脈を示す操作文脈情報の内容と当該発話の内容とに基づいて特定されるサービスを提供するための制御を実行させる
プログラム。 On the computer
Display the image of the content in response to the operation on the display,
Have the user interpret the content of the utterance
It is made to judge whether or not the interpreted content of the utterance is independently satisfied as a service request.
When it is determined that the content of the utterance is not independently established as a service, the context of the operation according to the content of the image displayed on the display unit corresponding to the time when the utterance is made is set. A program that executes control to provide a service specified based on the content of the operation context information shown and the content of the utterance.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019228232A JP2021096380A (en) | 2019-12-18 | 2019-12-18 | Agent system, agent system control method, and program |
CN202011479683.5A CN112995270B (en) | 2019-12-18 | 2020-12-15 | Intelligent agent system, control method for intelligent agent system, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019228232A JP2021096380A (en) | 2019-12-18 | 2019-12-18 | Agent system, agent system control method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021096380A true JP2021096380A (en) | 2021-06-24 |
Family
ID=76344987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019228232A Pending JP2021096380A (en) | 2019-12-18 | 2019-12-18 | Agent system, agent system control method, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021096380A (en) |
CN (1) | CN112995270B (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626963B2 (en) * | 2013-04-30 | 2017-04-18 | Paypal, Inc. | System and method of improving speech recognition using context |
CN106250474B (en) * | 2016-07-29 | 2020-06-23 | Tcl科技集团股份有限公司 | Voice control processing method and system |
CN106792047B (en) * | 2016-12-20 | 2020-05-05 | Tcl科技集团股份有限公司 | Voice control method and system of smart television |
CN109473100A (en) * | 2018-11-12 | 2019-03-15 | 四川驹马科技有限公司 | Business scenario voice man-machine interaction method and its system based on speech recognition |
-
2019
- 2019-12-18 JP JP2019228232A patent/JP2021096380A/en active Pending
-
2020
- 2020-12-15 CN CN202011479683.5A patent/CN112995270B/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN112995270B (en) | 2024-03-05 |
CN112995270A (en) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020144663A (en) | Agent device, control method of agent device, and program | |
US20200319841A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
US11508370B2 (en) | On-board agent system, on-board agent system control method, and storage medium | |
US20200320997A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
JP7274903B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
US11709065B2 (en) | Information providing device, information providing method, and storage medium | |
US11518398B2 (en) | Agent system, agent server, method of controlling agent server, and storage medium | |
US20200321006A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
JP7239359B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
JP7266418B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
JP2020144264A (en) | Agent device, control method of agent device, and program | |
JP2021096380A (en) | Agent system, agent system control method, and program | |
CN111798842B (en) | Dialogue system and dialogue processing method | |
US11542744B2 (en) | Agent device, agent device control method, and storage medium | |
JP7175221B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
JP2021033929A (en) | Control system and control method | |
JP2021026188A (en) | Communication control system, notification control method, and communication control program | |
JP2020142758A (en) | Agent device, method of controlling agent device, and program | |
JP2020152298A (en) | Agent device, control method of agent device, and program | |
JP2020160133A (en) | Agent system, agent system control method, and program | |
JP7274376B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
US11355114B2 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
JP7217209B2 (en) | VOICE DIALOGUE DEVICE, VOICE DIALOGUE METHOD, AND PROGRAM | |
JP7297483B2 (en) | AGENT SYSTEM, SERVER DEVICE, CONTROL METHOD OF AGENT SYSTEM, AND PROGRAM | |
JP2021047507A (en) | Notification system, notification control device, notification control method, and notification control program |