JP6280342B2 - Function execution instruction system and function execution instruction method - Google Patents

Function execution instruction system and function execution instruction method Download PDF

Info

Publication number
JP6280342B2
JP6280342B2 JP2013218950A JP2013218950A JP6280342B2 JP 6280342 B2 JP6280342 B2 JP 6280342B2 JP 2013218950 A JP2013218950 A JP 2013218950A JP 2013218950 A JP2013218950 A JP 2013218950A JP 6280342 B2 JP6280342 B2 JP 6280342B2
Authority
JP
Japan
Prior art keywords
context
task
sentence
function
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013218950A
Other languages
Japanese (ja)
Other versions
JP2015081971A (en
Inventor
拓 藤本
拓 藤本
可奈子 大西
可奈子 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013218950A priority Critical patent/JP6280342B2/en
Publication of JP2015081971A publication Critical patent/JP2015081971A/en
Application granted granted Critical
Publication of JP6280342B2 publication Critical patent/JP6280342B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、機能の実行を指示することができる機能実行指示システム及び機能実行指示方法に関する。   The present invention relates to a function execution instruction system and a function execution instruction method that can instruct execution of a function.

近年、特に携帯端末において、音声認識されたユーザの音声発話文に応じて、様々な操作や検索を行うことを可能とする音声エージェントのアプリケーションが増えている。例えば、ユーザの音声により、音楽や動画といったコンテンツの検索、メールや電話といった機能の操作が可能なシステムがある(例えば、非特許文献1参照)。このようなシステムを実現するために、エージェントは各種検索サーバ、各種端末機能とそれぞれ接続される。そして、ユーザの発話からユーザが実行したい機能(タスク)を判定し、その結果に応じてサーバや携帯端末においてタスクを実行させる。   In recent years, especially in mobile terminals, there are an increasing number of voice agent applications that can perform various operations and searches in accordance with voice utterances of voice-recognized users. For example, there is a system capable of searching for contents such as music and moving images and operating functions such as e-mail and telephone by user's voice (for example, see Non-Patent Document 1). In order to realize such a system, the agent is connected to various search servers and various terminal functions. And the function (task) which a user wants to perform from a user's utterance is determined, and a task is performed in a server or a portable terminal according to the result.

例えば、非特許文献1で示したシステムでは、以下のように実行されるタスクが判定される。ユーザの発話が「ニュースが知りたい」というものである場合、ニュース検索のタスクが実行されるものと判定される。ユーザの発話が「XXさんに電話」というものである場合、電話機能のタスクが実行されるものと判定される。ユーザの発話が「こんにちは」というものである場合、雑談のタスクが実行されるものと判定される。   For example, in the system shown in Non-Patent Document 1, a task to be executed is determined as follows. When the user's utterance is “I want to know the news”, it is determined that a news search task is executed. When the user's utterance is “Call Mr. XX”, it is determined that the task of the telephone function is executed. If the utterance of the user is that "Hello", it is determined that chat tasks are performed.

上記の通り、非特許文献1で示したシステムでは、通常の検索タスクや操作タスク以外に雑談にも対応している。雑談とは、ユーザの発話が通常の検索タスクや操作タスクを実行するものでなかった場合に、ユーザの発話(雑談発話)に応じた音声やテキストの出力による応答を行って、ユーザがシステムと会話(雑談)する機能である。   As described above, the system shown in Non-Patent Document 1 supports chatting in addition to normal search tasks and operation tasks. Chatting means that when a user's utterance does not execute a normal search task or operation task, the user responds with a voice or text output corresponding to the user's utterance (chat utterance), and the user This is a function for conversation (chat).

吉村健,「しゃべってコンシェルと言語処理」,情報処理学会研究報告. SLP,音声言語情報処理 2012-SLP-93(4),1-6,2012-10-19Ken Yoshimura, “Talking Concierge and Language Processing”, Information Processing Society of Japan Research Report. SLP, Spoken Language Information Processing 2012-SLP-93 (4), 1-6, 2012-10-19

このような仕組みを実現する対話システムの一例を図9に示す。対話システムは、対話エージェント、雑談応答システム及びコンテンツ検索システムを含んで構成される。対話エージェントは、ユーザから発話を受け取り、応答を返すシステムである。対話エージェントは、ユーザの発話に基づいて実行するタスクが何れであるかを判定し、判定したタスクに応じた応答を別のシステムから取得してユーザに対して出力する。実行するタスクは、雑談、検索及び操作タスク等の何れかである。   An example of a dialog system that realizes such a mechanism is shown in FIG. The dialogue system includes a dialogue agent, a chat response system, and a content search system. The dialogue agent is a system that receives an utterance from a user and returns a response. The dialogue agent determines which task is executed based on the user's utterance, acquires a response corresponding to the determined task from another system, and outputs the response to the user. The task to be executed is any one of chat, search and operation tasks.

対話エージェントは、判定したタスクが雑談タスクである場合には、雑談応答システムにユーザの発話を出力する。雑談応答システムは、発話を入力し、当該発話(雑談)に対する応答文を生成して、当該応答文を発話に対する応答として対話エージェントに出力する。対話エージェントは、判定したタスクが検索タスクである場合には、発話に応じた検索をコンテンツ検索システムに対して要求する。コンテンツ検索システムは、要求された検索を行い、検索結果を発話に対する応答として対話エージェントに出力する。対話エージェントは、判定したタスクが操作タスクである場合には、端末(ユーザ端末)上で動作する、発話に応じた機能を起動、操作する。   When the determined task is a chat task, the dialogue agent outputs the user's utterance to the chat response system. The chat response system inputs an utterance, generates a response sentence for the utterance (chat), and outputs the response sentence to the dialog agent as a response to the utterance. When the determined task is a search task, the dialogue agent requests the content search system to search according to the utterance. The content search system performs the requested search, and outputs the search result to the dialog agent as a response to the utterance. When the determined task is an operation task, the conversation agent activates and operates a function corresponding to the utterance that operates on the terminal (user terminal).

このようなシステムの拡張として、複数回にわたる音声対話による検索や操作(タスク)の実現も考えられる。対話例を以下に示す。
ユーザ「お腹が減った」
エージェント「何を食べますか」
ユーザ「ラーメン」
エージェント「付近に3件のラーメン店があります。最寄に案内しますか」
ユーザ「はい」
As an extension of such a system, it is also conceivable to realize searches and operations (tasks) by multiple voice conversations. An example of dialogue is shown below.
User “I am hungry”
Agent "What do you eat?"
User "Ramen"
Agent “There are 3 ramen shops nearby.
User "Yes"

これらは何れも一つのタスク(例えば、グルメ検索タスク)内での対話であるが、対話が進むにつれて状態が変化していく。例えば、最初のユーザの発話は、タスクを起動する状態での発話(タスクを起動するための発話)、二番目のユーザの発話は、料理ジャンルを検索する状態での発話(料理ジャンルを特定するための発話)、そして三番目のユーザの発話は確認入力の状態での発話である。   These are all dialogues within one task (for example, a gourmet search task), but the state changes as the dialogue progresses. For example, the first user's utterance is the utterance in the state where the task is activated (utterance for activating the task), and the second user's utterance is the utterance in the state where the cooking genre is searched (the cooking genre is specified). And the third user's utterance is an utterance in the confirmation input state.

高度な雑談応答システムは、ユーザの発話に対して単に応答(雑談応答)するだけでなく、それまでのユーザとのやり取りに応じたコンテキストを生成し、生成したコンテキストに応じた応答を行う。コンテキストを考慮した雑談対話の例を以下に示す。
ユーザ「ラーメンが好きです」
エージェント「私も好きですよ」
ユーザ「何が一番好き」
エージェント「やっぱり塩ですね」
An advanced chat response system not only simply responds to a user's utterance (chat response), but also generates a context corresponding to the interaction with the user so far, and responds according to the generated context. An example of a chat conversation that takes context into consideration is shown below.
User “I like ramen”
Agent “I like it too”
User “what you like best”
Agent "It's salt after all"

上記の例では、最初のユーザの発話によって、エージェントはコンテキストとして「ラーメン」を設定する。二番目のユーザの発話では「好き」というものの対象が示されていないが、設定されたコンテキストを考慮することで「ラーメン」の種類を答えることができる。   In the above example, the agent sets “ramen” as the context by the first user's utterance. In the second user's utterance, the object of “like” is not shown, but the type of “ramen” can be answered by considering the set context.

ここで、図9に示したような対話システムを考える。上述した対話システムでは、実行されるタスクは互いに独立している。従って、対話エージェントは、実行されるタスクが雑談タスクである場合に限り、雑談応答システムに発話を渡す。雑談応答システムは、発話を渡されると当該発話に基づいてコンテキストを作成し、雑談応答文を返信する。ここで、以下のような対話を考える。
ユーザ「ラーメンが食べたい」(タスク:グルメ検索)
エージェント「付近に3件のラーメン店があります。最寄に案内しますか」
ユーザ「はい」
ユーザ「何が一番好き」(タスク:雑談)
エージェント「ご主人さまのお役に立つことです」
Here, a dialogue system as shown in FIG. 9 is considered. In the dialog system described above, the tasks executed are independent of each other. Therefore, the dialogue agent passes the utterance to the chat response system only when the task to be executed is a chat task. When the chat response system is given an utterance, it creates a context based on the utterance and returns a chat response sentence. Here, consider the following dialogue.
User "I want to eat ramen" (task: gourmet search)
Agent “There are 3 ramen shops nearby.
User "Yes"
User “what you like best” (task: chat)
Agent "This is useful for my husband"

上記の例では、ユーザはラーメンについて何が一番好きか答えて欲しかったものと考えられるが、エージェントはラーメンとは全く関係のない答えを返している。これは、最初の「ラーメンが食べたい」とのユーザの発話がグルメ検索のタスクを実行させるためのものであり、雑談応答システムに発話が送られず、「ラーメン」のコンテキストが生成されなかったことが原因である。このように、実行されるタスクが雑談タスクである場合のみ、発話を雑談応答システムに入力するとユーザとエージェントとの会話が不自然なものとなる。   In the above example, the user may want to answer what they like best about ramen, but the agent returns an answer that has nothing to do with ramen. This is because the user's first utterance of “I want to eat ramen” is for the gourmet search task to be executed, the utterance was not sent to the chat response system, and the context of “ramen” was not generated Is the cause. As described above, only when the task to be executed is a chat task, when the utterance is input to the chat response system, the conversation between the user and the agent becomes unnatural.

この問題を解決するために、全ての発話を雑談応答システムに入力し、コンテキストを更新していく方法が考えられる。しかし、そうした場合、下記のようなユーザにとって大きな意味のない発話に対しても、コンテキストの生成が行われてしまう可能性がある。
ユーザ「横浜周辺の観光スポットを検索して」(タスク:観光地検索、コンテキスト:横浜)
エージェント「地図上に検索結果を表示しました」
ユーザ「少し地図を大きくして」(タスク:地図拡大、コンテキスト:地図)
エージェント「地図を拡大します」
ユーザ「お勧めは」(タスク:雑談)
エージェント「地図機能はお勧めですね」
In order to solve this problem, a method of inputting all utterances to the chat response system and updating the context can be considered. However, in such a case, there is a possibility that the context will be generated even for the following utterances that are not meaningful to the user.
User "Search for sightseeing spots around Yokohama" (task: sightseeing spot search, context: Yokohama)
Agent “Search results displayed on the map”
User “Enlarge the map a little” (Task: Enlarge Map, Context: Map)
Agent "Enlarge Map"
User “Recommended” (task: chat)
Agent "I recommend the map function"

上記の例では、ユーザが地図の操作を行っているため、ユーザの「お勧めは」との発話に対して、エージェントは「地図」に関連した応答をしている。しかし、ユーザの「お勧めは」との発話に対しては、それ以前のユーザの発話の「横浜」に関連した応答を返信するのが自然である。このように、ユーザの発話毎にコンテキストを更新したとしても、ユーザとエージェントとの会話が不自然なものとなってしまう。   In the above example, since the user operates the map, the agent makes a response related to the “map” in response to the user's utterance “recommended”. However, it is natural that a response related to “Yokohama” of the user's previous utterance is returned to the user's “recommended” utterance. Thus, even if the context is updated for each user utterance, the conversation between the user and the agent becomes unnatural.

本発明は、上記の問題点に鑑みてなされたものであり、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる機能実行指示システム及び機能実行指示方法を提供することを目的とする。   The present invention has been made in view of the above problems, and even when a function that considers a context is executed based on a series of sentences, a function execution instruction that can appropriately execute the function It is an object to provide a system and a function execution instruction method.

上記の目的を達成するために、本発明に係る機能実行指示システムは、文章を入力する文章入力手段と、文章入力手段によって入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示手段と、文章入力手段によって入力された文章に基づいて、複数の機能から機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、実行機能決定手段によって決定された機能、又は当該機能の実行状態に基づいて、コンテキストの更新を行うか否かを判定するコンテキスト更新判定手段と、コンテキスト更新判定手段による判定に応じて、文章入力手段によって入力された文章に基づいてコンテキストを更新させるコンテキスト更新手段と、を備える。   In order to achieve the above object, a function execution instruction system according to the present invention includes a plurality of functions including a sentence input unit for inputting a sentence, and a function executed based on the sentence and the context input by the sentence input unit. A function execution instructing unit for instructing execution of the function, an execution function determining unit for determining a function to be instructed to be executed by the function execution instructing unit from a plurality of functions based on the text input by the text input unit, Based on the function determined by the means or the execution state of the function, the context update determination means for determining whether or not to update the context, and input by the sentence input means according to the determination by the context update determination means Context updating means for updating the context based on the received text.

本発明に係る機能実行指示システムでは、文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行が指示される。当該コンテキストは、文章に基づいて実行が指示される機能として決定された機能、又は当該機能の実行状態に基づいて更新されるか否かが判断される。これにより、本発明に係る機能実行指示システムでは、コンテキストを更新すべき機能を実行する文章が入力された場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本発明に係る機能実行指示システムによれば、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる。   In the function execution instruction system according to the present invention, execution of a plurality of functions including functions executed based on text and context is instructed. It is determined whether or not the context is updated based on the function determined to be executed based on the text or the execution state of the function. Thus, in the function execution instruction system according to the present invention, the context can be updated when a sentence for executing the function whose context is to be updated is input, and the context is updated in other cases. It can be maintained without. Therefore, according to the function execution instruction system according to the present invention, the function can be appropriately executed even when the function considering the context is executed based on the series of sentences.

機能実行指示手段は、文章入力手段によって入力された文章及びコンテキストを入力として実行される機能として、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する機能の実行を指示することとしてもよい。この構成によれば、例えば、雑談応答の機能の実行を、一連の文章に基づいてコンテキストを考慮して適切に行うことができる。   The function execution instructing unit may be configured to instruct execution of a function that generates and outputs a response sentence based on the context with respect to the sentence as a function that is executed by inputting the sentence and context input by the sentence input unit. Good. According to this configuration, for example, the chat response function can be appropriately executed in consideration of the context based on a series of sentences.

機能実行指示システムは、機能実行指示手段から文章及びコンテキストを入力して、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する応答文生成手段を更に備えることとしてもよい。この構成によれば、例えば、本発明による雑談応答の機能を確実に実施することができる。   The function execution instruction system may further include response sentence generation means for inputting a sentence and context from the function execution instruction means, and generating and outputting a response sentence based on the context for the sentence. According to this configuration, for example, the chat response function according to the present invention can be reliably implemented.

文章入力手段は、ユーザ毎に文章を入力し、コンテキスト更新手段は、ユーザ毎にコンテキストを更新させる、こととしてもよい。この構成によれば、ユーザ毎に機能の実行を適切に行うことができる。   The text input unit may input text for each user, and the context update unit may update the context for each user. According to this configuration, the function can be appropriately executed for each user.

コンテキスト更新手段は、文章入力手段によって入力された文章に応じて、コンテキストをリセットすることとしてもよい。この構成によれば、適切かつ確実にコンテキストのリセットを行うことができ、機能の実行を更に適切に行うことができる。   The context update unit may reset the context according to the text input by the text input unit. According to this configuration, the context can be reset appropriately and reliably, and the function can be executed more appropriately.

機能実行指示システムは、音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を文章入力手段に入力する音声認識手段を更に備えることとしてもよい。この構成によれば、ユーザの音声によって機能を実行することが可能となる。   The function execution instruction system may further include voice recognition means for inputting voice, performing voice recognition on the input voice, and inputting the result of the voice recognition to the sentence input means. According to this configuration, the function can be executed by the user's voice.

ところで、本発明は、上記のように機能実行指示システムの発明として記述できる他に、以下のように機能実行指示方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。   By the way, the present invention can be described as the invention of the function execution instruction system as described above, as well as the invention of the function execution instruction method as follows. This is substantially the same invention only in different categories, and has the same operations and effects.

即ち、本発明に係る機能実行指示方法は、文章を入力する文章入力ステップと、文章入力ステップにおいて入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示ステップと、文章入力ステップにおいて入力された文章に基づいて、複数の機能から機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、実行機能決定ステップにおいて決定された機能、又は当該機能の実行状態に基づいて、コンテキストの更新を行うか否かを判定するコンテキスト更新判定ステップと、コンテキスト更新判定ステップにおける判定に応じて、文章入力ステップにおいて入力された文章に基づいてコンテキストを更新させるコンテキスト更新ステップと、を含む。   That is, the function execution instructing method according to the present invention is a function execution instructing execution of a plurality of functions including a sentence input step for inputting a sentence, and a function executed based on the sentence and context input in the sentence input step. An instruction function; an execution function determination step for determining a function to be executed in the function execution instruction step from a plurality of functions based on the sentence input in the sentence input step; and a function determined in the execution function determination step; Alternatively, based on the execution state of the function, a context update determination step for determining whether or not to update the context, and depending on the determination at the context update determination step, the context is determined based on the sentence input at the sentence input step. A context update step for updating.

本発明では、コンテキストを更新すべき機能を実行する文章が入力された場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本発明によれば、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる。   In the present invention, when a sentence for executing a function whose context is to be updated is input, the context can be updated. In other cases, the context can be maintained without being updated. Therefore, according to the present invention, even when a function considering a context is executed based on a series of sentences, the function can be appropriately executed.

本発明の実施形態に係る機能実行指示システムであるタスク判定装置の構成、及び当該タスク判定装置を含むシステムの構成を示す図である。It is a figure which shows the structure of the task determination apparatus which is a function execution instruction system which concerns on embodiment of this invention, and the structure of the system containing the said task determination apparatus. 雑談応答装置において保持されるコンテキスト管理テーブルを示す表である。It is a table | surface which shows the context management table hold | maintained in a chat response apparatus. 雑談応答装置における応答文生成の流れを示す図である。It is a figure which shows the flow of the response sentence production | generation in a chat response apparatus. 応答文作成に用いられる情報を示す表である。It is a table | surface which shows the information used for response sentence preparation. コンテキストの更新の判断に用いられるコンテキスト更新ポリシーを示す表である。It is a table | surface which shows the context update policy used for determination of the update of a context. コンテキストの更新の判断に用いられるコンテキスト更新ポリシーの別の例を示す表である。It is a table | surface which shows another example of the context update policy used for determination of the update of a context. 本発明の実施形態に係る機能実行指示システムであるタスク判定装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the task determination apparatus which is a function execution instruction system which concerns on embodiment of this invention. 本発明の実施形態に係る機能実行指示システムで実行される処理(機能実行指示方法)を示すフローチャートである。It is a flowchart which shows the process (function execution instruction method) performed with the function execution instruction system which concerns on embodiment of this invention. ユーザの発話に応じた処理を行う対話システムの一例を示す図である。It is a figure which shows an example of the dialogue system which performs the process according to a user's utterance.

以下、図面と共に本発明に係る機能実行指示システム及び機能実行指示方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。   DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments of a function execution instruction system and a function execution instruction method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.

図1に本実施形態に係る機能実行指示システムであるタスク判定装置10を示す。タスク判定装置10は、予め設定された複数の機能の実行を指示する装置である。なお、本実施形態では、実行される機能をタスクと呼ぶ。タスクの実行の指示は、雑談応答装置30、検索タスク処理装置40及び通信端末50の何れかに対して行われる。また、後述するように実行が指示されるタスクは、通信端末50のユーザの発話に基づいて判断される。また、タスクの実行の指示は、通信端末50のユーザの発話をトリガとして行われる。即ち、ユーザが発話することで機能が実行される。タスク判定装置10によるタスクの実行の指示が行われるため、通信端末50は、音声認識装置20と情報が送受信可能なように構成されている。   FIG. 1 shows a task determination apparatus 10 that is a function execution instruction system according to the present embodiment. The task determination device 10 is a device that instructs execution of a plurality of preset functions. In the present embodiment, the function to be executed is called a task. The task execution instruction is issued to any one of the chat response device 30, the search task processing device 40, and the communication terminal 50. Further, as will be described later, a task to be executed is determined based on the speech of the user of the communication terminal 50. In addition, the task execution instruction is performed using the user's utterance of the communication terminal 50 as a trigger. That is, the function is executed when the user speaks. Since the task determination device 10 issues a task execution instruction, the communication terminal 50 is configured to be able to transmit and receive information to and from the voice recognition device 20.

また、タスク判定装置10によって実行が指示されるタスクは、例えば、検索タスク、操作タスク、雑談タスク等の種別がある。検索タスクは、ユーザが希望する情報を検索するものである。具体的には、検索タスクは、グルメ検索(レストラン検索)等の施設検索や乗換案内等のナビゲーション情報の検索である。検索の実行は検索タスク処理装置40によって行われ、検索結果の情報は通信端末50に出力される。   In addition, the tasks instructed to be executed by the task determination device 10 include, for example, types such as a search task, an operation task, and a chat task. The search task searches for information desired by the user. Specifically, the search task is a search for navigation information such as facility search such as gourmet search (restaurant search) and transfer guidance. The search is executed by the search task processing device 40, and search result information is output to the communication terminal 50.

操作タスクは、通信端末50が有する機能を操作するものである。操作される通信端末50が有する機能としては、例えば、メール作成、音楽プレーヤ、スケジューラ、電話の発着信、カメラ等の機能がある。具体的には、通信端末50においてそれらのタスクを実行するためのアプリケーションプログラムが起動される。更にタスクの内容によっては、アプリケーションプログラム起動後の動作も行われる。例えば、メール作成のタスクでは、メール本文や宛先への情報の入力が行われる。   The operation task is for operating a function of the communication terminal 50. The functions of the communication terminal 50 to be operated include, for example, functions such as mail creation, music player, scheduler, incoming and outgoing calls, and camera. Specifically, an application program for executing these tasks is started in the communication terminal 50. Further, depending on the content of the task, an operation after the application program is started is also performed. For example, in the mail creation task, information is entered into the mail text and destination.

雑談タスクは、ユーザの発話に対して、適当な会話を構成する応答文を出力するものである。応答文は、雑談応答装置30によって生成されて、通信端末50に出力される。   The chat task outputs a response sentence constituting an appropriate conversation in response to the user's utterance. The response sentence is generated by the chat response device 30 and output to the communication terminal 50.

また、実行が指示されるタスクには、単語を入力(引数)とする機能があってもよい。これをタスクのスロットと呼ぶ。スロットは、タスク毎に予め定められている。例えば、乗換案内のタスクであれば、発駅や着駅をスロットへの入力としてタスクが実行される。あるいは、グルメ検索のタスクであれば、料理名をスロットへの入力として、入力された料理に関しての店舗が検索される。また、電話帳検索のタスクであれば、人名をスロットへの入力として、入力された人名に対応付けられた電話番号等の情報が検索される。なお、タスクには0個以上のスロットが定義されていてもよい。即ち、スロットがないタスクがあってもよい。以上が、本実施形態に係る各装置10〜50の概要である。引き続いて、各装置10〜50についてより詳細に説明する。   In addition, the task instructed to execute may have a function of inputting words (arguments). This is called a task slot. The slot is predetermined for each task. For example, in the case of a transfer guidance task, the task is executed with the departure station or arrival station as an input to the slot. Alternatively, in the case of a gourmet search task, a store relating to the input dish is searched using the dish name as an input to the slot. In the case of a telephone directory search task, information such as a telephone number associated with the input person name is searched using the person name as an input to the slot. Note that zero or more slots may be defined for a task. That is, there may be a task without a slot. The above is the outline of each device 10 to 50 according to the present embodiment. Subsequently, each of the devices 10 to 50 will be described in more detail.

通信端末50は、通信網(例えば、移動体通信網)を介してタスク判定装置10及び音声認識装置20等と通信を行うことができる装置であり、例えば、携帯電話機(スマートフォンを含む)やPC(Personal Computer)に相当する。また、通信端末50は、自動車等の車両で用いられるカーナビゲーション機能を搭載する端末であってもよい。また、通信端末50は、雑談応答装置30及び検索タスク処理装置40との間で直接、通信を行えるものとしてもよい。   The communication terminal 50 is a device that can communicate with the task determination device 10 and the voice recognition device 20 via a communication network (for example, a mobile communication network), such as a mobile phone (including a smartphone) or a PC. (Personal Computer) The communication terminal 50 may be a terminal equipped with a car navigation function used in a vehicle such as an automobile. Further, the communication terminal 50 may be capable of directly communicating with the chat response device 30 and the search task processing device 40.

上記のタスクは、ユーザの音声をトリガとして実行されるため、通信端末50はユーザの音声を入力する機能(音声認識インタフェース)を有している。また、通信端末50は、タスク判定装置10からの指示を受けてタスクを実行する機能、及びタスク判定装置10からタスクの実行結果を受信して出力する機能、例えば、情報の受信機能、情報処理機能及び表示機能(例えば、各種のコンテンツを表示するブラウザ)等を有している。   Since the above task is executed using the user's voice as a trigger, the communication terminal 50 has a function (voice recognition interface) for inputting the user's voice. In addition, the communication terminal 50 receives a command from the task determination device 10 and executes a task, and receives and outputs a task execution result from the task determination device 10, for example, an information reception function, information processing And a display function (for example, a browser for displaying various contents).

即ち、通信端末50は、1つ以上の(あるいは複数の)タスクを実行する機能実行手段を有している。具体的には、通信端末50は、タスクに対応するアプリケーションプログラムを予め記憶しておき、記憶したアプリケーションプログラムを実行(起動)することによってタスクを実行する。通信端末50によって実行されるタスクは、後述するようにタスク判定装置10によって指示される。また、タスクの実行は、アプリケーションを実行する以外にも、ネットワークからタスクに応じた情報を取得することで行われてもよい。   That is, the communication terminal 50 has a function execution unit that executes one or more (or a plurality of) tasks. Specifically, the communication terminal 50 stores an application program corresponding to the task in advance, and executes the task by executing (starting) the stored application program. The task executed by the communication terminal 50 is instructed by the task determination device 10 as will be described later. In addition to executing the application, the task may be executed by acquiring information corresponding to the task from the network.

通信端末50は、上記の機能を実行するためのアプリケーション(対話アプリ)を自端末上で実行して、上記の機能を実現することとしてもよい。   The communication terminal 50 may execute the above function by executing an application (dialog application) for executing the above function on its own terminal.

タスク判定装置10によるタスクの実行の指示は、次のように行われる。まず、ユーザが、通信端末50に対して実行したいタスクに応じた発話を行う。当該発話がなされると、通信端末50がユーザの音声(発話)を入力する。入力された音声は、通信端末50から音声認識装置20に送信される。音声認識装置20は、通信端末50から音声を受信し、受信した音声に対して音声認識を行う。音声認識装置20は、音声認識の結果である文章(テキスト)を通信端末50に送信する。通信端末50は、音声認識の結果を受信して、更にタスク判定装置10に送信する。通信端末50は、この送信の際、コンテキストを特定するための情報であるコンテキストIDを合わせてタスク判定装置10送信する。コンテキストについては、後述する。なお、コンテキストIDは、ユーザ毎に予め設定されており、通信端末50に記憶されている。タスク判定装置10は、当該音声認識の結果を受信して、その音声認識の結果に基づいて実行すべきタスクを決定して、当該タスクの実行を指示する。   An instruction to execute a task by the task determination device 10 is performed as follows. First, the user speaks according to a task to be executed on the communication terminal 50. When the utterance is made, the communication terminal 50 inputs the user's voice (utterance). The input voice is transmitted from the communication terminal 50 to the voice recognition device 20. The voice recognition device 20 receives voice from the communication terminal 50 and performs voice recognition on the received voice. The voice recognition device 20 transmits a sentence (text) as a result of the voice recognition to the communication terminal 50. The communication terminal 50 receives the result of speech recognition and further transmits it to the task determination device 10. In this transmission, the communication terminal 50 transmits the task determination apparatus 10 together with a context ID that is information for specifying the context. The context will be described later. Note that the context ID is preset for each user and stored in the communication terminal 50. The task determination device 10 receives the result of the voice recognition, determines a task to be executed based on the result of the voice recognition, and instructs the execution of the task.

実行すべきタスクが検索タスクであれば、タスク判定装置10は、検索タスク処理装置40に対して検索の要求を行う。例えば、タスク判定装置10は、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)を検索タスク処理装置40に送信する。検索タスク処理装置40は、当該検索の要求を受信して、要求に応じた検索を実行する。検索タスク処理装置40は、検索結果を示す情報をタスク判定装置10に送信する。タスク判定装置10は、検索結果を示す情報を受信し、通信端末50に送信する。通信端末50は、タスク判定装置10から検索結果を示す情報を受信して、表示出力等の出力を行う。   If the task to be executed is a search task, the task determination device 10 makes a search request to the search task processing device 40. For example, the task determination device 10 transmits information indicating a search to be executed (for example, a search keyword or a search condition) to the search task processing device 40. The search task processing device 40 receives the search request and executes a search according to the request. The search task processing device 40 transmits information indicating the search result to the task determination device 10. The task determination device 10 receives information indicating the search result and transmits it to the communication terminal 50. The communication terminal 50 receives information indicating the search result from the task determination device 10 and performs output such as display output.

実行すべきタスクが操作タスクであれば、タスク判定装置10は、通信端末50に対して操作の指示を行う。例えば、タスク判定装置10は、操作すべき機能を示す情報を通信端末50に送信する。通信端末50は、タスク判定装置10からの指示を受信して、当該指示に応じた操作を実行する。   If the task to be executed is an operation task, the task determination device 10 instructs the communication terminal 50 to perform an operation. For example, the task determination device 10 transmits information indicating the function to be operated to the communication terminal 50. The communication terminal 50 receives an instruction from the task determination device 10 and executes an operation according to the instruction.

実行すべきタスクが雑談タスクであれば、タスク判定装置10は、雑談応答装置30に対して、音声認識の結果である文章を入力し、当該文章に対する応答の文章である応答文の生成の要求を行う。また、応答文の生成の要求の際に、タスク判定装置10は、コンテキストを特定するための情報であるコンテキストIDを雑談応答装置30に入力する。コンテキストは、一連のユーザの発話(ユーザの発話に基づく文章)における話題を示す情報である。雑談応答装置30は、タスク判定装置10から文章及びコンテキストIDを受信して、コンテキストIDからコンテキストを特定し、文章及びコンテキストに基づき当該文章に対する応答文を生成する。雑談応答装置30は、生成した応答文をタスク判定装置10に送信する。タスク判定装置10は、応答文を受信し、通信端末50に送信する。通信端末50は、タスク判定装置10から応答文を受信して、ユーザの発話に対する応答として当該応答文の表示又は音声等の出力を行う。   If the task to be executed is a chat task, the task determination device 10 inputs a sentence that is a result of speech recognition to the chat response device 30 and requests to generate a response sentence that is a response sentence to the sentence. I do. In addition, the task determination device 10 inputs a context ID, which is information for specifying a context, to the chat response device 30 when a response sentence generation request is made. The context is information indicating a topic in a series of user utterances (sentences based on the user utterances). The chat response device 30 receives the text and context ID from the task determination device 10, specifies the context from the context ID, and generates a response text for the text based on the text and context. The chat response device 30 transmits the generated response sentence to the task determination device 10. The task determination device 10 receives the response sentence and transmits it to the communication terminal 50. The communication terminal 50 receives the response text from the task determination device 10 and displays the response text or outputs a voice or the like as a response to the user's utterance.

上記の通り、通信端末50では、ユーザの発話に対して対話的に応答がなされる。即ち、タスク判定装置10は、通信端末50に対する対話エージェントを構成している。   As described above, the communication terminal 50 interactively responds to the user's utterance. That is, the task determination device 10 constitutes an interactive agent for the communication terminal 50.

なお、音声認識の結果である文章はいったん通信端末50に送られることなく、音声認識装置20からタスク判定装置10へ直接送信されてもよい。更に、タスク判定装置10と音声認識装置20は一体であってもよい。   Note that the text that is the result of voice recognition may be directly transmitted from the voice recognition device 20 to the task determination device 10 without being sent to the communication terminal 50 once. Furthermore, the task determination device 10 and the voice recognition device 20 may be integrated.

音声認識装置20は、音声(音声データ)を入力して、入力した音声に対して音声認識を行い、音声認識を行った結果を出力する音声認識手段である装置である。具体的には、上述したように音声認識装置20は、通信端末50から音声データを受信する。音声認識装置20は、音声認識エンジンを有しており、当該音声認識エンジンを用いて音声認識を行う。音声認識自体は、従来の任意の音声認識方法を利用することができる。音声認識装置20は、音声認識結果を文章として取得して、通信端末50に送信する。なお、ここでいう文章には、例えば、単語の集合(1以上の単語からなる単語群)等の音声認識によって得られ、タスクの決定に用いることができる任意の文字情報が含まれえる。   The voice recognition device 20 is a device that is a voice recognition unit that inputs voice (voice data), performs voice recognition on the input voice, and outputs a result of the voice recognition. Specifically, as described above, the voice recognition device 20 receives voice data from the communication terminal 50. The voice recognition device 20 has a voice recognition engine, and performs voice recognition using the voice recognition engine. For speech recognition itself, any conventional speech recognition method can be used. The voice recognition device 20 acquires the voice recognition result as a sentence and transmits it to the communication terminal 50. Note that the sentence here may include arbitrary character information that can be obtained by voice recognition such as a set of words (a group of words including one or more words) and used for task determination.

雑談応答装置30は、上述したように、ユーザの発話による文章に対して応答文を生成する装置である。雑談応答装置30は、通信網等を介してタスク判定装置10と接続されており、タスク判定装置10との間で通信を行うことができる。図1に示すように、雑談応答装置30は、コンテキスト生成部31と、雑談応答生成部32とを備えて構成される。   As described above, the chat response device 30 is a device that generates a response sentence for a sentence produced by a user's utterance. The chat response device 30 is connected to the task determination device 10 via a communication network or the like, and can communicate with the task determination device 10. As shown in FIG. 1, the chat response device 30 includes a context generation unit 31 and a chat response generation unit 32.

コンテキスト生成部31は、タスク判定装置10からコンテキストの生成の要求を受信して、当該要求に基づいてコンテキストを生成する手段である。コンテキストは、具体的には、図2に示すように「ラーメン」、「横浜」、「天気」といった話題を示す単語である。雑談応答装置30は、図2に示すようなコンテキストとコンテキストを特定する情報であるコンテキストIDとを対応付けた情報であるコンテキスト管理テーブルを記憶しており、コンテキストIDからコンテキストを特定できるようになっている。なお、コンテキストIDは、例えば、通信端末50のユーザ毎にコンテキストを特定するための情報であり、当該ユーザ毎に予め割り振られている。図2に示す例では、コンテキストIDが「0001」(のユーザ)のコンテキストは存在せず、コンテキストIDが「0002」(のユーザ)のコンテキストは「ラーメン」である。   The context generation unit 31 is a unit that receives a context generation request from the task determination device 10 and generates a context based on the request. Specifically, the context is a word indicating a topic such as “ramen”, “Yokohama”, or “weather” as shown in FIG. The chat response device 30 stores a context management table that is information that associates a context and a context ID that is information for specifying the context as shown in FIG. 2, so that the context can be specified from the context ID. ing. The context ID is, for example, information for specifying a context for each user of the communication terminal 50, and is assigned in advance for each user. In the example illustrated in FIG. 2, there is no context having the context ID “0001” (user), and the context having the context ID “0002” (user) is “ramen”.

コンテキストの生成の要求には、コンテキストID、及びユーザの発話による文章が含まれている。コンテキスト生成部31は、当該要求に含まれる文章からコンテキストを抽出(生成)する。コンテキストの生成には、具体的には、従来の方法を用いることができる。例えば、Barbara J. Grosz and Candace L. Sidner, “Attention,intentions, and the structure of discourse Computational Linguistics”, Volume 12 Issue 3, 1986, Pages 175-204, MIT Press.(非特許文献2)に記載されているセンター理論により、ユーザの発話による文章から生成することができる。また、特に本理論を日本語に適用した吉田悦子,人文論叢: 三重大学人文学部文化学科研究紀要20, pp. 193-202, 2003, 三重大学.(非特許文献3)や竹井光子,藤原美保,相沢輝昭,センタリング理論とゼロ代名詞: 日本語コーパス分析と母語話者調査の結果から.言語処理学会第12 回年次大会発表論文集,pp. 292-295,2006.(非特許文献4)に記載された方法によれば、ユーザの発話による文章中の格助詞に注目して、名詞をコンテキストとして抽出することができる。なお、コンテキストの生成の方法は、上記のものに限られず、文章からコンテキストを生成するものであれば任意の方法を用いることができる。   The context generation request includes a context ID and a sentence by the user's utterance. The context generation unit 31 extracts (generates) a context from the text included in the request. Specifically, a conventional method can be used to generate the context. For example, it is described in Barbara J. Grosz and Candace L. Sidner, “Attention, intentions, and the structure of discourse Computational Linguistics”, Volume 12 Issue 3, 1986, Pages 175-204, MIT Press. It can be generated from the sentence by the user's utterance according to the center theory. In particular, Yoshida Atsuko, who applied this theory to Japanese, Humanities Review: Bulletin of the Department of Humanities, Faculty of Humanities, Mie University 20, pp. 193-202, 2003, Mie University. (Non-Patent Document 3), Mitsuko Takei, Miho Fujiwara, Teruaki Aizawa, Centering Theory and Zero Pronoun: From the results of Japanese corpus analysis and native speaker survey. According to the method described in the 12th Annual Conference of the Language Processing Society, pp. 292-295, 2006. (Non-Patent Document 4) Nouns can be extracted as context. Note that the method for generating the context is not limited to the above, and any method can be used as long as the context is generated from the text.

コンテキスト生成部31は、コンテキストを生成すると、コンテキスト管理テーブルにおける、コンテキストの生成の要求に含まれるコンテキストIDに対応するコンテキストを、生成したコンテキストで更新する。例えば、要求に含まれる文章が「ラーメンが好きです」というものであった場合、コンテキスト生成部31は、「ラーメン」とのコンテキストを生成し、コンテキスト管理テーブルにおける、要求に含まれるコンテキストIDに対応するコンテキストを「ラーメン」に更新する。   When generating the context, the context generation unit 31 updates the context corresponding to the context ID included in the context generation request in the context management table with the generated context. For example, when the sentence included in the request is “I like ramen”, the context generation unit 31 generates a context with “ramen” and corresponds to the context ID included in the request in the context management table. Update the context to "Ramen".

なお、コンテキストの生成の要求に含まれる文章がコンテキストの生成(抽出)を行うのに適切でない場合には、コンテキストの生成は行われない。コンテキストの生成を行うのに適切でない文章とは、例えば、話題となりえる単語を含まない文章である。その場合、コンテキスト生成部31は、コンテキスト管理テーブルの更新を行わない。即ち、それ以前に更新されたコンテキストがそのままコンテキストIDに対応づけられた状態となる。   Note that if the text included in the context generation request is not appropriate for context generation (extraction), context generation is not performed. The sentence that is not appropriate for generating the context is, for example, a sentence that does not include a word that can become a topic. In that case, the context generation unit 31 does not update the context management table. That is, the context updated before that is directly associated with the context ID.

また、コンテキスト生成部31は、タスク判定装置10からコンテキストのリセットの要求を受信すると、当該要求に含まれるコンテキストIDに対応するコンテキストをコンテキスト管理テーブルから消去する。即ち、当該コンテキストIDに対応するコンテキストは存在しないものとされる。また、コンテキスト生成部31は、予めタイムアウト時間を記憶しておき、コンテキストの生成又は更新から当該タイムアウト時間を経過したら、当該コンテキストをコンテキスト管理テーブルから消去することとしてもよい。即ち、リセットだけでなく、タイムアウトによりコンテキストが消去されてもよい。また、コンテキスト生成部31は、コンテキスト管理テーブルからコンテキストを消去する際に、コンテキストIDも同時に消去してもよい。この場合、コンテキスト生成部31は、コンテキストの生成の要求があった場合、コンテキスト管理テーブルに当該要求に含まれるコンテキストIDを新たに生成する。上記のようなコンテキストIDを削除することでコンテキスト管理テーブルのサイズを縮小することができる。コンテキスト生成部31は、タスク判定装置10からの要求に応じた処理が完了するとその旨の応答をタスク判定装置10に対して行う。   When the context generation unit 31 receives a context reset request from the task determination device 10, the context generation unit 31 deletes the context corresponding to the context ID included in the request from the context management table. That is, there is no context corresponding to the context ID. The context generation unit 31 may store the timeout time in advance, and delete the context from the context management table when the timeout time elapses from the generation or update of the context. In other words, the context may be deleted not only by reset but also by timeout. Further, the context generation unit 31 may delete the context ID at the same time when deleting the context from the context management table. In this case, when there is a context generation request, the context generation unit 31 newly generates a context ID included in the request in the context management table. By deleting the context ID as described above, the size of the context management table can be reduced. When the processing according to the request from the task determination device 10 is completed, the context generation unit 31 sends a response to that effect to the task determination device 10.

雑談応答生成部32は、文章及びコンテキストを入力して、当該文章に対する当該コンテキストに基づく応答の文章である応答文(雑談応答)を生成して出力する応答文生成手段である。雑談応答生成部32は、タスク判定装置10から応答文の生成の要求を受信して、当該要求に基づいて応答文を生成する。応答文の生成の要求には、コンテキストID、及びユーザの発話による文章が含まれている。雑談応答生成部32は、コンテキスト管理テーブルを参照して、要求に含まれるコンテキストIDに対応するコンテキストを特定(入力)する。雑談応答生成部32は、要求に含まれる文章に対する、特定したコンテキストに基づく応答文を生成する。   The chat response generation unit 32 is a response sentence generation unit that inputs a sentence and a context, and generates and outputs a response sentence (chat response) that is a response sentence based on the context with respect to the sentence. The chat response generation unit 32 receives a request for generating a response sentence from the task determination device 10 and generates a response sentence based on the request. The request for generating a response sentence includes a context ID and a sentence by the user's utterance. The chat response generation unit 32 refers to the context management table and specifies (inputs) a context corresponding to the context ID included in the request. The chat response generation unit 32 generates a response sentence based on the specified context for the sentence included in the request.

コンテキストを考慮した応答文の生成には、具体的には、従来の方法を用いることができる。例えば、H. Sugiyama, T. Meguro, R. Higashinaka, and Y. Minami, “Open-domain Utterance Generation for Conversational Dialogue Systemsusing Web-scale Dependency Structures”, Proceedings ofthe SIGDIAL 2013 Conference, pages 334-338, Metz, France, 22-24 August 2013.(非特許文献5)に記載されている方法を用いることができる。   Specifically, a conventional method can be used to generate a response sentence considering the context. For example, H. Sugiyama, T. Meguro, R. Higashinaka, and Y. Minami, “Open-domain Utterance Generation for Conversational Dialogue Systemsusing Web-scale Dependency Structures”, Proceedings of the SIGDIAL 2013 Conference, pages 334-338, Metz, France , 22-24 August 2013. (Non-patent document 5).

図3に、当該文献に記載された方法による応答文生成の処理の流れを示す。まず、雑談応答生成部32は、要求に含まれる文章を当該文章の語尾等の情報に基づき、行為(文献中のDialogue actに相当)という概念に抽象化する。例えば、雑談応答生成部32は、予め記憶した図4(a)に示す語尾と行為との対応を示す情報(語尾と行為との対応表)を用いて行為を特定する。例えば、要求に含まれる文章の語尾が「〜か」であれば行為を「質問」とする。語尾が「〜したい」であれば行為を「願望」とする。語尾が「〜した」であれば行為を「過去の事実」とする。   FIG. 3 shows a flow of response sentence generation processing by the method described in the document. First, the chat response generation unit 32 abstracts a sentence included in the request into a concept of an action (corresponding to a Dialogue act in the document) based on information such as the ending of the sentence. For example, the chat response generation unit 32 specifies an action using information (correspondence table between the ending and the action) indicating the correspondence between the ending and the action shown in FIG. 4A stored in advance. For example, if the ending of a sentence included in the request is "~", the action is "question". If the ending is “I want to do”, the act is “aspiration”. If the ending is "~", the action is "past fact".

続いて、雑談応答生成部32は、抽象化した行為に連なる次の行為を決定し、これを応答文(雑談応答)の行為とする。例えば、雑談応答生成部32は、予め記憶した図4(b)に示す前の行為と次の行為との対応を示す情報(次の行為を決定するためのルールである次の行為対応表)を用いて次の行為を決定する。例えば、抽象化した行為が「質問」であれば次の行為を「情報提供」とする。抽象化した行為が「願望」であれば次の行為を「同意」とする。抽象化した行為が「過去の事実」であれば次の行為を「質問」とする。   Subsequently, the chat response generation unit 32 determines the next action connected to the abstracted action, and sets this as the action of the response sentence (chat response). For example, the chat response generation unit 32 stores information indicating the correspondence between the previous action and the next action shown in FIG. 4B stored in advance (the next action correspondence table which is a rule for determining the next action). Use to determine the next action. For example, if the abstracted action is a “question”, the next action is “information provision”. If the abstracted action is “aspiration”, the next action is “agreement”. If the abstracted action is “past facts”, the next action is a “question”.

一方で、雑談応答生成部32は、特定したコンテキスト(文献中のTopicに相当)から当該コンテキストに関連した単語である関連語を抽出する。例えば、雑談応答生成部32は、予め記憶した図4(c)に示す名詞と関連語との対応を示す情報(ある名詞に関連する語が記述されている辞書である関連語辞書)を用いて関連語を抽出する。   On the other hand, the chat response generation unit 32 extracts a related word that is a word related to the context from the specified context (corresponding to Topic in the document). For example, the chat response generation unit 32 uses information (a related word dictionary that is a dictionary in which words related to a certain noun are described) indicating correspondence between the nouns and related words shown in FIG. 4C stored in advance. To extract related terms.

続いて、雑談応答生成部32は、予め用意されて記憶した多数の応答文の中から、決定した次の行為に関連し、抽出した関連語を最も多く含む応答文を、要求に含まれる文章に対する応答文として選択する。例えば、雑談応答生成部32は、予め記憶した図4(d)に示すテキスト(応答文の候補)と行為との対応を示す情報(発話インデクス)を用いて応答文を選択(生成)する。なお、応答文の生成の方法は、上記のものに限られず、文章及びコンテキストから応答文を生成するものであれば任意の方法を用いることができる。雑談応答生成部32は、生成した応答文を要求に対する返信としてタスク判定装置10に送信する。   Subsequently, the chat response generation unit 32 relates to the determined next action from among a large number of response sentences prepared and stored in advance, and the response sentence including the most extracted related words is included in the request. Select as a response to For example, the chat response generation unit 32 selects (generates) a response sentence using information (utterance index) indicating correspondence between the text (candidate response sentence) and the action shown in FIG. Note that the method of generating the response sentence is not limited to the above, and any method can be used as long as the response sentence is generated from the sentence and the context. The chat response generation unit 32 transmits the generated response sentence to the task determination device 10 as a reply to the request.

上記のように応答文の生成においてコンテキストが考慮されることで以下のような雑談対話が可能となる。
ユーザ「ラーメンが好きです」
エージェント「私も好きですよ」
ユーザ「何が一番好き」
エージェント「やっぱり塩ですね」
As described above, the following chat conversation is possible by considering the context in the generation of the response sentence.
User “I like ramen”
Agent “I like it too”
User “what you like best”
Agent "It's salt after all"

上記の雑談対話では、ユーザの最初の発話によって、コンテキストが「ラーメン」になる。そして、この情報が保持されることで、ユーザの次の発話に対しても「ラーメン」を考慮した雑談応答が返却される。なお、上記の例では、ユーザの「何が一番好き」との発話では新たなコンテキストは生成されない。   In the chat conversation, the context becomes “ramen” by the user's first utterance. And by holding this information, a chat response that considers “ramen” is also returned for the user's next utterance. In the above example, a new context is not generated when the user utters “what you like best”.

検索タスク処理装置40は、タスク判定装置10から検索の要求を受信(入力)して、当該要求に応じた検索を実行する手段である。検索タスク処理装置40は、通信網等を介してタスク判定装置10と接続されており、タスク判定装置10との間で通信を行うことができる。検索の要求には、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)が含まれる。検索タスク処理装置40は、実行すべき検索を示す情報に基づいて検索を行う。検索自体は、従来の方法と同様に行われる。検索タスク処理装置40は、検索の種別に応じて複数、設けられてもよい。検索の種別としては、レストランの位置を検索するグルメ検索等の施設検索や乗換案内等のナビゲーション情報の検索がある。検索タスク処理装置40は、実行した検索結果をタスク判定装置10に送信(出力)する。   The search task processing device 40 is a means that receives (inputs) a search request from the task determination device 10 and executes a search according to the request. The search task processing device 40 is connected to the task determination device 10 via a communication network or the like, and can communicate with the task determination device 10. The search request includes information indicating a search to be executed (for example, a search keyword, a search condition, etc.). The search task processing device 40 performs a search based on information indicating a search to be executed. The search itself is performed in the same manner as the conventional method. A plurality of search task processing devices 40 may be provided according to the type of search. Search types include facility searches such as gourmet searches for searching for restaurant locations and navigation information searches such as transfer guidance. The search task processing device 40 transmits (outputs) the executed search result to the task determination device 10.

図1に示すように、タスク判定装置10は、文章入力部11と、コマンド生成部12と、タスク判定部13と、コンテキスト更新判定部14と、コンテキスト更新部15とを備えて構成される。   As illustrated in FIG. 1, the task determination device 10 includes a sentence input unit 11, a command generation unit 12, a task determination unit 13, a context update determination unit 14, and a context update unit 15.

文章入力部11は、文章(入力文、テキストデータ)を入力する文章入力手段である。具体的には、文章入力部11は、通信端末50から、音声認識装置20による音声認識の結果である文章を受信することで文章を入力する。また、文章入力部11は、通信端末50から、文書と合わせてコンテキストIDを受信する。文章入力部11に入力される文章は、通信端末50に対するユーザの発話単位である。即ち、一回の発話に含まれる文章を一つの単位として扱う。また、文章入力部11は、ユーザ毎に文章を入力する。以下の処理はユーザ毎に行われる。ユーザは、例えば上記のコンテキストIDによって特定される。また、例えば、タスク判定装置10に予めユーザを特定する情報であるユーザIDとコンテキストIDとを対応付けた情報を記憶させておき、通信端末50が、文章を送信する際、当該文章にユーザIDを対応付けておき、ユーザIDからコンテキストIDを特定することとしてもよい。文章入力部11は、入力した文章及びコンテキストIDをタスク判定部13に出力する。   The text input unit 11 is text input means for inputting text (input text, text data). Specifically, the sentence input unit 11 inputs a sentence from the communication terminal 50 by receiving a sentence that is a result of voice recognition by the voice recognition device 20. In addition, the text input unit 11 receives a context ID together with the document from the communication terminal 50. The text input to the text input unit 11 is a user's utterance unit for the communication terminal 50. That is, a sentence included in one utterance is treated as one unit. The text input unit 11 inputs text for each user. The following processing is performed for each user. The user is specified by, for example, the context ID described above. For example, when the task determination apparatus 10 stores information in which a user ID, which is information for specifying a user, is associated with a context ID in advance, when the communication terminal 50 transmits a sentence, the user ID is included in the sentence. , And the context ID may be specified from the user ID. The text input unit 11 outputs the input text and context ID to the task determination unit 13.

コマンド生成部12は、複数のタスクの実行を指示する機能実行指示手段である。コマンド生成部12により実行が指示されるタスクには、文章入力部11によって入力された文章及びコンテキストに基づいて実行されるタスクを含む。そのようなタスクは、例えば、文章に対するコンテキストに基づく適当な応答文(雑談応答)を生成して出力するタスクである雑談タスクである。また、コマンド生成部12により実行が指示されるタスクには、コンテキストに基づかずに実行されるタスクが含まれる。そのようなタスクは、例えば、上述した検索タスクあるいは操作タスクである。コマンド生成部12によって実行が指示されるタスクは、後述するようにタスク判定部13により決定される。   The command generation unit 12 is a function execution instruction unit that instructs execution of a plurality of tasks. The task instructed to be executed by the command generation unit 12 includes a task executed based on the text and context input by the text input unit 11. Such a task is, for example, a chat task that is a task for generating and outputting an appropriate response sentence (chat response) based on the context of a sentence. In addition, the task that is instructed to be executed by the command generation unit 12 includes a task that is executed without being based on the context. Such a task is, for example, the above-described search task or operation task. The task instructed to be executed by the command generation unit 12 is determined by the task determination unit 13 as described later.

また、コマンド生成部12は、通信端末50に送信する情報であるコマンドを生成して通信端末50に送信する。例えば、実行を指示するタスクが検索タスク(コンテンツ検索)である場合には、コマンド生成部12は、タスク判定部13から入力された情報に基づいて検索の要求を検索タスク処理装置40に対して送信する。続いて、コマンド生成部12は、当該要求に応じて検索タスク処理装置40から送信される検索結果を受信する。コマンド生成部12は、実行した(実行する)タスクを示す情報と検索結果の情報(検索コンテンツ)とをコマンドに含める。例えば、ユーザの発話が「周辺のレストランを表示」というものであった場合には、コマンドには、タスクを示す情報としてレストラン情報表示との情報、及び検索コンテンツとして周辺のレストラン情報が含められる。コマンドを受信した通信端末50は、コマンドに含まれる周辺のレストラン情報の表示を行う。   The command generator 12 generates a command that is information to be transmitted to the communication terminal 50 and transmits the command to the communication terminal 50. For example, when the task instructing execution is a search task (content search), the command generation unit 12 sends a search request to the search task processing device 40 based on information input from the task determination unit 13. Send. Subsequently, the command generation unit 12 receives a search result transmitted from the search task processing device 40 in response to the request. The command generator 12 includes information indicating the executed (executed) task and search result information (search content) in the command. For example, if the user's utterance is “display nearby restaurants”, the command includes information indicating restaurant information display as information indicating a task, and peripheral restaurant information as search content. The communication terminal 50 that has received the command displays nearby restaurant information included in the command.

また、実行を指示するタスクが操作タスクである場合には、コマンド生成部12は、タスク判定部13から入力された情報に基づいて、電話、メール、カメラの起動等の通信端末50上での機能の操作を指示する内容(実行するタスクを示す情報)をコマンドに含める。例えば、ユーザの発話が「カメラ起動」というものであった場合には、コマンドには、タスクを示す情報としてカメラ起動との情報が含められる。コマンドを受信した通信端末50は、カメラ機能の起動を行う。   In addition, when the task instructing execution is an operation task, the command generation unit 12 uses the information input from the task determination unit 13 on the communication terminal 50 such as telephone, mail, or camera activation. Include content (information indicating the task to be executed) instructing the operation of the function in the command. For example, when the user's utterance is “camera activation”, the command includes information on camera activation as information indicating a task. The communication terminal 50 that has received the command activates the camera function.

また、実行を指示するタスクが雑談タスク(雑談応答)である場合には、コマンド生成部12は、タスク判定部13から入力された情報(コンテキストID及びユーザの発話による文章)に基づいて応答文の生成の要求を雑談応答装置30に対して送信する。続いて、コマンド生成部12は、当該要求に応じて雑談応答装置30から送信される応答文を受信する。コマンド生成部12は、実行した(実行する)タスクを示す情報と応答文(雑談応答)とをコマンドに含める。例えば、ユーザの発話が「いつもありがとう」というものであった場合には、コマンドには、タスクを示す情報として雑談との情報、及び応答文として「お役に立ててうれしいです」が含められる。コマンドを受信した通信端末50は、コマンドに含まれる応答文を音声出力又は表示出力する。   When the task instructing execution is a chat task (chat response), the command generation unit 12 responds based on the information (text ID and text by the user's utterance) input from the task determination unit 13. A request for generation is transmitted to the chat response device 30. Subsequently, the command generation unit 12 receives a response sentence transmitted from the chat response device 30 in response to the request. The command generator 12 includes information indicating the executed (executed) task and a response sentence (chat response) in the command. For example, when the user's utterance is “Thank you always”, the command includes information about chat as information indicating a task, and “I am glad to help” as a response sentence. The communication terminal 50 that has received the command outputs a response sentence included in the command by voice or display.

タスク判定部13は、文章入力部11から入力した文章に基づいて、複数の機能からコマンド生成部12によって実行が指示されるタスクを決定する実行機能決定手段である。例えば、タスク判定部13は、機械学習によって得られた学習モデル(判定ルール)を用いてタスクを決定(判定)することとしてもよい。タスクの決定は、文章をどのタスクに分類するかという文書分類問題に帰着される。そこで、例えば、予めタスクに対応付いた発話事例を収集する。この発話事例を正解データ(サンプルデータ)として機械学習を行い、機械学習によって得られた学習モデルを用いてタスクを決定する。タスク判定部13は、文章入力部11から入力した文章を学習モデルに基づくタスク識別器に入力して、当該タスク識別器によってタスクを決定する。なお、タスク判定部13は、機械学習によって得られた学習モデルに基づくタスク識別器を利用できればよく、必ずしもタスク判定装置10において機械学習が行われる必要はない。その場合、タスク判定装置10は上記の機械学習を行った装置から、学習モデルを示す情報を予め取得しておく。   The task determination unit 13 is an execution function determination unit that determines a task for which execution is instructed by the command generation unit 12 from a plurality of functions based on the text input from the text input unit 11. For example, the task determination unit 13 may determine (determine) a task using a learning model (determination rule) obtained by machine learning. The task decision results in a document classification problem of which task a sentence is classified into. Therefore, for example, utterance cases associated with tasks are collected in advance. Machine learning is performed using the utterance example as correct answer data (sample data), and a task is determined using a learning model obtained by machine learning. The task determination unit 13 inputs the text input from the text input unit 11 to a task classifier based on the learning model, and determines a task by the task classifier. The task determination unit 13 only needs to be able to use a task classifier based on a learning model obtained by machine learning, and the task determination device 10 does not necessarily need to perform machine learning. In that case, the task determination apparatus 10 acquires in advance information indicating a learning model from the apparatus that performed the machine learning described above.

また、タスク判定部13は、上記の機械学習による方法以外にも予めタスク毎に単語、あるいはカテゴリにスコアを設定しておき、文章に含まれる単語、あるいは当該単語に対応付けられたカテゴリから、スコアを特定し、そのスコアに基づいてタスクを決定してもよい。例えば、合計のスコアが最も高いタスクを、実行が指示されるタスクに決定することとしてもよい。この場合の単語又はカテゴリのスコアは、タスクとの関連度合に応じて定められている。   In addition to the above-described method by machine learning, the task determination unit 13 sets a score for each word or category in advance for each task, and from the word included in the sentence or the category associated with the word, A score may be identified and a task may be determined based on the score. For example, the task with the highest total score may be determined as a task for which execution is instructed. The score of the word or category in this case is determined according to the degree of association with the task.

また、上記のタスクの決定方法によって妥当なタスクが決定されない場合に雑談タスクを実行するタスクとすることとしてもよい。また、タスク判定部13による実行が指示されるタスクの決定は、入力された文章に基づくものであればよく上記以外の任意の方法を用いることができる。例えば、非特許文献1、並びに本出願人による特許協力条約に基づく国際出願であるPCT/JP2013/064766(基礎出願:特願2012−137842)及び特願2012−137844の明細書に記載された方法等を用いることができる。   Moreover, it is good also as a task which performs a chat task when an appropriate task is not determined by said task determination method. Further, the task determination unit 13 may determine a task to be instructed for execution as long as it is based on the input text, and any method other than the above can be used. For example, Non-Patent Document 1 and methods described in the specifications of PCT / JP2013 / 064766 (basic application: Japanese Patent Application No. 2012-137842) and Japanese Patent Application No. 2012-137844, which are international applications based on the Patent Cooperation Treaty by the present applicant Etc. can be used.

タスク判定部13は、実行が指示されるタスクを決定すると、コンテキスト更新判定部14に対して当該タスク、及び文章入力部11から入力されたコンテキストIDを通知する。また、タスクの通知に合わせて、タスク判定部13は、タスクの決定に用いた文章をコンテキスト更新判定部14に出力する。タスク判定部13は、当該タスクの通知に対する応答をコンテキスト更新判定部14から入力すると、コマンド生成部12に対して、決定したタスクの実行を指示するように要求する。当該要求には、実行するタスクを特定する情報及びタスクを実行するために必要な情報(スロットに入力される情報)も含められてもよい。   When the task determination unit 13 determines a task to be executed, the task determination unit 13 notifies the context update determination unit 14 of the task and the context ID input from the text input unit 11. Further, in accordance with the task notification, the task determination unit 13 outputs the text used for the task determination to the context update determination unit 14. When a response to the task notification is input from the context update determination unit 14, the task determination unit 13 requests the command generation unit 12 to instruct execution of the determined task. The request may include information specifying a task to be executed and information necessary for executing the task (information input to the slot).

タスクの実行の内容は、具体的には例えば、雑談タスクであれば、応答文の作成の基となる文章である。当該文章は、文章入力部11から入力したものである。また、雑談タスクであれば、文章入力部11から入力されたコンテキストIDが含められる。また、検索タスクであれば、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)である。タスク判定部13は、実行すべき検索を示す情報を文章入力部11から入力した文章から抽出する。当該抽出には、従来から用いられている方法を用いることができる。また、操作タスクであれば、実行すべき操作を示す情報である。タスク判定部13は、実行すべき検索を示す情報と同様に実行すべき操作を示す情報を文章入力部11から入力した文章から抽出する。   Specifically, for example, if the task is a chat task, the content of the execution of the task is a sentence serving as a basis for creating a response sentence. The sentence is input from the sentence input unit 11. In the case of a chat task, the context ID input from the text input unit 11 is included. In the case of a search task, it is information indicating a search to be executed (for example, a search keyword or a search condition). The task determination unit 13 extracts information indicating the search to be executed from the text input from the text input unit 11. A conventionally used method can be used for the extraction. In the case of an operation task, it is information indicating an operation to be executed. The task determination unit 13 extracts information indicating an operation to be executed from the text input from the text input unit 11 as well as information indicating a search to be executed.

また、タスク判定部13は、ユーザの音声によるタスクが実行される際にタスクの実行状態である対話状態を示す情報を保持し、当該対話状態を管理することとしてもよい。当該対話状態に応じたタスクに関する処理が行われる。例えば、メール作成のタスクが起動される際には、通信端末50は「メール作成」という対話状態となる。通信端末50では、「メール作成」という対話状態で、ユーザの音声によってメール本文や宛先の入力がなされる。また、1つのタスクの中に複数の対話状態があってもよい。例えば、ナビゲーションのタスクが実行される場合に、「タスク起動」、「目的地入力」、「確認入力」等のユーザの音声によって入力されるべき情報に応じた複数の対話状態があってもよい。タスク判定部13は、これらの対話状態の遷移を文章入力部11から入力された文章に基づいて判断する。この判断は、上記の実行が指示されるタスクの決定と同様に行われる。   Moreover, the task determination part 13 is good also as holding | maintaining the information which shows the dialog state which is an execution state of a task, when the task by a user's voice is performed, and managing the said dialog state. Processing related to the task according to the dialog state is performed. For example, when a mail creation task is activated, the communication terminal 50 enters an “email creation” dialog state. In the communication terminal 50, the mail text and the destination are input by the user's voice in the dialog state “mail creation”. There may be a plurality of dialog states in one task. For example, when a navigation task is executed, there may be a plurality of dialog states corresponding to information to be input by the user's voice such as “task activation”, “destination input”, “confirmation input”, etc. . The task determination unit 13 determines these dialog state transitions based on the text input from the text input unit 11. This determination is performed in the same manner as the determination of the task instructed to execute.

例えば、ナビゲーションタスクである場合には以下のような対話状態となる。まず、ユーザが「ナビゲーション起動」と発話した場合には、ナビゲーションタスクの「タスク起動」の対話状態となる。この場合、ナビゲーションタスクが起動され、また、エージェントは「どこに行きますか」と目的地の入力を促す出力を行う。これに対して、ユーザが「横浜まで行きたい」と発話した場合には、「目的地入力」の対話状態となる。この場合、入力された発話に基づいてナビゲーションのための情報が取得され、エージェントは「横浜が見つかりました。案内を開始しますか」と情報の出力の確認を促す出力を行う。これに対して、ユーザが「案内して」と発話した場合には、「確認入力」の対話状態となる。この場合、ナビゲーションタスクによる横浜へのナビゲーション(例えば、横浜までのルートを示す情報の出力)が実行される。   For example, in the case of a navigation task, the following dialog state is obtained. First, when the user utters “navigation activation”, the “task activation” dialog state of the navigation task is entered. In this case, the navigation task is activated, and the agent outputs “Where are you going?” To prompt the destination to be input. On the other hand, when the user speaks “I want to go to Yokohama”, the dialogue state of “destination input” is entered. In this case, information for navigation is acquired based on the input utterance, and the agent performs an output prompting confirmation of the output of the information “Yokohama was found. Do you want to start guidance?”. On the other hand, when the user utters “Guide”, the dialogue state of “Confirmation Input” is entered. In this case, navigation to Yokohama by the navigation task (for example, output of information indicating a route to Yokohama) is executed.

また、例えば、グルメ検索タスクである場合には以下のような対話状態となる。まず、ユーザが「お腹が減った」と発話した場合には、グルメ検索タスク「タスク起動」の対話状態となる。この場合、グルメ検索タスクが起動され、また、エージェントは「なにが食べたいですか」とグルメ検索の対象となる料理ジャンルの入力を促す出力を行う。これに対して、ユーザが「ラーメン」と発話した場合には、「料理ジャンル選択」の対話状態となる。この場合、入力された発話に基づいてグルメ検索が実行され、エージェントは「3件あります。最寄に案内しますか」と情報の出力の確認を促す出力を行う。これに対して、ユーザが「うんお願い」と発話した場合には、「確認入力」の対話状態となる。この場合、グルメ検索タスクによる情報の提示(例えば、最寄のラーメン店までのルートを示す情報の出力)が実行される。   Further, for example, in the case of a gourmet search task, the following dialogue state is set. First, when the user speaks “I am hungry”, a gourmet search task “task activation” is entered. In this case, the gourmet search task is activated, and the agent outputs “Who wants to eat?” And prompts the user to enter a food genre subject to gourmet search. On the other hand, when the user utters “ramen”, the dialog state “select food category” is entered. In this case, a gourmet search is executed based on the input utterance, and the agent performs an output prompting confirmation of the output of the information “There are three cases. On the other hand, when the user speaks “Yes”, the dialogue state of “confirmation input” is entered. In this case, presentation of information by a gourmet search task (for example, output of information indicating a route to the nearest ramen shop) is executed.

また、対話状態は、例えば、他のタスクが起動された際、あるいは、実行されているタスクが終了した際に遷移する。他のタスクが起動された際には、当該他のタスクに係る対話状態となる。また、実行されているタスクが終了した際には、何もタスクが実行されていない初期状態となる。タスクの終了は、実行されるタスクが正常に終了した場合(例えば、メール作成のタスクでは、メールの作成が終了しメール送信が行われた場合)や、ユーザの音声等によってタスクの実行が終了されられる場合(例えば、ユーザが「キャンセル」と発話した場合)になされる。   Also, the dialog state transitions when, for example, another task is activated or when the task being executed is terminated. When another task is activated, the conversation state relating to the other task is entered. Further, when the task being executed is completed, the initial state in which no task is executed is obtained. The task is terminated when the task to be executed is completed normally (for example, in the case of an e-mail creation task, e-mail creation is completed and e-mail transmission is performed), or the execution of the task is terminated by the user's voice, etc. Is performed (for example, when the user speaks “cancel”).

タスク判定部13は、対話状態を管理する場合には、実行が指示されるタスクに加えて、あるいは当該タスクに代えて、対話状態をコンテキスト更新判定部14に対して通知する。   When managing the dialog state, the task determination unit 13 notifies the context update determination unit 14 of the dialog state in addition to or instead of the task instructed to be executed.

タスク判定部13は、文章入力部11から入力した文章に基づいて、コンテキストをリセットするか否かを判断してもよい。例えば、タスク判定部13は、「キャンセル」との文章が入力された場合(ユーザの発話が「キャンセル」との場合)等には、タスクの起動状態をリセットするタスクの実行を指示するよう判断する。この場合、タスク判定部13は、コンテキストをリセットするものと判断する。タスク判定部13は、コンテキストをリセットする場合には、その旨を文章入力部11から入力されたコンテキストIDと共にコンテキスト更新部15に通知する。   The task determination unit 13 may determine whether to reset the context based on the text input from the text input unit 11. For example, the task determination unit 13 determines to instruct execution of a task that resets the task activation state when a text “cancel” is input (when the user's utterance is “cancel”) or the like. To do. In this case, the task determination unit 13 determines to reset the context. When the context is reset, the task determination unit 13 notifies the context update unit 15 of the fact together with the context ID input from the text input unit 11.

コンテキスト更新判定部14は、タスク判定部13によって決定されたタスクに基づいて、コンテキストの更新(生成)を行うか否かを判定するコンテキスト更新判定手段である。具体的には、コンテキスト更新判定部14は、コンテキスト更新判定を行うため、図5に示すコンテキスト更新ポリシーを予め記憶しておく。コンテキスト更新ポリシーは、タスク毎にコンテキストを更新すべきかが定義されている情報であり、具体的には、タスクと更新フラグとが対応付けられた情報である。コンテキスト更新判定部14は、タスク判定部13から決定されたタスクの通知を受けると共に文章を入力すると、コンテキスト更新ポリシーにおいて、タスク判定部13から通知されたタスクに対応付けられた更新フラグを参照する。コンテキスト更新判定部14は、参照した更新フラグが「1」であればコンテキストの更新を行うと判定し、「0」であればコンテキストの更新を行わないと判定する。   The context update determination unit 14 is a context update determination unit that determines whether to update (generate) a context based on the task determined by the task determination unit 13. Specifically, the context update determination unit 14 stores the context update policy illustrated in FIG. 5 in advance in order to perform context update determination. The context update policy is information that defines whether or not the context should be updated for each task. Specifically, the context update policy is information in which a task and an update flag are associated with each other. When receiving the notification of the task determined from the task determination unit 13 and inputting a sentence, the context update determination unit 14 refers to the update flag associated with the task notified from the task determination unit 13 in the context update policy. . The context update determination unit 14 determines to update the context if the referenced update flag is “1”, and determines not to update the context if it is “0”.

コンテキスト更新ポリシーは、例えば、タスク判定装置の管理者等によって予め生成され、コンテキスト更新判定部14に記憶される。タスク毎に発話に含まれる単語のジャンル(カテゴリ)がある程度決まっており、これらの単語のジャンル(カテゴリ)がコンテキストとしてふさわしいか否かで、コンテキスト更新ポリシーを生成することができる。例えば、図5を例にとると、ナビゲーションタスクは、目的地までの案内をするタスクであり、当該タスクに係る発話には必ず目的地となる地名や施設が含まれる。これらは雑談のコンテキストとして適している。あるいはグルメ検索タスクにはグルメのジャンルが含まれ、これも同様に雑談のコンテキストとして適している。一方、音量や地図の大小を操作するタスクには、そのような単語が含まれないため、コンテキストとしては適さない。また、電話やメールの発信では、宛先等が含まれるが、これらの人名は雑談のコンテキストとして適さない。   The context update policy is generated in advance by, for example, an administrator of the task determination device and stored in the context update determination unit 14. The genre (category) of words included in the utterance is determined to some extent for each task, and a context update policy can be generated depending on whether these genres (categories) of words are suitable as contexts. For example, taking FIG. 5 as an example, the navigation task is a task for guiding to a destination, and the utterance related to the task always includes the name of the destination and the facility. These are suitable as chatting contexts. Alternatively, the gourmet search task includes a gourmet genre, which is also suitable as a chat context. On the other hand, such a word is not included in a task for manipulating the volume and the size of the map, so it is not suitable as a context. In addition, in the case of outgoing calls and mails, destinations and the like are included, but these person names are not suitable as a chatting context.

また、コンテキスト更新判定部14は、タスク判定部13からタスクに加えて対話状態が通知された場合には、当該対話状態に基づいて、コンテキストの更新を行うか否かを判定することとしてもよい。この場合、具体的には、コンテキスト更新判定を行うため、図6に示すコンテキスト更新ポリシーを予め記憶しておく。コンテキスト更新ポリシーは、タスク及び対話状態の組み合わせ毎にコンテキストを更新すべきかが定義されている情報であり、具体的には、タスク及び対話状態の組み合わせと更新フラグとが対応付けられた情報である。   In addition, when the dialog state is notified in addition to the task from the task determination unit 13, the context update determination unit 14 may determine whether to update the context based on the dialog state. . In this case, specifically, in order to perform context update determination, the context update policy shown in FIG. 6 is stored in advance. The context update policy is information that defines whether the context should be updated for each combination of task and dialog state. Specifically, the context update policy is information in which a combination of a task and dialog state is associated with an update flag. .

コンテキスト更新判定部14は、コンテキスト更新ポリシーにおいて、タスク判定部13から通知されたタスク及び対話状態の組み合わせに対応付けられた更新フラグを参照する。コンテキスト更新判定部14は、参照した更新フラグが「1」であればコンテキストの更新を行うと判定し、「0」であればコンテキストの更新を行わないと判定する。   The context update determination unit 14 refers to the update flag associated with the combination of the task and the dialog state notified from the task determination unit 13 in the context update policy. The context update determination unit 14 determines to update the context if the referenced update flag is “1”, and determines not to update the context if it is “0”.

この場合のコンテキスト更新ポリシーは、例えば、地名やレストランジャンル等の特定のスロットを埋める対話状態の更新フラグを「1」として設定される。   In the context update policy in this case, for example, an update flag in a dialog state for filling a specific slot such as a place name or a restaurant genre is set as “1”.

コンテキスト更新判定部14は、コンテキストの更新を行うと判定した場合、その旨をコンテキスト更新部15に通知する。また、コンテキスト更新判定部14は、タスク判定部13から入力された文章を、タスク判定部13から入力したコンテキストIDと共にコンテキスト更新のためにコンテキスト更新部15に出力する。その場合、コンテキスト更新判定部14は、コンテキスト更新部15からコンテキストの更新が完了した旨の応答を受けると、タスク判定部13に対して、タスクあるいはタスク及び対話状態の通知に対する応答を行う。また、コンテキスト更新判定部14は、コンテキストの更新を行わないと判定した場合、コンテキスト更新部15への通知は行わずに、タスク判定部13に対して、タスクあるいはタスク及び対話状態の通知に対する応答を行う。   When the context update determination unit 14 determines to update the context, the context update determination unit 14 notifies the context update unit 15 to that effect. The context update determination unit 14 outputs the text input from the task determination unit 13 to the context update unit 15 for context update together with the context ID input from the task determination unit 13. In this case, when receiving a response indicating that the context update is completed from the context update unit 15, the context update determination unit 14 responds to the task determination unit 13 with respect to notification of a task or a task and a dialog state. When the context update determination unit 14 determines not to update the context, the context update determination unit 14 does not notify the context update unit 15 but responds to the task determination unit 13 with the notification of the task or the task and the conversation state. I do.

コンテキスト更新部15は、コンテキスト更新判定部14による判定に応じて、コンテキスト更新判定部14から入力された文章に基づいてコンテキストを更新させるコンテキスト更新手段である。コンテキスト更新部15は、コンテキスト更新判定部14からコンテキストの更新を行うと判定した旨の通知を受け取った場合に雑談応答装置30に対してコンテキストの生成の要求を送信することで、コンテキストを更新させる。コンテキスト更新部15は、コンテキスト更新判定部14から入力された文章を、コンテキストを生成するための文章として当該要求に含める。また、コンテキスト更新部15は、コンテキスト更新対象となる、コンテキスト更新判定部14から入力したコンテキストIDを当該要求に含める。なお、このコンテキストIDは、通信端末50から入力された発話に係るユーザに対応するものである。即ち、コンテキスト更新部15は、ユーザ毎にコンテキストを更新させる。   The context update unit 15 is a context update unit that updates the context based on the text input from the context update determination unit 14 according to the determination by the context update determination unit 14. The context update unit 15 updates the context by transmitting a context generation request to the chat response device 30 when receiving a notification from the context update determination unit 14 that it is determined to update the context. . The context update unit 15 includes the sentence input from the context update determination unit 14 in the request as a sentence for generating a context. Further, the context update unit 15 includes the context ID input from the context update determination unit 14 that is a context update target in the request. The context ID corresponds to the user related to the utterance input from the communication terminal 50. That is, the context update unit 15 updates the context for each user.

また、コンテキスト更新部15は、タスク判定部13からコンテキストをリセットする旨の通知を受けた場合には、雑談応答装置30に対してコンテキストのリセット(消去)の要求を送信する。即ち、コンテキスト更新部15は、文章入力部11によって入力された文章に応じて、コンテキストをリセットする。以上が、本実施形態に係る各装置10〜50の機能構成である。   In addition, when the context update unit 15 receives a notification to reset the context from the task determination unit 13, the context update unit 15 transmits a context reset (erase) request to the chat response device 30. That is, the context update unit 15 resets the context in accordance with the text input by the text input unit 11. The above is the functional configuration of each device 10 to 50 according to the present embodiment.

図7に本実施形態に係るタスク判定装置10、音声認識装置20、雑談応答装置30及び検索タスク処理装置40を構成するサーバ装置のハードウェア構成を示す。図7に示すように当該サーバ装置は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述したタスク判定装置10、音声認識装置20、雑談応答装置30及び検索タスク処理装置40の機能が発揮される。以上が、本実施形態に係る各装置の構成である。   FIG. 7 shows a hardware configuration of a server device constituting the task determination device 10, the speech recognition device 20, the chat response device 30, and the search task processing device 40 according to the present embodiment. As shown in FIG. 7, the server device includes a central processing unit (CPU) 101, a random access memory (RAM) 102 and a read only memory (ROM) 103 that are main storage devices, a communication module 104 for communication, and a hard disk. The computer is configured to include a computer including hardware such as the auxiliary storage device 105. When these components operate according to a program or the like, the functions of the task determination device 10, the speech recognition device 20, the chat response device 30, and the search task processing device 40 described above are exhibited. The above is the configuration of each device according to the present embodiment.

引き続いて、図8のフローチャートを用いて、本実施形態に係る機能実行指示システムであるタスク判定装置10で実行される処理である機能実行指示方法を説明する。   Subsequently, a function execution instruction method that is a process executed by the task determination apparatus 10 that is the function execution instruction system according to the present embodiment will be described with reference to the flowchart of FIG.

本実施形態に係るタスク判定装置10による処理が行われるため、本処理が行われる以前に、まず、通信端末50に対するユーザの操作が行われて、通信端末50に、機能を実行させるためのユーザの音声(発話)が入力される。続いて、当該音声が通信端末50から音声認識装置20に送信される。音声認識装置20では、当該音声が受信されて入力される(図示せず。音声認識ステップ)。続いて、音声認識装置20では、入力された音声に対して音声認識が行われる(図示せず、音声認識ステップ)。音声認識結果である文章を示す情報が音声認識装置20から通信端末50に送信される。通信端末50では、その情報が受信されて、タスク判定装置10に送信される。また、この際、合わせてコンテキストIDが、通信端末50からタスク判定装置10に送信される。   Since the process by the task determination apparatus 10 according to the present embodiment is performed, before the process is performed, first, a user operation on the communication terminal 50 is performed, and the user who causes the communication terminal 50 to execute a function Voice (utterance) is input. Subsequently, the voice is transmitted from the communication terminal 50 to the voice recognition device 20. The voice recognition device 20 receives and inputs the voice (not shown, voice recognition step). Subsequently, the voice recognition device 20 performs voice recognition on the input voice (not shown, voice recognition step). Information indicating a sentence as a voice recognition result is transmitted from the voice recognition device 20 to the communication terminal 50. The communication terminal 50 receives the information and transmits it to the task determination device 10. At this time, the context ID is also transmitted from the communication terminal 50 to the task determination device 10.

タスク判定装置10では、文章入力部11によって、音声認識結果である文章及びコンテキストIDが受信されて入力される(S01、文章入力ステップ)。入力された情報は、文章入力部11からタスク判定部13に出力される。続いて、タスク判定部13によって、文章入力部11から入力された文章に基づいて、コマンド生成部12によって実行が指示されるタスクが決定される(S02、実行機能決定ステップ)。なお、この際に文章に基づいてタスクの実行状態である対話状態が決定されてもよい。   In the task determination device 10, the sentence input unit 11 receives and inputs the sentence and the context ID that are the voice recognition results (S01, sentence input step). The input information is output from the text input unit 11 to the task determination unit 13. Subsequently, the task determination unit 13 determines a task to be instructed to be executed by the command generation unit 12 based on the text input from the text input unit 11 (S02, execution function determination step). At this time, the dialog state, which is the task execution state, may be determined based on the text.

決定されたタスクは文章及びコンテキストIDと共に、タスク判定部13からコンテキスト更新判定部14に通知される。コンテキスト更新判定部14では、通知されたタスクに基づいて、予め記憶されたコンテキスト更新ポリシーが参照されてコンテキストの更新(生成)を行うか否かが判定される(S03、コンテキスト更新判定ステップ)。なお、この判定の際に上記の対話状態が考慮されてもよい。コンテキストの更新を行うと判定された場合(S03のYES)、コンテキスト更新判定部14からコンテキスト更新部15にその旨が通知されると共に文章及びコンテキストIDが入力される。   The determined task is notified from the task determination unit 13 to the context update determination unit 14 together with the text and the context ID. Based on the notified task, the context update determination unit 14 refers to a context update policy stored in advance and determines whether or not to update (generate) a context (S03, context update determination step). Note that the above dialog state may be taken into consideration in this determination. When it is determined that the context is to be updated (YES in S03), the context update determination unit 14 notifies the context update unit 15 of the fact and the text and the context ID are input.

続いて、コンテキスト更新部15から雑談応答装置30に対して、文章及びコンテキストIDが含められたコンテキストの生成の要求が送信される(S04、コンテキスト更新ステップ)。雑談応答装置30では、コンテキスト生成部31によって当該要求が受信され、当該要求に含まれる文章からコンテキストが生成される(S04、コンテキスト生成ステップ)。コンテキストが生成されると、コンテキスト管理テーブルにおける、上記の要求に含まれるコンテキストIDに対応するコンテキストが生成されたコンテキストで更新される。なお、文章がコンテキストの生成に適切でない場合には、コンテキストの更新は行われず、以前に更新された状態のままとなる。コンテキスト生成部31によってタスク判定装置10からの要求に応じた処理が完了すると、その旨の応答がコンテキスト生成部31からタスク判定装置10に対して行われる。コンテキストの更新を行わないと判定された場合(S03のNO)、S04の処理は行われない。   Subsequently, a request for generating a context including a sentence and a context ID is transmitted from the context update unit 15 to the chat response device 30 (S04, context update step). In the chat response device 30, the request is received by the context generation unit 31, and the context is generated from the text included in the request (S04, context generation step). When the context is generated, the context corresponding to the context ID included in the request in the context management table is updated with the generated context. If the sentence is not appropriate for context generation, the context is not updated and remains in the previously updated state. When the processing corresponding to the request from the task determination device 10 is completed by the context generation unit 31, a response to that effect is sent from the context generation unit 31 to the task determination device 10. If it is determined not to update the context (NO in S03), the process in S04 is not performed.

S03のNO及びS04の処理に続いて、タスク判定部13からコマンド生成部12に対して、決定したタスクの実行を指示するように要求が行われる。続いて、決定したタスクが雑談タスクである場合(S05のYES)には、コマンド生成部12から雑談応答装置30に対して、応答文の生成の要求が送信される(S06、機能実行指示ステップ)。雑談応答装置30では、雑談応答生成部32によって当該要求が受信され、当該要求に含まれる文章からコンテキストが考慮されて応答文が生成される(S06、応答文生成ステップ)。生成された応答文は、雑談応答生成部32からタスク判定装置10に送信され、コマンド生成部12に受信される。決定したタスクが雑談タスクでない場合(S05のNO)には、S06の処理は行われない。   Subsequent to the NO and S04 processing in S03, the task determination unit 13 requests the command generation unit 12 to instruct execution of the determined task. Subsequently, when the determined task is a chat task (YES in S05), a request for generating a response sentence is transmitted from the command generation unit 12 to the chat response device 30 (S06, function execution instruction step). ). In the chat response device 30, the request is received by the chat response generation unit 32, and a response sentence is generated from the text included in the request in consideration of the context (S06, response sentence generation step). The generated response sentence is transmitted from the chat response generation unit 32 to the task determination device 10 and received by the command generation unit 12. If the determined task is not a chat task (NO in S05), the process in S06 is not performed.

S05のNO及びS06の処理に続いて、タスク判定部13からの決定したタスクの実行を指示する要求に基づいて、コマンド生成部12によってコマンドが生成される(S07、機能実行指示ステップ)。なお、実行を指示するタスクが検索タスクである場合には、コマンドの生成の際に検索タスク処理装置40から検索コンテンツが取得される。この場合、当該タスクの実行の指示が、コマンドの生成処理に含まれる。続いて、生成したコマンドは、コマンド生成部12から通信端末50に送信される(S08、機能実行指示ステップ)。   Following the processing of NO in S05 and the processing of S06, a command is generated by the command generation unit 12 based on a request from the task determination unit 13 to instruct execution of the determined task (S07, function execution instruction step). If the task instructing execution is a search task, the search content is acquired from the search task processing device 40 when the command is generated. In this case, an instruction to execute the task is included in the command generation process. Subsequently, the generated command is transmitted from the command generation unit 12 to the communication terminal 50 (S08, function execution instruction step).

通信端末50では、当該コマンドが受信されて受信したコマンドに応じた動作が行われる。例えば、雑談タスクであれば応答文(雑談応答)の音声出力又は表示出力等が行われる。また、検索タスクであれば、検索コンテンツの表示出力等が行われる。また、操作タスクであれば、当該操作タスクに応じた通信端末50の動作が実行される。上記の通り、特に操作タスクの場合には、タスクの実行の指示がコマンドの出力処理に含まれえる。   The communication terminal 50 receives the command and performs an operation according to the received command. For example, in the case of a chat task, voice output or display output of a response sentence (chat response) is performed. In the case of a search task, display output of search content and the like are performed. If it is an operation task, the operation of the communication terminal 50 corresponding to the operation task is executed. As described above, particularly in the case of an operation task, an instruction to execute the task may be included in the command output process.

なお、上記の処理は、ユーザの1回の発話に対応するものであり、ユーザの発話が繰り返し行われれば、上記の処理はユーザの発話の繰り返しに応じて上記の処理が繰り返し行われる。以上が、本実施形態に係る機能実行指示システムであるタスク判定装置10で実行される処理である。   Note that the above process corresponds to one utterance of the user, and if the user's utterance is repeated, the above process is repeated according to the repetition of the user's utterance. The above is the processing executed by the task determination device 10 that is the function execution instruction system according to the present embodiment.

ユーザの発話が繰り返されることで、上記の処理によれば以下のようなユーザとエージェントとの対話が可能となる。
ユーザ「横浜周辺の観光スポットを検索して」(タスク:観光地検索、コンテキスト:横浜)
エージェント「地図上に検索結果を表示しました」
ユーザ「少し地図を大きくして」(タスク:地図拡大、コンテキスト更新なし)
エージェント「地図を拡大します」
ユーザ「お勧めは」(タスク:雑談、コンテキスト更新なし)
エージェント「XXタワーがお勧めですね」
By repeating the user's utterance, according to the above processing, the following interaction between the user and the agent becomes possible.
User "Search for sightseeing spots around Yokohama" (task: sightseeing spot search, context: Yokohama)
Agent “Search results displayed on the map”
User “make the map a little larger” (task: enlarge map, no context update)
Agent "Enlarge Map"
User “Recommend” (task: chat, no context update)
Agent "XX Tower is recommended"

上記の対話では、ユーザの発話で雑談タスクが実行されているのは「お勧めは」との発話に対してのみである。しかし、それ以前のタスクを実行するための「横浜周辺の観光スポットを検索して」とのユーザの発話からコンテキストが生成されており、そのコンテキストが考慮された雑談応答となっている。また、上記の発話の後の「少し地図を大きくして」とのユーザの発話については、発話内容だけから考慮すると、例えば「地図」といったコンテキストを生成することも可能である。しかし、当該発話に基づくタスクから、コンテキストを更新しないと判定されている。ユーザの「お勧めは」との発話は、話の流れからして「横浜周辺の観光スポット」についてのお勧めを求めるものであると考えられるため、上記の応答は自然なものとなっている。   In the above dialogue, the chat task is executed only by the user's utterance for the utterance “Recommended”. However, a context is generated from the user's utterance “search for sightseeing spots around Yokohama” to execute the previous task, and the chat response takes the context into consideration. In addition, regarding the user's utterance “slightly enlarge the map” after the above utterance, considering only the utterance content, it is also possible to generate a context such as “map”. However, it is determined not to update the context from the task based on the utterance. Since the user's “Recommendation” utterance is thought to be a recommendation for “sightseeing spots around Yokohama” based on the flow of the story, the above response is natural. .

上記の通り、本実施形態によれば、雑談タスクの実行の際に用いられるコンテキストは、入力された文章に基づいて実行が指示されるタスクとして決定されたタスク、又は当該タスクの実行状態である対話状態に基づいて更新されるか否かが判断される。これにより、本実施形態では、コンテキストを更新すべき機能を実行する発話がなされた場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本実施形態によれば、一連の文章に基づいてコンテキストを考慮したタスクを実行する場合であっても、タスクの実行を適切に行うことができる。具体的には、雑談タスクであれば、ユーザの一連の発話に対する応答文を、ユーザに違和感のない自然なものとすることができる。この際、ユーザは実行されるタスクが雑談であるか、検索であるか等の意識をする必要はなく、エージェントとの対話によってタスクを実現することができる。   As described above, according to the present embodiment, the context used in the execution of the chat task is a task determined as a task instructed to be executed based on the input sentence, or an execution state of the task. It is determined whether or not to update based on the dialog state. Thereby, in this embodiment, when an utterance for executing a function whose context is to be updated is made, the context can be updated, and in other cases, the context can be maintained without being updated. it can. Therefore, according to this embodiment, even if it is a case where the task which considered the context based on a series of sentences is performed, execution of a task can be performed appropriately. Specifically, in the case of a chat task, a response sentence to a series of utterances of the user can be made natural without causing the user to feel uncomfortable. At this time, the user does not need to be aware of whether the task to be executed is a chat or a search, and the task can be realized by interaction with the agent.

また、本実施形態では、発話(入力された文章)そのものではなく、当該発話から決定されたタスクを利用して、コンテキストを更新すべきか否かを判定する。これには、以下のような利点がある。まず、発話はユーザが自由に入力するものであり無限にパターンが存在するため、発話それぞれに対して更新すべきか否かを判定することは困難である。これに対してタスクは、当該発話から生成される有限なものであるため、各タスクに対してポリシーを用意することは容易である。   In the present embodiment, it is determined whether or not the context should be updated using a task determined from the utterance, not the utterance (input sentence) itself. This has the following advantages. First, since the utterance is freely input by the user and there are infinite patterns, it is difficult to determine whether or not to update each utterance. On the other hand, since a task is a finite one generated from the utterance, it is easy to prepare a policy for each task.

更に、タスク毎に発話に含まれる単語のジャンル(カテゴリ)がある程度決まっており、これらの単語のジャンル(カテゴリ)がコンテキストとしてふさわしいか否かでコンテキスト更新ポリシーを生成することが可能である。例えば、ナビゲーションタスクやグルメ検索のタスクに係る発話には、通常、コンテキストとしてふさわしい(ジャンルの)単語が含まれる。一方、音量や地図の大小を操作するタスク、あるいは電話やメールの発信を行うタスクに係る発話には、通常、コンテキストとしてふさわしい(ジャンルの)単語が含まれない。コンテキスト更新ポリシーは、上記が考慮されて容易に作成されることができる。なお、コンテキストを更新するタスクとして適するか否かは、コンテキストを考慮して実行されるタスクに応じて適宜定められるものであり、必ずしも上記の例に限られない。   Furthermore, the genre (category) of words included in the utterance is determined to some extent for each task, and it is possible to generate a context update policy depending on whether the genre (category) of these words is suitable as a context. For example, utterances related to navigation tasks and gourmet search tasks usually include words (genres) suitable for context. On the other hand, utterances related to a task for manipulating the volume and the size of a map or a task for making a call or sending a mail usually do not include a word (genre) suitable for context. The context update policy can be easily created in consideration of the above. Note that whether or not the task is suitable as a task for updating the context is appropriately determined according to the task executed in consideration of the context, and is not necessarily limited to the above example.

また、本実施形態のようにコンテキストを考慮して実行するタスクを雑談タスクとすることとしてもよい。この構成によれば、例えば、雑談タスクの実行を、一連の文章に基づいてコンテキストを考慮して適切に行うことができる。なお、本実施形態では、機能実行指示システムには、応答文を作成する雑談応答装置30は含まれていないものとしたが、雑談応答装置30が含まれていてもよい。この構成によれば、雑談タスクを確実に実施することができる。   Moreover, it is good also considering the task performed considering a context like this embodiment as a chat task. According to this configuration, for example, the chat task can be appropriately performed in consideration of the context based on a series of sentences. In the present embodiment, the function execution instruction system does not include the chat response device 30 that creates a response sentence. However, the chat response device 30 may be included. According to this configuration, the chat task can be reliably performed.

但し、コンテキストを考慮して実行するタスクは、必ずしも雑談タスクでなくてもよく、コンテキストが考慮されて実行されるタスクであれば任意のタスクに対しても本発明を適用することができる。   However, the task executed in consideration of the context is not necessarily a chat task, and the present invention can be applied to any task as long as the task is executed in consideration of the context.

また、本実施形態のように文章はユーザ毎に入力され、ユーザ毎にコンテキストが更新されてもよい。この構成によれば、複数のユーザについてタスクの実行を指示することができ、ユーザ毎にタスクの実行を適切に行うことができる。   Moreover, a sentence may be input for every user like this embodiment, and a context may be updated for every user. According to this configuration, task execution can be instructed for a plurality of users, and task execution can be appropriately performed for each user.

また、本実施形態のように「キャンセル」との発話等の状態をリセットするようなタスクに対しては、今までのコンテキストをリセット(消去)することとしてもよい。この構成によれば、適切かつ確実にコンテキストのリセットを行うことができ、タスクの実行を更に適切に行うことができる。   For a task that resets the state such as “cancel” utterance as in the present embodiment, the previous context may be reset (erased). According to this configuration, the context can be reset appropriately and reliably, and the task can be executed more appropriately.

また、本実施形態のように音声を入力して音声認識を行って、音声認識結果を入力される文章として、タスクを実行することとしてもよい。この構成によれば、ユーザの音声によってタスクを実行することが可能となる。本実施形態では、機能実行指示システムは音声認識装置20を含まない構成としていたが、音声認識装置20を含む構成としてもよい。即ち、機能実行指示システムを、タスク判定装置10と音声認識装置20とを含んだ構成としてもよい。なお、機能実行指示システムを、音声認識装置20を含まない構成とした場合、音声認識によらない文章が機能実行指示システムに入力されてもよい。   Further, as in the present embodiment, voice recognition may be performed by inputting voice, and the task may be executed as a sentence in which the voice recognition result is input. According to this configuration, the task can be executed by the user's voice. In the present embodiment, the function execution instruction system is configured not to include the voice recognition device 20, but may be configured to include the voice recognition device 20. That is, the function execution instruction system may include the task determination device 10 and the voice recognition device 20. When the function execution instruction system is configured not to include the voice recognition device 20, a sentence not based on voice recognition may be input to the function execution instruction system.

また、本実施形態では、タスク判定装置10と音声認識装置20とが別体として構成されていたが、それらが一体として構成されていてもよい。この場合、音声認識結果を、通信端末50を介して送受信する必要がない。また、雑談応答装置30がタスク判定装置10と一体として構成されていてもよい。また、通信端末50等のユーザに用いられる端末に、タスク判定装置10、音声認識装置20及び雑談応答装置30の少なくとも何れかの機能が備えられていてもよい。その場合、当該端末が本発明に係る機能実行指示システムを構成する。あるいは、タスク判定装置10がタスクを実行する機能を有しており、タスクの実行結果を通信端末50に提供する構成であってもよい。   Moreover, in this embodiment, although the task determination apparatus 10 and the speech recognition apparatus 20 were comprised separately, they may be comprised integrally. In this case, it is not necessary to transmit / receive the voice recognition result via the communication terminal 50. Further, the chat response device 30 may be configured integrally with the task determination device 10. A terminal used by a user such as the communication terminal 50 may be provided with at least one of the functions of the task determination device 10, the speech recognition device 20, and the chat response device 30. In that case, the terminal constitutes a function execution instruction system according to the present invention. Alternatively, the task determination device 10 may have a function of executing a task, and the task execution result may be provided to the communication terminal 50.

また、本実施形態では、雑談応答装置30では、雑談タスクが実行される場合であっても、コンテキストの更新と、応答文の生成とが独立して行われていた。即ち、雑談応答装置30は、生成したコンテキストを示す情報をタスク判定装置10に送信して、その後、応答文の生成の要求を受け付けて当該要求に応じて、応答文を生成していた。しかし、雑談タスクの実行における、コンテキストの更新と応答文の生成とは、一連の処理として行われてもよい。即ち、コンテキストを生成した後、コンテキストを示す情報をタスク判定装置10に送信せず、生成したコンテキストを用いて応答文を生成してもよい。   In the present embodiment, in the chat response device 30, even when the chat task is executed, the context update and the response sentence generation are performed independently. That is, the chat response device 30 transmits information indicating the generated context to the task determination device 10, and then receives a request for generating a response message and generates a response message in response to the request. However, the context update and response sentence generation in the execution of the chat task may be performed as a series of processes. That is, after a context is generated, information indicating the context may not be transmitted to the task determination device 10 and a response sentence may be generated using the generated context.

10…タスク判定装置、11…文章入力部、12…コマンド生成部、13…タスク判定部、14…コンテキスト更新判定部、15…コンテキスト更新部、20…音声認識装置、30…雑談応答装置、31…コンテキスト生成部、32…雑談応答生成部、40…検索タスク処理装置、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、50…通信端末。   DESCRIPTION OF SYMBOLS 10 ... Task determination apparatus, 11 ... Text input part, 12 ... Command generation part, 13 ... Task determination part, 14 ... Context update determination part, 15 ... Context update part, 20 ... Speech recognition apparatus, 30 ... Chat response apparatus, 31 DESCRIPTION OF SYMBOLS ... Context production | generation part, 32 ... Chat response production | generation part, 40 ... Search task processing apparatus, 101 ... CPU, 102 ... RAM, 103 ... ROM, 104 ... Communication module, 105 ... Auxiliary storage device, 50 ... Communication terminal.

Claims (7)

文章を入力する文章入力手段と、
前記文章入力手段によって入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示手段と、
前記文章入力手段によって入力された文章に基づいて、前記複数の機能から前記機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、
前記実行機能決定手段によって決定された機能、又は当該機能の実行状態に基づいて、前記コンテキストの更新を行うか否かを判定するコンテキスト更新判定手段と、
前記コンテキスト更新判定手段による判定に応じて、前記文章入力手段によって入力された文章に基づいて前記コンテキストを更新させるコンテキスト更新手段と、
を備える機能実行指示システム。
A sentence input means for inputting sentences;
A function execution instruction means for instructing execution of a plurality of functions including a function executed based on a sentence and a context input by the sentence input means;
An execution function determination means for determining a function to be instructed to be executed by the function execution instruction means from the plurality of functions based on the text input by the sentence input means;
A context update determination unit that determines whether to update the context based on the function determined by the execution function determination unit or the execution state of the function;
Context updating means for updating the context based on the text input by the text input means in response to the determination by the context update determining means;
A function execution instruction system comprising:
前記機能実行指示手段は、前記文章入力手段によって入力された文章及びコンテキストを入力として実行される機能として、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する機能の実行を指示する請求項1に記載の機能実行指示システム。   The function execution instructing unit instructs execution of a function that generates and outputs a response sentence based on the context with respect to the sentence as a function executed with the sentence and context input by the sentence input unit as inputs. Item 4. The function execution instruction system according to Item 1. 前記機能実行指示手段から文章及びコンテキストを入力して、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する応答文生成手段を更に備える請求項2に記載の機能実行指示システム。   The function execution instruction system according to claim 2, further comprising response sentence generation means for inputting a sentence and a context from the function execution instruction means, and generating and outputting a response sentence based on the context for the sentence. 前記文章入力手段は、ユーザ毎に文章を入力し、
前記コンテキスト更新手段は、ユーザ毎にコンテキストを更新させる、請求項1〜3の何れか一項に記載の機能実行指示システム。
The sentence input means inputs a sentence for each user,
The function execution instruction system according to claim 1, wherein the context update unit updates the context for each user.
前記コンテキスト更新手段は、前記文章入力手段によって入力された文章に応じて、前記コンテキストをリセットする請求項1〜4の何れか一項に記載の機能実行指示システム。   The function execution instruction system according to any one of claims 1 to 4, wherein the context updating unit resets the context according to a sentence input by the sentence input unit. 音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を前記文章入力手段に入力する音声認識手段を更に備える請求項1〜5の何れか一項に記載の機能実行指示システム。   6. The speech recognition unit according to claim 1, further comprising speech recognition means for inputting speech, performing speech recognition on the input speech, and inputting the result of speech recognition to the sentence input means. Function execution instruction system. 文章を入力する文章入力ステップと、
前記文章入力ステップにおいて入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示ステップと、
前記文章入力ステップにおいて入力された文章に基づいて、前記複数の機能から前記機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、
前記実行機能決定ステップにおいて決定された機能、又は当該機能の実行状態に基づいて、前記コンテキストの更新を行うか否かを判定するコンテキスト更新判定ステップと、
前記コンテキスト更新判定ステップにおける判定に応じて、前記文章入力ステップにおいて入力された文章に基づいて前記コンテキストを更新させるコンテキスト更新ステップと、
を含む機能実行指示方法。
A sentence input step for inputting a sentence;
A function execution instruction step for instructing execution of a plurality of functions including a function executed based on the sentence and context input in the sentence input step;
An execution function determination step for determining a function to be executed in the function execution instruction step from the plurality of functions based on the sentence input in the sentence input step;
A context update determination step for determining whether to update the context based on the function determined in the execution function determination step or the execution state of the function;
In response to the determination in the context update determination step, a context update step for updating the context based on the text input in the text input step;
Function execution instruction method including
JP2013218950A 2013-10-22 2013-10-22 Function execution instruction system and function execution instruction method Active JP6280342B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013218950A JP6280342B2 (en) 2013-10-22 2013-10-22 Function execution instruction system and function execution instruction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013218950A JP6280342B2 (en) 2013-10-22 2013-10-22 Function execution instruction system and function execution instruction method

Publications (2)

Publication Number Publication Date
JP2015081971A JP2015081971A (en) 2015-04-27
JP6280342B2 true JP6280342B2 (en) 2018-02-14

Family

ID=53012609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013218950A Active JP6280342B2 (en) 2013-10-22 2013-10-22 Function execution instruction system and function execution instruction method

Country Status (1)

Country Link
JP (1) JP6280342B2 (en)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP2016508007A (en) 2013-02-07 2016-03-10 アップル インコーポレイテッド Voice trigger for digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10769155B2 (en) 2016-05-17 2020-09-08 Google Llc Automatically augmenting message exchange threads based on tone of message
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
JP2018021987A (en) * 2016-08-02 2018-02-08 ユニロボット株式会社 Conversation processing device and program
JP6553007B2 (en) * 2016-09-13 2019-07-31 株式会社東芝 Dialogue flow control device, dialogue flow control method and program
JP6922178B2 (en) * 2016-09-30 2021-08-18 株式会社リコー Speech recognition system, information processing device, program
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. User interface for correcting recognition errors
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. Low-latency intelligent automated assistant
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US11322141B2 (en) 2017-08-17 2022-05-03 Sony Corporation Information processing device and information processing method
JP7095254B2 (en) * 2017-10-10 2022-07-05 トヨタ自動車株式会社 Dialogue system and domain determination method
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (en) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7185489B2 (en) * 2018-10-30 2022-12-07 株式会社日立システムズ Resource allocation method and resource allocation system
US11875776B2 (en) 2018-11-22 2024-01-16 Sony Group Corporation Response generating apparatus, response generating method, and response generating program
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
WO2020238341A1 (en) * 2019-05-31 2020-12-03 华为技术有限公司 Speech recognition method, apparatus and device, and computer-readable storage medium
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
JP2021071883A (en) * 2019-10-30 2021-05-06 株式会社感性リサーチ Information processing system, information processing method, and program
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070876A (en) * 2002-08-09 2004-03-04 Casio Comput Co Ltd Conversation system and conversation processing program
JP3920175B2 (en) * 2002-08-29 2007-05-30 株式会社国際電気通信基礎技術研究所 Call activation system
JP4156563B2 (en) * 2004-06-07 2008-09-24 株式会社デンソー Word string recognition device
JP2008064885A (en) * 2006-09-05 2008-03-21 Honda Motor Co Ltd Voice recognition device, voice recognition method and voice recognition program
JP2008243048A (en) * 2007-03-28 2008-10-09 Toshiba Corp Interaction device, interaction method and program
JP2009037050A (en) * 2007-08-02 2009-02-19 Toyota Motor Corp Interaction device and program for interaction
JP5300497B2 (en) * 2009-01-07 2013-09-25 株式会社東芝 Dialogue device, dialogue program, and dialogue method
JP2011033680A (en) * 2009-07-30 2011-02-17 Sony Corp Voice processing device and method, and program
WO2011030404A1 (en) * 2009-09-09 2011-03-17 トヨタ自動車株式会社 Operating system and operating method

Also Published As

Publication number Publication date
JP2015081971A (en) 2015-04-27

Similar Documents

Publication Publication Date Title
JP6280342B2 (en) Function execution instruction system and function execution instruction method
KR102178738B1 (en) Automated assistant calls from appropriate agents
US20210201932A1 (en) Method of and system for real time feedback in an incremental speech input interface
US20240031482A1 (en) Synchronous Communication Using Voice and Text
KR102112814B1 (en) Parameter collection and automatic dialog generation in dialog systems
KR101881114B1 (en) Identifying tasks in messages
US9502032B2 (en) Dynamically biasing language models
RU2637874C2 (en) Generation of interactive recommendations for chat information systems
KR101683083B1 (en) Using context information to facilitate processing of commands in a virtual assistant
KR102351587B1 (en) Initiating conversations with automated agents via selectable graphical elements
KR102364401B1 (en) Contextual voice-driven deep bookmarking
KR101695348B1 (en) Apparatus for providing service based messenger and method using the same
US20160098994A1 (en) Cross-platform dialog system
CN111557001B (en) Method for providing natural language dialogue, computer device and computer readable storage medium
CN111556999A (en) Method, computer device and computer readable storage medium for providing natural language dialogue by providing substantive answers in real time
CN114860910A (en) Intelligent dialogue method and system
JP6223739B2 (en) Function execution instruction system and function execution instruction method
JP7205962B1 (en) System for automatic dialogue
Hadisukmana et al. SMS READER ON ANDROID
KR20050077547A (en) Speech recognizing and recording method without speech recognition grammar in voicexml

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180119

R150 Certificate of patent or registration of utility model

Ref document number: 6280342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250