JP6280342B2 - Function execution instruction system and function execution instruction method - Google Patents
Function execution instruction system and function execution instruction method Download PDFInfo
- Publication number
- JP6280342B2 JP6280342B2 JP2013218950A JP2013218950A JP6280342B2 JP 6280342 B2 JP6280342 B2 JP 6280342B2 JP 2013218950 A JP2013218950 A JP 2013218950A JP 2013218950 A JP2013218950 A JP 2013218950A JP 6280342 B2 JP6280342 B2 JP 6280342B2
- Authority
- JP
- Japan
- Prior art keywords
- context
- task
- sentence
- function
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 34
- 230000004044 response Effects 0.000 claims description 143
- 230000006870 function Effects 0.000 claims description 137
- 238000004891 communication Methods 0.000 description 71
- 238000012545 processing Methods 0.000 description 31
- 230000009471 action Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 235000015219 food category Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
Description
本発明は、機能の実行を指示することができる機能実行指示システム及び機能実行指示方法に関する。 The present invention relates to a function execution instruction system and a function execution instruction method that can instruct execution of a function.
近年、特に携帯端末において、音声認識されたユーザの音声発話文に応じて、様々な操作や検索を行うことを可能とする音声エージェントのアプリケーションが増えている。例えば、ユーザの音声により、音楽や動画といったコンテンツの検索、メールや電話といった機能の操作が可能なシステムがある(例えば、非特許文献1参照)。このようなシステムを実現するために、エージェントは各種検索サーバ、各種端末機能とそれぞれ接続される。そして、ユーザの発話からユーザが実行したい機能(タスク)を判定し、その結果に応じてサーバや携帯端末においてタスクを実行させる。 In recent years, especially in mobile terminals, there are an increasing number of voice agent applications that can perform various operations and searches in accordance with voice utterances of voice-recognized users. For example, there is a system capable of searching for contents such as music and moving images and operating functions such as e-mail and telephone by user's voice (for example, see Non-Patent Document 1). In order to realize such a system, the agent is connected to various search servers and various terminal functions. And the function (task) which a user wants to perform from a user's utterance is determined, and a task is performed in a server or a portable terminal according to the result.
例えば、非特許文献1で示したシステムでは、以下のように実行されるタスクが判定される。ユーザの発話が「ニュースが知りたい」というものである場合、ニュース検索のタスクが実行されるものと判定される。ユーザの発話が「XXさんに電話」というものである場合、電話機能のタスクが実行されるものと判定される。ユーザの発話が「こんにちは」というものである場合、雑談のタスクが実行されるものと判定される。
For example, in the system shown in
上記の通り、非特許文献1で示したシステムでは、通常の検索タスクや操作タスク以外に雑談にも対応している。雑談とは、ユーザの発話が通常の検索タスクや操作タスクを実行するものでなかった場合に、ユーザの発話(雑談発話)に応じた音声やテキストの出力による応答を行って、ユーザがシステムと会話(雑談)する機能である。
As described above, the system shown in Non-Patent
このような仕組みを実現する対話システムの一例を図9に示す。対話システムは、対話エージェント、雑談応答システム及びコンテンツ検索システムを含んで構成される。対話エージェントは、ユーザから発話を受け取り、応答を返すシステムである。対話エージェントは、ユーザの発話に基づいて実行するタスクが何れであるかを判定し、判定したタスクに応じた応答を別のシステムから取得してユーザに対して出力する。実行するタスクは、雑談、検索及び操作タスク等の何れかである。 An example of a dialog system that realizes such a mechanism is shown in FIG. The dialogue system includes a dialogue agent, a chat response system, and a content search system. The dialogue agent is a system that receives an utterance from a user and returns a response. The dialogue agent determines which task is executed based on the user's utterance, acquires a response corresponding to the determined task from another system, and outputs the response to the user. The task to be executed is any one of chat, search and operation tasks.
対話エージェントは、判定したタスクが雑談タスクである場合には、雑談応答システムにユーザの発話を出力する。雑談応答システムは、発話を入力し、当該発話(雑談)に対する応答文を生成して、当該応答文を発話に対する応答として対話エージェントに出力する。対話エージェントは、判定したタスクが検索タスクである場合には、発話に応じた検索をコンテンツ検索システムに対して要求する。コンテンツ検索システムは、要求された検索を行い、検索結果を発話に対する応答として対話エージェントに出力する。対話エージェントは、判定したタスクが操作タスクである場合には、端末(ユーザ端末)上で動作する、発話に応じた機能を起動、操作する。 When the determined task is a chat task, the dialogue agent outputs the user's utterance to the chat response system. The chat response system inputs an utterance, generates a response sentence for the utterance (chat), and outputs the response sentence to the dialog agent as a response to the utterance. When the determined task is a search task, the dialogue agent requests the content search system to search according to the utterance. The content search system performs the requested search, and outputs the search result to the dialog agent as a response to the utterance. When the determined task is an operation task, the conversation agent activates and operates a function corresponding to the utterance that operates on the terminal (user terminal).
このようなシステムの拡張として、複数回にわたる音声対話による検索や操作(タスク)の実現も考えられる。対話例を以下に示す。
ユーザ「お腹が減った」
エージェント「何を食べますか」
ユーザ「ラーメン」
エージェント「付近に3件のラーメン店があります。最寄に案内しますか」
ユーザ「はい」
As an extension of such a system, it is also conceivable to realize searches and operations (tasks) by multiple voice conversations. An example of dialogue is shown below.
User “I am hungry”
Agent "What do you eat?"
User "Ramen"
Agent “There are 3 ramen shops nearby.
User "Yes"
これらは何れも一つのタスク(例えば、グルメ検索タスク)内での対話であるが、対話が進むにつれて状態が変化していく。例えば、最初のユーザの発話は、タスクを起動する状態での発話(タスクを起動するための発話)、二番目のユーザの発話は、料理ジャンルを検索する状態での発話(料理ジャンルを特定するための発話)、そして三番目のユーザの発話は確認入力の状態での発話である。 These are all dialogues within one task (for example, a gourmet search task), but the state changes as the dialogue progresses. For example, the first user's utterance is the utterance in the state where the task is activated (utterance for activating the task), and the second user's utterance is the utterance in the state where the cooking genre is searched (the cooking genre is specified). And the third user's utterance is an utterance in the confirmation input state.
高度な雑談応答システムは、ユーザの発話に対して単に応答(雑談応答)するだけでなく、それまでのユーザとのやり取りに応じたコンテキストを生成し、生成したコンテキストに応じた応答を行う。コンテキストを考慮した雑談対話の例を以下に示す。
ユーザ「ラーメンが好きです」
エージェント「私も好きですよ」
ユーザ「何が一番好き」
エージェント「やっぱり塩ですね」
An advanced chat response system not only simply responds to a user's utterance (chat response), but also generates a context corresponding to the interaction with the user so far, and responds according to the generated context. An example of a chat conversation that takes context into consideration is shown below.
User “I like ramen”
Agent “I like it too”
User “what you like best”
Agent "It's salt after all"
上記の例では、最初のユーザの発話によって、エージェントはコンテキストとして「ラーメン」を設定する。二番目のユーザの発話では「好き」というものの対象が示されていないが、設定されたコンテキストを考慮することで「ラーメン」の種類を答えることができる。 In the above example, the agent sets “ramen” as the context by the first user's utterance. In the second user's utterance, the object of “like” is not shown, but the type of “ramen” can be answered by considering the set context.
ここで、図9に示したような対話システムを考える。上述した対話システムでは、実行されるタスクは互いに独立している。従って、対話エージェントは、実行されるタスクが雑談タスクである場合に限り、雑談応答システムに発話を渡す。雑談応答システムは、発話を渡されると当該発話に基づいてコンテキストを作成し、雑談応答文を返信する。ここで、以下のような対話を考える。
ユーザ「ラーメンが食べたい」(タスク:グルメ検索)
エージェント「付近に3件のラーメン店があります。最寄に案内しますか」
ユーザ「はい」
ユーザ「何が一番好き」(タスク:雑談)
エージェント「ご主人さまのお役に立つことです」
Here, a dialogue system as shown in FIG. 9 is considered. In the dialog system described above, the tasks executed are independent of each other. Therefore, the dialogue agent passes the utterance to the chat response system only when the task to be executed is a chat task. When the chat response system is given an utterance, it creates a context based on the utterance and returns a chat response sentence. Here, consider the following dialogue.
User "I want to eat ramen" (task: gourmet search)
Agent “There are 3 ramen shops nearby.
User "Yes"
User “what you like best” (task: chat)
Agent "This is useful for my husband"
上記の例では、ユーザはラーメンについて何が一番好きか答えて欲しかったものと考えられるが、エージェントはラーメンとは全く関係のない答えを返している。これは、最初の「ラーメンが食べたい」とのユーザの発話がグルメ検索のタスクを実行させるためのものであり、雑談応答システムに発話が送られず、「ラーメン」のコンテキストが生成されなかったことが原因である。このように、実行されるタスクが雑談タスクである場合のみ、発話を雑談応答システムに入力するとユーザとエージェントとの会話が不自然なものとなる。 In the above example, the user may want to answer what they like best about ramen, but the agent returns an answer that has nothing to do with ramen. This is because the user's first utterance of “I want to eat ramen” is for the gourmet search task to be executed, the utterance was not sent to the chat response system, and the context of “ramen” was not generated Is the cause. As described above, only when the task to be executed is a chat task, when the utterance is input to the chat response system, the conversation between the user and the agent becomes unnatural.
この問題を解決するために、全ての発話を雑談応答システムに入力し、コンテキストを更新していく方法が考えられる。しかし、そうした場合、下記のようなユーザにとって大きな意味のない発話に対しても、コンテキストの生成が行われてしまう可能性がある。
ユーザ「横浜周辺の観光スポットを検索して」(タスク:観光地検索、コンテキスト:横浜)
エージェント「地図上に検索結果を表示しました」
ユーザ「少し地図を大きくして」(タスク:地図拡大、コンテキスト:地図)
エージェント「地図を拡大します」
ユーザ「お勧めは」(タスク:雑談)
エージェント「地図機能はお勧めですね」
In order to solve this problem, a method of inputting all utterances to the chat response system and updating the context can be considered. However, in such a case, there is a possibility that the context will be generated even for the following utterances that are not meaningful to the user.
User "Search for sightseeing spots around Yokohama" (task: sightseeing spot search, context: Yokohama)
Agent “Search results displayed on the map”
User “Enlarge the map a little” (Task: Enlarge Map, Context: Map)
Agent "Enlarge Map"
User “Recommended” (task: chat)
Agent "I recommend the map function"
上記の例では、ユーザが地図の操作を行っているため、ユーザの「お勧めは」との発話に対して、エージェントは「地図」に関連した応答をしている。しかし、ユーザの「お勧めは」との発話に対しては、それ以前のユーザの発話の「横浜」に関連した応答を返信するのが自然である。このように、ユーザの発話毎にコンテキストを更新したとしても、ユーザとエージェントとの会話が不自然なものとなってしまう。 In the above example, since the user operates the map, the agent makes a response related to the “map” in response to the user's utterance “recommended”. However, it is natural that a response related to “Yokohama” of the user's previous utterance is returned to the user's “recommended” utterance. Thus, even if the context is updated for each user utterance, the conversation between the user and the agent becomes unnatural.
本発明は、上記の問題点に鑑みてなされたものであり、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる機能実行指示システム及び機能実行指示方法を提供することを目的とする。 The present invention has been made in view of the above problems, and even when a function that considers a context is executed based on a series of sentences, a function execution instruction that can appropriately execute the function It is an object to provide a system and a function execution instruction method.
上記の目的を達成するために、本発明に係る機能実行指示システムは、文章を入力する文章入力手段と、文章入力手段によって入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示手段と、文章入力手段によって入力された文章に基づいて、複数の機能から機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、実行機能決定手段によって決定された機能、又は当該機能の実行状態に基づいて、コンテキストの更新を行うか否かを判定するコンテキスト更新判定手段と、コンテキスト更新判定手段による判定に応じて、文章入力手段によって入力された文章に基づいてコンテキストを更新させるコンテキスト更新手段と、を備える。 In order to achieve the above object, a function execution instruction system according to the present invention includes a plurality of functions including a sentence input unit for inputting a sentence, and a function executed based on the sentence and the context input by the sentence input unit. A function execution instructing unit for instructing execution of the function, an execution function determining unit for determining a function to be instructed to be executed by the function execution instructing unit from a plurality of functions based on the text input by the text input unit, Based on the function determined by the means or the execution state of the function, the context update determination means for determining whether or not to update the context, and input by the sentence input means according to the determination by the context update determination means Context updating means for updating the context based on the received text.
本発明に係る機能実行指示システムでは、文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行が指示される。当該コンテキストは、文章に基づいて実行が指示される機能として決定された機能、又は当該機能の実行状態に基づいて更新されるか否かが判断される。これにより、本発明に係る機能実行指示システムでは、コンテキストを更新すべき機能を実行する文章が入力された場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本発明に係る機能実行指示システムによれば、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる。 In the function execution instruction system according to the present invention, execution of a plurality of functions including functions executed based on text and context is instructed. It is determined whether or not the context is updated based on the function determined to be executed based on the text or the execution state of the function. Thus, in the function execution instruction system according to the present invention, the context can be updated when a sentence for executing the function whose context is to be updated is input, and the context is updated in other cases. It can be maintained without. Therefore, according to the function execution instruction system according to the present invention, the function can be appropriately executed even when the function considering the context is executed based on the series of sentences.
機能実行指示手段は、文章入力手段によって入力された文章及びコンテキストを入力として実行される機能として、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する機能の実行を指示することとしてもよい。この構成によれば、例えば、雑談応答の機能の実行を、一連の文章に基づいてコンテキストを考慮して適切に行うことができる。 The function execution instructing unit may be configured to instruct execution of a function that generates and outputs a response sentence based on the context with respect to the sentence as a function that is executed by inputting the sentence and context input by the sentence input unit. Good. According to this configuration, for example, the chat response function can be appropriately executed in consideration of the context based on a series of sentences.
機能実行指示システムは、機能実行指示手段から文章及びコンテキストを入力して、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する応答文生成手段を更に備えることとしてもよい。この構成によれば、例えば、本発明による雑談応答の機能を確実に実施することができる。 The function execution instruction system may further include response sentence generation means for inputting a sentence and context from the function execution instruction means, and generating and outputting a response sentence based on the context for the sentence. According to this configuration, for example, the chat response function according to the present invention can be reliably implemented.
文章入力手段は、ユーザ毎に文章を入力し、コンテキスト更新手段は、ユーザ毎にコンテキストを更新させる、こととしてもよい。この構成によれば、ユーザ毎に機能の実行を適切に行うことができる。 The text input unit may input text for each user, and the context update unit may update the context for each user. According to this configuration, the function can be appropriately executed for each user.
コンテキスト更新手段は、文章入力手段によって入力された文章に応じて、コンテキストをリセットすることとしてもよい。この構成によれば、適切かつ確実にコンテキストのリセットを行うことができ、機能の実行を更に適切に行うことができる。 The context update unit may reset the context according to the text input by the text input unit. According to this configuration, the context can be reset appropriately and reliably, and the function can be executed more appropriately.
機能実行指示システムは、音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を文章入力手段に入力する音声認識手段を更に備えることとしてもよい。この構成によれば、ユーザの音声によって機能を実行することが可能となる。 The function execution instruction system may further include voice recognition means for inputting voice, performing voice recognition on the input voice, and inputting the result of the voice recognition to the sentence input means. According to this configuration, the function can be executed by the user's voice.
ところで、本発明は、上記のように機能実行指示システムの発明として記述できる他に、以下のように機能実行指示方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。 By the way, the present invention can be described as the invention of the function execution instruction system as described above, as well as the invention of the function execution instruction method as follows. This is substantially the same invention only in different categories, and has the same operations and effects.
即ち、本発明に係る機能実行指示方法は、文章を入力する文章入力ステップと、文章入力ステップにおいて入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示ステップと、文章入力ステップにおいて入力された文章に基づいて、複数の機能から機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、実行機能決定ステップにおいて決定された機能、又は当該機能の実行状態に基づいて、コンテキストの更新を行うか否かを判定するコンテキスト更新判定ステップと、コンテキスト更新判定ステップにおける判定に応じて、文章入力ステップにおいて入力された文章に基づいてコンテキストを更新させるコンテキスト更新ステップと、を含む。 That is, the function execution instructing method according to the present invention is a function execution instructing execution of a plurality of functions including a sentence input step for inputting a sentence, and a function executed based on the sentence and context input in the sentence input step. An instruction function; an execution function determination step for determining a function to be executed in the function execution instruction step from a plurality of functions based on the sentence input in the sentence input step; and a function determined in the execution function determination step; Alternatively, based on the execution state of the function, a context update determination step for determining whether or not to update the context, and depending on the determination at the context update determination step, the context is determined based on the sentence input at the sentence input step. A context update step for updating.
本発明では、コンテキストを更新すべき機能を実行する文章が入力された場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本発明によれば、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる。 In the present invention, when a sentence for executing a function whose context is to be updated is input, the context can be updated. In other cases, the context can be maintained without being updated. Therefore, according to the present invention, even when a function considering a context is executed based on a series of sentences, the function can be appropriately executed.
以下、図面と共に本発明に係る機能実行指示システム及び機能実行指示方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments of a function execution instruction system and a function execution instruction method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1に本実施形態に係る機能実行指示システムであるタスク判定装置10を示す。タスク判定装置10は、予め設定された複数の機能の実行を指示する装置である。なお、本実施形態では、実行される機能をタスクと呼ぶ。タスクの実行の指示は、雑談応答装置30、検索タスク処理装置40及び通信端末50の何れかに対して行われる。また、後述するように実行が指示されるタスクは、通信端末50のユーザの発話に基づいて判断される。また、タスクの実行の指示は、通信端末50のユーザの発話をトリガとして行われる。即ち、ユーザが発話することで機能が実行される。タスク判定装置10によるタスクの実行の指示が行われるため、通信端末50は、音声認識装置20と情報が送受信可能なように構成されている。
FIG. 1 shows a
また、タスク判定装置10によって実行が指示されるタスクは、例えば、検索タスク、操作タスク、雑談タスク等の種別がある。検索タスクは、ユーザが希望する情報を検索するものである。具体的には、検索タスクは、グルメ検索(レストラン検索)等の施設検索や乗換案内等のナビゲーション情報の検索である。検索の実行は検索タスク処理装置40によって行われ、検索結果の情報は通信端末50に出力される。
In addition, the tasks instructed to be executed by the
操作タスクは、通信端末50が有する機能を操作するものである。操作される通信端末50が有する機能としては、例えば、メール作成、音楽プレーヤ、スケジューラ、電話の発着信、カメラ等の機能がある。具体的には、通信端末50においてそれらのタスクを実行するためのアプリケーションプログラムが起動される。更にタスクの内容によっては、アプリケーションプログラム起動後の動作も行われる。例えば、メール作成のタスクでは、メール本文や宛先への情報の入力が行われる。
The operation task is for operating a function of the
雑談タスクは、ユーザの発話に対して、適当な会話を構成する応答文を出力するものである。応答文は、雑談応答装置30によって生成されて、通信端末50に出力される。
The chat task outputs a response sentence constituting an appropriate conversation in response to the user's utterance. The response sentence is generated by the
また、実行が指示されるタスクには、単語を入力(引数)とする機能があってもよい。これをタスクのスロットと呼ぶ。スロットは、タスク毎に予め定められている。例えば、乗換案内のタスクであれば、発駅や着駅をスロットへの入力としてタスクが実行される。あるいは、グルメ検索のタスクであれば、料理名をスロットへの入力として、入力された料理に関しての店舗が検索される。また、電話帳検索のタスクであれば、人名をスロットへの入力として、入力された人名に対応付けられた電話番号等の情報が検索される。なお、タスクには0個以上のスロットが定義されていてもよい。即ち、スロットがないタスクがあってもよい。以上が、本実施形態に係る各装置10〜50の概要である。引き続いて、各装置10〜50についてより詳細に説明する。
In addition, the task instructed to execute may have a function of inputting words (arguments). This is called a task slot. The slot is predetermined for each task. For example, in the case of a transfer guidance task, the task is executed with the departure station or arrival station as an input to the slot. Alternatively, in the case of a gourmet search task, a store relating to the input dish is searched using the dish name as an input to the slot. In the case of a telephone directory search task, information such as a telephone number associated with the input person name is searched using the person name as an input to the slot. Note that zero or more slots may be defined for a task. That is, there may be a task without a slot. The above is the outline of each
通信端末50は、通信網(例えば、移動体通信網)を介してタスク判定装置10及び音声認識装置20等と通信を行うことができる装置であり、例えば、携帯電話機(スマートフォンを含む)やPC(Personal Computer)に相当する。また、通信端末50は、自動車等の車両で用いられるカーナビゲーション機能を搭載する端末であってもよい。また、通信端末50は、雑談応答装置30及び検索タスク処理装置40との間で直接、通信を行えるものとしてもよい。
The
上記のタスクは、ユーザの音声をトリガとして実行されるため、通信端末50はユーザの音声を入力する機能(音声認識インタフェース)を有している。また、通信端末50は、タスク判定装置10からの指示を受けてタスクを実行する機能、及びタスク判定装置10からタスクの実行結果を受信して出力する機能、例えば、情報の受信機能、情報処理機能及び表示機能(例えば、各種のコンテンツを表示するブラウザ)等を有している。
Since the above task is executed using the user's voice as a trigger, the
即ち、通信端末50は、1つ以上の(あるいは複数の)タスクを実行する機能実行手段を有している。具体的には、通信端末50は、タスクに対応するアプリケーションプログラムを予め記憶しておき、記憶したアプリケーションプログラムを実行(起動)することによってタスクを実行する。通信端末50によって実行されるタスクは、後述するようにタスク判定装置10によって指示される。また、タスクの実行は、アプリケーションを実行する以外にも、ネットワークからタスクに応じた情報を取得することで行われてもよい。
That is, the
通信端末50は、上記の機能を実行するためのアプリケーション(対話アプリ)を自端末上で実行して、上記の機能を実現することとしてもよい。
The
タスク判定装置10によるタスクの実行の指示は、次のように行われる。まず、ユーザが、通信端末50に対して実行したいタスクに応じた発話を行う。当該発話がなされると、通信端末50がユーザの音声(発話)を入力する。入力された音声は、通信端末50から音声認識装置20に送信される。音声認識装置20は、通信端末50から音声を受信し、受信した音声に対して音声認識を行う。音声認識装置20は、音声認識の結果である文章(テキスト)を通信端末50に送信する。通信端末50は、音声認識の結果を受信して、更にタスク判定装置10に送信する。通信端末50は、この送信の際、コンテキストを特定するための情報であるコンテキストIDを合わせてタスク判定装置10送信する。コンテキストについては、後述する。なお、コンテキストIDは、ユーザ毎に予め設定されており、通信端末50に記憶されている。タスク判定装置10は、当該音声認識の結果を受信して、その音声認識の結果に基づいて実行すべきタスクを決定して、当該タスクの実行を指示する。
An instruction to execute a task by the
実行すべきタスクが検索タスクであれば、タスク判定装置10は、検索タスク処理装置40に対して検索の要求を行う。例えば、タスク判定装置10は、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)を検索タスク処理装置40に送信する。検索タスク処理装置40は、当該検索の要求を受信して、要求に応じた検索を実行する。検索タスク処理装置40は、検索結果を示す情報をタスク判定装置10に送信する。タスク判定装置10は、検索結果を示す情報を受信し、通信端末50に送信する。通信端末50は、タスク判定装置10から検索結果を示す情報を受信して、表示出力等の出力を行う。
If the task to be executed is a search task, the
実行すべきタスクが操作タスクであれば、タスク判定装置10は、通信端末50に対して操作の指示を行う。例えば、タスク判定装置10は、操作すべき機能を示す情報を通信端末50に送信する。通信端末50は、タスク判定装置10からの指示を受信して、当該指示に応じた操作を実行する。
If the task to be executed is an operation task, the
実行すべきタスクが雑談タスクであれば、タスク判定装置10は、雑談応答装置30に対して、音声認識の結果である文章を入力し、当該文章に対する応答の文章である応答文の生成の要求を行う。また、応答文の生成の要求の際に、タスク判定装置10は、コンテキストを特定するための情報であるコンテキストIDを雑談応答装置30に入力する。コンテキストは、一連のユーザの発話(ユーザの発話に基づく文章)における話題を示す情報である。雑談応答装置30は、タスク判定装置10から文章及びコンテキストIDを受信して、コンテキストIDからコンテキストを特定し、文章及びコンテキストに基づき当該文章に対する応答文を生成する。雑談応答装置30は、生成した応答文をタスク判定装置10に送信する。タスク判定装置10は、応答文を受信し、通信端末50に送信する。通信端末50は、タスク判定装置10から応答文を受信して、ユーザの発話に対する応答として当該応答文の表示又は音声等の出力を行う。
If the task to be executed is a chat task, the
上記の通り、通信端末50では、ユーザの発話に対して対話的に応答がなされる。即ち、タスク判定装置10は、通信端末50に対する対話エージェントを構成している。
As described above, the
なお、音声認識の結果である文章はいったん通信端末50に送られることなく、音声認識装置20からタスク判定装置10へ直接送信されてもよい。更に、タスク判定装置10と音声認識装置20は一体であってもよい。
Note that the text that is the result of voice recognition may be directly transmitted from the
音声認識装置20は、音声(音声データ)を入力して、入力した音声に対して音声認識を行い、音声認識を行った結果を出力する音声認識手段である装置である。具体的には、上述したように音声認識装置20は、通信端末50から音声データを受信する。音声認識装置20は、音声認識エンジンを有しており、当該音声認識エンジンを用いて音声認識を行う。音声認識自体は、従来の任意の音声認識方法を利用することができる。音声認識装置20は、音声認識結果を文章として取得して、通信端末50に送信する。なお、ここでいう文章には、例えば、単語の集合(1以上の単語からなる単語群)等の音声認識によって得られ、タスクの決定に用いることができる任意の文字情報が含まれえる。
The
雑談応答装置30は、上述したように、ユーザの発話による文章に対して応答文を生成する装置である。雑談応答装置30は、通信網等を介してタスク判定装置10と接続されており、タスク判定装置10との間で通信を行うことができる。図1に示すように、雑談応答装置30は、コンテキスト生成部31と、雑談応答生成部32とを備えて構成される。
As described above, the
コンテキスト生成部31は、タスク判定装置10からコンテキストの生成の要求を受信して、当該要求に基づいてコンテキストを生成する手段である。コンテキストは、具体的には、図2に示すように「ラーメン」、「横浜」、「天気」といった話題を示す単語である。雑談応答装置30は、図2に示すようなコンテキストとコンテキストを特定する情報であるコンテキストIDとを対応付けた情報であるコンテキスト管理テーブルを記憶しており、コンテキストIDからコンテキストを特定できるようになっている。なお、コンテキストIDは、例えば、通信端末50のユーザ毎にコンテキストを特定するための情報であり、当該ユーザ毎に予め割り振られている。図2に示す例では、コンテキストIDが「0001」(のユーザ)のコンテキストは存在せず、コンテキストIDが「0002」(のユーザ)のコンテキストは「ラーメン」である。
The
コンテキストの生成の要求には、コンテキストID、及びユーザの発話による文章が含まれている。コンテキスト生成部31は、当該要求に含まれる文章からコンテキストを抽出(生成)する。コンテキストの生成には、具体的には、従来の方法を用いることができる。例えば、Barbara J. Grosz and Candace L. Sidner, “Attention,intentions, and the structure of discourse Computational Linguistics”, Volume 12 Issue 3, 1986, Pages 175-204, MIT Press.(非特許文献2)に記載されているセンター理論により、ユーザの発話による文章から生成することができる。また、特に本理論を日本語に適用した吉田悦子,人文論叢: 三重大学人文学部文化学科研究紀要20, pp. 193-202, 2003, 三重大学.(非特許文献3)や竹井光子,藤原美保,相沢輝昭,センタリング理論とゼロ代名詞: 日本語コーパス分析と母語話者調査の結果から.言語処理学会第12 回年次大会発表論文集,pp. 292-295,2006.(非特許文献4)に記載された方法によれば、ユーザの発話による文章中の格助詞に注目して、名詞をコンテキストとして抽出することができる。なお、コンテキストの生成の方法は、上記のものに限られず、文章からコンテキストを生成するものであれば任意の方法を用いることができる。
The context generation request includes a context ID and a sentence by the user's utterance. The
コンテキスト生成部31は、コンテキストを生成すると、コンテキスト管理テーブルにおける、コンテキストの生成の要求に含まれるコンテキストIDに対応するコンテキストを、生成したコンテキストで更新する。例えば、要求に含まれる文章が「ラーメンが好きです」というものであった場合、コンテキスト生成部31は、「ラーメン」とのコンテキストを生成し、コンテキスト管理テーブルにおける、要求に含まれるコンテキストIDに対応するコンテキストを「ラーメン」に更新する。
When generating the context, the
なお、コンテキストの生成の要求に含まれる文章がコンテキストの生成(抽出)を行うのに適切でない場合には、コンテキストの生成は行われない。コンテキストの生成を行うのに適切でない文章とは、例えば、話題となりえる単語を含まない文章である。その場合、コンテキスト生成部31は、コンテキスト管理テーブルの更新を行わない。即ち、それ以前に更新されたコンテキストがそのままコンテキストIDに対応づけられた状態となる。
Note that if the text included in the context generation request is not appropriate for context generation (extraction), context generation is not performed. The sentence that is not appropriate for generating the context is, for example, a sentence that does not include a word that can become a topic. In that case, the
また、コンテキスト生成部31は、タスク判定装置10からコンテキストのリセットの要求を受信すると、当該要求に含まれるコンテキストIDに対応するコンテキストをコンテキスト管理テーブルから消去する。即ち、当該コンテキストIDに対応するコンテキストは存在しないものとされる。また、コンテキスト生成部31は、予めタイムアウト時間を記憶しておき、コンテキストの生成又は更新から当該タイムアウト時間を経過したら、当該コンテキストをコンテキスト管理テーブルから消去することとしてもよい。即ち、リセットだけでなく、タイムアウトによりコンテキストが消去されてもよい。また、コンテキスト生成部31は、コンテキスト管理テーブルからコンテキストを消去する際に、コンテキストIDも同時に消去してもよい。この場合、コンテキスト生成部31は、コンテキストの生成の要求があった場合、コンテキスト管理テーブルに当該要求に含まれるコンテキストIDを新たに生成する。上記のようなコンテキストIDを削除することでコンテキスト管理テーブルのサイズを縮小することができる。コンテキスト生成部31は、タスク判定装置10からの要求に応じた処理が完了するとその旨の応答をタスク判定装置10に対して行う。
When the
雑談応答生成部32は、文章及びコンテキストを入力して、当該文章に対する当該コンテキストに基づく応答の文章である応答文(雑談応答)を生成して出力する応答文生成手段である。雑談応答生成部32は、タスク判定装置10から応答文の生成の要求を受信して、当該要求に基づいて応答文を生成する。応答文の生成の要求には、コンテキストID、及びユーザの発話による文章が含まれている。雑談応答生成部32は、コンテキスト管理テーブルを参照して、要求に含まれるコンテキストIDに対応するコンテキストを特定(入力)する。雑談応答生成部32は、要求に含まれる文章に対する、特定したコンテキストに基づく応答文を生成する。
The chat
コンテキストを考慮した応答文の生成には、具体的には、従来の方法を用いることができる。例えば、H. Sugiyama, T. Meguro, R. Higashinaka, and Y. Minami, “Open-domain Utterance Generation for Conversational Dialogue Systemsusing Web-scale Dependency Structures”, Proceedings ofthe SIGDIAL 2013 Conference, pages 334-338, Metz, France, 22-24 August 2013.(非特許文献5)に記載されている方法を用いることができる。 Specifically, a conventional method can be used to generate a response sentence considering the context. For example, H. Sugiyama, T. Meguro, R. Higashinaka, and Y. Minami, “Open-domain Utterance Generation for Conversational Dialogue Systemsusing Web-scale Dependency Structures”, Proceedings of the SIGDIAL 2013 Conference, pages 334-338, Metz, France , 22-24 August 2013. (Non-patent document 5).
図3に、当該文献に記載された方法による応答文生成の処理の流れを示す。まず、雑談応答生成部32は、要求に含まれる文章を当該文章の語尾等の情報に基づき、行為(文献中のDialogue actに相当)という概念に抽象化する。例えば、雑談応答生成部32は、予め記憶した図4(a)に示す語尾と行為との対応を示す情報(語尾と行為との対応表)を用いて行為を特定する。例えば、要求に含まれる文章の語尾が「〜か」であれば行為を「質問」とする。語尾が「〜したい」であれば行為を「願望」とする。語尾が「〜した」であれば行為を「過去の事実」とする。
FIG. 3 shows a flow of response sentence generation processing by the method described in the document. First, the chat
続いて、雑談応答生成部32は、抽象化した行為に連なる次の行為を決定し、これを応答文(雑談応答)の行為とする。例えば、雑談応答生成部32は、予め記憶した図4(b)に示す前の行為と次の行為との対応を示す情報(次の行為を決定するためのルールである次の行為対応表)を用いて次の行為を決定する。例えば、抽象化した行為が「質問」であれば次の行為を「情報提供」とする。抽象化した行為が「願望」であれば次の行為を「同意」とする。抽象化した行為が「過去の事実」であれば次の行為を「質問」とする。
Subsequently, the chat
一方で、雑談応答生成部32は、特定したコンテキスト(文献中のTopicに相当)から当該コンテキストに関連した単語である関連語を抽出する。例えば、雑談応答生成部32は、予め記憶した図4(c)に示す名詞と関連語との対応を示す情報(ある名詞に関連する語が記述されている辞書である関連語辞書)を用いて関連語を抽出する。
On the other hand, the chat
続いて、雑談応答生成部32は、予め用意されて記憶した多数の応答文の中から、決定した次の行為に関連し、抽出した関連語を最も多く含む応答文を、要求に含まれる文章に対する応答文として選択する。例えば、雑談応答生成部32は、予め記憶した図4(d)に示すテキスト(応答文の候補)と行為との対応を示す情報(発話インデクス)を用いて応答文を選択(生成)する。なお、応答文の生成の方法は、上記のものに限られず、文章及びコンテキストから応答文を生成するものであれば任意の方法を用いることができる。雑談応答生成部32は、生成した応答文を要求に対する返信としてタスク判定装置10に送信する。
Subsequently, the chat
上記のように応答文の生成においてコンテキストが考慮されることで以下のような雑談対話が可能となる。
ユーザ「ラーメンが好きです」
エージェント「私も好きですよ」
ユーザ「何が一番好き」
エージェント「やっぱり塩ですね」
As described above, the following chat conversation is possible by considering the context in the generation of the response sentence.
User “I like ramen”
Agent “I like it too”
User “what you like best”
Agent "It's salt after all"
上記の雑談対話では、ユーザの最初の発話によって、コンテキストが「ラーメン」になる。そして、この情報が保持されることで、ユーザの次の発話に対しても「ラーメン」を考慮した雑談応答が返却される。なお、上記の例では、ユーザの「何が一番好き」との発話では新たなコンテキストは生成されない。 In the chat conversation, the context becomes “ramen” by the user's first utterance. And by holding this information, a chat response that considers “ramen” is also returned for the user's next utterance. In the above example, a new context is not generated when the user utters “what you like best”.
検索タスク処理装置40は、タスク判定装置10から検索の要求を受信(入力)して、当該要求に応じた検索を実行する手段である。検索タスク処理装置40は、通信網等を介してタスク判定装置10と接続されており、タスク判定装置10との間で通信を行うことができる。検索の要求には、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)が含まれる。検索タスク処理装置40は、実行すべき検索を示す情報に基づいて検索を行う。検索自体は、従来の方法と同様に行われる。検索タスク処理装置40は、検索の種別に応じて複数、設けられてもよい。検索の種別としては、レストランの位置を検索するグルメ検索等の施設検索や乗換案内等のナビゲーション情報の検索がある。検索タスク処理装置40は、実行した検索結果をタスク判定装置10に送信(出力)する。
The search
図1に示すように、タスク判定装置10は、文章入力部11と、コマンド生成部12と、タスク判定部13と、コンテキスト更新判定部14と、コンテキスト更新部15とを備えて構成される。
As illustrated in FIG. 1, the
文章入力部11は、文章(入力文、テキストデータ)を入力する文章入力手段である。具体的には、文章入力部11は、通信端末50から、音声認識装置20による音声認識の結果である文章を受信することで文章を入力する。また、文章入力部11は、通信端末50から、文書と合わせてコンテキストIDを受信する。文章入力部11に入力される文章は、通信端末50に対するユーザの発話単位である。即ち、一回の発話に含まれる文章を一つの単位として扱う。また、文章入力部11は、ユーザ毎に文章を入力する。以下の処理はユーザ毎に行われる。ユーザは、例えば上記のコンテキストIDによって特定される。また、例えば、タスク判定装置10に予めユーザを特定する情報であるユーザIDとコンテキストIDとを対応付けた情報を記憶させておき、通信端末50が、文章を送信する際、当該文章にユーザIDを対応付けておき、ユーザIDからコンテキストIDを特定することとしてもよい。文章入力部11は、入力した文章及びコンテキストIDをタスク判定部13に出力する。
The
コマンド生成部12は、複数のタスクの実行を指示する機能実行指示手段である。コマンド生成部12により実行が指示されるタスクには、文章入力部11によって入力された文章及びコンテキストに基づいて実行されるタスクを含む。そのようなタスクは、例えば、文章に対するコンテキストに基づく適当な応答文(雑談応答)を生成して出力するタスクである雑談タスクである。また、コマンド生成部12により実行が指示されるタスクには、コンテキストに基づかずに実行されるタスクが含まれる。そのようなタスクは、例えば、上述した検索タスクあるいは操作タスクである。コマンド生成部12によって実行が指示されるタスクは、後述するようにタスク判定部13により決定される。
The
また、コマンド生成部12は、通信端末50に送信する情報であるコマンドを生成して通信端末50に送信する。例えば、実行を指示するタスクが検索タスク(コンテンツ検索)である場合には、コマンド生成部12は、タスク判定部13から入力された情報に基づいて検索の要求を検索タスク処理装置40に対して送信する。続いて、コマンド生成部12は、当該要求に応じて検索タスク処理装置40から送信される検索結果を受信する。コマンド生成部12は、実行した(実行する)タスクを示す情報と検索結果の情報(検索コンテンツ)とをコマンドに含める。例えば、ユーザの発話が「周辺のレストランを表示」というものであった場合には、コマンドには、タスクを示す情報としてレストラン情報表示との情報、及び検索コンテンツとして周辺のレストラン情報が含められる。コマンドを受信した通信端末50は、コマンドに含まれる周辺のレストラン情報の表示を行う。
The
また、実行を指示するタスクが操作タスクである場合には、コマンド生成部12は、タスク判定部13から入力された情報に基づいて、電話、メール、カメラの起動等の通信端末50上での機能の操作を指示する内容(実行するタスクを示す情報)をコマンドに含める。例えば、ユーザの発話が「カメラ起動」というものであった場合には、コマンドには、タスクを示す情報としてカメラ起動との情報が含められる。コマンドを受信した通信端末50は、カメラ機能の起動を行う。
In addition, when the task instructing execution is an operation task, the
また、実行を指示するタスクが雑談タスク(雑談応答)である場合には、コマンド生成部12は、タスク判定部13から入力された情報(コンテキストID及びユーザの発話による文章)に基づいて応答文の生成の要求を雑談応答装置30に対して送信する。続いて、コマンド生成部12は、当該要求に応じて雑談応答装置30から送信される応答文を受信する。コマンド生成部12は、実行した(実行する)タスクを示す情報と応答文(雑談応答)とをコマンドに含める。例えば、ユーザの発話が「いつもありがとう」というものであった場合には、コマンドには、タスクを示す情報として雑談との情報、及び応答文として「お役に立ててうれしいです」が含められる。コマンドを受信した通信端末50は、コマンドに含まれる応答文を音声出力又は表示出力する。
When the task instructing execution is a chat task (chat response), the
タスク判定部13は、文章入力部11から入力した文章に基づいて、複数の機能からコマンド生成部12によって実行が指示されるタスクを決定する実行機能決定手段である。例えば、タスク判定部13は、機械学習によって得られた学習モデル(判定ルール)を用いてタスクを決定(判定)することとしてもよい。タスクの決定は、文章をどのタスクに分類するかという文書分類問題に帰着される。そこで、例えば、予めタスクに対応付いた発話事例を収集する。この発話事例を正解データ(サンプルデータ)として機械学習を行い、機械学習によって得られた学習モデルを用いてタスクを決定する。タスク判定部13は、文章入力部11から入力した文章を学習モデルに基づくタスク識別器に入力して、当該タスク識別器によってタスクを決定する。なお、タスク判定部13は、機械学習によって得られた学習モデルに基づくタスク識別器を利用できればよく、必ずしもタスク判定装置10において機械学習が行われる必要はない。その場合、タスク判定装置10は上記の機械学習を行った装置から、学習モデルを示す情報を予め取得しておく。
The
また、タスク判定部13は、上記の機械学習による方法以外にも予めタスク毎に単語、あるいはカテゴリにスコアを設定しておき、文章に含まれる単語、あるいは当該単語に対応付けられたカテゴリから、スコアを特定し、そのスコアに基づいてタスクを決定してもよい。例えば、合計のスコアが最も高いタスクを、実行が指示されるタスクに決定することとしてもよい。この場合の単語又はカテゴリのスコアは、タスクとの関連度合に応じて定められている。
In addition to the above-described method by machine learning, the
また、上記のタスクの決定方法によって妥当なタスクが決定されない場合に雑談タスクを実行するタスクとすることとしてもよい。また、タスク判定部13による実行が指示されるタスクの決定は、入力された文章に基づくものであればよく上記以外の任意の方法を用いることができる。例えば、非特許文献1、並びに本出願人による特許協力条約に基づく国際出願であるPCT/JP2013/064766(基礎出願:特願2012−137842)及び特願2012−137844の明細書に記載された方法等を用いることができる。
Moreover, it is good also as a task which performs a chat task when an appropriate task is not determined by said task determination method. Further, the
タスク判定部13は、実行が指示されるタスクを決定すると、コンテキスト更新判定部14に対して当該タスク、及び文章入力部11から入力されたコンテキストIDを通知する。また、タスクの通知に合わせて、タスク判定部13は、タスクの決定に用いた文章をコンテキスト更新判定部14に出力する。タスク判定部13は、当該タスクの通知に対する応答をコンテキスト更新判定部14から入力すると、コマンド生成部12に対して、決定したタスクの実行を指示するように要求する。当該要求には、実行するタスクを特定する情報及びタスクを実行するために必要な情報(スロットに入力される情報)も含められてもよい。
When the
タスクの実行の内容は、具体的には例えば、雑談タスクであれば、応答文の作成の基となる文章である。当該文章は、文章入力部11から入力したものである。また、雑談タスクであれば、文章入力部11から入力されたコンテキストIDが含められる。また、検索タスクであれば、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)である。タスク判定部13は、実行すべき検索を示す情報を文章入力部11から入力した文章から抽出する。当該抽出には、従来から用いられている方法を用いることができる。また、操作タスクであれば、実行すべき操作を示す情報である。タスク判定部13は、実行すべき検索を示す情報と同様に実行すべき操作を示す情報を文章入力部11から入力した文章から抽出する。
Specifically, for example, if the task is a chat task, the content of the execution of the task is a sentence serving as a basis for creating a response sentence. The sentence is input from the
また、タスク判定部13は、ユーザの音声によるタスクが実行される際にタスクの実行状態である対話状態を示す情報を保持し、当該対話状態を管理することとしてもよい。当該対話状態に応じたタスクに関する処理が行われる。例えば、メール作成のタスクが起動される際には、通信端末50は「メール作成」という対話状態となる。通信端末50では、「メール作成」という対話状態で、ユーザの音声によってメール本文や宛先の入力がなされる。また、1つのタスクの中に複数の対話状態があってもよい。例えば、ナビゲーションのタスクが実行される場合に、「タスク起動」、「目的地入力」、「確認入力」等のユーザの音声によって入力されるべき情報に応じた複数の対話状態があってもよい。タスク判定部13は、これらの対話状態の遷移を文章入力部11から入力された文章に基づいて判断する。この判断は、上記の実行が指示されるタスクの決定と同様に行われる。
Moreover, the
例えば、ナビゲーションタスクである場合には以下のような対話状態となる。まず、ユーザが「ナビゲーション起動」と発話した場合には、ナビゲーションタスクの「タスク起動」の対話状態となる。この場合、ナビゲーションタスクが起動され、また、エージェントは「どこに行きますか」と目的地の入力を促す出力を行う。これに対して、ユーザが「横浜まで行きたい」と発話した場合には、「目的地入力」の対話状態となる。この場合、入力された発話に基づいてナビゲーションのための情報が取得され、エージェントは「横浜が見つかりました。案内を開始しますか」と情報の出力の確認を促す出力を行う。これに対して、ユーザが「案内して」と発話した場合には、「確認入力」の対話状態となる。この場合、ナビゲーションタスクによる横浜へのナビゲーション(例えば、横浜までのルートを示す情報の出力)が実行される。 For example, in the case of a navigation task, the following dialog state is obtained. First, when the user utters “navigation activation”, the “task activation” dialog state of the navigation task is entered. In this case, the navigation task is activated, and the agent outputs “Where are you going?” To prompt the destination to be input. On the other hand, when the user speaks “I want to go to Yokohama”, the dialogue state of “destination input” is entered. In this case, information for navigation is acquired based on the input utterance, and the agent performs an output prompting confirmation of the output of the information “Yokohama was found. Do you want to start guidance?”. On the other hand, when the user utters “Guide”, the dialogue state of “Confirmation Input” is entered. In this case, navigation to Yokohama by the navigation task (for example, output of information indicating a route to Yokohama) is executed.
また、例えば、グルメ検索タスクである場合には以下のような対話状態となる。まず、ユーザが「お腹が減った」と発話した場合には、グルメ検索タスク「タスク起動」の対話状態となる。この場合、グルメ検索タスクが起動され、また、エージェントは「なにが食べたいですか」とグルメ検索の対象となる料理ジャンルの入力を促す出力を行う。これに対して、ユーザが「ラーメン」と発話した場合には、「料理ジャンル選択」の対話状態となる。この場合、入力された発話に基づいてグルメ検索が実行され、エージェントは「3件あります。最寄に案内しますか」と情報の出力の確認を促す出力を行う。これに対して、ユーザが「うんお願い」と発話した場合には、「確認入力」の対話状態となる。この場合、グルメ検索タスクによる情報の提示(例えば、最寄のラーメン店までのルートを示す情報の出力)が実行される。 Further, for example, in the case of a gourmet search task, the following dialogue state is set. First, when the user speaks “I am hungry”, a gourmet search task “task activation” is entered. In this case, the gourmet search task is activated, and the agent outputs “Who wants to eat?” And prompts the user to enter a food genre subject to gourmet search. On the other hand, when the user utters “ramen”, the dialog state “select food category” is entered. In this case, a gourmet search is executed based on the input utterance, and the agent performs an output prompting confirmation of the output of the information “There are three cases. On the other hand, when the user speaks “Yes”, the dialogue state of “confirmation input” is entered. In this case, presentation of information by a gourmet search task (for example, output of information indicating a route to the nearest ramen shop) is executed.
また、対話状態は、例えば、他のタスクが起動された際、あるいは、実行されているタスクが終了した際に遷移する。他のタスクが起動された際には、当該他のタスクに係る対話状態となる。また、実行されているタスクが終了した際には、何もタスクが実行されていない初期状態となる。タスクの終了は、実行されるタスクが正常に終了した場合(例えば、メール作成のタスクでは、メールの作成が終了しメール送信が行われた場合)や、ユーザの音声等によってタスクの実行が終了されられる場合(例えば、ユーザが「キャンセル」と発話した場合)になされる。 Also, the dialog state transitions when, for example, another task is activated or when the task being executed is terminated. When another task is activated, the conversation state relating to the other task is entered. Further, when the task being executed is completed, the initial state in which no task is executed is obtained. The task is terminated when the task to be executed is completed normally (for example, in the case of an e-mail creation task, e-mail creation is completed and e-mail transmission is performed), or the execution of the task is terminated by the user's voice, etc. Is performed (for example, when the user speaks “cancel”).
タスク判定部13は、対話状態を管理する場合には、実行が指示されるタスクに加えて、あるいは当該タスクに代えて、対話状態をコンテキスト更新判定部14に対して通知する。
When managing the dialog state, the
タスク判定部13は、文章入力部11から入力した文章に基づいて、コンテキストをリセットするか否かを判断してもよい。例えば、タスク判定部13は、「キャンセル」との文章が入力された場合(ユーザの発話が「キャンセル」との場合)等には、タスクの起動状態をリセットするタスクの実行を指示するよう判断する。この場合、タスク判定部13は、コンテキストをリセットするものと判断する。タスク判定部13は、コンテキストをリセットする場合には、その旨を文章入力部11から入力されたコンテキストIDと共にコンテキスト更新部15に通知する。
The
コンテキスト更新判定部14は、タスク判定部13によって決定されたタスクに基づいて、コンテキストの更新(生成)を行うか否かを判定するコンテキスト更新判定手段である。具体的には、コンテキスト更新判定部14は、コンテキスト更新判定を行うため、図5に示すコンテキスト更新ポリシーを予め記憶しておく。コンテキスト更新ポリシーは、タスク毎にコンテキストを更新すべきかが定義されている情報であり、具体的には、タスクと更新フラグとが対応付けられた情報である。コンテキスト更新判定部14は、タスク判定部13から決定されたタスクの通知を受けると共に文章を入力すると、コンテキスト更新ポリシーにおいて、タスク判定部13から通知されたタスクに対応付けられた更新フラグを参照する。コンテキスト更新判定部14は、参照した更新フラグが「1」であればコンテキストの更新を行うと判定し、「0」であればコンテキストの更新を行わないと判定する。
The context
コンテキスト更新ポリシーは、例えば、タスク判定装置の管理者等によって予め生成され、コンテキスト更新判定部14に記憶される。タスク毎に発話に含まれる単語のジャンル(カテゴリ)がある程度決まっており、これらの単語のジャンル(カテゴリ)がコンテキストとしてふさわしいか否かで、コンテキスト更新ポリシーを生成することができる。例えば、図5を例にとると、ナビゲーションタスクは、目的地までの案内をするタスクであり、当該タスクに係る発話には必ず目的地となる地名や施設が含まれる。これらは雑談のコンテキストとして適している。あるいはグルメ検索タスクにはグルメのジャンルが含まれ、これも同様に雑談のコンテキストとして適している。一方、音量や地図の大小を操作するタスクには、そのような単語が含まれないため、コンテキストとしては適さない。また、電話やメールの発信では、宛先等が含まれるが、これらの人名は雑談のコンテキストとして適さない。
The context update policy is generated in advance by, for example, an administrator of the task determination device and stored in the context
また、コンテキスト更新判定部14は、タスク判定部13からタスクに加えて対話状態が通知された場合には、当該対話状態に基づいて、コンテキストの更新を行うか否かを判定することとしてもよい。この場合、具体的には、コンテキスト更新判定を行うため、図6に示すコンテキスト更新ポリシーを予め記憶しておく。コンテキスト更新ポリシーは、タスク及び対話状態の組み合わせ毎にコンテキストを更新すべきかが定義されている情報であり、具体的には、タスク及び対話状態の組み合わせと更新フラグとが対応付けられた情報である。
In addition, when the dialog state is notified in addition to the task from the
コンテキスト更新判定部14は、コンテキスト更新ポリシーにおいて、タスク判定部13から通知されたタスク及び対話状態の組み合わせに対応付けられた更新フラグを参照する。コンテキスト更新判定部14は、参照した更新フラグが「1」であればコンテキストの更新を行うと判定し、「0」であればコンテキストの更新を行わないと判定する。
The context
この場合のコンテキスト更新ポリシーは、例えば、地名やレストランジャンル等の特定のスロットを埋める対話状態の更新フラグを「1」として設定される。 In the context update policy in this case, for example, an update flag in a dialog state for filling a specific slot such as a place name or a restaurant genre is set as “1”.
コンテキスト更新判定部14は、コンテキストの更新を行うと判定した場合、その旨をコンテキスト更新部15に通知する。また、コンテキスト更新判定部14は、タスク判定部13から入力された文章を、タスク判定部13から入力したコンテキストIDと共にコンテキスト更新のためにコンテキスト更新部15に出力する。その場合、コンテキスト更新判定部14は、コンテキスト更新部15からコンテキストの更新が完了した旨の応答を受けると、タスク判定部13に対して、タスクあるいはタスク及び対話状態の通知に対する応答を行う。また、コンテキスト更新判定部14は、コンテキストの更新を行わないと判定した場合、コンテキスト更新部15への通知は行わずに、タスク判定部13に対して、タスクあるいはタスク及び対話状態の通知に対する応答を行う。
When the context
コンテキスト更新部15は、コンテキスト更新判定部14による判定に応じて、コンテキスト更新判定部14から入力された文章に基づいてコンテキストを更新させるコンテキスト更新手段である。コンテキスト更新部15は、コンテキスト更新判定部14からコンテキストの更新を行うと判定した旨の通知を受け取った場合に雑談応答装置30に対してコンテキストの生成の要求を送信することで、コンテキストを更新させる。コンテキスト更新部15は、コンテキスト更新判定部14から入力された文章を、コンテキストを生成するための文章として当該要求に含める。また、コンテキスト更新部15は、コンテキスト更新対象となる、コンテキスト更新判定部14から入力したコンテキストIDを当該要求に含める。なお、このコンテキストIDは、通信端末50から入力された発話に係るユーザに対応するものである。即ち、コンテキスト更新部15は、ユーザ毎にコンテキストを更新させる。
The
また、コンテキスト更新部15は、タスク判定部13からコンテキストをリセットする旨の通知を受けた場合には、雑談応答装置30に対してコンテキストのリセット(消去)の要求を送信する。即ち、コンテキスト更新部15は、文章入力部11によって入力された文章に応じて、コンテキストをリセットする。以上が、本実施形態に係る各装置10〜50の機能構成である。
In addition, when the
図7に本実施形態に係るタスク判定装置10、音声認識装置20、雑談応答装置30及び検索タスク処理装置40を構成するサーバ装置のハードウェア構成を示す。図7に示すように当該サーバ装置は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述したタスク判定装置10、音声認識装置20、雑談応答装置30及び検索タスク処理装置40の機能が発揮される。以上が、本実施形態に係る各装置の構成である。
FIG. 7 shows a hardware configuration of a server device constituting the
引き続いて、図8のフローチャートを用いて、本実施形態に係る機能実行指示システムであるタスク判定装置10で実行される処理である機能実行指示方法を説明する。
Subsequently, a function execution instruction method that is a process executed by the
本実施形態に係るタスク判定装置10による処理が行われるため、本処理が行われる以前に、まず、通信端末50に対するユーザの操作が行われて、通信端末50に、機能を実行させるためのユーザの音声(発話)が入力される。続いて、当該音声が通信端末50から音声認識装置20に送信される。音声認識装置20では、当該音声が受信されて入力される(図示せず。音声認識ステップ)。続いて、音声認識装置20では、入力された音声に対して音声認識が行われる(図示せず、音声認識ステップ)。音声認識結果である文章を示す情報が音声認識装置20から通信端末50に送信される。通信端末50では、その情報が受信されて、タスク判定装置10に送信される。また、この際、合わせてコンテキストIDが、通信端末50からタスク判定装置10に送信される。
Since the process by the
タスク判定装置10では、文章入力部11によって、音声認識結果である文章及びコンテキストIDが受信されて入力される(S01、文章入力ステップ)。入力された情報は、文章入力部11からタスク判定部13に出力される。続いて、タスク判定部13によって、文章入力部11から入力された文章に基づいて、コマンド生成部12によって実行が指示されるタスクが決定される(S02、実行機能決定ステップ)。なお、この際に文章に基づいてタスクの実行状態である対話状態が決定されてもよい。
In the
決定されたタスクは文章及びコンテキストIDと共に、タスク判定部13からコンテキスト更新判定部14に通知される。コンテキスト更新判定部14では、通知されたタスクに基づいて、予め記憶されたコンテキスト更新ポリシーが参照されてコンテキストの更新(生成)を行うか否かが判定される(S03、コンテキスト更新判定ステップ)。なお、この判定の際に上記の対話状態が考慮されてもよい。コンテキストの更新を行うと判定された場合(S03のYES)、コンテキスト更新判定部14からコンテキスト更新部15にその旨が通知されると共に文章及びコンテキストIDが入力される。
The determined task is notified from the
続いて、コンテキスト更新部15から雑談応答装置30に対して、文章及びコンテキストIDが含められたコンテキストの生成の要求が送信される(S04、コンテキスト更新ステップ)。雑談応答装置30では、コンテキスト生成部31によって当該要求が受信され、当該要求に含まれる文章からコンテキストが生成される(S04、コンテキスト生成ステップ)。コンテキストが生成されると、コンテキスト管理テーブルにおける、上記の要求に含まれるコンテキストIDに対応するコンテキストが生成されたコンテキストで更新される。なお、文章がコンテキストの生成に適切でない場合には、コンテキストの更新は行われず、以前に更新された状態のままとなる。コンテキスト生成部31によってタスク判定装置10からの要求に応じた処理が完了すると、その旨の応答がコンテキスト生成部31からタスク判定装置10に対して行われる。コンテキストの更新を行わないと判定された場合(S03のNO)、S04の処理は行われない。
Subsequently, a request for generating a context including a sentence and a context ID is transmitted from the
S03のNO及びS04の処理に続いて、タスク判定部13からコマンド生成部12に対して、決定したタスクの実行を指示するように要求が行われる。続いて、決定したタスクが雑談タスクである場合(S05のYES)には、コマンド生成部12から雑談応答装置30に対して、応答文の生成の要求が送信される(S06、機能実行指示ステップ)。雑談応答装置30では、雑談応答生成部32によって当該要求が受信され、当該要求に含まれる文章からコンテキストが考慮されて応答文が生成される(S06、応答文生成ステップ)。生成された応答文は、雑談応答生成部32からタスク判定装置10に送信され、コマンド生成部12に受信される。決定したタスクが雑談タスクでない場合(S05のNO)には、S06の処理は行われない。
Subsequent to the NO and S04 processing in S03, the
S05のNO及びS06の処理に続いて、タスク判定部13からの決定したタスクの実行を指示する要求に基づいて、コマンド生成部12によってコマンドが生成される(S07、機能実行指示ステップ)。なお、実行を指示するタスクが検索タスクである場合には、コマンドの生成の際に検索タスク処理装置40から検索コンテンツが取得される。この場合、当該タスクの実行の指示が、コマンドの生成処理に含まれる。続いて、生成したコマンドは、コマンド生成部12から通信端末50に送信される(S08、機能実行指示ステップ)。
Following the processing of NO in S05 and the processing of S06, a command is generated by the
通信端末50では、当該コマンドが受信されて受信したコマンドに応じた動作が行われる。例えば、雑談タスクであれば応答文(雑談応答)の音声出力又は表示出力等が行われる。また、検索タスクであれば、検索コンテンツの表示出力等が行われる。また、操作タスクであれば、当該操作タスクに応じた通信端末50の動作が実行される。上記の通り、特に操作タスクの場合には、タスクの実行の指示がコマンドの出力処理に含まれえる。
The
なお、上記の処理は、ユーザの1回の発話に対応するものであり、ユーザの発話が繰り返し行われれば、上記の処理はユーザの発話の繰り返しに応じて上記の処理が繰り返し行われる。以上が、本実施形態に係る機能実行指示システムであるタスク判定装置10で実行される処理である。
Note that the above process corresponds to one utterance of the user, and if the user's utterance is repeated, the above process is repeated according to the repetition of the user's utterance. The above is the processing executed by the
ユーザの発話が繰り返されることで、上記の処理によれば以下のようなユーザとエージェントとの対話が可能となる。
ユーザ「横浜周辺の観光スポットを検索して」(タスク:観光地検索、コンテキスト:横浜)
エージェント「地図上に検索結果を表示しました」
ユーザ「少し地図を大きくして」(タスク:地図拡大、コンテキスト更新なし)
エージェント「地図を拡大します」
ユーザ「お勧めは」(タスク:雑談、コンテキスト更新なし)
エージェント「XXタワーがお勧めですね」
By repeating the user's utterance, according to the above processing, the following interaction between the user and the agent becomes possible.
User "Search for sightseeing spots around Yokohama" (task: sightseeing spot search, context: Yokohama)
Agent “Search results displayed on the map”
User “make the map a little larger” (task: enlarge map, no context update)
Agent "Enlarge Map"
User “Recommend” (task: chat, no context update)
Agent "XX Tower is recommended"
上記の対話では、ユーザの発話で雑談タスクが実行されているのは「お勧めは」との発話に対してのみである。しかし、それ以前のタスクを実行するための「横浜周辺の観光スポットを検索して」とのユーザの発話からコンテキストが生成されており、そのコンテキストが考慮された雑談応答となっている。また、上記の発話の後の「少し地図を大きくして」とのユーザの発話については、発話内容だけから考慮すると、例えば「地図」といったコンテキストを生成することも可能である。しかし、当該発話に基づくタスクから、コンテキストを更新しないと判定されている。ユーザの「お勧めは」との発話は、話の流れからして「横浜周辺の観光スポット」についてのお勧めを求めるものであると考えられるため、上記の応答は自然なものとなっている。 In the above dialogue, the chat task is executed only by the user's utterance for the utterance “Recommended”. However, a context is generated from the user's utterance “search for sightseeing spots around Yokohama” to execute the previous task, and the chat response takes the context into consideration. In addition, regarding the user's utterance “slightly enlarge the map” after the above utterance, considering only the utterance content, it is also possible to generate a context such as “map”. However, it is determined not to update the context from the task based on the utterance. Since the user's “Recommendation” utterance is thought to be a recommendation for “sightseeing spots around Yokohama” based on the flow of the story, the above response is natural. .
上記の通り、本実施形態によれば、雑談タスクの実行の際に用いられるコンテキストは、入力された文章に基づいて実行が指示されるタスクとして決定されたタスク、又は当該タスクの実行状態である対話状態に基づいて更新されるか否かが判断される。これにより、本実施形態では、コンテキストを更新すべき機能を実行する発話がなされた場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本実施形態によれば、一連の文章に基づいてコンテキストを考慮したタスクを実行する場合であっても、タスクの実行を適切に行うことができる。具体的には、雑談タスクであれば、ユーザの一連の発話に対する応答文を、ユーザに違和感のない自然なものとすることができる。この際、ユーザは実行されるタスクが雑談であるか、検索であるか等の意識をする必要はなく、エージェントとの対話によってタスクを実現することができる。 As described above, according to the present embodiment, the context used in the execution of the chat task is a task determined as a task instructed to be executed based on the input sentence, or an execution state of the task. It is determined whether or not to update based on the dialog state. Thereby, in this embodiment, when an utterance for executing a function whose context is to be updated is made, the context can be updated, and in other cases, the context can be maintained without being updated. it can. Therefore, according to this embodiment, even if it is a case where the task which considered the context based on a series of sentences is performed, execution of a task can be performed appropriately. Specifically, in the case of a chat task, a response sentence to a series of utterances of the user can be made natural without causing the user to feel uncomfortable. At this time, the user does not need to be aware of whether the task to be executed is a chat or a search, and the task can be realized by interaction with the agent.
また、本実施形態では、発話(入力された文章)そのものではなく、当該発話から決定されたタスクを利用して、コンテキストを更新すべきか否かを判定する。これには、以下のような利点がある。まず、発話はユーザが自由に入力するものであり無限にパターンが存在するため、発話それぞれに対して更新すべきか否かを判定することは困難である。これに対してタスクは、当該発話から生成される有限なものであるため、各タスクに対してポリシーを用意することは容易である。 In the present embodiment, it is determined whether or not the context should be updated using a task determined from the utterance, not the utterance (input sentence) itself. This has the following advantages. First, since the utterance is freely input by the user and there are infinite patterns, it is difficult to determine whether or not to update each utterance. On the other hand, since a task is a finite one generated from the utterance, it is easy to prepare a policy for each task.
更に、タスク毎に発話に含まれる単語のジャンル(カテゴリ)がある程度決まっており、これらの単語のジャンル(カテゴリ)がコンテキストとしてふさわしいか否かでコンテキスト更新ポリシーを生成することが可能である。例えば、ナビゲーションタスクやグルメ検索のタスクに係る発話には、通常、コンテキストとしてふさわしい(ジャンルの)単語が含まれる。一方、音量や地図の大小を操作するタスク、あるいは電話やメールの発信を行うタスクに係る発話には、通常、コンテキストとしてふさわしい(ジャンルの)単語が含まれない。コンテキスト更新ポリシーは、上記が考慮されて容易に作成されることができる。なお、コンテキストを更新するタスクとして適するか否かは、コンテキストを考慮して実行されるタスクに応じて適宜定められるものであり、必ずしも上記の例に限られない。 Furthermore, the genre (category) of words included in the utterance is determined to some extent for each task, and it is possible to generate a context update policy depending on whether the genre (category) of these words is suitable as a context. For example, utterances related to navigation tasks and gourmet search tasks usually include words (genres) suitable for context. On the other hand, utterances related to a task for manipulating the volume and the size of a map or a task for making a call or sending a mail usually do not include a word (genre) suitable for context. The context update policy can be easily created in consideration of the above. Note that whether or not the task is suitable as a task for updating the context is appropriately determined according to the task executed in consideration of the context, and is not necessarily limited to the above example.
また、本実施形態のようにコンテキストを考慮して実行するタスクを雑談タスクとすることとしてもよい。この構成によれば、例えば、雑談タスクの実行を、一連の文章に基づいてコンテキストを考慮して適切に行うことができる。なお、本実施形態では、機能実行指示システムには、応答文を作成する雑談応答装置30は含まれていないものとしたが、雑談応答装置30が含まれていてもよい。この構成によれば、雑談タスクを確実に実施することができる。
Moreover, it is good also considering the task performed considering a context like this embodiment as a chat task. According to this configuration, for example, the chat task can be appropriately performed in consideration of the context based on a series of sentences. In the present embodiment, the function execution instruction system does not include the
但し、コンテキストを考慮して実行するタスクは、必ずしも雑談タスクでなくてもよく、コンテキストが考慮されて実行されるタスクであれば任意のタスクに対しても本発明を適用することができる。 However, the task executed in consideration of the context is not necessarily a chat task, and the present invention can be applied to any task as long as the task is executed in consideration of the context.
また、本実施形態のように文章はユーザ毎に入力され、ユーザ毎にコンテキストが更新されてもよい。この構成によれば、複数のユーザについてタスクの実行を指示することができ、ユーザ毎にタスクの実行を適切に行うことができる。 Moreover, a sentence may be input for every user like this embodiment, and a context may be updated for every user. According to this configuration, task execution can be instructed for a plurality of users, and task execution can be appropriately performed for each user.
また、本実施形態のように「キャンセル」との発話等の状態をリセットするようなタスクに対しては、今までのコンテキストをリセット(消去)することとしてもよい。この構成によれば、適切かつ確実にコンテキストのリセットを行うことができ、タスクの実行を更に適切に行うことができる。 For a task that resets the state such as “cancel” utterance as in the present embodiment, the previous context may be reset (erased). According to this configuration, the context can be reset appropriately and reliably, and the task can be executed more appropriately.
また、本実施形態のように音声を入力して音声認識を行って、音声認識結果を入力される文章として、タスクを実行することとしてもよい。この構成によれば、ユーザの音声によってタスクを実行することが可能となる。本実施形態では、機能実行指示システムは音声認識装置20を含まない構成としていたが、音声認識装置20を含む構成としてもよい。即ち、機能実行指示システムを、タスク判定装置10と音声認識装置20とを含んだ構成としてもよい。なお、機能実行指示システムを、音声認識装置20を含まない構成とした場合、音声認識によらない文章が機能実行指示システムに入力されてもよい。
Further, as in the present embodiment, voice recognition may be performed by inputting voice, and the task may be executed as a sentence in which the voice recognition result is input. According to this configuration, the task can be executed by the user's voice. In the present embodiment, the function execution instruction system is configured not to include the
また、本実施形態では、タスク判定装置10と音声認識装置20とが別体として構成されていたが、それらが一体として構成されていてもよい。この場合、音声認識結果を、通信端末50を介して送受信する必要がない。また、雑談応答装置30がタスク判定装置10と一体として構成されていてもよい。また、通信端末50等のユーザに用いられる端末に、タスク判定装置10、音声認識装置20及び雑談応答装置30の少なくとも何れかの機能が備えられていてもよい。その場合、当該端末が本発明に係る機能実行指示システムを構成する。あるいは、タスク判定装置10がタスクを実行する機能を有しており、タスクの実行結果を通信端末50に提供する構成であってもよい。
Moreover, in this embodiment, although the
また、本実施形態では、雑談応答装置30では、雑談タスクが実行される場合であっても、コンテキストの更新と、応答文の生成とが独立して行われていた。即ち、雑談応答装置30は、生成したコンテキストを示す情報をタスク判定装置10に送信して、その後、応答文の生成の要求を受け付けて当該要求に応じて、応答文を生成していた。しかし、雑談タスクの実行における、コンテキストの更新と応答文の生成とは、一連の処理として行われてもよい。即ち、コンテキストを生成した後、コンテキストを示す情報をタスク判定装置10に送信せず、生成したコンテキストを用いて応答文を生成してもよい。
In the present embodiment, in the
10…タスク判定装置、11…文章入力部、12…コマンド生成部、13…タスク判定部、14…コンテキスト更新判定部、15…コンテキスト更新部、20…音声認識装置、30…雑談応答装置、31…コンテキスト生成部、32…雑談応答生成部、40…検索タスク処理装置、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、50…通信端末。
DESCRIPTION OF
Claims (7)
前記文章入力手段によって入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示手段と、
前記文章入力手段によって入力された文章に基づいて、前記複数の機能から前記機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、
前記実行機能決定手段によって決定された機能、又は当該機能の実行状態に基づいて、前記コンテキストの更新を行うか否かを判定するコンテキスト更新判定手段と、
前記コンテキスト更新判定手段による判定に応じて、前記文章入力手段によって入力された文章に基づいて前記コンテキストを更新させるコンテキスト更新手段と、
を備える機能実行指示システム。 A sentence input means for inputting sentences;
A function execution instruction means for instructing execution of a plurality of functions including a function executed based on a sentence and a context input by the sentence input means;
An execution function determination means for determining a function to be instructed to be executed by the function execution instruction means from the plurality of functions based on the text input by the sentence input means;
A context update determination unit that determines whether to update the context based on the function determined by the execution function determination unit or the execution state of the function;
Context updating means for updating the context based on the text input by the text input means in response to the determination by the context update determining means;
A function execution instruction system comprising:
前記コンテキスト更新手段は、ユーザ毎にコンテキストを更新させる、請求項1〜3の何れか一項に記載の機能実行指示システム。 The sentence input means inputs a sentence for each user,
The function execution instruction system according to claim 1, wherein the context update unit updates the context for each user.
前記文章入力ステップにおいて入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示ステップと、
前記文章入力ステップにおいて入力された文章に基づいて、前記複数の機能から前記機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、
前記実行機能決定ステップにおいて決定された機能、又は当該機能の実行状態に基づいて、前記コンテキストの更新を行うか否かを判定するコンテキスト更新判定ステップと、
前記コンテキスト更新判定ステップにおける判定に応じて、前記文章入力ステップにおいて入力された文章に基づいて前記コンテキストを更新させるコンテキスト更新ステップと、
を含む機能実行指示方法。 A sentence input step for inputting a sentence;
A function execution instruction step for instructing execution of a plurality of functions including a function executed based on the sentence and context input in the sentence input step;
An execution function determination step for determining a function to be executed in the function execution instruction step from the plurality of functions based on the sentence input in the sentence input step;
A context update determination step for determining whether to update the context based on the function determined in the execution function determination step or the execution state of the function;
In response to the determination in the context update determination step, a context update step for updating the context based on the text input in the text input step;
Function execution instruction method including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013218950A JP6280342B2 (en) | 2013-10-22 | 2013-10-22 | Function execution instruction system and function execution instruction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013218950A JP6280342B2 (en) | 2013-10-22 | 2013-10-22 | Function execution instruction system and function execution instruction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015081971A JP2015081971A (en) | 2015-04-27 |
JP6280342B2 true JP6280342B2 (en) | 2018-02-14 |
Family
ID=53012609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013218950A Active JP6280342B2 (en) | 2013-10-22 | 2013-10-22 | Function execution instruction system and function execution instruction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6280342B2 (en) |
Families Citing this family (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN104969289B (en) | 2013-02-07 | 2021-05-28 | 苹果公司 | Voice trigger of digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10769155B2 (en) * | 2016-05-17 | 2020-09-08 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
JP2018021987A (en) * | 2016-08-02 | 2018-02-08 | ユニロボット株式会社 | Conversation processing device and program |
JP6553007B2 (en) * | 2016-09-13 | 2019-07-31 | 株式会社東芝 | Dialogue flow control device, dialogue flow control method and program |
JP6922178B2 (en) * | 2016-09-30 | 2021-08-18 | 株式会社リコー | Speech recognition system, information processing device, program |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | User interface for correcting recognition errors |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | Low-latency intelligent automated assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Multi-modal interfaces |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
WO2019035371A1 (en) * | 2017-08-17 | 2019-02-21 | ソニー株式会社 | Information processing device, information processing method, and program |
JP7095254B2 (en) * | 2017-10-10 | 2022-07-05 | トヨタ自動車株式会社 | Dialogue system and domain determination method |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (en) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
JP7185489B2 (en) | 2018-10-30 | 2022-12-07 | 株式会社日立システムズ | Resource allocation method and resource allocation system |
JP7491221B2 (en) | 2018-11-22 | 2024-05-28 | ソニーグループ株式会社 | Response generation device, response generation method, and response generation program |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
CN112017642B (en) * | 2019-05-31 | 2024-04-26 | 华为技术有限公司 | Speech recognition method, apparatus, device and computer readable storage medium |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
JP2021071883A (en) * | 2019-10-30 | 2021-05-06 | 株式会社感性リサーチ | Information processing system, information processing method, and program |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070876A (en) * | 2002-08-09 | 2004-03-04 | Casio Comput Co Ltd | Conversation system and conversation processing program |
JP3920175B2 (en) * | 2002-08-29 | 2007-05-30 | 株式会社国際電気通信基礎技術研究所 | Call activation system |
JP4156563B2 (en) * | 2004-06-07 | 2008-09-24 | 株式会社デンソー | Word string recognition device |
JP2008064885A (en) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | Voice recognition device, voice recognition method and voice recognition program |
JP2008243048A (en) * | 2007-03-28 | 2008-10-09 | Toshiba Corp | Interaction device, interaction method and program |
JP2009037050A (en) * | 2007-08-02 | 2009-02-19 | Toyota Motor Corp | Interaction device and program for interaction |
JP5300497B2 (en) * | 2009-01-07 | 2013-09-25 | 株式会社東芝 | Dialogue device, dialogue program, and dialogue method |
JP2011033680A (en) * | 2009-07-30 | 2011-02-17 | Sony Corp | Voice processing device and method, and program |
WO2011030404A1 (en) * | 2009-09-09 | 2011-03-17 | トヨタ自動車株式会社 | Operating system and operating method |
-
2013
- 2013-10-22 JP JP2013218950A patent/JP6280342B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015081971A (en) | 2015-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6280342B2 (en) | Function execution instruction system and function execution instruction method | |
KR102178738B1 (en) | Automated assistant calls from appropriate agents | |
US20240031482A1 (en) | Synchronous Communication Using Voice and Text | |
US10978094B2 (en) | Method of and system for real time feedback in an incremental speech input interface | |
KR102112814B1 (en) | Parameter collection and automatic dialog generation in dialog systems | |
US9971766B2 (en) | Conversational agent | |
KR101881114B1 (en) | Identifying tasks in messages | |
US9502032B2 (en) | Dynamically biasing language models | |
RU2637874C2 (en) | Generation of interactive recommendations for chat information systems | |
KR101683083B1 (en) | Using context information to facilitate processing of commands in a virtual assistant | |
KR102351587B1 (en) | Initiating conversations with automated agents via selectable graphical elements | |
KR102364401B1 (en) | Contextual voice-driven deep bookmarking | |
US20160098994A1 (en) | Cross-platform dialog system | |
CN111557001B (en) | Method for providing natural language dialogue, computer device and computer readable storage medium | |
Iizuka et al. | Speech recognition technology and applications for improving terminal functionality and service usability | |
CN111556999B (en) | Method, computer device and computer readable storage medium for providing natural language dialogue by providing substantive answer in real time | |
CN114860910A (en) | Intelligent dialogue method and system | |
JP6223739B2 (en) | Function execution instruction system and function execution instruction method | |
JP7205962B1 (en) | System for automatic dialogue | |
Hadisukmana et al. | SMS READER ON ANDROID | |
KR20050077547A (en) | Speech recognizing and recording method without speech recognition grammar in voicexml |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6280342 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |