JP2015081971A - 機能実行指示システム及び機能実行指示方法 - Google Patents

機能実行指示システム及び機能実行指示方法 Download PDF

Info

Publication number
JP2015081971A
JP2015081971A JP2013218950A JP2013218950A JP2015081971A JP 2015081971 A JP2015081971 A JP 2015081971A JP 2013218950 A JP2013218950 A JP 2013218950A JP 2013218950 A JP2013218950 A JP 2013218950A JP 2015081971 A JP2015081971 A JP 2015081971A
Authority
JP
Japan
Prior art keywords
context
task
sentence
function
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013218950A
Other languages
English (en)
Other versions
JP6280342B2 (ja
Inventor
拓 藤本
Hiroshi Fujimoto
拓 藤本
可奈子 大西
Kanako Onishi
可奈子 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013218950A priority Critical patent/JP6280342B2/ja
Publication of JP2015081971A publication Critical patent/JP2015081971A/ja
Application granted granted Critical
Publication of JP6280342B2 publication Critical patent/JP6280342B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行う。
【解決手段】 タスク判定装置10は、文章を入力する文章入力部11と、入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示するコマンド生成部12と、入力された文章に基づいて、実行が指示される機能を決定するタスク判定部13と、決定された機能、又は当該機能の実行状態に基づいて、コンテキストの更新を行うか否かを判定するコンテキスト更新判定部14と、文章に基づいてコンテキストを更新させるコンテキスト更新部15とを備える。
【選択図】 図1

Description

本発明は、機能の実行を指示することができる機能実行指示システム及び機能実行指示方法に関する。
近年、特に携帯端末において、音声認識されたユーザの音声発話文に応じて、様々な操作や検索を行うことを可能とする音声エージェントのアプリケーションが増えている。例えば、ユーザの音声により、音楽や動画といったコンテンツの検索、メールや電話といった機能の操作が可能なシステムがある(例えば、非特許文献1参照)。このようなシステムを実現するために、エージェントは各種検索サーバ、各種端末機能とそれぞれ接続される。そして、ユーザの発話からユーザが実行したい機能(タスク)を判定し、その結果に応じてサーバや携帯端末においてタスクを実行させる。
例えば、非特許文献1で示したシステムでは、以下のように実行されるタスクが判定される。ユーザの発話が「ニュースが知りたい」というものである場合、ニュース検索のタスクが実行されるものと判定される。ユーザの発話が「XXさんに電話」というものである場合、電話機能のタスクが実行されるものと判定される。ユーザの発話が「こんにちは」というものである場合、雑談のタスクが実行されるものと判定される。
上記の通り、非特許文献1で示したシステムでは、通常の検索タスクや操作タスク以外に雑談にも対応している。雑談とは、ユーザの発話が通常の検索タスクや操作タスクを実行するものでなかった場合に、ユーザの発話(雑談発話)に応じた音声やテキストの出力による応答を行って、ユーザがシステムと会話(雑談)する機能である。
吉村健,「しゃべってコンシェルと言語処理」,情報処理学会研究報告. SLP,音声言語情報処理 2012-SLP-93(4),1-6,2012-10-19
このような仕組みを実現する対話システムの一例を図9に示す。対話システムは、対話エージェント、雑談応答システム及びコンテンツ検索システムを含んで構成される。対話エージェントは、ユーザから発話を受け取り、応答を返すシステムである。対話エージェントは、ユーザの発話に基づいて実行するタスクが何れであるかを判定し、判定したタスクに応じた応答を別のシステムから取得してユーザに対して出力する。実行するタスクは、雑談、検索及び操作タスク等の何れかである。
対話エージェントは、判定したタスクが雑談タスクである場合には、雑談応答システムにユーザの発話を出力する。雑談応答システムは、発話を入力し、当該発話(雑談)に対する応答文を生成して、当該応答文を発話に対する応答として対話エージェントに出力する。対話エージェントは、判定したタスクが検索タスクである場合には、発話に応じた検索をコンテンツ検索システムに対して要求する。コンテンツ検索システムは、要求された検索を行い、検索結果を発話に対する応答として対話エージェントに出力する。対話エージェントは、判定したタスクが操作タスクである場合には、端末(ユーザ端末)上で動作する、発話に応じた機能を起動、操作する。
このようなシステムの拡張として、複数回にわたる音声対話による検索や操作(タスク)の実現も考えられる。対話例を以下に示す。
ユーザ「お腹が減った」
エージェント「何を食べますか」
ユーザ「ラーメン」
エージェント「付近に3件のラーメン店があります。最寄に案内しますか」
ユーザ「はい」
これらは何れも一つのタスク(例えば、グルメ検索タスク)内での対話であるが、対話が進むにつれて状態が変化していく。例えば、最初のユーザの発話は、タスクを起動する状態での発話(タスクを起動するための発話)、二番目のユーザの発話は、料理ジャンルを検索する状態での発話(料理ジャンルを特定するための発話)、そして三番目のユーザの発話は確認入力の状態での発話である。
高度な雑談応答システムは、ユーザの発話に対して単に応答(雑談応答)するだけでなく、それまでのユーザとのやり取りに応じたコンテキストを生成し、生成したコンテキストに応じた応答を行う。コンテキストを考慮した雑談対話の例を以下に示す。
ユーザ「ラーメンが好きです」
エージェント「私も好きですよ」
ユーザ「何が一番好き」
エージェント「やっぱり塩ですね」
上記の例では、最初のユーザの発話によって、エージェントはコンテキストとして「ラーメン」を設定する。二番目のユーザの発話では「好き」というものの対象が示されていないが、設定されたコンテキストを考慮することで「ラーメン」の種類を答えることができる。
ここで、図9に示したような対話システムを考える。上述した対話システムでは、実行されるタスクは互いに独立している。従って、対話エージェントは、実行されるタスクが雑談タスクである場合に限り、雑談応答システムに発話を渡す。雑談応答システムは、発話を渡されると当該発話に基づいてコンテキストを作成し、雑談応答文を返信する。ここで、以下のような対話を考える。
ユーザ「ラーメンが食べたい」(タスク:グルメ検索)
エージェント「付近に3件のラーメン店があります。最寄に案内しますか」
ユーザ「はい」
ユーザ「何が一番好き」(タスク:雑談)
エージェント「ご主人さまのお役に立つことです」
上記の例では、ユーザはラーメンについて何が一番好きか答えて欲しかったものと考えられるが、エージェントはラーメンとは全く関係のない答えを返している。これは、最初の「ラーメンが食べたい」とのユーザの発話がグルメ検索のタスクを実行させるためのものであり、雑談応答システムに発話が送られず、「ラーメン」のコンテキストが生成されなかったことが原因である。このように、実行されるタスクが雑談タスクである場合のみ、発話を雑談応答システムに入力するとユーザとエージェントとの会話が不自然なものとなる。
この問題を解決するために、全ての発話を雑談応答システムに入力し、コンテキストを更新していく方法が考えられる。しかし、そうした場合、下記のようなユーザにとって大きな意味のない発話に対しても、コンテキストの生成が行われてしまう可能性がある。
ユーザ「横浜周辺の観光スポットを検索して」(タスク:観光地検索、コンテキスト:横浜)
エージェント「地図上に検索結果を表示しました」
ユーザ「少し地図を大きくして」(タスク:地図拡大、コンテキスト:地図)
エージェント「地図を拡大します」
ユーザ「お勧めは」(タスク:雑談)
エージェント「地図機能はお勧めですね」
上記の例では、ユーザが地図の操作を行っているため、ユーザの「お勧めは」との発話に対して、エージェントは「地図」に関連した応答をしている。しかし、ユーザの「お勧めは」との発話に対しては、それ以前のユーザの発話の「横浜」に関連した応答を返信するのが自然である。このように、ユーザの発話毎にコンテキストを更新したとしても、ユーザとエージェントとの会話が不自然なものとなってしまう。
本発明は、上記の問題点に鑑みてなされたものであり、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる機能実行指示システム及び機能実行指示方法を提供することを目的とする。
上記の目的を達成するために、本発明に係る機能実行指示システムは、文章を入力する文章入力手段と、文章入力手段によって入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示手段と、文章入力手段によって入力された文章に基づいて、複数の機能から機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、実行機能決定手段によって決定された機能、又は当該機能の実行状態に基づいて、コンテキストの更新を行うか否かを判定するコンテキスト更新判定手段と、コンテキスト更新判定手段による判定に応じて、文章入力手段によって入力された文章に基づいてコンテキストを更新させるコンテキスト更新手段と、を備える。
本発明に係る機能実行指示システムでは、文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行が指示される。当該コンテキストは、文章に基づいて実行が指示される機能として決定された機能、又は当該機能の実行状態に基づいて更新されるか否かが判断される。これにより、本発明に係る機能実行指示システムでは、コンテキストを更新すべき機能を実行する文章が入力された場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本発明に係る機能実行指示システムによれば、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる。
機能実行指示手段は、文章入力手段によって入力された文章及びコンテキストを入力として実行される機能として、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する機能の実行を指示することとしてもよい。この構成によれば、例えば、雑談応答の機能の実行を、一連の文章に基づいてコンテキストを考慮して適切に行うことができる。
機能実行指示システムは、機能実行指示手段から文章及びコンテキストを入力して、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する応答文生成手段を更に備えることとしてもよい。この構成によれば、例えば、本発明による雑談応答の機能を確実に実施することができる。
文章入力手段は、ユーザ毎に文章を入力し、コンテキスト更新手段は、ユーザ毎にコンテキストを更新させる、こととしてもよい。この構成によれば、ユーザ毎に機能の実行を適切に行うことができる。
コンテキスト更新手段は、文章入力手段によって入力された文章に応じて、コンテキストをリセットすることとしてもよい。この構成によれば、適切かつ確実にコンテキストのリセットを行うことができ、機能の実行を更に適切に行うことができる。
機能実行指示システムは、音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を文章入力手段に入力する音声認識手段を更に備えることとしてもよい。この構成によれば、ユーザの音声によって機能を実行することが可能となる。
ところで、本発明は、上記のように機能実行指示システムの発明として記述できる他に、以下のように機能実行指示方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
即ち、本発明に係る機能実行指示方法は、文章を入力する文章入力ステップと、文章入力ステップにおいて入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示ステップと、文章入力ステップにおいて入力された文章に基づいて、複数の機能から機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、実行機能決定ステップにおいて決定された機能、又は当該機能の実行状態に基づいて、コンテキストの更新を行うか否かを判定するコンテキスト更新判定ステップと、コンテキスト更新判定ステップにおける判定に応じて、文章入力ステップにおいて入力された文章に基づいてコンテキストを更新させるコンテキスト更新ステップと、を含む。
本発明では、コンテキストを更新すべき機能を実行する文章が入力された場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本発明によれば、一連の文章に基づいてコンテキストを考慮した機能を実行する場合であっても、機能の実行を適切に行うことができる。
本発明の実施形態に係る機能実行指示システムであるタスク判定装置の構成、及び当該タスク判定装置を含むシステムの構成を示す図である。 雑談応答装置において保持されるコンテキスト管理テーブルを示す表である。 雑談応答装置における応答文生成の流れを示す図である。 応答文作成に用いられる情報を示す表である。 コンテキストの更新の判断に用いられるコンテキスト更新ポリシーを示す表である。 コンテキストの更新の判断に用いられるコンテキスト更新ポリシーの別の例を示す表である。 本発明の実施形態に係る機能実行指示システムであるタスク判定装置のハードウェア構成を示す図である。 本発明の実施形態に係る機能実行指示システムで実行される処理(機能実行指示方法)を示すフローチャートである。 ユーザの発話に応じた処理を行う対話システムの一例を示す図である。
以下、図面と共に本発明に係る機能実行指示システム及び機能実行指示方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係る機能実行指示システムであるタスク判定装置10を示す。タスク判定装置10は、予め設定された複数の機能の実行を指示する装置である。なお、本実施形態では、実行される機能をタスクと呼ぶ。タスクの実行の指示は、雑談応答装置30、検索タスク処理装置40及び通信端末50の何れかに対して行われる。また、後述するように実行が指示されるタスクは、通信端末50のユーザの発話に基づいて判断される。また、タスクの実行の指示は、通信端末50のユーザの発話をトリガとして行われる。即ち、ユーザが発話することで機能が実行される。タスク判定装置10によるタスクの実行の指示が行われるため、通信端末50は、音声認識装置20と情報が送受信可能なように構成されている。
また、タスク判定装置10によって実行が指示されるタスクは、例えば、検索タスク、操作タスク、雑談タスク等の種別がある。検索タスクは、ユーザが希望する情報を検索するものである。具体的には、検索タスクは、グルメ検索(レストラン検索)等の施設検索や乗換案内等のナビゲーション情報の検索である。検索の実行は検索タスク処理装置40によって行われ、検索結果の情報は通信端末50に出力される。
操作タスクは、通信端末50が有する機能を操作するものである。操作される通信端末50が有する機能としては、例えば、メール作成、音楽プレーヤ、スケジューラ、電話の発着信、カメラ等の機能がある。具体的には、通信端末50においてそれらのタスクを実行するためのアプリケーションプログラムが起動される。更にタスクの内容によっては、アプリケーションプログラム起動後の動作も行われる。例えば、メール作成のタスクでは、メール本文や宛先への情報の入力が行われる。
雑談タスクは、ユーザの発話に対して、適当な会話を構成する応答文を出力するものである。応答文は、雑談応答装置30によって生成されて、通信端末50に出力される。
また、実行が指示されるタスクには、単語を入力(引数)とする機能があってもよい。これをタスクのスロットと呼ぶ。スロットは、タスク毎に予め定められている。例えば、乗換案内のタスクであれば、発駅や着駅をスロットへの入力としてタスクが実行される。あるいは、グルメ検索のタスクであれば、料理名をスロットへの入力として、入力された料理に関しての店舗が検索される。また、電話帳検索のタスクであれば、人名をスロットへの入力として、入力された人名に対応付けられた電話番号等の情報が検索される。なお、タスクには0個以上のスロットが定義されていてもよい。即ち、スロットがないタスクがあってもよい。以上が、本実施形態に係る各装置10〜50の概要である。引き続いて、各装置10〜50についてより詳細に説明する。
通信端末50は、通信網(例えば、移動体通信網)を介してタスク判定装置10及び音声認識装置20等と通信を行うことができる装置であり、例えば、携帯電話機(スマートフォンを含む)やPC(Personal Computer)に相当する。また、通信端末50は、自動車等の車両で用いられるカーナビゲーション機能を搭載する端末であってもよい。また、通信端末50は、雑談応答装置30及び検索タスク処理装置40との間で直接、通信を行えるものとしてもよい。
上記のタスクは、ユーザの音声をトリガとして実行されるため、通信端末50はユーザの音声を入力する機能(音声認識インタフェース)を有している。また、通信端末50は、タスク判定装置10からの指示を受けてタスクを実行する機能、及びタスク判定装置10からタスクの実行結果を受信して出力する機能、例えば、情報の受信機能、情報処理機能及び表示機能(例えば、各種のコンテンツを表示するブラウザ)等を有している。
即ち、通信端末50は、1つ以上の(あるいは複数の)タスクを実行する機能実行手段を有している。具体的には、通信端末50は、タスクに対応するアプリケーションプログラムを予め記憶しておき、記憶したアプリケーションプログラムを実行(起動)することによってタスクを実行する。通信端末50によって実行されるタスクは、後述するようにタスク判定装置10によって指示される。また、タスクの実行は、アプリケーションを実行する以外にも、ネットワークからタスクに応じた情報を取得することで行われてもよい。
通信端末50は、上記の機能を実行するためのアプリケーション(対話アプリ)を自端末上で実行して、上記の機能を実現することとしてもよい。
タスク判定装置10によるタスクの実行の指示は、次のように行われる。まず、ユーザが、通信端末50に対して実行したいタスクに応じた発話を行う。当該発話がなされると、通信端末50がユーザの音声(発話)を入力する。入力された音声は、通信端末50から音声認識装置20に送信される。音声認識装置20は、通信端末50から音声を受信し、受信した音声に対して音声認識を行う。音声認識装置20は、音声認識の結果である文章(テキスト)を通信端末50に送信する。通信端末50は、音声認識の結果を受信して、更にタスク判定装置10に送信する。通信端末50は、この送信の際、コンテキストを特定するための情報であるコンテキストIDを合わせてタスク判定装置10送信する。コンテキストについては、後述する。なお、コンテキストIDは、ユーザ毎に予め設定されており、通信端末50に記憶されている。タスク判定装置10は、当該音声認識の結果を受信して、その音声認識の結果に基づいて実行すべきタスクを決定して、当該タスクの実行を指示する。
実行すべきタスクが検索タスクであれば、タスク判定装置10は、検索タスク処理装置40に対して検索の要求を行う。例えば、タスク判定装置10は、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)を検索タスク処理装置40に送信する。検索タスク処理装置40は、当該検索の要求を受信して、要求に応じた検索を実行する。検索タスク処理装置40は、検索結果を示す情報をタスク判定装置10に送信する。タスク判定装置10は、検索結果を示す情報を受信し、通信端末50に送信する。通信端末50は、タスク判定装置10から検索結果を示す情報を受信して、表示出力等の出力を行う。
実行すべきタスクが操作タスクであれば、タスク判定装置10は、通信端末50に対して操作の指示を行う。例えば、タスク判定装置10は、操作すべき機能を示す情報を通信端末50に送信する。通信端末50は、タスク判定装置10からの指示を受信して、当該指示に応じた操作を実行する。
実行すべきタスクが雑談タスクであれば、タスク判定装置10は、雑談応答装置30に対して、音声認識の結果である文章を入力し、当該文章に対する応答の文章である応答文の生成の要求を行う。また、応答文の生成の要求の際に、タスク判定装置10は、コンテキストを特定するための情報であるコンテキストIDを雑談応答装置30に入力する。コンテキストは、一連のユーザの発話(ユーザの発話に基づく文章)における話題を示す情報である。雑談応答装置30は、タスク判定装置10から文章及びコンテキストIDを受信して、コンテキストIDからコンテキストを特定し、文章及びコンテキストに基づき当該文章に対する応答文を生成する。雑談応答装置30は、生成した応答文をタスク判定装置10に送信する。タスク判定装置10は、応答文を受信し、通信端末50に送信する。通信端末50は、タスク判定装置10から応答文を受信して、ユーザの発話に対する応答として当該応答文の表示又は音声等の出力を行う。
上記の通り、通信端末50では、ユーザの発話に対して対話的に応答がなされる。即ち、タスク判定装置10は、通信端末50に対する対話エージェントを構成している。
なお、音声認識の結果である文章はいったん通信端末50に送られることなく、音声認識装置20からタスク判定装置10へ直接送信されてもよい。更に、タスク判定装置10と音声認識装置20は一体であってもよい。
音声認識装置20は、音声(音声データ)を入力して、入力した音声に対して音声認識を行い、音声認識を行った結果を出力する音声認識手段である装置である。具体的には、上述したように音声認識装置20は、通信端末50から音声データを受信する。音声認識装置20は、音声認識エンジンを有しており、当該音声認識エンジンを用いて音声認識を行う。音声認識自体は、従来の任意の音声認識方法を利用することができる。音声認識装置20は、音声認識結果を文章として取得して、通信端末50に送信する。なお、ここでいう文章には、例えば、単語の集合(1以上の単語からなる単語群)等の音声認識によって得られ、タスクの決定に用いることができる任意の文字情報が含まれえる。
雑談応答装置30は、上述したように、ユーザの発話による文章に対して応答文を生成する装置である。雑談応答装置30は、通信網等を介してタスク判定装置10と接続されており、タスク判定装置10との間で通信を行うことができる。図1に示すように、雑談応答装置30は、コンテキスト生成部31と、雑談応答生成部32とを備えて構成される。
コンテキスト生成部31は、タスク判定装置10からコンテキストの生成の要求を受信して、当該要求に基づいてコンテキストを生成する手段である。コンテキストは、具体的には、図2に示すように「ラーメン」、「横浜」、「天気」といった話題を示す単語である。雑談応答装置30は、図2に示すようなコンテキストとコンテキストを特定する情報であるコンテキストIDとを対応付けた情報であるコンテキスト管理テーブルを記憶しており、コンテキストIDからコンテキストを特定できるようになっている。なお、コンテキストIDは、例えば、通信端末50のユーザ毎にコンテキストを特定するための情報であり、当該ユーザ毎に予め割り振られている。図2に示す例では、コンテキストIDが「0001」(のユーザ)のコンテキストは存在せず、コンテキストIDが「0002」(のユーザ)のコンテキストは「ラーメン」である。
コンテキストの生成の要求には、コンテキストID、及びユーザの発話による文章が含まれている。コンテキスト生成部31は、当該要求に含まれる文章からコンテキストを抽出(生成)する。コンテキストの生成には、具体的には、従来の方法を用いることができる。例えば、Barbara J. Grosz and Candace L. Sidner, “Attention,intentions, and the structure of discourse Computational Linguistics”, Volume 12 Issue 3, 1986, Pages 175-204, MIT Press.(非特許文献2)に記載されているセンター理論により、ユーザの発話による文章から生成することができる。また、特に本理論を日本語に適用した吉田悦子,人文論叢: 三重大学人文学部文化学科研究紀要20, pp. 193-202, 2003, 三重大学.(非特許文献3)や竹井光子,藤原美保,相沢輝昭,センタリング理論とゼロ代名詞: 日本語コーパス分析と母語話者調査の結果から.言語処理学会第12 回年次大会発表論文集,pp. 292-295,2006.(非特許文献4)に記載された方法によれば、ユーザの発話による文章中の格助詞に注目して、名詞をコンテキストとして抽出することができる。なお、コンテキストの生成の方法は、上記のものに限られず、文章からコンテキストを生成するものであれば任意の方法を用いることができる。
コンテキスト生成部31は、コンテキストを生成すると、コンテキスト管理テーブルにおける、コンテキストの生成の要求に含まれるコンテキストIDに対応するコンテキストを、生成したコンテキストで更新する。例えば、要求に含まれる文章が「ラーメンが好きです」というものであった場合、コンテキスト生成部31は、「ラーメン」とのコンテキストを生成し、コンテキスト管理テーブルにおける、要求に含まれるコンテキストIDに対応するコンテキストを「ラーメン」に更新する。
なお、コンテキストの生成の要求に含まれる文章がコンテキストの生成(抽出)を行うのに適切でない場合には、コンテキストの生成は行われない。コンテキストの生成を行うのに適切でない文章とは、例えば、話題となりえる単語を含まない文章である。その場合、コンテキスト生成部31は、コンテキスト管理テーブルの更新を行わない。即ち、それ以前に更新されたコンテキストがそのままコンテキストIDに対応づけられた状態となる。
また、コンテキスト生成部31は、タスク判定装置10からコンテキストのリセットの要求を受信すると、当該要求に含まれるコンテキストIDに対応するコンテキストをコンテキスト管理テーブルから消去する。即ち、当該コンテキストIDに対応するコンテキストは存在しないものとされる。また、コンテキスト生成部31は、予めタイムアウト時間を記憶しておき、コンテキストの生成又は更新から当該タイムアウト時間を経過したら、当該コンテキストをコンテキスト管理テーブルから消去することとしてもよい。即ち、リセットだけでなく、タイムアウトによりコンテキストが消去されてもよい。また、コンテキスト生成部31は、コンテキスト管理テーブルからコンテキストを消去する際に、コンテキストIDも同時に消去してもよい。この場合、コンテキスト生成部31は、コンテキストの生成の要求があった場合、コンテキスト管理テーブルに当該要求に含まれるコンテキストIDを新たに生成する。上記のようなコンテキストIDを削除することでコンテキスト管理テーブルのサイズを縮小することができる。コンテキスト生成部31は、タスク判定装置10からの要求に応じた処理が完了するとその旨の応答をタスク判定装置10に対して行う。
雑談応答生成部32は、文章及びコンテキストを入力して、当該文章に対する当該コンテキストに基づく応答の文章である応答文(雑談応答)を生成して出力する応答文生成手段である。雑談応答生成部32は、タスク判定装置10から応答文の生成の要求を受信して、当該要求に基づいて応答文を生成する。応答文の生成の要求には、コンテキストID、及びユーザの発話による文章が含まれている。雑談応答生成部32は、コンテキスト管理テーブルを参照して、要求に含まれるコンテキストIDに対応するコンテキストを特定(入力)する。雑談応答生成部32は、要求に含まれる文章に対する、特定したコンテキストに基づく応答文を生成する。
コンテキストを考慮した応答文の生成には、具体的には、従来の方法を用いることができる。例えば、H. Sugiyama, T. Meguro, R. Higashinaka, and Y. Minami, “Open-domain Utterance Generation for Conversational Dialogue Systemsusing Web-scale Dependency Structures”, Proceedings ofthe SIGDIAL 2013 Conference, pages 334-338, Metz, France, 22-24 August 2013.(非特許文献5)に記載されている方法を用いることができる。
図3に、当該文献に記載された方法による応答文生成の処理の流れを示す。まず、雑談応答生成部32は、要求に含まれる文章を当該文章の語尾等の情報に基づき、行為(文献中のDialogue actに相当)という概念に抽象化する。例えば、雑談応答生成部32は、予め記憶した図4(a)に示す語尾と行為との対応を示す情報(語尾と行為との対応表)を用いて行為を特定する。例えば、要求に含まれる文章の語尾が「〜か」であれば行為を「質問」とする。語尾が「〜したい」であれば行為を「願望」とする。語尾が「〜した」であれば行為を「過去の事実」とする。
続いて、雑談応答生成部32は、抽象化した行為に連なる次の行為を決定し、これを応答文(雑談応答)の行為とする。例えば、雑談応答生成部32は、予め記憶した図4(b)に示す前の行為と次の行為との対応を示す情報(次の行為を決定するためのルールである次の行為対応表)を用いて次の行為を決定する。例えば、抽象化した行為が「質問」であれば次の行為を「情報提供」とする。抽象化した行為が「願望」であれば次の行為を「同意」とする。抽象化した行為が「過去の事実」であれば次の行為を「質問」とする。
一方で、雑談応答生成部32は、特定したコンテキスト(文献中のTopicに相当)から当該コンテキストに関連した単語である関連語を抽出する。例えば、雑談応答生成部32は、予め記憶した図4(c)に示す名詞と関連語との対応を示す情報(ある名詞に関連する語が記述されている辞書である関連語辞書)を用いて関連語を抽出する。
続いて、雑談応答生成部32は、予め用意されて記憶した多数の応答文の中から、決定した次の行為に関連し、抽出した関連語を最も多く含む応答文を、要求に含まれる文章に対する応答文として選択する。例えば、雑談応答生成部32は、予め記憶した図4(d)に示すテキスト(応答文の候補)と行為との対応を示す情報(発話インデクス)を用いて応答文を選択(生成)する。なお、応答文の生成の方法は、上記のものに限られず、文章及びコンテキストから応答文を生成するものであれば任意の方法を用いることができる。雑談応答生成部32は、生成した応答文を要求に対する返信としてタスク判定装置10に送信する。
上記のように応答文の生成においてコンテキストが考慮されることで以下のような雑談対話が可能となる。
ユーザ「ラーメンが好きです」
エージェント「私も好きですよ」
ユーザ「何が一番好き」
エージェント「やっぱり塩ですね」
上記の雑談対話では、ユーザの最初の発話によって、コンテキストが「ラーメン」になる。そして、この情報が保持されることで、ユーザの次の発話に対しても「ラーメン」を考慮した雑談応答が返却される。なお、上記の例では、ユーザの「何が一番好き」との発話では新たなコンテキストは生成されない。
検索タスク処理装置40は、タスク判定装置10から検索の要求を受信(入力)して、当該要求に応じた検索を実行する手段である。検索タスク処理装置40は、通信網等を介してタスク判定装置10と接続されており、タスク判定装置10との間で通信を行うことができる。検索の要求には、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)が含まれる。検索タスク処理装置40は、実行すべき検索を示す情報に基づいて検索を行う。検索自体は、従来の方法と同様に行われる。検索タスク処理装置40は、検索の種別に応じて複数、設けられてもよい。検索の種別としては、レストランの位置を検索するグルメ検索等の施設検索や乗換案内等のナビゲーション情報の検索がある。検索タスク処理装置40は、実行した検索結果をタスク判定装置10に送信(出力)する。
図1に示すように、タスク判定装置10は、文章入力部11と、コマンド生成部12と、タスク判定部13と、コンテキスト更新判定部14と、コンテキスト更新部15とを備えて構成される。
文章入力部11は、文章(入力文、テキストデータ)を入力する文章入力手段である。具体的には、文章入力部11は、通信端末50から、音声認識装置20による音声認識の結果である文章を受信することで文章を入力する。また、文章入力部11は、通信端末50から、文書と合わせてコンテキストIDを受信する。文章入力部11に入力される文章は、通信端末50に対するユーザの発話単位である。即ち、一回の発話に含まれる文章を一つの単位として扱う。また、文章入力部11は、ユーザ毎に文章を入力する。以下の処理はユーザ毎に行われる。ユーザは、例えば上記のコンテキストIDによって特定される。また、例えば、タスク判定装置10に予めユーザを特定する情報であるユーザIDとコンテキストIDとを対応付けた情報を記憶させておき、通信端末50が、文章を送信する際、当該文章にユーザIDを対応付けておき、ユーザIDからコンテキストIDを特定することとしてもよい。文章入力部11は、入力した文章及びコンテキストIDをタスク判定部13に出力する。
コマンド生成部12は、複数のタスクの実行を指示する機能実行指示手段である。コマンド生成部12により実行が指示されるタスクには、文章入力部11によって入力された文章及びコンテキストに基づいて実行されるタスクを含む。そのようなタスクは、例えば、文章に対するコンテキストに基づく適当な応答文(雑談応答)を生成して出力するタスクである雑談タスクである。また、コマンド生成部12により実行が指示されるタスクには、コンテキストに基づかずに実行されるタスクが含まれる。そのようなタスクは、例えば、上述した検索タスクあるいは操作タスクである。コマンド生成部12によって実行が指示されるタスクは、後述するようにタスク判定部13により決定される。
また、コマンド生成部12は、通信端末50に送信する情報であるコマンドを生成して通信端末50に送信する。例えば、実行を指示するタスクが検索タスク(コンテンツ検索)である場合には、コマンド生成部12は、タスク判定部13から入力された情報に基づいて検索の要求を検索タスク処理装置40に対して送信する。続いて、コマンド生成部12は、当該要求に応じて検索タスク処理装置40から送信される検索結果を受信する。コマンド生成部12は、実行した(実行する)タスクを示す情報と検索結果の情報(検索コンテンツ)とをコマンドに含める。例えば、ユーザの発話が「周辺のレストランを表示」というものであった場合には、コマンドには、タスクを示す情報としてレストラン情報表示との情報、及び検索コンテンツとして周辺のレストラン情報が含められる。コマンドを受信した通信端末50は、コマンドに含まれる周辺のレストラン情報の表示を行う。
また、実行を指示するタスクが操作タスクである場合には、コマンド生成部12は、タスク判定部13から入力された情報に基づいて、電話、メール、カメラの起動等の通信端末50上での機能の操作を指示する内容(実行するタスクを示す情報)をコマンドに含める。例えば、ユーザの発話が「カメラ起動」というものであった場合には、コマンドには、タスクを示す情報としてカメラ起動との情報が含められる。コマンドを受信した通信端末50は、カメラ機能の起動を行う。
また、実行を指示するタスクが雑談タスク(雑談応答)である場合には、コマンド生成部12は、タスク判定部13から入力された情報(コンテキストID及びユーザの発話による文章)に基づいて応答文の生成の要求を雑談応答装置30に対して送信する。続いて、コマンド生成部12は、当該要求に応じて雑談応答装置30から送信される応答文を受信する。コマンド生成部12は、実行した(実行する)タスクを示す情報と応答文(雑談応答)とをコマンドに含める。例えば、ユーザの発話が「いつもありがとう」というものであった場合には、コマンドには、タスクを示す情報として雑談との情報、及び応答文として「お役に立ててうれしいです」が含められる。コマンドを受信した通信端末50は、コマンドに含まれる応答文を音声出力又は表示出力する。
タスク判定部13は、文章入力部11から入力した文章に基づいて、複数の機能からコマンド生成部12によって実行が指示されるタスクを決定する実行機能決定手段である。例えば、タスク判定部13は、機械学習によって得られた学習モデル(判定ルール)を用いてタスクを決定(判定)することとしてもよい。タスクの決定は、文章をどのタスクに分類するかという文書分類問題に帰着される。そこで、例えば、予めタスクに対応付いた発話事例を収集する。この発話事例を正解データ(サンプルデータ)として機械学習を行い、機械学習によって得られた学習モデルを用いてタスクを決定する。タスク判定部13は、文章入力部11から入力した文章を学習モデルに基づくタスク識別器に入力して、当該タスク識別器によってタスクを決定する。なお、タスク判定部13は、機械学習によって得られた学習モデルに基づくタスク識別器を利用できればよく、必ずしもタスク判定装置10において機械学習が行われる必要はない。その場合、タスク判定装置10は上記の機械学習を行った装置から、学習モデルを示す情報を予め取得しておく。
また、タスク判定部13は、上記の機械学習による方法以外にも予めタスク毎に単語、あるいはカテゴリにスコアを設定しておき、文章に含まれる単語、あるいは当該単語に対応付けられたカテゴリから、スコアを特定し、そのスコアに基づいてタスクを決定してもよい。例えば、合計のスコアが最も高いタスクを、実行が指示されるタスクに決定することとしてもよい。この場合の単語又はカテゴリのスコアは、タスクとの関連度合に応じて定められている。
また、上記のタスクの決定方法によって妥当なタスクが決定されない場合に雑談タスクを実行するタスクとすることとしてもよい。また、タスク判定部13による実行が指示されるタスクの決定は、入力された文章に基づくものであればよく上記以外の任意の方法を用いることができる。例えば、非特許文献1、並びに本出願人による特許協力条約に基づく国際出願であるPCT/JP2013/064766(基礎出願:特願2012−137842)及び特願2012−137844の明細書に記載された方法等を用いることができる。
タスク判定部13は、実行が指示されるタスクを決定すると、コンテキスト更新判定部14に対して当該タスク、及び文章入力部11から入力されたコンテキストIDを通知する。また、タスクの通知に合わせて、タスク判定部13は、タスクの決定に用いた文章をコンテキスト更新判定部14に出力する。タスク判定部13は、当該タスクの通知に対する応答をコンテキスト更新判定部14から入力すると、コマンド生成部12に対して、決定したタスクの実行を指示するように要求する。当該要求には、実行するタスクを特定する情報及びタスクを実行するために必要な情報(スロットに入力される情報)も含められてもよい。
タスクの実行の内容は、具体的には例えば、雑談タスクであれば、応答文の作成の基となる文章である。当該文章は、文章入力部11から入力したものである。また、雑談タスクであれば、文章入力部11から入力されたコンテキストIDが含められる。また、検索タスクであれば、実行すべき検索を示す情報(例えば、検索のキーワードや検索の条件等)である。タスク判定部13は、実行すべき検索を示す情報を文章入力部11から入力した文章から抽出する。当該抽出には、従来から用いられている方法を用いることができる。また、操作タスクであれば、実行すべき操作を示す情報である。タスク判定部13は、実行すべき検索を示す情報と同様に実行すべき操作を示す情報を文章入力部11から入力した文章から抽出する。
また、タスク判定部13は、ユーザの音声によるタスクが実行される際にタスクの実行状態である対話状態を示す情報を保持し、当該対話状態を管理することとしてもよい。当該対話状態に応じたタスクに関する処理が行われる。例えば、メール作成のタスクが起動される際には、通信端末50は「メール作成」という対話状態となる。通信端末50では、「メール作成」という対話状態で、ユーザの音声によってメール本文や宛先の入力がなされる。また、1つのタスクの中に複数の対話状態があってもよい。例えば、ナビゲーションのタスクが実行される場合に、「タスク起動」、「目的地入力」、「確認入力」等のユーザの音声によって入力されるべき情報に応じた複数の対話状態があってもよい。タスク判定部13は、これらの対話状態の遷移を文章入力部11から入力された文章に基づいて判断する。この判断は、上記の実行が指示されるタスクの決定と同様に行われる。
例えば、ナビゲーションタスクである場合には以下のような対話状態となる。まず、ユーザが「ナビゲーション起動」と発話した場合には、ナビゲーションタスクの「タスク起動」の対話状態となる。この場合、ナビゲーションタスクが起動され、また、エージェントは「どこに行きますか」と目的地の入力を促す出力を行う。これに対して、ユーザが「横浜まで行きたい」と発話した場合には、「目的地入力」の対話状態となる。この場合、入力された発話に基づいてナビゲーションのための情報が取得され、エージェントは「横浜が見つかりました。案内を開始しますか」と情報の出力の確認を促す出力を行う。これに対して、ユーザが「案内して」と発話した場合には、「確認入力」の対話状態となる。この場合、ナビゲーションタスクによる横浜へのナビゲーション(例えば、横浜までのルートを示す情報の出力)が実行される。
また、例えば、グルメ検索タスクである場合には以下のような対話状態となる。まず、ユーザが「お腹が減った」と発話した場合には、グルメ検索タスク「タスク起動」の対話状態となる。この場合、グルメ検索タスクが起動され、また、エージェントは「なにが食べたいですか」とグルメ検索の対象となる料理ジャンルの入力を促す出力を行う。これに対して、ユーザが「ラーメン」と発話した場合には、「料理ジャンル選択」の対話状態となる。この場合、入力された発話に基づいてグルメ検索が実行され、エージェントは「3件あります。最寄に案内しますか」と情報の出力の確認を促す出力を行う。これに対して、ユーザが「うんお願い」と発話した場合には、「確認入力」の対話状態となる。この場合、グルメ検索タスクによる情報の提示(例えば、最寄のラーメン店までのルートを示す情報の出力)が実行される。
また、対話状態は、例えば、他のタスクが起動された際、あるいは、実行されているタスクが終了した際に遷移する。他のタスクが起動された際には、当該他のタスクに係る対話状態となる。また、実行されているタスクが終了した際には、何もタスクが実行されていない初期状態となる。タスクの終了は、実行されるタスクが正常に終了した場合(例えば、メール作成のタスクでは、メールの作成が終了しメール送信が行われた場合)や、ユーザの音声等によってタスクの実行が終了されられる場合(例えば、ユーザが「キャンセル」と発話した場合)になされる。
タスク判定部13は、対話状態を管理する場合には、実行が指示されるタスクに加えて、あるいは当該タスクに代えて、対話状態をコンテキスト更新判定部14に対して通知する。
タスク判定部13は、文章入力部11から入力した文章に基づいて、コンテキストをリセットするか否かを判断してもよい。例えば、タスク判定部13は、「キャンセル」との文章が入力された場合(ユーザの発話が「キャンセル」との場合)等には、タスクの起動状態をリセットするタスクの実行を指示するよう判断する。この場合、タスク判定部13は、コンテキストをリセットするものと判断する。タスク判定部13は、コンテキストをリセットする場合には、その旨を文章入力部11から入力されたコンテキストIDと共にコンテキスト更新部15に通知する。
コンテキスト更新判定部14は、タスク判定部13によって決定されたタスクに基づいて、コンテキストの更新(生成)を行うか否かを判定するコンテキスト更新判定手段である。具体的には、コンテキスト更新判定部14は、コンテキスト更新判定を行うため、図5に示すコンテキスト更新ポリシーを予め記憶しておく。コンテキスト更新ポリシーは、タスク毎にコンテキストを更新すべきかが定義されている情報であり、具体的には、タスクと更新フラグとが対応付けられた情報である。コンテキスト更新判定部14は、タスク判定部13から決定されたタスクの通知を受けると共に文章を入力すると、コンテキスト更新ポリシーにおいて、タスク判定部13から通知されたタスクに対応付けられた更新フラグを参照する。コンテキスト更新判定部14は、参照した更新フラグが「1」であればコンテキストの更新を行うと判定し、「0」であればコンテキストの更新を行わないと判定する。
コンテキスト更新ポリシーは、例えば、タスク判定装置の管理者等によって予め生成され、コンテキスト更新判定部14に記憶される。タスク毎に発話に含まれる単語のジャンル(カテゴリ)がある程度決まっており、これらの単語のジャンル(カテゴリ)がコンテキストとしてふさわしいか否かで、コンテキスト更新ポリシーを生成することができる。例えば、図5を例にとると、ナビゲーションタスクは、目的地までの案内をするタスクであり、当該タスクに係る発話には必ず目的地となる地名や施設が含まれる。これらは雑談のコンテキストとして適している。あるいはグルメ検索タスクにはグルメのジャンルが含まれ、これも同様に雑談のコンテキストとして適している。一方、音量や地図の大小を操作するタスクには、そのような単語が含まれないため、コンテキストとしては適さない。また、電話やメールの発信では、宛先等が含まれるが、これらの人名は雑談のコンテキストとして適さない。
また、コンテキスト更新判定部14は、タスク判定部13からタスクに加えて対話状態が通知された場合には、当該対話状態に基づいて、コンテキストの更新を行うか否かを判定することとしてもよい。この場合、具体的には、コンテキスト更新判定を行うため、図6に示すコンテキスト更新ポリシーを予め記憶しておく。コンテキスト更新ポリシーは、タスク及び対話状態の組み合わせ毎にコンテキストを更新すべきかが定義されている情報であり、具体的には、タスク及び対話状態の組み合わせと更新フラグとが対応付けられた情報である。
コンテキスト更新判定部14は、コンテキスト更新ポリシーにおいて、タスク判定部13から通知されたタスク及び対話状態の組み合わせに対応付けられた更新フラグを参照する。コンテキスト更新判定部14は、参照した更新フラグが「1」であればコンテキストの更新を行うと判定し、「0」であればコンテキストの更新を行わないと判定する。
この場合のコンテキスト更新ポリシーは、例えば、地名やレストランジャンル等の特定のスロットを埋める対話状態の更新フラグを「1」として設定される。
コンテキスト更新判定部14は、コンテキストの更新を行うと判定した場合、その旨をコンテキスト更新部15に通知する。また、コンテキスト更新判定部14は、タスク判定部13から入力された文章を、タスク判定部13から入力したコンテキストIDと共にコンテキスト更新のためにコンテキスト更新部15に出力する。その場合、コンテキスト更新判定部14は、コンテキスト更新部15からコンテキストの更新が完了した旨の応答を受けると、タスク判定部13に対して、タスクあるいはタスク及び対話状態の通知に対する応答を行う。また、コンテキスト更新判定部14は、コンテキストの更新を行わないと判定した場合、コンテキスト更新部15への通知は行わずに、タスク判定部13に対して、タスクあるいはタスク及び対話状態の通知に対する応答を行う。
コンテキスト更新部15は、コンテキスト更新判定部14による判定に応じて、コンテキスト更新判定部14から入力された文章に基づいてコンテキストを更新させるコンテキスト更新手段である。コンテキスト更新部15は、コンテキスト更新判定部14からコンテキストの更新を行うと判定した旨の通知を受け取った場合に雑談応答装置30に対してコンテキストの生成の要求を送信することで、コンテキストを更新させる。コンテキスト更新部15は、コンテキスト更新判定部14から入力された文章を、コンテキストを生成するための文章として当該要求に含める。また、コンテキスト更新部15は、コンテキスト更新対象となる、コンテキスト更新判定部14から入力したコンテキストIDを当該要求に含める。なお、このコンテキストIDは、通信端末50から入力された発話に係るユーザに対応するものである。即ち、コンテキスト更新部15は、ユーザ毎にコンテキストを更新させる。
また、コンテキスト更新部15は、タスク判定部13からコンテキストをリセットする旨の通知を受けた場合には、雑談応答装置30に対してコンテキストのリセット(消去)の要求を送信する。即ち、コンテキスト更新部15は、文章入力部11によって入力された文章に応じて、コンテキストをリセットする。以上が、本実施形態に係る各装置10〜50の機能構成である。
図7に本実施形態に係るタスク判定装置10、音声認識装置20、雑談応答装置30及び検索タスク処理装置40を構成するサーバ装置のハードウェア構成を示す。図7に示すように当該サーバ装置は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述したタスク判定装置10、音声認識装置20、雑談応答装置30及び検索タスク処理装置40の機能が発揮される。以上が、本実施形態に係る各装置の構成である。
引き続いて、図8のフローチャートを用いて、本実施形態に係る機能実行指示システムであるタスク判定装置10で実行される処理である機能実行指示方法を説明する。
本実施形態に係るタスク判定装置10による処理が行われるため、本処理が行われる以前に、まず、通信端末50に対するユーザの操作が行われて、通信端末50に、機能を実行させるためのユーザの音声(発話)が入力される。続いて、当該音声が通信端末50から音声認識装置20に送信される。音声認識装置20では、当該音声が受信されて入力される(図示せず。音声認識ステップ)。続いて、音声認識装置20では、入力された音声に対して音声認識が行われる(図示せず、音声認識ステップ)。音声認識結果である文章を示す情報が音声認識装置20から通信端末50に送信される。通信端末50では、その情報が受信されて、タスク判定装置10に送信される。また、この際、合わせてコンテキストIDが、通信端末50からタスク判定装置10に送信される。
タスク判定装置10では、文章入力部11によって、音声認識結果である文章及びコンテキストIDが受信されて入力される(S01、文章入力ステップ)。入力された情報は、文章入力部11からタスク判定部13に出力される。続いて、タスク判定部13によって、文章入力部11から入力された文章に基づいて、コマンド生成部12によって実行が指示されるタスクが決定される(S02、実行機能決定ステップ)。なお、この際に文章に基づいてタスクの実行状態である対話状態が決定されてもよい。
決定されたタスクは文章及びコンテキストIDと共に、タスク判定部13からコンテキスト更新判定部14に通知される。コンテキスト更新判定部14では、通知されたタスクに基づいて、予め記憶されたコンテキスト更新ポリシーが参照されてコンテキストの更新(生成)を行うか否かが判定される(S03、コンテキスト更新判定ステップ)。なお、この判定の際に上記の対話状態が考慮されてもよい。コンテキストの更新を行うと判定された場合(S03のYES)、コンテキスト更新判定部14からコンテキスト更新部15にその旨が通知されると共に文章及びコンテキストIDが入力される。
続いて、コンテキスト更新部15から雑談応答装置30に対して、文章及びコンテキストIDが含められたコンテキストの生成の要求が送信される(S04、コンテキスト更新ステップ)。雑談応答装置30では、コンテキスト生成部31によって当該要求が受信され、当該要求に含まれる文章からコンテキストが生成される(S04、コンテキスト生成ステップ)。コンテキストが生成されると、コンテキスト管理テーブルにおける、上記の要求に含まれるコンテキストIDに対応するコンテキストが生成されたコンテキストで更新される。なお、文章がコンテキストの生成に適切でない場合には、コンテキストの更新は行われず、以前に更新された状態のままとなる。コンテキスト生成部31によってタスク判定装置10からの要求に応じた処理が完了すると、その旨の応答がコンテキスト生成部31からタスク判定装置10に対して行われる。コンテキストの更新を行わないと判定された場合(S03のNO)、S04の処理は行われない。
S03のNO及びS04の処理に続いて、タスク判定部13からコマンド生成部12に対して、決定したタスクの実行を指示するように要求が行われる。続いて、決定したタスクが雑談タスクである場合(S05のYES)には、コマンド生成部12から雑談応答装置30に対して、応答文の生成の要求が送信される(S06、機能実行指示ステップ)。雑談応答装置30では、雑談応答生成部32によって当該要求が受信され、当該要求に含まれる文章からコンテキストが考慮されて応答文が生成される(S06、応答文生成ステップ)。生成された応答文は、雑談応答生成部32からタスク判定装置10に送信され、コマンド生成部12に受信される。決定したタスクが雑談タスクでない場合(S05のNO)には、S06の処理は行われない。
S05のNO及びS06の処理に続いて、タスク判定部13からの決定したタスクの実行を指示する要求に基づいて、コマンド生成部12によってコマンドが生成される(S07、機能実行指示ステップ)。なお、実行を指示するタスクが検索タスクである場合には、コマンドの生成の際に検索タスク処理装置40から検索コンテンツが取得される。この場合、当該タスクの実行の指示が、コマンドの生成処理に含まれる。続いて、生成したコマンドは、コマンド生成部12から通信端末50に送信される(S08、機能実行指示ステップ)。
通信端末50では、当該コマンドが受信されて受信したコマンドに応じた動作が行われる。例えば、雑談タスクであれば応答文(雑談応答)の音声出力又は表示出力等が行われる。また、検索タスクであれば、検索コンテンツの表示出力等が行われる。また、操作タスクであれば、当該操作タスクに応じた通信端末50の動作が実行される。上記の通り、特に操作タスクの場合には、タスクの実行の指示がコマンドの出力処理に含まれえる。
なお、上記の処理は、ユーザの1回の発話に対応するものであり、ユーザの発話が繰り返し行われれば、上記の処理はユーザの発話の繰り返しに応じて上記の処理が繰り返し行われる。以上が、本実施形態に係る機能実行指示システムであるタスク判定装置10で実行される処理である。
ユーザの発話が繰り返されることで、上記の処理によれば以下のようなユーザとエージェントとの対話が可能となる。
ユーザ「横浜周辺の観光スポットを検索して」(タスク:観光地検索、コンテキスト:横浜)
エージェント「地図上に検索結果を表示しました」
ユーザ「少し地図を大きくして」(タスク:地図拡大、コンテキスト更新なし)
エージェント「地図を拡大します」
ユーザ「お勧めは」(タスク:雑談、コンテキスト更新なし)
エージェント「XXタワーがお勧めですね」
上記の対話では、ユーザの発話で雑談タスクが実行されているのは「お勧めは」との発話に対してのみである。しかし、それ以前のタスクを実行するための「横浜周辺の観光スポットを検索して」とのユーザの発話からコンテキストが生成されており、そのコンテキストが考慮された雑談応答となっている。また、上記の発話の後の「少し地図を大きくして」とのユーザの発話については、発話内容だけから考慮すると、例えば「地図」といったコンテキストを生成することも可能である。しかし、当該発話に基づくタスクから、コンテキストを更新しないと判定されている。ユーザの「お勧めは」との発話は、話の流れからして「横浜周辺の観光スポット」についてのお勧めを求めるものであると考えられるため、上記の応答は自然なものとなっている。
上記の通り、本実施形態によれば、雑談タスクの実行の際に用いられるコンテキストは、入力された文章に基づいて実行が指示されるタスクとして決定されたタスク、又は当該タスクの実行状態である対話状態に基づいて更新されるか否かが判断される。これにより、本実施形態では、コンテキストを更新すべき機能を実行する発話がなされた場合には、コンテキストを更新させることができ、それ以外の場合には、コンテキストを更新せずに維持させることができる。従って、本実施形態によれば、一連の文章に基づいてコンテキストを考慮したタスクを実行する場合であっても、タスクの実行を適切に行うことができる。具体的には、雑談タスクであれば、ユーザの一連の発話に対する応答文を、ユーザに違和感のない自然なものとすることができる。この際、ユーザは実行されるタスクが雑談であるか、検索であるか等の意識をする必要はなく、エージェントとの対話によってタスクを実現することができる。
また、本実施形態では、発話(入力された文章)そのものではなく、当該発話から決定されたタスクを利用して、コンテキストを更新すべきか否かを判定する。これには、以下のような利点がある。まず、発話はユーザが自由に入力するものであり無限にパターンが存在するため、発話それぞれに対して更新すべきか否かを判定することは困難である。これに対してタスクは、当該発話から生成される有限なものであるため、各タスクに対してポリシーを用意することは容易である。
更に、タスク毎に発話に含まれる単語のジャンル(カテゴリ)がある程度決まっており、これらの単語のジャンル(カテゴリ)がコンテキストとしてふさわしいか否かでコンテキスト更新ポリシーを生成することが可能である。例えば、ナビゲーションタスクやグルメ検索のタスクに係る発話には、通常、コンテキストとしてふさわしい(ジャンルの)単語が含まれる。一方、音量や地図の大小を操作するタスク、あるいは電話やメールの発信を行うタスクに係る発話には、通常、コンテキストとしてふさわしい(ジャンルの)単語が含まれない。コンテキスト更新ポリシーは、上記が考慮されて容易に作成されることができる。なお、コンテキストを更新するタスクとして適するか否かは、コンテキストを考慮して実行されるタスクに応じて適宜定められるものであり、必ずしも上記の例に限られない。
また、本実施形態のようにコンテキストを考慮して実行するタスクを雑談タスクとすることとしてもよい。この構成によれば、例えば、雑談タスクの実行を、一連の文章に基づいてコンテキストを考慮して適切に行うことができる。なお、本実施形態では、機能実行指示システムには、応答文を作成する雑談応答装置30は含まれていないものとしたが、雑談応答装置30が含まれていてもよい。この構成によれば、雑談タスクを確実に実施することができる。
但し、コンテキストを考慮して実行するタスクは、必ずしも雑談タスクでなくてもよく、コンテキストが考慮されて実行されるタスクであれば任意のタスクに対しても本発明を適用することができる。
また、本実施形態のように文章はユーザ毎に入力され、ユーザ毎にコンテキストが更新されてもよい。この構成によれば、複数のユーザについてタスクの実行を指示することができ、ユーザ毎にタスクの実行を適切に行うことができる。
また、本実施形態のように「キャンセル」との発話等の状態をリセットするようなタスクに対しては、今までのコンテキストをリセット(消去)することとしてもよい。この構成によれば、適切かつ確実にコンテキストのリセットを行うことができ、タスクの実行を更に適切に行うことができる。
また、本実施形態のように音声を入力して音声認識を行って、音声認識結果を入力される文章として、タスクを実行することとしてもよい。この構成によれば、ユーザの音声によってタスクを実行することが可能となる。本実施形態では、機能実行指示システムは音声認識装置20を含まない構成としていたが、音声認識装置20を含む構成としてもよい。即ち、機能実行指示システムを、タスク判定装置10と音声認識装置20とを含んだ構成としてもよい。なお、機能実行指示システムを、音声認識装置20を含まない構成とした場合、音声認識によらない文章が機能実行指示システムに入力されてもよい。
また、本実施形態では、タスク判定装置10と音声認識装置20とが別体として構成されていたが、それらが一体として構成されていてもよい。この場合、音声認識結果を、通信端末50を介して送受信する必要がない。また、雑談応答装置30がタスク判定装置10と一体として構成されていてもよい。また、通信端末50等のユーザに用いられる端末に、タスク判定装置10、音声認識装置20及び雑談応答装置30の少なくとも何れかの機能が備えられていてもよい。その場合、当該端末が本発明に係る機能実行指示システムを構成する。あるいは、タスク判定装置10がタスクを実行する機能を有しており、タスクの実行結果を通信端末50に提供する構成であってもよい。
また、本実施形態では、雑談応答装置30では、雑談タスクが実行される場合であっても、コンテキストの更新と、応答文の生成とが独立して行われていた。即ち、雑談応答装置30は、生成したコンテキストを示す情報をタスク判定装置10に送信して、その後、応答文の生成の要求を受け付けて当該要求に応じて、応答文を生成していた。しかし、雑談タスクの実行における、コンテキストの更新と応答文の生成とは、一連の処理として行われてもよい。即ち、コンテキストを生成した後、コンテキストを示す情報をタスク判定装置10に送信せず、生成したコンテキストを用いて応答文を生成してもよい。
10…タスク判定装置、11…文章入力部、12…コマンド生成部、13…タスク判定部、14…コンテキスト更新判定部、15…コンテキスト更新部、20…音声認識装置、30…雑談応答装置、31…コンテキスト生成部、32…雑談応答生成部、40…検索タスク処理装置、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、50…通信端末。

Claims (7)

  1. 文章を入力する文章入力手段と、
    前記文章入力手段によって入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示手段と、
    前記文章入力手段によって入力された文章に基づいて、前記複数の機能から前記機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、
    前記実行機能決定手段によって決定された機能、又は当該機能の実行状態に基づいて、前記コンテキストの更新を行うか否かを判定するコンテキスト更新判定手段と、
    前記コンテキスト更新判定手段による判定に応じて、前記文章入力手段によって入力された文章に基づいて前記コンテキストを更新させるコンテキスト更新手段と、
    を備える機能実行指示システム。
  2. 前記機能実行指示手段は、前記文章入力手段によって入力された文章及びコンテキストを入力として実行される機能として、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する機能の実行を指示する請求項1に記載の機能実行指示システム。
  3. 前記機能実行指示手段から文章及びコンテキストを入力して、当該文章に対する当該コンテキストに基づく応答の文章を生成して出力する応答文生成手段を更に備える請求項2に記載の機能実行指示システム。
  4. 前記文章入力手段は、ユーザ毎に文章を入力し、
    前記コンテキスト更新手段は、ユーザ毎にコンテキストを更新させる、請求項1〜3の何れか一項に記載の機能実行指示システム。
  5. 前記コンテキスト更新手段は、前記文章入力手段によって入力された文章に応じて、前記コンテキストをリセットする請求項1〜4の何れか一項に記載の機能実行指示システム。
  6. 音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を前記文章入力手段に入力する音声認識手段を更に備える請求項1〜5の何れか一項に記載の機能実行指示システム。
  7. 文章を入力する文章入力ステップと、
    前記文章入力ステップにおいて入力された文章及びコンテキストに基づいて実行される機能を含む複数の機能の実行を指示する機能実行指示ステップと、
    前記文章入力ステップにおいて入力された文章に基づいて、前記複数の機能から前記機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、
    前記実行機能決定ステップにおいて決定された機能、又は当該機能の実行状態に基づいて、前記コンテキストの更新を行うか否かを判定するコンテキスト更新判定ステップと、
    前記コンテキスト更新判定ステップにおける判定に応じて、前記文章入力ステップにおいて入力された文章に基づいて前記コンテキストを更新させるコンテキスト更新ステップと、
    を含む機能実行指示方法。
JP2013218950A 2013-10-22 2013-10-22 機能実行指示システム及び機能実行指示方法 Active JP6280342B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013218950A JP6280342B2 (ja) 2013-10-22 2013-10-22 機能実行指示システム及び機能実行指示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013218950A JP6280342B2 (ja) 2013-10-22 2013-10-22 機能実行指示システム及び機能実行指示方法

Publications (2)

Publication Number Publication Date
JP2015081971A true JP2015081971A (ja) 2015-04-27
JP6280342B2 JP6280342B2 (ja) 2018-02-14

Family

ID=53012609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013218950A Active JP6280342B2 (ja) 2013-10-22 2013-10-22 機能実行指示システム及び機能実行指示方法

Country Status (1)

Country Link
JP (1) JP6280342B2 (ja)

Cited By (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018021987A (ja) * 2016-08-02 2018-02-08 ユニロボット株式会社 会話処理装置、及びプログラム
JP2018045381A (ja) * 2016-09-13 2018-03-22 株式会社東芝 対話フロー制御装置、対話フロー制御方法およびプログラム
JP2018055022A (ja) * 2016-09-30 2018-04-05 株式会社リコー 音声認識システム、情報処理装置、プログラム
JP2018525950A (ja) * 2015-09-30 2018-09-06 アップル インコーポレイテッド インテリジェントなデバイス識別
WO2019035371A1 (ja) * 2017-08-17 2019-02-21 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019070957A (ja) * 2017-10-10 2019-05-09 株式会社トヨタIt開発センター 対話システムおよびドメイン決定方法
WO2020090132A1 (ja) * 2018-10-30 2020-05-07 株式会社日立システムズ リソース割り当て方法およびリソース割り当てシステム
WO2020105302A1 (ja) 2018-11-22 2020-05-28 ソニー株式会社 応答生成装置、応答生成方法及び応答生成プログラム
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
JP2021012723A (ja) * 2016-05-17 2021-02-04 グーグル エルエルシーGoogle LLC メッセージ分類に基づくメッセージ交換スレッドの自動的拡張
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
JP2021071883A (ja) * 2019-10-30 2021-05-06 株式会社感性リサーチ 情報処理システム、情報処理方法及びプログラム
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
JP2022534242A (ja) * 2019-05-31 2022-07-28 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US12001933B2 (en) 2022-09-21 2024-06-04 Apple Inc. Virtual assistant in a communication session

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070876A (ja) * 2002-08-09 2004-03-04 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2004096171A (ja) * 2002-08-29 2004-03-25 Advanced Telecommunication Research Institute International 通話活性化システム
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008243048A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 対話装置、対話方法及びプログラム
JP2009037050A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 対話装置と対話用プログラム
JP2010160608A (ja) * 2009-01-07 2010-07-22 Toshiba Corp 対話装置、対話プログラムおよび対話方法
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
WO2011030404A1 (ja) * 2009-09-09 2011-03-17 トヨタ自動車株式会社 オペレーティングシステム及びオペレーティング方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070876A (ja) * 2002-08-09 2004-03-04 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2004096171A (ja) * 2002-08-29 2004-03-25 Advanced Telecommunication Research Institute International 通話活性化システム
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008243048A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 対話装置、対話方法及びプログラム
JP2009037050A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 対話装置と対話用プログラム
JP2010160608A (ja) * 2009-01-07 2010-07-22 Toshiba Corp 対話装置、対話プログラムおよび対話方法
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
WO2011030404A1 (ja) * 2009-09-09 2011-03-17 トヨタ自動車株式会社 オペレーティングシステム及びオペレーティング方法

Cited By (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
JP2018525950A (ja) * 2015-09-30 2018-09-06 アップル インコーポレイテッド インテリジェントなデバイス識別
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11222030B2 (en) 2016-05-17 2022-01-11 Google Llc Automatically augmenting message exchange threads based on tone of message
US11762865B2 (en) 2016-05-17 2023-09-19 Google Llc Automatically augmenting message exchange threads based on tone of message
JP2021012723A (ja) * 2016-05-17 2021-02-04 グーグル エルエルシーGoogle LLC メッセージ分類に基づくメッセージ交換スレッドの自動的拡張
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
JP2018021987A (ja) * 2016-08-02 2018-02-08 ユニロボット株式会社 会話処理装置、及びプログラム
JP2018045381A (ja) * 2016-09-13 2018-03-22 株式会社東芝 対話フロー制御装置、対話フロー制御方法およびプログラム
JP2018055022A (ja) * 2016-09-30 2018-04-05 株式会社リコー 音声認識システム、情報処理装置、プログラム
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11322141B2 (en) 2017-08-17 2022-05-03 Sony Corporation Information processing device and information processing method
WO2019035371A1 (ja) * 2017-08-17 2019-02-21 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP7095254B2 (ja) 2017-10-10 2022-07-05 トヨタ自動車株式会社 対話システムおよびドメイン決定方法
JP2019070957A (ja) * 2017-10-10 2019-05-09 株式会社トヨタIt開発センター 対話システムおよびドメイン決定方法
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7185489B2 (ja) 2018-10-30 2022-12-07 株式会社日立システムズ リソース割り当て方法およびリソース割り当てシステム
US11310166B2 (en) 2018-10-30 2022-04-19 Hitachi Systems, Ltd. Allocation resource for chat bot based on conversations related or unrelated to service menu
WO2020090132A1 (ja) * 2018-10-30 2020-05-07 株式会社日立システムズ リソース割り当て方法およびリソース割り当てシステム
JP2020071563A (ja) * 2018-10-30 2020-05-07 株式会社日立システムズ リソース割り当て方法およびリソース割り当てシステム
US11875776B2 (en) 2018-11-22 2024-01-16 Sony Group Corporation Response generating apparatus, response generating method, and response generating program
WO2020105302A1 (ja) 2018-11-22 2020-05-28 ソニー株式会社 応答生成装置、応答生成方法及び応答生成プログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
JP2022534242A (ja) * 2019-05-31 2022-07-28 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体
JP7343087B2 (ja) 2019-05-31 2023-09-12 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
JP2021071883A (ja) * 2019-10-30 2021-05-06 株式会社感性リサーチ 情報処理システム、情報処理方法及びプログラム
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US12001933B2 (en) 2022-09-21 2024-06-04 Apple Inc. Virtual assistant in a communication session

Also Published As

Publication number Publication date
JP6280342B2 (ja) 2018-02-14

Similar Documents

Publication Publication Date Title
JP6280342B2 (ja) 機能実行指示システム及び機能実行指示方法
KR102178738B1 (ko) 적절한 에이전트의 자동화된 어시스턴트 호출
US10853582B2 (en) Conversational agent
US10978094B2 (en) Method of and system for real time feedback in an incremental speech input interface
US20240031482A1 (en) Synchronous Communication Using Voice and Text
KR102112814B1 (ko) 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성
KR101881114B1 (ko) 메시지들에서 태스크들 식별
CN112270925B (zh) 用于创建可定制对话系统引擎的平台
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
US9502032B2 (en) Dynamically biasing language models
RU2637874C2 (ru) Генерирование диалоговых рекомендаций для чатовых информационных систем
KR101683083B1 (ko) 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
KR102351587B1 (ko) 선택가능한 그래픽 엘리먼트를 통해 자동화된 에이전트로 대화를 초기화하기
US20160098994A1 (en) Cross-platform dialog system
JP2020516980A (ja) コンテキストディープブックマーキング
CN111556999A (zh) 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
CN111557001A (zh) 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
CN114860910A (zh) 智能对话方法及系统
JP2015025856A (ja) 機能実行指示システム及び機能実行指示方法
JP7205962B1 (ja) 自動対話のためのシステム
Hadisukmana et al. SMS READER ON ANDROID
KR20050077547A (ko) 보이스 엑스엠엘 문서에서 음성인식 그래마없이 음성인식및 녹음을 수행하는 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180119

R150 Certificate of patent or registration of utility model

Ref document number: 6280342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250