JP6265670B2

JP6265670B2 - 情報処理装置、サーバ、および、制御プログラム

Info

Publication number: JP6265670B2
Application number: JP2013197452A
Authority: JP
Inventors: 貴裕井上
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-09-24
Filing date: 2013-09-24
Publication date: 2018-01-24
Anticipated expiration: 2033-09-24
Also published as: JP2015064450A

Description

本発明は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置等に関するものである。

人間とロボットとが対話可能な対話システムが、従来から広く研究されている。例えば、下記の特許文献１には、より自然にユーザとの対話を継続、発展させることのできる対話型情報システムが開示されている。また、下記の特許文献２には、焦点対話シナリオから補助対話シナリオへシナリオ遷移が生じた際の応答様式の連続性を保持する対話方法、対話装置が開示されている。

ここで、上記の特許文献１および２に開示された技術をはじめとして、従来技術においては、あくまでも「質問・回答サービス」（質問に対するロボットからの回答が終了するまで、ユーザは待機するであろうことが想定されるもの）における一問一答のコミュニケーションが前提とされている。

特開２００６−１７１７１９号公報（２００６年６月２９日公開）特開２００７−０７９３９７号公報（２００７年３月２９日公開）

上記対話システムにおいては、ユーザからロボットへの先の呼びかけ（質問）に対する先の回答が遅延することにより、当該先の回答と後の呼びかけに対する後の回答とが交錯する現象が起こり得るが、上記従来技術においては、上記前提（先の回答が未提示であるうちは、ユーザは後の呼びかけを行わない）により当該現象を無視できる。

一方で、人間らしいコミュニケーションを前提とする「通常コミュニケーション」（質問に対するロボットからの回答が未提示であっても、ユーザは次の回答を要求するであろうことが想定されるもの）では、上記現象を無視できない。当該現象が起こった場合は、上記先の回答がユーザに未提示のままになるという問題が生じ得る。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、先の呼びかけに対する先のフレーズ（回答）と、後の呼びかけに対する後のフレーズとが交錯する場合であっても、上記先のフレーズを未提示のままにすることなく、確実にユーザに提示できる情報処理装置等を提供することである。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置であって、前記音声が認識された結果に対応付けられた第１のフレーズを取得する取得手段と、前記第１のフレーズを提示する前に、当該第１のフレーズとは異なる第２のフレーズが前記取得手段によって新たに取得された場合、前記第１のフレーズを前記ユーザに提示することが必要であるときは、前記第２のフレーズを提示した後に、前記第１のフレーズを提示する提示手段とを備えている。

上記の課題を解決するために、本発明の一態様に係るサーバは、ユーザが情報処理装置に対して発した音声に応じて、当該ユーザに所定のフレーズを提示するように当該情報処理装置を制御するサーバであって、前記音声を認識した結果に対応付けられたフレーズを、所定のフレーズセットにおいて特定する特定手段と、前記フレーズを前記ユーザに提示することが必要であるか否かに応じて、要否情報を生成する生成手段と、前記フレーズおよび前記要否情報を前記情報処理装置に送信する送信手段とを備えている。

本発明の一態様によれば、情報処理装置は、先の呼びかけに対する先のフレーズ（第１のフレーズ）と、後の呼びかけに対する後のフレーズ（第２のフレーズ）とが交錯する場合であっても、上記先のフレーズを未提示のままにすることなく、確実にユーザに提示できるという効果を奏する。

また、本発明の一態様によれば、サーバは、先の呼びかけに対する先のフレーズと、後の呼びかけに対する後のフレーズとが交錯する場合であっても、上記先のフレーズを未提示のままにすることなく、確実にユーザに提示するように、上記情報処理装置を制御することができるという効果を奏する。

本発明の第１の実施の形態に係る対話ロボットの要部構成を示すブロック図である。本発明の第１の実施の形態に係るサーバの要部構成を示すブロック図である。本発明の第１の実施の形態に係る対話システムを概略的に示す模式図である。フレーズセットの一例を示す表であり、（ａ）は、上記対話ロボットが記憶部に保持するフレーズセットの一例を示し、（ｂ）は、上記サーバが記憶部に保持するフレーズセットの一例を示す。上記対話システムにおいて実行される処理の一例を示すフローチャートである。本発明の第２の実施の形態に係る対話ロボットの要部構成を示すブロック図である。上記対話ロボットが実行する処理の一例を示すフローチャートである。

〔実施形態１〕
図１〜図５に基づいて、本発明の第１の実施の形態（実施形態１）を説明する。

（対話システム３００の概要）
図３は、対話システム３００を概略的に示す模式図である。図３に示されるように、上記対話システム３００は、対話ロボット１００とサーバ２００とを含む。上記対話システム３００によれば、ユーザは自然言語を用いた音声によって上記対話ロボット１００と対話することにより、様々な情報を得ることができる。

対話ロボット（情報処理装置）１００は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズ（返答文）を提示する装置である。音声を入力可能であり、入力された音声に基づいて上記所定のフレーズを提示可能な機器でありさえすればよく、対話ロボットに限定されない（例えば、上記対話ロボット１００は、タブレット端末、スマートフォン、パーソナルコンピュータなどによっても実現され得る）。

サーバ２００は、ユーザが上記対話ロボット１００に対して発した音声に応じて、当該ユーザに所定のフレーズを提示するように当該対話ロボット１００を制御する装置である。なお、図３に示されるように、上記対話ロボット１００と上記サーバ２００とは、所定の通信方式にしたがう通信網を介して通信可能に接続されている。

上記対話システム３００において、ユーザが発した音声に対する回答として、対話ロボット１００がフレーズを取得する場合、以下の２つが考えられる。

（１）フレーズをローカルから取得する
上記対話ロボット１００が上記音声を認識した結果が、当該対話ロボット１００が備える記憶部に格納されたフレーズセット（ローカル辞書）に含まれる場合、上記対話ロボット１００は、上記フレーズセットにおいて上記認識した結果に対応する所定のフレーズを、上記記憶部から取得する。

例えば、ユーザが上記対話ロボット１００に対して「おはよう」と音声によって呼びかけた場合、当該音声を認識した結果は上記フレーズセットに含まれるため、上記対話ロボット１００は、上記フレーズセットにおいて上記認識した結果に対応する「おはよう、今日の調子はどう？」というフレーズ（図４の（ａ）に示される表の１行目を参照）を、上記記憶部から取得し、当該フレーズを音声によってユーザに提示する。上記（１）の場合のように、対話ロボット１００は、簡単な呼びかけに対するフレーズをユーザに返すことができる。

（２）フレーズをクラウドから取得する
上記対話ロボット１００が上記音声を認識した結果が上記フレーズセットに含まれない場合、上記対話ロボット１００は、当該音声をサーバ２００に送信（アップロード）する。サーバ２００は、当該サーバ２００が備える記憶部に格納されたフレーズセット（クラウド辞書）において、上記認識した結果に対応する所定のフレーズを特定する。上記対話ロボット１００は、上記サーバ２００によって特定されたフレーズを取得（ダウンロード）する。

例えば、ユーザが上記対話ロボット１００に対して「今日の天気は？」と音声によって呼びかけをした場合、当該音声を認識した結果は上記フレーズセット（ローカル辞書）には含まれないため、上記対話ロボット１００は、上記サーバ２００から「雨だよ、傘を持っていってね」という上記フレーズを取得し、当該フレーズを音声によってユーザに提示する。音声を認識した結果にマッチするパターン（検出ワード）は、上記ローカル辞書よりも上記クラウド辞書の方に多く含まれることが通常であるため、上記（２）の場合のように、対話ロボット１００は、複雑な呼びかけに対しても適切なフレーズをユーザに返すことができる。

上記（１）および（２）のいずれの場合においても、上記対話ロボット１００がフレーズを提示する前に、他のフレーズを提示することが求められることがある。例えば、ユーザが上記対話ロボット１００に対して「今日の天気は？」（先の呼びかけ）と音声によって呼びかけた場合、当該対話ロボット１００が「雨だよ、傘を持っていってね」（先のフレーズ）というフレーズをユーザに提示する前に、当該ユーザが「ところで、スポーツのニュースは？」（後の呼びかけ）と呼びかけることにより、「昨日、チームＡは大勝だったよ」（後のフレーズ）というフレーズを提示することが求められることがある。

このように、先の呼びかけに対する先のフレーズと、後の呼びかけに対する後のフレーズとが交錯するのは、上記先のフレーズをユーザに提示するタイミングが遅れることがあるからである。すなわち、上記（１）の場合においては、上記ローカル辞書から適切なフレーズを抽出（検索）する処理が重いことによって、上記（２）の場合においては、上記対話ロボット１００と上記サーバ２００との間で通信が停滞することによって、上記タイミングが遅延することがある。特に、本実施の形態で説明するように、主要なフレーズセットがサーバ２００の側にある（クラウド構成をとる）場合、通信環境の悪化が原因となって上記タイミングが遅延しやすい。人間同士の会話を模擬する対話において、不自然な遅延が発生する（奇妙な間が空く）ことは許容されないため、先の呼びかけに対する先のフレーズが未提示であっても、ユーザは後のフレーズを要求することが想定される。このとき、先のフレーズが未提示のままになるおそれが考えられる。

そこで、上記対話ロボット１００は、先のフレーズを提示する前に、後のフレーズが新たに取得された場合、先のフレーズをユーザに提示することが必要であるときは、後のフレーズを提示した後に、先のフレーズを提示する。これにより、上記対話ロボット１００は、先のフレーズをユーザに提示することが必要と判断される場合、当該先のフレーズを未提示のままにすることなく、当該先のフレーズを必ずユーザに提示できる。

以下の説明においては、一例として、「今日の天気は？」という先の呼びかけが音声１ａによってユーザから行われ、その後に「ところで、スポーツのニュースは？」という後の呼びかけが音声１ｂによって行われたとする。そして、上記先の呼びかけに対する回答として「雨だよ、傘を持っていってね」という先のフレーズ（フレーズ６ａ）を音声１ｃによって、上記後の呼びかけに対する回答として「昨日、チームＡは大勝だったよ」という後のフレーズ（フレーズ６ｂ）を音声１ｄによって、上記対話ロボット１００は、それぞれユーザに提示するとする。

（対話ロボット１００の構成）
図１は、対話ロボット１００の要部構成を示すブロック図である。図１に示されるように、対話ロボット１００は、通信部５０ａ（受信部５１ａ、送信部５２ａ）、制御部１０ａ（音声検出部１１、音声認識部１２、回答確定部１３、回答取得部１４、音声送出部１５、音声出力部１６、フラグ判定部１７、回答格納部１８）、音声入出力部４０（マイク４１、スピーカ４２）、および、記憶部３０ａを備えている。

音声入出力部４０は、対話ロボット１００に対する音声の入出力を制御するものである。音声入出力部４０は、マイク４１とスピーカ４２とを含む。

マイク４１は、対話ロボット１００の周囲から音声を集め、当該音声１ａおよび音声１ｂをそれぞれ表す音声信号２ａおよび音声信号２ｂを、音声検出部１１に出力する。

スピーカ４２は、音声出力部１６から入力される音声信号２ｃおよび音声信号２ｄを、音声１ｃおよび音声１ｄにそれぞれ変換し、当該音声１ｃおよび当該音声１ｄを外部に出力する。なお、スピーカ４２は、対話ロボット１００に内蔵されたものであってもよいし、外部接続端子を介して外付けされたものであってもよいし、通信可能に接続されたものであってもよい。

制御部１０ａは、対話ロボット１００が有する各種の機能を統括的に制御する。制御部１０ａは、音声検出部１１、音声認識部１２、回答確定部１３、回答取得部１４、音声送出部１５、音声出力部１６、フラグ判定部１７、および、回答格納部１８を含む。

音声検出部１１は、ユーザが発した音声を検出する。具体的には、マイク４１から音声信号２ａまたは音声信号２ｂが入力された場合、当該音声信号２ａおよび当該音声信号２ｂを、対話ロボット１００においてデジタル処理が可能な音声情報３ａおよび音声情報３ｂにそれぞれ変換し、当該音声情報３ａおよび当該音声情報３ｂを回答確定部１３および音声認識部１２に出力する。

音声認識部１２は、ユーザが対話ロボット１００に対して発した音声を認識する。具体的には、音声検出部１１から音声情報３ａまたは音声情報３ｂが入力された場合、音声認識部１２は、所定の音声認識のアルゴリズムにしたがって、当該音声情報３ａまたは当該音声情報３ｂを認識した結果（認識結果４ａまたは認識結果４ｂ）をそれぞれ得る。ここで、当該認識結果４ａまたは当該認識結果４ｂは、上記音声情報３ａまたは上記音声情報３ｂから変換されたテキスト（ユーザが発話した内容を文字によって表現するもの）を少なくとも含む。なお、上記音声認識のアルゴリズムとしては、公知のものが適宜採用されてよい。音声認識部１２は、上記認識結果４ａおよび上記認識結果４ｂを回答確定部１３に出力する。

回答確定部１３は、音声を認識した結果に基づいて、ユーザに返す回答を確定する。具体的には、音声認識部１２から上記認識結果４ａまたは上記認識結果４ｂが入力された場合、回答確定部１３は、記憶部３０ａに格納されたフレーズセット５ａを参照し、上記認識結果４ａまたは上記認識結果４ｂに含まれる上記テキストを含むパターン（検出ワード）が、当該フレーズセット５ａに含まれるか否かを判定する。含まれると判定される場合、回答確定部１３は、当該パターンに対応付けられたフレーズをユーザに返す回答として確定し、回答取得部１４に出力する。一方、含まれないと判定される場合、回答確定部１３は、音声検出部１１から入力された音声情報３ａを音声送出部１５に出力する。このとき、回答確定部１３は、回答を保留するフレーズを回答取得部１４に出力することによって、当該フレーズをユーザに提示してよい。

図４は、フレーズセットの一例を示す表であり、（ａ）は、対話ロボット１００が記憶部３０ａに保持するフレーズセット５ａ（ローカル辞書）を示し、（ｂ）は、サーバ２００が記憶部３０ｂに保持するフレーズセット５ｂ（クラウド辞書）を示す。ここで、上記「フレーズセット」（辞書）は、所定のパターン（検出ワード）に所定のフレーズ（および重要フラグ７）を対応付けたデータセットである。また、上記「フレーズ」は、上記所定のパターンに対する好ましい回答を、所定のデータ形式（例えば、テキスト形式）によって表すものである。さらに、上記「重要フラグ」（要否情報）は、フレーズ６ａをユーザに提示することが必要であるか否かを示す情報であり、例えば、「１」または「０」の値をとる２値フラグであってよい。このとき、当該重要フラグ７が「１」の場合は「重要」（フレーズ６ａをユーザに提示することが必要であること）を示し、「０」の場合は「通常」（必要でないこと）を示してよい。

例えば、音声認識部１２から入力される認識結果４ａ（音声１ａを認識した結果）に含まれる上記テキストは「今日の天気は」となるが、図４の（ａ）に示されるように、当該テキストを含むパターンは、フレーズセット５ａには存在しない。このとき、回答確定部１３は、音声情報３ａを音声送出部１５に出力するとともに、回答を保留するフレーズ（図４の（ａ）においては「ちょっとまってね」、「そうだね」、「うーん」などのフレーズ）を、回答取得部１４に出力する。

回答取得部（取得手段）１４は、音声１ａが認識された結果に対応付けられたフレーズ（第１のフレーズ）６ａを取得する。具体的には、ユーザに返す回答として回答確定部１３からフレーズ６ａが入力された場合、回答取得部１４は、当該フレーズ６ａを音声出力部１６に出力する。同様に、受信部５１ａからフレーズ（第２のフレーズ）６ｂおよび重要フラグ７が入力された場合、回答取得部１４は、当該フレーズ６ｂを音声出力部１６に出力する。

一方、受信部５１ａからフレーズ６ａおよび重要フラグ７が入力されたとき、（１）当該フレーズ６ａを提示する前に、フレーズ６ｂが取得された場合（音声出力部１６によってフレーズ６ａが音声１ｃとして出力される前に、回答取得部１４がフレーズ６ｂを取得したとき）、回答取得部１４は、当該フレーズ６ａおよび当該重要フラグ７をフラグ判定部１７に出力する。（２）それ以外の場合、回答取得部１４は、当該フレーズ６ａを音声出力部１６に出力する。

音声送出部１５は、所定の通信方式にしたがう通信網を介して、音声情報３ａおよび音声情報３ｂをサーバ２００に送信する。具体的には、回答確定部１３から音声情報３ａまたは音声情報３ｂが入力された場合、音声送出部１５は、当該音声情報３ａまたは当該音声情報３ｂを送信部５２ａに出力する。

音声出力部１６は、スピーカ４２を介して、フレーズ６ａおよびフレーズ６ｂを音声によって出力することにより、当該フレーズ６ａおよび当該フレーズ６ｂをユーザに提示する。具体的には、回答取得部１４からフレーズ６ａまたはフレーズ６ｂが入力された場合、当該フレーズ６ａまたは当該フレーズ６ｂをスピーカ４２に出力する。

フラグ判定部１７は、フレーズ６ａを提示する前に、フレーズ６ｂが新たに取得された場合、重要フラグ７に基づいて、上記フレーズ６ａをユーザに提示することが必要であるか否かを判定する。具体的には、回答取得部１４からフレーズ６ａおよび重要フラグ７が入力された場合、フラグ判定部１７は、当該重要フラグ７が「重要」を示すか、「通常」を示すかを判定する。「重要」を示すと判定される場合、フラグ判定部１７は、上記フレーズ６ａを回答格納部１８に出力する。

なお、「通常」を示すと判定される場合、フラグ判定部１７は、上記フレーズ６ａを回答格納部１８に出力せず、当該フレーズ６ａを破棄してよい。または、ユーザに後から提示することを再要求された場合に備えて、記憶部３０ａの所定の記憶領域に、当該フレーズ６ａを格納してもよい。例えば、「おもしろい話聞かせて」という先の呼びかけが音声１ａによってユーザから行われ、その後に「ところで、スポーツのニュースは？」という後の呼びかけが音声１ｂによって行われたとする。そして、上記先の呼びかけに対する回答として「昔々、おじいさんとおばあさんが・・・」（図４の（ｂ）に示される表の６行目参照）という先のフレーズ（フレーズ６ａ）が取得された場合、当該フレーズ６ａの重要フラグ７は「通常」を示すため、上記対話ロボット１００は、上記後の呼びかけに対する回答として「昨日、チームＡは大勝だったよ」という後のフレーズ（フレーズ６ｂ）をユーザに提示した後でも、上記フレーズ６ａを提示しなくともよい。

回答格納部（格納手段）１８は、フレーズ６ａを提示する前に、フレーズ６ｂが新たに取得された場合、上記フレーズ６ａをユーザに提示することが必要であるときは、当該フレーズ６ａを所定の記憶部３０ａに格納する。具体的には、フラグ判定部１７から上記フレーズ６ａが入力された場合、回答格納部１８は、当該フレーズ６ａを上記記憶部３０ａに格納する。

ここで、音声出力部（提示手段）１６は、フレーズ６ａを提示する前に、フレーズ６ｂが新たに取得された場合、上記フレーズ６ａをユーザに提示することが必要であるときは、上記フレーズ６ｂを提示した後に、上記フレーズ６ａを提示する。すなわち、フラグ判定部１７によって重要フラグ７が「重要」を示すと判定されたことにより、回答格納部１８によってフレーズ６ａが記憶部３０ａに格納されている場合、音声出力部１６は、上記フレーズ６ｂをスピーカ４２に出力した後、上記フレーズ６ａを上記記憶部３０ａから読み出し、当該フレーズ６ａをスピーカ４２に出力する。

通信部５０ａは、所定の通信方式にしたがう通信網を介して外部と通信する。外部の機器との通信を実現する本質的な機能が備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。通信部５０ａは、例えばイーサネット（登録商標）アダプタなどの機器で構成できる。また、通信部５０ａは、例えばIEEE802.11無線通信、Bluetooth（登録商標）などの通信方式や通信媒体を利用できる。通信部５０ａは、受信部５１ａと送信部５２ａとを含む。

受信部５１ａは、上記所定の通信方式にしたがう通信網を介して外部と通信することによって、フレーズ６ａおよびフレーズ６ｂをサーバ２００から受信する。受信部５１ａは、受信したフレーズ６ａおよびフレーズ６ｂを回答取得部１４に出力する。

送信部５２ａは、音声送出部１５から音声情報３ａまたは音声情報３ｂが入力された場合、上記所定の通信方式にしたがう通信網を介して外部と通信することによって、サーバ２００に当該音声情報３ａまたは当該音声情報３ｂを送信する。

記憶部３０ａは、フレーズセット５ａおよびフレーズ６ａを格納可能な記憶機器である。記憶部３０ａは、例えば、ハードディスク、ＳＳＤ（silicon state drive）、半導体メモリ、ＤＶＤなどで構成できる。

（サーバ２００の構成）
図２は、サーバ２００の要部構成を示すブロック図である。図２に示されるように、サーバ２００は、通信部５０ｂ（受信部５１ｂ、送信部５２ｂ）、制御部１０ｂ（音声取得部２１、音声認識部２２、回答特定部２３、フラグ生成部２４、情報送出部２５）、および、記憶部３０ｂを備えている。

通信部５０ｂは、通信部５０ａと同様であるため、詳細な説明を省略する。通信部５０ｂは、受信部５１ｂと送信部５２ｂとを含む。

受信部５１ｂは、所定の通信方式にしたがう通信網を介して外部と通信することによって、音声情報３ａおよび音声情報３ｂを対話ロボット１００から受信する。受信部５１ｂは、受信した音声情報３ａおよび音声情報３ｂを音声取得部２１に出力する。

送信部５２ｂは、情報送出部２５からフレーズ６ａまたはフレーズ６ｂと重要フラグ７とが入力された場合、上記所定の通信方式にしたがう通信網を介して外部と通信することによって、対話ロボット１００に当該フレーズ６ａまたは当該フレーズ６ｂと当該重要フラグ７とを送信する。

音声取得部２１は、所定の通信方式にしたがう通信網を介して、対話ロボット１００から音声情報３ａおよび音声情報３ｂを取得する。具体的には、受信部５１ｂから音声情報３ａまたは音声情報３ｂが入力された場合、音声取得部２１は、当該音声情報３ａまたは当該音声情報３ｂを音声認識部２２に出力する。

音声認識部２２は、ユーザが対話ロボット１００に対して発した音声を認識する。具体的には、音声取得部２１から音声情報３ａまたは音声情報３ｂが入力された場合、音声認識部２２は、所定の音声認識のアルゴリズムにしたがって、当該音声情報３ａまたは当該音声情報３ｂを認識した結果（認識結果４ａまたは認識結果４ｂ）をそれぞれ得る。音声認識部２２は、上記認識結果４ａまたは上記認識結果４ｂを回答特定部２３に出力する。

回答特定部（特定手段）２３は、音声を認識した結果（認識結果４ａまたは認識結果４ｂ）に対応付けられたフレーズを、フレーズセット５ｂにおいて特定する。具体的には、音声認識部２２から認識結果４ａまたは認識結果４ｂが入力された場合、記憶部３０ｂに格納されたフレーズセット５ｂを参照し、上記認識結果４ａまたは上記認識結果４ｂに含まれる上記テキストを含むパターンを抽出する。そして、回答特定部２３は、当該パターンに対応付けられたフレーズ（フレーズ６ａまたはフレーズ６ｂ）をユーザに返す回答として特定し、フラグ生成部２４に出力する。

例えば、音声認識部２２から入力される認識結果４ａ（音声１ａを認識した結果）に含まれる上記テキストは「今日の天気は」となるところ、当該テキストには「天気」というパターンが含まれるため、図４の（ｂ）に示される表の１行目によれば、回答特定部２３は「今日の天気は雨だよ、傘を持っていってね」というフレーズ６ａを、ユーザに返す回答として特定し、フラグ生成部２４に出力する。なお、上記テキストを含むパターンがフレーズセット５ｂに含まれない場合（図４の（ｂ）に示される表の９行目「−マッチングなし−」を参照）、音声認識部２２は、音声認識またはフレーズの特定に失敗したことをユーザにフィードバックするフレーズ（例えば、「全然分からないよ」など）をユーザに返す回答として特定し、フラグ生成部２４に出力する（すなわち、上記テキストにマッチするパターンがフレーズセット５ｂに含まれない場合であっても、フレーズは必ず特定される）。

フラグ生成部（生成手段）２４は、フレーズをユーザに提示することが必要であるか否かに応じて、重要フラグを生成する。具体的には、回答特定部２３からフレーズ６ａまたはフレーズ６ｂが入力された場合、フラグ生成部２４は、当該フレーズ６ａまたは当該フレーズ６ｂに「重要度」（図４の（ｂ）に示される表の２列目を参照、２列目に丸印が付された行のフレーズの重要度が「高い」ことを示す）が設定されているか否かを判定する。設定されていると判定される場合、フラグ生成部２４は、「重要」（フレーズ６ａをユーザに提示することが必要であることを表す）を示す重要フラグ７を生成し、当該重要フラグ７と、当該重要フラグ７に対応するフレーズ（フレーズ６ａまたはフレーズ６ｂ）とを情報送出部２５に出力する。設定されていないと判定される場合、フラグ生成部２４は、「通常」（フレーズ６ａをユーザに提示することが必要でないことを表す）を示す重要フラグ７を生成し、当該重要フラグ７を情報送出部２５に出力する。

情報送出部（送信手段）２５は、所定の通信方式にしたがう通信網を介して、フレーズ６ａおよびフレーズ６ｂを対話ロボット１００に送信する。具体的には、フラグ生成部２４からフレーズ６ａまたはフレーズ６ｂと重要フラグ７とが入力された場合、情報送出部２５は、当該フレーズ６ａまたは当該フレーズ６ｂと当該重要フラグ７とを送信部５２ｂに出力する。

記憶部３０ｂは、フレーズセット５ｂを格納可能な記憶機器である。記憶部３０ｂは、記憶部３０ａと同様に、例えば、ハードディスク、ＳＳＤ、半導体メモリ、ＤＶＤなどで構成できる。

（対話システム３００において実行される処理）
図５は、対話システム３００において実行される処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、対話ロボット１００の制御方法に含まれる各ステップを表す。

ユーザが発した「今日の天気は？」という音声１ａを、音声検出部１１が検出すると（ステップ１においてＹＥＳ、以下「ステップ」を「Ｓ」と略記する）、音声認識部１２が当該音声１ａを認識する（Ｓ２）。回答確定部１３は、記憶部３０ａに格納されたフレーズセット５ａ（ローカル辞書）を参照し、認識結果４ａに含まれるテキストを含むパターンが、当該フレーズセット５ａに含まれるか否か（マッチするか否か）を判定する（Ｓ３）。含まれると判定される場合（Ｓ３においてＹＥＳ）、回答確定部１３は、当該パターンに対応付けられたフレーズをユーザに返す回答として確定する（Ｓ４）。回答取得部１４が当該フレーズを取得すると（Ｓ１６）、音声出力部１６が当該フレーズを音声としてユーザに提示し（当該音声を再生する、Ｓ１７）、処理が終了する。一方、含まれないと判定される場合（Ｓ３においてＮＯ）、回答確定部１３は、「ちょっとまってね」という回答を保留するフレーズを確定し（Ｓ５）、音声出力部１６が当該フレーズを音声としてユーザに提示する（Ｓ６）。また、音声送出部１５は、音声情報３ａをサーバ２００に送信する（Ｓ７）。

サーバ２００の受信部５１ｂが上記音声情報３ａを受信し、音声取得部２１が当該音声情報３ａを取得すると（Ｓ８）、音声認識部２２が音声１ａを認識する（Ｓ９）。回答特定部２３は、音声１ａを認識した結果（認識結果４ａ）に対応付けられたフレーズ６ａを、フレーズセット５ｂ（クラウド辞書）において特定する（Ｓ１０）。フラグ生成部２４は、当該フレーズ６ａをユーザに提示することが必要であるか否か（当該フレーズ６ａの重要度は「高い」か否か）を判定し（Ｓ１１）、「高い」と判定される場合（Ｓ１１においてＹＥＳ）、「高い」を示す重要フラグ７を生成し（Ｓ１２）、「高い」と判定されない場合（Ｓ１１においてＮＯ）、「通常」を示す重要フラグ７を生成する（Ｓ１３）。情報送出部２５は、上記フレーズ６ａおよび上記重要フラグ７を対話ロボット１００に送信し（Ｓ１４）、当該対話ロボット１００の受信部５１ａは、当該フレーズ６ａおよび当該重要フラグ７を受信する（Ｓ１５）。回答取得部１４は、当該フレーズ６ａおよび当該重要フラグ７を取得する（Ｓ１６、取得ステップ）。

上記Ｓ７〜Ｓ１５の間に、ユーザがさらに発した「ところでスポーツのニュースは？」という音声１ｂを、音声検出部１１が検出した場合（割り込み処理が発生した場合、Ｓ１８においてＹＥＳ）、フラグ判定部１７は、上記Ｓ１５において受信した上記重要フラグ７に基づいて、上記フレーズ６ａをユーザに提示することが必要であるか否かを判定する（Ｓ１９）。必要であると判定される場合（上記重要フラグ７が「重要」を示す場合、Ｓ１９においてＹＥＳ）、回答格納部１８は、上記フレーズ６ａを記憶部３０ａに格納する（Ｓ２０）。

対話ロボット１００およびサーバ２００は、上記音声１ｂに対して、上記Ｓ２〜Ｓ１７の処理を実行する（図５に示されるフローチャートにおいて「Ａ」と表される）。上記Ｓ７〜Ｓ１５の間に、ユーザからさらなる音声を検出しなければ（Ｓ１８においてＮＯ）、回答取得部１４は、上記音声１ｂに対する回答として「昨日、チームＡは大勝だったよ」というフレーズ６ｂを取得し（Ｓ１６、取得ステップ）、当該フレーズ６ｂを音声１ｄによってユーザに提示する（Ｓ１７、提示ステップ）。上記「Ａ」から呼び出された一連の処理Ｓ２〜Ｓ１７が終了し、処理の流れはＳ２１の直前に復帰する。

音声出力部１６は、上記Ｓ１６において取得した上記フレーズ６ａをユーザに提示することが必要であるときは（すなわち、フラグ判定部１７によって重要フラグ７が「重要」を示すと判定されたことにより、回答格納部１８によって上記フレーズ６ａが記憶部３０ａに格納されているときは、Ｓ２１においてＹＥＳ）、音声１ｃによって上記フレーズ６ａをユーザに提示する（Ｓ１７、提示ステップ）。なお、上記フレーズ６ａがユーザに提示された後、音声出力部１６は、上記記憶部３０ａに格納された上記フレーズ６ａを、当該記憶部３０ａから削除してよい。

上記のように、例えば、通信が停滞したことにより、対話ロボット１００がユーザに回答（フレーズ６ａ）を提示するタイミングが遅延し、上記Ｓ７〜Ｓ１５の間にユーザがさらなる音声１ｂを与えたことによって、上記フレーズ６ａが提示される前に、フレーズ６ｂが新たに取得された場合、上記フレーズ６ａをユーザに提示することが必要であるときは、上記対話ロボット１００は、上記フレーズ６ｂを提示した後に、上記フレーズ６ａを提示する。

なお、音声１ｂに対して上記Ｓ２〜Ｓ１６の処理を実行している間に、ユーザからさらなる音声を検出した場合（２回目のＳ１８においてＹＥＳ）、対話ロボット１００は、上記Ｓ１９および上記Ｓ２０の処理を実行した後、上記Ｓ２〜Ｓ１７の処理をさらに実行できる。さらに実行できる回数は任意であり、当該回数は予め設定されていてよい。

〔実施形態２〕
図６および図７に基づいて、本発明の第２の実施の形態（実施形態２）を説明する。本実施の形態では、実施形態１に追加される構成や、実施形態１の構成とは異なる構成のみについて説明する。すなわち、実施形態１において記載された構成は、実施形態２にもすべて含まれ得る。また、実施形態１において記載された用語の定義は、実施形態２においても同じである。

（実施形態１との相違点）
図６は、対話ロボット１０１の要部構成を示すブロック図である。実施形態１に係る対話ロボット１００は、サーバ２０と通信可能に接続されて対話システム３００を構成し、フレーズセット５ａにフレーズ６ａまたはフレーズ６ｂが存在しない場合、上記対話ロボット１００は、当該フレーズ６ａまたは当該フレーズ６ｂを上記サーバ２０から取得した（クラウド構成）。

一方、本実施の形態においては、対話ロボット１０１が備える記憶部３０ａにフレーズセット５ａおよびフレーズセット５ｂが格納されており、対話ロボット１０１は、上記フレーズ６ａまたは上記フレーズ６ｂを上記記憶部３０ａから取得する（スタンドアロン構成）。したがって、図６に示されるように、対話ロボット１０１は、対話ロボット１００が備えた通信部５０ａおよび音声送出部１５を備えない（フレーズを取得するためにサーバ２０と通信する必要がないだけであるため、対話ロボット１０１は通信部５０ａまたは音声送出部１５を備えていてもよい）。

上記対話ロボット１０１はフレーズを取得するためにサーバ２０と通信しないため、「対話ロボットとサーバとの間で通信が停滞する」ことを原因として、ユーザにフレーズを提示するタイミングが遅延するという問題は生じ得ない。しかし、実施形態１ではサーバ２００が集中管理していたフレーズセット５ｂ（フレーズセット５ａよりも多くのパターンを含むクラウド辞書）を、実施形態２では対話ロボット１０１（記憶部３０ａ）がローカル辞書として保持するため、当該ローカル辞書から適切なフレーズを抽出する処理が一層重くなり、上記タイミングが遅延し得る。したがって、前述したように、先の呼びかけに対する先のフレーズと、後の呼びかけに対する後のフレーズとが交錯することにより、上記先のフレーズが未提示のままになるおそれが考えられる。

そこで、上記対話ロボット１０１は、先のフレーズを提示する前に、後のフレーズが新たに取得された場合、先のフレーズをユーザに提示することが必要であるときは、後のフレーズを提示した後に、先のフレーズを提示する。これにより、上記対話ロボット１０１は、先のフレーズをユーザに提示することが必要と判断される場合、当該先のフレーズを未提示のままにすることなく、当該先のフレーズを必ずユーザに提示できる。

（対話ロボット１０１の構成）
回答確定部１３は、音声を認識した結果に基づいて、ユーザに返す回答を確定する。具体的には、音声認識部１２から上記認識結果４ａまたは上記認識結果４ｂが入力された場合、回答確定部１３は、記憶部３０ａに格納されたフレーズセット５ａを参照し、上記認識結果４ａまたは上記認識結果４ｂに含まれる上記テキストを含むパターンが、当該フレーズセット５ａに含まれるか否かを判定する。

含まれると判定される場合、回答確定部１３は、当該パターンに対応付けられたフレーズをユーザに返す回答として確定し、回答取得部１４に出力する。一方、含まれないと判定される場合、回答確定部１３は、記憶部３０ａに格納されたフレーズセット５ｂを参照し、上記テキストを含むパターンを抽出する。そして、回答確定部１３は、当該パターンに対応付けられたフレーズ（フレーズ６ａまたはフレーズ６ｂ）をユーザに返す回答として確定する。このとき、回答確定部１３は、回答を保留するフレーズを回答取得部１４に出力することによって、当該フレーズをユーザに提示してよい。

次に、回答確定部１３は、フレーズをユーザに提示することが必要であるか否かに応じて、重要フラグを生成する。具体的には、回答確定部１３は、上記フレーズ６ａまたは上記フレーズ６ｂに「重要度」が設定されているか否かを判定する。設定されていると判定される場合、回答確定部１３は、「重要」を示す重要フラグ７を生成し、当該重要フラグ７と、当該重要フラグ７に対応するフレーズ（フレーズ６ａまたはフレーズ６ｂ）とを回答取得部１４に出力する。設定されていないと判定される場合、回答確定部１３は、「通常」を示す重要フラグ７を生成し、当該重要フラグ７を回答取得部１４に出力する。

回答取得部（取得手段）１４は、フレーズ６ａ、フレーズ６ｂ、および、重要フラグ７を回答確定部１３から取得する。これらを取得した後の処理は、実施形態１で説明したものと同じである。

（対話ロボット１０１が実行する処理）
図７は、対話ロボット１０１が実行する処理の一例を示すフローチャートである。上記フローチャートは、図５に例示されたフローチャート（対話システム３００において実行される処理）から通信に関係する処理（Ｓ７、Ｓ８、Ｓ１４、Ｓ１５）、および、サーバ２０が再度音声認識を行う処理（Ｓ９）が除かれ、サーバ２００において実行された処理（Ｓ１０〜Ｓ１３）が上記対話ロボット１０１（回答確定部１３）において実行される（Ｓ２２〜Ｓ２５）としたものである。

すなわち、回答確定部１３は、音声１ａを認識した結果（認識結果４ａ）に対応付けられたフレーズ６ａを、フレーズセット５ｂ（クラウド辞書）において特定する（Ｓ２２）。そして、回答確定部１３は、当該フレーズ６ａをユーザに提示することが必要であるか否かを判定し（Ｓ２３）、「高い」と判定される場合（Ｓ２３においてＹＥＳ）、「高い」を示す重要フラグ７を生成し（Ｓ２４）、「高い」と判定されない場合（Ｓ２３においてＮＯ）、「通常」を示す重要フラグ７を生成する（Ｓ２５）。

〔実施形態３〕
本発明の第３の実施の形態（実施形態３）を説明する。本実施の形態では、実施形態１または実施形態２に追加される構成や、実施形態１または実施形態２の構成とは異なる構成のみについて説明する。すなわち、実施形態１または実施形態２において記載された構成は、実施形態３にもすべて含まれ得る。また、実施形態１または実施形態２において記載された用語の定義は、実施形態３においても同じである。

（フレーズの動的変化）
対話ロボット（制御部１０ａを備えるもの）は、フレーズを取得した時点における状況を反映させるように、動的に変化させたフレーズをユーザに提示してよい。すなわち、ユーザが対話ロボットに対して「今日の天気は？」と音声１ａによって呼びかけ、当該対話ロボットが「雨だよ、傘を持っていってね」というフレーズ６ａを音声１ｃによって上記ユーザに提示する一例を前述したが、「今日の天気」が「晴れ」である場合、上記対話ロボットは「晴れだよ、傘はいらないね」というフレーズ６ａを提示できる。

具体的には、回答確定部１３（スタンドアロン構成の場合）または回答特定部２３（クラウド構成の場合）は、所定のウェブサービスから動的に変化する情報（例えば、天気の予報を示すテキスト）を取得し、当該情報に基づいて補完したフレーズを生成して（例えば、「・・・だよ」の更新可能な箇所「・・・」に、「晴れ」、「雨」などの上記テキストを挿入する）、当該補完したフレーズでフレーズセット５ｂを更新する。そして、回答取得部１４は、外部サービス（例えば、天気予報を提供する上記所定のウェブサービスなど）から取得可能な動的に変化する所定の情報によって補完された上記フレーズを取得する。これにより、上記対話ロボットは、動的に変化する上記フレーズをユーザに提示できる。

（重要フラグの動的設定）
フレーズセット５ｂに含まれる重要フラグ７は、パターンまたはフレーズに応じて、ユーザによってあらかじめ設定される。すなわち、ユーザは、フレーズセット５ａまたはフレーズセット５ｂの所定のレコードにパターン（検出ワード）を登録し、当該パターンに対して重要フラグ７を設定することができる。また、ユーザは、パターンを登録した後でも上記重要フラグ７を新たに設定または変更できる。

一方、上記重要フラグ７は、動的に変更されてもよい。例えば、音声１ａまたは音声１ｂの音量が通常よりも大きい場合（音声信号２ａまたは音声信号２ｂのゲインが所定のしきい値（または、これまでに得たゲインの平均値）を超える場合）、回答確定部１３（スタンドアロン構成の場合）またはフラグ生成部２４（クラウド構成の場合）は、「重要」を示す重要フラグ７を生成してよい。逆に、上記音量が通常よりも小さい場合、「通常」を示す重要フラグ７を生成してよい。

あるいは、上記音声１ａまたは上記音声１ｂが疑問形であると判定される場合（上記音声１ａまたは上記音声１ｂの周波数が高くなる場合、認識結果４ａまたは認識結果４ｂが所定のパターンで終了する場合など）回答確定部１３またはフラグ生成部２４は、「重要」を示す重要フラグ７を生成してよい。逆に、疑問形でないと判定される場合、「通常」を示す重要フラグ７を生成してよい。

〔ソフトウェアによる実現例〕
対話ロボット１００およびサーバ２００の制御ブロック（特に、制御部１０ａおよび制御部１０ｂ）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、対話ロボット１００およびサーバ２００は、各機能を実現するソフトウェアであるプログラム（制御プログラム）の命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る情報処理装置は、ユーザが発した音声（１ａ、１ｂ）に応じて、当該ユーザに所定のフレーズを提示する情報処理装置（対話ロボット１００、対話ロボット１０１）であって、前記音声が認識された結果（４ａ、４ｂ）に対応付けられた第１のフレーズ（６ａ）を取得する取得手段（回答取得部１４）と、前記第１のフレーズを提示する前に、当該第１のフレーズとは異なる第２のフレーズ（６ｂ）が前記取得手段によって新たに取得された場合、前記第１のフレーズを前記ユーザに提示することが必要であるときは、前記第２のフレーズを提示した後に、前記第１のフレーズを提示する提示手段（音声出力部１６）とを備えている。

人間と機械とが自然にコミュニケーションすることが前提となる場合、ユーザから機械への呼びかけに対するフレーズの提示が遅れることによって、当該提示の前に、ユーザから機械へさらなる呼びかけが行われるときがある。このとき、当該さらなる呼びかけに対してのみフレーズが新たに提示され、先のフレーズが未提示のままとなるおそれがある。

上記構成によれば、上記情報処理装置は、上記第１のフレーズを提示する前に、上記第２のフレーズが新たに取得された場合、上記第１のフレーズをユーザに提示することが必要であるときは、上記第２のフレーズを提示した後に、上記第１のフレーズを提示する。したがって、上記情報処理装置は、上記先のフレーズ（第１のフレーズ）を未提示のままにすることなく、確実にユーザに提示できる。

本発明の態様２に係る情報処理装置では、上記態様１において、前記取得手段は、前記第１のフレーズを前記ユーザに提示することが必要であるか否かを示す要否情報（重要フラグ７）をさらに取得し、前記提示手段は、前記要否情報が必要であることを示すときは、前記第２のフレーズを提示した後に、前記第１のフレーズを提示してよい。

上記構成によれば、上記情報処理装置は、上記第１のフレーズをユーザに提示することが必要であるか否かを、上記要否情報によって知ることができる。そして、当該要否情報によってユーザに提示することが必要であると判定される場合、上記情報処理装置は、上記第２のフレーズを提示した後に、上記第１のフレーズを提示する。したがって、上記情報処理装置は、上記第１のフレーズを未提示のままにすることなく、確実にユーザに提示できる。

本発明の態様３に係る情報処理装置は、上記態様１または態様２において、前記第１のフレーズを提示する前に、前記第２のフレーズが新たに取得された場合、当該第１のフレーズを前記ユーザに提示することが必要であるときは、当該第１のフレーズを所定の記憶部（３０ａ）に格納する格納手段（回答格納部１８）をさらに備え、前記提示手段は、前記所定の記憶部に前記第１のフレーズが格納されている場合、前記第２のフレーズを提示した後に、当該第１のフレーズを当該所定の記憶部から読み出して提示してよい。

上記構成によれば、上記情報処理装置は、上記第１のフレーズをユーザに提示することが必要であるときは、当該第１のフレーズを記憶部に待避させる。そして、上記情報処理装置は、上記記憶部に上記第１のフレーズが存在する場合、上記第２のフレーズを提示した後に当該第１のフレーズをユーザに提示する。したがって、上記情報処理装置は、上記第１のフレーズを未提示のままにすることなく、確実にユーザに提示できる。

本発明の態様４に係るサーバは、ユーザが情報処理装置に対して発した音声に応じて、当該ユーザに所定のフレーズを提示するように当該情報処理装置を制御するサーバ（２００）であって、前記音声を認識した結果に対応付けられたフレーズを、所定のフレーズセット（５ｂ）において特定する特定手段（回答特定部２３）と、前記フレーズを前記ユーザに提示することが必要であるか否かに応じて、要否情報を生成する生成手段（フラグ生成部２４）と、前記フレーズおよび前記要否情報を前記情報処理装置に送信する送信手段（情報送出部２５）とを備えている。

上記構成によれば、上記サーバは、上記音声を認識した結果に応じて、上記フレーズおよび上記要否情報を上記情報処理装置に送信する。ここで、上記音声を認識した結果にマッチするパターンは、上記情報処理装置が保持するフレーズセットよりも、上記サーバが保持するフレーズセットの方に多く含まれることが通常であるため、ユーザが上記情報処理装置に対して複雑な呼びかけを行った場合であっても、上記サーバは、適切なフレーズを返すように上記情報処理装置を制御できる。

また、上記フレーズをユーザに提示することが必要であるか否かを、上記要否情報によって上記情報処理装置に知らせることができる。したがって、上記サーバは、上記フレーズを未提示のままにすることなく、確実にユーザに提示するように、上記情報処理装置を制御することができる。

本発明の別態様に係る対話システム（３００）は、上記態様のいずれか１つの態様に係る情報処理装置と、上記態様に係るサーバとを含んでいる。

したがって、上記対話システムは、上記態様のいずれか１つの態様に係る情報処理装置、または、上記態様に係るサーバと同様の効果を奏する。

本発明の別態様に係る情報処理装置の制御方法は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置の制御方法であって、前記音声が認識された結果に対応付けられた第１のフレーズを取得する取得ステップ（Ｓ１６）と、前記第１のフレーズを提示する前に、当該第１のフレーズとは異なる第２のフレーズを前記取得ステップにおいて新たに取得した場合、当該第１のフレーズを前記ユーザに提示することが必要であるときは、前記第２のフレーズを提示した後に、前記第１のフレーズを提示する提示ステップ（Ｓ１７）とを含んでいる。

したがって、上記情報処理装置の制御方法は、上記態様に係る情報処理装置と同様の効果を奏する。

本発明の各態様に係る情報処理装置およびサーバは、コンピュータによって実現されてもよく、この場合、コンピュータを上記情報処理装置および上記サーバが備えた各手段として動作させることにより、上記情報処理装置および上記サーバをコンピュータにおいて実現させる情報処理装置の制御プログラム、サーバの制御プログラム、および、それらを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

本発明は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する装置に広く適用することができる。

１ａ音声
１ｂ音声
４ａ認識結果（認識された結果）
４ｂ認識結果（認識された結果）
５ｂフレーズセット（所定のフレーズセット）
６ａフレーズ（第１のフレーズ）
６ｂフレーズ（第２のフレーズ）
７重要フラグ（要否情報）
１４回答取得部（取得手段）
１６音声出力部（提示手段）
１８回答格納部（格納手段）
２３回答特定部（特定手段）
２４フラグ生成部（生成手段）
２５情報送出部（送信手段）
３０ａ記憶部（所定の記憶部）
１００対話ロボット（情報処理装置）
１０１対話ロボット（情報処理装置）
２００サーバ
３００対話システム

Claims

ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置であって、
前記音声が認識された結果に対応付けられた第１のフレーズを取得する取得手段と、
前記第１のフレーズを提示する前に、当該第１のフレーズとは異なる第２のフレーズが前記取得手段によって新たに取得された場合、前記第１のフレーズを前記ユーザに提示することが必要であるときは、前記第２のフレーズを提示した後に、前記第１のフレーズを提示する提示手段とを備え、
前記音声として先の音声および後の音声のそれぞれが発せられた場合に、前記第１のフレーズは、前記先の音声が認識された結果に対応付けられたものであり、前記第２のフレーズは、前記後の音声が認識された結果に対応付けられたものであることを特徴とする情報処理装置。
ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置であって、
前記音声が認識された結果に対応付けられた第１のフレーズを取得する取得手段と、
前記第１のフレーズを提示する前に、当該第１のフレーズとは異なる第２のフレーズが前記取得手段によって新たに取得された場合、前記第１のフレーズを前記ユーザに提示することが必要であるときは、前記第２のフレーズを提示した後に、前記第１のフレーズを提示する提示手段とを備え、
前記取得手段は、前記第１のフレーズを前記ユーザに提示することが必要であるか否かを示す要否情報をさらに取得し、
前記提示手段は、前記要否情報が必要であることを示すときは、前記第２のフレーズを提示した後に、前記第１のフレーズを提示することを特徴とする情報処理装置。
前記第１のフレーズを提示する前に、前記第２のフレーズが新たに取得された場合、当該第１のフレーズを前記ユーザに提示することが必要であるときは、当該第１のフレーズを所定の記憶部に格納する格納手段をさらに備え、
前記提示手段は、前記所定の記憶部に前記第１のフレーズが格納されている場合、前記第２のフレーズを提示した後に、当該第１のフレーズを当該所定の記憶部から読み出して提示することを特徴とする請求項１または２に記載の情報処理装置。
ユーザが情報処理装置に対して発した音声に応じて、当該ユーザに所定のフレーズを提示するように当該情報処理装置を制御するサーバであって、
前記音声を認識した結果に対応付けられたフレーズを、所定のフレーズセットにおいて特定する特定手段と、
前記フレーズを前記ユーザに提示することが必要であるか否かに応じて、要否情報を生成する生成手段と、
前記フレーズおよび前記要否情報を前記情報処理装置に送信する送信手段とを備えたことを特徴とするサーバ。
請求項１から３のいずれか１項に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを前記各手段として機能させるための制御プログラム。