(本発明の基礎となった知見)
本発明者は、「背景技術」の欄において記載した、発話者間の対話に関し、以下の問題が生じることを見出した。
複数人で対話をしている場合、この複数人のうちのある人が発話すべき番になったときに、当該人が注意の散漫又は外乱等により適切に発話することができないことがある。この事象は、例えば、高齢者が対話をする際に、一時的な注意の散漫、又は、老化による聴力の低下などにより生じ得る。また、聴覚障害者が対話をする際に、障害による聴力の低下により生じ得る。さらに、他人の話を普段からあまり聞かない傾向がある人、又は、対話の流れに無関係に発話する(若しくは、発話しない)傾向がある人を含む複数人での対話、又は、バイクのエンジン音など騒音がある状況でする対話でも生じ得る。
このとき、対話において発話すべき番になった人が発話しないままであると、対話が適切に進行しないという問題がある。これに起因して、当該対話に補聴器又は翻訳装置などの機器を使用している場合、対話が適切に進行しないときには、対話に本来必要な時間より長い時間を要することで消費電力の上昇を招くという問題も生じ得る。
そこで、本発明は、対話における適切な発話を促す対話補助システムの制御方法などを提供する。
上記問題を解決するために、本発明の一態様に係る対話補助システムの制御方法は、入力された音声信号に処理を施すことで対話データを生成し、前記対話に続く音声信号に処理を施すことで後続データを生成し、前記対話データに基づいて定められる条件であって、前記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、前記対話の継続のための情報を提示する。
上記態様によれば、対話補助システムは、対話の継続がなされない、つまり、対話が断絶している(又は、断絶しかけている)か否かを判定し、対話の継続がなされないと判定した場合に、対話が継続するように適切な情報を提示する。対話補助システムを使用して対話している人は、対話補助システムが提示する情報を得ることで、対話の継続のために適切な行動(例えば、自身が発話するなど)を取ることができる。このようにして、対話補助システムは、対話における適切な発話を促すことができる。
例えば、前記情報は、(a)前記対話の継続のために、前記対話に続いて発話すべき発話者を示す情報、及び、(b)前記対話の継続のための、前記対話に続いてすべき発話の内容を示す情報、の少なくとも一方を含む。
上記態様によれば、対話補助システムは、対話補助システムを使用して対話している人のうちのどの人が発話をすべきであるのか、又は、どのような内容の発話をすべきであるのかを提示する。これにより、対話補助システムを使用して対話している人のうちの適切な人による発話を促すこと、又は、適切な内容の発話を促すことができる。このようにして、対話補助システムは、対話におけるより適切な発話を促すことができる。
例えば、前記条件は、前記後続データのうちの前記対話に続く所定時間長の期間内に、前記対話の継続のために発話すべき発話者の発話が含まれること、を含む。
上記態様によれば、対話補助システムは、対話補助システムを使用して対話している人のうちのどの人が、どのタイミングで発話すべきであるかを条件として用いて、対話の継続がなされているか否かの判定を具体的に行う。
例えば、前記条件は、さらに、前記対話の継続のために前記発話者が発話すべき内容の発話が前記後続データに含まれること、を含む。
上記態様によれば、対話補助システムは、対話に続く発話が含むべき発話内容を、さらなる条件として、対話の継続がなされているか否かの判定を具体的に行う。
例えば、前記対話データを生成するための前記処理、又は、前記後続データを生成するための前記処理は、音信号に対する音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理の少なくとも1つを含む。
上記態様によれば、対話補助システムは、音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理の少なくとも1つを用いて、具体的に音信号に処理を施すことができる。
また、本発明の一態様に係る対話補助システムは、(a)入力された音声信号に処理を施すことで対話データを生成し、かつ、(b)前記対話に続く音声信号に処理を施すことで後続データを生成する、対話データ生成部と、前記対話データに基づいて定められる条件であって、前記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、対話の継続のための情報を提示する提示装置とを備える。
上記態様によれば、対話補助システムは、上記対話補助システムの制御方法と同様の効果を奏する。
また、本発明の一態様に係るプログラムは、上記の制御方法をコンピュータに実行させるためのプログラムである。
上記態様によれば、対話補助システムは、上記対話補助システムの制御方法と同様の効果を奏する。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態)
本実施の形態において、対話における適切な発話を促す対話補助システムなどについて説明する。
図1は、本実施の形態における対話の状況と対話内容とを示す説明図である。図1の(a)には、複数人(人A、B及びC)が対話をしている状況が示されており、図1の(b)には、その対話内容として、対話における各人の発話の内容が示されている。
この対話において、人Aによる「昨日、巨大なアヒルを見たんだよ」との発話D1に対して、人Cが「巨大なアヒル、どこにいたの?」との質問である発話D3をしている。この質問の後、対話の継続のためには、人Aがこの質問に答えることが期待される。しかし、人Aは、実際には何も発話せずに沈黙D4をしている。これにより、対話が断絶してしまう。
このような対話の断絶は、人Aが、散漫により、人Cによる質問に係る発話を自身に対する質問と認識しなかったこと、又は、人Cの質問に係る発話の際に周囲の雑音などの外乱があったために人Aが人Cの質問に係る発話を聴取できなかったことを一因として生じ得る。
本発明の対話補助システムは、このような対話の断絶が生じることを抑制し、対話における適切な発話を促すことを目的とする。
図2は、本実施の形態における対話補助システム1の機能を示すブロック図である。図3は、本実施の形態における対話補助システム1による音声認識、話者認識及び状況認識の結果の一例を示す説明図である。
図2に示されるように対話補助システム1は、マイク10と、音響分析部12と、音声認識部14と、話者認識部16と、状況認識部18と、対話データ管理部20と、提示制御部22と、スピーカ24とを備える。なお、音響分析部12と、音声認識部14と、話者認識部16と、状況認識部18と、対話データ管理部20と、提示制御部22とのそれぞれは、対話補助システム1が備えるプロセッサ(不図示)が所定のプログラムを実行することでソフトウェア的に実現されてもよいし、専用回路によりハードウェア的に実現されてもよい。
マイク10は、周囲の音を収音し、収音した音に相当する電気信号を生成するマイクロホン装置である。なお、マイク10は、無音の環境に置かれると、無音に相当する電気信号を生成する。つまり、マイク10が収音する「周囲の音」は、無音をも含む概念である。マイク10に入力される音の振動は、例えば、図3の(a)に示されるものであり、この場合、マイク10は、図3の(a)に示される信号と同様の電圧波形を有する電気信号を生成する。
音響分析部12は、マイク10が生成した電気信号に対して音響分析処理を施す処理部である。具体的には、音響分析部12は、マイク10が生成した電気信号の周波数スペクトル、並びに、上記電気信号に含まれる音声のパワー及びピッチを、音響分析処理により取得する。音響分析部12が取得する周波数スペクトル、パワー及びピッチは、例えば、それぞれ図3の(b)、(c)及び(d)に示されるものである。音響分析部12は、公知の音響分析技術により実現され得る。
音声認識部14は、音響分析部12が取得した周波数スペクトルに基づいて音声認識処理を行う処理部である。具体的には、音声認識部14は、音響分析部12が取得した周波数スペクトルから、マイク10が収音した音に含まれる音声を音声認識処理により取得する。音声の分析では、音に含まれている「あ」、「い」、「う」等の音声が取得される。例えば、音声認識部14は、図3の(e)に示される時間区間t1に含まれる周波数スペクトルから「きのうきょだいなあひるをみたんだよ」との音声が認識される。
上記と同様に、時間区間t2から「へーそれはすごい」との音声が認識され、時間区間t3から「きょだいなあひるどこにいたの」との音声が認識される(図3の(e))。音声認識部14は、公知の音声認識技術により実現され得る。
話者認識部16は、音響分析部12が取得した、音声のパワー及びピッチに基づいて、マイク10が収音した音に含まれる音声を発した発話者が誰であるかを認識する処理部である。話者認識部16は、例えば、対話している者として予め設定された複数の人の音声のパワー及びピッチを特定する特定情報を保有しており、音響分析部12が取得したパワー及びピッチが上記複数人のうちの誰の音声のパワー及びピッチに近いかを判別することで、マイク10が収音した音に含まれる音声を発した発話者が誰であるかを認識する(図3の(f))。話者認識部16は、公知の話者認識技術により実現され得る。
状況認識部18は、音響分析部12が取得した音に基づいて、マイク10が音を収音したときのマイク10の周囲の状況を認識する処理部である。状況認識部18は、音響分析部12が取得した音が人の音声を含んでいるか否かを判定し、人の音声を含んでいる時間区間を「発話」の時間区間と認識し、そうでない時間区間を「沈黙」の時間区間と認識する。なお、上記の他にも、状況認識部18は、パワーが所定値より大きい区間を「騒音」の時間区間と認識してもよい。一般的な対話に用いられる音のパワーを超える大きな音は、対話の障害(外乱)になり得るからである。
対話データ管理部20は、複数人の対話の内容を示す対話データを管理している管理部である。対話データ管理部20は、音声認識部14、話者認識部16及び状況認識部18による処理の結果に基づいて対話の内容を示す対話データを生成し、対話の進行に応じて対話データを更新することで管理する。また、対話データ管理部20は、対話に続く発話が対話の継続のために満たすべき条件が満たされるか否かを判定する。対話データ管理部20の詳細な機能については後で詳しく説明する。
提示制御部22は、対話データ管理部20による判定に基づいて対話の継続のための提示情報の提示を制御する処理部である。提示制御部22は、対話データ管理部20による判定に基づいて対話の継続のための提示情報を生成し、生成した提示情報に相当する音声を合成し、合成した音声に相当する電気信号を生成してスピーカ24に出力することで、提示情報を出力する。具体的には、提示制御部22は、対話データに基づいて定められる条件であって、対話に続く発話が対話の継続のために満たすべき条件が満たされないと、後続データに基づいて判定される場合に、対話の継続のための情報をスピーカ24により提示する。なお、下記のとおりスピーカ24の代わりに他の提示装置を採用する場合には、提示制御部22は、上記電気信号の代わりに当該他の提示装置に適した制御情報を生成して出力する。なお、「提示情報」を単に「情報」とも表現する。
スピーカ24は、音を出力する音出力装置である。スピーカ24は、提示制御部22による制御の下で、対話の継続のための提示情報を提示する。なお、スピーカ24は、人に情報を提示する提示装置の一例であり、スピーカ24の代わりに例えば表示装置を採用することも可能である。
以降において、対話データ管理部20の詳細な構成について説明する。
図4は、本実施の形態における対話データ管理部20の詳細機能を示すブロック図である。
図4に示されるように、対話データ管理部20は、構文解析部30と、意味解析部32と、対話データ生成部34と、対話データ記憶部36と、判定部38とを備える。図5は、本実施の形態における対話補助システム1による発話の意味解析結果の第一例を示す説明図である。図6は、本実施の形態における対話補助システム1による発話の意味解析結果の第二例を示す説明図である。
構文解析部30は、音声認識部14が取得した音声に対して構文解析処理を行うことで、音声に含まれる品詞の分析、及び、構文の分析を行う。構文解析部30は、公知の構文解析技術により実現され得る。
意味解析部32は、構文解析部30が分析した構文に対して意味解析処理を行うことで、音声に含まれる構文の意味を取得する。より具体的には、意味解析部32は、構文解析部30が分析した構文の文型、時制、主語、述語、目的語及び修飾語などの情報を得る。例えば、意味解析部32は、図3の(e)に示される時間区間t1に含まれる音声認識結果から、文型として「肯定」、時制として「過去」、主語として「私」という情報を取得する(図5参照)。なお、図5の例では、日本語の性質を利用して、主語が省略されていることに基づいて主語が「私」であると解析されている。上記と同様に、意味解析部32は、図3の(e)に示される時間区間t3に含まれる音声認識結果から、文型として「疑問」、主語として「巨大なアヒル」などの情報を取得する(図6参照)。意味解析部32は、公知の意味解析技術により実現され得る。
対話データ生成部34は、意味解析部32により取得された文の意味、話者認識部16により認識された話者の特定情報、及び、状況認識部18により認識された周囲の状況に基づいて対話データを生成する処理部である。具体的には、対話データ生成部34は、入力された音声信号に処理を施すことで対話データを生成し、かつ、対話に続く音声信号に処理を施すことで後続データを生成する。
ここで生成される対話データは、どの人がどのタイミングで、どのような意味の文を発話したかを時系列で示すデータである。また、上記対話データは、状況認識部18が認識した「沈黙」及び「騒音」などの状況も併せて時系列で示すデータである。対話データ生成部34は、生成した対話データを対話データ記憶部36に格納する。
対話データ記憶部36は、対話データ生成部34が生成した対話データを記憶している記憶装置である。対話データ記憶部36は、対話データ生成部34により書き込まれ、判定部38により読み出される。
判定部38は、対話データに基づいて定められる条件であって、対話に続く発話が対話の継続のために満たすべき条件を生成し、生成した条件が満たされるか否かを判定する処理部である。判定部38は、上記判定を、上記対話に続く後続データに基づいて行う。判定部38は、上記条件が満たされない場合に、対話の継続のための提示情報を提示するよう提示制御部22を制御する。
判定部38が生成する条件について具体的に説明する。判定部38は、対話データ記憶部36に記憶されている対話データを読み出し、この対話データに係る対話に続く発話(後続発話ともいう)が、対話の継続のために満たすべき条件を生成する。判定部38が生成する条件は、(1)後続発話の意味に関する条件である意味条件と、(2)後続発話についての状況に関する条件である状況条件との少なくとも一方を含む。なお、判定部38が意味条件及び状況条件の両方を生成した場合、これらの両方の条件が成立することが判定される場合に、条件が満たされたと判定される。各条件について以降で詳しく説明する。
(1)意味条件は、後続発話が有する意味が満たすべき条件であり、より具体的には、後続発話をする発話者が満たすべき条件と、後続発話の内容が満たすべき条件とを含む。例えば、対話データに係る対話の最後の文が疑問文である場合には、後続発話の発話者が満たすべき条件は、「後続発話の発話者が、上記疑問文により問われている対象に関する発話を過去に提供した人であること」である。また、後続発話の内容が満たすべき条件は、「後続発話の内容が上記疑問文により問われている対象を含むこと」である。
図7は、本実施の形態における、後続発話が満たすべき意味条件を示す説明図である。図7は、図5及び図6に示される発話を含む対話に続く後続発話が満たすべき意味条件を具体的に示したものである。
発話D1において人Aが「巨大なアヒルを見た」という内容の発話をし、その後、発話D3において人Cが「巨大なアヒルがどこにいたのか」という内容の疑問文を発話している。この疑問文により問われている対象は、巨大なアヒルがいた場所である。
このとき、後続発話の発話者が満たすべき条件は、巨大なアヒルの話題を過去に提供した人が人Aであったことから、「後続発話の発話者が人Aであること」である。また、後続発話の内容が満たすべき条件は、上記疑問文が巨大なアヒルがいた場所を問うていることから、「後続発話の内容が、巨大なアヒルがいた場所を含むこと」である。なお、意味条件には、上記の他にも、文型、主語、述語等についての条件を含むことができる(図7参照)。
(2)状況条件は、後続発話についての状況が満たすべき条件であり、より具体的には、後続発話についての音レベルの上限値、又は、対話データに係る対話の最後の文(つまり後続発話の直前の文)の終端からの後続発話までの経過時間の上限値等を含む。
図8は、本実施の形態における、後続発話が満たすべき状況条件を示す説明図である。図8は、図5及び図6に示される発話を含む対話に続く後続発話が満たすべき状況条件を具体的に示したものである。
図8に示される状況条件の音のパワーは、一般的な対話に用いられる音のパワーの範囲内であることを要する。この範囲の上限より大きいパワーを有する音は騒音であると考えられるからである。そこで、後続発話が満たすべき音のパワーについての条件をこの範囲の上限値(例えば70dBA)とする。
また、図8に示される状況条件に示される、直前の文からの経過時間は、対話中の一時的な沈黙として許容される時間の範囲内であることを要する。この範囲の上限より長い時間長を有する沈黙は、発話すべき人が、自身が発話すべきことを認識していない場合と考えられる。そこで、後続発話が満たすべき、直前の文からの経過時間についての条件をこの範囲の上限値(例えば5秒)とする。
上記(1)及び(2)を用いて、例えば、後続発話の発話者が満たすべき条件は、後続データのうちの上記対話に続く所定時間長の期間内に、対話の継続のために発話すべき発話者の発話が含まれること、を含んでもよい。
さらに、後続発話の発話者が満たすべき条件は、さらに、対話の継続のために発話者が発話すべき内容の発話が後続データに含まれること、を含んでもよい。
次に、提示制御部22による提示情報の提示の制御について説明する。
提示制御部22は、判定部38による判定の結果に基づいて、対話の継続のための提示情報の提示をするか否かを制御する。より具体的には、提示制御部22は、判定部38が生成した条件が満たされないと判定部38が判定した場合に、対話の継続のための提示情報を提示し、そうでない場合には、そのような提示を行わない。提示情報を提示する場合には、提示制御部22は、提示情報の生成を行う。提示情報は、例えば、(a)対話の継続のために、対話に続いて発話すべき発話者を示す情報、及び、(b)対話の継続のための、対話に続いてすべき発話の内容を示す情報、の少なくとも一方を含む。
例えば、図7に示される意味条件の下で、人Aではなく人Bが巨大なアヒルのこと又はその他のことについて発話をした場合、人Bが人Aに対して発話を促す発話をした場合、人Aが巨大なアヒルと無関係のことについて発話した場合などには、上記意味条件が満たされないと判定部38により判定される。
例えば、図8に示される状況条件の下で、人Aが、対話の最後の文から5秒を超える沈黙をした場合、上記状況条件が満たされないと判定部38により判定される。このことを契機として、提示制御部22は、対話の継続のための提示情報として、人Aが、巨大なアヒルがいた場所を示す情報を含む発話をすべきことを提示する。具体的な提示の態様について2つの例を説明する。
図9は、本実施の形態における対話補助システム1による情報提示の態様の第一例を示す説明図である。図9に示される対話補助システム1は、補聴器型の外観を有するものであり、人の耳に接触して装着され、スピーカ24が人の耳穴に向けて音を出力する。
対話補助システム1が人Aに装着されているとき、提示制御部22は、スピーカ24により、提示情報として例えば「あなたが巨大なアヒルの場所を答える番です」との音声を出力する。これにより人Aは、対話の継続のためには、自身が巨大なアヒルの場所を答えるべきことを認識して、対話を継続させることができ、言い換えれば、対話が断絶することを回避することができる。
補聴器型の対話補助システム1を装着している人は、対話の相手に気付かれることなく、対話補助システム1が出力する対話の継続のための音声を聴取し、その音声による指示に従って発話をすることで、対話を継続することができる。
図10は、本変形例における対話補助システム1Aによる情報提示の態様の第二例を示す説明図である。
本変形例に係る対話補助システム1Aは、表示装置28を備える携帯情報端末型である。対話補助システム1Aは、例えば、スマートフォン、タブレット又はノート型パソコンなどにより実現されてもよいし、専用ハードウェアにより実現されてもよい。
対話補助システム1Aは、人Aが携帯して使用することが想定される。つまり、人Aが表示装置28を視認することで、対話補助システム1Aから自身に対する指示を視認することができる。
提示制御部22は、表示装置28により、提示情報として例えば「あなたが巨大なアヒルの場所を答える番です」との文字列を表示する。これにより人Aは、対話の継続のためには、自身が巨大なアヒルの場所を答えるべきことを認識して、対話を継続させることができる。なお、表示装置28により提示される情報は、人Aだけに視認され、他の人からは視認されないように制御されてもよいし、対話している複数人の全員に視認されるように制御されてもよい。人Aだけに視認されるように制御すれば、上記補聴器型の対話補助システム1の場合と同様、人Aは、対話の相手に気付かれることなく対話の継続のための提示情報を聴取することができる利点がある。また、対話している複数人の全員に視認されるように制御すれば、対話が断絶しそうであることを複数人の全員が認識して注意することができる利点がある。
図11は、本実施の形態における対話補助システム1の制御方法を示すフロー図である。
ステップS11において、対話データ生成部34は、対話データを生成する。生成される対話データは、マイク10により収音された、対話を含む音から、音響分析部12、音声認識部14、話者認識部16、状況認識部18、構文解析部30及び意味解析部32による処理を経て生成されるデータである。
ステップS12において、対話データ生成部34は、後続データを生成する。生成される後続データは、マイク10により収音された、対話に続く後続発話を含む音から、上記音響分析部12等による処理を経て生成されるデータである。
ステップS13において、判定部38は、ステップS11で生成された対話データに基づいて定められる条件であって、上記対話データに係る対話に続く発話が対話の継続のために満たすべき条件が満たされるか否かを、後続データに基づいて判定する。判定部38が上記条件が満たされると判定した場合(ステップS13でYes)、本フロー図に示される一連の処理を終了し、そうでない場合(ステップS13でNo)、ステップS14に進む。
ステップS14において、提示制御部22は、対話の継続のための提示情報を生成する。
ステップS15において、提示制御部22は、ステップS14で生成した対話の継続のための提示情報をスピーカ24により提示する。つまり、提示制御部22は、ステップS11で生成した対話データに基づいて定められる条件であって、上記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、ステップS12で生成した後続データに基づいて判定される場合に、上記対話の継続のための情報を提示する。
これで、本フロー図に示される一連の処理を終了する。
なお、上記の音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理を単に処理ともいう。
以上のように本実施の形態の対話補助システムは、対話の継続がなされない、つまり、対話が断絶している(又は、断絶しかけている)か否かを判定し、対話の継続がなされないと判定した場合に、対話が継続するように適切な情報を提示する。対話補助システムを使用して対話している人は、対話補助システムが提示する情報を得ることで、対話の継続のために適切な行動(例えば、自身が発話するなど)を取ることができる。このようにして、対話補助システムは、対話における適切な発話を促すことができる。
また、対話補助システムは、対話補助システムを使用して対話している人のうちのどの人が発話をすべきであるのか、又は、どのような内容の発話をすべきであるのかを提示する。これにより、対話補助システムを使用して対話している人のうちの適切な人による発話を促すこと、又は、適切な内容の発話を促すことができる。このようにして、対話補助システムは、対話におけるより適切な発話を促すことができる。
また、対話補助システムは、対話補助システムを使用して対話している人のうちのどの人が、どのタイミングで発話すべきであるかを条件として用いて、対話の継続がなされているか否かの判定を具体的に行う。
また、対話補助システムは、対話に続く発話が含むべき発話内容を、さらなる条件として、対話の継続がなされているか否かの判定を具体的に行う。
また、対話補助システムは、音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理の少なくとも1つを用いて、具体的に音信号に処理を施すことができる。
(実施の形態の変形例)
本変形例では、対話における適切な発話を促す対話補助システムであって、ネットワークを介して通信可能なサーバと端末とによって実現される対話補助システムの例を説明する。
図12は、本変形例における対話補助システム2の機能を示すブロック図である。
図12に示される対話補助システム2は、ネットワークを介して互いに通信可能な対話補助端末3とサーバ4とを備える。対話補助端末3は、マイク10と、スピーカ24と、通信部50とを備える。サーバ4は、音響分析部12と、音声認識部14と、話者認識部16と、状況認識部18と、対話データ管理部20と、提示制御部22と、通信部52とを備える。なお、実施の形態1におけるものと同一の機能を有する構成要素には同一の符号を付し詳細な説明を省略する。
通信部50は、サーバ4の通信部52との間で通信データを送受信する通信インタフェースである。通信部50は、マイク10が生成した電気信号を通信部52に送信し、また、スピーカ24が出力する音声に相当する電気信号を通信部52から受信する。通信部50は、任意の通信インタフェースにより実現され、例えば、IEEE802.11a、b、g規格等に適合する無線LAN、IEEE802.3規格等の適合する有線LAN、又は、携帯電話網の通信インタフェースにより実現される。
通信部52は、対話補助端末3の通信部50との間で通信データを送受信する通信インタフェースである。通信部52は、マイク10が生成した電気信号を通信部50から受信し、また、スピーカ24が出力する音声に相当する電気信号を通信部50へ送信する。通信部52は、通信部50と同様、任意の通信インタフェースにより実現される。
なお、複数の対話補助端末3がサーバ4と同時並行的に通信することも可能である。
このような構成をとることで、対話補助端末3の構成を、ユーザインタフェースの役割を有するマイク10及びスピーカ24等とすることで最小限に絞り込むことができる。対話補助端末3は、ユーザごとに保有されることが想定されるので、対話補助端末3の機能を絞り込むことで対話補助システム2の製造及び保守運用のコストを低減させることができる利点がある。
一方、比較的行動な情報処理を要する機能をサーバ4に集中して保有させることで、処理の効率化、保守効率を向上させることができる利点がある。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の対話補助システムなどを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、対話補助システムの制御方法であって、入力された音声信号に処理を施すことで対話データを生成し、前記対話に続く音声信号に処理を施すことで後続データを生成し、前記対話データに基づいて定められる条件であって、前記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、前記対話の継続のための情報を提示する制御方法を実行させる。
以上、一つまたは複数の態様に係る対話補助システムなどについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。