JP6918471B2

JP6918471B2 - 対話補助システムの制御方法、対話補助システム、及び、プログラム

Info

Publication number: JP6918471B2
Application number: JP2016228279A
Authority: JP
Inventors: 野村　和也; 和也野村
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2021-08-11
Anticipated expiration: 2036-11-24
Also published as: JP2018084700A

Description

本発明は、対話補助システムの制御方法、対話補助システム、及び、プログラムに関する。

特許文献１は、発話者間の理解が不一致のまま対話が進められることを回避するコミュニケーション支援装置を開示している（特許文献１参照）。

特開２００７−２２００４５号公報

しかしながら、特許文献１に開示される技術は、対話における発話に含まれる重要語句を抽出し、抽出した重要語句に基づいて対話における発話者の理解が一致しているか否かを判定するものであり、対話が適切に進められていないときにその対話が適切に進むように補助することまではできないという問題がある。

そこで、本発明は、対話における適切な発話を促す対話補助システムの制御方法などを提供する。

本発明の一態様に係る対話補助システムの制御方法は、入力された音声信号に処理を施すことで対話データを生成し、前記対話に続く音声信号に処理を施すことで後続データを生成し、前記対話データに基づいて定められる条件であって、前記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、前記対話の継続のための情報を提示する。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本発明の対話補助システムの制御方法は、対話における適切な発話を促すことができる。

図１は、対話の状況と対話内容とを示す説明図である。図２は、実施の形態における対話補助装置の機能を示すブロック図である。図３は、実施の形態における対話補助装置による音声認識、話者認識及び状況認識の結果の一例を示す説明図である。図４は、実施の形態における対話データ管理部の詳細機能を示すブロック図である。図５は、実施の形態における対話補助装置による発話の意味解析結果の第一例を示す説明図である。図６は、実施の形態における対話補助装置による発話の意味解析結果の第二例を示す説明図である。図７は、実施の形態における、後続発話が満たすべき意味条件を示す説明図である。図８は、実施の形態における、後続発話が満たすべき状況条件を示す説明図である。図９は、実施の形態における対話補助装置による情報提示の態様の第一例を示す説明図である。図１０は、実施の形態の変形例１における対話補助装置による情報提示の態様の第二例を示す説明図である。図１１は、実施の形態における対話補助装置の制御方法を示すフロー図である。図１２は、実施の形態の変形例２における対話補助システムの機能を示すブロック図である。

（本発明の基礎となった知見）
本発明者は、「背景技術」の欄において記載した、発話者間の対話に関し、以下の問題が生じることを見出した。

複数人で対話をしている場合、この複数人のうちのある人が発話すべき番になったときに、当該人が注意の散漫又は外乱等により適切に発話することができないことがある。この事象は、例えば、高齢者が対話をする際に、一時的な注意の散漫、又は、老化による聴力の低下などにより生じ得る。また、聴覚障害者が対話をする際に、障害による聴力の低下により生じ得る。さらに、他人の話を普段からあまり聞かない傾向がある人、又は、対話の流れに無関係に発話する（若しくは、発話しない）傾向がある人を含む複数人での対話、又は、バイクのエンジン音など騒音がある状況でする対話でも生じ得る。

このとき、対話において発話すべき番になった人が発話しないままであると、対話が適切に進行しないという問題がある。これに起因して、当該対話に補聴器又は翻訳装置などの機器を使用している場合、対話が適切に進行しないときには、対話に本来必要な時間より長い時間を要することで消費電力の上昇を招くという問題も生じ得る。

上記問題を解決するために、本発明の一態様に係る対話補助システムの制御方法は、入力された音声信号に処理を施すことで対話データを生成し、前記対話に続く音声信号に処理を施すことで後続データを生成し、前記対話データに基づいて定められる条件であって、前記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、前記対話の継続のための情報を提示する。

上記態様によれば、対話補助システムは、対話の継続がなされない、つまり、対話が断絶している（又は、断絶しかけている）か否かを判定し、対話の継続がなされないと判定した場合に、対話が継続するように適切な情報を提示する。対話補助システムを使用して対話している人は、対話補助システムが提示する情報を得ることで、対話の継続のために適切な行動（例えば、自身が発話するなど）を取ることができる。このようにして、対話補助システムは、対話における適切な発話を促すことができる。

例えば、前記情報は、（ａ）前記対話の継続のために、前記対話に続いて発話すべき発話者を示す情報、及び、（ｂ）前記対話の継続のための、前記対話に続いてすべき発話の内容を示す情報、の少なくとも一方を含む。

上記態様によれば、対話補助システムは、対話補助システムを使用して対話している人のうちのどの人が発話をすべきであるのか、又は、どのような内容の発話をすべきであるのかを提示する。これにより、対話補助システムを使用して対話している人のうちの適切な人による発話を促すこと、又は、適切な内容の発話を促すことができる。このようにして、対話補助システムは、対話におけるより適切な発話を促すことができる。

例えば、前記条件は、前記後続データのうちの前記対話に続く所定時間長の期間内に、前記対話の継続のために発話すべき発話者の発話が含まれること、を含む。

上記態様によれば、対話補助システムは、対話補助システムを使用して対話している人のうちのどの人が、どのタイミングで発話すべきであるかを条件として用いて、対話の継続がなされているか否かの判定を具体的に行う。

例えば、前記条件は、さらに、前記対話の継続のために前記発話者が発話すべき内容の発話が前記後続データに含まれること、を含む。

上記態様によれば、対話補助システムは、対話に続く発話が含むべき発話内容を、さらなる条件として、対話の継続がなされているか否かの判定を具体的に行う。

例えば、前記対話データを生成するための前記処理、又は、前記後続データを生成するための前記処理は、音信号に対する音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理の少なくとも１つを含む。

上記態様によれば、対話補助システムは、音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理の少なくとも１つを用いて、具体的に音信号に処理を施すことができる。

また、本発明の一態様に係る対話補助システムは、（ａ）入力された音声信号に処理を施すことで対話データを生成し、かつ、（ｂ）前記対話に続く音声信号に処理を施すことで後続データを生成する、対話データ生成部と、前記対話データに基づいて定められる条件であって、前記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、対話の継続のための情報を提示する提示装置とを備える。

上記態様によれば、対話補助システムは、上記対話補助システムの制御方法と同様の効果を奏する。

また、本発明の一態様に係るプログラムは、上記の制御方法をコンピュータに実行させるためのプログラムである。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態）
本実施の形態において、対話における適切な発話を促す対話補助システムなどについて説明する。

図１は、本実施の形態における対話の状況と対話内容とを示す説明図である。図１の（ａ）には、複数人（人Ａ、Ｂ及びＣ）が対話をしている状況が示されており、図１の（ｂ）には、その対話内容として、対話における各人の発話の内容が示されている。

この対話において、人Ａによる「昨日、巨大なアヒルを見たんだよ」との発話Ｄ１に対して、人Ｃが「巨大なアヒル、どこにいたの？」との質問である発話Ｄ３をしている。この質問の後、対話の継続のためには、人Ａがこの質問に答えることが期待される。しかし、人Ａは、実際には何も発話せずに沈黙Ｄ４をしている。これにより、対話が断絶してしまう。

このような対話の断絶は、人Ａが、散漫により、人Ｃによる質問に係る発話を自身に対する質問と認識しなかったこと、又は、人Ｃの質問に係る発話の際に周囲の雑音などの外乱があったために人Ａが人Ｃの質問に係る発話を聴取できなかったことを一因として生じ得る。

本発明の対話補助システムは、このような対話の断絶が生じることを抑制し、対話における適切な発話を促すことを目的とする。

図２は、本実施の形態における対話補助システム１の機能を示すブロック図である。図３は、本実施の形態における対話補助システム１による音声認識、話者認識及び状況認識の結果の一例を示す説明図である。

図２に示されるように対話補助システム１は、マイク１０と、音響分析部１２と、音声認識部１４と、話者認識部１６と、状況認識部１８と、対話データ管理部２０と、提示制御部２２と、スピーカ２４とを備える。なお、音響分析部１２と、音声認識部１４と、話者認識部１６と、状況認識部１８と、対話データ管理部２０と、提示制御部２２とのそれぞれは、対話補助システム１が備えるプロセッサ（不図示）が所定のプログラムを実行することでソフトウェア的に実現されてもよいし、専用回路によりハードウェア的に実現されてもよい。

マイク１０は、周囲の音を収音し、収音した音に相当する電気信号を生成するマイクロホン装置である。なお、マイク１０は、無音の環境に置かれると、無音に相当する電気信号を生成する。つまり、マイク１０が収音する「周囲の音」は、無音をも含む概念である。マイク１０に入力される音の振動は、例えば、図３の（ａ）に示されるものであり、この場合、マイク１０は、図３の（ａ）に示される信号と同様の電圧波形を有する電気信号を生成する。

音響分析部１２は、マイク１０が生成した電気信号に対して音響分析処理を施す処理部である。具体的には、音響分析部１２は、マイク１０が生成した電気信号の周波数スペクトル、並びに、上記電気信号に含まれる音声のパワー及びピッチを、音響分析処理により取得する。音響分析部１２が取得する周波数スペクトル、パワー及びピッチは、例えば、それぞれ図３の（ｂ）、（ｃ）及び（ｄ）に示されるものである。音響分析部１２は、公知の音響分析技術により実現され得る。

音声認識部１４は、音響分析部１２が取得した周波数スペクトルに基づいて音声認識処理を行う処理部である。具体的には、音声認識部１４は、音響分析部１２が取得した周波数スペクトルから、マイク１０が収音した音に含まれる音声を音声認識処理により取得する。音声の分析では、音に含まれている「あ」、「い」、「う」等の音声が取得される。例えば、音声認識部１４は、図３の（ｅ）に示される時間区間ｔ１に含まれる周波数スペクトルから「きのうきょだいなあひるをみたんだよ」との音声が認識される。

上記と同様に、時間区間ｔ２から「へーそれはすごい」との音声が認識され、時間区間ｔ３から「きょだいなあひるどこにいたの」との音声が認識される（図３の（ｅ））。音声認識部１４は、公知の音声認識技術により実現され得る。

話者認識部１６は、音響分析部１２が取得した、音声のパワー及びピッチに基づいて、マイク１０が収音した音に含まれる音声を発した発話者が誰であるかを認識する処理部である。話者認識部１６は、例えば、対話している者として予め設定された複数の人の音声のパワー及びピッチを特定する特定情報を保有しており、音響分析部１２が取得したパワー及びピッチが上記複数人のうちの誰の音声のパワー及びピッチに近いかを判別することで、マイク１０が収音した音に含まれる音声を発した発話者が誰であるかを認識する（図３の（ｆ））。話者認識部１６は、公知の話者認識技術により実現され得る。

状況認識部１８は、音響分析部１２が取得した音に基づいて、マイク１０が音を収音したときのマイク１０の周囲の状況を認識する処理部である。状況認識部１８は、音響分析部１２が取得した音が人の音声を含んでいるか否かを判定し、人の音声を含んでいる時間区間を「発話」の時間区間と認識し、そうでない時間区間を「沈黙」の時間区間と認識する。なお、上記の他にも、状況認識部１８は、パワーが所定値より大きい区間を「騒音」の時間区間と認識してもよい。一般的な対話に用いられる音のパワーを超える大きな音は、対話の障害（外乱）になり得るからである。

対話データ管理部２０は、複数人の対話の内容を示す対話データを管理している管理部である。対話データ管理部２０は、音声認識部１４、話者認識部１６及び状況認識部１８による処理の結果に基づいて対話の内容を示す対話データを生成し、対話の進行に応じて対話データを更新することで管理する。また、対話データ管理部２０は、対話に続く発話が対話の継続のために満たすべき条件が満たされるか否かを判定する。対話データ管理部２０の詳細な機能については後で詳しく説明する。

提示制御部２２は、対話データ管理部２０による判定に基づいて対話の継続のための提示情報の提示を制御する処理部である。提示制御部２２は、対話データ管理部２０による判定に基づいて対話の継続のための提示情報を生成し、生成した提示情報に相当する音声を合成し、合成した音声に相当する電気信号を生成してスピーカ２４に出力することで、提示情報を出力する。具体的には、提示制御部２２は、対話データに基づいて定められる条件であって、対話に続く発話が対話の継続のために満たすべき条件が満たされないと、後続データに基づいて判定される場合に、対話の継続のための情報をスピーカ２４により提示する。なお、下記のとおりスピーカ２４の代わりに他の提示装置を採用する場合には、提示制御部２２は、上記電気信号の代わりに当該他の提示装置に適した制御情報を生成して出力する。なお、「提示情報」を単に「情報」とも表現する。

スピーカ２４は、音を出力する音出力装置である。スピーカ２４は、提示制御部２２による制御の下で、対話の継続のための提示情報を提示する。なお、スピーカ２４は、人に情報を提示する提示装置の一例であり、スピーカ２４の代わりに例えば表示装置を採用することも可能である。

以降において、対話データ管理部２０の詳細な構成について説明する。

図４は、本実施の形態における対話データ管理部２０の詳細機能を示すブロック図である。

図４に示されるように、対話データ管理部２０は、構文解析部３０と、意味解析部３２と、対話データ生成部３４と、対話データ記憶部３６と、判定部３８とを備える。図５は、本実施の形態における対話補助システム１による発話の意味解析結果の第一例を示す説明図である。図６は、本実施の形態における対話補助システム１による発話の意味解析結果の第二例を示す説明図である。

構文解析部３０は、音声認識部１４が取得した音声に対して構文解析処理を行うことで、音声に含まれる品詞の分析、及び、構文の分析を行う。構文解析部３０は、公知の構文解析技術により実現され得る。

意味解析部３２は、構文解析部３０が分析した構文に対して意味解析処理を行うことで、音声に含まれる構文の意味を取得する。より具体的には、意味解析部３２は、構文解析部３０が分析した構文の文型、時制、主語、述語、目的語及び修飾語などの情報を得る。例えば、意味解析部３２は、図３の（ｅ）に示される時間区間ｔ１に含まれる音声認識結果から、文型として「肯定」、時制として「過去」、主語として「私」という情報を取得する（図５参照）。なお、図５の例では、日本語の性質を利用して、主語が省略されていることに基づいて主語が「私」であると解析されている。上記と同様に、意味解析部３２は、図３の（ｅ）に示される時間区間ｔ３に含まれる音声認識結果から、文型として「疑問」、主語として「巨大なアヒル」などの情報を取得する（図６参照）。意味解析部３２は、公知の意味解析技術により実現され得る。

対話データ生成部３４は、意味解析部３２により取得された文の意味、話者認識部１６により認識された話者の特定情報、及び、状況認識部１８により認識された周囲の状況に基づいて対話データを生成する処理部である。具体的には、対話データ生成部３４は、入力された音声信号に処理を施すことで対話データを生成し、かつ、対話に続く音声信号に処理を施すことで後続データを生成する。

ここで生成される対話データは、どの人がどのタイミングで、どのような意味の文を発話したかを時系列で示すデータである。また、上記対話データは、状況認識部１８が認識した「沈黙」及び「騒音」などの状況も併せて時系列で示すデータである。対話データ生成部３４は、生成した対話データを対話データ記憶部３６に格納する。

対話データ記憶部３６は、対話データ生成部３４が生成した対話データを記憶している記憶装置である。対話データ記憶部３６は、対話データ生成部３４により書き込まれ、判定部３８により読み出される。

判定部３８は、対話データに基づいて定められる条件であって、対話に続く発話が対話の継続のために満たすべき条件を生成し、生成した条件が満たされるか否かを判定する処理部である。判定部３８は、上記判定を、上記対話に続く後続データに基づいて行う。判定部３８は、上記条件が満たされない場合に、対話の継続のための提示情報を提示するよう提示制御部２２を制御する。

判定部３８が生成する条件について具体的に説明する。判定部３８は、対話データ記憶部３６に記憶されている対話データを読み出し、この対話データに係る対話に続く発話（後続発話ともいう）が、対話の継続のために満たすべき条件を生成する。判定部３８が生成する条件は、（１）後続発話の意味に関する条件である意味条件と、（２）後続発話についての状況に関する条件である状況条件との少なくとも一方を含む。なお、判定部３８が意味条件及び状況条件の両方を生成した場合、これらの両方の条件が成立することが判定される場合に、条件が満たされたと判定される。各条件について以降で詳しく説明する。

（１）意味条件は、後続発話が有する意味が満たすべき条件であり、より具体的には、後続発話をする発話者が満たすべき条件と、後続発話の内容が満たすべき条件とを含む。例えば、対話データに係る対話の最後の文が疑問文である場合には、後続発話の発話者が満たすべき条件は、「後続発話の発話者が、上記疑問文により問われている対象に関する発話を過去に提供した人であること」である。また、後続発話の内容が満たすべき条件は、「後続発話の内容が上記疑問文により問われている対象を含むこと」である。

図７は、本実施の形態における、後続発話が満たすべき意味条件を示す説明図である。図７は、図５及び図６に示される発話を含む対話に続く後続発話が満たすべき意味条件を具体的に示したものである。

発話Ｄ１において人Ａが「巨大なアヒルを見た」という内容の発話をし、その後、発話Ｄ３において人Ｃが「巨大なアヒルがどこにいたのか」という内容の疑問文を発話している。この疑問文により問われている対象は、巨大なアヒルがいた場所である。

このとき、後続発話の発話者が満たすべき条件は、巨大なアヒルの話題を過去に提供した人が人Ａであったことから、「後続発話の発話者が人Ａであること」である。また、後続発話の内容が満たすべき条件は、上記疑問文が巨大なアヒルがいた場所を問うていることから、「後続発話の内容が、巨大なアヒルがいた場所を含むこと」である。なお、意味条件には、上記の他にも、文型、主語、述語等についての条件を含むことができる（図７参照）。

（２）状況条件は、後続発話についての状況が満たすべき条件であり、より具体的には、後続発話についての音レベルの上限値、又は、対話データに係る対話の最後の文（つまり後続発話の直前の文）の終端からの後続発話までの経過時間の上限値等を含む。

図８は、本実施の形態における、後続発話が満たすべき状況条件を示す説明図である。図８は、図５及び図６に示される発話を含む対話に続く後続発話が満たすべき状況条件を具体的に示したものである。

図８に示される状況条件の音のパワーは、一般的な対話に用いられる音のパワーの範囲内であることを要する。この範囲の上限より大きいパワーを有する音は騒音であると考えられるからである。そこで、後続発話が満たすべき音のパワーについての条件をこの範囲の上限値（例えば７０ｄＢＡ）とする。

また、図８に示される状況条件に示される、直前の文からの経過時間は、対話中の一時的な沈黙として許容される時間の範囲内であることを要する。この範囲の上限より長い時間長を有する沈黙は、発話すべき人が、自身が発話すべきことを認識していない場合と考えられる。そこで、後続発話が満たすべき、直前の文からの経過時間についての条件をこの範囲の上限値（例えば５秒）とする。

上記（１）及び（２）を用いて、例えば、後続発話の発話者が満たすべき条件は、後続データのうちの上記対話に続く所定時間長の期間内に、対話の継続のために発話すべき発話者の発話が含まれること、を含んでもよい。

さらに、後続発話の発話者が満たすべき条件は、さらに、対話の継続のために発話者が発話すべき内容の発話が後続データに含まれること、を含んでもよい。

次に、提示制御部２２による提示情報の提示の制御について説明する。

提示制御部２２は、判定部３８による判定の結果に基づいて、対話の継続のための提示情報の提示をするか否かを制御する。より具体的には、提示制御部２２は、判定部３８が生成した条件が満たされないと判定部３８が判定した場合に、対話の継続のための提示情報を提示し、そうでない場合には、そのような提示を行わない。提示情報を提示する場合には、提示制御部２２は、提示情報の生成を行う。提示情報は、例えば、（ａ）対話の継続のために、対話に続いて発話すべき発話者を示す情報、及び、（ｂ）対話の継続のための、対話に続いてすべき発話の内容を示す情報、の少なくとも一方を含む。

例えば、図７に示される意味条件の下で、人Ａではなく人Ｂが巨大なアヒルのこと又はその他のことについて発話をした場合、人Ｂが人Ａに対して発話を促す発話をした場合、人Ａが巨大なアヒルと無関係のことについて発話した場合などには、上記意味条件が満たされないと判定部３８により判定される。

例えば、図８に示される状況条件の下で、人Ａが、対話の最後の文から５秒を超える沈黙をした場合、上記状況条件が満たされないと判定部３８により判定される。このことを契機として、提示制御部２２は、対話の継続のための提示情報として、人Ａが、巨大なアヒルがいた場所を示す情報を含む発話をすべきことを提示する。具体的な提示の態様について２つの例を説明する。

図９は、本実施の形態における対話補助システム１による情報提示の態様の第一例を示す説明図である。図９に示される対話補助システム１は、補聴器型の外観を有するものであり、人の耳に接触して装着され、スピーカ２４が人の耳穴に向けて音を出力する。

対話補助システム１が人Ａに装着されているとき、提示制御部２２は、スピーカ２４により、提示情報として例えば「あなたが巨大なアヒルの場所を答える番です」との音声を出力する。これにより人Ａは、対話の継続のためには、自身が巨大なアヒルの場所を答えるべきことを認識して、対話を継続させることができ、言い換えれば、対話が断絶することを回避することができる。

補聴器型の対話補助システム１を装着している人は、対話の相手に気付かれることなく、対話補助システム１が出力する対話の継続のための音声を聴取し、その音声による指示に従って発話をすることで、対話を継続することができる。

図１０は、本変形例における対話補助システム１Ａによる情報提示の態様の第二例を示す説明図である。

本変形例に係る対話補助システム１Ａは、表示装置２８を備える携帯情報端末型である。対話補助システム１Ａは、例えば、スマートフォン、タブレット又はノート型パソコンなどにより実現されてもよいし、専用ハードウェアにより実現されてもよい。

対話補助システム１Ａは、人Ａが携帯して使用することが想定される。つまり、人Ａが表示装置２８を視認することで、対話補助システム１Ａから自身に対する指示を視認することができる。

提示制御部２２は、表示装置２８により、提示情報として例えば「あなたが巨大なアヒルの場所を答える番です」との文字列を表示する。これにより人Ａは、対話の継続のためには、自身が巨大なアヒルの場所を答えるべきことを認識して、対話を継続させることができる。なお、表示装置２８により提示される情報は、人Ａだけに視認され、他の人からは視認されないように制御されてもよいし、対話している複数人の全員に視認されるように制御されてもよい。人Ａだけに視認されるように制御すれば、上記補聴器型の対話補助システム１の場合と同様、人Ａは、対話の相手に気付かれることなく対話の継続のための提示情報を聴取することができる利点がある。また、対話している複数人の全員に視認されるように制御すれば、対話が断絶しそうであることを複数人の全員が認識して注意することができる利点がある。

図１１は、本実施の形態における対話補助システム１の制御方法を示すフロー図である。

ステップＳ１１において、対話データ生成部３４は、対話データを生成する。生成される対話データは、マイク１０により収音された、対話を含む音から、音響分析部１２、音声認識部１４、話者認識部１６、状況認識部１８、構文解析部３０及び意味解析部３２による処理を経て生成されるデータである。

ステップＳ１２において、対話データ生成部３４は、後続データを生成する。生成される後続データは、マイク１０により収音された、対話に続く後続発話を含む音から、上記音響分析部１２等による処理を経て生成されるデータである。

ステップＳ１３において、判定部３８は、ステップＳ１１で生成された対話データに基づいて定められる条件であって、上記対話データに係る対話に続く発話が対話の継続のために満たすべき条件が満たされるか否かを、後続データに基づいて判定する。判定部３８が上記条件が満たされると判定した場合（ステップＳ１３でＹｅｓ）、本フロー図に示される一連の処理を終了し、そうでない場合（ステップＳ１３でＮｏ）、ステップＳ１４に進む。

ステップＳ１４において、提示制御部２２は、対話の継続のための提示情報を生成する。

ステップＳ１５において、提示制御部２２は、ステップＳ１４で生成した対話の継続のための提示情報をスピーカ２４により提示する。つまり、提示制御部２２は、ステップＳ１１で生成した対話データに基づいて定められる条件であって、上記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、ステップＳ１２で生成した後続データに基づいて判定される場合に、上記対話の継続のための情報を提示する。

これで、本フロー図に示される一連の処理を終了する。

なお、上記の音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理を単に処理ともいう。

以上のように本実施の形態の対話補助システムは、対話の継続がなされない、つまり、対話が断絶している（又は、断絶しかけている）か否かを判定し、対話の継続がなされないと判定した場合に、対話が継続するように適切な情報を提示する。対話補助システムを使用して対話している人は、対話補助システムが提示する情報を得ることで、対話の継続のために適切な行動（例えば、自身が発話するなど）を取ることができる。このようにして、対話補助システムは、対話における適切な発話を促すことができる。

また、対話補助システムは、対話補助システムを使用して対話している人のうちのどの人が発話をすべきであるのか、又は、どのような内容の発話をすべきであるのかを提示する。これにより、対話補助システムを使用して対話している人のうちの適切な人による発話を促すこと、又は、適切な内容の発話を促すことができる。このようにして、対話補助システムは、対話におけるより適切な発話を促すことができる。

また、対話補助システムは、対話補助システムを使用して対話している人のうちのどの人が、どのタイミングで発話すべきであるかを条件として用いて、対話の継続がなされているか否かの判定を具体的に行う。

また、対話補助システムは、対話に続く発話が含むべき発話内容を、さらなる条件として、対話の継続がなされているか否かの判定を具体的に行う。

また、対話補助システムは、音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理の少なくとも１つを用いて、具体的に音信号に処理を施すことができる。

（実施の形態の変形例）
本変形例では、対話における適切な発話を促す対話補助システムであって、ネットワークを介して通信可能なサーバと端末とによって実現される対話補助システムの例を説明する。

図１２は、本変形例における対話補助システム２の機能を示すブロック図である。

図１２に示される対話補助システム２は、ネットワークを介して互いに通信可能な対話補助端末３とサーバ４とを備える。対話補助端末３は、マイク１０と、スピーカ２４と、通信部５０とを備える。サーバ４は、音響分析部１２と、音声認識部１４と、話者認識部１６と、状況認識部１８と、対話データ管理部２０と、提示制御部２２と、通信部５２とを備える。なお、実施の形態１におけるものと同一の機能を有する構成要素には同一の符号を付し詳細な説明を省略する。

通信部５０は、サーバ４の通信部５２との間で通信データを送受信する通信インタフェースである。通信部５０は、マイク１０が生成した電気信号を通信部５２に送信し、また、スピーカ２４が出力する音声に相当する電気信号を通信部５２から受信する。通信部５０は、任意の通信インタフェースにより実現され、例えば、ＩＥＥＥ８０２．１１ａ、ｂ、ｇ規格等に適合する無線ＬＡＮ、ＩＥＥＥ８０２．３規格等の適合する有線ＬＡＮ、又は、携帯電話網の通信インタフェースにより実現される。

通信部５２は、対話補助端末３の通信部５０との間で通信データを送受信する通信インタフェースである。通信部５２は、マイク１０が生成した電気信号を通信部５０から受信し、また、スピーカ２４が出力する音声に相当する電気信号を通信部５０へ送信する。通信部５２は、通信部５０と同様、任意の通信インタフェースにより実現される。

なお、複数の対話補助端末３がサーバ４と同時並行的に通信することも可能である。

このような構成をとることで、対話補助端末３の構成を、ユーザインタフェースの役割を有するマイク１０及びスピーカ２４等とすることで最小限に絞り込むことができる。対話補助端末３は、ユーザごとに保有されることが想定されるので、対話補助端末３の機能を絞り込むことで対話補助システム２の製造及び保守運用のコストを低減させることができる利点がある。

一方、比較的行動な情報処理を要する機能をサーバ４に集中して保有させることで、処理の効率化、保守効率を向上させることができる利点がある。

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の対話補助システムなどを実現するソフトウェアは、次のようなプログラムである。

すなわち、このプログラムは、コンピュータに、対話補助システムの制御方法であって、入力された音声信号に処理を施すことで対話データを生成し、前記対話に続く音声信号に処理を施すことで後続データを生成し、前記対話データに基づいて定められる条件であって、前記対話に続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、前記対話の継続のための情報を提示する制御方法を実行させる。

以上、一つまたは複数の態様に係る対話補助システムなどについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本発明は、対話における適切な発話を促す対話補助システムに利用可能である。

１、１Ａ、２対話補助システム
３対話補助端末
４サーバ
１０マイク
１２音響分析部
１４音声認識部
１６話者認識部
１８状況認識部
２０対話データ管理部
２２提示制御部
２４スピーカ
２８表示装置
３０構文解析部
３２意味解析部
３４対話データ生成部
３６対話データ記憶部
３８判定部
５０、５２通信部

Claims

対話補助システムの制御方法であって、
入力された音声信号に処理を施すことで対話データを生成し、
前記対話データに続く音声信号に処理を施すことで後続データを生成し、
前記対話データに基づいて定められる条件であって、前記対話データに続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、前記対話の継続のために、前記対話に続いて発話すべき発話者を示す情報を生成し、
前記情報を、前記対話に続いて発話すべき発話者に提示する
制御方法。
前記情報は、さらに、前記対話の継続のための、前記対話に続いてすべき発話の内容を示す情報を含む
請求項１に記載の制御方法。
前記条件は、前記後続データのうちの前記対話に続く所定時間長の期間内に、前記対話の継続のために発話すべき発話者の発話が含まれること、を含む
請求項１又は２に記載の制御方法。
前記条件は、さらに、前記対話の継続のために前記発話者が発話すべき内容の発話が前記後続データに含まれること、を含む
請求項３に記載の制御方法。
前記対話データを生成するための前記処理、又は、前記後続データを生成するための前記処理は、音信号に対する音響分析処理、音声認識処理、翻訳処理、話者認識処理、及び、状況情報解析処理の少なくとも１つを含む
請求項１〜４のいずれか１項に記載の制御方法。
（ａ）入力された音声信号に処理を施すことで対話データを生成し、かつ、（ｂ）前記対話データに続く音声信号に処理を施すことで後続データを生成する、対話データ生成部と、
前記対話データに基づいて定められる条件であって、前記対話データに続く発話が対話の継続のために満たすべき条件が満たされないと、前記後続データに基づいて判定される場合に、対話の継続のために、前記対話に続いて発話すべき発話者を示す情報を生成する、情報生成部と、
前記情報を、前記対話に続いて発話すべき発話者に提示する提示装置とを備える
対話補助システム。
請求項１〜５のいずれか１項に記載の制御方法をコンピュータに実行させるためのプログラム。