JP2005004473A

JP2005004473A - 発話生成装置および方法、並びにプログラム

Info

Publication number: JP2005004473A
Application number: JP2003167110A
Authority: JP
Inventors: Naoto Iwahashi; 直人岩橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-06-11
Filing date: 2003-06-11
Publication date: 2005-01-06

Abstract

【課題】非言語情報に基づいて生成する抽象的な発話に一貫性を持たせる。
【解決手段】ステップＳ１で、非言語情報として情景情報が入力される。ステップＳ２で、情景情報の中からオブジェクトが検出される。ステップＳ３で、オブジェクト位置情報に基づき、動きのあるオブジェクトの移動の軌道が抽出される。ステップＳ４で、トラジェクタオブジェクトの軌道情報に対応するスキーマモデルが選択される。ステップＳ５で、選択されたスキーマモデルと現在の内部状態に対応する発話が選択される。本発明は、対話者の発言や動作に対応して、連想される発話を生成させるためにロボット等に組み込まれる発話生成装置に適用することができる。
【選択図】図４

Description

【０００１】
【発明の属する技術分野】
本発明は、発話生成装置および方法、並びにプログラムに関し、特に、対話者の発言や動作から連想される発話を生成するようにした発話生成装置および方法、並びにプログラムに関する。
【０００２】
【従来の技術】
従来、例えば、ディスプレイに表示されるキャラクタやロボットに、人（ユーザ）の発言や動作に対応して発話を生成する（例えば、音声を出力したり、文字列を表示したりする）機能を搭載することが行われている。
【０００３】
発話を生成する方法は、従来から様々なものが考案されており、代表的なものとして、スロット法、言い換え法、文の変形法、格構造に基づく生成法等を挙げることができる。
【０００４】
スロット法は、予め設定されている構文（例えば「Ａは、ＢにＣをあげます」）の単語（いまの場合、Ａ，Ｂ，Ｃ）に、人の発話から抽出した単語を当てはめることにより発話を生成する方法である。言い換え法は、人の発話（例えば「彼は熱心に勉強している」）に含まれる単語を認識し、認識結果を言い換えることにより発話（例えば「彼は、一生懸命学習している」）を生成する方法である。
【０００５】
文の変形法は、人の発話（例えば「彼は人形を机の上に載せる」）を認識し、単語の順序を変化させることにより発話（例えば「彼が机の上に載せるのは人形だ」）を生成する方法である。格構造に基づく生成法は、例えば人の発話（例えば「お正月に私は親戚の子供達にお年玉をたくさんあげた」）の各構造を認識し、予め許容されている語順に従い単語に適切な助詞を付加して発話（例えば「親戚の子供達はお正月に私からたくさんのお年玉をもらった」）を生成する方法である。
【０００６】
なお、上述した発話を生成する従来の方法については、例えば、非特許文献１に記載されている。
【０００７】
また、上述した発話生成方法の他、例えば図１に示すように、物体Ａが物体Ｂを飛び越える動きを示す画像が入力された場合、発話「物体Ａが物体Ｂを飛び越えた」を生成するように、物体の動きを示す画像等の情景情報に対応して、情景情報を説明する直接的な発話を生成する方法、例えば図１の情景情報に基づいて発話「困難を克服しました」を生成するように、情景情報から連想される抽象的な内容の間接的な発話を生成する方法がある。
【０００８】
【非特許文献１】
長尾真著「自然言語処理」岩波書店、１９９６年４月２６日発行、９章
【０００９】
【発明が解決しようとする課題】
情景情報等の非言語情報から連想される抽象的な内容の発話を生成する方法では、入力された非言語情報を所定の基準に基づいて何種類かのクラスに分類し、クラスに予め割り当てられている抽象的な発話が選択的に出力される。
【００１０】
したがって、対話者から得られるインタラクティブな非言語情報を入力として当該方法を用い、連続的に抽象的な発話を生成させた場合、生成される発話に連続性が存在せず、対話者に不自然さを与えてしまうという課題があった。
【００１１】
本発明はこのような状況に鑑みてなされたものであり、非言語情報に基づいて生成する抽象的な発話に一貫性を持たせるようにするものである。
【００１２】
【課題を解決するための手段】
本発明の情報処理装置は、入力された非言語情報の特徴を表すスキーマを決定する決定手段と、スキーマに対応する発話が予め保持されているデータベースと、決定手段によって決定されたスキーマ、および前回選択した発話に基づき、データベースの中から出力する発話を選択する選択手段とを含むことを特徴とする。
【００１３】
前記データベースには、スキーマから間接的に連想される抽象的な発話が予め保持されているようにすることができる。
【００１４】
前記選択手段は、決定手段によって決定されたスキーマ、および前回選択した発話に含まれるキーワードに基づき、データベースの中から出力する発話を選択するようにすることができる。
【００１５】
前記非言語情報は、画像からなる情景情報、物体の動作を制御するための制御情報、オーディオ情報、または時間情報を含むようにすることができる。
【００１６】
本発明の情報処理方法は、入力された非言語情報の特徴を表すスキーマを決定する決定ステップと、決定ステップの処理で決定されたスキーマ、および前回選択した発話に基づき、スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話を選択する選択ステップとを含むことを特徴とする。
【００１７】
本発明のプログラムは、入力された非言語情報の特徴を表すスキーマを決定する決定ステップと、決定ステップの処理で決定されたスキーマ、および前回選択した発話に基づき、スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話を選択する選択ステップとを含む処理をコンピュータに実行させることを特徴とする。
【００１８】
本発明の情報処理装置および方法、並びにプログラムにおいては、入力された非言語情報の特徴を表すスキーマが決定され、決定されたスキーマ、および前回選択された発話に基づき、スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話が選択される。
【００１９】
【発明の実施の形態】
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。したがって、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
【００２０】
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加されたりする発明の存在を否定するものではない。
【００２１】
すなわち、本発明の情報処理装置（例えば、図２の発話生成装置１）は、入力された非言語情報の特徴を表すスキーマを決定する決定手段（例えば、図２のスキーマ抽出部１１）と、スキーマに対応する発話が予め保持されているデータベース（例えば、図２の発話データベース１３）と、決定手段によって決定されたスキーマ、および前回選択した発話に基づき、データベースの中から出力する発話を選択する選択手段（例えば、図２の発話選択部１２）とを含むことを特徴とする。
【００２２】
なお、本発明の記録媒体に記録されている情報処理方法、および本発明のプログラムの請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係は、上述した本発明の情報処理装置のものと同様であるので、その記載は省略する。
【００２３】
図２は、本発明の一実施の形態である発話装置の構成例を示している。この発話生成装置１は、例えばロボット、パーソナルコンピュータ用アプリケーション、ビデオゲーム機等に搭載することができる。
【００２４】
スキーマ抽出部１１は、逐次入力される非言語情報（情景情報、行動情報、オーディオ情報、時間情報等）から、非言語情報の特徴を示すスキーマを抽出する。ここで、情景情報とは、例えばビデオカメラによって物体の動作を撮影した動画像や静止画像の画像データを指す。なお、情景情報には、物体の距離に関する情報を含むようにしてもよい。行動情報とは、行動を表す特徴量であり、例えば、発話生成装置１が搭載されるロボットの動作を制御するためのパラメータ、画像データから検出される物体の行動を示すパラメータ等を指す。また、スキーマ抽出部１１は、抽出したスキーマに対応するスキーマ番号を発話選択部１２に出力する。
【００２５】
図３は、非言語情報として情景情報が入力されるときのスキーマ抽出部１１の構成例を示している。
【００２６】
オブジェクト検出部２１は、入力された情景情報の中からオブジェクトを検出し、オブジェクトの位置を示すオブジェクト位置情報を軌道抽出部２２およびスキーマ検出部２３に出力する。情景情報の中から複数のオブジェクトが検出された場合、例えば、当該情景情報を撮影したビデオカメラとの距離が最も短いオブジェクトを以降の処理の対象に選択する。
【００２７】
軌道抽出部２２は、オブジェクト検出部２１から入力されるオブジェクト位置情報に基づき、動きのあるオブジェクトの移動の軌道を抽出し、軌道情報としてスキーマ検出部２３に出力する。ここで、軌道情報は、位置ベクトルの時間系列を用いて表される。以下、動きのあるオブジェクトをトラジェクタオブジェクトと称し、動きのないオブジェクトをランドマークオブジェクトと称する。
【００２８】
スキーマ検出部２３は、スキーマモデルデータベース（ＤＢ）２４に登録されているスキーマモデルのうち、軌道抽出部２２から入力されたトラジェクタオブジェクトの軌道情報に対応するもの検出し、その中で出力が最大のものを選択して、選択したスキーマモデルを特定するスキーマ番号を後段の発話選択部１２に出力する。
【００２９】
スキーマデータベース２４には、様々な概念を構成するための基本的な概念構造である複数のスキーマが予め登録されている。スキーマは、例えば確率モデルによって表され、ランドマークオブジェクトのオブジェクト位置情報と、トラジェクタオブジェクトの軌道情報を入力として、スカラー値を出力する。このスカラー値は、入力されたランドマークオブジェクトのオブジェクト位置情報と、トラジェクタオブジェクトの軌道情報のスキーマとしての典型性を表す。スキーマモデルは、例えば隠れマルコフモデル（ＨＭＭ）によって表される。
【００３０】
図２に戻る。発話選択部１２は、発話データベース（ＤＢ）１３に予め用意されている発話のうち、スキーマ抽出部１１からのスキーマ番号、および状態遷移部１４から入力される現在の内部状態Ｓに対応する発話候補を検索し、さらに、検索した発話候補の中から１つの発話Ｕを例えばランダムに選択する。また、発話選択部１２は、選択した発話を後段に出力するととも、選択した発話に含まれるキーワードを状態遷移部１４に出力する。
【００３１】
ここで、内部状態Ｓとは、生成される発話の一貫性を保つためのものであり、例えば、仕事、恋愛、彼女、彼氏、遊び等の種類がある。
【００３２】
発話データベース１３には、各内部状態Ｓ［ｉ］（ｉ＝１，２，…）に対して、例えば、以下のように、スキーマに対応する１以上の発話候補が予め用意されている。各発話候補には、２つのキーワードが設定されている。

【００３３】
状態遷移部１４は、ｉ番目の非言語情報の入力に対応する発話Ｕ［ｉ］が発話選択部１２において選択される前の内部状態Ｓ［ｉ−１］と、ｉ番目の発話Ｕ［ｉ］に含まれるキーワードＫ［ｉ，１］，Ｋ［ｉ，２］に基づき、ｉ番目の発話の後に遷移する内部状態Ｓ［ｉ］を決定し、発話選択部１２に出力する。
【００３４】
次に、発話生成装置１の動作について、図４のフローチャートを参照して説明する。ステップＳ１において、非言語情報として情景情報が、スキーマ抽出部１１に入力される。ステップＳ２において、スキーマ抽出部１１のオブジェクト検出部２１は、入力された情景情報の中からオブジェクトを検出し、オブジェクトの位置を示すオブジェクト位置情報を軌道抽出部２２およびスキーマ検出部２３に出力する。
【００３５】
ステップＳ３において、軌道抽出部２２は、オブジェクト検出部２１から入力されたオブジェクト位置情報に基づき、動きのあるオブジェクトの移動の軌道を抽出し、軌道情報としてスキーマ検出部２３に出力する。ステップＳ４において、スキーマ検出部２３は、スキーマモデルデータベース２４に登録されているスキーマモデルのうち、軌道抽出部２２から入力されたトラジェクタオブジェクトの軌道情報に対応するもの検出し、その中で出力が最大のものを選択して、選択したスキーマモデルを特定するスキーマ番号を後段の発話選択部１２に出力する。
【００３６】
ステップＳ５において、発話選択部１２は、発話データベース１３に予め用意されている発話のうち、スキーマ抽出部１１からのスキーマ番号、および状態遷移部１４から入力される現在の内部状態Ｓに対応する発話候補を検索し、さらに、検索した発話候補の中から１つの発話Ｕを選択する。以上で動作の説明を終了する。
【００３７】
次に、発話生成装置１により、例えば、恋愛を示す内部状態Ｓにおいて生成される発話の一例について、図５乃至図８を参照して説明する。
【００３８】
例えば、情景情報に基づき、図５に示すようにオブジェクトＡ，Ｂが配置されている初期状態から、図６に示すように、トラジェクタオブジェクトＡが、ランドマークオブジェクトＢの上に載せられて、スキー”ｍｏｖｅｏｎｔｏ”が抽出された場合、発話「公園のベンチに座っていたんだね」が生成される。
【００３９】
次いで図７に示すように、トラジェクタオブジェクトＡが、ランドマークオブジェクトＢの上方に持ち上げられて、スキーマ”ｕｐ”が抽出された場合、発話「一緒に星空を眺めていたんだよ」が生成される。
【００４０】
次いで図８に示すように、トラジェクタオブジェクトＡが、ランドマークオブジェクトＢの横に降ろされて、スキーマ”ｄｏｗｎ”が抽出された場合、発話「全てのことから開放されたいと願うように、一心に星空を見上げている彼女に、そっと語りかけたんだ」が生成される。
【００４１】
以上説明したように、発話生成装置１によれば、スキーマに対応して抽象的な発話が一貫性を持って生成されるので、ユーザが、発話生成装置１が搭載されたロボット等に対して共感を持つことができる。また、ロボット等の娯楽性を高めることができる。
【００４２】
上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることもできる。この場合、例えば、情報処理装置は、図９に示されるようなパーソナルコンピュータにより構成される。
【００４３】
図９において、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５２に記憶されているプログラム、または記憶部５８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ５３にはまた、ＣＰＵ５１が各種の処理を実行する上において必要なデータなども適宜記憶される。
【００４４】
ＣＰＵ５１、ＲＯＭ５２、およびＲＡＭ５３は、バス５４を介して相互に接続されている。このバス５４にはまた、入出力インタフェース５５も接続されている。
【００４５】
入出力インタフェース５５には、キーボード、マウスなどよりなる入力部５６、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌｄｉｓｐｌａｙ）などよりなるディスプレイ、並びにスピーカなどよりなる出力部５７、ハードディスクなどより構成される記憶部５８、モデム、ターミナルアダプタなどより構成される通信部５９が接続されている。通信部５９は、インターネットを含むネットワークを介しての通信処理を行う。
【００４６】
入出力インタフェース５５にはまた、必要に応じてドライブ６０が接続され、磁気ディスク６１、光ディスク６２、光磁気ディスク６３、或いは半導体メモリ６４などが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部５８にインストールされる。
【００４７】
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【００４８】
この記録媒体は、図９に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク６１（フロッピディスクを含む）、光ディスク６２（ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）を含む）、光磁気ディスク６３（ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）を含む）、もしくは半導体メモリ６４などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているＲＯＭ５２や、記憶部５８に含まれるハードディスクなどで構成される。
【００４９】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【００５０】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【００５１】
【発明の効果】
以上のように、本発明によれば、対話者の発言や動作から連想される発話を生成することができる。
【００５２】
また、本発明によれば、非言語情報に基づいて生成する抽象的な発話に一貫性を持たせることが可能となる。
【図面の簡単な説明】
【図１】情景情報の一例を説明するための図である。
【図２】本発明の一実施の形態である発話生成装置の構成例を示すブロック図である。
【図３】図２のスキーマ抽出部の構成例を示すブロック図である。
【図４】図２の発話生成装置の動作を説明するフローチャートである。
【図５】情景情報と生成される発話の一例を説明するための図である。
【図６】情景情報と生成される発話の一例を説明するための図である。
【図７】情景情報と生成される発話の一例を説明するための図である。
【図８】情景情報と生成される発話の一例を説明するための図である。
【図９】本発明を適用したパーソナルコンピュータの構成例を示すブロック図である。
【符号の説明】
１発話生成装置，１１スキーマ抽出部，１２発話生成部，１３発話データベース，１４，状態遷移部，２１オブジェクト検出部，２２軌道抽出部，２３スキーマ検出部，２４スキーマモデルデータベース

Claims

非言語情報に対応して発話を生成する情報処理装置において、
入力された前記非言語情報の特徴を表すスキーマを決定する決定手段と、
前記スキーマに対応する発話が予め保持されているデータベースと、
前記決定手段によって決定された前記スキーマ、および前回選択した発話に基づき、前記データベースの中から、出力する発話を選択する選択手段と
を含むことを特徴とする情報処理装置。
前記データベースには、前記スキーマから間接的に連想される抽象的な発話が予め保持されている
を含むことを特徴とする請求項１に記載の情報処理装置。
前記選択手段は、前記決定手段によって決定された前記スキーマ、および前回選択した発話に含まれるキーワードに基づき、前記データベースの中から出力する発話を選択する
を含むことを特徴とする請求項１に記載の情報処理装置。
前記非言語情報は、画像からなる情景情報、物体の動作を制御するための制御情報、オーディオ情報、または時間情報を含む
を含むことを特徴とする請求項１に記載の情報処理装置。
非言語情報に対応して発話を生成する情報処理方法において、
入力された前記非言語情報の特徴を表すスキーマを決定する決定ステップと、
前記決定ステップの処理で決定された前記スキーマ、および前回選択した発話に基づき、前記スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話を選択する選択ステップと
を含むことを特徴とする情報処理方法。
非言語情報に対応して発話を生成するためのプログラムであって、
入力された前記非言語情報の特徴を表すスキーマを決定する決定ステップと、
前記決定ステップの処理で決定された前記スキーマ、および前回選択した発話に基づき、前記スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話を選択する選択ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。