JP2005004473A - 発話生成装置および方法、並びにプログラム - Google Patents

発話生成装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2005004473A
JP2005004473A JP2003167110A JP2003167110A JP2005004473A JP 2005004473 A JP2005004473 A JP 2005004473A JP 2003167110 A JP2003167110 A JP 2003167110A JP 2003167110 A JP2003167110 A JP 2003167110A JP 2005004473 A JP2005004473 A JP 2005004473A
Authority
JP
Japan
Prior art keywords
utterance
schema
information
database
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003167110A
Other languages
English (en)
Inventor
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003167110A priority Critical patent/JP2005004473A/ja
Publication of JP2005004473A publication Critical patent/JP2005004473A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】非言語情報に基づいて生成する抽象的な発話に一貫性を持たせる。
【解決手段】ステップS1で、非言語情報として情景情報が入力される。ステップS2で、情景情報の中からオブジェクトが検出される。ステップS3で、オブジェクト位置情報に基づき、動きのあるオブジェクトの移動の軌道が抽出される。ステップS4で、トラジェクタオブジェクトの軌道情報に対応するスキーマモデルが選択される。ステップS5で、選択されたスキーマモデルと現在の内部状態に対応する発話が選択される。本発明は、対話者の発言や動作に対応して、連想される発話を生成させるためにロボット等に組み込まれる発話生成装置に適用することができる。
【選択図】 図4

Description

【0001】
【発明の属する技術分野】
本発明は、発話生成装置および方法、並びにプログラムに関し、特に、対話者の発言や動作から連想される発話を生成するようにした発話生成装置および方法、並びにプログラムに関する。
【0002】
【従来の技術】
従来、例えば、ディスプレイに表示されるキャラクタやロボットに、人(ユーザ)の発言や動作に対応して発話を生成する(例えば、音声を出力したり、文字列を表示したりする)機能を搭載することが行われている。
【0003】
発話を生成する方法は、従来から様々なものが考案されており、代表的なものとして、スロット法、言い換え法、文の変形法、格構造に基づく生成法等を挙げることができる。
【0004】
スロット法は、予め設定されている構文(例えば「Aは、BにCをあげます」)の単語(いまの場合、A,B,C)に、人の発話から抽出した単語を当てはめることにより発話を生成する方法である。言い換え法は、人の発話(例えば「彼は熱心に勉強している」)に含まれる単語を認識し、認識結果を言い換えることにより発話(例えば「彼は、一生懸命学習している」)を生成する方法である。
【0005】
文の変形法は、人の発話(例えば「彼は人形を机の上に載せる」)を認識し、単語の順序を変化させることにより発話(例えば「彼が机の上に載せるのは人形だ」)を生成する方法である。格構造に基づく生成法は、例えば人の発話(例えば「お正月に私は親戚の子供達にお年玉をたくさんあげた」)の各構造を認識し、予め許容されている語順に従い単語に適切な助詞を付加して発話(例えば「親戚の子供達はお正月に私からたくさんのお年玉をもらった」)を生成する方法である。
【0006】
なお、上述した発話を生成する従来の方法については、例えば、非特許文献1に記載されている。
【0007】
また、上述した発話生成方法の他、例えば図1に示すように、物体Aが物体Bを飛び越える動きを示す画像が入力された場合、発話「物体Aが物体Bを飛び越えた」を生成するように、物体の動きを示す画像等の情景情報に対応して、情景情報を説明する直接的な発話を生成する方法、例えば図1の情景情報に基づいて発話「困難を克服しました」を生成するように、情景情報から連想される抽象的な内容の間接的な発話を生成する方法がある。
【0008】
【非特許文献1】
長尾真著「自然言語処理」岩波書店、1996年4月26日発行、9章
【0009】
【発明が解決しようとする課題】
情景情報等の非言語情報から連想される抽象的な内容の発話を生成する方法では、入力された非言語情報を所定の基準に基づいて何種類かのクラスに分類し、クラスに予め割り当てられている抽象的な発話が選択的に出力される。
【0010】
したがって、対話者から得られるインタラクティブな非言語情報を入力として当該方法を用い、連続的に抽象的な発話を生成させた場合、生成される発話に連続性が存在せず、対話者に不自然さを与えてしまうという課題があった。
【0011】
本発明はこのような状況に鑑みてなされたものであり、非言語情報に基づいて生成する抽象的な発話に一貫性を持たせるようにするものである。
【0012】
【課題を解決するための手段】
本発明の情報処理装置は、入力された非言語情報の特徴を表すスキーマを決定する決定手段と、スキーマに対応する発話が予め保持されているデータベースと、決定手段によって決定されたスキーマ、および前回選択した発話に基づき、データベースの中から出力する発話を選択する選択手段とを含むことを特徴とする。
【0013】
前記データベースには、スキーマから間接的に連想される抽象的な発話が予め保持されているようにすることができる。
【0014】
前記選択手段は、決定手段によって決定されたスキーマ、および前回選択した発話に含まれるキーワードに基づき、データベースの中から出力する発話を選択するようにすることができる。
【0015】
前記非言語情報は、画像からなる情景情報、物体の動作を制御するための制御情報、オーディオ情報、または時間情報を含むようにすることができる。
【0016】
本発明の情報処理方法は、入力された非言語情報の特徴を表すスキーマを決定する決定ステップと、決定ステップの処理で決定されたスキーマ、および前回選択した発話に基づき、スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話を選択する選択ステップとを含むことを特徴とする。
【0017】
本発明のプログラムは、入力された非言語情報の特徴を表すスキーマを決定する決定ステップと、決定ステップの処理で決定されたスキーマ、および前回選択した発話に基づき、スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話を選択する選択ステップとを含む処理をコンピュータに実行させることを特徴とする。
【0018】
本発明の情報処理装置および方法、並びにプログラムにおいては、入力された非言語情報の特徴を表すスキーマが決定され、決定されたスキーマ、および前回選択された発話に基づき、スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話が選択される。
【0019】
【発明の実施の形態】
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。したがって、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
【0020】
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加されたりする発明の存在を否定するものではない。
【0021】
すなわち、本発明の情報処理装置(例えば、図2の発話生成装置1)は、入力された非言語情報の特徴を表すスキーマを決定する決定手段(例えば、図2のスキーマ抽出部11)と、スキーマに対応する発話が予め保持されているデータベース(例えば、図2の発話データベース13)と、決定手段によって決定されたスキーマ、および前回選択した発話に基づき、データベースの中から出力する発話を選択する選択手段(例えば、図2の発話選択部12)とを含むことを特徴とする。
【0022】
なお、本発明の記録媒体に記録されている情報処理方法、および本発明のプログラムの請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係は、上述した本発明の情報処理装置のものと同様であるので、その記載は省略する。
【0023】
図2は、本発明の一実施の形態である発話装置の構成例を示している。この発話生成装置1は、例えばロボット、パーソナルコンピュータ用アプリケーション、ビデオゲーム機等に搭載することができる。
【0024】
スキーマ抽出部11は、逐次入力される非言語情報(情景情報、行動情報、オーディオ情報、時間情報等)から、非言語情報の特徴を示すスキーマを抽出する。ここで、情景情報とは、例えばビデオカメラによって物体の動作を撮影した動画像や静止画像の画像データを指す。なお、情景情報には、物体の距離に関する情報を含むようにしてもよい。行動情報とは、行動を表す特徴量であり、例えば、発話生成装置1が搭載されるロボットの動作を制御するためのパラメータ、画像データから検出される物体の行動を示すパラメータ等を指す。また、スキーマ抽出部11は、抽出したスキーマに対応するスキーマ番号を発話選択部12に出力する。
【0025】
図3は、非言語情報として情景情報が入力されるときのスキーマ抽出部11の構成例を示している。
【0026】
オブジェクト検出部21は、入力された情景情報の中からオブジェクトを検出し、オブジェクトの位置を示すオブジェクト位置情報を軌道抽出部22およびスキーマ検出部23に出力する。情景情報の中から複数のオブジェクトが検出された場合、例えば、当該情景情報を撮影したビデオカメラとの距離が最も短いオブジェクトを以降の処理の対象に選択する。
【0027】
軌道抽出部22は、オブジェクト検出部21から入力されるオブジェクト位置情報に基づき、動きのあるオブジェクトの移動の軌道を抽出し、軌道情報としてスキーマ検出部23に出力する。ここで、軌道情報は、位置ベクトルの時間系列を用いて表される。以下、動きのあるオブジェクトをトラジェクタオブジェクトと称し、動きのないオブジェクトをランドマークオブジェクトと称する。
【0028】
スキーマ検出部23は、スキーマモデルデータベース(DB)24に登録されているスキーマモデルのうち、軌道抽出部22から入力されたトラジェクタオブジェクトの軌道情報に対応するもの検出し、その中で出力が最大のものを選択して、選択したスキーマモデルを特定するスキーマ番号を後段の発話選択部12に出力する。
【0029】
スキーマデータベース24には、様々な概念を構成するための基本的な概念構造である複数のスキーマが予め登録されている。スキーマは、例えば確率モデルによって表され、ランドマークオブジェクトのオブジェクト位置情報と、トラジェクタオブジェクトの軌道情報を入力として、スカラー値を出力する。このスカラー値は、入力されたランドマークオブジェクトのオブジェクト位置情報と、トラジェクタオブジェクトの軌道情報のスキーマとしての典型性を表す。スキーマモデルは、例えば隠れマルコフモデル(HMM)によって表される。
【0030】
図2に戻る。発話選択部12は、発話データベース(DB)13に予め用意されている発話のうち、スキーマ抽出部11からのスキーマ番号、および状態遷移部14から入力される現在の内部状態Sに対応する発話候補を検索し、さらに、検索した発話候補の中から1つの発話Uを例えばランダムに選択する。また、発話選択部12は、選択した発話を後段に出力するととも、選択した発話に含まれるキーワードを状態遷移部14に出力する。
【0031】
ここで、内部状態Sとは、生成される発話の一貫性を保つためのものであり、例えば、仕事、恋愛、彼女、彼氏、遊び等の種類がある。
【0032】
発話データベース13には、各内部状態S[i](i=1,2,…)に対して、例えば、以下のように、スキーマに対応する1以上の発話候補が予め用意されている。各発話候補には、2つのキーワードが設定されている。
Figure 2005004473
【0033】
状態遷移部14は、i番目の非言語情報の入力に対応する発話U[i]が発話選択部12において選択される前の内部状態S[i−1]と、i番目の発話U[i]に含まれるキーワードK[i,1],K[i,2]に基づき、i番目の発話の後に遷移する内部状態S[i]を決定し、発話選択部12に出力する。
【0034】
次に、発話生成装置1の動作について、図4のフローチャートを参照して説明する。ステップS1において、非言語情報として情景情報が、スキーマ抽出部11に入力される。ステップS2において、スキーマ抽出部11のオブジェクト検出部21は、入力された情景情報の中からオブジェクトを検出し、オブジェクトの位置を示すオブジェクト位置情報を軌道抽出部22およびスキーマ検出部23に出力する。
【0035】
ステップS3において、軌道抽出部22は、オブジェクト検出部21から入力されたオブジェクト位置情報に基づき、動きのあるオブジェクトの移動の軌道を抽出し、軌道情報としてスキーマ検出部23に出力する。ステップS4において、スキーマ検出部23は、スキーマモデルデータベース24に登録されているスキーマモデルのうち、軌道抽出部22から入力されたトラジェクタオブジェクトの軌道情報に対応するもの検出し、その中で出力が最大のものを選択して、選択したスキーマモデルを特定するスキーマ番号を後段の発話選択部12に出力する。
【0036】
ステップS5において、発話選択部12は、発話データベース13に予め用意されている発話のうち、スキーマ抽出部11からのスキーマ番号、および状態遷移部14から入力される現在の内部状態Sに対応する発話候補を検索し、さらに、検索した発話候補の中から1つの発話Uを選択する。以上で動作の説明を終了する。
【0037】
次に、発話生成装置1により、例えば、恋愛を示す内部状態Sにおいて生成される発話の一例について、図5乃至図8を参照して説明する。
【0038】
例えば、情景情報に基づき、図5に示すようにオブジェクトA,Bが配置されている初期状態から、図6に示すように、トラジェクタオブジェクトAが、ランドマークオブジェクトBの上に載せられて、スキー”move onto”が抽出された場合、発話「公園のベンチに座っていたんだね」が生成される。
【0039】
次いで図7に示すように、トラジェクタオブジェクトAが、ランドマークオブジェクトBの上方に持ち上げられて、スキーマ”up”が抽出された場合、発話「一緒に星空を眺めていたんだよ」が生成される。
【0040】
次いで図8に示すように、トラジェクタオブジェクトAが、ランドマークオブジェクトBの横に降ろされて、スキーマ”down”が抽出された場合、発話「全てのことから開放されたいと願うように、一心に星空を見上げている彼女に、そっと語りかけたんだ」が生成される。
【0041】
以上説明したように、発話生成装置1によれば、スキーマに対応して抽象的な発話が一貫性を持って生成されるので、ユーザが、発話生成装置1が搭載されたロボット等に対して共感を持つことができる。また、ロボット等の娯楽性を高めることができる。
【0042】
上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることもできる。この場合、例えば、情報処理装置は、図9に示されるようなパーソナルコンピュータにより構成される。
【0043】
図9において、CPU(Central Processing Unit)51は、ROM(Read Only Memory)52に記憶されているプログラム、または記憶部58からRAM(Random Access Memory)53にロードされたプログラムに従って各種の処理を実行する。RAM53にはまた、CPU51が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0044】
CPU51、ROM52、およびRAM53は、バス54を介して相互に接続されている。このバス54にはまた、入出力インタフェース55も接続されている。
【0045】
入出力インタフェース55には、キーボード、マウスなどよりなる入力部56、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部57、ハードディスクなどより構成される記憶部58、モデム、ターミナルアダプタなどより構成される通信部59が接続されている。通信部59は、インターネットを含むネットワークを介しての通信処理を行う。
【0046】
入出力インタフェース55にはまた、必要に応じてドライブ60が接続され、磁気ディスク61、光ディスク62、光磁気ディスク63、或いは半導体メモリ64などが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部58にインストールされる。
【0047】
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【0048】
この記録媒体は、図9に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク61(フロッピディスクを含む)、光ディスク62(CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク63(MD(Mini−Disk)を含む)、もしくは半導体メモリ64などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM52や、記憶部58に含まれるハードディスクなどで構成される。
【0049】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0050】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【0051】
【発明の効果】
以上のように、本発明によれば、対話者の発言や動作から連想される発話を生成することができる。
【0052】
また、本発明によれば、非言語情報に基づいて生成する抽象的な発話に一貫性を持たせることが可能となる。
【図面の簡単な説明】
【図1】情景情報の一例を説明するための図である。
【図2】本発明の一実施の形態である発話生成装置の構成例を示すブロック図である。
【図3】図2のスキーマ抽出部の構成例を示すブロック図である。
【図4】図2の発話生成装置の動作を説明するフローチャートである。
【図5】情景情報と生成される発話の一例を説明するための図である。
【図6】情景情報と生成される発話の一例を説明するための図である。
【図7】情景情報と生成される発話の一例を説明するための図である。
【図8】情景情報と生成される発話の一例を説明するための図である。
【図9】本発明を適用したパーソナルコンピュータの構成例を示すブロック図である。
【符号の説明】
1 発話生成装置, 11 スキーマ抽出部, 12 発話生成部, 13 発話データベース, 14 ,状態遷移部, 21 オブジェクト検出部, 22 軌道抽出部, 23 スキーマ検出部, 24 スキーマモデルデータベース

Claims (6)

  1. 非言語情報に対応して発話を生成する情報処理装置において、
    入力された前記非言語情報の特徴を表すスキーマを決定する決定手段と、
    前記スキーマに対応する発話が予め保持されているデータベースと、
    前記決定手段によって決定された前記スキーマ、および前回選択した発話に基づき、前記データベースの中から、出力する発話を選択する選択手段と
    を含むことを特徴とする情報処理装置。
  2. 前記データベースには、前記スキーマから間接的に連想される抽象的な発話が予め保持されている
    を含むことを特徴とする請求項1に記載の情報処理装置。
  3. 前記選択手段は、前記決定手段によって決定された前記スキーマ、および前回選択した発話に含まれるキーワードに基づき、前記データベースの中から出力する発話を選択する
    を含むことを特徴とする請求項1に記載の情報処理装置。
  4. 前記非言語情報は、画像からなる情景情報、物体の動作を制御するための制御情報、オーディオ情報、または時間情報を含む
    を含むことを特徴とする請求項1に記載の情報処理装置。
  5. 非言語情報に対応して発話を生成する情報処理方法において、
    入力された前記非言語情報の特徴を表すスキーマを決定する決定ステップと、
    前記決定ステップの処理で決定された前記スキーマ、および前回選択した発話に基づき、前記スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話を選択する選択ステップと
    を含むことを特徴とする情報処理方法。
  6. 非言語情報に対応して発話を生成するためのプログラムであって、
    入力された前記非言語情報の特徴を表すスキーマを決定する決定ステップと、
    前記決定ステップの処理で決定された前記スキーマ、および前回選択した発話に基づき、前記スキーマに対応する発話が予め保持されているデータベースの中から、出力する発話を選択する選択ステップと
    を含む処理をコンピュータに実行させることを特徴とするプログラム。
JP2003167110A 2003-06-11 2003-06-11 発話生成装置および方法、並びにプログラム Pending JP2005004473A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003167110A JP2005004473A (ja) 2003-06-11 2003-06-11 発話生成装置および方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003167110A JP2005004473A (ja) 2003-06-11 2003-06-11 発話生成装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2005004473A true JP2005004473A (ja) 2005-01-06

Family

ID=34093044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003167110A Pending JP2005004473A (ja) 2003-06-11 2003-06-11 発話生成装置および方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2005004473A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345764A (zh) * 2013-07-12 2013-10-09 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345764A (zh) * 2013-07-12 2013-10-09 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法
CN103345764B (zh) * 2013-07-12 2016-02-10 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法

Similar Documents

Publication Publication Date Title
CN111415677B (zh) 用于生成视频的方法、装置、设备和介质
WO2017168870A1 (ja) 情報処理装置及び情報処理方法
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN112162628A (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US20150325240A1 (en) Method and system for speech input
CN107403011B (zh) 虚拟现实环境语言学习实现方法和自动录音控制方法
CN112837401B (zh) 一种信息处理方法、装置、计算机设备及存储介质
Moore et al. Word-level emotion recognition using high-level features
US10304439B2 (en) Image processing device, animation display method and computer readable medium
CN114401438A (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN109697978B (zh) 用于生成模型的方法和装置
CN112668407A (zh) 人脸关键点生成方法、装置、存储介质及电子设备
JP2005196134A (ja) 音声対話システム及び方法並びに音声対話プログラム
KR20220138558A (ko) 머신 러닝 기반의 영상 자동 편집 방법 및 시스템
US11263852B2 (en) Method, electronic device, and computer readable storage medium for creating a vote
US8297754B2 (en) Apparatus and method of controlling camera work based on direction rule
Gimeno-Gómez et al. LIP-RTVE: An audiovisual database for continuous Spanish in the wild
JP2005004473A (ja) 発話生成装置および方法、並びにプログラム
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
Verma et al. Animating expressive faces across languages
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.
CN113205797A (zh) 虚拟主播生成方法、装置、计算机设备及可读存储介质
CN113450783A (zh) 用于渐进式自然语言理解的系统和方法
EP4022424A1 (en) Rehearsal-based presentation assistance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070926