JP2001188779A - 情報処理装置および方法、並びに記録媒体 - Google Patents
情報処理装置および方法、並びに記録媒体Info
- Publication number
- JP2001188779A JP2001188779A JP37377399A JP37377399A JP2001188779A JP 2001188779 A JP2001188779 A JP 2001188779A JP 37377399 A JP37377399 A JP 37377399A JP 37377399 A JP37377399 A JP 37377399A JP 2001188779 A JP2001188779 A JP 2001188779A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- user
- response sentence
- robot
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Toys (AREA)
- Manipulator (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 ユーザの態度に対応する言葉遣いで応答文を
生成することができるようにする。 【解決手段】 ユーザの態度が、尊敬している態度であ
ると判定された場合、丁寧な言葉遣いで応答文が生成さ
れ、命令的な態度であると判定された場合、普通または
丁寧な言葉遣いで応答文が生成され、見下している態度
であると判定された場合、丁寧または乱暴な言葉遣いで
応答文が生成され、対等な態度であると判定された場
合、普通または丁寧な言葉遣いで応答文が生成され、そ
して標準的な態度であると判定された場合、普通、丁
寧、または標準的な言葉遣いで応答文が生成される。
生成することができるようにする。 【解決手段】 ユーザの態度が、尊敬している態度であ
ると判定された場合、丁寧な言葉遣いで応答文が生成さ
れ、命令的な態度であると判定された場合、普通または
丁寧な言葉遣いで応答文が生成され、見下している態度
であると判定された場合、丁寧または乱暴な言葉遣いで
応答文が生成され、対等な態度であると判定された場
合、普通または丁寧な言葉遣いで応答文が生成され、そ
して標準的な態度であると判定された場合、普通、丁
寧、または標準的な言葉遣いで応答文が生成される。
Description
【0001】
【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びに記録媒体に関し、特に、自分自身で、対
話の話題を決定することができるようにした情報処理装
置および方法、並びに記録媒体に関する。
び方法、並びに記録媒体に関し、特に、自分自身で、対
話の話題を決定することができるようにした情報処理装
置および方法、並びに記録媒体に関する。
【0002】
【従来の技術】音声認識技術を利用して、使用者の発話
を認識し、その発話に対する応答としての応答文を発話
し、ユーザと対話する機能、いわゆる、対話機能を有す
るロボットが実用化されている。
を認識し、その発話に対する応答としての応答文を発話
し、ユーザと対話する機能、いわゆる、対話機能を有す
るロボットが実用化されている。
【0003】
【発明が解決しようとする課題】ところで、通常、対話
相手と親密な関係である場合、例えば、普通の言葉遣い
で対話が行われ、また親密な関係ではない場合、例え
ば、丁寧な言葉遣いで、対話が行われる。
相手と親密な関係である場合、例えば、普通の言葉遣い
で対話が行われ、また親密な関係ではない場合、例え
ば、丁寧な言葉遣いで、対話が行われる。
【0004】しかしながら、従来の対話機能によれば、
ロボットが出力する応答文は、親密な関係である、例え
ば、ロボットの所有者に対しても、また親密な関係では
ない、例えば、はじめて対話する者に対しても、同じ言
葉遣いで生成される。
ロボットが出力する応答文は、親密な関係である、例え
ば、ロボットの所有者に対しても、また親密な関係では
ない、例えば、はじめて対話する者に対しても、同じ言
葉遣いで生成される。
【0005】すなわち、ロボットの対話が、不自然にな
ってしまう課題があった。
ってしまう課題があった。
【0006】本発明はこのような状況に鑑みてなされた
ものであり、対話の相手との関係に対応する言葉遣いで
応答文を生成することができるようにするものである。
ものであり、対話の相手との関係に対応する言葉遣いで
応答文を生成することができるようにするものである。
【0007】
【課題を解決するための手段】請求項1に記載の情報処
理装置は、発話から、対話における、ユーザのロボット
に対する状態を検出する検出手段と、検出手段により検
出された状態に対応する言葉遣いで、応答文を生成する
生成手段とを備えることを特徴とする。
理装置は、発話から、対話における、ユーザのロボット
に対する状態を検出する検出手段と、検出手段により検
出された状態に対応する言葉遣いで、応答文を生成する
生成手段とを備えることを特徴とする。
【0008】対話における、ユーザのロボットに対する
状態は、ユーザのロボットに対する態度であり、検出手
段は、ユーザのロボットに対する態度が、尊敬している
態度、命令的な態度、見下している態度、対等な態度、
または標準的な態度であるかを検出し、生成手段は、検
出手段により検出されたユーザのロボットに対する態度
に対応して、普通の言葉遣いで、丁寧な言葉遣いで、乱
暴な言葉遣いで、または標準的な言葉遣いで応答文を生
成することができる。
状態は、ユーザのロボットに対する態度であり、検出手
段は、ユーザのロボットに対する態度が、尊敬している
態度、命令的な態度、見下している態度、対等な態度、
または標準的な態度であるかを検出し、生成手段は、検
出手段により検出されたユーザのロボットに対する態度
に対応して、普通の言葉遣いで、丁寧な言葉遣いで、乱
暴な言葉遣いで、または標準的な言葉遣いで応答文を生
成することができる。
【0009】対話における、ユーザのロボットに対する
状態は、ユーザのロボットに対する親密さであり、検出
手段は、親密さを表す親密度を算出し、生成手段は、検
出手段により算出された親密度に対応する言葉遣いで、
応答文を生成することができる。
状態は、ユーザのロボットに対する親密さであり、検出
手段は、親密さを表す親密度を算出し、生成手段は、検
出手段により算出された親密度に対応する言葉遣いで、
応答文を生成することができる。
【0010】請求項4に記載の情報処理方法は、発話か
ら、対話における、ユーザのロボットに対する状態を検
出する検出ステップと、検出ステップの処理で検出され
た状態に対応する言葉遣いで、応答文を生成する生成ス
テップとを含むことを特徴とする。
ら、対話における、ユーザのロボットに対する状態を検
出する検出ステップと、検出ステップの処理で検出され
た状態に対応する言葉遣いで、応答文を生成する生成ス
テップとを含むことを特徴とする。
【0011】請求項5に記載の記録媒体のプログラム
は、発話から、対話における、ユーザのロボットに対す
る状態を検出する検出ステップと、検出ステップの処理
で検出された状態に対応する言葉遣いで、応答文を生成
する生成ステップとを含むことを特徴とする。
は、発話から、対話における、ユーザのロボットに対す
る状態を検出する検出ステップと、検出ステップの処理
で検出された状態に対応する言葉遣いで、応答文を生成
する生成ステップとを含むことを特徴とする。
【0012】請求項1に記載の情報処理装置、請求項4
に記載の情報処理方法、および請求項5に記載の記録媒
体のプログラムにおいては、発話から、対話における、
ユーザのロボットに対する状態が検出され、検出された
状態に対応する言葉遣いで、応答文が生成される。
に記載の情報処理方法、および請求項5に記載の記録媒
体のプログラムにおいては、発話から、対話における、
ユーザのロボットに対する状態が検出され、検出された
状態に対応する言葉遣いで、応答文が生成される。
【0013】
【発明の実施の形態】図1は、本発明を適用したロボッ
トの外観構成例を示しており、図2は、その電気的構成
例を示している。このロボットは、ユーザからの「なで
る」や「たたく」といった外部からの物理的な働きかけ
に対する応答として、またはユーザの発話に対する応答
として、頭部を上下左右に振らせたり、歩行するなどの
行動を取り、または応答文を発話する。
トの外観構成例を示しており、図2は、その電気的構成
例を示している。このロボットは、ユーザからの「なで
る」や「たたく」といった外部からの物理的な働きかけ
に対する応答として、またはユーザの発話に対する応答
として、頭部を上下左右に振らせたり、歩行するなどの
行動を取り、または応答文を発話する。
【0014】本実施の形態では、ロボットは、犬形状の
ものとされており、胴体部ユニット2の前後左右に、そ
れぞれ脚部ユニット3A,3B,3C,3Dが連結され
るとともに、胴体部ユニット2の前端部と後端部に、そ
れぞれ頭部ユニット4と尻尾部ユニット5が連結される
ことにより構成されている。
ものとされており、胴体部ユニット2の前後左右に、そ
れぞれ脚部ユニット3A,3B,3C,3Dが連結され
るとともに、胴体部ユニット2の前端部と後端部に、そ
れぞれ頭部ユニット4と尻尾部ユニット5が連結される
ことにより構成されている。
【0015】尻尾部ユニット5は、胴体部ユニット2の
上面に設けられたベース部5Bから、2自由度をもって
湾曲または揺動自在に引き出されている。
上面に設けられたベース部5Bから、2自由度をもって
湾曲または揺動自在に引き出されている。
【0016】胴体部ユニット2には、ロボット全体の制
御を行うコントローラ10、ロボットの動力源となるバ
ッテリ11、並びにバッテリセンサ12および熱センサ
13からなる内部センサ部14などが収納されている。
御を行うコントローラ10、ロボットの動力源となるバ
ッテリ11、並びにバッテリセンサ12および熱センサ
13からなる内部センサ部14などが収納されている。
【0017】頭部ユニット4には、「耳」に相当するマ
イク(マイクロフォン)15、「目」に相当するCCD
(Charge Coupled Device)カメラ16、触覚に相当する
タッチセンサ17、「口」に相当するスピーカ18など
が、それぞれ所定位置に配設されている。
イク(マイクロフォン)15、「目」に相当するCCD
(Charge Coupled Device)カメラ16、触覚に相当する
タッチセンサ17、「口」に相当するスピーカ18など
が、それぞれ所定位置に配設されている。
【0018】脚部ユニット3A乃至3Dそれぞれの関節
部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユ
ニット2の連結部分、頭部ユニット4と胴体部ユニット
2の連結部分、並びに尻尾部ユニット5と胴体部ユニッ
ト2の連結部分などには、図2に示すように、それぞれ
アクチュエータ3AA1乃至3AAK、3BA1乃至3B
AK、3CA1乃至3CAK、3DA1乃至3DAK、4A1
乃至4AL、5A1および5A2が配設されており、これ
により、各連結部分は、所定の自由度をもって回転する
ことができるようになっている。
部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユ
ニット2の連結部分、頭部ユニット4と胴体部ユニット
2の連結部分、並びに尻尾部ユニット5と胴体部ユニッ
ト2の連結部分などには、図2に示すように、それぞれ
アクチュエータ3AA1乃至3AAK、3BA1乃至3B
AK、3CA1乃至3CAK、3DA1乃至3DAK、4A1
乃至4AL、5A1および5A2が配設されており、これ
により、各連結部分は、所定の自由度をもって回転する
ことができるようになっている。
【0019】頭部ユニット4におけるマイク15は、ユ
ーザからの発話を含む周囲の音声(音)を集音し、得ら
れた音声信号を、コントローラ10に送出する。CCD
カメラ16は、周囲の状況を撮像し、得られた画像信号
を、コントローラ10に送出する。
ーザからの発話を含む周囲の音声(音)を集音し、得ら
れた音声信号を、コントローラ10に送出する。CCD
カメラ16は、周囲の状況を撮像し、得られた画像信号
を、コントローラ10に送出する。
【0020】タッチセンサ17は、例えば、頭部ユニッ
ト4の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ10に送出する。
ト4の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ10に送出する。
【0021】胴体部ユニット2におけるバッテリセンサ
12は、バッテリ11の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ10に送
出する。熱センサ13は、ロボット内部の熱や外気の温
度を検出し、その検出結果を、コントローラ10に送出
する。
12は、バッテリ11の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ10に送
出する。熱センサ13は、ロボット内部の熱や外気の温
度を検出し、その検出結果を、コントローラ10に送出
する。
【0022】コントローラ10は、CPU(Central Pro
cessing Unit)10Aやメモリ10B等を内蔵してお
り、CPU10Aにおいて、メモリ10Bに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。
cessing Unit)10Aやメモリ10B等を内蔵してお
り、CPU10Aにおいて、メモリ10Bに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。
【0023】即ち、コントローラ10は、バッテリセン
サ12や、熱センサ13、マイク15、CCDカメラ1
6、タッチセンサ17から与えられる各信号に基づい
て、周囲の状況や、ユーザからの指令、ユーザからの働
きかけなどの有無を判断する。
サ12や、熱センサ13、マイク15、CCDカメラ1
6、タッチセンサ17から与えられる各信号に基づい
て、周囲の状況や、ユーザからの指令、ユーザからの働
きかけなどの有無を判断する。
【0024】さらに、コントローラ10は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ3AA1乃至3AAK、3BA1
乃至3BAK、3CA1乃至3CAK、3DA1乃至3DA
K、4A1乃至4AL、5A1、5A2のうちの必要なもの
を駆動させ、これにより、頭部ユニット4を上下左右に
振らせたり、尻尾部ユニット5を動かせたり、各脚部ユ
ニット3A乃至3Dを駆動して、ロボットを歩行させる
などの行動を行わせる。
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ3AA1乃至3AAK、3BA1
乃至3BAK、3CA1乃至3CAK、3DA1乃至3DA
K、4A1乃至4AL、5A1、5A2のうちの必要なもの
を駆動させ、これにより、頭部ユニット4を上下左右に
振らせたり、尻尾部ユニット5を動かせたり、各脚部ユ
ニット3A乃至3Dを駆動して、ロボットを歩行させる
などの行動を行わせる。
【0025】また、コントローラ10は、必要に応じ
て、合成音を生成し、スピーカ18に供給して出力させ
る。
て、合成音を生成し、スピーカ18に供給して出力させ
る。
【0026】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとることができるように
なっている。
況等に基づいて自律的に行動をとることができるように
なっている。
【0027】次に、図3は、コントローラ10の、ユー
ザの発話に対する応答としての応答文を発話し、対話を
行う機能(以下、対話機能と称する)の第1の実施の形
態の構成例を示している。なお、この対話機能は、CP
U10Aが、メモリ10Bに記憶された制御プログラム
を実行することで実現されるようになっている。
ザの発話に対する応答としての応答文を発話し、対話を
行う機能(以下、対話機能と称する)の第1の実施の形
態の構成例を示している。なお、この対話機能は、CP
U10Aが、メモリ10Bに記憶された制御プログラム
を実行することで実現されるようになっている。
【0028】話者識別部31には、マイク15から、話
者の音声(発話)が、そしてCCDカメラ16から、撮
像の結果得られた話者の画像が入力される。話者認識部
31は、対話管理部36に制御され、入力された音声お
よび入力された画像に基づき、識別情報記憶部31Aを
参照して、話者を識別する。
者の音声(発話)が、そしてCCDカメラ16から、撮
像の結果得られた話者の画像が入力される。話者認識部
31は、対話管理部36に制御され、入力された音声お
よび入力された画像に基づき、識別情報記憶部31Aを
参照して、話者を識別する。
【0029】すなわち、識別情報記憶部31Aには、話
者となり得るユーザの音声のピッチやフォルマントなど
のユーザ固有の音声情報、およびユーザの画像上の特徴
量が記憶されている。
者となり得るユーザの音声のピッチやフォルマントなど
のユーザ固有の音声情報、およびユーザの画像上の特徴
量が記憶されている。
【0030】話者識別部31は、入力された音声に対し
て、適応フィルタバンク等の音響処理を施し、ピッチや
フォルマントを抽出し、また、入力された画像から特徴
量を抽出し、識別情報記憶部31Aから、それらの抽出
結果に対応するユーザを検出し、そのユーザの識別情報
を取得する。
て、適応フィルタバンク等の音響処理を施し、ピッチや
フォルマントを抽出し、また、入力された画像から特徴
量を抽出し、識別情報記憶部31Aから、それらの抽出
結果に対応するユーザを検出し、そのユーザの識別情報
を取得する。
【0031】話者識別部31による話者識別結果として
話者(ユーザ)の識別情報は、対話管理部36に送出さ
れる。
話者(ユーザ)の識別情報は、対話管理部36に送出さ
れる。
【0032】音声認識部32は、対話管理部36により
制御され、マイク15から与えられる音声信号を用い
て、音声認識を行い、その音声認識結果としてのテキス
ト、その他付随する情報(例えば、ワードグラフ等)
を、バッファ33に出力する。バッファ33は、その音
声認識結果を、一時的に保持し、対話管理部36からの
指令に基づくタイミングで、言語解析部34に出力す
る。
制御され、マイク15から与えられる音声信号を用い
て、音声認識を行い、その音声認識結果としてのテキス
ト、その他付随する情報(例えば、ワードグラフ等)
を、バッファ33に出力する。バッファ33は、その音
声認識結果を、一時的に保持し、対話管理部36からの
指令に基づくタイミングで、言語解析部34に出力す
る。
【0033】言語解析部34は、対話管理部36により
制御され、バッファ33を介して入力される、音声認識
部32による音声認識結果を解析し、ユーザの発話の内
容の意味理解を行い、その意味理解の結果としての単語
情報や構文情報を、バッファ35に出力する。バッファ
35は、その意味理解の結果を、一時的に保持し、対話
管理部36からの指令に基づくタイミングで、対話管理
部36に出力する。
制御され、バッファ33を介して入力される、音声認識
部32による音声認識結果を解析し、ユーザの発話の内
容の意味理解を行い、その意味理解の結果としての単語
情報や構文情報を、バッファ35に出力する。バッファ
35は、その意味理解の結果を、一時的に保持し、対話
管理部36からの指令に基づくタイミングで、対話管理
部36に出力する。
【0034】対話管理部36は、バッファ35を介して
入力される、言語解析部34による意味理解の結果に対
応する行動を指令するための情報(以下、行動指令情報
と称する)(後述)および意味理解の結果に対応する応
答文(テキスト)を生成するために必要な、応答文の意
味や概念を表す情報(以下、応答文意味情報と称する)
(後述)を生成する。対話管理部36は、この際、話者
識別部31から送出された識別情報により識別される話
者との対話の履歴(対話履歴)を利用して、行動指令情
報および応答文意味情報を生成する。
入力される、言語解析部34による意味理解の結果に対
応する行動を指令するための情報(以下、行動指令情報
と称する)(後述)および意味理解の結果に対応する応
答文(テキスト)を生成するために必要な、応答文の意
味や概念を表す情報(以下、応答文意味情報と称する)
(後述)を生成する。対話管理部36は、この際、話者
識別部31から送出された識別情報により識別される話
者との対話の履歴(対話履歴)を利用して、行動指令情
報および応答文意味情報を生成する。
【0035】対話管理部36はまた、生成した応答文意
味情報や、言語解析部34による意味理解の結果に基づ
いて、その話者との対話履歴を管理する。
味情報や、言語解析部34による意味理解の結果に基づ
いて、その話者との対話履歴を管理する。
【0036】なお、対話管理部36が、音声認識部32
乃至バッファ35を制御し、それらの処理および出力の
タイミングを調整することより、例えば、誤認識によ
り、音声認識部32および言語解析部34における処理
結果の修正が必要になった場合においても、話者は、修
正される部分を発話すればよく、発話した文章(以下、
発話文と称する)の全てを再度発話する必要がない。
乃至バッファ35を制御し、それらの処理および出力の
タイミングを調整することより、例えば、誤認識によ
り、音声認識部32および言語解析部34における処理
結果の修正が必要になった場合においても、話者は、修
正される部分を発話すればよく、発話した文章(以下、
発話文と称する)の全てを再度発話する必要がない。
【0037】応答文生成部37は、対話管理部36から
の応答文意味情報に基づいて、応答文(テキスト)を生
成し、音声合成部38に出力する。
の応答文意味情報に基づいて、応答文(テキスト)を生
成し、音声合成部38に出力する。
【0038】音声合成部38は、応答文生成部37が出
力する応答文に対応する合成音を生成し、スピーカ18
に出力する。
力する応答文に対応する合成音を生成し、スピーカ18
に出力する。
【0039】図4は、音声認識部32の構成例を示して
いる。話者の発話は、マイク15に入力され、マイク1
5で、電気信号としての音声信号に変換され、AD(Ana
logDigital)変換部51に供給される。AD変換部51
では、マイク15からのアナログ信号である音声信号が
サンプリング、量子化され、ディジタル信号である音声
データに変換される。この音声データは、特徴抽出部5
2に供給される。
いる。話者の発話は、マイク15に入力され、マイク1
5で、電気信号としての音声信号に変換され、AD(Ana
logDigital)変換部51に供給される。AD変換部51
では、マイク15からのアナログ信号である音声信号が
サンプリング、量子化され、ディジタル信号である音声
データに変換される。この音声データは、特徴抽出部5
2に供給される。
【0040】特徴抽出部52は、AD変換部51からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、線形予測係数、ケプストラム係数、線ス
ペクトル対等の特徴パラメータを抽出し、マッチング部
53に供給する。
音声データについて、適当なフレームごとに、例えば、
スペクトルや、線形予測係数、ケプストラム係数、線ス
ペクトル対等の特徴パラメータを抽出し、マッチング部
53に供給する。
【0041】マッチング部53は、特徴抽出部52から
の特徴パラメータに基づき、音響モデルデータベース5
4、辞書データベース55、および文法データベース5
6を必要に応じて参照しながら、マイク15に入力され
た音声(入力音声)を認識する。
の特徴パラメータに基づき、音響モデルデータベース5
4、辞書データベース55、および文法データベース5
6を必要に応じて参照しながら、マイク15に入力され
た音声(入力音声)を認識する。
【0042】即ち、音響モデルデータベース54は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、HMM(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス55は、認識対象の各単語について、その発音に関す
る情報が記述された単語辞書を記憶している。文法デー
タベース56は、辞書データベース55の単語辞書に登
録されている各単語が、どのように連鎖する(つなが
る)かを記述した文法規則を記憶している。ここで、文
法規則としては、例えば、文脈自由文法(CFG)や、
統計的な単語連鎖確率(N−gram)などに基づく規
則を用いることができる。
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、HMM(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス55は、認識対象の各単語について、その発音に関す
る情報が記述された単語辞書を記憶している。文法デー
タベース56は、辞書データベース55の単語辞書に登
録されている各単語が、どのように連鎖する(つなが
る)かを記述した文法規則を記憶している。ここで、文
法規則としては、例えば、文脈自由文法(CFG)や、
統計的な単語連鎖確率(N−gram)などに基づく規
則を用いることができる。
【0043】マッチング部53は、辞書データベース5
5の単語辞書を参照することにより、音響モデルデータ
ベース54に記憶されている音響モデルを接続すること
で、単語の音響モデル(単語モデル)を構成する。さら
に、マッチング部53は、幾つかの単語モデルを、文法
データベース56に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、HMM法等
によって、マイク15に入力された音声を認識する。
5の単語辞書を参照することにより、音響モデルデータ
ベース54に記憶されている音響モデルを接続すること
で、単語の音響モデル(単語モデル)を構成する。さら
に、マッチング部53は、幾つかの単語モデルを、文法
データベース56に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、HMM法等
によって、マイク15に入力された音声を認識する。
【0044】マッチング部53による音声認識結果は、
例えば、テキスト等で、バッファ33に出力される。
例えば、テキスト等で、バッファ33に出力される。
【0045】図5は、言語解析部34の構成例を示して
いる。言語解析部34のテキスト解析部71には、音声
認識部32による音声認識結果としてのテキストが入力
される。テキスト解析部71は、辞書データベース72
や解析用文法データベース73を参照しながら、そのテ
キストを解析する。
いる。言語解析部34のテキスト解析部71には、音声
認識部32による音声認識結果としてのテキストが入力
される。テキスト解析部71は、辞書データベース72
や解析用文法データベース73を参照しながら、そのテ
キストを解析する。
【0046】辞書データベース72には、各単語の表記
や、解析用文法を適用するために必要な品詞情報などが
記述された単語辞書が記憶されている。また、解析用文
法データベース73には、単語辞書に記述された各単語
の情報に基づいて、単語連鎖に関する制約等が記述され
た解析用文法規則が記憶されている。
や、解析用文法を適用するために必要な品詞情報などが
記述された単語辞書が記憶されている。また、解析用文
法データベース73には、単語辞書に記述された各単語
の情報に基づいて、単語連鎖に関する制約等が記述され
た解析用文法規則が記憶されている。
【0047】テキスト解析部71は、その単語辞書や解
析用文法規則に基づいて、そこに入力されるテキスト
(入力テキスト)の形態素解析や、構文解析等を行い、
その入力テキストの意味理解を行い、その意味理解の結
果としての言語情報をバッファ35に出力する。
析用文法規則に基づいて、そこに入力されるテキスト
(入力テキスト)の形態素解析や、構文解析等を行い、
その入力テキストの意味理解を行い、その意味理解の結
果としての言語情報をバッファ35に出力する。
【0048】例えば、音声認識部32による、ユーザの
発話「A(ロボットの名前)ちゃん、新聞を取ってきて
くれる」の音声認識結果(テキスト)が入力された場
合、テキスト解析部71において、その形態素解析や構
文解析が行われ、「A(ロボットの名前)」と「ちゃ
ん」から、”ちゃん”の呼称で自分が呼ばれているとの
意味理解が行われ、「くれる」から”何らかの動作が要
求されている”、または”物をもらえる”との意味理解
が行われ、そして、「取ってくる」から、”物がもらえ
る”のではなく、”「取ってくる」という動作が要求さ
れている”との意味理解が行われ、そして、「新聞」か
ら、その動作の対象が新聞であるとの意味理解が行われ
る。この例の場合における意味理解の結果を、下記のよ
うに示す。
発話「A(ロボットの名前)ちゃん、新聞を取ってきて
くれる」の音声認識結果(テキスト)が入力された場
合、テキスト解析部71において、その形態素解析や構
文解析が行われ、「A(ロボットの名前)」と「ちゃ
ん」から、”ちゃん”の呼称で自分が呼ばれているとの
意味理解が行われ、「くれる」から”何らかの動作が要
求されている”、または”物をもらえる”との意味理解
が行われ、そして、「取ってくる」から、”物がもらえ
る”のではなく、”「取ってくる」という動作が要求さ
れている”との意味理解が行われ、そして、「新聞」か
ら、その動作の対象が新聞であるとの意味理解が行われ
る。この例の場合における意味理解の結果を、下記のよ
うに示す。
【0049】要求[くれる,動作[取ってくる,対象物
[新聞]],対象者[ロボット,敬称[ちゃん]]]
[新聞]],対象者[ロボット,敬称[ちゃん]]]
【0050】なお、抽出すべき構文を一意的に決定する
ことができない場合、意味情報を用いて意味的曖昧性を
取り除いて、構文を決定することができる。
ことができない場合、意味情報を用いて意味的曖昧性を
取り除いて、構文を決定することができる。
【0051】図6は、対話管理部36の構成例を示して
いる。対話管理部36の対話制御部91には、言語解析
部34による意味理解の結果および話者識別部31によ
る識別結果が入力される。対話制御部91は、その意味
理解の結果の一部または全部を、対話履歴記憶部92に
順次供給して記憶させる。これにより、対話履歴記憶部
92には、対話履歴が記憶され、また更新される。
いる。対話管理部36の対話制御部91には、言語解析
部34による意味理解の結果および話者識別部31によ
る識別結果が入力される。対話制御部91は、その意味
理解の結果の一部または全部を、対話履歴記憶部92に
順次供給して記憶させる。これにより、対話履歴記憶部
92には、対話履歴が記憶され、また更新される。
【0052】対話制御部91は、入力される意味理解の
結果(ユーザの発話)に基づき、シナリオ記憶部93を
参照して、ユーザの発話に対する応答としての行動の行
動指令情報を生成する。
結果(ユーザの発話)に基づき、シナリオ記憶部93を
参照して、ユーザの発話に対する応答としての行動の行
動指令情報を生成する。
【0053】シナリオ記憶部93には、発話に対する応
答としての行動の行動指令情報を生成するのに必要な情
報(以下、必要情報と称する)がどのような情報である
かを示す情報(項目)(以下、必要情報項目と称する)
が、行動に対応するフレーム毎に記憶されている。
答としての行動の行動指令情報を生成するのに必要な情
報(以下、必要情報と称する)がどのような情報である
かを示す情報(項目)(以下、必要情報項目と称する)
が、行動に対応するフレーム毎に記憶されている。
【0054】対話制御部91は、発話に対する応答とし
ての行動に対応するフレームを、シナリオ記憶部93か
ら検出し、検出したフレームに示されている必要情報項
目に対応して、その必要情報をフレームに埋め込む。こ
れにより、行動指令情報が生成される。具体的には、フ
レームに示される必要情報項目の必要情報が、発話の意
味理解の結果に含まれている場合、対話制御部91は、
そこから必要情報を読み取り、そのフレームに埋め込
む。一方、必要情報が、発話の意味理解の結果に含まれ
ていない場合、対話制御部91は、必要情報を、対話履
歴記憶部92から検出し、そのフレームに埋め込む。
ての行動に対応するフレームを、シナリオ記憶部93か
ら検出し、検出したフレームに示されている必要情報項
目に対応して、その必要情報をフレームに埋め込む。こ
れにより、行動指令情報が生成される。具体的には、フ
レームに示される必要情報項目の必要情報が、発話の意
味理解の結果に含まれている場合、対話制御部91は、
そこから必要情報を読み取り、そのフレームに埋め込
む。一方、必要情報が、発話の意味理解の結果に含まれ
ていない場合、対話制御部91は、必要情報を、対話履
歴記憶部92から検出し、そのフレームに埋め込む。
【0055】例えば、発話の意味理解の結果として、要
求[くれる,動作[取ってくる,対象物[新聞]],対象者
[ロボット,敬称[ちゃん]]]が入力され、その発話に対す
る応答としての、ロボットが新聞を取ってくる行動に対
応するフレームによれば、その行動指令情報を生成する
ために、対象物[新聞]が置かれている場所の情報(必要
情報)がさらに必要であるとされている場合、対話制御
部91は、その必要情報(対話の中で省略され、対話理
解の結果には含まれていない必要情報)を、対話履歴記
憶部92から検出し、そのフレームに埋め込む。
求[くれる,動作[取ってくる,対象物[新聞]],対象者
[ロボット,敬称[ちゃん]]]が入力され、その発話に対す
る応答としての、ロボットが新聞を取ってくる行動に対
応するフレームによれば、その行動指令情報を生成する
ために、対象物[新聞]が置かれている場所の情報(必要
情報)がさらに必要であるとされている場合、対話制御
部91は、その必要情報(対話の中で省略され、対話理
解の結果には含まれていない必要情報)を、対話履歴記
憶部92から検出し、そのフレームに埋め込む。
【0056】例えば、対象物[新聞]が、新聞受けに置
かれていることが検出された場合、その必要情報は、フ
レームに埋め込まれ、行動指令情報として、要求[くれ
る,動作[取ってくる,対象物[新聞],場所[新聞受
け]],対象者[ロボット,敬称[ちゃん]]]が生成され
る。
かれていることが検出された場合、その必要情報は、フ
レームに埋め込まれ、行動指令情報として、要求[くれ
る,動作[取ってくる,対象物[新聞],場所[新聞受
け]],対象者[ロボット,敬称[ちゃん]]]が生成され
る。
【0057】対話履歴記憶部92には、対話履歴が話者
毎に記憶されている。なお、対話履歴記憶部92から、
必要情報を検出する際、対話制御部91は、対話履歴記
憶部92に記憶されている話者毎の対話履歴のうち、話
者識別部31により識別された話者の対話履歴を参照す
る。
毎に記憶されている。なお、対話履歴記憶部92から、
必要情報を検出する際、対話制御部91は、対話履歴記
憶部92に記憶されている話者毎の対話履歴のうち、話
者識別部31により識別された話者の対話履歴を参照す
る。
【0058】また、必要情報が、ユーザの対話の意味理
解の結果および対話履歴記憶部92の両方から検出する
ことができないとき、すなわち、必要情報が、意味理解
の結果にも含まれず、対話履歴記憶部92にも記憶され
ていないとき、対話制御部91は、知識データベース9
4に記憶されている手順に従い、その必要情報をユーザ
から聞き取るための応答文の応答文意味情報を生成し、
応答文生成部36に出力する。これにより、この応答文
意味情報に基づいて生成された応答文が発話され、その
応答としてのユーザの発話から、必要情報が取得され
る。その結果、行動指令情報が生成される。
解の結果および対話履歴記憶部92の両方から検出する
ことができないとき、すなわち、必要情報が、意味理解
の結果にも含まれず、対話履歴記憶部92にも記憶され
ていないとき、対話制御部91は、知識データベース9
4に記憶されている手順に従い、その必要情報をユーザ
から聞き取るための応答文の応答文意味情報を生成し、
応答文生成部36に出力する。これにより、この応答文
意味情報に基づいて生成された応答文が発話され、その
応答としてのユーザの発話から、必要情報が取得され
る。その結果、行動指令情報が生成される。
【0059】例えば、上述の例では、新聞が置かれてい
る場所が、意味理解の結果にも含まれず、対話履歴記憶
部92にも記憶されていない場合、知識データベース9
4に記憶されている手順に従って、例えば、応答文意味
情報として、対象者[ロボット,敬称[ちゃん]],動作
[取ってくる,対象物[新聞],場所[?]]」が生成され
る。 このように、過去の対話の中で、すでに指定され
ており、対話の中で省略されている事柄については、対
話履歴から検出される。
る場所が、意味理解の結果にも含まれず、対話履歴記憶
部92にも記憶されていない場合、知識データベース9
4に記憶されている手順に従って、例えば、応答文意味
情報として、対象者[ロボット,敬称[ちゃん]],動作
[取ってくる,対象物[新聞],場所[?]]」が生成され
る。 このように、過去の対話の中で、すでに指定され
ており、対話の中で省略されている事柄については、対
話履歴から検出される。
【0060】すなわち、知識データベース94には、対
話の中で、ユーザから所定の情報を聞き取るための応答
文の応答文意味情報を生成するための手順が記憶されて
いる。
話の中で、ユーザから所定の情報を聞き取るための応答
文の応答文意味情報を生成するための手順が記憶されて
いる。
【0061】以上のようにして生成された行動指令情報
は、コントローラ10の他の機能である、アクチュエー
タ3AA1乃至3AAK、3BA1乃至3BAK、3CA1
乃至3CAK、3DA1乃至3DAK、4A1乃至4AL、
5A1、5A2などを制御する機能において用いられる。
これにより、その行動指令情報に基づいて、例えば、必
要なアクチュエータが駆動され、例えば、ロボットは、
新聞受けまで歩行するなどの行動を取る。
は、コントローラ10の他の機能である、アクチュエー
タ3AA1乃至3AAK、3BA1乃至3BAK、3CA1
乃至3CAK、3DA1乃至3DAK、4A1乃至4AL、
5A1、5A2などを制御する機能において用いられる。
これにより、その行動指令情報に基づいて、例えば、必
要なアクチュエータが駆動され、例えば、ロボットは、
新聞受けまで歩行するなどの行動を取る。
【0062】対話制御部91は、入力された発話の意味
理解の結果に関連する情報を、対話履歴記憶部92およ
び知識データベース94を参照して取得し、取得した情
報に基づいて応答文意味情報を生成し、応答文生成部3
7に出力する。
理解の結果に関連する情報を、対話履歴記憶部92およ
び知識データベース94を参照して取得し、取得した情
報に基づいて応答文意味情報を生成し、応答文生成部3
7に出力する。
【0063】すなわち、知識データベース94には、話
者と対話するために必要な一般情報がさらに記憶されて
いる。また、この場合においても、対話制御部91は、
対話履歴記憶部92に記憶されている対話履歴のうち、
話者識別部31からの識別情報により識別される話者の
対話履歴を参照する。
者と対話するために必要な一般情報がさらに記憶されて
いる。また、この場合においても、対話制御部91は、
対話履歴記憶部92に記憶されている対話履歴のうち、
話者識別部31からの識別情報により識別される話者の
対話履歴を参照する。
【0064】図7は、応答文生成部37の構成例を示し
ている。応答文生成部37のテキスト生成部101に
は、対話管理部36からの応答文意味情報が入力され
る。応答文生成部101は、入力された応答文意味情報
に基づき、生成規則データベース102を参照して、応
答文(テキスト)を生成するが、この際、応答文意味情
報から、ユーザの、自分(ロボット)に対する態度を検
出し、その態度に対応する言葉遣いで、応答文を生成す
る。
ている。応答文生成部37のテキスト生成部101に
は、対話管理部36からの応答文意味情報が入力され
る。応答文生成部101は、入力された応答文意味情報
に基づき、生成規則データベース102を参照して、応
答文(テキスト)を生成するが、この際、応答文意味情
報から、ユーザの、自分(ロボット)に対する態度を検
出し、その態度に対応する言葉遣いで、応答文を生成す
る。
【0065】応答文生成部101は、応答文意味情報を
構成する単語に付されているユーザのロボットに対する
態度を示す情報に基づいて、ユーザのロボットに対する
態度が、自分に対して尊敬している態度であるか、命令
的な態度であるか、見下ろしている態度であるか、対等
な態度であるか、または、標準的な態度であるかを判定
する。
構成する単語に付されているユーザのロボットに対する
態度を示す情報に基づいて、ユーザのロボットに対する
態度が、自分に対して尊敬している態度であるか、命令
的な態度であるか、見下ろしている態度であるか、対等
な態度であるか、または、標準的な態度であるかを判定
する。
【0066】例えば、ユーザの発話が「私の家においで
いただけませんか。」である場合、尊敬している態度で
あると判定され、「俺の家に来い。」である場合、命令
的な態度であると判定され、「俺の家に来てくれ。」で
ある場合、見下している態度であると判定され、「俺の
家に来ない?」である場合、対等な態度であると判定さ
れ、そして「私の家に来てください。」である場合、標
準的な態度であると判定される。
いただけませんか。」である場合、尊敬している態度で
あると判定され、「俺の家に来い。」である場合、命令
的な態度であると判定され、「俺の家に来てくれ。」で
ある場合、見下している態度であると判定され、「俺の
家に来ない?」である場合、対等な態度であると判定さ
れ、そして「私の家に来てください。」である場合、標
準的な態度であると判定される。
【0067】そして応答文生成部101は、そのユーザ
のロボットに対する態度の判定結果に基づいて、その発
話に対する応答としての応答文を、普通の言葉遣いで、
丁寧な言葉遣いで、乱暴な言葉遣いで、または標準的な
言葉遣いで生成する。
のロボットに対する態度の判定結果に基づいて、その発
話に対する応答としての応答文を、普通の言葉遣いで、
丁寧な言葉遣いで、乱暴な言葉遣いで、または標準的な
言葉遣いで生成する。
【0068】例えば、上述した例では、普通の言葉遣い
での応答文として、「ええ、おじゃまでなければ」が、
丁寧な言葉遣いでの応答文として、「はい、お伺いさせ
ていただきます。」が、乱暴の言葉遣いでの応答文とし
て、「いいよ。」が、または標準的な言葉遣いでの応答
文として、「はい、行きます」が生成される。
での応答文として、「ええ、おじゃまでなければ」が、
丁寧な言葉遣いでの応答文として、「はい、お伺いさせ
ていただきます。」が、乱暴の言葉遣いでの応答文とし
て、「いいよ。」が、または標準的な言葉遣いでの応答
文として、「はい、行きます」が生成される。
【0069】すなわち、生成規則データベース102に
は、例えば単語の活用規則や語順の制約等の生成用文法
規則が記述されている単語辞書が記憶されており、そし
てその単語辞書に登録されている単語には、尊敬してい
る態度などユーザのロボットに対する態度を示す情報、
および普通の言葉遣いなど、応答文に用いられる言葉遣
いを示す情報が付されている。
は、例えば単語の活用規則や語順の制約等の生成用文法
規則が記述されている単語辞書が記憶されており、そし
てその単語辞書に登録されている単語には、尊敬してい
る態度などユーザのロボットに対する態度を示す情報、
および普通の言葉遣いなど、応答文に用いられる言葉遣
いを示す情報が付されている。
【0070】図8には、判定されたユーザのロボットに
対する態度に対応する応答文の言葉遣いが示されてい
る。ユーザの態度が、尊敬している態度であると判定さ
れた場合、丁寧な言葉遣いで応答文が生成され、命令的
な態度であると判定された場合、普通または丁寧な言葉
遣いで応答文が生成され、見下している態度であると判
定された場合、丁寧または乱暴な言葉遣いで応答文が生
成され、対等な態度であると判定された場合、普通また
は丁寧な言葉遣いで応答文が生成され、そして標準的な
態度であると判定された場合、普通、丁寧、または標準
的な言葉遣いで応答文が生成される。つまり、図8の例
では、尊敬している態度である場合は、必ず丁寧な応答
文が生成され、それ以外の態度である場合、選択可能な
いずれかの言葉遣いでの応答文が生成される。なお、こ
の場合、所定の状況に応じてその言葉遣いを選択するこ
とができる。例えば、見下ろしている態度であると判定
された場合、ロボットが、ユーザのその態度に対して良
い感情を持たないようになされているとき(怒っている
状況のとき)、乱暴な言葉遣いで応答文が生成されるよ
うにすることができる。
対する態度に対応する応答文の言葉遣いが示されてい
る。ユーザの態度が、尊敬している態度であると判定さ
れた場合、丁寧な言葉遣いで応答文が生成され、命令的
な態度であると判定された場合、普通または丁寧な言葉
遣いで応答文が生成され、見下している態度であると判
定された場合、丁寧または乱暴な言葉遣いで応答文が生
成され、対等な態度であると判定された場合、普通また
は丁寧な言葉遣いで応答文が生成され、そして標準的な
態度であると判定された場合、普通、丁寧、または標準
的な言葉遣いで応答文が生成される。つまり、図8の例
では、尊敬している態度である場合は、必ず丁寧な応答
文が生成され、それ以外の態度である場合、選択可能な
いずれかの言葉遣いでの応答文が生成される。なお、こ
の場合、所定の状況に応じてその言葉遣いを選択するこ
とができる。例えば、見下ろしている態度であると判定
された場合、ロボットが、ユーザのその態度に対して良
い感情を持たないようになされているとき(怒っている
状況のとき)、乱暴な言葉遣いで応答文が生成されるよ
うにすることができる。
【0071】ところで、対話管理部36から、例えば、
上述した、応答文意味情報として、対象者[ロボット,
敬称[ちゃん]],動作[取ってくる,対象物[新聞],場
所[?]]が入力された場合、テキスト生成部101は、
敬称[ちゃん]であることから(「ちゃん」には、対等な
態度を示す情報が付されていることから)、ユーザは、
自分に対し、対等な態度であると判定し、普通または丁
寧な言葉遣いで応答文を生成する。例えば、丁寧な言葉
遣いの応答文として、「”話者の名前”さん、新聞はど
こから取ってくればよいですか。」が生成される。
上述した、応答文意味情報として、対象者[ロボット,
敬称[ちゃん]],動作[取ってくる,対象物[新聞],場
所[?]]が入力された場合、テキスト生成部101は、
敬称[ちゃん]であることから(「ちゃん」には、対等な
態度を示す情報が付されていることから)、ユーザは、
自分に対し、対等な態度であると判定し、普通または丁
寧な言葉遣いで応答文を生成する。例えば、丁寧な言葉
遣いの応答文として、「”話者の名前”さん、新聞はど
こから取ってくればよいですか。」が生成される。
【0072】図9は、音声合成部38の構成例を示して
いる。音声合成部38のテキスト解析部111には、応
答文生成部37により生成された応答文(テキスト)
が、音声合成処理の対象として入力されるようになって
おり、テキスト解析部111は、辞書データベース11
2や解析用文法データベース113を参照しながら、そ
のテキストを解析する。
いる。音声合成部38のテキスト解析部111には、応
答文生成部37により生成された応答文(テキスト)
が、音声合成処理の対象として入力されるようになって
おり、テキスト解析部111は、辞書データベース11
2や解析用文法データベース113を参照しながら、そ
のテキストを解析する。
【0073】即ち、辞書データベース112には、各単
語の品詞情報や、読み、アクセント等の情報が記述され
た単語辞書が記憶されており、また、解析用文法データ
ベース113には、辞書データベース112の単語辞書
に記述された単語について、単語連鎖に関する制約等の
解析用文法規則が記憶されている。そして、テキスト解
析部111は、この単語辞書および解析用文法規則に基
づいて、そこに入力されるテキストの形態素解析や構文
解析等の解析を行い、後段の規則合成部114で行われ
る規則音声合成に必要な情報を抽出する。ここで、規則
音声合成に必要な情報としては、例えば、ポーズの位置
や、アクセントおよびイントネーションを制御するため
の情報その他の韻律情報や、各単語の発音等の音韻情報
などがある。
語の品詞情報や、読み、アクセント等の情報が記述され
た単語辞書が記憶されており、また、解析用文法データ
ベース113には、辞書データベース112の単語辞書
に記述された単語について、単語連鎖に関する制約等の
解析用文法規則が記憶されている。そして、テキスト解
析部111は、この単語辞書および解析用文法規則に基
づいて、そこに入力されるテキストの形態素解析や構文
解析等の解析を行い、後段の規則合成部114で行われ
る規則音声合成に必要な情報を抽出する。ここで、規則
音声合成に必要な情報としては、例えば、ポーズの位置
や、アクセントおよびイントネーションを制御するため
の情報その他の韻律情報や、各単語の発音等の音韻情報
などがある。
【0074】テキスト解析部111で得られた情報は、
規則合成部114に供給され、規則合成部114では、
音素片データベース115を用いて、テキスト解析部1
11に入力されたテキストに対応する合成音の音声デー
タ(ディジタルデータ)が生成される。
規則合成部114に供給され、規則合成部114では、
音素片データベース115を用いて、テキスト解析部1
11に入力されたテキストに対応する合成音の音声デー
タ(ディジタルデータ)が生成される。
【0075】即ち、音素片データベース115には、例
えば、CV(Consonant, Vowel)や、VCV、CVC等の
形で音素片データが記憶されており、規則合成部114
は、テキスト解析部111からの情報に基づいて、必要
な音素片データを接続し、さらに、ポーズ、アクセン
ト、イントネーション等を適切に付加することで、テキ
スト解析部111に入力されたテキストに対応する合成
音の音声データを生成する。
えば、CV(Consonant, Vowel)や、VCV、CVC等の
形で音素片データが記憶されており、規則合成部114
は、テキスト解析部111からの情報に基づいて、必要
な音素片データを接続し、さらに、ポーズ、アクセン
ト、イントネーション等を適切に付加することで、テキ
スト解析部111に入力されたテキストに対応する合成
音の音声データを生成する。
【0076】この音声データは、DA変換部113に供
給され、そこで、アナログ信号としての音声信号に変換
される。この音声信号は、スピーカ18に供給され、こ
れにより、テキスト解析部111に入力されたテキスト
に対応する合成音が出力される。
給され、そこで、アナログ信号としての音声信号に変換
される。この音声信号は、スピーカ18に供給され、こ
れにより、テキスト解析部111に入力されたテキスト
に対応する合成音が出力される。
【0077】以上のように、対話機能が構成されてい
る。次に、その処理について、図10のフローチャート
を参照して、説明する。
る。次に、その処理について、図10のフローチャート
を参照して、説明する。
【0078】ステップS1において、マイク15を介し
て、音声認識部32に入力された、ユーザの発話の音声
信号は、そこで、音声認識され、その音声認識結果が、
バッファ33を介して言語解析部34に供給される。
て、音声認識部32に入力された、ユーザの発話の音声
信号は、そこで、音声認識され、その音声認識結果が、
バッファ33を介して言語解析部34に供給される。
【0079】このとき、話者識別部31は、入力された
発話の音声信号に対して、適応フィルタバンク等の音響
処理を施し、ピッチやフォルマントを抽出し、また、入
力された画像から特徴量を抽出し、識別情報記憶部31
Aから、それらの抽出結果に対応して記憶されている話
者の識別情報を読み取り、対話管理部36に送出する。
発話の音声信号に対して、適応フィルタバンク等の音響
処理を施し、ピッチやフォルマントを抽出し、また、入
力された画像から特徴量を抽出し、識別情報記憶部31
Aから、それらの抽出結果に対応して記憶されている話
者の識別情報を読み取り、対話管理部36に送出する。
【0080】なお、話者の画像を取り入れるために、複
数のマイク15を用意して、それらに入力される発話の
音声信号に基づいて、話者がいる方向を推測し、その方
向にCCDカメラ16を向けるようにすることができ
る。また、この場合、雑音の多い環境の中で使用される
場合、話者の声の到達方向に対するマイク15の指向性
を調整するようにすることができる。
数のマイク15を用意して、それらに入力される発話の
音声信号に基づいて、話者がいる方向を推測し、その方
向にCCDカメラ16を向けるようにすることができ
る。また、この場合、雑音の多い環境の中で使用される
場合、話者の声の到達方向に対するマイク15の指向性
を調整するようにすることができる。
【0081】ステップS2で、言語解析部34におい
て、音声認識部32による音声認識結果から、話者の発
話の意味理解が行われ、その意味理解の結果が、バッフ
ァ35を介して対話管理部36に供給される。
て、音声認識部32による音声認識結果から、話者の発
話の意味理解が行われ、その意味理解の結果が、バッフ
ァ35を介して対話管理部36に供給される。
【0082】ステップS3で、対話管理部36におい
て、供給された言語解析部34による意味理解の結果か
ら、行動指令情報および応答文意味情報が生成され、応
答文意味情報は、応答文生成部37に供給される。行動
指令情報は、アクチュエータ3AA1乃至3AAK、3B
A1乃至3BAK、3CA1乃至3CAK、3DA1乃至3
DAK、4A1乃至4AL、5A1、5A2を制御する機能
において用いられる。
て、供給された言語解析部34による意味理解の結果か
ら、行動指令情報および応答文意味情報が生成され、応
答文意味情報は、応答文生成部37に供給される。行動
指令情報は、アクチュエータ3AA1乃至3AAK、3B
A1乃至3BAK、3CA1乃至3CAK、3DA1乃至3
DAK、4A1乃至4AL、5A1、5A2を制御する機能
において用いられる。
【0083】具体的には、発話に対する応答としての行
動に対応するフレームがシナリオ記憶部93から検出さ
れ、そのフレームに示されている必要情報項目の必要情
報が、意味理解の結果、または対話履歴記憶部92から
検出され、そのフレームに埋め込まれる。これにより、
行動指令情報が生成される。また、必要情報が、意味理
解の結果にも含まれず、対話履歴記憶部92にも記憶さ
れていない場合、知識データベース94に記憶されてい
る手順に従って、その必要情報を取得するための応答文
の応答文意味情報が生成される。
動に対応するフレームがシナリオ記憶部93から検出さ
れ、そのフレームに示されている必要情報項目の必要情
報が、意味理解の結果、または対話履歴記憶部92から
検出され、そのフレームに埋め込まれる。これにより、
行動指令情報が生成される。また、必要情報が、意味理
解の結果にも含まれず、対話履歴記憶部92にも記憶さ
れていない場合、知識データベース94に記憶されてい
る手順に従って、その必要情報を取得するための応答文
の応答文意味情報が生成される。
【0084】ステップS4で、対話管理部36におい
て、ステップS2で供給された、言語解析部34による
意味理解の結果、およびステップS3で生成された応答
文意味情報に基づいて、対話履歴記憶部92に記憶され
ている対話履歴が更新される。
て、ステップS2で供給された、言語解析部34による
意味理解の結果、およびステップS3で生成された応答
文意味情報に基づいて、対話履歴記憶部92に記憶され
ている対話履歴が更新される。
【0085】ステップS5で、応答文生成部37におい
て、対話管理部36より供給された応答文意味情報に基
づいて、応答文が生成され、音声合成部38に供給され
る。応答文が生成される際、話者のロボットに対する態
度が、尊敬している態度、命令的な態度、見下ろしてい
る態度、対等な態度、または標準的な態度であるかが判
定され、そしてその判定結果に基づいて、普通の言葉遣
いで、丁寧な言葉遣いで、乱暴な言葉遣いで、または標
準な言葉遣いで応答文が生成される。
て、対話管理部36より供給された応答文意味情報に基
づいて、応答文が生成され、音声合成部38に供給され
る。応答文が生成される際、話者のロボットに対する態
度が、尊敬している態度、命令的な態度、見下ろしてい
る態度、対等な態度、または標準的な態度であるかが判
定され、そしてその判定結果に基づいて、普通の言葉遣
いで、丁寧な言葉遣いで、乱暴な言葉遣いで、または標
準な言葉遣いで応答文が生成される。
【0086】ステップS6で、音声合成部38におい
て、応答文生成部37から供給された応答文(テキス
ト)に対応する合成音が生成され、スピーカ18に出力
される。その後、処理は終了する。
て、応答文生成部37から供給された応答文(テキス
ト)に対応する合成音が生成され、スピーカ18に出力
される。その後、処理は終了する。
【0087】次に、複数の話者が存在する場合の処理手
順を、図11のフローチャートを参照して説明する。
順を、図11のフローチャートを参照して説明する。
【0088】話者識別部31が識別した話者の識別情報
が、すでに対話管理部36に供給されている状態におい
て、ステップS1において、話者識別部31が、マイク
15から入力された音声信号およびCCDカメラ16か
ら入力された画像信号に基づいて、話者を識別し、識別
結果としての話者の識別情報を、対話管理部36に通知
する。
が、すでに対話管理部36に供給されている状態におい
て、ステップS1において、話者識別部31が、マイク
15から入力された音声信号およびCCDカメラ16か
ら入力された画像信号に基づいて、話者を識別し、識別
結果としての話者の識別情報を、対話管理部36に通知
する。
【0089】ステップS12において、対話管理部36
は、はじめに通知された識別情報で識別される話者と、
ステップS11で通知された識別情報で識別される話者
とが同一であるか否かを判定し、同一ではないと判定し
た場合、すなわち、話者が変更されたと判定した場合、
ステップS13に進む。
は、はじめに通知された識別情報で識別される話者と、
ステップS11で通知された識別情報で識別される話者
とが同一であるか否かを判定し、同一ではないと判定し
た場合、すなわち、話者が変更されたと判定した場合、
ステップS13に進む。
【0090】ステップS13において、対話管理部36
は、ステップS11で識別された話者の対話履歴が、対
話履歴記憶部92に記憶されているか否かを判定し、記
憶されていないと判定した場合、すなわち、登録されて
いない、新規の話者であると判定された場合、ステップ
S14に進む。
は、ステップS11で識別された話者の対話履歴が、対
話履歴記憶部92に記憶されているか否かを判定し、記
憶されていないと判定した場合、すなわち、登録されて
いない、新規の話者であると判定された場合、ステップ
S14に進む。
【0091】ステップS14で、対話管理部36におい
て、ステップS11で識別された話者の対話履歴が生成
され、対話履歴記憶部92に記憶させる。
て、ステップS11で識別された話者の対話履歴が生成
され、対話履歴記憶部92に記憶させる。
【0092】ステップS13で、ステップS11で識別
された話者の対話履歴が記憶されていると判定された場
合、対話管理部36において、その対話履歴が、例え
ば、図10のステップS3での処理等を行う際に参照す
べき対話履歴に設定される。すなわち、参照されるべき
対話履歴が切り換えられる。
された話者の対話履歴が記憶されていると判定された場
合、対話管理部36において、その対話履歴が、例え
ば、図10のステップS3での処理等を行う際に参照す
べき対話履歴に設定される。すなわち、参照されるべき
対話履歴が切り換えられる。
【0093】ステップS12で、話者が変更されていな
いと判定された場合、ステップS14で、ステップS1
1で識別された話者の対話履歴が作成されたとき、また
はステップS15で対話履歴が切り換えられたとき、処
理は終了する。
いと判定された場合、ステップS14で、ステップS1
1で識別された話者の対話履歴が作成されたとき、また
はステップS15で対話履歴が切り換えられたとき、処
理は終了する。
【0094】なお、以上において、対話管理部36の対
話履歴記憶部92に、過去の音声発話情報を記憶してお
き、入力音声の誤認識や発話の誤解釈が発生した場合、
その情報を利用して、再処理するようにすることもでき
る。
話履歴記憶部92に、過去の音声発話情報を記憶してお
き、入力音声の誤認識や発話の誤解釈が発生した場合、
その情報を利用して、再処理するようにすることもでき
る。
【0095】また、以上においては、ユーザのロボット
に対する態度に対応して、応答文に用いられる言葉遣い
が選択される場合を例として説明したが、話者の性別な
ど、話者の個人特性に対応して、その言葉遣いを選択す
るようにしたり、またロボットに感情や性別を設定し、
それらに対応して、選択するようにすることもできる。
に対する態度に対応して、応答文に用いられる言葉遣い
が選択される場合を例として説明したが、話者の性別な
ど、話者の個人特性に対応して、その言葉遣いを選択す
るようにしたり、またロボットに感情や性別を設定し、
それらに対応して、選択するようにすることもできる。
【0096】図12は、コントローラ10の、対話機能
の第2の実施の形態の構成例を示している。この発話機
構には、図3の言語解析部34、対話管理部36、およ
び応答文生成部37に代えて、言語解析部201、対話
管理部202、および応答文生成部203が設けられて
いる。その他の部分は、図3における場合と同様であ
る。
の第2の実施の形態の構成例を示している。この発話機
構には、図3の言語解析部34、対話管理部36、およ
び応答文生成部37に代えて、言語解析部201、対話
管理部202、および応答文生成部203が設けられて
いる。その他の部分は、図3における場合と同様であ
る。
【0097】言語解析部201は、図13に示すよう
に、図5の辞書データベース72に代えて、辞書データ
ベース211が設けられている。
に、図5の辞書データベース72に代えて、辞書データ
ベース211が設けられている。
【0098】テキスト解析部71は、辞書データベース
211や解析用文法データベース73を参照しながら、
音声認識部32による音声認識結果としてのテキストを
解析し、意味理解を行う。テキスト解析部71はまた、
このテキストを構成する単語に与えられている親密度
を、辞書データベース211から検索する。テキスト解
析部71は、その検索結果として得られた単語の親密度
の平均値を、発話(発話文)の親密度として算出する。
例えば、「おはよう」は、「おはようございます」に比
べ、親密な相手に対して用いられるので、「おはよう」
が発話された場合、「おはようございます。」が発話さ
れた場合に比べ、より高い親密度が算出されるようにな
されている。
211や解析用文法データベース73を参照しながら、
音声認識部32による音声認識結果としてのテキストを
解析し、意味理解を行う。テキスト解析部71はまた、
このテキストを構成する単語に与えられている親密度
を、辞書データベース211から検索する。テキスト解
析部71は、その検索結果として得られた単語の親密度
の平均値を、発話(発話文)の親密度として算出する。
例えば、「おはよう」は、「おはようございます」に比
べ、親密な相手に対して用いられるので、「おはよう」
が発話された場合、「おはようございます。」が発話さ
れた場合に比べ、より高い親密度が算出されるようにな
されている。
【0099】すなわち、辞書データベース211の、各
単語の表記や、解析用文法を適用するために必要な品詞
情報などが記述された単語辞書に登録されている所定の
単語には、それぞれ親密度が付されている。
単語の表記や、解析用文法を適用するために必要な品詞
情報などが記述された単語辞書に登録されている所定の
単語には、それぞれ親密度が付されている。
【0100】テキスト解析部71による意味理解の結果
および親密度の算出結果(以下、発話の親密度と称す
る)は、バッファ35に出力される。
および親密度の算出結果(以下、発話の親密度と称す
る)は、バッファ35に出力される。
【0101】対話管理部202は、図14に示すよう
に、図6の対話履歴記録部92に代えて、対話履歴記憶
部221が設けられている。対話制御部91には、言語
解析部201による意味理解の結果および発話の親密
度、並びに話者識別部31による識別結果が入力され
る。
に、図6の対話履歴記録部92に代えて、対話履歴記憶
部221が設けられている。対話制御部91には、言語
解析部201による意味理解の結果および発話の親密
度、並びに話者識別部31による識別結果が入力され
る。
【0102】対話制御部91は、図6の場合と同様に、
入力された発話の意味理解の結果に対応する応答文の応
答文意味情報を、話者識別部31により識別された話者
の対話履歴等に基づいて生成し、応答文生成部203に
出力する。対話制御部91は、識別された話者の対話履
歴を、生成した応答文意味情報および発話の意味理解の
結果に基づいて更新する。
入力された発話の意味理解の結果に対応する応答文の応
答文意味情報を、話者識別部31により識別された話者
の対話履歴等に基づいて生成し、応答文生成部203に
出力する。対話制御部91は、識別された話者の対話履
歴を、生成した応答文意味情報および発話の意味理解の
結果に基づいて更新する。
【0103】対話制御部91はまた、話者識別部31か
ら識別情報により識別される話者に設定されている親密
度(以下、話者の親密度と称する)を、対話履歴記憶部
221から検出する。
ら識別情報により識別される話者に設定されている親密
度(以下、話者の親密度と称する)を、対話履歴記憶部
221から検出する。
【0104】すなわち、対話履歴記憶部221には、話
者毎の対話履歴の他、話者毎に設定された親密度が記憶
されている。
者毎の対話履歴の他、話者毎に設定された親密度が記憶
されている。
【0105】対話制御部91は、検出した話者の親密度
と、入力された発話の親密度と比較し、その差が、一定
の大きさ以下である場合、対話履歴記憶部221に記憶
されている話者の親密度を、応答文生成部203に供給
する。一方、その差が一定以上である場合、対話制御部
91は、話者の親密度を、発話の親密度で変更し、変更
したその話者の親密度を、応答文生成部203に供給す
る。
と、入力された発話の親密度と比較し、その差が、一定
の大きさ以下である場合、対話履歴記憶部221に記憶
されている話者の親密度を、応答文生成部203に供給
する。一方、その差が一定以上である場合、対話制御部
91は、話者の親密度を、発話の親密度で変更し、変更
したその話者の親密度を、応答文生成部203に供給す
る。
【0106】例えば、ロボットを誉めるための話者の発
話からは、より高い発話の親密度が算出されるので、対
話履歴記憶部221に記憶されている話者の親密度より
大きく、その差が一定の大きさ以上である場合、その話
者の親密度が、発話の親密度で更新され、より高い親密
度となる。また、怒っているときの話者の発話からは、
より低い発話の親密度が算出されるので、話者の親密度
より小さく、その差が一定の大きさ以上である場合、話
者の親密度が、発話の親密度で更新され、より低い親密
度となる。
話からは、より高い発話の親密度が算出されるので、対
話履歴記憶部221に記憶されている話者の親密度より
大きく、その差が一定の大きさ以上である場合、その話
者の親密度が、発話の親密度で更新され、より高い親密
度となる。また、怒っているときの話者の発話からは、
より低い発話の親密度が算出されるので、話者の親密度
より小さく、その差が一定の大きさ以上である場合、話
者の親密度が、発話の親密度で更新され、より低い親密
度となる。
【0107】応答文生成部203は、図15に示すよう
に、図7の生成規則データベース102に代えて、生成
規則データベース231を有している。テキスト生成部
101には、対話管理部202から、応答文意味情報お
よび親密度(話者の親密度)が入力される。
に、図7の生成規則データベース102に代えて、生成
規則データベース231を有している。テキスト生成部
101には、対話管理部202から、応答文意味情報お
よび親密度(話者の親密度)が入力される。
【0108】応答文生成部203は、生成規則データベ
ース231を参照し、入力された応答文意味情報に基づ
いて、入力された親密度に対応する言葉遣いで応答文を
生成する。
ース231を参照し、入力された応答文意味情報に基づ
いて、入力された親密度に対応する言葉遣いで応答文を
生成する。
【0109】すなわち、生成規則データベース231
の、単語の活用規則や語順の制約等の生成用文法規則が
記述されている辞書に登録されている所定の単語には、
親密度が付されている。そして応答文生成部203は、
入力された話者の親密度と同じ、またはその近辺の親密
度を有する単語を用いて、応答文を生成する。
の、単語の活用規則や語順の制約等の生成用文法規則が
記述されている辞書に登録されている所定の単語には、
親密度が付されている。そして応答文生成部203は、
入力された話者の親密度と同じ、またはその近辺の親密
度を有する単語を用いて、応答文を生成する。
【0110】次に、言語解析部201の辞書データベー
ス211の単語辞書に登録されている単語のうち、親密
度が付されていない単語に、親密度を設定する場合の処
理手順を、図16のフローチャートを参照して説明す
る。
ス211の単語辞書に登録されている単語のうち、親密
度が付されていない単語に、親密度を設定する場合の処
理手順を、図16のフローチャートを参照して説明す
る。
【0111】ステップS21において、対話管理部20
2は、対話履歴記憶部221に記憶されている対話履歴
を構成する発話文の中の単語のうち、一定の頻度以上使
用され、かつ、辞書データベース211(言語解析部2
01)の単語辞書に親密度が付されないで登録されてい
る単語を抽出する。
2は、対話履歴記憶部221に記憶されている対話履歴
を構成する発話文の中の単語のうち、一定の頻度以上使
用され、かつ、辞書データベース211(言語解析部2
01)の単語辞書に親密度が付されないで登録されてい
る単語を抽出する。
【0112】ステップS22において、対話管理部20
2は、ステップS21で抽出した単語を、例えば、シソ
ーラス辞書等を利用して、意味分類を行い、その意味分
類の結果から、単語の品詞を推定する。
2は、ステップS21で抽出した単語を、例えば、シソ
ーラス辞書等を利用して、意味分類を行い、その意味分
類の結果から、単語の品詞を推定する。
【0113】ステップS23において、対話管理部20
2は、ステップS22で推定した品詞の単語を含む発話
文を、対話履歴記憶部221から検出し、言語解析部2
01に供給する。言語解析部201は、対話管理部20
2から供給された発話文(発話)の親密度を算出する。
なお、ステップS22で品詞が推定された単語には、親
密度が付されていないので、ここでは、他の単語に付さ
れている親密度により、発話の親密度が算出される。言
語解析部201は、その親密度の算出結果から、その単
語の親密度を推定する。
2は、ステップS22で推定した品詞の単語を含む発話
文を、対話履歴記憶部221から検出し、言語解析部2
01に供給する。言語解析部201は、対話管理部20
2から供給された発話文(発話)の親密度を算出する。
なお、ステップS22で品詞が推定された単語には、親
密度が付されていないので、ここでは、他の単語に付さ
れている親密度により、発話の親密度が算出される。言
語解析部201は、その親密度の算出結果から、その単
語の親密度を推定する。
【0114】ステップS24において、言語解析部20
1は、ステップS23で推定した親密度を、その単語に
付して、辞書データベース211の単語辞書に登録す
る。言語解析部201は、対話管理部202を介して、
単語とその親密度を応答文生成部203に通知し、応答
文生成部203は、通知された単語に、その親密度を付
して、生成規則データベース231に登録する。
1は、ステップS23で推定した親密度を、その単語に
付して、辞書データベース211の単語辞書に登録す
る。言語解析部201は、対話管理部202を介して、
単語とその親密度を応答文生成部203に通知し、応答
文生成部203は、通知された単語に、その親密度を付
して、生成規則データベース231に登録する。
【0115】上述した一連の処理は、ハードウエアによ
り実現させることもできるが、ソフトウエアにより実現
させることもできる。一連の処理をソフトウエアにより
実現する場合には、そのソフトウエアを構成するプログ
ラムがコンピュータにインストールされ、そのプログラ
ムがコンピュータで実行されることより、上述したロボ
ットが機能的に実現される。
り実現させることもできるが、ソフトウエアにより実現
させることもできる。一連の処理をソフトウエアにより
実現する場合には、そのソフトウエアを構成するプログ
ラムがコンピュータにインストールされ、そのプログラ
ムがコンピュータで実行されることより、上述したロボ
ットが機能的に実現される。
【0116】図17は、上述のようなロボットとして機
能するコンピュータ501の一実施の形態の構成を示す
ブロック図である。CPU511にはバス515を介して
入出力インタフェース516が接続されており、CPU5
11は、入出力インタフェース516を介して、ユーザ
から、キーボード、マウスなどよりなる入力部518か
ら指令が入力されると、例えば、ROM(Read Only Memor
y)512、ハードディスク514、またはドライブ5
20に装着される磁気ディスク531、光ディスク53
2、光磁気ディスク533、若しくは半導体メモリ53
4などの記録媒体に格納されているプログラムを、RAM
(Random Access Memory)513にロードして実行す
る。これにより、上述した各種の処理(例えば、図1
0、図11、図16のフローチャートにより示される処
理)が行われる。さらに、CPU511は、その処理結果
を、例えば、入出力インタフェース516を介して、LC
D(Liquid Crystal Display)などよりなる表示部51
7に必要に応じて出力する。なお、プログラムは、ハー
ドディスク514やROM512に予め記憶しておき、コ
ンピュータ501と一体的にユーザに提供したり、磁気
ディスク531、光ディスク532、光磁気ディスク5
33,半導体メモリ534等のパッケージメディアとし
て提供したり、衛星、ネットワーク等から通信部519
を介してハードディスク514に提供することができ
る。
能するコンピュータ501の一実施の形態の構成を示す
ブロック図である。CPU511にはバス515を介して
入出力インタフェース516が接続されており、CPU5
11は、入出力インタフェース516を介して、ユーザ
から、キーボード、マウスなどよりなる入力部518か
ら指令が入力されると、例えば、ROM(Read Only Memor
y)512、ハードディスク514、またはドライブ5
20に装着される磁気ディスク531、光ディスク53
2、光磁気ディスク533、若しくは半導体メモリ53
4などの記録媒体に格納されているプログラムを、RAM
(Random Access Memory)513にロードして実行す
る。これにより、上述した各種の処理(例えば、図1
0、図11、図16のフローチャートにより示される処
理)が行われる。さらに、CPU511は、その処理結果
を、例えば、入出力インタフェース516を介して、LC
D(Liquid Crystal Display)などよりなる表示部51
7に必要に応じて出力する。なお、プログラムは、ハー
ドディスク514やROM512に予め記憶しておき、コ
ンピュータ501と一体的にユーザに提供したり、磁気
ディスク531、光ディスク532、光磁気ディスク5
33,半導体メモリ534等のパッケージメディアとし
て提供したり、衛星、ネットワーク等から通信部519
を介してハードディスク514に提供することができ
る。
【0117】なお、本明細書において、記録媒体により
提供されるプログラムを記述するステップは、記載され
た順序に沿って時系列的に行われる処理はもちろん、必
ずしも時系列的に処理されなくとも、並列的あるいは個
別に実行される処理をも含むものである。
提供されるプログラムを記述するステップは、記載され
た順序に沿って時系列的に行われる処理はもちろん、必
ずしも時系列的に処理されなくとも、並列的あるいは個
別に実行される処理をも含むものである。
【0118】
【発明の効果】請求項1に記載の情報処理装置、請求項
4に記載の情報処理方法、および請求項5に記載の記録
媒体のプログラムによれば、発話から、対話における、
ユーザのロボットに対する状態を検出し、検出した状態
に対応する言葉遣いで、応答文を生成するようにしたの
で、ユーザとの対話が自然な言葉遣いで行われる。
4に記載の情報処理方法、および請求項5に記載の記録
媒体のプログラムによれば、発話から、対話における、
ユーザのロボットに対する状態を検出し、検出した状態
に対応する言葉遣いで、応答文を生成するようにしたの
で、ユーザとの対話が自然な言葉遣いで行われる。
【図1】本発明を適用したロボットの外観の構成例を示
す図である。
す図である。
【図2】図1のロボットの内部の構成例を示すブロック
図である。
図である。
【図3】図2のコントローラ10の対話機能の第1の実
施の形態の構成例を示すブロック図である。
施の形態の構成例を示すブロック図である。
【図4】図3の音声認識部32の構成例を示すブロック
図である。
図である。
【図5】図3の言語解析部34の構成例を示すブロック
図である。
図である。
【図6】図3の対話管理部36の構成例を示すブロック
図である。
図である。
【図7】図3の応答文生成部37の構成例を示すブロッ
ク図である。
ク図である。
【図8】ユーザのロボットに対する態度に対応する応答
文の言葉遣いを示すブロック図である。
文の言葉遣いを示すブロック図である。
【図9】図3の音声合成部38の構成例を示すブロック
図である。
図である。
【図10】応答文生成処理を説明するフローチャートで
ある。
ある。
【図11】話者が複数いる場合の処理を説明するフロー
チャートである。
チャートである。
【図12】図2のコントローラ10の対話機能の第2の
実施の形態の構成例を示すブロック図である。
実施の形態の構成例を示すブロック図である。
【図13】図12の言語解析部201の構成例を示すブ
ロック図である。
ロック図である。
【図14】図12の対話管理部202の構成例を示すブ
ロック図である。
ロック図である。
【図15】図12の応答文生成部203の構成例を示す
ブロック図である。
ブロック図である。
【図16】親密度を付して単語を登録する場合の処理を
説明するフローチャートである。
説明するフローチャートである。
【図17】コンピュータ501の構成例を示す図であ
る。
る。
10 コントローラ, 10A CPU, 10B メ
モリ, 15 マイク, 16 CCDカメラ, 31
話者識別部, 32 音声認識部, 33バッファ,
34 言語解析部, 35 バッファ, 36 対話
管理部, 37 応答文生成部, 38 音声合成部,
51 AD変換部, 52 特徴抽出部, 53 マ
ッチング部, 54 音響モデルデータベース, 55
辞書データベース, 56 文法データベース, 7
1 テキスト解析部, 72辞書データベース, 73
解析用文法データベース, 91 対話制御部,92
対話履歴記憶部, 93 シナリオ記憶部, 94
知識データベース,101 テキスト生成部, 102
生成規則データベース, 111 テキスト解析部,
112 辞書データベース, 113 解析用文法デ
ータベース, 114 規則合成部, 115 音素片
データベース, 116 DA変換部, 201 言語
解析部, 202 対話管理部, 203 応答文生成
部,211 辞書データベース, 221 対話履歴記
憶部, 231 生成規則データベース
モリ, 15 マイク, 16 CCDカメラ, 31
話者識別部, 32 音声認識部, 33バッファ,
34 言語解析部, 35 バッファ, 36 対話
管理部, 37 応答文生成部, 38 音声合成部,
51 AD変換部, 52 特徴抽出部, 53 マ
ッチング部, 54 音響モデルデータベース, 55
辞書データベース, 56 文法データベース, 7
1 テキスト解析部, 72辞書データベース, 73
解析用文法データベース, 91 対話制御部,92
対話履歴記憶部, 93 シナリオ記憶部, 94
知識データベース,101 テキスト生成部, 102
生成規則データベース, 111 テキスト解析部,
112 辞書データベース, 113 解析用文法デ
ータベース, 114 規則合成部, 115 音素片
データベース, 116 DA変換部, 201 言語
解析部, 202 対話管理部, 203 応答文生成
部,211 辞書データベース, 221 対話履歴記
憶部, 231 生成規則データベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 表 雅則 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 田島 和彦 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 廣江 厚夫 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 武田 正資 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 2C150 BA06 BA11 CA01 CA02 DA05 DA24 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED42 ED52 EF13 EF16 EF23 EF29 EF33 EF36 3F059 AA00 BA00 BB06 DC00 FC00 5B091 AA11 CA01 CB12 CB32 DA03 5D015 AA05 KK02 KK04 LL10 9A001 BB03 EE05 HH16 HH17 HH18 HH23 JJ71 KK31 KK32
Claims (5)
- 【請求項1】 ユーザとの対話の中で、ロボットが出力
する、前記ユーザの発話に対する応答としての応答文を
生成する情報処理装置において、 前記発話から、前記対話における、前記ユーザの前記ロ
ボットに対する状態を検出する検出手段と、 前記検出手段により検出された前記状態に対応する言葉
遣いで、前記応答文を生成する生成手段とを備えること
を特徴とする情報処理装置。 - 【請求項2】 前記対話における、前記ユーザの前記ロ
ボットに対する状態は、前記ユーザの前記ロボットに対
する態度であり、 前記検出手段は、前記ユーザの前記ロボットに対する態
度が、尊敬している態度、命令的な態度、見下している
態度、対等な態度、または標準的な態度であるかを検出
し、 前記生成手段は、前記検出手段により検出された前記ユ
ーザの前記ロボットに対する態度に対応して、普通の言
葉遣いで、丁寧な言葉遣いで、乱暴な言葉遣いで、また
は標準的な言葉遣いで応答文を生成することを特徴とす
る請求項1に記載の情報処理装置。 - 【請求項3】 前記対話における、前記ユーザの前記ロ
ボットに対する状態は、前記ユーザの前記ロボットに対
する親密さであり、 前記検出手段は、前記親密さを表す親密度を算出し、 前記生成手段は、前記検出手段により算出された前記親
密度に対応する言葉遣いで、前記応答文を生成すること
を特徴とする請求項1に記載の情報処理装置。 - 【請求項4】 ユーザとの対話の中で、ロボットが出力
する、前記ユーザの発話に対する応答としての応答文を
生成する情報処理装置の情報処理方法において、 前記発話から、前記対話における、前記ユーザの前記ロ
ボットに対する状態を検出する検出ステップと、 前記検出ステップの処理で検出された前記状態に対応す
る言葉遣いで、前記応答文を生成する生成ステップとを
含むことを特徴とする情報処理方法。 - 【請求項5】 ユーザとの対話の中で、ロボットが出力
する、前記ユーザの発話に対する応答としての応答文を
生成する場合の、情報処理用のプログラムであって、 前記発話から、前記対話における、前記ユーザの前記ロ
ボットに対する状態を検出する検出ステップと、 前記検出ステップの処理で検出された前記状態に対応す
る言葉遣いで、前記応答文を生成する生成ステップとを
含むことを特徴とするコンピュータが読み取り可能なプ
ログラムが記録されている記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP37377399A JP2001188779A (ja) | 1999-12-28 | 1999-12-28 | 情報処理装置および方法、並びに記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP37377399A JP2001188779A (ja) | 1999-12-28 | 1999-12-28 | 情報処理装置および方法、並びに記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001188779A true JP2001188779A (ja) | 2001-07-10 |
Family
ID=18502736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP37377399A Pending JP2001188779A (ja) | 1999-12-28 | 1999-12-28 | 情報処理装置および方法、並びに記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001188779A (ja) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002264052A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2002264053A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2002264058A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2002264051A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2002287793A (ja) * | 2001-03-28 | 2002-10-04 | Just Syst Corp | コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム |
JP2006059017A (ja) * | 2004-08-18 | 2006-03-02 | Matsushita Electric Ind Co Ltd | 翻訳装置 |
JP2006178175A (ja) * | 2004-12-22 | 2006-07-06 | Nec Corp | 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム |
JP2008254122A (ja) * | 2007-04-05 | 2008-10-23 | Honda Motor Co Ltd | ロボット |
JP2010110862A (ja) * | 2008-11-06 | 2010-05-20 | Nec Corp | コミュニケーションロボットシステム、コミュニケーションロボット制御方法およびプログラム |
JP2011000681A (ja) * | 2009-06-19 | 2011-01-06 | Advanced Telecommunication Research Institute International | コミュニケーションロボット |
CN103365837A (zh) * | 2012-03-29 | 2013-10-23 | 株式会社东芝 | 机器翻译装置、方法和计算机可读媒体 |
WO2014069075A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 不満会話判定装置及び不満会話判定方法 |
JP2014098962A (ja) * | 2012-11-13 | 2014-05-29 | Sharp Corp | 行動制御装置、行動制御方法、および制御プログラム |
US10269349B2 (en) | 2016-08-01 | 2019-04-23 | Toyota Jidosha Kabushiki Kaisha | Voice interactive device and voice interaction method |
JP2020149310A (ja) * | 2019-03-13 | 2020-09-17 | 日本電気株式会社 | 処理装置、処理方法及びプログラム |
-
1999
- 1999-12-28 JP JP37377399A patent/JP2001188779A/ja active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002264053A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2002264058A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2002264051A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2002264052A (ja) * | 2001-03-09 | 2002-09-18 | Japan Science & Technology Corp | ロボット視聴覚システム |
JP2002287793A (ja) * | 2001-03-28 | 2002-10-04 | Just Syst Corp | コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム |
JP2006059017A (ja) * | 2004-08-18 | 2006-03-02 | Matsushita Electric Ind Co Ltd | 翻訳装置 |
JP4623278B2 (ja) * | 2004-12-22 | 2011-02-02 | 日本電気株式会社 | 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム |
JP2006178175A (ja) * | 2004-12-22 | 2006-07-06 | Nec Corp | 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム |
JP2008254122A (ja) * | 2007-04-05 | 2008-10-23 | Honda Motor Co Ltd | ロボット |
JP2010110862A (ja) * | 2008-11-06 | 2010-05-20 | Nec Corp | コミュニケーションロボットシステム、コミュニケーションロボット制御方法およびプログラム |
JP2011000681A (ja) * | 2009-06-19 | 2011-01-06 | Advanced Telecommunication Research Institute International | コミュニケーションロボット |
CN103365837A (zh) * | 2012-03-29 | 2013-10-23 | 株式会社东芝 | 机器翻译装置、方法和计算机可读媒体 |
US9170994B2 (en) | 2012-03-29 | 2015-10-27 | Kabushiki Kaisha Toshiba | Machine translation apparatus, method and computer readable medium |
WO2014069075A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 不満会話判定装置及び不満会話判定方法 |
JPWO2014069075A1 (ja) * | 2012-10-31 | 2016-09-08 | 日本電気株式会社 | 不満会話判定装置及び不満会話判定方法 |
JP2014098962A (ja) * | 2012-11-13 | 2014-05-29 | Sharp Corp | 行動制御装置、行動制御方法、および制御プログラム |
US10269349B2 (en) | 2016-08-01 | 2019-04-23 | Toyota Jidosha Kabushiki Kaisha | Voice interactive device and voice interaction method |
JP2020149310A (ja) * | 2019-03-13 | 2020-09-17 | 日本電気株式会社 | 処理装置、処理方法及びプログラム |
JP7293743B2 (ja) | 2019-03-13 | 2023-06-20 | 日本電気株式会社 | 処理装置、処理方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4296714B2 (ja) | ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム | |
JP4085130B2 (ja) | 感情認識装置 | |
KR101229034B1 (ko) | 디바이스 인터페이싱을 위한 다중모드 조음 통합 | |
JP2001215993A (ja) | 対話処理装置および対話処理方法、並びに記録媒体 | |
JP2002268699A (ja) | 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体 | |
JP2004090109A (ja) | ロボット装置およびロボット装置の対話方法 | |
JP4729902B2 (ja) | 音声対話システム | |
US11495235B2 (en) | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks | |
JP2001101187A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 | |
JP2001188779A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP2013205842A (ja) | プロミネンスを使用した音声対話システム | |
JP2018031851A (ja) | 談話機能推定装置及びそのためのコンピュータプログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2001209644A (ja) | 情報処理装置および情報処理方法、並びに記録媒体 | |
Venkatagiri | Speech recognition technology applications in communication disorders | |
JP2001188782A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP2002268663A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP2000075894A (ja) | 音声認識方法及び装置、音声対話システム、記録媒体 | |
JP2001188788A (ja) | 会話処理装置および方法、並びに記録媒体 | |
KR20220116660A (ko) | 인공지능 스피커 기능을 탑재한 텀블러 장치 | |
JP5476760B2 (ja) | コマンド認識装置 | |
JP2001117752A (ja) | 情報処理装置および情報処理方法、並びに記録媒体 | |
JP2001188783A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP4656354B2 (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP2002372988A (ja) | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071012 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071026 |