JP2001188779A

JP2001188779A - 情報処理装置および方法、並びに記録媒体

Info

Publication number: JP2001188779A
Application number: JP37377399A
Authority: JP
Inventors: Hideki Kishi; 秀樹岸; Hironaga Tsutsumi; 洪長包; Masanori Omote; 雅則表; Kazuhiko Tajima; 和彦田島; Atsuo Hiroe; 厚夫廣江; Masatoshi Takeda; 正資武田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-12-28
Filing date: 1999-12-28
Publication date: 2001-07-10

Abstract

(57)【要約】【課題】ユーザの態度に対応する言葉遣いで応答文を
生成することができるようにする。【解決手段】ユーザの態度が、尊敬している態度であ
ると判定された場合、丁寧な言葉遣いで応答文が生成さ
れ、命令的な態度であると判定された場合、普通または
丁寧な言葉遣いで応答文が生成され、見下している態度
であると判定された場合、丁寧または乱暴な言葉遣いで
応答文が生成され、対等な態度であると判定された場
合、普通または丁寧な言葉遣いで応答文が生成され、そ
して標準的な態度であると判定された場合、普通、丁
寧、または標準的な言葉遣いで応答文が生成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びに記録媒体に関し、特に、自分自身で、対
話の話題を決定することができるようにした情報処理装
置および方法、並びに記録媒体に関する。

【０００２】

【従来の技術】音声認識技術を利用して、使用者の発話
を認識し、その発話に対する応答としての応答文を発話
し、ユーザと対話する機能、いわゆる、対話機能を有す
るロボットが実用化されている。

【０００３】

【発明が解決しようとする課題】ところで、通常、対話
相手と親密な関係である場合、例えば、普通の言葉遣い
で対話が行われ、また親密な関係ではない場合、例え
ば、丁寧な言葉遣いで、対話が行われる。

【０００４】しかしながら、従来の対話機能によれば、
ロボットが出力する応答文は、親密な関係である、例え
ば、ロボットの所有者に対しても、また親密な関係では
ない、例えば、はじめて対話する者に対しても、同じ言
葉遣いで生成される。

【０００５】すなわち、ロボットの対話が、不自然にな
ってしまう課題があった。

【０００６】本発明はこのような状況に鑑みてなされた
ものであり、対話の相手との関係に対応する言葉遣いで
応答文を生成することができるようにするものである。

【０００７】

【課題を解決するための手段】請求項１に記載の情報処
理装置は、発話から、対話における、ユーザのロボット
に対する状態を検出する検出手段と、検出手段により検
出された状態に対応する言葉遣いで、応答文を生成する
生成手段とを備えることを特徴とする。

【０００８】対話における、ユーザのロボットに対する
状態は、ユーザのロボットに対する態度であり、検出手
段は、ユーザのロボットに対する態度が、尊敬している
態度、命令的な態度、見下している態度、対等な態度、
または標準的な態度であるかを検出し、生成手段は、検
出手段により検出されたユーザのロボットに対する態度
に対応して、普通の言葉遣いで、丁寧な言葉遣いで、乱
暴な言葉遣いで、または標準的な言葉遣いで応答文を生
成することができる。

【０００９】対話における、ユーザのロボットに対する
状態は、ユーザのロボットに対する親密さであり、検出
手段は、親密さを表す親密度を算出し、生成手段は、検
出手段により算出された親密度に対応する言葉遣いで、
応答文を生成することができる。

【００１０】請求項４に記載の情報処理方法は、発話か
ら、対話における、ユーザのロボットに対する状態を検
出する検出ステップと、検出ステップの処理で検出され
た状態に対応する言葉遣いで、応答文を生成する生成ス
テップとを含むことを特徴とする。

【００１１】請求項５に記載の記録媒体のプログラム
は、発話から、対話における、ユーザのロボットに対す
る状態を検出する検出ステップと、検出ステップの処理
で検出された状態に対応する言葉遣いで、応答文を生成
する生成ステップとを含むことを特徴とする。

【００１２】請求項１に記載の情報処理装置、請求項４
に記載の情報処理方法、および請求項５に記載の記録媒
体のプログラムにおいては、発話から、対話における、
ユーザのロボットに対する状態が検出され、検出された
状態に対応する言葉遣いで、応答文が生成される。

【００１３】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの外観構成例を示しており、図２は、その電気的構成
例を示している。このロボットは、ユーザからの「なで
る」や「たたく」といった外部からの物理的な働きかけ
に対する応答として、またはユーザの発話に対する応答
として、頭部を上下左右に振らせたり、歩行するなどの
行動を取り、または応答文を発話する。

【００１４】本実施の形態では、ロボットは、犬形状の
ものとされており、胴体部ユニット２の前後左右に、そ
れぞれ脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが連結され
るとともに、胴体部ユニット２の前端部と後端部に、そ
れぞれ頭部ユニット４と尻尾部ユニット５が連結される
ことにより構成されている。

【００１５】尻尾部ユニット５は、胴体部ユニット２の
上面に設けられたベース部５Ｂから、２自由度をもって
湾曲または揺動自在に引き出されている。

【００１６】胴体部ユニット２には、ロボット全体の制
御を行うコントローラ１０、ロボットの動力源となるバ
ッテリ１１、並びにバッテリセンサ１２および熱センサ
１３からなる内部センサ部１４などが収納されている。

【００１７】頭部ユニット４には、「耳」に相当するマ
イク（マイクロフォン）１５、「目」に相当するＣＣＤ
(Charge Coupled Device)カメラ１６、触覚に相当する
タッチセンサ１７、「口」に相当するスピーカ１８など
が、それぞれ所定位置に配設されている。

【００１８】脚部ユニット３Ａ乃至３Ｄそれぞれの関節
部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユ
ニット２の連結部分、頭部ユニット４と胴体部ユニット
２の連結部分、並びに尻尾部ユニット５と胴体部ユニッ
ト２の連結部分などには、図２に示すように、それぞれ
アクチュエータ３ＡＡ1乃至３ＡＡK、３ＢＡ1乃至３Ｂ
ＡK、３ＣＡ1乃至３ＣＡK、３ＤＡ1乃至３ＤＡK、４Ａ1
乃至４ＡL、５Ａ1および５Ａ2が配設されており、これ
により、各連結部分は、所定の自由度をもって回転する
ことができるようになっている。

【００１９】頭部ユニット４におけるマイク１５は、ユ
ーザからの発話を含む周囲の音声（音）を集音し、得ら
れた音声信号を、コントローラ１０に送出する。ＣＣＤ
カメラ１６は、周囲の状況を撮像し、得られた画像信号
を、コントローラ１０に送出する。

【００２０】タッチセンサ１７は、例えば、頭部ユニッ
ト４の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ１０に送出する。

【００２１】胴体部ユニット２におけるバッテリセンサ
１２は、バッテリ１１の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ１０に送
出する。熱センサ１３は、ロボット内部の熱や外気の温
度を検出し、その検出結果を、コントローラ１０に送出
する。

【００２２】コントローラ１０は、ＣＰＵ(Central Pro
cessing Unit)１０Ａやメモリ１０Ｂ等を内蔵してお
り、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。

【００２３】即ち、コントローラ１０は、バッテリセン
サ１２や、熱センサ１３、マイク１５、ＣＣＤカメラ１
６、タッチセンサ１７から与えられる各信号に基づい
て、周囲の状況や、ユーザからの指令、ユーザからの働
きかけなどの有無を判断する。

【００２４】さらに、コントローラ１０は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ３ＡＡ1乃至３ＡＡK、３ＢＡ1
乃至３ＢＡK、３ＣＡ1乃至３ＣＡK、３ＤＡ1乃至３ＤＡ
K、４Ａ1乃至４ＡL、５Ａ1、５Ａ2のうちの必要なもの
を駆動させ、これにより、頭部ユニット４を上下左右に
振らせたり、尻尾部ユニット５を動かせたり、各脚部ユ
ニット３Ａ乃至３Ｄを駆動して、ロボットを歩行させる
などの行動を行わせる。

【００２５】また、コントローラ１０は、必要に応じ
て、合成音を生成し、スピーカ１８に供給して出力させ
る。

【００２６】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとることができるように
なっている。

【００２７】次に、図３は、コントローラ１０の、ユー
ザの発話に対する応答としての応答文を発話し、対話を
行う機能（以下、対話機能と称する）の第１の実施の形
態の構成例を示している。なお、この対話機能は、ＣＰ
Ｕ１０Ａが、メモリ１０Ｂに記憶された制御プログラム
を実行することで実現されるようになっている。

【００２８】話者識別部３１には、マイク１５から、話
者の音声（発話）が、そしてＣＣＤカメラ１６から、撮
像の結果得られた話者の画像が入力される。話者認識部
３１は、対話管理部３６に制御され、入力された音声お
よび入力された画像に基づき、識別情報記憶部３１Ａを
参照して、話者を識別する。

【００２９】すなわち、識別情報記憶部３１Ａには、話
者となり得るユーザの音声のピッチやフォルマントなど
のユーザ固有の音声情報、およびユーザの画像上の特徴
量が記憶されている。

【００３０】話者識別部３１は、入力された音声に対し
て、適応フィルタバンク等の音響処理を施し、ピッチや
フォルマントを抽出し、また、入力された画像から特徴
量を抽出し、識別情報記憶部３１Ａから、それらの抽出
結果に対応するユーザを検出し、そのユーザの識別情報
を取得する。

【００３１】話者識別部３１による話者識別結果として
話者（ユーザ）の識別情報は、対話管理部３６に送出さ
れる。

【００３２】音声認識部３２は、対話管理部３６により
制御され、マイク１５から与えられる音声信号を用い
て、音声認識を行い、その音声認識結果としてのテキス
ト、その他付随する情報（例えば、ワードグラフ等）
を、バッファ３３に出力する。バッファ３３は、その音
声認識結果を、一時的に保持し、対話管理部３６からの
指令に基づくタイミングで、言語解析部３４に出力す
る。

【００３３】言語解析部３４は、対話管理部３６により
制御され、バッファ３３を介して入力される、音声認識
部３２による音声認識結果を解析し、ユーザの発話の内
容の意味理解を行い、その意味理解の結果としての単語
情報や構文情報を、バッファ３５に出力する。バッファ
３５は、その意味理解の結果を、一時的に保持し、対話
管理部３６からの指令に基づくタイミングで、対話管理
部３６に出力する。

【００３４】対話管理部３６は、バッファ３５を介して
入力される、言語解析部３４による意味理解の結果に対
応する行動を指令するための情報（以下、行動指令情報
と称する）（後述）および意味理解の結果に対応する応
答文（テキスト）を生成するために必要な、応答文の意
味や概念を表す情報（以下、応答文意味情報と称する）
（後述）を生成する。対話管理部３６は、この際、話者
識別部３１から送出された識別情報により識別される話
者との対話の履歴（対話履歴）を利用して、行動指令情
報および応答文意味情報を生成する。

【００３５】対話管理部３６はまた、生成した応答文意
味情報や、言語解析部３４による意味理解の結果に基づ
いて、その話者との対話履歴を管理する。

【００３６】なお、対話管理部３６が、音声認識部３２
乃至バッファ３５を制御し、それらの処理および出力の
タイミングを調整することより、例えば、誤認識によ
り、音声認識部３２および言語解析部３４における処理
結果の修正が必要になった場合においても、話者は、修
正される部分を発話すればよく、発話した文章（以下、
発話文と称する）の全てを再度発話する必要がない。

【００３７】応答文生成部３７は、対話管理部３６から
の応答文意味情報に基づいて、応答文（テキスト）を生
成し、音声合成部３８に出力する。

【００３８】音声合成部３８は、応答文生成部３７が出
力する応答文に対応する合成音を生成し、スピーカ１８
に出力する。

【００３９】図４は、音声認識部３２の構成例を示して
いる。話者の発話は、マイク１５に入力され、マイク１
５で、電気信号としての音声信号に変換され、ＡＤ(Ana
logDigital)変換部５１に供給される。ＡＤ変換部５１
では、マイク１５からのアナログ信号である音声信号が
サンプリング、量子化され、ディジタル信号である音声
データに変換される。この音声データは、特徴抽出部５
２に供給される。

【００４０】特徴抽出部５２は、ＡＤ変換部５１からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、線形予測係数、ケプストラム係数、線ス
ペクトル対等の特徴パラメータを抽出し、マッチング部
５３に供給する。

【００４１】マッチング部５３は、特徴抽出部５２から
の特徴パラメータに基づき、音響モデルデータベース５
４、辞書データベース５５、および文法データベース５
６を必要に応じて参照しながら、マイク１５に入力され
た音声（入力音声）を認識する。

【００４２】即ち、音響モデルデータベース５４は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、ＨＭＭ(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス５５は、認識対象の各単語について、その発音に関す
る情報が記述された単語辞書を記憶している。文法デー
タベース５６は、辞書データベース５５の単語辞書に登
録されている各単語が、どのように連鎖する（つなが
る）かを記述した文法規則を記憶している。ここで、文
法規則としては、例えば、文脈自由文法（ＣＦＧ）や、
統計的な単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規
則を用いることができる。

【００４３】マッチング部５３は、辞書データベース５
５の単語辞書を参照することにより、音響モデルデータ
ベース５４に記憶されている音響モデルを接続すること
で、単語の音響モデル（単語モデル）を構成する。さら
に、マッチング部５３は、幾つかの単語モデルを、文法
データベース５６に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、ＨＭＭ法等
によって、マイク１５に入力された音声を認識する。

【００４４】マッチング部５３による音声認識結果は、
例えば、テキスト等で、バッファ３３に出力される。

【００４５】図５は、言語解析部３４の構成例を示して
いる。言語解析部３４のテキスト解析部７１には、音声
認識部３２による音声認識結果としてのテキストが入力
される。テキスト解析部７１は、辞書データベース７２
や解析用文法データベース７３を参照しながら、そのテ
キストを解析する。

【００４６】辞書データベース７２には、各単語の表記
や、解析用文法を適用するために必要な品詞情報などが
記述された単語辞書が記憶されている。また、解析用文
法データベース７３には、単語辞書に記述された各単語
の情報に基づいて、単語連鎖に関する制約等が記述され
た解析用文法規則が記憶されている。

【００４７】テキスト解析部７１は、その単語辞書や解
析用文法規則に基づいて、そこに入力されるテキスト
（入力テキスト）の形態素解析や、構文解析等を行い、
その入力テキストの意味理解を行い、その意味理解の結
果としての言語情報をバッファ３５に出力する。

【００４８】例えば、音声認識部３２による、ユーザの
発話「Ａ（ロボットの名前）ちゃん、新聞を取ってきて
くれる」の音声認識結果（テキスト）が入力された場
合、テキスト解析部７１において、その形態素解析や構
文解析が行われ、「Ａ（ロボットの名前）」と「ちゃ
ん」から、”ちゃん”の呼称で自分が呼ばれているとの
意味理解が行われ、「くれる」から”何らかの動作が要
求されている”、または”物をもらえる”との意味理解
が行われ、そして、「取ってくる」から、”物がもらえ
る”のではなく、”「取ってくる」という動作が要求さ
れている”との意味理解が行われ、そして、「新聞」か
ら、その動作の対象が新聞であるとの意味理解が行われ
る。この例の場合における意味理解の結果を、下記のよ
うに示す。

【００４９】要求[くれる，動作[取ってくる，対象物
[新聞]］，対象者[ロボット,敬称[ちゃん]]]

【００５０】なお、抽出すべき構文を一意的に決定する
ことができない場合、意味情報を用いて意味的曖昧性を
取り除いて、構文を決定することができる。

【００５１】図６は、対話管理部３６の構成例を示して
いる。対話管理部３６の対話制御部９１には、言語解析
部３４による意味理解の結果および話者識別部３１によ
る識別結果が入力される。対話制御部９１は、その意味
理解の結果の一部または全部を、対話履歴記憶部９２に
順次供給して記憶させる。これにより、対話履歴記憶部
９２には、対話履歴が記憶され、また更新される。

【００５２】対話制御部９１は、入力される意味理解の
結果（ユーザの発話）に基づき、シナリオ記憶部９３を
参照して、ユーザの発話に対する応答としての行動の行
動指令情報を生成する。

【００５３】シナリオ記憶部９３には、発話に対する応
答としての行動の行動指令情報を生成するのに必要な情
報（以下、必要情報と称する）がどのような情報である
かを示す情報（項目）（以下、必要情報項目と称する）
が、行動に対応するフレーム毎に記憶されている。

【００５４】対話制御部９１は、発話に対する応答とし
ての行動に対応するフレームを、シナリオ記憶部９３か
ら検出し、検出したフレームに示されている必要情報項
目に対応して、その必要情報をフレームに埋め込む。こ
れにより、行動指令情報が生成される。具体的には、フ
レームに示される必要情報項目の必要情報が、発話の意
味理解の結果に含まれている場合、対話制御部９１は、
そこから必要情報を読み取り、そのフレームに埋め込
む。一方、必要情報が、発話の意味理解の結果に含まれ
ていない場合、対話制御部９１は、必要情報を、対話履
歴記憶部９２から検出し、そのフレームに埋め込む。

【００５５】例えば、発話の意味理解の結果として、要
求[くれる，動作[取ってくる，対象物[新聞]］，対象者
[ロボット,敬称[ちゃん]]]が入力され、その発話に対す
る応答としての、ロボットが新聞を取ってくる行動に対
応するフレームによれば、その行動指令情報を生成する
ために、対象物[新聞]が置かれている場所の情報（必要
情報）がさらに必要であるとされている場合、対話制御
部９１は、その必要情報（対話の中で省略され、対話理
解の結果には含まれていない必要情報）を、対話履歴記
憶部９２から検出し、そのフレームに埋め込む。

【００５６】例えば、対象物［新聞］が、新聞受けに置
かれていることが検出された場合、その必要情報は、フ
レームに埋め込まれ、行動指令情報として、要求[くれ
る，動作[取ってくる，対象物[新聞]，場所[新聞受
け]］，対象者[ロボット,敬称[ちゃん]]]が生成され
る。

【００５７】対話履歴記憶部９２には、対話履歴が話者
毎に記憶されている。なお、対話履歴記憶部９２から、
必要情報を検出する際、対話制御部９１は、対話履歴記
憶部９２に記憶されている話者毎の対話履歴のうち、話
者識別部３１により識別された話者の対話履歴を参照す
る。

【００５８】また、必要情報が、ユーザの対話の意味理
解の結果および対話履歴記憶部９２の両方から検出する
ことができないとき、すなわち、必要情報が、意味理解
の結果にも含まれず、対話履歴記憶部９２にも記憶され
ていないとき、対話制御部９１は、知識データベース９
４に記憶されている手順に従い、その必要情報をユーザ
から聞き取るための応答文の応答文意味情報を生成し、
応答文生成部３６に出力する。これにより、この応答文
意味情報に基づいて生成された応答文が発話され、その
応答としてのユーザの発話から、必要情報が取得され
る。その結果、行動指令情報が生成される。

【００５９】例えば、上述の例では、新聞が置かれてい
る場所が、意味理解の結果にも含まれず、対話履歴記憶
部９２にも記憶されていない場合、知識データベース９
４に記憶されている手順に従って、例えば、応答文意味
情報として、対象者[ロボット，敬称［ちゃん]]，動作
[取ってくる，対象物[新聞]，場所[？]]」が生成され
る。このように、過去の対話の中で、すでに指定され
ており、対話の中で省略されている事柄については、対
話履歴から検出される。

【００６０】すなわち、知識データベース９４には、対
話の中で、ユーザから所定の情報を聞き取るための応答
文の応答文意味情報を生成するための手順が記憶されて
いる。

【００６１】以上のようにして生成された行動指令情報
は、コントローラ１０の他の機能である、アクチュエー
タ３ＡＡ1乃至３ＡＡK、３ＢＡ1乃至３ＢＡK、３ＣＡ1
乃至３ＣＡK、３ＤＡ1乃至３ＤＡK、４Ａ1乃至４ＡL、
５Ａ1、５Ａ2などを制御する機能において用いられる。
これにより、その行動指令情報に基づいて、例えば、必
要なアクチュエータが駆動され、例えば、ロボットは、
新聞受けまで歩行するなどの行動を取る。

【００６２】対話制御部９１は、入力された発話の意味
理解の結果に関連する情報を、対話履歴記憶部９２およ
び知識データベース９４を参照して取得し、取得した情
報に基づいて応答文意味情報を生成し、応答文生成部３
７に出力する。

【００６３】すなわち、知識データベース９４には、話
者と対話するために必要な一般情報がさらに記憶されて
いる。また、この場合においても、対話制御部９１は、
対話履歴記憶部９２に記憶されている対話履歴のうち、
話者識別部３１からの識別情報により識別される話者の
対話履歴を参照する。

【００６４】図７は、応答文生成部３７の構成例を示し
ている。応答文生成部３７のテキスト生成部１０１に
は、対話管理部３６からの応答文意味情報が入力され
る。応答文生成部１０１は、入力された応答文意味情報
に基づき、生成規則データベース１０２を参照して、応
答文（テキスト）を生成するが、この際、応答文意味情
報から、ユーザの、自分（ロボット）に対する態度を検
出し、その態度に対応する言葉遣いで、応答文を生成す
る。

【００６５】応答文生成部１０１は、応答文意味情報を
構成する単語に付されているユーザのロボットに対する
態度を示す情報に基づいて、ユーザのロボットに対する
態度が、自分に対して尊敬している態度であるか、命令
的な態度であるか、見下ろしている態度であるか、対等
な態度であるか、または、標準的な態度であるかを判定
する。

【００６６】例えば、ユーザの発話が「私の家においで
いただけませんか。」である場合、尊敬している態度で
あると判定され、「俺の家に来い。」である場合、命令
的な態度であると判定され、「俺の家に来てくれ。」で
ある場合、見下している態度であると判定され、「俺の
家に来ない？」である場合、対等な態度であると判定さ
れ、そして「私の家に来てください。」である場合、標
準的な態度であると判定される。

【００６７】そして応答文生成部１０１は、そのユーザ
のロボットに対する態度の判定結果に基づいて、その発
話に対する応答としての応答文を、普通の言葉遣いで、
丁寧な言葉遣いで、乱暴な言葉遣いで、または標準的な
言葉遣いで生成する。

【００６８】例えば、上述した例では、普通の言葉遣い
での応答文として、「ええ、おじゃまでなければ」が、
丁寧な言葉遣いでの応答文として、「はい、お伺いさせ
ていただきます。」が、乱暴の言葉遣いでの応答文とし
て、「いいよ。」が、または標準的な言葉遣いでの応答
文として、「はい、行きます」が生成される。

【００６９】すなわち、生成規則データベース１０２に
は、例えば単語の活用規則や語順の制約等の生成用文法
規則が記述されている単語辞書が記憶されており、そし
てその単語辞書に登録されている単語には、尊敬してい
る態度などユーザのロボットに対する態度を示す情報、
および普通の言葉遣いなど、応答文に用いられる言葉遣
いを示す情報が付されている。

【００７０】図８には、判定されたユーザのロボットに
対する態度に対応する応答文の言葉遣いが示されてい
る。ユーザの態度が、尊敬している態度であると判定さ
れた場合、丁寧な言葉遣いで応答文が生成され、命令的
な態度であると判定された場合、普通または丁寧な言葉
遣いで応答文が生成され、見下している態度であると判
定された場合、丁寧または乱暴な言葉遣いで応答文が生
成され、対等な態度であると判定された場合、普通また
は丁寧な言葉遣いで応答文が生成され、そして標準的な
態度であると判定された場合、普通、丁寧、または標準
的な言葉遣いで応答文が生成される。つまり、図８の例
では、尊敬している態度である場合は、必ず丁寧な応答
文が生成され、それ以外の態度である場合、選択可能な
いずれかの言葉遣いでの応答文が生成される。なお、こ
の場合、所定の状況に応じてその言葉遣いを選択するこ
とができる。例えば、見下ろしている態度であると判定
された場合、ロボットが、ユーザのその態度に対して良
い感情を持たないようになされているとき（怒っている
状況のとき）、乱暴な言葉遣いで応答文が生成されるよ
うにすることができる。

【００７１】ところで、対話管理部３６から、例えば、
上述した、応答文意味情報として、対象者[ロボット，
敬称［ちゃん]]，動作[取ってくる，対象物[新聞]，場
所[？]]が入力された場合、テキスト生成部１０１は、
敬称[ちゃん]であることから（「ちゃん」には、対等な
態度を示す情報が付されていることから）、ユーザは、
自分に対し、対等な態度であると判定し、普通または丁
寧な言葉遣いで応答文を生成する。例えば、丁寧な言葉
遣いの応答文として、「”話者の名前”さん、新聞はど
こから取ってくればよいですか。」が生成される。

【００７２】図９は、音声合成部３８の構成例を示して
いる。音声合成部３８のテキスト解析部１１１には、応
答文生成部３７により生成された応答文（テキスト）
が、音声合成処理の対象として入力されるようになって
おり、テキスト解析部１１１は、辞書データベース１１
２や解析用文法データベース１１３を参照しながら、そ
のテキストを解析する。

【００７３】即ち、辞書データベース１１２には、各単
語の品詞情報や、読み、アクセント等の情報が記述され
た単語辞書が記憶されており、また、解析用文法データ
ベース１１３には、辞書データベース１１２の単語辞書
に記述された単語について、単語連鎖に関する制約等の
解析用文法規則が記憶されている。そして、テキスト解
析部１１１は、この単語辞書および解析用文法規則に基
づいて、そこに入力されるテキストの形態素解析や構文
解析等の解析を行い、後段の規則合成部１１４で行われ
る規則音声合成に必要な情報を抽出する。ここで、規則
音声合成に必要な情報としては、例えば、ポーズの位置
や、アクセントおよびイントネーションを制御するため
の情報その他の韻律情報や、各単語の発音等の音韻情報
などがある。

【００７４】テキスト解析部１１１で得られた情報は、
規則合成部１１４に供給され、規則合成部１１４では、
音素片データベース１１５を用いて、テキスト解析部１
１１に入力されたテキストに対応する合成音の音声デー
タ（ディジタルデータ）が生成される。

【００７５】即ち、音素片データベース１１５には、例
えば、ＣＶ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の
形で音素片データが記憶されており、規則合成部１１４
は、テキスト解析部１１１からの情報に基づいて、必要
な音素片データを接続し、さらに、ポーズ、アクセン
ト、イントネーション等を適切に付加することで、テキ
スト解析部１１１に入力されたテキストに対応する合成
音の音声データを生成する。

【００７６】この音声データは、ＤＡ変換部１１３に供
給され、そこで、アナログ信号としての音声信号に変換
される。この音声信号は、スピーカ１８に供給され、こ
れにより、テキスト解析部１１１に入力されたテキスト
に対応する合成音が出力される。

【００７７】以上のように、対話機能が構成されてい
る。次に、その処理について、図１０のフローチャート
を参照して、説明する。

【００７８】ステップＳ１において、マイク１５を介し
て、音声認識部３２に入力された、ユーザの発話の音声
信号は、そこで、音声認識され、その音声認識結果が、
バッファ３３を介して言語解析部３４に供給される。

【００７９】このとき、話者識別部３１は、入力された
発話の音声信号に対して、適応フィルタバンク等の音響
処理を施し、ピッチやフォルマントを抽出し、また、入
力された画像から特徴量を抽出し、識別情報記憶部３１
Ａから、それらの抽出結果に対応して記憶されている話
者の識別情報を読み取り、対話管理部３６に送出する。

【００８０】なお、話者の画像を取り入れるために、複
数のマイク１５を用意して、それらに入力される発話の
音声信号に基づいて、話者がいる方向を推測し、その方
向にＣＣＤカメラ１６を向けるようにすることができ
る。また、この場合、雑音の多い環境の中で使用される
場合、話者の声の到達方向に対するマイク１５の指向性
を調整するようにすることができる。

【００８１】ステップＳ２で、言語解析部３４におい
て、音声認識部３２による音声認識結果から、話者の発
話の意味理解が行われ、その意味理解の結果が、バッフ
ァ３５を介して対話管理部３６に供給される。

【００８２】ステップＳ３で、対話管理部３６におい
て、供給された言語解析部３４による意味理解の結果か
ら、行動指令情報および応答文意味情報が生成され、応
答文意味情報は、応答文生成部３７に供給される。行動
指令情報は、アクチュエータ３ＡＡ1乃至３ＡＡK、３Ｂ
Ａ1乃至３ＢＡK、３ＣＡ1乃至３ＣＡK、３ＤＡ1乃至３
ＤＡK、４Ａ1乃至４ＡL、５Ａ1、５Ａ2を制御する機能
において用いられる。

【００８３】具体的には、発話に対する応答としての行
動に対応するフレームがシナリオ記憶部９３から検出さ
れ、そのフレームに示されている必要情報項目の必要情
報が、意味理解の結果、または対話履歴記憶部９２から
検出され、そのフレームに埋め込まれる。これにより、
行動指令情報が生成される。また、必要情報が、意味理
解の結果にも含まれず、対話履歴記憶部９２にも記憶さ
れていない場合、知識データベース９４に記憶されてい
る手順に従って、その必要情報を取得するための応答文
の応答文意味情報が生成される。

【００８４】ステップＳ４で、対話管理部３６におい
て、ステップＳ２で供給された、言語解析部３４による
意味理解の結果、およびステップＳ３で生成された応答
文意味情報に基づいて、対話履歴記憶部９２に記憶され
ている対話履歴が更新される。

【００８５】ステップＳ５で、応答文生成部３７におい
て、対話管理部３６より供給された応答文意味情報に基
づいて、応答文が生成され、音声合成部３８に供給され
る。応答文が生成される際、話者のロボットに対する態
度が、尊敬している態度、命令的な態度、見下ろしてい
る態度、対等な態度、または標準的な態度であるかが判
定され、そしてその判定結果に基づいて、普通の言葉遣
いで、丁寧な言葉遣いで、乱暴な言葉遣いで、または標
準な言葉遣いで応答文が生成される。

【００８６】ステップＳ６で、音声合成部３８におい
て、応答文生成部３７から供給された応答文（テキス
ト）に対応する合成音が生成され、スピーカ１８に出力
される。その後、処理は終了する。

【００８７】次に、複数の話者が存在する場合の処理手
順を、図１１のフローチャートを参照して説明する。

【００８８】話者識別部３１が識別した話者の識別情報
が、すでに対話管理部３６に供給されている状態におい
て、ステップＳ１において、話者識別部３１が、マイク
１５から入力された音声信号およびＣＣＤカメラ１６か
ら入力された画像信号に基づいて、話者を識別し、識別
結果としての話者の識別情報を、対話管理部３６に通知
する。

【００８９】ステップＳ１２において、対話管理部３６
は、はじめに通知された識別情報で識別される話者と、
ステップＳ１１で通知された識別情報で識別される話者
とが同一であるか否かを判定し、同一ではないと判定し
た場合、すなわち、話者が変更されたと判定した場合、
ステップＳ１３に進む。

【００９０】ステップＳ１３において、対話管理部３６
は、ステップＳ１１で識別された話者の対話履歴が、対
話履歴記憶部９２に記憶されているか否かを判定し、記
憶されていないと判定した場合、すなわち、登録されて
いない、新規の話者であると判定された場合、ステップ
Ｓ１４に進む。

【００９１】ステップＳ１４で、対話管理部３６におい
て、ステップＳ１１で識別された話者の対話履歴が生成
され、対話履歴記憶部９２に記憶させる。

【００９２】ステップＳ１３で、ステップＳ１１で識別
された話者の対話履歴が記憶されていると判定された場
合、対話管理部３６において、その対話履歴が、例え
ば、図１０のステップＳ３での処理等を行う際に参照す
べき対話履歴に設定される。すなわち、参照されるべき
対話履歴が切り換えられる。

【００９３】ステップＳ１２で、話者が変更されていな
いと判定された場合、ステップＳ１４で、ステップＳ１
１で識別された話者の対話履歴が作成されたとき、また
はステップＳ１５で対話履歴が切り換えられたとき、処
理は終了する。

【００９４】なお、以上において、対話管理部３６の対
話履歴記憶部９２に、過去の音声発話情報を記憶してお
き、入力音声の誤認識や発話の誤解釈が発生した場合、
その情報を利用して、再処理するようにすることもでき
る。

【００９５】また、以上においては、ユーザのロボット
に対する態度に対応して、応答文に用いられる言葉遣い
が選択される場合を例として説明したが、話者の性別な
ど、話者の個人特性に対応して、その言葉遣いを選択す
るようにしたり、またロボットに感情や性別を設定し、
それらに対応して、選択するようにすることもできる。

【００９６】図１２は、コントローラ１０の、対話機能
の第２の実施の形態の構成例を示している。この発話機
構には、図３の言語解析部３４、対話管理部３６、およ
び応答文生成部３７に代えて、言語解析部２０１、対話
管理部２０２、および応答文生成部２０３が設けられて
いる。その他の部分は、図３における場合と同様であ
る。

【００９７】言語解析部２０１は、図１３に示すよう
に、図５の辞書データベース７２に代えて、辞書データ
ベース２１１が設けられている。

【００９８】テキスト解析部７１は、辞書データベース
２１１や解析用文法データベース７３を参照しながら、
音声認識部３２による音声認識結果としてのテキストを
解析し、意味理解を行う。テキスト解析部７１はまた、
このテキストを構成する単語に与えられている親密度
を、辞書データベース２１１から検索する。テキスト解
析部７１は、その検索結果として得られた単語の親密度
の平均値を、発話（発話文）の親密度として算出する。
例えば、「おはよう」は、「おはようございます」に比
べ、親密な相手に対して用いられるので、「おはよう」
が発話された場合、「おはようございます。」が発話さ
れた場合に比べ、より高い親密度が算出されるようにな
されている。

【００９９】すなわち、辞書データベース２１１の、各
単語の表記や、解析用文法を適用するために必要な品詞
情報などが記述された単語辞書に登録されている所定の
単語には、それぞれ親密度が付されている。

【０１００】テキスト解析部７１による意味理解の結果
および親密度の算出結果（以下、発話の親密度と称す
る）は、バッファ３５に出力される。

【０１０１】対話管理部２０２は、図１４に示すよう
に、図６の対話履歴記録部９２に代えて、対話履歴記憶
部２２１が設けられている。対話制御部９１には、言語
解析部２０１による意味理解の結果および発話の親密
度、並びに話者識別部３１による識別結果が入力され
る。

【０１０２】対話制御部９１は、図６の場合と同様に、
入力された発話の意味理解の結果に対応する応答文の応
答文意味情報を、話者識別部３１により識別された話者
の対話履歴等に基づいて生成し、応答文生成部２０３に
出力する。対話制御部９１は、識別された話者の対話履
歴を、生成した応答文意味情報および発話の意味理解の
結果に基づいて更新する。

【０１０３】対話制御部９１はまた、話者識別部３１か
ら識別情報により識別される話者に設定されている親密
度（以下、話者の親密度と称する）を、対話履歴記憶部
２２１から検出する。

【０１０４】すなわち、対話履歴記憶部２２１には、話
者毎の対話履歴の他、話者毎に設定された親密度が記憶
されている。

【０１０５】対話制御部９１は、検出した話者の親密度
と、入力された発話の親密度と比較し、その差が、一定
の大きさ以下である場合、対話履歴記憶部２２１に記憶
されている話者の親密度を、応答文生成部２０３に供給
する。一方、その差が一定以上である場合、対話制御部
９１は、話者の親密度を、発話の親密度で変更し、変更
したその話者の親密度を、応答文生成部２０３に供給す
る。

【０１０６】例えば、ロボットを誉めるための話者の発
話からは、より高い発話の親密度が算出されるので、対
話履歴記憶部２２１に記憶されている話者の親密度より
大きく、その差が一定の大きさ以上である場合、その話
者の親密度が、発話の親密度で更新され、より高い親密
度となる。また、怒っているときの話者の発話からは、
より低い発話の親密度が算出されるので、話者の親密度
より小さく、その差が一定の大きさ以上である場合、話
者の親密度が、発話の親密度で更新され、より低い親密
度となる。

【０１０７】応答文生成部２０３は、図１５に示すよう
に、図７の生成規則データベース１０２に代えて、生成
規則データベース２３１を有している。テキスト生成部
１０１には、対話管理部２０２から、応答文意味情報お
よび親密度（話者の親密度）が入力される。

【０１０８】応答文生成部２０３は、生成規則データベ
ース２３１を参照し、入力された応答文意味情報に基づ
いて、入力された親密度に対応する言葉遣いで応答文を
生成する。

【０１０９】すなわち、生成規則データベース２３１
の、単語の活用規則や語順の制約等の生成用文法規則が
記述されている辞書に登録されている所定の単語には、
親密度が付されている。そして応答文生成部２０３は、
入力された話者の親密度と同じ、またはその近辺の親密
度を有する単語を用いて、応答文を生成する。

【０１１０】次に、言語解析部２０１の辞書データベー
ス２１１の単語辞書に登録されている単語のうち、親密
度が付されていない単語に、親密度を設定する場合の処
理手順を、図１６のフローチャートを参照して説明す
る。

【０１１１】ステップＳ２１において、対話管理部２０
２は、対話履歴記憶部２２１に記憶されている対話履歴
を構成する発話文の中の単語のうち、一定の頻度以上使
用され、かつ、辞書データベース２１１（言語解析部２
０１）の単語辞書に親密度が付されないで登録されてい
る単語を抽出する。

【０１１２】ステップＳ２２において、対話管理部２０
２は、ステップＳ２１で抽出した単語を、例えば、シソ
ーラス辞書等を利用して、意味分類を行い、その意味分
類の結果から、単語の品詞を推定する。

【０１１３】ステップＳ２３において、対話管理部２０
２は、ステップＳ２２で推定した品詞の単語を含む発話
文を、対話履歴記憶部２２１から検出し、言語解析部２
０１に供給する。言語解析部２０１は、対話管理部２０
２から供給された発話文（発話）の親密度を算出する。
なお、ステップＳ２２で品詞が推定された単語には、親
密度が付されていないので、ここでは、他の単語に付さ
れている親密度により、発話の親密度が算出される。言
語解析部２０１は、その親密度の算出結果から、その単
語の親密度を推定する。

【０１１４】ステップＳ２４において、言語解析部２０
１は、ステップＳ２３で推定した親密度を、その単語に
付して、辞書データベース２１１の単語辞書に登録す
る。言語解析部２０１は、対話管理部２０２を介して、
単語とその親密度を応答文生成部２０３に通知し、応答
文生成部２０３は、通知された単語に、その親密度を付
して、生成規則データベース２３１に登録する。

【０１１５】上述した一連の処理は、ハードウエアによ
り実現させることもできるが、ソフトウエアにより実現
させることもできる。一連の処理をソフトウエアにより
実現する場合には、そのソフトウエアを構成するプログ
ラムがコンピュータにインストールされ、そのプログラ
ムがコンピュータで実行されることより、上述したロボ
ットが機能的に実現される。

【０１１６】図１７は、上述のようなロボットとして機
能するコンピュータ５０１の一実施の形態の構成を示す
ブロック図である。CPU５１１にはバス５１５を介して
入出力インタフェース５１６が接続されており、CPU５
１１は、入出力インタフェース５１６を介して、ユーザ
から、キーボード、マウスなどよりなる入力部５１８か
ら指令が入力されると、例えば、ROM（Read Only Memor
y）５１２、ハードディスク５１４、またはドライブ５
２０に装着される磁気ディスク５３１、光ディスク５３
２、光磁気ディスク５３３、若しくは半導体メモリ５３
４などの記録媒体に格納されているプログラムを、RAM
（Random Access Memory）５１３にロードして実行す
る。これにより、上述した各種の処理（例えば、図１
０、図１１、図１６のフローチャートにより示される処
理）が行われる。さらに、CPU５１１は、その処理結果
を、例えば、入出力インタフェース５１６を介して、LC
D（Liquid Crystal Display）などよりなる表示部５１
７に必要に応じて出力する。なお、プログラムは、ハー
ドディスク５１４やROM５１２に予め記憶しておき、コ
ンピュータ５０１と一体的にユーザに提供したり、磁気
ディスク５３１、光ディスク５３２、光磁気ディスク５
３３，半導体メモリ５３４等のパッケージメディアとし
て提供したり、衛星、ネットワーク等から通信部５１９
を介してハードディスク５１４に提供することができ
る。

【０１１７】なお、本明細書において、記録媒体により
提供されるプログラムを記述するステップは、記載され
た順序に沿って時系列的に行われる処理はもちろん、必
ずしも時系列的に処理されなくとも、並列的あるいは個
別に実行される処理をも含むものである。

【０１１８】

【発明の効果】請求項１に記載の情報処理装置、請求項
４に記載の情報処理方法、および請求項５に記載の記録
媒体のプログラムによれば、発話から、対話における、
ユーザのロボットに対する状態を検出し、検出した状態
に対応する言葉遣いで、応答文を生成するようにしたの
で、ユーザとの対話が自然な言葉遣いで行われる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの外観の構成例を示
す図である。

【図２】図１のロボットの内部の構成例を示すブロック
図である。

【図３】図２のコントローラ１０の対話機能の第１の実
施の形態の構成例を示すブロック図である。

【図４】図３の音声認識部３２の構成例を示すブロック
図である。

【図５】図３の言語解析部３４の構成例を示すブロック
図である。

【図６】図３の対話管理部３６の構成例を示すブロック
図である。

【図７】図３の応答文生成部３７の構成例を示すブロッ
ク図である。

【図８】ユーザのロボットに対する態度に対応する応答
文の言葉遣いを示すブロック図である。

【図９】図３の音声合成部３８の構成例を示すブロック
図である。

【図１０】応答文生成処理を説明するフローチャートで
ある。

【図１１】話者が複数いる場合の処理を説明するフロー
チャートである。

【図１２】図２のコントローラ１０の対話機能の第２の
実施の形態の構成例を示すブロック図である。

【図１３】図１２の言語解析部２０１の構成例を示すブ
ロック図である。

【図１４】図１２の対話管理部２０２の構成例を示すブ
ロック図である。

【図１５】図１２の応答文生成部２０３の構成例を示す
ブロック図である。

【図１６】親密度を付して単語を登録する場合の処理を
説明するフローチャートである。

【図１７】コンピュータ５０１の構成例を示す図であ
る。

【符号の説明】

１０コントローラ，１０ＡＣＰＵ，１０Ｂメ
モリ，１５マイク，１６ＣＣＤカメラ，３１
話者識別部，３２音声認識部，３３バッファ，
３４言語解析部，３５バッファ，３６対話
管理部，３７応答文生成部，３８音声合成部，
５１ＡＤ変換部，５２特徴抽出部，５３マ
ッチング部，５４音響モデルデータベース，５５
辞書データベース，５６文法データベース，７
１テキスト解析部，７２辞書データベース，７３
解析用文法データベース，９１対話制御部，９２
対話履歴記憶部，９３シナリオ記憶部，９４
知識データベース，１０１テキスト生成部，１０２
生成規則データベース，１１１テキスト解析部，
１１２辞書データベース，１１３解析用文法デ
ータベース，１１４規則合成部，１１５音素片
データベース，１１６ＤＡ変換部，２０１言語
解析部，２０２対話管理部，２０３応答文生成
部，２１１辞書データベース，２２１対話履歴記
憶部，２３１生成規則データベース

───────────────────────────────────────────────────── フロントページの続き (72)発明者表雅則東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者田島和彦東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者廣江厚夫東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者武田正資東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2C150 BA06 BA11 CA01 CA02 DA05 DA24 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED42 ED52 EF13 EF16 EF23 EF29 EF33 EF36 3F059 AA00 BA00 BB06 DC00 FC00 5B091 AA11 CA01 CB12 CB32 DA03 5D015 AA05 KK02 KK04 LL10 9A001 BB03 EE05 HH16 HH17 HH18 HH23 JJ71 KK31 KK32

Claims

【特許請求の範囲】

【請求項１】ユーザとの対話の中で、ロボットが出力
する、前記ユーザの発話に対する応答としての応答文を
生成する情報処理装置において、前記発話から、前記対話における、前記ユーザの前記ロ
ボットに対する状態を検出する検出手段と、前記検出手段により検出された前記状態に対応する言葉
遣いで、前記応答文を生成する生成手段とを備えること
を特徴とする情報処理装置。
【請求項２】前記対話における、前記ユーザの前記ロ
ボットに対する状態は、前記ユーザの前記ロボットに対
する態度であり、前記検出手段は、前記ユーザの前記ロボットに対する態
度が、尊敬している態度、命令的な態度、見下している
態度、対等な態度、または標準的な態度であるかを検出
し、前記生成手段は、前記検出手段により検出された前記ユ
ーザの前記ロボットに対する態度に対応して、普通の言
葉遣いで、丁寧な言葉遣いで、乱暴な言葉遣いで、また
は標準的な言葉遣いで応答文を生成することを特徴とす
る請求項１に記載の情報処理装置。
【請求項３】前記対話における、前記ユーザの前記ロ
ボットに対する状態は、前記ユーザの前記ロボットに対
する親密さであり、前記検出手段は、前記親密さを表す親密度を算出し、前記生成手段は、前記検出手段により算出された前記親
密度に対応する言葉遣いで、前記応答文を生成すること
を特徴とする請求項１に記載の情報処理装置。
【請求項４】ユーザとの対話の中で、ロボットが出力
する、前記ユーザの発話に対する応答としての応答文を
生成する情報処理装置の情報処理方法において、前記発話から、前記対話における、前記ユーザの前記ロ
ボットに対する状態を検出する検出ステップと、前記検出ステップの処理で検出された前記状態に対応す
る言葉遣いで、前記応答文を生成する生成ステップとを
含むことを特徴とする情報処理方法。
【請求項５】ユーザとの対話の中で、ロボットが出力
する、前記ユーザの発話に対する応答としての応答文を
生成する場合の、情報処理用のプログラムであって、前記発話から、前記対話における、前記ユーザの前記ロ
ボットに対する状態を検出する検出ステップと、前記検出ステップの処理で検出された前記状態に対応す
る言葉遣いで、前記応答文を生成する生成ステップとを
含むことを特徴とするコンピュータが読み取り可能なプ
ログラムが記録されている記録媒体。