JP2001273473A

JP2001273473A - 会話用エージェントおよびそれを用いる会話システム

Info

Publication number: JP2001273473A
Application number: JP2000083986A
Authority: JP
Inventors: Michio Okada; 美智男岡田; Noriko Suzuki; 紀子鈴木; Shoji Sakamoto; 彰司坂本
Original assignee: ATR Media Integration and Communication Research Laboratories
Current assignee: ATR Media Integration and Communication Research Laboratories
Priority date: 2000-03-24
Filing date: 2000-03-24
Publication date: 2001-10-05

Abstract

(57)【要約】【構成】エージェント制御装置１０は、コンピュータ
１２を含み、コンピュータ１２のＣＰＵ１４はエージェ
ントを制御するためのプログラムを実行する。たとえ
ば、ディスプレイ３２にはエージェントを表すＣＧキャ
ラクタが表示される。また、ＣＰＵ１４の指示に従って
所定のルールで記述された複数の言葉からエージェント
が発話すべき言葉が選択され、エージェントの声でスピ
ーカ３２から出力される。たとえば、ＣＰＵ１４は、エ
ージェントが発話した言葉の投機的要素とその発話に対
してマイク２８を介して入力された他者の言葉のグラウ
ンディング要素とに基づいて次に発話する言葉を選択す
る。次に発話する言葉は、相手が発話した言葉の要素を
含むため、連鎖的に会話を続けることができる。【効果】雑談的に連鎖する会話を実現できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は会話用エージェントに
関し、特にたとえば自由会話可能な会話システムなどに
適用できる、会話用エージェントおよびそれを用いる会
話システムに関する。

【０００２】ここで、エージェントとは、コンピュータ
グラフィックスの手法によりディスプレイなどの表示装
置に表示されるキャラクタ（クリーチャ）またはロボッ
トをいう。

【０００３】

【従来の技術】従来のエージェントを用いた会話システ
ムとしては、システムとオペレータとが１対１で会話を
進行させるものが存在していた。基本的には、システム
とオペレータとが交互に発話し、たとえば、システムの
質問に対してオペレータが応え、逆にオペレータの質問
に対してシステムが応えていた。つまり、この会話シス
テムでは、質問と応答とによって、オペレータに対して
所定の情報を提供することが可能であった。

【０００４】

【発明が解決しようとする課題】しかし、この従来技術
では、オペレータはシステムに対して質問し、またシス
テムの質問に対して返答する必要があり、つまり常に会
話に参加しなければならず、他の作業と同時進行するこ
とが困難であった。また、質問や応答などの発話をやり
取りするため、オペレータの問題解決を実行するような
非対称な会話であり、したがって雑談のように連鎖的に
発話するような枠組みではなかった。つまり、面白みに
欠けていた。さらに、オペレータおよびシステムのそれ
ぞれが発話する言葉は、それぞれ意味が完結しており、
発話する言葉の意味を相手に委ねることができなかっ
た。言い換えると、発話する言葉が一方的に相手に与え
られていた。さらにまた、この従来技術では、１対１の
会話を前提としているため、複数人の参加を許容できな
いものであった。

【０００５】それゆえに、この発明の主たる目的は、連
鎖的な会話を実現でき、しかも多人数での会話を実現で
きる、新規な会話用エージェントを提供することであ
る。

【０００６】この発明の他の目的は、そのような会話用
エージェントを用いる、自由会話可能な会話システムを
提供することである。

【０００７】

【課題を解決するための手段】この発明に従った会話用
エージェントは、発話すべき複数の言葉を保持する保持
手段、発話に対する他者の発話との関連性の有無を判別
する判別手段、判別結果に応じて現認知状況を更新する
更新手段、現認知状況に基づいて発すべき言葉を選択す
る選択手段、および選択手段で選択された言葉を出力す
る出力手段を備える。

【０００８】この発明に従った会話システムは、複数の
このような会話用エージェントを用いる。

【０００９】

【作用】この会話用エージェントは、たとえばクリーチ
ャやロボットなどのエージェントであり、それらが発す
べき複数の言葉が保持手段に保持される。判別手段は、
エージェントが発話した言葉に対して発話された他者の
言葉との関連性の有無を判別する。たとえば、エージェ
ントが投げかけた質問に対して同意や意見を示した場合
には、関連性があると判別し、また質問に対して全く関
係のない言葉を発話したり、無視した場合には、関連性
がないと判別する。更新手段は、判別手段の判別結果に
応じて現認知状況を更新する。ここで、認知状況とは、
自分が発した言葉に対して発話された相手の言葉から自
分が発話した言葉の意味や役割を認識し、次に発話する
言葉を確定するための可能性（条件）をいう。したがっ
て、選択手段では、現認知状況に基づいて、相手が発し
た言葉に対して連鎖する１つの言葉を複数の言葉から選
択することができる。選択された１つの言葉が、たとえ
ばスピーカのような出力手段から出力されるので、これ
に応じて人間や他の会話用エージェントが発話すること
ができる。つまり、複数のエージェントを用いれば、自
由会話可能な会話システムが構成できる。

【００１０】たとえば、更新手段は、判別結果が相関性
ありを示すとき、現認知状況を更新し、判別結果が相関
性なしを示すとき、現認知状況を更新しない。このよう
に、関連性がある場合にのみ、認知状況を更新するの
で、１つの話題について会話を続けることができる。

【００１１】また、現認知状況は、エージェントが発話
した言葉の投機的要素とその発話に対して発話された相
手の言葉のグラウンディング要素とに基づいて決定され
る。このようなルールに従って現認知状況を更新し、連
鎖的な会話を実現できる。

【００１２】

【発明の効果】この発明によれば、現認知状況に基づい
て次に発すべき言葉を選択するので、雑談のような連鎖
的な会話を実現することができる。また、このような会
話用エージェントを複数集めれば、エージェント同士で
会話させることができ、しかもその会話の場にオペレー
タ等の人間が自由に出入りすることができる。つまり、
多人数での会話を実現できる。

【００１３】この発明の上述の目的，その他の目的，特
徴および利点は、図面を参照して行う以下の実施例の詳
細な説明から一層明らかとなろう。

【００１４】

【実施例】図１を参照して、この実施例のエージェント
制御装置１０は、パーソナルコンピュータやワークステ
ーションのようなコンピュータ１２を含む。コンピュー
タ１２にはＣＰＵ１４が設けられ、ＣＰＵ１４は内部バ
ス（以下、単に「バス」という。）１６を介して、音声
合成回路１８、画像生成回路２０、音声認識回路２２、
ＲＡＭ２４およびハードディスク（ＨＤ）２６に連なっ
ている。

【００１５】なお、この明細書では、画面に表示される
後述のトーキングアイや知能ロボットだけでエージェン
トと呼ぶ場合があるが、それらとエージェント制御装置
１０とをあわせたものをエージェントと呼ぶこともあ
る。

【００１６】エージェント制御装置１０はまた、マイク
２８、ディスプレイ３０およびスピーカ３２を含む。マ
イク２８は、インターフェイス（図示せず）を介して音
声認識回路２２に接続される。また、ディスプレイ３０
は、インターフェイス（図示せず）を介して画像生成回
路２０に接続される。さらに、スピーカ３２はインター
フェイス（図示せず）を介して音声合成回路１８に接続
される。

【００１７】音声合成回路１８は、ＣＰＵ１４の指示に
従ってＲＡＭ２４から読み出された音声合成データに基
づいて、エージェントが発する言葉をスピーカ３２から
出力する。したがって、エージェントが発した言葉がエ
ージェント制御装置１０の周辺に存在するオペレータ等
の人間（以下、単に「オペレータ等」という。）に聞こ
える。

【００１８】ただし、スピーカ３２からだけでなく、デ
ィスプレイ３０に表示させる場合は、吹き出し（バルー
ン）で表示すればよい。

【００１９】画像生成回路２０は、ＣＰＵ１４の指示に
従ってＲＡＭ２４から読み出されたエージェントのキャ
ラクタデータをコンピュータグラフィックス（ＣＧ）の
手法でディスプレイ３０に表示するためのデータに変換
して出力する。したがって、エージェントのＣＧキャラ
クタ（クリーチャ）がディスプレイ３０に表示される。

【００２０】音声認識回路２２は、マイク２８を介して
入力されるオペレータ等の音声（言葉）を認識し、認識
した言葉をＣＰＵ１４に知らせる。具体的には、音声認
識回路２２は、ＲＡＭ２４に書き込まれた音声認識用の
辞書データ（音声認識データ）を参照して、入力された
言葉をたとえばＤＰマッチング法により特定する。な
お、ＨＭＭ（Hidden Markov Model：隠れマルコフモデ
ル）による方法で、入力された言葉を認識するようにし
てもよい。

【００２１】ＨＤ２６は、メモリエリア２６ａ〜２６ｅ
を含み、メモリエリア２６ａにはエージェントを制御す
るためのプログラムが記憶される。また、メモリエリア
２６ｂには、画像ファイルおよび音声ファイルを含む。
画像ファイルは、エージェントのＣＧキャラクタをディ
スプレイ３０に表示するための複数のキャラクタデータ
を含む。また、音声ファイルは、エージェントが発話す
る言葉に対応する複数の音声合成データを含む。

【００２２】さらに、メモリエリア２６ｃには、所定の
取り決め（ルール）で記述された複数の言葉に対応する
データの一覧が記憶される。なお、この複数の言葉は、
エージェントが発すべき言葉である。たとえば、このよ
うなデータの一覧は、図２のように示され、Ａ、Ｂ、Ｃ
という条件下では、Ｚで定義される言葉が選択される。
また、Ｂ、Ｃ、Ｄという条件下では、Ｙで定義される言
葉が選択される。

【００２３】なお、図２に示すデータの一覧は、例示し
たに過ぎず、これに限定されるものではない。つまり、
さらに多数の言葉を定義することができ、また異なるル
ールで言葉を定義することも可能である。また、このよ
うなデータの一覧はテーブルを用いて表示してもよく、
さらに所定の関数を用意しておき、上述のような条件を
当てはめて１つの言葉を決定（選択）できるようにして
もよい。

【００２４】さらにまた、メモリエリア２６ｄには上述
したような音声認識データが記憶される。なお、音声認
識データは、複数の老若男女が発する複数の言葉を予め
記録したものである。また、メモリエリア２６ｅには、
エージェントの認知状況が記憶される。ここで、認知状
況とは、自分が発した言葉に対して発話された相手の言
葉から自分が発話した言葉の意味や役割を認識し、次に
発話する言葉を確定するための可能性（条件）をいう。
この認知状況は、プログラマによって初期設定されてお
り、エージェントがコミュニケーションする毎に更新さ
れる。したがって、１つの話題について連鎖的な会話が
可能である。

【００２５】ここで、一般的な会話の形態について分か
り易く説明する。図３には、会話の形態が時系列に従っ
て模式的に示される。また、人物Ａと人物Ｂとが会話
し、人物Ａが先に発話した場合について示している。図
３では、人物Ａおよび人物Ｂのそれぞれが発話した言葉
は、模式的にタグＴ１〜Ｔ４で示してある。タグＴ１〜
Ｔ４は、発話する直前の人物Ａまたは人物Ｂの認知状況
Ｎ１〜Ｎ４に基づいて決定される。たとえば、人物Ａは
現時点での認知状況Ｎ１に基づいてタグＴ１で示す言葉
を発する。これに応じて、人物Ｂが現時点での認知状況
Ｎ２に基づいてタグＴ２で示す言葉を発する。すると、
タグＴ１で示す言葉の意味や役割は、タグＴ２で示す言
葉が発せられて初めて確定される。

【００２６】具体的には、発話された言葉（タグ）に
は、前向きの要素（投機的要素）および後ろ向きの要素
（グラウンディング要素）の２つの要素が含まれる。こ
こで、投機的な要素とは、自分の判断や依頼などを表明
する要素をいい、グラウンディング要素とは、他者の発
話に関連させて、他者の発話に対する了解や疑問などを
示す要素をいう。

【００２７】つまり、人物Ａの現時点での認知状況Ｎ３
は、タグＴ１の投機的要素、タグＴ２のグラウンディ
ング的要素およびタグＴ１を発話した時の認知状況Ｎ
１（）で決定される。一方、人物Ｂの現時点での認知
状況Ｎ４は、タグＴ２の投機的要素、タグＴ３のグラ
ウンディング的要素およびタグＴ２を発話したときの
認知状況Ｎ２（）で決定される。

【００２８】この実施例では、図２に示したようなデー
タの一覧においては、矢印の左側の３つのアルファベッ
トが現時点での認知状況を示している。たとえば、認知
状況（ＡＢＣ）について説明すると、アルファベッ
トＡが自分が発した言葉の投機的要素に相当し、アルフ
ァベットＢが自分が発した言葉に対する相手の言葉のグ
ラウンディング的要素に相当し、アルファベットＣが自
分が言葉を発したときの認知状況すなわち更新前の認知
状況に相当する。つまり、このような３つの要素（条
件）が確定すると、現時点での認知状況が確定し、その
３つの条件に対応する（図２の矢印の右側の）アルファ
ベットZで定義される言葉が決定（選択）され、次の言
葉が発せられる。

【００２９】なお、認知状況（ＡＢＣ）についての
み説明したが、他の認知状況についても同様である。

【００３０】つまり、このようなデータの一覧を用いて
エージェントが発話する言葉を選択すれば、エージェン
トとオペレータ等との間で連鎖的な会話を実行すること
ができる。

【００３１】たとえば、図４に示すように、エージェン
ト制御装置１０を配置し、主電源をオンすると、ＣＰＵ
１４がＨＤ２６のメモリエリア２６ａからエージェント
（この実施例では、トーキングアイ６０）を制御するた
めのプログラムを読み出し、ＲＡＭ２４のワーキングエ
リア２４ａに書き込む。なお、トーキングアイ６０は、
発明者が独自に考案したＣＧキャラクタ（クリーチャ）
のことである。このトーキングアイ６０については、１
９９７年にシステム／制御／情報学会の学会誌Vol.41,N
o.8,pp.1-7で発表された「『マルチエージェント技術の
最近の展開』特集号」に詳細に示されている。そして、
プログラムが起動（ロード）されると、ＣＰＵ１４は図
５および図６に示すフロー図に従って処理する。

【００３２】まず、ステップＳ１では、ＣＰＵ１４は、
ＨＤ２６のメモリエリア２６ｂに記憶されたトーキング
アイ６０の画像ファイルおよび音声ファイルを読み出
し、ＲＡＭ２４のワーキングエリア２４ｂに書き込む。
次に、ステップＳ３で、ＣＰＵ１４は、ＨＤ２６のメモ
リエリア２６ｃに記憶されたエージェントが発話する言
葉を決定するためのデータの一覧を読み出し、ＲＡＭ２
４のワーキングエリア２４ｃに書き込む。そして、ＣＰ
Ｕ１４は、ステップＳ５で、ＨＤ２６のメモリエリア２
６ｄに記憶された音声認識データを読み出し、ＲＡＭ２
４のワーキングエリア２４ｄに書き込む。さらに、ステ
ップＳ７では、ＣＰＵ１４は、ＨＤ２６のメモリエリア
２６ｅに記憶された認知状況を読み出し、ＲＡＭ２４の
ワーキングエリア２４ｅに書き込む。

【００３３】続いて、ステップＳ９で、ＣＰＵ１４は、
トーキングアイ６０のキャラクタデータを例えば乱数で
選択し、選択したキャラクタデータをワーキングエリア
２４ｂから読み出し、画像生成回路２０に与える。した
がって、図４で示したようなトーキングアイ６０がディ
スプレイ３０に表示される。なお、これ以降の処理にお
いては、ＣＰＵ１４は、別のルーチンでトーキングアイ
６０の表示を更新（制御）する。たとえば、所定時間毎
に乱数でキャラクタデータを選択するようにしてもよ
く、意図的に作成されたプログラムに従ってキャラクタ
データを選択するようにしてもよい。

【００３４】ステップＳ１１では、ＣＰＵ１４は他者の
発話があるかどうかを判断する。具体的には、マイク２
８を介してオペレータ等が音声を入力したかどうかを判
断する。ステップＳ１１で“ＮＯ”であれば、つまり音
声が入力されなければ、そのまま同じステップＳ１１に
戻る。一方、ステップＳ１１で“ＹＥＳ”であれば、つ
まり音声が入力されれば、ステップＳ１３で音声認識回
路２２を制御して入力された言葉を認識する。つまり、
音声認識回路２２がＲＡＭ２４のワーキングエリア２４
ｄに書き込まれた音声認識データを参照して、上述した
ようなＤＰマッチング法で入力された言葉を特定し、Ｃ
ＰＵ１４に知らせる。

【００３５】したがって、ＣＰＵ１４は、他者が発話し
た言葉を認識すると、その（先行する）他者の発話に対
する現時点での自分（トーキングアイ６０）の関心度を
認知度に基づいて決定する。ここで、関心度とは、現在
行われている会話に対する関心度をいう。また、認知度
は、認知状況に基づいて特別のルールで決定される。そ
して、ステップＳ１７では、決定された関心度に基づい
て会話に参加するかどうかを判断する。つまり、関心度
に基づいて先行する発話に対して返答するか無視するか
を判断する。ステップＳ１７で“ＮＯ”であれば、つま
り関心度が低ければ、会話に参加せずに、そのままステ
ップＳ１１に戻って、再度オペレータ等が発話するのを
待つ。

【００３６】一方、ステップＳ１７で“ＹＥＳ”であれ
ば、つまり関心度が高ければ、会話に参加し、ステップ
Ｓ１９でＲＡＭ２４のワーキングエリア２４ｅに書き込
まれた現時点での認知状況に基づいて投機的要素および
グラウンディング要素を満たす言葉を選択する。具体的
には、現在の認知状況をワーキングエリア２４ｅから検
出し、この認知状況と自分が発話した言葉の投機的要素
と自分が発話した言葉に対して相手が発話した言葉のグ
ラウンディング的要素との３つの情報（条件）を満たす
言葉をワーキングエリア２４ｃに書き込まれたデータの
一覧から選択する。

【００３７】発話する言葉を選択すると、ＣＰＵ１４
は、ステップＳ２１でその言葉に対応する音声合成デー
タをワーキングエリア２４ｂから読み出し、音声合成回
路１８に与える。したがって、発話する言葉の音声信号
がスピーカ３２から出力される。つまり、トーキングア
イ６０の声で言葉が発せられる。

【００３８】次にＣＰＵ１４は、トーキングアイ６０が
発話した言葉に対して返答があるかどうかを判断する。
ステップＳ２３で" ＮＯ" であれば、つまり返答がなけ
れば、同じステップＳ２３に戻る。一方、ステップＳ２
３で" ＹＥＳ" であれば、つまり返答があれば、ステッ
プＳ２５で音声認識回路２２を制御して、マイク２８か
ら入力された言葉を認識（特定）する。続くステップＳ
２７では、自分（トーキングアイ６０）が発話した言葉
とオペレータ等が発話した言葉との関連性を検出する。

【００３９】ステップＳ２９では、検出した結果から関
連性があるかどうかを判断する。たとえば、自分が発話
した言葉に対して同意や意見を述べている場合には、関
連性があると言える。一方、全く異なる意見を述べた場
合や話題に対して無関心な言葉を述べた場合には、関連
性がないと言える。

【００４０】したがって、ステップＳ２９で" ＹＥＳ"
であれば、つまり関連性があれば、ステップＳ３１でワ
ーキングエリア２４ｅ内の認知状況を更新してからステ
ップＳ１５に戻るが、関連性がない場合には、認知状況
を更新せずに、そのままステップＳ１５に戻る。

【００４１】この実施例によれば、エージェントが発す
る言葉を投機的要素とグラウンディング要素とを含む現
在の認知状況に基づいて選択するので、人間との間で雑
談のような連鎖的な会話を実現することができる。

【００４２】なお、この実施例では、単なる雑談的な会
話について説明したが、たとえば、エージェントと人間
とがコンビを組んで、ぼけやつっこみのような言葉を互
いに発することによって漫才を実現することも可能であ
る。

【００４３】また、この実施例では、オペレータ等が発
話した言葉のみをグラウンディング要素としたが、オペ
レータ等の身振り、手振りおよび目線の動きなどもグラ
ウンディング要素とすることができる。

【００４４】たとえば、エージェントが質問を投げかけ
た場合には、それに対してオペレータ等は首を縦に振っ
たり、横に振ったりして、同意や反対を示すことができ
る。また、目線の向きによって、質問に対しての注目度
すなわち無視しているかどうかを判断することもでき
る。このように、オペレータ等の身振り、手振りおよび
目線の動きなどをグラウンディング要素に追加する場合
には、さらにカラーカメラおよび動画像認識回路を設け
る必要がある。つまり、動画像認識回路がコンピュータ
１２内に設けられ、インターフェイスを介してコンピュ
ータ１２にカラーカメラが接続される。また、動画像認
識回路はバス１６を介してＣＰＵ１４に接続される。し
たがって、カラーカメラで撮影された映像信号が動画像
認識回路に取り込まれ、動画像認識回路が映像信号に基
づいてオペレータ等の身振り、手振りおよび目線の動き
を認識し、認識した結果がＣＰＵ１４に知らされる。

【００４５】また、トーキングアイ６０についても同様
のことが言える。つまり、図２のデータの一覧におい
て、現時点での認知状況から選択される言葉に対応する
キャラクタデータを割り当てておけば、トーキングアイ
６０が言葉を発するときに、その表示を更新することが
できる。つまり、トーキングアイ６０の動きや目線を変
えることにより、その動きや目線をオペレータ等が発し
た言葉に対するグラウンディング要素に追加することが
できる。

【００４６】図７に示す他の実施例のエージェント制御
装置１０は、エージェントとしてのロボットを制御する
以外は図１実施例と同じであるため、重複した説明は省
略する。

【００４７】このようなエージェントとしてのロボット
には、図８（Ａ）および（Ｂ）に示すような知能ロボッ
ト７０を適用することができる。なお、この知能ロボッ
ト７０は、本願発明者等が先に出願した特願平１１−３
０８１６０号に詳細に開示されている。また、図８
（Ａ）が知能ロボット７０の正面図であり、図８（Ｂ）
が知能ロボット７０の側面図である。この知能ロボット
７０に図７に示すようなコンピュータ１２を搭載すれ
ば、知能ロボット７０はエージェントとして制御され
る。なお、図７に示すエージェント制御装置１０では、
図１実施例で示した画像生成回路２０が削除され、その
画像生成回路２０に接続されるディスプレイ３０も削除
される。

【００４８】図７に示すように、知能ロボット７０を制
御するためのエージェント制御装置１０では、コンピュ
ータ１２には、移動モータ駆動回路３４、俯仰モータ駆
動回路３６および旋回モータ駆動回路３８が接続され
る。この移動モータ駆動回路３４、俯仰モータ駆動回路
３６および旋回モータ駆動回路３８は、コンピュータ１
２すなわちＣＰＵ１４の指示に従ってそれぞれに対応し
て設けられた移動モータ４０、俯仰モータ４２および旋
回モータ４４を必要なタイミングで必要な駆動量（回転
方向および回転量を含む）で駆動する。なお、移動モー
タ４０が駆動されると知能ロボット７０自体が移動さ
れ、俯仰モータ４２や旋回モータ４４が駆動されると、
後述するカラーカメラ４８が上下または左右に向きを変
えられる。

【００４９】また、コンピュータ１２には接触センサ４
６およびカラーカメラ４８が接続される。接触センサ４
６はインターフェイス（図示せず）を介してバス１６と
接続される。また、接触センサ４６はたとえば知能ロボ
ット７０の表面に設けられたリミットスイッチであり、
オペレータ等が知能ロボット７０の表面を触ったことを
検知できる。その検知信号がインターフェイスおよびバ
ス１６を介してＣＰＵ１４に与えられ、ＣＰＵ１４は作
動したセンサを検知できる。カラーカメラ４８は、イン
ターフェイス（図示せず）を介して動画像認識回路５０
に接続され、動画像認識回路５０はバス１６を介してＣ
ＰＵ１４と接続される。つまり、カラーカメラ４８から
の映像信号がインターフェイスを介して動画像認識回路
５０に取り込まれる。

【００５０】なお、特願平１１−３０８１６０号に示し
た知能ロボットでは、カラーカメラは、単に人物（オペ
レータ等）や風景を撮影するために設けられているが、
取り込んだ映像信号からオペレータ等の動きや目線を認
識することにより、これらの要素をグラウンディング要
素に加えることができる。逆に、知能ロボット７０の動
きをオペレータ等が発話した言葉へのグラウンディング
要素として加えることができる。

【００５１】また、ＨＤ２６のメモリエリア２６ｂに
は、エージェントの画像ファイルに変えてエージェント
（知能ロボット７０）の動作を制御するための複数の制
御データを含む動作ファイルが記憶される。この動作フ
ァイルがＲＡＭ２４のワーキングエリア２４ｂに書き込
まれ、ＣＰＵ１４はワーキングエリア２４ｂに書き込ま
れた動作ファイルから制御データを読み出し、制御デー
タを移動モータ駆動回路３４、俯仰モータ駆動回路３６
および旋回モータ駆動回路３８に与える。したがって、
対応するモータが駆動され、自律ロボット６０が動作す
る。

【００５２】このような知能ロボット７０を用いた場合
であっても、図５および図６に示すような処理を実行す
ることにより、人間と連鎖的な会話を実現することがで
きる。ただし、この知能ロボット７０を制御する場合に
は、ステップＳ1 で、ＣＰＵ１４は、ＨＤ２６のメモリ
エリア２６ｂから動作ファイルおよび音声ファイルを読
み出し、ＲＡＭ２４のワーキングエリア２４ｂに書き込
む。また、ステップＳ９の処理は削除される。なお、知
能ロボット７０の動きについては、ＣＰＵ１４が別のル
ーチンで管理しており、たとえば、所定時間毎に乱数で
制御データを選択するようにしてもよく、意図的に作成
されたプログラムに従って制御データを選択するように
してもよい。また、知能ロボット７０の動作をグラウン
ディング要素に加える場合には、トーキングアイ６０の
場合と同様に、データの一覧で選択される言葉に対応し
て制御データを割り当てておけば、知能ロボット７０が
発話する毎に動きが制御される。

【００５３】このように、図１および図７実施例では、
エージェントと人間とが会話できるようにしているが、
少なくとも２つ以上のエージェント同士によって会話す
ることもでき、またその会話の場に人間が参加すること
も退避することも可能である。つまり、複数人による会
話を実現することが可能である。

【００５４】たとえば、図９に示すような、その他の実
施例の会話システム８０では、トーキングアイ６０、６
２および６４のそれぞれに対応して設けられたコンピュ
ータ８２、８４および８６を含み、コンピュータ８２、
８４および８６は、統括コンピュータ８８に双方向で通
信可能に接続される。会話システム８０はまた、ディス
プレイ９０、スピーカ９２およびマイク９４を含み、デ
ィスプレイ９０、スピーカ９２およびマイク９４は統括
コンピュータ８８に接続される。なお、コンピュータ８
２、８４および８６は、図１実施例に示したコンピュー
タ１２と同じ構成であり、コンピュータ８２、８４およ
び８６のそれぞれは、異なるトーキングアイ６０、６２
および６４を制御するための画像ファイルおよび音声フ
ァイルを有している。

【００５５】統括コンピュータ８８は、コンピュータ８
２、８４および８６と互いに通信可能であり、またそれ
ぞれのコンピュータ８２、８４および８６を識別するこ
とができる。したがって、統括コンピュータ８８、コン
ピュータ８２、８４および８６から送信されてくるキャ
ラクタデータを識別し、対応するトーキングアイ６０、
６２または６４の表示を制御する。また、統括コンピュ
ータ８８は、コンピュータ８２、８４または８６から送
信されてくる音声信号をスピーカ９２から出力する。し
たがって、会話システム８０の周辺に存在するオペレー
タ等にトーキングアイ６０、６２および６４が発話した
言葉が聞こえる。さらに、統括コンピュータ８８は、マ
イク９４を介して入力されるオペレータ等の音声信号を
コンピュータ８２、８４および８６のそれぞれに出力す
る。なお、トーキングアイ６０、６２または６４が発話
する言葉は、統括コンピュータ８８によって、発話して
いないトーキングアイ６０、６２または６４に対応する
コンピュータ８２、８４または８６のいずれか２つにそ
のまま出力される。つまり、トーキングアイ６０、６２
および６４が発話する言葉は音声認識することなくそれ
ぞれに含まれるＣＰＵ１４で知らされる。

【００５６】この会話システム８０では、コンピュータ
８２、８４および８６のそれぞれが、図５および図６に
示すような処理を実行し、トーキングアイ６０、６２お
よび６４での連鎖的な会話をすることができ、またその
会話の場にオペレータ等が出入りすることができる。

【００５７】たとえば、オペレータ等とトーキングアイ
６０、６２および６４の会話を模式的に示すと、図１０
のように表すことができる。なお、上述の図３で示した
場合と同じように、それぞれの発話のタグは前向きの要
素と後ろ向きの要素を含んでおり、図１０においては、
前向きの要素を点線で示し、後ろ向きの要素を実線で示
してある。

【００５８】たとえば、オペレータ等が“さて、どこ行
く？”とマイク９４を用いて入力すると、オペレータ等
の音声信号がマイク９４を介して統括コンピュータ８８
に入力され、統括コンピュータ８８は、その音声信号を
コンピュータ８２、８４および８６のそれぞれに入力す
る。すると、コンピュータ８２のＣＰＵ１４では、会話
に参加することが決定され、たとえば、現時点での認知
状況に基づいて" そんなん言われてもなぁ〜" という言
葉が選択される。

【００５９】したがって、コンピュータ８２のＣＰＵ１
４が“そんなん言われてもなぁ〜”に対応する音声合成
データを読み出し、音声合成回路１８に与える。そし
て、“そんなん言われてもなぁ〜”の音声信号が統括コ
ンピュータ８８に与えられる。したがって、“そんなん
言われてもなぁ〜”というトーキングアイ６０の言葉が
スピーカ９２から出力されとともに、統括コンピュータ
８８から他のコンピュータ８４および８６に入力され
る。しかし、コンピュータ８４および８６では、会話に
参加しないことが決定され、オペレータ等の発話に対し
ては無視した状態となっている。

【００６０】オペレータ等は、“そんなん言われてもな
ぁ〜”という返答を受けて、たとえば“どっかあれへん
？”と問いかける。なお、“そんなん言われてもなぁ
〜”の音声信号は、統括コンピュータ８８を介してコン
ピュータ８４および８６にも与えられるが、その発話に
対しても無視した状態となっている。

【００６１】オペレータ等が“どっかあれへん？”と問
いかけると、たとえば、コンピュータ８４および８６内
のＣＰＵ１４が会話に参加することを決定し、コンピュ
ータ８４のＣＰＵ１４は、現在の認知状況に基づいて
“知らん”という言葉を選択し、コンピュータ８６のＣ
ＰＵ１４は、現在の認知状況に基づいて“まっすぐ行っ
たらええやん”という言葉を選択する。

【００６２】したがって、コンピュータ８４のＣＰＵ１
４が“知らん”に対応する音声合成データを読み出し、
音声合成回路１８に与える。そして、“知らん”の音声
信号が統括コンピュータ８８を介してスピーカ９２から
出力される。また、コンピュータ８６のＣＰＵ１４が
“まっすぐ行ったらええやん”に対応する音声合成デー
タを読み出し、音声合成回路１８に与える。したがっ
て、“まっすぐ行ったらええやん”に対応する音声信号
が統括コンピュータ８８を介してスピーカ９２から出力
される。

【００６３】なお、スピーカ９２からは、“知らん”お
よび“まっすぐ行ったらええやん”という音声信号が同
時に出力されることとなるが、トーキングアイ６０，６
２および６４のそれぞれの声の周波数を予め異なる値に
設定しておけば、オペレータ等は、それぞれの声を聞き
分けることができる。また、“知らん”の音声信号は、
統括コンピュータ８８を介してコンピュータ８２および
８６に与えられる。しかし、コンピュータ８２および８
６のＣＰＵ１４は“知らん”を無視した状態となってい
る。さらに、“まっすぐ行ったらええやん”の音声信号
は、統括コンピュータ８８を介してコンピュータ８２お
よび８４に与えられる。しかし、コンピュータ８４のＣ
ＰＵ１４およびオペレータ等は“まっすぐ行ったらええ
やん”を無視した状態となっている。

【００６４】コンピュータ８２のＣＰＵ１４は、“まっ
すぐ行ったらええやん”に応答して、会話に参加するこ
とを決定し、“そうそう”という言葉を選択する。した
がって、コンピュータ８２のＣＰＵ１４は“そうそう”
に対応する音声合成データを読み出し、音声合成回路１
８に与える。したがって、“そうそう”の音声信号が統
括コンピュータ８８を介してスピーカ９２から出力され
るとともに、コンピュータ８４および８６に与えられえ
る。すると、オペレータ等が“そうそう”に応答して、
“そやなぁ〜”と発話する。なお、コンピュータ８４お
よび８６のＣＰＵ１４は“そうそう”を無視した状態と
なっている。

【００６５】その他の実施例によれば、複数のエージェ
ントおよび人間によって連鎖的な会話を実現することが
できる。すなわち、多人ー数の会話を実現することがで
きる。また、説明は省略してあるが、図３を用いて説明
したように、発話した言葉の投機的要素とその発話に対
する返答のグラウンディング要素に基づいてオペレータ
等やトーキングアイ６０、６２および６４の認知状況は
更新される。ただし、相手の発話に対して無視したり、
自分の発話を無視されたような場合には、認知状況は更
新されない。

【００６６】なお、その他の実施例において、オペレー
タ等に換えて他のトーキングアイを会話に参加させるよ
うにすれば、エージェントのみの多人数会話を実現する
ことができる。ただし、トーキングアイは少なくとも２
つ以上存在すれば、連鎖的な会話を実行することができ
る。この場合には、初期設定によって、いずれか１つの
トーキングアイの関心度を高く設定しておき、最初の言
葉を意図的に発話させる必要がある。また、最初の言葉
だけを人為的に入力するようにしてもよい。

【００６７】また、オペレータ等以外の人物は２人以上
の複数であっても会話に参加することができる。

【００６８】さらに、その他の実施例では、ディスプレ
イ、スピーカおよびマイクを共用し、また異なるトーキ
ングアイを１つの画面に表示するため、統括コンピュー
タを設けるようにしたが、図１実施例で示したエージェ
ント制御装置１０を個々に設けるようにしてもよい。

【００６９】さらにまた、コンピュータの処理能力が高
ければ、１台のコンピュータで会話システムを構築する
ことも可能である。

【００７０】また、図８に示した知能ロボット７０によ
って多人数会話を実現することも可能である。この場合
には、知能ロボット７０は、それぞれが独立して存在す
るので、言い換えると、トーキングアイのように同一の
ディスプレイ上に表示することがないので、統括コンピ
ュータを設ける必要がない。

【００７１】さらに、このような会話システムでは、ト
ーキングアイまたは知能ロボットのいずれか一方が２つ
以上存在するように記載してあるが、トーキングアイと
知能ロボットとが混在して、会話するようにしてもよ
い。すなわち、異なる種類のエージェント同士でも会話
が可能である。

【００７２】このような多人数の会話が可能な会話シス
テム８０は、単に雑談のような連鎖的な会話をすること
ができるだけでなく、他の様々な分野に応用することが
できる。

【００７３】たとえば、図１実施例で説明したような漫
才をトーキングアイ同士やロボット同士で実現すること
ができ、またオペレータ等がぼけやつっこみを言って漫
才に参加することもできる。さらに、オペレータ等が話
題を提供することにより、漫才の流れを変えることもで
きる。ただし、漫才を実現するためのエージェントの数
は２つ以上であれば、複数であってもよい。

【００７４】また、上述したようなトーキングアイまた
は知能ロボットに外国語の音声ファイルを保持させてお
けば、少なくとも２以上のトーキングアイまたは知能ロ
ボットが外国語で雑談のような連鎖的な会話ができ、ま
たその会話の場にオペレータ等が出入りすることによ
り、外国語を学ぶことができる。つまり、新しい教育支
援システムを提供することができる。

【００７５】さらに、カーナビゲーションや携帯電話機
に図１実施例に示すようなコンピュータ１２を少なくと
も１つ内蔵しておけば、１人で行動しているときであっ
ても雑談してインタラクティブに情報を提供することが
できる。また、２つ以上のコンピュータを内蔵しておけ
ば、多人数による会話を実現できる。特にカーナビゲー
ションに少なくとも１つのコンピュータ１２を内蔵した
場合には、エージェントと１対１で会話したり、多人数
会話に出入りすることにより、居眠り運転を防止するよ
うな効果があると考えられる。

【００７６】さらにまた、このようなカーナビゲーショ
ンや携帯電話機でインターネットのホームページにアク
セス可能なものであれば、たとえばＷＷＷ（World Wide
Web) から情報（コンテンツ）を入手し、それに従って
会話を進行させるようなことも考えられる。たとえば、
ニュースソースから１つのキーワード（コンテンツ）を
入手して、それに従って会話を進行させれば、雑談のよ
うな会話から最新のニュースを聞くこともできる。ま
た、オペレータ等がその会話に参加することにより、他
のニュースに話題を転換したり、詳細な内容を入手する
ことができる。ただし、このようにＷＷＷなどから最新
情報を入手して会話を実現させるためには、新しいコン
テンツを入手するとともに、データの一覧および音声フ
ァイルを更新する必要がある。

【００７７】また、この会話システムは街頭の大型スク
リーンでコマーシャルソースを提供するような装置に適
用することも可能である。つまり、雑談的にコマーシャ
ルソースを提供でき、またオペレータ等が会話に参加す
ることにより、所望のコマーシャルソールを入手するこ
とができ、またその詳細な情報をインタラクティブに要
求できる。すなわち、一方的なコマーシャルソースの提
供でなく、情報収集の自由度を高めることができる。

【図面の簡単な説明】

【図１】この発明の一実施例の構成を示す図解図であ
る。

【図２】図１実施例に示すＨＤに記憶されたデータの一
覧を示す図解図である。

【図３】一般的な会話を時系列に従って模式的に示した
模式図である。

【図４】図１実施例のエージェント制御装置を示す図解
図である。

【図５】図１実施例に示すエージェントの制御処理の一
部を示すフロー図である。

【図６】図１実施例に示すエージェントの制御処理の他
の一部を示すフロー図である。

【図７】この発明の他の実施例の構成を示す図解図であ
る。

【図８】図７実施例に示すエージェント制御装置で制御
される知能ロボットを示す図解図である。

【図９】この発明のその他の実施例を示す図解図であ
る。

【図１０】図９実施例に示した会話システムで多人数会
話した場合の一例を模式的に示した模式図である。

【符号の説明】

１０ …エージェント制御装置１２，８２，８４，８６ …コンピュータ１４ …ＣＰＵ１８ …音声合成回路２０ …画像生成回路２２ …音声認識回路２４ …ＲＡＭ２６ …ＨＤ２８ …マイク３０ …ディスプレイ３２ …スピーカ３４ …移動モータ駆動回路３６ …俯仰モータ駆動回路３８ …旋回モータ駆動回路４６ …接触センサ４８ …カラーカメラ５０ …動画像認識回路６０，６２，６４ …トーキングアイ７０ …知能ロボット８０ …会話システム８８ …統括コンピュータ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28 Ｇ１０Ｌ 3/00 ５７１Ｕ 15/22 (72)発明者鈴木紀子京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール知能映像通信研究所内 (72)発明者坂本彰司京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール知能映像通信研究所内Ｆターム(参考） 5D015 AA01 AA05 BB01 HH07 HH13 KK04 LL07 5D045 AB01 9A001 DD13 HH17 HH18 HH19

Claims

【特許請求の範囲】

【請求項１】発話すべき複数の言葉を保持する保持手
段、発話に対する他者の発話との関連性の有無を判別する判
別手段、前記判別結果に応じて現認知状況を更新する更新手段、前記現認知状況に基づいて発すべき言葉を選択する選択
手段、および前記選択手段で選択された前記言葉を出力
する出力手段を備える、会話用エージェント。
【請求項２】前記更新手段は、前記判別結果が相関性あ
りを示すとき、前記現認知状況を更新し、前記判別結果
が相関性なしを示すとき、前記現認知状況を更新しな
い、請求項１記載の会話用エージェント。
【請求項３】前記現認知状況は発話した言葉に含まれる
投機的要素と前記発話した言葉に対して他者が発話した
言葉に含まれるグラウンディング要素とに基づいて決定
される、請求項１または２記載の会話用エージェント。
【請求項４】請求項１ないし３のいずれかに記載の複数
の会話用エージェントを用いる、会話システム。