JP2008113875A

JP2008113875A - コミュニケーション誘発システム

Info

Publication number: JP2008113875A
Application number: JP2006300403A
Authority: JP
Inventors: Tomoko Yonezawa; 朋子米澤; Hirotake Yamazoe; 大丈山添; Akira Uchiumi; 章内海; Shinji Abe; 伸治安部
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2006-11-06
Filing date: 2006-11-06
Publication date: 2008-05-22
Anticipated expiration: 2026-11-06
Also published as: JP4831750B2

Abstract

【課題】ユーザからのコミュニケーションを積極的に引き出すことができる、コミュニケーション誘発システムを提供する。
【解決手段】コミュニケーション誘発システム１０は、ユーザ１２の前方に配置された２体のぬいぐるみ１４Ａおよび１４Ｂを含む。視線サーバ１８がカメラ１６で撮影したユーザ１２の顔の画像からユーザの視線の方向または位置を推定する。ぬいぐるみ１４Ａおよび／または１４Ｂに内蔵したコンピュータまたは別に設けたコンピュータは、ユーザの視線位置の違いに応じて異なる動作を各ぬいぐるみ１４Ａおよび／または１４Ｂに行なわせる。そのようなぬいぐるみの動作（発話および／または動き）によって、ユーザ１２からコミュニケーションを誘発する。
【選択図】図１

Description

この発明はコミュニケーション誘発システムに関し、特に、たとえばロボットなどの擬人的媒体を認知症患者などの軽度脳障害を持つユーザが視認できる位置に配置し、その擬人的媒体によってユーザからのコミュニケーションを誘発する、新規なコミュニケーション誘発システムに関する。

特許文献１などで、認知症患者などに右脳刺激を与えることによって、その機能回復が図れることが知られている。
特開２００５−１６０８０６号公報［A63B 24/00 23/035］

しかしながら、このような機能回復訓練を受けられるのは少なくとも他人とのコミュニケーションが図れることが条件である。そこで、このような患者ではまずコミュニケーション能力を回復させる必要がある。その場合、患者からコミュニケーションを引出す（誘発する）ように作用するシステムがあれば好都合である。

それゆえに、この発明の主たる目的は、新規な、コミュニケーション誘発システムを提供することである。

この発明の他の目的は、ユーザからのコミュニケーションを積極的に引き出すことができる、コミュニケーション誘発システムを提供することである。

請求項１の発明は、ユーザが視認できる位置に配置した擬人的媒体によってユーザからのコミュニケーションを誘発するコミュニケーション誘発システムであって、ユーザの視線の位置を検出する視線位置検出手段、擬人的媒体の位置に対する視線の位置を判定する位置判定手段、および位置判定手段の判定結果に応じて擬人的媒体の動作を制御する動作制御手段を備える、コミュニケーション誘発システムである。

請求項１の発明において、擬人的媒体（１４Ａ，１４Ｂ：実施例で相当する部分を例示する参照符号。以下同様。）がユーザ（１２）の前方の、ユーザの視線が届く位置に配置される。視線位置検出手段（１６，１８）は、たとえば、カメラ（１６）によって撮影したユーザの顔画像を視線サーバ（１８）で処理することによって、ユーザの視線（１２Ａ）の方向または位置をリアルタイムに推定または検出する。位置判定手段（３２）は、ぬいぐるみの動作を制御するコンピュータの一部の機能であり、この位置判定手段が、そのときのユーザの視線の位置がぬいぐるみの位置に対してどのような位置関係にあるか判定する。たとえば、ユーザの視界にぬいぐるみがあるか、視線の位置はぬいぐるみの位置とかなり離れているか、視線の位置はぬいぐるみの位置に隣接する位置か、視線の位置はぬいぐるみの位置か、などを判定する。動作性手段（３２）は、そのような判定結果に応じて、ぬいぐるみの動作（発話および／または動き）を制御する。

請求項１の発明によれば、ユーザの視線の位置の擬人的媒体の位置に対する判定結果に応じて異なる動作をするように擬人的媒体を制御することができるので、ユーザの視線位置がどこにあるかに応じて最適のコミュニケーション誘発動作を行なわせることができる。

請求項２の発明は、動作制御手段は、視線が擬人的媒体の位置にあるとき、ユーザとコミュニケーションするように擬人的媒体の動作を制御する、請求項１記載のコミュニケーション誘発システムである。

請求項２の発明では、ユーザの視線が擬人的媒体（ぬいぐるみ）に向けられたとき、その擬人的媒体とユーザとの間でコミュニケーションを確立することができる。

請求項３の発明は、ユーザを撮影可能なカメラを有するテレビ電話機、ユーザとのコミュニケーションが所定時間継続したとき、テレビ電話機をオンして予め登録している電話番号に発呼する発呼制御手段をさらに備える、請求項２記載のコミュニケーション誘発システムである。

請求項３の発明では、ユーザと擬人的媒体との間のコミュニケーションが一定時間以上継続的に行なわれたとき、つまり、ユーザがぬいぐるみに関心をもったとき、ユーザを撮影するＴＶ電話機（６０）をオンして自動的に発呼させるので、たとえば家族や介護士などが、その状態でのユーザを遠隔地で確認することができる。

請求項４の発明は、ユーザと他の人との間で通信する通信手段、および視線位置検出手段によって検出したユーザの視線の位置が通信手段の位置に該当するとき通信手段を制御してユーザと他の人との通信を可能にする手段をさらに備える、請求項１または２記載のコミュニケーション誘発システムである。

請求項４の発明では、ユーザが通信手段を注視したとき、その通信手段を用いてユーザと他の人との通信を開始させることができる。

この発明によれば、ユーザの視線位置がどこにあるかによって最適のコミュニケーション誘発動作を擬人的媒体に行なわせることができるので、ユーザからのコミュニケーションを積極的に引出すことができる。

この発明の上述の目的，その他の目的，特徴，および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１に示すこの発明の一実施例のコミュニケーション誘発システム１０は、たとえば認知症患者のような軽度脳障害を持つ被験者またはユーザ１２からのコミュニケーションを積極的に引き出すように、このユーザ１２に働きかけるぬいぐるみ１４Ａおよび１４Ｂを含む。このぬいぐるみ１４Ａおよび１４Ｂが擬人的媒体である。擬人的媒体とは、人間のように発話できたり、あるいは人間のような動作ができたりする媒体のことであり、典型的にはぬいぐるみや、ヒューマノイドやコミュニケーションロボットなども、この擬人的媒体として十分機能できる。

この実施例のシステム１０では、ユーザ１２の主として顔を撮影するカメラ１６を用いて、ユーザ１２の視線の方向や位置をリアルタイムで検出し、その視線の方向や位置に応じてぬいぐるみ１４Ａおよび１４Ｂの発話や動作を制御することによって、ユーザ１２からのぬいぐるみ１４Ａおよび１４Ｂに対するコミュニケーションを誘発する。なお、ぬいぐるみ１４Ａおよび１４Ｂを区別なく説明する必要があるときには、参照番号「１４」として表示することがあることに留意されたい。

ユーザ１２の視線方向または位置は、後に詳しく説明するように、視線サーバ１８がカメラ１６からの顔画像データまたは信号を処理することによって、リアルタイムで検出または判定する。

図２は図１実施例を俯瞰した状態を図解する図解図であり、図３はそれぞれを側面から見た図解図である。これらの図からわかるように、患者または被験者ないしユーザ１２は部屋のような空間１０Ａの一方に椅子に腰掛けて存在していて、その前方の、この空間１０Ａ内の他方に、２体のぬいぐるみ１４Ａおよび１４Ｂが互いの間に適宜の間隔を隔てて、一直線上に配置されている。ただし、ぬいぐるみ１４Ａおよび１４Ｂの配置は、両者の間に間隔がある状態なら、直線上の配置でなくても問題ない。

そして、カメラ１６は空間１０Ａの一隅からユーザ１２の顔前面を撮影できるように設置されている。

ユーザ１２の視線１２Ａが、ぬいぐるみ１４Ａ（１４Ｂ）に正対する方向の線vlineに対してずれている角度が旋回角αであり、視線１２Ａが水平線hlineに対してずれている角度が俯仰角βとして図１の視線サーバ１８によってリアルタイムに計算される。そして、各ぬいぐるみ１４Ａおよび１４Ｂがその検出角度αおよびβからその視線１２Ａの方向または位置を特定し、その視線１２Ａの方向または位置に応じて、異なる動作および／または発話をすることによって、ユーザ１２からコミュニケーションを誘発しようとするのである。

図４にはぬいぐるみ１４が図示される。このぬいぐるみ１４は、頭部２０とそれを支える胴体２２とを含む。胴体２２の上部に左右の左腕２４Ｌおよび右腕２４Ｒが設けられ、頭部２０には、前面に口２６が配置され、その口２６の上方には眼球２８が設けられる。頭部２０の上部側面は耳３０が取り付けられている。

胴部２０は胴体２２によって、旋回・俯仰可能に支持され、また、眼球２８も可動的に保持されている。口２６にはスピーカ４８（図５）が内蔵されていて、耳３０にはマイク５０（図５）が内蔵されている。なお、マイク５０を両方の耳３０にそれぞれ内蔵すれば、ステレオマイクとして機能し、それによって、そのステレオマイクに入力された音声の位置を必要に応じて特定することができる。

図５に示すように、実施例のぬいぐるみ１４にはコンピュータ３２が内蔵されていて、このコンピュータ３２が、通信路の一例であるバス３４を通して、図１に示す視線サーバ１８に結合される。したがって、コンピュータ３２は、視線サーバ１８が特定または検出したユーザ１２の視線方向や位置を示すデータをこのバス３４を通して刻々受け取ることができる。ただし、通信路はバス３４であっても、その他の形式の通信路であっても、さらには無線であっても、有線であってもよい。

コンピュータ３２には、バス３４を介してメモリ３６が結合される。このメモリ３６には図示しないＲＯＭやＲＡＭが組み込まれていて、ＲＯＭには主として、後述のフローチャート（図２０−２１，２３）で表現されるプログラムが予め記憶されているとともに、ぬいぐるみ１４の各フェーズ（内部状態）の動作と発話（音声）とを対応的に設定している、動き-音声反応対応テーブル３６Ａが予め設定されている。この動き-音声反応対応テーブル３６Ａは、後述するぬいぐるみ１４の内部状態「０」‐「４」のそれぞれにおいてぬいぐるみ１４が発話する音声と実行できる動作とを対応させて設定したものである。ＲＡＭは、一時記憶メモリとして用いられるとともに、ワーキングメモリとして利用され得る。

モータ制御ボード３８は、たとえばＤＳＰ(Digital Signal Processor)で構成され、図２に示すぬいぐるみ１４の各腕や頭部の各軸モータを制御する。すなわち、モータ制御ボード３８は、コンピュータ３２からの制御データを受け、右腕２４Ｒ（図４）を前後や左右に動かすことができるように、Ｘ，ＹおよびＺ軸のそれぞれの角度を制御する３つのモータ（図５ではまとめて、「右腕モータ」として示す。）４０Ｒの回転角度を調節する。また、モータ制御ボード３８は、左腕２４Ｌの３つのモータ（図５ではまとめて、「左腕モータ」として示す。）４０Ｌの回転角度を調節する。モータ制御ボード３８は、また、頭部２０の旋回角や俯仰角を制御する３のモータ（図５ではまとめて、「頭部モータ」として示す。）４２の回転角度を調節する。モータ制御ボード３８は、また、眼球２８を動かす眼球モータ４４も制御する。

なお、上述のモータは、制御を簡単化するためにそれぞれステッピングモータまたはパルスモータであるが、直流モータであってよい。

スピーカ４８には音声入力／出力ボード４６を介して、コンピュータ３２から、合成音声データが与えられ、それに応じて、スピーカ４８からはそのデータに従った音声または声が出力される。そして、マイク５０からの音声入力が、音声入力／出力ボード４６を介して、コンピュータ３２に取り込まれる。

センサ入力／出力ボード５２も、同様に、ＤＳＰで構成され、各センサやカメラからの信号を取り込んでコンピュータ３２に与えるが、実施例ではあまり関係がないので、ここでは、そのセンサなどの詳細な説明は省略する。

なお、図１に示す実施例において、ユーザ１２の前方すなわちぬいぐるみ１４Ａおよび１４Ｂの後方は、図６に示すように区画されている。ユーザ１２の視線位置が区画Ａ‐Ｉのいずれにあるかによって、ぬいぐるみ１４Ａおよび１４Ｂの発話や動作を異ならせ、それによってユーザ１２の積極的な関与つまりコミュニケーションを誘発しようとするものである。

実施例では、ぬいぐるみ１４Ａおよび１４Ｂは、図６に示す区画ＸおよびＹに固定的に配置されているものとする。そして、そのぬいぐるみ１４Ａおよび１４Ｂすなわち区画ＸおよびＹの上方に３つの区画Ａ，ＢおよびＣが設定され、区画Ｘを挟んで左右に区画ＤおよびＥが設定され、その区画Ｅとともに区画Ｙを挟むように区画Ｆが設定されている。区画ＸおよびＹの下方に３つの区画Ｇ，ＨおよびＩが設定される。

ただし、区画Ａ‐Ｉおよび区画ＸおよびＹ以外にユーザ１２の視線が位置する場合には、「範囲外」となる。

また、これらの区画Ａ‐ＩやＸおよびＹのそれぞれに包含される空間座標は空間１０Ａ（図２，３）に固有に決まっているので、図５に示すメモリ３６の所定の記憶場所に、これら全ての区画の座標データが予め記憶されている。

なお、実施例では、ぬいぐるみ１４Ａおよび１４Ｂはユーザ１２との間の距離、すなわち空間座標のＺ軸位置は一定なので、各区画の座標データとしては、Ｘ軸とＹ軸だけでよい。たとえば、区画Ａについてみると、この区画Ａは、（ｘａ１−ｘａ２，ｙａ１−ｙａ２）のように、Ｘ軸Ｙ軸とも範囲を有して設定される。ここで、ｘａ１は、区画ＡのＸ軸の開始（左端）座標で、ｘａ２は、区画ＡのＸ軸の終了（右端）座標を示す。同様に、ｙａ１は、区画ＡのＹ軸の開始（下端）座標で、ｙａ２は、区画ＡのＹ軸の終了（上端）座標を示す。残りの各区画Ｂ−Ｉ，Ｘ，Ｙも同様に座標範囲のデータとして設定される。

また、この実施例では、ぬいぐるみ１４Ａおよび１４Ｂが自律的に自己の動作や発話を制御する図５のような制御回路を持つものとして説明するが、それぞれのぬいぐるみ１４Ａおよび１４Ｂを一括して、または個別的に制御するための１台またはそれ以上のコンピュータをぬいぐるみ１４Ａおよび１４Ｂとは別に設けるようにしてもよい。

このような実施例において、まず、ユーザ１２の視線を推定する方法について説明する。この実施例では、以下に説明するように、ユーザ１２の視線方向を推定または検出するために１つのカメラ（単眼カメラ）を用いるユニークな方法を採用している。しかしながら、ユーザ１２の視線１２Ａ（図２，図３）を検出する方法としては、２以上のカメラを利用する従来からの一般的な方法が採用されてもよいことは、勿論である。つまり、この発明では、ユーザ１２の視線を推定したり検出したりする必要はあるが、その具体的な方法は重要な意味を持たず、どのような公知の方法が用いられてもよい。

図１に示すように、ユーザ１２の前方に、たとえばＣＣＤ（Charge Coupled Device）またはＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサのような固体撮像素子を含むカメラ１６が設置され、このカメラ１６からの顔画像信号が視線サーバ１８に取り込まれ、視線サーバ１８が画像処理することによって、視線１２Ａの角度αおよびβを推定する。

図７に示すように、カメラ１６により撮影された画像は、視線サーバ１８に附属して設けたディスプレイ５４（図１では図示せず）の撮影画像表示領域５６にリアルタイムに動画として表示される。特に限定されないが、たとえば、撮影画像表示領域５６上に、視線方向を示す指標として、眉間から視線方向に延びる線分を表示してもよい。

視線サーバ１８は、一般的なコンピュータであり、特に変わったハードウェア構成ではないので、ハードウェア自体は説明しないが、視線方向や視線位置の推定は、いかに説明するソフトウェアにより実現される。

視線サーバ１８では、特徴点の追跡処理の安定性を確保するため、同一特徴点に関して異なるフレームにおける複数の観測テクスチャを保持している。初期校正過程では、これらの特徴点と虹彩中心の関係から顔特徴点と眼球中心の相対関係を求める。視線推定過程では、校正過程で得られた関係を元に現フレームで得られている特徴点群から眼球中心位置を推定し、その位置と虹彩中心位置から視線方向を決定する。

視線方向の推定処理の動作の前提として、まず、たとえば６分割矩形フィルタを利用して、顔検出処理が実行される。

視線サーバ１８では、特に限定されないが、たとえば、顔を連続撮影したビデオ画像を処理するにあたり、横が顔幅、縦がその半分程度の大きさの矩形フィルタで画面を走査する。矩形は、たとえば、３×２に６分割されていて、各分割領域の平均明るさが計算され、それらの相対的な明暗関係がある条件を満たすとき、その矩形の中心を眉間候補とする。

連続した画素が眉間候補となるときは、それを取囲む枠の中心候補のみを眉間候補として残す。残った眉間候補を標準パターンと比較してテンプレートマッチング等を行うことで、上述した手続きで得られた眉間候補のうちから、偽の眉間候補を捨て、真の眉間を抽出する。以下、さらに詳しく説明する。

図８は、眉間候補領域を検出するためのフィルタを説明するための概念図であり、図８（ａ）は、上述した３×２に６分割された矩形フィルタ（以下、「６分割矩形フィルタ」と呼ぶ）を示す。

６分割矩形フィルタは、(1) 鼻筋は両目領域よりも明るい、(2) 目領域は頬部よりも暗い、という顔の特徴を抽出し、顔の眉間位置を求めるフィルタである。たとえば、１点（ｘ、ｙ）を中心として、横ｉ画素、縦ｊ画素（ｉ，ｊ：自然数）の矩形の枠を設ける。そして、図８（ａ）のように、この矩形の枠を、横に３等分、縦に２等分して、６個のブロックＳ１〜Ｓ６に分割する。

このような６分割矩形フィルタを顔画像の両目領域および頬部に当てはめてみると、図８（ｂ）のようになる。

ただし、図８の６分割フィルタは書く矩形領域が等分されたものであったが、このフィルタは図９に示すように変形されてもよい。

鼻筋の部分が目の領域よりも通常は狭いことを考慮すると、ブロックＳ２およびＳ５の横幅ｗ２は、ブロックＳ１，Ｓ３，Ｓ４およびＳ６の横幅ｗ１よりも狭い方がより望ましい。好ましくは、幅ｗ２は幅ｗ１の半分とすることができる。図９は、このような場合の６分割矩形フィルタの構成を示す。また、ブロックＳ１、Ｓ２およびＳ３の縦幅ｈ１と、ブロックＳ４、Ｓ５およびＳ６の縦幅ｈ２とは、必ずしも同一である必要もない。

図９に示す６分割矩形フィルタにおいて、それぞれのブロックＳｉ（１≦ｉ≦６）について、画素の輝度の平均値「バーＳｉ」（Ｓｉに上付きの“−”をつける）を求める。

ブロックＳ１に１つの目と眉が存在し、ブロックＳ３に他の目と眉が存在するものとすると、以下の関係式（１）および（２）が成り立つ。

そこで、これらの関係を満たす点を眉間候補（顔候補）として抽出する。

矩形枠内の画素の総和を求める処理には、公知の文献（P. Viola and M. Jones, “ Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEE Conf. CVPR, 1, pp.511-518, 2001）において開示されている、インテグラルイメージ（Integral Image）を利用した計算の高速化手法を取り入れることができる。インテグラルイメージを利用することでフィルタの大きさに依らず高速に実行することができる。多重解像度画像に本手法を適用することにより、画像上の顔の大きさが変化した場合にも顔候補の抽出が可能となる。

このようにして得られた眉間候補（顔候補）に対しては、両目の標準パターンとのテンプレートマッチングにより、真の眉間位置（真の顔領域）を特定することができる。

なお、得られた顔候補に対して、サポートベクトルマシン（ＳＶＭ）による顔モデルによる検証処理を適用し顔領域を決定することもできる。髪型の違いや髭の有無、表情変化による認識率の低下を避けるため、たとえば、図１０に示すように、眉間を中心とした画像領域を利用してＳＶＭによるモデル化を行うことができる。なお、このようなＳＶＭによる真の顔領域の決定については、文献：S. Kawato, N. Tetsutani and K. Hosaka: “Scale-adaptive face detection and tracking in real time with ssr fi1ters and support vector machine”, IEICE Trans．on Info. and Sys., E88−D, 12, pp．2857−2863（2005）に開示されている。６分割矩形フィルタによる高速候補抽出とＳＶＭによる処理とを組み合わせることで実時間の顔検出が可能である。

続いて、目、鼻や虹彩中心の位置を、公知の文献、たとえば『川戸、内海、安部：「４つの参照点と３枚のキャリブレーション画像に基づく単眼カメラからの視線推定」画像の認識・理解シンポジウム（MIRU2005），pp．1337−1342（2005）』あるいは、『川戸慎二郎、鉄谷信二：鼻位置の検出とリアルタイム追跡：信学技報IE2002−263、pp．25−29（2003）』などの手法を用いて抽出する。

両目の位置については、前節の顔領域検出で眉間のパターンを探索しているため、眉間の両側の暗い領域を再探索することにより、大まかな両目の位置を推定することができる。しかし、視線方向の推定のためには、虹彩中心をより正確に抽出する必要がある。ここでは、上で求まった目の周辺領域に対して、ラプラシアンにより虹彩のエッジ候補を抽出し、円のハフ変換を適用することにより、虹彩および虹彩の中心の投影位置を検出する。

鼻の位置は、鼻先が凸曲面であるため周囲に対し明るい点として観測されやすいことと、両目の位置から鼻の存在範囲が限定できることを利用して抽出する。また、両目、鼻の位置を用いて、大体の顔の向きも推定できる。

図１１は顔検出結果の例を示す図である。検出された顔において、虹彩中心や鼻先や口なども検出されている。たとえば、特徴点としては、鼻先や、左右の目の目尻や目頭、口の両端、鼻腔中心などを用いることができる。

視線の推定においては、視線方向は眼球中心と虹彩中心を結ぶ３次元直線として与えられるものとする。

図１２は視線方向を決定するためのモデルを説明する概念図である。画像上での眼球半径をｒ、画像上での眼球中心と虹彩中心との距離をdとすると、視線方向とカメラ光軸とのなす角θは次式(３)で表される。

式（３）により、視線方向を推定するためには、画像上での眼球半径と眼球中心・虹彩中心の投影位置が必要となる。ここで、虹彩中心の投影位置については、上述したとおり、ハフ変換を用いた手法により求めることができる。画像上での眼球直径ｒは、解剖学的なモデル（標準的な人の眼球直径）を用いてもよいし、別途キャリブレーションにより求めてもよい。

図１３は、図１２に示した状態からユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。

眼球中心の投影位置については、一般には、画像から直接観測することはできない。しかし、ユーザ１２がカメラ１６を注視した場合について考えると、図１３に示すとおり、カメラ、虹彩中心、眼球中心の３点が１直線上に並ぶため、画像では虹彩中心と眼球中心は同一点に投影されることがわかる。

そこで、この実施例での視線推定では、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影し、これらの画像列から虹彩位置と顔特徴点を抽出、追跡することにより、眼球中心と顔特徴点間の相対幾何関係を推定する。

後により詳しく説明するように、この実施例の視線方向の推定では、眼球中心と顔特徴点間の相対関係の推定処理と眼球中心の投影位置推定とを行なう。

視線方向の推定のための初期設定として、視線サーバ１８は、図１４に示すフローチャートで表現されるキャリブレーションを実行する。

まず、キャリブレーション用の画像列として、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影する（ステップＳ１０２）。図１５は、このようにしてキャリブレーションにおいて撮影された４枚の画像フレームを示す。

ここでは、より一般に、Ｎ（Ｎ≧２）枚の画像列が得られたとする。各画像フレームを、フレームＩ₁，…Ｉ_Ｎとする。

次に、得られた各画像フレーム列に対して、上述したような方法によって顔検出処理を行い（ステップＳ１０４）、続いて、目や鼻の検出処理を行なう（ステップＳ１０６）。

さらに、視線サーバ１８は、特徴点の抽出、追跡を行う（ステップＳ１０８）。なお、特徴点の抽出方法としては、上述したような方法の他に、たとえば、文献：J. Shi and C. Tomasi: “Good features to track”，Proc. CVPR94, pp. 593−600（1994）で提案された手法を用いることもできる。

ここで、各画像フレームＩ_ｉ（ｉ＝１，…，Ｎ）においてＭ（Ｍ≧４）点の特徴点ｐ_ｊ（ｊ＝１，…，Ｍ）が検出・追跡できたとする。画像フレームＩ_ｉにおける特徴点ｐ_ｊの２次元観測位置をｘ_ｊ ^（ｉ）（太字）＝［ｘ_ｊ ^（ｉ），ｙ_ｊ ^（ｉ）］^ｔ（ｉ＝１，…，Ｎ，ｊ＝１，…，Ｍ）とし、両目の虹彩中心の２次元観測位置をそれぞれｘ_ｒ ^（ｉ）（太字）＝［ｘ_ｒ ^（ｉ），ｙ_ｒ ^（ｉ）］^ｔ，ｘ_ｌ ^（ｉ）（太字）＝［ｘ_ｌ ^（ｉ），ｙ_ｌ ^（ｉ）］^ｔ（ｉ＝１，…，Ｎ）とする。ここで、行列Ｗを以下のように定義する。

因子分解法により、特徴点の各フレームでの２次元観測位置を縦に並べた行列Ｗ（計測行列）は以下のように分解できる。

ここで、行列Ｍ（「撮影姿勢行列）と呼ぶ）にはカメラの姿勢に関する情報のみが、行列Ｓ（「相対位置関係行列」と呼ぶ）には観測対象物の形状に関する情報のみが含まれており、顔特徴点と眼球中心との３次元的な位置の相対関係は行列Ｓとして求まる（ステップＳ１１０）。すなわち、正射影を仮定すると、行列Ｍの各要素が画像フレームでのカメラの姿勢を表す単位ベクトルであって、それぞれの大きさが１であり相互には直交するとの拘束条件のもとで、行列Ｗは、特異値分解により一義的に行列Ｍと行列Ｓの積に分解できることが知られている。なお、このような計測行列Ｗを、因子分解により、カメラの運動の情報を表す行列と対象物の形状情報を表す行列へ分解する点については、文献：金出，ポールマン，森田：因子分解法による物体形状とカメラ運動の復元”，電子通信学会論文誌Ｄ−ＩＩ，J76‐D−II,8,pp.1497−1505(1993)に開示がある。

図１６は、リアルタイムの視線方向の推定処理のフローチャートを示す。

次に、以上で得られた結果を用いて、視線方向を推定する手順について説明する。

まず、カメラ１６から画像フレームを取得すると（ステップＳ２００）、キャリブレーション時と同様にして、顔の検出および目鼻の検出が行なわれ（ステップＳ２０２）、取得された画像フレーム中の特徴点が抽出される（ステップＳ２０４）。

画像フレームＩ_ｋが得られたとする。ここで、眼球中心以外の特徴点のうちｍ点ｐ_ｊ（ｊ＝ｊ_１，…，ｊ_ｍ）が、それぞれ、ｘ_ｊ ^（ｋ）（太字）＝［ｘ_ｊ ^（ｋ），ｙ_ｊ ^（ｋ）］^ｔに観測されたとする。このとき、観測された特徴点について、上述したように特徴点近傍のテンプレートを用いたテンプレートマッチングを実施することで、キャリブレーション時に特定された特徴点と現画像フレーム中で観測された特徴点との対応付けが行なわれて、現画像フレーム中の特徴点が特定される（ステップＳ２０６）。

なお、上述のとおり、特徴点を特定するためのテンプレートは、キャリブレーションの時のものに限定されず、たとえば、最近の画像フレームの所定枚数について検出された特徴点の近傍の所定の大きさの領域内の画像を所定個数だけ保持しておき、これら所定枚数のテンプレートについてマッチングをした結果、もっとも一致度の高い特徴点に特定することとしてもよい。

顔特徴点ｐ_ｊの２次元観測位置ｘ_ｊ ^（ｋ）（太字）＝［ｘ_ｊ ^（ｋ），ｙ_ｊ ^（ｋ）］^ｔとキャリブレーションより求まった３次元位置ｓ_ｊ（太字）＝［Ｘ_ｊ，Ｙ_ｊ，Ｚ_ｊ］^ｔ（ｊ＝１，…，Ｍ）の間には、Ｍ個の特徴点のうち観測されたｍ個の特徴点について注目すると、次式の関係が得られる。

ただし、行列Ｐ^（ｋ）は２×３の行列である。右辺の第２項の行列Ｓ^（ｋ）は行列Ｓのうち、観測された特徴点に対応する要素のみからなる部分行列である。上述の通り、カメラと顔は十分に離れているとし正射影を仮定している。ここで、４点以上の特徴点が観測されれば、行列Ｐ^（ｋ）は以下のように計算できる（ステップＳ２０８）。

画像フレームＩ_ｋにおける眼球中心の投影位置ｘ_ｒ ^（ｉ）（太字），ｘ_ｌ ^（ｉ）（太字）は、行列Ｐ^（ｋ）を用いて以下のように計算できる（ステップＳ２１０）。

したがって、画像フレームＩ_ｋにおいて特徴点として抽出した虹彩中心の投影位置とこの眼球中心の投影位置を用いると、視線の推定を行なうことができる（ステップＳ２１２）。

なお、行列ＰをＱＲ分解により分解することで、顔の姿勢Ｒが、以下のように計算できる。

ただしｒ_１、ｒ_２はそれぞれ１×３のベクトルである。このような顔の姿勢Ｒの検出については、文献：L．Quan: “Self-calibration of an affine camera from multiple views”，Int’l Journal of Computer Vision, 19, pp. 93−105（1996）に開示がある。

ユーザ等の指示により追跡が終了していると判断されれば（ステップＳ２１４）、処理は終了し、終了が指示されていなければ、処理はステップＳ２０２に復帰する。

以上説明した視線方向の推定装置の有効性を確認するため、実画像を用いた実験を行った結果について以下に説明する。

カメラはElmo社製PTC−400Cを用い、被験者から約１５０［cm］の位置に設置した。

まず、５０フレームの画像列を用いて、眼球中心と顔特徴点のキャリブレーションを行った。キャリブレーション用の画像フレーム列と抽出した特徴点の例は、図１５に示したとおりである。

キャリブレーション用画像フレーム列の撮影に要した時間は約３秒であった。（＋印は抽出された虹彩中心（眼球中心））、×印は追跡した顔特徴点）。

次に、キャリブレーションにより求まった顔モデル（行列Ｓ）を用いて、視線推定を行った。ここで、被験者はそれぞれ右上、上、左下の方向を注視しながら、顔の位置・向きを変化させた。

図１７〜図１９は、視線推定結果を示す。図１７は、右上方注視の状態であり、図１８は、上方注視の状態であり、図１９は、左下方向注視の状態である。ここで、視線方向は両目それぞれで計算された視線方向の平均値としている。結果より、顔の位置や向きの変化とは関係なく、視線方向が推定できた。

以上説明したとおり、この実施例の視線方向の推定方法では、単眼カメラの観測に基づいて顔特徴点を検出し、追跡することにより視線方向を推定する。つまり、まずキャリブレーションとして視線がカメラ方向を向いたまま顔の向きのみが異なる画像列から得られる虹彩位置と顔特徴点を利用することで、眼球中心と顔特徴点の関係をモデル化し（行列Ｓを特定し）、その後、その関係に基づいて推定された入力画像中の眼球中心位置と虹彩位置の関係から視線方向の角度α、βを決定する。

視線サーバ１８が視線方向の角度α、βを検出した後、ぬいぐるみ１４のコンピュータ３２は図２０−２１に示すフローチャートを実行して、ぬいぐるみ１４の発話や動作を制御する。ただし、この図２０‐２１に示すフローチャートは、視線サーバ１８からの視線角度データが入力される都度、すなわちフレーム毎に繰り返し実行される。

図２０の最初のステップＳ１で、このようにして視線サーバ１８が推定した視線角度αおよびβのデータが、ぬいぐるみ１４のバス３４(図５)を通してコンピュータ３２に与えられる。

コンピュータ３２では、次のステップＳ３で、その角度データから視線１２Ａ（図２，３）の空間１０Ａにおける空間座標（ｘ，ｙ，ｚ）を計算する。

一方、ぬいぐるみ１４Ａおよび１４Ｂはそれぞれ、図６に示す区画ＸおよびＹに固定的に配置されている。したがって、このぬいぐるみ１４Ａおよび１４Ｂの存在する空間１０Ａ内の座標は既に計算されて、たとえばメモリ３６（図５）に記憶されている。

そこで、次のステップＳ５で、コンピュータ３２は、ステップＳ３で計算した視線の空間座標とメモリ３６内に蓄積されている各ぬいぐるみの座標とを比較し、ユーザ１２から見える範囲にぬいぐるみ１４Ａおよび／または１４Ｂが存在するかどうか、つまり、そのときユーザ１２にぬいぐるみ１４Ａおよび／または１４Ｂが見えているかどうかを判断する。

視線の座標が図６に外枠として示す「範囲外」の領域に含まれる座標に相当する場合には、このステップＳ５で“ＮＯ”が判断され、次のステップＳ７に進む。ただし、ステップＳ５で“ＹＥＳ”なら、つまり、そのときユーザ１２はぬいぐるみ１４Ａ，１４Ｂが見えているなら、ステップＳ９に進む。

ステップＳ７で、コンピュータ３２は、ぬいぐるみの内部状態を「０」に設定する。ただし、この「内部状態０」というのは「何もしない」ということであり、コンピュータ３２は図５に示すモータ制御ボード３８や音声入出力ボード４６に何も制御データを与えない。

ステップＳ５で“ＹＥＳ”となってステップＳ９に進んだとき、コンピュータ３２は、視線位置の座標（ｘ，ｙ，ｚ）データが、先に説明した図６の各区画Ａ‐ＣおよびＧ‐Ｉのそれぞれの範囲座標データのいずれかに該当するかどうか判断する。ただし、ぬいぐるみ１４Ａについては、さらに、区画Ｆに該当するかどうか、また、ぬいぐるみ１４Ｂに対しては区画Ｅに該当するかどうかを、判断する。各ぬいぐるみ１４Ａおよび１４Ｂにとって、区画Ａ‐ＣおよびＧ‐Ｉはかなり離れたところであり、ぬいぐるみ１４Ａにとっての区画Ｆ、ぬいぐるみ１４Ｂにとっての区画Ｅも同様に離れた場所であると認識できる。このように、ユーザ１２の視線位置がぬいぐるみ１４Ａ、１４Ｂから離れた場所にあるときには、ぬいぐるみ１４Ａおよび１４Ｂに「共同注視」という動作を行なわせる。

したがって、このステップＳ９で“ＹＥＳ”が判断されたときには、次のステップＳ１１で、コンピュータ３２は、ぬいぐるみ１４Ａおよび１４Ｂを、共同注視のモード、つまり内部状態「１」に設定する。共同注視とは、ユーザ１２のコミュニケーションを幾分消極的に誘発する行為で、このモードでは、コンピュータ３２は、ユーザ１２の視線１２Ａ（図２，３）の方向を追うように、ぬいぐるみ１４Ａおよび／または１４Ｂの頭部２０（図４）および必要なら眼球２８を動かすように、モータ制御ボード３８に制御データを与える。このときの制御データは、メモリ３６の動き-音声反応対応テーブル３６Ａに予めこのモード（内部状態１）のために設定されているものを読み出して、モータ制御ボード３８に与える。そして、モータ制御ボード３８から頭部モータ４２および必要に応じて眼球モータ４４に制御信号を与える。

なお、この実施例では、内部状態１のモードではぬいぐるみ１４Ａおよび１４Ｂからは、発話するようには設定されていない。したがって、このときぬいぐるみ１４Ａおよび１４Ｂのいずれも、ユーザ１２に対する呼びかけのような音声を出すことはない。しかしながら、「共同注視」によってユーザ１２の視線を追うような仕草をぬいぐるみ１４Ａ，１４Ｂがするので、ユーザの視線がぬいぐるみに向かっていなくても、そのようなぬいぐるみの動きに気づき、ぬいぐるみに関心を持ち始め、そこからコミュニケーションが引き出される可能性がある。

ステップＳ９で“ＮＯ”と判断したとき、すなわち、ユーザ１２の視線がぬいぐるみ１４Ａおよび／または１４Ｂの位置からそんなに離れていないと判断したとき、コンピュータ３２は、次のステップＳ１３で、ユーザ１２の視線１２Ａは、ぬいぐるみ１４Ａおよび／または１４Ｂの隣の区画に向けられているかどうか判断する。隣の区画とは、ぬいぐるみ１４Ａについては区画ＤまたはＥであり、ぬいぐるみ１４Ｂについては区画ＥまたはＦである。したがって、コンピュータ３２は、ステップＳ１３で、視線位置の座標（ｘ，ｙ，ｚ）データが、区画ＤまたはＥ、もしくはＥまたはＦのそれぞれの範囲座標データのいずれかに該当するかどうか判断する。

このステップＳ１３で“ＹＥＳ”が判断されるということは、ユーザ１２の視線位置がぬいぐるみ１４Ａおよび／または１４Ｂに隣接する区画に向けられていることを意味するので、コンピュータ３２は、ユーザ１２からコミュニケーションを誘発するように積極的に働きかけるように、各ぬいぐるみを制御する。

具体的には、コンピュータ３２は、ぬいぐるみ１４Ａおよび／または１４Ｂの内部状態を「２」に設定する。このモードでは、コンピュータ３２は、メモリ３６から読み出した当該モード用の制御コマンドに従って、ユーザの視線のある位置（区画）に近い方の腕を動かしたりする動作を行わせる。

たとえば、視線位置が区画Ｄであるときには、ぬいぐるみ１４Ａの右腕２４Ｒが動くように、コンピュータ３２は、ぬいぐるみ１４Ａのモータ制御ボード３８から右腕モータ４０Ｒに制御信号を与える。視線位置が区画Ｆであるときには、ぬいぐるみ１４Ｂの左腕２４Ｌが動くように、コンピュータ３２はぬいぐるみ１４Ｂのモータ制御ボード３８から左腕モータ４０Ｌに制御信号を与える。視線位置が区画Ｅであるなら、そのときコンピュータ３２は、ぬいぐるみ１４Ａのモータ制御ボード３８に制御コマンドを出力し、それによってぬいぐるみ１４Ａの左腕モータ４０Ｌに制御信号を与えるとともに、ぬいぐるみ１４Ａのモータ制御ボード３８にも制御コマンドを出力してぬいぐるみ１４Ｂの右腕モータ４０Ｒに制御信号を与える。したがって、この場合には、ぬいぐるみ１４Ａの左腕２４Ｌおよびぬいぐるみ１４Ｂの右腕２４Ｒがともに動かされる。

この内部状態２のモードでは、さらに、ぬいぐるみ１４Ａおよび／または１４Ｂからユーザ１２に対して発話による呼びかけを行う。たとえば、コンピュータ３２は、動き-音声反応対応テーブル３６Ａ（図５）から、「ねえねえ、○○さん」とか「おーい」とかの音声データを読出し、その音声データを音声入出力ボード４６に与える。そうすると、この音声入出力ボードからスピーカ４８に音声信号が与えられ、該当のぬいぐるみ１４Ａおよび／または１４Ｂのスピーカ４８からユーザ１２に対して呼びかけが行われる。

このように、この実施例の内部状態２のモードでは、ユーザの視線に近いほうのぬいぐるみの腕が動かされるだけでなく、ぬいぐるみから呼びかけがあるので、ユーザ１２は、先の内部状態１のときよりもさらに強く、ぬいぐるみの動きや声に気づき、ぬいぐるみに強く関心を持つ。したがって、ユーザ１２からのコミュニケーションがさらに強く引き出される可能性がある。

先のステップＳ１３で“ＮＯ”が判断されたとき、つまり、ユーザ１２の視線１２Ａの位置がぬいぐるみ１４Ａおよび１４Ｂの周辺の区画にはなくかつそれらに隣接する区画にもないときには、つまり、その視線１２Ａは区画ＸおよびＹのどちらかに向けられていることを意味する。すなわち、ステップＳ９で“ＮＯ”、ステップＳ１３で“ＮＯ”のときは、ユーザの視線は、ぬいぐるみ１４Ａ６および１４Ｂのどちらかに向けられている。したがって、次のステップＳ１７では、視線位置は区画ＸおよびＹつまり、ぬいぐるみ１４Ａおよび１４Ｂのいずれにあるかを判断する。ここでは、ぬいぐるみ１４Ａに対しては区画Ｙにあるか、ぬいぐるみ１４Ｂに対しては区画Ｘにあるか、という判断をしている。

ステップＳ１７で“ＮＯ”が判断されたとき、つまり、ぬいぐるみ１４Ａに対して視線位置が区画Ｘであるか、またはぬいぐるみ１４Ｂに対して視線位置が区画Ｙであるとき、図２１に示すステップＳ１９に進み、ユーザ１２によるコミュニケーションを確認するとともに、ユーザ１２とのコミュニケーションを実行する。

ステップＳ１９では、まず、該当するぬいぐるみ１４Ａおよび１４Ｂのどちらかのコンピュータ３２は、該当するぬいぐるみの内部状態を「３‐１」に設定する。そのため、このステップＳ１９では、コンピュータ３２は、メモリ３６の動き-音声反応対応テーブル３６Ａから内部状態３−１のための制御コマンドを読み出して、該当のぬいぐるみの動作や発話を制御する。

具体的には、コンピュータ３２はまず、テーブル３６Ａから読み出した音声メッセージデータを音声入出力ボード４６に設定することによって、このぬいぐるみ１４Ａまたは１４Ｂのスピーカ４８から「どうしたの」とか「お話したい？」などを発話し、ユーザ１２に呼びかけまたは問いかけを行なう。と同時に、コンピュータ３２は、テーブル３６Ａから読み出した動作制御データをモータ制御ボード３８に設定することによって、たとえば頭部モータ４２を制御して、ぬいぐるみ１４Ａまたは１４Ｂの首をかしげる動作を行なわせる。このときの動作は、ユーザ１２のコミュニケーションを確認する動作であり、先の発話と協働して、ユーザ１２に対して、ユーザからコミュニケーションするかどうかの確認の機能を果たす。

そして、次のステップＳ２１で、まず、該当するぬいぐるみ１４Ａおよび１４Ｂのどちらかのコンピュータ３２は、該当するぬいぐるみの内部状態を「３‐２」に設定する。そのため、このステップＳ２１では、コンピュータ３２は、メモリ３６の動き-音声反応対応テーブル３６Ａから内部状態３−２のための制御コマンドを読み出して、該当のぬいぐるみの動作や発話を制御する。

具体的には、コンピュータ３２はまず、テーブル３６Ａから読み出した動作制御データをモータ制御ボード３８に設定することによって、たとえば頭部モータ４２や右腕モータ４０Ｒもしくは左腕モータ４０Ｌを制御して、該当のぬいぐるみ１４Ａまたは１４Ｂにうなずく動作や、右腕２４Ｒまたは左腕２４Ｌを前に出して振るなどの動作を行なわせる。このときの動作は、ユーザ１２とのコミュニケーションを開始する動作である。それとともに、テーブル３６Ａから読み出した音声メッセージデータを音声入出力ボード４６に設定することによって、このぬいぐるみ１４Ａまたは１４Ｂのスピーカ４８から「うんうん」などの呼びかけ音声を発話し、ユーザ１２に呼びかけを行なう。このように、内部状態３‐２のときのぬいぐるみ１４Ａまたは１４Ｂの動作や発話によって、ユーザ１２とのコミュニケーションを開始することができる。

つまり、内部状態３‐１でユーザに対してコミュニケーションを開始させる働きかけを行ない、内部状態３‐２で実際にコミュニケーションを実行することができる。

なお、ステップＳ１７での“ＹＥＳ”を判断するときには、ユーザ１２の視線は反対側のぬいぐるみに向けられていることを意味し、この場合には、該当するぬいぐるみ１４Ａまたは１４Ｂのコンピュータ３２は、該当するぬいぐるみの内部状態を「４」に設定する。具体的には、コンピュータ３２は、動き-音声反応対応テーブル３６Ａから読み出した動作制御データをモータ制御ボード３８に設定することによって、たとえば右腕モータ４０Ｒまたは左腕モータ４０Ｌを制御して、反対側のぬいぐるみ１４Ｂまたは１４Ａに近い方の腕を動かす動作を行なわせる。このときの動作は、ユーザ１２とのコミュニケーションを実行しているぬいぐるみ１４Ａまたは１４Ｂとの連動した動作であり、そうさせることによってコミュニケーションをさらに継続させる効果が期待できる。

図２２はこの発明の他の実施例に従った制御回路の一例を示すブロック図で、先の実施例の図５に対応するものである。

この実施例は、テレビ電話機６０を設け、それをコンピュータ３２によって制御データきるようにした点を除いて、図５と同じである。そして、ＴＶ電話機６０は、ユーザ１２の近傍に配置され、ユーザ１２の全身または部分（たとえば顔など）が撮影可能なカメラ（図示せず）を有する。ＴＶ電話機６０はよく知られているように、そのようなカメラで撮影した動画をたとえば光回線のような電話回線６２を通して、相手方の同様のＴＶ電話機に送信するとともに、相手方からの動画をディスプレイ（図示せず）に表示できるようにされている。

この実施例において、コンピュータ３２がＴＶ電話機６０の動作を制御できる。つまり、図２３に示すように、ステップＳ２１でぬいぐるみ１４Ａまたは１４Ｂの動作モードを３‐２に設定してユーザ１２とのコミュニケーションを開始した後、ステップＳ２５でその状態が一定時間、たとえば３分間継続したかどうか判断し、“ＹＥＳ”のとき、次のステップＳ２７で、ＴＶ電話機６０をオンして、そのＴＶ電話機６０から、予め登録している電話番号に発呼する。ここで、登録している電話番号の例としては、ユーザと離れた家族の家のＴＶ電話機の電話番号、ユーザの介護または介助を担当している介護士などが見えるＴＶ電話機の電話番号などが考えられる。

そして、この実施例では、ユーザ１２とぬいぐるみ１４Ａまたは１４Ｂとの間のコミュニケーションが一定時間以上継続的に行なわれたとき、つまり、ユーザがぬいぐるみに関心をもったとき、ユーザを撮影するＴＶ電話機６０から自動的に発呼するようにすれば、上記家族や介護士などが、その状態でのユーザをＴＶ電話機で確認することができるので、たとえば認知症患者の行動を遠隔地で観察できる。

この図２２の実施例においても先の実施例と同様に、視線サーバ１８によってユーザ１２の視線１２Ａの方向または位置を推定し、その視線位置がどの区画にあるかによって異なる動作（発話および／または動き）をぬいぐるみ（擬人的媒体）１４に行わせるようにするので、ユーザからのコミュニケーションを誘発することができる。

なお、実施例で説明した、擬人的媒体すなわちぬいぐるみの動作（発話、動き）は単なる例示であり、ユーザの視線位置とそのぬいぐるみの位置との関係に応じて、任意の動作、たとえば、ユーザの関心を引くような動作、ユーザのコミュニケーションを継続させるための動作などを実行させることができる。

さらに、上述の実施例では、ユーザがぬいぐるみと一定時間コミュニケーションをしたときにＴＶ電話機６０を自動発呼させるようにしたが、ユーザの視線位置がぬいぐるみの位置になったとき、時間経過なしに直ちにＴＶ電話機から発呼させるようにしてもよい。

また、ユーザの視線位置がぬいぐるみの位置になったことを条件とするのではなく、たとえば図６の区画Ａ‐Ｉの適宜の区画にＴＶ電話機６０を設置しておき、ユーザの視線がその区画に向けられたら、そのことをトリガとしてＴＶ電話機の発呼処理を行なうようにしてもよい。

さらに、通信手段の例としてＴＶ電話機を挙げたが、通信手段はＴＶ電話機に限ることはなく、通常の音声電話機や携帯電話機、さらにはインタホンなど、ユーザと他の人との間で通信できる任意のものを含むことを理解されたい。したがって、たとえば、或る区画（図６）にインタホンを置いておき、ユーザの視線位置がその区画すなわちインタホンの位置に向けられたとき、つまり、ユーザがインタホンを注視したとき、そのインタホンを介してたとえば別の部屋の家族と会話できるようにすることなども容易に考えられる。このような制御は、視線サーバ１８が行なってもよいし、各ぬいぐるみの内蔵コンピュータ３２が行なってもよい。さらには、そのための別のコンピュータを設置することも可能である。

この発明の一実施例のコミュニケーション誘発システムの概念を示す図解図である。図１実施例におけるユーザとぬいぐるみとの平面的な位置関係およびユーザの視線角度を示す図解図である。図１実施例におけるユーザとぬいぐるみとの側面的な位置関係およびユーザの視線角度を示す図解図である。図１実施例において用いられるぬいぐるみの一例を示す図解図である。図１実施例におけるぬいぐるみの制御回路の一例を示すブロック図である。図１実施例におけるユニットの視線の位置を判定する区画の一例を示す図解図である。図１実施例における視線サーバのディスプレイに表示されているユーザの顔画像の一例を示す図解図である。図８は眉間候補領域を検出するためのフィルタを説明するための概念図である。図９は６分割矩形フィルタの他の構成を示す概念図である。図１０は眉間を中心とした画像領域を利用してＳＶＭによるモデル化を説明する図解図である。図１１は顔検出結果の例を示す図解図である。図１２は視線方向を決定するためのモデルを説明する概念図である。図１３はユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。図１４は視線サーバによる初期設定の処理動作を示すフロー図である。図１５はキャリブレーションにおいて撮影された４枚の画像フレームを示す図解図である。図１６は視線サーバが実行するリアルタイム視線検出の処理動作を示すフロー図である。図１７は右上方注視の状態での視線推定結果を示す図解図である。図１８は上方注視の状態での視線推定結果を示す図解図である。図１９は左下方向注視の状態での視線推定結果を示す図である。図１実施例におけるぬいぐるみのコンピュータの動作を示すフロー図である。図１実施例におけるぬいぐるみのコンピュータの動作の図２０の続きを示すフロー図である。この発明の他の実施例におけるぬいぐるみの制御回路の一例を示すブロック図である。図２２実施例におけるぬいぐるみのコンピュータの動作の図２０の続きを示すフロー図である。

符号の説明

１０ …コミュニケーション誘発システム
１４，１４Ａ，１４Ｂ …ぬいぐるみ
１６ …カメラ
１８ …視線サーバ
３２ …コンピュータ
３６Ａ …動き‐音声反応対応テーブル

Claims

ユーザが視認できる位置に配置した擬人的媒体によって前記ユーザからのコミュニケーションを誘発するコミュニケーション誘発システムであって、
前記ユーザの視線の位置を検出する視線位置検出手段、
前記擬人的媒体の位置に対する前記視線の位置を判定する位置判定手段、および
前記位置判定手段の判定結果に応じて前記擬人的媒体の動作を制御する動作制御手段を備える、コミュニケーション誘発システム。
前記動作制御手段は、前記視線が前記擬人的媒体の位置にあるとき、前記ユーザとコミュニケーションするように前記擬人的媒体の前記動作を制御する、請求項１記載のコミュニケーション誘発システム。
前記ユーザを撮影可能なカメラを有するテレビ電話機、
前記ユーザとのコミュニケーションがあったとき、前記テレビ電話機をオンして予め登録している電話番号に発呼する発呼制御手段をさらに備える、請求項２記載のコミュニケーション誘発システム。
ユーザと他の人との間で通信する通信手段、および
前記視線位置検出手段によって検出した前記ユーザの視線の位置が前記通信手段の位置に該当するとき前記通信手段を制御して前記ユーザと前記他の人との通信を可能にする手段をさらに備える、請求項１または２記載のコミュニケーション誘発システム。