JP2010112979A

JP2010112979A - インタラクティブ看板システム

Info

Publication number: JP2010112979A
Application number: JP2008282908A
Authority: JP
Inventors: Tomoko Yonezawa; 朋子米澤; Hirotake Yamazoe; 大丈山添; Akira Uchiumi; 章内海; Shinji Abe; 伸治安部
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2008-11-04
Filing date: 2008-11-04
Publication date: 2010-05-20

Abstract

【構成】インタラクティブ看板システム１０は、ユーザ１２の前方に配置された看板１４を含む。視線サーバ１８がカメラ１６で撮影したユーザ１２の顔の画像からユーザの視線の方向または位置を推定する。ぬいぐるみ２０に内蔵したコンピュータ（３６）は、ユーザの視線が看板１４のどの領域を見ているか判断し、その領域に関連する第１関連情報（概要説明）を一方のぬいぐるみの動作（発話および／または動き）を通して出力し、必要に応じて、他方のぬいぐるみが第１関連情報に続いて第２関連情報（詳細説明）を出力する。
【効果】インタラクティブな応答によって、看板による誘引効果を一層増進させることができる。関連情報出力を役割分担するので、多人数のユーザに対して効率的に対応できる。
【選択図】図１

Description

この発明はインタラクティブ看板案内システムに関し、特に、たとえばレストランなどの前に設置した看板型メニュー、複数の店を紹介したり地図を表示したりしている案内看板、ポスターセッションなどの展示看板あるいは可視情報を静止画像として表示する表示手段（以下、これらを総称して「看板」と呼ぶ。）を見ている多人数のユーザの視線を検出し、ユーザに対してインタラクティブに反応する、新規なインタラクティブ看板システムに関する。

電子的にメッセージ情報を表示することができる電子看板システムが特許文献１などで知られている。そして、たとえば特許文献２には、そのような電子看板の表示装置におけるユーザの注視点あるいは注視タイミングに情報を表示する、看板システムが開示されている。

特許文献１や特許文献２に開示された看板システムでは、ユーザに対して効果的な広告情報の提供が可能になるという効果を期待できるものの、依然として、ユーザは看板を見るだけで、看板からは何の反応もユーザに対して起こさない。

これに対して、たとえば特許文献３には、ユーザが看板広告の中味についてより詳しい情報を望むときはその情報を電子看板装置の表示装置上に呼び出すことができる、インタラクティブな電子看板システムが開示されている。
特開２００４−７０２３２号公報［G09F 19/00 G06F 3/14 G09G 5/00］特開平１１−２４６０３号公報［G09F 9/00 A61B 3/113 G09F 27/00］登録実用新案公報第３１０２４３７号公報［G09F 19/00 G09F 15/00］

ただし、特許文献３の看板システムは、ユーザが望む情報をユーザがタッチパネルなどを操作してその電子看板装置に内蔵されているコンピュータを用いて情報を取得するだけで、いわば、コンピュータをユーザに一時的に操作可能に提供するだけのことである。しかも、この特許文献３の看板システムではユーザが欲しい情報を提供できるだけで、看板本来の機能を強化するものではない。

さらに、多人数のユーザが看板に到来したとき、ユーザに対する効率的な説明または案内を意図したものではない。

それゆえに、この発明の主たる目的は、新規な、インタラクティブ看板システムを提供することである。

この発明の他の目的は、特に多人数のユーザに対して効率的に反応できる、インタラクティブ看板システムを提供することである。

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために後述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。

第１の発明は、複数の領域を有しかつユーザが視認できる位置に配置した看板、ユーザの視線の位置を検出する視線位置検出手段、視線位置に基づいてユーザが見ている看板の領域を特定する領域特定手段、看板の領域に表示した可視情報に関連する関連情報を少なくとも第１関連情報および第２関連情報を含む部分的関連情報として記憶した記憶手段、領域特定手段が特定した領域に関連する第１関連情報を記憶手段から読み出して出力する第１出力手段、第１関連情報に続いて第２関連情報を出力する必要性の有無を判断する判断手段、および判断手段によって必要性があると判断したとき、第２関連情報を記憶手段から読み出して出力する第２出力手段を備える、インタラクティブ看板システムである。

第１の発明において、看板（１４：実施例で相当する部分を例示する参照符号。以下同様。）がユーザ（１２）の前方の、ユーザの視線が届く位置に配置される。視線位置検出手段（１６，１８）は、たとえば、カメラ（１６）によって撮影したユーザの顔画像を視線サーバ（１８）で処理することによって、ユーザの視線（１２Ａ）の方向または位置をリアルタイムに推定または検出する。領域特定手段（３６，Ｓ５，Ｓ７５）は、そのときのユーザの視線の方向または位置に基づいて、ユーザが看板のどの領域（Ａ１，Ａ２，…）を見ているかを特定する。そして、第１出力手段（３６，Ｓ９，Ｓ１５，Ｓ２１，Ｓ２７，Ｓ１０７）が記憶手段（４２）からその領域に表示されている可視情報に関連する第１関連情報を読み出して、たとえば、音声などによって出力する。第１関連情報は、たとえば当該領域の可視情報に関連する概要説明である。判断手段（３６，Ｓ２９，Ｓ１１１）は、たとえば看板前にユーザが未だ居るかどうか、あるいはそのユーザが看板などを未だ見ているかなどを判定することによって、第１関連情報、たとえば概要説明に続いて第２関連情報、たとえば当該領域の可視情報に関連する詳細情報を出力する必要があるかどうか判断する。判断手段によってその必要性があると判断したとき、第２出力手段（３６，Ｓ６７，Ｓ１１３）が記憶手段（４２）からその領域に表示されている可視情報に関連する第２関連情報を読み出して、たとえば、音声などによって出力する。

第１の発明によれば、ユーザの視線が看板のどの領域（可視情報）を見ているかによって、その可視情報に関連する関連情報を出力することができる。可視情報がたとえば特定の商品の画像（絵）である場合、関連情報としてはその商品の特性などをユーザにさらに訴求する情報にすることが考えられる。このような場合、ユーザがその商品の画像（絵）を見たときユーザに対してその商品の特性などがインタラクティブにユーザに伝達されるので、ユーザを当該商品に誘引する看板の機能や効果を一層増進させることができる。

また、たとえば展示物の案内看板である場合、関連情報としては、ユーザの視線によって特定した展示物の詳細情報を関連情報として出力する他、その展示物に対する混雑の程度などを関連情報として出力することにより、各展示物に対する観覧者の集中を防ぐなどの効果も期待できる。

さらに、また、まず第１出力手段によって第１関連情報たとえば概要説明を出力し、その後必要に応じて第２出力手段によって第２関連情報たとえば詳細情報を出力するようにしたので、看板前に多人数のユーザが集まってきても説明や案内を効率的に処理できる。たとえば、第１関連情報を受け取ったユーザが、その内容によってさらに第２関連情報を取得したいかどうか判断できる。必要を感じないユーザはその看板の前を離れたり、視線を看板とは別のところへ移動させたりする。そのような場合、判断手段が「必要性なし」を判断することになり、第２出力手段は第２関連情報を出力しない。したがって、第２関連情報の出力のために必要な時間が不要となり、次のユーザに即座に対応できるので、多人数のユーザに効率的に対処できる。

第２の発明は、視線位置検出手段は、看板を見ているユーザの顔を撮影可能に設置されたカメラ、およびカメラで撮影した画像を用いてユーザの視線の方向を計算する計算手段を含む、請求項１記載のインタラクティブ看板システムである。

第２の発明では、非接触でユーザの視線を検出するので、ユーザに何らかを操作を要求したり、ユーザに物理的または心理的負担をかけたりすることなく、自然なインタラクティブが可能となる。

第３の発明は、第１または第２の発明に従属し、擬人的媒体をさらに備え、第１出力手段および第２出力手段はともに、擬人的媒体を通じて第１関連情報および第２関連情報を出力するインタラクティブ看板システムである。

第３の発明では、たとえばぬいぐるみ型コミュニケーションロボットなどの擬人的媒体（エージェント）が用いられ、関連情報出力手段は、たとえば、そのぬいぐるみ型コミュニケーションロボットから音声で、あるいはそのコミュニケーションロボットの動作によって、関連情報を出力する。したがって、ユーザに対して一層親しみのあるインタラクティブ看板システムが得られる。

第４の発明は、第３の発明に従属し、第１出力手段および第２出力手段は同じ擬人的媒体に含まれる、インタラクティブ看板システムである。

第５の発明は、第３の発明に従属し、第１出力手段および第２出力手段は別個の擬人的媒体によって構成され、判断手段によって必要性があると判断したとき第１出力手段を構成する擬人的媒体から第２出力手段を構成する擬人的媒体に交代する、インタラクティブ看板システムである。

第６の発明は、第５の発明に従属し、別個の擬人的媒体の役割分担は変更可能である、インタラクティブ看板システムである。

第６の発明では、第１出力手段を構成するまたは第１出力手段として機能する擬人的媒体と、第２出力手段を構成するまたは第２出力手段として機能する擬人的媒体を適宜変更または交代できるので、多人数ユーザに対してさらに柔軟に、迅速に対応することができる。

ただし、別個の擬人的媒体の役割分担を、変更可能にではなく、固定的に設定しておくことも可能である。

なお、この発明の看板は、可視情報を固定的に表示したものであってよく、あるいは電子看板のように可視情報を変更できる看板であってもよい。また、平面的な看板に限らず、たとえば店頭のサンプルメニューや商品棚など、立体的な案内対象であってもよい。

この発明によれば、ユーザが看板のどの領域を見ているかによって、その領域に関連する関連情報を出力するようにしているため、看板と関連情報とを組み合わせることによって、看板のユーザに対する吸引または誘引機能を一層増進させることができる。しかも、少なくとも第１関連情報および第２関連情報に分けた部分関連情報を必要に応じて出力するので、多人数のユーザに対して効率的に対応することができる。

この発明の上述の目的，その他の目的，特徴，および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１に示すこの発明の一実施例のインタラクティブ看板システム（以下、単に「看板システム」と呼ぶこともある。）１０は、たとえばユーザ1２の視線を検出することによって、ユーザ１２が注視している看板１４（たとえばレストランなどの前に設置したメニュー看板、店を紹介したり地図を表示したりしている案内看板、ポスターセッションなどの展示看板（あるいはそれらの可視情報を静止画像として表示する表示手段）を含む。）の位置または領域がどこであるか判断し、その位置または領域に関連する関連情報をたとえば音声メッセージとして出力するものである。ただし、平面的な看板に限らず、たとえば店頭のサンプルメニューや商品棚など、立体的な案内対象であってもよい。これらの立体的な案内対象も平面看板と同様にこの発明を適用できるので、これらも含めて「看板」と呼ぶことにする。

ユーザ１２の視線方向または位置は、後に詳しく説明するように、サーバ１８がカメラ１６からの顔画像データまたは信号を処理することによって、リアルタイムで検出または判定する。

看板１４は図２に示すように、複数の領域Ａ１，Ａ２，…に区分でき、各領域Ａ１，Ａ２，…には、個別の可視情報（図示せず）が固定的に表示されている。つまり、この看板１４は、その表示面に可視情報を描いたまたは印刷した一般的な看板やポスターであってよく、表示内容を可変する電子看板でなくてもよい。ただし、電子看板の使用を排除するものではない。ただし、このような看板１４の上に設定される領域の数やそれらの領域に個別に表示される可視情報は、その看板が何の目的の看板であるかによって、当然、任意に変更され得ることは容易に理解されよう。

この実施例の看板システム１０では、ユーザ１２の主として顔を撮影するカメラ１６を用いて、ユーザ１２の視線の方向や位置をリアルタイムで検出し、その視線の方向や位置に応じて、擬人的媒体の一例である、ぬいぐるみ型コミュニケーションロボット（以下、単に「ぬいぐるみ」と呼ぶこともある。）２０の発話や動作を通じて、看板１４の領域Ａ１，Ａ２，…の個別の関連情報を、メッセージのような音声で出力することによって、ユーザ１２に対してインタラクティブな看板システムを実現する。

なお、実施例では、２体のぬいぐるみ２０Ａおよび２０Ｂを用いる。その理由は、看板１４を見ているユーザ１２に対して上述のメッセージを出力する際、２体のぬいぐるみ２０Ａと２０Ｂで役割分担をするためである。たとえば、一方のぬいぐるみ２０Ａが各領域の可視情報に関連する概要説明を出力し、他方のぬいぐるみ２０Ｂがその概要説明に後続する詳細説明を出力するように役割分担が可能である。

ただし、このように関連情報をたとえば第１関連情報（概要）と第２関連情報（詳細）とに分けた場合でも、その両方を１体のぬいぐるみで効率的に出力することもできる。つまり、ぬいぐるみ２０は１体でも２体でもよい。また、詳細説明を担当するぬいぐるみが２体以上いるなど、３体以上のぬいぐるみいてもかまわない。その場合の分担態様としては、概要説明を１体のぬいぐるみで担当し、詳細説明を２体以上のぬいぐるみで担当したり、３体以上のぬいぐるみが概要説明および詳細説明を交代で担当するなど、後述の実施例と同様に、任意に設定可能である。

なお、実施例では擬人的媒体としてぬいぐるみ２０を利用するが、擬人的媒体とは、人間のように発話できたり、あるいは人間のような動作ができたりする媒体のことであり、他の形式のヒューマノイドやコミュニケーションロボットなども、この擬人的媒体として十分機能できる。

また、図１の実施例では、看板１４の前に集まっているユーザ１２，１２，…のそれぞれの位置を特定するために、比較的広い画角を有する２台のカメラ２２Ａおよび２２Ｂが看板１４の周辺に設置される。看板１４の前にユーザ（人）が居るかどうかを判断するだけであれば、カメラは1台でもよい。しかしながら、この実施例では各ユーザ１２の位置を特定するようにしているので、２台のカメラ２２Ａおよび２２Ｂを用いる。ただし、先に説明した視線カメラ１６が、これらの位置カメラ２２Ａおよび２２Ｂの内の1台のカメラの役割を担うことも可能である。その場合には、カメラは２台で足りる。

図３は図１実施例を俯瞰した状態を図解する図解図であり、図４はそれを側面から見た図解図である。これらの図からわかるように、ユーザ１２の前方に、ユーザ１２が視認できるように看板１４が設置される。そして、カメラ１６はユーザ１２の顔前面を撮影できるように設置されている。

ユーザ１２の視線１２Ａが、看板１４に正対する方向の線vlineに対してずれている角度が旋回角αであり、視線１２Ａが水平線hlineに対してずれている角度が俯仰角βとして図１のサーバ１８によってリアルタイムに計算される。そして、ぬいぐるみ２０に関連して設けられる（内蔵される）コンピュータ３６（図６）がその検出角度αおよびβからその視線１２Ａの方向または位置を特定し、その視線１２Ａの方向または位置に応じて、ぬいぐるみ２０の動作および／または発話によって、ユーザ１２に対して領域関連情報を出力するのである。

図５にはぬいぐるみ２０が図示される。このぬいぐるみ２０は、頭部２４とそれを支える胴体２６とを含む。胴体２６の上部に左右の左腕２８Ｌおよび右腕２８Ｒが設けられ、頭部２４には、前面に口３０が配置され、その口３０の上方には眼球３２が設けられる。頭部２４の上部側面には耳３４が取り付けられている。

頭部２４は胴体２６によって、旋回・俯仰可能に支持され、また、眼球３２も可動的に保持されている。口３０にはスピーカ５４（図６）が内蔵されていて、耳３４にはマイク５６（図６）が内蔵されている。なお、マイク５６を両方の耳３４にそれぞれ内蔵すれば、ステレオマイクとして機能し、それによって、そのステレオマイクに入力された音声の位置を必要に応じて特定することができる。

図６はぬいぐるみ１４の制御回路を示すブロック図であり、この図６に示すように、実施例のぬいぐるみ２０にはコンピュータ３６が内蔵されていて、このコンピュータ３６が、通信路の一例であるバス３８を通して、図１に示すサーバ１８に結合される。

サーバ１８にはカメラインタフェースを介して、視線カメラ１６、位置カメラ２２Ａならびに２２Ｂからの映像信号（映像信号データ）が入力される。視線カメラ１６からの映像信号（データ）を後述のように計算処理することによって、サーバ１８は各ユーザ１２の視線の角度αおよびβ（図３）を特定ないし検出できる。サーバ１８はさらに、２台の位置カメラ２２Ａおよび２２Ｂからの映像信号（映像信号データ）を計算処理することによって、各ユーザ１２のそのときの位置を特定ないし検出することができる。ただし、このようなステレオカメラを用いて人間や物体の位置を特定する具体的な方法は既に周知であり、ここでは詳細は省略する。また、上述したように、視線カメラ１６からの映像信号データを用いてユーザ１２の位置を計算してもよい。

コンピュータ３６は、サーバ１８が特定または検出したユーザ１２の視線方向や位置を示すデータ（角度α，β）をこのバス３８を通して刻々受け取ることができる。ただし、通信路はバス３８であっても、その他の形式の通信路であっても、さらには無線であっても、有線であってもよい。

コンピュータ３６には、バス３８を介してメモリ４０が結合される。このメモリ４０には図示しないＲＯＭやＲＡＭが組み込まれていて、ＲＯＭには主として、後述のフローチャート（図２１-図２５）で表現されるプログラムが予め記憶されているとともに、ぬいぐるみ２０の各フェーズ（内部状態）の動作と発話（音声）とを対応的に設定している、領域‐関連情報テーブルの一例であるメッセージテーブル４２が予め設定されている。このメッセージテーブル４２は、ぬいぐるみ２０から関連情報として出力する発話や動作を各領域に対応させて設定したものである。ＲＡＭは、一時記憶メモリとして用いられるとともに、ワーキングメモリとして利用され得る。

モータ制御ボード４４は、たとえばＤＳＰ(Digital Signal Processor)で構成され、図５に示すぬいぐるみ２０の各腕や頭部の各軸モータを制御する。すなわち、モータ制御ボード４４は、コンピュータ３６からの制御データを受け、右腕２８Ｒ（図５）を前後や左右に動かすことができるように、Ｘ，ＹおよびＺ軸のそれぞれの角度を制御する３つのモータ（図６ではまとめて、「右腕モータ」として示す。）４６Ｒの回転角度を調節する。また、モータ制御ボード４４は、左腕２８Ｌの３つのモータ（図６ではまとめて、「左腕モータ」として示す。）４６Ｌの回転角度を調節する。モータ制御ボード４４は、また、頭部２４の旋回角や俯仰角を制御する３のモータ（図６ではまとめて、「頭部モータ」として示す。）４８の回転角度を調節する。モータ制御ボード４４は、また、眼球３２を動かす眼球モータ５０も制御する。

なお、上述のモータは、制御を簡単化するためにそれぞれステッピングモータまたはパルスモータであるが、直流モータであってよい。

スピーカ５４には音声入力／出力ボード５２を介して、コンピュータ３６から、合成音声データが与えられ、それに応じて、スピーカ５４からはそのデータに従った音声または声が関連情報として出力される。そして、マイク５６からの音声入力が、必要に応じて、
音声入力／出力ボード５８を介して、コンピュータ３６に取り込まれる。

センサ入力／出力ボード５８も、同様に、ＤＳＰで構成され、各センサやカメラからの信号を取り込んでコンピュータ３６に与えるが、実施例ではあまり関係がないので、ここでは、そのセンサなどの詳細な説明は省略する。

また、この実施例では、ぬいぐるみ２０が自律的に自己の動作や発話を制御する図６のような制御回路を持つものとして説明するが、１台またはそれ以上のコンピュータを制御回路として、ぬいぐるみ２０とは別に設けるようにしてもよい。

図７には関連情報テーブルすなわち実施例のメッセージテーブル４２の一例が図解される。このメッセージテーブル４２には、看板１４の領域Ａ１，Ａ２，…にそれぞれ対応する記憶場所が設定されている。各記憶場所には、領域Ａの範囲を示す座標データが設定されていて、その座標データは、たとえば領域Ａ１は、Ｘ座標（看板１４の横方向）の範囲がｘｎ１‐ｘｎ２でＹ座標（看板１４の縦方向）の範囲がｙｍ１−ｙｍ２であることを示す。そして、各記憶場所には関連情報を示すデータがまた個別に設定されている。先に説明したように、この実施例では、第１関連情報および第２関連情報に区分し、それぞれを２体のぬいぐるみ２０Ａおよび２０Ｂで分担して出力するようにしている。したがって、看板１４のたとえば各領域Ａ１，Ａ２，…の各々に対応して、可視情報に関連して、第１関連情報である概要説明データと、第２関連情報である詳細説明データとが、発話データとして設定されている。概要説明データは、その領域に表示されている可視情報の概要（概略）を説明するためのデータであり、詳細説明データは、その可視情報をさらに詳細に説明するためのデータである。

なお、実施例では第１関連情報および第２関連情報は、前者が概要説明データであり、後者が詳細データであるように、階層的に区分けしている。しかしながら、第１関連情報および第２関連情報は、実施例のように第１関連情報および第２関連情報を別のぬいぐるみ２０Ａおよび２０Ｂが出力する場合、そのような役割分担に適合しかつ多人数ユーザに効率的に対応できるという基準で区分けされていればよく、階層区分に限る意図ではない。

ただし、このメッセージテーブル４２には、ユーザ1２の視線が一点（１つの領域）
を注視していない場合などにユーザの興味を喚起することができるように「おすすめ説明データ」や「全般説明データ」をそれぞれ概要説明データおよび詳細説明データに区分して設定するようにしている。「おすすめ」とは、その看板１４に表示されている可視情報で特に注目してほしいものを説明するもので、たとえば、「一番上に出ている××は今注目の○○です。」と概要説明し、「この○○は、このような特徴があります。」のような詳細説明をする。「全般」とは、その看板１４に表示されている可視情報の全部について説明するもので、たとえば、「この看板には今秋発売の各社のディジタルカメラを表示しています。」と概要説明し、「一番上のＡＡ社のカメラは、このような特徴があります。」のような詳細説明をする。

このような実施例において、まず、ユーザ１２の視線を推定する方法について説明する。この実施例では、以下に説明するように、ユーザ１２の視線方向を推定または検出するために１つのカメラ（単眼カメラ）を用いるユニークな方法を採用している。しかしながら、ユーザ１２の視線１２Ａ（図３，図４）を検出する方法としては、２以上のカメラを利用する従来からの一般的な方法が採用されてもよいことは、勿論である。つまり、この発明では、ユーザ１２の視線を推定したり検出したりする必要はあるが、その具体的な方法は重要な意味を持たず、どのような公知の方法が用いられてもよい。

図１に示すように、ユーザ１２の前方に、たとえばＣＣＤ（Charge Coupled Device）
またはＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサのような固体撮像
素子を含むカメラ１６が設置され、このカメラ１６からの顔画像信号がサーバ１８に取り込まれ、視線サーバ１８が画像処理することによって、視線１２Ａの角度αおよびβを推定する。

図８に示すように、カメラ１６により撮影された画像は、サーバ１８に附属して設けたディスプレイ６０（図１では図示せず）の撮影画像表示領域６２にリアルタイムに動画として表示される。特に限定されないが、たとえば、撮影画像表示領域６２上に、視線方向を示す指標として、眉間から視線方向に延びる線分を表示してもよい。

サーバ１８は、一般的なコンピュータであり、特に変わったハードウェア構成ではないので、ハードウェア自体は説明しないが、視線方向や視線位置の推定は、以下に説明するソフトウェアにより実現される。

サーバ１８では、特徴点の追跡処理の安定性を確保するため、同一特徴点に関して異なるフレームにおける複数の観測テクスチャを保持している。初期校正過程では、これらの特徴点と虹彩中心の関係から顔特徴点と眼球中心の相対関係を求める。視線推定過程では、校正過程で得られた関係を元に現フレームで得られている特徴点群から眼球中心位置を推定し、その位置と虹彩中心位置から視線方向を決定する。

視線方向の推定処理の動作の前提として、まず、たとえば６分割矩形フィルタを利用して、顔検出処理が実行される。

サーバ１８では、特に限定されないが、たとえば、顔を連続撮影したビデオ画像を処理するにあたり、横が顔幅、縦がその半分程度の大きさの矩形フィルタで画面を走査する。矩形は、たとえば、３×２に６分割されていて、各分割領域の平均明るさが計算され、それらの相対的な明暗関係がある条件を満たすとき、その矩形の中心を眉間候補とする。

連続した画素が眉間候補となるときは、それを取囲む枠の中心候補のみを眉間候補として残す。残った眉間候補を標準パターンと比較してテンプレートマッチング等を行うことで、上述した手続きで得られた眉間候補のうちから、偽の眉間候補を捨て、真の眉間を抽出する。以下、さらに詳しく説明する。

図９は、眉間候補領域を検出するためのフィルタを説明するための概念図であり、図９（ａ）は、上述した３×２に６分割された矩形フィルタ（以下、「６分割矩形フィルタ」と呼ぶ）を示す。

６分割矩形フィルタは、(1) 鼻筋は両目領域よりも明るい、(2) 目領域は頬部よりも暗い、という顔の特徴を抽出し、顔の眉間位置を求めるフィルタである。たとえば、１点（ｘ、ｙ）を中心として、横ｉ画素、縦ｊ画素（ｉ，ｊ：自然数）の矩形の枠を設ける。そして、図９（ａ）のように、この矩形の枠を、横に３等分、縦に２等分して、６個のブロックＳ１〜Ｓ６に分割する。

このような６分割矩形フィルタを顔画像の両目領域および頬部に当てはめてみると、図９（ｂ）のようになる。

ただし、図９の６分割フィルタは各矩形領域が等分されたものであったが、このフィルタは図１０に示すように変形されてもよい。

鼻筋の部分が目の領域よりも通常は狭いことを考慮すると、ブロックＳ２およびＳ５の横幅ｗ２は、ブロックＳ１，Ｓ３，Ｓ４およびＳ６の横幅ｗ１よりも狭い方がより望ましい。好ましくは、幅ｗ２は幅ｗ１の半分とすることができる。図１０は、このような場合の６分割矩形フィルタの構成を示す。また、ブロックＳ１、Ｓ２およびＳ３の縦幅ｈ１と、ブロックＳ４、Ｓ５およびＳ６の縦幅ｈ２とは、必ずしも同一である必要もない。

図１０に示す６分割矩形フィルタにおいて、それぞれのブロックＳｉ（１≦ｉ≦６）について、画素の輝度の平均値「バーＳｉ」（Ｓｉに上付きの“−”をつける）を求める。

ブロックＳ１に１つの目と眉が存在し、ブロックＳ３に他の目と眉が存在するものとすると、以下の関係式（１）および（２）が成り立つ。

そこで、これらの関係を満たす点を眉間候補（顔候補）として抽出する。

矩形枠内の画素の総和を求める処理には、公知の文献（P. Viola and M. Jones, “ Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEEConf. CVPR, 1, pp.511-518, 2001）において開示されている、インテグラルイメージ（Integral Image）を利用した計算の高速化手法を取り入れることができる。インテグラルイメージを利用することでフィルタの大きさに依らず高速に実行することができる。多重解像度画像に本手法を適用することにより、画像上の顔の大きさが変化した場合にも顔候補の抽出が可能となる。

このようにして得られた眉間候補（顔候補）に対しては、両目の標準パターンとのテンプレートマッチングにより、真の眉間位置（真の顔領域）を特定することができる。

なお、得られた顔候補に対して、サポートベクトルマシン（ＳＶＭ）による顔モデルによる検証処理を適用し顔領域を決定することもできる。髪型の違いや髭の有無、表情変化による認識率の低下を避けるため、たとえば、図１１に示すように、眉間を中心とした画像領域を利用してＳＶＭによるモデル化を行うことができる。なお、このようなＳＶＭによる真の顔領域の決定については、文献：S. Kawato, N. Tetsutani and K. Hosaka: “Scale-adaptive face detection and tracking in real time with ssr fi1ters and support vector machine”, IEICE Trans．on Info. and Sys., E88−D, 12, pp．2857−2863（2005）に開示されている。６分割矩形フィルタによる高速候補抽出とＳＶＭによる処理とを組み合わせることで実時間の顔検出が可能である。

続いて、目、鼻や虹彩中心の位置を、公知の文献、たとえば『川戸、内海、安部：「４つの参照点と３枚のキャリブレーション画像に基づく単眼カメラからの視線推定」画像の認識・理解シンポジウム（MIRU2005），pp．1337−1342（2005）』あるいは、『川戸慎二郎、鉄谷信二：鼻位置の検出とリアルタイム追跡：信学技報IE2002−263、pp．25−29（2003）』などの手法を用いて抽出する。

両目の位置については、前節の顔領域検出で眉間のパターンを探索しているため、眉間の両側の暗い領域を再探索することにより、大まかな両目の位置を推定することができる。しかし、視線方向の推定のためには、虹彩中心をより正確に抽出する必要がある。ここでは、上で求めた目の周辺領域に対して、ラプラシアンにより虹彩のエッジ候補を抽出し、円のハフ変換を適用することにより、虹彩および虹彩の中心の投影位置を検出する。

鼻の位置は、鼻先が凸曲面であるため周囲に対し明るい点として観測されやすいことと、両目の位置から鼻の存在範囲が限定できることを利用して抽出する。また、両目、鼻の位置を用いて、大体の顔の向きも推定できる。

図１２は顔検出結果の例を示す図である。検出された顔において、虹彩中心や鼻先や口なども検出されている。たとえば、特徴点としては、鼻先や、左右の目の目尻や目頭、口の両端、鼻腔中心などを用いることができる。

視線の推定においては、視線方向は眼球中心と虹彩中心を結ぶ３次元直線として与えられるものとする。

図１３は視線方向を決定するためのモデルを説明する概念図である。画像上での眼球半径をｒ、画像上での眼球中心と虹彩中心との距離をdとすると、視線方向とカメラ光軸と
のなす角θは次式(３)で表される。

式（３）により、視線方向を推定するためには、画像上での眼球半径と眼球中心・虹彩中心の投影位置が必要となる。ここで、虹彩中心の投影位置については、上述したとおり、ハフ変換を用いた手法により求めることができる。画像上での眼球直径ｒは、解剖学的なモデル（標準的な人の眼球直径）を用いてもよいし、別途キャリブレーションにより求めてもよい。

図１４は、図１３に示した状態からユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。

眼球中心の投影位置については、一般には、画像から直接観測することはできない。しかし、ユーザ１２がカメラ１６を注視した場合について考えると、図１４に示すとおり、カメラ、虹彩中心、眼球中心の３点が１直線上に並ぶため、画像では虹彩中心と眼球中心は同一点に投影されることがわかる。

そこで、この実施例での視線推定では、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影し、これらの画像列から虹彩位置と顔特徴点を抽出、追跡することにより、眼球中心と顔特徴点間の相対幾何関係を推定する。

後により詳しく説明するように、この実施例の視線方向の推定では、眼球中心と顔特徴点間の相対関係の推定処理と眼球中心の投影位置推定とを行なう。

視線方向の推定のための初期設定として、サーバ１８は、図１５に示すフローチャートで表現されるキャリブレーションを実行する。

まず、キャリブレーション用の画像列として、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影する（ステップＳ１０２）。図１６は、このようにしてキャリブレーションにおいて撮影された４枚の画像フレームを示す。

ここでは、より一般に、Ｎ（Ｎ≧２）枚の画像列が得られたとする。各画像フレームを、フレームＩ1，…ＩＮとする。

次に、得られた各画像フレーム列に対して、上述したような方法によって顔検出処理を行い（ステップＳ１０４）、続いて、目や鼻の検出処理を行なう（ステップＳ１０６）。

さらに、視線サーバ１８は、特徴点の抽出、追跡を行う（ステップＳ１０８）。なお、特徴点の抽出方法としては、上述したような方法の他に、たとえば、文献：J. Shi and C. Tomasi: “Good features to track”，Proc. CVPR94, pp. 593−600（1994）で提案された手法を用いることもできる。

ここで、各画像フレームＩｉ（ｉ＝１，…，Ｎ）においてＭ（Ｍ≧４）点の特徴点ｐｊ（ｊ＝１，…，Ｍ）が検出・追跡できたとする。画像フレームＩｉにおける特徴点ｐｊの２次元観測位置をｘｊ（ｉ）（太字）＝［ｘｊ（ｉ），ｙｊ（ｉ）］ｔ（ｉ＝１，…，Ｎ，ｊ＝１，…，Ｍ）とし、両目の虹彩中心の２次元観測位置をそれぞれｘｒ（ｉ）（太字）＝［ｘｒ（ｉ），ｙｒ（ｉ）］ｔ，ｘｌ（ｉ）（太字）＝［ｘｌ（ｉ），ｙｌ（ｉ）］ｔ（ｉ＝１，…，Ｎ）とする。ここで、行列Ｗを以下のように定義する。

因子分解法により、特徴点の各フレームでの２次元観測位置を縦に並べた行列Ｗ（計測行列）は以下のように分解できる。

ここで、行列Ｍ（「撮影姿勢行列）と呼ぶ）にはカメラの姿勢に関する情報のみが、行列Ｓ（「相対位置関係行列」と呼ぶ）には観測対象物の形状に関する情報のみが含まれており、顔特徴点と眼球中心との３次元的な位置の相対関係は行列Ｓとして求まる（ステップＳ１１０）。すなわち、正射影を仮定すると、行列Ｍの各要素が画像フレームでのカメラの姿勢を表す単位ベクトルであって、それぞれの大きさが１であり相互には直交するとの拘束条件のもとで、行列Ｗは、特異値分解により一義的に行列Ｍと行列Ｓの積に分解できることが知られている。なお、このような計測行列Ｗを、因子分解により、カメラの運動の情報を表す行列と対象物の形状情報を表す行列へ分解する点については、文献：金出，ポールマン，森田：因子分解法による物体形状とカメラ運動の復元”，電子通信学会論文誌Ｄ−ＩＩ，J76‐D−II,8,pp.1497−1505(1993)に開示がある。

次に、以上で得られた結果を用いて、視線方向を推定する手順について説明する。

図１７は、リアルタイムの視線方向の推定処理のフローチャートを示す。

まず、カメラ１６から画像フレームを取得すると（ステップＳ２００）、キャリブレーション時と同様にして、顔の検出および目鼻の検出が行なわれ（ステップＳ２０２）、取得された画像フレーム中の特徴点が抽出される（ステップＳ２０４）。

画像フレームＩｋが得られたとする。ここで、眼球中心以外の特徴点のうちｍ点ｐｊ（ｊ＝ｊ１，…，ｊｍ）が、それぞれ、ｘｊ（ｋ）（太字）＝［ｘｊ（ｋ），ｙｊ（ｋ）］ｔに観測されたとする。このとき、観測された特徴点について、上述したように特徴点近傍のテンプレートを用いたテンプレートマッチングを実施することで、キャリブレーション時に特定された特徴点と現画像フレーム中で観測された特徴点との対応付けが行なわれて、現画像フレーム中の特徴点が特定される（ステップＳ２０６）。

なお、上述のとおり、特徴点を特定するためのテンプレートは、キャリブレーションの時のものに限定されず、たとえば、最近の画像フレームの所定枚数について検出された特徴点の近傍の所定の大きさの領域内の画像を所定個数だけ保持しておき、これら所定枚数のテンプレートについてマッチングをした結果、もっとも一致度の高い特徴点に特定することとしてもよい。

顔特徴点ｐｊの２次元観測位置ｘｊ（ｋ）（太字）＝［ｘｊ（ｋ），ｙｊ（ｋ）］ｔとキャリブレーションより求まった３次元位置ｓｊ（太字）＝［Ｘｊ，Ｙｊ，Ｚｊ］ｔ（ｊ＝１，…，Ｍ）の間には、Ｍ個の特徴点のうち観測されたｍ個の特徴点について注目すると、次式の関係が得られる。

ただし、行列Ｐ（ｋ）は２×３の行列である。右辺の第２項の行列Ｓ（ｋ）は行列Ｓのうち、観測された特徴点に対応する要素のみからなる部分行列である。上述の通り、カメラと顔は十分に離れているとし正射影を仮定している。ここで、４点以上の特徴点が観測されれば、行列Ｐ（ｋ）は以下のように計算できる（ステップＳ２０８）。

画像フレームＩｋにおける眼球中心の投影位置ｘｒ（ｉ）（太字），ｘｌ（ｉ）（太字）は、行列Ｐ（ｋ）を用いて以下のように計算できる（ステップＳ２１０）。

したがって、画像フレームＩｋにおいて特徴点として抽出した虹彩中心の投影位置とこの眼球中心の投影位置を用いると、視線の推定を行なうことができる（ステップＳ２１２）。

なお、行列ＰをＱＲ分解により分解することで、顔の姿勢Ｒが、以下のように計算できる。

ただしｒ１、ｒ２はそれぞれ１×３のベクトルである。このような顔の姿勢Ｒの検出については、文献：L．Quan: “Self-calibration of an affine camera from multiple views”，Int’l Journal of Computer Vision, 19, pp. 93−105（1996）に開示がある。

ユーザ等の指示により追跡が終了していると判断されれば（ステップＳ２１４）、処理は終了し、終了が指示されていなければ、処理はステップＳ２００に復帰する。

以上説明した視線方向の推定装置の有効性を確認するため、実画像を用いた実験を行った結果について以下に説明する。

カメラはElmo社製PTC−400Cを用い、被験者から約１５０［cm］の位置に設置した。

まず、５０フレームの画像列を用いて、眼球中心と顔特徴点のキャリブレーションを行った。キャリブレーション用の画像フレーム列の例は、図１６に示したとおりである。

キャリブレーション用画像フレーム列の撮影に要した時間は約３秒であった。

次に、キャリブレーションにより求まった顔モデル（行列Ｓ）を用いて、視線推定を行った。ここで、被験者はそれぞれ右上、上、左下の方向を注視しながら、顔の位置・向きを変化させた。

図１８〜図２０は、視線推定結果を示す。図１８は、右上方注視の状態であり、図１９は、上方注視の状態であり、図２０は、左下方向注視の状態である。ここで、視線方向は両目それぞれで計算された視線方向の平均値としている。結果より、顔の位置や向きの変化とは関係なく、視線方向が推定できた。

以上説明したとおり、この実施例の視線方向の推定方法では、単眼カメラの観測に基づいて顔特徴点を検出し、追跡することにより視線方向を推定する。つまり、まずキャリブレーションとして視線がカメラ方向を向いたまま顔の向きのみが異なる画像列から得られる虹彩位置と顔特徴点を利用することで、眼球中心と顔特徴点の関係をモデル化し（行列Ｓを特定し）、その後、その関係に基づいて推定された入力画像中の眼球中心位置と虹彩位置の関係から視線方向の角度α、βを決定する。

なお、上の説明では１人のユーザの視線方向を特定する方法が説明されているが、多人数のユーザの視線を検出する場合にも同じ方法が用いられ得る。つまり、カメラ１６からの映像信号データにおいて顔と思われるすべての領域について同じ視線計算を実行することによって、多人数ユーザの視線をリアルタイムで検出することができる。

サーバ１８が各ユーザ１２の視線方向の角度α、βを検出した後、ぬいぐるみ２０のコンピュータ３６は図２１‐図２３示すフローチャートを実行して、ぬいぐるみ２０からの関連情報の出力（発話や動作）を制御する。ただし、この図２１‐図２３に示すフローチャートは、サーバ１８からの視線角度データが入力される都度、すなわちフレーム毎に繰り返し実行される。

図２１は図1に示す２体のぬいぐるみ２０の一方である概要説明ロボットの動作を示し、図２３が他方のぬいぐるみ２０である詳細説明ロボットの動作を示す。最初に関連情報すなわちメッセージを発声するのは概要説明ロボットであるので、図２１の最初のステップＳ１で、その概要説明ロボットまたはぬいぐるみのコンピュータ３６（図６）が、前述のようにしてサーバ１８が推定した視線角度αおよびβのデータ、看板の前に存在するユーザ１２の各人の位置データを、ぬいぐるみ２０のバス３８(図６)を通して取り込む。

コンピュータ３６では、次のステップＳ３で、その角度データから視線１２Ａ（図３，４）の座標（ｘ，ｙ）を計算する。

ただし、２体のぬいぐるみのうちどちらが概要説明ロボットとなり、どちらが詳細説明ロボットとなるかは、固定的であっても、動的に変更されてもよい。たとえば図１の実施例で看板１４に乗っているぬいぐるみ２０Ａを概要説明ロボットとした場合、サーバ１８の上に乗っているように図示されているぬいぐるみ２０Ｂを詳細説明ロボットとすることができる。

動的に変更する場合であれば、たとえば新しく看板１４の前に来たユーザがどちらの方向から来たのかに応じて分担を決定することが考えられる。たとえば、新しいユーザが図１で左側から看板１４の前に来たとすると、看板１４に乗っているぬいぐるみ２０Ａが概要説明ロボットとなり、サーバ１８に乗っているぬいぐるみ２０Ｂを詳細説明ロボットとする。新しいユーザが図１の右側から進入してきたとすると、逆に、図１で右側にあるぬいぐるみ２０Ｂが概要説明ロボットとなり、図１で左側にあるぬいぐるみ２０Ａが詳細説明ロボットとなり得る。ただし、このような役割分担のアルゴリズムは単なる一例であり、別のアルゴリズムが考えられてもよい。

いずれにしても、概要説明ロボット２０のコンピュータ３６が上述のようにして、各ユーザの視線角度αおよびβのデータから視線１２Ａ（図３，４）の座標（ｘ，ｙ）を計算する（ステップＳ３）。

一方、図７に示すように、各領域Ａ１，Ａ２，…のそれぞれを規定するＸ座標の範囲およびＹ座標の範囲がメッセージテーブル４２に予め設定されている。そこで、次のステップＳ５で、コンピュータ３６は、ステップＳ３で計算した視線の座標をメッセージテーブル４２内に蓄積されている各領域の座標と対照することによって、そのときユーザ１２が見ている領域がどの領域かを特定する。

続くステップＳ７でコンピュータ３６は、ステップＳ３で計算した各ユーザ１２の視線の座標データに基づいて、看板１４において、２人以上のユーザの視線が集中している領域があるかどうか判断する。

複数のユーザの視線が集中している領域がある場合、このステップＳ７で“ＹＥＳ”が判断され、コンピュータ３６は次のステップＳ９に進み、当該視線集中領域に表示されている可視情報に関連する概要説明を出力する。たとえば、視線集中領域が、図２の領域Ａ１であったとすると、コンピュータ３６は、メッセージテーブル４２から領域Ａ１の概要説明データを読み出し、自身のメモリ４０（図６）に一時記憶した上で、口３０（図５）すなわちスピーカ５４（図６）から、Ａ１概要説明を音声として出力する。具体的な説明方法の一例が図２２に示される。

ただし、図２２に示す方法は、単に概要説明の場合に留まらず、詳細説明においても同様に行なわれる方法である。つまり、図２２は、ぬいぐるみ２０がユーザ１２に対して看板１４が表示している可視情報についての関連情報を音声出力する場合の一般的手法を示していて、概要説明か詳細説明かに拘わらず、また、どのような領域についての説明かに拘わらず、同様に適用され得る。

図２２のステップＳ４１で、概要説明ロボットとして機能するぬいぐるみのコンピュータ３６は、説明対象となるユーザの人数や各人の看板１４からの距離に応じて、発音音量（ボリューム）やジェスチャの大きさや態様を決定する。ボリューム制御は、たとえば、コンピュータ３６が音声入出力ボード５２においてボリュームを上げるような命令を付与することによって達成できる。ジェスチャ制御は、たとえば、コンピュータ３６がモータ制御ボード４４に適宜の命令を出力することによって、腕や頭などを適当に動かすことができる。

なお、各ユーザの看板からの距離は、先に説明したようにサーバ１８が２つの位置カメラ２２Ａおよび２２Ｂからの映像信号データを処理することによって得られた各ユーザが現に存在している座標のデータから容易に、たとえば３角関数などを用いて計算することができる。

そして、たとえば対象ユーザの数が多いときや、対象ユーザが看板から離れて立っている場合になどには、ボリュームを大きくし、説明のためのジェスチャの振幅を大きくするなどの対応が考えられる。あるいは、看板から遠いユーザが多い場合には、モータ制御ボボード４４に適宜の命令を出力することによって、腕２８Ｒ，２８Ｌ（図５）を上下に振って「おいでおいで」のジェスチャをさせることなども考えられる。

次のステップＳ４３で、コンピュータ３６は、説明対象の１人のユーザにぬいぐるみ２０の視線、すなわち頭２４の方向と目３２の方向を向ける。この場合にも、コンピュータ３６はモータ制御ボード４４に対して、頭２４と目３２を制御するための命令を与えればよい。ただし、複数のユーザが固まっている場合にはその固まりに視線を向けるようにしてもよい。

続くステップＳ４５で、コンピュータ３６は、そのぬいぐるみ２０に共同注視の動作を実行させる。つまり、説明している看板内の領域、この場合であれば視線が集中している領域Ａ１に視線すなわち頭２４の方向と目３２の方向を向けさせる。共同注視行動をさせることによって、ユーザをそのぬいぐるみによる説明に一層強く引き付ける効果が期待できる。

その状態で一定時間説明する（ステップＳ４７）。このとき、コンピュータ３６は、メモリ４０の適宜の領域に一時記憶している（概要）説明データを音声入出力ボード５２に与えることによって、その（概要）説明データを音声に変換してスピーカ５４から出力することができる。ステップＳ４９で、出力すべき説明データが残っているかどうか判断する。説明が終了したかどうかのステップＳ４９での判断は、たとえば１秒ごとに説明データが残っているかどうかチェックすることによって判断することができる。

ステップＳ４９で“ＮＯ”が判断された場合、つまり、出力すべき概要説明データがまだ残っている場合、次のステップＳ５１で、コンピュータ３６は、ステップＳ４３で視線を向けたユーザ以外の、他に対象ユーザがいるかどうか判断する。このステップＳ５１の判断においても、サーバ１８から受け取ったそのときのユーザの位置データを利用できる。

ステップＳ５１で“ＹＥＳ”が判断されたとき、先のステップＳ４３に戻って上記の動作を繰り返し実行する。ただし、このときの対象ユーザは先の対象ユーザとは異なる。ステップＳ５１“ＮＯ”が判断されたときは、先のステップＳ４９で“ＹＥＳ”が判断されたときと同じく、この図２２のルーチンを抜ける。このようにして、図２１のステップＳ９での視線集中領域についての第１関連情報すなわち概要説明の出力が終わる。

図２１のステップＳ７で“ＮＯ”が判断された場合、つまり、看板１４上でユーザの視線が集中している領域が特になかった場合、続くステップＳ１１において、概要説明ロボットとして機能しているぬいぐるみのコンピュータ３６は、１つの領域を長く、たとえば時間にして１０秒以上、注視しているユーザがいるかどうか判断する。このステップＳ１１では、各ユーザの視線の固定時間を計測することによって、判断できる。ただし、「固定」ではあるが、時々注視領域を外れたとしても、多少の揺らぎきや中断は当然考慮すべきであり、概ね継続して１つの領域を注視している場合には、ステップＳ１１で“ＹＥＳ”が判断される。

１つの領域を長く注視しているユーザがいる場合には、ステップＳ１３でそのユーザを対象ユーザに選定し、続くステップＳ１５で、先に説明したステップＳ９と同様にして、図２２の動作に従って、該当の注視領域の第１関連情報つまり概要説明を出力させる。ただし、このステップＳ１５では、ステップＳ９に比べて注視領域が違うだけで、他は同様であるので、ここでは繰り返しの説明はしない。

ステップＳ１１で“ＮＯ”を判断した場合、つまり、多数のユーザの視線が集中している領域や、１人（または複数の）ユーザに長時間注視されている領域がない場合、次のステップＳ１７において、コンピュータ３６は、ロボット（ぬいぐるみ）２０や看板１４に視線を向け、しかも、うなずくなどのジェスチャを頻繁に示すユーザがいるかどうか判断する。ユーザの視線がぬいぐるみや看板に向かっているかどうかは、ステップＳ３で計算した視線座標位置に基づいて判断することができる。そして、うなずく動作は、そのユーザの視線方向が上下に変位することによって、判断することができる。ただし、視線の上下動によってだけではなく、他の画像処理方法を利用してジェスチャの多いユーザかどうか判定することも可能である。

この実施例では、ステップＳ１７に示した動作をするユーザ、すなわちロボット（ぬいぐるみ）２０や看板１４を見ていて、かつ、うなずくなどのジェスチャを多く示しているユーザは、看板１４を見ていると判断して、そのユーザを説明対象として選定する（ステップＳ１９）。ただし、このような動作をするユーザは、看板１４は見ているものの、どこか特定の領域を注視しているという訳ではないので、次のステップＳ２１では、概要説明ロボットとして機能するぬいぐるみのコンピュータ３６は、図７に示すメッセージテーブル４２から「全般説明」に関する概要説明データを読み出し、スピーカ５４から全般概要説明を音声出力させる。この場合も、図２２に示す説明動作のフローチャートに従って説明動作を実行する。

ステップＳ１７においてコンピュータ３６が“ＮＯ”を判断した場合、次のステップＳ２３において、コンピュータ３６は、看板１４の前に存在するけれども、どこかの領域を注視している訳でもなく、かといって看板を興味深く見ているようなジェスチャをしている訳でもない、残りのユーザに着目し、その残りのユーザどうしが何らかのコミュニケーションを取っているかどうか判断する。たとえば、２人の視線が互いの方向に向けられている場合などは、「コミュニケーションあり」と判断することができる。さらには、サーバ１８で検出した各ユーザの位置関係を基準にしてコミュニケーションの有無を判断することもできる。

ユーザどうしがコミュニケーションしている状況では、それらのユーザを説明対象にしても関心を持って聞いてもらえないかもしれないので、この実施例では、ステップＳ２５では、相互にコミュニケーションをしていると推定できるユーザ以外のユーザを対象ユーザとして選定する。そして、先のステップＳ２１に進んで、全般概要説明を実行する。このとき対象としているユーザは、看板１４を見ているとも思えず、ユーザ同士の連絡もないようなので、この実施例では、看板全体の概要を説明してこの種のユーザの注意を喚起しようとしている。

ステップＳ２３で“ＮＯ”が判断されたとき、看板１４の前のユーザが特に看板を見ているようでもなく、ユーザどうしでコミュニケーションをとっているようでもない、看板の前にユーザが存在していてもユーザがある種ばらばらの状態のときには、コンピュータ３６は「おすすめ」の説明を出力する。つまり、ステップＳ２７では、概要説明ロボットとして機能するぬいぐるみのコンピュータ３６は、図７に示すメッセージテーブル４２から「おすすめ」に関する概要説明データを読み出し、スピーカ５４からおすすめ概要説明を音声出力させる。この場合も、図２２に示す説明動作のフローチャートに従って説明動作を実行する。

このようにして、ステップＳ９、Ｓ１５、Ｓ２１またはＳ２７を実行することによって、概要説明ロボットとして機能する一方のぬいぐるみ２０から看板１４の可視情報の概要説明（第１関連情報）の音声出力が行なわれる。

その後、概要説明側のぬいぐるみのコンピュータ３６は、次のステップＳ２９において、詳細説明（第２関連情報）を出力すべきかどうか判断する。具体的には、実施例では、看板を未だ見ているユーザが存在するとき、詳細説明の必要性があると判断することにしている。ただし、別のパラメータによって詳細説明の出力を行なう必要があるかどうか判断するようにしてもよい。

もし、このステップＳ２９で“ＹＥＳ”が判断されると、つまり、詳細説明を出力する必要があると判断した場合、次のステップＳ３１において、概要説明ロボットとして機能している側のぬいぐるみのコンピュータ３６は、詳細説明ロボットとして機能する側のぬいぐるみに説明（関連情報出力）をリレーする。そのためにこのステップＳ３１では、たとえば詳細説明ロボットとしてのぬいぐるみへ交代のサイン、たとえばアイコンコンタクトを送る。つまり、モータ制御ボード４４に必要な命令を与えることによって、概要説明ロボットとしてのぬいぐるみの視線を相手側に向ける。あるいは、「続いて説明してください。」なとど音声メッセージを詳細説明ロボットとして機能するぬいぐるみに与えるようにしてもよい。いずれにしても、このステップＳ３１で説明をバトンタッチする。したがって、それ以後は図２３のフローチャートに従って、詳細説明ロボットとして機能するぬいぐるみのコンピュータ３６が自身のぬいぐるみを制御する。

ただし、詳細説明ロボットとして機能するぬいぐるみ（のコンピュータ）に交代のサインを送ったけれどもそのぬいぐるみから、たとえばそのとき未だ別のユーザに対して説明中であるという理由で「交代不可」のサインが返送されてきたような場合、概要説明ロボットとして機能するぬいぐるみのコンピュータ３６は、その交代不可サイン（たとえばアイコンタクトやお願い音声出力など）を検知して、ステップＳ３３において、“ＹＥＳ”を判断する。不交代サインは、概要説明ロボットとして機能するぬいぐるみのコンピュータ３６が、詳細説明ロボットとして機能するぬいぐるみの顔が自身の方向に向けられたかどうか、あるいは該当する音声がマイク５６（図６）から入力されたかどうかなどを判断することによって、判断することができる。

なお、このような不交代サインは、この他にも、たとえば一方のぬいぐるみから無線信号や赤外線信号を送信し、他方のぬいぐるみがそれを受信できるようにすることによっても、一方から他方へ送ることができる。

ステップＳ３３で“ＮＯ”を判断した場合には、概要説明ロボットとして機能するぬいぐるみのコンピュータ３６は動作を終了するが、“ＹＥＳ”の場合には、次のステップＳ３５において、後に詳細に説明する図２３のステップＳ６７における場合と同様に、そのとき詳細説明ロボットとして機能するぬいぐるみに引き継ごうとしていた詳細説明、すなわち、視線集中領域に対する詳細説明、注視領域に対する詳細説明、全般に対する詳細説明およびおすすめの詳細説明のいずれかを実行する。

そして、概説明ロボットとして機能するぬいぐるみのコンピュータ３６は、先に説明したステップＳ４９と同様にして、そのステップＳ３５における詳細説明が終了したかどうかをステップＳ３７で判断する。ステップＳ３７で“ＮＯ”を判断したときにはステップＳ３５の詳細説明を繰り返す。そして、ステップＳ３７で“ＹＥＳ”と判断したとき、概要説明ロボットとして機能するぬいぐるみの動作は終了する。

図２３の最初のステップＳ６１において、詳細説明ロボットとして機能するぬいぐるみのコンピュータ３６が、概要説明ロボットとして機能するぬいぐるみから交代サイン（たとえばアイコンタクトやお願い音声出力など）が送られてきたかどうか判断する。このような交代サインは、詳細説明ロボットとして機能するぬいぐるみのコンピュータ３６が、概要説明ロボットとして機能するぬいぐるみの顔が自身の方向に向けられたかどうか、あるいは該当する音声がマイク５６（図６）から入力されたかどうかなどを判断することによって、判断することができる。

なお、このような交代サインは、この他にも、たとえば一方のぬいぐるみから無線信号や赤外線信号を送信し、他方のぬいぐるみがそれを受信できるようにすることによっても、一方から他方へ送ることができる。

次のステップＳ６３において、詳細説明ロボットとして機能するぬいぐるみのコンピュータ３６は、交代可能かどうか判断する。たとえば、そのときこの詳細説明ロボットとして機能するぬいぐるみが別のユーザに未だ説明している途中であれば、概要説明ロボットとして機能するぬいぐるみからの交代要求に応えられない。したがって、このステップＳ６３において、詳細説明ロボットとして機能するぬいぐるみのコンピュータ３６は、たとえば自身が別のユーザ１２に説明を行っているかどうかを判断することによって、交代可能かどうか判断する。

もし、このステップＳ６３において“ＮＯ”が判断されると、つまり、別のユーザ１２に説明を行っているなど、交代不可の場合には、詳細説明ロボットとして機能するぬいぐるみのコンピュータ３６は、ステップＳ６４１において、概要説明ロボットとして機能するぬいぐるみに対して前述の交代不可サインを送信して、交代できないことを知らせる。他方、その詳細説明ロボットとして機能するぬいぐるみからの詳細説明を待っているユーザをそのまま放置してその舞っているユーザに何もしないでいることは、システムに対する不信感を招来することにもなる。そこで、詳細説明ロボットとして機能するぬいぐるみのコンピュータ３６は、概要説明ロボットから新たに引き継いだユーザに対して待ってほしいことを伝えるために、次のステップＳ６４２において、現在の説明を継続しつつ、アイコンタクトを概要説明ロボット、新たに引き継いだユーザ、そして現在説明をしている別のユーザの順で行うなど、「説明途中なので少し待ってください。」というサインを詳細説明を待っている新たなユーザに送る。ただし、この待ってくださいというサインは、このようなアイコンタクトに限らず、任意の方法で発信することができる。たとえば、継続中の詳細説明を一時中断して、新しいユーザに「もう少し待ってね。」のような音声メッセージを発するようなことも考えられる。

ステップＳ６３において“ＹＥＳ”、つまり別ユーザに説明を行っているなどの交代を不可とする要因がないと判断される場合、コンピュータ３６は、次のステップＳ６５において、たとえば、ユーザにアイコンタクトして、またはユーザに向かって「おいでおいで」のジェスチャをして、あるいは「こちらで詳細説明をします。」などと発声することによって、そのとき図２１の概要説明を聞いていたユーザを詳細説明に引き寄せる（呼ぶ）。アイコンタクトをする場合、および「おいでおいで」のジェスチャをする場合には、コンピュータ３６は、先に説明したように、モータ制御ボード４４に適宜の命令を与えればよい。発声する場合には、コンピュータ３６は、音声入出力ボード５２に適宜の音声データを与えればよい。

その後、ステップＳ６７において、詳細説明ロボットとして機能するぬいぐるみのコンピュータ３６は、先の概要説明を引き継いで、該当する詳細説明を出力する。たとえば、交代サインで引き継いだのが図２１のステップＳ９での視線集中領域のための概要説明であった場合、メッセージテーブル４２から該当する詳細説明データ（第２関連情報）を読み出して、自身のメモリ４０に一時記憶した上で、音声入出力ボード５２へ音声データを出力することによって、視線集中領域の詳細説明を音声出力する。同じように、交代サインで引き継いだのが図２１のステップＳ１５での注視領域のための概要説明であった場合、メッセージテーブル４２から該当する詳細説明データ（第２関連情報）を読み出して、自身のメモリ４０に一時記憶した上で、音声入出力ボード５２へ音声データを出力することによって、注視領域の詳細説明を音声出力する。交代サインで引き継いだのが図２１のステップＳ２１での全般概要説明またはステップＳ２７でのおすすめ概要説明であった場合、メッセージテーブル４２から全般詳細説明データ（第２関連情報）またはおすすめ詳細説明データ（第２関連情報）を読み出して、自身のメモリ４０に一時記憶した上で、音声入出力ボード５２へ音声データを出力することによって、全般詳細説明またはおすすめ細説明を音声出力する。

このステップＳ６７での詳細説明においても、図２２に示した説明動作アルゴリズムに従って、音声ボリュームやジェスチャの大きさを決定したり、ユーザからユーザへの視線移動をしたり、共同注視動作をしたりすることは勿論である。

そして、ステップＳ６９で詳細説明が終了したかどうか判断し、“ＮＯ”ならステップＳ６７を繰り返し実行し、“ＹＥＳ”なら終了する。

図２１‐図２３で示す実施例は、２体のぬいぐるみが概要説明ロボットおよび詳細説明ロボットの役割を分担する実施例である。しかしながら、ぬいぐるみを１体だけ用い、１つのぬいぐるみによって概要説明／詳細説明を役割分担させるようにすることも考えられる。この場合には、図１実施例において、どちらか１つのぬいぐるみ２０が除去される以外、システムの全体構成に変更はない。

１体のぬいぐるみが役割分担する実施例の動作が図２４および図２５に図解れさる。ただし、図２４において、ステップＳ７１‐Ｓ７７，Ｓ８１，Ｓ８３，Ｓ８７，Ｓ８９，Ｓ９３およびＳ９５は、それぞれ、図２１で説明したステップＳ１‐Ｓ７，Ｓ１１，Ｓ１３，Ｓ１７，Ｓ１９，Ｓ２３およびＳ２５と同様であるためここでは重複説明は省略する。

図２１実施例と図２４実施例の違いは、図２１ではステップＳ９，Ｓ１５，Ｓ２１およびＳ２７で「概要説明」とあるのに対し、ステップＳ７９，Ｓ８５，Ｓ９１およびＳ９７において単に「説明」とされている点である。そして、図２４のステップＳ７９，Ｓ８５，Ｓ９１およびＳ９７の「説明」は、図２５の説明アルゴリズムに従って実行される。

図２５においてはまた、ステップＳ１０１，Ｓ１０３およびＳ１０５が、図２２のステップＳ４１，Ｓ４３およびＳ４５と同じであり、これらのステップの詳細説明もまたここでは省略する。

ステップＳ１０７では、ぬいぐるみのコンピュータ３６は、図２４のステップＳ７７，Ｓ８３，Ｓ８９またはＳ９５で決まる対象ユーザに向かって、先に説明した図２１のステップＳ９，Ｓ１５，Ｓ２１またはＳ２７と同じように、該当する第１関連情報（概要説明データ）を読み出して、スピーカ５４（図６）から第１関連情報（概要説明）を出力する。この概要説明は、ステップＳ１０９で終了を検出するまで継続して行なわれ、ステップＳ１０９で“ＹＥＳ”が判断されると、コンピュータ３６は次のステップＳ１１１に進む。

ステップＳ１１１では、第１関連情報の出力に続いて第２関連情報（詳細説明）を出力する必要があるかどうか判断する。つまり、このステップＳ１１１は、先のステップＳ３１と同じように、第１関連情報に続いて第２関連情報を出力する必要性の有無を判断する判断手段として機能する。この実施例では、そのために、先のステップＳ１０７の概要説明で対象としたユーザが未だ看板１４の前や周囲に残っているかどうか判断する。この判断は、サーバ１８から受け取る各ユーザの時々刻々の位置データを見ることによって判断できる。たとえば、前回の位置データと比較して、一定以内の距離に該当するユーザがいない場合などには、ステップＳ１１１で“ＮＯ”が判断される。

ステップＳ１１１で“ＮＯ”が判断されるということは、第１関連情報に続く第２関連情報の出力は不要だということを意味していて、その場合には、そのまま終了する。

ステップＳ１１１で“ＹＥＳ”と判断した場合、対象ユーザが残っているので、第２関連情報（詳細説明）を出力する必要がある。したがって、この場合には、ステップＳ１１３において、対象ユーザに対する詳細説明（第２関連情報）の出力が実行される。ただし、このステップＳ１１３は図２３のステップＳ６５と同じであるので、ここでも繰り返しの説明は省略する。

そして、ステップＳ１１５において詳細説明の終了が判断されたとき、そのまま終了する。

図２１‐図２３の実施例では２体のぬいぐるみがそれぞれ第１出力手段および第２出力手段を構成しているのに対して、図２４‐図２５の実施例は、第１関連情報を出力する第１出力手段と第２関連情報を出力する第２出力手段が同じ擬人的媒体に含まれるということができる。

ただし、第１関連情報や第２関連情報を出力するために擬人的媒体を用いない実施例も考えられる。その場合には、たとえば看板の周囲にスピーカだけを設置しておけばよい。

なお、上述の実施例では、２体のぬいぐるみで役割分担を動的に変更する場合、ユーザが看板の前に侵入してきた側のぬいぐるみが概要説明ロボットの役割を分担し、他方のぬいぐるみが詳細説明ロボットの役割を担うようにした。しかしながら、この役割分担の変更の態様はこれに限るものではない。

たとえば、概要説明ロボットとして機能しているぬいぐるみから、詳細説明ロボットとして機能する他方のぬいぐるみに引き継ぐとき、他方のぬいぐるみが、まだ引継ぎを受けられないときには、概要説明ロボットとして機能しているぬいぐるみが詳細説明ロボットの機能を分担するようにしてもよい。

さらに、２つのぬいぐるみがともに説明中であった場合、説明を早く終えたぬいぐるみが概要説明ロボットの機能を分担し、遅いぬいぐるみが詳細説明ロボットの機能を分担することも考えられる。

また、上述の実施例では看板として可視情報を平面的に表示している看板を例に挙げて説明した。平面的な看板の場合、ユーザの視線が向けられている看板上の領域を判断するときは、視線角度αおよびβで決まる２次元座標（Ｘ，Ｙ）だけに基づいて判断すればよい。つまり、平面看板の場合には、当該看板に到達する視線の奥行き方向の座標（Ｚ）は各領域について同一と看做してその都度判断する必要はない。

これに対して、この発明が同様に適用できるたとえば店頭のサンプルメニューや商品棚など、立体（３次元）的な案内対象（看板）の場合には、奥行き方向の座標をある程度検出しなければ、手前側のサンプルや商品棚に向けられた視線なのか、奥側のサンプルや商品棚に向けられた視線なのか判別できず、結果的にユーザが指向する「領域」を正確に特定することができない。したがって、３次元的な配置を有する看板の場合には、２次元座標以外に、ユーザの視線の到達位置すなわちＺ座標も判断する必要があるかもしれない。

さらに、上述の実施例ではいずれも、ユーザの視線が看板のどこを見たかによって音声などによって関連情報をインタラクティブに出力するようにした。さらに、視線だけでなく、ユーザの発話やユーザがしたジェスチャなどのさらに様々なモダリティの入力を考慮して関連情報を出力するようにしてもよい。

この発明の一実施例のインタラクティブ看板システムの概念を示す図解図である。図１実施例における看板の一例を示す図解図である。図１実施例におけるユーザと視線カメラとの平面的な位置関係およびユーザの視線角度を示す図解図である。図１実施例におけるユーザと視線カメラとの側面的な位置関係およびユーザの視線角度を示す図解図である。図１実施例において用いられるぬいぐるみの一例を示す図解図である。図１実施例におけるぬいぐるみの制御回路の一例を、サーバを付記して示すブロック図である。図６実施例におけるメッセージテーブル（領域-関連情報テーブル）の一例を示す図解図である。図１実施例における視線サーバのディスプレイに表示されているユーザの顔画像の一例を示す図解図である。図９は眉間候補領域を検出するためのフィルタを説明するための概念図である。図１０は６分割矩形フィルタの他の構成を示す概念図である。図１１は眉間を中心とした画像領域を利用してＳＶＭによるモデル化を説明する図解図である。図１２は顔検出結果の例を示す図解図である。図１３は視線方向を決定するためのモデルを説明する概念図である。図１４はユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。図１５は視線サーバによる初期設定の処理動作を示すフロー図である。図１６はキャリブレーションにおいて撮影された４枚の画像フレームを示す図解図である。図１7は視線サーバが実行するリアルタイム視線検出の処理動作を示すフロー図である。図１８は右上方注視の状態での視線推定結果を示す図解図である。図１９は上方注視の状態での視線推定結果を示す図解図である。図２０は左下方向注視の状態での視線推定結果を示す図である。図２１は図１のインタラクティブ看板システムの第１の実施例におけるぬいぐるみのコンピュータの動作を示すフロー図である。図２２は図２１実施例における説明動作を示すフロー図である。図２３は図２１に後続するぬいぐるみのコンピュータの動作を示すフロー図である。図２４は図１のインタラクティブ看板システムの第２の実施例におけるぬいぐるみのコンピュータの動作を示すフロー図である。図２５は図２４実施例における説明動作を示すフロー図である。

符号の説明

１０ …インタラクティブ看板システム
１４ …看板
１６ …カメラ
１８ …サーバ
２０ …ぬいぐるみ
３６ …コンピュータ
４２ …メッセージテーブル
Ａ１，Ａ２，… …領域

Claims

複数の領域を有しかつユーザが視認できる位置に配置した看板、
前記ユーザの視線の位置を検出する視線位置検出手段、
前記視線位置に基づいてユーザが見ている前記看板の領域を特定する領域特定手段、
前記看板の領域に表示した可視情報に関連する関連情報を少なくとも第１関連情報および第２関連情報を含む部分的関連情報として記憶した記憶手段、
前記領域特定手段が特定した領域に関連する第１関連情報を前記記憶手段から読み出して出力する第１出力手段、
前記第１関連情報に続いて第２関連情報を出力する必要性の有無を判断する判断手段、および
前記判断手段によって前記必要性があると判断したとき、前記第２関連情報を前記記憶手段から読み出して出力する第２出力手段を備える、インタラクティブ看板システム。
前記視線位置検出手段は、前記看板を見ている前記ユーザの顔を撮影可能に設置されたカメラ、および前記カメラで撮影した画像を用いて前記ユーザの前記視線の方向を計算する計算手段を含む、請求項１記載のインタラクティブ看板システム。
擬人的媒体をさらに備え、前記第１出力手段および前記第２出力手段はともに、前記擬人的媒体を通じて前記第１関連情報および前記第２関連情報を出力する、請求項１または２記載のインタラクティブ看板システム。
前記第１出力手段および前記第２出力手段は同じ擬人的媒体に含まれる、請求項３記載インタラクティブ看板システム。
前記第１出力手段および前記第２出力手段は別個の擬人的媒体によって構成され、前記判断手段によって前記必要性があると判断したとき前記第１出力手段を構成する擬人的媒体から前記第２出力手段を構成する擬人的媒体に交代する、請求項３記載インタラクティブ看板システム。
前記別個の擬人的媒体の役割分担は変更可能である、請求項５記載のインタラクティブ看板システム。