JP5103682B2

JP5103682B2 - インタラクティブ看板システム

Info

Publication number: JP5103682B2
Application number: JP2007275944A
Authority: JP
Inventors: 朋子米澤; 大丈山添; 章内海; 伸治安部
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2007-10-24
Filing date: 2007-10-24
Publication date: 2012-12-19
Anticipated expiration: 2027-10-24
Also published as: JP2009104426A

Description

この発明はインタラクティブ看板システムに関し、特に、たとえばレストランなどの前に設置した看板型メニュー、複数の店を紹介したり地図を表示したりしている案内看板、ポスターセッションなどの展示看板（以下、これらを総称して「看板」と呼ぶ。）を見ているユーザの視線を検出し、ユーザに対してインタラクティブに反応する、新規なインタラクティブ看板システムに関する。

電子的にメッセージ情報を表示することができる電子看板システムが特許文献１などで知られている。そして、たとえば特許文献２には、そのような電子看板の表示装置におけるユーザの注視点あるいは注視タイミングに情報を表示する、看板システムが開示されている。

特許文献１や特許文献２に開示された看板システムでは、ユーザに対して効果的な広告情報の提供が可能になるという効果を期待できるものの、依然として、ユーザは看板を見るだけで、看板からは何の反応もユーザに対して起こさない。

これに対して、たとえば特許文献３には、ユーザが看板広告の中味についてより詳しい情報を望むときはその情報を電子看板装置の表示装置上に呼び出すことができる、インタラクティブな電子看板システムが開示されている。
特開２００４−７０２３２号公報［G09F 19/00 G06F 3/14 G09G 5/00］特開平１１−２４６０３号公報［G09F 9/00 A61B 3/113 G09F 27/00］登録実用新案公報第３１０２４３７号公報［G09F 19/00 G09F 15/00］

ただし、特許文献３の看板システムは、ユーザが望む情報をユーザがタッチパネルなどを操作してその電子看板装置に内蔵されているコンピュータを用いて情報を取得するだけで、いわば、コンピュータをユーザに一時的に操作可能に提供するだけのことである。しかも、この特許文献３の看板システムではユーザが欲しい情報を提供できるだけで、看板本来の機能を強化するものではない。

それゆえに、この発明の主たる目的は、新規な、看板システムを提供することである。

この発明の他の目的は、ユーザに対してインタラクティブに反応することによって誘引効果を強化できる、インタラクティブ看板システムを提供することである。

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために後述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。

第1の発明は、複数の領域を有しかつユーザが視認できる位置に配置した看板と、看板に関連して設けられるカメラと、看板の近傍に配置される擬人化媒体とを含み、擬人化媒体は看板の領域を指差す指差し手段および音声を出力する音声出力手段を有する、インタラクティブ看板システムであって、カメラの映像に基づいてユーザの視線の位置を検出する視線位置検出手段、視線位置に基づいてユーザが見ている看板の領域を特定する領域特定手段、領域特定手段が特定した領域が擬人化媒体が指差した領域かどうか判断する第１判断手段、および看板の領域毎に各領域に表示した可視情報に関連する音声情報を記憶した記憶手段を備え、擬人化媒体は、第１判断手段が領域特定手段が特定した領域が擬人化媒体が指差した領域であると判断したとき、領域特定手段が特定した領域に関連する音声情報を記憶手段から読み出して音声メッセージとして音声出力手段によって出力する、インタラクティブ看板システムである。
第２の発明は、第１の発明に従属し、第１判断手段が、領域特定手段が特定した領域が擬人化媒体が指差した領域ではないと判断したとき、視線位置に基づいてユーザが同じ領域を所定時間以上見たかどうか判断する第２判断手段をさらに備え、擬人化媒体は、第２判断手段がユーザが同じ領域を所定時間以上見たと判断したとき、領域特定手段が特定した領域に関連する音声情報を記憶手段から読み出して音声出力手段によって出力する、インタラクティブ看板システムである。
第３の発明は、第１または第２の発明に従属し、記憶手段は、さらに、キョロキョロしているユーザに対する第１音声メッセージをさらに記憶しておき、第１判断手段が、領域特定手段が特定した領域が擬人化媒体が指差した領域ではないと判断したとき、そのときの領域特定手段が特定した領域が前回と同じ領域かどうか判断する第３判断手段をさらに備え、擬人化媒体は、第３判断手段が前回と同じではないと判断したとき、記憶手段から読み出した第１音声メッセージを音声出力手段によって出力する、インタラクティブ看板システムである。
第４の発明は、第１ないし第３の発明のいずれかに従属し、記憶手段は、さらに、ちょっと見たユーザに対する第２音声メッセージをさらに記憶しておき、第１判断手段が、領域特定手段が特定した領域が擬人化媒体が指差した領域ではないと判断したとき、同じ領域を所定時間以上見たかどうか判断する第４判断手段をさらに備え、擬人化媒体は、第４判断手段が所定時間以上でないと判断したとき、記憶手段から読み出した第２メッセージを出力する第２音声メッセージを音声出力手段によって出力する、インタラクティブ看板システムである。
なお、この発明の看板は、可視情報を固定的に表示したものであってよく、あるいは電子看板のように視情報を変更できる看板であってもよい。

この発明によれば、ユーザが看板のどの領域を見ているかによって、その領域に関連する関連情報を出力するようにしているため、看板と関連情報とを組み合わせることによって、看板のユーザに対する吸引または誘引機能を一層増進させることができる。

この発明の上述の目的，その他の目的，特徴，および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１に示すこの発明の一実施例のインタラクティブ看板システム（以下、単に「看板システム」と呼ぶこともある。）１０は、ユーザ１２の視線を検出することによって、ユーザ１２が注視しているメニュー看板１４の位置または領域がどこであるか判断し、その位置または領域に関連する関連情報をたとえば音声メッセージとして出力するものである。

ユーザ１２の視線方向または位置は、後に詳しく説明するように、視線サーバ１８がカメラ１６からの顔画像データまたは信号を処理することによって、リアルタイムで検出または判定する。

看板１４は図２に示すように、複数の（実施例では１３個の）領域Ａ１‐Ａ１３に区分でき、各領域Ａ１‐Ａ１３には、個別の可視情報Ｖ１‐Ｖ１３が固定的に表示されている。つまり、この看板１４は、その表示面に可視情報を描いたまたは印刷した一般的な看板であってよく、表示内容を可変する電子看板でなくてもよい。ただし、電子看板の使用を排除するものではない。

看板１４は、実施例では、レストランや食堂の前に立てかけられる看板型メニューであり、したがって、その表示面に表示されている可視情報Ｖ１‐Ｖ１３はいずれもそのレストラン等が提供できる食事や食品の画像（絵や写真）である。たとえば、領域Ａ１の可視情報Ｖ１は「ビール」の絵であり、領域Ａ２の可視情報Ｖ２は「ビフテキ」の絵であり、…、領域Ａ１３の可視情報Ｖ１３は「唐揚」の絵である。

ただし、このような看板１４の上に設定される領域の数やそれらの領域に個別に表示される可視情報は、その看板が何の目的の看板であるかによって、当然、任意に変更され得ることは容易に理解されよう。

この実施例の看板システム１０では、ユーザ１２の主として顔を撮影するカメラ１６を用いて、ユーザ１２の視線の方向や位置をリアルタイムで検出し、その視線の方向や位置に応じて、擬人的媒体の一例である、ぬいぐるみ型コミュニケーションロボット（以下、単に「ぬいぐるみ」と呼ぶこともある。）２０の発話や動作を通じて、看板１４の領域Ａ１‐Ａ１３の個別の関連情報を、メッセージ２２として出力することによって、ユーザ１２に対してインタラクティブな看板システムを実現する。

なお、実施例では擬人的媒体としてぬいぐるみ２０を利用するが、擬人的媒体とは、人間のように発話できたり、あるいは人間のような動作ができたりする媒体のことであり、他の形式のヒューマノイドやコミュニケーションロボットなども、この擬人的媒体として十分機能できる。

図３は図１実施例を俯瞰した状態を図解する図解図であり、図４はそれを側面から見た図解図である。これらの図からわかるように、ユーザ１２の前方に、ユーザ１２が視認できるように看板１４が設置される。そして、カメラ１６はユーザ１２の顔前面を撮影できるように設置されている。

ユーザ１２の視線１２Ａが、看板１４に正対する方向の線vlineに対してずれている角度が旋回角αであり、視線１２Ａが水平線hlineに対してずれている角度が俯仰角βとして図１の視線サーバ１８によってリアルタイムに計算される。そして、ぬいぐるみ２０に関連して設けられる（内蔵される）コンピュータ３２（図６）がその検出角度αおよびβからその視線１２Ａの方向または位置を特定し、その視線１２Ａの方向または位置に応じて、ぬいぐるみ２０の動作および／または発話によって、ユーザ１２に対して領域関連情報を出力するのである。

図５にはぬいぐるみ２０が図示される。このぬいぐるみ２０は、頭部２１とそれを支える胴体２３とを含む。胴体２３の上部に左右の左腕２４Ｌおよび右腕２４Ｒが設けられ、頭部２１には、前面に口２６が配置され、その口２６の上方には眼球２８が設けられる。頭部２１の上部側面は耳３０が取り付けられている。

頭部２１は胴体２３によって、旋回・俯仰可能に支持され、また、眼球２８も可動的に保持されている。口２６にはスピーカ４８（図５）が内蔵されていて、耳３０にはマイク５０（図６）が内蔵されている。なお、マイク５０を両方の耳３０にそれぞれ内蔵すれば、ステレオマイクとして機能し、それによって、そのステレオマイクに入力された音声の位置を必要に応じて特定することができる。

図６はぬいぐるみ１４の制御回路を示すブロック図であり、この図６に示すように、実施例のぬいぐるみ２０にはコンピュータ３２が内蔵されていて、このコンピュータ３２が、通信路の一例であるバス３４を通して、図１に示す視線サーバ１８に結合される。したがって、コンピュータ３２は、視線サーバ１８が特定または検出したユーザ１２の視線方向や位置を示すデータをこのバス３４を通して刻々受け取ることができる。ただし、通信路はバス３４であっても、その他の形式の通信路であっても、さらには無線であっても、有線であってもよい。

コンピュータ３２には、バス３４を介してメモリ３６が結合される。このメモリ３６には図示しないＲＯＭやＲＡＭが組み込まれていて、ＲＯＭには主として、後述のフローチャート（図２１）で表現されるプログラムが予め記憶されているとともに、ぬいぐるみ２０の各フェーズ（内部状態）の動作と発話（音声）とを対応的に設定している、領域‐関連情報テーブルの一例であるメッセージテーブル３６Ａが予め設定されている。このメッセージテーブル３６Ａは、ぬいぐるみ２０から関連情報として出力する発話や動作を各領域に対応させて設定したものである。ＲＡＭは、一時記憶メモリとして用いられるとともに、ワーキングメモリとして利用され得る。

モータ制御ボード３８は、たとえばＤＳＰ(Digital Signal Processor)で構成され、図５に示すぬいぐるみ２０の各腕や頭部の各軸モータを制御する。すなわち、モータ制御ボード３８は、コンピュータ３２からの制御データを受け、右腕２４Ｒ（図５）を前後や左右に動かすことができるように、Ｘ，ＹおよびＺ軸のそれぞれの角度を制御する３つのモータ（図６ではまとめて、「右腕モータ」として示す。）４０Ｒの回転角度を調節する。また、モータ制御ボード３８は、左腕２４Ｌの３つのモータ（図６ではまとめて、「左腕モータ」として示す。）４０Ｌの回転角度を調節する。モータ制御ボード３８は、また、頭部２１の旋回角や俯仰角を制御する３のモータ（図６ではまとめて、「頭部モータ」として示す。）４２の回転角度を調節する。モータ制御ボード３８は、また、眼球２８を動かす眼球モータ４４も制御する。

なお、上述のモータは、制御を簡単化するためにそれぞれステッピングモータまたはパルスモータであるが、直流モータであってよい。

スピーカ４８には音声入力／出力ボード４６を介して、コンピュータ３２から、合成音声データが与えられ、それに応じて、スピーカ４８からはそのデータに従った音声または声が関連情報として出力される。そして、マイク５０からの音声入力が、必要に応じて、音声入力／出力ボード４６を介して、コンピュータ３２に取り込まれる。

センサ入力／出力ボード５２も、同様に、ＤＳＰで構成され、各センサやカメラからの信号を取り込んでコンピュータ３２に与えるが、実施例ではあまり関係がないので、ここでは、そのセンサなどの詳細な説明は省略する。

また、この実施例では、ぬいぐるみ２０が自律的に自己の動作や発話を制御する図６のような制御回路を持つものとして説明するが、１台またはそれ以上のコンピュータを制御回路として、ぬいぐるみ２０とは別に設けるようにしてもよい。

図７には関連情報テーブルすなわち実施例のメッセージテーブル３６Ａの一例が図解される。このメッセージテーブル３６Ａには、看板１４の領域Ａ１‐Ａ１３にそれぞれ対応する記憶場所が設定されていて、各記憶場所には、領域Ａの範囲を示す座標データが設定されていて、その座標データは、たとえば領域Ａ１は、Ｘ座標（看板１４の横方向）の範囲がｘｎ１‐ｘｎ２でＹ座標（看板１４の縦方向）の範囲がｙｍ１−ｙｍ２であることを示す。そして、各記憶場所には関連情報ＳＭを示すデータがまた個別に設定されている。先に説明したように、この実施例では、看板１４のたとえば領域Ａ１には、可視情報Ｖ１として「ビール」の絵が描かれているので、関連情報でＳＭ１としてはたとえば「暑いですね。冷たいビールで一杯」という発話データが設定されている。このように関連情報はその領域に表示されている商品に関連していて、かつその商品の特性や詳細をユーザに対して訴求する音声メッセージおよび／または動作メッセージである。

ただし、このメッセージテーブル３６Ａには、ユーザ1２の視線が一点（１つの領域）を注視せず、「キョロキョロ」しているときに出力するための図示したメッセージ（発話／動作）が関連情報として設定されている。

実施例ではさらにまた、ユーザ１２の視線がちょっとだけ看板１４を見たときにユーザ１２を勧誘するための図示した発話／動作メッセージが関連情報の一種として設定されている。

このような実施例において、まず、ユーザ１２の視線を推定する方法について説明する。この実施例では、以下に説明するように、ユーザ１２の視線方向を推定または検出するために１つのカメラ（単眼カメラ）を用いるユニークな方法を採用している。しかしながら、ユーザ１２の視線１２Ａ（図３，図４）を検出する方法としては、２以上のカメラを利用する従来からの一般的な方法が採用されてもよいことは、勿論である。つまり、この発明では、ユーザ１２の視線を推定したり検出したりする必要はあるが、その具体的な方法は重要な意味を持たず、どのような公知の方法が用いられてもよい。

図１に示すように、ユーザ１２の前方に、たとえばＣＣＤ（Charge Coupled Device）
またはＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサのような固体撮像
素子を含むカメラ１６が設置され、このカメラ１６からの顔画像信号が視線サーバ１８に取り込まれ、視線サーバ１８が画像処理することによって、視線１２Ａの角度αおよびβを推定する。

図８に示すように、カメラ１６により撮影された画像は、視線サーバ１８に附属して設けたディスプレイ５４（図１では図示せず）の撮影画像表示領域５６にリアルタイムに動画として表示される。特に限定されないが、たとえば、撮影画像表示領域５６上に、視線方向を示す指標として、眉間から視線方向に延びる線分を表示してもよい。

視線サーバ１８は、一般的なコンピュータであり、特に変わったハードウェア構成ではないので、ハードウェア自体は説明しないが、視線方向や視線位置の推定は、いかに説明するソフトウェアにより実現される。

視線サーバ１８では、特徴点の追跡処理の安定性を確保するため、同一特徴点に関して異なるフレームにおける複数の観測テクスチャを保持している。初期校正過程では、これらの特徴点と虹彩中心の関係から顔特徴点と眼球中心の相対関係を求める。視線推定過程では、校正過程で得られた関係を元に現フレームで得られている特徴点群から眼球中心位置を推定し、その位置と虹彩中心位置から視線方向を決定する。

視線方向の推定処理の動作の前提として、まず、たとえば６分割矩形フィルタを利用して、顔検出処理が実行される。

視線サーバ１８では、特に限定されないが、たとえば、顔を連続撮影したビデオ画像を処理するにあたり、横が顔幅、縦がその半分程度の大きさの矩形フィルタで画面を走査する。矩形は、たとえば、３×２に６分割されていて、各分割領域の平均明るさが計算され、それらの相対的な明暗関係がある条件を満たすとき、その矩形の中心を眉間候補とする。

連続した画素が眉間候補となるときは、それを取囲む枠の中心候補のみを眉間候補として残す。残った眉間候補を標準パターンと比較してテンプレートマッチング等を行うことで、上述した手続きで得られた眉間候補のうちから、偽の眉間候補を捨て、真の眉間を抽出する。以下、さらに詳しく説明する。

図９は、眉間候補領域を検出するためのフィルタを説明するための概念図であり、図９（ａ）は、上述した３×２に６分割された矩形フィルタ（以下、「６分割矩形フィルタ」
と呼ぶ）を示す。

６分割矩形フィルタは、(1) 鼻筋は両目領域よりも明るい、(2) 目領域は頬部よりも暗い、という顔の特徴を抽出し、顔の眉間位置を求めるフィルタである。たとえば、１点（ｘ、ｙ）を中心として、横ｉ画素、縦ｊ画素（ｉ，ｊ：自然数）の矩形の枠を設ける。そして、図９（ａ）のように、この矩形の枠を、横に３等分、縦に２等分して、６個のブロックＳ１〜Ｓ６に分割する。

このような６分割矩形フィルタを顔画像の両目領域および頬部に当てはめてみると、図９（ｂ）のようになる。

ただし、図９の６分割フィルタは書く矩形領域が等分されたものであったが、このフィルタは図１０に示すように変形されてもよい。

鼻筋の部分が目の領域よりも通常は狭いことを考慮すると、ブロックＳ２およびＳ５の横幅ｗ２は、ブロックＳ１，Ｓ３，Ｓ４およびＳ６の横幅ｗ１よりも狭い方がより望ましい。好ましくは、幅ｗ２は幅ｗ１の半分とすることができる。図１０は、このような場合の６分割矩形フィルタの構成を示す。また、ブロックＳ１、Ｓ２およびＳ３の縦幅ｈ１と、ブロックＳ４、Ｓ５およびＳ６の縦幅ｈ２とは、必ずしも同一である必要もない。

図１０に示す６分割矩形フィルタにおいて、それぞれのブロックＳｉ（１≦ｉ≦６）について、画素の輝度の平均値「バーＳｉ」（Ｓｉに上付きの“−”をつける）を求める。

ブロックＳ１に１つの目と眉が存在し、ブロックＳ３に他の目と眉が存在するものとすると、以下の関係式（１）および（２）が成り立つ。

そこで、これらの関係を満たす点を眉間候補（顔候補）として抽出する。

矩形枠内の画素の総和を求める処理には、公知の文献（P. Viola and M. Jones, “ Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEE
Conf. CVPR, 1, pp.511-518, 2001）において開示されている、インテグラルイメージ（Integral Image）を利用した計算の高速化手法を取り入れることができる。インテグラルイメージを利用することでフィルタの大きさに依らず高速に実行することができる。多重解像度画像に本手法を適用することにより、画像上の顔の大きさが変化した場合にも顔候補の抽出が可能となる。

このようにして得られた眉間候補（顔候補）に対しては、両目の標準パターンとのテンプレートマッチングにより、真の眉間位置（真の顔領域）を特定することができる。

なお、得られた顔候補に対して、サポートベクトルマシン（ＳＶＭ）による顔モデルに
よる検証処理を適用し顔領域を決定することもできる。髪型の違いや髭の有無、表情変化による認識率の低下を避けるため、たとえば、図１１に示すように、眉間を中心とした画像領域を利用してＳＶＭによるモデル化を行うことができる。なお、このようなＳＶＭによる真の顔領域の決定については、文献：S. Kawato, N. Tetsutani and K. Hosaka: “Scale-adaptive face detection and tracking in real time with ssr fi1ters and support vector machine”, IEICE Trans．on Info. and Sys., E88−D, 12, pp．2857−2863（2005）に開示されている。６分割矩形フィルタによる高速候補抽出とＳＶＭによる処理とを組み合わせることで実時間の顔検出が可能である。

続いて、目、鼻や虹彩中心の位置を、公知の文献、たとえば『川戸、内海、安部：「４つの参照点と３枚のキャリブレーション画像に基づく単眼カメラからの視線推定」画像の認識・理解シンポジウム（MIRU2005），pp．1337−1342（2005）』あるいは、『川戸慎二郎、鉄谷信二：鼻位置の検出とリアルタイム追跡：信学技報IE2002−263、pp．25−29（2003）』などの手法を用いて抽出する。

両目の位置については、前節の顔領域検出で眉間のパターンを探索しているため、眉間の両側の暗い領域を再探索することにより、大まかな両目の位置を推定することができる。しかし、視線方向の推定のためには、虹彩中心をより正確に抽出する必要がある。ここでは、上で求まった目の周辺領域に対して、ラプラシアンにより虹彩のエッジ候補を抽出し、円のハフ変換を適用することにより、虹彩および虹彩の中心の投影位置を検出する。

鼻の位置は、鼻先が凸曲面であるため周囲に対し明るい点として観測されやすいことと、両目の位置から鼻の存在範囲が限定できることを利用して抽出する。また、両目、鼻の位置を用いて、大体の顔の向きも推定できる。

図１２は顔検出結果の例を示す図である。検出された顔において、虹彩中心や鼻先や口なども検出されている。たとえば、特徴点としては、鼻先や、左右の目の目尻や目頭、口の両端、鼻腔中心などを用いることができる。

視線の推定においては、視線方向は眼球中心と虹彩中心を結ぶ３次元直線として与えられるものとする。

図１３は視線方向を決定するためのモデルを説明する概念図である。画像上での眼球半径をｒ、画像上での眼球中心と虹彩中心との距離をdとすると、視線方向とカメラ光軸と
のなす角θは次式(３)で表される。

式（３）により、視線方向を推定するためには、画像上での眼球半径と眼球中心・虹彩中心の投影位置が必要となる。ここで、虹彩中心の投影位置については、上述したとおり、ハフ変換を用いた手法により求めることができる。画像上での眼球直径ｒは、解剖学的なモデル（標準的な人の眼球直径）を用いてもよいし、別途キャリブレーションにより求めてもよい。

図１４は、図１３に示した状態からユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。

眼球中心の投影位置については、一般には、画像から直接観測することはできない。しかし、ユーザ１２がカメラ１６を注視した場合について考えると、図１４に示すとおり、カメラ、虹彩中心、眼球中心の３点が１直線上に並ぶため、画像では虹彩中心と眼球中心は同一点に投影されることがわかる。

そこで、この実施例での視線推定では、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影し、これらの画像列から虹彩位置と顔特徴点を抽出、追跡することにより、眼球中心と顔特徴点間の相対幾何関係を推定する。

後により詳しく説明するように、この実施例の視線方向の推定では、眼球中心と顔特徴点間の相対関係の推定処理と眼球中心の投影位置推定とを行なう。

視線方向の推定のための初期設定として、視線サーバ１８は、図１５に示すフローチャートで表現されるキャリブレーションを実行する。

まず、キャリブレーション用の画像列として、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影する（ステップＳ１０２）。図１６は、このようにしてキャリブレーションにおいて撮影された４枚の画像フレームを示す。

ここでは、より一般に、Ｎ（Ｎ≧２）枚の画像列が得られたとする。各画像フレームを、フレームＩ1，…ＩＮとする。

次に、得られた各画像フレーム列に対して、上述したような方法によって顔検出処理を行い（ステップＳ１０４）、続いて、目や鼻の検出処理を行なう（ステップＳ１０６）。

さらに、視線サーバ１８は、特徴点の抽出、追跡を行う（ステップＳ１０８）。なお、特徴点の抽出方法としては、上述したような方法の他に、たとえば、文献：J. Shi and C. Tomasi: “Good features to track”，Proc. CVPR94, pp. 593−600（1994）で提案された手法を用いることもできる。

ここで、各画像フレームＩｉ（ｉ＝１，…，Ｎ）においてＭ（Ｍ≧４）点の特徴点ｐｊ（ｊ＝１，…，Ｍ）が検出・追跡できたとする。画像フレームＩｉにおける特徴点ｐｊの２次元観測位置をｘｊ（ｉ）（太字）＝［ｘｊ（ｉ），ｙｊ（ｉ）］ｔ（ｉ＝１，…，Ｎ，ｊ＝１，…，Ｍ）とし、両目の虹彩中心の２次元観測位置をそれぞれｘｒ（ｉ）（太字）＝［ｘｒ（ｉ），ｙｒ（ｉ）］ｔ，ｘｌ（ｉ）（太字）＝［ｘｌ（ｉ），ｙｌ（ｉ）］ｔ（ｉ＝１，…，Ｎ）とする。ここで、行列Ｗを以下のように定義する。

因子分解法により、特徴点の各フレームでの２次元観測位置を縦に並べた行列Ｗ（計測行列）は以下のように分解できる。

ここで、行列Ｍ（「撮影姿勢行列）と呼ぶ）にはカメラの姿勢に関する情報のみが、行列Ｓ（「相対位置関係行列」と呼ぶ）には観測対象物の形状に関する情報のみが含まれており、顔特徴点と眼球中心との３次元的な位置の相対関係は行列Ｓとして求まる（ステップＳ１１０）。すなわち、正射影を仮定すると、行列Ｍの各要素が画像フレームでのカメラの姿勢を表す単位ベクトルであって、それぞれの大きさが１であり相互には直交するとの拘束条件のもとで、行列Ｗは、特異値分解により一義的に行列Ｍと行列Ｓの積に分解できることが知られている。なお、このような計測行列Ｗを、因子分解により、カメラの運動の情報を表す行列と対象物の形状情報を表す行列へ分解する点については、文献：金出，ポールマン，森田：因子分解法による物体形状とカメラ運動の復元”，電子通信学会論文誌Ｄ−ＩＩ，J76‐D−II,8,pp.1497−1505(1993)に開示がある。

図１７は、リアルタイムの視線方向の推定処理のフローチャートを示す。

次に、以上で得られた結果を用いて、視線方向を推定する手順について説明する。

まず、カメラ１６から画像フレームを取得すると（ステップＳ２００）、キャリブレーション時と同様にして、顔の検出および目鼻の検出が行なわれ（ステップＳ２０２）、取得された画像フレーム中の特徴点が抽出される（ステップＳ２０４）。

画像フレームＩｋが得られたとする。ここで、眼球中心以外の特徴点のうちｍ点ｐｊ（ｊ＝ｊ１，…，ｊｍ）が、それぞれ、ｘｊ（ｋ）（太字）＝［ｘｊ（ｋ），ｙｊ（ｋ）］ｔに観測されたとする。このとき、観測された特徴点について、上述したように特徴点近傍のテンプレートを用いたテンプレートマッチングを実施することで、キャリブレーション時に特定された特徴点と現画像フレーム中で観測された特徴点との対応付けが行なわれて、現画像フレーム中の特徴点が特定される（ステップＳ２０６）。

なお、上述のとおり、特徴点を特定するためのテンプレートは、キャリブレーションの時のものに限定されず、たとえば、最近の画像フレームの所定枚数について検出された特徴点の近傍の所定の大きさの領域内の画像を所定個数だけ保持しておき、これら所定枚数のテンプレートについてマッチングをした結果、もっとも一致度の高い特徴点に特定することとしてもよい。

顔特徴点ｐｊの２次元観測位置ｘｊ（ｋ）（太字）＝［ｘｊ（ｋ），ｙｊ（ｋ）］ｔとキャリブレーションより求まった３次元位置ｓｊ（太字）＝［Ｘｊ，Ｙｊ，Ｚｊ］ｔ（ｊ＝１，…，Ｍ）の間には、Ｍ個の特徴点のうち観測されたｍ個の特徴点について注目すると、次式の関係が得られる。

ただし、行列Ｐ（ｋ）は２×３の行列である。右辺の第２項の行列Ｓ（ｋ）は行列Ｓのうち、観測された特徴点に対応する要素のみからなる部分行列である。上述の通り、カメラと顔は十分に離れているとし正射影を仮定している。ここで、４点以上の特徴点が観測されれば、行列Ｐ（ｋ）は以下のように計算できる（ステップＳ２０８）。

画像フレームＩｋにおける眼球中心の投影位置ｘｒ（ｉ）（太字），ｘｌ（ｉ）（太字）は、行列Ｐ（ｋ）を用いて以下のように計算できる（ステップＳ２１０）。

したがって、画像フレームＩｋにおいて特徴点として抽出した虹彩中心の投影位置とこの眼球中心の投影位置を用いると、視線の推定を行なうことができる（ステップＳ２１２）。

なお、行列ＰをＱＲ分解により分解することで、顔の姿勢Ｒが、以下のように計算できる。

ただしｒ１、ｒ２はそれぞれ１×３のベクトルである。このような顔の姿勢Ｒの検出については、文献：L．Quan: “Self-calibration of an affine camera from multiple views”，Int’l Journal of Computer Vision, 19, pp. 93−105（1996）に開示がある。

ユーザ等の指示により追跡が終了していると判断されれば（ステップＳ２１４）、処理は終了し、終了が指示されていなければ、処理はステップＳ２０２に復帰する。

以上説明した視線方向の推定装置の有効性を確認するため、実画像を用いた実験を行った結果について以下に説明する。

カメラはElmo社製PTC−400Cを用い、被験者から約１５０［cm］の位置に設置した。

まず、５０フレームの画像列を用いて、眼球中心と顔特徴点のキャリブレーションを行った。キャリブレーション用の画像フレーム列と抽出した特徴点の例は、図１５に示したとおりである。

キャリブレーション用画像フレーム列の撮影に要した時間は約３秒であった。（＋印は抽出された虹彩中心（眼球中心））、×印は追跡した顔特徴点）。

次に、キャリブレーションにより求まった顔モデル（行列Ｓ）を用いて、視線推定を行った。ここで、被験者はそれぞれ右上、上、左下の方向を注視しながら、顔の位置・向きを変化させた。

図１８〜図２０は、視線推定結果を示す。図１８は、右上方注視の状態であり、図１９は、上方注視の状態であり、図２０は、左下方向注視の状態である。ここで、視線方向は両目それぞれで計算された視線方向の平均値としている。結果より、顔の位置や向きの変化とは関係なく、視線方向が推定できた。

以上説明したとおり、この実施例の視線方向の推定方法では、単眼カメラの観測に基づいて顔特徴点を検出し、追跡することにより視線方向を推定する。つまり、まずキャリブレーションとして視線がカメラ方向を向いたまま顔の向きのみが異なる画像列から得られる虹彩位置と顔特徴点を利用することで、眼球中心と顔特徴点の関係をモデル化し（行列Ｓを特定し）、その後、その関係に基づいて推定された入力画像中の眼球中心位置と虹彩位置の関係から視線方向の角度α、βを決定する。

視線サーバ１８が視線方向の角度α、βを検出した後、ぬいぐるみ２０のコンピュータ３２は図２１に示すフローチャートを実行して、ぬいぐるみ２０からの関連情報の出力（発話や動作）を制御する。ただし、この図２１に示すフローチャートは、視線サーバ１８からの視線角度データが入力される都度、すなわちフレーム毎に繰り返し実行される。

図２１の最初のステップＳ１で、前述のようにして視線サーバ１８が推定した視線角度αおよびβのデータが、ぬいぐるみ２０のバス３４(図６)を通してコンピュータ３２に与えられる。

コンピュータ３２では、次のステップＳ３で、その角度データから視線１２Ａ（図３，４）の座標（ｘ，ｙ）を計算する。

一方、図７に示すように、各領域Ａ１‐Ａ１３のそれぞれを規定するＸ座標の範囲およびＹ座標の範囲がメッセージテーブル３６Ａに予め設定されている。そこで、次のステップＳ５で、コンピュータ３２は、ステップＳ３で計算した視線の座標をメッセージテーブル３６Ａ内に蓄積されている各領域の座標と対照することによって、そのときユーザ１２が見ている領域がどの領域かを特定する。

続くステップＳ７で、コンピュータ３２は、その領域は先にぬいぐるみ２０が指差しした領域かどうかを判定する。ぬいぐるみ２０が先にどの領域を指差したかは、コンピュータ３２自身がそのとき出力したモータ制御データを参照すれば、容易に把握できる。

もし、ステップＳ７で“ＹＥＳ”が判断されたとすると、コンピュータ３２は次のステップＳ９において、その領域に対応する関連情報を出力する。実施例では、関連情報の出力は擬人的媒体、ぬいぐるみ２０を通じて行なうので、その場合には、たとえば図７のメッセージテーブル３６Ａに設定している発話／動作メッセージをぬいぐるみ２０が出力するように、モータ制御ボード３６および音声入出ボード４６へ必要なモータ制御データおよび音声データを与える。

ステップＳ７で“ＮＯ”を判断したときには、コンピュータ３２は次のステップＳ１１で、ステップＳ５で特定した領域が前回と同じ領域かどうか判断する。

ステップＳ１１で“ＹＥＳ”のとき、コンピュータ３２は続くステップＳ１３で、同じ領域に視線を当てている状態が所定時間続いたかどうか、つまり、ユーザ１２が１つの領域を注視したかどうか判断する。

そして、ステップＳ１３で“ＹＥＳ”を判断したときには、先に説明したと同様にして、ステップＳ９で、当該領域の関連情報をたとえばぬいぐるみ２０によって出力させる。

ただし、ステップＳ１１で“ＮＯ”を判断したときは、コンピュータ３２はユーザ1２の視線が定まらず「キョロキョロ」している状態であると判断して、続くステップＳ１５において、図７のメッセージテーブル３６Ａに「キョロキョロ」しているときのために設定されている発話／動作メッセージをぬいぐるみ２０から出力する。たとえば、ぬいぐるみ２０が看板１４の特定の可視情報すなわち特定の領域を指差す動作をしながら、「いまが旬だよ」と発話するように、モータ制御ボード３６および音声入出ボード４６へ必要なモータ制御データおよび音声データを与える。

また、ステップＳ１３で“ＮＯ”を判断したときは、コンピュータ３２はユーザ1２の視線が看板１４をちょっと見た状態であると判断して、続くステップＳ１７において、図７のメッセージテーブル３６Ａに「ちょっと見た」ときのために設定されている発話および／または動作メッセージをぬいぐるみ２０から出力する。たとえば、ぬいぐるみ２０がユーザ１２に対して手招きするかのような動作をしながら、「ほかにもおいしいものがいっぱいあるよ」と発話するように、モータ制御ボード３６および音声入出ボード４６へ必要なモータ制御データおよび音声データを与える。

なお、上述の関連情報は単なる一例であり、看板１４の領域やそれらの領域に関連する関連情報の内容、ぬいぐるみ２０がどのような音声を発し、あるいはどのような動作をすべきかは、看板の目的や種類などによっての任意に変更され得る。

たとえば、ユーザの注視が安定しない場合には、各領域を決められた順番（お勧め順）で説明するのも、関連情報の出力の１つの態様である。同様に、ユーザの注視方向が看板ではない場合には、ユーザの興味を喚起するように、ぬいぐるみと看板とに交互にスポットライトを当てるようにする、なども考えられる関連情報の出力の仕方である。

また、他の関連情報の出力の態様は次のようであってよい。たとえば、ユーザが特定の領域を注視しているときには、その領域にスポットライト（図示せず）をあたるとともに、当該領域について説明する。さらには、ぬいぐるみ２０がその領域を見つつ、時々ユーザの方向を向く。そして、説明の区切りではユーザの視線方向を検出し、注視の対象が他に移った場合には、説明対象を切り換える。

図２２は図１実施例をポスターセッションに適用した例を簡単に示す図解図であり、この実施例において、看板１４はポスターセッションとして展示されたポスターである。ここでは、わかり易く、１枚のポスターが「太陽」について説明したもので、１枚のポスターが「月」について説明したもので、残りの１枚のポスターが「星」について説明したものであるとする。この場合、３枚のポスターが全体として、看板１４に相当し、各ポスターが領域Ａ１，Ａ２およびＡ３として区画できる。

なお、この実施例では、各ポスターは電子看板の態様を採り、展示内容は後方に設置したビデオプロジェクタ５４によってポスター表面に投影表示される。そして、適宜の場所にカメラ１６を設置してユーザがどのポスターすなわち領域を見ているかを検出するようにする。

そして、この実施例では関連情報出力のために擬人的媒体を用いない。したがって、たとえば、各ポスターの詳細な説明や補足情報を「関連情報」としてスピーカ（図示せず）から出力する。ただし、ユーザが見ているポスターの上かあるいはその近傍の適宜の場所にプロジェクタ５４からまたは別のプロジェクタによって、映像として関連情報を出力するようにしてもよい。

なお、上述の実施例では、視線の履歴と現在の視線方向からたとえばキョロキョロしているとか、ちょっと見たという状態を判断するようにしたが、さらに複雑な履歴に基づいてユーザの状態を判断して必要な関連情報を出力するようにしてもよい。

さらに、上述の実施例ではいずれも、ユーザの視線が看板のどこを見たかによって音声などによって関連情報をインタラクティブに出力するようにした。さらに、視線だけでなく、ユーザの発話やユーザがしたジェスチャなどのさらに様々なモダリティの入力を考慮して関連情報を出力するようにしてもよい。

この発明の一実施例のインタラクティブ看板システムの概念を示す図解図である。図１実施例における看板の一例を示す図解図である。図１実施例におけるユーザとぬいぐるみとの平面的な位置関係およびユーザの視線角度を示す図解図である。図１実施例におけるユーザとぬいぐるみとの側面的な位置関係およびユーザの視線角度を示す図解図である。図１実施例において用いられるぬいぐるみの一例を示す図解図である。図１実施例におけるぬいぐるみの制御回路の一例を示すブロック図である。図６実施例におけるメッセージテーブル（領域-関連情報テーブル）の一例を示す図解図である。図１実施例における視線サーバのディスプレイに表示されているユーザの顔画像の一例を示す図解図である。図９は眉間候補領域を検出するためのフィルタを説明するための概念図である。図１０は６分割矩形フィルタの他の構成を示す概念図である。図１１は眉間を中心とした画像領域を利用してＳＶＭによるモデル化を説明する図解図である。図１２は顔検出結果の例を示す図解図である。図１３は視線方向を決定するためのモデルを説明する概念図である。図１４はユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。図１５は視線サーバによる初期設定の処理動作を示すフロー図である。図１６はキャリブレーションにおいて撮影された４枚の画像フレームを示す図解図である。図１7は視線サーバが実行するリアルタイム視線検出の処理動作を示すフロー図である。図１８は右上方注視の状態での視線推定結果を示す図解図である。図１９は上方注視の状態での視線推定結果を示す図解図である。図２０は左下方向注視の状態での視線推定結果を示す図である。図１実施例におけるぬいぐるみのコンピュータの動作を示すフロー図である。この発明の実施例で利用できる看板の他の例を示す図解図である。

符号の説明

１０ …インタラクティブ看板システム
１４ …看板
１６ …カメラ
１８ …視線サーバ
２０ …ぬいぐるみ
３２ …コンピュータ
３６Ａ …メッセージテーブル
Ａ１-Ａ１３ …領域
Ｖ１-Ｖ１３ …可視情報

Claims

複数の領域を有しかつユーザが視認できる位置に配置した看板と、前記看板に関連して設けられるカメラと、前記看板の近傍に配置される擬人化媒体とを含み、前記擬人化媒体は前記看板の領域を指差す指差し手段および音声を出力する音声出力手段を有する、インタラクティブ看板システムであって、
前記カメラの映像に基づいて前記ユーザの視線の位置を検出する視線位置検出手段、
前記視線位置に基づいてユーザが見ている前記看板の領域を特定する領域特定手段、
前記領域特定手段が特定した領域が前記擬人化媒体が指差した領域かどうか判断する第１判断手段、および
前記看板の領域毎に各領域に表示した可視情報に関連する音声情報を記憶した記憶手段を備え、
前記擬人化媒体は、前記第１判断手段が前記領域特定手段が特定した領域が前記擬人化媒体が指差した領域であると判断したとき、前記領域特定手段が特定した領域に関連する音声情報を前記記憶手段から読み出して音声メッセージとして前記音声出力手段によって出力する、インタラクティブ看板システム。
前記第１判断手段が、前記領域特定手段が特定した領域が前記擬人化媒体が指差した領域ではないと判断したとき、前記視線位置に基づいて前記ユーザが同じ領域を所定時間以上見たかどうか判断する第２判断手段をさらに備え、
前記擬人化媒体は、前記第２判断手段が前記ユーザが同じ領域を所定時間以上見たと判断したとき、前記領域特定手段が特定した領域に関連する音声情報を前記記憶手段から読み出して前記音声出力手段によって出力する、請求項１記載のインタラクティブ看板システム。
前記記憶手段は、さらに、キョロキョロしているユーザに対する第１音声メッセージをさらに記憶しておき、
前記第１判断手段が、前記領域特定手段が特定した領域が前記擬人化媒体が指差した領域ではないと判断したとき、そのときの前記領域特定手段が特定した領域が前回と同じ領域かどうか判断する第３判断手段をさらに備え、
前記擬人化媒体は、前記第３判断手段が前回と同じではないと判断したとき、前記記憶手段から読み出した前記第１音声メッセージを前記音声出力手段によって出力する、請求項１または２記載のインタラクティブ看板システム。
前記記憶手段は、さらに、ちょっと見たユーザに対する第２音声メッセージをさらに記憶しておき、
前記第１判断手段が、前記領域特定手段が特定した領域が前記擬人化媒体が指差した領域ではないと判断したとき、同じ領域を所定時間以上見たかどうか判断する第４判断手段をさらに備え、
前記擬人化媒体は、前記第４判断手段が所定時間以上でないと判断したとき、前記記憶手段から読み出した第２音声メッセージを前記音声出力手段によって出力する、請求項１ないし３のいずれかに記載のインタラクティブ看板システム。