JP2010112979A - インタラクティブ看板システム - Google Patents

インタラクティブ看板システム Download PDF

Info

Publication number
JP2010112979A
JP2010112979A JP2008282908A JP2008282908A JP2010112979A JP 2010112979 A JP2010112979 A JP 2010112979A JP 2008282908 A JP2008282908 A JP 2008282908A JP 2008282908 A JP2008282908 A JP 2008282908A JP 2010112979 A JP2010112979 A JP 2010112979A
Authority
JP
Japan
Prior art keywords
user
related information
signboard
sight
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008282908A
Other languages
English (en)
Inventor
Tomoko Yonezawa
朋子 米澤
Hirotake Yamazoe
大丈 山添
Akira Uchiumi
章 内海
Shinji Abe
伸治 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2008282908A priority Critical patent/JP2010112979A/ja
Publication of JP2010112979A publication Critical patent/JP2010112979A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Controls And Circuits For Display Device (AREA)

Abstract

【構成】 インタラクティブ看板システム10は、ユーザ12の前方に配置された看板14を含む。視線サーバ18がカメラ16で撮影したユーザ12の顔の画像からユーザの視線の方向または位置を推定する。ぬいぐるみ20に内蔵したコンピュータ(36)は、ユーザの視線が看板14のどの領域を見ているか判断し、その領域に関連する第1関連情報(概要説明)を一方のぬいぐるみの動作(発話および/または動き)を通して出力し、必要に応じて、他方のぬいぐるみが第1関連情報に続いて第2関連情報(詳細説明)を出力する。
【効果】 インタラクティブな応答によって、看板による誘引効果を一層増進させることができる。関連情報出力を役割分担するので、多人数のユーザに対して効率的に対応できる。
【選択図】 図1

Description

この発明はインタラクティブ看板案内システムに関し、特に、たとえばレストランなどの前に設置した看板型メニュー、複数の店を紹介したり地図を表示したりしている案内看板、ポスターセッションなどの展示看板あるいは可視情報を静止画像として表示する表示手段(以下、これらを総称して「看板」と呼ぶ。)を見ている多人数のユーザの視線を検出し、ユーザに対してインタラクティブに反応する、新規なインタラクティブ看板システムに関する。
電子的にメッセージ情報を表示することができる電子看板システムが特許文献1などで知られている。そして、たとえば特許文献2には、そのような電子看板の表示装置におけるユーザの注視点あるいは注視タイミングに情報を表示する、看板システムが開示されている。
特許文献1や特許文献2に開示された看板システムでは、ユーザに対して効果的な広告情報の提供が可能になるという効果を期待できるものの、依然として、ユーザは看板を見るだけで、看板からは何の反応もユーザに対して起こさない。
これに対して、たとえば特許文献3には、ユーザが看板広告の中味についてより詳しい情報を望むときはその情報を電子看板装置の表示装置上に呼び出すことができる、インタラクティブな電子看板システムが開示されている。
特開2004−70232号公報[G09F 19/00 G06F 3/14 G09G 5/00] 特開平11−24603号公報[G09F 9/00 A61B 3/113 G09F 27/00] 登録実用新案公報第3102437号公報[G09F 19/00 G09F 15/00]
ただし、特許文献3の看板システムは、ユーザが望む情報をユーザがタッチパネルなどを操作してその電子看板装置に内蔵されているコンピュータを用いて情報を取得するだけで、いわば、コンピュータをユーザに一時的に操作可能に提供するだけのことである。しかも、この特許文献3の看板システムではユーザが欲しい情報を提供できるだけで、看板本来の機能を強化するものではない。
さらに、多人数のユーザが看板に到来したとき、ユーザに対する効率的な説明または案内を意図したものではない。
それゆえに、この発明の主たる目的は、新規な、インタラクティブ看板システムを提供することである。
この発明の他の目的は、特に多人数のユーザに対して効率的に反応できる、インタラクティブ看板システムを提供することである。
この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために後述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。
第1の発明は、複数の領域を有しかつユーザが視認できる位置に配置した看板、ユーザの視線の位置を検出する視線位置検出手段、視線位置に基づいてユーザが見ている看板の領域を特定する領域特定手段、看板の領域に表示した可視情報に関連する関連情報を少なくとも第1関連情報および第2関連情報を含む部分的関連情報として記憶した記憶手段、領域特定手段が特定した領域に関連する第1関連情報を記憶手段から読み出して出力する第1出力手段、第1関連情報に続いて第2関連情報を出力する必要性の有無を判断する判断手段、および判断手段によって必要性があると判断したとき、第2関連情報を記憶手段から読み出して出力する第2出力手段を備える、インタラクティブ看板システムである。
第1の発明において、看板(14:実施例で相当する部分を例示する参照符号。以下同様。)がユーザ(12)の前方の、ユーザの視線が届く位置に配置される。視線位置検出手段(16,18)は、たとえば、カメラ(16)によって撮影したユーザの顔画像を視線サーバ(18)で処理することによって、ユーザの視線(12A)の方向または位置をリアルタイムに推定または検出する。領域特定手段(36,S5,S75)は、そのときのユーザの視線の方向または位置に基づいて、ユーザが看板のどの領域(A1,A2,…)を見ているかを特定する。そして、第1出力手段(36,S9,S15,S21,S27,S107)が記憶手段(42)からその領域に表示されている可視情報に関連する第1関連情報を読み出して、たとえば、音声などによって出力する。第1関連情報は、たとえば当該領域の可視情報に関連する概要説明である。判断手段(36,S29,S111)は、たとえば看板前にユーザが未だ居るかどうか、あるいはそのユーザが看板などを未だ見ているかなどを判定することによって、第1関連情報、たとえば概要説明に続いて第2関連情報、たとえば当該領域の可視情報に関連する詳細情報を出力する必要があるかどうか判断する。判断手段によってその必要性があると判断したとき、第2出力手段(36,S67,S113)が記憶手段(42)からその領域に表示されている可視情報に関連する第2関連情報を読み出して、たとえば、音声などによって出力する。
第1の発明によれば、ユーザの視線が看板のどの領域(可視情報)を見ているかによって、その可視情報に関連する関連情報を出力することができる。可視情報がたとえば特定の商品の画像(絵)である場合、関連情報としてはその商品の特性などをユーザにさらに訴求する情報にすることが考えられる。このような場合、ユーザがその商品の画像(絵)を見たときユーザに対してその商品の特性などがインタラクティブにユーザに伝達されるので、ユーザを当該商品に誘引する看板の機能や効果を一層増進させることができる。
また、たとえば展示物の案内看板である場合、関連情報としては、ユーザの視線によって特定した展示物の詳細情報を関連情報として出力する他、その展示物に対する混雑の程度などを関連情報として出力することにより、各展示物に対する観覧者の集中を防ぐなどの効果も期待できる。
さらに、また、まず第1出力手段によって第1関連情報たとえば概要説明を出力し、その後必要に応じて第2出力手段によって第2関連情報たとえば詳細情報を出力するようにしたので、看板前に多人数のユーザが集まってきても説明や案内を効率的に処理できる。たとえば、第1関連情報を受け取ったユーザが、その内容によってさらに第2関連情報を取得したいかどうか判断できる。必要を感じないユーザはその看板の前を離れたり、視線を看板とは別のところへ移動させたりする。そのような場合、判断手段が「必要性なし」を判断することになり、第2出力手段は第2関連情報を出力しない。したがって、第2関連情報の出力のために必要な時間が不要となり、次のユーザに即座に対応できるので、多人数のユーザに効率的に対処できる。
第2の発明は、視線位置検出手段は、看板を見ているユーザの顔を撮影可能に設置されたカメラ、およびカメラで撮影した画像を用いてユーザの視線の方向を計算する計算手段を含む、請求項1記載のインタラクティブ看板システムである。
第2の発明では、非接触でユーザの視線を検出するので、ユーザに何らかを操作を要求したり、ユーザに物理的または心理的負担をかけたりすることなく、自然なインタラクティブが可能となる。
第3の発明は、第1または第2の発明に従属し、擬人的媒体をさらに備え、第1出力手段および第2出力手段はともに、擬人的媒体を通じて第1関連情報および第2関連情報を出力するインタラクティブ看板システムである。
第3の発明では、たとえばぬいぐるみ型コミュニケーションロボットなどの擬人的媒体(エージェント)が用いられ、関連情報出力手段は、たとえば、そのぬいぐるみ型コミュニケーションロボットから音声で、あるいはそのコミュニケーションロボットの動作によって、関連情報を出力する。したがって、ユーザに対して一層親しみのあるインタラクティブ看板システムが得られる。
第4の発明は、第3の発明に従属し、第1出力手段および第2出力手段は同じ擬人的媒体に含まれる、インタラクティブ看板システムである。
第5の発明は、第3の発明に従属し、第1出力手段および第2出力手段は別個の擬人的媒体によって構成され、判断手段によって必要性があると判断したとき第1出力手段を構成する擬人的媒体から第2出力手段を構成する擬人的媒体に交代する、インタラクティブ看板システムである。
第6の発明は、第5の発明に従属し、別個の擬人的媒体の役割分担は変更可能である、インタラクティブ看板システムである。
第6の発明では、第1出力手段を構成するまたは第1出力手段として機能する擬人的媒体と、第2出力手段を構成するまたは第2出力手段として機能する擬人的媒体を適宜変更または交代できるので、多人数ユーザに対してさらに柔軟に、迅速に対応することができる。
ただし、別個の擬人的媒体の役割分担を、変更可能にではなく、固定的に設定しておくことも可能である。
なお、この発明の看板は、可視情報を固定的に表示したものであってよく、あるいは電子看板のように可視情報を変更できる看板であってもよい。また、平面的な看板に限らず、たとえば店頭のサンプルメニューや商品棚など、立体的な案内対象であってもよい。
この発明によれば、ユーザが看板のどの領域を見ているかによって、その領域に関連する関連情報を出力するようにしているため、看板と関連情報とを組み合わせることによって、看板のユーザに対する吸引または誘引機能を一層増進させることができる。しかも、少なくとも第1関連情報および第2関連情報に分けた部分関連情報を必要に応じて出力するので、多人数のユーザに対して効率的に対応することができる。
この発明の上述の目的,その他の目的,特徴,および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1に示すこの発明の一実施例のインタラクティブ看板システム(以下、単に「看板システム」と呼ぶこともある。)10は、たとえばユーザ12の視線を検出することによって、ユーザ12が注視している看板14(たとえばレストランなどの前に設置したメニュー看板、店を紹介したり地図を表示したりしている案内看板、ポスターセッションなどの展示看板(あるいはそれらの可視情報を静止画像として表示する表示手段)を含む。)の位置または領域がどこであるか判断し、その位置または領域に関連する関連情報をたとえば音声メッセージとして出力するものである。ただし、平面的な看板に限らず、たとえば店頭のサンプルメニューや商品棚など、立体的な案内対象であってもよい。これらの立体的な案内対象も平面看板と同様にこの発明を適用できるので、これらも含めて「看板」と呼ぶことにする。
ユーザ12の視線方向または位置は、後に詳しく説明するように、サーバ18がカメラ16からの顔画像データまたは信号を処理することによって、リアルタイムで検出または判定する。
看板14は図2に示すように、複数の領域A1,A2,…に区分でき、各領域A1,A2,…には、個別の可視情報(図示せず)が固定的に表示されている。つまり、この看板14は、その表示面に可視情報を描いたまたは印刷した一般的な看板やポスターであってよく、表示内容を可変する電子看板でなくてもよい。ただし、電子看板の使用を排除するものではない。ただし、このような看板14の上に設定される領域の数やそれらの領域に個別に表示される可視情報は、その看板が何の目的の看板であるかによって、当然、任意に変更され得ることは容易に理解されよう。
この実施例の看板システム10では、ユーザ12の主として顔を撮影するカメラ16を用いて、ユーザ12の視線の方向や位置をリアルタイムで検出し、その視線の方向や位置に応じて、擬人的媒体の一例である、ぬいぐるみ型コミュニケーションロボット(以下、単に「ぬいぐるみ」と呼ぶこともある。)20の発話や動作を通じて、看板14の領域A1,A2,…の個別の関連情報を、メッセージのような音声で出力することによって、ユーザ12に対してインタラクティブな看板システムを実現する。
なお、実施例では、2体のぬいぐるみ20Aおよび20Bを用いる。その理由は、看板14を見ているユーザ12に対して上述のメッセージを出力する際、2体のぬいぐるみ20Aと20Bで役割分担をするためである。たとえば、一方のぬいぐるみ20Aが各領域の可視情報に関連する概要説明を出力し、他方のぬいぐるみ20Bがその概要説明に後続する詳細説明を出力するように役割分担が可能である。
ただし、このように関連情報をたとえば第1関連情報(概要)と第2関連情報(詳細)とに分けた場合でも、その両方を1体のぬいぐるみで効率的に出力することもできる。つまり、ぬいぐるみ20は1体でも2体でもよい。また、詳細説明を担当するぬいぐるみが2体以上いるなど、3体以上のぬいぐるみいてもかまわない。その場合の分担態様としては、概要説明を1体のぬいぐるみで担当し、詳細説明を2体以上のぬいぐるみで担当したり、3体以上のぬいぐるみが概要説明および詳細説明を交代で担当するなど、後述の実施例と同様に、任意に設定可能である。
なお、実施例では擬人的媒体としてぬいぐるみ20を利用するが、擬人的媒体とは、人間のように発話できたり、あるいは人間のような動作ができたりする媒体のことであり、他の形式のヒューマノイドやコミュニケーションロボットなども、この擬人的媒体として十分機能できる。
また、図1の実施例では、看板14の前に集まっているユーザ12,12,…のそれぞれの位置を特定するために、比較的広い画角を有する2台のカメラ22Aおよび22Bが看板14の周辺に設置される。看板14の前にユーザ(人)が居るかどうかを判断するだけであれば、カメラは1台でもよい。しかしながら、この実施例では各ユーザ12の位置を特定するようにしているので、2台のカメラ22Aおよび22Bを用いる。ただし、先に説明した視線カメラ16が、これらの位置カメラ22Aおよび22Bの内の1台のカメラの役割を担うことも可能である。その場合には、カメラは2台で足りる。
図3は図1実施例を俯瞰した状態を図解する図解図であり、図4はそれを側面から見た図解図である。これらの図からわかるように、ユーザ12の前方に、ユーザ12が視認できるように看板14が設置される。そして、カメラ16はユーザ12の顔前面を撮影できるように設置されている。
ユーザ12の視線12Aが、看板14に正対する方向の線vlineに対してずれている角度が旋回角αであり、視線12Aが水平線hlineに対してずれている角度が俯仰角βとして図1のサーバ18によってリアルタイムに計算される。そして、ぬいぐるみ20に関連して設けられる(内蔵される)コンピュータ36(図6)がその検出角度αおよびβからその視線12Aの方向または位置を特定し、その視線12Aの方向または位置に応じて、ぬいぐるみ20の動作および/または発話によって、ユーザ12に対して領域関連情報を出力するのである。
図5にはぬいぐるみ20が図示される。このぬいぐるみ20は、頭部24とそれを支える胴体26とを含む。胴体26の上部に左右の左腕28Lおよび右腕28Rが設けられ、頭部24には、前面に口30が配置され、その口30の上方には眼球32が設けられる。頭部24の上部側面には耳34が取り付けられている。
頭部24は胴体26によって、旋回・俯仰可能に支持され、また、眼球32も可動的に保持されている。口30にはスピーカ54(図6)が内蔵されていて、耳34にはマイク56(図6)が内蔵されている。なお、マイク56を両方の耳34にそれぞれ内蔵すれば、ステレオマイクとして機能し、それによって、そのステレオマイクに入力された音声の位置を必要に応じて特定することができる。
図6はぬいぐるみ14の制御回路を示すブロック図であり、この図6に示すように、実施例のぬいぐるみ20にはコンピュータ36が内蔵されていて、このコンピュータ36が、通信路の一例であるバス38を通して、図1に示すサーバ18に結合される。
サーバ18にはカメラインタフェースを介して、視線カメラ16、位置カメラ22Aならびに22Bからの映像信号(映像信号データ)が入力される。視線カメラ16からの映像信号(データ)を後述のように計算処理することによって、サーバ18は各ユーザ12の視線の角度αおよびβ(図3)を特定ないし検出できる。サーバ18はさらに、2台の位置カメラ22Aおよび22Bからの映像信号(映像信号データ)を計算処理することによって、各ユーザ12のそのときの位置を特定ないし検出することができる。ただし、このようなステレオカメラを用いて人間や物体の位置を特定する具体的な方法は既に周知であり、ここでは詳細は省略する。また、上述したように、視線カメラ16からの映像信号データを用いてユーザ12の位置を計算してもよい。
コンピュータ36は、サーバ18が特定または検出したユーザ12の視線方向や位置を示すデータ(角度α,β)をこのバス38を通して刻々受け取ることができる。ただし、通信路はバス38であっても、その他の形式の通信路であっても、さらには無線であっても、有線であってもよい。
コンピュータ36には、バス38を介してメモリ40が結合される。このメモリ40には図示しないROMやRAMが組み込まれていて、ROMには主として、後述のフローチャート(図21-図25)で表現されるプログラムが予め記憶されているとともに、ぬいぐるみ20の各フェーズ(内部状態)の動作と発話(音声)とを対応的に設定している、領域‐関連情報テーブルの一例であるメッセージテーブル42が予め設定されている。このメッセージテーブル42は、ぬいぐるみ20から関連情報として出力する発話や動作を各領域に対応させて設定したものである。RAMは、一時記憶メモリとして用いられるとともに、ワーキングメモリとして利用され得る。
モータ制御ボード44は、たとえばDSP(Digital Signal Processor)で構成され、図5に示すぬいぐるみ20の各腕や頭部の各軸モータを制御する。すなわち、モータ制御ボード44は、コンピュータ36からの制御データを受け、右腕28R(図5)を前後や左右に動かすことができるように、X,YおよびZ軸のそれぞれの角度を制御する3つのモータ(図6ではまとめて、「右腕モータ」として示す。)46Rの回転角度を調節する。また、モータ制御ボード44は、左腕28Lの3つのモータ(図6ではまとめて、「左腕モータ」として示す。)46Lの回転角度を調節する。モータ制御ボード44は、また、頭部24の旋回角や俯仰角を制御する3のモータ(図6ではまとめて、「頭部モータ」として示す。)48の回転角度を調節する。モータ制御ボード44は、また、眼球32を動かす眼球モータ50も制御する。
なお、上述のモータは、制御を簡単化するためにそれぞれステッピングモータまたはパルスモータであるが、直流モータであってよい。
スピーカ54には音声入力/出力ボード52を介して、コンピュータ36から、合成音声データが与えられ、それに応じて、スピーカ54からはそのデータに従った音声または声が関連情報として出力される。そして、マイク56からの音声入力が、必要に応じて、
音声入力/出力ボード58を介して、コンピュータ36に取り込まれる。
センサ入力/出力ボード58も、同様に、DSPで構成され、各センサやカメラからの信号を取り込んでコンピュータ36に与えるが、実施例ではあまり関係がないので、ここでは、そのセンサなどの詳細な説明は省略する。
また、この実施例では、ぬいぐるみ20が自律的に自己の動作や発話を制御する図6のような制御回路を持つものとして説明するが、1台またはそれ以上のコンピュータを制御回路として、ぬいぐるみ20とは別に設けるようにしてもよい。
図7には関連情報テーブルすなわち実施例のメッセージテーブル42の一例が図解される。このメッセージテーブル42には、看板14の領域A1,A2,…にそれぞれ対応する記憶場所が設定されている。各記憶場所には、領域Aの範囲を示す座標データが設定されていて、その座標データは、たとえば領域A1は、X座標(看板14の横方向)の範囲がxn1‐xn2でY座標(看板14の縦方向)の範囲がym1−ym2であることを示す。そして、各記憶場所には関連情報を示すデータがまた個別に設定されている。先に説明したように、この実施例では、第1関連情報および第2関連情報に区分し、それぞれを2体のぬいぐるみ20Aおよび20Bで分担して出力するようにしている。したがって、看板14のたとえば各領域A1,A2,…の各々に対応して、可視情報に関連して、第1関連情報である概要説明データと、第2関連情報である詳細説明データとが、発話データとして設定されている。概要説明データは、その領域に表示されている可視情報の概要(概略)を説明するためのデータであり、詳細説明データは、その可視情報をさらに詳細に説明するためのデータである。
なお、実施例では第1関連情報および第2関連情報は、前者が概要説明データであり、後者が詳細データであるように、階層的に区分けしている。しかしながら、第1関連情報および第2関連情報は、実施例のように第1関連情報および第2関連情報を別のぬいぐるみ20Aおよび20Bが出力する場合、そのような役割分担に適合しかつ多人数ユーザに効率的に対応できるという基準で区分けされていればよく、階層区分に限る意図ではない。
ただし、このメッセージテーブル42には、ユーザ12の視線が一点(1つの領域)
を注視していない場合などにユーザの興味を喚起することができるように「おすすめ説明データ」や「全般説明データ」をそれぞれ概要説明データおよび詳細説明データに区分して設定するようにしている。「おすすめ」とは、その看板14に表示されている可視情報で特に注目してほしいものを説明するもので、たとえば、「一番上に出ている××は今注目の○○です。」と概要説明し、「この○○は、このような特徴があります。」のような詳細説明をする。「全般」とは、その看板14に表示されている可視情報の全部について説明するもので、たとえば、「この看板には今秋発売の各社のディジタルカメラを表示しています。」と概要説明し、「一番上のAA社のカメラは、このような特徴があります。」のような詳細説明をする。
このような実施例において、まず、ユーザ12の視線を推定する方法について説明する。この実施例では、以下に説明するように、ユーザ12の視線方向を推定または検出するために1つのカメラ(単眼カメラ)を用いるユニークな方法を採用している。しかしながら、ユーザ12の視線12A(図3,図4)を検出する方法としては、2以上のカメラを利用する従来からの一般的な方法が採用されてもよいことは、勿論である。つまり、この発明では、ユーザ12の視線を推定したり検出したりする必要はあるが、その具体的な方法は重要な意味を持たず、どのような公知の方法が用いられてもよい。
図1に示すように、ユーザ12の前方に、たとえばCCD(Charge Coupled Device)
またはCMOS(Complementary Metal-Oxide Semiconductor)センサのような固体撮像
素子を含むカメラ16が設置され、このカメラ16からの顔画像信号がサーバ18に取り込まれ、視線サーバ18が画像処理することによって、視線12Aの角度αおよびβを推定する。
図8に示すように、カメラ16により撮影された画像は、サーバ18に附属して設けたディスプレイ60(図1では図示せず)の撮影画像表示領域62にリアルタイムに動画として表示される。特に限定されないが、たとえば、撮影画像表示領域62上に、視線方向を示す指標として、眉間から視線方向に延びる線分を表示してもよい。
サーバ18は、一般的なコンピュータであり、特に変わったハードウェア構成ではないので、ハードウェア自体は説明しないが、視線方向や視線位置の推定は、以下に説明するソフトウェアにより実現される。
サーバ18では、特徴点の追跡処理の安定性を確保するため、同一特徴点に関して異なるフレームにおける複数の観測テクスチャを保持している。初期校正過程では、これらの特徴点と虹彩中心の関係から顔特徴点と眼球中心の相対関係を求める。視線推定過程では、校正過程で得られた関係を元に現フレームで得られている特徴点群から眼球中心位置を推定し、その位置と虹彩中心位置から視線方向を決定する。
視線方向の推定処理の動作の前提として、まず、たとえば6分割矩形フィルタを利用して、顔検出処理が実行される。
サーバ18では、特に限定されないが、たとえば、顔を連続撮影したビデオ画像を処理するにあたり、横が顔幅、縦がその半分程度の大きさの矩形フィルタで画面を走査する。矩形は、たとえば、3×2に6分割されていて、各分割領域の平均明るさが計算され、それらの相対的な明暗関係がある条件を満たすとき、その矩形の中心を眉間候補とする。
連続した画素が眉間候補となるときは、それを取囲む枠の中心候補のみを眉間候補として残す。残った眉間候補を標準パターンと比較してテンプレートマッチング等を行うことで、上述した手続きで得られた眉間候補のうちから、偽の眉間候補を捨て、真の眉間を抽出する。以下、さらに詳しく説明する。
図9は、眉間候補領域を検出するためのフィルタを説明するための概念図であり、図9(a)は、上述した3×2に6分割された矩形フィルタ(以下、「6分割矩形フィルタ」と呼ぶ)を示す。
6分割矩形フィルタは、(1) 鼻筋は両目領域よりも明るい、(2) 目領域は頬部よりも暗い、という顔の特徴を抽出し、顔の眉間位置を求めるフィルタである。たとえば、1点(x、y)を中心として、横i画素、縦j画素(i,j:自然数)の矩形の枠を設ける。そして、図9(a)のように、この矩形の枠を、横に3等分、縦に2等分して、6個のブロックS1〜S6に分割する。
このような6分割矩形フィルタを顔画像の両目領域および頬部に当てはめてみると、図9(b)のようになる。
ただし、図9の6分割フィルタは各矩形領域が等分されたものであったが、このフィルタは図10に示すように変形されてもよい。
鼻筋の部分が目の領域よりも通常は狭いことを考慮すると、ブロックS2およびS5の横幅w2は、ブロックS1,S3,S4およびS6の横幅w1よりも狭い方がより望ましい。好ましくは、幅w2は幅w1の半分とすることができる。図10は、このような場合の6分割矩形フィルタの構成を示す。また、ブロックS1、S2およびS3の縦幅h1と、ブロックS4、S5およびS6の縦幅h2とは、必ずしも同一である必要もない。
図10に示す6分割矩形フィルタにおいて、それぞれのブロックSi(1≦i≦6)について、画素の輝度の平均値「バーSi」(Siに上付きの“−”をつける)を求める。
ブロックS1に1つの目と眉が存在し、ブロックS3に他の目と眉が存在するものとすると、以下の関係式(1)および(2)が成り立つ。
そこで、これらの関係を満たす点を眉間候補(顔候補)として抽出する。
矩形枠内の画素の総和を求める処理には、公知の文献(P. Viola and M. Jones, “ Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEEConf. CVPR, 1, pp.511-518, 2001)において開示されている、インテグラルイメージ(Integral Image)を利用した計算の高速化手法を取り入れることができる。インテグラルイメージを利用することでフィルタの大きさに依らず高速に実行することができる。多重解像度画像に本手法を適用することにより、画像上の顔の大きさが変化した場合にも顔候補の抽出が可能となる。
このようにして得られた眉間候補(顔候補)に対しては、両目の標準パターンとのテンプレートマッチングにより、真の眉間位置(真の顔領域)を特定することができる。
なお、得られた顔候補に対して、サポートベクトルマシン(SVM)による顔モデルによる検証処理を適用し顔領域を決定することもできる。髪型の違いや髭の有無、表情変化による認識率の低下を避けるため、たとえば、図11に示すように、眉間を中心とした画像領域を利用してSVMによるモデル化を行うことができる。なお、このようなSVMによる真の顔領域の決定については、文献:S. Kawato, N. Tetsutani and K. Hosaka: “Scale-adaptive face detection and tracking in real time with ssr fi1ters and support vector machine”, IEICE Trans.on Info. and Sys., E88−D, 12, pp.2857−2863(2005)に開示されている。6分割矩形フィルタによる高速候補抽出とSVMによる処理とを組み合わせることで実時間の顔検出が可能である。
続いて、目、鼻や虹彩中心の位置を、公知の文献、たとえば『川戸、内海、安部:「4つの参照点と3枚のキャリブレーション画像に基づく単眼カメラからの視線推定」画像の認識・理解シンポジウム(MIRU2005),pp.1337−1342(2005)』あるいは、『川戸慎二郎、鉄谷信二:鼻位置の検出とリアルタイム追跡:信学技報IE2002−263、pp.25−29(2003)』などの手法を用いて抽出する。
両目の位置については、前節の顔領域検出で眉間のパターンを探索しているため、眉間の両側の暗い領域を再探索することにより、大まかな両目の位置を推定することができる。しかし、視線方向の推定のためには、虹彩中心をより正確に抽出する必要がある。ここでは、上で求めた目の周辺領域に対して、ラプラシアンにより虹彩のエッジ候補を抽出し、円のハフ変換を適用することにより、虹彩および虹彩の中心の投影位置を検出する。
鼻の位置は、鼻先が凸曲面であるため周囲に対し明るい点として観測されやすいことと、両目の位置から鼻の存在範囲が限定できることを利用して抽出する。また、両目、鼻の位置を用いて、大体の顔の向きも推定できる。
図12は顔検出結果の例を示す図である。検出された顔において、虹彩中心や鼻先や口なども検出されている。たとえば、特徴点としては、鼻先や、左右の目の目尻や目頭、口の両端、鼻腔中心などを用いることができる。
視線の推定においては、視線方向は眼球中心と虹彩中心を結ぶ3次元直線として与えられるものとする。
図13は視線方向を決定するためのモデルを説明する概念図である。画像上での眼球半径をr、画像上での眼球中心と虹彩中心との距離をdとすると、視線方向とカメラ光軸と
のなす角θは次式(3)で表される。
式(3)により、視線方向を推定するためには、画像上での眼球半径と眼球中心・虹彩中心の投影位置が必要となる。ここで、虹彩中心の投影位置については、上述したとおり、ハフ変換を用いた手法により求めることができる。画像上での眼球直径rは、解剖学的なモデル(標準的な人の眼球直径)を用いてもよいし、別途キャリブレーションにより求めてもよい。
図14は、図13に示した状態からユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。
眼球中心の投影位置については、一般には、画像から直接観測することはできない。しかし、ユーザ12がカメラ16を注視した場合について考えると、図14に示すとおり、カメラ、虹彩中心、眼球中心の3点が1直線上に並ぶため、画像では虹彩中心と眼球中心は同一点に投影されることがわかる。
そこで、この実施例での視線推定では、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影し、これらの画像列から虹彩位置と顔特徴点を抽出、追跡することにより、眼球中心と顔特徴点間の相対幾何関係を推定する。
後により詳しく説明するように、この実施例の視線方向の推定では、眼球中心と顔特徴点間の相対関係の推定処理と眼球中心の投影位置推定とを行なう。
視線方向の推定のための初期設定として、サーバ18は、図15に示すフローチャートで表現されるキャリブレーションを実行する。
まず、キャリブレーション用の画像列として、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影する(ステップS102)。図16は、このようにしてキャリブレーションにおいて撮影された4枚の画像フレームを示す。
ここでは、より一般に、N(N≧2)枚の画像列が得られたとする。各画像フレームを、フレームI1,…INとする。
次に、得られた各画像フレーム列に対して、上述したような方法によって顔検出処理を行い(ステップS104)、続いて、目や鼻の検出処理を行なう(ステップS106)。
さらに、視線サーバ18は、特徴点の抽出、追跡を行う(ステップS108)。なお、特徴点の抽出方法としては、上述したような方法の他に、たとえば、文献:J. Shi and C. Tomasi: “Good features to track”,Proc. CVPR94, pp. 593−600(1994)で提案された手法を用いることもできる。
ここで、各画像フレームIi(i=1,…,N)においてM(M≧4)点の特徴点pj(j=1,…,M)が検出・追跡できたとする。画像フレームIiにおける特徴点pjの2次元観測位置をxj(i)(太字)=[xj(i),yj(i)]t(i=1,…,N,j=1,…,M)とし、両目の虹彩中心の2次元観測位置をそれぞれxr(i)(太字)=[xr(i),yr(i)]t,xl(i)(太字)=[xl(i),yl(i)]t(i=1,…,N)とする。ここで、行列Wを以下のように定義する。
因子分解法により、特徴点の各フレームでの2次元観測位置を縦に並べた行列W(計測行列)は以下のように分解できる。
ここで、行列M(「撮影姿勢行列)と呼ぶ)にはカメラの姿勢に関する情報のみが、行列S(「相対位置関係行列」と呼ぶ)には観測対象物の形状に関する情報のみが含まれており、顔特徴点と眼球中心との3次元的な位置の相対関係は行列Sとして求まる(ステップS110)。すなわち、正射影を仮定すると、行列Mの各要素が画像フレームでのカメラの姿勢を表す単位ベクトルであって、それぞれの大きさが1であり相互には直交するとの拘束条件のもとで、行列Wは、特異値分解により一義的に行列Mと行列Sの積に分解できることが知られている。なお、このような計測行列Wを、因子分解により、カメラの運動の情報を表す行列と対象物の形状情報を表す行列へ分解する点については、文献:金出,ポールマン,森田:因子分解法による物体形状とカメラ運動の復元”,電子通信学会論文誌D−II,J76‐D−II,8,pp.1497−1505(1993)に開示がある。
次に、以上で得られた結果を用いて、視線方向を推定する手順について説明する。
図17は、リアルタイムの視線方向の推定処理のフローチャートを示す。
まず、カメラ16から画像フレームを取得すると(ステップS200)、キャリブレーション時と同様にして、顔の検出および目鼻の検出が行なわれ(ステップS202)、取得された画像フレーム中の特徴点が抽出される(ステップS204)。
画像フレームIkが得られたとする。ここで、眼球中心以外の特徴点のうちm点pj(j=j1,…,jm)が、それぞれ、xj(k)(太字)=[xj(k),yj(k)]tに観測されたとする。このとき、観測された特徴点について、上述したように特徴点近傍のテンプレートを用いたテンプレートマッチングを実施することで、キャリブレーション時に特定された特徴点と現画像フレーム中で観測された特徴点との対応付けが行なわれて、現画像フレーム中の特徴点が特定される(ステップS206)。
なお、上述のとおり、特徴点を特定するためのテンプレートは、キャリブレーションの時のものに限定されず、たとえば、最近の画像フレームの所定枚数について検出された特徴点の近傍の所定の大きさの領域内の画像を所定個数だけ保持しておき、これら所定枚数のテンプレートについてマッチングをした結果、もっとも一致度の高い特徴点に特定することとしてもよい。
顔特徴点pjの2次元観測位置xj(k)(太字)=[xj(k),yj(k)]tとキャリブレーションより求まった3次元位置sj(太字)=[Xj,Yj,Zj]t(j=1,…,M)の間には、M個の特徴点のうち観測されたm個の特徴点について注目すると、次式の関係が得られる。
ただし、行列P(k)は2×3の行列である。右辺の第2項の行列S(k)は行列Sのうち、観測された特徴点に対応する要素のみからなる部分行列である。上述の通り、カメラと顔は十分に離れているとし正射影を仮定している。ここで、4点以上の特徴点が観測されれば、行列P(k)は以下のように計算できる(ステップS208)。
画像フレームIkにおける眼球中心の投影位置xr(i)(太字),xl(i)(太字)は、行列P(k)を用いて以下のように計算できる(ステップS210)。
したがって、画像フレームIkにおいて特徴点として抽出した虹彩中心の投影位置とこの眼球中心の投影位置を用いると、視線の推定を行なうことができる(ステップS212)。
なお、行列PをQR分解により分解することで、顔の姿勢Rが、以下のように計算できる。
ただしr1、r2はそれぞれ1×3のベクトルである。このような顔の姿勢Rの検出については、文献:L.Quan: “Self-calibration of an affine camera from multiple views”,Int’l Journal of Computer Vision, 19, pp. 93−105(1996)に開示がある。
ユーザ等の指示により追跡が終了していると判断されれば(ステップS214)、処理は終了し、終了が指示されていなければ、処理はステップS200に復帰する。
以上説明した視線方向の推定装置の有効性を確認するため、実画像を用いた実験を行った結果について以下に説明する。
カメラはElmo社製PTC−400Cを用い、被験者から約150[cm]の位置に設置した。
まず、50フレームの画像列を用いて、眼球中心と顔特徴点のキャリブレーションを行った。キャリブレーション用の画像フレーム列の例は、図16に示したとおりである。
キャリブレーション用画像フレーム列の撮影に要した時間は約3秒であった。
次に、キャリブレーションにより求まった顔モデル(行列S)を用いて、視線推定を行った。ここで、被験者はそれぞれ右上、上、左下の方向を注視しながら、顔の位置・向きを変化させた。
図18〜図20は、視線推定結果を示す。図18は、右上方注視の状態であり、図19は、上方注視の状態であり、図20は、左下方向注視の状態である。ここで、視線方向は両目それぞれで計算された視線方向の平均値としている。結果より、顔の位置や向きの変化とは関係なく、視線方向が推定できた。
以上説明したとおり、この実施例の視線方向の推定方法では、単眼カメラの観測に基づいて顔特徴点を検出し、追跡することにより視線方向を推定する。つまり、まずキャリブレーションとして視線がカメラ方向を向いたまま顔の向きのみが異なる画像列から得られる虹彩位置と顔特徴点を利用することで、眼球中心と顔特徴点の関係をモデル化し(行列Sを特定し)、その後、その関係に基づいて推定された入力画像中の眼球中心位置と虹彩位置の関係から視線方向の角度α、βを決定する。
なお、上の説明では1人のユーザの視線方向を特定する方法が説明されているが、多人数のユーザの視線を検出する場合にも同じ方法が用いられ得る。つまり、カメラ16からの映像信号データにおいて顔と思われるすべての領域について同じ視線計算を実行することによって、多人数ユーザの視線をリアルタイムで検出することができる。
サーバ18が各ユーザ12の視線方向の角度α、βを検出した後、ぬいぐるみ20のコンピュータ36は図21‐図23示すフローチャートを実行して、ぬいぐるみ20からの関連情報の出力(発話や動作)を制御する。ただし、この図21‐図23に示すフローチャートは、サーバ18からの視線角度データが入力される都度、すなわちフレーム毎に繰り返し実行される。
図21は図1に示す2体のぬいぐるみ20の一方である概要説明ロボットの動作を示し、図23が他方のぬいぐるみ20である詳細説明ロボットの動作を示す。最初に関連情報すなわちメッセージを発声するのは概要説明ロボットであるので、図21の最初のステップS1で、その概要説明ロボットまたはぬいぐるみのコンピュータ36(図6)が、前述のようにしてサーバ18が推定した視線角度αおよびβのデータ、看板の前に存在するユーザ12の各人の位置データを、ぬいぐるみ20のバス38(図6)を通して取り込む。
コンピュータ36では、次のステップS3で、その角度データから視線12A(図3,4)の座標(x,y)を計算する。
ただし、2体のぬいぐるみのうちどちらが概要説明ロボットとなり、どちらが詳細説明ロボットとなるかは、固定的であっても、動的に変更されてもよい。たとえば図1の実施例で看板14に乗っているぬいぐるみ20Aを概要説明ロボットとした場合、サーバ18の上に乗っているように図示されているぬいぐるみ20Bを詳細説明ロボットとすることができる。
動的に変更する場合であれば、たとえば新しく看板14の前に来たユーザがどちらの方向から来たのかに応じて分担を決定することが考えられる。たとえば、新しいユーザが図1で左側から看板14の前に来たとすると、看板14に乗っているぬいぐるみ20Aが概要説明ロボットとなり、サーバ18に乗っているぬいぐるみ20Bを詳細説明ロボットとする。新しいユーザが図1の右側から進入してきたとすると、逆に、図1で右側にあるぬいぐるみ20Bが概要説明ロボットとなり、図1で左側にあるぬいぐるみ20Aが詳細説明ロボットとなり得る。ただし、このような役割分担のアルゴリズムは単なる一例であり、別のアルゴリズムが考えられてもよい。
いずれにしても、概要説明ロボット20のコンピュータ36が上述のようにして、各ユーザの視線角度αおよびβのデータから視線12A(図3,4)の座標(x,y)を計算する(ステップS3)。
一方、図7に示すように、各領域A1,A2,…のそれぞれを規定するX座標の範囲およびY座標の範囲がメッセージテーブル42に予め設定されている。そこで、次のステップS5で、コンピュータ36は、ステップS3で計算した視線の座標をメッセージテーブル42内に蓄積されている各領域の座標と対照することによって、そのときユーザ12が見ている領域がどの領域かを特定する。
続くステップS7でコンピュータ36は、ステップS3で計算した各ユーザ12の視線の座標データに基づいて、看板14において、2人以上のユーザの視線が集中している領域があるかどうか判断する。
複数のユーザの視線が集中している領域がある場合、このステップS7で“YES”が判断され、コンピュータ36は次のステップS9に進み、当該視線集中領域に表示されている可視情報に関連する概要説明を出力する。たとえば、視線集中領域が、図2の領域A1であったとすると、コンピュータ36は、メッセージテーブル42から領域A1の概要説明データを読み出し、自身のメモリ40(図6)に一時記憶した上で、口30(図5)すなわちスピーカ54(図6)から、A1概要説明を音声として出力する。具体的な説明方法の一例が図22に示される。
ただし、図22に示す方法は、単に概要説明の場合に留まらず、詳細説明においても同様に行なわれる方法である。つまり、図22は、ぬいぐるみ20がユーザ12に対して看板14が表示している可視情報についての関連情報を音声出力する場合の一般的手法を示していて、概要説明か詳細説明かに拘わらず、また、どのような領域についての説明かに拘わらず、同様に適用され得る。
図22のステップS41で、概要説明ロボットとして機能するぬいぐるみのコンピュータ36は、説明対象となるユーザの人数や各人の看板14からの距離に応じて、発音音量(ボリューム)やジェスチャの大きさや態様を決定する。ボリューム制御は、たとえば、コンピュータ36が音声入出力ボード52においてボリュームを上げるような命令を付与することによって達成できる。ジェスチャ制御は、たとえば、コンピュータ36がモータ制御ボード44に適宜の命令を出力することによって、腕や頭などを適当に動かすことができる。
なお、各ユーザの看板からの距離は、先に説明したようにサーバ18が2つの位置カメラ22Aおよび22Bからの映像信号データを処理することによって得られた各ユーザが現に存在している座標のデータから容易に、たとえば3角関数などを用いて計算することができる。
そして、たとえば対象ユーザの数が多いときや、対象ユーザが看板から離れて立っている場合になどには、ボリュームを大きくし、説明のためのジェスチャの振幅を大きくするなどの対応が考えられる。あるいは、看板から遠いユーザが多い場合には、モータ制御ボボード44に適宜の命令を出力することによって、腕28R,28L(図5)を上下に振って「おいでおいで」のジェスチャをさせることなども考えられる。
次のステップS43で、コンピュータ36は、説明対象の1人のユーザにぬいぐるみ20の視線、すなわち頭24の方向と目32の方向を向ける。この場合にも、コンピュータ36はモータ制御ボード44に対して、頭24と目32を制御するための命令を与えればよい。ただし、複数のユーザが固まっている場合にはその固まりに視線を向けるようにしてもよい。
続くステップS45で、コンピュータ36は、そのぬいぐるみ20に共同注視の動作を実行させる。つまり、説明している看板内の領域、この場合であれば視線が集中している領域A1に視線すなわち頭24の方向と目32の方向を向けさせる。共同注視行動をさせることによって、ユーザをそのぬいぐるみによる説明に一層強く引き付ける効果が期待できる。
その状態で一定時間説明する(ステップS47)。このとき、コンピュータ36は、メモリ40の適宜の領域に一時記憶している(概要)説明データを音声入出力ボード52に与えることによって、その(概要)説明データを音声に変換してスピーカ54から出力することができる。ステップS49で、出力すべき説明データが残っているかどうか判断する。説明が終了したかどうかのステップS49での判断は、たとえば1秒ごとに説明データが残っているかどうかチェックすることによって判断することができる。
ステップS49で“NO”が判断された場合、つまり、出力すべき概要説明データがまだ残っている場合、次のステップS51で、コンピュータ36は、ステップS43で視線を向けたユーザ以外の、他に対象ユーザがいるかどうか判断する。このステップS51の判断においても、サーバ18から受け取ったそのときのユーザの位置データを利用できる。
ステップS51で“YES”が判断されたとき、先のステップS43に戻って上記の動作を繰り返し実行する。ただし、このときの対象ユーザは先の対象ユーザとは異なる。ステップS51“NO”が判断されたときは、先のステップS49で“YES”が判断されたときと同じく、この図22のルーチンを抜ける。このようにして、図21のステップS9での視線集中領域についての第1関連情報すなわち概要説明の出力が終わる。
図21のステップS7で“NO”が判断された場合、つまり、看板14上でユーザの視線が集中している領域が特になかった場合、続くステップS11において、概要説明ロボットとして機能しているぬいぐるみのコンピュータ36は、1つの領域を長く、たとえば時間にして10秒以上、注視しているユーザがいるかどうか判断する。このステップS11では、各ユーザの視線の固定時間を計測することによって、判断できる。ただし、「固定」ではあるが、時々注視領域を外れたとしても、多少の揺らぎきや中断は当然考慮すべきであり、概ね継続して1つの領域を注視している場合には、ステップS11で“YES”が判断される。
1つの領域を長く注視しているユーザがいる場合には、ステップS13でそのユーザを対象ユーザに選定し、続くステップS15で、先に説明したステップS9と同様にして、図22の動作に従って、該当の注視領域の第1関連情報つまり概要説明を出力させる。ただし、このステップS15では、ステップS9に比べて注視領域が違うだけで、他は同様であるので、ここでは繰り返しの説明はしない。
ステップS11で“NO”を判断した場合、つまり、多数のユーザの視線が集中している領域や、1人(または複数の)ユーザに長時間注視されている領域がない場合、次のステップS17において、コンピュータ36は、ロボット(ぬいぐるみ)20や看板14に視線を向け、しかも、うなずくなどのジェスチャを頻繁に示すユーザがいるかどうか判断する。ユーザの視線がぬいぐるみや看板に向かっているかどうかは、ステップS3で計算した視線座標位置に基づいて判断することができる。そして、うなずく動作は、そのユーザの視線方向が上下に変位することによって、判断することができる。ただし、視線の上下動によってだけではなく、他の画像処理方法を利用してジェスチャの多いユーザかどうか判定することも可能である。
この実施例では、ステップS17に示した動作をするユーザ、すなわちロボット(ぬいぐるみ)20や看板14を見ていて、かつ、うなずくなどのジェスチャを多く示しているユーザは、看板14を見ていると判断して、そのユーザを説明対象として選定する(ステップS19)。ただし、このような動作をするユーザは、看板14は見ているものの、どこか特定の領域を注視しているという訳ではないので、次のステップS21では、概要説明ロボットとして機能するぬいぐるみのコンピュータ36は、図7に示すメッセージテーブル42から「全般説明」に関する概要説明データを読み出し、スピーカ54から全般概要説明を音声出力させる。この場合も、図22に示す説明動作のフローチャートに従って説明動作を実行する。
ステップS17においてコンピュータ36が“NO”を判断した場合、次のステップS23において、コンピュータ36は、看板14の前に存在するけれども、どこかの領域を注視している訳でもなく、かといって看板を興味深く見ているようなジェスチャをしている訳でもない、残りのユーザに着目し、その残りのユーザどうしが何らかのコミュニケーションを取っているかどうか判断する。たとえば、2人の視線が互いの方向に向けられている場合などは、「コミュニケーションあり」と判断することができる。さらには、サーバ18で検出した各ユーザの位置関係を基準にしてコミュニケーションの有無を判断することもできる。
ユーザどうしがコミュニケーションしている状況では、それらのユーザを説明対象にしても関心を持って聞いてもらえないかもしれないので、この実施例では、ステップS25では、相互にコミュニケーションをしていると推定できるユーザ以外のユーザを対象ユーザとして選定する。そして、先のステップS21に進んで、全般概要説明を実行する。このとき対象としているユーザは、看板14を見ているとも思えず、ユーザ同士の連絡もないようなので、この実施例では、看板全体の概要を説明してこの種のユーザの注意を喚起しようとしている。
ステップS23で“NO”が判断されたとき、看板14の前のユーザが特に看板を見ているようでもなく、ユーザどうしでコミュニケーションをとっているようでもない、看板の前にユーザが存在していてもユーザがある種ばらばらの状態のときには、コンピュータ36は「おすすめ」の説明を出力する。つまり、ステップS27では、概要説明ロボットとして機能するぬいぐるみのコンピュータ36は、図7に示すメッセージテーブル42から「おすすめ」に関する概要説明データを読み出し、スピーカ54からおすすめ概要説明を音声出力させる。この場合も、図22に示す説明動作のフローチャートに従って説明動作を実行する。
このようにして、ステップS9、S15、S21またはS27を実行することによって、概要説明ロボットとして機能する一方のぬいぐるみ20から看板14の可視情報の概要説明(第1関連情報)の音声出力が行なわれる。
その後、概要説明側のぬいぐるみのコンピュータ36は、次のステップS29において、詳細説明(第2関連情報)を出力すべきかどうか判断する。具体的には、実施例では、看板を未だ見ているユーザが存在するとき、詳細説明の必要性があると判断することにしている。ただし、別のパラメータによって詳細説明の出力を行なう必要があるかどうか判断するようにしてもよい。
もし、このステップS29で“YES”が判断されると、つまり、詳細説明を出力する必要があると判断した場合、次のステップS31において、概要説明ロボットとして機能している側のぬいぐるみのコンピュータ36は、詳細説明ロボットとして機能する側のぬいぐるみに説明(関連情報出力)をリレーする。そのためにこのステップS31では、たとえば詳細説明ロボットとしてのぬいぐるみへ交代のサイン、たとえばアイコンコンタクトを送る。つまり、モータ制御ボード44に必要な命令を与えることによって、概要説明ロボットとしてのぬいぐるみの視線を相手側に向ける。あるいは、「続いて説明してください。」なとど音声メッセージを詳細説明ロボットとして機能するぬいぐるみに与えるようにしてもよい。いずれにしても、このステップS31で説明をバトンタッチする。したがって、それ以後は図23のフローチャートに従って、詳細説明ロボットとして機能するぬいぐるみのコンピュータ36が自身のぬいぐるみを制御する。
ただし、詳細説明ロボットとして機能するぬいぐるみ(のコンピュータ)に交代のサインを送ったけれどもそのぬいぐるみから、たとえばそのとき未だ別のユーザに対して説明中であるという理由で「交代不可」のサインが返送されてきたような場合、概要説明ロボットとして機能するぬいぐるみのコンピュータ36は、その交代不可サイン(たとえばアイコンタクトやお願い音声出力など)を検知して、ステップS33において、“YES”を判断する。不交代サインは、概要説明ロボットとして機能するぬいぐるみのコンピュータ36が、詳細説明ロボットとして機能するぬいぐるみの顔が自身の方向に向けられたかどうか、あるいは該当する音声がマイク56(図6)から入力されたかどうかなどを判断することによって、判断することができる。
なお、このような不交代サインは、この他にも、たとえば一方のぬいぐるみから無線信号や赤外線信号を送信し、他方のぬいぐるみがそれを受信できるようにすることによっても、一方から他方へ送ることができる。
ステップS33で“NO”を判断した場合には、概要説明ロボットとして機能するぬいぐるみのコンピュータ36は動作を終了するが、“YES”の場合には、次のステップS35において、後に詳細に説明する図23のステップS67における場合と同様に、そのとき詳細説明ロボットとして機能するぬいぐるみに引き継ごうとしていた詳細説明、すなわち、視線集中領域に対する詳細説明、注視領域に対する詳細説明、全般に対する詳細説明およびおすすめの詳細説明のいずれかを実行する。
そして、概説明ロボットとして機能するぬいぐるみのコンピュータ36は、先に説明したステップS49と同様にして、そのステップS35における詳細説明が終了したかどうかをステップS37で判断する。ステップS37で“NO”を判断したときにはステップS35の詳細説明を繰り返す。そして、ステップS37で“YES”と判断したとき、概要説明ロボットとして機能するぬいぐるみの動作は終了する。
図23の最初のステップS61において、詳細説明ロボットとして機能するぬいぐるみのコンピュータ36が、概要説明ロボットとして機能するぬいぐるみから交代サイン(たとえばアイコンタクトやお願い音声出力など)が送られてきたかどうか判断する。このような交代サインは、詳細説明ロボットとして機能するぬいぐるみのコンピュータ36が、概要説明ロボットとして機能するぬいぐるみの顔が自身の方向に向けられたかどうか、あるいは該当する音声がマイク56(図6)から入力されたかどうかなどを判断することによって、判断することができる。
なお、このような交代サインは、この他にも、たとえば一方のぬいぐるみから無線信号や赤外線信号を送信し、他方のぬいぐるみがそれを受信できるようにすることによっても、一方から他方へ送ることができる。
次のステップS63において、詳細説明ロボットとして機能するぬいぐるみのコンピュータ36は、交代可能かどうか判断する。たとえば、そのときこの詳細説明ロボットとして機能するぬいぐるみが別のユーザに未だ説明している途中であれば、概要説明ロボットとして機能するぬいぐるみからの交代要求に応えられない。したがって、このステップS63において、詳細説明ロボットとして機能するぬいぐるみのコンピュータ36は、たとえば自身が別のユーザ12に説明を行っているかどうかを判断することによって、交代可能かどうか判断する。
もし、このステップS63において“NO”が判断されると、つまり、別のユーザ12に説明を行っているなど、交代不可の場合には、詳細説明ロボットとして機能するぬいぐるみのコンピュータ36は、ステップS641において、概要説明ロボットとして機能するぬいぐるみに対して前述の交代不可サインを送信して、交代できないことを知らせる。他方、その詳細説明ロボットとして機能するぬいぐるみからの詳細説明を待っているユーザをそのまま放置してその舞っているユーザに何もしないでいることは、システムに対する不信感を招来することにもなる。そこで、詳細説明ロボットとして機能するぬいぐるみのコンピュータ36は、概要説明ロボットから新たに引き継いだユーザに対して待ってほしいことを伝えるために、次のステップS642において、現在の説明を継続しつつ、アイコンタクトを概要説明ロボット、新たに引き継いだユーザ、そして現在説明をしている別のユーザの順で行うなど、「説明途中なので少し待ってください。」というサインを詳細説明を待っている新たなユーザに送る。ただし、この待ってくださいというサインは、このようなアイコンタクトに限らず、任意の方法で発信することができる。たとえば、継続中の詳細説明を一時中断して、新しいユーザに「もう少し待ってね。」のような音声メッセージを発するようなことも考えられる。
ステップS63において“YES”、つまり別ユーザに説明を行っているなどの交代を不可とする要因がないと判断される場合、コンピュータ36は、次のステップS65において、たとえば、ユーザにアイコンタクトして、またはユーザに向かって「おいでおいで」のジェスチャをして、あるいは「こちらで詳細説明をします。」などと発声することによって、そのとき図21の概要説明を聞いていたユーザを詳細説明に引き寄せる(呼ぶ)。アイコンタクトをする場合、および「おいでおいで」のジェスチャをする場合には、コンピュータ36は、先に説明したように、モータ制御ボード44に適宜の命令を与えればよい。発声する場合には、コンピュータ36は、音声入出力ボード52に適宜の音声データを与えればよい。
その後、ステップS67において、詳細説明ロボットとして機能するぬいぐるみのコンピュータ36は、先の概要説明を引き継いで、該当する詳細説明を出力する。たとえば、交代サインで引き継いだのが図21のステップS9での視線集中領域のための概要説明であった場合、メッセージテーブル42から該当する詳細説明データ(第2関連情報)を読み出して、自身のメモリ40に一時記憶した上で、音声入出力ボード52へ音声データを出力することによって、視線集中領域の詳細説明を音声出力する。同じように、交代サインで引き継いだのが図21のステップS15での注視領域のための概要説明であった場合、メッセージテーブル42から該当する詳細説明データ(第2関連情報)を読み出して、自身のメモリ40に一時記憶した上で、音声入出力ボード52へ音声データを出力することによって、注視領域の詳細説明を音声出力する。交代サインで引き継いだのが図21のステップS21での全般概要説明またはステップS27でのおすすめ概要説明であった場合、メッセージテーブル42から全般詳細説明データ(第2関連情報)またはおすすめ詳細説明データ(第2関連情報)を読み出して、自身のメモリ40に一時記憶した上で、音声入出力ボード52へ音声データを出力することによって、全般詳細説明またはおすすめ細説明を音声出力する。
このステップS67での詳細説明においても、図22に示した説明動作アルゴリズムに従って、音声ボリュームやジェスチャの大きさを決定したり、ユーザからユーザへの視線移動をしたり、共同注視動作をしたりすることは勿論である。
そして、ステップS69で詳細説明が終了したかどうか判断し、“NO”ならステップS67を繰り返し実行し、“YES”なら終了する。
図21‐図23で示す実施例は、2体のぬいぐるみが概要説明ロボットおよび詳細説明ロボットの役割を分担する実施例である。しかしながら、ぬいぐるみを1体だけ用い、1つのぬいぐるみによって概要説明/詳細説明を役割分担させるようにすることも考えられる。この場合には、図1実施例において、どちらか1つのぬいぐるみ20が除去される以外、システムの全体構成に変更はない。
1体のぬいぐるみが役割分担する実施例の動作が図24および図25に図解れさる。ただし、図24において、ステップS71‐S77,S81,S83,S87,S89,S93およびS95は、それぞれ、図21で説明したステップS1‐S7,S11,S13,S17,S19,S23およびS25と同様であるためここでは重複説明は省略する。
図21実施例と図24実施例の違いは、図21ではステップS9,S15,S21およびS27で「概要説明」とあるのに対し、ステップS79,S85,S91およびS97において単に「説明」とされている点である。そして、図24のステップS79,S85,S91およびS97の「説明」は、図25の説明アルゴリズムに従って実行される。
図25においてはまた、ステップS101,S103およびS105が、図22のステップS41,S43およびS45と同じであり、これらのステップの詳細説明もまたここでは省略する。
ステップS107では、ぬいぐるみのコンピュータ36は、図24のステップS77,S83,S89またはS95で決まる対象ユーザに向かって、先に説明した図21のステップS9,S15,S21またはS27と同じように、該当する第1関連情報(概要説明データ)を読み出して、スピーカ54(図6)から第1関連情報(概要説明)を出力する。この概要説明は、ステップS109で終了を検出するまで継続して行なわれ、ステップS109で“YES”が判断されると、コンピュータ36は次のステップS111に進む。
ステップS111では、第1関連情報の出力に続いて第2関連情報(詳細説明)を出力する必要があるかどうか判断する。つまり、このステップS111は、先のステップS31と同じように、第1関連情報に続いて第2関連情報を出力する必要性の有無を判断する判断手段として機能する。この実施例では、そのために、先のステップS107の概要説明で対象としたユーザが未だ看板14の前や周囲に残っているかどうか判断する。この判断は、サーバ18から受け取る各ユーザの時々刻々の位置データを見ることによって判断できる。たとえば、前回の位置データと比較して、一定以内の距離に該当するユーザがいない場合などには、ステップS111で“NO”が判断される。
ステップS111で“NO”が判断されるということは、第1関連情報に続く第2関連情報の出力は不要だということを意味していて、その場合には、そのまま終了する。
ステップS111で“YES”と判断した場合、対象ユーザが残っているので、第2関連情報(詳細説明)を出力する必要がある。したがって、この場合には、ステップS113において、対象ユーザに対する詳細説明(第2関連情報)の出力が実行される。ただし、このステップS113は図23のステップS65と同じであるので、ここでも繰り返しの説明は省略する。
そして、ステップS115において詳細説明の終了が判断されたとき、そのまま終了する。
図21‐図23の実施例では2体のぬいぐるみがそれぞれ第1出力手段および第2出力手段を構成しているのに対して、図24‐図25の実施例は、第1関連情報を出力する第1出力手段と第2関連情報を出力する第2出力手段が同じ擬人的媒体に含まれるということができる。
ただし、第1関連情報や第2関連情報を出力するために擬人的媒体を用いない実施例も考えられる。その場合には、たとえば看板の周囲にスピーカだけを設置しておけばよい。
なお、上述の実施例では、2体のぬいぐるみで役割分担を動的に変更する場合、ユーザが看板の前に侵入してきた側のぬいぐるみが概要説明ロボットの役割を分担し、他方のぬいぐるみが詳細説明ロボットの役割を担うようにした。しかしながら、この役割分担の変更の態様はこれに限るものではない。
たとえば、概要説明ロボットとして機能しているぬいぐるみから、詳細説明ロボットとして機能する他方のぬいぐるみに引き継ぐとき、他方のぬいぐるみが、まだ引継ぎを受けられないときには、概要説明ロボットとして機能しているぬいぐるみが詳細説明ロボットの機能を分担するようにしてもよい。
さらに、2つのぬいぐるみがともに説明中であった場合、説明を早く終えたぬいぐるみが概要説明ロボットの機能を分担し、遅いぬいぐるみが詳細説明ロボットの機能を分担することも考えられる。
また、上述の実施例では看板として可視情報を平面的に表示している看板を例に挙げて説明した。平面的な看板の場合、ユーザの視線が向けられている看板上の領域を判断するときは、視線角度αおよびβで決まる2次元座標(X,Y)だけに基づいて判断すればよい。つまり、平面看板の場合には、当該看板に到達する視線の奥行き方向の座標(Z)は各領域について同一と看做してその都度判断する必要はない。
これに対して、この発明が同様に適用できるたとえば店頭のサンプルメニューや商品棚など、立体(3次元)的な案内対象(看板)の場合には、奥行き方向の座標をある程度検出しなければ、手前側のサンプルや商品棚に向けられた視線なのか、奥側のサンプルや商品棚に向けられた視線なのか判別できず、結果的にユーザが指向する「領域」を正確に特定することができない。したがって、3次元的な配置を有する看板の場合には、2次元座標以外に、ユーザの視線の到達位置すなわちZ座標も判断する必要があるかもしれない。
さらに、上述の実施例ではいずれも、ユーザの視線が看板のどこを見たかによって音声などによって関連情報をインタラクティブに出力するようにした。さらに、視線だけでなく、ユーザの発話やユーザがしたジェスチャなどのさらに様々なモダリティの入力を考慮して関連情報を出力するようにしてもよい。
この発明の一実施例のインタラクティブ看板システムの概念を示す図解図である。 図1実施例における看板の一例を示す図解図である。 図1実施例におけるユーザと視線カメラとの平面的な位置関係およびユーザの視線角度を示す図解図である。 図1実施例におけるユーザと視線カメラとの側面的な位置関係およびユーザの視線角度を示す図解図である。 図1実施例において用いられるぬいぐるみの一例を示す図解図である。 図1実施例におけるぬいぐるみの制御回路の一例を、サーバを付記して示すブロック図である。 図6実施例におけるメッセージテーブル(領域-関連情報テーブル)の一例を示す図解図である。 図1実施例における視線サーバのディスプレイに表示されているユーザの顔画像の一例を示す図解図である。 図9は眉間候補領域を検出するためのフィルタを説明するための概念図である。 図10は6分割矩形フィルタの他の構成を示す概念図である。 図11は眉間を中心とした画像領域を利用してSVMによるモデル化を説明する図解図である。 図12は顔検出結果の例を示す図解図である。 図13は視線方向を決定するためのモデルを説明する概念図である。 図14はユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。 図15は視線サーバによる初期設定の処理動作を示すフロー図である。 図16はキャリブレーションにおいて撮影された4枚の画像フレームを示す図解図である。 図17は視線サーバが実行するリアルタイム視線検出の処理動作を示すフロー図である。 図18は右上方注視の状態での視線推定結果を示す図解図である。 図19は上方注視の状態での視線推定結果を示す図解図である。 図20は左下方向注視の状態での視線推定結果を示す図である。 図21は図1のインタラクティブ看板システムの第1の実施例におけるぬいぐるみのコンピュータの動作を示すフロー図である。 図22は図21実施例における説明動作を示すフロー図である。 図23は図21に後続するぬいぐるみのコンピュータの動作を示すフロー図である。 図24は図1のインタラクティブ看板システムの第2の実施例におけるぬいぐるみのコンピュータの動作を示すフロー図である。 図25は図24実施例における説明動作を示すフロー図である。
符号の説明
10 …インタラクティブ看板システム
14 …看板
16 …カメラ
18 …サーバ
20 …ぬいぐるみ
36 …コンピュータ
42 …メッセージテーブル
A1,A2,… …領域

Claims (6)

  1. 複数の領域を有しかつユーザが視認できる位置に配置した看板、
    前記ユーザの視線の位置を検出する視線位置検出手段、
    前記視線位置に基づいてユーザが見ている前記看板の領域を特定する領域特定手段、
    前記看板の領域に表示した可視情報に関連する関連情報を少なくとも第1関連情報および第2関連情報を含む部分的関連情報として記憶した記憶手段、
    前記領域特定手段が特定した領域に関連する第1関連情報を前記記憶手段から読み出して出力する第1出力手段、
    前記第1関連情報に続いて第2関連情報を出力する必要性の有無を判断する判断手段、および
    前記判断手段によって前記必要性があると判断したとき、前記第2関連情報を前記記憶手段から読み出して出力する第2出力手段を備える、インタラクティブ看板システム。
  2. 前記視線位置検出手段は、前記看板を見ている前記ユーザの顔を撮影可能に設置されたカメラ、および前記カメラで撮影した画像を用いて前記ユーザの前記視線の方向を計算する計算手段を含む、請求項1記載のインタラクティブ看板システム。
  3. 擬人的媒体をさらに備え、前記第1出力手段および前記第2出力手段はともに、前記擬人的媒体を通じて前記第1関連情報および前記第2関連情報を出力する、請求項1または2記載のインタラクティブ看板システム。
  4. 前記第1出力手段および前記第2出力手段は同じ擬人的媒体に含まれる、請求項3記載インタラクティブ看板システム。
  5. 前記第1出力手段および前記第2出力手段は別個の擬人的媒体によって構成され、前記判断手段によって前記必要性があると判断したとき前記第1出力手段を構成する擬人的媒体から前記第2出力手段を構成する擬人的媒体に交代する、請求項3記載インタラクティブ看板システム。
  6. 前記別個の擬人的媒体の役割分担は変更可能である、請求項5記載のインタラクティブ看板システム。
JP2008282908A 2008-11-04 2008-11-04 インタラクティブ看板システム Withdrawn JP2010112979A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008282908A JP2010112979A (ja) 2008-11-04 2008-11-04 インタラクティブ看板システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008282908A JP2010112979A (ja) 2008-11-04 2008-11-04 インタラクティブ看板システム

Publications (1)

Publication Number Publication Date
JP2010112979A true JP2010112979A (ja) 2010-05-20

Family

ID=42301607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008282908A Withdrawn JP2010112979A (ja) 2008-11-04 2008-11-04 インタラクティブ看板システム

Country Status (1)

Country Link
JP (1) JP2010112979A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103746A (ja) * 2010-11-05 2012-05-31 Avix Inc 見る人の関心を惹きつける表示制御の方法、デジタルサイネージシステム、コンピュータープログラム
JP2014021565A (ja) * 2012-07-12 2014-02-03 Canon Inc 電子機器及びその制御方法
WO2016129156A1 (ja) * 2015-02-13 2016-08-18 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018060322A (ja) * 2016-10-04 2018-04-12 トヨタ自動車株式会社 音声対話装置及びその制御方法
JP2019128910A (ja) * 2018-01-26 2019-08-01 日本電信電話株式会社 情報出力装置、方法およびプログラム
JP2020520308A (ja) * 2017-04-21 2020-07-09 深▲せん▼前海達闥雲端智能科技有限公司Cloudminds (Shenzhen) Robotics Systems Co., Ltd. ロボット制御方法、ロボット装置及びロボット機器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103746A (ja) * 2010-11-05 2012-05-31 Avix Inc 見る人の関心を惹きつける表示制御の方法、デジタルサイネージシステム、コンピュータープログラム
JP2014021565A (ja) * 2012-07-12 2014-02-03 Canon Inc 電子機器及びその制御方法
WO2016129156A1 (ja) * 2015-02-13 2016-08-18 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018060322A (ja) * 2016-10-04 2018-04-12 トヨタ自動車株式会社 音声対話装置及びその制御方法
US10464214B2 (en) 2016-10-04 2019-11-05 Toyota Jidosha Kabushiki Kaisha Voice interaction device and control method therefor
JP2020520308A (ja) * 2017-04-21 2020-07-09 深▲せん▼前海達闥雲端智能科技有限公司Cloudminds (Shenzhen) Robotics Systems Co., Ltd. ロボット制御方法、ロボット装置及びロボット機器
US11325255B2 (en) 2017-04-21 2022-05-10 Cloudminds Robotics Co., Ltd. Method for controlling robot and robot device
JP2019128910A (ja) * 2018-01-26 2019-08-01 日本電信電話株式会社 情報出力装置、方法およびプログラム

Similar Documents

Publication Publication Date Title
CN107390863B (zh) 设备的控制方法及装置、电子设备、存储介质
US8508578B2 (en) Image processor, image processing method, recording medium, computer program and semiconductor device
JP5863423B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN110363867B (zh) 虚拟装扮系统、方法、设备及介质
JP5103682B2 (ja) インタラクティブ看板システム
KR20170031733A (ko) 디스플레이를 위한 캡처된 이미지의 시각을 조정하는 기술들
CN112199016B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
US20170064209A1 (en) Wearable point of regard zoom camera
JP2008102902A (ja) 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム
JP2010112979A (ja) インタラクティブ看板システム
CN111710036A (zh) 三维人脸模型的构建方法、装置、设备及存储介质
CN109582122A (zh) 增强现实信息提供方法、装置及电子设备
WO2012142869A1 (zh) 自动调节终端界面显示的方法及装置
US20190302880A1 (en) Device for influencing virtual objects of augmented reality
CN112509005B (zh) 图像处理方法、装置、电子设备及存储介质
JP6563580B1 (ja) コミュニケーションシステム及びプログラム
Lemley et al. Eye tracking in augmented spaces: A deep learning approach
JP2023017920A (ja) 画像処理装置
KR101100240B1 (ko) 멀티모달 상호작용을 이용한 로봇의 물체 학습 시스템 및 방법
JP2868449B2 (ja) 手振り認識装置
JP4831750B2 (ja) コミュニケーション誘発システム
US11328187B2 (en) Information processing apparatus and information processing method
CN111881807A (zh) 基于人脸建模及表情追踪的vr会议控制系统及方法
JP2009244949A (ja) 操作対象の切替装置
JP2000098871A (ja) 仮想画像立体合成装置、仮想画像立体合成方法、ゲーム装置及び記録媒体

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120110