JP2008186075A

JP2008186075A - インタラクティブ画像表示装置

Info

Publication number: JP2008186075A
Application number: JP2007016689A
Authority: JP
Inventors: Lyons Michael; ライオンズマイケル; Wiratanaya Andreas; ヴィラタナヤアンドレアス
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2007-01-26
Filing date: 2007-01-26
Publication date: 2008-08-14

Abstract

【課題】ユーザが提示された画像に対して示す興味のレベルに応じて、異なった画像を提示していくことが可能なインタラクティブ画像表示装置を提供する。
【解決手段】映像モジュールプログラム１２００は、ハードディスク１１１０に格納された動画像から顔領域を抽出する顔検出部１２０８と、検出され抽出された顔の内部の画像上の動きを特定するための情報の計算を行なうオプティカルフロー算出部１２０６とを含む。アニメーションエンジンプログラム１４００は、ハードディスク１１１０に格納された顔画像から得られた動きを特定するための情報と、ユーザ２の体の動きから、ユーザ２の興味のレベルを算出する感情モデル算出部１４０２と、算出された興味のレベルの変化に対応して、内部状態を変化させるステートマシン部１４０４と、ステートマシンの状態に応じて対応するアニメーションを生成するためのアニメーションエンジン部１４０６とを含む。
【選択図】図３

Description

この発明は、ユーザとの間でインタラクティブに画像を表示することが可能なインタラクティブ画像表示装置の構成に関する。

身体の障害を有する人々を助けるための様々な人工器官、たとえば、義足などは存在しているものの、認知能力の障害に対する人工器官の開発は、最近、やっと研究の緒についたばかりである。

認知症の治療の場合、常時、患者に対して注意を払い、かつ、世話をする必要があり、患者の家族にとって、負担を強いることとなっている。この結果生じるストレスは、患者の精神の安定には、ネガティブな効果を与えうる。このようなストレスを低減するための１つの方法は、一定期間にわたって、患者の注意をひき続けるような映像音楽メディアで患者を楽しませることで、同時に、世話をする者にも、このような世話の負荷を緩和させる、というものである。

最近、クワバラ等は、「セマンティックデスクトップ」という概念を提案している。このフレームワークでは、認知症または重度の記憶障害の人々に対してオンラインのサポートを提供する（たとえば、非特許文献１を参照）。典型的には、過去の出来事から記憶を刺激する画像を年長者に提供するような、つまり、過去のことを思い出させるようなビデオを患者に見せることを行う。さらに、ユーザとの相互作用を追加するために、ウツミ等は、ビデオを見る人の注意を引き付け続けるためにコンテンツを切り替えながら提供するという方法を試みている（たとえば、非特許文献２を参照）。この方法では、患者の注視する方向を注意の尺度として用いて、患者が興味を失い始めたときには、異なったチャネルに切り替えるということを行っている。
Kuwabara, K., Kuwahara, N., Abe, S. and Yasuda, K. Using Semantic Web Technologies for Cognitive Prostheses in Networked Interaction Therapy. Proc. Workshop on Cognitive Prostheses and Assisted Communications, IUI 2006,1-5 Utsumi, A., Kanbara, D., Kawato, S., Abe, S. and Yamauchi, H. Vision-based Behavior Detection for Monitoring and Assisting Memory-Impaired People. Proc. Workshop on Cognitive Prostheses and Assisted Communications, IUI 2006, 10-15

しかしながら、このような従来の試みでは、必ずしも、ユーザの興味のレベルに応じて、インタラクティブに画像を提示するわけではないため、ユーザの興味の維持が十分ではない可能性がある、という問題があった。

本発明は、このような問題点を解決するためになされたものであって、その目的は、ユーザが提示された画像に対して示す興味のレベルに応じて、異なった画像を提示していくことが可能なインタラクティブ画像表示装置を提供することである。

この発明のある局面に従うと、インタラクティブ画像表示装置であって、被験者に対する観測情報を得るための検知手段と、検知手段の検知結果に応じて、アニメーションを生成する表示制御手段とを備え、表示制御手段は、観測情報に応じて、被験者の感情状態を判断する感情状態算出手段と、感情状態の判断結果に応じて、所定の状態間を遷移するステートマシン手段と、所定の状態に応じて、異なるアニメーションを生成するアニメーションエンジン手段とを含み、アニメーションエンジン手段により生成されたアニメーションを表示するための表示手段をさらに備える。

好ましくは、検知手段は、被験者の顔画像を含む対象画像領域についての動画像データを獲得する撮影手段を含み、感情状態算出手段は、動画像データを格納するための記憶装置と、記憶装置に格納された対象画像領域内において、顔を検出する顔検出手段と、検出された顔に対応する検出領域において、単位領域ごとに動きベクトルを検出する動き検出手段と、検出された動きベクトルの時間変化に基づいて、被験者の感情状態をパラメータ化して出力する判断処理手段とを含む。

好ましくは、動き検出手段は、検出領域に対応する顔画像データにおいて格子点上の各点についてのオプティカルフローを、異なる複数の速度レベルで算出するオプティカルフロー算出手段を含み、異なる複数の速度レベルに対応したオプティカルフローに基づいて、動きベクトルに関連する情報として、被験者の頭の運動の大きさに相当する情報と、被験者の表情の動きの大きさに相当する情報とを分離して抽出する演算手段をさらに備え、判断処理手段は、情報に応じて、判断処理を行う。

好ましくは、アニメーションエンジン手段は、被験者が表示手段を見ていないとの判断に応じて、被験者に対して、表示手段を見るように促す動作を行うアニメーションを生成する。

好ましくは、アニメーションエンジン手段は、所定のポーズを示すアニメーションを生成する手段と、所定のポーズの真似をすることを促すアニメーションを生成する手段と、被験者が所定のポーズを真似たと判断することに応じて、肯定を示すポーズをとるアニメーションを生成する手段とを含む。

好ましくは、アニメーションエンジン手段は、被験者が所定のポーズを真似ていないと判断することに応じて、再度、所定のポーズの真似をすることを促すアニメーションを生成する手段を含む。

（本発明の概要）
以下に説明するように、本発明では、コンテンツの表示を患者の反応に適応的に行って患者の興味を引き付け続けるとの概念をより拡張した新しいインタフェースを提供するものである。過去の出来事を思い起こさせるような画像の代わりに、リアルタイムで変化するアニメキャラクタの形で、よりインタラクティブなコンテンツを使う装置を実現する。見る人を楽しませるようなアニメキャラクタのシミュレーションはコンピュータグラフィックの分野では、活発に研究されている分野であるが、認知症というような患者の世話のためにこれを用いようとした例はほとんどない。中期から末期の認知症の患者は、しばしば、言語によるコミュニケーション能力の重大な障害に苦しむものであるため、本発明では、視覚的で言語によらないインターアクションに基づいている。したがって、本発明では、パントマイムのような言語によらないコミュニケーションを用いている。

［ハードウェア構成］
以下、本発明の実施の形態にかかる感情情報通知装置について説明する。

図１は、本発明のインタラクティブ画像表示システム１００の構成を示す概略ブロック図である。

図１を参照して、このインタラクティブ画像表示システム１００は、パーソナルコンピュータなどのコンピュータ１１０と、コンピュータ１１０に接続され、ユーザ（患者、すなわち、被介護者）２への情報を表示するための表示装置としてのディスプレイ１０８と、同じくコンピュータ１１０に接続され、ユーザ２または介護者からの指示や情報を入力するための入力装置としてのキーボード１０６と、被験者４の顔を含む画像を取込むための複数台カメラ１０２．１〜１０２．ｎとを含む。なお、入力装置として、マウスや、タブレットとペンなどをさらに備える構成としてもよい。また、被験者４の感情状態を判断する手がかりとなる情報を取得するためのセンサとして、マイク等がさらに設けられていてもよい。

また、この実施の形態のシステムでは、カメラ１０２．１〜１０２．ｎとしては、たとえば、ＣＣＤ（固体撮像素子）を含むビデオカメラを用いて、画像データをデジタルデータとしてキャプチャする。

なお、図示しないが、コンピュータ１１０には、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory ）ドライブなど、外部の記録媒体からのデータを取り込むための装置が設けられているものとする。

さらに、図１を参照して、コンピュータ１１０は、バスＢＳそれぞれに接続された、ＣＰＵ（Central Processing Unit ）１１０４と、ＲＯＭ（Read Only Memory) １１０６と、ＲＡＭ（Random Access Memory）１１０８と、ハードディスク１１１０と、カメラ１０２．１〜１０２．ｎからの画像を取り込み、あるいは入力装置１０６からの信号を受け取るなどデータを授受するためのインタフェース部１１０２とを含んでいる。インタフェース部１１０２は、上述したようなセンサが設けられている場合は、センサからの入力信号を受け取る。

既に述べたように、インタラクティブ画像表示システム１００として機能する部分の主要部は、コンピュータハードウェアと、ＣＰＵ１１０４により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアはＣＤ−ＲＯＭ等の記憶媒体に格納されて流通し、ＣＤ−ＲＯＭドライブ等により記憶媒体から読取られてハードディスク１１１０に一旦格納される。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから一旦ハードディスク１１１０にコピーされる。そうしてさらにハードディスク１１１０からＲＡＭ１１０８に読出されてＣＰＵ１１０４により実行される。なお、ネットワーク接続されている場合には、たとえば、ハードディスク１１１０に格納することなくＲＡＭ１１０８に直接ロードして実行するようにしてもよい。

図１に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、ＣＤ−ＲＯＭや、ハードディスク１１１０等の記憶媒体に記憶されたソフトウェアである。

なお、最近の一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該感情情報通知装置を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめて感情情報通知装置が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールまで含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体（およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号）が実施の形態を構成すると考えることができる。

［ソフトウェア構成］
図２は、本願発明のインタラクティブなキャラクタアニメーションシステム１００の構成を示す概念図である。

図２に示すように、ユーザ（患者）とアニメーションエンジンソフトウェアの生成したバーチャルなキャラクタとの間に相互作用がもたらされる。本システム１００では、たとえば、パントマイムのように、キャラクタは、いくつかの様式化されたユーモラスな動作を行ってから動作を停止する。パントマイムの場合は、このような動作の停止に対して、さらに動作を促すために、見る側は、お金を投げ入れたり、拍手をしたりというようなインターアクション（相互作用）をとるわけである。

これに対して、本システム１００では、ユーザの動きがシステムにより、異なったスケールで撮影する複数のビデオカメラにより記録され、コンピュータの画像アルゴリズムは、ユーザ（患者）の外観や動きを分析してその注意の状態を決定する。このようにして得られたユーザの情報は、コンピュータ上で動作するステートマシンに送られて、強化学習が実行され、アニメーションのキャラクタが次にどのような動作をするべきかを決定する。本システム１００では、１組のアニメーションが、ユーザが何らかの反応を起こすことが期待されるようにデザインされ、これにより、このようなユーザの反応がシステムの入力となり、フィードバックループが完成する。

本システム１００では、システムへの入力としては、非言語的なコミュニケーションであって、かつ、非侵襲的なセンシングを行うために、複数のカメラにより撮影されたユーザの画像を用いている。たとえば、２つのカメラを用いて、一方、ユーザの顔にフォーカスし、他方は、ユーザの上半身全体を撮影している。

感情の評価の方法としては、コンピュータ１１０で動作するステートマシンにより、以下のように処理を行う。

たとえば、人間は、興味の程度に応じて、異なった注意のサインを示す。ここで、興味の程度としては、穏やかな興味の程度で単純に観察している程度から、有頂天となっているような興味の程度までの広がりがある。単純に観察しているという興味のレベルのユーザは、単にアニメーションを見ているだけであるが、興味を抱いているユーザは、無意識的な表情の変化を示す。強く興味を持っているユーザは、さらに、体全体での身ぶりで反応する。したがって、本システムでは、以下のような処理を行うことができる。

Ｄ１）ユーザは、ディスプレイを見ているのかいないのかを決定する。
Ｄ２）現在のユーザの頭の方向を認識する。

Ｄ３）体全体の動きを分類する（動いている（動きの大きさのレベル）。静止している。）つまり、体の動きの大きさを所定のレベルのいずれに属するかで分類する。

Ｄ４）表情が笑っているのか、顔をしかめているのかというような基本パターンに分類する。

Ｄ５）身ぶりをいくつかの基本パターンに分類する（手を広げている。顔を両手で覆っている。口を手で覆っている。等）
図３は、図１に示した感情情報通知装置１００上で動作するソフトウェアの構成を説明するための機能ブロック図である。

さらに、本システム１００では、アニメーションに関連付けて、予め定められた複数の音楽ファイル（ＭＩＤＩファイル）が再生される構成となっている。

以下では、ユーザ２の感情状態を判断する手がかりとなる情報としては、撮影された画像から検知される表情等の情報であるものとする。

図３においては、コンピュータ１１０上で動作するプログラムは、映像モジュールプログラム１２００と、キャプチャされてハードディスク１１１０に格納された動画像から被験者の感情状態を判断し、対応するアニメーションを生成して切り替えながら出力するためのアニメーションエンジンプログラム１４００とを含む。

本発明では、このような構成とすることで、ユーザ２の現在表示中のアニメーションへの興味のレベルに応じて、異なったアニメーションを切り替えながらユーザ２に対して提示することが可能となる。

以下に説明するとおり、インタラクティブ画像表示システム１００では、ユーザ２について撮影された動画像が実時間で処理されて、顔の領域が分離され、表情が記録される。顔の動きを解釈するために、オプティカルフロー法が使用される。

映像モジュールプログラム１２００は、対象となるユーザ２の顔とその周りの環境も含めた動画像をカメラ１０２．１〜１０２．ｎから獲得する画像キャプチャ部１２０２と、キャプチャされた動画像をハードディスク１１１０に格納するための画像データ記録処理部１２０４とを含む。画像キャプチャ部１２０２は、必要に応じて、カメラ１０２．１〜１０２．ｎから入力されるデジタル動画像データを保存に適した画像フォーマットへとフォーマット変換を行なう。

映像モジュールプログラム１２００は、さらに、ハードディスク１１１０に格納された動画像から顔領域を抽出する顔検出部１２０８と、オプティカルフローに基づいて、抽出された顔自体または顔の内部の画像上の動きを特定するための情報（たとえば、画像内の動きベクトルの分布）の計算を行なうオプティカルフロー算出部１２０６とを含み、オプティカルフロー算出部１２０６は、顔画像の動画像データを算出された動きを特定するための情報とともにハードディスク１１１０に格納する。

一方、アニメーションエンジンプログラム１４００は、ハードディスク１１１０に格納された顔画像から得られた動きを特定するための情報と、後に説明するようにユーザ２の体の動きから、ユーザ２の興味のレベルを算出する感情モデル算出部１４０２と、算出された興味のレベルの変化に対応して、内部状態を変化させるステートマシン部１４０４と、ステートマシンの状態に応じて対応するアニメーションを生成するためのアニメーションエンジン部１４０６とを含む。

（映像モジュールプログラム１２００）
カメラ１０２からの動画像データの入力は、オプティカルフロー処理の演算量の削減や、ハードディスク１１１０へ格納するためのデータ容量の削減のために、たとえば、６４０×４８０画素から３２０×２４０画素に間引かれる。

周知の顔の検出アルゴリズムにより顔検出部１２０８が、カメラ１０２の視野の中に顔が存在するかどうかを決定し、それがどこに存在しているかも決定する。特に限定されないが、この顔検出のアルゴリズムは、頭の画像の中心の位置にくるように、顔に固定されたアスペクト比の矩形領域を登録する。たとえば、約３０°まで平面から回転している顔も正確に検出することができ、同様に、画像平面内において約３０°傾いた状態の顔も正確に検出することができる。顔画像はスケールされ、３０フレーム／秒までのレートで、各フレームに対応する顔画像が、たとえば、タイムスタンプとともに保存される。

オプティカルフロー算出部１２０６において、画像のオプティカルフロー領域が、さまざまなビデオフレーム間での動きを検出する。検出された動きベクトルは、顔の内部領域全体にわたる動きベクトルの平均とともに、顔画像の動画像データと関連づけてハードディスク１１１０に保存される。

オプティカルフローは、視覚的なシーンにおいて、動きにより、画像領域がずれることを測定したものである。固定されたカメラと近似的に一定な照明に対しては、オプティカルフローのフィールドは、局所的な速度を計っていることになる。オプティカルフローを計算するために用いる方法としては、特に限定されないが、文献：特開２００４−３５５０８２号公報や、文献：Barrron, J. L., Fleet, D. J., Beauchemin, S.S.: Performance of optical flow techniques. The International Journal of Computer Vision, 12(1994)pp.43-77に記載されている、ブロックマッチングあるいはブロック相関として知られているものを使用することが可能である。

ブロック相関技術を用いることで、ある画像フレームの領域が、それに続くフレーム中の全く同じサイズの領域にマッチングされる。このようなマッチングは、画像間の距離（たとえば、各画素の輝度の差の絶対和または自乗和など）の大きさを最小化することによって決定される。たとえば、１５ｆｐｓのフレームレートのオプティカルフローフィールドにおいては、顔の内部の動作による特徴量の変位は、各時間ステップに対して数ピクセル程度になる。

速度として動きを計測するために、たとえば、１、３、５、７および１０ビデオフレームだけ離れたフレーム間でのオプティカルフローフィールドを計算する。オプティカルフローの値は、さらに、顔検知モジュールによって検出された顔の内部部分に対応している各領域について、対応するフレーム間について平均処理がされる。

図６は、顔画像について検出されたオプティカルフローのフィールドの例を示す図である。

顔の片側をこわばらせる動きをした場合に、顔画像上の格子点（これをフィールドと呼ぶ）の各々において、動きベクトルが白い矢印で示されている。

顔のこわばりの途中や、表情を緩める途中のように動きのある場合には、顔の各部の動きに応じて、動きベクトルが現れているのがわかる。

オプティカルフロー算出部１２０６において算出されるオプティカルフロー値の平均において、上述した１、３、５、７および１０ビデオフレームの間隔において平均処理により求められた動きベクトルの大きさである５つの速度レベルについて、動作速度の分布が求められる。このため、そのような動きが大きく顔全体（頭）が剛体的に動いたことによる動作に対応しているものなのか、あるいは表情や会話に対応するもっと微妙な動作に対応しているものであるかが検知できる。つまり、顔全体が動いているときは、５つの動きベクトルのいずれにもピークが現れるのに対し、顔の内部の動きであれば、ビデオフレーム間隔に依存して、ピークの存在する速度レベルと存在しない速度レベルとが混在するというように、顔の動きの解釈をステートマシン部１４０２が行なうことができる。

なお、本システム１００では、さらに、以下のようにして、表情の判断を行っている。
図７は、本システム１００での表情および顔の向きの判断の方法を示す図である。

すなわち、図７に示すように、検出された顔領域の矩形部分（図７（ａ））は、７つの領域に分割される。この７つの領域は、左目、右目、左眉、右眉、左ほほ、右ほほ、口である。各領域についてオプティカルフローを算出する。表情は、感情モデル算出部１４０２で、各領域ごとに、平均フローベクトルからなる特徴フローベクトルを分類することで認識される。図７（ｂ）では、上述したような手法により、剛体的な動きと、微妙な内部の動きとを分離するためのオプティカルフローの分布を示す図である。

また、ユーザがカメラを見ているかどうかを決定するためには、顔の対象性を用いている。すなわち、図７（ａ）に示すように、顔検出部１２０８で検出された矩形領域は、正確に顔の中心に合わせられている。そこで、右側の顔と左側の顔とを比較することで、顔の向きを評価できる。ここで、顔の向きの検出（あるいは、視線の検出）については、周知な方法を用いることによって実現できる。

したがって、また、ユーザが今カメラを見ているかどうかだけでなく、ユーザが、今、右をみているのか、左をみているのかも決定することができる。

図８は、ユーザ２の上体の姿勢を検出する手続きを示す図である。
また、ユーザの上体の姿勢を分類するためには、図８（ａ）に示すように撮影した上体の画像において、図８（ｂ）のようにユーザの画像（前景）と背景とを分離する。ここでは、撮影が室内で行われていることから、前景と背景の分離には、たとえば、「ガウシアンモデル」を用いることができる。このような「ガウシアンモデル」については、文献：Wren, C.R., Azarbayejani, A., Darrell, T. and Pentland, A.P. Pfinder: Real-Time Tracking of the Human Body. IEEE PAMI, 1997, 780-785に開示がある。さらに、画像は２値化されて、マススプリングモデルを用いると、現在の姿勢の特徴的な形を図８（ｃ）のように取り出すことができる。ここで、このマススプリングモデルについては、文献：Turk, M. Visual Interaction With Lifelike Characters. Proc. 2nd Conf. on Automatic Face and Gesture Recognition,IEEE (1996)に開示がある。

このような特徴的な形を予め分類しておいた姿勢と比較することにより、ユーザの上体の姿勢を分類することができる。

（アニメーションエンジンプログラム１４００）
まず、感情モデル算出部１４０２は、上述したようなＤ１〜Ｄ５のような判断結果をパラメータ化して、ステートマシン部１４０４に出力する。

ステートマシン部１４０４は、複数の状態間を受け取ったパラメータに応じて遷移する。状態の個数については特に制限されないが、たとえば、５〜１０程度とすることができる。そして、アニメーションエンジン部１４０６は、この各状態に応じて、異なるアニメーションを生成する。

以下では、説明の簡単のために、以下のような３つの状態Ａ，Ｂ，Ｃの間を遷移するものとして説明する。

（状態Ａ）システム１００は、顔検出部１２０８の検出結果等により、ユーザ２がディスプレイ１０８に表示されるアニメーションを見ていないと判断した状態である。

この場合は、ユーザ２の興味を引いてアニメーションを見はじめるように合図をして差し招くような動作をする。たとえば、アニメーションのキャラクタは、腕を振ってジャンプしたりする。

（状態Ｂ）キャラクタは、ユーザ２がディスプレイ１０８から適切な距離をとって、アニメーションを見るように促す。つまり、ユーザ２がディスプレイ１０８を見ていると判断し、かつ、顔検出部１２０８検出結果等により、ユーザ２がディスプレイ１０８に第１の所定の距離よりも近づきすぎている、または第２の所定の距離よりも遠くはなれすぎていると判断すると、ステートマシン部１４０４はこの状態に遷移する。

この状態では、キャラクタは、ユーザ２が近づきすぎているときは、ユーザ２に離れてみることを促すしぐさをし、一方、ユーザ２が近づきすぎているときは、ユーザ２に近づいてみることを促すしぐさをする。

（状態Ｃ）この状態では、キャラクタは、ある１つの身ぶり、たとえば、腕を振る、あるいは、手で所定の形を作る、等のしぐさをした後に、ユーザ２にそれをまねてみることを促すしぐさをする。さらに、感情モデル算出部１４０２から与えられるパラメータにしたがって、ステートマシン部１４０４は、ユーザ２がキャラクタと同様のしぐさをしたかを判断する。もしも、ユーザ２が同様のしぐさをしたと判断した場合は、ユーザ２が成功したことを示す肯定的なしぐさをする。一方、ユーザ２が同様のしぐさをしていないと判断した場合は、ユーザ２に、もう一度まねてみること促すしぐさをする。

ここで、特に限定されないが、たとえば、状態Ｂから状態Ｃへは、感情モデル算出部１４０２から与えられるパラメータの組と所定のしきい値の組との比較により遷移することとすることができる。状態の個数は、さらに増加させることが可能であり、この場合も、各状態間の遷移は、パラメータの組と所定のしきい値の組との比較により、各パラメータが対応するしきい値を越えたか否かに応じて行うことができる。さらには、このような遷移のためのしきい値は、遷移に伴うユーザの興味レベルの変化に応じて、適応的に変化することとして、システムが学習する構成とすることも可能である。

（アニメーションエンジン部１４０６）
図４は、本システム１００で使用するアニメーションキャラクタの例を示す図である。

パントマイムは、２つのチャネルを使って情報を伝達する。すなわち、表情とボディランゲージである。本発明では、ユーザに提示する画像としては、一般に予め準備した複数の動画像を使用することが可能であるが、ただし、あまりにリアリスティックな人間のモデルでは、ユーザから却って受け入れられない場合があり、また、動物をモデルにすると、ボディランゲージを使える範囲が限られてしまう、という事情を考慮して、図４（ａ）（ｂ）に示すような、比較的抽象的な漫画のようなモデルを使用することが好ましい。

図５は、動作および表情を表現するためのアニメーションの例を示す図である。
表情のアニメーションは、コンピュータグラフィックの世界では、よく研究されている問題である。本発明では、予めいくつかの表情を手書きで作成しておき、これらの表情間の変化はモーフィングの技法を用いた。このような手書きで作成したアニメーションの例を図５に示す。これらの基本表情のパターンを線形的にブレンドすることで、さらに、様々な表情を作成することができる。つまり、図５（ｂ）に示すような複数の基本表情のパターンをｎ個作成すれば、表情は、ｎ次元の空間の中の点として表現することができる。

四肢の動きは、回転を含んでいるために、非線形な動きとなる。したがって、上記の表情のように、基本パターンを作っておいて、これらを線形にブレンドする、というだけでは十分ではない。このような問題を解決するための一般的な方法として、図５（ａ）に示すような骨格モデルを用いたアニメーションを作成する。アニメーションの動きは、各骨の回転を用いて容易にパラメータ表現できる。

図９は、本システム１００を実際にユーザが使用している状態を示す図である。
図９（ａ）（ｂ）に示すように、ユーザ２と本システム１００との間では、非言語的なユーザのしぐさ（画面を見ているか、いないか）により、表示内容が相互作用として変化する。

以上のとおり、本発明によれば、ユーザ（被介護者）の興味を引き続ける画像の提示が可能となる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明のインタラクティブ画像表示装置１００の構成を示す概略ブロック図である。インタラクティブ画像表示装置１００の動作を示す概念図である。感情情報通知装置１００上で動作するソフトウェアの構成を説明するための機能ブロック図である。本システム１００で使用するアニメーションキャラクタの例を示す図である。動作および表情を表現するためのアニメーションの例を示す図である。顔画像について検出されたオプティカルフローのフィールドの例を示す図である。本システム１００での表情および顔の向きの判断の方法を示す図である。ユーザ２の上体の姿勢を検出する手続きを示す図である。本システム１００を実際にユーザが使用している状態を示す図である。

符号の説明

２ユーザ、１００インタラクティブ画像表示装置、１０２．１−１０２．ｎカメラ、１０６キーボード、１０８ディスプレイ、１１０コンピュータ、１１０２インタフェース部、１１０４ＣＰＵ、１１０６ＲＯＭ、１１０８ＲＡＭ、１１１０ハードディスク、１２００映像モジュールプログラム、１２０２キャプチャ部、１２０４画像データ記録処理部、１２０６オプティカルフロー算出部、１２０８顔検出部、１４００アニメーションエンジンプログラム、１４０２感情モデル算出部、１４０４ステートマシン部、１４０６アニメーションエンジン部。

Claims

被験者に対する観測情報を得るための検知手段と、
前記検知手段の検知結果に応じて、アニメーションを生成する表示制御手段とを備え、
前記表示制御手段は、
前記観測情報に応じて、前記被験者の感情状態を判断する感情状態算出手段と、
前記感情状態の判断結果に応じて、所定の状態間を遷移するステートマシン手段と、
前記所定の状態に応じて、異なるアニメーションを生成するアニメーションエンジン手段とを含み、
前記アニメーションエンジン手段により生成されたアニメーションを表示するための表示手段をさらに備える、インタラクティブ画像表示装置。
前記検知手段は、被験者の顔画像を含む対象画像領域についての動画像データを獲得する撮影手段を含み、
前記感情状態算出手段は、
前記動画像データを格納するための記憶装置と、
前記記憶装置に格納された前記対象画像領域内において、顔を検出する顔検出手段と、
前記検出された顔に対応する検出領域において、単位領域ごとに動きベクトルを検出する動き検出手段と、
検出された前記動きベクトルの時間変化に基づいて、前記被験者の感情状態をパラメータ化して出力する判断処理手段とを含む、請求項１記載のインタラクティブ画像表示装置。
前記動き検出手段は、前記検出領域に対応する顔画像データにおいて格子点上の各点についてのオプティカルフローを、異なる複数の速度レベルで算出するオプティカルフロー算出手段を含み、
前記異なる複数の速度レベルに対応した前記オプティカルフローに基づいて、前記動きベクトルに関連する情報として、前記被験者の頭の運動の大きさに相当する情報と、前記被験者の表情の動きの大きさに相当する情報とを分離して抽出する演算手段をさらに備え、
前記判断処理手段は、前記情報に応じて、判断処理を行う、請求項１記載のインタラクティブ画像表示装置。
前記アニメーションエンジン手段は、
前記被験者が前記表示手段を見ていないとの判断に応じて、前記被験者に対して、前記表示手段を見るように促す動作を行うアニメーションを生成する、請求項１記載のインタラクティブ画像表示装置。
前記アニメーションエンジン手段は、
所定のポーズを示すアニメーションを生成する手段と、
前記所定のポーズの真似をすることを促すアニメーションを生成する手段と、
前記被験者が前記所定のポーズを真似たと判断することに応じて、肯定を示すポーズをとるアニメーションを生成する手段とを含む、請求項１記載のインタラクティブ画像表示装置。
前記アニメーションエンジン手段は、
前記被験者が前記所定のポーズを真似ていないと判断することに応じて、再度、前記所定のポーズの真似をすることを促すアニメーションを生成する手段を含む、請求項５記載のインタラクティブ画像表示装置。