JP2006293999A5

JP2006293999A5 -

Info

Publication number: JP2006293999A5
Application number: JP2006066863A
Authority: JP
Filing date: 2006-03-13
Publication date: 2008-11-20
Anticipated expiration: 2026-03-13

Description

画像表示方法

本発明は、画像表示方法およびその装置に関し、特に、広告情報もしくは案内情報または映像情報の表示方法ならびにその装置に関する。

乗り物や店舗内等において、小画面ディスプレイを使用した広告がいたるところで見られる。また、近年、街頭等において、大画面ディスプレイを使用した広告も見られるようになってきている。
これらの広告（以下、これを電子広告ということがある。）は、予め準備された静止画像あるいは動画像の画像群データをスケジュールに従って逐次表示することによって行われる。
これにより、紙広告の場合に不十分であった最新の広告をタイムリーにかつ煩雑な手間をかけることなく実現することができる。

しかしながら、電子広告は、上記のように予め準備された静止画像あるいは動画像を一方的に流すものであるため、電子広告を見る者（以下、これを視聴者ということがある。）は受動的に広告を見るだけである。
このため、印象に残りやすい視覚効果に優れる広告を流したとしても、視聴者の注目を集め、高い広告効果を得るには限度がある。

この点を改善するために、視聴者の注目を集め、高い広告効果を得る方法が提案されている。

例えば、広告表示端末を見ている視聴者が広告に表示されているアクセスキーを含めて電話や電子メールを送ることで、広告表示スケジュールを再作成する電子広告システムが提案されている（特許文献１参照。）。この方法によれば、広告を実際に見ている視聴者のみが広告表示データを変更することができるので、視聴者に広告への関心を高めることができるとされている。

また、例えば、電車等の移動体が備える表示装置に遠隔地から広告を配信して表示する場合に、移動体の走行位置や時間によって表示する広告を変更する方法が提案されている（特許文献２参照。）。この方法によれば、その走行位置や時間の乗客の層に応じた広告を表示することができ、広告を効果的にすることができるとされている。

さらにまた、広告表示端末に撮像装置を備え、視聴者を撮像して得た情報を広告表示に反映する方法も提案されている。
例えば、撮像装置で得た個人の行動傾向に合わせて、その行動傾向に対応する広告データを画像表示する広告端末（特許文献３参照。）、複数の広告提示装置の設定場所に視聴者の反応を収集する撮像部等の装置を配備し、収集したデータを通信回線経由で分析装置に伝送記録し、広告効果の分析時に収集データを所定の形式で再生出力する広告効果確認システム（特許文献４参照。）等が提案されている。
また、撮像した視聴者に関する人物属性を判定して、人物像の切り出しを行うとともに、人物属性判定結果を蓄積するインタラクティブ表示装置が提案されている（特許文献５参照。）。ここでいう人物像の切り出しは、予め用意した複数の人物テンプレートのなかから選択されたものを人物像として切り出すものである。
特開２００２−１５０１３０号公報特開２００３−１５７０３５号公報特開２００２−２８８５２７号公報特開平１１−１５３９７７号公報特開２０００−１０５５８３号公報

しかしながら、上記従来の方法は、いずれも、視聴者の注目を集め、高い広告効果等を得るには必ずしも十分ではないと考えられる。また、画像表示する一つ一つのコンテンツを時間と労力をかけて作り込む必要があり、コンテンツ制作が大変である。

本発明は、上記の課題に鑑みてなされたものであり、表示装置の画像を見る視聴者の注目度を効果的に高めることのできる画像表示方法およびその装置を提供することを目的とする。

本発明者は、人の動きをトリガーとして、そのトリガー情報をもとにリアルタイムに画像コンテンツを作り出して表示することにより、いわば、情報の発信側ではなく受け手側に画像コンテンツ表示の主導権を委ねてインタラクティブな表示を行うことにより、表示装置の画像を見る視聴者の注目度を効果的に高めることができることを見出し、本発明に想達した。

本発明に係る画像表示方法は、
撮像される人の動きに応じて変化する画像を画像表示装置に表示させる画像表示方法であって、
相互に独立して表示可能な複数の、文字若しくは図形または文字および図形の結合である画像要素と、画像要素とは異なる所定の領域を含む表示画像の初期画像コンテンツを決定し、初期表示画像を生成して表示する工程と、
人を認識情報として捉える認識情報取得工程と、
認識情報として捉えた人の動きを検出する動き検出工程と、
動きのある位置の画像要素または動きのある位置の画像要素とは異なる所定の領域に対応するコンテンツ素材を選択し、または、初期表示画像に関連する画像コンテンツを選択するコンテンツ選択工程と、
選択されたコンテンツ素材からなる画像要素と初期表示画像の残余の画像要素を合成し、または、画像コンテンツからなる画像を初期表示画像に代替するとともに、さらに、認識情報として捉えた人の画像を切り出してそのままに、または人の代替画像を画像要素として合成する画像合成処理工程と、
合成した画像を表示する合成画像表示工程と、
を有し、
認識情報取得工程、動き検出工程、コンテンツ選択工程、画像合成処理工程および合成画像表示工程を表示フレームごとに繰り返すことを特徴とする。

また、本発明に係る画像表示方法は、
前記コンテンツ選択工程において、前記認識情報、前記特定の画像要素または前記所定の領域に対応する音コンテンツを選択し、前記合成画像表示工程において、合成画像とともに、または合成画像とは独立して該音コンテンツからなる音を出力することを特徴とする。

また、本発明に係る画像表示方法は、前記表示画像のコンテンツが、認識情報として捉えた人に提供する広告情報、案内情報または展示情報であることを特徴とする。

また、本発明に係る画像表示方法は、前記表示画像のコンテンツが、認識情報として捉えた人のパフォーマンスを、該表示画像を見る人に提供する映像情報であることを特徴とする。

本発明に係る画像表示方法およびその装置は、相互に独立して表示可能な複数の画像要素からなる表示画像に、例えば、認識情報として捉えた人の動きに対応して選択されたコンテンツ素材からなる画像要素と初期表示画像の残余の画像要素を合成するとともに、さらに、例えば、認識情報として捉えた人の画像を切り出して合成して表示するため、認識情報として捉えた人または第三者が表示画像を見るときの注目度を高めることができる。
また、人の動きに応じたコンテンツの切り替えが繰り返されることにより、人の動きがリアルタイムにコンテンツへ反映され画像が変化し続けるために注目している時間をより長く保つことができる。

本発明に係る画像表示方法およびその装置の実施の形態について、図を参照して、以下に説明する。

まず、本発明に係る画像表示装置について、図１を参照して説明する。
本発明に係る画像表示装置１０は、外界情報、特にそのなかでも人を認識情報として捕らえる受容部（認識情報取得手段）１２と、主制御部１４と、出力部１６とを備える。受容部１２および出力部１６は、主制御部１４と一体化されたものであってもよい。

受容部１２は、例えば、画像センサ（撮像手段）１２ａおよび音センサ（音受容手段）１２ｂのうちのいずれか一方または双方である。
前者の画像センサ１２ａは、通常のカメラのほか、赤外線カメラ、赤外線センサあるいは両眼視差等の３Ｄカメラ等を用いることができ、これにより、人の挙動等の外界情報を受容（センシング）する。特に、３Ｄカメラを用いることで、距離情報のある画像の時間的変化の情報を得ることができる。
後者の音センサ１２ｂは、マイク等の音センサを用いることができ、これにより、人の声等の外界情報を受容する。
また、受容部１２は、叩いたり触ったりした振動を認識する振動センサ、空気の流れや気配等認識するドップラーセンサ、サーモグラフィなどで温度を認識する温度センサあるいは力のかかり具合等を認識する圧力センサであってもよい。

出力部１６は、表示装置（合成画像表示手段）１６ａおよび音響装置（音出力手段）１６ｂである。表示装置１６ａは、例えば、ディスプレイ、プロジェクタあるいはテレビ等であり、音響装置１６ｂは、例えば、スピーカーあるいはヘッドホン等である。

主制御部１４は、受容部１２によって得られた情報に応じて出力情報を生成して、出力部１６に出力する機構を備える。
主制御部１４は、例えばコンピュータであり、認識情報処理部１８、画像情報生成部２０、音情報生成部２２およびクロック２４を有する。

認識情報処理部１８は、画像情報処理部（動き検出手段）２６と、音情報処理部２８を有する。
画像情報処理部２６は、画像センサ１２ａによって取得した人の情報を処理して、出力画像を選択するために用いるトリガ信号を生成する。音情報処理部２８は、音センサ１２ｂによって受容される外界情報を処理して、音情報を選択するために用いるトリガ信号を生成する。このトリガ信号に基づいて得られる音情報は、外界情報と対応付けられたものである。また、これとは別に、音コンテンツが特定の画像要素等に対応して選択されるが、この点については詳細を後述する。なお、音情報と音コンテンツは、同一の意味であるが、上記のようにこれらを生成するトリガが異なるため、便宜的に言葉を使い分ける。

画像情報処理部２６は、画像センサ１２ａで撮像される人（以下、これを被写体ということがある）をそのままの形で合成用の被写体画像（クロマキー画像）を生成するためにそのまま出力し、あるいは、輪郭線や影絵の画像処理を施して出力する。あるいはまた、キャラクター画像等の被写体の代替画像を生成するための、トリガ信号を出力する。また、画像情報処理部２６は、出力画像センサ１２ａで撮像される被写体を画像処理して被写体の動きを検出し、画像コンテンツを選択するためのトリガ信号を出力する。

被写体の動きは、連続２フレームの差分、連続３フレームの差分、背景との差分などフレーム差分により、変化のあった部分を特定する。例えば連続２フレームの差分を取る場合、図２に示すように、２つのフレームＦ１ａとフレームＦ１ｂとで変化のあった部分の座標からフレームＦ１ｃに示すように「動きの位置」を検出し、あるいは、変化のあった部分の大きさから「動きの量」を検出する。
前者の「動きの位置」については、例えば、１フレームが所定数の分割フレームに分割された前後のフレームを比較して、分割フレームの画像の輝度の変化を捉えることにより、変化のあった分割フレームの位置を特定することにより行う。すなわち、入力された画像データから、現在のフレームの画像とその直前のフレームの画像（または背景画像）のすべての画素（ピクセル）の明るさを比較し、その差が既定値以上ならば動きありの画素であると判断し、このとき、動きありの画素群の重心（Ｘ座標，Ｙ座標）が縦横のどの区画(分割フレーム)に属するものであるかを判定する。そして、フレーム内の縦横の区画の位置に応じて「動きの位置」を検出する。
後者の「動きの量」については、例えば、上記において、入力された画像データから、現在のフレームの画像とその直前のフレームの画像（または背景画像）のすべての画素（ピクセル）の明るさを比較し、その差が既定値以上ならば動きありの画素であると判断し、このとき、動きありの画素数に応じて「動きの量」を検出する。
ここで、被写体の動きとして、例えば図３に示すように、３つのフレームＦ２ａ〜Ｆ２ｃのフレーム差分の累積より得られる、フレームＦ２ｄに示す「動きの方向」とフレームＦ２ｅに示す「動きの累積量」を用いてもよい。
さらに、時間要素を加えることにより、動きの位置、動きの方向、動きの量および動きの速さのうちの少なくとも１つの被写体の動き（動きの質、あるいは動きの特性）によってトリガ情報（トリガ信号）が生成される。
また、このような画面上の点における動きのベクトル（大きさや方向）は、フィルタリング法や勾配法を用いてオプティカルフローを算出することによっても求めることができる。

これらの被写体の動きは、３Ｄカメラを利用することにより、例えばカメラの前２ｍ以内の人影のみの動きを認識することができ、遠くの背景や人混みを除外することが可能になる。同様に、赤外線カメラを利用して、赤外線ライトの届く範囲内のみの認識や、夜などの暗いところでの認識も可能になる。

また、画像情報処理部２６は、例えば、画像センサ１２ａで撮像される被写体の様子を画像認識情報として取得するように構成してもよい。
被写体の様子は、例えば、画像情報処理部２６に設けられる図１に表れない画像データベース（後述の画像データベース３０とは別。）とのパターンマッチングによって特定する。
すなわち、例えば、図４に示すように、画像データベースの画像パターンの中から被写体の画像と特徴が一致するものを検索し、スーツとビジネスバッグとの特徴が一致した場合、「男性らしい」という様子をトリガ情報として得、あるいは、傘と特徴が一致した場合「雨が降っている」という様子をトリガ情報として得る。
あるいはまた、例えば、図５に示すように、画像データベースの画像パターンの中から被写体の画像と位置関係が一致するものを検索し、目、鼻、口のバランスの関係が一致した場合、特定の顔という様子をトリガ情報として得る。
また、このとき、顔の位置から、大人と子供の区別を、あるいはまた、人数を、それぞれトリガ情報として得るようにしてもよい。

音情報処理部２８は、例えば、音センサ１２ｂで受容される外界の音を処理してトリガ情報（トリガ信号）を生成する。
例えば、受容される音の単位時間の波形データをＦＦＴ（高速フーリエ変換）解析し、周波数分布形状を得、音情報処理部２８に設けられる図１に表れない音データベースとのパターンマッチングによって特定する。
すなわち、例えば、図６に示すように、図６中右側の音データベースのハイヒールＦ３ａ、革靴Ｆ３ｂ、スニーカーＦ３ｃ、かばんのころころＦ３ｄ、車椅子Ｆ３ｅ、雨Ｆ３ｆ等の音パターンの中から図６中左側の受容される音（音パターン）Ｆ３ｇと特徴が一致するものを検索し、入力された音の波形の成分分布形状がハイヒールＦ３ｇの音の波形の成分分布形状と特徴が一致すると判断された場合は「女性らしい」という様子をトリガ情報として得る。
また、例えば、ＦＦＴにより声のトーンを解析し、低い周波数成分が多いときは低い声、例えば男声、高い周波数成分が多いときは高い声、例えば女声というように、音から外界の様子をトリガ情報として得るようにしてもよい。

画像情報生成部（コンテンツ選択手段および画像合成処理手段）２０は、画像情報処理部２６で生成されるトリガ情報に基づいて画像情報を生成するものである。
画像情報生成部２０は、画像データベース３０と、画像データ決定部３２を有する。
画像データベース３０には、例えば広告、案内または展示等として画像表示するために蓄積された画像情報群が保存されている。
案内として、例えば、空港に設置する観光案内の地図画面の特定位置に観光客の手指の画像や全身の画像が重ねて映し出されることで、その位置の土地の名所や名物等の画像情報が提供されるものを挙げることができる。また、展示として、例えば、博物館に設置する虫の生態を説明する展示パネルに各種の虫の画像コンテンツ群や音コンテンツ群を埋め込んでおき、画面の特定位置に見学者の手指画像が重ねて映し出されることで、その位置にある虫の生態の様子を説明する画像や虫の鳴き声が提供されるもの等を挙げることができる。なお、広告については、具体例を後述する。
すなわち、図１０に示すように、画像データベース３０には、例えば、コンテンツ層ＰＦ１として、商品の広告を行うための複数のコンテンツ（図１０では、例えば、ビールの広告であるコンテンツ４０ａ、化粧品の広告であるコンテンツ４０ｂ、その他の広告であるコンテンツ４０ｃのみを表示する。）や映像を提供するための複数のコンテンツ（図１０では、コンテンツ４８ａ、４８ｂのみを表示する。）が保存されている。そして、それぞれのコンテンツには、画像コンテンツ層ＰＦ２として、相互に独立して表示可能な複数の画像コンテンツ（図１０では、画像コンテンツ４０ａの画像要素４２ａ〜４２ｃのみを表示する。）が含まれており、さらに、それぞれの画像コンテンツには、画像要素層ＰＦ３として、相互に独立して表示可能な複数の画像要素（図１０では、画像要素４４ａ〜４４ｃおよび５２ａ〜５２ｃのみを表示する。）が含まれる。それぞれの画像要素には、コンテンツ素材層ＰＦ４として、コンテンツ素材（図１０では、コンテンツ素材４６ａ〜４６ｃおよび５４ａ〜５４ｃのみを表示する。）が対応付けられる。
これら各層ＰＦ１〜ＰＦ４に含まれる画像は、静止画であってもよく、また、動画であってもよい。

上記のデータベース構造を、後述する画像表示方法の具体例に沿って、さらに具体的に説明する。
例えば、被写体である人の性別や持ち物等の情報あるいは被写体の周辺の環境情報等をトリガーとしてコンテンツとしてビールの広告である４０ａが選択、決定されると、初期画像(初期表示画像)として、例えば、企業のロゴやビール缶等の文字や図形である複数の画像要素４４ａ〜４４ｃで構成される表示画像（画像コンテンツ）４２ａが選択される。そして、人の動きをトリガ情報として、例えば企業のロゴである文字の画像要素４４ａに置き換えて画像要素４４ａに対応付けられた例えば企業紹介画像であるコンテンツ素材４６ａが選択される。一方、コンテンツ素材４６ｃは後述する音データベース３４に含まれるものであり、画像要素４４ｃに対応する音コンテンツ素材が選択される。また、映像Ａのコンテンツ４８ａの場合、画像要素５２ｄは初期画像としての画像コンテンツ５０ａとは別の、コンテンツ４８ａに関連する画像コンテンツ５０ｂと対応付けられており、画像要素５２ｄにおける人の動きをトリガとして画像コンテンツ５０ａに切り替えて画像コンテンツ５０ｂが選択される。なお、コンテンツ素材５４ｃは音コンテンツ素材である。
また、画像データベース３０には、被写体を代替画像で表示するための、複数のキャラクター画像コンテンツが保存されている(図示せず。)。
画像データ決定部３２は、例えば、前記動きの累積量が閾値に至らないときは、画像グループの先の画像情報（画像、初期画像コンテンツ）をそのまま保持し、あるいは、表示スケジュールに従って切り替え表示する。一方、前記動きの累積量が閾値以上のときは、例えば図７に示すように、前記した動きの位置に応じて設定される、トリガ情報に対応つけられた画像Ｆ４ａ、Ｆ４ｂ、・・の中から、例えば画像Ｆ４ａのときに動きの位置が上部にあると画像Ｆ４ｂの、さらに画像Ｆ４ｂのときに動きの位置が右部にあると画像Ｆ４ｄの、それぞれの画像情報を選択、生成する。
また、画像情報群として、例えば、前記動きの方向に対応つけられた複数の画像情報で構成し、画像データ決定部３２は、例えば図８に示すように、システム設置場所Ｆ５ｃから移動する方向が（１）のとき、その方向に存在する広告Ｆ５ａに関する画像情報を生成し、方向が（２）のときは、その方向に存在する広告Ｆ５ｂに関する画像情報を生成する。
また、図１０の画像コンテンツ群を参照する場合、上記のように、画像データ決定部３２は前記動きの位置に応じて設定される、新たなトリガ情報により、前のトリガ情報に対応つけられた例えば画像要素コンテンツ４２ａに代えてコンテンツ素材４４ａを選択し、画像情報を生成する。

また、このとき、画像情報群として、前記した被写体の様子に応じて設定される画像グループを構成し、例えば、画像データ決定部３２は、「男性らしい」という画像認識情報に対応して男性向け広告画像情報を選択、生成し、あるいは、特定のブランドのマークという被写体の様子に応じてそのブランドの広告画像を情報を選択、生成してもよい。

また、画像情報生成部２０は、音情報処理部２８で得られるトリガ情報に基づいて画像情報を生成するように構成してもよい。
すなわち、画像データベース３０には、音情報処理部２８で得られるトリガ情報に対応つけられた画像情報が保存されており（図示せず。）、画像データ決定部３２は、トリガ情報に基づいて、トリガ情報に対応する画像情報を選択し、生成する。

また、画像情報生成部２０は、既に説明したように、画像センサ１２ａによって受容された画像情報を生成画像情報とし、現在の表示画像に重ね合わせるように構成してもよい。
例えば、映った姿が画像に薄く重なるように、または、クロマキー効果のように、画面の中に自分が入り込むように、または、画像に自分の影が映り込むように、または、自分の動いたところだけ画像が表示されるように、画像情報を生成する。
また、画像情報生成部２０は、被写体のトリガ情報に応じて、キャラクター画像を選択、生成するように構成してもよい。

また、画像情報生成部２０は、例えば、温度が高いときに「暑いね」とか、女性だと認識したときに「奇麗なあなたにお勧め」とかのような言葉（文字）を付加して表示する構成としてもよい。

音情報生成部（音コンテンツ選択手段）２２は、音情報処理部２８で得られるトリガ情報に基づいて音情報を生成し、あるいはまた、被写体の動きや特定の画像要素等に対応して選択した音コンテンツを生成するものである。
音情報生成部２２は、音データベース３４と、音データ決定部３６を有する。
音データベース３４には、音情報処理部２８で得られるトリガ情報に対応した音情報が保存されており、音データ決定部３６はトリガ情報に基づいて、トリガ情報に対応した音情報を選択し、生成する。
例えば、トリガ情報が大人の男性であるとき、ビールが注がれている画像情報を生成するとともに、音情報としてビールの注ぐ音や泡の音を選択し、生成し、または、トリガ情報が女性であるとき、「お嬢さん」などの呼びかけ言葉を音情報を選択し、生成する等である。
この場合、マイクで拾った音をそのまま音情報として生成してもよい。
また、音データベース３４には、画像情報生成部２０のそれぞれのコンテンツ素材４６ａ〜４６ｃに対応付けられ、あるいはまた、画像要素４４ａ〜４４ｃに対応づけられた音声素材データを含む（図示せず。）。そして、音データ決定部３６において、画像情報処理部２６からの画像のトリガ信号に対応した、言い換えれば画像要素等に対応した音声素材を選択し、生成する。

つぎに、本発明の画像表示方法について、画像表示する場合を例にとり、図９を参照して概略説明する。
所定のタイミングで（図９中、Ｓ１０）、外界情報（人の情報）を取り込み（図９中、Ｓ１２）、認識情報を取得する（図９中、Ｓ１４）。
ついで、認識情報に基づいて、認識情報に対応した画像情報を生成する（図９中、Ｓ１６）。そして、画像情報の信号によって、画像表示を行う（図９中、Ｓ１８）。

上記本発明の画像表示方法を、人の動きをトリガ情報として表示画像を生成する場合を例にとり、図１１Ａおよび図１１Ｂを参照してさらに詳細に説明する。
まず、図１１Ａに示すように、コンテンツを決定処理する（図１１Ａ中、Ｓ２０）。コンテンツは、事前に決定処理しておいてもよいが、より好ましくは、以下の手順で行う。
すなわち、図１１Ｂにその詳細ステップ構成を示すように、カメラからの人の画像が取得され（図１１Ｂ中、Ｓ４８）、画像情報処理部２６を介して画像データ決定部３２において、最初の画像処理であるかどうかが判断され（図１１Ｂ中、Ｓ５０）、最初の画像処理の場合は、取得された画像が一時画像保持領域へ保持され（図１１Ｂ中、Ｓ５２）、再びカメラからの人の画像が取得される（図１１Ｂ中、Ｓ４８）。一方、最初の画像処理でない場合、言い換えれば、既に画像処理が繰り返されている場合は、人の様子や特徴を抽出する（図１１Ｂ中、Ｓ５４）。そして、人の様子や特徴を抽出できた場合は、この人の様子や特徴の情報をトリガーとして、画像情報処理部２６を介して画像データ決定部３２において、コンテンツを選択（決定処理）する（図１１Ｂ中、Ｓ５６）。コンテンツは、例えば、ビールの広告（広告情報）である。この場合、トリガーとしてマイクで拾った音情報を用い、音情報決定部２８を介して画像データ決定部３２において、コンテンツを決定処理してもよい（図１１Ｂ中、Ｓ５６）。一方、人の様子や特徴を抽出できない場合は、再びカメラからの人の画像が取得される（図１１Ｂ中、Ｓ４８）。
コンテンツを決定処理する（図１１Ａ中、Ｓ２０）と、つぎに、カメラからの人の画像が取得され（図１１Ａ中、Ｓ２２）、画像情報処理部２６を介して画像データ決定部３２において、最初の画像処理であるかどうかが判断される（図１１Ａ中、Ｓ２４）。
そして、最初の画像処理の場合は、取得された画像が一時画像保持領域へ保持され（図１１Ａ中、Ｓ２６）、コンテンツを構成する、企業のロゴ、ビール缶等の文字や図形からなる複数の画像要素で構成される初期画像（初期表示画像、初期画像コンテンツ）が生成、表示されるとともに（図１１Ａ中、Ｓ２８）、再び、カメラからの人の画像が取得される（図１１Ａ中、Ｓ２２）。一方、最初の画像処理出ない場合、言い換えれば、既に画像処理が繰り返されている場合は、一時画像保持画像と現在のカメラ画像を比較して人の動きを検出し（図１１Ａ中、Ｓ３０）、動きのあった部分（動いている人）の画像を抽出する（図１１Ａ中、Ｓ３２）。

つぎに、現在の画像内の特定位置で指定した動きがあるかどうかを判断する（図１１Ａ中、Ｓ３４）。このとき、現在の画像内の任意の位置で指定した動きがあるかどうかを判断してもよい。ここで、指定した動きとは、例えば、閾値以上の動きの量、特定方向の動き、動きの反復、特定座標間における順番の動き等である。
そして、指定した動きがある場合は、その動きのある位置の特定の画像要素に対応する指定したコンテンツ素材を選択して画像を生成し（図１１Ａ中、Ｓ３６）、現在の全体の画像と置き換えて表示し、または特定の画像要素の画像と置き換えて他の画像要素と合成して表示する（図１１Ａ中、Ｓ３８）。一方、指定した動きがない場合は、一定時間動かない状態が続いているかどうか判断される（図１１Ａ中、Ｓ３５）。
そして、動かない状態が続いている場合は、再び、コンテンツを決定処理する（図１１Ａ中、Ｓ２０）。一方、動きがある場合は、現在の画像がそのまま表示されるとともに、再び、カメラからの人の画像が取得される（図１１Ａ中、Ｓ２２）。

上記のステップが繰り返されることにより、カメラで捉えられる人の動きによって、表示装置の画像あるいは特定の画像要素のコンテンツが次々と変化するため、カメラで捉えられる人や表示装置を見る第三者の眼が画像表示装置の表示画像に引き付けられることになる。

また、本発明の画像表示方法において、画像と合わせて、または画像とは無関係に独立して音を出力する場合は、図１２に示すように、動きのあった部分（動いている人）の画像を抽出した後（図１１Ａ中、Ｓ３２）、画像の特定位置で指定した動きがあるかどうかを判断する（図１２中、Ｓ４０）。このとき、画像の任意の位置で指定した動きがあるかどうかを判断してもよい。ここで、指定した動きとは、前記のとおり、例えば、閾値以上の動きの量、特定方向の動き、動きの反復、特定座標間における順番の動き等である。
そして、指定した動きがある場合は、素材集の中から指定した音素材を選択し音を生成し（図１２中、Ｓ４４）、例えば画像と出力のタイミングを合わせて、生成した音を出力する（図１２中、Ｓ４６）。一方、指定した動きがない場合は、現在の音をそのままに、あるいは無音のときは無音のままに現在の音状態を保持する（図１２中、Ｓ４６）。
これにより、カメラで捉えられる人の動きによって、音声が次々と変化し、さらにまた、音声が重なることによって新たな音が作り出されるため、上記と同様に、カメラで捉えられる人や表示装置を見る第三者の眼が画像表示装置の表示画像に引き付けられることになる。

ここで、ビールの広告を例にとって、本発明を具体的に説明する。
表示装置には、例えば図１３に示すような画像が表示され、通行人が、この広告を眼にする。また、表示装置にはカメラ（図１３中、矢印Ａで示す。）が付帯されており、表示装置の前を通行する人を画像として捉え、例えば、その人の影を広告の画像と合成して表示する。
表示画装置の画像は、「ＯＸビール」という企業のロゴ（図１３中、矢印Ｃ１で示す。）、商品表示（図１３中、矢印Ｃ２で示す。）、ビールジョッキを持った女性（図１３中、矢印Ｃ３で示す。）等の独立して表示することができる複数の画像要素で構成されている。

まず、人の動き（影の動き）の位置と画像切り替えの関係を図１４を参照して説明する。
図１４に示すように、初期画像として表示される画面Ｆ１において、「ＯＸビール」というロゴＣ１の画像要素は、コンテンツ素材として企業紹介画像を含んでおり、ロゴの画像要素の所定の部分（図１４中、矢印Ｓ１で示す。）に人の動きが位置し、言い換えればロゴの画像要素の所定の部分Ｓ１に人が触れると、画面Ｆ２に転換して、企業紹介画像を画面の全体にあるいは所定の位置に表示する。
また、画面Ｆ１において、商品表示Ｃ２の画像要素の所定の部分（図１４中、矢印Ｓ２で示す。）に人の動きが位置すると、画面Ｆ３に転換して、１つの商品を紹介する画像を画面の全体にあるいは所定の位置に表示する。このとき、画面Ｆ３が表示された状態で、画面Ｆ３の画像要素の所定の部分Ｓ１に人の動きが位置すると、先の画像Ｆ２が表示される。
また、画面Ｆ１において、ビールジョッキを持った女性Ｃ３の所定の部分（図１４中、矢印Ｓ３で示す。）に人の動きが位置すると、画面Ｆ４に転換して、生産者の声のメッセージが表示される。
さらにまた、上記の例と同様にして、画面Ｆ１において、あるいはまた、新たに生成された画像Ｆ２、Ｆ３、Ｆ４等において、所定の部分に人の動きが位置すると、原料のはなしを含む画面Ｆ５や画面Ｆ３の商品とは別の紹介する画像を含む画面Ｆ６等が次々に切り替え表示される。

つぎに、人の動き（影の動き）の位置と音の関係を図１３と同様の画面を示す図１５を参照して説明する。
図１５に示す画面において、「ＯＸビール」というロゴＣ１の画像要素は企業のサウンドロゴと、２つのビールジョッキのうちの左側のビールジョッキ（図１５中、矢印Ｃ４で示す。）の画像要素はビールジョッキにビールを注ぐときの音と、右側のビールジョッキ（図１５中、矢印Ｃ５で示す。）の画像要素は乾杯のときにビールジョッキを合わせるときの音と、女性Ｃ３の画像要素は乾杯の声と、それぞれ対応付けられている。
そして、いずれかの画像要素の所定の部分に人が位置すると、画像要素に対応した音が生成される。
また、図１５中、矢印Ｘ１〜Ｘ３で示す領域に対応して、それぞれ、リズムループＡ、リズムループＢおよびメロディループが設けられており、いずれかの領域に人の動きが位置すると、ＢＧＭ（画像の背景に流れる音楽）が作られる。
このような画像表示方法は、広告情報だけでなく、例えば、種々の案内情報を表示する場合にも有効であり、さらにまた、これらに限らず広く利用することができる。

つぎに、本発明の他の具体例として、人がパフォーマンスを行う様子を画像として捉えて映像表示する例について、図１６〜１８を参照して説明する。
図１６に示すように、カメラ（図１６中、矢印Ｂで示す。）が向けられた舞台上で例えば演技者がパフォーマンス（演技）を行う。舞台の後方には、スクリーン（表示装置：図１６中、矢印Ｃで示す。）が設けられる。スクリーンＣには、部屋の窓からこちらを覗く人、電話機等の複数の画像要素が表示されており、さらに、カメラＢで捉えた人の動きが輪郭線や影絵として複数の画像要素に合成して表示される。舞台の前の観劇者は、舞台上の演技者を観るとともにスクリーンを観ている。

ここで、先の広告の例と同様に、まず、人の動き（影の動き）の位置とスクリーンＣの画像切り替えの関係を図１７を参照して説明する。
初期画像として部屋内部空間が表示される画面Ｆ１１において、窓からこちらを覗く人の部分（図１７中、矢印Ｓ４で示す。）に演技者の動きが位置すると、画面Ｆ１１とは別の部屋内部空間が表示される画面Ｆ１２に示すように、例えば、その人は話しかけてきた後スクリーンＣ上から消える。また、画面Ｆ１２において、電話機の部分（図１７中、矢印Ｓ５で示す。）に演技者の動きが位置すると、例えば、画面Ｆ１１に戻る。また、画面Ｆ１１において、左下の所定の領域（図１７中、矢印Ｓ６で示す。）において演技者が左方向の動きを行うと、画面Ｆ１１の部屋内部空間に続く部屋内部空間が表示される画面Ｆ１３に切り替わる。さらに、画面Ｆ１３において、左下に表示されるドアの部分（図１７中、矢印Ｓ７で示す。）に演技者が動くと、スクリーンの画像は、外の風景が表示される画面Ｆ１４に切り替わる。同様にして、画面Ｆ１１において、右上の所定の領域（図１７中、矢印Ｓ８で示す。）に演技者の動きが位置すると、部屋とは異なる店内等の画像を表示する画面Ｆ１５に切り替わり、さらにまた、画面Ｆ１５において、右下の所定の領域（図１７中、矢印Ｓ９で示す。）で演技者が右方向に動くと、画面Ｆ１５とは別の店内を表示する画面Ｆ１６に切り替わる。

つぎに、演技者の動き（影の動き）の位置と音の関係を図１８を参照して説明する。
図１８に示す画像において、窓の外に立つ人の画像要素（図１８中、矢印Ｘ４で示す。）は人の声と、左側のカーテンの画像要素（図１８中、矢印Ｘ５で示す。）は鳥の鳴き声と、電話機の画像要素（図１８中、矢印Ｘ６で示す。）は電話機のなる音と、それぞれ対応付けられている。
そして、いずれかの画像要素の所定の部分に人が位置すると、画像要素に対応した音が生成される。
また、画面の右上の所定の領域（図１８中、矢印Ｘ７で示す。）に対応して、ナレーションの音情報が設けられており、この領域に人の動きが位置すると、ナレーションが流れる。

以上説明した本実施の形態例に関わらず、認識手段としては、叩いたり触ったりした振動を認識する振動センサ、空気の流れや気配等認識するドップラーセンサ、サーモグラフィなどで温度を認識する温度センサあるいは力のかかり具合等を認識する圧力センサ等を適宜選択して用いることができる。
また、認識する外界情報としては、上記人の挙動等のほかに、人の持っているものや扱っているもの、人数、メンバー構成、生体情報（鼓動や発汗、体温など）、あるいはまた、人以外のペット（動物）や植物の動きや様子、自動車や機械、ロボットの動きや様子、天気・気候・気温・風、風景、時間、または言葉の内容、声の状態（明るい、暗い、楽しい、緊張、うれしい、など）、声の大きさ・強さ等を用いることができる。
また、主制御部に、人口知能、会話機能を組み込んでおき、認識情報に応じて、効果的な呼びかけ言葉を出力したり、さらには、マイクで拾った言葉に対する返答を行って対話したりすることができるように構成すると、より好適である。

本発明の画像生成装置の概略構成を示す図である。連続２フレームの差分により、変化のあった部分を特定する例を説明するための図である。フレーム差分の累積より得られる「動きの方向」と「動きの累積量」を説明するための図である。被写体の様子を画像データベースとのパターンマッチングによって認識する方法を説明するための図である。画像データベースの画像パターンの中から被写体の画像と位置関係が一致するものを検索し、画像認識情報として得る方法を説明するための図である。音データベースの音パターンの中から受容される音と特徴が一致するものを検索し、音認識情報として得る方法を説明するための図である。画像Ａのときに動きの位置が上部にあると画像Ｂの、さらに画像Ｂのときに動きの位置が右部にあると画像Ｄの、それぞれの画像情報を選択、生成する方法を説明するための図である。被写体の動きの方向に応じて画像情報を生成する方法を説明するための図である。本発明の画像表示方法を説明するためのフローチャートである。画像データベースに保存される複数のコンテンツおよび個々のコンテンツの画像に含まれる画像コンテンツ等の階層的な構造を説明するための図である。人の動きをトリガ情報として表示画像を生成する手順を説明するためのフローチャートである。図１１Ａ中、コンテンツ決定処理の手順を詳細に説明するためのフローチャートである。画像と合わせて音を出力する手順を説明するためのフローチャートである。ビールの広告の場合の画像表示例を示す図である。ビールの広告の場合の人の動きの位置と画像切り替えの関係を説明するための図である。ビールの広告の場合の人の動きの位置と音の関係を説明するための図である。人がパフォーマンスを行う様子を画像として捉えて映像表示する場合の状況を説明するための図である。映像表示する場合の人の動きの位置とスクリーンの画像切り替えの関係を説明するための図である。映像表示する場合の人の動きの位置と音の関係を説明するための図である。

符号の説明

１０画像表示装置
１２受容部
１２ａ画像センサ
１２ｂ音センサ
１４主制御部
１６出力部
１６ａ表示装置
１６ｂ音響装置
１８認識情報処理部
２０画像情報生成部
２２音情報生成部
２４クロック
２６画像情報処理部
２８音情報処理部
３０画像データベース
３２画像データ決定部
３４音データベース
３６音データ決定部
４０ａ〜４０ｃ、４８ａ、４８ｂコンテンツ
４４ａ〜４４ｃ，５０ａ〜５０ｃ画像コンテンツ
４４ａ〜４４ｃ、５２ａ〜５２ｄ画像要素
４６ａ〜４６ｃ、５４ａ〜５４ｃコンテンツ素材

Claims

撮像される人の動きに応じて変化する画像を画像表示装置に表示させる画像表示方法であって、
相互に独立して表示可能な複数の、文字若しくは図形または文字および図形の結合である画像要素と、画像要素とは異なる所定の領域を含む表示画像の初期画像コンテンツを決定し、初期表示画像を生成して表示する工程と、
人を認識情報として捉える認識情報取得工程と、
認識情報として捉えた人の動きを検出する動き検出工程と、
動きのある位置の画像要素または動きのある位置の画像要素とは異なる所定の領域に対応するコンテンツ素材を選択し、または、初期表示画像に関連する画像コンテンツを選択するコンテンツ選択工程と、
選択されたコンテンツ素材からなる画像要素と初期表示画像の残余の画像要素を合成し、または、画像コンテンツからなる画像を初期表示画像に代替するとともに、さらに、認識情報として捉えた人の画像を切り出してそのままに、または人の代替画像を画像要素として合成する画像合成処理工程と、
合成した画像を表示する合成画像表示工程と、
を有し、
認識情報取得工程、動き検出工程、コンテンツ選択工程、画像合成処理工程および合成画像表示工程を表示フレームごとに繰り返すことを特徴とする画像表示方法。
前記コンテンツ選択工程において、前記認識情報、前記特定の画像要素または前記所定の領域に対応する音コンテンツを選択し、前記合成画像表示工程において、合成画像とともに、または合成画像とは独立して該音コンテンツからなる音を出力することを特徴とする請求項１記載の画像表示方法。
前記表示画像のコンテンツが、認識情報として捉えた人に提供する広告情報、案内情報または展示情報であることを特徴とする請求項１または２のいずれか１項に記載の画像表示方法。
前記表示画像のコンテンツが、認識情報として捉えた人のパフォーマンスを、該表示画像を見る人に提供する映像情報であることを特徴とする請求項１または２のいずれか１項に記載の画像表示方法。