JP2011039778A

JP2011039778A - 動画像コンテンツ評価装置およびコンピュータプログラム

Info

Publication number: JP2011039778A
Application number: JP2009186573A
Authority: JP
Inventors: Kazuaki Komine; 一晃小峯; Hisaya Morita; 寿哉森田; Toshiaki Kamiko; 俊晃上向
Original assignee: Nippon Hoso Kyokai NHK; KDDI Corp; Japan Broadcasting Corp
Current assignee: KDDI Corp; Japan Broadcasting Corp
Priority date: 2009-08-11
Filing date: 2009-08-11
Publication date: 2011-02-24
Anticipated expiration: 2029-08-11
Also published as: JP5306940B2

Abstract

【課題】注視点マップデータと顕著性マップデータとを利用して、動画像コンテンツを容易に且つ客観的に評価することのできる動画像コンテンツ評価装置を提供する。
【解決手段】注視点データ解析部は、画像コンテンツについての注視点座標値を含む注視点データを用いて視力分布を求める。画像解析部は、画像解析用パラメータを適用して複数の視覚属性に対応する顕著性マップデータを計算する。比較処理部は、注視点マップデータと顕著性マップデータとの一致度を計算する。パラメータ決定部は、一致度に基づいて最適な評価用パラメータを決定する。注視点マップデータのない評価対象動画像コンテンツは、注視点マップデータ、顕著性マップデータ、評価用パラメータを有する学習用動画像コンテンツを基に、評価対象動画像コンテンツを解析して観察者の注視点分布を推定する。
【選択図】図１

Description

本発明は、動画像コンテンツを評価するための動画像コンテンツ評価装置およびコンピュータプログラムに関する。

放送用コンテンツや、ネットワーク配信サービスに供されるコンテンツや、公共施設等に設置された情報提供装置に表示される映像広告等のコンテンツは、視聴者の注目が引きつけられるように映像制作時に映像面での工夫がされている。例えば、コンテンツの制作者であるディレクターやカメラマンは、経験に基づくノウハウや映像制作の専門技法に基づいて、視聴者に注意を喚起させたり注目させたりすることを意図した構図やカメラワークを決定することが多い。このような事情により、制作者には、コンテンツが視聴者にどのように見られているかを客観的に知り、それを制作に活かしたいという要求がある。

ところで、人間がものを見るという行為に伴って、視線は動き、視界における注意や興味の引かれる方向に向けられる。そこで、人間の生体反応である視線運動を利用する様々な研究が行われている。例えば、画面に表示された動画像を観察する観察者の眼球運動をカメラで撮像し、その撮像画像から視線の動きを測定して、観察者の視線が画面上の動画像のどの位置（注視点）に向けられているかを求める技術が知られている。そして、その技術を用いて、観察者の視線の動きの測定結果に基づき映像コンテンツを評価する技術が提案されている（例えば、特許文献１、特許文献２を参照）。

特許文献１に記載の映像コンテンツの評価技術は、被験者の眼球の動きを撮像して解析し、これにより得られた眼球運動データを映像の再生に同期させて提示する技術である。具体的には、同文献には、赤外線カメラで撮像した被験者の眼球の状態から、映像のフレーム画像ごとに、瞬目回数、瞳孔径変化、反応時間、眼球移動速度、眼球停留時間、停留回数、およびその位置を計算する映像コンテンツの評価装置が開示されている。そして、それらの計算結果をグラフ等により可視化することが開示されている。

特許文献２に記載の画像評価装置は、複数の観視者について計測した注視点の座標データに基づいて、動画像データのフレーム画像ごとに注視点の分布を確率密度関数で求め、さらに動画像全体のエントロピーを計算するものである。そして、これらの注視点群を総合的に利用して、視線がフレーム画像のどの位置にどれだけ集まっているかについての確率をフレーム画像に対する集中度として計算し、コンテンツを評価する。このとき、集中度の分布を示す等高線図をフレーム画像に重畳させて表示することにより、フレーム画像のどこに注視点が集まっているかを可視化することもできる。

また一方で、視聴者が画像を見たときの注意の向けられやすさの分布を推測することに用いられる顕著性マップに関する技術が知られている（例えば、非特許文献１参照）。この顕著性マップを用いた画像の評価では、被験者による目視評価実験を行う必要がなく、画像データの有する物理的特徴を解析するだけで、画像の注意の向けられやすさに関する評価を行うことができる。

顕著性マップは、例えば、特徴マップ生成ステップと特徴マップ合成ステップとの２ステップの処理により求めることができる。このうち特徴マップ生成ステップでは、フレーム画像について、１つまたは複数の視覚属性に関する画像解析を行って特徴マップを生成する。例えば、視覚属性として、色（ｃｏｌｏｒ）、明度（ｉｎｔｅｎｓｉｔｙ）、方位（ｏｒｉｅｎｔａｔｉｏｎ）、コントラスト（ｃｏｎｔｒａｓｔ）、点滅（ｆｌｉｃｋｅｒ）、および運動（ｍｏｔｉｏｎ）の６つの属性を用いることができる。この場合、特徴マップ生成ステップでは、６つの特徴マップが生成されることになる。そして、特徴マップ合成ステップでは、視覚属性ごとに生成された特徴マップの重み付き線形和を計算して顕著性マップを求める。

特開２００４−２８２４７１号公報特開２００７−３１０４５４号公報

ＬａｕｒｅｎｔＩｔｔｉ，ＣｈｒｉｓｔｏｆＫｏｃｈ，ＥｒｎｓｔＮｉｅｂｕｒ，"ＡＭｏｄｅｌｏｆＳａｌｉｅｎｃｙ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎｆｏｒＲａｐｉｄＳｃｅｎｅＡｎａｌｙｓｉｓ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，Ｖｏｌ．２０，Ｎｏ．１１，ｐｐ．１２５４−１２５９，１９９８年１１月．

しかしながら、被験者の視線計測結果に基づいて画像コンテンツを評価する従来技術では、評価対象の画像コンテンツを変更するたびに視線計測実験をやり直す必要がある。すなわち、この従来技術では、一旦画像コンテンツを制作したのち、視線計測実験を行って注視点の分布を解析し、その結果を踏まえて画像コンテンツを制作し直して視線計測実験を再度行うという反復作業が必要となる。このように画像コンテンツ制作と評価実験とを繰り返す作業は、多大な時間と労力を要するものである。しかも、被験者のサンプル数を増やすと、その手間はさらに大きくなる。よって、被験者のサンプル数を抑えながら、画像コンテンツを簡単かつ効率的に評価する方法が求められている。

前述の顕著性マップを利用した評価方法においては、被験者の視線計測実験を行う必要がない。しかしながら、サンプル画像から求めた顕著性マップと、そのサンプル画像についての視線計測実験結果とを比較すると、顕著性の高い領域と注視点の集中する領域とが一致しない場合がある。これは、人間の視線の動きが、顕著性マップを計算するために用いられる属性である、画像自体の有する視覚的な特徴（ボトムアップ要因）だけでなく、被験者の嗜好、興味、経験、知識等の要因（トップダウン要因）にも影響されるためであると考えられる。

このようなトップダウン要因による影響をできるだけ少なくするためには、顕著性マップを生成するための画像解析処理における物理的特徴に関する画像解析用パラメータを、統計的に適正な値に設定する方法が求められる。しかしながら、従来は、顕著性マップ計算用ツールを用いる際に、初期設定値をそのまま利用したり、経験により得られた値を利用したりすることが通常であった。つまり、この画像解析用パラメータの設定方法に関する検討は従来の技術においては十分に行われていない。

本発明は、上記の課題認識に基づいてなされたものであり、視線計測に基づく注視点の分布と画像解析処理に基づく顕著性の分布とを利用して、動画像コンテンツを容易に且つ客観的に評価することのできる、動画像コンテンツ評価装置およびコンピュータプログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様による動画像コンテンツ評価装置は、複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき、対応する画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定するパラメータ決定部と、前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して、前記パラメータ決定部が決定した前記評価用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部と、を具備することを特徴とする。
上記の構成において、視力分布とは、注視点およびその周辺における人の視力の分布を表す。このとき、注視点における視力に対して、その周辺部分における視力は注視点からの距離に応じて次第に低くなっていく。また、複数の被験者について注視点を測定した結果に基づき、当該複数被験者の視力分布を重畳したものを上での視力分布として用いても良い。この視力分布は、人の注視の度合いを表すものであり、注視力分布とも言える。
また、顕著性分布は、言い換えれば誘目性分布である。誘目性とは、視覚的な注意の引きやすさの程度をいう。
また、上記の視覚属性は、１種類であっても複数種類であっても良い。画像解析用パラメータは、例えば、視覚属性ごとの重み付けを表わす。
また、パラメータ決定部は、評価用パラメータを求めるための１つの学習用動画像コンテンツに関する注視点マップデータと、その他複数の学習用動画像コンテンツに関する注視点マップデータとの類似度を計算し、計算された前記類似度に基づき一又は複数の前記学習用動画像コンテンツに関する注視点マップデータを選択し、選択された注視点マップデータに関連付けられた画像解析用パラメータを選択する。次に、パラメータ決定部は、評価用パラメータを求めるための１つの学習用動画像コンテンツに関する注視点マップデータと、前記選択した一又は複数の画像解析用パラメータを基に画像解析部によって計算される顕著性マップデータとに基づいて比較処理部で計算される一致度のうち、最も高い一致度を示す画像解析用パラメータを評価用パラメータとして決定する。さらに、パラメータ決定部は、その他の学習用動画像コンテンツについても同様に評価用パラメータを決定する。
つまり、パラメータ決定部は、評価用パラメータを求めるための学習用動画像コンテンツの注視点マップデータとその他の学習用動画像コンテンツの注視点マップデータとの類似度に基づいて一又は複数の学習用動画像コンテンツの注視点マップデータに絞り込み、この絞り込まれた注視点マップデータのうちこれらに対応する学習用動画像コンテンツの顕著性マップデータとの一致度の最も高い注視点マップデータに対応する画像解析用パラメータに基づいて評価用パラメータを決定する。
類似画像コンテンツ決定部は、例えば、評価対象動画像コンテンツおよび学習用動画像コンテンツに対して、共通の顕著性マップデータを生成するための評価用パラメータを用いて、所定の視覚属性に関する特徴マップから得られた顕著性マップデータの類似性を判定することによって、評価対象動画像コンテンツに類似する学習用動画像コンテンツを決定する。または、動画像コンテンツの特徴に基づくクラスタリング処理を行って、その結果により動画像コンテンツ間の類似性を判定するようにしてもよい。

［２］また、本発明の一態様による動画像コンテンツ評価装置は、前記複数の学習用動画像コンテンツに対して、視線を計測した結果である注視点の座標値を含む注視点データに基づき、前記学習用動画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成する注視点データ解析部をさらに備え、前記比較処理部は、前記複数の学習用動画像コンテンツそれぞれに関する前記顕著性マップデータと前記注視点データ解析部が生成した前記注視点マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出することを特徴とする。

［３］また、本発明のコンピュータプログラムは、コンピュータを、複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき、対応する画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定するパラメータ決定部と、前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して、前記パラメータ決定部が決定した前記評価用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部、として機能させる。

［４］さらに、上記の課題を解決するため、次の態様としてもよい。
複数の学習用動画像コンテンツそれぞれに対して、視線を計測した結果である注視点の座標値を含む注視点データに基づき、前記学習用動画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成し、前記複数の学習用動画像コンテンツそれぞれに対して、視覚属性に関する複数の画像解析用パラメータを基に映像解析をパラメータ毎に行い、前記学習用動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成し、前記複数の学習用動画像コンテンツそれぞれに対して、前記注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出し、前記複数の学習用動画像コンテンツそれぞれに対して、前記注視点マップデータと前記顕著性マップデータとの一致度が一番高かったときの画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定し、入力した評価対象動画像コンテンツに一番類似する学習用動画像コンテンツを前記複数の学習用動画像コンテンツから決定し、決定した一番類似する学習用動画像コンテンツの評価用パラメータに基づき、前記評価対象動画像コンテンツの映像解析を行って顕著性マップデータを生成し、前記顕著性マップデータを前記評価対象動画像コンテンツの注視点マップデータとして推定して出力することを特徴とする動画像コンテンツ評価方法。

本発明によれば、画像コンテンツを容易に且つ客観的に評価するために、学習用動画像コンテンツの視線計測実験によって得られた注視点の分布と、学習用動画像コンテンツに対する映像解析処理に基づく顕著性の分布との類似性を利用して、画像解析用パラメータを取得することができる。そして、評価対象動画像コンテンツに類似する学習用動画像の画像解析用パラメータを、評価対象動画像コンテンツに対する顕著性マップ生成用の画像解析用パラメータとして利用することにより、視線計測実験を実施していない評価対象動画像コンテンツであっても、視聴者の注視点の分布と推定することができる。

本発明の一実施形態による画像コンテンツ評価装置の機能構成を示すブロック図である。同実施形態における、データ格納部に格納されるデータ構成の例を示した図である。同実施形態における、注視点データ生成装置の機能構成図である。同実施形態における、格納部に記録される注視点データのデータ構成図である。同実施形態において、注視点データ解析部が画像コンテンツについての注視点データからフレーム画像ごとの注視点マップデータを生成する手順を示すフローチャートである。同実施形態において、被験者が表示画面を観察することによって視線が向けられた様子と、表示画面上の注視点の座標とを模式的に表した図である。同実施形態における、視線方向に対する偏心度と周辺視力値との関係を表す３次元グラフの例である。同実施形態における、注視点マップデータの３次元グラフの例である。同実施形態において、画像解析部が画像コンテンツについての顕著性マップデータを生成する手順を示すフローチャートである。同実施形態における、画像解析部が設定する画像解析用パラメータのデータ構成を示した図である。同実施形態における、参照されたフレーム画像について生成された顕著性マップの３次元グラフの例である。同実施形態において、比較処理部が画像コンテンツについての注視点マップデータと顕著性マップデータとの一致度を計算する手順を示すフローチャートである。同実施形態において、パラメータ決定部が、学習用動画像コンテンツに関する注視点マップデータおよび画像解析用パラメータを用いて、顕著性マップデータを生成するための評価用パラメータを決定する手順を示すフローチャートである。同実施形態における、画像コンテンツ評価装置の注視点マップデータの推定処理の手順を示すフローチャートである。

以下、図面を参照しながら、本発明の実施形態について説明する。
図１は、本発明の一実施形態による画像コンテンツ評価装置の機能構成を示すブロック図である。同図において、画像コンテンツ評価装置１は、データ格納部１１と、注視点データ解析部１２と、画像解析部１３と、比較処理部１４と、パラメータ決定部１５と、画像入力部２１と、類似画像コンテンツ決定部２２と、注視点マップ推定部２３とを含んで構成される。

図２は、データ格納部１１に格納されるデータの構成例を示す概略図である。データ格納部１１は、半導体メモリや磁気ハードディスクなどを用いて実現される。同図（ａ）に示すように、データ格納部１１は、被験者に観測させたり画像解析処理を行ったりするための画像コンテンツを格納する。この画像コンテンツは、フレーム画像単位で制御することのできるデータであり、フレーム画像ごとのタイムコードを含んだものである。本実施形態で用いる画像コンテンツの内容は、トップダウン要因の影響をできるだけ低減させたもの、あるいは排除したものである。

例えば、公知文献（Ran Carmi and Laurrent Itti, "Causal Saliency Effects During Natural Vision”, Proc. of Symposium on Eye Tracking Research & Applications, pp. 11-18, March, 2006.）に記載されているように、被験者にとって画像コンテンツの内容に認知的な意味を含まない動画像や未知の動画像を画像コンテンツとして用いる。または、一般的な動画像であっても、再生時間が数秒程度である動画像を用いることによって、トップダウン要因の影響を低減もしくは排除できると考えられるため、例えば、５秒間の音声を含まない動画像を画像コンテンツとして用いる。これにより、被験者に考える余裕を与えず、トップダウン要因によらずに画像の物理的特徴のみから誘導される視線の動きを捉えることができる。

なお、画像コンテンツは、複数のフレーム画像を含む動画像コンテンツであってもよいし、単一のフレーム画像である静止画像コンテンツであってもよい。本実施形態においては、画像コンテンツとして動画像コンテンツ（評価対象動画像コンテンツ、学習用動画像コンテンツ）を用いた例について説明する。

また、データ格納部１１は、上記の画像コンテンツのフレーム画像（＃１〜＃Ｎ）に対応させて、注視点データと、注視点マップデータと、特徴マップデータと、顕著性マップデータと、一致度とを格納する。

注視点データは、一人または複数の被験者の視線を測定して得られた注視点の座標値を含むデータである。注視点マップデータは、注視点データをもとに、注視点の周辺視野を考慮して計算された注視点の分布を示すデータである。特徴マップデータは、フレーム画像の視覚属性ごとに求められた特徴量の分布を示すデータである。顕著性マップデータは、特徴マップデータの重み付け線形和が計算されて得られた顕著性（画像に対する注意の向けられやすさ）の分布、すなわち誘目性分布を示すデータである。一致度は、注視点マップデータと顕著性マップデータとの類似性の指標である一致度合いを示すデータである。ここに示した各マップデータは、水平方向画素数Ｗ×垂直方向画素数Ｈのフレーム画像の画素に相当する行列のデータであり、この行列の各要素はスカラ値である。

また、図２（ｂ）に示すように、データ格納部１１は、画像コンテンツに対応させて評価値と、画像解析用パラメータとを格納する。評価値は、注視点マップデータと顕著性マップデータとの一致度を当該画像コンテンツ全体として評価した値である。画像解析用パラメータ（特に動画像コンテンツの場合の画像解析用パラメータを、映像解析用パラメータと呼ぶ。）は、各特徴マップデータを線形的に総和することによって顕著性マップデータを計算するための設定情報であり、視覚属性ごとの重みデータを含む。

図１に戻り、注視点データ解析部１２は、データ格納部１１に格納された一人または複数の被験者についての注視点データを解析することによって、注視点に関する注視点データ評価指標データを生成する。言い換えれば、注視点データ解析部１２は、画像コンテンツに対応して注視点の座標値を含む注視点データに基づき、画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成する。
画像解析部１３は、フレーム画像の物理的特徴量を用いた画像解析処理によって、顕著性に関する評価指標データである顕著性評価指標データを生成する。言い換えれば、画像解析部１３は、画像コンテンツを基に、画素に対応した視覚属性ごとの特徴量データを算出するとともに、特徴量データと視覚属性ごとに定められる重みデータとに基づいて画素に対応した顕著性の分布を示す顕著性マップデータを生成する。

比較処理部１４は、それぞれ生成された注視点データ評価指標データと顕著性評価指標データとを比較し、注視点の分布と顕著性の分布との一致度を計算する。言い換えれば、比較処理部１４は、前記画像コンテンツに関する前記注視点マップデータと前記顕著性マップデータとに基づき、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する。
パラメータ決定部１５は、上記の一致度に基づいて、画像解析部１３において顕著性マップデータを計算するために用いられる評価用パラメータを決定する。

画像入力部２１は、評価すべき評価対象動画像コンテンツが外部から供給されると、その評価対象動画像コンテンツを画像コンテンツ評価装置１に入力してデータ格納部１１に格納する。
類似画像コンテンツ決定部２２は、複数の学習用動画像コンテンツの中から、評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する。
注視点マップ推定部２３は、類似学習用動画像コンテンツにおける評価用パラメータを評価対象動画像コンテンツに対する顕著性マップデータ算出のための評価用パラメータとして使用して画像解析部１３が生成した顕著性マップデータを、推定注視点マップデータとして出力する。

次に、データ格納部１１に予め格納される注視点データの生成の手段および生成の方法について説明する。注視点データは、画像コンテンツ評価装置１とは別の装置である注視点データ生成装置が一人または複数の被験者を対象として視線計測を行うことにより生成される。この注視点データ生成処理は、画像コンテンツ評価処理の前処理として位置づけられるものである。

図３は、注視点データ生成装置の機能構成を示すブロック図である。同図において、注視点データ生成装置３は、画像再生部３１と、画像表示部３２と、注視点データ計測部３３と、注視点データ記録部３４と、格納部３５とを含んで構成される。画像再生部３１は、被験者に観察させるための画像コンテンツを格納部３５から読み出して再生する。画像表示部３２は、再生された画像コンテンツを画面に表示する。注視点データ計測部３３は、画像表示部３２に表示された動画像を観察する被験者の眼球の動きを測定し、画面上の位置である注視点の座標値を計測する。注視点データ記録部３４は、画像コンテンツの再生に同期させて、注視点の座標値を格納部３５に記録する。

次に、注視点データ生成装置３の、より具体的な構成およびその動作について説明する。注視点データ計測部３３は、被験者の眼球の動きを測定するための注視点測定器３３ａを備えている。この注視点測定器３３ａは従来技術によるものでよく、例えば、被験者の顔に視覚センサを装着させて注視点を検出するタイプや、コンタクトレンズやゴーグルを装着させて視線を測定するタイプなどを用いることができる。

本実施形態の注視点測定器３３ａは、撮像した画像を基に眼球の動きをリモートセンシングして注視点を検出する瞳孔角膜反射法による測定法を用いている。この注視点測定器３３ａは、画像表示部３２の表示面から一定距離をおいた位置から画面を観察する被験者の眼球部分を近赤外線光で照射し、目の表面での角膜反射像をカメラで撮像する測定を行う。そして、撮像画像から瞳孔の中心点と角膜反射点とを検出して、幾何学的に視線の向きと画面上の注視点の座標値とを計算する。

このリモートセンシングによる測定の分解能は、０．５度から１度の範囲程度である。これは、１ラインあたりの有効画素数が１９２０画素であるＨＤＴＶ（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＴｅｌｅｖｉｓｉｏｎ）画像を例にとると、画面の水平方向の視野角を３０度とした場合に、３２画素から６４画素程度の分解能に相当する。注視点データ記録部３４は、注視点データ計測部３３で計測された注視点の座標値を、画像再生部３１による画像コンテンツの再生に同期させて注視点データとして格納部３５に記録する。つまり、画像コンテンツに含まれる各フレーム画像が注視点データに対応づけられる。

図４は、注視点データのデータ構成を示す概略図である。同図に示すように、注視点データは、画像コンテンツのフレーム画像のフレーム番号と、そのフレームのタイムコードと、被験者ごとの注視点の座標値とを含む。タイムコードは、画像コンテンツの最初のフレーム画像からカウントした時間情報であり、「時：分：秒．フレーム数」で表される。フレーム番号は、画像コンテンツの最初のフレーム画像を１としてタイムコードの時系列順に１ずつ増加させた番号である。注視点の座標値は、画像表示部３２に表示されるフレーム画像の表示領域の左上端の座標を原点として、水平方向画素数Ｗ×垂直方向画素数Ｈのフレーム画像上の２次元座標系で表される。例えば、タイムコードが「０：００：０５．００」のとき、被験者１の注視点の座標値は（１７５，１２２）、被験者２のそれは（１６８，１４５）、・・・、そして被験者Mのそれは（１６６，２６０）である。

上記の注視点データ生成処理によって格納部３５に格納された注視点データを、画像コンテンツ評価装置１がデータ格納部１１に取り込んで使用する。以上が、前処理である注視点データ生成処理についての説明である。

次に、画像コンテンツ評価装置１による画像コンテンツ評価処理を、注視点データ解析処理、画像解析処理、比較処理、およびパラメータ決定処理に分けて動作を説明する。
＜注視点データ解析処理＞
図５は、注視点データ解析部１２が画像コンテンツについての注視点データからフレーム画像ごとの注視点マップデータを生成する手順を示すフローチャートである。ステップＳ５１において、注視点データ解析部１２は、データ格納部１１に格納された注視点データをフレーム画像単位で参照する。ステップＳ５２において、参照される注視点データがない場合（ステップＳ５２：ＮＯ）は、このフローチャートの処理を終了する。一方、注視点データがある場合（ステップＳ５２：ＹＥＳ）はステップＳ５３の処理に進む。そして、ステップＳ５３において、注視点データ解析部１２は、参照された１フレーム画像分の全被験者の注視点データを読み込む。

次に、ステップＳ５４において、注視点データ解析部１２は、周辺視野を考慮した注視点マップデータを生成する。ここで、注視点マップデータの生成処理について詳細に説明する。眼球運動に関する視覚科学の分野の知見によれば、視線と周辺視野との関係について式（１）の関係式が成立する。ここで、Ｅは視線方向に対する偏心度、Ｖｆは視線方向における視力、Ｅｓは所定の定数、Ｖは周辺視力値である。

図６は、被験者が表示画面を観察することによって視線を向けた様子と、表示画面上の注視点の座標とを模式的に表した図である。同図（ａ）は、表示画面６１と直交し且つこの画面の中心点を貫く軸の延長上であって、表示画面６１から距離Ｌだけ離れた位置から、被験者が表示画面６１上の動画像を観察している様子を示している。あるタイムコードが示す時刻での注視点の座標値が（ＧＸ，ＧＹ）のとき、被験者の視線は点Ｐ（ＧＸ，ＧＹ）に向けられていることを表す。ここで、被験者の視線に対して偏心度Ｅの角度となる表示画面６１上の座標（Ｘ，Ｙ）における視野に注目する。ここで、点Ｐの周辺視野における視力分布は正円状であると近似することができるため、同図（ｂ）に示すように注視点の座標（ＧＸ，ＧＹ）を中心とした半径Ｒの円周上において視力は一定となる。なお、同図において、座標値ＸおよびＹは、それぞれ、１≦Ｘ≦Ｗ、１≦Ｙ≦Ｈの範囲内の整数値をとる。ただし、ＷおよびＨは、それぞれ、フレーム画像の水平方向画素数および垂直方向画素数である。

このとき、座標（Ｘ，Ｙ）における周辺視力値Ｖ［Ｘ，Ｙ］は式（１）を変形した式（２）で表される。

なお、ここで、ａｔａｎは逆正接関数である。また、画面上の任意の画素に対する視線の方向は画面に対してほぼ垂直であるため、偏心度Ｅ[Ｘ,Ｙ]を算出するためには逆正接関数を用いた近似を行うことができる。視線方向における視力Ｖｆは、被験者ごとに設定してもよいし、共通の設定としてもよい。

図７は、注視点データ解析部１２が式（２）の計算によって求めた、視線方向に対する偏心度Ｅ［Ｘ，Ｙ］における周辺視力値Ｖ［Ｘ，Ｙ］を示す３次元グラフである。同図は、水平方向画素数Ｗ＝３２０画素，垂直方向画素数Ｈ＝２４０画素のフレーム画像についての例である。

式（２）の計算により求められる周辺視力値Ｖ［Ｘ，Ｙ］は、水平方向画素数Ｗ×垂直方向画素数Ｈの要素数の行列データとして表され、被験者の注視点データに基づく視力分布を表す。これを注視点マップデータと呼ぶ。すなわち、フレーム番号ｆにおける被験者ｓの注視点マップデータＧＭｓ（ｆ）は、式（３）のように表される。

図５に戻り、ステップＳ５４の処理において、注視点データ解析部１２は、参照されたフレーム画像についての被験者全員分の注視点マップデータを線形和し、この線形和された注視点マップデータを当該フレーム画像における注視点データ評価指標データとする。すなわち、フレーム番号fのフレーム画像における注視点マップデータＧＭ（ｆ）を、式（４）の計算によって求める。

なお、定数ｃｓは、被験者ごとに異なる値としてもよいし一定値（例えば、全ての被験者についてＣＳ＝１．０）としてもよい。

図８は、注視点データ解析部１２が式（４）の計算によって求めた、注視点マップデータＧＭ（ｆ）の３次元グラフである。同図は、水平方向画素数Ｗ＝３２０画素，垂直方向画素数Ｈ＝２４０画素のフレーム画像についての例である。

再び、図５に戻り、次に、ステップＳ５５において、注視点データ解析部１２は、参照されたフレーム画像における注視点マップデータＧＭ（ｆ）をデータ格納部１１に記録する。そして、ステップＳ５１の処理に戻る。

上述したように、注視点データ解析部１２は、周辺視野の視力分布を考慮して注視点データ評価指標データを計算することにより、計測された注視点から人間の眼球運動の特性を適応させた評価指標データを作成することができる。これは、すなわち被験者の人数が少ない場合でも、フレーム画像の全画素に対する注視点の集中度を効率よく求めることができる。

なお、注視点データ解析部１２は、既存技術によるクラスタリング方法を用いることによって複数の被験者についての注視点の分布をクラスタリングしたうえで、クラスタごとの分布を全て足し合わせて、混合正規分布となる注視点マップデータを求めるようにしてもよい。

＜画像解析処理＞
顕著性マップデータの生成に際して用いられる視覚属性として、画像解析部１３は、例えば、前述したように色（ｃｏｌｏｒ）、明度（ｉｎｔｅｎｓｉｔｙ）、方位（ｏｒｉｅｎｔａｔｉｏｎ）、コントラスト（ｃｏｎｔｒａｓｔ）、点滅（ｆｌｉｃｋｅｒ）、および運動（ｍｏｔｉｏｎ）の６つの属性を用いる。色属性は、画素の色の値を色の属性値としたものである。明度属性は、画素の輝度値を明度の属性値としたものである。方位属性は、例えば、水平方向を基準方位とした場合の０度，４５度，９０度，１３５度の４つの方位それぞれの線成分の強さを画素ごとに合計して方位の属性値としたものである。なお、所定方位の線成分の強さは、例えば、その方位の方向の画像微分値と、それに直交する方向の画像微分値との比に基づいて算出する。コントラスト属性は、当該画素を含む領域の画素値とその他の領域の画素値との比により算出されるコントラスト値をコントラストの属性値としたものである。点滅属性は、当該画素を含む領域の時間方向における画素値の変化が所定の周波数成分を有する場合に、その周波数自体およびその周波数成分の振幅に基づいて算出される属性値である。また、運動属性は、フレーム画像内における所定のパターンが、時間の経過につれて所定方向に移動する場合の、そのパターンの大きさとその移動速度とを加味した属性値とするものである。顕著性マップデータの生成に際しては１種類以上の視覚属性に対応する属性値を用いるようにすれば良いが、本実施形態では、上記６種類の属性値を視覚属性に対応する物理的特徴量として用いる。

図９は、画像解析部１３が画像コンテンツについての顕著性マップデータを生成する手順を示すフローチャートである。ステップＳ９１において、画像解析部１３は、顕著性マップデータを生成するための画像解析用パラメータを設定する。この画像解析用パラメータとは、画像コンテンツの画像解析処理における物理的特徴量に対応する６つの重みデータである。

図１０は、画像解析部１３が設定する画像解析用パラメータのデータ構成を示したものである。同図に示すように、画像解析用パラメータは、６種類の物理的特徴量にそれぞれ対応する重みデータを有している。ｗｃは色属性に対応する物理的特徴量ＣＣの重みデータ、ｗｉは明度属性に対応する物理的特徴量ＣＩの重みデータ、ｗｏは方位属性に対する物理的特徴量ＣＯの重みデータ、ｗｒはコントラスト属性に対応する物理的特徴量ＣＲの重みデータ、ｗｊは点滅属性に対応する物理的特徴量ＣＪの重みデータ、ｗｍは運動属性に対応する物理的特徴量ＣＭの重みデータである。

図９に戻り、次に、ステップＳ９２において、画像解析部１３は、データ格納部１１に格納された画像コンテンツをフレーム画像単位で参照する。ステップＳ９３において、参照されるフレーム画像がない場合（ステップＳ９３：ＮＯ）は、このフローチャートの処理を終了する。一方、フレーム画像が参照された場合（ステップＳ９３：ＹＥＳ）はステップＳ９４の処理に進む。ステップＳ９４において、画像解析部１３は、参照されたフレーム画像を読み込む。

次に、ステップＳ９５において、画像解析部１３は、顕著性マップデータを生成する。画像解析部１３は、ステップＳ９１の処理において設定された画像解析用パラメータに基づいて、全ての視覚属性に対応した特徴量に基づき推定した顕著性の分布データを生成する。具体的には、画像解析部１３は、読み込んだフレーム画像に対して、６つの視覚属性に関する画像解析処理を行って視覚属性ごとの特徴マップを生成する。そして、画像解析部１３は、これら特徴マップの重み付け線形和を計算して顕著性評価指標データである顕著性マップデータを生成する。画像解析部１３は、水平方向画素数Ｗ×垂直方向画素数Ｈの画素数のフレーム画像の画素（ｉ，ｊ）に対応する特徴量の重み付け線形和Ｆ［ｉ，ｊ］を、下の式（５）を用いて計算する。

そして、フレーム画像全体についての顕著性マップデータＳＭ（ｆ）は、式（６）のように表される。

図１１は、参照されたフレーム画像について生成された顕著性マップの３次元グラフの例である。同図は、水平方向画素数Ｗ＝３２０画素，垂直方向画素数Ｈ＝２４０画素のフレーム画像についての例である。

図９に戻り、次に、ステップＳ９６において、画像解析部１３は、参照されたフレーム画像における顕著性マップデータをデータ格納部１１に記録する。そして、ステップＳ９２の処理に戻る。

＜比較処理＞
トップダウン要因の影響を少なくとも低減させた画像コンテンツを用いて、注視点データ評価指標データと顕著性評価指標データとを作成すると、画像内において注視点の集中する領域と顕著性の高い領域とは、少なくとも部分的に重複するか、あるいは近接する。そこで、比較処理部１４は、注視点データ評価指標データの分布と、顕著性評価指標データの分布との分布の類似性の指標である一致度を求める。注視点データ評価指標データである注視点マップデータと顕著性評価指標データである顕著性マップデータとの、各マトリクスの値が類似するほど、上記の一致度を示す値は大きくなる。具体的には、比較処理部１４は、式（４）で示した注視点マップデータＧＭ（ｆ）と、式（６）で示した顕著性マップデータＳＭ（ｆ）との両データを比較して一致度を計算する。

図１２は、比較処理部１４が一の画像コンテンツについての注視点マップデータと顕著性マップデータとを比較して一致度を計算する手順を示すフローチャートである。ステップＳ１２１において、比較処理部１４は、データ格納部１１に格納されたある画像コンテンツに含まれる１フレーム画像分の注視点マップデータを参照する。
そして、ステップＳ１２１で参照したデータがあったか否かを、次のステップＳ１２２において判定する。参照された注視点マップデータがある場合（ステップＳ１２２：ＹＥＳ）は次のステップＳ１２３の処理に進む。一方、参照すべき注視点マップデータがない場合、即ちその画像コンテンツに含まれる全てのフレーム画像についてのステップＳ１２３以下の処理が完了している場合（ステップＳ１２２：ＮＯ）にはステップＳ１２７の処理に進む。

ステップＳ１２３において、比較処理部１４は、参照されたフレーム画像についての注視点マップデータを読み込む。次に、ステップＳ１２４において、比較処理部１４は、参照されたフレーム画像についての顕著性マップデータをデータ格納部１１から読み込む。次に、ステップＳ１２５において、比較処理部１４は、それぞれ読み込んだ注視点マップデータおよび顕著性マップデータから一致評価マップデータを計算する。次に、ステップＳ１２６において、参照されたフレーム画像における一致度を計算する。そして、ステップＳ１２１の処理に戻る。

上記のステップＳ１２５およびＳ１２６の一致度計算の処理について、具体的な３つの例をあげて説明する。
第１の方法による処理は、注視点マップデータおよび顕著性マップデータの各要素の差分値を求めて一致評価マップデータとするものである。すなわち、比較処理部１４は、注視点マップデータＧＭ（ｆ）および顕著性マップデータＳＭ（ｆ）について、マトリクスの位置（ｉ，ｊ）に対応する要素同士の差分の絶対値である一致評価マップデータＤＭ［ｉ，ｊ］を式（７）により計算する。

そして、比較処理部１４は、式（７）により算出された一致評価マップデータＤＭ［ｉ，ｊ］と予め決定された閾値とを比較して、この閾値よりも値の小さな差分値ＤＭ［ｉ，ｊ］の個数をカウントする。そして、カウント結果である個数を一致度とする。

第２の方法による処理は、注視点マップデータおよび顕著性マップデータの類似性を求めるものである。すなわち、比較処理部１４は、注視点マップデータＧＭ（ｆ）と顕著性マップデータＳＭ（ｆ）とのそれぞれからヒストグラムを作成し、そのヒストグラムの要素単位で双方の差分の絶対値を計算して合計した値を一致度とする。このヒストグラムは、注視点マップデータＧＭ（ｆ）および顕著性マップデータＳＭ（ｆ）それぞれの要素が０から１までの値をとり得る場合、例えば、各要素を０．１刻みで１０等分し、区分ごとのデータの出現数を計ったものである。

第３の方法による処理は、注視点マップデータおよび顕著性マップデータの要素ごとの積を求めて一致評価マップデータとするものである。すなわち、比較処理部１４は、注視点マップデータＧＭ（ｆ）および顕著性マップデータＳＭ（ｆ）について、マトリクスの位置（ｉ，ｊ）に対応する要素同士の積値である一致評価マップデータＭＭ［ｉ，ｊ］を式（８）により計算する。

そして、比較処理部１４は、式（８）により算出された一致評価マップデータＭＭ［ｉ，ｊ］と予め決定された閾値とを比較して、この閾値よりも値の大きな積値ＭＭ［ｉ，ｊ］の個数をカウントする。そして、カウント結果である個数を一致度とする。

そして、比較処理部１４は、ステップＳ１２１からＳ１２６までの処理を繰り返して、対象の画像コンテンツを構成する全てのフレーム画像についての一致度を計算したのち、ステップＳ１２７の処理に進む。ステップＳ１２７においては、比較処理部１４は、各フレーム画像の一致度に基づいて画像コンテンツ全体の一致度である評価値を計算する。

この評価値の計算方法は次のとおりである。例えば、１つの画像コンテンツを構成する全てのフレーム画像についての一致度の平均値を求めてそれを評価値とする。または、全てのフレーム画像の一致度の時間変化に対する積分値を求めて評価値とする。

次に、ステップＳ１２８において、比較処理部１４は、計算された評価値をデータ格納部１１に記録する。

前述の注視点データ生成処理では、画像コンテンツの再生に同期させて注視点データを計測し、フレーム画像の再生時刻と同時刻に得られた注視点データを記録するようにしている。しかし、人間の目は、生理反応として、ある画像が視野に入ったときから短時間のタイムラグの後に視線を動かすという特性を有している。この特性を考慮し、あるフレーム画像の再生時刻から、そのフレーム画像に対応する注視点データの算出時刻をタイムラグに相当する時間分だけ遅くするようにしてもよい。

つまり、予めこのタイムラグに相当するフレーム数の値を記憶しておき、比較処理では、注視点マップデータと顕著性マップデータとを比較して一致度を計算する際に、顕著性マップデータの生成時刻よりも、当該フレーム数分遅れた注視点マップデータを用いて一致度を算出するようにしてもよい。

なお、顕著性マップの生成時刻に対応する比較対象の注視点マップデータの収集時刻の遅延時間Ｔｄを次のようにして求めることができる。あるタイムコードのフレーム画像とその前後のフレーム画像を解析することによって、フレーム画像内の同一位置の部分領域における物理的特徴の変化が所定の閾値よりも大きい箇所を検出する。このようにして検出されたフレーム画像のタイムコードをＴ１としたとき、被験者の視線の動きを解析し、タイムコードＴ１から時間Ｔｂが経過した後の時点においてサッカードを検知すると、そのサッカード後の注視点とそのときのタイムコードＴ２＝Ｔ１＋Ｔｂを記録する。この場合に、時間Ｔｂを遅延時間Ｔｄとみなすことができる。なお、サッカードとは、視線を移すときに生じる急速な眼球運動のことであり、跳躍性眼球運動ともいう。

＜パラメータ決定処理＞
画像コンテンツの顕著性マップデータを生成するために用いられる画像解析用パラメータについて、重みデータの組み合わせを最適化するには、例えば最急勾配法などを用いて様々な画像解析用パラメータを用いた計算を行うことにより最適解を探索する方法をとることができる。しかし、単純にこのような方法を用いるだけでは、膨大な計算量と時間がかかることになる。そこで、本実施形態では、パラメータ決定部１５が、予め一致度の計算されている学習用動画像コンテンツの注視点マップデータおよび画像解析用パラメータを用いて、評価用パラメータの決定対象である学習用動画像コンテンツ（評価用パラメータ決定対象学習用動画像コンテンツ）の顕著性マップデータを生成するための、最適な画像解析用パラメータを評価用パラメータとして決定する処理を実行する。

データ格納部１１は、内部に学習用画像データベース（不図示）を備えている。この学習用画像データベースは、１つまたは複数の学習用動画像コンテンツを格納し、さらにこれら学習用動画像コンテンツそれぞれの注視点マップデータおよび顕著性マップデータと、これら注視点マップデータと顕著性マップデータとの間の一致度のデータと、その顕著性マップデータを算出する際に用いた画像解析用パラメータとを格納している。学習用動画像コンテンツが複数ある場合は、学習用動画像コンテンツごとに画像解析用パラメータの重みデータが異なるようにする。なお、ここで、学習用画像データベースが、上記のデータ項目のうち、学習用動画像コンテンツに対応する顕著性マップデータを保持しない形態でもよい。また、逆に、学習用画像データベースが、上記のデータ項目のうちの一致度のデータを保持しない形態でもよい。このとき、学習用動画像コンテンツの注視点マップデータと顕著性マップデータとから一致度を算出することができ、実質的に、注視点マップデータと顕著性マップデータとのペアは一致度をも表しているデータである。

学習用動画像コンテンツごとの画像解析用パラメータは、６つの重みデータ全てを同一値に設定して重み付けを平等（例えば、ｗｃ＝ｗｉ＝ｗｏ＝ｗｒ＝ｗｊ＝ｗｍ＝１．０）にしておくか、または、学習用動画像コンテンツの注視点マップデータと顕著性マップデータとの一致度が予め決定された基準値よりも高い値となるように調整された重みデータにしておく。

図１３は、パラメータ決定部１５が、学習用動画像コンテンツに関する注視点マップデータおよび画像解析用パラメータを用いて、学習用画像データベース内の評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータを生成するための最適な画像解析用パラメータ（評価用パラメータ）を決定する手順を示すフローチャートである。

まず、ステップＳ１３１において、パラメータ決定部１５は、評価用パラメータ決定対象学習用動画像コンテンツについての注視点マップデータをデータ格納部１１から読み込む。
次に、ステップＳ１３２において、パラメータ決定部１５は、データ格納部１１に格納された評価用パラメータ決定対象学習用動画像コンテンツを除く、ある学習用動画像コンテンツについての注視点マップデータを参照する。
そして、ステップＳ１３２で参照したデータがあったか否かを、次のステップＳ１３３において判定する。参照された学習用動画像コンテンツの注視点マップデータがあった場合（ステップＳ１３３：ＹＥＳ）は次のステップＳ１３４の処理に進む。一方、参照すべき注視点マップデータがない場合、即ちパラメータ決定部１５内の学習用動画像コンテンツの全てについてステップＳ１３４およびＳ１３５の処理が完了している場合（ステップＳ１３３：ＮＯ）はステップＳ１３６に進む。

次に、ステップＳ１３４において、パラメータ決定部１５は、ステップＳ１３３の処理において参照した学習用動画像コンテンツの注視点マップデータをデータ格納部１１から読み込む。次に、ステップＳ１３５において、パラメータ決定部１５は、それぞれ読み込んだ評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータと学習用動画像コンテンツの注視点マップデータとの類似度を計算してステップＳ１３２の処理に戻る。
ステップＳ１３５の処理における類似度の計算方法については、前述した比較処理部１４が実行する比較処理における、注視点マップデータと顕著性マップデータとを比較して一致度を計算する方法と同様の方法を用いる。例えば、パラメータ決定部１５は、評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータおよび学習用動画像コンテンツの注視点マップデータの要素ごとの差分値を計算する。そして、その差分値と予め決定された閾値とを比較し、この閾値よりも値の小さな差分値の個数を計測して類似度とする。

ステップＳ１３３からステップＳ１３６の処理に進んだ後の処理は次の通りである。
ステップＳ１３６において、パラメータ決定部１５は、類似度の算出された１つまたは複数の学習用動画像コンテンツの注視点マップデータのうち、所定の選択基準によって注視点マップデータを選択する。この所定の選択基準は、例えば、パラメータ決定部１５がステップＳ１３５において計算した類似度が、予め決定された類似度基準値を超える類似度である注視点マップデータを選択するという基準である。また、類似度の高い方から順に、予め決定された選択数の注視点マップデータを選択するという基準にしてもよい。

次に、ステップＳ１３７において、パラメータ決定部１５は、選択された学習用動画像コンテンツの注視点マップデータに関連づけられた画像解析用パラメータおよび一致度をデータ格納部１１から読み出す。次に、ステップＳ１３８において、パラメータ決定部１５は、読み出された一致度が複数ある場合は、それらの中で最も数値の高い一致度に対応する画像解析用パラメータを選択して、これを評価用パラメータの初期値に決定する。また、パラメータ決定部１５は、読み出された一致度が１つである場合は、その一致度に対応する画像解析用パラメータを評価用パラメータの初期値に決定する。

次に、ステップＳ１３９において、パラメータ決定部１５は、上で決定された評価用パラメータを初期値として、６つの重みデータを詳細に探索して最適な評価用パラメータを探索する。例えば、パラメータ決定部１５は、最急勾配法を用いて詳細に重みデータの最適値を探索する。ここでは、以下の一例を挙げる。パラメータ決定部１５は、決定された評価用パラメータを構成する６つの重みデータから１番目の重みデータを選択して値を変化させ、６つの重みデータを画像解析部１３に供給する。次に、画像解析部１３は、供給された６つの重みデータの評価用パラメータを用いて評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータを計算し、パラメータ決定部１５に制御を戻す。次に、パラメータ決定部１５は比較処理部１４に制御を渡す。比較処理部１４は、評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータと評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータとの一致度を計算してパラメータ決定部１５に制御を戻す。パラメータ決定部１５は、上記のようにして重みデータの値を所望の範囲の間で変化させて一致度を計算し、最も一致度が高くなる重みデータを検索する。さらに、パラメータ決定部１５は、２番目から６番目の重みデータについても、１番目の重みデータと同様に最も一致度が高くなる重みデータを検索する。

次に、ステップＳ１４０において、パラメータ決定部１５は、検索された６つの重みデータを評価用パラメータの最適値である最終評価用パラメータとして決定する。次に、ステップＳ１４１において、パラメータ決定部１５は、最終評価用パラメータをデータ格納部１１に記録する。

上記のパラメータ決定処理において、学習用動画像コンテンツのサンプル数が少ない場合や、学習用動画像コンテンツのための画像解析用パラメータの設定パターンが少ない場合に、評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータと学習用動画像コンテンツの注視点マップデータとの類似度が小さい結果しか得られないことも起こり得る。そのような場合は、学習用動画像コンテンツの顕著性マップデータの生成過程で用いる特徴マップデータを利用して、パラメータの設定パターンを増やすようにする。

具体的には、学習用動画像コンテンツの顕著性マップデータと個々の特徴マップデータとの比較に基づいて、学習用動画像コンテンツの顕著性マップデータに対して影響度の大きな物理的特徴を選定する。次に、その選定された物理的特徴についての重みデータを所望の範囲内で変更ながら一致度を計算する。そして、計算された一致度が最も高くなるパラメータを追加の画像解析用パラメータとして採用する。

また、最終評価用パラメータの画像コンテンツとの適合度は、画像コンテンツごとに異なる。よって、画像コンテンツの用途（放送用、データ配信用等）、使用目的（不特定視聴者用、特定視聴者用等）などに応じて評価基準を変え、最終評価用パラメータを評価基準に応じて複数種類設けるようにしてもよい。

＜画像コンテンツの評価＞
制作中の画像コンテンツなど、視聴者による視線計測実験が行われていない画像コンテンツには注視点データが存在しない。このような注視点データの存在しない画像コンテンツについて、視聴者の注視点の分布を推定する。図１４は、外部から入力した評価対象動画像コンテンツの注視点マップデータを推定する処理についてのフローチャートである。ステップＳ２４１において、外部から評価対象動画像コンテンツが画像入力部２１に供給されると、画像入力部２１はこれを入力してデータ格納部１１に格納する。
次に、ステップＳ２４２において、類似画像コンテンツ決定部２２は、評価対象動画像コンテンツに対して、注視点マップデータ、顕著性マップデータ、および最適化された評価用パラメータが存在する学習用動画像コンテンツ群の中から、類似する学習用動画像コンテンツを類似学習用動画像コンテンツとして決定する。

次に、ステップＳ２４３において、注視点マップ推定部２３は、決定された類似学習用動画像コンテンツにおける評価用パラメータを参照し、これを評価対象動画像コンテンツに対する顕著性マップデータ算出のための評価用パラメータとして使用して顕著性マップデータを生成する。
つまり、注視点マップ推定部２３は、類似画像コンテンツ決定部２２によって決定された類似学習用動画像コンテンツを評価対象動画像コンテンツとし、パラメータ決定部１５が決定した評価用パラメータに基づき、画像解析部１３が評価対象動画像コンテンツの映像解析を行って顕著性マップデータを生成する。
そして、注視点マップ推定部２３は、その顕著性マップデータをデータ格納部１１に格納する。
次に、ステップＳ２４４において、注視点マップ推定部２３は、ステップＳ２４３の処理によりデータ格納部１１に格納された顕著性マップデータを読み出し、これを推定注視点マップデータとして外部に出力する。これにより、評価対象動画像コンテンツについての、視聴者の注視点の分布を推定することができる。

評価対象動画像コンテンツと学習用動画像コンテンツとの類似性の判定方法として、次の２つの例をあげる。

第１の方法は、評価対象動画像コンテンツおよび学習用動画像コンテンツに対して、共通の顕著性マップデータ生成のための評価用パラメータを用いて、1つの視覚属性に関する特徴マップ同士、あるいは、複数の視覚属性に関する特徴マップから得られた顕著性マップデータ同士の類似性を判定する。

第２の方法は、動画像コンテンツの特徴に基づくクラスタリング処理を行い、その結果により動画像コンテンツ間の類似性を判定する。一例としては、文献（帆足啓一郎、外３名、“フレームクラスタリングを利用したＣＧＭ動画像コンテンツ検索手法の提案”、電子情報通信学会パターン認識・メディア理解研究会、ｐｐ．８７−９２，２００７年１０月）に記載されている、動画像コンテンツの映像解析処理によって動画像間の類似性を判定する処理を適用する。

上記のように推定した注視点の分布を、評価対象動画像コンテンツの再生表示画面に重畳して表示することによって、評価者にとって視覚的に分かりやすい評価結果を提示することができる。

以上述べたように、本実施形態では、視聴者が学習用動画像コンテンツを視聴した際に計測した視線分布とその学習用動画像コンテンツを映像解析して得られる視覚的特性の顕著性マップの一致度を利用して視聴者視線パラメータを取得してデータベース化を行い、評価対象動画像コンテンツに対して類似する学習用動画像コンテンツの視聴者視線パラメータを評価対象動画像コンテンツの画像解析用パラメータとして採用し、評価対象動画像コンテンツを映像解析して視聴者の視線分布を推定することができる。つまり、視線計測実験を行っていない画像コンテンツであっても、他の画像コンテンツの注視点マップデータ、顕著性マップデータ、顕著性マップ生成用パラメータを利用することで、簡単に注視点の分布に関する評価を行うことができる。

以上述べたように、本実施形態では、人間が画像を見たときの注意の向けられやすさの分布を表す顕著性マップを生成する際に、実際の人間による観察行為により得られた視線運動に基づいて求められた注視点の分布との分布の類似性が高くなるように、評価用パラメータを調整するようにした。これにより、本実施形態によれば、人間による主観的な画像評価に近い評価結果を画像の物理的特徴を用いた客観的な評価手法によって簡単に得ることができる。

また、本実施形態では、周辺視野の視力分布を考慮して注視点マップデータを生成するようにしたことにより、被験者の人数が少ない場合でも、フレーム画像の全画素に対する注視点の集中度を効率よく求めることができる。

また、本実施形態では、評価用パラメータ決定対象学習用動画像コンテンツについての最適な最終評価用パラメータを決定するために、既存の学習用動画像コンテンツを用いて、注視点の分布が類似し且つ一致度の高くなる画像解析用パラメータを評価用パラメータの初期値として決定するようにした。そして、その評価用パラメータを用いて、６つの重みデータを変化させながらより適切な顕著性マップが得られるように評価用パラメータを調整して最終評価用パラメータを決定するようにした。これにより、本実施形態によれば、時間的な効率性を向上させながら最適な最終評価用パラメータを求めることができる。

また、本実施形態では、所望の評価対象動画像コンテンツを様々な学習用動画像コンテンツを用いて評価し、最終評価用パラメータを求める実験を繰り返して実施することにより、評価対象動画像コンテンツと、最終評価用パラメータの重みデータの設定パターンとの相関関係を求めることができる。

さらに、予め実験用の評価対象動画像コンテンツを様々な学習用動画像コンテンツを用いて評価して最終評価用パラメータを求める実験を反復実施し、実験用の評価対象動画像コンテンツと、最終評価用パラメータの重みデータの設定パターンとの相関関係を求めておくことが望ましい。これにより、本実施形態による画像コンテンツ評価装置によれば、注視点データを求めるための視線計測実験を行うことなく、客観的な評価材料である画像データの物理的特徴を用いるだけで、画像コンテンツを評価して注視点マップデータを推定することができる。

なお、上述した実施形態である画像コンテンツ評価装置の機能をコンピュータで実現するようにしてもよい。この場合、その制御機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたコンピュータプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば、放送やネットワーク配信に用いられるコンテンツの制作過程における、画像コンテンツの評価に利用することができる。また、同様に、公共施設などで公衆に提示される映像広告に係るコンテンツの制作過程においても、画像コンテンツの評価に利用することができる。

１画像コンテンツ評価装置
１１データ格納部
１２注視点データ解析部
１３画像解析部
１４比較処理部
１５パラメータ決定部
２１画像入力部
２２類似画像コンテンツ決定部
２３注視点マップ推定部

Claims

複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、
前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、
前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき、対応する画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定するパラメータ決定部と、
前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、
前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して、前記パラメータ決定部が決定した前記評価用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部と、
を具備することを特徴とする動画像コンテンツ評価装置。
前記複数の学習用動画像コンテンツに対して、視線を計測した結果である注視点の座標値を含む注視点データに基づき、前記学習用動画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成する注視点データ解析部をさらに備え、
前記比較処理部は、前記複数の学習用動画像コンテンツそれぞれに関する前記顕著性マップデータと前記注視点データ解析部が生成した前記注視点マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する
ことを特徴とする請求項１に記載の動画像コンテンツ評価装置。
コンピュータを、
複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、
前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、
前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき、対応する画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定するパラメータ決定部と、
前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、
前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して、前記パラメータ決定部が決定した前記評価用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部、
として機能させるためのコンピュータプログラム。