JP2011039778A - 動画像コンテンツ評価装置およびコンピュータプログラム - Google Patents

動画像コンテンツ評価装置およびコンピュータプログラム Download PDF

Info

Publication number
JP2011039778A
JP2011039778A JP2009186573A JP2009186573A JP2011039778A JP 2011039778 A JP2011039778 A JP 2011039778A JP 2009186573 A JP2009186573 A JP 2009186573A JP 2009186573 A JP2009186573 A JP 2009186573A JP 2011039778 A JP2011039778 A JP 2011039778A
Authority
JP
Japan
Prior art keywords
image content
moving image
map data
gazing point
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009186573A
Other languages
English (en)
Other versions
JP5306940B2 (ja
Inventor
Kazuaki Komine
一晃 小峯
Hisaya Morita
寿哉 森田
Toshiaki Kamiko
俊晃 上向
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
KDDI Corp
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, KDDI Corp, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2009186573A priority Critical patent/JP5306940B2/ja
Publication of JP2011039778A publication Critical patent/JP2011039778A/ja
Application granted granted Critical
Publication of JP5306940B2 publication Critical patent/JP5306940B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)

Abstract

【課題】注視点マップデータと顕著性マップデータとを利用して、動画像コンテンツを容易に且つ客観的に評価することのできる動画像コンテンツ評価装置を提供する。
【解決手段】注視点データ解析部は、画像コンテンツについての注視点座標値を含む注視点データを用いて視力分布を求める。画像解析部は、画像解析用パラメータを適用して複数の視覚属性に対応する顕著性マップデータを計算する。比較処理部は、注視点マップデータと顕著性マップデータとの一致度を計算する。パラメータ決定部は、一致度に基づいて最適な評価用パラメータを決定する。注視点マップデータのない評価対象動画像コンテンツは、注視点マップデータ、顕著性マップデータ、評価用パラメータを有する学習用動画像コンテンツを基に、評価対象動画像コンテンツを解析して観察者の注視点分布を推定する。
【選択図】図1

Description

本発明は、動画像コンテンツを評価するための動画像コンテンツ評価装置およびコンピュータプログラムに関する。
放送用コンテンツや、ネットワーク配信サービスに供されるコンテンツや、公共施設等に設置された情報提供装置に表示される映像広告等のコンテンツは、視聴者の注目が引きつけられるように映像制作時に映像面での工夫がされている。例えば、コンテンツの制作者であるディレクターやカメラマンは、経験に基づくノウハウや映像制作の専門技法に基づいて、視聴者に注意を喚起させたり注目させたりすることを意図した構図やカメラワークを決定することが多い。このような事情により、制作者には、コンテンツが視聴者にどのように見られているかを客観的に知り、それを制作に活かしたいという要求がある。
ところで、人間がものを見るという行為に伴って、視線は動き、視界における注意や興味の引かれる方向に向けられる。そこで、人間の生体反応である視線運動を利用する様々な研究が行われている。例えば、画面に表示された動画像を観察する観察者の眼球運動をカメラで撮像し、その撮像画像から視線の動きを測定して、観察者の視線が画面上の動画像のどの位置(注視点)に向けられているかを求める技術が知られている。そして、その技術を用いて、観察者の視線の動きの測定結果に基づき映像コンテンツを評価する技術が提案されている(例えば、特許文献1、特許文献2を参照)。
特許文献1に記載の映像コンテンツの評価技術は、被験者の眼球の動きを撮像して解析し、これにより得られた眼球運動データを映像の再生に同期させて提示する技術である。具体的には、同文献には、赤外線カメラで撮像した被験者の眼球の状態から、映像のフレーム画像ごとに、瞬目回数、瞳孔径変化、反応時間、眼球移動速度、眼球停留時間、停留回数、およびその位置を計算する映像コンテンツの評価装置が開示されている。そして、それらの計算結果をグラフ等により可視化することが開示されている。
特許文献2に記載の画像評価装置は、複数の観視者について計測した注視点の座標データに基づいて、動画像データのフレーム画像ごとに注視点の分布を確率密度関数で求め、さらに動画像全体のエントロピーを計算するものである。そして、これらの注視点群を総合的に利用して、視線がフレーム画像のどの位置にどれだけ集まっているかについての確率をフレーム画像に対する集中度として計算し、コンテンツを評価する。このとき、集中度の分布を示す等高線図をフレーム画像に重畳させて表示することにより、フレーム画像のどこに注視点が集まっているかを可視化することもできる。
また一方で、視聴者が画像を見たときの注意の向けられやすさの分布を推測することに用いられる顕著性マップに関する技術が知られている(例えば、非特許文献1参照)。この顕著性マップを用いた画像の評価では、被験者による目視評価実験を行う必要がなく、画像データの有する物理的特徴を解析するだけで、画像の注意の向けられやすさに関する評価を行うことができる。
顕著性マップは、例えば、特徴マップ生成ステップと特徴マップ合成ステップとの2ステップの処理により求めることができる。このうち特徴マップ生成ステップでは、フレーム画像について、1つまたは複数の視覚属性に関する画像解析を行って特徴マップを生成する。例えば、視覚属性として、色(color)、明度(intensity)、方位(orientation)、コントラスト(contrast)、点滅(flicker)、および運動(motion)の6つの属性を用いることができる。この場合、特徴マップ生成ステップでは、6つの特徴マップが生成されることになる。そして、特徴マップ合成ステップでは、視覚属性ごとに生成された特徴マップの重み付き線形和を計算して顕著性マップを求める。
特開2004−282471号公報 特開2007−310454号公報
Laurent Itti,Christof Koch,Ernst Niebur,"A Model of Saliency−Based Visual Attention for Rapid Scene Analysis," IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.20,No.11,pp.1254−1259,1998年11月.
しかしながら、被験者の視線計測結果に基づいて画像コンテンツを評価する従来技術では、評価対象の画像コンテンツを変更するたびに視線計測実験をやり直す必要がある。すなわち、この従来技術では、一旦画像コンテンツを制作したのち、視線計測実験を行って注視点の分布を解析し、その結果を踏まえて画像コンテンツを制作し直して視線計測実験を再度行うという反復作業が必要となる。このように画像コンテンツ制作と評価実験とを繰り返す作業は、多大な時間と労力を要するものである。しかも、被験者のサンプル数を増やすと、その手間はさらに大きくなる。よって、被験者のサンプル数を抑えながら、画像コンテンツを簡単かつ効率的に評価する方法が求められている。
前述の顕著性マップを利用した評価方法においては、被験者の視線計測実験を行う必要がない。しかしながら、サンプル画像から求めた顕著性マップと、そのサンプル画像についての視線計測実験結果とを比較すると、顕著性の高い領域と注視点の集中する領域とが一致しない場合がある。これは、人間の視線の動きが、顕著性マップを計算するために用いられる属性である、画像自体の有する視覚的な特徴(ボトムアップ要因)だけでなく、被験者の嗜好、興味、経験、知識等の要因(トップダウン要因)にも影響されるためであると考えられる。
このようなトップダウン要因による影響をできるだけ少なくするためには、顕著性マップを生成するための画像解析処理における物理的特徴に関する画像解析用パラメータを、統計的に適正な値に設定する方法が求められる。しかしながら、従来は、顕著性マップ計算用ツールを用いる際に、初期設定値をそのまま利用したり、経験により得られた値を利用したりすることが通常であった。つまり、この画像解析用パラメータの設定方法に関する検討は従来の技術においては十分に行われていない。
本発明は、上記の課題認識に基づいてなされたものであり、視線計測に基づく注視点の分布と画像解析処理に基づく顕著性の分布とを利用して、動画像コンテンツを容易に且つ客観的に評価することのできる、動画像コンテンツ評価装置およびコンピュータプログラムを提供することを目的とする。
[1]上記の課題を解決するため、本発明の一態様による動画像コンテンツ評価装置は、複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき、対応する画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定するパラメータ決定部と、前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して、前記パラメータ決定部が決定した前記評価用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部と、を具備することを特徴とする。
上記の構成において、視力分布とは、注視点およびその周辺における人の視力の分布を表す。このとき、注視点における視力に対して、その周辺部分における視力は注視点からの距離に応じて次第に低くなっていく。また、複数の被験者について注視点を測定した結果に基づき、当該複数被験者の視力分布を重畳したものを上での視力分布として用いても良い。この視力分布は、人の注視の度合いを表すものであり、注視力分布とも言える。
また、顕著性分布は、言い換えれば誘目性分布である。誘目性とは、視覚的な注意の引きやすさの程度をいう。
また、上記の視覚属性は、1種類であっても複数種類であっても良い。画像解析用パラメータは、例えば、視覚属性ごとの重み付けを表わす。
また、パラメータ決定部は、評価用パラメータを求めるための1つの学習用動画像コンテンツに関する注視点マップデータと、その他複数の学習用動画像コンテンツに関する注視点マップデータとの類似度を計算し、計算された前記類似度に基づき一又は複数の前記学習用動画像コンテンツに関する注視点マップデータを選択し、選択された注視点マップデータに関連付けられた画像解析用パラメータを選択する。次に、パラメータ決定部は、評価用パラメータを求めるための1つの学習用動画像コンテンツに関する注視点マップデータと、前記選択した一又は複数の画像解析用パラメータを基に画像解析部によって計算される顕著性マップデータとに基づいて比較処理部で計算される一致度のうち、最も高い一致度を示す画像解析用パラメータを評価用パラメータとして決定する。さらに、パラメータ決定部は、その他の学習用動画像コンテンツについても同様に評価用パラメータを決定する。
つまり、パラメータ決定部は、評価用パラメータを求めるための学習用動画像コンテンツの注視点マップデータとその他の学習用動画像コンテンツの注視点マップデータとの類似度に基づいて一又は複数の学習用動画像コンテンツの注視点マップデータに絞り込み、この絞り込まれた注視点マップデータのうちこれらに対応する学習用動画像コンテンツの顕著性マップデータとの一致度の最も高い注視点マップデータに対応する画像解析用パラメータに基づいて評価用パラメータを決定する。
類似画像コンテンツ決定部は、例えば、評価対象動画像コンテンツおよび学習用動画像コンテンツに対して、共通の顕著性マップデータを生成するための評価用パラメータを用いて、所定の視覚属性に関する特徴マップから得られた顕著性マップデータの類似性を判定することによって、評価対象動画像コンテンツに類似する学習用動画像コンテンツを決定する。または、動画像コンテンツの特徴に基づくクラスタリング処理を行って、その結果により動画像コンテンツ間の類似性を判定するようにしてもよい。
[2]また、本発明の一態様による動画像コンテンツ評価装置は、前記複数の学習用動画像コンテンツに対して、視線を計測した結果である注視点の座標値を含む注視点データに基づき、前記学習用動画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成する注視点データ解析部をさらに備え、前記比較処理部は、前記複数の学習用動画像コンテンツそれぞれに関する前記顕著性マップデータと前記注視点データ解析部が生成した前記注視点マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出することを特徴とする。
[3]また、本発明のコンピュータプログラムは、コンピュータを、複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき、対応する画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定するパラメータ決定部と、前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して、前記パラメータ決定部が決定した前記評価用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部、として機能させる。
[4]さらに、上記の課題を解決するため、次の態様としてもよい。
複数の学習用動画像コンテンツそれぞれに対して、視線を計測した結果である注視点の座標値を含む注視点データに基づき、前記学習用動画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成し、前記複数の学習用動画像コンテンツそれぞれに対して、視覚属性に関する複数の画像解析用パラメータを基に映像解析をパラメータ毎に行い、前記学習用動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成し、前記複数の学習用動画像コンテンツそれぞれに対して、前記注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出し、前記複数の学習用動画像コンテンツそれぞれに対して、前記注視点マップデータと前記顕著性マップデータとの一致度が一番高かったときの画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定し、入力した評価対象動画像コンテンツに一番類似する学習用動画像コンテンツを前記複数の学習用動画像コンテンツから決定し、決定した一番類似する学習用動画像コンテンツの評価用パラメータに基づき、前記評価対象動画像コンテンツの映像解析を行って顕著性マップデータを生成し、前記顕著性マップデータを前記評価対象動画像コンテンツの注視点マップデータとして推定して出力することを特徴とする動画像コンテンツ評価方法。
本発明によれば、画像コンテンツを容易に且つ客観的に評価するために、学習用動画像コンテンツの視線計測実験によって得られた注視点の分布と、学習用動画像コンテンツに対する映像解析処理に基づく顕著性の分布との類似性を利用して、画像解析用パラメータを取得することができる。そして、評価対象動画像コンテンツに類似する学習用動画像の画像解析用パラメータを、評価対象動画像コンテンツに対する顕著性マップ生成用の画像解析用パラメータとして利用することにより、視線計測実験を実施していない評価対象動画像コンテンツであっても、視聴者の注視点の分布と推定することができる。
本発明の一実施形態による画像コンテンツ評価装置の機能構成を示すブロック図である。 同実施形態における、データ格納部に格納されるデータ構成の例を示した図である。 同実施形態における、注視点データ生成装置の機能構成図である。 同実施形態における、格納部に記録される注視点データのデータ構成図である。 同実施形態において、注視点データ解析部が画像コンテンツについての注視点データからフレーム画像ごとの注視点マップデータを生成する手順を示すフローチャートである。 同実施形態において、被験者が表示画面を観察することによって視線が向けられた様子と、表示画面上の注視点の座標とを模式的に表した図である。 同実施形態における、視線方向に対する偏心度と周辺視力値との関係を表す3次元グラフの例である。 同実施形態における、注視点マップデータの3次元グラフの例である。 同実施形態において、画像解析部が画像コンテンツについての顕著性マップデータを生成する手順を示すフローチャートである。 同実施形態における、画像解析部が設定する画像解析用パラメータのデータ構成を示した図である。 同実施形態における、参照されたフレーム画像について生成された顕著性マップの3次元グラフの例である。 同実施形態において、比較処理部が画像コンテンツについての注視点マップデータと顕著性マップデータとの一致度を計算する手順を示すフローチャートである。 同実施形態において、パラメータ決定部が、学習用動画像コンテンツに関する注視点マップデータおよび画像解析用パラメータを用いて、顕著性マップデータを生成するための評価用パラメータを決定する手順を示すフローチャートである。 同実施形態における、画像コンテンツ評価装置の注視点マップデータの推定処理の手順を示すフローチャートである。
以下、図面を参照しながら、本発明の実施形態について説明する。
図1は、本発明の一実施形態による画像コンテンツ評価装置の機能構成を示すブロック図である。同図において、画像コンテンツ評価装置1は、データ格納部11と、注視点データ解析部12と、画像解析部13と、比較処理部14と、パラメータ決定部15と、画像入力部21と、類似画像コンテンツ決定部22と、注視点マップ推定部23とを含んで構成される。
図2は、データ格納部11に格納されるデータの構成例を示す概略図である。データ格納部11は、半導体メモリや磁気ハードディスクなどを用いて実現される。同図(a)に示すように、データ格納部11は、被験者に観測させたり画像解析処理を行ったりするための画像コンテンツを格納する。この画像コンテンツは、フレーム画像単位で制御することのできるデータであり、フレーム画像ごとのタイムコードを含んだものである。本実施形態で用いる画像コンテンツの内容は、トップダウン要因の影響をできるだけ低減させたもの、あるいは排除したものである。
例えば、公知文献(Ran Carmi and Laurrent Itti, "Causal Saliency Effects During Natural Vision”, Proc. of Symposium on Eye Tracking Research & Applications, pp. 11-18, March, 2006.)に記載されているように、被験者にとって画像コンテンツの内容に認知的な意味を含まない動画像や未知の動画像を画像コンテンツとして用いる。または、一般的な動画像であっても、再生時間が数秒程度である動画像を用いることによって、トップダウン要因の影響を低減もしくは排除できると考えられるため、例えば、5秒間の音声を含まない動画像を画像コンテンツとして用いる。これにより、被験者に考える余裕を与えず、トップダウン要因によらずに画像の物理的特徴のみから誘導される視線の動きを捉えることができる。
なお、画像コンテンツは、複数のフレーム画像を含む動画像コンテンツであってもよいし、単一のフレーム画像である静止画像コンテンツであってもよい。本実施形態においては、画像コンテンツとして動画像コンテンツ(評価対象動画像コンテンツ、学習用動画像コンテンツ)を用いた例について説明する。
また、データ格納部11は、上記の画像コンテンツのフレーム画像(#1〜#N)に対応させて、注視点データと、注視点マップデータと、特徴マップデータと、顕著性マップデータと、一致度とを格納する。
注視点データは、一人または複数の被験者の視線を測定して得られた注視点の座標値を含むデータである。注視点マップデータは、注視点データをもとに、注視点の周辺視野を考慮して計算された注視点の分布を示すデータである。特徴マップデータは、フレーム画像の視覚属性ごとに求められた特徴量の分布を示すデータである。顕著性マップデータは、特徴マップデータの重み付け線形和が計算されて得られた顕著性(画像に対する注意の向けられやすさ)の分布、すなわち誘目性分布を示すデータである。一致度は、注視点マップデータと顕著性マップデータとの類似性の指標である一致度合いを示すデータである。ここに示した各マップデータは、水平方向画素数W×垂直方向画素数Hのフレーム画像の画素に相当する行列のデータであり、この行列の各要素はスカラ値である。
また、図2(b)に示すように、データ格納部11は、画像コンテンツに対応させて評価値と、画像解析用パラメータとを格納する。評価値は、注視点マップデータと顕著性マップデータとの一致度を当該画像コンテンツ全体として評価した値である。画像解析用パラメータ(特に動画像コンテンツの場合の画像解析用パラメータを、映像解析用パラメータと呼ぶ。)は、各特徴マップデータを線形的に総和することによって顕著性マップデータを計算するための設定情報であり、視覚属性ごとの重みデータを含む。
図1に戻り、注視点データ解析部12は、データ格納部11に格納された一人または複数の被験者についての注視点データを解析することによって、注視点に関する注視点データ評価指標データを生成する。言い換えれば、注視点データ解析部12は、画像コンテンツに対応して注視点の座標値を含む注視点データに基づき、画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成する。
画像解析部13は、フレーム画像の物理的特徴量を用いた画像解析処理によって、顕著性に関する評価指標データである顕著性評価指標データを生成する。言い換えれば、画像解析部13は、画像コンテンツを基に、画素に対応した視覚属性ごとの特徴量データを算出するとともに、特徴量データと視覚属性ごとに定められる重みデータとに基づいて画素に対応した顕著性の分布を示す顕著性マップデータを生成する。
比較処理部14は、それぞれ生成された注視点データ評価指標データと顕著性評価指標データとを比較し、注視点の分布と顕著性の分布との一致度を計算する。言い換えれば、比較処理部14は、前記画像コンテンツに関する前記注視点マップデータと前記顕著性マップデータとに基づき、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する。
パラメータ決定部15は、上記の一致度に基づいて、画像解析部13において顕著性マップデータを計算するために用いられる評価用パラメータを決定する。
画像入力部21は、評価すべき評価対象動画像コンテンツが外部から供給されると、その評価対象動画像コンテンツを画像コンテンツ評価装置1に入力してデータ格納部11に格納する。
類似画像コンテンツ決定部22は、複数の学習用動画像コンテンツの中から、評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する。
注視点マップ推定部23は、類似学習用動画像コンテンツにおける評価用パラメータを評価対象動画像コンテンツに対する顕著性マップデータ算出のための評価用パラメータとして使用して画像解析部13が生成した顕著性マップデータを、推定注視点マップデータとして出力する。
次に、データ格納部11に予め格納される注視点データの生成の手段および生成の方法について説明する。注視点データは、画像コンテンツ評価装置1とは別の装置である注視点データ生成装置が一人または複数の被験者を対象として視線計測を行うことにより生成される。この注視点データ生成処理は、画像コンテンツ評価処理の前処理として位置づけられるものである。
図3は、注視点データ生成装置の機能構成を示すブロック図である。同図において、注視点データ生成装置3は、画像再生部31と、画像表示部32と、注視点データ計測部33と、注視点データ記録部34と、格納部35とを含んで構成される。画像再生部31は、被験者に観察させるための画像コンテンツを格納部35から読み出して再生する。画像表示部32は、再生された画像コンテンツを画面に表示する。注視点データ計測部33は、画像表示部32に表示された動画像を観察する被験者の眼球の動きを測定し、画面上の位置である注視点の座標値を計測する。注視点データ記録部34は、画像コンテンツの再生に同期させて、注視点の座標値を格納部35に記録する。
次に、注視点データ生成装置3の、より具体的な構成およびその動作について説明する。注視点データ計測部33は、被験者の眼球の動きを測定するための注視点測定器33aを備えている。この注視点測定器33aは従来技術によるものでよく、例えば、被験者の顔に視覚センサを装着させて注視点を検出するタイプや、コンタクトレンズやゴーグルを装着させて視線を測定するタイプなどを用いることができる。
本実施形態の注視点測定器33aは、撮像した画像を基に眼球の動きをリモートセンシングして注視点を検出する瞳孔角膜反射法による測定法を用いている。この注視点測定器33aは、画像表示部32の表示面から一定距離をおいた位置から画面を観察する被験者の眼球部分を近赤外線光で照射し、目の表面での角膜反射像をカメラで撮像する測定を行う。そして、撮像画像から瞳孔の中心点と角膜反射点とを検出して、幾何学的に視線の向きと画面上の注視点の座標値とを計算する。
このリモートセンシングによる測定の分解能は、0.5度から1度の範囲程度である。これは、1ラインあたりの有効画素数が1920画素であるHDTV(High Definition Television)画像を例にとると、画面の水平方向の視野角を30度とした場合に、32画素から64画素程度の分解能に相当する。注視点データ記録部34は、注視点データ計測部33で計測された注視点の座標値を、画像再生部31による画像コンテンツの再生に同期させて注視点データとして格納部35に記録する。つまり、画像コンテンツに含まれる各フレーム画像が注視点データに対応づけられる。
図4は、注視点データのデータ構成を示す概略図である。同図に示すように、注視点データは、画像コンテンツのフレーム画像のフレーム番号と、そのフレームのタイムコードと、被験者ごとの注視点の座標値とを含む。タイムコードは、画像コンテンツの最初のフレーム画像からカウントした時間情報であり、「時:分:秒.フレーム数」で表される。フレーム番号は、画像コンテンツの最初のフレーム画像を1としてタイムコードの時系列順に1ずつ増加させた番号である。注視点の座標値は、画像表示部32に表示されるフレーム画像の表示領域の左上端の座標を原点として、水平方向画素数W×垂直方向画素数Hのフレーム画像上の2次元座標系で表される。例えば、タイムコードが「0:00:05.00」のとき、被験者1の注視点の座標値は(175,122)、被験者2のそれは(168,145)、・・・、そして被験者Mのそれは(166,260)である。
上記の注視点データ生成処理によって格納部35に格納された注視点データを、画像コンテンツ評価装置1がデータ格納部11に取り込んで使用する。以上が、前処理である注視点データ生成処理についての説明である。
次に、画像コンテンツ評価装置1による画像コンテンツ評価処理を、注視点データ解析処理、画像解析処理、比較処理、およびパラメータ決定処理に分けて動作を説明する。
<注視点データ解析処理>
図5は、注視点データ解析部12が画像コンテンツについての注視点データからフレーム画像ごとの注視点マップデータを生成する手順を示すフローチャートである。ステップS51において、注視点データ解析部12は、データ格納部11に格納された注視点データをフレーム画像単位で参照する。ステップS52において、参照される注視点データがない場合(ステップS52:NO)は、このフローチャートの処理を終了する。一方、注視点データがある場合(ステップS52:YES)はステップS53の処理に進む。そして、ステップS53において、注視点データ解析部12は、参照された1フレーム画像分の全被験者の注視点データを読み込む。
次に、ステップS54において、注視点データ解析部12は、周辺視野を考慮した注視点マップデータを生成する。ここで、注視点マップデータの生成処理について詳細に説明する。眼球運動に関する視覚科学の分野の知見によれば、視線と周辺視野との関係について式(1)の関係式が成立する。ここで、Eは視線方向に対する偏心度、Vfは視線方向における視力、Esは所定の定数、Vは周辺視力値である。
Figure 2011039778
図6は、被験者が表示画面を観察することによって視線を向けた様子と、表示画面上の注視点の座標とを模式的に表した図である。同図(a)は、表示画面61と直交し且つこの画面の中心点を貫く軸の延長上であって、表示画面61から距離Lだけ離れた位置から、被験者が表示画面61上の動画像を観察している様子を示している。あるタイムコードが示す時刻での注視点の座標値が(GX,GY)のとき、被験者の視線は点P(GX,GY)に向けられていることを表す。ここで、被験者の視線に対して偏心度Eの角度となる表示画面61上の座標(X,Y)における視野に注目する。ここで、点Pの周辺視野における視力分布は正円状であると近似することができるため、同図(b)に示すように注視点の座標(GX,GY)を中心とした半径Rの円周上において視力は一定となる。なお、同図において、座標値XおよびYは、それぞれ、1≦X≦W、1≦Y≦Hの範囲内の整数値をとる。ただし、WおよびHは、それぞれ、フレーム画像の水平方向画素数および垂直方向画素数である。
このとき、座標(X,Y)における周辺視力値V[X,Y]は式(1)を変形した式(2)で表される。
Figure 2011039778
なお、ここで、atanは逆正接関数である。また、画面上の任意の画素に対する視線の方向は画面に対してほぼ垂直であるため、偏心度E[X,Y]を算出するためには逆正接関数を用いた近似を行うことができる。視線方向における視力Vfは、被験者ごとに設定してもよいし、共通の設定としてもよい。
図7は、注視点データ解析部12が式(2)の計算によって求めた、視線方向に対する偏心度E[X,Y]における周辺視力値V[X,Y]を示す3次元グラフである。同図は、水平方向画素数W=320画素,垂直方向画素数H=240画素のフレーム画像についての例である。
式(2)の計算により求められる周辺視力値V[X,Y]は、水平方向画素数W×垂直方向画素数Hの要素数の行列データとして表され、被験者の注視点データに基づく視力分布を表す。これを注視点マップデータと呼ぶ。すなわち、フレーム番号fにおける被験者sの注視点マップデータGMs(f)は、式(3)のように表される。
Figure 2011039778
図5に戻り、ステップS54の処理において、注視点データ解析部12は、参照されたフレーム画像についての被験者全員分の注視点マップデータを線形和し、この線形和された注視点マップデータを当該フレーム画像における注視点データ評価指標データとする。すなわち、フレーム番号fのフレーム画像における注視点マップデータGM(f)を、式(4)の計算によって求める。
Figure 2011039778
なお、定数csは、被験者ごとに異なる値としてもよいし一定値(例えば、全ての被験者についてCS=1.0)としてもよい。
図8は、注視点データ解析部12が式(4)の計算によって求めた、注視点マップデータGM(f)の3次元グラフである。同図は、水平方向画素数W=320画素,垂直方向画素数H=240画素のフレーム画像についての例である。
再び、図5に戻り、次に、ステップS55において、注視点データ解析部12は、参照されたフレーム画像における注視点マップデータGM(f)をデータ格納部11に記録する。そして、ステップS51の処理に戻る。
上述したように、注視点データ解析部12は、周辺視野の視力分布を考慮して注視点データ評価指標データを計算することにより、計測された注視点から人間の眼球運動の特性を適応させた評価指標データを作成することができる。これは、すなわち被験者の人数が少ない場合でも、フレーム画像の全画素に対する注視点の集中度を効率よく求めることができる。
なお、注視点データ解析部12は、既存技術によるクラスタリング方法を用いることによって複数の被験者についての注視点の分布をクラスタリングしたうえで、クラスタごとの分布を全て足し合わせて、混合正規分布となる注視点マップデータを求めるようにしてもよい。
<画像解析処理>
顕著性マップデータの生成に際して用いられる視覚属性として、画像解析部13は、例えば、前述したように色(color)、明度(intensity)、方位(orientation)、コントラスト(contrast)、点滅(flicker)、および運動(motion)の6つの属性を用いる。色属性は、画素の色の値を色の属性値としたものである。明度属性は、画素の輝度値を明度の属性値としたものである。方位属性は、例えば、水平方向を基準方位とした場合の0度,45度,90度,135度の4つの方位それぞれの線成分の強さを画素ごとに合計して方位の属性値としたものである。なお、所定方位の線成分の強さは、例えば、その方位の方向の画像微分値と、それに直交する方向の画像微分値との比に基づいて算出する。コントラスト属性は、当該画素を含む領域の画素値とその他の領域の画素値との比により算出されるコントラスト値をコントラストの属性値としたものである。点滅属性は、当該画素を含む領域の時間方向における画素値の変化が所定の周波数成分を有する場合に、その周波数自体およびその周波数成分の振幅に基づいて算出される属性値である。また、運動属性は、フレーム画像内における所定のパターンが、時間の経過につれて所定方向に移動する場合の、そのパターンの大きさとその移動速度とを加味した属性値とするものである。顕著性マップデータの生成に際しては1種類以上の視覚属性に対応する属性値を用いるようにすれば良いが、本実施形態では、上記6種類の属性値を視覚属性に対応する物理的特徴量として用いる。
図9は、画像解析部13が画像コンテンツについての顕著性マップデータを生成する手順を示すフローチャートである。ステップS91において、画像解析部13は、顕著性マップデータを生成するための画像解析用パラメータを設定する。この画像解析用パラメータとは、画像コンテンツの画像解析処理における物理的特徴量に対応する6つの重みデータである。
図10は、画像解析部13が設定する画像解析用パラメータのデータ構成を示したものである。同図に示すように、画像解析用パラメータは、6種類の物理的特徴量にそれぞれ対応する重みデータを有している。wcは色属性に対応する物理的特徴量CCの重みデータ、wiは明度属性に対応する物理的特徴量CIの重みデータ、woは方位属性に対する物理的特徴量COの重みデータ、wrはコントラスト属性に対応する物理的特徴量CRの重みデータ、wjは点滅属性に対応する物理的特徴量CJの重みデータ、wmは運動属性に対応する物理的特徴量CMの重みデータである。
図9に戻り、次に、ステップS92において、画像解析部13は、データ格納部11に格納された画像コンテンツをフレーム画像単位で参照する。ステップS93において、参照されるフレーム画像がない場合(ステップS93:NO)は、このフローチャートの処理を終了する。一方、フレーム画像が参照された場合(ステップS93:YES)はステップS94の処理に進む。ステップS94において、画像解析部13は、参照されたフレーム画像を読み込む。
次に、ステップS95において、画像解析部13は、顕著性マップデータを生成する。画像解析部13は、ステップS91の処理において設定された画像解析用パラメータに基づいて、全ての視覚属性に対応した特徴量に基づき推定した顕著性の分布データを生成する。具体的には、画像解析部13は、読み込んだフレーム画像に対して、6つの視覚属性に関する画像解析処理を行って視覚属性ごとの特徴マップを生成する。そして、画像解析部13は、これら特徴マップの重み付け線形和を計算して顕著性評価指標データである顕著性マップデータを生成する。画像解析部13は、水平方向画素数W×垂直方向画素数Hの画素数のフレーム画像の画素(i,j)に対応する特徴量の重み付け線形和F[i,j]を、下の式(5)を用いて計算する。
Figure 2011039778
そして、フレーム画像全体についての顕著性マップデータSM(f)は、式(6)のように表される。
Figure 2011039778
図11は、参照されたフレーム画像について生成された顕著性マップの3次元グラフの例である。同図は、水平方向画素数W=320画素,垂直方向画素数H=240画素のフレーム画像についての例である。
図9に戻り、次に、ステップS96において、画像解析部13は、参照されたフレーム画像における顕著性マップデータをデータ格納部11に記録する。そして、ステップS92の処理に戻る。
<比較処理>
トップダウン要因の影響を少なくとも低減させた画像コンテンツを用いて、注視点データ評価指標データと顕著性評価指標データとを作成すると、画像内において注視点の集中する領域と顕著性の高い領域とは、少なくとも部分的に重複するか、あるいは近接する。そこで、比較処理部14は、注視点データ評価指標データの分布と、顕著性評価指標データの分布との分布の類似性の指標である一致度を求める。注視点データ評価指標データである注視点マップデータと顕著性評価指標データである顕著性マップデータとの、各マトリクスの値が類似するほど、上記の一致度を示す値は大きくなる。具体的には、比較処理部14は、式(4)で示した注視点マップデータGM(f)と、式(6)で示した顕著性マップデータSM(f)との両データを比較して一致度を計算する。
図12は、比較処理部14が一の画像コンテンツについての注視点マップデータと顕著性マップデータとを比較して一致度を計算する手順を示すフローチャートである。ステップS121において、比較処理部14は、データ格納部11に格納されたある画像コンテンツに含まれる1フレーム画像分の注視点マップデータを参照する。
そして、ステップS121で参照したデータがあったか否かを、次のステップS122において判定する。参照された注視点マップデータがある場合(ステップS122:YES)は次のステップS123の処理に進む。一方、参照すべき注視点マップデータがない場合、即ちその画像コンテンツに含まれる全てのフレーム画像についてのステップS123以下の処理が完了している場合(ステップS122:NO)にはステップS127の処理に進む。
ステップS123において、比較処理部14は、参照されたフレーム画像についての注視点マップデータを読み込む。次に、ステップS124において、比較処理部14は、参照されたフレーム画像についての顕著性マップデータをデータ格納部11から読み込む。次に、ステップS125において、比較処理部14は、それぞれ読み込んだ注視点マップデータおよび顕著性マップデータから一致評価マップデータを計算する。次に、ステップS126において、参照されたフレーム画像における一致度を計算する。そして、ステップS121の処理に戻る。
上記のステップS125およびS126の一致度計算の処理について、具体的な3つの例をあげて説明する。
第1の方法による処理は、注視点マップデータおよび顕著性マップデータの各要素の差分値を求めて一致評価マップデータとするものである。すなわち、比較処理部14は、注視点マップデータGM(f)および顕著性マップデータSM(f)について、マトリクスの位置(i,j)に対応する要素同士の差分の絶対値である一致評価マップデータDM[i,j]を式(7)により計算する。
Figure 2011039778
そして、比較処理部14は、式(7)により算出された一致評価マップデータDM[i,j]と予め決定された閾値とを比較して、この閾値よりも値の小さな差分値DM[i,j]の個数をカウントする。そして、カウント結果である個数を一致度とする。
第2の方法による処理は、注視点マップデータおよび顕著性マップデータの類似性を求めるものである。すなわち、比較処理部14は、注視点マップデータGM(f)と顕著性マップデータSM(f)とのそれぞれからヒストグラムを作成し、そのヒストグラムの要素単位で双方の差分の絶対値を計算して合計した値を一致度とする。このヒストグラムは、注視点マップデータGM(f)および顕著性マップデータSM(f)それぞれの要素が0から1までの値をとり得る場合、例えば、各要素を0.1刻みで10等分し、区分ごとのデータの出現数を計ったものである。
第3の方法による処理は、注視点マップデータおよび顕著性マップデータの要素ごとの積を求めて一致評価マップデータとするものである。すなわち、比較処理部14は、注視点マップデータGM(f)および顕著性マップデータSM(f)について、マトリクスの位置(i,j)に対応する要素同士の積値である一致評価マップデータMM[i,j]を式(8)により計算する。
Figure 2011039778
そして、比較処理部14は、式(8)により算出された一致評価マップデータMM[i,j]と予め決定された閾値とを比較して、この閾値よりも値の大きな積値MM[i,j]の個数をカウントする。そして、カウント結果である個数を一致度とする。
そして、比較処理部14は、ステップS121からS126までの処理を繰り返して、対象の画像コンテンツを構成する全てのフレーム画像についての一致度を計算したのち、ステップS127の処理に進む。ステップS127においては、比較処理部14は、各フレーム画像の一致度に基づいて画像コンテンツ全体の一致度である評価値を計算する。
この評価値の計算方法は次のとおりである。例えば、1つの画像コンテンツを構成する全てのフレーム画像についての一致度の平均値を求めてそれを評価値とする。または、全てのフレーム画像の一致度の時間変化に対する積分値を求めて評価値とする。
次に、ステップS128において、比較処理部14は、計算された評価値をデータ格納部11に記録する。
前述の注視点データ生成処理では、画像コンテンツの再生に同期させて注視点データを計測し、フレーム画像の再生時刻と同時刻に得られた注視点データを記録するようにしている。しかし、人間の目は、生理反応として、ある画像が視野に入ったときから短時間のタイムラグの後に視線を動かすという特性を有している。この特性を考慮し、あるフレーム画像の再生時刻から、そのフレーム画像に対応する注視点データの算出時刻をタイムラグに相当する時間分だけ遅くするようにしてもよい。
つまり、予めこのタイムラグに相当するフレーム数の値を記憶しておき、比較処理では、注視点マップデータと顕著性マップデータとを比較して一致度を計算する際に、顕著性マップデータの生成時刻よりも、当該フレーム数分遅れた注視点マップデータを用いて一致度を算出するようにしてもよい。
なお、顕著性マップの生成時刻に対応する比較対象の注視点マップデータの収集時刻の遅延時間Tdを次のようにして求めることができる。あるタイムコードのフレーム画像とその前後のフレーム画像を解析することによって、フレーム画像内の同一位置の部分領域における物理的特徴の変化が所定の閾値よりも大きい箇所を検出する。このようにして検出されたフレーム画像のタイムコードをT1としたとき、被験者の視線の動きを解析し、タイムコードT1から時間Tbが経過した後の時点においてサッカードを検知すると、そのサッカード後の注視点とそのときのタイムコードT2=T1+Tbを記録する。この場合に、時間Tbを遅延時間Tdとみなすことができる。なお、サッカードとは、視線を移すときに生じる急速な眼球運動のことであり、跳躍性眼球運動ともいう。
<パラメータ決定処理>
画像コンテンツの顕著性マップデータを生成するために用いられる画像解析用パラメータについて、重みデータの組み合わせを最適化するには、例えば最急勾配法などを用いて様々な画像解析用パラメータを用いた計算を行うことにより最適解を探索する方法をとることができる。しかし、単純にこのような方法を用いるだけでは、膨大な計算量と時間がかかることになる。そこで、本実施形態では、パラメータ決定部15が、予め一致度の計算されている学習用動画像コンテンツの注視点マップデータおよび画像解析用パラメータを用いて、評価用パラメータの決定対象である学習用動画像コンテンツ(評価用パラメータ決定対象学習用動画像コンテンツ)の顕著性マップデータを生成するための、最適な画像解析用パラメータを評価用パラメータとして決定する処理を実行する。
データ格納部11は、内部に学習用画像データベース(不図示)を備えている。この学習用画像データベースは、1つまたは複数の学習用動画像コンテンツを格納し、さらにこれら学習用動画像コンテンツそれぞれの注視点マップデータおよび顕著性マップデータと、これら注視点マップデータと顕著性マップデータとの間の一致度のデータと、その顕著性マップデータを算出する際に用いた画像解析用パラメータとを格納している。学習用動画像コンテンツが複数ある場合は、学習用動画像コンテンツごとに画像解析用パラメータの重みデータが異なるようにする。なお、ここで、学習用画像データベースが、上記のデータ項目のうち、学習用動画像コンテンツに対応する顕著性マップデータを保持しない形態でもよい。また、逆に、学習用画像データベースが、上記のデータ項目のうちの一致度のデータを保持しない形態でもよい。このとき、学習用動画像コンテンツの注視点マップデータと顕著性マップデータとから一致度を算出することができ、実質的に、注視点マップデータと顕著性マップデータとのペアは一致度をも表しているデータである。
学習用動画像コンテンツごとの画像解析用パラメータは、6つの重みデータ全てを同一値に設定して重み付けを平等(例えば、wc=wi=wo=wr=wj=wm=1.0)にしておくか、または、学習用動画像コンテンツの注視点マップデータと顕著性マップデータとの一致度が予め決定された基準値よりも高い値となるように調整された重みデータにしておく。
図13は、パラメータ決定部15が、学習用動画像コンテンツに関する注視点マップデータおよび画像解析用パラメータを用いて、学習用画像データベース内の評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータを生成するための最適な画像解析用パラメータ(評価用パラメータ)を決定する手順を示すフローチャートである。
まず、ステップS131において、パラメータ決定部15は、評価用パラメータ決定対象学習用動画像コンテンツについての注視点マップデータをデータ格納部11から読み込む。
次に、ステップS132において、パラメータ決定部15は、データ格納部11に格納された評価用パラメータ決定対象学習用動画像コンテンツを除く、ある学習用動画像コンテンツについての注視点マップデータを参照する。
そして、ステップS132で参照したデータがあったか否かを、次のステップS133において判定する。参照された学習用動画像コンテンツの注視点マップデータがあった場合(ステップS133:YES)は次のステップS134の処理に進む。一方、参照すべき注視点マップデータがない場合、即ちパラメータ決定部15内の学習用動画像コンテンツの全てについてステップS134およびS135の処理が完了している場合(ステップS133:NO)はステップS136に進む。
次に、ステップS134において、パラメータ決定部15は、ステップS133の処理において参照した学習用動画像コンテンツの注視点マップデータをデータ格納部11から読み込む。次に、ステップS135において、パラメータ決定部15は、それぞれ読み込んだ評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータと学習用動画像コンテンツの注視点マップデータとの類似度を計算してステップS132の処理に戻る。
ステップS135の処理における類似度の計算方法については、前述した比較処理部14が実行する比較処理における、注視点マップデータと顕著性マップデータとを比較して一致度を計算する方法と同様の方法を用いる。例えば、パラメータ決定部15は、評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータおよび学習用動画像コンテンツの注視点マップデータの要素ごとの差分値を計算する。そして、その差分値と予め決定された閾値とを比較し、この閾値よりも値の小さな差分値の個数を計測して類似度とする。
ステップS133からステップS136の処理に進んだ後の処理は次の通りである。
ステップS136において、パラメータ決定部15は、類似度の算出された1つまたは複数の学習用動画像コンテンツの注視点マップデータのうち、所定の選択基準によって注視点マップデータを選択する。この所定の選択基準は、例えば、パラメータ決定部15がステップS135において計算した類似度が、予め決定された類似度基準値を超える類似度である注視点マップデータを選択するという基準である。また、類似度の高い方から順に、予め決定された選択数の注視点マップデータを選択するという基準にしてもよい。
次に、ステップS137において、パラメータ決定部15は、選択された学習用動画像コンテンツの注視点マップデータに関連づけられた画像解析用パラメータおよび一致度をデータ格納部11から読み出す。次に、ステップS138において、パラメータ決定部15は、読み出された一致度が複数ある場合は、それらの中で最も数値の高い一致度に対応する画像解析用パラメータを選択して、これを評価用パラメータの初期値に決定する。また、パラメータ決定部15は、読み出された一致度が1つである場合は、その一致度に対応する画像解析用パラメータを評価用パラメータの初期値に決定する。
次に、ステップS139において、パラメータ決定部15は、上で決定された評価用パラメータを初期値として、6つの重みデータを詳細に探索して最適な評価用パラメータを探索する。例えば、パラメータ決定部15は、最急勾配法を用いて詳細に重みデータの最適値を探索する。ここでは、以下の一例を挙げる。パラメータ決定部15は、決定された評価用パラメータを構成する6つの重みデータから1番目の重みデータを選択して値を変化させ、6つの重みデータを画像解析部13に供給する。次に、画像解析部13は、供給された6つの重みデータの評価用パラメータを用いて評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータを計算し、パラメータ決定部15に制御を戻す。次に、パラメータ決定部15は比較処理部14に制御を渡す。比較処理部14は、評価用パラメータ決定対象学習用動画像コンテンツの顕著性マップデータと評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータとの一致度を計算してパラメータ決定部15に制御を戻す。パラメータ決定部15は、上記のようにして重みデータの値を所望の範囲の間で変化させて一致度を計算し、最も一致度が高くなる重みデータを検索する。さらに、パラメータ決定部15は、2番目から6番目の重みデータについても、1番目の重みデータと同様に最も一致度が高くなる重みデータを検索する。
次に、ステップS140において、パラメータ決定部15は、検索された6つの重みデータを評価用パラメータの最適値である最終評価用パラメータとして決定する。次に、ステップS141において、パラメータ決定部15は、最終評価用パラメータをデータ格納部11に記録する。
上記のパラメータ決定処理において、学習用動画像コンテンツのサンプル数が少ない場合や、学習用動画像コンテンツのための画像解析用パラメータの設定パターンが少ない場合に、評価用パラメータ決定対象学習用動画像コンテンツの注視点マップデータと学習用動画像コンテンツの注視点マップデータとの類似度が小さい結果しか得られないことも起こり得る。そのような場合は、学習用動画像コンテンツの顕著性マップデータの生成過程で用いる特徴マップデータを利用して、パラメータの設定パターンを増やすようにする。
具体的には、学習用動画像コンテンツの顕著性マップデータと個々の特徴マップデータとの比較に基づいて、学習用動画像コンテンツの顕著性マップデータに対して影響度の大きな物理的特徴を選定する。次に、その選定された物理的特徴についての重みデータを所望の範囲内で変更ながら一致度を計算する。そして、計算された一致度が最も高くなるパラメータを追加の画像解析用パラメータとして採用する。
また、最終評価用パラメータの画像コンテンツとの適合度は、画像コンテンツごとに異なる。よって、画像コンテンツの用途(放送用、データ配信用等)、使用目的(不特定視聴者用、特定視聴者用等)などに応じて評価基準を変え、最終評価用パラメータを評価基準に応じて複数種類設けるようにしてもよい。
<画像コンテンツの評価>
制作中の画像コンテンツなど、視聴者による視線計測実験が行われていない画像コンテンツには注視点データが存在しない。このような注視点データの存在しない画像コンテンツについて、視聴者の注視点の分布を推定する。図14は、外部から入力した評価対象動画像コンテンツの注視点マップデータを推定する処理についてのフローチャートである。ステップS241において、外部から評価対象動画像コンテンツが画像入力部21に供給されると、画像入力部21はこれを入力してデータ格納部11に格納する。
次に、ステップS242において、類似画像コンテンツ決定部22は、評価対象動画像コンテンツに対して、注視点マップデータ、顕著性マップデータ、および最適化された評価用パラメータが存在する学習用動画像コンテンツ群の中から、類似する学習用動画像コンテンツを類似学習用動画像コンテンツとして決定する。
次に、ステップS243において、注視点マップ推定部23は、決定された類似学習用動画像コンテンツにおける評価用パラメータを参照し、これを評価対象動画像コンテンツに対する顕著性マップデータ算出のための評価用パラメータとして使用して顕著性マップデータを生成する。
つまり、注視点マップ推定部23は、類似画像コンテンツ決定部22によって決定された類似学習用動画像コンテンツを評価対象動画像コンテンツとし、パラメータ決定部15が決定した評価用パラメータに基づき、画像解析部13が評価対象動画像コンテンツの映像解析を行って顕著性マップデータを生成する。
そして、注視点マップ推定部23は、その顕著性マップデータをデータ格納部11に格納する。
次に、ステップS244において、注視点マップ推定部23は、ステップS243の処理によりデータ格納部11に格納された顕著性マップデータを読み出し、これを推定注視点マップデータとして外部に出力する。これにより、評価対象動画像コンテンツについての、視聴者の注視点の分布を推定することができる。
評価対象動画像コンテンツと学習用動画像コンテンツとの類似性の判定方法として、次の2つの例をあげる。
第1の方法は、評価対象動画像コンテンツおよび学習用動画像コンテンツに対して、共通の顕著性マップデータ生成のための評価用パラメータを用いて、1つの視覚属性に関する特徴マップ同士、あるいは、複数の視覚属性に関する特徴マップから得られた顕著性マップデータ同士の類似性を判定する。
第2の方法は、動画像コンテンツの特徴に基づくクラスタリング処理を行い、その結果により動画像コンテンツ間の類似性を判定する。一例としては、文献(帆足啓一郎、外3名、“フレームクラスタリングを利用したCGM動画像コンテンツ検索手法の提案”、電子情報通信学会 パターン認識・メディア理解研究会、pp.87−92,2007年10月)に記載されている、動画像コンテンツの映像解析処理によって動画像間の類似性を判定する処理を適用する。
上記のように推定した注視点の分布を、評価対象動画像コンテンツの再生表示画面に重畳して表示することによって、評価者にとって視覚的に分かりやすい評価結果を提示することができる。
以上述べたように、本実施形態では、視聴者が学習用動画像コンテンツを視聴した際に計測した視線分布とその学習用動画像コンテンツを映像解析して得られる視覚的特性の顕著性マップの一致度を利用して視聴者視線パラメータを取得してデータベース化を行い、評価対象動画像コンテンツに対して類似する学習用動画像コンテンツの視聴者視線パラメータを評価対象動画像コンテンツの画像解析用パラメータとして採用し、評価対象動画像コンテンツを映像解析して視聴者の視線分布を推定することができる。つまり、視線計測実験を行っていない画像コンテンツであっても、他の画像コンテンツの注視点マップデータ、顕著性マップデータ、顕著性マップ生成用パラメータを利用することで、簡単に注視点の分布に関する評価を行うことができる。
以上述べたように、本実施形態では、人間が画像を見たときの注意の向けられやすさの分布を表す顕著性マップを生成する際に、実際の人間による観察行為により得られた視線運動に基づいて求められた注視点の分布との分布の類似性が高くなるように、評価用パラメータを調整するようにした。これにより、本実施形態によれば、人間による主観的な画像評価に近い評価結果を画像の物理的特徴を用いた客観的な評価手法によって簡単に得ることができる。
また、本実施形態では、周辺視野の視力分布を考慮して注視点マップデータを生成するようにしたことにより、被験者の人数が少ない場合でも、フレーム画像の全画素に対する注視点の集中度を効率よく求めることができる。
また、本実施形態では、評価用パラメータ決定対象学習用動画像コンテンツについての最適な最終評価用パラメータを決定するために、既存の学習用動画像コンテンツを用いて、注視点の分布が類似し且つ一致度の高くなる画像解析用パラメータを評価用パラメータの初期値として決定するようにした。そして、その評価用パラメータを用いて、6つの重みデータを変化させながらより適切な顕著性マップが得られるように評価用パラメータを調整して最終評価用パラメータを決定するようにした。これにより、本実施形態によれば、時間的な効率性を向上させながら最適な最終評価用パラメータを求めることができる。
また、本実施形態では、所望の評価対象動画像コンテンツを様々な学習用動画像コンテンツを用いて評価し、最終評価用パラメータを求める実験を繰り返して実施することにより、評価対象動画像コンテンツと、最終評価用パラメータの重みデータの設定パターンとの相関関係を求めることができる。
さらに、予め実験用の評価対象動画像コンテンツを様々な学習用動画像コンテンツを用いて評価して最終評価用パラメータを求める実験を反復実施し、実験用の評価対象動画像コンテンツと、最終評価用パラメータの重みデータの設定パターンとの相関関係を求めておくことが望ましい。これにより、本実施形態による画像コンテンツ評価装置によれば、注視点データを求めるための視線計測実験を行うことなく、客観的な評価材料である画像データの物理的特徴を用いるだけで、画像コンテンツを評価して注視点マップデータを推定することができる。
なお、上述した実施形態である画像コンテンツ評価装置の機能をコンピュータで実現するようにしてもよい。この場合、その制御機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたコンピュータプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、例えば、放送やネットワーク配信に用いられるコンテンツの制作過程における、画像コンテンツの評価に利用することができる。また、同様に、公共施設などで公衆に提示される映像広告に係るコンテンツの制作過程においても、画像コンテンツの評価に利用することができる。
1 画像コンテンツ評価装置
11 データ格納部
12 注視点データ解析部
13 画像解析部
14 比較処理部
15 パラメータ決定部
21 画像入力部
22 類似画像コンテンツ決定部
23 注視点マップ推定部

Claims (3)

  1. 複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、
    前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、
    前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき、対応する画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定するパラメータ決定部と、
    前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、
    前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して、前記パラメータ決定部が決定した前記評価用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部と、
    を具備することを特徴とする動画像コンテンツ評価装置。
  2. 前記複数の学習用動画像コンテンツに対して、視線を計測した結果である注視点の座標値を含む注視点データに基づき、前記学習用動画像コンテンツに含まれる画素に対応した視力分布を示す注視点マップデータを生成する注視点データ解析部をさらに備え、
    前記比較処理部は、前記複数の学習用動画像コンテンツそれぞれに関する前記顕著性マップデータと前記注視点データ解析部が生成した前記注視点マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する
    ことを特徴とする請求項1に記載の動画像コンテンツ評価装置。
  3. コンピュータを、
    複数の学習用動画像コンテンツ及び評価対象動画像コンテンツの各動画像コンテンツに対して、視覚属性に関する画像解析用パラメータを基に映像解析を行い、前記動画像コンテンツに含まれる画素に対応した顕著性分布を示す顕著性マップデータを生成する画像解析部と、
    前記学習用動画像コンテンツに関する視力分布を示す注視点マップデータと前記顕著性マップデータとに基づいて、前記注視点マップデータと前記顕著性マップデータとの間の類似性の指標である一致度を算出する比較処理部と、
    前記画像解析部において前記学習用動画像コンテンツのそれぞれに対して異なる画像解析用パラメータを基に映像解析を行った結果に基づいて前記比較処理部が算出した前記注視点マップデータと前記顕著性マップデータとの間の一致度に基づき、対応する画像解析用パラメータを当該学習用動画像コンテンツの評価用パラメータと決定するパラメータ決定部と、
    前記評価対象動画像コンテンツに類似する学習用動画像コンテンツである類似学習用動画像コンテンツを決定する類似画像コンテンツ決定部と、
    前記類似画像コンテンツ決定部によって決定された前記類似学習用動画像コンテンツに対して、前記パラメータ決定部が決定した前記評価用パラメータに基づき前記画像解析部が前記評価対象動画像コンテンツの映像解析を行って生成した前記顕著性マップデータを、前記評価対象動画像コンテンツの前記視力分布と推定される注視点マップデータとして出力する注視点マップ推定部、
    として機能させるためのコンピュータプログラム。
JP2009186573A 2009-08-11 2009-08-11 動画像コンテンツ評価装置およびコンピュータプログラム Expired - Fee Related JP5306940B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009186573A JP5306940B2 (ja) 2009-08-11 2009-08-11 動画像コンテンツ評価装置およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009186573A JP5306940B2 (ja) 2009-08-11 2009-08-11 動画像コンテンツ評価装置およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2011039778A true JP2011039778A (ja) 2011-02-24
JP5306940B2 JP5306940B2 (ja) 2013-10-02

Family

ID=43767484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009186573A Expired - Fee Related JP5306940B2 (ja) 2009-08-11 2009-08-11 動画像コンテンツ評価装置およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5306940B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013041545A (ja) * 2011-08-19 2013-02-28 Nippon Hoso Kyokai <Nhk> 視線位置推定装置及び視線位置推定プログラム
CN105491370A (zh) * 2015-11-19 2016-04-13 国家新闻出版广电总局广播科学研究院 基于图的协同低高级特征的视频显著性检测方法
WO2016162963A1 (ja) * 2015-04-08 2016-10-13 株式会社日立製作所 画像検索装置、システム及び方法
JP2017028402A (ja) * 2015-07-17 2017-02-02 日本放送協会 映像評価装置、及びプログラム
JP2018082318A (ja) * 2016-11-16 2018-05-24 凸版印刷株式会社 視覚的顕著性マップ生成装置、視覚的顕著性マップ生成方法及びプログラム
JP2019126425A (ja) * 2018-01-22 2019-08-01 日本電信電話株式会社 推定装置、その方法、及びプログラム
JP2020204941A (ja) * 2019-06-18 2020-12-24 凸版印刷株式会社 検出支援装置、検出支援方法、及びプログラム
JP2021027487A (ja) * 2019-08-06 2021-02-22 日本放送協会 映像演出処理装置及びそのプログラム
WO2022097457A1 (ja) * 2020-11-06 2022-05-12 コニカミノルタ株式会社 デザイン評価装置、デザイン評価システム、デザイン評価方法、デザイン評価プログラム、および学習装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009535683A (ja) * 2006-04-28 2009-10-01 トムソン ライセンシング オブジェクト・ベース視覚的注意モデルの顕著性推定

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009535683A (ja) * 2006-04-28 2009-10-01 トムソン ライセンシング オブジェクト・ベース視覚的注意モデルの顕著性推定

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200100782014; 田中 昭二: '画像領域の物理的特徴に基づく誘目度評価モデル' 電子情報通信学会論文誌 第J83-A巻 第5号, 20000525, p.576-588, 社団法人電子情報通信学会 *
CSNG200700526001; 三宅 洋一: '視覚特性に基づく画質評価' 電子情報通信学会論文誌 第J89-A巻 第11号, 20061101, p.858-865, 社団法人電子情報通信学会 *
JPN6012068590; 三宅 洋一: '視覚特性に基づく画質評価' 電子情報通信学会論文誌 第J89-A巻 第11号, 20061101, p.858-865, 社団法人電子情報通信学会 *
JPN6012068591; 田中 昭二: '画像領域の物理的特徴に基づく誘目度評価モデル' 電子情報通信学会論文誌 第J83-A巻 第5号, 20000525, p.576-588, 社団法人電子情報通信学会 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013041545A (ja) * 2011-08-19 2013-02-28 Nippon Hoso Kyokai <Nhk> 視線位置推定装置及び視線位置推定プログラム
US10795928B2 (en) 2015-04-08 2020-10-06 Hitachi, Ltd. Image search apparatus, system, and method
WO2016162963A1 (ja) * 2015-04-08 2016-10-13 株式会社日立製作所 画像検索装置、システム及び方法
JPWO2016162963A1 (ja) * 2015-04-08 2018-01-11 株式会社日立製作所 画像検索装置、システム及び方法
JP2017028402A (ja) * 2015-07-17 2017-02-02 日本放送協会 映像評価装置、及びプログラム
CN105491370A (zh) * 2015-11-19 2016-04-13 国家新闻出版广电总局广播科学研究院 基于图的协同低高级特征的视频显著性检测方法
CN105491370B (zh) * 2015-11-19 2020-09-22 国家新闻出版广电总局广播科学研究院 基于图的协同低高级特征的视频显著性检测方法
JP2018082318A (ja) * 2016-11-16 2018-05-24 凸版印刷株式会社 視覚的顕著性マップ生成装置、視覚的顕著性マップ生成方法及びプログラム
JP2019126425A (ja) * 2018-01-22 2019-08-01 日本電信電話株式会社 推定装置、その方法、及びプログラム
JP2020204941A (ja) * 2019-06-18 2020-12-24 凸版印刷株式会社 検出支援装置、検出支援方法、及びプログラム
JP7476487B2 (ja) 2019-06-18 2024-05-01 Toppanホールディングス株式会社 検出支援装置、検出支援方法、及びプログラム
JP2021027487A (ja) * 2019-08-06 2021-02-22 日本放送協会 映像演出処理装置及びそのプログラム
WO2022097457A1 (ja) * 2020-11-06 2022-05-12 コニカミノルタ株式会社 デザイン評価装置、デザイン評価システム、デザイン評価方法、デザイン評価プログラム、および学習装置

Also Published As

Publication number Publication date
JP5306940B2 (ja) 2013-10-02

Similar Documents

Publication Publication Date Title
JP5306940B2 (ja) 動画像コンテンツ評価装置およびコンピュータプログラム
Sugano et al. Appearance-based gaze estimation using visual saliency
US8551015B2 (en) System and method for evaluating and diagnosing patients based on ocular responses
JP5841538B2 (ja) 関心度推定装置および関心度推定方法
US8636361B2 (en) Learning-based visual attention prediction system and method thereof
Clarke et al. Deriving an appropriate baseline for describing fixation behaviour
JP5771127B2 (ja) 注目度推定装置およびそのプログラム
Foulsham et al. Are fixations in static natural scenes a useful predictor of attention in the real world?
Lavoué et al. Visual attention for rendered 3D shapes
CN111427150B (zh) 用于虚拟现实头戴式显示下的眼动信号处理方法及可穿戴设备
Ma et al. Learning-based saliency model with depth information
Banitalebi-Dehkordi et al. Benchmark three-dimensional eye-tracking dataset for visual saliency prediction on stereoscopic three-dimensional video
Akamine et al. Video quality assessment using visual attention computational models
Cvejic et al. A nonreference image fusion metric based on the regional importance measure
US9924865B2 (en) Apparatus and method for estimating gaze from un-calibrated eye measurement points
TWI478099B (zh) 具學習力之視覺注意預測系統及其方法
Banitalebi-Dehkordi et al. Benchmark 3D eye-tracking dataset for visual saliency prediction on stereoscopic 3D video
EP2685351A1 (en) Method for calibration free gaze tracking using low cost camera
Laco et al. Depth in the visual attention modelling from the egocentric perspective of view
Pflüger et al. Simulating fixations when looking at visual arts
Baluch et al. Mining videos for features that drive attention
EP4213105A1 (en) Gaze estimation system and method thereof
Patrone et al. Dynamical optical flow of saliency maps for predicting visual attention
US20230360079A1 (en) Gaze estimation system and method thereof
Nandakumar et al. A comparative analysis of a neural-based remote eye gaze tracker

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130626

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees