JP2016006478A

JP2016006478A - 顕著度画像生成装置、方法、及びプログラム

Info

Publication number: JP2016006478A
Application number: JP2014265444A
Authority: JP
Inventors: 昭悟木村; Shogo Kimura; 柏野　邦夫; Kunio Kashino; 邦夫柏野; 次郎中島; Jiro Nakajima; 晃宏杉本; Akihiro Sugimoto
Original assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Current assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Priority date: 2014-05-27
Filing date: 2014-12-26
Publication date: 2016-01-14
Anticipated expiration: 2034-12-26
Also published as: JP6318451B2

Abstract

【課題】入力映像を構成する各レームの入力画像及び音響信号を用いて、各フレームの入力画像の各画素位置における顕著度を示す顕著度画像を生成する。
【解決手段】画像基礎顕著度画像算出部１は、入力画像の中で各画素について顕著な特性を持つ度合いを表示した基礎顕著度画像の集合を算出する。音響顕著度信号算出部２は、入力音響信号が顕著な特性を持つ度合いを時刻ごとに示した信号である音響顕著度信号を算出する。画像基礎顕著度選択部３は、画像基礎顕著度画像の集合及び音響顕著度信号に基づいて、音響顕著度が大きな時間区間における主要画像基礎顕著度成分を選択する。画像顕著度画像算出部４は、画像基礎顕著度画像の集合、主要画像基礎顕著度成分及び音響顕著度信号に基づいて、入力画像の各画素位置における顕著度を表示した顕著度画像を算出する。顕著度映像算出部５は、各時刻で算出された顕著度画像を連結した顕著度映像を算出する。
【選択図】図１

Description

本発明は、顕著度画像生成装置、方法、及びプログラムに係り、特に、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する顕著度画像生成装置、方法、及びプログラムに関する。

人間は、視覚的注意と呼ばれるメカニズムにより、網膜に写る映像の中から重要と思われる情報を瞬時に判断して、効率的に情報を獲得している。これら人間の知覚特性を計算機上に模擬するとことで、人間と同様に重要度に応じて情報を能動的に取捨選択する人工的な視覚システムの構築が期待される。

視覚的注意を計算機上に模擬する方法として、視覚的顕著性に基づく方法が一般的である。この視覚的顕著性に基づく方法では、与えられた画像信号の各部分において、人間が注意を向ける度合いである視覚的顕著性を計算し、視覚的顕著性が所定値以上の大きい箇所を注視箇所として予測する方法である。

視覚的顕著性に基づく注視予測方法として、非特許文献1及び2に記載の方法が提案されている。これらの方法はいずれも、Bayesian surpriseと呼ばれる確率的顕著性モデルを採用している。このBayesian surpriseモデルでは、入力される画像信号の時系列に対して、今後発生する可能性の高い視覚刺激を画像空間中の各位置で逐次的に予測し、新しく入力された画像信号に起因する視覚刺激と予測とが一定値以上の大きく乖離した箇所に高い視覚的顕著性を割り当てるモデルである。

L. Itti, P.F. Baldi "A principled approach to detecting surprising events in videos," Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR2005), pp.631-637, 2005. L. Itti, P.F. Baldi "Bayesian surprise attracts human attention," Vision Research, Vol.49, No.10, pp.1295-1306, 2009.

上記非特許文献１、２を含めた数多くの先行技術では、映像を構成する一部の信号、すなわち画像信号しか用いることができないという問題点があった。特に、映像を構成するもう一つの主要成分である音響信号は、注意を引く音がする方向に視線を向けやすい、音の変化と同期した動きをする対象に視線を向けやすい、などの例からもわかるように、人間の注視行動に大きな影響を与えるため、視覚的顕著性の算出に適切に組み込む必要がある。しかし、画像信号と音響信号の双方を利用し、双方の相互作用に着目した視覚的顕著性モデルに関する議論はほとんどなされていない。

本発明は、上記の課題に鑑みてなされたもので、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる顕著度画像生成装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る顕著度画像生成装置は、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする画像基礎顕著度画像抽出部と、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する音響顕著度信号算出部と、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する画像基礎顕著度選択部と、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する画像顕著度画像算出部と、を含んで構成されている。

本発明に係る顕著度画像生成方法は、画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とし、音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成し、画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成し、画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する。

本発明によれば、画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする。

音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する。

画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する。

画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する。

このように、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる。

本発明に係るプログラムは、コンピュータを、上記顕著度画像生成装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明の顕著度画像生成装置、方法、及びプログラムによれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる、という効果が得られる。

本発明の第１の実施の形態に係る顕著度画像生成装置の構成を示す概略図である。主として画像基礎顕著度画像算出部１の構成を示す図である。主として音響顕著度信号算出部２の構成を示す図である。画像基礎顕著度画像抽出部１５及び音響顕著度信号抽出部２２からのデータの流れを示す図である。本発明の第１の実施の形態に係る顕著度画像生成処理プログラムを示すフローチャートである。図５のステップ１Ｓの画像基礎顕著度画像算出処理プログラムを示すフローチャートである。図６のステップ１１Ｓの画像基礎特徴量画像算出処理プログラムを示すフローチャートである。図５のステップ２Ｓの音響顕著度信号算出処理プログラムを示すフローチャートである。本発明の第２の実施の形態に係る注視位置推定装置の構成を示す概略図である。本発明の第２の実施の形態に係る注視位置推定処理プログラムを示すフローチャートである。映像１Ｅに対する評価結果の概要を示す図である。映像１Ｅに対するフレームごとの評価結果を示す図である。映像２Ｅに対する評価結果の概要を示す図である。映像２Ｅに対するフレームごとの評価結果を示す図である。映像３Ｅに対する評価結果の概要を示す図である。映像３Ｅに対するフレームごとの評価結果を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

[概要]
本発明は上記の状況を鑑みてなされたものであり、以下の２点により上記の問題を解決する注視位置推定を実現するものである。
１．音響信号から算出される顕著性が大きな映像区間を検出し、その映像区間における主要な画像信号成分を選択する。これにより、顕著な音響信号と相関の強い画像信号成分を選択的に抽出することが可能となる。
２．画像信号から顕著性を算出する際に、1.で選択された画像信号成分を強調する。これにより、音響信号に起因する視覚的顕著性の算出を行うことが可能となる。

[第１の実施の形態]

以下、本発明の第１の実施形態に係る顕著度画像生成装置について図面を参照して説明する。顕著度画像生成装置は、ＣＰＵと、ＲＡＭと、プログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図１には、第１の実施形態に係る顕著度画像生成装置の構成の概略が示されている。図１に示すように、第１の実施形態に係る顕著度画像生成装置は、入力部１０と、画像基礎顕著度画像算出部１と、音響顕著度信号算出部２と、画像基礎顕著度選択部３と、画像顕著度画像算出部４と、顕著度映像算出部５とで構成されている。顕著度画像生成装置は、入力映像を入力し、入力映像のフレーム内の各位置における顕著度を表示した映像である顕著度映像を出力する。

図２には、主として画像基礎顕著度画像算出部１の構成が示されている。図２に示すように、画像基礎顕著度画像算出部１は、入力部１０により入力された、入力映像のあるフレームである入力画像の中で各画素について顕著な特性を持つ度合いを表示した画像である基礎顕著度画像をいくつか算出し、それら基礎顕著度画像の集合を出力する。

基礎顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、非特許文献１及び２に示す方法を採用する。この方法に従った画像基礎顕著度画像算出部１は、図２に示すように、画像基礎特徴量画像抽出部１１と、画像多重解像度画像抽出部１２と、画像解像度差分画像抽出部１３と、画像時間差分画像抽出部１４と、画像基礎顕著度画像抽出部１５とで構成される。

画像基礎特徴量画像抽出部１１は、入力画像から複数の特徴抽出方法を用いて入力画像の各画素の特徴的な成分を表現する画像基礎特徴画像を抽出し、特徴抽出方法毎の基礎特徴画像からなる集合を、画像多重解像度画像抽出部１２に出力する。画像基礎特徴画像の抽出方法は特に限定されるものではないが、本実施形態においては、図２に示すように、輝度特徴画像抽出部１１１と、色特徴画像抽出部１１２と、方向特徴画像抽出部１１３と、点滅特徴画像抽出部１１４と、運動特徴画像抽出部１１５とによって構成される。詳細には後述するが、画像基礎特徴量画像抽出部１１の特徴抽出方法は、特許文献３（特開2009-003615号）に記載の方法と関連する。

図３には、主として音響顕著度信号算出部２の構成が示されている。音響顕著度信号算出部２は、入力部１０から入力された、入力映像を構成する音響信号である入力音響信号の中で各時刻について顕著な特性を持つ度合いを表示した信号である音響顕著度信号を算出し、この音響顕著度信号を、画像基礎顕著度選択部３及び画像顕著度画像算出部４に出力する。音響顕著度信号の算出方法は特に限定されるものではないが、本実施形態では、Bayesian surpriseモデルを音響信号に適用した非特許文献５に記載の方法を採用する。この方法に従う音響顕著度信号算出部２は、図３に示すように、音響基礎特徴量抽出部２１と、音響顕著度信号抽出部２２とから構成される。

（非特許文献５）Scheuerte and Stiefelhagen "Wow! Bayesian surprise for salient acoustic event detection," Proc. IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP2013), pp.6402-6406, 2013.

図４には、画像基礎顕著度画像抽出部１５及び音響顕著度信号抽出部２２からのデータの流れが示されている。図４に示すように、画像基礎顕著度画像抽出部１５及び音響顕著度信号抽出部２２からのデータはそれぞれ、画像基礎顕著度選択部３及び画像顕著度画像算出部４に入力される。

次に、本発明の第１の実施形態に係る顕著度画像生成装置の作用を説明する。

図５には、本発明の第１の実施の形態に係る顕著度画像生成処理プログラムを示すフローチャートが示されている。顕著度画像生成処理プログラムがスタートすると、ステップ１Ｓで、画像基礎顕著度画像算出部１が、画像基礎顕著度画像算出処理を実行する。図６には、図５のステップ１Ｓの画像基礎顕著度画像算出処理プログラムを示すフローチャートが示されている。図６に示すように、ステップ１１Ｓで、画像基礎特徴量画像抽出部１１が、画像基礎特徴量画像抽出処理を実行する。図７には、図６のステップ１１Ｓの画像基礎特徴量画像算出処理プログラムを示すフローチャートが示されている。

図７に示すように、ステップ１１１Ｓで、輝度特徴画像抽出部１１１が、輝度特徴画像抽出処理を実行する。詳細には次の通りである。即ち、輝度特徴画像抽出部１１１は、入力部１０から入力されたｔ番目の入力画像（＝入力映像のｔ番目のフレーム）の輝度成分を表現する輝度特徴画像を出力する。輝度特徴画像抽出部１１１は、輝度特徴画像i(t)を、入力画像の赤（Ｒ）、緑（Ｇ）、及び青（Ｂ）の成分の平均として、以下のように求める。

ただし、r(t)、g(t)、b(t)はそれぞれｔ番目の入力画像（＝入力映像のｔ番目のフレーム）における赤（Ｒ）、緑（Ｇ）、青（Ｂ）の各成分画像であり、画素値はそれぞれ０以上１以下の実数値で表現されているものとする。別の実施形態として、以下のいずれかの式で輝度特徴画像の各画素値ｉ（ｔ）_ｘを抽出することもできる。

ただし、ｒ(ｔ）_ｘは画素位置ｘにおける画像ｒ(ｔ)の画素値である。

図７のステップ１１２Ｓで、色特徴画像抽出部１１２が、色特徴画像抽出処理を実行する。詳細には次の通りである。

色特徴画像抽出部１１２は、入力部１０から入力されたｔ番目の入力画像の各画素の色成分を表現する色特徴画像を出力する。即ち、色特徴画像抽出部１１２では、赤（Ｒ）、緑（Ｇ）、青（Ｂ）、及び黄（Ｙ）にそれぞれ対応する色特徴画像Ｒ(t)、Ｇ(t)、Ｂ(t)、Ｙ(t)を以下の画素値Ｒ(t)_x、Ｇ(t)_x、Ｂ(t)_x、Ｙ(t)_xから抽出する。例えば、Ｒ(t)_xは位置ｘにおける画像Ｒ(t)の画素値である。

図７のステップ１１３Ｓで、方向特徴画像抽出部１１３が、方向特徴画像抽出処理を実行する。詳細には次の通りである。

方向特徴画像抽出部１１３は、入力部１０から入力されたｔ番目の入力画像の各画素の方向成分を表現する方向特徴画像を出力する。方向特徴画像Ｏ_φ(ｔ)は、現在の入力画像から計算される輝度特徴画像ｉ（ｔ）に、回転角_φを持つガボールフィルタg_φを作用させることによって、以下のように求められる。

ただし、＊は畳み込みを表現する演算子である。方向特徴画像Ｏ_φ(ｔ)は、ｎ_φ通りの回転角について抽出される。このとき、回転角φは例えばπ＝１８０°を均等にｎ_φ分割するように選択される。

図７のステップ１１４Ｓで、点滅特徴画像抽出部１１４が、点滅特徴画像抽出処理を実行する。詳細には次の通りである。点滅特徴画像抽出部１１４は、入力部１０から入力された入力画像の各画素の点滅成分を表現する点滅特徴画像を出力する。点滅特徴画像Ｆ（ｔ）は、現在及びそれ以前のいくつかの入力画像から計算される輝度特徴画像ｉ（ｔ）、・・・、ｉ（ｔ-ｎ_Ｆ）から、以下のように求められる。

ただし、ｎ_Fは点滅特徴画像を抽出する際に参照する過去の輝度特徴画像の数である。ｎ_F=1とすると、非特許文献４に記載の方法と一致する。

（非特許文献４）Itti, Dhavale and Pighin "Realistic avatar eye and head animation using a neurobiological model of visual attention," Proc. SPIE International Symposium on Optical Science and Technology, pp.64-78, 2003.

図７のステップ１１５Ｓで、運動特徴画像抽出部１１５が、運動特徴画像抽出処理を実行する。詳細には次の通りである。

運動特徴画像抽出部１１５は、入力部１０から入力された入力画像の各画素の運動成分を表現する運動特徴画像を出力する。運動特徴画像の抽出方法は特に限定されるものではないが、本実施形態においては、現在及びその１時点（１フレーム前のフレームに対応する時刻）前の入力画像から計算される輝度特徴画像ｉ(ｔ)、ｉ(ｔ−１)の各点におけるオプティカルフローを求めることによって抽出する。オプティカルフローの抽出方法は特に限定されるものではないが、例えば一般にLucas-Kanade法と呼ばれる画像勾配に基づく方法を用いることができ、この方法により、それぞれ運動の水平成分・垂直成分に対応する運動特徴画像Ｍ_ｘ(t)、Ｍ_y(t)を抽出する（詳細な抽出方法は特許文献３を参照）。

別の例として、非特許文献４に記載の方法が挙げられる。すなわち、現在の入力画像から計算される方向特徴画像Ｏ_φ(t)を回転角_φと垂直の方向に１画素分シフトさせた画像をＳ_φ（ｔ）としたとき、運動特徴画像Ｍ_φ(ｔ)は，現在及びその１時点前の入力画像から計算される方向特徴画像Ｏ_φ(ｔ)、Ｏ_φ(ｔ−１)を用いて，以下のように算出される。

ただし、演算子×は画素ごとの積を表すものとする。この実施形態では，運動特徴画像Ｍ_φ(ｔ)がｎ_φ通りの回転角の各々について抽出される。

図２に示すように、画像基礎特徴量画像抽出部１１は、輝度特徴画像、色特徴画像、方向特徴画像、点滅特徴画像、運動特徴画像を、それぞれ画像基礎特徴画像とし、これら画像基礎特徴画像の集合を、画像多重解像度画像抽出部１２に出力する。

上記画像基礎特徴画像の集合を画像多重解像度画像抽出部１２に出力すると、図７のステップ１１５Ｓの運動特徴画像抽出処理が終了する。ステップ１１５Ｓの運動特徴画像抽出処理が終了すると、処理は、図６のステップ１２Ｓに進む。

なお、方向特徴画像抽出部１１３、点滅特徴画像抽出部１１４、及び運動特徴画像抽出部１１５は、輝度特徴画像抽出部１１１から輝度特徴画像が入力されるようにしているが、輝度特徴画像抽出部１１１から輝度特徴画像が入力されずに、方向特徴画像抽出部１１３、点滅特徴画像抽出部１１４、及び運動特徴画像抽出部１１５の各々が輝度特徴画像抽出部１１１の処理と同様の処理を実行して輝度特徴画像を得るようにしてもよい。

図６のステップ１２Ｓで、画像多重解像度画像抽出部１２が、画像多重解像度画像抽出処理を実行する。詳細には次の通りである。

画像多重解像度画像抽出部１２は、上記のように入力された画像基礎特徴画像の集合の各画像基礎特徴画像について、その多重解像度表現である多重解像度画像を抽出し、この多重解像度画像の集合を出力する。

本実施形態において、いずれの基礎特徴画像についても同様の処理を行うため、以下、輝度特徴画像を例に取って、処理を説明し、他の特徴画像の説明を省略する。

輝度特徴画像についての多重解像度表現である輝度多重解像度画像は、輝度特徴画像にガウシアンフィルタを作用させながら縮小させる操作を、解像度レベル毎に繰り返し行うことで抽出される。

ただし、Ｇ_σは分散σを持つガウシアンフィルタ、ｄｏｗｎ()はダウンサンプリングを行う関数、ｉ(ｔ,ｌ)は輝度特徴画像ｉ(ｔ)から抽出した第ｌレベルの輝度多重解像度画像、ｎ_lは多重解像度画像のレベル数である。第０レベルの輝度多重解像度画像は輝度特徴画像そのもの、すなわち、ｉ(ｔ,０)＝ｉ(ｔ)とする。

他の基礎特徴画像についても、同様の方法で多重解像度画像を抽出することができる。このとき、輝度多重解像度画像がｎ_l枚抽出されるのに対して、色多重解像度画像Ｒ(ｔ,ｌ)、Ｇ(ｔ,ｌ)、Ｂ(ｔ,ｌ)、Ｙ(ｔ,ｌ)は合計４ｎ_l枚、方向多重解像度画像Ｏ_φ（ｔ,ｌ)は合計ｎ_φｎ_l枚、点滅多重解像度画像Ｆ(ｔ,ｌ)はｎ_l枚、運動多重解像度画像Ｍ_x(ｔ,ｌ)、Ｍ_y(ｔ,ｌ)は合計２ｎ_l枚もしくはｎ_φｎ_l枚、それぞれ抽出される。

上記の通り、画像多重解像度画像抽出部１２は、輝度多重解像度画像、色多重解像度画像、方向多重解像度画像、点滅多重解像度画像、運動多重解像度画像を、それぞれ多重解像度画像とし、これら多重解像度画像の集合を、画像解像度差分画像抽出部１３に出力する（図２参照）。

図６のステップ１３Ｓで、画像解像度差分画像抽出部１３が、画像解像度差分画像抽出処理を実行する。詳細には次の通りである。

画像解像度差分画像抽出部１３は、上記のように入力された多重解像度画像の各種類（輝度・色など）について、解像度レベルの異なる画像の間の差分画像である解像度差分画像を抽出し、これら解像度差分画像の集合を出力する。

解像度差分画像の抽出方法は特に限定されるものではないが、本実施形態においては、以下のようにして各種類の解像度差分画像を抽出する。

ただし、up()はアップサンプリングを行う関数、Ｌ_c、Ｌ_sは解像度差分画像を抽出する際に考慮する解像度レベルの集合であり、それぞれ中心解像度レベル集合、周辺解像度レベル集合と呼ぶ。また、ＲＳ_I(t;ｌ_c,ｌ_s)は第ｌ_ｃレベルと第ｌ_ｓレベルの輝度多重解像度画像の差分から得られる輝度解像度差分画像であり、以降、(ｌ_c,ｌ_s)レベル輝度解像度差分画像と呼ぶことにする。同様にして、ＲS_RG(t;ｌ_c,ｌ_s)及びＲＳ_BY(t;ｌ_c,ｌ_s)を(ｌ_c,ｌ_s)レベル色解像度差分画像、ＲＳ_Ｏφ（t;ｌ_c,ｌ_s)を(ｌ_c,ｌ_s)レベル方向解像度差分画像、ＲＳ_F(t;ｌ_c,ｌ_s)を(ｌ_c,ｌ_s)レベル点滅解像度差分画像、ＲＳ_Mk(t;ｌ_c,ｌ_s)を(ｌ_c,ｌ_s)レベル運動解像度差分画像と、それぞれ呼ぶ。

上記の通り、画像解像度差分画像抽出部１３は、輝度解像度差分画像、色解像度差分画像、方向解像度差分画像、点滅解像度差分画像、及び運動解像度差分画像をそれぞれ解像度差分画像とし、これら解像度差分画像の集合を、画像時間差分画像抽出部１４に出力する（図２参照）。

図６のステップ１４Ｓで、画像時間差分画像抽出部１４が、画像時間差分画像抽出処理を実行する。詳細には次の通りである。

画像時間差分画像抽出部１４は、入力された解像度差分画像の集合の各解像度差分画像について、当該解像度差分画像の時間的遷移を記録する時間差分画像を抽出し、これら時間差分画像の集合を出力する。

時間差分画像の抽出方法は特に限定されるものではないが、本実施形態においては、解像度差分画像の各画素値がポアソン分布に従うことを仮定した非特許文献１及び２の方法を用いる。

本実施形態においては、いずれの解像度差分画像についても同様の処理を行うため、以下、輝度解像度差分画像を例に取って、処理を説明し、他の解像度差分画像に対する処理の説明を省略する。まず、輝度解像度差分画像ＲＳ_I(ｔ;ｌ_c,ｌ_s)の画素位置ｘの画素値λ_I(ｔ,ｘ)が以下のガンマ分布に従うと仮定する。

ただし、Γ()はガンマ関数、α、βはガンマ分布のパラメータである。また、解像度レベルを示すインデックスｌ_c,ｌ_sは簡単のため省略する。本実施形態では、ガンマ分布のパラメータα、βを画像の各画素位置ｘで保持し、これを輝度時間差分画像の各画素α_I(t,x)、β_I(t,x)とする。このとき、輝度時間差分画像の画素位置ｘの画素値α_I(t,x)、β_I(t,x)は、１時刻前の分布

を事前分布、現在の輝度解像度差分画像の画素位置ｘの画素値λ_Ｉ（ｔ，ｘ）を観測としたときの事後分布

のパラメータとして得ることができ、ベイズ則から以下のように求められる。

また、時間スケールを考慮した別の実施形態も可能である。この実施形態では、輝度時間差分画像の画素位置ｘの画素値を以下のようにして求める。

ただし、ξは忘却係数、ｎ_dは時間差分画像のレベル数である。他の（色・方向・点滅・運動）時間差分画像についても同様にして抽出できる。

上記の通り、画像時間差分画像抽出部１４は、輝度時間差分画像、色時間差分画像、方向時間差分画像、点滅時間差分画像、及び運動時間差分画像をそれぞれ時間差分画像として、これら時間差分画像の集合を、画像基礎顕著度画像抽出部１５に出力する（図２参照）。

図６のステップ１５Ｓで、画像基礎顕著度画像抽出部１５が、画像基礎顕著度画像抽出処理を実行する。詳細には次の通りである。

画像基礎顕著度画像抽出部１５は、上記のように入力された時間差分画像の集合の各時間差分画像について、当該時間差分画像の時間的・空間的特異性に基づいて基礎顕著度画像を抽出し、これら基礎顕著度画像の集合を出力する。

基礎顕著度画像の抽出方法は特に限定されるものではないが、本実施形態においては、非特許文献１及び２に記載のBayesian surpriseモデルに従う。このBayesian surpriseモデルでは、事前分布（１時点前の事後分布）と事後分布のKullback-Leibler divergenceで基礎顕著度を算出する。具体的には、以下のように計算される。

本実施形態では、いずれの時間差分画像に対しても同様の処理を行うので、以降では輝度時間差分画像を例に記載する。本実施形態においては、同じ画素位置に着目して事前分布と事後分布のdivergenceを計算する時間方向の輝度基礎顕著度画像と、周辺の画素位置にも着目してdivergenceを計算する空間方向の輝度基礎顕著度画像とを、個別に計算して、後で統合する。まず、時間方向の輝度基礎顕著度画像の画素位置ｘの画素値を以下のように計算する。

ただし、Ψ(・)はディガンマ関数である。次に、空間方向の輝度基礎顕著度画像の画素位置ｘの画素値を以下のように算出する。

ただし、ＤｏＧ()はDifference-of-Gaussian処理の関数である。最後に、次のように、時間方向の輝度基礎顕著度画像と空間方向の輝度基礎顕著度画像とを組み合わせて、最終的な輝度基礎顕著度画像を構成する。組み合わせる方法は特に限定されるものではないが、本実施形態においては、非特許文献１に記載の組合せをそのまま採用し、以下の式で計算する。

他の（色・方向・点滅・運動）基礎顕著度画像についても同様にして抽出できる。
上記の通り、画像基礎顕著度画像抽出部１５は、輝度基礎顕著度画像、色基礎顕著度画像、方向基礎顕著度画像、点滅基礎顕著度画像、及び運動基礎顕著度画像をそれぞれ基礎顕著度画像として、これら基礎顕著度画像の集合を、画像基礎顕著度選択部３及び画像顕著度画像算出部４に出力する（図２及び図４参照）。これにより、図６のステップ１５Ｓの画像基礎顕著度画像抽出処理が終了する。

ステップ１５Ｓの画像基礎顕著度画像抽出処理が終了すると、処理は、図５のステップ２Ｓに進む。ステップ２Ｓで、音響顕著度信号算出部２は、音響顕著度信号算出処理を実行する。上記のように、音響顕著度信号算出部２は、入力映像を構成する音響信号である入力音響信号が顕著な特性を持つ度合いを各時刻で表示した信号である音響顕著度信号を算出し、この音響顕著度信号を出力する。本実施形態では、上記のように、音響顕著度信号の算出方法として、Bayesian surpriseモデルを音響信号に適用した非特許文献５に記載の方法を採用する。

図８には、非特許文献５に記載の方法に従った、図５のステップ２Ｓの音響顕著度信号算出処理プログラムを示すフローチャートが示されている。

図８のステップ２１Ｓで、音響基礎特徴量抽出部２１が、音響基礎特徴量抽出処理を実行する。詳細には次の通りである。

音響基礎特徴量抽出部２１は、入力音響信号の特性を表現する特徴量である音響基礎特徴量を抽出し、この音響基礎特徴量を出力する。

音響基礎特徴量の抽出方法は特に限定されるものではないが、本実施形態においては、音響信号から時間周波数特性を算出する方法を採用する。すなわち、時刻ｔを中心とする前後窓幅ｔｗの幅を持って切り出された音響信号a(t)から、時間周波数変換を利用して各周波数ωについてスペクトログラムＦ(ｔ,ω)を抽出する。このとき、時間周波数変換として、短時間フーリエ変換 (ＳＴＦＴ)、離散コサイン変換 (ＤＣＴ)、短時間コサイン変換 (ＳＴＣＴ) などを用いることができる。

図８のステップ２２Ｓで、音響顕著度信号抽出部２２が、音響顕著度信号抽出処理を実行する。詳細には次の通りである。

音響顕著度信号抽出部２２は、音響基礎特徴量を入力し、音響信号の中で各時刻について顕著な特性を持つ度合いを示した音響顕著度信号を抽出し、この音響顕著度信号を出力する。

音響顕著度信号の抽出方法は特に限定されるものではないが、本実施形態においては、各時間周波数におけるスペクトログラムがガウス分布もしくはガンマ分布に従って生成されていると仮定したBayesian surpriseモデルを採用する。

スペクトログラムがガウス分布に従って生成されると仮定した場合、時刻ｔ、周波数ωにおけるスペクトログラムＦ(ｔ,ω)の事前分布は、同周波数のスペクトログラムの履歴Ｆ(ｔ−1,ω),・・・,Ｆ(ｔ−Ｎ,ω)を用いて、以下のように表現される。

同様にして、同スペクトログラムの事後分布は、以下のように表現される。

このとき、時刻ｔ、周波数ωの音響顕著度信号Ｓ_A(t,ω)は、事前分布と事後分布のKullback-Leibler divergenceとして、以下のように算出される。

一方、スペクトログラムがガンマ分布に従って生成されると仮定した場合、時刻ｔ、周波数ωにおけるスペクトログラムＦ(ｔ,ω)の事前分布・事後分布は、それぞれ以下のように算出される。

このとき、時刻t、周波数ωの音響顕著度信号Ｓ_A(ｔ,ω)は、事前分布と事後分布のKullback-Leibler divergenceとして、以下のように算出される。

最後に、時刻ｔの音響顕著度信号Ｓ_A(t)を、全周波数ωの音響顕著度信号Ｓ_Ａ（ｔ,ω）の平均として算出する。

上記の通り、音響顕著度信号抽出部２２は、音響顕著度信号を算出し、音響顕著度信号を、画像基礎顕著度選択部３及び画像顕著度画像算出部４に出力する（図４参照）。これにより、図５のステップ２２Ｓの音響顕著度信号抽出処理が終了する。

ステップ２２Ｓの音響顕著度信号抽出処理が終了すると、図５のステップ２Ｓが終了する。なお、ステップ１Ｓの画像基礎顕著度画像算出処理とステップ２Ｓの音響顕著度信号算出処理の順番はこれに限定されず、ステップ２Ｓの処理の後にステップ１Ｓの処理が実行されてもよく、同時に実行されてもよい。

上記例（図５）では、ステップ２Ｓが終了すると、処理は、図５のステップ３Ｓに進む。ステップ３Ｓで、画像基礎顕著度選択部３が、画像基礎顕著度選択処理を実行する。詳細には次の通りである。

画像基礎顕著度選択部３は、上記のように入力された画像基礎顕著度画像の集合及び音響顕著度信号に基づいて、音響顕著度が大きな時間区間における主要な画像基礎顕著度成分を選択もしくは強調し、これを主要画像基礎顕著度成分として出力する。

画像基礎顕著度成分の選択方法は特に限定されるものではないが、本実施形態においては、音響顕著度信号と画像基礎顕著度画像の画素値との単純な相関に基づく方法を採用する。

以降、表記を簡略化するために、時刻ｔにおける基礎顕著度画像各々にインデックスを割り当て、インデックスｊを用いて

と表記する。すなわち、インデックスｊによって、基礎顕著度画像の種別（輝度・色など）や時間スケールの違いをまとめて表現する。

まず、各時刻ｔについて、画素位置ｘごとに、音響顕著度信号Ｓ_A(t)と各画像基礎顕著度画像

との相関を、以下のように計算する。

ただし、ｈ(ｎ,ｔ)は幅Ｎ_w(t)を持つ時刻ｔの時間窓である。時間窓は、矩形窓、ハニング窓、ハミング窓など、任意の時間窓を利用できる。時間窓の幅は、全ての時刻ｔで共通の値を用いる方法、音響顕著度信号によって変動させる方法、などが考えられる。音響顕著度信号によって時間窓の幅を制御する方法として、以下のような方法が考えられる。音響顕著度信号が閾値θ_sを上回る連続時間区間をＴ_S,i(ｉ＝１,２,)とすると、時刻ｔにおける窓幅Ｎ_w(t)は以下のように決定する。

ただし、ｗ_a1＞０、ｗ_b1＞０は予め定められた整数であり、ｗ_b2はＮ_w(t)が奇数になるように１もしくは２に設定される。上記の定義により、音響顕著度信号Ｓ_A(t)が閾値θ_sを上回る時刻ｔにおいてのみ時間窓が設定され、その幅は音響顕著度信号が閾値を上回る連続時間区間の長さに比例して長くなる。各時刻ｔにおいて、相関値

の値が上位ｐ_ｕ％から上位ｐ_ｌ％の間の値を取る画素位置ｘについて当該相関値の平均値を計算し、その値を時刻ｔにおける相関

とする。

続いて、音響顕著度信号Ｓ_Ａ(ｔ)があらかじめ定められた閾値θ_Ｓを上回る各時刻Ｔ_Ｓ＝｛ｔ_s,1,ｔ_s,2・・・}において、相関

があらかじめ定められた閾値θ_ｃを上回る画像基礎顕著度画像のインデックスｊを取り出し、全時刻でインデックスごとに数え上げる。この数え上げの結果は、Ｊ次元の整数ベクトルＨ=（ｈ₁,ｈ₂,・・・,ｈ_J）^Tとして表現できる。すなわち、このベクトルの要素ｈ_ｊは、音響顕著度信号が閾値θ_sを上回った時刻において、インデックスｊを持つ画像基礎顕著度画像が、音響顕著度信号との相関で閾値θ_ｃを上回った回数を示す。

最後に、このベクトルの要素ｈ_jがあらかじめ定められた閾値θ_hよりも大きなインデックスを残し、このインデックスの集合Ｊ_s={ｊ_s,1, ｊ_s,2,・・・}を主要画像基礎顕著度成分として、画像顕著度画像算出部４に出力する。

図５のステップ４Ｓで、画像顕著度画像算出部４が、画像顕著度画像算出処理を実行する。詳細には次の通りである。

画像顕著度画像算出部４は、上記のように入力された画像基礎顕著度画像の集合、主要画像基礎顕著度成分及び必要であれば音響顕著度信号に基づいて、入力画像の各位置における顕著度を表示した画像である顕著度画像を出力する。

顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、主要画像基礎顕著度成分として選択された画像基礎顕著度画像を選択的に用いて顕著度画像を構成する方法を採用する。すなわち、時刻ｔの顕著度画像Ｓ(t)は以下のように算出される。

ただし、θ_s2はあらかじめ定められた閾値、

は指示関数であり、括弧内の条件が満たされたときに１、それ以外の場合に０を返す関数である。すなわち、上式は、音響顕著度信号Ｓ_Ａ(ｔ)が閾値θ_ｓ2を上回る時刻では主要画像基礎顕著度成分として選択された画像基礎顕著度画像のみを用いて顕著度画像を構成し、それ以外の時刻ではすべての画像基礎顕著度画像を用いて顕著度画像を構成することを示している。閾値θ_s2を０に設定すると、すべての時刻において主要画像基礎顕著度成分として選択された画像基礎顕著度画像のみを用いて顕著度画像を構成することと等価となる。

また、別の実施形態として、以下のような方法を実行してもよい。
まず、準備として、基礎顕著度画像

を、特徴種別を表現するインデックスｆ、空間スケールを表現するインデックスσ、及び時間スケールを表現するインデックスｄを用いて、

と書き直す。すなわち、

は、基礎顕著度画像

のインデックスｊを、画像基礎特徴種別ｆ、空間スケールσ、時間スケールｄの3つに分解した表記である。また、空間スケールσのインデックス集合をΣ、時間スケールｄのインデックス集合Ｄとし、主要画像基礎顕著度画像のインデックス集合Ｊ_sに含まれる空間スケールσのインデックス集合をΣ_s、時間スケールｄのインデックス集合Ｄ_Ｓとする。
以上の記号を用いて、時刻ｔの顕著度画像Ｓ(ｔ)は以下のように算出される。

図５のステップ５Ｓで、顕著度映像算出部５が、顕著度映像算出処理を実行する。即ち、顕著度映像算出部５は、各時刻で算出された顕著度画像を連結した時系列画像である顕著度映像を算出し、この顕著度映像を出力する。

なお、顕著度映像算出部５は、顕著度映像に、各時系列に対応する時刻に対応するように入力音響信号を含ませるようにしてもよい。

以上説明したように、第１の実施の形態に係る顕著度画像生成装置によれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる。

また、画像基礎顕著度画像抽出部１５と音響顕著度信号算出部２とは、同一のBayesian surpriseモデル（確率モデル）を用いているので、画像基礎顕著度選択部３は、異なる物理量の相関が物理的に意味をなすようにすることができる。

なお、上記の実施の形態において、画像基礎顕著度選択部３が、後述する第３の実施の形態で説明する方法を用いて、主要画像基礎特徴量成分を生成してもよい。
また、画像顕著度画像算出部４が、後述する第３の実施の形態で説明する方法を用いて、顕著度画像を算出してもよい。

[第２の実施の形態]
次に、第２の実施の形態に係る注視位置推定装置について説明する。なお、第１の実施の形態と同様の構成となる部分には、同一符号を付して説明を省略する。

図９には、第２の実施の形態に係る注視位置推定装置の構成の概略が示されている。図９に示すように、本実施形態の注視位置推定装置は、第１の実施形態の顕著度画像生成装置における入力部１０、画像基礎顕著度画像算出部１、音響顕著度信号算出部２、画像基礎顕著度選択部３、画像顕著度画像算出部４、及び顕著度映像算出部５と、注視位置推定部６とで構成される。本実施形態の注視位置推定装置は、入力部１０により入力された、注視位置推定の対象となる入力映像のフレーム内の各位置における人間の注視位置を推定した結果である推定注視位置を出力する。

次に、第２の実施形態の作用を説明する。第２の実施形態の作用は、第１の実施形態の作用と同様な部分があるので、異なる部分についてのみ説明する。

図１０には、第２の実施の形態に係る注視位置推定処理プログラムを示すフローチャートが示されている。

図１０に示されているように、ステップ５Ｓの顕著度映像算出処理が実行されると、ステップ６Ｓで、注視位置推定部６が、注視位置推定処理を実行する。詳細には次の通りである。

注視位置推定部６は、顕著度映像算出部５により入力された顕著度映像の各フレームである顕著度画像の各位置における人間の注視位置を推定した結果である推定注視位置を出力する。

注視位置の推定方法は特に限定されるものではないが、顕著度画像の画素値が最大となる位置を推定注視位置とする方法、特許文献６（特開2009-259035号公報）などに示される確率的モデルに基づいて注視位置を推定する方法を用いてもよい。

以上説明したように、第２の実施の形態に係る注視位置推定装置によれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて得られた顕著度画像から注視位置を推定することができる。

[第３の実施の形態]

次に、第３の実施の形態に係る注視位置推定装置について説明する。なお、第３の実施の形態に係る注視位置推定装置の構成は、第１の実施の形態と同様となるため、同一符号を付して説明を省略する。

第３の実施の形態に係る注視位置推定装置では、画像基礎顕著度選択部３は、上記のように入力された画像基礎顕著度画像の集合及び音響顕著度信号に基づいて、音響顕著度が大きな時間区間における主要な画像基礎顕著度成分を選択（上記画像信号成分を強調）し、これを主要画像基礎顕著度成分として出力する。

画像基礎顕著度成分の選択方法は特に限定されるものではないが、本実施形態においては、指数平滑法に基づく音響顕著度信号と画像基礎顕著度画像の画素値との相関係数を採用する。

本実施の形態では、指数平滑法と呼ばれる、現時点までに得られている時系列信号から未来の時系列信号を予測する手法を用いる。
指数平滑法では，2つの時系列信号が同時正規分布に従って生成されていると仮定して、時系列信号の予測を行う。2つの時系列信号を

とすると、それぞれの平均値は

と計算され、同様に共分散は

と計算される。ただし、αはあらかじめ定められた定数もしくは時刻tに対して単調に減少する関数の出力とする。これらの統計量を用いることで，2つの時系列信号の相関係数

及び相互情報量

が、以下のように計算される。

この指数平滑法を用いることで、各時刻ｔ、画素ｘにおいて、音響顕著度信号Ｓ_Ａ(ｔ)と各画像基礎顕著度画像

との相関係数

と相互情報量

を計算できる。この相関係数の２乗もしくは相互情報量、もしくはそれを二値化したものが、各特徴種別（インデックスｊ）・各時刻ｔ・各位置ｘの重要度

を表現していると考え、これを主要画像基礎特徴量成分として、出力する。

別の実施形態として、隣接する画素位置での重要度が互いに近い値を取るように、空間的なフィルタリング処理を加える方法が考えられる。

まず、画像基礎顕著度画像

を二値化する。二値化の方法として、例えば、平均画素値を閾値とする方法などが考えられる。次に、二値化した画像基礎顕著度画像

を重要度画像

に掛け合わせ、二値化した画像基礎顕著度画像が非零の画素位置でのみ非零となる重要度画像を得る。これにガウシアンフィルタなどの空間平滑化フィルタをかけ、その結果

を最終的な重要度として採用し、主要画像基礎特徴量成分として出力する。

さらに別の実施形態として、重要度画像

の画素値の平均と分散に応じて重要度を操作する方法も考えられる。この重要度画像に代えて、空間的なフィルタリング処理を加えた重要度画像

を用いても良い。重要度画像

の画素の平均値を

、標準偏差を

とすると、変換後の重要度画像の各画素値

は以下のように計算される。

画像顕著度画像算出部４は、入力された画像基礎顕著度画像の集合、主要画像基礎顕著度成分及び必要であれば音響顕著度信号に基づいて、入力画像の各位置における顕著度を表示した画像である顕著度画像を出力する。

顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、主要画像基礎顕著度成分として選択された画像基礎顕著度画像を選択的に用いて顕著度画像を構成する方法を採用する。本実施形態では、主要画像基礎特徴量成分が各画像基礎顕著度・各時刻・各画素位置の重要度として与えられており、時刻ｔの顕著度画像Ｓ(t)は以下のように算出される。

ここで、βは予め定められた定数とする。上の式はすなわち、音響顕著度信号が0に近いときには第1項が、音響顕著度信号が大きいときには第2項が、それぞれ支配的となることから、音響顕著度信号の大小によって、画像基礎顕著度選択部３の結果を反映させるかどうかを制御することを意味する。β＝０の場合には選択された主要画像基礎特徴量成分を用いずにすべての画像基礎特徴量成分を、β＝∞の場合には選択された主要画像基礎特徴量成分のみを、それぞれ用いる、特殊ケースとなる。

なお、第３の実施の形態に係る注視位置推定装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

[実験結果]

次に、本発明の第１の実施形態の実験結果を説明する。本実験では、入力映像として、長さ３．５〜８．０秒の中の映像１Ｅ〜映像３Ｅの３種類を用意した。各映像の大きさは、映像１Ｅと映像２Ｅが１０２４×５７６ピクセル、映像３Ｅが１２８０×７１０ピクセルである。第１の実施形態の効果を確認するため、第１の実施形態の方法及び既知の方法によって得られる顕著度映像がどの程度人間の視覚特性を模擬できているかを比較した。人間の視覚特性を表現する統計量として、人間が実際に入力映像を視聴している際の注視位置を採用した。１５名の被験者に入力映像を提示し、既存の視線測定装置を用いて各被験者の入力映像中の注視位置を逐次測定した。各被験者に各入力映像をランダムな順序で１回ずつ提示した。これにより、各被験者・各入力映像について、注視位置の時系列を１本獲得した。この注視位置の時系列を、時刻の整合性を保ちながら入力映像の各フレーム（すなわち入力画像）に対応付けることで、各被験者・各入力画像について注視位置を獲得した。

人間の視覚特性の模擬に関する評価尺度として、normalized scan-path saliency(ＮＳＳ)と呼ばれる評価尺度を採用した。これは、被験者の注視位置における顕著度の値を正規化して期待値を取ったものであり、この定義より、ＮＳＳは、被験者の注視位置における顕著度の値が大きいほど大きな値を取る尺度であることが理解される。このＮＳＳは、以下のように算出される。第ｊ番目の入力映像Ｉ_ｊ(j＝１,２,３)の時刻ｔの入力画像ｉ_ｊ（ｔ）(ｔ＝１,２,・・・、Ｔ_ｊについて、評価対象とする顕著度画像Ｓ（ｔ；Ｉ_ｊ)＝｛ｓ(ｘ,ｔ; Ｉ_ｊ)｝_ｘとする。また、入力映像Ｉ_ｊに対応する被験者ｎ (ｎ＝１,２,・・・、Ｎ＝１５) の注視位置系列をＶ_ｎ（Ｉ_ｊ）＝{ｖ_ｎ（ｔ;Ｉ_ｊ）}_ｔとする。このとき、時刻ｔの顕著度画像Ｓ(ｔ;Ｉ_ｊ) の評価値ＮＳＳ(ｔ; Ｉ_ｊ) は以下のように計算される。

ただし、ｓ(t;Ｉ_ｊ)及びσ_S(t;Ｉ_ｊ)は、入力画像Ｉ_ｊから抽出した顕著度画像Ｓ(t;Ｉ_ｊ)のピクセル値ｓ(x,t;Ｉ_ｊ) の平均及び分散を表す。

顕著度映像Ｓ（Ｉ_ｊ)＝{Ｓ（ｔ;Ｉ_ｊ)}_tの評価値ＮＳＳ(Ｉ_ｊ)は、各時刻の顕著度画像Ｓ(t;Ｉ_ｊ)についての評価値を平均することで得られる。

ＮＳＳを評価尺度とした結果の概略を図１１、図１３、及び図１５に、フレームごとの評価結果を図１２、図１４、及び図１６に示す。

図１１、図１３、及び図１５はそれぞれ、映像１Ｅ〜３Ｅに対する評価結果の概要を示す図であり、図１２、図１４、及び図１６はそれぞれ、映像１Ｅ〜３Ｅに対するフレームごとの評価結果を示す図である。

図１１、図１３、及び図１５に示すように、音響顕著度が閾値θ_s以上の時刻のみを評価した場合（上欄）と、すべての時刻を評価した場合（下欄）とのそれぞれにおいて、ＮＳＳの値は、非特許文献１に従う従来手法より、本提案手法（第１の実施形態）の方が大きい。上記のように、ＮＳＳは、被験者の注視位置における顕著度の値が大きいほど大きな値を取る尺度である。よって、図１１、図１３、及び図１５に示す結果から、第１の本実施形態の方法が従来手法よりも良い評価結果を得ていることがわかる。

また、図１１、図１３、及び図１５に示すように、音響顕著度の閾値θ_sが、最適値（optimal）の場合と０の場合では、ＮＳＳの値は大きく異ならない。よって、音響顕著度の高いフレームにおける主要な画像特徴量を強調する第１の実施形態の方法は、音響顕著度が高いフレームだけに限って適用する必要はないことが見て取れる。

図１２、図１４、及び図１６には、各フレーム（Frame；横軸）に対する、ＮＳＳの値（左縦軸）及び音響顕著度（surprise；右縦軸）が示されている。図１２、図１４、及び図１６において、灰色に塗られたフレームは、音響顕著度が閾値以上の時刻に対応するフレームを示す。各フレームに対応する音響顕著度(Auditory surprise)は、実線で示されている。非特許文献１に従う従来手法のＮＳＳの値(Conventional)は、点線で示されている。音響顕著度の閾値θ_sが最適値（optimal）の場合の本提案手法（第１の実施形態）のＮＳＳの値(Surprise frame)は、二点鎖線で示されている。音響顕著度の閾値θ_sが０の場合の本提案手法（第１の実施形態）のＮＳＳの値(All frame)は、一点鎖線で示されている。図１２、図１４、及び図１６に示すように、音響顕著度が閾値以上の時刻に対応するフレームにおけるＮＳＳの値ばかりではなく、音響顕著度が閾値未満の時刻に対応するフレームにおけるＮＳＳの値の多くも一定値以上である。よって、図１２、図１４、及び図１６に示す結果から、選択された画像特徴量を強調する本発明の方法は、音響顕著度が高いフレームだけではなく、音響顕著度が必ずしも高くないフレームの多くに対しても、効果が高いことが見て取れる。

[変形例]
顕著度画像生成装置及び注視位置推定装置の各々の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、顕著度画像生成装置及び注視位置推定装置の各々に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１０入力部
１画像基礎顕著度画像算出部
２音響顕著度信号算出部
３画像基礎顕著度選択部
４画像顕著度画像算出部
５顕著度映像算出部
１１画像基礎特徴量画像抽出部
１２画像多重解像度画像抽出部
１３画像解像度差分画像抽出部
１４画像時間差分画像抽出部
１５画像基礎顕著度画像抽出部
２１音響基礎特徴量抽出部
２２音響顕著度信号抽出部
１１１輝度特徴画像抽出部
１１２色特徴画像抽出部
１１３方向特徴画像抽出部
１１４点滅特徴画像抽出部
１１５運動特徴画像抽出部

人間の視覚特性の模擬に関する評価尺度として、normalized scan-path saliency(ＮＳＳ)と呼ばれる評価尺度を採用した。これは、被験者の注視位置における顕著度の値を正規化して期待値を取ったものであり、この定義より、ＮＳＳは、被験者の注視位置における顕著度の値が大きいほど大きな値を取る尺度であることが理解される。このＮＳＳは、以下のように算出される。第ｊ番目の入力映像Ｉ_ｊ(j＝１,２,３)の時刻ｔの入力画像ｉ_ｊ（ｔ）(ｔ＝１,２,・・・、Ｔ_ｊ )について、評価対象とする顕著度画像Ｓ(ｔ；Ｉ_ｊ)＝｛ｓ(ｘ,ｔ; Ｉ_ｊ)｝_ｘとする。また、入力映像Ｉ_ｊに対応する被験者ｎ (ｎ＝１,２,・・・、Ｎ＝１５) の注視位置系列をＶ_ｎ（Ｉ_ｊ）＝{ｖ_ｎ（ｔ;Ｉ_ｊ）}_ｔとする。このとき、時刻ｔの顕著度画像Ｓ(ｔ;Ｉ_ｊ) の評価値ＮＳＳ(ｔ; Ｉ_ｊ) は以下のように計算される。

ただし、ｓ(t;Ｉ_j)及びσ_S(t;Ｉ_j)は、入力映像I_ｊから抽出した顕著度画像Ｓ(t;Ｉ_j)のピクセル値ｓ(x,t;Ｉ_ｊ) の平均及び分散を表す。

Claims

入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする画像基礎顕著度画像抽出部と、
前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する音響顕著度信号算出部と、
前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する画像基礎顕著度選択部と、
各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する画像顕著度画像算出部と、
を含む顕著度画像生成装置。
前記画像基礎顕著度選択部は、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を示す相関値を算出し、前記複数の特徴種別の各々に対し、前記相関値が閾値を上回る回数を算出し、前記回数が閾値よりも大きくなる前記特徴種別からなる主要画像基礎顕著度成分を生成する請求項１記載の顕著度画像生成装置。
前記画像基礎顕著度選択部は、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を示す統計量を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記統計量に基づいて、前記特徴種別の各々に対する、各時刻及び各画素についての重要度からなる主要画像基礎顕著度成分を生成する請求項１記載の顕著度画像生成装置。
前記画像基礎顕著度画像抽出部は、前記入力映像を構成する各時刻のフレームの入力画像について、前記複数の特徴種別の各々に対し、前記入力画像における各画素の前記特徴種別の特徴量を示す画像基礎特徴画像を生成して、画像基礎特徴画像の集合とし、
前記複数の特徴種別の各々に対し、画像基礎特徴画像の集合に含まれる前記特徴種別に対する前記画像基礎特徴画像について、空間的な顕著な特性を有する度合いを示す空間方向の基礎顕著度画像、及び時間的な顕著な特性を有する度合いを示す時間方向の基礎顕著度画像を生成し、前記生成した前記空間方向の基礎顕著度画像及び前記時間方向の基礎顕著度画像に基づいて、前記基礎顕著度画像を所定の時間間隔で生成し、前記基礎顕著度画像の集合とし、
前記音響顕著度信号算出部は、前記入力映像を構成する音響信号について、各時刻における音響基礎特徴量を抽出し、前記抽出された各時刻における音響基礎特徴量に基づいて、前記画像基礎顕著度画像抽出部で基礎顕著度画像を生成した時刻と同じ各時刻における前記音響顕著度信号を前記所定の時間間隔で生成する請求項１又は２記載の顕著度画像生成装置。
前記画像基礎顕著度画像抽出部は、前記複数の特徴種別の各々に対し、画像基礎特徴画像の集合に含まれる前記特徴種別に対する前記画像基礎特徴画像について、空間的な顕著な特性を有する度合いを示す空間方向の基礎顕著度画像、及び時間的な顕著な特性を有する度合いを示す時間方向の基礎顕著度画像を生成し、前記生成した前記空間方向の基礎顕著度画像、前記時間方向の基礎顕著度画像、及び予め定められた確率モデルに基づいて、前記基礎顕著度画像を生成し、前記基礎顕著度画像の集合とし、
前記音響顕著度信号算出部は、前記入力映像を構成する音響信号について、各時刻における音響基礎特徴量を抽出し、前記抽出された各時刻における音響基礎特徴量、及び前記予め定められた確率モデルに基づいて、各時刻における前記音響顕著度信号を生成する請求項４記載の顕著度画像生成装置。
前記確率モデルを、ガンマ分布とした請求項５記載の顕著度画像生成装置。
画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とし、
音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成し、
画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成し、
画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する
顕著度画像生成方法。
コンピュータを、請求項１〜請求項６の何れか１項記載の顕著度画像生成装置の各部として機能させるためのプログラム。