JP2016006478A - 顕著度画像生成装置、方法、及びプログラム - Google Patents

顕著度画像生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016006478A
JP2016006478A JP2014265444A JP2014265444A JP2016006478A JP 2016006478 A JP2016006478 A JP 2016006478A JP 2014265444 A JP2014265444 A JP 2014265444A JP 2014265444 A JP2014265444 A JP 2014265444A JP 2016006478 A JP2016006478 A JP 2016006478A
Authority
JP
Japan
Prior art keywords
image
saliency
basic
time
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014265444A
Other languages
English (en)
Other versions
JP6318451B2 (ja
Inventor
昭悟 木村
Shogo Kimura
昭悟 木村
柏野 邦夫
Kunio Kashino
邦夫 柏野
次郎 中島
Jiro Nakajima
次郎 中島
晃宏 杉本
Akihiro Sugimoto
晃宏 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014265444A priority Critical patent/JP6318451B2/ja
Publication of JP2016006478A publication Critical patent/JP2016006478A/ja
Application granted granted Critical
Publication of JP6318451B2 publication Critical patent/JP6318451B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【課題】入力映像を構成する各レームの入力画像及び音響信号を用いて、各フレームの入力画像の各画素位置における顕著度を示す顕著度画像を生成する。
【解決手段】画像基礎顕著度画像算出部1は、入力画像の中で各画素について顕著な特性を持つ度合いを表示した基礎顕著度画像の集合を算出する。音響顕著度信号算出部2は、入力音響信号が顕著な特性を持つ度合いを時刻ごとに示した信号である音響顕著度信号を算出する。画像基礎顕著度選択部3は、画像基礎顕著度画像の集合及び音響顕著度信号に基づいて、音響顕著度が大きな時間区間における主要画像基礎顕著度成分を選択する。画像顕著度画像算出部4は、画像基礎顕著度画像の集合、主要画像基礎顕著度成分及び音響顕著度信号に基づいて、入力画像の各画素位置における顕著度を表示した顕著度画像を算出する。顕著度映像算出部5は、各時刻で算出された顕著度画像を連結した顕著度映像を算出する。
【選択図】図1

Description

本発明は、顕著度画像生成装置、方法、及びプログラムに係り、特に、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する顕著度画像生成装置、方法、及びプログラムに関する。
人間は、視覚的注意と呼ばれるメカニズムにより、網膜に写る映像の中から重要と思われる情報を瞬時に判断して、効率的に情報を獲得している。これら人間の知覚特性を計算機上に模擬するとことで、人間と同様に重要度に応じて情報を能動的に取捨選択する人工的な視覚システムの構築が期待される。
視覚的注意を計算機上に模擬する方法として、視覚的顕著性に基づく方法が一般的である。この視覚的顕著性に基づく方法では、与えられた画像信号の各部分において、人間が注意を向ける度合いである視覚的顕著性を計算し、視覚的顕著性が所定値以上の大きい箇所を注視箇所として予測する方法である。
視覚的顕著性に基づく注視予測方法として、非特許文献1及び2に記載の方法が提案されている。これらの方法はいずれも、Bayesian surpriseと呼ばれる確率的顕著性モデルを採用している。このBayesian surpriseモデルでは、入力される画像信号の時系列に対して、今後発生する可能性の高い視覚刺激を画像空間中の各位置で逐次的に予測し、新しく入力された画像信号に起因する視覚刺激と予測とが一定値以上の大きく乖離した箇所に高い視覚的顕著性を割り当てるモデルである。
L. Itti, P.F. Baldi "A principled approach to detecting surprising events in videos," Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR2005), pp.631-637, 2005. L. Itti, P.F. Baldi "Bayesian surprise attracts human attention," Vision Research, Vol.49, No.10, pp.1295-1306, 2009.
上記非特許文献1、2を含めた数多くの先行技術では、映像を構成する一部の信号、すなわち画像信号しか用いることができないという問題点があった。特に、映像を構成するもう一つの主要成分である音響信号は、注意を引く音がする方向に視線を向けやすい、音の変化と同期した動きをする対象に視線を向けやすい、などの例からもわかるように、人間の注視行動に大きな影響を与えるため、視覚的顕著性の算出に適切に組み込む必要がある。しかし、画像信号と音響信号の双方を利用し、双方の相互作用に着目した視覚的顕著性モデルに関する議論はほとんどなされていない。
本発明は、上記の課題に鑑みてなされたもので、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる顕著度画像生成装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る顕著度画像生成装置は、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする画像基礎顕著度画像抽出部と、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する音響顕著度信号算出部と、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する画像基礎顕著度選択部と、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する画像顕著度画像算出部と、を含んで構成されている。
本発明に係る顕著度画像生成方法は、画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とし、音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成し、画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成し、画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する。
本発明によれば、画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする。
音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する。
画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する。
画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する。
このように、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる。
本発明に係るプログラムは、コンピュータを、上記顕著度画像生成装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の顕著度画像生成装置、方法、及びプログラムによれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる、という効果が得られる。
本発明の第1の実施の形態に係る顕著度画像生成装置の構成を示す概略図である。 主として画像基礎顕著度画像算出部1の構成を示す図である。 主として音響顕著度信号算出部2の構成を示す図である。 画像基礎顕著度画像抽出部15及び音響顕著度信号抽出部22からのデータの流れを示す図である。 本発明の第1の実施の形態に係る顕著度画像生成処理プログラムを示すフローチャートである。 図5のステップ1Sの画像基礎顕著度画像算出処理プログラムを示すフローチャートである。 図6のステップ11Sの画像基礎特徴量画像算出処理プログラムを示すフローチャートである。 図5のステップ2Sの音響顕著度信号算出処理プログラムを示すフローチャートである。 本発明の第2の実施の形態に係る注視位置推定装置の構成を示す概略図である。 本発明の第2の実施の形態に係る注視位置推定処理プログラムを示すフローチャートである。 映像1Eに対する評価結果の概要を示す図である。 映像1Eに対するフレームごとの評価結果を示す図である。 映像2Eに対する評価結果の概要を示す図である。 映像2Eに対するフレームごとの評価結果を示す図である。 映像3Eに対する評価結果の概要を示す図である。 映像3Eに対するフレームごとの評価結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
[概要]
本発明は上記の状況を鑑みてなされたものであり、以下の2点により上記の問題を解決する注視位置推定を実現するものである。
1.音響信号から算出される顕著性が大きな映像区間を検出し、その映像区間における主要な画像信号成分を選択する。これにより、顕著な音響信号と相関の強い画像信号成分を選択的に抽出することが可能となる。
2.画像信号から顕著性を算出する際に、1.で選択された画像信号成分を強調する。これにより、音響信号に起因する視覚的顕著性の算出を行うことが可能となる。
[第1の実施の形態]
以下、本発明の第1の実施形態に係る顕著度画像生成装置について図面を参照して説明する。顕著度画像生成装置は、CPUと、RAMと、プログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1には、第1の実施形態に係る顕著度画像生成装置の構成の概略が示されている。図1に示すように、第1の実施形態に係る顕著度画像生成装置は、入力部10と、画像基礎顕著度画像算出部1と、音響顕著度信号算出部2と、画像基礎顕著度選択部3と、画像顕著度画像算出部4と、顕著度映像算出部5とで構成されている。顕著度画像生成装置は、入力映像を入力し、入力映像のフレーム内の各位置における顕著度を表示した映像である顕著度映像を出力する。
図2には、主として画像基礎顕著度画像算出部1の構成が示されている。図2に示すように、画像基礎顕著度画像算出部1は、入力部10により入力された、入力映像のあるフレームである入力画像の中で各画素について顕著な特性を持つ度合いを表示した画像である基礎顕著度画像をいくつか算出し、それら基礎顕著度画像の集合を出力する。
基礎顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、非特許文献1及び2に示す方法を採用する。この方法に従った画像基礎顕著度画像算出部1は、図2に示すように、画像基礎特徴量画像抽出部11と、画像多重解像度画像抽出部12と、画像解像度差分画像抽出部13と、画像時間差分画像抽出部14と、画像基礎顕著度画像抽出部15とで構成される。
画像基礎特徴量画像抽出部11は、入力画像から複数の特徴抽出方法を用いて入力画像の各画素の特徴的な成分を表現する画像基礎特徴画像を抽出し、特徴抽出方法毎の基礎特徴画像からなる集合を、画像多重解像度画像抽出部12に出力する。画像基礎特徴画像の抽出方法は特に限定されるものではないが、本実施形態においては、図2に示すように、輝度特徴画像抽出部111と、色特徴画像抽出部112と、方向特徴画像抽出部113と、点滅特徴画像抽出部114と、運動特徴画像抽出部115とによって構成される。詳細には後述するが、画像基礎特徴量画像抽出部11の特徴抽出方法は、特許文献3(特開2009-003615号)に記載の方法と関連する。
図3には、主として音響顕著度信号算出部2の構成が示されている。音響顕著度信号算出部2は、入力部10から入力された、入力映像を構成する音響信号である入力音響信号の中で各時刻について顕著な特性を持つ度合いを表示した信号である音響顕著度信号を算出し、この音響顕著度信号を、画像基礎顕著度選択部3及び画像顕著度画像算出部4に出力する。音響顕著度信号の算出方法は特に限定されるものではないが、本実施形態では、Bayesian surpriseモデルを音響信号に適用した非特許文献5に記載の方法を採用する。この方法に従う音響顕著度信号算出部2は、図3に示すように、音響基礎特徴量抽出部21と、音響顕著度信号抽出部22とから構成される。
(非特許文献5)Scheuerte and Stiefelhagen "Wow! Bayesian surprise for salient acoustic event detection," Proc. IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP2013), pp.6402-6406, 2013.
図4には、画像基礎顕著度画像抽出部15及び音響顕著度信号抽出部22からのデータの流れが示されている。図4に示すように、画像基礎顕著度画像抽出部15及び音響顕著度信号抽出部22からのデータはそれぞれ、画像基礎顕著度選択部3及び画像顕著度画像算出部4に入力される。
次に、本発明の第1の実施形態に係る顕著度画像生成装置の作用を説明する。
図5には、本発明の第1の実施の形態に係る顕著度画像生成処理プログラムを示すフローチャートが示されている。顕著度画像生成処理プログラムがスタートすると、ステップ1Sで、画像基礎顕著度画像算出部1が、画像基礎顕著度画像算出処理を実行する。図6には、図5のステップ1Sの画像基礎顕著度画像算出処理プログラムを示すフローチャートが示されている。図6に示すように、ステップ11Sで、画像基礎特徴量画像抽出部11が、画像基礎特徴量画像抽出処理を実行する。図7には、図6のステップ11Sの画像基礎特徴量画像算出処理プログラムを示すフローチャートが示されている。
図7に示すように、ステップ111Sで、輝度特徴画像抽出部111が、輝度特徴画像抽出処理を実行する。詳細には次の通りである。即ち、輝度特徴画像抽出部111は、入力部10から入力されたt番目の入力画像(=入力映像のt番目のフレーム)の輝度成分を表現する輝度特徴画像を出力する。輝度特徴画像抽出部111は、輝度特徴画像i(t)を、入力画像の赤(R)、緑(G)、及び青(B)の成分の平均として、以下のように求める。
ただし、r(t)、g(t)、b(t)はそれぞれt番目の入力画像(=入力映像のt番目のフレーム)における赤(R)、緑(G)、青(B)の各成分画像であり、画素値はそれぞれ0以上1以下の実数値で表現されているものとする。別の実施形態として、以下のいずれかの式で輝度特徴画像の各画素値i(t)を抽出することもできる。
ただし、r(t)は画素位置xにおける画像r(t)の画素値である。
図7のステップ112Sで、色特徴画像抽出部112が、色特徴画像抽出処理を実行する。詳細には次の通りである。
色特徴画像抽出部112は、入力部10から入力されたt番目の入力画像の各画素の色成分を表現する色特徴画像を出力する。即ち、色特徴画像抽出部112では、赤(R)、緑(G)、青(B)、及び黄(Y)にそれぞれ対応する色特徴画像R(t)、G(t)、B(t)、Y(t)を以下の画素値R(t)x、G(t)x、B(t)x、Y(t)xから抽出する。例えば、R(t)xは位置xにおける画像R(t)の画素値である。
図7のステップ113Sで、方向特徴画像抽出部113が、方向特徴画像抽出処理を実行する。詳細には次の通りである。
方向特徴画像抽出部113は、入力部10から入力されたt番目の入力画像の各画素の方向成分を表現する方向特徴画像を出力する。方向特徴画像Oφ(t)は、現在の入力画像から計算される輝度特徴画像i(t)に、回転角φを持つガボールフィルタgφを作用させることによって、以下のように求められる。
ただし、*は畳み込みを表現する演算子である。方向特徴画像Oφ(t)は、nφ通りの回転角について抽出される。このとき、回転角φは例えばπ=180°を均等にnφ分割するように選択される。
図7のステップ114Sで、点滅特徴画像抽出部114が、点滅特徴画像抽出処理を実行する。詳細には次の通りである。点滅特徴画像抽出部114は、入力部10から入力された入力画像の各画素の点滅成分を表現する点滅特徴画像を出力する。点滅特徴画像F(t)は、現在及びそれ以前のいくつかの入力画像から計算される輝度特徴画像i(t)、・・・、i(t-n)から、以下のように求められる。
ただし、nFは点滅特徴画像を抽出する際に参照する過去の輝度特徴画像の数である。nF=1とすると、非特許文献4に記載の方法と一致する。
(非特許文献4)Itti, Dhavale and Pighin "Realistic avatar eye and head animation using a neurobiological model of visual attention," Proc. SPIE International Symposium on Optical Science and Technology, pp.64-78, 2003.
図7のステップ115Sで、運動特徴画像抽出部115が、運動特徴画像抽出処理を実行する。詳細には次の通りである。
運動特徴画像抽出部115は、入力部10から入力された入力画像の各画素の運動成分を表現する運動特徴画像を出力する。運動特徴画像の抽出方法は特に限定されるものではないが、本実施形態においては、現在及びその1時点(1フレーム前のフレームに対応する時刻)前の入力画像から計算される輝度特徴画像i(t)、i(t−1)の各点におけるオプティカルフローを求めることによって抽出する。オプティカルフローの抽出方法は特に限定されるものではないが、例えば一般にLucas-Kanade法と呼ばれる画像勾配に基づく方法を用いることができ、この方法により、それぞれ運動の水平成分・垂直成分に対応する運動特徴画像M(t)、My(t)を抽出する(詳細な抽出方法は特許文献3を参照)。
別の例として、非特許文献4に記載の方法が挙げられる。すなわち、現在の入力画像から計算される方向特徴画像Oφ(t)を回転角φと垂直の方向に1画素分シフトさせた画像をSφ(t)としたとき、運動特徴画像Mφ(t)は,現在及びその1時点前の入力画像から計算される方向特徴画像Oφ(t)、Oφ(t−1)を用いて,以下のように算出される。
ただし、演算子×は画素ごとの積を表すものとする。この実施形態では,運動特徴画像Mφ(t)がnφ通りの回転角の各々について抽出される。
図2に示すように、画像基礎特徴量画像抽出部11は、輝度特徴画像、色特徴画像、方向特徴画像、点滅特徴画像、運動特徴画像を、それぞれ画像基礎特徴画像とし、これら画像基礎特徴画像の集合を、画像多重解像度画像抽出部12に出力する。
上記画像基礎特徴画像の集合を画像多重解像度画像抽出部12に出力すると、図7のステップ115Sの運動特徴画像抽出処理が終了する。ステップ115Sの運動特徴画像抽出処理が終了すると、処理は、図6のステップ12Sに進む。
なお、方向特徴画像抽出部113、点滅特徴画像抽出部114、及び運動特徴画像抽出部115は、輝度特徴画像抽出部111から輝度特徴画像が入力されるようにしているが、輝度特徴画像抽出部111から輝度特徴画像が入力されずに、方向特徴画像抽出部113、点滅特徴画像抽出部114、及び運動特徴画像抽出部115の各々が輝度特徴画像抽出部111の処理と同様の処理を実行して輝度特徴画像を得るようにしてもよい。
図6のステップ12Sで、画像多重解像度画像抽出部12が、画像多重解像度画像抽出処理を実行する。詳細には次の通りである。
画像多重解像度画像抽出部12は、上記のように入力された画像基礎特徴画像の集合の各画像基礎特徴画像について、その多重解像度表現である多重解像度画像を抽出し、この多重解像度画像の集合を出力する。
本実施形態において、いずれの基礎特徴画像についても同様の処理を行うため、以下、輝度特徴画像を例に取って、処理を説明し、他の特徴画像の説明を省略する。
輝度特徴画像についての多重解像度表現である輝度多重解像度画像は、輝度特徴画像にガウシアンフィルタを作用させながら縮小させる操作を、解像度レベル毎に繰り返し行うことで抽出される。
ただし、Gσは分散σを持つガウシアンフィルタ、down()はダウンサンプリングを行う関数、i(t,l)は輝度特徴画像i(t)から抽出した第lレベルの輝度多重解像度画像、nlは多重解像度画像のレベル数である。第0レベルの輝度多重解像度画像は輝度特徴画像そのもの、すなわち、i(t,0)=i(t)とする。
他の基礎特徴画像についても、同様の方法で多重解像度画像を抽出することができる。このとき、輝度多重解像度画像がnl枚抽出されるのに対して、色多重解像度画像R(t,l)、 G(t,l)、 B(t,l)、 Y(t,l)は合計4nl枚、方向多重解像度画像Oφ(t,l)は合計nφl枚、点滅多重解像度画像F(t,l)はnl枚、運動多重解像度画像Mx(t,l)、My(t,l)は合計2nl枚もしくはnφl枚、それぞれ抽出される。
上記の通り、画像多重解像度画像抽出部12は、輝度多重解像度画像、色多重解像度画像、方向多重解像度画像、点滅多重解像度画像、運動多重解像度画像を、それぞれ多重解像度画像とし、これら多重解像度画像の集合を、画像解像度差分画像抽出部13に出力する(図2参照)。
図6のステップ13Sで、画像解像度差分画像抽出部13が、画像解像度差分画像抽出処理を実行する。詳細には次の通りである。
画像解像度差分画像抽出部13は、上記のように入力された多重解像度画像の各種類(輝度・色など)について、解像度レベルの異なる画像の間の差分画像である解像度差分画像を抽出し、これら解像度差分画像の集合を出力する。
解像度差分画像の抽出方法は特に限定されるものではないが、本実施形態においては、以下のようにして各種類の解像度差分画像を抽出する。
ただし、up()はアップサンプリングを行う関数、Lc、Lsは解像度差分画像を抽出する際に考慮する解像度レベルの集合であり、それぞれ中心解像度レベル集合、周辺解像度レベル集合と呼ぶ。また、RSI(t;lc,ls)は第lレベルと第lレベルの輝度多重解像度画像の差分から得られる輝度解像度差分画像であり、以降、(lc,ls)レベル輝度解像度差分画像と呼ぶことにする。同様にして、RSRG(t;lc,ls)及びRSBY(t;lc,ls)を(lc,ls)レベル色解像度差分画像、RSOφ(t;lc,ls)を(lc,ls)レベル方向解像度差分画像、RSF(t;lc,ls)を(lc,ls)レベル点滅解像度差分画像、RSMk(t;lc,ls)を(lc,ls)レベル運動解像度差分画像と、それぞれ呼ぶ。
上記の通り、画像解像度差分画像抽出部13は、輝度解像度差分画像、色解像度差分画像、方向解像度差分画像、点滅解像度差分画像、及び運動解像度差分画像をそれぞれ解像度差分画像とし、これら解像度差分画像の集合を、画像時間差分画像抽出部14に出力する(図2参照)。
図6のステップ14Sで、画像時間差分画像抽出部14が、画像時間差分画像抽出処理を実行する。詳細には次の通りである。
画像時間差分画像抽出部14は、入力された解像度差分画像の集合の各解像度差分画像について、当該解像度差分画像の時間的遷移を記録する時間差分画像を抽出し、これら時間差分画像の集合を出力する。
時間差分画像の抽出方法は特に限定されるものではないが、本実施形態においては、解像度差分画像の各画素値がポアソン分布に従うことを仮定した非特許文献1及び2の方法を用いる。
本実施形態においては、いずれの解像度差分画像についても同様の処理を行うため、以下、輝度解像度差分画像を例に取って、処理を説明し、他の解像度差分画像に対する処理の説明を省略する。まず、輝度解像度差分画像RSI(t;lc,ls)の画素位置xの画素値λI(t,x)が以下のガンマ分布に従うと仮定する。
ただし、Γ()はガンマ関数、α、βはガンマ分布のパラメータである。また、解像度レベルを示すインデックスlc,lsは簡単のため省略する。本実施形態では、ガンマ分布のパラメータα、βを画像の各画素位置xで保持し、これを輝度時間差分画像の各画素αI(t,x)、βI(t,x)とする。このとき、輝度時間差分画像の画素位置xの画素値αI(t,x)、βI(t,x)は、1時刻前の分布
を事前分布、現在の輝度解像度差分画像の画素位置xの画素値λ(t,x)を観測としたときの事後分布
のパラメータとして得ることができ、ベイズ則から以下のように求められる。
また、時間スケールを考慮した別の実施形態も可能である。この実施形態では、輝度時間差分画像の画素位置xの画素値を以下のようにして求める。
ただし、ξは忘却係数、ndは時間差分画像のレベル数である。他の(色・方向・点滅・運動)時間差分画像についても同様にして抽出できる。
上記の通り、画像時間差分画像抽出部14は、輝度時間差分画像、色時間差分画像、方向時間差分画像、点滅時間差分画像、及び運動時間差分画像をそれぞれ時間差分画像として、これら時間差分画像の集合を、画像基礎顕著度画像抽出部15に出力する(図2参照)。
図6のステップ15Sで、画像基礎顕著度画像抽出部15が、画像基礎顕著度画像抽出処理を実行する。詳細には次の通りである。
画像基礎顕著度画像抽出部15は、上記のように入力された時間差分画像の集合の各時間差分画像について、当該時間差分画像の時間的・空間的特異性に基づいて基礎顕著度画像を抽出し、これら基礎顕著度画像の集合を出力する。
基礎顕著度画像の抽出方法は特に限定されるものではないが、本実施形態においては、非特許文献1及び2に記載のBayesian surpriseモデルに従う。このBayesian surpriseモデルでは、事前分布(1時点前の事後分布)と事後分布のKullback-Leibler divergenceで基礎顕著度を算出する。具体的には、以下のように計算される。
本実施形態では、いずれの時間差分画像に対しても同様の処理を行うので、以降では輝度時間差分画像を例に記載する。本実施形態においては、同じ画素位置に着目して事前分布と事後分布のdivergenceを計算する時間方向の輝度基礎顕著度画像と、周辺の画素位置にも着目してdivergenceを計算する空間方向の輝度基礎顕著度画像とを、個別に計算して、後で統合する。まず、時間方向の輝度基礎顕著度画像の画素位置xの画素値を以下のように計算する。
ただし、Ψ(・)はディガンマ関数である。次に、空間方向の輝度基礎顕著度画像の画素位置xの画素値を以下のように算出する。
ただし、DoG()はDifference-of-Gaussian処理の関数である。最後に、次のように、時間方向の輝度基礎顕著度画像と空間方向の輝度基礎顕著度画像とを組み合わせて、最終的な輝度基礎顕著度画像を構成する。組み合わせる方法は特に限定されるものではないが、本実施形態においては、非特許文献1に記載の組合せをそのまま採用し、以下の式で計算する。
他の(色・方向・点滅・運動)基礎顕著度画像についても同様にして抽出できる。
上記の通り、画像基礎顕著度画像抽出部15は、輝度基礎顕著度画像、色基礎顕著度画像、方向基礎顕著度画像、点滅基礎顕著度画像、及び運動基礎顕著度画像をそれぞれ基礎顕著度画像として、これら基礎顕著度画像の集合を、画像基礎顕著度選択部3及び画像顕著度画像算出部4に出力する(図2及び図4参照)。これにより、図6のステップ15Sの画像基礎顕著度画像抽出処理が終了する。
ステップ15Sの画像基礎顕著度画像抽出処理が終了すると、処理は、図5のステップ2Sに進む。ステップ2Sで、音響顕著度信号算出部2は、音響顕著度信号算出処理を実行する。上記のように、音響顕著度信号算出部2は、入力映像を構成する音響信号である入力音響信号が顕著な特性を持つ度合いを各時刻で表示した信号である音響顕著度信号を算出し、この音響顕著度信号を出力する。本実施形態では、上記のように、音響顕著度信号の算出方法として、Bayesian surpriseモデルを音響信号に適用した非特許文献5に記載の方法を採用する。
図8には、非特許文献5に記載の方法に従った、図5のステップ2Sの音響顕著度信号算出処理プログラムを示すフローチャートが示されている。
図8のステップ21Sで、音響基礎特徴量抽出部21が、音響基礎特徴量抽出処理を実行する。詳細には次の通りである。
音響基礎特徴量抽出部21は、入力音響信号の特性を表現する特徴量である音響基礎特徴量を抽出し、この音響基礎特徴量を出力する。
音響基礎特徴量の抽出方法は特に限定されるものではないが、本実施形態においては、音響信号から時間周波数特性を算出する方法を採用する。すなわち、時刻tを中心とする前後窓幅twの幅を持って切り出された音響信号a(t)から、時間周波数変換を利用して各周波数ωについてスペクトログラムF(t,ω)を抽出する。このとき、時間周波数変換として、短時間フーリエ変換 (STFT)、離散コサイン変換 (DCT)、短時間コサイン変換 (STCT) などを用いることができる。
図8のステップ22Sで、音響顕著度信号抽出部22が、音響顕著度信号抽出処理を実行する。詳細には次の通りである。
音響顕著度信号抽出部22は、音響基礎特徴量を入力し、音響信号の中で各時刻について顕著な特性を持つ度合いを示した音響顕著度信号を抽出し、この音響顕著度信号を出力する。
音響顕著度信号の抽出方法は特に限定されるものではないが、本実施形態においては、各時間周波数におけるスペクトログラムがガウス分布もしくはガンマ分布に従って生成されていると仮定したBayesian surpriseモデルを採用する。
スペクトログラムがガウス分布に従って生成されると仮定した場合、時刻t、周波数ωにおけるスペクトログラムF(t,ω)の事前分布は、同周波数のスペクトログラムの履歴F(t−1,ω),・・・,F(t−N,ω)を用いて、以下のように表現される。
同様にして、同スペクトログラムの事後分布は、以下のように表現される。
このとき、時刻t、周波数ωの音響顕著度信号SA(t,ω)は、事前分布と事後分布のKullback-Leibler divergenceとして、以下のように算出される。
一方、スペクトログラムがガンマ分布に従って生成されると仮定した場合、時刻t、周波数ωにおけるスペクトログラムF(t,ω)の事前分布・事後分布は、それぞれ以下のように算出される。
このとき、時刻t、周波数ωの音響顕著度信号SA(t,ω)は、事前分布と事後分布のKullback-Leibler divergenceとして、以下のように算出される。
最後に、時刻tの音響顕著度信号SA(t)を、全周波数ωの音響顕著度信号S(t,ω)の平均として算出する。
上記の通り、音響顕著度信号抽出部22は、音響顕著度信号を算出し、音響顕著度信号を、画像基礎顕著度選択部3及び画像顕著度画像算出部4に出力する(図4参照)。これにより、図5のステップ22Sの音響顕著度信号抽出処理が終了する。
ステップ22Sの音響顕著度信号抽出処理が終了すると、図5のステップ2Sが終了する。なお、ステップ1Sの画像基礎顕著度画像算出処理とステップ2Sの音響顕著度信号算出処理の順番はこれに限定されず、ステップ2Sの処理の後にステップ1Sの処理が実行されてもよく、同時に実行されてもよい。
上記例(図5)では、ステップ2Sが終了すると、処理は、図5のステップ3Sに進む。ステップ3Sで、画像基礎顕著度選択部3が、画像基礎顕著度選択処理を実行する。詳細には次の通りである。
画像基礎顕著度選択部3は、上記のように入力された画像基礎顕著度画像の集合及び音響顕著度信号に基づいて、音響顕著度が大きな時間区間における主要な画像基礎顕著度成分を選択もしくは強調し、これを主要画像基礎顕著度成分として出力する。
画像基礎顕著度成分の選択方法は特に限定されるものではないが、本実施形態においては、音響顕著度信号と画像基礎顕著度画像の画素値との単純な相関に基づく方法を採用する。
以降、表記を簡略化するために、時刻tにおける基礎顕著度画像各々にインデックスを割り当て、インデックスjを用いて
と表記する。すなわち、インデックスjによって、基礎顕著度画像の種別(輝度・色など)や時間スケールの違いをまとめて表現する。
まず、各時刻tについて、画素位置xごとに、音響顕著度信号SA(t)と各画像基礎顕著度画像
との相関を、以下のように計算する。
ただし、 h(n,t)は幅Nw(t)を持つ時刻tの時間窓である。時間窓は、矩形窓、ハニング窓、ハミング窓など、任意の時間窓を利用できる。時間窓の幅は、全ての時刻tで共通の値を用いる方法、音響顕著度信号によって変動させる方法、などが考えられる。音響顕著度信号によって時間窓の幅を制御する方法として、以下のような方法が考えられる。音響顕著度信号が閾値θsを上回る連続時間区間をTS,i(i=1,2,)とすると、時刻tにおける窓幅Nw(t)は以下のように決定する。
ただし、wa1>0、wb1>0は予め定められた整数であり、wb2はNw(t)が奇数になるように1もしくは2に設定される。上記の定義により、音響顕著度信号SA(t)が閾値θsを上回る時刻tにおいてのみ時間窓が設定され、その幅は音響顕著度信号が閾値を上回る連続時間区間の長さに比例して長くなる。各時刻tにおいて、相関値
の値が上位p%から上位p%の間の値を取る画素位置xについて当該相関値の平均値を計算し、その値を時刻tにおける相関

とする。
続いて、音響顕著度信号S(t)があらかじめ定められた閾値θを上回る各時刻T={ts,1,ts,2・・・}において、相関
があらかじめ定められた閾値θを上回る画像基礎顕著度画像のインデックスjを取り出し、全時刻でインデックスごとに数え上げる。この数え上げの結果は、J次元の整数ベクトルH=(h1,h2,・・・,hJTとして表現できる。すなわち、このベクトルの要素hは、音響顕著度信号が閾値θsを上回った時刻において、インデックスjを持つ画像基礎顕著度画像が、音響顕著度信号との相関で閾値θを上回った回数を示す。
最後に、このベクトルの要素hjがあらかじめ定められた閾値θhよりも大きなインデックスを残し、このインデックスの集合Js={js,1, js,2,・・・}を主要画像基礎顕著度成分として、画像顕著度画像算出部4に出力する。
図5のステップ4Sで、画像顕著度画像算出部4が、画像顕著度画像算出処理を実行する。詳細には次の通りである。
画像顕著度画像算出部4は、上記のように入力された画像基礎顕著度画像の集合、主要画像基礎顕著度成分及び必要であれば音響顕著度信号に基づいて、入力画像の各位置における顕著度を表示した画像である顕著度画像を出力する。
顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、主要画像基礎顕著度成分として選択された画像基礎顕著度画像を選択的に用いて顕著度画像を構成する方法を採用する。すなわち、時刻tの顕著度画像S(t)は以下のように算出される。
ただし、θs2はあらかじめ定められた閾値、
は指示関数であり、括弧内の条件が満たされたときに1、それ以外の場合に0を返す関数である。すなわち、上式は、音響顕著度信号S(t)が閾値θs2を上回る時刻では主要画像基礎顕著度成分として選択された画像基礎顕著度画像のみを用いて顕著度画像を構成し、それ以外の時刻ではすべての画像基礎顕著度画像を用いて顕著度画像を構成することを示している。閾値θs2を0に設定すると、すべての時刻において主要画像基礎顕著度成分として選択された画像基礎顕著度画像のみを用いて顕著度画像を構成することと等価となる。
また、別の実施形態として、以下のような方法を実行してもよい。
まず、準備として、基礎顕著度画像
を、特徴種別を表現するインデックスf、空間スケールを表現するインデックスσ、及び時間スケールを表現するインデックスdを用いて、
と書き直す。すなわち、
は、基礎顕著度画像
のインデックスjを、画像基礎特徴種別f、空間スケールσ、時間スケールdの3つに分解した表記である。また、空間スケールσのインデックス集合をΣ、時間スケールdのインデックス集合Dとし、主要画像基礎顕著度画像のインデックス集合Jsに含まれる空間スケールσのインデックス集合をΣs、時間スケールdのインデックス集合Dとする。
以上の記号を用いて、時刻tの顕著度画像S(t)は以下のように算出される。
図5のステップ5Sで、顕著度映像算出部5が、顕著度映像算出処理を実行する。即ち、顕著度映像算出部5は、各時刻で算出された顕著度画像を連結した時系列画像である顕著度映像を算出し、この顕著度映像を出力する。
なお、顕著度映像算出部5は、顕著度映像に、各時系列に対応する時刻に対応するように入力音響信号を含ませるようにしてもよい。
以上説明したように、第1の実施の形態に係る顕著度画像生成装置によれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる。
また、画像基礎顕著度画像抽出部15と音響顕著度信号算出部2とは、同一のBayesian surpriseモデル(確率モデル)を用いているので、画像基礎顕著度選択部3は、異なる物理量の相関が物理的に意味をなすようにすることができる。
なお、上記の実施の形態において、画像基礎顕著度選択部3が、後述する第3の実施の形態で説明する方法を用いて、主要画像基礎特徴量成分を生成してもよい。
また、画像顕著度画像算出部4が、後述する第3の実施の形態で説明する方法を用いて、顕著度画像を算出してもよい。
[第2の実施の形態]
次に、第2の実施の形態に係る注視位置推定装置について説明する。なお、第1の実施の形態と同様の構成となる部分には、同一符号を付して説明を省略する。
図9には、第2の実施の形態に係る注視位置推定装置の構成の概略が示されている。図9に示すように、本実施形態の注視位置推定装置は、第1の実施形態の顕著度画像生成装置における入力部10、画像基礎顕著度画像算出部1、音響顕著度信号算出部2、画像基礎顕著度選択部3、画像顕著度画像算出部4、及び顕著度映像算出部5と、注視位置推定部6とで構成される。本実施形態の注視位置推定装置は、入力部10により入力された、注視位置推定の対象となる入力映像のフレーム内の各位置における人間の注視位置を推定した結果である推定注視位置を出力する。
次に、第2の実施形態の作用を説明する。第2の実施形態の作用は、第1の実施形態の作用と同様な部分があるので、異なる部分についてのみ説明する。
図10には、第2の実施の形態に係る注視位置推定処理プログラムを示すフローチャートが示されている。
図10に示されているように、ステップ5Sの顕著度映像算出処理が実行されると、ステップ6Sで、注視位置推定部6が、注視位置推定処理を実行する。詳細には次の通りである。
注視位置推定部6は、顕著度映像算出部5により入力された顕著度映像の各フレームである顕著度画像の各位置における人間の注視位置を推定した結果である推定注視位置を出力する。
注視位置の推定方法は特に限定されるものではないが、顕著度画像の画素値が最大となる位置を推定注視位置とする方法、特許文献6(特開2009-259035号公報)などに示される確率的モデルに基づいて注視位置を推定する方法を用いてもよい。
以上説明したように、第2の実施の形態に係る注視位置推定装置によれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて得られた顕著度画像から注視位置を推定することができる。
[第3の実施の形態]
次に、第3の実施の形態に係る注視位置推定装置について説明する。なお、第3の実施の形態に係る注視位置推定装置の構成は、第1の実施の形態と同様となるため、同一符号を付して説明を省略する。
第3の実施の形態に係る注視位置推定装置では、画像基礎顕著度選択部3は、上記のように入力された画像基礎顕著度画像の集合及び音響顕著度信号に基づいて、音響顕著度が大きな時間区間における主要な画像基礎顕著度成分を選択(上記画像信号成分を強調)し、これを主要画像基礎顕著度成分として出力する。
画像基礎顕著度成分の選択方法は特に限定されるものではないが、本実施形態においては、指数平滑法に基づく音響顕著度信号と画像基礎顕著度画像の画素値との相関係数を採用する。
本実施の形態では、指数平滑法と呼ばれる、現時点までに得られている時系列信号から未来の時系列信号を予測する手法を用いる。
指数平滑法では,2つの時系列信号が同時正規分布に従って生成されていると仮定して、時系列信号の予測を行う。2つの時系列信号を
とすると、それぞれの平均値は
と計算され、同様に共分散は
と計算される。ただし、αはあらかじめ定められた定数もしくは時刻tに対して単調に減少する関数の出力とする。これらの統計量を用いることで,2つの時系列信号の相関係数
及び相互情報量
が、以下のように計算される。
この指数平滑法を用いることで、各時刻t、画素xにおいて、音響顕著度信号S(t)と各画像基礎顕著度画像
との相関係数
と相互情報量
を計算できる。この相関係数の2乗もしくは相互情報量、もしくはそれを二値化したものが、各特徴種別(インデックスj)・各時刻t・各位置xの重要度
を表現していると考え、これを主要画像基礎特徴量成分として、出力する。
別の実施形態として、隣接する画素位置での重要度が互いに近い値を取るように、空間的なフィルタリング処理を加える方法が考えられる。
まず、画像基礎顕著度画像
を二値化する。二値化の方法として、例えば、平均画素値を閾値とする方法などが考えられる。次に、二値化した画像基礎顕著度画像
を重要度画像
に掛け合わせ、二値化した画像基礎顕著度画像が非零の画素位置でのみ非零となる重要度画像を得る。これにガウシアンフィルタなどの空間平滑化フィルタをかけ、その結果
を最終的な重要度として採用し、主要画像基礎特徴量成分として出力する。
さらに別の実施形態として、重要度画像
の画素値の平均と分散に応じて重要度を操作する方法も考えられる。この重要度画像に代えて、空間的なフィルタリング処理を加えた重要度画像
を用いても良い。重要度画像
の画素の平均値を
、標準偏差を
とすると、変換後の重要度画像の各画素値
は以下のように計算される。

画像顕著度画像算出部4は、入力された画像基礎顕著度画像の集合、主要画像基礎顕著度成分及び必要であれば音響顕著度信号に基づいて、入力画像の各位置における顕著度を表示した画像である顕著度画像を出力する。
顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、主要画像基礎顕著度成分として選択された画像基礎顕著度画像を選択的に用いて顕著度画像を構成する方法を採用する。本実施形態では、主要画像基礎特徴量成分が各画像基礎顕著度・各時刻・各画素位置の重要度として与えられており、時刻tの顕著度画像S(t)は以下のように算出される。
ここで、βは予め定められた定数とする。上の式はすなわち、音響顕著度信号が0に近いときには第1項が、音響顕著度信号が大きいときには第2項が、それぞれ支配的となることから、音響顕著度信号の大小によって、画像基礎顕著度選択部3の結果を反映させるかどうかを制御することを意味する。β=0の場合には選択された主要画像基礎特徴量成分を用いずにすべての画像基礎特徴量成分を、β=∞の場合には選択された主要画像基礎特徴量成分のみを、それぞれ用いる、特殊ケースとなる。
なお、第3の実施の形態に係る注視位置推定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
[実験結果]
次に、本発明の第1の実施形態の実験結果を説明する。本実験では、入力映像として、長さ3.5〜8.0秒の中の映像1E〜映像3Eの3種類を用意した。各映像の大きさは、映像1Eと映像2Eが1024×576ピクセル、映像3Eが1280×710ピクセルである。 第1の実施形態の効果を確認するため、第1の実施形態の方法及び既知の方法によって得られる顕著度映像がどの程度人間の視覚特性を模擬できているかを比較した。人間の視覚特性を表現する統計量として、人間が実際に入力映像を視聴している際の注視位置を採用した。15名の被験者に入力映像を提示し、既存の視線測定装置を用いて各被験者の入力映像中の注視位置を逐次測定した。各被験者に各入力映像をランダムな順序で1回ずつ提示した。これにより、各被験者・各入力映像について、注視位置の時系列を1本獲得した。この注視位置の時系列を、時刻の整合性を保ちながら入力映像の各フレーム(すなわち入力画像)に対応付けることで、各被験者・各入力画像について注視位置を獲得した。
人間の視覚特性の模擬に関する評価尺度として、normalized scan-path saliency(NSS)と呼ばれる評価尺度を採用した。これは、被験者の注視位置における顕著度の値を正規化して期待値を取ったものであり、この定義より、NSSは、被験者の注視位置における顕著度の値が大きいほど大きな値を取る尺度であることが理解される。このNSSは、以下のように算出される。第j番目の入力映像I(j=1,2,3)の時刻tの入力画像i(t)(t=1,2,・・・、T について、評価対象とする顕著度画像S(t;I)={s(x,t; I)} とする。また、入力映像Iに対応する被験者n (n=1,2,・・・、N=15) の注視位置系列をV(I)={v(t;I)}とする。このとき、時刻tの顕著度画像S(t;I) の評価値NSS(t; I) は以下のように計算される。
ただし、s(t;I)及びσS(t;I)は、入力画像Iから抽出した顕著度画像S(t;I)のピクセル値s(x,t;I) の平均及び分散を表す。
顕著度映像S(I)={S(t;I)}tの評価値NSS(I)は、各時刻の顕著度画像S(t;I)についての評価値を平均することで得られる。
NSSを評価尺度とした結果の概略を図11、図13、及び図15に、フレームごとの評価結果を図12、図14、及び図16に示す。
図11、図13、及び図15はそれぞれ、映像1E〜3Eに対する評価結果の概要を示す図であり、図12、図14、及び図16はそれぞれ、映像1E〜3Eに対するフレームごとの評価結果を示す図である。
図11、図13、及び図15に示すように、音響顕著度が閾値θs以上の時刻のみを評価した場合(上欄)と、すべての時刻を評価した場合(下欄)とのそれぞれにおいて、NSSの値は、非特許文献1に従う従来手法より、本提案手法(第1の実施形態)の方が大きい。上記のように、NSSは、被験者の注視位置における顕著度の値が大きいほど大きな値を取る尺度である。よって、図11、図13、及び図15に示す結果から、第1の本実施形態の方法が従来手法よりも良い評価結果を得ていることがわかる。
また、図11、図13、及び図15に示すように、音響顕著度の閾値θsが、最適値(optimal)の場合と0の場合では、NSSの値は大きく異ならない。よって、音響顕著度の高いフレームにおける主要な画像特徴量を強調する第1の実施形態の方法は、音響顕著度が高いフレームだけに限って適用する必要はないことが見て取れる。
図12、図14、及び図16には、各フレーム(Frame;横軸)に対する、NSSの値(左縦軸)及び音響顕著度(surprise;右縦軸)が示されている。図12、図14、及び図16において、灰色に塗られたフレームは、音響顕著度が閾値以上の時刻に対応するフレームを示す。各フレームに対応する音響顕著度(Auditory surprise)は、実線で示されている。非特許文献1に従う従来手法のNSSの値(Conventional)は、点線で示されている。音響顕著度の閾値θsが最適値(optimal)の場合の本提案手法(第1の実施形態)のNSSの値(Surprise frame)は、二点鎖線で示されている。音響顕著度の閾値θsが0の場合の本提案手法(第1の実施形態)のNSSの値(All frame)は、一点鎖線で示されている。図12、図14、及び図16に示すように、音響顕著度が閾値以上の時刻に対応するフレームにおけるNSSの値ばかりではなく、音響顕著度が閾値未満の時刻に対応するフレームにおけるNSSの値の多くも一定値以上である。よって、図12、図14、及び図16に示す結果から、選択された画像特徴量を強調する本発明の方法は、音響顕著度が高いフレームだけではなく、音響顕著度が必ずしも高くないフレームの多くに対しても、効果が高いことが見て取れる。
[変形例]
顕著度画像生成装置及び注視位置推定装置の各々の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、顕著度画像生成装置及び注視位置推定装置の各々に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
10 入力部
1 画像基礎顕著度画像算出部
2 音響顕著度信号算出部
3 画像基礎顕著度選択部
4 画像顕著度画像算出部
5 顕著度映像算出部
11 画像基礎特徴量画像抽出部
12 画像多重解像度画像抽出部
13 画像解像度差分画像抽出部
14 画像時間差分画像抽出部
15 画像基礎顕著度画像抽出部
21 音響基礎特徴量抽出部
22 音響顕著度信号抽出部
111 輝度特徴画像抽出部
112 色特徴画像抽出部
113 方向特徴画像抽出部
114 点滅特徴画像抽出部
115 運動特徴画像抽出部
間の視覚特性の模擬に関する評価尺度として、normalized scan-path saliency(NSS)と呼ばれる評価尺度を採用した。これは、被験者の注視位置における顕著度の値を正規化して期待値を取ったものであり、この定義より、NSSは、被験者の注視位置における顕著度の値が大きいほど大きな値を取る尺度であることが理解される。このNSSは、以下のように算出される。第j番目の入力映像I(j=1,2,3)の時刻tの入力画像i(t)(t=1,2,・・・、T )について、評価対象とする顕著度画像S(t;I)={s(x,t; I)} とする。また、入力映像Iに対応する被験者n (n=1,2,・・・、N=15) の注視位置系列をV(I)={v(t;I)}とする。このとき、時刻tの顕著度画像S(t;I) の評価値NSS(t; I) は以下のように計算される。
だし、s(t;Ij)及びσS(t;Ij)は、入力像Iから抽出した顕著度画像S(t;Ij)のピクセル値s(x,t;I) の平均及び分散を表す。

Claims (8)

  1. 入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする画像基礎顕著度画像抽出部と、
    前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する音響顕著度信号算出部と、
    前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する画像基礎顕著度選択部と、
    各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する画像顕著度画像算出部と、
    を含む顕著度画像生成装置。
  2. 前記画像基礎顕著度選択部は、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を示す相関値を算出し、前記複数の特徴種別の各々に対し、前記相関値が閾値を上回る回数を算出し、前記回数が閾値よりも大きくなる前記特徴種別からなる主要画像基礎顕著度成分を生成する請求項1記載の顕著度画像生成装置。
  3. 前記画像基礎顕著度選択部は、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を示す統計量を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記統計量に基づいて、前記特徴種別の各々に対する、各時刻及び各画素についての重要度からなる主要画像基礎顕著度成分を生成する請求項1記載の顕著度画像生成装置。
  4. 前記画像基礎顕著度画像抽出部は、前記入力映像を構成する各時刻のフレームの入力画像について、前記複数の特徴種別の各々に対し、前記入力画像における各画素の前記特徴種別の特徴量を示す画像基礎特徴画像を生成して、画像基礎特徴画像の集合とし、
    前記複数の特徴種別の各々に対し、画像基礎特徴画像の集合に含まれる前記特徴種別に対する前記画像基礎特徴画像について、空間的な顕著な特性を有する度合いを示す空間方向の基礎顕著度画像、及び時間的な顕著な特性を有する度合いを示す時間方向の基礎顕著度画像を生成し、前記生成した前記空間方向の基礎顕著度画像及び前記時間方向の基礎顕著度画像に基づいて、前記基礎顕著度画像を所定の時間間隔で生成し、前記基礎顕著度画像の集合とし、
    前記音響顕著度信号算出部は、前記入力映像を構成する音響信号について、各時刻における音響基礎特徴量を抽出し、前記抽出された各時刻における音響基礎特徴量に基づいて、前記画像基礎顕著度画像抽出部で基礎顕著度画像を生成した時刻と同じ各時刻における前記音響顕著度信号を前記所定の時間間隔で生成する請求項1又は2記載の顕著度画像生成装置。
  5. 前記画像基礎顕著度画像抽出部は、前記複数の特徴種別の各々に対し、画像基礎特徴画像の集合に含まれる前記特徴種別に対する前記画像基礎特徴画像について、空間的な顕著な特性を有する度合いを示す空間方向の基礎顕著度画像、及び時間的な顕著な特性を有する度合いを示す時間方向の基礎顕著度画像を生成し、前記生成した前記空間方向の基礎顕著度画像、前記時間方向の基礎顕著度画像、及び予め定められた確率モデルに基づいて、前記基礎顕著度画像を生成し、前記基礎顕著度画像の集合とし、
    前記音響顕著度信号算出部は、前記入力映像を構成する音響信号について、各時刻における音響基礎特徴量を抽出し、前記抽出された各時刻における音響基礎特徴量、及び前記予め定められた確率モデルに基づいて、各時刻における前記音響顕著度信号を生成する請求項4記載の顕著度画像生成装置。
  6. 前記確率モデルを、ガンマ分布とした請求項5記載の顕著度画像生成装置。
  7. 画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とし、
    音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成し、
    画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成し、
    画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する
    顕著度画像生成方法。
  8. コンピュータを、請求項1〜請求項6の何れか1項記載の顕著度画像生成装置の各部として機能させるためのプログラム。
JP2014265444A 2014-05-27 2014-12-26 顕著度画像生成装置、方法、及びプログラム Active JP6318451B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014265444A JP6318451B2 (ja) 2014-05-27 2014-12-26 顕著度画像生成装置、方法、及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014109094 2014-05-27
JP2014109094 2014-05-27
JP2014265444A JP6318451B2 (ja) 2014-05-27 2014-12-26 顕著度画像生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016006478A true JP2016006478A (ja) 2016-01-14
JP6318451B2 JP6318451B2 (ja) 2018-05-09

Family

ID=55224951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014265444A Active JP6318451B2 (ja) 2014-05-27 2014-12-26 顕著度画像生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6318451B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032577A (ja) * 2017-08-04 2019-02-28 Kddi株式会社 注視領域推定装置及びプログラム
CN109447136A (zh) * 2018-10-15 2019-03-08 方玉明 一种对于360度图像的显著性检测方法
WO2020121382A1 (ja) * 2018-12-10 2020-06-18 オリンパス株式会社 情報処理装置、情報処理方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003615A (ja) * 2007-06-20 2009-01-08 Nippon Telegr & Teleph Corp <Ntt> 注目領域抽出方法、注目領域抽出装置、コンピュータプログラム、及び、記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003615A (ja) * 2007-06-20 2009-01-08 Nippon Telegr & Teleph Corp <Ntt> 注目領域抽出方法、注目領域抽出装置、コンピュータプログラム、及び、記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
B. SCHAUERTE ET AL.: ""WOW! BAYESIAN SURPRISE FOR SALIENT ACOUSTIC EVENT DETECTION"", PROC. ICASSP2013, JPN6018008309, 26 May 2013 (2013-05-26), pages 6402 - 6406, ISSN: 0003754067 *
中島次郎 他: ""音声信号を考慮した視覚的顕著性マップモデルの構築"", 情報処理学会研究報告, vol. Vol.2013-CVIM-187,No.18, JPN6018008305, 23 May 2013 (2013-05-23), pages 1 - 8, ISSN: 0003754065 *
劉玉宇 他: ""音と映像の相関を用いた画像分割による話者領域の切り出し"", 情報処理学会論文誌 コンピュータビジョンとイメージメディア, vol. 1, no. 2, JPN6018008307, 15 November 2008 (2008-11-15), pages 32 - 40, ISSN: 0003754066 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032577A (ja) * 2017-08-04 2019-02-28 Kddi株式会社 注視領域推定装置及びプログラム
CN109447136A (zh) * 2018-10-15 2019-03-08 方玉明 一种对于360度图像的显著性检测方法
WO2020121382A1 (ja) * 2018-12-10 2020-06-18 オリンパス株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2020121382A1 (ja) * 2018-12-10 2021-10-21 オリンパス株式会社 情報処理装置、情報処理方法、及びプログラム
JP7171985B2 (ja) 2018-12-10 2022-11-16 株式会社エビデント 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP6318451B2 (ja) 2018-05-09

Similar Documents

Publication Publication Date Title
US11113842B2 (en) Method and apparatus with gaze estimation
CN110599421B (zh) 模型训练方法、视频模糊帧转换方法、设备及存储介质
JP2021521993A5 (ja)
CN110073369B (zh) 时间差分模型的无监督学习技术
JP6045396B2 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
KR20180105876A (ko) 색상과 형태를 동시에 고려한 실시간 영상 추적 방법 및 이를 위한 장치
CN108229262B (zh) 一种色情视频检测方法及装置
GB2581048A (en) Artificially intelligent ejection fraction determination
JP2019526869A5 (ja)
JP2013542046A5 (ja)
JP6318451B2 (ja) 顕著度画像生成装置、方法、及びプログラム
CN110287848A (zh) 视频的生成方法及装置
CN110517249A (zh) 超声弹性图像的成像方法、装置、设备及介质
Kim et al. Deep objective assessment model based on spatio-temporal perception of 360-degree video for VR sickness prediction
JP5718494B1 (ja) 印象推定装置、その方法、及びプログラム
WO2017158999A1 (ja) 関心度推定装置、関心度推定方法、プログラムおよび記録媒体
JP2019028939A (ja) 推定方法及び推定装置
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
EP4343680A1 (en) De-noising data
JP5025713B2 (ja) 属性識別装置、および属性識別プログラム
Nieto et al. How video object tracking is affected by in-capture distortions?
Dimas et al. MedGaze: Gaze estimation on WCE images based on a CNN autoencoder
JP4750758B2 (ja) 注目領域抽出方法、注目領域抽出装置、コンピュータプログラム、及び、記録媒体
KR20220116928A (ko) 라벨링 방법 및 이를 위한 컴퓨팅 장치
JP2020182680A5 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180316

R150 Certificate of patent or registration of utility model

Ref document number: 6318451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350