JP2010257344A - 視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体 - Google Patents

視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2010257344A
JP2010257344A JP2009108468A JP2009108468A JP2010257344A JP 2010257344 A JP2010257344 A JP 2010257344A JP 2009108468 A JP2009108468 A JP 2009108468A JP 2009108468 A JP2009108468 A JP 2009108468A JP 2010257344 A JP2010257344 A JP 2010257344A
Authority
JP
Japan
Prior art keywords
line
basic attention
image
probability density
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009108468A
Other languages
English (en)
Inventor
Shogo Kimura
昭悟 木村
Hirokazu Kameoka
弘和 亀岡
Junji Yamato
淳司 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009108468A priority Critical patent/JP2010257344A/ja
Publication of JP2010257344A publication Critical patent/JP2010257344A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】正確、かつ、高速に視線位置の推定をすることができる視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体を提供する。
【解決手段】入力映像のフレームである入力画像の中で顕著な特性を持つ空間領域を表示した基礎注目度画像を算出する過程と、現在の入力画像の各位置における顕著性を確率的な表現を用いて表示した確率的基礎注目度画像を、基礎注目度画像と、前回の確率的基礎注目度画像と、逐次更新される確率的基礎注目度母数とに基づいて算出する過程と、現在の入力画像における視線位置確率密度映像のフレームである視線位置確率密度画像を、確率的基礎注目度画像と、前回の視線位置確率密度画像と、逐次更新される視線位置確率密度母数とに基づいて算出する過程と、上述の各過程によって算出される時系列の視線位置確率密度画像を視線位置確率密度映像として出力する過程と、を有する。
【選択図】図1

Description

本発明は、映像に基づいて視線位置を推定する視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体に関する。
人間は、視覚的注意と呼ばれるメカニズムにより、網膜に写る映像の中から重要と思われる情報を瞬時に判断して、効率的に情報を獲得している。これら人間の視覚特性を計算機上で模擬することで、人間と同様に重要度に応じて情報を能動的に取捨選択する人工的な視覚システムの構築が期待される。
人間の視覚特性に基づいた視覚的注意の情報を計算機上に模擬する方法として、非特許文献1及び2に記載の方法などの技術が考案されている。非特許文献1及び2で開示されている方法は、人間の視覚的注意を確率的挙動としてモデル化し、入力された映像の各時刻・各位置について、人間が視線を向ける確率を映像のみから推定する技術である。
また、視覚特性に基づく視覚的注意の計算モデルに関して、非特許文献3に記載の方法などいくつかの方法が提案されている。非特許文献3に記載されている方法では、画像・映像の各時刻・各位置について、人間にとって重要と感じられる度合を注目度として数値化し、前記注目度の大きい順に視覚的注意が向けられる(すなわち、視線が向けられる)位置が決定されることを仮定している。
また、特許文献1には、視覚的注意の情報を注目度の時間的変動を考慮して算出する具体的な方法が開示されている。
特開2009−3615号公報
Derek Pang, Akisato Kimura, Tatsuto Takeuchi, Junji Yamato and Kunio Kashino,"A stochastic model of selective visual attention with a dynamic Bayesian network," Proc. International Conference on Multimedia and Expo (ICME2008), pp.1073-1076, Hannover, Germany, June 2008. Akisato Kimura, Derek Pang, Tatsuto Takeuchi, Junji Yamato and Kunio Kashino,"Dynamic Markov random fields for stochastic modeling of visual attention," Proc. International Conference on Pattern Recognition (ICPR2008), Mo.BT8.35, Tampa, Florida, USA, December 2008. L. Itti et al. "A model of saliency-based visual attention for rapid scene analysis," in IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 20, Number 11, pp.1254-1259,November 1998.
しかしながら、非特許文献1及び2で開示されている方法は、予めモデルのパラメータを学習しておく必要がある。また、モデルのパラメータを学習する際に用いられる映像は、一般に入力される映像とは異なっており、入力された映像の統計的性質も異なることが想定される。この映像の統計的性質の違いに対応するために、数多くの映像を入力して学習することもできるが、入力する映像の量に応じて学習に要する計算(処理)時間も増加してしまうという問題がある。
また、非特許文献1及び2で開示されている方法は、視線位置推定そのものに要する処理時間も長いという問題がある。例えば、視線位置推定の全体の処理において、映像1フレーム当たり0.8秒から1.0秒の処理時間を要する。
また、同一の映像を視聴したとしても、人によって視線が向く位置や順序が異なることが自然であり、例え同一人物であったとしても、視線が向く位置や順序が常に一定となるとは考えにくい。しかしながら、非特許文献3に記載の方法では、ある映像を視聴したときに視線が向けられる位置が前記注目度の大きい順に決定され、その位置や順序が常に一定となるため、正確な視線位置推定が難しいという問題点がある。
本発明は、上記の課題認識に基づいてなされたものであり、入力された映像に対して確率密度のサンプル表現及びその表現を用いることによって、正確、かつ、高速に視線位置の推定をすることができる視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体を提供することを目的としている。
上記の課題を解決するため、本発明の視線位置推定方法は、ある与えられた映像である入力映像に基づいて、該入力映像のフレーム内の各位置において人間が視線を向ける確率を示す映像である視線位置確率密度映像を算出する視線位置推定方法において、前記入力映像のフレームである入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出過程と、現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出過程によって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出過程によって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出過程と、現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出過程によって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出過程と、前記基礎注目度画像抽出過程と、前記確率的基礎注目度画像抽出過程と、前記視線位置確率密度画像抽出過程とを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力過程と、を有し、前記視線位置確率密度画像抽出過程は、視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出過程によって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新過程によって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新過程と、視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新過程によって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新過程と、それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前記代表視線位置更新過程によって更新された代表視線位置集合と、前記視線移動状態変数更新過程から出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出過程と、前記代表視線位置更新過程によって更新された代表視線位置集合と、代表視線位置重み係数算出過程によって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力過程と、を有し、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する、ことを特徴とする。
また、本発明の視線位置推定方法は、前記基礎注目度画像抽出過程によって算出された基礎注目度画像と、前回の前記入力画像から前記確率的基礎注目度画像抽出過程によって算出された前記確率的基礎注目度画像と、前記確率的基礎注目度母数とに基づいて、前記確率的基礎注目度母数を逐次推定し、推定した結果に基づいて次回の視線位置推定に用いる確率的基礎注目度母数を更新する確率的基礎注目度母数逐次推定過程、を更に有し、前記確率的基礎注目度画像抽出過程は、前記基礎注目度画像抽出過程によって算出された基礎注目度画像と、前回の前記入力画像から前記確率的基礎注目度画像抽出過程によって算出された前記確率的基礎注目度画像と、前記確率的基礎注目度母数逐次推定過程によって更新された確率的基礎注目度母数に基づいて確率的基礎注目度画像を算出し、前記視線位置確率密度映像出力過程は、前記基礎注目度画像抽出過程と、前記確率的基礎注目度画像抽出過程と、前記確率的基礎注目度母数逐次推定過程と、前記視線位置確率密度画像抽出過程とを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する、ことを特徴とする。
また、本発明の前記視線位置確率密度画像抽出過程は、更に、前記代表視線位置更新過程によって更新された代表視線位置集合、もしくは前記代表視線位置集合に加えて前記視線移動状態変数更新過程から出力された視線移動状態変数集合を、代表視線位置重み係数算出過程によって算出された代表視線位置重み係数集合が示す重み配分に基づいて、前記視線位置確率密度画像を再構成する代表視線位置集合再構成過程、を有することを特徴とする。
また、本発明の視線位置推定方法は、ある与えられた映像である学習映像、もしくは前記学習映像と、前記学習映像を実際に人間が視聴したときに測定した視線位置の時系列である視線位置系列とに基づいて、予め定められた基準において最適となる確率的基礎注目度母数を推定した推定確率的基礎注目度母数を算出する確率的基礎注目度母数推定過程と、前記学習映像及び前記視線位置系列、もしくは前記学習映像と前記視線位置系列と、前記確率的基礎注目度母数推定過程によって算出された推定確率的基礎注目度母数を事前に与えられた前記確率的基礎注目度母数として用いることによって、予め定められた基準において最適となる視線位置確率密度母数を、前記学習映像から抽出された確率的基礎注目度画像に基づいて推定した推定視線位置確率密度母数を算出する視線位置確率密度母数推定過程と、を更に有し、前記確率的基礎注目度画像抽出過程は、前記確率的基礎注目度母数推定過程が推定した推定確率的基礎注目度母数を前記確率的基礎注目度母数に替えた、もしくは前記確率的基礎注目度母数に前記推定確率的基礎注目度母数を加えた確率的基礎注目度母数に基づいて、前記確率的基礎注目度画像を算出し、前記視線位置確率密度画像抽出過程は、前記視線位置確率密度母数推定過程が推定した推定視線位置確率密度母数を前記視線位置確率密度母数に替えた、もしくは前記視線位置確率密度母数に前記推定視線位置確率密度母数を加えた視線位置確率密度母数に基づいて、前記視線位置確率密度画像を算出する、ことを特徴とする。
また、本発明の前記確率的基礎注目度母数推定過程は、前記学習映像のフレームである学習画像に基づいて、該学習画像の中で顕著な特性を持つ空間領域の算出を順に繰り返して行うことにより、時系列の基礎注目度画像を基礎注目度映像として算出する学習用基礎注目度映像抽出過程と、前記推定確率的基礎注目度母数の初期値を設定する初期推定確率的基礎注目度母数設定過程と、前記学習用基礎注目度映像抽出過程によって算出された基礎注目度映像と、現在の前記推定確率的基礎注目度母数とに基づいて、予め定められた基準において最適となるように推定された時系列の確率的基礎注目度画像を推定確率的基礎注目度映像として算出する確率的基礎注目度推定過程と、前記学習用基礎注目度映像抽出過程によって算出された基礎注目度映像と、前記確率的基礎注目度推定過程によって算出された推定確率的基礎注目度映像とに基づいて、予め定められた基準において最適となるように前記推定確率的基礎注目度母数の初期値または現在の前記推定確率的基礎注目度母数を更新する推定確率的基礎注目度母数更新過程と、前記確率的基礎注目度推定過程と、前記推定確率的基礎注目度母数更新過程とを、予め定められた基準を満たすまで繰り返し行うことにより前記推定確率的基礎注目度母数を確定する推定確率的基礎注目度母数確定過程と、を有することを特徴とする。
また、本発明の前記視線位置確率密度母数推定過程は、前記推定視線位置確率密度母数の初期値を設定する初期推定視線位置確率密度母数設定過程と、前記学習映像、前記視線位置系列、及び現在の前記推定視線位置確率密度母数に基づいて、予め定められた基準において最適となるように推定された時系列の視線移動状態変数を推定視線移動状態変数系列、もしくは推定視線移動状態変数系列の確率密度である推定視線移動状態変数確率密度系列を算出する視線移動状態変数推定過程と、前記学習映像、前記視線位置系列、及び視線移動状態変数推定過程によって算出された前記推定視線移動状態変数系列もしくは前記推定視線移動状態変数確率密度系列に基づいて、予め定められた基準において最適となるように前記推定視線位置確率密度母数を更新する推定視線位置確率密度母数更新過程と、前記視線移動状態変数推定過程と、前記推定視線位置確率密度母数更新過程とを、予め定められた基準を満たすまで繰り返し行うことにより前記推定視線位置確率密度母数を確定する推定視線位置確率密度母数確定過程と、を有することを特徴とする。
また、本発明の視線位置推定装置は、ある与えられた映像である入力映像に基づいて、該入力映像のフレーム内の各位置において人間が視線を向ける確率を示す映像である視線位置確率密度映像を算出する視線位置推定装置において、前記入力映像のフレームである入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出部と、現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出部によって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出部によって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出部と、現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出部によって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出部と、前記基礎注目度画像抽出部と、前記確率的基礎注目度画像抽出部と、前記視線位置確率密度画像抽出部とによる処理を、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力部と、を備え、前記視線位置確率密度画像抽出部は、視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出部によって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新部によって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新部と、視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新部によって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新部と、それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前記代表視線位置更新部によって更新された代表視線位置集合と、前記視線移動状態変数更新部から出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出部と、前記代表視線位置更新部によって更新された代表視線位置集合と、代表視線位置重み係数算出部によって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力部と、を備え、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する、ことを特徴とする。
また、本発明の視線位置推定装置は、前記基礎注目度画像抽出部によって算出された基礎注目度画像と、前回の前記入力画像から前記確率的基礎注目度画像抽出部によって算出された前記確率的基礎注目度画像と、前記確率的基礎注目度母数とに基づいて、前記確率的基礎注目度母数を逐次推定し、推定した結果に基づいて次回の視線位置推定に用いる確率的基礎注目度母数を更新する確率的基礎注目度母数逐次推定部、を更に備え、前記確率的基礎注目度画像抽出部は、前記基礎注目度画像抽出部によって算出された基礎注目度画像と、前回の前記入力画像から前記確率的基礎注目度画像抽出部によって算出された前記確率的基礎注目度画像と、前記確率的基礎注目度母数逐次推定部によって更新された確率的基礎注目度母数に基づいて確率的基礎注目度画像を算出し、前記視線位置確率密度映像出力部は、前記基礎注目度画像抽出部と、前記確率的基礎注目度画像抽出部と、前記確率的基礎注目度母数逐次推定部と、前記視線位置確率密度画像抽出部とによる処理を、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する、ことを特徴とする。
また、本発明の前記視線位置確率密度画像抽出部は、更に、前記代表視線位置更新部によって更新された代表視線位置集合、もしくは前記代表視線位置集合に加えて前記視線移動状態変数更新部から出力された視線移動状態変数集合を、代表視線位置重み係数算出部によって算出された代表視線位置重み係数集合が示す重み配分に基づいて、前記視線位置確率密度画像を再構成する代表視線位置集合再構成部、を備えることを特徴とする。
また、本発明の視線位置推定装置は、ある与えられた映像である学習映像、もしくは前記学習映像と、前記学習映像を実際に人間が視聴したときに測定した視線位置の時系列である視線位置系列とに基づいて、予め定められた基準において最適となる確率的基礎注目度母数を推定した推定確率的基礎注目度母数を算出する確率的基礎注目度母数推定部と、前記学習映像及び前記視線位置系列、もしくは前記学習映像と前記視線位置系列と、前記確率的基礎注目度母数推定部によって算出された推定確率的基礎注目度母数を事前に与えられた前記確率的基礎注目度母数として用いることによって、予め定められた基準において最適となる視線位置確率密度母数を、前記学習映像から抽出された確率的基礎注目度画像に基づいて推定した推定視線位置確率密度母数を算出する視線位置確率密度母数推定部と、を更に備え、前記確率的基礎注目度画像抽出部は、前記確率的基礎注目度母数推定部が推定した推定確率的基礎注目度母数を前記確率的基礎注目度母数に替えた、もしくは前記確率的基礎注目度母数に前記推定確率的基礎注目度母数を加えた確率的基礎注目度母数に基づいて、前記確率的基礎注目度画像を算出し、前記視線位置確率密度画像抽出部は、前記視線位置確率密度母数推定部が推定した推定視線位置確率密度母数を前記視線位置確率密度母数に替えた、もしくは前記視線位置確率密度母数に前記推定視線位置確率密度母数を加えた視線位置確率密度母数に基づいて、前記視線位置確率密度画像を算出する、ことを特徴とする。
また、本発明の前記確率的基礎注目度母数推定部は、前記学習映像のフレームである学習画像に基づいて、該学習画像の中で顕著な特性を持つ空間領域の算出を順に繰り返して行うことにより、時系列の基礎注目度画像を基礎注目度映像として算出する学習用基礎注目度映像抽出部と、前記推定確率的基礎注目度母数の初期値を設定する初期推定確率的基礎注目度母数設定部と、前記学習用基礎注目度映像抽出部によって算出された基礎注目度映像と、現在の前記推定確率的基礎注目度母数とに基づいて、予め定められた基準において最適となるように推定された時系列の確率的基礎注目度画像を推定確率的基礎注目度映像として算出する確率的基礎注目度推定部と、前記学習用基礎注目度映像抽出部によって算出された基礎注目度映像と、前記確率的基礎注目度推定部によって算出された推定確率的基礎注目度映像とに基づいて、予め定められた基準において最適となるように前記推定確率的基礎注目度母数の初期値または現在の前記推定確率的基礎注目度母数を更新する推定確率的基礎注目度母数更新部と、前記確率的基礎注目度推定部と、前記推定確率的基礎注目度母数更新部とを、予め定められた基準を満たすまで繰り返し行うことにより前記推定確率的基礎注目度母数を確定する推定確率的基礎注目度母数確定部と、を備えることを特徴とする。
また、本発明の前記視線位置確率密度母数推定部は、前記推定視線位置確率密度母数の初期値を設定する初期推定視線位置確率密度母数設定部と、前記学習映像、前記視線位置系列、及び現在の前記推定視線位置確率密度母数に基づいて、予め定められた基準において最適となるように推定された時系列の視線移動状態変数を推定視線移動状態変数系列、もしくは推定視線移動状態変数系列の確率密度である推定視線移動状態変数確率密度系列を算出する視線移動状態変数推定部と、前記学習映像、前記視線位置系列、及び視線移動状態変数推定部によって算出された前記推定視線移動状態変数系列もしくは前記推定視線移動状態変数確率密度系列に基づいて、予め定められた基準において最適となるように前記推定視線位置確率密度母数を更新する推定視線位置確率密度母数更新部と、前記視線移動状態変数推定部と、前記推定視線位置確率密度母数更新部とを、予め定められた基準を満たすまで繰り返し行うことにより前記推定視線位置確率密度母数を確定する推定視線位置確率密度母数確定部と、を備えることを特徴とする。
また、本発明のプログラムは、ある与えられた映像である入力映像に基づいて、該入力映像のフレーム内の各位置において人間が視線を向ける確率を示す映像である視線位置確率密度映像を算出する視線位置推定装置として用いられるコンピュータに、前記入力映像のフレームである入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出ステップと、現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出ステップによって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出ステップによって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出ステップと、現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出ステップによって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出ステップと、前記基礎注目度画像抽出ステップと、前記確率的基礎注目度画像抽出ステップと、前記視線位置確率密度画像抽出ステップとを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力ステップと、を実行させ、前記視線位置確率密度画像抽出ステップは、視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出ステップによって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新ステップによって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新ステップと、視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新ステップによって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新ステップと、それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前記代表視線位置更新ステップによって更新された代表視線位置集合と、前記視線移動状態変数更新ステップから出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出ステップと、前記代表視線位置更新ステップによって更新された代表視線位置集合と、代表視線位置重み係数算出ステップによって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力ステップと、を実行させ、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する、ことを特徴とする。
また、本発明の記録媒体は、ある与えられた映像である入力映像に基づいて、該入力映像のフレーム内の各位置において人間が視線を向ける確率を示す映像である視線位置確率密度映像を算出する視線位置推定装置として用いられるコンピュータに、前記入力映像のフレームである入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出ステップと、現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出ステップによって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出ステップによって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出ステップと、現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出ステップによって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出ステップと、前記基礎注目度画像抽出ステップと、前記確率的基礎注目度画像抽出ステップと、前記視線位置確率密度画像抽出ステップとを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力ステップと、を実行させ、前記視線位置確率密度画像抽出ステップは、視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出ステップによって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新ステップによって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新ステップと、視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新ステップによって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新ステップと、それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前記代表視線位置更新ステップによって更新された代表視線位置集合と、前記視線移動状態変数更新ステップから出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出ステップと、前記代表視線位置更新ステップによって更新された代表視線位置集合と、代表視線位置重み係数算出ステップによって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力ステップと、を実行させ、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する、ためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、入力された映像に対して確率密度のサンプル表現及びその表現を用いることができる。また、複数コアを有する計算機や画像処理ハードウェアなど、並列処理を実行可能な計算機への適用が可能となる。このことによって、視線位置の推定処理を正確、かつ、高速に行うことができる。
本発明の第1の実施形態による視線位置推定装置の概略構成を示したブロック図である。 本発明の第2の実施形態による視線位置推定装置の概略構成を示したブロック図である。 従来の視線位置推定による計算時間と本発明の視線位置推定による平均計算時間との比較をしたグラフである。 従来の視線位置推定による計算時間と本発明の視線位置推定による平均計算時間との比較をしたグラフである。 従来の視線位置推定による視線位置推定の評価値と本発明の視線位置推定による視線位置推定の評価値との比較をしたグラフである。 本発明の実施形態による視線位置の推定結果の一例を示した図である。 本発明の実施形態による視線位置の推定結果の一例を示した図である。
<第1実施形態>
以下、本発明の実施形態について、図面を参照して説明する。図1は、本発明の実施形態による視線位置推定装置100の概略構成を示したブロック図である。図1において、視線位置推定装置100は、基礎注目度画像抽出部1、確率的基礎注目度画像抽出部2、確率的基礎注目度母数逐次推定部3、視線位置確率密度画像抽出部4、視線位置確率密度映像出力部5から構成される。
視線位置推定装置100は、視線位置推定の対象となる入力映像、視線位置推定に必要となる第1の母数である確率的基礎注目度母数Θ(t)、及び視線位置推定に必要となる第2の母数である視線位置確率密度母数Θ(t)が入力され、入力映像に含まれる時系列の各入力画像(各フレーム)内の各位置において、人間が視線を向ける確率を示した視線位置確率密度画像X(t)を算出する。更に、視線位置推定装置100は、算出した視線位置確率密度画像X(t)の時系列の映像である視線位置確率密度映像を出力する。
基礎注目度画像抽出部1は、入力された入力映像から視線位置推定を行う入力画像(フレーム)を取り出す。また、基礎注目度画像抽出部1は、取り出した入力画像の中で顕著な特性を持つ空間領域を示した画像である基礎注目度画像を抽出する。そして、抽出した基礎注目度画像を確率的基礎注目度画像抽出部2及び確率的基礎注目度母数逐次推定部3に出力する。
基礎注目度画像抽出部1における基礎注目度画像の抽出処理は、特許文献1に記載されている基礎注目度画像抽出部1の処理と同様であるため、処理内容の詳細な説明は省略する。ただし、本実施形態では、時刻iの入力画像から算出する基礎注目度画像を数式(1)(以下、「基礎注目度画像 ̄S(i)」と表す)とする。
確率的基礎注目度画像抽出部2は、現在の入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像S(t)を抽出する。なお、確率的基礎注目度画像抽出部2による確率的基礎注目度画像S(t)の抽出は、基礎注目度画像抽出部1から入力された基礎注目度画像 ̄S(i)、該確率的基礎注目度画像抽出部2が算出したこれまでの確率的基礎注目度画像S(t)、及び確率的基礎注目度母数Θ(t)に基づいて行われる。
また、確率的基礎注目度画像抽出部2によって抽出される確率的基礎注目度画像S(t)は、各位置yにおける確率的基礎注目度s(t,y)の期待値である数式(2)(以下、「期待値^s(t,y|t)」と表す)及び標準偏差σs(t,y|t)を保持する画像である。
また、確率的基礎注目度画像抽出部2は、抽出した確率的基礎注目度画像S(t)を視線位置確率密度画像抽出部4及び確率的基礎注目度母数逐次推定部3に出力する。
なお、確率的基礎注目度画像抽出部2には、確率的基礎注目度母数逐次推定部3によって更新された確率的基礎注目度母数Θ(t+1)が入力される。
確率的基礎注目度画像抽出部2における確率的基礎注目度画像S(t)の抽出は、非特許文献1、2に記載されている手法によって算出することができる。また、確率的基礎注目度画像抽出部2における確率的基礎注目度画像S(t)の抽出方法は、特に限定されるものではないが、一例として、カルマンフィルタを用いた推定方法について述べる。
まず、現在(時刻t)の確率的基礎注目度画像S(t)(確率変数)の位置yにおける画素値s(t,y)(確率変数)が、現在の基礎注目度画像である数式(3)(以下、「基礎注目度画像 ̄S(t)」と表す)の位置yにおける画素値である数式(4)(以下、「画素値 ̄s(t,y)」と表す)、及び1時点前(時刻t−1)の確率的基礎注目度画像S(t−1)の位置yにおける画素値s(t−1,y)について、下式(5)、(6)のような関係式を満たしているものとする。
ここで、確率的基礎注目度母数Θ(t)は、時刻t及び位置yに依存する形で下式(7)のように与えられているものとする。
また、上式(5)、(6)において、p(a|b)は、bが与えられたときのaの確率密度を示す。また、数式(8)は期待値が数式(9)で標準偏差がσである正規分布に従うsの確率密度を示し、下式(10)のように表される。
以降の説明においては、画素値 ̄s(t,y)を位置yにおける基礎注目度と呼ぶこととする。また、同様に、確率的基礎注目度s(t,y)を位置yにおける確率的基礎注目度と呼ぶこととする。また、特に必要な場合を除いて、位置yを省略するものとする。例えば、s(t,y)をs(t)と表す。
続いて、1時点前の確率的基礎注目度s(t−1)が、これまでの確率的基礎注目度画像抽出部2の処理により、下式(11)のような確率密度を用いた表現にて抽出されているものとする。
上式(11)において、数式(12)は、時刻tから時刻tまでの基礎注目度の系列、数式(13)は時刻1から時刻tまでの基礎注目度である数式(14)が与えられているときの時刻tの確率的基礎注目度s(t)の期待値、σ(t|t)は、この時の標準偏差を示す。
このとき、確率的基礎注目度画像抽出部2は、現在の確率的基礎注目度s(t)の下式(15)に示す確率密度における期待値である数式(16)(以下、「期待値^s(t|t)」と表す)及び標準偏差σ(t|t)を、下式(17)、(18)のようにして更新する。
なお、上述の確率的基礎注目度画像抽出部2における期待値^s(t|t)及び標準偏差σ(t|t)の更新は、画像中の各位置で独立して実行することができる。
また、上式(6)に替えて、下式(19)のような関係式を用いることによって、入力画像の各位置における動き成分を考慮した実施形態とすることも可能である。
上式(19)において、Δy(t)は時刻t、位置yにおけるオプティカルフローであり、例えば、特許文献1に記載されている運動特徴画像抽出部115と同様の方法を用いる。
上記に述べたカルマンフィルタを用いた推定方法では、各位置の確率的基礎注目度s(t,y)が空間方向で独立に抽出されていたが、確率的基礎注目度の空間的な連続性を導入することもできる。以下、動的マルコフ確率場と呼ばれる統計モデルに基づく確率的基礎注目度の記述を行い、平均場近似と呼ばれる統計解析手法により確率的基礎注目度s(t,y)を解析的に導出する場合について述べる。
まず、現在(時刻t)の確率的基礎注目度画像S(t)(確率変数)の位置yにおける画素値s(t,y)(確率変数)が、現在の基礎注目度画像 ̄S(t)の位置yにおける画素値 ̄s(t,y)、1時点前(時刻t−1)の確率的基礎注目度画像S(t−1)の位置yにおける画素値s(t−1,y)、及び位置yの近傍D(y)に含まれる各位置である数式(20)における現在の確率的基礎注目度画像S(t)の画素値である数式(21)について、下式(22)〜(26)のような関係式を満たしているものとする。
ここで、確率的基礎注目度母数Θ(t)は、時刻t及び位置yに依存する形で下式(27)のように再定義されているものとする。
近傍D(y)の決定方法としては、例えば、位置yの上下左右の4点、もしくはさらに斜め位置4点を加えた8点、などが考えられる。
続いて、上述したカルマンフィルタを用いた推定方法と同様に、1時点前の確率的基礎注目度s(t−1,y)が、これまでの確率的基礎注目度画像抽出部2の処理により、下式(28)のような確率密度を用いた表現にて抽出されているものとする。
上式(28)において、数式(29)は、時刻tまでの基礎注目度画像である数式(30)が与えられているときの時刻t・位置yの確率的基礎注目度s(t,y)の期待値、σ(t,y|t)は、この時の標準偏差を示す。
このとき、確率的基礎注目度画像抽出部2は、位置yにおける現在の確率的基礎注目度s(t,y)の下式(31)に示す確率密度における期待値^s(t,y|t)及び標準偏差σ(t,y|t)を更新することが目的となる。
また、確率的基礎注目度画像抽出部2による更新は、繰り返し計算を用いた下式(32)〜(37)の方法によって行われる。
上式(32)〜(37)において、|D(y)|は集合D(y)の要素数を示す。また、上式(32)〜(37)を用いた計算において、上式(35)に示すような無限ステップの繰り返しは不可能であるため、実際には、第l+1ステップの出力である数式(38)と第lステップの出力である数式(39)との差が十分小さくなった時点で繰り返し計算を打ち切ることとする。
また、ステップに関するインデックスlを固定したとき、上式(34)に示す更新は、画像の各位置において独立に算出することができる。また、それ以外の更新式については、時刻tを固定することによって、同様に画像の各位置において独立に算出することができる。
このことによって、上述の確率的基礎注目度画像抽出部2における期待値^s(t,y|t)及び標準偏差σ(t,y|t)の更新は、上述したカルマンフィルタを用いた推定方法と同様に、画像中の各位置で独立して実行することができ、これらの更新処理を容易に並列化できる。
確率的基礎注目度母数逐次推定部3は、基礎注目度画像抽出部1から入力された基礎注目度画像 ̄S(i)、確率的基礎注目度画像抽出部2から入力された確率的基礎注目度画像S(t)、及び事前に与えられた母数である確率的基礎注目度母数Θ(t)に基づいて、確率的基礎注目度母数Θ(t)を逐次的に更新する。
また、確率的基礎注目度母数逐次推定部3は、更新した確率的基礎注目度母数Θ(t+1)を確率的基礎注目度画像抽出部2に出力する。
なお、確率的基礎注目度母数逐次推定部3は、確率的基礎注目度母数Θ(t)を更新していない場合は、事前に与えられた母数である確率的基礎注目度母数Θ(t)を確率的基礎注目度母数Θ(t+1)として確率的基礎注目度画像抽出部2に出力する。すなわち、確率的基礎注目度画像抽出部2から確率的基礎注目度画像S(t)が入力されていない初期段階では、確率的基礎注目度母数Θ(t)の更新ができないため、入力された確率的基礎注目度母数Θ(t)をそのまま確率的基礎注目度画像抽出部2に出力する。
確率的基礎注目度母数逐次推定部3における確率的基礎注目度母数Θ(t+1)の推定方法は特に限定されるものではないが、本実施形態においては、適応カルマンフィルタを用いた推定方法について述べる。
確率的基礎注目度母数逐次推定部3において、次の時刻t+1で用いられる確率的基礎注目度母数Θ(t+1)を、下式(40)に示す。
確率的基礎注目度母数逐次推定部3は、既に基礎注目度画像抽出部1によって算出されている基礎注目度画像 ̄S(i)、及び確率的基礎注目度画像抽出部2によって算出されている確率的基礎注目度画像S(t)を構成する確率的基礎注目度の期待値及び標準偏差を用いて、下式(41)〜(48)のように計算する。
上式(41)〜(48)において、数式(49)(以下、「 ̄σs1」と表す)及び数式(50)(以下、「 ̄σs2」と表す)は基本確率的基礎注目度母数であり、予め定めておく、もしくは事前に学習によって算出しておくものである。
また、λs1及びλs2は予め定められた母数の混合比であり、これらの数値を適切に定めることで、逐次更新で獲得した母数である数式(51),数式(52)と、予め定めておいた母数 ̄σs1, ̄σs2とのバランスを制御することができる。
なお、λs1=λs2=0とすることにより、確率的基礎注目度母数逐次推定部3による確率的基礎注目度母数Θ(t+1)の推定処理を行わないことと等価になる。また、Nは過去の情報を保持するバッファの時間長である。
視線位置確率密度画像抽出部4は、視線移動状態変数更新部41、代表視線位置更新部42、代表視線位置重み係数算出部43、視線位置確率密度画像出力部44、代表視線位置集合再構成部45から構成される。
視線位置確率密度画像抽出部4は、視線位置確率密度映像を構成するフレームである視線位置確率密度画像X(t)を抽出する。なお、視線位置確率密度画像抽出部4による視線位置確率密度画像X(t)の抽出は、確率的基礎注目度画像抽出部2から入力された確率的基礎注目度画像S(t)、該視線位置確率密度画像抽出部4が抽出したこれまでの視線位置確率密度画像X(t)、及び事前に与えられた母数である視線位置確率密度母数Θ(t)に基づいて行われる。
また、視線位置確率密度画像抽出部4は、視線位置確率密度画像X(t)を視線位置確率密度映像出力部5に出力する。
視線移動状態変数更新部41は、代表視線位置集合再構成部45から出力されたこれまでの出力である視線位置確率密度画像X(t)、及び事前に与えられた母数である視線位置確率密度母数Θ(t)に基づいて、これまでの視線位置確率密度画像X(t)に含まれている視線移動の大きさを制御する確率変数である視線移動状態変数u(t)を更新する。
また、視線移動状態変数更新部41は、更新した視線移動状態変数u(t)の集合である視線移動状態変数集合U(t)を代表視線位置更新部42及び代表視線位置集合再構成部45に出力する。
視線移動状態変数更新部41における視線移動状態確率変数集合U(t)の更新方法は特に限定されるものではないが、本実施形態による方法について述べる。
まず、代表視線位置集合再構成部45の出力の一部として、1時点前(時刻t−1)の視線移動状態変数集合U(t−1)が、下式(53)のように与えられているものとする。
上式(53)において、Nは視線移動状態変数集合の要素数、すなわち視線移動状態変数のサンプル数を示す。また、各視線移動状態変数はm通りの値(1,2,・・・,m)のいずれかを取るものとする。
このとき、各視線移動状態変数のサンプルu(t−1)から、視線位置確率密度母数Θ(t)の1つである視線移動遷移確率行列Φ={φ(i,j)(i,j)に基づいて、現在の視線移動状態変数のサンプルu(t)をランダムに生成する。視線移動遷移確率行列はm行m列の行列によって表現され、i行j列の要素φ(i,j)によって、状態jから状態iへ遷移する確率を表現している。よって、Φは下式(54)に示すような性質を満たす。
すなわち、上述のようにして生成した視線移動状態変数のサンプルu(t)の集合である数式(55)が、現在の視線移動状態変数集合U(t)となる。
なお、現在の視線移動状態変数集合U(t)に含まれる視線移動状態変数のサンプルu(t)の経験確率分布が、視線移動状態変数の生起確率の近似となっている。
別の実施形態として、視線移動状態変数更新部41では何の処理もしないことも可能である。しかし、これは、前述の視線移動状態変数更新部41における視線移動状態確率変数集合U(t)の更新処理において、m=1、すなわち、視線移動状態が1通りしかないことと等価である。
代表視線位置更新部42は、代表視線位置集合再構成部45から出力されたこれまでの出力である視線位置確率密度画像X(t)、視線移動状態変数更新部41から入力された視線移動状態変数集合U(t)、及び事前に与えられた母数である視線位置確率密度母数Θ(t)に基づいて、視線移動状態変数u(t)によって制御される視線移動を考慮し、これまでの視線位置確率密度画像X(t)に含まれている代表的な視線位置を表現する代表視線位置の集合である代表視線位置集合V(t)を更新する。
また、代表視線位置更新部42は、更新した代表視線位置集合V(t)を代表視線位置重み係数算出部43、視線位置確率密度画像出力部44、及び代表視線位置集合再構成部45に出力する。
代表視線位置更新部42における代表視線位置集合V(t)の更新方法は特に限定されるものではないが、本実施形態による方法について述べる。
まず、視線移動状態変数u(t)によって視線位置x(t)が制御されるモデルとして、以下の2通りのモデルについて述べる。
(モデル1):1時点前(時刻t−1)における視線位置が、視線位置x(t−1)として与えられているときの、現在(時刻t)における視線位置x(t)の生起確率を、現在の視線移動状態変数u(t)に依存する形で、下式(56)のように与える。
上式(56)において、γxi及びσxi(i=0,1,・・・,m−1)はそれぞれ視線位置確率密度母数Θ(t)を構成する定数、数式(57)(以下、「確率密度Q(x; ̄x,γ,σ)」と表す)は中心が数式(58)、最頻距離がγ、最頻距離からの標準偏差に相当する母数をσとする下式(59)に示す確率密度関数を表す。
上式(59)において、‖x‖はベクトルxのノルム、Zは確率密度Q(x; ̄x,γ,σ)の全定義域における積分値を1にするための下式(60)で表される正規化定数を示す。
(モデル2):1時点前(時刻t−1)における視線位置が、視線位置x(t−1)として与えられているときの、現在(時刻t)における視線位置x(t)の生起確率として、ベータ分布を用いる。なお、1次元変量xに対するベータ分布は、定義域を数式(61)とする下式(62)によって定義される。
上式(62)において、a,bはそれぞれベータ分布を特徴付ける母数を示す。また、B(a,b)はベータ関数と呼ばれ、ベータ分布の全定義域における積分値を1にするための下式(63)に示す正規化定数を表す。
なお、本実施形態においては、正規化定数の変量として位置xと、予め定められた原点xとの距離を用い、定義域を数式(64)とするベータ分布である数式(65)を用いる。
すなわち、上述のベータ分布である数式(66)は、下式(67)によって与えられる。
上式(67)のように正規化されたベータ分布を用いることにより、1時点前(時刻t−1)の視線位置が視線位置x(t−1)として与えられているときの、現在(時刻t)の視線位置x(t)の生起確率は、現在の視線移動状態変数u(t)に依存する形で、下式(68)のように与えられる。
上式(68)において、axi及びbxi(i=0,1,m−1)は、それぞれ視線位置確率密度母数Θ(t)を構成する定数を表す。
代表視線位置更新部42は、上述したモデルのいずれかを用いる方法によって、次に述べるように、代表視線位置集合V(t)を更新する。
まず、代表視線位置集合再構成部45の出力の一部として、1時点前(時刻t−1)の代表視線位置集合V(t−1)が、下式(69)のように与えられているものとする。
上式(69)において、Nは代表視線位置集合V(t)の要素数、すなわち代表視線位置のサンプル数を示す。なお、一般的な実施形態においては、代表視線位置集合V(t)の要素数Nを、視線移動状態変数集合U(t)の要素数Nと同一にしておく。
また、代表視線位置更新部42は、1時点前(時刻t−1)における代表視線位置の各サンプルx(t−1)から、上述したいずれかのモデルによって下式(70)のように示す確率密度関数を用いて、現時点(時刻t)における代表視線位置のサンプルx(t)をランダムに生成する。
なお、上式(70)のように示す確率密度関数を用いてランダムにサンプルを生成する方法は、サンプル生成に用いる確率密度関数が複雑である。このため、直接的な方法によってランダムなサンプルを生成することは困難である。しかし、上述のようなランダムのサンプル生成は、例えば、マルコフ連鎖モンテカルロ法に基づいたサンプル生成の方法を用いることができる。
次に、一般にMetropolis−Hastingsアルゴリズムと呼ばれるマルコフ連鎖モンテカルロ法に基づいたサンプル生成の詳細な方法について述べる。
まず、代表視線位置更新部42は、代表視線位置の仮のサンプルの初期値である数式(71)として、1時点前(時刻t−1)における代表視線位置のサンプルを下式(72)のように与える。
次に、原点対称な確率密度関数を用いて、2次元ベクトルである数式(73)を生成し、この2次元ベクトルである数式(74)を、第k−1ステップの代表視線位置の仮のサンプルである数式(75)に加えることによって、第kステップの代表視線位置の仮のサンプルである数式(76)を下式(77)のように生成する。
この原点対称な確率密度関数は、原点に対する対称性を満足しているのみで良く、例えば、原点を中心とする2次元正規分布、原点を中心とする各要素±δの範囲内の一様分布、などが考えられる。
そして、第kステップの仮の代表視線位置のサンプルである上述の数式(76)の生起確率と第k−1ステップの代表視線位置の仮のサンプルである上述の数式(75)の生起確率との比である数式(78)を下式(79)に基づいて計算する。
最後に、数式(80)の一様乱数である数式(81)を発生させ、数式(82)の場合のみ、第kステップの代表視線位置の仮のサンプルである上述の数式(76)を棄却して第k−1ステップの代表視線位置の仮のサンプルである上述の数式(75)に置き換える。
その後、上述の仮のサンプルの生成ステップをあらかじめ定められた回数(K回)繰り返し、第Kステップの仮のサンプルである数式(83)を下式(84)に示すような時刻tの代表視線位置のサンプルとする。
上記に述べたとおり、マルコフ連鎖モンテカルロ法に基づいて、サンプルを生成する。この生成したサンプルの集合である数式(85)が、すなわち、現時点の代表視線位置集合V(t)となる。また、現時点の代表視線位置集合V(t)に含まれる代表視線位置サンプルの経験確率分布が、視線位置の生起確率の近似となっている。
代表視線位置重み係数算出部43は、確率的基礎注目度画像抽出部2から入力された確率的基礎注目度画像S(t)、代表視線位置更新部42から入力された代表視線位置集合V(t)、及び事前に与えられた母数である視線位置確率密度母数Θ(t)に基づいて、各代表視線位置に関連付けられた重みである代表視線位置重み係数を算出する。
また、代表視線位置重み係数算出部43は、算出した代表視線位置重み係数の集合である代表視線位置重み係数集合である数式(86)を視線位置確率密度画像出力部44及び代表視線位置集合再構成部45に出力する。
代表視線位置重み係数算出部43における代表視線位置重み係数集合W(t)の抽出方法は特に限定されるものではないが、本実施形態においては、信号検出理論に基づいた代表視線位置重み係数集合W(t)の抽出方法について述べる。
代表視線位置のサンプルx(t)(n=1,2,・・・,N)に関連付けられる代表視線位置重み係数w(t)は、下式(87)及び下式(88)によって算出される。なお、下式(87)及び下式(88)は、位置x(t)における確率的基礎注目度s(t,y)の実現値が、ある位置集合D(x(t))以外の位置yにおける確率的基礎注目度s(t,y)の実現値以上となる確率を算出するものである。
なお、上式(87)及び上式(88)においてのみs=s(t,x(t))の表記を用いている。また、上式(87)及び上式(88)において、数式(89)は、位置yにおける現在の確率的基礎注目度s(t,y)の確率分布関数を示し、位置yにおける現在の確率密度p(s(t,x))に対応して、下式(90)のように定義される。
ある位置集合D(x)の与え方は種々の方法が考えられるが、例えば、位置x以外の任意位置の集合、位置x以外で基礎注目度である数式(91)が局所的に最大となる位置yの集合、位置x以外で確率的基礎注目度s(t,y)の期待値である数式(92)が局所的に最大となる位置yの集合、などが考えられる。
上記に述べた信号検出理論に基づいた代表視線位置重み係数集合W(t)の抽出方法では、サンプリングにより代表視線位置集合V(t)及び代表視線位置重み係数集合W(t)を抽出していたが、サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出することもできる。以下、サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出する方法について述べる。
サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出する方法では、代表視線位置更新部42による代表視線位置集合V(t)の更新と、代表視線位置重み係数算出部43による代表視線位置重み係数集合W(t)の抽出とが同時に行われる。
まず、上述した信号検出理論に基づいた代表視線位置重み係数集合W(t)の抽出方法と同様に下式(93)によって、位置x(t)における確率的基礎注目度s(t,y)の実現値が、ある位置集合D(x(t))以外の位置yにおける確率的基礎注目度s(t,y)の実現値以上になる確率を、入力画像中の各位置において算出する。
続いて、この上式(93)によって算出した確率分布を、下式(94)〜(98)に示すようなEMアルゴリズムを用いて混合ガウス分布でモデル化する。すなわち、混合ガウス分布の各パラメータであるガウス分布の混合比π(t)(n=1,2,・・・,M)、各ガウス分布の平均ベクトルである数式(99)、及び共分散行列S(t)を、下式(94)〜(98)によるモデル化のステップをk=1,2,・・・について各パラメータが収束するまで繰り返すことによって混合ガウス分布のモデルを導出する。なお、混合ガウス分布のモデル導出の際、位置xがどのガウス分布に所属するものであるかを表現する確率変数zを導入する。
下式(94)〜(98)において、α(n=1,2,・・・,M)は、数式(100)を満たすようにあらかじめ定められた定数を示す。
なお、ガウス分布の混合比π(t)が予め定められた定数よりも小さいガウス分布については、ガウス分布の混合比π(t)に対する寄与が小さいものとして除去し、最終的に残ったN個のガウス分布によって混合ガウス分布を構成する。そして、この混合ガウス分布の各平均位置である数式(99)(n=1,2,・・・,N)を、現時点(時刻t)の代表視線位置v(t)(n=1,2,・・・,N)として決定する。
このことから、サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出する方法では、代表視線位置集合V(t)の要素数Nは、予め与えられるものではなく、入力画像によって異なることがわかる。
一方、代表視線位置重み係数w(t)(n=1,2,・・・,N)については、1時点前(時刻t−1)の代表視線位置集合である数式(101)、1時点前(時刻t−1)の代表視線位置重み係数集合である数式(102)及び上記の混合ガウス分布の混合比π(t)に基づいて、下式(103)のようにして算出する。
これはすなわち、1時点前の代表視線位置集合V(t)及び代表視線位置重み係数w(t)から構成される混合ガウス分布を、上式(94)〜(98)によってモデル化した混合ガウス分布に、視線移動に関する確率密度p(s(t,x))を考慮して遷移させたものである。
上記に述べたとおり、サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出する方法では、代表視線位置更新部42及び代表視線位置重み係数算出部43は、代表視線位置集合である数式(104)及び代表視線位置重み係数集合である数式(86)を抽出し、視線位置確率密度画像出力部44に出力する。
視線位置確率密度画像出力部44は、代表視線位置更新部42から入力された代表視線位置集合V(t)、及び代表視線位置重み係数算出部43から入力された代表視線位置重み係数集合W(t)に基づいて、代表視線位置確率密度画像H(t)を抽出する。
また、視線位置確率密度画像出力部44は、抽出した代表視線位置確率密度画像H(t)を代表視線位置集合再構成部45に出力する。
視線位置確率密度画像出力部44による代表視線位置確率密度画像H(t)の算出方法は特に限定されるものではないが、本実施形態による方法について述べる。
視線位置確率密度画像出力部44は、現時点(時刻t)の代表視線位置確率密度画像H(t)の位置x(t)における画素値を、代表視線位置集合V(t)及び代表視線位置重み集合W(t)に基づいて、下式(105)のように算出する。
上式(105)において、f(・)は予め定められた関数であり、例えば、下式(106)に示すデルタ関数や、下式(107)に示す2次元正規分布などが考えられる。
代表視線位置集合再構成部45は、代表視線位置更新部42から入力された代表視線位置集合V(t)、視線移動状態変数更新部41から入力された視線移動状態変数集合U(t)、及び代表視線位置重み係数算出部43から入力された代表視線位置重み係数集合W(t)に基づいて、代表視線位置集合V(t)及び視線移動状態変数集合U(t)を、代表視線位置重み係数集合W(t)の示す重み配分に従って再構成する。
また、代表視線位置集合再構成部45は、代表視線位置重み係数集合W(t)を再構成する。
また、代表視線位置集合再構成部45は、再構成された代表視線位置集合V(t)、視線移動状態変数集合U(t)、及び代表視線位置重み係数集合W(t)に基づいた、視線位置確率密度画像X(t)を視線位置確率密度映像出力部5に出力する。
また、代表視線位置集合再構成部45は、視線位置確率密度画像X(t)を視線移動状態変数更新部41及び代表視線位置更新部42に出力する。
代表視線位置集合再構成部45における代表視線位置集合V(t)及び視線移動状態変数集合U(t)の再構成方法は特に限定されるものではないが、本実施形態による方法について述べる。
まず、代表視線位置重み係数w(t)(n=1,2,・・・,N)の累積和c(t)を下式(108)によって算出する。なお、累積和c(t)を算出する際に必要に応じて、代表視線位置重み係数w(t)の大きい順に代表視線位置v(t)、視線移動状態変数u(t)及び代表視線位置重み係数w(t)の並べ替えを行う。
以降の処理のため、c(t)=0と定める。
次に、ある数κを数式(109)の範囲でランダムに定め、以降、n=2,3,・・・,Nについて、κを下式(110)のように定める。
そして、n=1,2,・・・,Nのそれぞれについて、下式(111)の条件を満たす整数nを求める。
そして、新しい代表視線位置である数式(112)を下式(113)のように定める。
また、新しい視線移動状態変数である数式(114)を下式(115)のように定める。
なお、新しい代表視線位置重み係数である数式(116)は、全て1/Nとする。
なお、上述した代表視線位置集合V(t)及び視線移動状態変数集合U(t)の再構成は、必ずしも全ての時刻において実施する必要はなく、例えば、ある一定時間間隔を置いて実施することや、全く実施しないこともできる。
また、例えば、下式(117)に示す代表視線位置重み係数の偏りに関する条件を満たさないときのみ実施することもできる。
上式(117)において、Neffは数式(118)を満たすように予め定められた定数である。
また、代表視線位置集合再構成部45は、上記に述べた代表視線位置集合V(t)、視線移動状態変数集合U(t)、及び代表視線位置重み係数集合W(t)の再構成方法によって再構成した新しい代表視線位置集合である数式(119)、新しい視線移動状態変数集合である数式(120)、及び新しい代表視線位置重み係数集合である数式(121)に基づいて、視線位置確率密度画像出力部44から入力された代表視線位置確率密度画像H(t)を再構成した視線位置確率密度画像X(t)を、視線位置確率密度画像抽出部4の出力として視線位置確率密度映像出力部5に出力する。
なお、代表視線位置集合再構成部45による代表視線位置集合V(t)、視線移動状態変数集合U(t)、及び代表視線位置重み係数集合W(t)の再構成を全く実施しない場合は、視線位置確率密度画像出力部44から入力された代表視線位置確率密度画像H(t)を視線位置確率密度画像抽出部4の出力である視線位置確率密度画像X(t)として視線位置確率密度映像出力部5に出力する。
視線位置確率密度映像出力部5は、入力映像に含まれる時系列の各入力画像から、基礎注目度画像抽出部1、確率的基礎注目度画像抽出部2、確率的基礎注目度母数逐次推定部3、及び視線位置確率密度画像抽出部4の処理によって抽出される視線位置確率密度画像X(t)の時系列である視線位置確率密度映像を抽出して、出力する。
上記に述べたとおり、本第1の実施形態によれば、視線位置推定の対象となる入力映像、確率的基礎注目度母数Θ(t)、及び視線位置確率密度母数Θ(t)に基づいて、視線位置確率密度映像を出力する場合に、確率的基礎注目度母数Θ(t)を逐次更新することができる。
また、本第1の実施形態によれば、確率的基礎注目度画像抽出部2における期待値及び標準偏差の更新を、入力画像中の各位置で独立して実行することができる。その結果、確率的基礎注目度画像抽出部2による期待値及び標準偏差の更新処理を、複数コアを持つ計算機やGraphic Processor Unit(GPU)などの並列処理が可能な計算機上で容易に並列化することができ、処理を高速化することができる。
<第2実施形態>
以下、本発明の第2の実施形態の注目領域抽出方法について、図面を参照して説明する。図2は、本発明の実施形態による視線位置推定装置200の概略構成を示したブロック図である。図2において、視線位置推定装置200は、基礎注目度画像抽出部1、確率的基礎注目度画像抽出部2、確率的基礎注目度母数逐次推定部3、視線位置確率密度画像抽出部4、視線位置確率密度映像出力部5、確率的基礎注目度母数推定部6、視線位置確率密度母数推定部7から構成される。
視線位置推定装置200は、視線位置推定の対象となる入力映像、視線位置推定に必要となる第1の母数である確率的基礎注目度母数Θ(t)、視線位置推定に必要となる第2の母数である視線位置確率密度母数Θ(t)、及び視線位置推定に必要となる母数を推定するために用いる映像である学習映像が入力され、入力映像に含まれる時系列の各入力画像(各フレーム)内の各位置において、人間が視線を向ける確率を示した視線位置確率密度画像X(t)を算出する。更に、視線位置推定装置200は、算出した視線位置確率密度画像X(t)の時系列の映像である視線位置確率密度映像を出力する。
なお、本第2の実施形態の視線位置推定装置200の構成において、基礎注目度画像抽出部1、確率的基礎注目度画像抽出部2、確率的基礎注目度母数逐次推定部3、視線位置確率密度画像抽出部4、及び視線位置確率密度映像出力部5は、第1の実施形態と同様のため、説明を省略する。
ただし、確率的基礎注目度母数逐次推定部3は、後述する確率的基礎注目度母数推定部6によって出力される推定確率的基礎注目度母数θs,k+1を、確率的基礎注目度母数Θ(t)として、もしくは確率的基礎注目度母数Θ(t)に加えて、確率的基礎注目度母数Θ(t+1)の推定を行う。また、視線位置確率密度画像抽出部4は、後述する視線位置確率密度母数推定部7によって出力される推定視線位置確率密度母数θx,k+1を、視線位置確率密度母数Θ(t)として、もしくは視線位置確率密度母数Θ(t)に加えて、視線位置確率密度画像X(t)の抽出を行う。
確率的基礎注目度母数推定部6は、学習用基礎注目度映像抽出部61、初期推定確率的基礎注目度母数設定部62、確率的基礎注目度推定部63、推定確率的基礎注目度母数更新部64、推定確率的基礎注目度母数確定部65から構成される。
確率的基礎注目度母数推定部6は、ある与えられた映像である学習映像、もしくはそれに加えて学習映像を実際に人間が視聴したときに測定した視線位置の時系列である視線位置系列に基づいて、予め定められた基準において最適となる確率的基礎注目度母数の推定値である推定確率的基礎注目度母数θs,k+1を算出する。
また、確率的基礎注目度母数推定部6は、算出した推定確率的基礎注目度母数θs,k+1を確率的基礎注目度母数逐次推定部3に出力する。
確率的基礎注目度母数推定部6における推定確率的基礎注目度母数θs,k+1の算出方法は特に限定されるものではないが、本実施形態の構成による算出方法について述べる。
学習用基礎注目度映像抽出部61は、入力された学習映像から視線位置推定に必要となる母数を推定するための学習画像(フレーム)を取り出す。また、学習用基礎注目度映像抽出部61は、取り出した学習画像の中で顕著な特性を持つ空間領域を示した画像である基礎注目度画像を抽出する。そして、抽出した基礎注目度画像の時系列である基礎注目度映像を抽出し、初期推定確率的基礎注目度母数設定部62、確率的基礎注目度推定部63、及び推定確率的基礎注目度母数更新部64に出力する。
なお、学習用基礎注目度映像抽出部61による、基礎注目度画像の抽出方法は、基礎注目度画像抽出部1に入力される入力映像を学習映像とし、各学習画像に対する基礎注目度画像の抽出処理を順次繰り返して実行した場合と同様であるため、説明を省略する。
初期推定確率的基礎注目度母数設定部62は、推定確率的基礎注目度母数θs,k+1の初期値を設定し、設定した推定確率的基礎注目度母数θs,k+1の初期値を確率的基礎注目度推定部63に出力する。
初期推定確率的基礎注目度母数設定部62による初期値の決定方法は特に限定されるものではないが、本実施形態においては、推定確率的基礎注目度母数θs,k+1の初期値として、初期値θs,0=(σs1,0,σs2,0)が与えられているとして以降の説明を行う。
確率的基礎注目度推定部63は、学習用基礎注目度映像抽出部61から入力された基礎注目度映像及び推定確率的基礎注目度母数更新部64から入力された前回の推定確率的基礎注目度母数θs,kに基づいて、予め定められた基準において最適となるように推定確率的基礎注目度映像を推定する。
また、確率的基礎注目度推定部63は、推定した推定確率的基礎注目度映像を推定確率的基礎注目度母数更新部64及び推定確率的基礎注目度母数確定部65に出力する。
なお、確率的基礎注目度推定部63が出力する推定確率的基礎注目度映像は、確率的基礎注目度画像の時系列の映像である。
確率的基礎注目度推定部63における推定確率的基礎注目度映像の抽出方法は特に限定されるものではないが、本実施形態においては、カルマンスムーサーを用いた抽出方法について述べる。
まず、学習映像Iを学習画像の時系列として、また、この学習映像から抽出した基礎注目度映像である数式(122)を基礎注目度画像の時系列として、それぞれ下式(123)及び下式(124)のように表記する。
上式(123)及び上式(124)において、Tは学習映像の長さ、すなわち学習映像のフレーム数を示す。
以降の説明においては、基礎注目度画像が学習映像から抽出されたことが明らかである場合には、学習映像Iの表記を省略し、第1の実施形態と類似した下式(125)のように表記する。
その後、基礎注目度映像である数式(126)(以下、「基礎注目度映像 ̄S」と表す)及び1ステップ前(第kステップ)の推定確率的基礎注目度母数θs,k=(σs1,k,σs2,k)を用いて、下式(127)で示される推定確率的基礎注目度映像のフレームである数式(128)(以下、「フレームS(t| ̄S;θs,k) (t=1,2,・・・、T)」と表す)で示される推定確率的基礎注目度画像を時刻の逆順に抽出する。
続いて、1時点後(時刻t+1)の推定確率的基礎注目度画像である数式(129)(以下、「推定確率的基礎注目度画像S(t+1| ̄S;θs,k)」と表す)の位置yにおけるピクセル値である数式(130)(以下、「ピクセル値s(t+1,y| ̄S;θs,k)」と表す)が、確率密度を用いて下式(131)のように表されることを仮定する。
上式(131)において、p(・;θs,k)は、母数がθs,kである確率密度関数を示す。以降の説明においては、ピクセル値s(t+1,y| ̄S;θs,k)を位置yにおける推定確率的基礎注目度と呼ぶこととする。また、第1の実施形態と同様に、特に必要な場合を除いて位置yを省略した場合、上式(131)は下式(132)のように表される。
上式(132)において、数式(133)は、時刻Tまで、すなわち、全ての時刻の基礎注目度が与えられているときの、1ステップ前の推定確率的基礎注目度母数θs,kを用いて算出した時刻t1における推定確率的基礎注目度である数式(134)の期待値、σs,k(t|T)は、この時の標準偏差を示す。
このとき、確率的基礎注目度推定部63は、現時点(時刻t)の推定確率的基礎注目度である数式(135)の下式(136)に示す確率密度における期待値である数式(137)及び標準偏差σs,k(t|T)を更新することが目的となる。
また、確率的基礎注目度推定部63による更新は下式(138)及び下式(139)のようにして行われる。
上式(138)及び上式(139)において、数式(140)及びσs,k(t|t)は、確率的基礎注目度画像抽出部2と同様の処理によって算出される。
上記の述べたカルマンスムーサーを用いた抽出方法では、各位置の確率的基礎注目度s(t,y)が空間方向に独立に抽出されていたが、確率的基礎注目度の空間的な連続性を導入することもできる。以下、確率的基礎注目度画像抽出部2による抽出方法と同様に、マルコフ確率場に基づく確率的基礎注目度の記述を行い、平均場近似により確率的基礎注目度を解析的に導出する場合について述べる。
確率的基礎注目度推定部63は、確率的基礎注目度画像抽出部2と同様に基礎注目度映像 ̄S及び1ステップ前(第kステップ)の推定確率的基礎注目度母数θs,k=(σs1,k,σs2,k,σs3,k)を用いて、推定確率的基礎注目度画像のフレームS(t| ̄S;θs,k) (t=1,2,・・・、T)を時刻の逆順に抽出する。
まず、1時点後(時刻t+1)の推定確率的基礎注目度画像S(t+1| ̄S;θs,k)の位置yにおけるピクセル値s(t+1,y| ̄S;θs,k)が、確率密度を用いて下式(141)のように表されていると仮定する。
上式(141)において、数式(142)は、時刻Tまで、すなわち、全ての時刻の基礎注目度が与えられているときの、1ステップ前の推定確率的基礎注目度母数θs,kを用いて算出した時刻t1・位置yの推定確率的基礎注目度である数式(143)の期待値、σs,k(t,y|T)は、この時の標準偏差を表す。
このとき、確率的基礎注目度推定部63は、現時点(時刻t)の推定確率的基礎注目度である数式(144)(以下、「推定確率的基礎注目度s(t,y| ̄S;θs,k)」と表す)の下式(145)に示す確率密度における期待値である数式(146)(以下、「期待値^s(t,y|T)」と表す)及び標準偏差σs,k(t,y|T)を更新することが目的となる。
また、確率的基礎注目度推定部63による更新は、繰り返し計算を用いた下式(147)〜(150)によって行われる。
上式(147)〜(150)において、数式(151)及びσs,k(t,y|t)は、確率的基礎注目度画像抽出部2と同様の処理によって算出される。
上記に述べたとおり、確率的基礎注目度推定部63は、各位置yにおける推定確率的基礎注目度s(t,y| ̄S;θs,k)の期待値^s(t,y|T)及び標準偏差σs,k(t,y|T)を保持する画像として、推定確率的基礎注目度画像である数式(152)を時刻の逆順に抽出し、この推定確率的基礎注目度画像の時系列とした推定確率的基礎注目度映像である数式(153)(以下、「推定確率的基礎注目度映像S ̄S;θs,k」と表す)を出力する。
また、確率的基礎注目度推定部63は、学習映像が複数与えられている場合には、それぞれの学習映像に対して個別に推定確率的基礎注目度映像S ̄S;θs,kを抽出し、それぞれ抽出した推定確率的基礎注目度映像S ̄S;θs,kを推定確率的基礎注目度母数更新部64に出力する。
推定確率的基礎注目度母数更新部64は、学習用基礎注目度映像抽出部61から入力された基礎注目度映像、及び確率的基礎注目度推定部63から入力された推定確率的基礎注目度映像S ̄S;θs,kに基づいて、予め定められた基準において最適となるように現在の推定確率的基礎注目度母数θs,k+1を更新する。
また、推定確率的基礎注目度母数更新部64は、更新した推定確率的基礎注目度母数θs,k+1を推定確率的基礎注目度母数確定部65及び確率的基礎注目度推定部63に出力する。
推定確率的基礎注目度母数更新部64における推定確率的基礎注目度母数θs,k+1の更新方法は特に限定されるものではないが、本実施形態においては、EMアルゴリズムを用いて導出される更新方法について述べる。
現在(第k+1ステップ)の推定確率的基礎注目度母数θs,k+1=(σs1,k+1,σs2,k+1)は、基礎注目度映像 ̄S及び現在のステップにおいて上式(127)で示される推定確率的基礎注目度映像を用いて、下式(154)及び下式(155)のように算出される。
確率的基礎注目度推定部63による推定確率的基礎注目度映像S ̄S;θs,kの抽出方法おいて、確率的基礎注目度の空間的な連続性を導入している場合、現在の推定確率的基礎注目度母数θs,k+1=(σs1,k+1,σs2,k+1,σs3,k+1)は下式(156)〜(158)のように算出される。
上式(156)〜(158)において、|I|は学習画像Iの総ピクセル数を示す。
上記に述べたとおり、推定確率的基礎注目度母数更新部64は、現在の推定確率的基礎注目度母数θs,k+1を算出し、出力する。
また、推定確率的基礎注目度母数更新部64は、学習映像が複数与えられたことによって、確率的基礎注目度推定部63から複数の推定確率的基礎注目度映像が入力された場合には、それぞれの推定確率的基礎注目度映像に対して個別に推定確率的基礎注目度母数θs,k+1を更新し、最後にそれぞれ更新した推定確率的基礎注目度母数θs,k+1を平均して、推定確率的基礎注目度母数確定部65に出力する。
推定確率的基礎注目度母数確定部65は、確率的基礎注目度推定部63による推定確率的基礎注目度映像の抽出処理、及び推定確率的基礎注目度母数更新部64による推定確率的基礎注目度母数の更新処理によって得られた結果が、予め定められた基準を満たしたときに推定確率的基礎注目度母数θs,k+1を確定する。
また、推定確率的基礎注目度母数確定部65は、確定した推定確率的基礎注目度母数θs,k+1を確率的基礎注目度母数推定部6の出力である推定確率的基礎注目度母数θs,k+1として確率的基礎注目度母数逐次推定部3及び視線位置確率密度母数推定部7に出力する。
また、推定確率的基礎注目度母数確定部65は、確率的基礎注目度推定部63による推定確率的基礎注目度映像の抽出処理、及び推定確率的基礎注目度母数更新部64による推定確率的基礎注目度母数の更新処理によって得られた結果が、予め定められた基準を満たすまで繰り返し行わせる制御の機能を持つ。
推定確率的基礎注目度母数確定部65による推定確率的基礎注目度母数の確定方法は特に限定されるものではないが、本実施形態においては、推定確率的基礎注目度母数の差分に基づいた確定方法について述べる。
推定確率的基礎注目度母数確定部65は、現在(第k+1ステップ)の推定確率的基礎注目度母数θs,k+1=(σs1,k+1,σs2,k+1)が、1ステップ前(第kステップ)の推定確率的基礎注目度母数θs,k=(σs1,k,σs2,k)と比較して、ほぼ変化しなくなったと判断されたときに、確率的基礎注目度推定部63、及び推定確率的基礎注目度母数更新部64に対する処理の繰り返し要求を終了する。
そして、推定確率的基礎注目度母数確定部65は、推定確率的基礎注目度母数を現在の状態θs,k+1=(σs1,k+1,σs2,k+1)で確定する。
なお、推定確率的基礎注目度母数が変化している間は、k←k+1として、確率的基礎注目度推定部63、及び推定確率的基礎注目度母数更新部64に処理の繰り返しを要求する。
推定確率的基礎注目度母数確定部65による推定確率的基礎注目度母数の比較の基準は、特に限定されるものではなく、例えば、下式(159)〜(162)に示される比較基準のいずれかを採用するができる。また、推定確率的基礎注目度母数更新部64から入力された推定確率的基礎注目度母数θs,k+1が、採用した比較基準を満たした場合には、確率的基礎注目度推定部63、及び推定確率的基礎注目度母数更新部64に処理の繰り返し要求を終了する。
上式(159)〜(162)において、δは予め定められた閾値である。
視線位置確率密度母数推定部7は、学習用確率的基礎注目度映像抽出部70、初期推定視線位置確率密度母数設定部71、視線移動状態変数推定部72、推定視線位置確率密度母数更新部73、推定視線位置確率密度母数確定部74から構成される。
視線位置確率密度母数推定部7は、ある与えられた映像である学習映像、及び学習映像を実際に人間が視聴したときに測定した視線位置の時系列である視線位置系列、もしくはそれに加えて確率的基礎注目度母数推定部6から入力された推定確率的基礎注目度母数θs,k+1に基づいて、予め定められた基準において最適となる視線位置確率密度母数の推定値である推定視線位置確率密度母数θx,k+1を算出する。
また、視線位置確率密度母数推定部7は、算出した推定視線位置確率密度母数θx,k+1を視線位置確率密度画像抽出部4に出力する。
視線位置確率密度母数推定部7における推定視線位置確率密度母数θx,k+1の算出方法は特に限定されるものではないが、本実施形態の構成による算出方法について述べる。
学習用確率的基礎注目度映像抽出部70は、入力された学習映像から視線位置推定に必要となる母数を推定するための学習画像(フレーム)を取り出す。また、学習用確率的基礎注目度映像抽出部70は、取り出した学習画像の中で顕著な特性を持つ空間領域を示した画像である確率的基礎注目度画像を抽出する。そして、抽出した確率的基礎注目度画像の時系列である確率的基礎注目度映像を抽出し、初期推定視線位置確率密度母数設定部71、視線移動状態変数推定部72、及び推定視線位置確率密度母数更新部73に出力する。
なお、学習用確率的基礎注目度映像抽出部70による、確率的基礎注目度映像の抽出方法は、基礎注目度画像抽出部1に入力される入力映像を学習映像とし、各学習画像に対する基礎注目度画像の抽出処理と、確率的基礎注目度画像抽出部2による確率的基礎注目度画像の抽出処理とを、順次繰り返して実行した場合と同様であるため、説明を省略する。
なお、学習用確率的基礎注目度映像抽出部70は、以下に説明する処理において確率的基礎注目度映像を必要とする場合にのみ実行すればよく、必要でない場合には実行しないこともできる。
初期推定視線位置確率密度母数設定部71は、推定視線位置確率密度母数θx,k+1の初期値を設定し、設定した推定視線位置確率密度母数θx,k+1の初期値を視線移動状態変数推定部72に出力する。
初期推定視線位置確率密度母数設定部71による初期値の決定方法は特に限定されるものではないが、本実施形態においては、推定視線位置確率密度母数θx,k+1の初期値として数式(163)が与えられているとして以降の説明を行う。
視線移動状態変数推定部72は、視線位置系列、学習用確率的基礎注目度映像抽出部70から入力された確率的基礎注目度映像、及び推定視線位置確率密度母数更新部73から入力された前回の推定視線位置確率密度母数θx,k+1に基づいて、予め定められた基準において最適となるように視線移動状態変数、もしくはその確率密度を推定する。
また、視線移動状態変数推定部72は、視線移動状態変数を時系列の映像とした推定視線移動状態変数系列、もしくは確率密度を時系列の映像とした推定視線移動状態変数確率密度系列を推定視線位置確率密度母数更新部73及び推定視線位置確率密度母数確定部74に出力する。
視線移動状態変数推定部72における推定視線移動状態変数系列、もしくは推定視線移動状態変数確率密度系列の推定方法は特に限定されるものではないが、本実施形態においては、推定視線移動状態変数確率密度系列を前向き後向きアルゴリズムに基づいて推定する実施形態と、推定視線移動状態変数系列をビタビアルゴリズムに基づいて推定する実施形態について述べる。
視線移動状態変数推定部72における前向き後向きアルゴリズムに基づいた推定視線移動状態変数確率密度系列の推定は以下の通りである。
まず、ある被験者n(n=1,2,・・・,N)が学習映像を視聴したときの視線位置系列である数式(164)及び1ステップ前(第kステップ)の推定視線位置確率密度母数θx,kに基づいて、前向き確率αt,k+1(n)及び後向き確率βt,k+1(n)を、それぞれ下式(165)及び下式(166)のように算出する。
ここで、Nは被験者の総数である。上式(165)及び上式(166)に示した前向き確率及び後向き確率は、下式(167)及び下式(168)の漸化式によって順次、時刻順もしくは時刻の逆順に算出することが可能である。
このとき、前向き確率及び後向き確率を用いて、現在のステップ(第k+1ステップ)における推定視線移動状態変数確率密度系列は下式(169)〜(171)のように表される。
また、上式(169)〜(171)に示した推定視線移動状態変数確率密度系列の各要素(下式(172)及び下式(173))である推定視線移動状態確率密度を、下式(174)及び下式(175)のように算出する。
一方、視線移動状態変数推定部72におけるビタビアルゴリズムに基づいた推定視線移動状態変数系列の推定は以下の通りである。
まず、各被験者n(n=1,2,・・・,N)の視線位置系列である数式(176)(以下、「視線位置系列 ̄X」と表す)及び1ステップ前(第kステップ)の推定視線位置確率密度母数θs,kとから算出される関数である推定視線移動状態関数である数式(177)を、下式(178)のように定義する。
このとき、視線移動状態変数推定部72は、現時点(時刻t)を時刻Tとした(t=Tとした)推定視線移動状態関数である数式(179)を最大化する視線移動状態変数u(T)及び対応する推定視線移動状態関数に含まれる最大化を達成する視線移動状態変数の系列u(1:T−1)を求めることが目的となる。
そこで、下式(180)及び下式(181)の漸化式を用いることによって、推定視線移動状態関数を最大化する視線移動状態変数を順次求める。
上式(180)及び上式(181)において、数式(182)は、上述の前向き後向きアルゴリズムに基づいた推定視線移動状態変数確率密度系列の推定で説明した後向き確率βt,k+1(n)を用いて、下式(183)のように算出することができる。
上述の漸化式(上式(180)及び上式(181))を用いることで、推定視線移動状態関数である数式(184)を最大化する視線移動状態変数の系列を求め、これを現在のステップ(第k+1ステップ)の推定視線移動状態変数系列Un,k+1=uk+1(1:T)とする(下式(185)及び下式(186))。
上記に述べたとおり、視線移動状態変数推定部72は、現在のステップの推定視線移動状態変数確率密度系列pU,k+1(n)(n=1,2,・・・,N)、もしくは現在のステップの推定視線移動状態変数系列Un,k+1を算出し、これらを推定視線位置確率密度母数更新部73及び推定視線位置確率密度母数確定部74に出力する。
推定視線位置確率密度母数更新部73は、視線位置系列、学習用確率的基礎注目度映像抽出部70から入力された確率的基礎注目度映像、及び視線移動状態変数推定部72から入力された推定視線移動状態変数系列Un,k+1もしくは推定視線移動状態変数確率密度系列pU,k+1(n)(n=1,2,・・・,N)に基づいて、予め定められた基準において最適となるように現在の推定視線位置確率密度母数θx,k+1を更新する。
また、推定視線位置確率密度母数更新部73は、更新した推定視線位置確率密度母数θx,k+1を推定視線位置確率密度母数確定部74及び視線移動状態変数推定部72に出力する。
推定視線位置確率密度母数更新部73における推定視線位置確率密度母数θx,k+1の更新方法は特に限定されるものではないが、本実施形態においては、推定視線移動状態変数確率密度系列pU,k+1(n)から抽出する実施形態と、推定視線移動状態変数系列Un,k+1から抽出する実施形態について述べる。
なお、以下に説明する推定視線位置確率密度母数θx,k+1の更新方法は、いずれも、EMアルゴリズムを用いて導出される更新方法である。
推定視線位置確率密度母数更新部73において、推定視線移動状態変数確率密度系列pU,k+1(n)から推定視線位置確率密度母数θx,k+1を抽出する更新方法は、以下の通りである。
現在(第k+1ステップ)の推定視線位置確率密度母数である数式(187)は、各被験者n(n=1,2,・・・,N)の視線位置系列 ̄X及び対応する推定視線移動状態変数確率密度系列であり下式(188)及び下式(189)で示される推定視線移動状態変数確率密度系列を用いて、下式(190)〜(192)のように算出される。
一方、推定視線位置確率密度母数更新部73において、推定視線移動状態変数系列Un,k+1から推定視線位置確率密度母数θx,k+1を抽出する更新方法は、以下の通りである。
現在(第k+1ステップ)の推定視線位置確率密度母数である数式(193)は、各被験者n(n=1,2,・・・,N)の視線位置系列 ̄X及び推定視線移動状態変数系列Uk+1を用いて、上述した推定視線移動状態変数確率密度系列pU,k+1(n)から推定視線位置確率密度母数θx,k+1を抽出する更新方法とほぼ同様に、下式(194)〜(196)のように算出される。
上記の通り、推定視線位置確率密度母数更新部73は、現在のステップの推定視線位置確率密度母数θx,k+1を算出し、出力する。
推定視線位置確率密度母数確定部74は、視線移動状態変数推定部72による推定視線移動状態変数系列、もしくは推定視線移動状態変数確率密度系列の推定処理、及び推定視線位置確率密度母数更新部73による推定視線位置確率密度母数の更新処理によって得られた結果が、予め定められた基準を満たしたときに推定視線位置確率密度母数θx,k+1を確定する。
また、推定視線位置確率密度母数確定部74は、確定した推定視線位置確率密度母数θx,k+1を視線位置確率密度母数推定部7の出力である推定視線位置確率密度母数θx,k+1として視線位置確率密度画像抽出部4に出力する。
また、推定視線位置確率密度母数確定部74は、視線移動状態変数推定部72による推定視線移動状態変数系列、もしくは推定視線移動状態変数確率密度系列の推定処理、及び推定視線位置確率密度母数更新部73による推定視線位置確率密度母数の更新処理によって得られた結果が、予め定められた基準を満たすまで繰り返し行わせる制御機能を持つ。
推定視線位置確率密度母数確定部74による推定視線位置確率密度母数の確定方法は特に限定されるものではないが、本実施形態においては、推定視線位置確率密度母数の差分に基づいた確定方法について述べる。
推定視線位置確率密度母数確定部74は、現在(第k+1ステップ)の推定視線位置確率密度母数である数式(197)が、1ステップ前(第kステップ)の推定視線位置確率密度母数数式(198)と比較して、ほぼ変化しなくなったと判断されたときに、視線移動状態変数推定部72、及び推定視線位置確率密度母数更新部73に対する処理の繰り返し要求を終了する。
そして、推定視線位置確率密度母数確定部74は、推定視線位置確率密度母数を現在の状態θx,k+1で確定する。
なお、推定視線位置確率密度母数が変化している間は、k←k+1として、視線移動状態変数推定部72、及び推定視線位置確率密度母数更新部73に処理の繰り返しを要求する。
推定視線位置確率密度母数確定部74による推定視線位置確率密度母数の比較の基準は、特に限定されるものではなく、例えば、下式(199)〜(202)に示される比較基準のいずれかを採用するができる。また、推定視線位置確率密度母数更新部73から入力された推定視線位置確率密度母数θx,k+1が、採用した比較基準を満たした場合には、視線移動状態変数推定部72、及び推定視線位置確率密度母数更新部73に処理の繰り返し要求を終了する。
上式(199)〜(202)において、δは予め定められた閾値であり、ζ,ζは予め定められた定数である。
上記に述べたとおり、本第2の実施形態によれば、視線位置推定に必要となる母数を推定するための学習映像、もしくはそれに加えて学習映像を実際に人間が視聴したときに測定した視線位置の時系列である視線位置系列に基づいて、確率的基礎注目度母数Θ(t)、及び視線位置確率密度母数Θ(t)を推定することができる。
また、本第2の実施形態によれば、確率的基礎注目度推定部63における推定確率的基礎注目度映像の推定を、学習映像、もしくは視線位置系列中の各位置で独立して実行することができる。その結果、確率的基礎注目度推定部63による期待値及び標準偏差の更新処理を、複数コアを持つ計算機やGraphic Processor Unit(GPU)などの並列処理が可能な計算機上で容易に並列化することができ、処理を高速化することができる。
上記に述べたとおり、本発明を実施するための形態によれば、視線位置推定の対象となる入力映像、確率的基礎注目度母数Θ(t)、及び視線位置確率密度母数Θ(t)に基づいて、視線位置確率密度映像を出力する場合に、確率的基礎注目度母数Θ(t)を逐次更新し、視線位置推定に必要となる母数を推定するための学習映像、もしくは視線位置系列に基づいて確率的基礎注目度母数Θ(t)、及び視線位置確率密度母数Θ(t)を推定することができる。また、更新、もしくは推定された確率的基礎注目度母数Θ(t+1)を用いることによって、視線位置確率密度映像の出力を、入力映像の統計的性質に合わせることができる。
また、本発明を実施するための形態によれば、確率的基礎注目度画像抽出部2における期待値及び標準偏差の更新を、入力画像中の各位置で独立して実行することができ、確率的基礎注目度推定部63における期待値及び標準偏差の更新を、学習映像、もしくは視線位置系列中の各位置で独立して実行することができる。その結果、確率的基礎注目度画像抽出部2による期待値及び標準偏差の更新処理や確率的基礎注目度推定部63における推定確率的基礎注目度映像の推定処理を、複数コアを持つ計算機やGraphic Processor Unit(GPU)などの並列処理が可能な計算機上で容易に並列化することができ、処理を高速化することができる。
なお、本発明の第1の実施形態においては、確率的基礎注目度母数逐次推定部3を備える構成として説明、すなわち、確率的基礎注目度画像抽出部2が確率的基礎注目度画像S(t)の抽出するための確率的基礎注目度母数Θ(t)を確率的基礎注目度母数逐次推定部3によって更新する構成として説明したが、確率的基礎注目度母数逐次推定部3を備えない構成とすることもできる。その場合、確率的基礎注目度母数逐次推定部3に入力されている確率的基礎注目度母数Θ(t)を確率的基礎注目度画像抽出部2に入力し、確率的基礎注目度画像抽出部2は、入力された確率的基礎注目度母数Θ(t)に基づいて確率的基礎注目度画像S(t)を抽出することによって実現することができる。
また、本発明の第2の実施形態においても、確率的基礎注目度母数逐次推定部3を備える構成として説明したが、確率的基礎注目度母数逐次推定部3を備えない構成とすることもできる。その場合、確率的基礎注目度母数逐次推定部3に入力されている確率的基礎注目度母数Θ(t)を確率的基礎注目度画像抽出部2に入力し、確率的基礎注目度画像抽出部2は、確率的基礎注目度母数推定部6から出力される推定確率的基礎注目度母数θs,k+1を、確率的基礎注目度母数Θ(t)として、もしくは確率的基礎注目度母数Θ(t)に加えて、確率的基礎注目度画像S(t)を抽出することによって実現することができる。
次に、本発明を実施するための形態における動作例について説明する。図3〜図5は、視線位置推定の方法において、従来の方法と本発明の方法とを比較したグラフである。図3及び図4は、従来の視線位置推定による計算時間と本発明の視線位置推定による平均計算時間との比較をしたグラフである。また、図5は、従来の視線位置推定による視線位置推定の評価値と本発明の視線位置推定による視線位置推定の評価値との比較をしたグラフである。
図3〜図5の比較において、入力映像として、入力画像(フレーム)の大きさ水平方向:640×垂直方向:480ピクセル,入力映像の長さ30〜90秒の13種類の映像を用意した。また、学習映像は入力映像と同一の映像を用いた。上記に述べた各実施形態に示した記号について、実際の数値として以下の値を用いた。
φ=4,
=3,
σ=1.25,
=8,
={2,3,4},
={c+3,c+4}(c∈L),
=32×24=768,
ε=25,
μ=1.0,
=10,
α=1/t=0.1,
β=0.0025,
=8,
θ=0.25max(x,y)SP(i)(x,y)
δ=0.1,
=2
本発明の効果を確認するため、従来の方法及び本発明の方法によって得られる注目度映像がどの程度人間の視覚特性を模擬できているかを比較した。
人間の視覚特性を表現する数量として、人間が実際に入力映像を見ている際の視線の位置を採用した。6名の被験者に入力映像を提示し、既存の視線測定装置を用いて各被験者の入力映像中の注視位置を逐次測定した。各被験者について、1種類の入力映像を2回提示した。これにより、各被験者・各入力映像について、注視位置の時系列が2本獲得した。この注視位置の時系列を、時刻の整合性を保ちながら入力映像の各フレーム(すなわち入力画像)に対応付けることで、各被験者・各入力画像について2通りの注視位置を獲得した。
人間の視覚特性を模擬できているかどうかの評価尺度として、被験者の注視位置における注目度を採用した。第j番目の入力映像I(j=1,2,・・・,13)の時刻tの入力画像i(t)(t=1,2,・・・,T)について、本発明の方法により抽出された視線位置確率密度画像X(t;I)と、従来の方法により抽出された基礎注目度画像である数式(203)(以下、「基礎注目度画像 ̄S(t;I)」と表す)とを比較する。
入力映像Iに対応する被験者n(n=1,2,・・・,6)の視線位置系列を数式(204)とするとき、視線位置確率密度画像X(t;I)の評価値NSS(t;I)を下式(205)で定めた。
上式(205)において、数式(206)及びσ(X(t;I))は、入力映像Ilから抽出した視線位置確率密度画像X(t;I)のピクセル値p(x(t);I)における平均及び分散を表し、それぞれ下式(207)及び下式(208)で表す。
また、本実験においては被験者の数であるN=6である。なお、基礎注目度画像 ̄S(t;I)についても下式(209)〜(211)に示すような同様の評価値を用いた。
各手法の評価値NSSは、下式(212)に示すように、視線位置確率密度画像(もしくは基礎注目度画像)についての評価値を平均し、さらに入力映像について平均することで得ることができる。
まず、計算時間に関する従来の方法と本発明の方法との比較について説明する。なお、従来の方法として、非特許文献1に記載の方法を用いた。
図3は、従来の方法及び本発明の方法における1フレーム当たりの平均計算時間を縦軸として比較したグラフであり、図4は、各個別処理に1フレーム当たりの平均計算時間を縦軸として比較したグラフである。
また、図3及び図4は、非特許文献1に記載の方法、本発明の方法のうち代表視線位置重み係数算出部43の処理のみを並列処理した場合、本発明の方法のうち視線移動状態変数更新部41及び代表視線位置更新部42を並列処理した場合、本発明の方法による並列処理を全て実行した場合をそれぞれ横軸に並べている。
図3及び図4からわかるように、視線位置推定の計算時間を入力映像に関して平均したとき、本発明の方法による視線位置推定がより高速に処理を実行できる。
なお、図4の各方法において、各個別処理(基礎注目度画像抽出部1による基礎注目度画像 ̄S(i)の抽出処理、代表視線位置重み係数算出部43による代表視線位置重み係数集合W(t)の抽出処理、視線移動状態変数更新部41による視線移動状態確率変数集合U(t)の更新処理及び代表視線位置更新部42による代表視線位置集合V(t)の更新処理)の計算時間を合計した時間が、図3に示した各方法の計算時間である。
続いて、評価値に関する従来の方法と本発明の方法との比較について説明する。なお、従来の方法として、非特許文献1及び非特許文献3に記載の方法を用いた。
図5は、従来の方法及び本発明の方法における評価値NSSを縦軸として比較したグラフである。
また、図5は、非特許文献1に記載の方法、本発明の方法のうち代表視線位置重み係数算出部43の処理のみを並列処理した場合、本発明の方法のうち視線移動状態変数更新部41及び代表視線位置更新部42を並列処理した場合、本発明の方法による並列処理を全て実行した場合、非特許文献3に記載の方法をそれぞれ横軸に並べている。なお、本発明の方法のうち視線移動状態変数更新部41及び代表視線位置更新部42を並列処理した場合では、視線位置確率密度画像抽出部4の処理における代表視線位置集合再構成部45による代表視線位置集合V(t)の再構成処理を実施しない場合と実施する場合とを横軸に並べている。
図5からわかるように、本発明の方法による視線位置推定の評価値NSSは、非特許文献1に記載の従来の方法と比べて評価値が下がっている。しかし、代表視線位置集合再構成部45による代表視線位置集合V(t)の再構成処理を実施しない場合と実施する場合との比較からわかるように、代表視線位置集合再構成部45による代表視線位置集合V(t)の再構成が評価値を低下させていることがわかる。このことは、代表視線位置集合再構成部45による代表視線位置集合V(t)の再構成を実施しない場合には、少数の代表視線位置のサンプルが非常に大きな重み係数を持つことによって、視線位置の推定結果の正確性が損なわれる状況がしばしば見られることを示している。すなわち、非特許文献1に記載の方法で導かれた視線位置の推定結果が必ずしも正しくないことを示している。本発明の方法においては、視線位置の推定結果の正確性を担保したまま、非特許文献3に記載の方法と比べてより良い評価値を示しており、この結果は、本発明の方法の1つの効果を示すものである。
続いて、図6及び図7に本実施形態の視線位置推定装置100、もしくは視線位置推定装置200によって処理した視線位置の推定結果の一例を示す。図6及び図7では、視線位置推定の対象となる入力映像に含まれる時系列の各入力画像(各フレーム)内の各位置において、算出した人間が視線を向ける確率を示した視線位置確率密度画像X(t)の時系列の映像である視線位置確率密度映像を示している。
図6及び図7に示された視線位置確率密度映像の各画像内に存在する複数の□印は、人間が視線を向ける領域を示しており、人間が視線を向ける確率が最も高い領域から順に予め定められた優先順位までを表示している。
また、最も人間が視線を向ける確率が高い領域のみで視線位置確率密度映像の各画像を比較すると、人間が視線を向ける領域の変化を確認することができる。例えば、図6では、視線位置推定の対象となる入力映像の中で、人間が視線を向けている領域が異なる領域に移動した場合を示している。また、図7では、視線位置推定の対象となる入力映像の中で変化の大きい領域に人間の視線が向けられている場合を示している。
なお、図1に示した視線位置推定装置100や図2に示した視線位置推定装置200の各処理ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、視線位置推定装置100や視線位置推定装置200に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明の実施形態について、図面を参照して説明してきたが、具体的な構成はこの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲においての種々の変更も含まれる。
1・・・基礎注目度画像抽出部
2・・・確率的基礎注目度画像抽出部
3・・・確率的基礎注目度母数逐次推定部
4・・・視線位置確率密度画像抽出部
41・・・視線移動状態変数更新部
42・・・代表視線位置更新部
43・・・代表視線位置重み係数算出部
44・・・視線位置確率密度画像出力部
45・・・代表視線位置集合再構成部
5・・・視線位置確率密度映像出力部
6・・・確率的基礎注目度母数推定部
61・・・学習用基礎注目度映像抽出部
62・・・初期推定確率的基礎注目度母数設定部
63・・・確率的基礎注目度推定部
64・・・推定確率的基礎注目度母数更新部
65・・・推定確率的基礎注目度母数確定部
7・・・視線位置確率密度母数推定部
70・・・学習用確率的基礎注目度映像抽出部
71・・・初期推定視線位置確率密度母数設定部
72・・・視線移動状態変数推定部
73・・・推定視線位置確率密度母数更新部
74・・・推定視線位置確率密度母数確定部
100,200・・・視線位置推定装置

Claims (14)

  1. ある与えられた映像である入力映像に基づいて、該入力映像のフレーム内の各位置において人間が視線を向ける確率を示す映像である視線位置確率密度映像を算出する視線位置推定方法において、
    前記入力映像のフレームである入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出過程と、
    現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出過程によって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出過程によって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出過程と、
    現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出過程によって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出過程と、
    前記基礎注目度画像抽出過程と、前記確率的基礎注目度画像抽出過程と、前記視線位置確率密度画像抽出過程とを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力過程と、
    を有し、
    前記視線位置確率密度画像抽出過程は、
    視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出過程によって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新過程によって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新過程と、
    視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新過程によって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新過程と、
    それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前記代表視線位置更新過程によって更新された代表視線位置集合と、前記視線移動状態変数更新過程から出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出過程と、
    前記代表視線位置更新過程によって更新された代表視線位置集合と、代表視線位置重み係数算出過程によって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力過程と、
    を有し、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する、
    ことを特徴とする視線位置推定方法。
  2. 前記基礎注目度画像抽出過程によって算出された基礎注目度画像と、前回の前記入力画像から前記確率的基礎注目度画像抽出過程によって算出された前記確率的基礎注目度画像と、前記確率的基礎注目度母数とに基づいて、前記確率的基礎注目度母数を逐次推定し、推定した結果に基づいて次回の視線位置推定に用いる確率的基礎注目度母数を更新する確率的基礎注目度母数逐次推定過程、
    を更に有し、
    前記確率的基礎注目度画像抽出過程は、
    前記基礎注目度画像抽出過程によって算出された基礎注目度画像と、前回の前記入力画像から前記確率的基礎注目度画像抽出過程によって算出された前記確率的基礎注目度画像と、前記確率的基礎注目度母数逐次推定過程によって更新された確率的基礎注目度母数に基づいて確率的基礎注目度画像を算出し、
    前記視線位置確率密度映像出力過程は、
    前記基礎注目度画像抽出過程と、前記確率的基礎注目度画像抽出過程と、前記確率的基礎注目度母数逐次推定過程と、前記視線位置確率密度画像抽出過程とを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する、
    ことを特徴とする請求項1に記載の視線位置推定方法。
  3. 前記視線位置確率密度画像抽出過程は、更に、
    前記代表視線位置更新過程によって更新された代表視線位置集合、もしくは前記代表視線位置集合に加えて前記視線移動状態変数更新過程から出力された視線移動状態変数集合を、代表視線位置重み係数算出過程によって算出された代表視線位置重み係数集合が示す重み配分に基づいて、前記視線位置確率密度画像を再構成する代表視線位置集合再構成過程、
    を有することを特徴とする請求項1または請求項2に記載の視線位置推定方法。
  4. ある与えられた映像である学習映像、もしくは前記学習映像と、前記学習映像を実際に人間が視聴したときに測定した視線位置の時系列である視線位置系列とに基づいて、予め定められた基準において最適となる確率的基礎注目度母数を推定した推定確率的基礎注目度母数を算出する確率的基礎注目度母数推定過程と、
    前記学習映像及び前記視線位置系列、もしくは前記学習映像と前記視線位置系列と、前記確率的基礎注目度母数推定過程によって算出された推定確率的基礎注目度母数を事前に与えられた前記確率的基礎注目度母数として用いることによって、予め定められた基準において最適となる視線位置確率密度母数を、前記学習映像から抽出された確率的基礎注目度画像に基づいて推定した推定視線位置確率密度母数を算出する視線位置確率密度母数推定過程と、
    を更に有し、
    前記確率的基礎注目度画像抽出過程は、
    前記確率的基礎注目度母数推定過程が推定した推定確率的基礎注目度母数を前記確率的基礎注目度母数に替えた、もしくは前記確率的基礎注目度母数に前記推定確率的基礎注目度母数を加えた確率的基礎注目度母数に基づいて、前記確率的基礎注目度画像を算出し、
    前記視線位置確率密度画像抽出過程は、
    前記視線位置確率密度母数推定過程が推定した推定視線位置確率密度母数を前記視線位置確率密度母数に替えた、もしくは前記視線位置確率密度母数に前記推定視線位置確率密度母数を加えた視線位置確率密度母数に基づいて、前記視線位置確率密度画像を算出する、
    ことを特徴とする請求項1から請求項3のいずれか1の項に記載の視線位置推定方法。
  5. 前記確率的基礎注目度母数推定過程は、
    前記学習映像のフレームである学習画像に基づいて、該学習画像の中で顕著な特性を持つ空間領域の算出を順に繰り返して行うことにより、時系列の基礎注目度画像を基礎注目度映像として算出する学習用基礎注目度映像抽出過程と、
    前記推定確率的基礎注目度母数の初期値を設定する初期推定確率的基礎注目度母数設定過程と、
    前記学習用基礎注目度映像抽出過程によって算出された基礎注目度映像と、現在の前記推定確率的基礎注目度母数とに基づいて、予め定められた基準において最適となるように推定された時系列の確率的基礎注目度画像を推定確率的基礎注目度映像として算出する確率的基礎注目度推定過程と、
    前記学習用基礎注目度映像抽出過程によって算出された基礎注目度映像と、前記確率的基礎注目度推定過程によって算出された推定確率的基礎注目度映像とに基づいて、予め定められた基準において最適となるように前記推定確率的基礎注目度母数の初期値または現在の前記推定確率的基礎注目度母数を更新する推定確率的基礎注目度母数更新過程と、
    前記確率的基礎注目度推定過程と、前記推定確率的基礎注目度母数更新過程とを、予め定められた基準を満たすまで繰り返し行うことにより前記推定確率的基礎注目度母数を確定する推定確率的基礎注目度母数確定過程と、
    を有することを特徴とする請求項4に記載の視線位置推定方法。
  6. 前記視線位置確率密度母数推定過程は、
    前記推定視線位置確率密度母数の初期値を設定する初期推定視線位置確率密度母数設定過程と、
    前記学習映像、前記視線位置系列、及び現在の前記推定視線位置確率密度母数に基づいて、予め定められた基準において最適となるように推定された時系列の視線移動状態変数を推定視線移動状態変数系列、もしくは推定視線移動状態変数系列の確率密度である推定視線移動状態変数確率密度系列を算出する視線移動状態変数推定過程と、
    前記学習映像、前記視線位置系列、及び視線移動状態変数推定過程によって算出された前記推定視線移動状態変数系列もしくは前記推定視線移動状態変数確率密度系列に基づいて、予め定められた基準において最適となるように前記推定視線位置確率密度母数を更新する推定視線位置確率密度母数更新過程と、
    前記視線移動状態変数推定過程と、前記推定視線位置確率密度母数更新過程とを、予め定められた基準を満たすまで繰り返し行うことにより前記推定視線位置確率密度母数を確定する推定視線位置確率密度母数確定過程と、
    を有することを特徴とする請求項4または請求項5に記載の視線位置推定方法。
  7. ある与えられた映像である入力映像に基づいて、該入力映像のフレーム内の各位置において人間が視線を向ける確率を示す映像である視線位置確率密度映像を算出する視線位置推定装置において、
    前記入力映像のフレームである入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出部と、
    現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出部によって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出部によって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出部と、
    現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出部によって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出部と、
    前記基礎注目度画像抽出部と、前記確率的基礎注目度画像抽出部と、前記視線位置確率密度画像抽出部とによる処理を、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力部と、
    を備え、
    前記視線位置確率密度画像抽出部は、
    視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出部によって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新部によって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新部と、
    視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新部によって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新部と、
    それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前記代表視線位置更新部によって更新された代表視線位置集合と、前記視線移動状態変数更新部から出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出部と、
    前記代表視線位置更新部によって更新された代表視線位置集合と、代表視線位置重み係数算出部によって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力部と、
    を備え、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する、
    ことを特徴とする視線位置推定装置。
  8. 前記基礎注目度画像抽出部によって算出された基礎注目度画像と、前回の前記入力画像から前記確率的基礎注目度画像抽出部によって算出された前記確率的基礎注目度画像と、前記確率的基礎注目度母数とに基づいて、前記確率的基礎注目度母数を逐次推定し、推定した結果に基づいて次回の視線位置推定に用いる確率的基礎注目度母数を更新する確率的基礎注目度母数逐次推定部、
    を更に備え、
    前記確率的基礎注目度画像抽出部は、
    前記基礎注目度画像抽出部によって算出された基礎注目度画像と、前回の前記入力画像から前記確率的基礎注目度画像抽出部によって算出された前記確率的基礎注目度画像と、前記確率的基礎注目度母数逐次推定部によって更新された確率的基礎注目度母数に基づいて確率的基礎注目度画像を算出し、
    前記視線位置確率密度映像出力部は、
    前記基礎注目度画像抽出部と、前記確率的基礎注目度画像抽出部と、前記確率的基礎注目度母数逐次推定部と、前記視線位置確率密度画像抽出部とによる処理を、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する、
    ことを特徴とする請求項7に記載の視線位置推定装置。
  9. 前記視線位置確率密度画像抽出部は、更に、
    前記代表視線位置更新部によって更新された代表視線位置集合、もしくは前記代表視線位置集合に加えて前記視線移動状態変数更新部から出力された視線移動状態変数集合を、代表視線位置重み係数算出部によって算出された代表視線位置重み係数集合が示す重み配分に基づいて、前記視線位置確率密度画像を再構成する代表視線位置集合再構成部、
    を備えることを特徴とする請求項7または請求項8に記載の視線位置推定装置。
  10. ある与えられた映像である学習映像、もしくは前記学習映像と、前記学習映像を実際に人間が視聴したときに測定した視線位置の時系列である視線位置系列とに基づいて、予め定められた基準において最適となる確率的基礎注目度母数を推定した推定確率的基礎注目度母数を算出する確率的基礎注目度母数推定部と、
    前記学習映像及び前記視線位置系列、もしくは前記学習映像と前記視線位置系列と、前記確率的基礎注目度母数推定部によって算出された推定確率的基礎注目度母数を事前に与えられた前記確率的基礎注目度母数として用いることによって、予め定められた基準において最適となる視線位置確率密度母数を、前記学習映像から抽出された確率的基礎注目度画像に基づいて推定した推定視線位置確率密度母数を算出する視線位置確率密度母数推定部と、
    を更に備え、
    前記確率的基礎注目度画像抽出部は、
    前記確率的基礎注目度母数推定部が推定した推定確率的基礎注目度母数を前記確率的基礎注目度母数に替えた、もしくは前記確率的基礎注目度母数に前記推定確率的基礎注目度母数を加えた確率的基礎注目度母数に基づいて、前記確率的基礎注目度画像を算出し、
    前記視線位置確率密度画像抽出部は、
    前記視線位置確率密度母数推定部が推定した推定視線位置確率密度母数を前記視線位置確率密度母数に替えた、もしくは前記視線位置確率密度母数に前記推定視線位置確率密度母数を加えた視線位置確率密度母数に基づいて、前記視線位置確率密度画像を算出する、
    ことを特徴とする請求項7から請求項9のいずれか1の項に記載の視線位置推定装置。
  11. 前記確率的基礎注目度母数推定部は、
    前記学習映像のフレームである学習画像に基づいて、該学習画像の中で顕著な特性を持つ空間領域の算出を順に繰り返して行うことにより、時系列の基礎注目度画像を基礎注目度映像として算出する学習用基礎注目度映像抽出部と、
    前記推定確率的基礎注目度母数の初期値を設定する初期推定確率的基礎注目度母数設定部と、
    前記学習用基礎注目度映像抽出部によって算出された基礎注目度映像と、現在の前記推定確率的基礎注目度母数とに基づいて、予め定められた基準において最適となるように推定された時系列の確率的基礎注目度画像を推定確率的基礎注目度映像として算出する確率的基礎注目度推定部と、
    前記学習用基礎注目度映像抽出部によって算出された基礎注目度映像と、前記確率的基礎注目度推定部によって算出された推定確率的基礎注目度映像とに基づいて、予め定められた基準において最適となるように前記推定確率的基礎注目度母数の初期値または現在の前記推定確率的基礎注目度母数を更新する推定確率的基礎注目度母数更新部と、
    前記確率的基礎注目度推定部と、前記推定確率的基礎注目度母数更新部とを、予め定められた基準を満たすまで繰り返し行うことにより前記推定確率的基礎注目度母数を確定する推定確率的基礎注目度母数確定部と、
    を備えることを特徴とする請求項10に記載の視線位置推定装置。
  12. 前記視線位置確率密度母数推定部は、
    前記推定視線位置確率密度母数の初期値を設定する初期推定視線位置確率密度母数設定部と、
    前記学習映像、前記視線位置系列、及び現在の前記推定視線位置確率密度母数に基づいて、予め定められた基準において最適となるように推定された時系列の視線移動状態変数を推定視線移動状態変数系列、もしくは推定視線移動状態変数系列の確率密度である推定視線移動状態変数確率密度系列を算出する視線移動状態変数推定部と、
    前記学習映像、前記視線位置系列、及び視線移動状態変数推定部によって算出された前記推定視線移動状態変数系列もしくは前記推定視線移動状態変数確率密度系列に基づいて、予め定められた基準において最適となるように前記推定視線位置確率密度母数を更新する推定視線位置確率密度母数更新部と、
    前記視線移動状態変数推定部と、前記推定視線位置確率密度母数更新部とを、予め定められた基準を満たすまで繰り返し行うことにより前記推定視線位置確率密度母数を確定する推定視線位置確率密度母数確定部と、
    を備えることを特徴とする請求項10または請求項11に記載の視線位置推定装置。
  13. ある与えられた映像である入力映像に基づいて、該入力映像のフレーム内の各位置において人間が視線を向ける確率を示す映像である視線位置確率密度映像を算出する視線位置推定装置として用いられるコンピュータに、
    前記入力映像のフレームである入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出ステップと、
    現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出ステップによって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出ステップによって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出ステップと、
    現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出ステップによって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出ステップと、
    前記基礎注目度画像抽出ステップと、前記確率的基礎注目度画像抽出ステップと、前記視線位置確率密度画像抽出ステップとを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力ステップと、
    を実行させ、
    前記視線位置確率密度画像抽出ステップは、
    視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出ステップによって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新ステップによって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新ステップと、
    視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新ステップによって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新ステップと、
    それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前記代表視線位置更新ステップによって更新された代表視線位置集合と、前記視線移動状態変数更新ステップから出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出ステップと、
    前記代表視線位置更新ステップによって更新された代表視線位置集合と、代表視線位置重み係数算出ステップによって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力ステップと、
    を実行させ、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する、
    ことを特徴とするプログラム。
  14. ある与えられた映像である入力映像に基づいて、該入力映像のフレーム内の各位置において人間が視線を向ける確率を示す映像である視線位置確率密度映像を算出する視線位置推定装置として用いられるコンピュータに、
    前記入力映像のフレームである入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出ステップと、
    現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出ステップによって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出ステップによって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出ステップと、
    現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出ステップによって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出ステップと、
    前記基礎注目度画像抽出ステップと、前記確率的基礎注目度画像抽出ステップと、前記視線位置確率密度画像抽出ステップとを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力ステップと、
    を実行させ、
    前記視線位置確率密度画像抽出ステップは、
    視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出ステップによって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新ステップによって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新ステップと、
    視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新ステップによって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新ステップと、
    それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出ステップによって算出された確率的基礎注目度画像と、前記代表視線位置更新ステップによって更新された代表視線位置集合と、前記視線移動状態変数更新ステップから出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出ステップと、
    前記代表視線位置更新ステップによって更新された代表視線位置集合と、代表視線位置重み係数算出ステップによって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力ステップと、
    を実行させ、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する、
    ためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009108468A 2009-04-27 2009-04-27 視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体 Pending JP2010257344A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009108468A JP2010257344A (ja) 2009-04-27 2009-04-27 視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009108468A JP2010257344A (ja) 2009-04-27 2009-04-27 視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2010257344A true JP2010257344A (ja) 2010-11-11

Family

ID=43318153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009108468A Pending JP2010257344A (ja) 2009-04-27 2009-04-27 視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2010257344A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711239A (zh) * 2018-09-11 2019-05-03 重庆邮电大学 基于改进混合增量动态贝叶斯网络的视觉注意力检测方法
JP2020144626A (ja) * 2019-03-06 2020-09-10 東洋製罐グループホールディングス株式会社 異常検出システム、及び異常検出プログラム
CN111798457A (zh) * 2020-06-10 2020-10-20 上海众言网络科技有限公司 图像视觉重量确定方法、装置和图像评价方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711239A (zh) * 2018-09-11 2019-05-03 重庆邮电大学 基于改进混合增量动态贝叶斯网络的视觉注意力检测方法
CN109711239B (zh) * 2018-09-11 2023-04-07 重庆邮电大学 基于改进混合增量动态贝叶斯网络的视觉注意力检测方法
JP2020144626A (ja) * 2019-03-06 2020-09-10 東洋製罐グループホールディングス株式会社 異常検出システム、及び異常検出プログラム
JP7348588B2 (ja) 2019-03-06 2023-09-21 東洋製罐グループホールディングス株式会社 異常検出システム、及び異常検出プログラム
CN111798457A (zh) * 2020-06-10 2020-10-20 上海众言网络科技有限公司 图像视觉重量确定方法、装置和图像评价方法

Similar Documents

Publication Publication Date Title
JP5235770B2 (ja) 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体
US11468262B2 (en) Deep network embedding with adversarial regularization
US10600185B2 (en) Automatic liver segmentation using adversarial image-to-image network
Ostrovski et al. Autoregressive quantile networks for generative modeling
US10503978B2 (en) Spatio-temporal interaction network for learning object interactions
CN108140146B (zh) 使用绝热量子计算机的离散变分自动编码器系统和方法
Svensén et al. Robust Bayesian mixture modelling
Charles et al. Dynamic Filtering of Time-Varying Sparse Signals via $\ell _1 $ Minimization
JP6569047B1 (ja) 学習方法、コンピュータプログラム、分類器、及び生成器
CN108287904A (zh) 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
US11288851B2 (en) Signal change apparatus, method, and program
CN111881926A (zh) 图像生成、图像生成模型的训练方法、装置、设备及介质
US20220122378A1 (en) Data-driven, photorealistic social face-trait encoding, prediction, and manipulation using deep neural networks
CN106408550A (zh) 一种改进的自适应多字典学习的图像超分辨率重建方法
CN103679641A (zh) 深度图像增强方法和装置
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
JP6832252B2 (ja) 超解像装置およびプログラム
JP2010257344A (ja) 視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体
EP4343680A1 (en) De-noising data
US20190156182A1 (en) Data inference apparatus, data inference method and non-transitory computer readable medium
Akpabio et al. Uncertainty quantification of machine learning models: on conformal prediction
CN113077383B (zh) 一种模型训练方法及模型训练装置
JP2010257341A (ja) 適応型視線位置推定方法、適応型視線位置推定装置、プログラム、及び記録媒体
Lu et al. Generalized competitive learning of Gaussian mixture models
Xun et al. Sparse estimation of historical functional linear models with a nested group bridge approach