JP2019126425A - 推定装置、その方法、及びプログラム - Google Patents

推定装置、その方法、及びプログラム Download PDF

Info

Publication number
JP2019126425A
JP2019126425A JP2018008252A JP2018008252A JP2019126425A JP 2019126425 A JP2019126425 A JP 2019126425A JP 2018008252 A JP2018008252 A JP 2018008252A JP 2018008252 A JP2018008252 A JP 2018008252A JP 2019126425 A JP2019126425 A JP 2019126425A
Authority
JP
Japan
Prior art keywords
time
point
model
saccade
true
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018008252A
Other languages
English (en)
Other versions
JP6821611B2 (ja
Inventor
遼平 渋江
Ryohei Shibue
遼平 渋江
惇 米家
Makoto Yoneya
惇 米家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018008252A priority Critical patent/JP6821611B2/ja
Publication of JP2019126425A publication Critical patent/JP2019126425A/ja
Application granted granted Critical
Publication of JP6821611B2 publication Critical patent/JP6821611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Eye Examination Apparatus (AREA)

Abstract

【課題】アイトラッカーによって計測された注視点の時系列から注視点の生成モデルのパラメータを推定する技術を提供する。【解決手段】時刻tの人の真の注目点は、時刻t近傍にサッカードが発生する場合は時刻t-1の真の注目点を当該サッカードの方向及び大きさに応じて移動させた位置とし、時刻t近傍にサッカードが発生しない場合は時刻t-1の真の注目点をランダムな方向及び大きさに応じて移動させた位置とし、時刻tの人の注視点の遅れは、AR(2)モデルに従うものとし、時刻tの人の真の注視点は、時刻tの真の注目点を時刻tの注視点の遅れにより補正した位置とし、実際に計測される時刻tの注視点を、上記時刻tの真の注視点にノイズが加わったものとしてモデル化したものを注視点の生成モデルとして、対象者の眼の動きを計測して得た注視点の時系列から、注視点の生成モデルのモデルパラメータを推定する。【選択図】図5

Description

本発明は、ヒトの注視点の時系列をモデル化した注視点モデルのパラメータを推定する技術に関する。
サリエンシーマップは、視覚刺激に対するボトムアップ性の注意を表現するための計算論的なモデルであり、元画像の色や輝度といった特徴から2 次元のグレースケール画像として計算される。サリエンシーマップによって画像の中で人が視線を向けやすい箇所を知ることができるため、計算論的神経科学に限らない様々な分野で研究されている。
非特許文献1には、サリエンシーマップという概念について詳しく記載されている。非特許文献1では、サリエンシーマップの中で最も値が大きい箇所に視線が向くと仮定されている。この仮定はWinner take allルールと呼ばれており、このルールに従うと我々の視線は画像情報のみから決定論的に決まることとなる。
C. Koch and S. Ullman, "Shifts in selective visual attention: towards the underlying neural circuitry", Human Neurobiology, vol. 4, pp. 219-27, 1985.
しかしながら、非特許文献1で用いられているWinner take allルールは、我々が画像を見たときにいつも同じ箇所に着目するとは限らないという点で、現実に即していない。さらに、Winner take all ルールではサリエンシーマップの最大値のみに意味を見出すため、各画素に割り当てられた絶対値や異なる画素間の値の比に解釈を与えることができない。
ここで挙げた問題は、従来のサリエンシーマップが「画像の情報のみ」から計算されるあくまで計算論的なモデルであることに起因する。これらの問題を解決するためには、画像を見ているときの注意状態を代替するような教師データを用意し、教師付き学習を行う必要がある。
そこで本発明では、サリエンシーマップがサッケード生成に関連の深い上丘に表象されているという知見をもとに、サリエンシーマップを点過程モデルを用いてモデル化し、アイトラッカーによって計測された注視点の時系列からサリエンシーマップのモデルパラメータを簡便に推定する推定装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、推定装置は、サッカードの時系列は、各サッカードの特徴量をマークとするマーク付き点過程で生成されるものとし、時刻tの人の真の注目点は、時刻t近傍にサッカードが発生する場合は時刻t-1の真の注目点を当該サッカードの方向及び大きさに応じて移動させた位置とし、時刻t近傍にサッカードが発生しない場合は時刻t-1の真の注目点をランダムな方向及び大きさに応じて移動させた位置とし、時刻tの人の注視点の遅れは、AR(2)モデルに従うものとし、時刻tの人の真の注視点は、時刻tの真の注目点を時刻tの注視点の遅れにより補正した位置とし、実際に計測される時刻tの注視点を、上記時刻tの真の注視点にノイズが加わったものとしてモデル化したものを注視点の生成モデルとして、対象者の眼の動きを計測して得た注視点の時系列から、注視点の生成モデルのモデルパラメータを推定するモデル推定部を含む。
本発明によれば、アイトラッカーによって計測された注視点の時系列から注視点モデルのモデルパラメータを簡便に推定することができるという効果を奏する。
マーク付き点過程から生成された標本の例を示す図。 サッカードがmovement fieldに向かって発生したタイミングでそのニューロンが発火するイメージを示す図。 ニューロンの配置と受容野の中心位置との対応関係を示す図。 真の注視点を、真の注目点arと注視点の遅れsrとに分解のイメージを示す図。 第一実施形態に係る推定装置の機能ブロック図。 第一実施形態に係る推定装置の処理フローの例を示す図。 事後期待値とその解釈の例を示す図。 被験者のデータの1反復目の推定結果を示す図。 被験者のデータの11反復目の推定結果を示す図。 被験者のデータから計算した注視点の頻度分布と、サリエンシーマップにサポートベクター回帰を適用して得られた初期値とを表す図。 被験者のデータの11反復目の推定結果を示す図。 第一実施形態の変形例に係る推定装置の機能ブロック図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」「~」「-」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<サリエンシーマップのモデル>
まず、サリエンシーマップのモデルについて説明する。
人がある一枚の画像を見ており、その間の注視点の時系列がアイトラッカーによって計測されている状況を想定する。本実施形態では、アイトラッカーによって計測された眼球が向いている位置を「注視点」、人が真に注目している位置を「注目点」と呼び分けることにする。本実施形態の目的は、画像情報を用いることで「注視点」の軌跡から眼球運動による遅れの成分やノイズ成分を除去し、「注目点」の軌跡を推定することである。この推定の際に、「注目点」の軌跡に影響を与える潜在変数としてサリエンシーマップが同時に計算される。
本実施形態では、注視点の時系列を生成モデルで表現し、その事後分布を推定する。
<サリエンシーマップの条件付き強度関数による定義>
従来のサリエンシーマップは、サッカードの行き先になりやすい地点で値が大きくなるように定義されている(参考文献1参照)。
(参考文献1)L. Itti, C. Koch and E. Niebur, "A Model of Saliency-Based Visual Attention for Rapid Scene Analysis", IEEE Transactions on Pattern Analysis and Machie Intelligence, vol. 20, pp. 1254-1259, 1998.
そこで本実施形態では、このサリエンシーマップの考え方に則り、各地点のサリエンシーの値をその地点に向かうサッカードの発生頻度によって定義することにする。
サッカードは、眼球運動に含まれる跳躍性のジャンプのことであり、瞬間的に発生する運動である。そのため、その時系列は瞬間的に発生するイベントを並べたような時系列となる。統計的モデリングの枠組みにおいては、このようなランダムに生起するイベントの時系列を記述するための確率過程として点過程がよく用いられている。とくに各イベントが何らかの特徴量をもつ場合はマーク付き点過程が用いられる。マーク付き点過程とは、各イベントにマークとよばれる特徴量が付加された系列の確率的構造を記述するための確率過程であり、モデリングの対象としては地震や為替取引等が挙げられる。図1にマーク付き点過程から生成された標本の例を示す。図1では、横軸が時刻を表し、縦軸が所定のマークを表す。サッカードの時系列をマーク付き点過程とみなす場合は、サッカードの発生時刻をイベントの発生時刻、サッカードの振幅・方向・到着地点などの特徴量をマークとみなすことができる。
点過程モデリングを行う場合、データから点過程の確率的構造を推定することが目標となる。しかしながら、その確率密度関数を直接推定するのは難しい。これは、点過程が定義される距離空間の構造が複雑であり、尤度の計算が困難であることに起因する。したがって、点過程によって時系列データのモデリングを行う場合は、確率密度関数を推定するかわりに条件付き強度関数と呼ばれる関数を推定することが多い。
条件付き強度関数は、過去の履歴があたえられたもとでの単位時間あたりに発生するイベントの数の期待値に相当する関数である。具体的には
と定義される。ただし、Nは計数測度、κ∈Κは各イベントに付加されたマーク、Htは時刻tまでの履歴である。このHtは、t以前に発生したイベントの情報や同時に観測された共変量の値など、全ての情報を含んでもよい。
この条件付き強度関数によって、ほとんどの点過程の確率的構造は一意に決定されるため(例えば参考文献2参照)、点過程の推定を行う際は条件付き強度関数を推定することを考えれば十分である。
(参考文献2)D. J. Daley and D. Vere-Jones, "An Introduction to The Theory of Point Processes", Springer Science and Business Media, New York, 2003.
本実施形態では、サッカードのベクトルをマークとするようなマーク付き点過程からサッカードの系列が生成されていると仮定する。今回の問題設定では画像という時間的に定常な刺激を呈示しているため、サッカードの発生も時間的に定常であるとする。すなわち、条件付き強度関数が
と分解できるとし、サッカードの発生を示す関数λ(t|Ht)が定常であるとする。ただし、条件付き強度関数それ自体が確率過程である。このとき、λS(κ|Ht)はサッカードが画像平面上のどの地点に向かって発生しやすいかを説明する項であり、サリエンシーマップに対応する関数となる。
次に、λS(κ|Ht)としてどのような関数が適しているかを考察する。本実施形態では、サッカード生成に関連の深い中脳の上丘を参考にλS(κ|Ht)の形を決めることにする。上丘にはある特定の振幅・方向のサッカードが発生したときのみに発火するという性質をもつニューロンが存在する。すなわち、各ニューロンは視野上でmovement field(図2中、MFと表す)と呼ばれるある特定の領域をもち、サッカードがその領域に向かって発生したタイミングでそのニューロンが発火する。図2にそのイメージ図を示す。図中、spike trainはニューロンの発火状態を示し、scan pathは注視点を示す。また、それらのニューロンの配置(motor map on SC)は各々が反応する振幅・方向に空間的に対応したマップをなしていることが知られている。図3にその対応関係を示す。図3では上丘におけるニューロンの配置と受容野の中心位置は空間的に対応している。このような対応関係を根拠に、サリエンシーマップが上丘に表象されているといわれることもある。
サリエンシーマップが上丘によって表象されている場合、サリエンシーマップは上丘ニューロンの受容野(ニューロンの神経応答に変化を生じるような刺激が提示される空間の領域)を足し合わせた形で表現されていると考えられる。本実施形態では、この生理学的な知見を参考に、λS(κ|Ht)を次のようなガウシアンカーネルの非負結合によって表すことにする。
ただし、
であり、cjは発火頻度、μjは受容野の中心位置、Λjは受容野の広がり具合を表すパラメータである。とくに、cjについては過去のサッカードの履歴Htに依存してよいとする。また、xt-は時刻t直前での注視点である。時刻tでサッカードが発生した場合は、xt-はサッカードの発生地点、κ+xt-はサッカードの到着地点に対応する。
以上が本実施形態におけるサリエンシーマップの定義である。ここで、サリエンシーマップを条件付き強度関数によって定義することの利点を補足しておく。条件付き強度関数によってサリエンシーマップを定義する最大の利点は、サリエンシーの値がサッカードの頻度になっているという点である。したがって、Winner take allルールで説明できないような注視点の確率的な挙動を説明することができる。さらに、異なる画素間の値の比や、異なる画像における値の比に意味を与えることができる。例えば、A地点のサリエンシー値がB 地点のサリエンシー値の2倍である場合、A地点の方がB地点よりも2倍注視されやすいと解釈できる。さらに、サリエンシーマップを上丘ニューロンの発火活動の強度関数と直接対応付けることも可能である。
画像の情報については、次のように利用する。事前に、従来手法で計算されたサリエンシーマップ画像Sに対してガウシアンカーネルを用いたサポートベクター回帰により、{(cjjj)}J j=1を推定しておく。ただし、条件付き強度関数は非負である必要があるため、サポートベクター回帰を適用する際は重み係数-cjについて非負制約を導入する。事後分布の推定の段階では、事前に推定しておいたパラメータのうち{(μjj)}J j=1を固定したハイパーパラメータとしてそのまま利用する。また、{cj}J j=1は、cj(Ht)を推定する際の事前分布として利用する。
<注視点の生成モデル>
観測時間をT、アイトラッカーのサンプリング回数をRとし、サンプリング間隔をΔt = T/Rとする。アイトラッカーによって計測された注視点をxr∈R2,r=1,…,Rとし、人が真に着目している点の位置(つまり、注目点)をar∈R2,r=1,…,Rとする。この注目点arは、普段は連続的に変化しつつ、注意の対象が遷移した際に大きくジャンプするとする。本実施形態では、この瞬間的な注目点のジャンプをサッカードと呼ぶことにする。
ここで、κrを、時刻rにサッカードが発生した場合はそのサッカードのベクトル、発生しなかった場合は空集合{}(ただし、式中では、空集合を
とも表記する)をとる確率変数とする。このκrを用いて、注目点arが次のようなジャンプを伴うランダムウォークに従って生成されているとする。
このような仮定のもとで、注目点arは不連続な時系列となる。つまり、時刻r毎の人の真の注目点arは、1時刻前の真の注目点ar-1を基準として、時刻rの近傍(時刻r-1〜時刻rの間)にサッカードが発生する場合はサッカードの方向及び大きさ(つまり、サッカードのベクトルκr)に応じて移動させた位置とし、時刻rの近傍にサッカードが発生しない場合はランダムな方向及び大きさへ移動させた位置となるようモデル化される。言い換えれば、時刻rの近傍にサッカードが発生しない場合はランダムウォークur〜N(0,U)により移動先の位置が生成されるものとしてモデル化される。
しかしながら、眼球の物理的な制約上、注視点は瞬間的に移動することはない。なぜならば、我々がある点を注目しようと思い立ったのちに注視点がその点に移動するまでには、筋肉が眼球を動かす分の遅れが生じるからである。そこで、この眼球運動の制約によって生じる注目点arからの注視点の遅れをsrで表すことにし、時刻毎の人の注視点の遅れsrは、次のようなAR(2)モデルによって生成されると仮定され、モデル化される。
ただし、F1、F2は眼球運動の特性を決めるパラメータである。
このもとで、真の注視点の軌跡はar+srによって表される。つまり、真の注視点は、真の注目点arを注視点の遅れsrにより補正した位置としてモデル化される。図4に分解のイメージを示す。そして、実際に計測される注視点は、真の注視点ar+srにノイズwrが加わたものとして次のようにモデル化される。
次に、サッカード{κr}がどのように生成されるかを考える。本実施形態では、<サリエンシーマップの条件付き強度関数による定義>で説明したとおり、サッカードが(2)式および(3)式の条件付き強度関数によって定義されるマーク付き点過程から生成されていると仮定する。ただし、観測が離散的であるため、条件付き強度関数は離散時間で定義されることに注意する。いま、サッカードが発生した直後は、新たなサッカードは発生しにくく、かつそのサッカードの行き先は発生直前の注視点に依存すると考えられる。そこで、サッカードがサリエンシーマップのどの混合成分に向かって発生したものかを示す潜在変数
を導入し、{(κr,jr)}が次のようなマーク付き点過程から生成されていると想定する。
ただし、r*は時刻r以前で発生した最後(直近)のサッカードの発生時刻のインデックスであり、i*はそのサッカードがどの混合成分に向かって発生したものかを示すインデックスである。r以前で発生したサッカードがない場合はr*=0とする。A={Aij}は確率推移行列であり、サッカードが発生したもとでそのサッカードが混合成分iから混合成分jに向かうものである確率がAijに対応する。また、πjは最初に発生したサッカードが向かう混合成分がjである確率である。h(・)はサッカードが短い時間間隔で発生しないようにするための修正項であり、本実施形態では負の二項分布のハザード関数
を用いる。ただし、
であり、θは発生間隔の平均を、mはサッカード直後の発生しにくさを操作するパラメータである。とくに、m=1のとき負の二項分布は幾何分布と一致しハザードは定数となる。
さらに、A,πおよびθについては次のような事前分布を設定する。
ただし、
であり、{(cjjj)}は事前にサポートベクター回帰によって計算しておいたパラメータである。また、α0は画像情報の事前分布への反映度合いを調節するパラメータであり、事前に適切な値を設定しておく。
以上が本実施形態における生成モデルの定義である。最後に、モデルをまとめておく。
<事後分布の推定>
推定のステップでは、(10)式のモデルのもとでの潜在変数の事後分布およびハイパーパラメータを推定することが目標となる。その推定の方法を順を追って説明する。まずはじめに、(10)式の生成モデルを扱いが容易なモデルに書き換える。次に、書き換えたモデルのもとで、事後分布の近似を求める方法を説明する。最後に得られた事後分布をどう解釈すればよいかを述べる。
<スイッチング線形ガウス状態空間モデルへの帰着>
上述の(10)式の生成モデルは、等価な隠れセミマルコフ・スイッチング線形ガウス状態空間モデルに変形することができる。このようなモデルに書き換えることで、変分ベイズの枠組みで潜在変数の事後分布を推定することが可能となる。
サッカードがどの混合成分に向けて発生したかを示す潜在変数{jr}R r=1のかわりとして、新たな潜在変数{zr}R r=1
と定義する。ただし、j(r+1)^*は時刻r+1以前に発生した最後のサッカードが、どの混合成分に向かって発生したものかを示すインデックスである。なお、上付き添え字及び下付き添え字におけるA^BはABを意味し、A_BはABを意味するものとする。また、{zr}R r=1に関連する事象について
と表記することにする。以上の定義のもとで、{zr}R r=1は推移確率が
であり、初期確率が
であるセミマルコフ過程に従う。
次に、{(xr,ar,srr)}R r=1の生成モデルを書き換える。書き換えの際のポイントはκrを消すことである。
ここで、新たな変数を以下のように定める。
このように変数を定義すると、{(xr,br)}R r=1の生成モデルを次のような線形状態空間モデルに書き換えることができる。
したがって、(10)式の生成モデルは、背後にセミマルコフ過程に従う潜在変数が存在し、その潜在変数に従って局所的に線形ガウス状態空間モデルをつなげた形で表すことができる。このようなモデルをスイッチング線形状態空間モデルとよぶ。
最後に、(10)式を書き換えたモデルをまとめておく。
<変分ベイズ>
以降、表記の簡単のため
とする。
推定のステップでは、xが与えられたもとでのb,z,φの事後分布を計算することが目標となる。しかしながら、モデルの構造が複雑であるため、真の事後分布を解析的に計算することができない。そこで、本稿では変分ベイズの枠組みを用いて、真の事後分布の近似を計算することにする。
変分ベイズとは、計算が簡単になるようにあらかじめ指定しておいた分布族の中から、真の事後分布とのKLダイバージェンスが最小になるような分布を求め、その分布を真の事後分布の近似とする方法である。いま、xの周辺対数尤度log p(x|ψ)は、任意の分布q(b,z,φ)を用いて
と分解できる。ただし、KL(q||p(b,z,φ|x,ψ))はq(b,z,φ)と真の事後分布p(b,z,φ|x,ψ)との間のKLダイバージェンスである。(19)式の一行目の左辺がqに依存しないことより、L(q)の最大化とKLダイバージェンスの最小化は一致する。とくに、qが真の事後分布p(b,z,φ|x,ψ)と一致する場合にL(q)は最大値をとる。
したがって、事後分布の近似qを求める際は、真の事後分布とのKLダイバージェンスの最小化を考えるかわりに、L(q)の最大化を考えれば良い。しかしながら、任意の分布qについてL(q)を計算するのは困難である。そこで、L(q)の計算が簡単な分布の族Qを指定し、この分布族の中でL(q)が最大となる分布を求めることにする。すなわち、事後分布の推定を次のような最適化問題を解くことに帰着させる。
本実施形態ではこの分布族Qとして、独立性制約
を満たす分布の族を指定する。このような制約を導入することにより、座標降下法によってL(q)の最適化を効率的に行うことができる。具体的には、q(b)の更新にカルマンスムーザ、q(z)の更新にforward-backwardアルゴリズムが利用できる。さらに、q(φ)の更新も解析的な最適解を導出できる。また、ψについてL(q)を最大化することにより、これらのハイパーパラメータをもデータから決定することが可能である。
以下、上述の処理を実現する推定装置について説明する。
<第一実施形態に係る推定装置>
注視点の時系列を入力として、注視点モデルのパラメータを推定する推定装置について説明する。
推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
図5は第一実施形態に係る推定装置の機能ブロック図を、図6はその処理フローの例を示す図である。
推定装置は、モデル推定部101と出力部170とを含む。
モデル推定部101は、初期設定部110と、第1更新部120と、第2更新部130と、第3更新部140と、第4更新部150と、制御部160とを含む。
<<モデル推定部101>>
[入力]:アイトラッカーにより計測された注視点の時系列xr(r=1,2,…,R)
[出力]:モデルパラメータの推定結果q(b),q(z),q(φ),ψ
[処理]:モデル推定部101は、アイトラッカーにより計測された注視点(対象者の眼の動きを計測して得た注視点)の時系列xr(r=1,2,…,R)を入力として、(17)式により表される注視点の時系列モデルの各パラメータb,z,φ,ψの事後分布を推定することにより、注視点の時系列モデル(学習済みモデル)を求める。
例えば、独立性制約
を満たす分布族の下で、
のL(q)が最大となる事後分布を求める。
以下、モデル推定部101の具体的な処理について説明する。
〔初期設定部110〕
初期設定部110は、q(b,z,φ),ψに適当な初期値を設定し(S110)、出力する。このとき、q(b,z,φ)については、(21)式
を満たすようにq(b),q(z),q(φ)を与える。ここで、q(b),q(z),q(φ)は、以後の処理で更新の際に用いる各変数の事後期待値が計算できるような分布を与える。例えば、各分布を更新する際に更新先となる分布と、同じ形の分布となるようにパラメータを決定する。本実施形態では、
q(b):正規分布
q(φ):q(A)とq(π)はディリクレ分布、q(θ)はベータ分布
となるようにパラメータを決定する。なお、q(z)は、離散確率変数なので、どのような値でもよい。
〔第1更新部120〕
第1更新部120は、q(z),q(φ),ψを入力とし、q(z),q(φ),ψが与えられているもとで、(19)式のL(q)を最大にするq(b)を求め、q(b)の値を求めた値で更新する(S120)。例えば、初回の処理では初期設定部110で設定したq(z),q(φ),ψを用い、2回目以降の処理ではそれぞれ第2更新部130、第3更新部140、第4更新部150で更新した最新のq(z),q(φ),ψを用いる。以下に例を示す。
q(z),q(φ)およびψが与えられているもとで、L(q)を最大にするq(b)は
となる。ここで、b以外の変数についての完全対数尤度の事後期待値は、次のような線形ガウス状態空間モデルの対数尤度と一致する。
ただし、~Fr,~or,~Prは、
であり、{ξrj}r=1,…,R,j=1,…,Jは、
である。したがって、通常の線形ガウス状態空間モデルと同様、カルマンスムーザを適用することによってq(b)が計算可能である。既存のカルマンスムーザを適用することができるため、その詳細は省略する。
〔第2更新部130〕
第2更新部130は、q(b),q(φ),ψを入力とし、q(b),q(φ),ψが与えられているもとで,(19)式のL(q)を最大にするq(z)を求め、q(z)の値を求めた値で更新する(S130)。例えば、初回の処理では初期設定部110で設定したq(φ),ψと第1更新部120で更新したq(b)を用い、2回目以降の処理ではそれぞれ第1更新部120、第3更新部140、第4更新部150で更新した最新のq(b),q(φ),ψを用いる。以下に例を示す。
q(b),q(φ)およびψが与えられているもとで,L(q)を最大にするq(z)は
となる。ここで、z以外の変数についての完全対数尤度の事後期待値は、次のようなセミマルコフ過程の対数尤度と一致する。
ただし、
であり、これらの事後期待値は解析的に計算可能である。
したがって、隠れセミマルコフモデルの推定に用いられるforward-backwardアルゴリズムを適用することによってq(z)が計算可能である。forward-backwardアルゴリズムでは、次式で定義されるforward-message(α,α*)およびbackward-message(β,β*)を再起的に計算する。
ただし、orは時刻rでの観測に対応する変数である。計算されたメッセージを用いることで、zrの事後分布を得ることができる。具体的な更新式の詳細については、参考文献3等を参照されたい。
(参考文献3)S. Z. Yu, "Hidden semi-Markov models. Articial intelligence", vol. 174, pp. 215-243, 2010.
しかしながら、通常のforward-backwardアルゴリズムに必要な計算量はO(J2R2)であり、時系列の長さRが長いときは望ましくない。そこで、本実施形態では参考文献4で提案された手法を用いて計算量を削減する。
(参考文献4)M. J. Johnson and A. S. Willsky, "Stochastic Variational Inference for Bayesian Time Series Models", International Conference on Machine Learning, 2014.
この手法の主なアイディアは、(27)式の隠れセミマルコフモデルを等価な隠れマルコフモデルへ変換するというものである。
ここで、新たな潜在変数-zr
とし、
とする。ただし、
とする。以上の設定のもとで、対数尤度が
と表されるマルコフ過程を考えると、
となる(参考文献5参照)。
(参考文献5)M. J. Johnson, "Bayesian time series models and scalable inference", PhD thesis, Massachusetts Institute of Technology, 2014.
すなわち、{-zr}R r=1の分布が得られれば、{zr}R r=1の分布も得られるということになる。とくに、 ̄zrについてのforward-message -αおよびbackward-message -βを
とすれば、(α,α*,β,β*)および(-α,-β)には
という関係が成り立つ。
以上のような関係性を利用してq(z)の更新を行う。まず、隠れマルコフモデルにおけるforward-backwardアルゴリズムを用いて-zrについてのメッセージ(-α,-β)を計算する。そして、その結果を用いてzrについてのメッセージ(α,α*,β,β*)を計算し、q(z)をそのメッセージに対応する分布に更新する。隠れマルコフモデルのforward-backwardアルゴリズムに必要な計算量はO((mJ)2R)であるため、この更新は時系列の長さRについて高々線形時間で済む。
〔第3更新部140〕
第3更新部140は、q(b),q(z),ψが与えられているもとで、(19)式のL(q)を最大にするq(φ)を求め、q(φ)の値を求めた値で更新する(S140)。例えば、初回の処理では初期設定部110で設定したψと、それぞれ第1更新部120、第2更新部130で更新したq(b)、q(z)を用い、2回目以降の処理ではそれぞれ第1更新部120、第3更新部140、第4更新部150で更新した最新のq(b),q(φ),ψを用いる。
q(b),q(z)およびψが与えられているもとで、L(q)を最大にするq(φ)は
となる。
以降、それぞれの項についての更新式を示す。まず、q(Ai),i= 1,…,Jを
と更新する。ただし、
である。
また、q(π)を
と更新する。ただし、
である。
さらに、q(θ)を
と更新する。ただし、
である。このようにして更新したq(Ai)、q(π)、q(θ)を用いて、(36)式によりq(φ)を更新する。
〔第4更新部150〕
第4更新部150は、q(b),q(z),q(φ)を入力とし、q(b),q(z),q(φ)に基づいて、ハイパーパラメータU,V,Wを更新する(S150)。例えば、それぞれ第1更新部120、第2更新部130、第3更新部140で更新した最新のq(b),q(z),q(φ)を用いる。
ハイパーパラメータそれぞれについての更新式を示す。まず、Uを
により更新する。
また、Vを
により更新する。
さらに、Wを
により更新する。
更新したU,V,Wを用いて、ΨとΩを
と設定し、このΨとΩを用いた行列方程式
の解fを求める。ただし、vecはベクトル化作用素であり、vec(Ω)はΩの各行ベクトルを並べたベクトルに対応する。この解fを用いて、F1,F2
により、更新する。
以上の更新式は各パラメータについてL(q)を最大にするものとなっているが、外れ値に強いロバストな手法によって置き換えてもよい。
以上の処理により、ハイパーパラメータψ=(U,V,W,F1,F2)を更新することができる。
〔制御部160〕
制御部160は、所定の終了条件を満たすまで第1更新部120〜第4更新部150を繰り返し実行させる(S160)。例えば、予め定めた繰り返し回に達したことを終了条件とし、所定の繰り返し回数に到達するまで第1更新部120〜第4更新部150を繰り返し実行させるよう制御する。
或いは、第1更新部120によりq(b)を更新する前のq(b),q(z),q(φ),ψに基づいて計算されるL(q)と、第1更新部120〜第4更新部150により更新された後のq(b),q(z),q(φ),ψに基づいて計算されるL(q)の差が所定の閾値以下となることを終了条件とし、それまで第1更新部120〜第4更新部150を繰り返し実行させるよう制御する。
要するに、十分L(q)が大きくなるまで(L(q)が最大化に近づくまで)第1更新部120〜第4更新部150を繰り返し実行させればよい。
〔出力部170〕
出力部170は、所定の終了条件を満たした時点のパラメータをモデルパラメータの推定結果q(b),q(z),q(φ),ψとして出力する(S170)。
<効果>
以上の構成により、アイトラッカーによって計測された注視点の時系列からサリエンシーマップのモデルパラメータを簡便に推定することができる。
また、変分事後分布qについての潜在変数の事後期待値や推定されたハイパーパラメータを観察することで、注視点の時系列に含まれる様々な情報を得ることができる。例えば、ar+srの事後期待値を計算することで注視点からノイズを除去した時系列が得られる。とくに、背後にある注視点のジャンプの性質を加味した雑音除去がなされているという点で、通常の平滑化に比べて有用である。また、Aの事後期待値から、被験者の注意遷移の振る舞いを観察できる。具体的には、Aの事後期待値についてマルコフクラスタリングアルゴリズムを適用することで、条件付き強度関数を表現するために用いたガウシアンカーネルをいくつかのクラスタに分割できる。分割されたカーネルのクラスタそれぞれをオブジェクトだとみなすことで、画像内に存在する注意を引く対象の数を同定することも可能である。図7に代表的なものについての解釈を示す。
<シミュレーション結果>
参考文献6のデータセットに第一実施形態を適用した結果を示す。このデータは、被験者が画像を見ている間の3秒間の注視点の軌跡をアイトラッカーによって計測したものである。
(参考文献6)T. Judd, K. Ehinger, F. Durand and A. Torralba, "Learning to predict where humans look", IEEE International Conference on Computer Vision, 2009
このデータセットに含まれるひとつの画像のデータについて、第一実施形態を適用した。 15人の被験者のデータのうち、4人の被験者の注視点の時系列データに対して本実施形態を適用した。図8にある被験者のデータの1反復目の推定結果を、図9に11反復目の推定結果を示す。「Saccade delay」の縦方向の破線は、推定したサッカードの発生時刻を示す。最初の反復では、ノイズによって多くの偽のサッカードが推定されてしまっているものの、反復を繰り返すことによって真のサッカードのみを分離することができているのが見て取れる。また、図10は推定に用いた4人を含む15人の被験者のデータから計算した注視点の頻度分布と、参考文献1のサリエンシーマップにサポートベクター回帰を適用して得られた初期値とを表す。図11は11反復目の推定結果を示す。本実施形態を適用することで、11反復目の推定結果が初期値よりも注視点の頻度分布に近い画像となっているのが見て取れる。
<変形例>
本実施形態では、q(b),q(z),q(φ),ψの順で、パラメータを更新しているが、更新の順番は変更してもよい。初期設定部110で設定した初期値、または、更新した最新のパラメータを用いて、第1更新部120、第2更新部130、第3更新部140、第4更新部150においてパラメータを更新すればよい。
また、推定装置は、サッカード発生時刻推定部181、注視点系列推定部182、注目点系列推定部183、注目範囲推定部184、サリエンシーマップ生成部185と、の少なくともいずれかをさらに含む構成としてもよい(図12参照)。
例えば、サッカード発生時刻推定部181は、モデル推定部101で学習したモデルパラメータの推定結果q(b),q(z),q(φ),ψを入力とし、これらの値に基づいて、
により、サッカードの発生時刻を推定し、出力する。
注視点系列推定部182は、モデル推定部101で学習したモデルパラメータの推定結果q(b),q(z),q(φ),ψを入力とし、これらの値に基づいて、
により、注視点の時系列の推定結果を求め、出力する。
注目点系列推定部183は、モデル推定部101で学習したモデルパラメータの推定結果q(b),q(z),q(φ),ψを入力とし、これらの値に基づいて、
により、注目点の時系列の推定結果を求め、出力する。
注目範囲推定部184は、モデル推定部101で学習したzの事後分布q(z)に基づいて、注目範囲または注目対象の推定結果を求め、出力する。例えば、どの混合成分に向かってサッカードが発生したかを示すzの事後分布と、受容野の中心位置{μj} j=1 Jと、受容野の広がり具合{Λj} j=1 Jと、から、注目範囲または注目対象の推定結果を求めことができる。
サリエンシーマップ生成部185は、モデル推定部101で学習したモデルパラメータの推定結果q(b),q(z),q(φ),ψを入力とし、これらの値に基づいて、
により、サリエンシーマップを生成し、出力する。
出力部170は、サリエンシーマップのモデルパラメータの推定結果、サッカードの発生時刻、注視点の時系列の推定結果、注目点の時系列の推定結果、注目範囲または注目対象の推定結果、サリエンシーマップ、の少なくとも何れかを入力とし、推定装置及び出力部170は、少なくとも何れかを出力する。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. サッカードの時系列は、各サッカードの特徴量をマークとするマーク付き点過程で生成されるものとし、
    時刻tの人の真の注目点は、時刻t近傍にサッカードが発生する場合は時刻t-1の真の注目点を当該サッカードの方向及び大きさに応じて移動させた位置とし、時刻t近傍にサッカードが発生しない場合は時刻t-1の真の注目点をランダムな方向及び大きさに応じて移動させた位置とし、
    時刻tの人の注視点の遅れは、AR(2)モデルに従うものとし、
    時刻tの人の真の注視点は、前記時刻tの真の注目点を前記時刻tの注視点の遅れにより補正した位置とし、
    実際に計測される時刻tの注視点を、上記時刻tの真の注視点にノイズが加わったものとしてモデル化したものを注視点の生成モデルとして、
    対象者の眼の動きを計測して得た注視点の時系列から、前記注視点の生成モデルのモデルパラメータを推定するモデル推定部を含む、
    推定装置。
  2. 請求項1記載の推定装置であって、
    前記モデル推定部で学習したモデルパラメータに基づいて、サッカードの発生時刻を推定するサッカード発生時刻推定部と、
    前記モデル推定部で学習したモデルパラメータに基づいて、注視点の時系列の推定結果を求める注視点系列推定部と、
    前記モデル推定部で学習したモデルパラメータに基づいて、注目点の時系列の推定結果を求める注目点系列推定部と、
    前記モデル推定部で学習したモデルパラメータに基づいて、注目範囲または注目対象の推定結果を求める注目範囲推定部と、
    前記モデル推定部で学習したモデルパラメータに基づいて、サリエンシーマップを生成するサリエンシーマップ生成部と、の少なくともいずれかをさらに含む、
    推定装置。
  3. 請求項1記載の推定装置であって、
    κrを、時刻rにサッカードが発生した場合はそのサッカードのベクトル、発生しなかった場合は空集合をとる確率変数とし、jrを時刻rにおけるサッカードがサリエンシーマップのどの混合成分に向かって発生したものかを示す潜在変数とし、Hrを時刻rまでの履歴とし、Sをサリエンシーマップ画像とし、r*を時刻r以前で発生した最後のサッカードの発生時刻とし、時刻r以前に発生したサッカードがない場合はr*=0とし、arを時刻rにおける真の注目点とし、srを時刻rにおける注視点の遅れとし、hNBをサッカードが短い時間間隔で発生しないようにするための修正項とし、i*を時刻r以前で発生した最後のサッカードがどの混合成分に向かって発生したものかを示すものとし、
    前記生成モデルは、

    により与えられる、
    ことを特徴とする推定装置。
  4. 請求項3記載の推定装置であって、
    j(r+1)^*を時刻r+1以前に発生した最後のサッカードが、どの混合成分に向かって発生したものかを示すものとし、
    前記生成モデルは、

    により与えられる、
    ことを特徴とする推定装置。
  5. 請求項4記載の推定装置であって、

    とし、q(b,z,φ)を任意の事後分布とし、p(b,z,φ|x,ψ)を真の事後分布とし、前記モデル推定部は、次式により与えられるL(q)が大きくなるように、事後分布q(b),q(z),q(φ),ψを繰り返し更新することにより前記モデルパラメータを学習する、

    ことを特徴とする推定装置。
  6. サッカードの時系列は、各サッカードの特徴量をマークとするマーク付き点過程で生成されるものとし、
    時刻tの人の真の注目点は、時刻t近傍にサッカードが発生する場合は時刻t-1の真の注目点を当該サッカードの方向及び大きさに応じて移動させた位置とし、時刻t近傍にサッカードが発生しない場合は時刻t-1の真の注目点をランダムな方向及び大きさに応じて移動させた位置とし、
    時刻tの人の注視点の遅れは、AR(2)モデルに従うものとし、
    時刻tの人の真の注視点は、前記時刻tの真の注目点を前記時刻tの注視点の遅れにより補正した位置とし、
    実際に計測される時刻tの注視点を、上記時刻tの真の注視点にノイズが加わったものとしてモデル化したものを注視点の生成モデルとして、
    対象者の眼の動きを計測して得た注視点の時系列から、前記注視点の生成モデルのモデルパラメータを推定するモデル推定ステップを含む、
    推定方法。
  7. 請求項1から請求項5の何れかの推定装置としてコンピュータを機能させるためのプログラム。
JP2018008252A 2018-01-22 2018-01-22 推定装置、その方法、及びプログラム Active JP6821611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018008252A JP6821611B2 (ja) 2018-01-22 2018-01-22 推定装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018008252A JP6821611B2 (ja) 2018-01-22 2018-01-22 推定装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019126425A true JP2019126425A (ja) 2019-08-01
JP6821611B2 JP6821611B2 (ja) 2021-01-27

Family

ID=67471458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018008252A Active JP6821611B2 (ja) 2018-01-22 2018-01-22 推定装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6821611B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039778A (ja) * 2009-08-11 2011-02-24 Nippon Hoso Kyokai <Nhk> 動画像コンテンツ評価装置およびコンピュータプログラム
US20160005176A1 (en) * 2013-02-27 2016-01-07 Thomson Licensing Method and device for calibration-free gaze estimation
JP2017215963A (ja) * 2016-05-30 2017-12-07 日本電信電話株式会社 注目範囲推定装置、学習装置、それらの方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039778A (ja) * 2009-08-11 2011-02-24 Nippon Hoso Kyokai <Nhk> 動画像コンテンツ評価装置およびコンピュータプログラム
US20160005176A1 (en) * 2013-02-27 2016-01-07 Thomson Licensing Method and device for calibration-free gaze estimation
JP2016515242A (ja) * 2013-02-27 2016-05-26 トムソン ライセンシングThomson Licensing 校正不要な注視点推定の方法と装置
JP2017215963A (ja) * 2016-05-30 2017-12-07 日本電信電話株式会社 注目範囲推定装置、学習装置、それらの方法およびプログラム

Also Published As

Publication number Publication date
JP6821611B2 (ja) 2021-01-27

Similar Documents

Publication Publication Date Title
Paul et al. Deep learning on a data diet: Finding important examples early in training
US10762443B2 (en) Crowdsourcing system with community learning
Kalayeh et al. Training faster by separating modes of variation in batch-normalized models
Li et al. Active feature acquisition with generative surrogate models
Agudelo-España et al. Bayesian online prediction of change points
US20210406765A1 (en) Partially-observed sequential variational auto encoder
CN111783997B (zh) 一种数据处理方法、装置及设备
Scherr et al. Best practices in deep learning-based segmentation of microscopy images
US8250003B2 (en) Computationally efficient probabilistic linear regression
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
Friebe et al. Adaptive runtime estimate of task execution times using bayesian modeling
Kim et al. Incremental expectation maximization principal component analysis for missing value imputation for coevolving EEG data
JP6821611B2 (ja) 推定装置、その方法、及びプログラム
Fotiadis et al. Disentangled generative models for robust prediction of system dynamics
Schaefer On the Emergence of Cooperation in the Repeated Prisoner's Dilemma
Varandas et al. Evaluation of spatial-temporal anomalies in the analysis of human movement
Mousavi et al. Researching advanced deep learning methodologies in combination with reinforcement learning techniques
Gong Advances in approximate inference: combining VI and MCMC and improving on Stein discrepancy
Gerych et al. Positive unlabeled learning with a sequential selection bias
Zand Multimodal probabilistic reasoning for prediction and coordination problems in machine learning
Ergün et al. Impact of missing data on classification success in health and comparative analysis of imputation methods
Wang Emergent Representations in Reinforcement Learning and Their Properties
Hénaff Testing a mechanism for temporal prediction in perceptual, neural, and machine representations
Flet-Berliac Sample-efficient deep reinforcement learning for control, exploration and safety
Bing et al. Context-Based Meta-Reinforcement Learning with Bayesian Nonparametric Models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210106

R150 Certificate of patent or registration of utility model

Ref document number: 6821611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150