JP6377566B2 - 視線計測装置、視線計測方法、およびプログラム - Google Patents
視線計測装置、視線計測方法、およびプログラム Download PDFInfo
- Publication number
- JP6377566B2 JP6377566B2 JP2015086667A JP2015086667A JP6377566B2 JP 6377566 B2 JP6377566 B2 JP 6377566B2 JP 2015086667 A JP2015086667 A JP 2015086667A JP 2015086667 A JP2015086667 A JP 2015086667A JP 6377566 B2 JP6377566 B2 JP 6377566B2
- Authority
- JP
- Japan
- Prior art keywords
- person
- image
- face
- field
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
- Eye Examination Apparatus (AREA)
Description
本発明は、人物の瞳孔データと注視点とを関連付ける技術に関する。
瞳孔または虹彩などの眼に関するデータ(「瞳孔データ」と呼ぶ)を計測するためのセンサ(「瞳孔センサ」と呼ぶ)、および視野画像を撮影する可視光カメラ(「視野カメラ」と呼ぶ)を用い、瞳孔データから注視点を推定する視線計測技術が知られている。多くの視線計測技術では、人物の瞳孔データと、視野画像中でその人物が注視している点の座標(「注視点座標」と呼ぶ)とを関連付ける「射影関数」が学習される(視線校正)。視線校正が済めば、得られた瞳孔データをこの射影関数に適用することで注視点座標が得られる。
多くの視線計測技術では、利用者が視野画像内の既知座標の点を注視し、そのときの瞳孔データを取得して射影関数を学習する。しかしながら、この方法では学習に手間がかかる。
一方、射影関数の学習を自動化する技術が知られている。例えば、非特許文献1には、人物が映画等の映像を一定時間視聴した際のその人物の各時刻におけるその人物の瞳孔画像と映像の視覚的特徴量を入力とし、人がどのような低次の視覚的特徴を持った領域を注視しやすいかを確率で表す顕著性マップを用い、射影関数を学習する方法が提案されている。
Y. Sugano, Y. Matsushita, and Y. Sato, "Appearance-based gaze estimation using visual saliency," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 35, no. 2, pp. 329-341, 2013.
複数の人間の間で対話が行われる場合、誰かが発言したらその人を見るというように、話者が誰であるかが注視行動に影響を与えることが多い。しかしながら、非特許文献1の方法は映像を一定時間視聴した際の視覚情報のみに基づいて学習を行うものであり、話者が誰であるかが注視行動に影響を与える場合の学習精度が十分ではない。
本発明の課題は、話者が誰であるかが注視行動に影響を与える場合の射影関数を精度よく自動学習することである。
第一の人物の瞳孔データを取得し、第一の人物の視野の画像を取得し、第一の人物の視野の画像における話者である第二の人物の顔中心座標を取得し、第一の人物の視野の画像における第二の人物の顔中心座標と第一の人物の瞳孔データとを用いて、瞳孔データと注視点とを関連付ける射影関数を求める。
これにより、話者が誰であるかが注視行動に影響を与える場合の射影関数を精度よく自動学習できる。
以下、図面を参照して本発明の実施形態を説明する。
<構成>
図1に例示するように、本形態のシステムは、視野カメラ12−1〜12−N、瞳孔センサ13−1〜13−N、マイクロホン14−1〜14−N、および視線計測装置11−1〜11−Nを有し、視線計測装置11−1〜11−Nはネットワークを通じて通信可能に構成されている。ただし、Nは2以上の整数であり、例えばN≧3である。
<構成>
図1に例示するように、本形態のシステムは、視野カメラ12−1〜12−N、瞳孔センサ13−1〜13−N、マイクロホン14−1〜14−N、および視線計測装置11−1〜11−Nを有し、視線計測装置11−1〜11−Nはネットワークを通じて通信可能に構成されている。ただし、Nは2以上の整数であり、例えばN≧3である。
図2Aに例示するように、本形態の視線計測装置11−1は、データ取得部111−1、顔追跡部112−1、射影関数学習部113−1、視野画像座標系注視点推定部114−1、顔座標系注視点推定部115−1、データ収集部116−1、話者検出部117−1、および顔テンプレート作成部118−1を有する。図2Bに例示するように、本形態のその他の視線計測装置11−i(ただし、i=2,・・・,N)は、データ取得部111−i、顔追跡部112−i、射影関数学習部113−i、視野画像座標系注視点推定部114−i、および顔座標系注視点推定部115−iを有する。
図3Aに例示するように、本形態の顔追跡部112−n(ただし、n=1,・・・,N)は、並進・スケール成分推定部112a−n、画像面内角成分推定部112b−n、水平・垂直角成分推定部112c−n、顔中心画像座標推定部112d−n、および記憶部112e−nを有する。図3Bに例示するように、本形態の顔テンプレート作成部118−1は、正面顔検出部118a−1、平均瞳孔画像生成部118b−1、テクスチャ画像選択部118c−1、顔中心座標取得部118d−1、顔座標系変換部118e−1、および記憶部118f−1を有する。
各装置は、例えば、通信装置、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)、およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。例えば、スマートフォン端末装置、パーソナルコンピュータ端末装置、サーバ装置、専用の電子機器等によって視線計測装置11−1〜11−Nが構成される。
本形態では、同じ場所(例えば、会議室等)に集まった複数人の人物(対話者)10−1〜10−N(図1)が対話を行う。人物10−1〜10−Nからなる集合を「対話グループ」と呼ぶ。各人物10−n(ただし、n=1,・・・,N)は、視野カメラ12−n、瞳孔センサ13−n、およびマイクロホン14−nを装着する。各人物10−nは、これらをどのような形態で装着しても構わない。例えば、各人物10−nが、これらが固定されたヘルメットを装着してもよいし、これらが埋め込まれたメガネを装着してもよい。視野カメラ12−nは、人物10−nの視野の画像を撮影するための可視光カメラである。「人物10−nの視野の画像」は、人物10−nの視野内の領域を含んだ画像であればよく、人物10−nの視野と厳密に一致した領域の画像である必要はない。視野カメラ12−nは、1台の可視光カメラのみを備えていてもよいし(単眼カメラ)、複数台の可視光カメラ(例えば2台でステレオ視が可能なカメラ)を備えていてもよい。瞳孔センサ13−nは、人物10−nの瞳孔データを取得するセンサである。「瞳孔データ」とは、瞳孔または虹彩などの眼に関するデータである。「瞳孔データ」の例は、瞳孔または虹彩などの眼の所定部分の位置(座標や角度等)を特定するためのデータ、形状を特定するためのデータ、色彩や模様を特定するためのデータ、またはこれらのうち複数を特定するためのデータである。本形態では、瞳孔センサ13−nとして可視光カメラを用いる例を説明する。しかしながら、目付近の皮膚の電圧変化を利用する接触型の筋電センサなど他のセンサを瞳孔センサ13−nとして用いてもよい。なお、瞳孔センサ13−nとして可視光カメラを用いる場合、瞳孔センサ13−nが1台の可視光カメラのみを備えていてもよいし、複数台の可視光カメラを備えていてもよい。マイクロホン14−nは人物10−nが発した音声を取得するためのものである。視野カメラ12−nまたは瞳孔センサ13−nがマイクロホン14−nを備えていてもよい。
各視線計測装置11−nは各人物10−n(ただし、n=1,・・・,N)に対応する。データ取得部111−n、顔追跡部112−n、射影関数学習部113−n、視野画像座標系注視点推定部114−n、および顔座標系注視点推定部115−nは、各人物10−nに対して用意されており、それぞれが独立に動作する。一方、データ収集部116−1、話者検出部117−1、および顔テンプレート作成部118−1は、対話グループ全体に対して用意されており、対話グループ全体のために動作する。
<処理>
本形態の処理は、射影関数を学習する学習処理と、得られた射影関数を用いた推定処理とからなる。以下では、本形態の学習処理を説明した後、推定処理の説明を行う。
《学習処理》
図4を用いて本形態の学習処理を説明する。学習処理では、対話グループでなされた対話に基づく対話データを一定時間収集した後、それらを用い、瞳孔データと注視点とを関連付ける射影関数を学習する。
本形態の処理は、射影関数を学習する学習処理と、得られた射影関数を用いた推定処理とからなる。以下では、本形態の学習処理を説明した後、推定処理の説明を行う。
《学習処理》
図4を用いて本形態の学習処理を説明する。学習処理では、対話グループでなされた対話に基づく対話データを一定時間収集した後、それらを用い、瞳孔データと注視点とを関連付ける射影関数を学習する。
[データ取得処理]
対話グループの人物10−1〜10−Nによる対話の様子は、視野カメラ12−1〜12−N、瞳孔センサ13−1〜13−N、マイクロホン14−1〜14−Nによってリアルタイムに収録される。すなわち、視野カメラ12−nは人物10−nの視野の画像を取得し、瞳孔センサ13−nは人物10−nの両目の瞳孔および虹彩を含む画像を取得し、マイクロホン14−nは人物10−nの音声を取得する。これらのデータは、データ取得部111−nに送られる。
対話グループの人物10−1〜10−Nによる対話の様子は、視野カメラ12−1〜12−N、瞳孔センサ13−1〜13−N、マイクロホン14−1〜14−Nによってリアルタイムに収録される。すなわち、視野カメラ12−nは人物10−nの視野の画像を取得し、瞳孔センサ13−nは人物10−nの両目の瞳孔および虹彩を含む画像を取得し、マイクロホン14−nは人物10−nの音声を取得する。これらのデータは、データ取得部111−nに送られる。
データ取得部111−nは、前処理として、瞳孔センサ13−nで得られた画像を瞳孔データに変換する。本形態のデータ取得部111−nは、例えば、瞳孔センサ13−nで得られた画像中の瞳孔中心の画像座標(「瞳孔座標」と呼ぶ)を計算する。瞳孔センサ13−nは人物10−nに装着(固定)されている。そのため、瞳孔センサ13−nで得られた画像における人物10−nの眼領域(瞳孔および虹彩の領域)の位置や大きさはさほど変化することはなく、左右の瞳孔の大きさや座標はおよそ一定範囲に収まる。このため、本形態では、その範囲内において、大きさが事前に決められた範囲内の楕円を一般化ハフ変換により検出し、それを瞳孔画像znとし、その中心座標を瞳孔座標ynとする。なお、瞳孔座標の座標系は、瞳孔センサ13−nで得られた画像の座標系である。この瞳孔座標はyn∈RDと表される。ただし、RDはD次元(Dは正の整数)の実数を表す。例えば、瞳孔座標が左右の目それぞれの瞳孔中心の水平座標及び垂直座標からなる場合、D=4である。本形態では左右の目の瞳孔座標および瞳孔画像の組(yn,zn)を「瞳孔データ」とする。また、データ取得部111−nは、正確な時刻を取得でき、視野カメラ12−nで得られた視野の画像のデータ、瞳孔データ(yn,zn)、マイクロホン14−nで得られた音声のデータにタイムスタンプを付す。タイムスタンプが付された視野カメラ12−nで得られた視野の画像のデータをvn,jと表記し、瞳孔データ(yn,zn)を(yn,j,zn,j)と表記し、マイクロホン14−nで得られた音声のデータをan,jと表記する。ただし、jは時間を表すインデックスである。jに対応する時刻を時刻jと表記する。学習処理では、これらのデータのことを「学習データ」と呼ぶ。データ取得部111−nは、視野の画像vn,j、瞳孔データ(yn,j,zn,j)、および音声のデータan,jをデータ収集部116−1に送る。
[データ収集処理]
データ収集部116−1は、各データ取得部111−n(ただし、n=1,・・・,N)から送られた全人物10−1〜10−Nのデータを一定時間長分収集し、内部の記憶部(図示せず)に格納する。まずデータ収集部116−1は、収集された各データに付与されたタイムスタンプをもとに同期を行う。例えば、データ収集部116−1は、ある一つのデータ取得部111−nから送られたデータのタイムスタンプを基準とし、その時刻に最も近いデータを、その他のデータ取得部111−n’(ただし、n’≠nかつn’=1,・・・,N)から送られたデータから選択し、それらを同期させる。この同期処理はオフラインで行われる。説明の便宜上、同じ添え字jに対応するデータは互いに同じ時刻のデータとして同期されるとする。同期された視野の画像vn,j、瞳孔データ(yn,j,zn,j)、および音声のデータan,jは、データ収集部116−1内部の記憶部(図示せず)に格納される。
データ収集部116−1は、各データ取得部111−n(ただし、n=1,・・・,N)から送られた全人物10−1〜10−Nのデータを一定時間長分収集し、内部の記憶部(図示せず)に格納する。まずデータ収集部116−1は、収集された各データに付与されたタイムスタンプをもとに同期を行う。例えば、データ収集部116−1は、ある一つのデータ取得部111−nから送られたデータのタイムスタンプを基準とし、その時刻に最も近いデータを、その他のデータ取得部111−n’(ただし、n’≠nかつn’=1,・・・,N)から送られたデータから選択し、それらを同期させる。この同期処理はオフラインで行われる。説明の便宜上、同じ添え字jに対応するデータは互いに同じ時刻のデータとして同期されるとする。同期された視野の画像vn,j、瞳孔データ(yn,j,zn,j)、および音声のデータan,jは、データ収集部116−1内部の記憶部(図示せず)に格納される。
[顔テンプレート作成処理]
顔テンプレート作成部118−1は、データ収集部116−1から視野の画像vn,jおよび瞳孔データ(yn,j,zn,j)を受け取り、視野の画像中で各人物10−nの顔を追跡するための各人物10−nの顔テンプレートtem(n)(ただし、n=1,・・・,N)を作成する。本形態では、三次元の形状モデル3Dmod(n)と人物10−nの顔のテクスチャ画像tex(n)からなる顔テンプレートtem(n)を作成する。顔テンプレートtem(n)は、顔のテクスチャ画像tex(n)、およびテクスチャ画像tex(n)の顔中心の二次元座標cnt(n)∈R2を形状モデル3Dmod(n)上の三次元座標x0 (n)∈R3に変換したものを含む。形状モデル3Dmod(n)には任意の形状を用いることが可能であり、円柱、楕円、人の平均顔形状などを使用すればよい。本形態では円柱を形状モデル3Dmod(n)として用いる。
顔テンプレート作成部118−1は、データ収集部116−1から視野の画像vn,jおよび瞳孔データ(yn,j,zn,j)を受け取り、視野の画像中で各人物10−nの顔を追跡するための各人物10−nの顔テンプレートtem(n)(ただし、n=1,・・・,N)を作成する。本形態では、三次元の形状モデル3Dmod(n)と人物10−nの顔のテクスチャ画像tex(n)からなる顔テンプレートtem(n)を作成する。顔テンプレートtem(n)は、顔のテクスチャ画像tex(n)、およびテクスチャ画像tex(n)の顔中心の二次元座標cnt(n)∈R2を形状モデル3Dmod(n)上の三次元座標x0 (n)∈R3に変換したものを含む。形状モデル3Dmod(n)には任意の形状を用いることが可能であり、円柱、楕円、人の平均顔形状などを使用すればよい。本形態では円柱を形状モデル3Dmod(n)として用いる。
テクスチャ画像tex(n)は各人物10−nを正面方向から撮影した顔画像である。本形態はテクスチャ画像tex(n)を用意する方法にも特徴がある。本形態では、ある人物10−nのテクスチャ画像tex(n)を、その人物10−n以外の人物10−n”(ただし、n”≠nかつn”=1,・・・,N)が装着する視野カメラ12−n”により撮影された視野の画像vn”,jから作成する。すなわち、本形態の人物10−nの顔テンプレートtem(n)は、人物10−n以外の人物10−n”の視野の画像vn”,jを用いて作成された人物10−nの顔のテクスチャ画像tex(n)を利用して作成される。人物10−n”は、顔テンプレートtem(n)を利用して人物10−nの顔を追跡する視線計測装置に対応する人物であってもよいし、その他の人物であってもよい。この点、環境中に固定されたカメラにより撮影された画像を用いてテクスチャ画像を得る従来の方法と異なる。
本形態のテクスチャ画像tex(n)の生成方法を詳細に説明する。まず、顔テンプレート作成部118−1(図3B)の正面顔検出部118a−1が、データ収集部116−1から学習データ中のすべての視野の画像vn,j(ただし、n=1,・・・,N)を受け取る。正面顔検出部118a−1は、人物10−nの顔のテクスチャ画像tex(n)の候補(「候補画像」と呼ぶ)として、受け取ったすべての視野の画像vn,jから左右の目を含む正面を向いた顔(正面顔)の画像を抽出し、記憶部118f−1に格納する。正面顔画像の抽出は、例えば、正面顔を用いて学習された物体検出器(Haar-like特徴にもとづくカスケード型物体検出器。例えば、参考文献1「P. Viola and M. J. Jones, “Robust Real-Time Face Detection,” Int’l J. Computer Vision, 57(2), pp. 137-154, 2004.」等参照)、および、左右の目を用いて学習された同物体検出器を用いて行う。
これらの検出された正面顔画像は、人物10−nの正面顔画像ではない可能性がある。このため、これらの候補画像の中から人物10−nの正面顔画像を抽出する必要がある。そのため、まず平均瞳孔画像生成部118b−1が、データ収集部116−1から人物10−nのすべての瞳孔データ(yn,j,zn,j)の瞳孔画像zn,jを抽出する。平均瞳孔画像生成部118b−1は、左右の目の瞳孔画像zn,jをそれぞれ平均化した平均瞳孔画像mean(zn)を作成し、記憶部118f−1に格納する。次いで、テクスチャ画像選択部118c−1が、記憶部118f−1に格納された候補画像から前述のように左右の目の瞳孔画像を抽出し、平均瞳孔画像mean(zn)に最も類似する瞳孔画像を持つ候補画像をテクスチャ画像tex(n)として選択する。類似度を測る尺度としては、例えば、ピアソンの積率相関係数を用いればよい。テクスチャ画像選択部118c−1は、この人物10−nのテクスチャ画像tex(n)を人物10−nの識別子IDnと対応付けて記憶部118f−1に格納する。識別子IDnは例えば整数であり、異なる人物10−nには異なる識別子IDnが対応付けられる。これにより、識別子IDnによってテクスチャ画像tex(n)を特定できる。このように、人物10−nの瞳孔データ(yn,j,zn,j)をもとに、人物10−n以外の人物10−n”の視野の画像vn”,jから人物10−nの顔画像を検出し、検出された顔画像から人物10−nの顔のテクスチャ画像tex(n)を作成する。さらに、顔中心座標取得部118d−1が、抽出されたテクスチャ画像tex(n)の左右の目の画像座標の重心(二次元座標)を、そのテクスチャ画像tex(n)の顔中心の二次元座標cnt(n)として記憶部118f−1に格納する。
顔座標系変換部118e−1は、中心座標が(0,0,0)であり、x軸がテクスチャ画像tex(n)の水平軸に一致し、y軸がテクスチャ画像tex(n)の垂直軸および円柱である形状モデル3Dmod(n)の中心軸(回転軸)に一致し、z軸がテクスチャ画像tex(n)の面外方向(x−y平面に直交する方向)に一致する座標系を定める。また顔座標系変換部118e−1は、テクスチャ画像tex(n)から検出した顔の幅を円柱である形状モデル3Dmod(n)の直径(2r)とする。さらに顔座標系変換部118e−1は、上述のテクスチャ画像tex(n)の顔中心の二次元座標cnt(n)を三次元座標x0 (n)∈R3に変換し、記憶部118f−1に格納する。三次元座標x0 (n)の(x座標値,y座標値)=(x,y)は、二次元座標cnt(n)=(cx (n),cy (n))からテクスチャ画像tex(n)の画像中心座標(ox (n),oy (n))を引いた座標(x,y)=(cx (n)−ox (n),−cy (n)+oy (n))であり、z座標値は(r2−x2)1/2である。この形状モデル3Dmod(n)の座標系のことを顔座標系と呼ぶ。
以上の処理が各人物10−nに対して実行され、テクスチャ画像tex(n)およびその顔中心の三次元座標x0 (n)を含む各人物10−nの顔テンプレートtem(n)=(tem(n),x0 (n))が記憶部118f−1に格納される。
[話者検出処理]
話者検出部117−1は、データ収集部116−1から学習データである音声のデータan,jを取得し、これらを用いて各時刻jにおいて発話している人物(話者)を特定する。各時刻jの話者10−ujを表す値をuj∈{1,・・・,N}と表記する。各時刻jで発話している人数は常に一名と仮定してもよいし、そのような仮定を置かなくともよい。話者が常に一名と仮定する場合は、各時刻jにおいてパワーが最大となる音声のデータaα,j(ただし、α∈{1,・・・,N})に対応する人物10−αを話者10−ujとすればよい。そのような仮定を置かない場合は、人物10−nの音声のデータan,jが事前に人物10−nごとに定められた閾値thnを超えていれば、その人物10−nを話者10−ujとすればよい。閾値thnの設定方法に制限はないが、例えば、学習データ中の音声のデータan,jのパワーの時系列を、人物10−nごとに、平均0、標準偏差1となるよう標準化し、その標準化で用いたスケーリング係数の逆数に一定の値(例えば0.5)を乗じた値を閾値thnとすればよい。
話者検出部117−1は、データ収集部116−1から学習データである音声のデータan,jを取得し、これらを用いて各時刻jにおいて発話している人物(話者)を特定する。各時刻jの話者10−ujを表す値をuj∈{1,・・・,N}と表記する。各時刻jで発話している人数は常に一名と仮定してもよいし、そのような仮定を置かなくともよい。話者が常に一名と仮定する場合は、各時刻jにおいてパワーが最大となる音声のデータaα,j(ただし、α∈{1,・・・,N})に対応する人物10−αを話者10−ujとすればよい。そのような仮定を置かない場合は、人物10−nの音声のデータan,jが事前に人物10−nごとに定められた閾値thnを超えていれば、その人物10−nを話者10−ujとすればよい。閾値thnの設定方法に制限はないが、例えば、学習データ中の音声のデータan,jのパワーの時系列を、人物10−nごとに、平均0、標準偏差1となるよう標準化し、その標準化で用いたスケーリング係数の逆数に一定の値(例えば0.5)を乗じた値を閾値thnとすればよい。
[顔追跡処理]
顔テンプレート作成部118−1は、各時刻jの話者を表す値ujを入力とし、話者である人物10−b(ただし、b=uj)の顔テンプレートtem(b)を顔追跡部112−nに出力する。顔テンプレートtem(b)はすべての顔追跡部112−nに出力されてもよいし、人物10−bを除く人物10−a(ただし、a=1,・・・,Nかつa≠b)に対応する顔追跡部112−aのみに出力されてもよい。また、データ収集部116−1は、学習データに含まれる人物10−nの視野の画像vn,jを顔追跡部112−nに出力する。視野の画像vn,jはすべての顔追跡部112−nに出力されてもよいし、人物10−bを除く人物10−aに対応する顔追跡部112−aのみに出力されてもよい。顔追跡部112−aは、人物10−aの視野の画像va,jおよび人物10−bの顔テンプレートtem(b)を用い、人物10−aの視野の画像va,jにおける話者である人物10−bの顔中心座標Ma,j (b)を取得する。この処理を顔追跡と呼ぶ。以下では、テンプレートマッチングを用いて顔追跡を行う例を説明する。ただし、これは本発明を限定するものではなく、他の物体追跡方法を用いても構わない。
顔テンプレート作成部118−1は、各時刻jの話者を表す値ujを入力とし、話者である人物10−b(ただし、b=uj)の顔テンプレートtem(b)を顔追跡部112−nに出力する。顔テンプレートtem(b)はすべての顔追跡部112−nに出力されてもよいし、人物10−bを除く人物10−a(ただし、a=1,・・・,Nかつa≠b)に対応する顔追跡部112−aのみに出力されてもよい。また、データ収集部116−1は、学習データに含まれる人物10−nの視野の画像vn,jを顔追跡部112−nに出力する。視野の画像vn,jはすべての顔追跡部112−nに出力されてもよいし、人物10−bを除く人物10−aに対応する顔追跡部112−aのみに出力されてもよい。顔追跡部112−aは、人物10−aの視野の画像va,jおよび人物10−bの顔テンプレートtem(b)を用い、人物10−aの視野の画像va,jにおける話者である人物10−bの顔中心座標Ma,j (b)を取得する。この処理を顔追跡と呼ぶ。以下では、テンプレートマッチングを用いて顔追跡を行う例を説明する。ただし、これは本発明を限定するものではなく、他の物体追跡方法を用いても構わない。
本形態では、顔追跡を二段階に分けて行う。第一段階では、顔追跡部112−a(ただし、a=1,・・・,Nかつa≠b)(図3B)の並進・スケール成分推定部112a−aが、人物10−aの視野の画像va,j中の人物10−bの回転成分を除く顔の運動成分を推定する。例えば、並進・スケール成分推定部112a−aは、以下のように評価関数を最小化する(Tb,sb)を求める。
ここで、Ia FOV(X)は人物10−aの視野の画像va,jの座標Xにおける輝度値を表し、Ib TEX(X)は人物10−bの顔テンプレートtem(b)のテクスチャ画像tex(b)の座標Xにおける輝度値を表す。なお、式(1)に示すように、Ia FOV(X)の上付き添え字「FOV」は本来下付き添え字「a」の真上に記載されるべきである。しかしながら、記載表記の制約上、Ia FOV(X)と表記している。Ib TEX(X)等のその他についても同様な表記を行っている。mb,k∈R2は、人物10−bのテクスチャ画像tex(b)中の点kの二次元座標を表す。Tb∈R2は二次元並進ベクトルを表し、sb(ただし、sb>0)はスケールを表す。f1(mb,k,Tb,sb)は、以下のように定義される関数である。
f1(mb,k,Tb,sb)=sb・(mb,k+Tb) (2)
ただし、「・」は乗算を表す。すなわち、式(1)の評価関数は、視野の画像va,jの領域を二次元並進ベクトルTbの分だけシフトさせ、さらにsb倍した領域の輝度と顔テンプレートtem(b)の輝度との類似度を最小化する(Tb,sb)を求めるものである。このような(Tb,sb)は、例えば、二次元並進ベクトルTbおよびスケーリング係数sbが離散的な値をとることとし、全探索によって求められてもよい。より速い処理速度が求められる場合には、現時刻jより前の時刻で得られた二次元並進ベクトルおよびスケーリング係数を用い、視野の画像va,j中の人物10−bが等速運動を行っていると過程して探索範囲を制限してもよい。また、(Tb,sb)を連続量として推定する場合には、逐次的モンテカルロ法(パーティクルフィルタ法)といったサンプリング法を用いても構わない。さらに、参考文献2(Z. Kalal, K. Mikolajczyk, and J. Matas, “Tracking-learning-detection,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, no. 7, pp. 1409-1422, 2012.)のようにテクスチャ画像tex(b)の更新を行いつつ、追跡する方法であっても構わない。なお、式(1)の右辺の
の最小値が予め定めた閾値を超える場合、並進・スケール成分推定部112a−aは、時刻jの視野の画像va,j中には人物10−bの顔の画像が含まれていないと判断することにしてもよい。このように判断された時刻jでは人物10−bの顔中心座標Ma,j (b)は生成されない。
ここで、Ia FOV(X)は人物10−aの視野の画像va,jの座標Xにおける輝度値を表し、Ib TEX(X)は人物10−bの顔テンプレートtem(b)のテクスチャ画像tex(b)の座標Xにおける輝度値を表す。なお、式(1)に示すように、Ia FOV(X)の上付き添え字「FOV」は本来下付き添え字「a」の真上に記載されるべきである。しかしながら、記載表記の制約上、Ia FOV(X)と表記している。Ib TEX(X)等のその他についても同様な表記を行っている。mb,k∈R2は、人物10−bのテクスチャ画像tex(b)中の点kの二次元座標を表す。Tb∈R2は二次元並進ベクトルを表し、sb(ただし、sb>0)はスケールを表す。f1(mb,k,Tb,sb)は、以下のように定義される関数である。
f1(mb,k,Tb,sb)=sb・(mb,k+Tb) (2)
ただし、「・」は乗算を表す。すなわち、式(1)の評価関数は、視野の画像va,jの領域を二次元並進ベクトルTbの分だけシフトさせ、さらにsb倍した領域の輝度と顔テンプレートtem(b)の輝度との類似度を最小化する(Tb,sb)を求めるものである。このような(Tb,sb)は、例えば、二次元並進ベクトルTbおよびスケーリング係数sbが離散的な値をとることとし、全探索によって求められてもよい。より速い処理速度が求められる場合には、現時刻jより前の時刻で得られた二次元並進ベクトルおよびスケーリング係数を用い、視野の画像va,j中の人物10−bが等速運動を行っていると過程して探索範囲を制限してもよい。また、(Tb,sb)を連続量として推定する場合には、逐次的モンテカルロ法(パーティクルフィルタ法)といったサンプリング法を用いても構わない。さらに、参考文献2(Z. Kalal, K. Mikolajczyk, and J. Matas, “Tracking-learning-detection,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, no. 7, pp. 1409-1422, 2012.)のようにテクスチャ画像tex(b)の更新を行いつつ、追跡する方法であっても構わない。なお、式(1)の右辺の
の最小値が予め定めた閾値を超える場合、並進・スケール成分推定部112a−aは、時刻jの視野の画像va,j中には人物10−bの顔の画像が含まれていないと判断することにしてもよい。このように判断された時刻jでは人物10−bの顔中心座標Ma,j (b)は生成されない。
次いで、第二段階として、人物10−aの視野の画像va,j中の人物10−bの顔の三次元の回転成分を推定する。この回転成分は、水平角φy (b)(y軸回転角)、垂直角φx (b)(x軸回転角)、および、画像面内角φz (b)(z軸回転角)の三つからなる。ここでは、まず、画像面内角φz (b)を推定し、その後、水平角φy (b)、および、垂直角φx (b)を推定する。第一段階で用いた人物10−aの視野の画像va,jに加えて、追跡される人物10−bが装着した視野カメラ12−bにて撮影された視野の画像vb,jも用いる点に本形態の特徴がある。すなわち、本形態の顔追跡部112−aは、人物10−bの視野の画像vb,jを用いて、人物10−aの視野の画像va,jにおける人物10−bの顔中心座標を取得する。ここでは、各人物の視野カメラの光軸がその人物の顔の正面方向と一致し、視野カメラの光軸は視野の画像の中央に存在すると仮定する。もしそうなっていなければ、事前に校正を行っておけばよい。
まず、画像面内角成分推定部112b−a(ただし、a=1,・・・,Nかつa≠b)(図3A)が、人物10−bの視野の画像vb,jにおける画像面内角φz (b)を、オプティカルフローを用いて推定する。例えば、画像面内角成分推定部112b−aは、次式を解くことで画像面内角φz (b)を求める。
ここで、oは人物10−bの視野画像面内での面内回転中心の座標である。aiおよびviは、オプティカルフローのある算出点、および、その点におけるオプティカルフローである。オプティカルフローの算出点aiとしては、画像をある大きさで区切った格子点や画像上の複数のエッジなどを用いればよい。式(3)の解は最急降下法など任意の非線形問題解決法を用いて解けばよい。
ここで、oは人物10−bの視野画像面内での面内回転中心の座標である。aiおよびviは、オプティカルフローのある算出点、および、その点におけるオプティカルフローである。オプティカルフローの算出点aiとしては、画像をある大きさで区切った格子点や画像上の複数のエッジなどを用いればよい。式(3)の解は最急降下法など任意の非線形問題解決法を用いて解けばよい。
次いで、水平・垂直角成分推定部112c−aが、水平角φy (b)および垂直角φx (b)を、人物10−bの視野カメラ12−bにて撮影された視野の画像vb,jにおける人物−aの顔の位置(mx (b),my (b))にもとづき次式により求める。
ここで、wx (b)およびwy (b)は、人物10−bの視野の画像vb,jの幅および高さであり、Ψx (b)およびΨy (b)はその画像vb,jの水平方向および垂直方向の視野角である。例えば、人物10−bの視野の画像vb,j中で人物10−aが中央(あるいは左方、あるいは、上方)に位置すれば、人物10−aの視野の画像va,j中で人物10−bは正面を向いている(あるいは向かって左方を向いている、あるいは向かって上方を向いている)ことになる。式(4)では放射歪みなど画像のひずみがないことを仮定している。画像の歪みがある場合には、事前のカメラ校正で歪を除去しておけばよい。このような水平角φy (b)および垂直角φx (b)の推定方法(頭部姿勢推定方法)は、人物10−aの視野の画像va,jから推定する方法よりも高い精度で人物10−bの顔の向きを推定できる。例えば、人物10−aの視野の画像va,j中で人物10−bの顔の幅が30ピクセルであり、人物10−aおよび10−bの視野カメラ12−aおよび12−bの水平方向の解像度が1920ピクセルで視野角が122.6度であったとする。ここで、人物10−bが人物10−aに対して正面を向いた状態から1度水平方向に顔の向きを変えた場合を考える。人物10−bの顔形状を直径が顔の幅に等しい円柱にて近似すると、人物10−aの視野の画像va,j中における人物10−bの顔中心の位置の変化はわずか0.3ピクセル(=30/2・sin(1°))である。他方、式(4)で入力となる人物10−bの視野の画像vb,j中における人物10−aの顔中心の位置は16ピクセル変化する。すなわち、この場合では、後者の推定精度は前者の推定精度に比べて16/0.3=53.3倍高い。
ここで、wx (b)およびwy (b)は、人物10−bの視野の画像vb,jの幅および高さであり、Ψx (b)およびΨy (b)はその画像vb,jの水平方向および垂直方向の視野角である。例えば、人物10−bの視野の画像vb,j中で人物10−aが中央(あるいは左方、あるいは、上方)に位置すれば、人物10−aの視野の画像va,j中で人物10−bは正面を向いている(あるいは向かって左方を向いている、あるいは向かって上方を向いている)ことになる。式(4)では放射歪みなど画像のひずみがないことを仮定している。画像の歪みがある場合には、事前のカメラ校正で歪を除去しておけばよい。このような水平角φy (b)および垂直角φx (b)の推定方法(頭部姿勢推定方法)は、人物10−aの視野の画像va,jから推定する方法よりも高い精度で人物10−bの顔の向きを推定できる。例えば、人物10−aの視野の画像va,j中で人物10−bの顔の幅が30ピクセルであり、人物10−aおよび10−bの視野カメラ12−aおよび12−bの水平方向の解像度が1920ピクセルで視野角が122.6度であったとする。ここで、人物10−bが人物10−aに対して正面を向いた状態から1度水平方向に顔の向きを変えた場合を考える。人物10−bの顔形状を直径が顔の幅に等しい円柱にて近似すると、人物10−aの視野の画像va,j中における人物10−bの顔中心の位置の変化はわずか0.3ピクセル(=30/2・sin(1°))である。他方、式(4)で入力となる人物10−bの視野の画像vb,j中における人物10−aの顔中心の位置は16ピクセル変化する。すなわち、この場合では、後者の推定精度は前者の推定精度に比べて16/0.3=53.3倍高い。
最後に、顔中心画像座標推定部112d−aが、顔テンプレートtem(b)の顔中心の三次元座標x0 (b)、二次元並進ベクトルTb、スケーリング係数sb、水平角φy (b)、垂直角φx (b)、および画像面内角φz (b)を入力とし、人物10−aの視野の画像va,j中での人物10−bの顔中心座標Ma,j (b)を次式により算出する。
ここで、関数f(x,R,T,s)は、顔テンプレートの運動、および、弱中心投影の組み合わせを表す。R(b)∈R2×3は(φx (b),φy (b),φz (b))を用いて表現される三次元回転行列の第三行を除く2×3行列を表す。すなわち、R(b)は、各軸周りの回転行列Rx(φx (b))、Ry(φy (b))、Rz(φz (b))の積Rx(φx (b))・Ry(φy (b)))・Rz(φz (b))で表現される三次元回転行列の第三行を除く2×3行列である。なお、弱中心投影に代えて中心投影など他の投影モデルが用いられてもよい。得られた人物10−bの顔中心座標Ma,j (b)は記憶部112e−aに格納される。
ここで、関数f(x,R,T,s)は、顔テンプレートの運動、および、弱中心投影の組み合わせを表す。R(b)∈R2×3は(φx (b),φy (b),φz (b))を用いて表現される三次元回転行列の第三行を除く2×3行列を表す。すなわち、R(b)は、各軸周りの回転行列Rx(φx (b))、Ry(φy (b))、Rz(φz (b))の積Rx(φx (b))・Ry(φy (b)))・Rz(φz (b))で表現される三次元回転行列の第三行を除く2×3行列である。なお、弱中心投影に代えて中心投影など他の投影モデルが用いられてもよい。得られた人物10−bの顔中心座標Ma,j (b)は記憶部112e−aに格納される。
[射影関数学習処理]
射影関数学習部113−a(図4)は、人物10−aの視野の画像va,jにおける人物10−bの顔中心座標Ma,j (b)と人物10−aの瞳孔データya,jとを用いて、人物10−aの瞳孔データya,j∈RDと注視点とを関連付ける射影関数を求める。本形態では、重回帰を用いた以下の射影関数g(a)を求める。
pa,j=g(a)(ya,j)=w(a)ya,j+w0 (a) (6)
ここで、注視点は視野の画像va,j内の点であり、人物10−aが注視する点に相当する。注視点の座標(注視点座標)pa,j∈R2は、視野の画像va,jの二次元座標系の座標(「注視点座標」と呼ぶ)である。視野の画像の二次元座標系を視野画像座標系と呼ぶ。この処理は人物10−aごとにオフライン処理にて行われる。射影関数学習部113−aの入力は、学習データ中の各時刻jにおける人物10−aの視野の画像va,jに含まれる話者である人物10−bの顔中心座標Ma,j (b)(ここではこれをpa,jとみなす)、および、人物10−aの瞳孔データya,jである。これらの入力は、例えば、人物10−aが話者である時刻の画像座標および瞳孔データを含まない。w(a)∈RDおよびw0 (a)∈Rはそれぞれ重回帰式のパラメタを表す。射影関数学習部113−aは、これらのパラメタw(a)およびw0 (a)を算出して出力する。これらのパラメタw(a)およびw0 (a)は、例えば最小二乗解として算出されればよい。例えば、射影関数学習部113−aは、学習データの時間区間に対応するMa,j (b)とw(a)ya,j+w0 (a)との誤差の二乗和を最小にするパラメタw(a)およびw0 (a)を選択して出力する。なお、射影関数g(a)は式(6)のものに限定されず、その他の任意の関数を用いても構わない。相似変換や非特許文献1で用いられているガウス過程を用いて射影関数g(a)を得ても構わない。また、本形態では、人物10−aが話者ではない時刻の画像座標および瞳孔データを用いて射影関数を求めるが、必ずしも、これらの時刻のすべてにおいて人物10−aが話者である人物10−bを見ているとは限らない。このため、より精緻な結果を得るために、話者交替時の直前と直後の画像座標および瞳孔データのみを用いて射影関数を求めても構わない。この場合には、例えば、射影関数学習部113−aに、さらに話者検出部117−1から出力された話者10−ujを表す値ujが入力される。射影関数学習部113−aは、ujを用いて話者交替時j’を特定し、j’の直前の所定の時間区間と直後の所定の時間区間に含まれる像座標および瞳孔データのみを用いて射影関数g(a)を求める。各射影関数学習部113−n(ただし、n=1,・・・,N)は同様な処理を行い、各人物10−n(ただし、n=1,・・・,N)の射影関数g(n)を求め、そのパラメタw(n)およびw0 (n)を出力する。
射影関数学習部113−a(図4)は、人物10−aの視野の画像va,jにおける人物10−bの顔中心座標Ma,j (b)と人物10−aの瞳孔データya,jとを用いて、人物10−aの瞳孔データya,j∈RDと注視点とを関連付ける射影関数を求める。本形態では、重回帰を用いた以下の射影関数g(a)を求める。
pa,j=g(a)(ya,j)=w(a)ya,j+w0 (a) (6)
ここで、注視点は視野の画像va,j内の点であり、人物10−aが注視する点に相当する。注視点の座標(注視点座標)pa,j∈R2は、視野の画像va,jの二次元座標系の座標(「注視点座標」と呼ぶ)である。視野の画像の二次元座標系を視野画像座標系と呼ぶ。この処理は人物10−aごとにオフライン処理にて行われる。射影関数学習部113−aの入力は、学習データ中の各時刻jにおける人物10−aの視野の画像va,jに含まれる話者である人物10−bの顔中心座標Ma,j (b)(ここではこれをpa,jとみなす)、および、人物10−aの瞳孔データya,jである。これらの入力は、例えば、人物10−aが話者である時刻の画像座標および瞳孔データを含まない。w(a)∈RDおよびw0 (a)∈Rはそれぞれ重回帰式のパラメタを表す。射影関数学習部113−aは、これらのパラメタw(a)およびw0 (a)を算出して出力する。これらのパラメタw(a)およびw0 (a)は、例えば最小二乗解として算出されればよい。例えば、射影関数学習部113−aは、学習データの時間区間に対応するMa,j (b)とw(a)ya,j+w0 (a)との誤差の二乗和を最小にするパラメタw(a)およびw0 (a)を選択して出力する。なお、射影関数g(a)は式(6)のものに限定されず、その他の任意の関数を用いても構わない。相似変換や非特許文献1で用いられているガウス過程を用いて射影関数g(a)を得ても構わない。また、本形態では、人物10−aが話者ではない時刻の画像座標および瞳孔データを用いて射影関数を求めるが、必ずしも、これらの時刻のすべてにおいて人物10−aが話者である人物10−bを見ているとは限らない。このため、より精緻な結果を得るために、話者交替時の直前と直後の画像座標および瞳孔データのみを用いて射影関数を求めても構わない。この場合には、例えば、射影関数学習部113−aに、さらに話者検出部117−1から出力された話者10−ujを表す値ujが入力される。射影関数学習部113−aは、ujを用いて話者交替時j’を特定し、j’の直前の所定の時間区間と直後の所定の時間区間に含まれる像座標および瞳孔データのみを用いて射影関数g(a)を求める。各射影関数学習部113−n(ただし、n=1,・・・,N)は同様な処理を行い、各人物10−n(ただし、n=1,・・・,N)の射影関数g(n)を求め、そのパラメタw(n)およびw0 (n)を出力する。
《推定処理》
図5を用いて本形態の推定処理を説明する。推定処理では、上述の学習処理で得られた射影関数g(n)のパラメタw(n),w0 (n)、およびデータ取得部111−nより出力される瞳孔データyn,jを入力とし、人物10−nの視野の画像vn,j中での視野画像座標系の注視点座標pn,j(視野画像座標系注視点座標)を出力する。注視点座標pn,jは、人物10−nが注視している点に対応する視野の画像vn,j中の点の座標である。さらに、人物10−nが見ている人物(「被注視人物」と呼ぶ)のどこを注視しているかを表す、被注視人物の顔座標系における注視点座標を出力する。顔座標系における注視点座標は、顔追跡部112−nから出力される被注視人物の顔中心座標を用い、得られた注視点座標pn,jをその被注視人物の顔座標系に変換して得られる。以下、これらの詳細を説明する。
図5を用いて本形態の推定処理を説明する。推定処理では、上述の学習処理で得られた射影関数g(n)のパラメタw(n),w0 (n)、およびデータ取得部111−nより出力される瞳孔データyn,jを入力とし、人物10−nの視野の画像vn,j中での視野画像座標系の注視点座標pn,j(視野画像座標系注視点座標)を出力する。注視点座標pn,jは、人物10−nが注視している点に対応する視野の画像vn,j中の点の座標である。さらに、人物10−nが見ている人物(「被注視人物」と呼ぶ)のどこを注視しているかを表す、被注視人物の顔座標系における注視点座標を出力する。顔座標系における注視点座標は、顔追跡部112−nから出力される被注視人物の顔中心座標を用い、得られた注視点座標pn,jをその被注視人物の顔座標系に変換して得られる。以下、これらの詳細を説明する。
[データ取得処理・データ収集処理]
学習処理と同じデータ取得処理・データ収集処理がリアルタイムに実行される。
学習処理と同じデータ取得処理・データ収集処理がリアルタイムに実行される。
[視野画像座標系注視点推定処理]
視野画像座標系注視点推定部114−nは、射影関数学習部113−nから送られた射影関数g(n)のパラメタw(n)およびw0 (n)、ならびにデータ取得部111−nからリアルタイムに送られる瞳孔データyn,jを入力とし、人物10−nの視野画像座標系における注視点座標pn,jを計算して出力する。注視点座標pn,jはg(n)(yn,j)によって得られる。
視野画像座標系注視点推定部114−nは、射影関数学習部113−nから送られた射影関数g(n)のパラメタw(n)およびw0 (n)、ならびにデータ取得部111−nからリアルタイムに送られる瞳孔データyn,jを入力とし、人物10−nの視野画像座標系における注視点座標pn,jを計算して出力する。注視点座標pn,jはg(n)(yn,j)によって得られる。
[話者検出処理]
推定処理では、話者検出処理を行ってもよいし、行わなくてもよい。話者検出処理を行う場合、話者検出部117−1は、学習処理と同じ話者検出処理をリアルタイムに行い、各時刻jの話者10−ujを表す値ujを出力する。
推定処理では、話者検出処理を行ってもよいし、行わなくてもよい。話者検出処理を行う場合、話者検出部117−1は、学習処理と同じ話者検出処理をリアルタイムに行い、各時刻jの話者10−ujを表す値ujを出力する。
[顔追跡処理]
推定処理では、学習処理で得られたすべての人物10−b’(ただし、b’=1,・・・,N)の顔テンプレートtem(b’)が顔テンプレート作成部118−1から各顔追跡部112−nに出力される。また、データ収集部116−1は、リアルタイムに得られた人物10−nの視野の画像vn,jを顔追跡部112−nに出力する。顔追跡部112−nは、人物10−nの視野の画像vn,jおよび人物10−b’の顔テンプレートtem(b’)を用い、人物10−nの視野の画像vn,jにおける何れかの人物10−b’に対応する二次元並進ベクトルTb’∈R2、スケールsb’(ただし、sb’>0)、およびR(b’)∈R2×3を取得して出力する。二次元並進ベクトルTb’およびスケールsb’を得る処理は、視野の画像vn,jにおける話者である人物10−bに代えて何れかの人物10−b’でよい以外、学習処理での並進・スケール成分推定部112a−nの処理と同じでよい。R(b’)は(φx (b’),φy (b’),φz (b’))を用いて表現される三次元回転行列の第三行を除く2×3行列であり、水平角φy (b’)、垂直角φx (b’)、および画像面内角φz (b’)から得られる。水平角φy (b’)、垂直角φx (b’)、および画像面内角φz (b’)を得る処理は、視野の画像vn,jにおける話者である人物10−bに代えて何れかの人物10−b’でよい以外、学習処理での画像面内角成分推定部112b−nの処理および水平・垂直角成分推定部112c−nの処理と同じでよい。
推定処理では、学習処理で得られたすべての人物10−b’(ただし、b’=1,・・・,N)の顔テンプレートtem(b’)が顔テンプレート作成部118−1から各顔追跡部112−nに出力される。また、データ収集部116−1は、リアルタイムに得られた人物10−nの視野の画像vn,jを顔追跡部112−nに出力する。顔追跡部112−nは、人物10−nの視野の画像vn,jおよび人物10−b’の顔テンプレートtem(b’)を用い、人物10−nの視野の画像vn,jにおける何れかの人物10−b’に対応する二次元並進ベクトルTb’∈R2、スケールsb’(ただし、sb’>0)、およびR(b’)∈R2×3を取得して出力する。二次元並進ベクトルTb’およびスケールsb’を得る処理は、視野の画像vn,jにおける話者である人物10−bに代えて何れかの人物10−b’でよい以外、学習処理での並進・スケール成分推定部112a−nの処理と同じでよい。R(b’)は(φx (b’),φy (b’),φz (b’))を用いて表現される三次元回転行列の第三行を除く2×3行列であり、水平角φy (b’)、垂直角φx (b’)、および画像面内角φz (b’)から得られる。水平角φy (b’)、垂直角φx (b’)、および画像面内角φz (b’)を得る処理は、視野の画像vn,jにおける話者である人物10−bに代えて何れかの人物10−b’でよい以外、学習処理での画像面内角成分推定部112b−nの処理および水平・垂直角成分推定部112c−nの処理と同じでよい。
[顔座標系注視点推定処理]
顔座標系注視点推定部115−nは、リアルタイムに得られた時刻jの注視点座標pn,j、二次元並進ベクトルTb’、スケールsb’、およびR(b’)を入力とし、人物10−nが注視する人物(被注視人物)10−b’の顔座標系における注視点座標(顔座標系注視点座標)xn,j (b’)∈R2を計算して出力する。顔座標系における注視点座標xn,j (b’)は、時刻jにおいて、人物10−nが人物10−b’のどのあたりを注視しているかを表す。顔座標系における注視点座標xn,j (b’)は、次式をxn,j (b’)について解くことで算出される。
上式は最急降下法などの一般的な数値的最適化法で解けばよい。なお、人物10−nの視野画像座標において、注視点座標pn,jと人物10−b’の顔中心
とが一定距離以上離れている場合、顔座標系注視点推定部115−nは、人物10−nが人物10−b’を注視していないと判断する。注視点座標pn,jとMn,j (b’)との距離が一定距離未満となる人物10−b’が存在しない場合、顔座標系注視点推定部115−nは、人物10−nは誰も注視していない旨を出力する。
顔座標系注視点推定部115−nは、リアルタイムに得られた時刻jの注視点座標pn,j、二次元並進ベクトルTb’、スケールsb’、およびR(b’)を入力とし、人物10−nが注視する人物(被注視人物)10−b’の顔座標系における注視点座標(顔座標系注視点座標)xn,j (b’)∈R2を計算して出力する。顔座標系における注視点座標xn,j (b’)は、時刻jにおいて、人物10−nが人物10−b’のどのあたりを注視しているかを表す。顔座標系における注視点座標xn,j (b’)は、次式をxn,j (b’)について解くことで算出される。
上式は最急降下法などの一般的な数値的最適化法で解けばよい。なお、人物10−nの視野画像座標において、注視点座標pn,jと人物10−b’の顔中心
とが一定距離以上離れている場合、顔座標系注視点推定部115−nは、人物10−nが人物10−b’を注視していないと判断する。注視点座標pn,jとMn,j (b’)との距離が一定距離未満となる人物10−b’が存在しない場合、顔座標系注視点推定部115−nは、人物10−nは誰も注視していない旨を出力する。
また、顔座標系注視点推定部115−nが、この人物10−b’(被注視人物)の顔座標系の注視点座標xn,j (b’)の時系列データから頻度マップ(ヒートマップ)を作成してもよい。その場合は、それぞれの時刻jで得られた注視点座標xn,j (b’)に対し、それらの点の平均値を平均とし、標準偏差を事前に決めた定数とした正規分布を得、顔座標系の対象範囲における各点での密度(確率)を計算すればよい。この頻度マップを人物10−b’(被注視人物)が聞き手の時と話者の時とで分けて作成してもよい。この場合には、顔座標系注視点推定部115−nには、さらに話者検出部117−1から出力された各時刻jの話者10−ujを表す値ujが入力され、顔座標系注視点推定部115−nは、これを用いて人物10−b’が聞き手であるか話者であるかを特定する。
<本形態の特徴>
本形態では、複数人で行われる対話において人が話し手の顔を注視しやすいという特徴にもとづき、第一の人物の視野の画像を用いて、第一の人物の視野の画像における話者である第二の人物の顔中心座標を取得し、第一の人物の視野の画像における第二の人物の顔中心座標と第一の人物の瞳孔データとを用いて、瞳孔データと注視点とを関連付ける射影関数を求める。これにより、事前の人手を介した処理を行うことなく、話者が誰であるかが注視行動に影響を与える場合の射影関数を精度よく自動学習できる。射影関数の学習には一定時間長の学習データが必要であり、その間はオフライン処理にて話者である人物10−bの顔中心座標Ma,j (b)を注視点座標pa,jとみなして学習が行われる。一方、射影関数が得られた後はリアルタイムで注視点を算出できる。
本形態では、複数人で行われる対話において人が話し手の顔を注視しやすいという特徴にもとづき、第一の人物の視野の画像を用いて、第一の人物の視野の画像における話者である第二の人物の顔中心座標を取得し、第一の人物の視野の画像における第二の人物の顔中心座標と第一の人物の瞳孔データとを用いて、瞳孔データと注視点とを関連付ける射影関数を求める。これにより、事前の人手を介した処理を行うことなく、話者が誰であるかが注視行動に影響を与える場合の射影関数を精度よく自動学習できる。射影関数の学習には一定時間長の学習データが必要であり、その間はオフライン処理にて話者である人物10−bの顔中心座標Ma,j (b)を注視点座標pa,jとみなして学習が行われる。一方、射影関数が得られた後はリアルタイムで注視点を算出できる。
本形態において好ましくは、第二の人物の視野の画像を用いて、第一の人物の視野の画像における第二の人物の顔中心座標を取得する。これにより、第一の人物の視野の画像から直接推定するよりも(例えば、参考文献3「Fathi, J. K. Hodgins, and J. M. Rehg, "Social interactions: A first-person perspective", IEEE Conf. on Computer Vision and Pattern Recognition, pp. 1226-1233, 2012.」)、高い精度で第二の人物の顔向きを推定できる。その結果、画像の解像度が低かったり、フォーカスが合っていなかったりといった場合であっても、第一の人物の視野の画像中の第二の人物の顔の向きを精度よく推定でき、第二の人物の顔中心座標を精度よく推定できる。
本形態において好ましくは、第二の人物以外の人物の視野の画像を用いて作成された第二の人物の顔のテクスチャ画像を利用し、視野の画像中で人物の顔を追跡するための第二の人物の顔テンプレートを作成する。これにより、事前の処理を行うことなく、顔テンプレートを作成することができる。
本形態において好ましくは、第二の人物の瞳孔データをもとに、第二の人物以外の人物の視野の画像から第二の人物の顔画像を検出し、検出された顔画像から第二の人物の顔のテクスチャ画像を作成する。これにより、検出された顔画像から第二の人物の顔のテクスチャ画像を自動的に特定できる。
本形態の推定処理でも、第二の人物の視野の画像を用いて、第一の人物の視野の画像における第二の人物の顔向きを推定する。これにより、第一の人物の視野の画像から直接推定するよりも高い精度で第二の人物の顔向きを推定できる。
<変形例等>
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の実施形態の学習処理における顔追跡処理では、顔テンプレート作成部118−1が、各時刻jの話者である人物10−b(ただし、b=uj)の顔テンプレートtem(b)のみを顔追跡部112−nに出力した。しかしながら、この顔追跡処理において、顔テンプレート作成部118−1がすべての人物10−b’の顔テンプレートtem(b’)を顔追跡部112−nに出力してもよい。この場合、顔追跡部112−nは、さらに各時刻jの話者を表す値ujを入力とし、それを用いて選択した各時刻jの話者である人物10−b(ただし、b=uj)の顔テンプレートtem(b)を用い、話者である人物10−bの顔追跡を行ってもよい。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の実施形態の学習処理における顔追跡処理では、顔テンプレート作成部118−1が、各時刻jの話者である人物10−b(ただし、b=uj)の顔テンプレートtem(b)のみを顔追跡部112−nに出力した。しかしながら、この顔追跡処理において、顔テンプレート作成部118−1がすべての人物10−b’の顔テンプレートtem(b’)を顔追跡部112−nに出力してもよい。この場合、顔追跡部112−nは、さらに各時刻jの話者を表す値ujを入力とし、それを用いて選択した各時刻jの話者である人物10−b(ただし、b=uj)の顔テンプレートtem(b)を用い、話者である人物10−bの顔追跡を行ってもよい。
上述の実施形態の推定処理では、学習データとは異なるリアルタイムで取得した視野の画像vn,j、瞳孔データyn,j、および音声のデータan,jを用いた。しかしながら、学習データの視野の画像vn,j、瞳孔データyn,j、および音声のデータan,jを用い、推定処理がなされてもよい。この場合、推定処理でのデータ取得処理およびデータ収集処理を省略できる。また視野画像座標系注視点推定処理は、学習データである瞳孔データyn,jを入力とし、人物10−nの視野画像座標系における注視点座標pn,jを計算して出力する。話者検出処理を行う場合、学習データの音声のデータan,jを用いて話者検出を行ってもよい。推定処理で話者を特定する必要がある場合でも、学習処理で得られた各時刻jの話者10−ujを表す値ujを保存しておけば、それをそのまま利用できる。
上述の実施形態では、視線計測装置11−1がデータ収集部116−1、話者検出部117−1、顔テンプレート作成部118−1を備えていた。しかしながら、視線計測装置11−1がデータ収集部116−1、話者検出部117−1、顔テンプレート作成部118−1を具備せず、別途、話者検出部117−1、顔テンプレート作成部118−1を備えるサーバ装置等の中央処理装置が存在してもよい。中央処理装置は、ネットワーク経由で視線計測装置と通信を行う。
上述した実施形態の推定処理時の顔追跡処理では、学習処理で得られたすべての人物10−b’(ただし、b’=1,・・・,N)の顔テンプレートtem(b’)が顔テンプレート作成部118−1から各顔追跡部112−nに出力された。しかしながら、学習処理で得られたすべての人物10−b’を学習処理時に各顔追跡部112−nに出力し、格納しておいてもよい。この場合には、推定処理時に顔テンプレート作成部118−1から各顔追跡部112−nに顔テンプレートtem(b’)を送る必要はない。
その他、各装置がネットワークを通じて情報をやり取りするのではなく、少なくとも一部の組の装置が可搬型記録媒体を介して情報をやり取りしてもよい。或いは、少なくとも一部の組の装置が非可搬型の記録媒体を介して情報をやり取りしてもよい。これらの装置の一部からなる組み合わせが、同一の装置であってもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
本発明は、例えば、ウェアラブルカメラを用いた自動対話分析器に利用できる。
11 視線計測装置
Claims (6)
- 第一の人物の視野の画像を用いて、前記第一の人物の視野の画像における話者である第二の人物の顔中心座標を取得する顔追跡部と、
前記第一の人物の視野の画像における前記第二の人物の顔中心座標と前記第一の人物の瞳孔データとを用いて、前記瞳孔データと注視点とを関連付ける射影関数を求める射影関数学習部と、
を有する視線計測装置。 - 前記顔追跡部は、前記第二の人物の視野の画像を用いて、前記第一の人物の視野の画像における前記第二の人物の顔中心座標を取得する請求項1に記載の視線計測装置。
- 視野の画像中で人物の顔を追跡するための顔テンプレートを作成する顔テンプレート作成部をさらに有し、
前記第二の人物の顔テンプレートは、前記第二の人物以外の人物の視野の画像を用いて作成された前記第二の人物の顔のテクスチャ画像を利用して作成される請求項1または2に記載の視線計測装置。 - 前記第二の人物の瞳孔データをもとに、前記第二の人物以外の人物の視野の画像から前記第二の人物の顔画像を検出し、検出された顔画像から前記第二の人物の顔のテクスチャ画像を作成する請求項3に記載の視線計測装置。
- 第一の人物の瞳孔データを取得し、
前記第一の人物の視野の画像を取得し、
前記第一の人物の視野の画像における話者である第二の人物の顔中心座標を取得し、
前記第一の人物の視野の画像における前記第二の人物の顔中心座標と前記第一の人物の瞳孔データとを用いて、前記瞳孔データと注視点とを関連付ける射影関数を求める、
視線計測方法。 - 請求項1から4の何れかの視線計測装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015086667A JP6377566B2 (ja) | 2015-04-21 | 2015-04-21 | 視線計測装置、視線計測方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015086667A JP6377566B2 (ja) | 2015-04-21 | 2015-04-21 | 視線計測装置、視線計測方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016206885A JP2016206885A (ja) | 2016-12-08 |
JP6377566B2 true JP6377566B2 (ja) | 2018-08-22 |
Family
ID=57487131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015086667A Active JP6377566B2 (ja) | 2015-04-21 | 2015-04-21 | 視線計測装置、視線計測方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6377566B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6717477B1 (ja) * | 2019-09-13 | 2020-07-01 | 株式会社スワローインキュベート | 画像処理方法、画像処理装置、及び画像処理プログラム |
JP6757949B1 (ja) * | 2020-05-28 | 2020-09-23 | 株式会社スワローインキュベート | 画像処理方法、画像処理装置、及び画像処理プログラム |
CN116048244B (zh) * | 2022-07-29 | 2023-10-20 | 荣耀终端有限公司 | 一种注视点估计方法及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4869978B2 (ja) * | 2006-03-28 | 2012-02-08 | 富士フイルム株式会社 | 画像記録装置、画像記録方法、および画像記録プログラム |
-
2015
- 2015-04-21 JP JP2015086667A patent/JP6377566B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016206885A (ja) | 2016-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shreve et al. | Macro-and micro-expression spotting in long videos using spatio-temporal strain | |
JP6918781B2 (ja) | 眼ポーズ測定を用いた眼瞼形状推定 | |
Haque et al. | Heartbeat rate measurement from facial video | |
Zeng et al. | Silhouette-based gait recognition via deterministic learning | |
KR20220150868A (ko) | 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치 | |
JP5899472B2 (ja) | 人物属性推定システム、及び学習用データ生成装置 | |
KR20160101973A (ko) | 비제약형 매체에 있어서 얼굴을 식별하는 시스템 및 방법 | |
JP6191943B2 (ja) | 視線方向推定装置、視線方向推定装置および視線方向推定プログラム | |
JP6071002B2 (ja) | 信頼度取得装置、信頼度取得方法および信頼度取得プログラム | |
CN108388889B (zh) | 用于分析人脸图像的方法和装置 | |
JP6377566B2 (ja) | 視線計測装置、視線計測方法、およびプログラム | |
Samangooei et al. | On acquisition and analysis of a dataset comprising of gait, ear and semantic data | |
Пуріш et al. | Gait recognition methods in the task of biometric human identification | |
Tamimi et al. | Real-time group face-detection for an intelligent class-attendance system | |
CN113920563A (zh) | 在线考试作弊识别方法、装置、计算机设备和存储介质 | |
CN110545386B (zh) | 用于拍摄图像的方法和设备 | |
JP2022095332A (ja) | 学習モデル生成方法、コンピュータプログラム及び情報処理装置 | |
WO2015181729A1 (en) | Method of determining liveness for eye biometric authentication | |
JP2009098901A (ja) | 表情検出方法及び装置及びプログラム | |
JP2021033359A (ja) | 感情推定装置、感情推定方法、プログラム、情報提示装置、情報提示方法及び感情推定システム | |
Zeng et al. | A new Kinect-based frontal view gait recognition method via deterministic learning | |
Kim et al. | Accurate 3D face modeling and recognition from RGB-D stream in the presence of large pose changes | |
TWI620076B (zh) | 人體動作的分析系統 | |
Finocchiaro et al. | Egocentric height estimation | |
Kumano et al. | Automatic gaze analysis in multiparty conversations based on collective first-person vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180724 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6377566 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |