JP2022187546A

JP2022187546A - 視線推定システム

Info

Publication number: JP2022187546A
Application number: JP2021095579A
Authority: JP
Inventors: 勇氣 ▲高▼橋; Yuki Takahashi; 俊剛関; Toshitake Seki; 亜矢橋本; Aya Hashimoto; 尚武佐久本; Naotake Sakumoto
Original assignee: Yazaki Corp
Current assignee: Yazaki Corp
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2022-12-20

Abstract

【課題】処理負荷の軽減と、高精度な視線推定との両立を図ることができる視線推定システムを提供する。【解決手段】視線推定システム１は、撮影画像から得られる運転者２０の視線２４が、相対的に高い精度を要求される第１対象範囲４１に向いているか、第１対象範囲４１の外側にあって第１対象範囲４１以上の高い精度を要求されない第２対象範囲４２に向いているかを判定する。この結果、視線２４が第１対象範囲４１に向いていると判定した場合、アピアランスベース手法による視線の推定処理を行って第１推定視線情報を生成する第１視線推定処理を実行する。一方、視線２４が第２対象範囲４２に向いていると判定した場合、モデルベース手法による視線の推定処理を行って第２推定視線情報を生成する第２視線推定処理を実行する。【選択図】図７

Description

本発明は、視線推定システムに関する。

画像処理を利用した視線推定技術には、モデルベース手法とアピアランスベース手法の２種類がある。モデルベース手法を用いた視線推定は、例えば、眼球モデルを含む３次元モデルを作成し、当該モデルと、測定対象者の目を含む画像とを対比して視線を推定するものである（例えば特許文献１参照）。アピアランスベース手法を用いた視線推定は、測定対象者の目を含む画像と、学習器に機械学習させた複数の学習画像と照合して視線を推定するものである（例えば特許文献２参照）。

特開２０１８－８８２３６号公報特開２０１９－２８８４３号公報

ところで、アピアランスベース手法によれば、深層学習を利用することで、測定対象者の視線を高精度に推定できるが、演算装置の処理負荷が増大し、また機械学習のための大量の学習が必要となる。一方、モデルベース手法によれば、アピアランスベース手法と比較して装置の処理負荷が減少するが、測定対象者の視線を高精度に推定することが容易ではない。そのため、測定対象者の視線を推定する場合において、処理負荷の軽減と、高精度な視線推定の両立が望まれる。

本発明は、上記課題に鑑みてなされたものであり、処理負荷の軽減と、高精度な視線推定との両立を図ることができる視線推定システムを提供することを目的とする。

上記目的を達成するために、本発明に係る視線推定システムは、測定対象者の顔を含む撮影画像を時系列上連続して取得する画像取得部と、取得された各前記撮影画像に基づいて前記測定対象者の視線の推定処理を実行する処理部と、を備え、前記処理部は、前記測定対象者の顔を含む学習画像に基づいてアピアランスベース手法による視線の推定処理を行って第１推定視線情報を生成する第１視線推定処理、及び、前記学習画像に基づいてモデルベース手法による視線の推定処理を行って第２推定視線情報を生成する第２視線推定処理を実行するものであり、各前記撮影画像から得られる前記測定対象者の視線の変化が伴う動作に応じて、当該視線が、相対的に高い精度を要求される第１対象範囲に向いているか、前記第１対象範囲の外側にあって前記第１対象範囲以上の高い精度を要求されない第２対象範囲に向いているかを判定する第１判定部を有し、前記第１判定部により前記視線が前記第１対象範囲に向いていると判定された場合、前記第１視線推定処理を実行し、前記視線が前記第２対象範囲に向いていると判定された場合、前記第２視線推定処理を実行する、ことを特徴とする。

本発明に係る視線推定システムは、取得された各撮影画像に基づいて測定対象者の視線の推定処理における処理負荷の軽減と、高精度な視線推定との両立を図ることができる、という効果を奏する。

図１は、実施形態に係る視線推定システムの適用例を示す模式図である。図２は、図１の視線推定システムの概略構成を示すブロック図である。図３（Ａ）は、図１の視線推定システムの動作の概要を示す状態遷移図、図３（Ｂ）は、測定対象者が視線を向ける対象範囲の一例を示す模式図である。図４は、図１の視線推定システムで実行される第１視線推定処理の概要を示す模式図である。図５は、図１の視線推定システムで実行される第２視線推定処理の概要を示すフローチャート図である。図６（Ａ）は、図５のステップＳ１６における眼球の三次元（３Ｄ）モデル及び二次元（２Ｄ）画像の関係を示す模式図、図６（Ｂ）は、図５のステップＳ１７，Ｓ１８で実行される黒目探索の概要を示す模式図である。図７は、図１の視線推定システムで実行される視線推定処理のアルゴリズムの一例を示すフローチャート図である。図８は、実施形態の変形例に係る視線推定システムにて測定対象者が視線を向ける対象範囲の一例を示す模式図である。

以下に、本発明の実施形態に係る視線推定システムについて図面を参照しつつ詳細に説明する。なお、以下に示す実施形態により本発明が限定されるものではない。以下の実施形態における構成要素には、いわゆる当業者が容易に想定できるもの、あるいは実質的に同一のものが含まれる。また、以下の実施形態における構成要素は、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。

［実施形態］
図１及び図２に示す本実施形態の視線推定システム１は、測定対象者を撮影し当該測定対象者の顔を含む撮影画像に基づいて当該測定対象者の視線を推定するシステムである。本実施形態では、視線推定システム１を車両に適用した場合について説明する。視線推定システム１は、撮影ユニット１２と、処理部１３とを含んで構成される。

撮影ユニット１２は、画像取得部（または画像取得装置）の一例であり、車両２の運転者２０の顔２１を撮影し、運転者２０の顔２１を含む撮影画像を時系列上連続して取得するものである。本実施形態では、運転者２０が測定対象者である。撮影ユニット１２は、光源と、カメラとを含んで構成される。光源及びカメラは、例えば、１枚の基板上に互いに隣接して配置される。

光源は、例えば、撮影ユニット１２の外部に向けて近赤外光を出射するＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）である。近赤外光は、波長が凡そ０．７～２．５μｍの電磁波であり、赤色の可視光線に近い波長を有し、例えば、「見えない光」として、赤外線カメラや赤外線通信等に利用されている。光源は、処理部１３から入力された点灯信号に応じて点灯（赤外光を発光）し、消灯信号に応じて消灯する。光源は、被視認対象物上または被視認対象物の近傍に配置される。

カメラは、光源の近傍に配置され、撮影ユニット１２外側に設定される撮影範囲（例えば画角）を撮影する。カメラは、撮影ユニット１２外側に設定される撮影範囲に運転者２０が存在する場合、光源から出射された赤外光によって照らされた運転者２０を撮影する。撮影ユニット１２は、車両２の車室１０内の運転席１０１に着座している運転者２０の顔２１を撮影するために、例えば運転席１０１前方のメータユニット内、または、コラムカバー上部に設置される。撮影ユニット１２は、処理部１３に接続されており、取得した撮影画像を処理部１３に出力する。

カメラは、光源から出射される赤外光の出射方向と反対方向に反射する反射光を受光する位置に配置される。カメラが赤外光の出射方向と反対方向に反射する反射光を受光する位置に配置された場合、当該カメラの光軸と光源の光軸とは重なる。カメラの光軸と光源の光軸とが重なるとは、両方の光軸が同軸になることであるが、両方の光軸が並行であって反射光が受光可能な位置であればよい。カメラは、少なくとも顔２１全体が十分な解像度で撮影できることが好ましい。撮影範囲は、アプリケーションより要求される検出したい範囲より決めることができる。アプリケーションは、例えば、自動販売機の興味の計測、デジタルサイネージ等の広告の視認者の自動カウント、ディスプレイシステムの視認時のみ点灯させる（または輝度をあげる）といったものがある。

処理部１３は、処理部（または処理装置）の一例であり、撮影ユニット１２で取得された撮影画像に基づいて運転者２０の視線の推定処理を実行するものである。処理部１３は、例えば、視線推定システム１における各種処理機能を実現する処理回路（不図示）を有する。処理回路は、例えば、プロセッサによって実現される。プロセッサとは、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の回路を意味する。処理部１３は、例えば、不図示の記憶回路（記憶部）から読み出したプログラムを実行することにより、各処理機能を実現する。

処理部１３は、図２に示すように、第１視線推定処理部１４Ａと、第２視線推定処理部１４Ｂと、第１判定部１５Ａと、第２判定部１５Ｂと、第３判定部１５Ｃとを含んで構成される。

処理部１３のうち第１視線推定処理部１４Ａは、運転者２０の顔２１を含む学習画像に基づいてアピアランスベース手法による視線の推定処理を行って第１推定視線情報を生成する第１視線推定処理を実行する。第１推定視線情報は、例えば、運転者２０の視線２４の視線角度である。第１視線推定処理は、第１視線推定処理部１４Ａが実行する。アピアランスベース手法による視線推定の技術は、例えば、以下の文献に示されている。
「特定環境応用におけるアピアランスベース手法による高精度視線推定，瞿万霆（慶應大学）高橋勇氣（矢崎総業株式会社）他第２６回画像センシングシンポジウム（ＳＳＩＩ２０２０），ＩＳ２－１８，Ｊｕｎｅ２０２０．」

アピアランスベース手法による視線の推定は、被験者の目画像そのものを入力情報とし、機械学習によって視線と目画像の組み合わせを学習し、新規目画像に対して視線の位置を推定する手法である。機械学習手法は、例えば、深層学習手法である畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＣＮＮ）等が用いられる。ＣＮＮは、ニューラルネットワークというパターン認識手法を多層化したＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ，ディープニューラルネットワーク）のうち、２次元データに対応させたもので、画像に対して高いパターン認識能力が報告されている手法である。ＣＮＮで学習を実施するためには、入力画像と対応した正解ラベルが必要である。今回は入力情報として顔画像を、正解ラベルとして視線角度を与える。

アピアランスベース手法による視線の推定では、学習用データセットを作成し、機械学習によってモデルを生成する必要がある。このとき、学習用データセットを正確に作成することが学習の精度に影響する。そのため、学習用データセットを作成する際に、測定対象者（または被験者）が正確に視認対象を見ているようにする必要があることから、例えば、図４に示すように、測定対象者が装着型の視線計測器を着用して視線計測結果を収集する。画像３１は、測定対象者が視線計測器を着用した状態で当該測定対象者を撮影して得られたものである。一方、実際に測定対象者の視線を推定する場合、視線計測器を装着していない顔画像が入力されることから、実際の利用時の画像に近づけるために、画像３２に示すように、顔画像にかかる視線計測器のアーム部分を顔と同じ色で塗り潰す処理を行う。

処理部１３のうち第２視線推定処理部１４Ｂは、運転者２０の顔２１を含む学習画像に基づいてモデルベース手法による視線の推定処理を行って第２推定視線情報を生成する第２視線推定処理を実行する。第２推定視線情報は、例えば、運転者２０の視線２４の視線角度である。第２視線推定処理は、第２視線推定処理部１４Ｂが実行する。モデルベース手法による視線推定の技術は、例えば、特開２０１８－８８２３６号公報に示されている。

図５に示す処理は、第２視線推定処理の一例であり、処理部１３が記憶部から読みだしたプログラムを実行することにより、各ステップが順次行われる。

ステップＳ１２では、撮影ユニット１２は、運転者２０の顔を含む映像を撮影して映像の信号を出力する。処理部１３は、撮影ユニット１２から映像の信号を１フレーム分取り込む。

ステップＳ１３では、処理部１３は、グレースケール化を含む、画像のデータ形式の変換（下処理）を行う。例えば、１フレーム内の画素位置毎に、輝度を「０～２５５」の範囲の階調で表す８ビットデータを、撮影時のフレーム内走査方向に合わせて縦方向及び横方向に並べた二次元（２Ｄ）配列の画像データを生成する。

ステップＳ１４では、処理部１３は、ステップＳ１３で変換された画像に基づいて、例えば「Ｖｉｏｌａ－Ｊｏｎｅｓ法」を用いて顔検出を行い、１フレームの二次元画像データの中から顔を含む顔画像を抽出する。すなわち、顔の陰影差を特徴とし「Ｂｏｏｓｔｉｎｇ」を用いた学習によって作成された検出器を使って顔画像を抽出する。「Ｖｉｏｌａ－Ｊｏｎｅｓ法」の技術は、例えば以下の文献に示されている。
「Ｖｉｏｌａ，ＰａｕｌａｎｄＭｉｃｈａｅｌＪ．Ｊｏｎｅｓ，“ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｕｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ”，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００１ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００１．Ｖｏｌｕｍｅ：１，ｐｐ．５１１－５１８．」

ステップＳ１５では、処理部１３は、ステップＳ１４で抽出した顔画像から、例えば上述したＶｉｏｌａ－Ｊｏｎｅｓ法を用いて目の領域を検出する。

ステップＳ１６では、処理部１３は、後述する眼球３Ｄモデルを用いるモデルベース手法によって視線を検出する場合、眼球中心を推定する。ここでは、ステップＳ１５で検出した目の矩形領域の中心座標を眼球中心と仮定する。例えば、目尻、目頭位置に基づき眼球中心を決定する方法や、顔の特徴点より骨格を推定し同時に眼球中心位置を算出する方法を利用することも想定される。

ステップＳ１７では、処理部１３は、ステップＳ１５で検出した目の矩形領域のデータについて、テンプレートマッチングの手法を適用して、黒目（瞳孔または虹彩）の粗探索を行う。具体的には、目周辺を切り出した目画像を二値化した画像に対して、テンプレートとして黒丸画像をマッチングさせて最も尤度の大きかった黒丸画像の画像中心（黒丸の中心）の座標を目画像中の黒目の中心位置とし、最も尤度の大きかった黒丸画像の半径を目画像中の黒目の半径とする。なお、ステップＳ１７の処理は、目画像中の黒目の中心位置及び半径に関して大凡の目処をつけるために行うものである。

ステップＳ１８では、処理部１３は、ステップＳ１７で探索した黒目の中心位置及び半径を利用し、パーティクルフィルタの手法を適用して、より精度の高い黒目の中心位置及び半径を検出する。

ステップＳ１９では、処理部１３は、上述したステップＳ１３～ステップＳ１８の処理により、１フレームの画像について、眼球中心座標、黒目の中心位置の座標の数値データを得るので、その数値データを出力する。眼球中心座標および黒目の中心位置の座標により視線の方向を特定できる。また、撮影ユニット１２が出力する映像が途切れるまで、ステップＳ１１～ステップＳ２０のループ状の処理を繰り返すことで、リアルタイムでの視線検出を実現する。これらのデータを用いて画像平面上の座標から眼球回転角を計算する際には、図６の（Ａ）に示す、眼球３Ｄモデルを用いた変換を行う。

図６の（Ａ）に示す眼球３Ｄモデルにおいて、この眼球Ｅは、眼球中心Ｏと、眼球半径Ｒとで表される球体である。また、この眼球Ｅの表面には、黒目を構成する円形形状の虹彩Ｆがあり、虹彩Ｆの中央には円形形状の瞳孔Ｇがある。視線の方向は、眼球中心Ｏから虹彩Ｆまたは瞳孔Ｇの中央に向かう方向として特定でき、水平面内の基準方向に対する回転角度ヨー（ｙａｗ）、および上下方向の基準方向に対する回転角度ピッチ（ｐｉｔｃｈ）により表すことができる。また、虹彩Ｆまたは瞳孔Ｇの中心座標は、眼球中心Ｏを基準とした場合、眼球半径Ｒ、ヨー（ｙａｗ）、およびピッチ（ｐｉｔｃｈ）により表すことができる。一方、撮影ユニット１２で撮影された映像は、２次元平面を表していることから、撮影ユニット１２の撮影で得た二次元画像を眼球３Ｄモデルに適用する場合には、二次元／三次元の相互変換を行う必要がある。例えば、次式を用いて変換する。

Ｘ＝－Ｒ×ｃｏｓ（ｐｉｔｃｈ）×ｓｉｎ（ｙａｗ）・・・（１）
Ｙ＝Ｒ×ｓｉｎ（ｐｉｔｃｈ）・・・（２）
Ｘ：二次元画像平面上での眼球中心Ｏからのｘ方向の距離
Ｙ：二次元画像平面上での眼球中心Ｏからのｙ方向の距離

次に、顔画像から黒目を探索する処理について図６の（Ｂ）を参照して説明する。ステップＳ４１では、処理部１３は、図５中のステップＳ１５の結果を利用し、１フレーム全体の二次元画像データの中から目及びその周辺の矩形領域を切り出して、データＤ４１を取得する。

ステップＳ４２では、処理部１３は、ステップＳ４１で取得したデータＤ４１を画素毎の階調が黒／白の二値のみになるように二値化したデータＤ４２を生成した後で、このデータＤ４２に対して図５中のステップＳ１７のテンプレートマッチングを実施する。すなわち、黒目の形状に似た黒丸形状の画像をテンプレートとして利用し、このテンプレートをデータＤ４２の画像上で走査しながら、特徴が尤も似ている大凡の黒目の位置を探索し、その位置および黒目の半径または直径を特定する。

ステップＳ４３では、処理部１３は、ステップＳ４１で取得した目のデータＤ４１に対してソーベルフィルタの処理を施す。具体的には、目のデータＤ４１を左から右に向かって水平方向に順次に走査し、輝度変化のない部分では黒（階調値：０）を出力し、輝度変化の勾配が大きいほど白（階調値：２５５）に近づくようにして、エッジを検出する。これにより、エッジを抽出した目画像のデータＤ４３が得られる。

ステップＳ４４では、処理部１３は、ステップＳ４２で得られた大凡の黒目の位置を起点として、ステップＳ４３で得られた目画像のデータＤ４３に対してパーティクルフィルタの処理を実行する。パーティクルフィルタによる黒目検出は、以下の［１］～［４］の順に行う。

［１］処理部１３は、テンプレートマッチングで大まかな黒目位置を探索する
［２］処理部１３は、眼球３Ｄモデルに基づき、上記［１］の黒目位置から眼球回転角を算出する。
［３］処理部１３は、上記［２］で得た大まかな眼球回転角近傍に、黒目楕円候補サンプリングのためのパーティクルを散布する。
［４］処理部１３は、[３]で散布した黒目楕円候補位置での尤度を計算する。ここで尤度は黒目楕円候補４４ａにおいて、ソーベルフィルタのエッジ画像Ｄ４４を参照しエッジと抽出された点であれば＋１、エッジでなければ＋０として、円周上の全点で合計したスコアを算出した値を尤度とする。
［５］散布したパーティクルに対して尤度を計算し、散布位置に対して尤度の変化傾向を捉えた上で検出結果を出力する。すなわち、複数のパーティクルの散布結果より、散布位置変化に対して尤度が最大になる点を検出結果として出力する。

上記［３］の眼球回転角近傍は、図６の（Ａ）に示した眼球３Ｄモデルのｙａｗ、ｐｉｔｃｈの値に乱数によるブレを加え複数パターン作成する。このとき、次フレームの検出のブレの変化量は、その前のフレームの検出結果より生成される。すなわち、乱数の中央値より検出結果の差が大きくなるほど、乱数によるブレの変化量は大きくなる。

処理部１３は、図３の（Ａ）に示すように、モデルベース視線推定（第２視線推定処理）を実行し、当該視線推定処理の結果が条件Ａを満たす場合、アピアランスベース視線推定（第１視線推定処理）を実行する。一方、処理部１３は、第１視線推定処理を実行した際、当該第１視線推定処理を実行する前に行う顔向き算出処理の結果が条件Ｂを満たす場合、第２視線推定処理を実行する。条件Ａは、例えば、第２視線推定処理にて推定された視線角度が±θ°以内である。θ°（ｙａｗ，ｐｉｔｃｈ）は、モデルベース視線推定で得られた視線角度に基づいてアピアランスベース視線推定へ遷移する閾値であり、アピアランスベース視線推定における対応範囲を示す。条件Ｂは、顔向き算出処理にて算出された顔向き角度が±φ°以上である。φ°（ｙａｗ，ｐｉｔｃｈ）は、アピアランスベース視線推定からモデルベース視線推定に遷移する顔向き角度の閾値である。φ°は、アピアランスベース視線推定における対応範囲θ°に基づいて設定することができる。例えば、対象物を見たときの顔向きと視線角度との関連性について検討された分担比に基づいて設定することができる。分担比の詳細については、例えば、下記文献に示されている。なお、処理部１３は、システム起動直後は、初期設定を行い、初期設定後は第２視線推定処理を実行する。
「２次元平面上の指標を注視させたときの頭部運動と眼球運動の協調関係の分析、山田光穂、電子情報通信学会論文誌ＤＶｏｌ．Ｊ７５－Ｄ２Ｎｏ．５ｐｐ９７１－９８１１９９２年５月」

第１判定部１５Ａは、各撮影画像から得られる運転者２０の視線２４の変化が伴う動作に応じて、当該視線２４が、第１対象範囲４１に向いているか、第２対象範囲４２に向いているかを判定する。各撮影画像から得られる運転者２０の視線２４の変化が伴う動作とは、例えば、顔の向きを変える動作や体の向きを変える動作である。本実施形態では、顔向きを変える動作とする。第１判定部１５Ａは、各撮影画像から運転者２０の顔向き角度を算出し、当該顔向き角度に基づいて、視線２４が第１対象範囲４１に向いているか、第２対象範囲４２に向いているかを判定する。

第１対象範囲４１は、運転者２０の視認範囲のうち、相対的に高精度な視線の推定を要求される範囲に設定される。第１対象範囲４１は、図３の（Ｂ）に示すように、例えば、運転視野範囲である。運転視野範囲では、例えば、運転者２０が前方を走行する車両のブレーキランプを見たか、赤信号を確認したか、遠方の横断歩道の歩行者を見たかといった視線の向きを推定することが要求される。第２対象範囲４２は、運転者２０の視認範囲のうち、第１対象範囲４１の外側にあって第１対象範囲４１以上の高精度な視線の推定を要求されない範囲である。第２対象範囲４２は、例えば、運転者２０が安全確認や、脇見をした際に視線を向ける範囲である。

第２判定部１５Ｂは、第２推定視線情報を得た場合、当該第２推定視線情報に基づいて、視線２４が第１対象範囲４１に向いているか、第２対象範囲４２に向いているかを判定する。

第３判定部１５Ｃは、直前に実行された視線の推定処理が第１視線推定処理か、第２視線推定処理かを判定する。

次に、視線推定システム１で実行される視線推定処理のアルゴリズムについて図３及び図７を参照して説明する。図７に示す処理は、例えば、電源投入（例えば車両２のＩＧＮのＯＮ）に応じて、処理部１３が記憶部から読みだしたプログラムを実行することにより、各ステップが順次行われる。

ステップＳ３１では、撮影ユニット１２は、運転者２０の顔を含む映像を撮影して映像の信号を出力する。処理部１３は、撮影ユニット１２から映像の信号を１フレーム分取り込む。このとき、処理部１３は、グレースケール化を含む、画像のデータ形式の変換やサイズの変更などを必要に応じて実行する。

ステップＳ３２では、処理部１３は、ステップＳ３１で取り込んだ撮影画像に基づいて、例えば、上述した「Ｖｉｏｌａ－Ｊｏｎｅｓ法」を用いて顔検出を行い、１フレームの二次元画像データの中から顔を含む顔画像を抽出する。

ステップＳ３３では、処理部１３は、ステップＳ３２で抽出した顔画像内で目検出を行う。処理部１３は、例えば、上述した「Ｖｉｏｌａ－Ｊｏｎｅｓ法」により、目の位置を検出することも可能だが、後段のステップで顔向き算出を行うため、顔の特徴点検出を行い、目の特徴点を包含する矩形部分を特定する手法が好ましい。例えば、下記サイトに示す一般的な顔の特徴点検出アルゴリズムを使用してもよい。Ｆａｃｉａｌｐｏｉｎｔａｎｎｏｔａｔｉｏｎｓ：ｈｔｔｐｓ：／／ｉｂｕｇ．ｄｏｃ．ｉｃ．ａｃ．ｕｋ／ｒｅｓｏｕｒｃｅｓ／ｆａｃｉａｌ－ｐｏｉｎｔ－ａｎｎｏｔａｔｉｏｎｓ／

ステップＳ３４では、処理部１３は、ステップＳ３２で抽出した顔画像内で顔の向きを算出する。ステップＳ３３で実行されるアルゴリズムには、顔の向きを算出するアルゴリズムが含まれる。これは、標準的な顔モデルを予め作成しておき、検出された２次元の特徴点配置と対応する各点の位置を比較することによって、顔向きの回転角度（ｙａｗ，ｐｉｔｃｈ，ｒｏｌｌ）を推定する手法である。なお、顔向き角度は、後段のステップで使用されるので、例えば、処理部１３内の記憶部に一時格納される。なお、ステップＳ３２～Ｓ３４で実行されるアルゴリズムは、上述した手法以外のソフトウェアを用いて実現してもよい。

ステップＳ３５では、処理部１３は、直前に実行された視線推定処理があるか否かを判定する。処理部１３は、例えば、記憶部にソフトウェア使用ログが記録されているか否かを判定する。ここでソフトウェア使用ログには、上記第１視線推定処理に対応するものと、上記第２視線推定処理に対応するものとがある。処理部１３は、記憶部にソフトウェア使用ログが記録されていない場合、直前に実行された視線推定処理がないと判定して、ステップＳ４１へ移行する。記憶部にソフトウェア使用ログが記録されていない場合とは、例えば、初期フレームに対して視線推定処理を実行する場合やシステムが初期化された場合が含まれる。または、前段の顔検出や目検出において検出できない、すなわち運転者２０の顔２１が横や後ろを向いていることで、当該顔２１や眼２２が画像範囲内に存在しない場合が含まれる。ステップＳ３５の判定の結果、記憶部にソフトウェア使用ログが記録されている場合、ステップＳ３６へ進む。

ステップＳ３６では、処理部１３は、直前に実行された視線の推定処理が第１視線推定処理か、第２視線推定処理かを判定する。ステップＳ３６は、第３判定部１５Ｃにより実行される。処理部１３は、記憶部に記録されたソフトウェア使用ログを参照し、第１視線推定処理に対応するものか、第２視線推定処理に対応するものかを判定する。処理部１３は、ソフトウェア使用ログが第１視線推定処理に対応するものである場合、ステップＳ３７へ進む。一方、ソフトウェア使用ログが第２視線推定処理に対応するものである場合、ステップＳ４１へ進む。

ステップＳ３７では、処理部１３は、顔向き角度が±φ°以上か否かを判定する。ステップＳ３７は、第１判定部１５Ａにより実行される。顔向き角度は、ステップＳ３４で算出されたものである。処理部１３は、顔向き角度が±φ°以上であると判定した場合、運転者２０の視線２４が第２対象範囲４２を向いていると判定して、ステップＳ４１へ進む。一方、顔向き角度が±φ°以上でないと判定した場合、運転者２０の視線２４が第１対象範囲４１を向いていると判定して、ステップＳ３８へ進む。

ステップＳ３８では、処理部１３は、上記第１視線推定処理を実行して、ステップＳ３９へ進む。

ステップＳ３９では、処理部１３は、実行した視線推定処理の結果を出力して、ステップＳ４０へ進む。

ステップＳ４０では、処理部１３は、実行した視線推定処理を示すソフトウェア使用ログを記憶部に記録してステップＳ３１に戻る。

ステップＳ４１では、処理部１３は、上記第２視線推定処理を実行して、ステップＳ４２へ進む。処理部１３は、実行した視線推定処理の結果を記憶部に一時記録する。

ステップＳ４２では、処理部１３は、視線角度が±θ°以内か否かを判定する。ステップＳ４２は、第２判定部１５Ｂにより実行される。視線角度は、ステップＳ４１で推定されたものである。処理部１３は、視線角度が±θ°以内であると判定した場合、運転者２０の視線２４が第１対象範囲４１に向いていると判定し、ステップＳ４１で一時記録された視線推定処理の結果を消去してステップＳ３８へ進む。一方、視線角度が±θ°以内でないと判定した場合、運転者２０の視線２４が第２対象範囲４２に向いていると判定し、ステップＳ３９へ進む。

以上説明した視線推定システム１は、撮影画像から得られる運転者２０の視線２４が、相対的に高い精度を要求される第１対象範囲４１に向いているか、第１対象範囲４１の外側にあって第１対象範囲４１以上の高い精度を要求されない第２対象範囲４２に向いているかを判定する。この結果、視線２４が第１対象範囲４１に向いていると判定した場合、アピアランスベース手法による視線の推定処理を行って第１推定視線情報を生成する第１視線推定処理を実行する。一方、視線２４が第２対象範囲４２に向いていると判定した場合、モデルベース手法による視線の推定処理を行って第２推定視線情報を生成する第２視線推定処理を実行する。

上記構成により、運転者２０が、高い精度が要求される第１対象範囲４１に視線を向けている場合には、アピアランスベース手法により高精度に視線を推定することができ、高い精度を要求されない第２対象範囲４２に視線を向けている場合には、アピアランスベース手法より処理負荷が低いモデルベース手法により視線推定を行うことができる。この結果、アピアランスベース手法のみを用いて視線を推定する場合に比べて処理負荷を軽減することができ、モデルベースのみを用いて視線を推定する場合に比べて高精度な視線を推定することができ、処理負荷の軽減と、高精度な視線推定との両立を図ることができる。また、視線推定システム１を車両に適用した場合、車両前方の運転視野範囲における視線、運転者２０の安全確認や脇見といった運転視野範囲外の視線を推定することができる。

また、視線推定システム１は、動作が運転者２０の顔向き動作である場合、各撮影画像から運転者２０の顔向き角度を算出し、当該顔向き角度に基づいて、視線２４が第１対象範囲４１に向いているか、第２対象範囲４２に向いているかを判定する。これにより、例えば、画像ごとに第２視線推定処理を実行し、運転者２０の視線２４が第１対象範囲４１と第２対象範囲４２のどちらを向いているかを判定する場合と比較して、運転者２０の顔向き角度に基づいて視線２４がどちらの対象範囲を向いているかを判定する方が処理負荷を軽減することができる。

また、視線推定システム１は、第２視線推定視線情報に基づいて、視線２４が第１対象範囲４１に向いているか、第２対象範囲４２に向いているかを判定し、視線２４が第１対象範囲４１に向いていると判定した場合、第１視線推定処理を実行する。これにより、例えば、運転者２０の視線２４が第１対象範囲４１に向いていると判定すべきところを誤って第２対象範囲４２を向いていると判定して第２視線推定処理で視線推定を行ったとしても、第１視線推定処理を実行することができ、第１対象範囲４１に向いた視線を高精度に推定することができる。

また、視線推定システム１は、直前に実行された視線の推定処理が第１視線推定処理か、第２視線推定処理かを判定し、直前に実行された視線の推定処理が、第２視線推定処理である場合、第２視線推定処理を実行し、第１視線推定処理である場合、第１判定部１５Ａによる判定を行う。これにより、例えば、直前に実行された視線の推定処理が第２視線推定処理の場合、第１判定部１５Ａによる判定を行うことなく第２視線推定処理を行うことから、第１判定部１５Ａによる判定分の処理を軽減することができる。

［変形例］
なお、上記実施形態では、視線推定システム１は、自動車等の車両２に適用されているが、これに限定されず、例えば車両２以外の船舶や航空機等に適用してもよい。また、視線推定システム１は、撮影ユニット１２と、処理部１３とに分かれているが、これに限定されず、一体で構成されていてもよい。

また、視線推定システム１をデジタルサイネージに適用してもよい。例えば、デジタルサイネージに撮影ユニット１２を設置することで、通行人がデジタルサイネージのどこを見たかを分析することができる。図８に示す例では、中央のデジタルサイネージ５１の上部に撮影ユニット１２を設置している。なお、撮影ユニット１２の設置位置は下部でもよいが、設置位置と測定対象者のあらわれる範囲に応じて、アピアランスベース手法による視線推定に使用する学習済モデルを学習させるための視線角度情報と顔画像を対応させた視線データベースを作成する必要がある。このような視線推定システムでは、撮影ユニット１２を設置したデジタルサイネージ５１内では、アピアランスベース手法による視線推定を用いることで、当該デジタルサイネージ５１内のどの部分に着目したかを精度よく推定することができる。また、デジタルサイネージ外５２では、モデルベース手法による視線推定を用いることで、例えばデジタルサイネージ５１の左右に隣接するデジタルサイネージ外５２のどちらを見ているかといった視線情報を推定することができる。また、これらの視線位置と注視している時間を合わせて記録することで、表示しているコンテンツの注目度合を計測することが可能になる。

また、上記実施形態では、処理回路は、単一のプロセッサによって各処理機能が実現されるものとして説明したがこれに限らない。処理回路は、複数の独立したプロセッサを組み合わせて各プロセッサがプログラムを実行することにより各処理機能が実現されてもよい。また、処理回路が有する処理機能は、単一又は複数の処理回路に適宜に分散又は統合されて実現されてもよい。また、処理回路が有する処理機能は、その全部又は任意の一部をプログラムにて実現してもよく、また、ワイヤードロジック等によるハードウェアとして実現してもよい。

以上で説明したプロセッサによって実行されるプログラムは、記憶回路等に予め組み込まれて提供される。なお、このプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルで、コンピュータで読み取り可能な記憶媒体に記録されて提供されてもよい。また、このプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードされることにより提供又は配布されてもよい。

１視線推定システム
２車両
１２撮影ユニット
１３処理部
１４Ａ第１視線推定処理部
１４Ｂ第２視線推定処理部
１５Ａ第１判定部
１５Ｂ第２判定部
１５Ｃ第３判定部
２０運転者
２１顔
２２眼

Claims

測定対象者の顔を含む撮影画像を時系列上連続して取得する画像取得部と、
取得された各前記撮影画像に基づいて前記測定対象者の視線の推定処理を実行する処理部と、を備え、
前記処理部は、
前記測定対象者の顔を含む学習画像に基づいてアピアランスベース手法による視線の推定処理を行って第１推定視線情報を生成する第１視線推定処理、及び、前記学習画像に基づいてモデルベース手法による視線の推定処理を行って第２推定視線情報を生成する第２視線推定処理を実行するものであり、
各前記撮影画像から得られる前記測定対象者の視線の変化が伴う動作に応じて、当該視線が、相対的に高い精度を要求される第１対象範囲に向いているか、前記第１対象範囲の外側にあって前記第１対象範囲以上の高い精度を要求されない第２対象範囲に向いているかを判定する第１判定部を有し、
前記第１判定部により前記視線が前記第１対象範囲に向いていると判定された場合、前記第１視線推定処理を実行し、
前記視線が前記第２対象範囲に向いていると判定された場合、前記第２視線推定処理を実行する、
ことを特徴とする視線推定システム。
前記動作は、前記測定対象者の顔の動きであり、
前記第１判定部は、
各前記撮影画像から前記測定対象者の顔向き角度を算出し、当該顔向き角度に基づいて、前記視線が前記第１対象範囲に向いているか、前記第２対象範囲に向いているかを判定する、
請求項１に記載の視線推定システム。
前記処理部は、
前記第２推定視線情報を得た場合、当該第２推定視線情報に基づいて、前記視線が前記第１対象範囲に向いているか、前記第２対象範囲に向いているかを判定する第２判定部をさらに有し、
前記第２判定部により前記視線が前記第１対象範囲に向いていると判定された場合、前記第１視線推定処理を実行する、
請求項１または２に記載の視線推定システム。
前記処理部は、
直前に実行された視線の推定処理が前記第１視線推定処理か、前記第２視線推定処理かを判定する第３判定部をさらに有し、
前記第３判定部により、直前に実行された視線の推定処理が前記第２視線推定処理であると判定された場合、前記第２視線推定処理を実行し、直前に実行された視線の推定処理が前記第１視線推定処理であると判定された場合、前記第１判定部による判定を行う、
請求項３に記載の視線推定システム。