JP2021182697A

JP2021182697A - 撮像装置、撮像装置の制御方法及びプログラム

Info

Publication number: JP2021182697A
Application number: JP2020087597A
Authority: JP
Inventors: 洋平野; Hiroshi Hirano; 一人寺境; Kazuto Jikyo
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2021-11-25

Abstract

【課題】ユーザの意図する被写体を精度よく認識するとともに、ユーザの利便性を向上させる。【解決手段】撮像装置１００は、スルー画像をファインダ内の表示素子１０８に表示する。ユーザの操作により表示素子１０８上の視線位置が確定された場合、撮像装置１００は、視線位置の座標情報を取得する。また、確定された視線位置により指定されるＡＦ枠に対してＡＦ動作を行い、ＡＦ枠位置の座標情報を取得する。また、撮像装置１００は、確定された視線位置に移動するまでの視線位置の移動軌跡を表す視線移動パターンを取得する。さらに、撮像装置１００は、以上のようにして取得した各データを用いて視線位置を補正するための補正量を算出する。そして、撮像装置１００は、視線移動パターンと、補正量とを対応付けた学習データを学習して学習済モデルを生成する。撮像装置１００は、学習済モデルから出力された推定データを基に視線位置の補正量を取得する。【選択図】図６

Description

本発明は、ユーザの視線位置を検出可能な撮像装置、撮像装置の制御方法及びプログラムに関する。

近年カメラの自動化・インテリジェント化が進み、手動で被写体位置を入力せずとも、ファインダを覗くユーザの視線位置を検出してユーザが意図する被写体を認識し、焦点制御を行う技術が提案されている。また、ユーザの視線位置を検出する際に、ユーザの意図した視線位置とカメラが認識するユーザの視線位置の間に生じるずれを補正するキャリブレーションに関する技術が提案されている。
特許文献１では、撮影前にファインダ内に指標を表示し、ユーザにその指標を注視するよう指示を出し、その注視状態において、ユーザの視線位置を検出し、該指標位置とのずれ量を検出する作業を行う。その後の撮影時に、検出されたずれ量だけユーザの視線位置を補正することにより、キャリブレーションを行うことが記載されている。また、特許文献２では、被写体の移動ベクトル（オプティカルフロー）と、視線の移動ベクトルを比較して一致度合を判定し、ユーザが実際に注視している点と視線位置の差異を自動でキャリブレーションすることが記載されている。

特開２００４−８３２３号公報特開２０１９−１２９４６１号公報

上述の特許文献１では、ユーザの体勢等によりカメラが認識するユーザの視線位置が変わるため、頻繁にキャリブレーションを行わねばならず、煩雑となるという問題がある。また、上述の特許文献２では、補正量が予め決められた一定の判定条件に基づいて決められているが、視線の動き方が被写体位置等により変わるため、判定条件を満たさず、ユーザの意図する被写体を捉えられないケースがある。

本発明は、上述した課題に鑑みてなされたものであり、ユーザの意図する被写体を精度よく認識するとともに、ユーザの利便性を向上させることを目的とする。

本発明の撮像装置は、撮像画像を表示する表示部に対するユーザの視線位置を検出する検出手段と、前記撮像画像の被写体の位置に表示枠を重畳表示するように制御する表示制御手段と、ユーザの操作により前記視線位置が確定された場合に、確定された前記視線位置により指定された前記表示枠の位置を用いて焦点を合わせる合焦手段と、確定された前記視線位置に移動するまでの前記視線位置の移動軌跡を所定のパターンに分類する分類手段と、前記分類手段により得られた結果と、確定された前記視線位置と、前記合焦手段により合焦された合焦位置との関係性を学習する学習手段と、前記学習手段により得られた結果に基づいて、前記検出手段により検出される前記視線位置を補正するための補正量を取得する取得手段と、を有することを特徴とする。

本発明によれば、ユーザの意図する被写体を精度よく認識することができるとともに、ユーザの利便性を向上させることができる。

撮像装置の全体構成例を示す図である。撮像装置のハードウェア構成例を示す図である。撮像装置の機能構成例を示す図である。学習データの一例を示す図である。視線移動パターンの例を示す図である。学習データを取得する処理を示すフローチャートである。学習に使用するシーンの条件について説明する図である。学習モデルについて説明する図である。視線位置を修正する処理を示すフローチャートである。

以下、添付図面を参照して、本発明の好適な実施形態について説明する。

＜撮像装置の全体構成＞
図１は、本発明を適用可能な撮像装置１００の全体構成例を示す図である。撮像装置１００は、例えばデジタルスチルカメラである。撮像装置１００は、ファインダを覗くユーザの視線位置を検出する視線検出機能を有する。

撮像装置１００は、撮像レンズ１０１及び撮像素子１０２を有する。撮像レンズ１０１は、ズームレンズ、フォーカスレンズを含むレンズ群である。撮像素子１０２は、ＣＣＤ等であって、撮像レンズ１０１によって導かれた光学像を結像面に結像させ、電気信号に変換する。

撮像装置１００は、ＣＰＵ１０３、メモリ１０４、ＧＰＵ（Graphics Processing Unit）１０５、及びＦＰＧＡ（Field Programmable Gate Array）１０６を内蔵する。ＣＰＵ１０３は、カメラ１００の全体を制御する制御部である。メモリ１０４は、ＲＡＭ、ＲＯＭ、ＨＤＤ等であって、プログラムを記憶したり、撮像素子１０２により撮像された画像（撮像画像）や後述する学習処理を行う際に必要な学習データ等を記録したりする。ＧＰＵ１０５及びＦＰＧＡ１０６は、ＣＰＵ１０３と並列して学習処理を行う際に用いられる制御部である。

視線検知用センサー１０７は、ファインダ近傍に設けられており、ユーザがファインダを覗いたことを検知するためのセンサーである。視線検知用センサー１０７は、検知結果をＣＰＵ１０７へ出力する。表示素子１０８は、液晶画面等で構成されており、ファインダの内部に設けられている。表示素子１０８は、表示部の一例である。表示素子駆動回路１０９は、表示素子１０８を駆動して表示素子１０８の画面上に撮像された画像を表示する。接眼レンズ１１０は、表示素子１０８に表示された画像を拡大して観察するために用いられる。レリーズボタン１１１は、撮影する際にユーザにより操作される。

１１２ａ〜１１２ｂは、従来より一眼レフカメラ等に用いられている光源の角膜反射による反射像と瞳孔の関係から視線方向を検出するためのユーザの眼球１１３を照明するための光源で、赤外発光ダイオードからなり、接眼レンズ１１０の回りに配置されている。照射された眼球像と照明光源１１２ａ〜１１２ｂの角膜反射による像は、接眼レンズ１１０を透過し、光分割器１１４で反射され、受光レンズ１１５によってＣＣＤ等の光電素子列を２次元的に配した眼球用撮像素子１１６上に結像される。受光レンズ１１５はユーザの眼球１１３の瞳孔と眼球用撮像素子１１６を共役な結像関係に位置付けている。眼球用撮像素子１１６上に結像された眼球と、照明光源１１２ａ〜１１２ｂの角膜反射による像の位置関係から視線方向が検出可能である。

＜撮像装置のハードウェア構成＞
図２は、図１の撮像装置１００のハードウェアの構成例を示す図である。図１と同一のものは同一番号を付している。

図２に示す通り、ＣＰＵ１０３には、撮像素子１０２、メモリ１０４、視線検出回路２０１、測光回路２０２、信号入力回路２０３、表示素子駆動回路１０９、照明光源駆動回路２０５、及びＧＰＵ１０５が接続されており、これらのデバイスを制御している。
撮像素子１０２は、電気信号を画像データとしてＣＰＵ１０３に出力する。
視線検出回路２０１は、眼球用撮像素子１１６からの撮像データに基づいて、視線検出情報を演算し、ＣＰＵ１０３に出力する。ＣＰＵ１０３は、視線検出情報と表示素子１０８の表示座標との対応関係に基づいて、表示素子１０８上のユーザの視線位置を表す視線位置検出結果を取得する。ＣＰＵ１０３は、検出手段の一例である。

測光回路２０２は、測光センサーの役割も兼ねる撮像素子１０２から得られる電気信号に基づいて、被写界の輝度情報を演算し、ＣＰＵ１０３に出力する。
信号入力回路２０３は、レリーズボタン１１１等の操作部材と接続されており、ユーザが操作部材を操作した操作信号を受け付け、ＣＰＵ１０３に出力する。

表示素子駆動回路１０９は、ＣＰＵ１０３の制御により、表示素子１０８に表示する処理を実行する。表示素子駆動回路１０９は、撮像素子１０２で撮像された画像を表示素子１０８に逐次表示することで、ライブビュー表示を行う。以下、ライブビューで表示される画像をスルー画像と称する。また、ＣＰＵ１０３は、表示素子駆動回路１０９を制御して、スルー画像に重畳させて、視線位置検出結果としての視線位置に視線枠を表示する。更に、ＣＰＵ１０３は、スルー画像に対して被写体を検出する処理を実行する。ＣＰＵ１０３は、表示素子駆動回路１０９を制御して、スルー画像に重畳させて、検出した被写体の位置にＡＦ枠を表示する。ＣＰＵ１０３は表示制御手段の一例である。ＡＦ枠は表示枠の一例である。

照明光源駆動回路２０５は、ＣＰＵ１０３の制御により、ユーザの視線方向を検出する際に使用する照明光源１１２ａ〜１１２ｂを駆動する処理を実行する。
ＧＰＵ１０５は、ＦＰＧＡ１０６と接続されており、ＣＰＵ１０３の制御により、学習処理を平行処理する。なお、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合には、データをより多く並列処理することで効率的な演算を行うことができるため、ＧＰＵ１０５やＦＰＧＡ１０６で処理を行うことが有効である。

＜撮像装置の機能構成＞
図３は、図２のハードウェア構成図で示したハードウェアとプログラムを利用することで実現される撮像装置１００の機能構成例を示す図である。図１及び図２と同一のものは同一番号を付している。
ＣＰＵ１０３は、メモリ１０４に記憶されるプログラムを実行することにより、ＣＰＵ１０３に接続される各デバイスを制御して、学習処理・推定処理を行う学習・推定部３０１、視線位置検出結果を修正する視線位置検出結果修正部３０２として機能する。

まず、学習・推定部３０１（ＣＰＵ１０３）が、学習処理を行う際に必要な学習データを取得する際に行う処理について説明する。学習データは、入力データと教師データとからなる。本実施形態では、入力データとして、視線ＩＤ、視線移動パターン、被写界輝度、視線確定時中心座標、及び合焦位置中心座標を取得する。
学習・推定部３０１（ＣＰＵ１０３）は、視線検出回路２０１を介して得られる眼球用撮像素子１１６からの撮像データを解析して、眼球１１３の特徴やまつ毛の特徴等の眼球情報を取得する。そして、取得した眼球情報に基づいて、ユーザを識別し、識別されたユーザ毎に視線ＩＤを割り当てる。メモリ１０４には、視線ＩＤに対応付けてユーザの眼球情報が記憶される。ＣＰＵ１０３は、ユーザ識別手段の一例である。

また、学習・推定部３０１（ＣＰＵ１０３）は、撮像信号記憶部３０３によって記憶される視線検出情報の時系列データを解析して、ユーザの視線位置が所定時間に移動する移動軌跡の特徴を取得する。そして、取得した移動軌跡の特徴に基づいて、予めプログラムされた視線移動パターンに分類する。ＣＰＵ１０３は、分類手段の一例である。視線移動パターンの分類に関しては、図５で詳細な説明をする。

また、学習・推定部３０１（ＣＰＵ１０３）は、ユーザが視線位置を確定した際の視線枠の中心座標（視線確定時中心座標）を取得する。本実施形態では、学習・推定部３０１が信号入力回路２０３を介して操作信号を受信したタイミングで、視線位置を確定させる。
また、学習・推定部３０１（ＣＰＵ１０３）は、検出された被写体に対して表示されるＡＦ枠のうち、確定された視線位置によって指定されるＡＦ枠の位置に合わせて焦点制御を行う。ＣＰＵ１０３は、合焦手段の一例である。学習・推定部３０１は、焦点制御に用いられたＡＦ枠の中心座標を合焦位置中心座標として取得する。

学習・推定部３０１（ＣＰＵ１０３）は、視線ＩＤ、視線移動パターン、被写界輝度、視線確定時中心座標、及び合焦位置中心座標の関係性を学習する。そして、学習・推定部３０１は、学習処理によって得られた結果に基づいて、視線位置検出結果を補正するための補正量を取得する。ＣＰＵ１０３は、学習手段、取得手段の一例である。

視線位置検出結果修正部３０２（ＣＰＵ１０３）は、学習・推定部３０１により得られた視線位置検出結果を補正するための補正量を用いて、視線位置検出結果を修正する。ＣＰＵ１０３は、修正手段として機能する。

本実施形態において学習・推定部３０１（ＣＰＵ１０３）は、視線ＩＤ、視線移動パターン、被写界輝度、視線確定時中心座標、及び合焦位置中心座標を入力データとして収集する。また、学習・推定部３０１は、視線確定時中心座標と合焦位置中心座標の差異情報に基づいて算出される補正量を教師データとして収集する。そして、学習・推定部３０１は、入力データと教師データとをセットとする学習データを用いて、視線位置検出結果の補正量を出力するための学習済モデルを生成する。なお、学習用入力データとしては、視線ＩＤ、視線移動パターン、被写界輝度、視線確定時中心座標、及び合焦位置中心座標のすべての項目を用いなくてもよい。例えば、これらのうちの１又は複数の項目を適宜選択して用いてもよい。
また、学習・推定部３０１（ＣＰＵ１０３）は、視線ＩＤ、視線移動パターン、被写界輝度を推定用入力データとし、生成された学習済モデルへ入力して推定を行う。学習・推定部３０１は、学習済モデルから出力された推定データを基に出力データである視線位置検出結果の補正量を取得する。なお、推定用入力データとしては、学習の際に用いた項目が望ましい。

本実施形態において、学習・推定部３０１は、ＣＰＵ１０３に加えてＧＰＵ１０５やＦＰＧＡ１０６を用い協働して演算を行うことで効率的に処理を実行する。なお、学習・推定部３０１は、ＣＰＵ１０３、ＧＰＵ１０５、及びＦＰＧＡ１０６の何れかより演算が行われても良い。

メモリ１０４は、ＣＰＵ１０３の制御により、視線検出回路２０１から得られる視線検出情報と、撮像素子１０２から得られる電気信号とを時系列で記憶する撮像信号記憶部３０３として機能する。また、メモリ１０４は、ＣＰＵ１０３の制御により、学習データや学習済モデルを記憶する学習データ記憶部３０４として機能する。

＜学習データに関する説明＞
図４は、学習データの一例を示す図である。
学習用データＩＤは、学習データの管理番号であり、図６のフローチャートの処理を実行するたびに増えていく。
本実施形態では、入力データ４０１として、視線ＩＤ、視線移動パターン、被写界輝度、視線確定時中心座標、及び合焦位置中心座標を用いる。また、教師データ４０２として、補正量ｘと補正量ｙを用いる。詳細を後述する。

視線ＩＤは、ユーザを識別するためのＩＤである。視線ＩＤは、ユーザ毎に補正量を学習させるために用いられる。
視線移動パターンは、上述の視線移動パターンに分類した結果を示す情報である。本実施形態では、予めプログラムされた視線移動パターンの種類に対応する分類番号で表される。

被写界輝度は、スルー画像の輝度情報であり、測光回路２０２から出力される。本実施形態において、被写界輝度は、真っ暗な状態を１とし、白飛びした状態を８とした８段階で分類される。本実施形態では一例として、８段階で分類しているが、分類数を限定するものではない。
前述したとおり、ユーザの視線方向を認識する際に、瞳孔に反射する赤外光の反射像を利用しているが、被写界の明るさにより瞳孔の大きさが変わるため、検出位置検出結果が変化してしまう可能性がある。そこで、被写界輝度を学習することで、被写界の明るさを加味した補正量を算出することができ、視線位置の検出精度を向上させることが可能になる。

視線確定時中心座標及びＡＦ合焦位置の中心座標は、前項で説明したとおりである。

教師データは、視線確定時中心座標と合焦位置中心座標の差異情報に基づいて算出される補正量である。水平方向の補正量を補正量ｘとし、垂直方向の補正量を補正量ｙとする。本実施形態では、予めプログラムされた条件により、視線移動パターンと視線確定時中心座標により導出される係数を掛けて算出しているが、この手法に限定するものではない。

＜視線移動パターンの分類に関する説明＞
図５を参照して、視線移動パターンの分類に関して説明する。
本実施形態では、視線検出回路２０１により検出された視線検出情報が、ＣＰＵ１０３の制御によりメモリ１０４に蓄積される。視線検出情報は、表示素子１０８に表示されるスルー画像が更新されるたびに取得される。
本実施形態において、ＣＰＵ１０３は、ユーザの視線検出開始時から視線確定時までの視線検出情報をメモリ１０４から読み出して、読み出した視線検出情報の時系列データを予めプログラムされた条件により、所定の視線移動パターンに分類する。

図５（ａ）〜図５（ｆ）は、視線移動パターンの例を示す。視線枠は十字記号で示す。視線検出開始時の視線位置は、視線初期位置５０６であり、点線の十字記号で示す。視線の移動軌跡５０５は、直線又は曲線の矢印で示す。また、視線確定時の視線位置５０７は、実線の十字記号で示す。この実線の十字記号の中心位置が、視線確定時中心座標に相当する。検出された被写体（顔）５０１，５０２に表示されるＡＦ枠５０３，５０４は、実線の四角枠で示す。ＡＦ動作を行ったＡＦ枠５０３を、太線の四角枠で示す。この太線の四角枠の中心位置が、合焦位置中心座標に相当する。

図５（ａ）は、分類番号１のパターンであり、左斜め上に視線が動くパターンである。視線初期位置５０６から左上の被写体５０１へ直線に視線を動かし、ＡＦ枠５０３の中心位置より下側に視線確定した例である。
図５（ｂ）は、分類番号２のパターンであり、右斜め上に視線が動くパターンである。左斜め上に視線が動くパターンである。視線初期位置５０６から右上の被写体５０２へ直線に視線を動かし、ＡＦ枠５０３の中心位置よりやや左側に視線確定した例である。
図５（ｃ）は、分類番号３のパターンであり、上左に曲がりながら視線が動くパターンであり。視線初期位置５０６から右上の被写体５０２へ視線を動かしたのちに、左上の被写体５０１へ視線を動かして、視線が曲線状に移動した例である。視線確定時の視線位置５０７は、ＡＦ枠５０３の中心位置より右側にある。
図５（ｄ）は、分類番号４のパターンであり、右上に曲がりながら視線が動くパターンである。視線初期位置５０６から右下へ視線を動かしたのちに、右上の被写体５０２へ視線を動かして、視線が曲線状に移動した例である。視線確定時の視線位置５０７は、ＡＦ枠５０３の中心位置より下側にある。
図５（ｅ）は、分類番号５のパターンであり、右横に視線が動くパターンである。視線初期位置５０６から右へ平行に視線を動かし、ＡＦ枠５０３の中心位置よりやや左側に視線確定した例である。
図５（ｆ）は、分類番号６のパターンであり、左横に視線が動くパターンである。視線初期位置５０６から左へ平行に視線を動かし、ＡＦ枠５０３の中心位置よりやや右側に視線確定した例である。また、視線初期位置５０６から、視線確定時の視線位置５０７まであまり移動していない例でもある。
なお視線移動パターンは、図５（ａ）〜図５（ｄ）に示すパターンに限られるものではない。

以上のように、視線の動きは、ユーザの意図する被写体の位置よりずれた位置で確定される。例えば、ユーザの意図する被写体の位置から少し行き過ぎた位置で確定さる場合や、ユーザの意図する被写体の位置より少し手前で確定される場合がある。そのため、意図しない被写体にＡＦ位置が合ってしまう可能性がある。例えば、図５（ａ）と図５（ｃ）、及び図５（ｂ）と図５（ｄ）は、同じ被写体に視線を合わせるが、視線の動き方により、ＡＦ枠の中心位置に対する視線確定時の視線位置の相対的位置が異なる。そこで、視線の移動パターンを事前にプログラムしておき、分類分けした移動パターンを学習することで、視線移動のパターン毎に、視線位置を補正するための補正量を算出する。これにより視線位置のパターンに応じて、ユーザの意図する被写体を精度よく認識できるようになる。

＜学習データを取得するフロー＞
図６は、本実施形態の学習データを取得する処理を示すフローチャートである。本フローチャートに示す処理は、ＣＰＵ１０３が、メモリ１０４に格納されたプログラムを実行することにより実現される。本フローチャートに示す処理は、撮像装置１００の電源がＯＮされると開始される。本フローチャートに示す処理は、主として学習・推定部３０１によって実行される。

ステップＳ６０１において、ＣＰＵ１０３は、視線検知用センサー１０７から出力された検知結果に基づいて、ユーザがファインダを覗いたこと（接眼状態）を検知したか否かを判定する。ＣＰＵ１０３が接眼状態であると判定した場合、処理はステップＳ６０２へ進む。ＣＰＵ１０３が非接眼状態であると判定した場合、接眼状態になるまで処理は待機する。

ステップＳ６０２において、ＣＰＵ１０３は、表示素子駆動回路１０９を制御して、撮像素子１０２から取得したスルー画像を表示素子１０８に表示する。ユーザはファインダ内の表示素子１０８に表示されたスルー画像を見ることで被写体の視認を行う。またこの時ＣＰＵ１０３は、撮像素子１０２からの電気信号や、視線検出回路２０１からの視線検出情報の収集を開始し、メモリ１０４に蓄積する。

ステップＳ６０３において、ＣＰＵ１０３は、ユーザの操作により視線位置が確定したか否かの判定を行う。例えば、ユーザはスルー画像中の意図する被写体に視線を合わせている状態で、所定のボタン等の操作部材を操作して視線位置を確定させる。ＣＰＵ１０３は信号入力回路２０３を介して所定のボタンからの操作信号を受信すると、視線位置が確定したことを検知する。ＣＰＵ１０３が視線位置が確定したと判定した場合、処理はステップＳ６０４へ進む。ＣＰＵ１０３が視線位置が確定していないと判定した場合、処理はステップＳ６０１へ戻る。

ステップＳ６０４において、ＣＰＵ１０３は、ＡＦ位置が確定したか否かの判定を行う。例えば、ＣＰＵ１０３はステップＳ６０３で確定された視線位置により指定されるＡＦ枠に対してＡＦ動作を行ったか否かを判定する。ＣＰＵ１０３がＡＦ位置が確定したと判定した場合、処理はステップＳ６０５へ進む。ＣＰＵ１０３がＡＦ位置が確定していないと判定した場合、ＡＦ動作を再度行うなどして、ＡＦ位置が確定するまでそのまま待機する。

ステップＳ６０５において、ＣＰＵ１０３は、スルー画像上に表示されるＡＦ枠の数や位置、ＡＦ枠の位置とステップＳ６０３で確定された視線位置との位置関係等を解析して、学習データの取得に適したシーンか否かの判定を行う。ＣＰＵ１０３が学習データの取得に適したシーンであると判定した場合、処理はステップＳ６０６へ進む。学習データの取得に適さないシーンであると判定した場合、本フローチャートの処理が終了する。なお、学習データに適したシーンか否かの判定に関する詳細は、図７を用いて後述する。

ステップＳ６０６において、ＣＰＵ１０３は、視線検出回路２０１を介して得られる眼球用撮像素子１１６からの撮像データを解析し、ユーザの眼球１１３の特徴点等により、ユーザを識別する。本実施形態では、事前に登録されているユーザの眼球情報と、特徴点とを比較することにより、視線ＩＤを取得する。その後処理は、ステップＳ６０７の処理へ進む。
ステップＳ６０７において、ＣＰＵ１０３は、図５で詳細を説明したとおり、メモリ１０４に蓄積された視線検出情報を解析し、Ｓ６０３で確定された視線位置に移動するまでの視線位置の移動軌跡を視線移動パターンに分類し、分類番号を取得する。その後処理は、ステップＳ６０８へ進む。

ステップＳ６０８において、ＣＰＵ１０３は、被写界輝度、視線確定時中心座標、及び合焦位置中心座標を取得する。被写界輝度は、測光回路２０２から取得する。視線確定時中心座標は、ステップＳ６０３で視線位置が確定された際の、視線枠の座標情報である。合焦位置中心座標は、ステップＳ６０４でＡＦ位置が確定された際の、ＡＦ枠位置の座標情報である。その後処理は、ステップＳ６０９へ進む。

ステップＳ６０９において、ＣＰＵ１０３は、ステップＳ６０６〜Ｓ６０８で取得した入力データに基づいて、教師データとしての補正量ｘ、補正量ｙを算出する。その後処理は、ステップＳ６１０へ進む。
ステップＳ６１０において、ＣＰＵ１０３は、ステップＳ６０６〜Ｓ６１０で取得した入力データ及び教師データの組を学習データとして、メモリ１０４に記憶する。その後本フローチャートの処理を終了する。

以上のような図６のフローチャートに示す処理を繰り返し実行することにより、メモリ１０４には学習データが複数記憶される。その後複数の学習データを用いて学習処理が実行される。学習処理の詳細については図８にて後述する。

＜学習に使用するシーンの条件に関する説明＞
学習に使用するシーンは、スルー画像中の主被写体が明確な場合のみである。例えば、スルー画像から顔が１つだけ検出されて、主被写体を間違う可能性が低いシーンや、スルー画像から複数の顔が検出されたとしても距離が離れており、主被写体を間違う可能性が低いシーンである。

図７には、学習に適したシーンと学習に適さないシーンの例を示す。
図７（ａ）は、学習に適さないシーンである。顔７０１，７０２が複数検出されており、且つ顔７０１，７０２に対応するＡＦ枠７０３，７０４が近距離に存在する。さらに、視線確定時の視線位置７０５がＡＦ枠７０３，７０４の中間等にある場合は、特に視線位置検出の検出誤差により、意図しない方の被写体にＡＦ位置が合っている可能性がある。そのため学習データに使用すると精度が低下してしまう可能性があるため、学習データには適さない。
一方、図７（ｂ）は、学習に適したシーンである。顔７０１が一つしか検出されていないため、ＡＦ枠７０３は一つだけである。この場合には、視線確定時の視線位置７０５が意図した被写体にＡＦ位置が合っている可能性が高い。この様なシーンを選び学習することで、学習精度を向上させることが可能になる。

＜学習方法に関する説明＞
図８は、本実施形態の学習モデルを用いた入出力の構造を示す概念図である。
学習・推定部３０１（ＣＰＵ１０３）は、学習モデル（Ｎｅｕｒａｌｎｅｔｗｏｒｋ）８０２を、図６のフローチャートに示す処理にて得られた学習データにより学習させることにより、視線位置検出結果の補正量８０３を出力するための学習済モデルを生成する。前述のとおり、入力データ８０１としては、視線ＩＤ、視線移動パターン、被写界輝度、視線確定時中心座標、及び合焦位置中心座標を用いる。具体的には、ＣＰＵ１０３は、複数の学習データを用いてサポートベクタマシン（ＳＶＭ）等のアルゴリズムを用いて学習させることにより学習済モデルを生成する。

機械学習の具体的なアルゴリズムとしては、上記のＳＶＭの他に、最近傍法、ナイーブベイズ法、決定木等が挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習（ディープラーニング）も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。

学習・推定部３０１（ＣＰＵ１０３）は、誤差検出部と、更新部とを備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。

なお、学習・推定部３０１（ＣＰＵ１０３）は、学習済モデルを用いて処理を行う構成に代えて、ルックアップテーブル（ＬＵＴ）等のルールベースの処理を行う構成でもよい。その場合には、ＣＰＵ１０３は、例えば、視線に関するデータと視線検出位置の補正量との関係を予めＬＵＴとして生成し、生成したＬＵＴをメモリ１０４等に格納する。ＣＰＵ１０３は、格納されたＬＵＴを参照して、視線に関するデータを用いて視線検出位置の補正量を推定する。つまり、ＣＰＵ１０３は、前述の学習・推定部３０１（ＣＰＵ１０３）と同様の処理を行う。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、１または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。プロセッサーまたは回路は、中央演算処理装置（ＣＰＵ）、マイクロプロセッシングユニット（ＭＰＵ）、グラフィクスプロセッシングユニット（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートウェイ（ＦＰＧＡ）を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ（ＤＳＰ）、データフロープロセッサ（ＤＦＰ）、またはニューラルプロセッシングユニット（ＮＰＵ）を含みうる。

＜視線位置を修正するフロー＞
図９は、本実施形態の学習データを利用して、視線位置を修正する処理を示すフローチャートである。本フローチャートの示す処理は、ＣＰＵ１０３が、メモリ１０４に格納されたプログラムを実行することにより実現される。本フローチャートに示す処理は、撮像装置１００の電源がＯＮされると開始される。

ステップＳ９０１において、ＣＰＵ１０３は、視線検知用センサー１０７から出力された検知結果に基づいて、ユーザがファインダを覗いたこと（接眼状態）を検知したか否かを判定する。ＣＰＵ１０３が接眼状態であると判定した場合、処理はステップＳ９０２へ進む。ＣＰＵ１０３が非接眼状態であると判定した場合、接眼状態になるまで処理は待機する。

ステップＳ９０２において、ＣＰＵ１０３は、表示素子駆動回路１０９を制御して、撮像素子１０２から取得したスルー画像を表示素子１０８に表示する。ユーザはファインダ内の表示素子１０８に表示されたスルー画像を見ることで被写体の視認を行う。またこの時ＣＰＵ１０３は、撮像素子１０２からの電気信号や、視線検出回路２０１からの視線検出情報の収集を開始し、メモリ１０４に蓄積する。その後処理は、ステップＳ９０３へ進む。

ステップＳ９０３において、ＣＰＵ１０３は、図５で詳細を説明したとおり、メモリ１０４に蓄積された視線検出情報を解析し、視線移動パターンを分類し、分類された視線移動パターンの分類番号を取得する。また、ＣＰＵ１０３は、前述の図６のステップＳ６０６やＳ６０８と同様にして、視線ＩＤ、被写界輝度を取得する。その後処理は、ステップＳ９０４へ進む。

ステップＳ９０４において、ＣＰＵ１０３は、Ｓ９０３で取得された視線移動パターン、視線ＩＤ、及び被写界輝度を学習済モデルに入力して、視線位置検出結果の補正量を取得する。そして、ＣＰＵ１０３は、取得した補正量を、ステップＳ９０２にて取得した視線位置検出情報に加算して、視線位置検出結果を更新する。その後処理は、ステップＳ９０５へ進む。

ステップＳ９０５において、ＣＰＵ１０３は、ステップＳ９０４にて補正量が加算された視線位置検出結果を基に、表示素子駆動回路１０９を介して表示素子１０８にユーザの視線枠を表示する指示を出す。その後本フローチャートの処理が終了する。

以上のような図９のフローチャートに示す処理により、ユーザの特徴や、被写界の明るさ、視線の動き方に応じて、視線位置検出結果を補正するための最適な補正量を取得することができる。従って、ユーザの意図する被写体を精度よく認識することができるようになる。

以上のような本実施形態の撮像装置１００によれば、ユーザ毎に異なる視線位置の移動軌跡の特徴と注視点のずれの関係性を学習し、ユーザの特徴に応じて視線検出結果に反映させる事で、ユーザが意図する被写体を精度よく認識することができる。また、ユーザ毎にキャリブレーション動作を行う必要がなくなり、ユーザの利便性も向上する。

以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、１又は複数のプロセッサ又は回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータ又は分離した複数のプロセッサ又は回路のネットワークを含みうる。

１００：撮像装置、１０２：撮像素子、１３：ＣＰＵ、１０４：メモリ、１０７：視線検知用センサー、１０８；表示素子、１１６：眼球用撮像素子

Claims

撮像画像を表示する表示部に対するユーザの視線位置を検出する検出手段と、
前記撮像画像の被写体の位置に表示枠を重畳表示するように制御する表示制御手段と、
ユーザの操作により前記視線位置が確定された場合に、確定された前記視線位置により指定された前記表示枠の位置を用いて焦点を合わせる合焦手段と、
確定された前記視線位置に移動するまでの前記視線位置の移動軌跡を所定のパターンに分類する分類手段と、
前記分類手段により得られた結果と、確定された前記視線位置と、前記合焦手段により合焦された合焦位置との関係性を学習する学習手段と、
前記学習手段により得られた結果に基づいて、前記検出手段により検出される前記視線位置を補正するための補正量を取得する取得手段と、
を有することを特徴とする撮像装置。
前記学習手段は、前記分類手段により得られた結果と、確定された前記視線位置と前記合焦位置との差異に基づいて算出される前記補正量とを対応付けた学習データを学習して学習済モデルを生成することを特徴とする請求項１に記載の撮像装置。
前記学習データは、前記撮像画像の輝度情報がさらに対応付けられること特徴とする請求項２に記載の撮像装置。
前記撮像画像を視認するユーザの眼球に関する眼球情報を取得して、取得した前記眼球情報に基づいて、ユーザを識別するユーザ識別手段をさらに有し、
前記学習データは、前記ユーザ識別手段により得られた結果がさらに対応付けられることを特徴とする請求項２又は３に記載の撮像装置。
前記学習手段は、前記撮像画像上に表示される前記表示枠の数、前記表示枠の位置、及び前記表示枠の位置と確定された前記視線位置との位置関係のうちの少なくともいずれか一方を解析することにより、前記合焦位置を学習に使用するか否かを判定することを特徴とする請求項１乃至４何れか１項に記載の撮像装置。
前記取得手段により取得された前記補正量を用いて、前記検出手段により検出された前記視線位置を修正する修正手段をさらに有することを特徴とする請求項１乃至５何れか１項に記載の撮像装置。
撮像画像を表示する表示部に対するユーザの視線位置を検出する検出ステップと、
前記撮像画像の被写体の位置に表示枠を重畳表示するように制御する表示制御ステップと、
ユーザの操作により前記視線位置が確定された場合に、確定された前記視線位置により指定された前記表示枠の位置を用いて焦点を合わせる合焦ステップと、
確定された前記視線位置に移動するまでの前記視線位置の移動軌跡を所定のパターンに分類する分類ステップと、
前記分類ステップにより得られた結果と、確定された前記視線位置と、前記合焦ステップにより合焦された合焦位置との関係性を学習する学習ステップと、
前記学習ステップにより得られた結果に基づいて、前記検出ステップにより検出される前記視線位置を補正するための補正量を取得する取得ステップと、
を含むことを特徴とする撮像装置の制御方法。
請求項１乃至６何れか１項に記載の撮像装置の各手段としてコンピュータを機能させるためのプログラム。