JP2024003432A

JP2024003432A - 電子機器

Info

Publication number: JP2024003432A
Application number: JP2022102563A
Authority: JP
Inventors: 武志内田; Takeshi Uchida
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2024-01-15

Abstract

【課題】ユーザーの意図に反した物体の選択を抑制して、ユーザーの意図した物体を高精度に選択することのできる技術を提供する。【解決手段】本発明の電子機器は、ユーザーの視線に関する視線情報を取得する取得手段と、前記視線情報に基づいて、前記視線が向けられた物体を選択する選択手段とを有し、前記選択手段は、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制することを特徴とする。【選択図】図１２

Description

本発明は、電子機器に関し、特に撮像装置の主被写体などの物体を選択する技術に関する。

近年、カメラの自動化・インテリジェント化が進んでいる。特許文献１には、手動で被写体位置が入力されなくても、ファインダーを覗く撮影者の視線位置の情報に基づいて、撮影者の意図した被写体を認識し、焦点制御を行う技術が開示されている。特許文献２には、人物の視線の移動時間に基づいて、当該人物が複数の対象物を見比べたか否かを判定する技術が開示されている。特許文献３には、撮像装置のパンニングを検出し、視線が所定の領域内に集中している場合に、焦点制御を行う技術が開示されている。

特開２００４－８３２３号公報特開２０１８－１１６３２８号公報特開２０１９－２０７１６号公報

しかしながら、ユーザーの視線が向けられた物体を選択する従来技術では、ユーザーの意図に反した物体が選択されてしまうことがある。特許文献１～３に開示の技術を用いたとしても、このような課題を解決することはできない。

本発明は、ユーザーの意図に反した物体の選択を抑制して、ユーザーの意図した物体を高精度に選択することのできる技術を提供することを目的とする。

本発明の第１の態様は、ユーザーの視線に関する視線情報を取得する取得手段と、前記視線情報に基づいて、前記視線が向けられた物体を選択する選択手段とを有し、前記選択手段は、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制することを特徴とする電子機器である。

本発明の第２の態様は、ユーザーの視線が向けられた物体を選択する選択手段を有し、前記ユーザーが第１の物体に視線を向けて前記選択手段が第１の物体を選択した後、前記ユーザーが前記第１の物体から第２の物体に視線を移した場合に、前記ユーザーが前記第２の物体に継続して視線を向けている視認時間が閾値時間を超えるまでは、前記選択手段は前記第１の物体を選択し続け、前記第２の物体の前記視認時間が前記閾値時間を超えると、前記選択手段は、選択する物体を前記第１の物体から前記第２の物体に変更する
ことを特徴とする電子機器である。

本発明の第３の態様は、ユーザーの視線に関する視線情報を取得する取得ステップと、前記視線情報に基づいて、前記視線が向けられた物体を選択する選択ステップとを有し、前記選択ステップでは、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制することを特徴とする電子機器の制御方法である。

本発明の第４の態様は、コンピュータを、上述した電子機器の各手段として機能させる
ためのプログラムである。本発明の第５の態様は、コンピュータを、上述した電子機器の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体である。

本発明によれば、ユーザーの意図に反した物体の選択を抑制して、ユーザーの意図した物体を高精度に選択することができる。

実施例１に係るカメラの外観図である。実施例１に係るカメラの断面図である。実施例１に係るカメラのブロック図である。実施例１に係るファインダー内視野を示す図である。実施例１に係る視線検出方法の原理を説明するための図である。実施例１に係る眼画像を示す図である。実施例１に係る視線検出動作のフローチャートである。実施例１に係るファインダー内視野を示す図である。実施例１に係る視点の時間変化を示すグラフである。実施例１に係るＣＮＮの構成を示す図である。実施例１に係る特徴検出処理と特徴統合処理を示す図である。実施例１に係るカメラ動作のフローチャートである。実施例２に係るファインダー内視野を示す図である。実施例２に係るファインダー内視野を示す図である。本発明を適用可能な他の電子機器の外観図である。

＜＜実施例１＞＞
以下、本発明の実施例１について説明する。

＜構成の説明＞
図１（ａ），１（ｂ）は、実施例１に係るカメラ１（デジタルスチルカメラ；レンズ交換式カメラ）の外観を示す。図１（ａ）は正面斜視図であり、図１（ｂ）は背面斜視図である。図１（ａ）に示すように、カメラ１は、撮影レンズユニット１Ａ及びカメラ筐体１Ｂを有する。カメラ筐体１Ｂには、ユーザー（撮影者）からの撮像操作を受け付ける操作部材であるレリーズボタン５が配置されている。図１（ｂ）に示すように、カメラ筐体１Ｂの背面には、カメラ筐体１Ｂ内に含まれている後述の表示デバイス１０（表示パネル）を見るためにユーザーが覗き込む接眼レンズ１２（ファインダー）が配置されている。カメラ筐体１Ｂの背面には、ユーザーからの各種操作を受け付ける操作部材４１～４３も配置されている。例えば、操作部材４１はタッチ操作を受け付けるタッチパネルであり、操作部材４２は各方向に押し倒し可能な操作レバーであり、操作部材４３は４方向のそれぞれに押し込み可能な４方向キーである。操作部材４１（タッチパネル）は、液晶パネルなどの表示パネルを備えており、表示パネルで画像を表示する機能を有する。

図２は、図１（ａ）に示したＹ軸とＺ軸が成すＹＺ平面でカメラ１を切断した断面図であり、カメラ１の大まかな内部構成を示す。

撮影レンズユニット１Ａ内には、２枚のレンズ１０１，１０２、絞り１１１、絞り駆動部１１２、レンズ駆動モーター１１３、レンズ駆動部材１１４、フォトカプラー１１５、パルス板１１６、マウント接点１１７、焦点調節回路１１８などが含まれている。レンズ駆動部材１１４は駆動ギヤなどからなり、フォトカプラー１１５は、レンズ駆動部材１１
４に連動するパルス板１１６の回転を検知して、焦点調節回路１１８に伝える。焦点調節回路１１８は、フォトカプラー１１５からの情報と、カメラ筐体１Ｂからの情報（レンズ駆動量の情報）とに基づいてレンズ駆動モーター１１３を駆動し、レンズ１０１を移動させて合焦位置を変更する。マウント接点１１７は、撮影レンズユニット１Ａとカメラ筐体１Ｂとのインターフェイスである。なお、簡単のために２枚のレンズ１０１，１０２を示したが、実際は２枚より多くのレンズが撮影レンズユニット１Ａ内に含まれている。

カメラ筐体１Ｂ内には、撮像素子２、ＣＰＵ３、メモリ部４、表示デバイス１０、表示デバイス駆動回路１１などが含まれている。撮像素子２は、撮影レンズユニット１Ａの予定結像面に配置されている。ＣＰＵ３は、マイクロコンピュータの中央処理部であり、カメラ１全体を制御する。メモリ部４は、撮像素子２により撮像された画像などを記憶する。表示デバイス１０は、液晶などで構成されており、撮像された画像（被写体像）などを表示デバイス１０の画面（表示面）に表示する。表示デバイス駆動回路１１は、表示デバイス１０を駆動する。ユーザーは、接眼レンズ１２を通して、表示デバイス１０の画面を見ることができる。

カメラ筐体１Ｂ内には、光源１３ａ，１３ｂ、光分割器１５、受光レンズ１６、眼撮像素子１７なども含まれている。光源１３ａ，１３ｂは、光の角膜反射による反射像（角膜反射像）と瞳孔の関係から視線を検出するために従来から一眼レフカメラなどで用いられている光源であり、ユーザーの眼球１４を照明するための光源である。具体的には、光源１３ａ，１３ｂは、ユーザーに対して不感の赤外光を発する赤外発光ダイオードなどであり、接眼レンズ１２の周りに配置されている。照明された眼球１４の光学像（眼光学像；光源１３ａ，１３ｂから発せられて眼球１４で反射した反射光による像）は、接眼レンズ１２を透過し、光分割器１５で反射される。そして、眼光学像は、受光レンズ１６によって、ＣＣＤやＣＭＯＳなどの光電素子列を２次元的に配した眼撮像素子１７上に結像される。受光レンズ１６は、眼球１４の瞳孔と眼撮像素子１７を共役な結像関係に位置付けている。後述する所定のアルゴリズムにより、眼撮像素子１７上に結像された眼光学像における角膜反射像の位置から、眼球１４の視線が検出される。具体的には、視線に関する情報として、視線方向（視線の方向）や、表示デバイス１０の画面における視点（視線が注がれた位置）などを示す情報が得られる。視点は、ユーザーが見ている位置や、視線位置などと捉えることもできる。

図３は、カメラ１内の電気的構成を示すブロック図である。ＣＰＵ３には、視線検出回路２０１、測光回路２０２、自動焦点検出回路２０３、信号入力回路２０４、表示デバイス駆動回路１１、光源駆動回路２０５などが接続されている。また、ＣＰＵ３は、撮影レンズユニット１Ａ内に配置された焦点調節回路１１８と、撮影レンズユニット１Ａ内の絞り駆動部１１２に含まれた絞り制御回路２０６とに、マウント接点１１７を介して信号を伝達する。ＣＰＵ３に付随したメモリ部４は、撮像素子２および眼撮像素子１７からの撮像信号の記憶機能と、後述する視線の個人差を補正する視線補正パラメータの記憶機能とを有する。

視線検出回路２０１は、眼撮像素子１７（ＣＣＤ－ＥＹＥ）上に眼光学像が結像した状態での眼撮像素子１７の出力（眼（眼球１４）を撮像した眼画像）をＡ／Ｄ変換し、その結果をＣＰＵ３に送信する。ＣＰＵ３は、後述する所定のアルゴリズムに従って眼画像から視線検出に必要な特徴点を抽出し、特徴点の位置からユーザーの視線を検出する。

測光回路２０２は、測光センサの役割を兼ねた撮像素子２から得られる信号、具体的には被写界の明るさに対応した輝度信号の増幅、対数圧縮、Ａ／Ｄ変換などを行い、その結果を被写界輝度情報としてＣＰＵ３に送る。

自動焦点検出回路２０３は、撮像素子２におけるＣＣＤの中に含まれる、位相差検出のために使用される複数の検出素子（複数の画素）からの信号電圧をＡ／Ｄ変換し、ＣＰＵ３に送る。ＣＰＵ３は、複数の検出素子の信号から、各焦点検出ポイントに対応する被写体までの距離を演算する。これは撮像面位相差ＡＦとして知られる公知の技術である。実施例１では、一例として、図４のファインダー内視野（表示デバイス１０の画面）に示した１８０か所に対応する撮像面上の１８０か所のそれぞれに、焦点検出ポイントがあるとする。

信号入力回路２０４には、スイッチＳＷ１とスイッチＳＷ２が接続されている。スイッチＳＷ１は、レリーズボタン５の第１ストロークでＯＮし、カメラ１の測光、測距、視線検出動作などを開始するためのスイッチであり、スイッチＳＷ２は、レリーズボタン５の第２ストロークでＯＮし、撮影動作を開始するためのスイッチである。スイッチＳＷ１，ＳＷ２からのＯＮ信号が信号入力回路２０４に入力され、ＣＰＵ３に送信される。

光源駆動回路２０５は、光源１３ａ，１３ｂを駆動する。

図４は、ファインダー内視野を示した図であり、表示デバイス１０が動作した状態（画像を表示した状態）を示す。図４に示すように、ファインダー内視野には、焦点検出領域４００、１８０個の測距点指標４０１、視野マスク４０２などがある。１８０個の測距点指標４０１のそれぞれは、撮像面上における焦点検出ポイントに対応する位置に表示されるように、表示デバイス１０に表示されたスルー画像（ライブビュー画像）に重ねて表示される。また、１８０個の測距点指標４０１のうち、現在の視点Ａ（推定位置）に対応する測距点指標４０１は、枠などで強調されて表示される。

＜視線検出動作の説明＞
図５，６（ａ），６（ｂ），７を用いて、視線検出方法について説明する。図５は、視線検出方法の原理を説明するための図であり、視線検出を行うための光学系の概略図である。図５に示すように、光源１３ａ，１３ｂは受光レンズ１６の光軸に対して略対称に配置され、ユーザーの眼球１４を照らす。光源１３ａ，１３ｂから発せられて眼球１４で反射した光の一部は、受光レンズ１６によって、眼撮像素子１７に集光する。図６（ａ）は、眼撮像素子１７で撮像された眼画像（眼撮像素子１７に投影された眼光学像）の概略図であり、図６（ｂ）は眼撮像素子１７におけるＣＣＤの出力強度を示す図である。図７は、視線検出動作の概略フローチャートである。

視線検出動作が開始すると、図７のステップＳ１で、ＣＰＵ３は、光源駆動回路２０５を介して光源１３ａ，１３ｂを制御して、ユーザーの眼球１４に向けて赤外光を発する。赤外光によって照明されたユーザーの眼光学像は、受光レンズ１６を通して眼撮像素子１７上に結像され、眼撮像素子１７により光電変換される。これにより、処理可能な眼画像の電気信号が得られる。

ステップＳ２では、ＣＰＵ３は、眼撮像素子１７から視線検出回路２０１を介して眼画像（眼画像信号；眼画像の電気信号）を取得する。

ステップＳ３では、ＣＰＵ３は、ステップＳ２で得られた眼画像から、光源１３ａ，１３ｂの角膜反射像Ｐｄ，Ｐｅと瞳孔中心ｃに対応する点の座標を検出する。

光源１３ａ，１３ｂより発せられた赤外光は、ユーザーの眼球１４の角膜１４２を照明する。このとき、角膜１４２の表面で反射した赤外光の一部により形成される角膜反射像Ｐｄ，Ｐｅは、受光レンズ１６により集光され、眼撮像素子１７上に結像して、眼画像における角膜反射像Ｐｄ’，Ｐｅ’となる。同様に瞳孔１４１の端部ａ，ｂからの光束も眼
撮像素子１７上に結像して、眼画像における瞳孔端像ａ’，ｂ’となる。

図６（ｂ）は、図６（ａ）の眼画像における領域αの輝度情報（輝度分布）を示す。図６（ｂ）では、眼画像の水平方向をＸ軸方向、垂直方向をＹ軸方向とし、Ｘ軸方向の輝度分布が示されている。実施例１では、角膜反射像Ｐｄ’，Ｐｅ’のＸ軸方向（水平方向）の座標をＸｄ，Ｘｅとし、瞳孔端像ａ’，ｂ’のＸ軸方向の座標をＸａ，Ｘｂとする。図６（ｂ）に示すように、角膜反射像Ｐｄ’，Ｐｅ’の座標Ｘｄ，Ｘｅでは、極端に高いレベルの輝度が得られる。瞳孔１４１の領域（瞳孔１４１からの光束が眼撮像素子１７上に結像して得られる瞳孔像の領域）に相当する、座標Ｘａから座標Ｘｂまでの領域では、座標Ｘｄ，Ｘｅを除いて、極端に低いレベルの輝度が得られる。そして、瞳孔１４１の外側の虹彩１４３の領域（虹彩１４３からの光束が結像して得られる、瞳孔像の外側の虹彩像の領域）では、上記２種の輝度の中間の輝度が得られる。具体的には、Ｘ座標（Ｘ軸方向の座標）が座標Ｘａより大きい領域と、Ｘ座標が座標Ｘｂより小さい領域とで、上記２種の輝度の中間の輝度が得られる。

図６（ｂ）に示すような輝度分布から、角膜反射像Ｐｄ’，Ｐｅ’のＸ座標Ｘｄ，Ｘｅと、瞳孔端像ａ’，ｂ’のＸ座標Ｘａ，Ｘｂを得ることができる。具体的には、輝度が極端に高い座標を角膜反射像Ｐｄ’，Ｐｅ’の座標として得ることができ、輝度が極端に低い座標を瞳孔端像ａ’，ｂ’の座標として得ることができる。また、受光レンズ１６の光軸に対する眼球１４の光軸の回転角θｘが小さい場合には、瞳孔中心ｃからの光束が眼撮像素子１７上に結像して得られる瞳孔中心像ｃ’（瞳孔像の中心）の座標Ｘｃは、Ｘｃ≒（Ｘａ＋Ｘｂ）／２と表すことができる。つまり、瞳孔端像ａ’，ｂ’のＸ座標Ｘａ，Ｘｂから、瞳孔中心像ｃ’の座標Ｘｃを算出できる。このようにして、角膜反射像Ｐｄ’，Ｐｅ’の座標と、瞳孔中心像ｃ’の座標とを見積もることができる。

ステップＳ４では、ＣＰＵ３は、眼画像の結像倍率βを算出する。結像倍率βは、受光レンズ１６に対する眼球１４の位置により決まる倍率で、角膜反射像Ｐｄ’，Ｐｅ’の間隔（Ｘｄ－Ｘｅ）の関数を用いて算出することができる。

ステップＳ５では、ＣＰＵ３は、受光レンズ１６の光軸に対する眼球１４の光軸の回転角を算出する。角膜反射像Ｐｄと角膜反射像Ｐｅの中点のＸ座標と角膜１４２の曲率中心ＯのＸ座標とはほぼ一致する。このため、角膜１４２の曲率中心Ｏから瞳孔１４１の中心ｃまでの標準的な距離をＯｃとすると、Ｚ－Ｘ平面（Ｙ軸に垂直な平面）内での眼球１４の回転角θｘは、以下の式１で算出できる。Ｚ－Ｙ平面（Ｘ軸に垂直な平面）内での眼球１４の回転角θｙも、回転角θｘの算出方法と同様の方法で算出できる。

β×Ｏｃ×ＳＩＮθｘ≒｛（Ｘｄ＋Ｘｅ）／２｝－Ｘｃ・・・（式１）

ステップＳ６では、ＣＰＵ３は、ステップＳ５で算出した回転角θｘ，θｙを用いて、表示デバイス１０の画面におけるユーザーの視点を推定する。視点の座標（Ｈｘ，Ｈｙ）が瞳孔中心ｃに対応する座標であるとすると、視点の座標（Ｈｘ，Ｈｙ）は以下の式２，３で算出できる。

Ｈｘ＝ｍ×（Ａｘ×θｘ＋Ｂｘ）・・・（式２）
Ｈｙ＝ｍ×（Ａｙ×θｙ＋Ｂｙ）・・・（式３）

式２，３のパラメータｍは、カメラ１のファインダ光学系（受光レンズ１６など）の構成で定まる定数であり、回転角θｘ，θｙを表示デバイス１０の画面において瞳孔中心ｃ
に対応する座標に変換する変換係数である。パラメータｍは、予め決定されてメモリ部４に格納されるとする。パラメータＡｘ，Ｂｘ，Ａｙ，Ｂｙは、視線の個人差を補正する視線補正パラメータであり、視線検出のキャリブレーションを行うことで取得される。視線補正パラメータＡｘ，Ｂｘ，Ａｙ，Ｂｙは、視線検出動作が開始する前にメモリ部４に格納されるとする。キャリブレーションは人物ごとに行われ、パラメータＡｘ，Ｂｘ，Ａｙ，Ｂｙは人物ごとに決定されてメモリ部４に格納されてもよい。

ステップＳ７では、ＣＰＵ３は、視点の座標（Ｈｘ，Ｈｙ）をメモリ部４に格納し、視線検出動作を終える。

なお、視線検出方法は上記方法に限られず、例えば眼画像から視線情報を取得する方法であれば、どのような方法であってもよい。最終的な視線情報として、視点を示す情報ではなく、視線方向を示す情報が得られてもよい。例えば、視点の座標（Ｈｘ，Ｈｙ）を得ずに、回転角（Ａｘ×θｘ＋ＢｘやＡｙ×θｙ＋Ｂｙ）を得るまでの処理が行われてもよい。

＜被写体補足機能の説明＞
カメラ１は、物体（被写体、例えば主被写体）を補足する被写体補足機能を有する。被写体補足機能は、物体（被写体、例えば主被写体）を選択する主被写体選択機能と捉えることもできる。この機能の処理は、例えば、ＣＰＵ３により行われる。例えば、ＣＰＵ３は、公知技術である顔領域認識技術や瞳領域認識技術などを用いて、撮像素子２により撮像された画像から人物の領域を１つ以上検出する。そして、ＣＰＵ３は、視線検出動作により得られた視線情報に基づいて、検出した１つ以上の領域のうち、ユーザーの視線が向けられた領域を、主被写体の領域として選択する。ＣＰＵ３は、主被写体を選択した後、公知のパターンマッチング技術を用いて、撮像素子２により順次撮像された複数の画像（現在のフレーム（コマ）の画像と過去（１つ前）のフレームの画像）を比較し、主被写体を補足し続ける（追尾する）。なお、物体（被写体、例えば主被写体）の検出方法や選択方法、追尾方法などは特に限定されない。例えば、公知技術である撮像面位相差ＡＦが可能な撮像素子を撮像素子２として使用する場合は、画角（撮像範囲）に対する測距の結果に基づいて、撮像された画像のうち、ユーザーに対して背景よりも近い位置に存在する被写体の領域を検出してもよい。また、撮像された画像を後述のＣＮＮ（物体識別器）に入力することにより、当該画像に写っている被写体の種類を推定し、人物や動物などの特定の種類の被写体の領域を検出してもよい。

＜ユーザーの視線が向けられた物体の選択における課題の説明＞
ユーザーの視線が向けられた物体の選択における課題について説明する。ここでは、ユーザーの視線が向けられた被写体を主被写体として選択し、主被写体に焦点を合わせるものとする。図８（ａ）～８（ｃ）は、ファインダー内視野を示す。表示デバイス１０は、撮像素子２により撮像された画像を表示している。撮像素子２により撮像された画像は、陸上競技におけるトラック競技の画像であり、人物Ｐ１が１位を走っており、人物Ｐ２が２位を走っている。

ユーザーは１位の人物Ｐ１に焦点を合わせたいとする。そのため、ユーザーは、図８（ａ）に示すように、１位の人物Ｐ１に視線を向ける。しかし、２位の人物Ｐ２が１位の人物Ｐ１に迫るなどの動きがあると、人間の生理的な反応により、ユーザーは、図８（ｂ）に示すように、反射的にわずかな時間、人物Ｐ１から人物Ｐ２に視線を移すことがある。その後、ユーザーは、図８（ｃ）に示すように、人物Ｐ２から人物Ｐ１に視線を戻す。

ユーザーの視線が向けられた被写体を主被写体として選択し、主被写体に焦点を合わせる構成では、意図せぬ被写体に対して反射的に視線が向けられた状況において、意図せぬ
被写体が選択され、当該意図せぬ被写体に合焦するように焦点制御が行われてしまう。例えば、図８（ｂ）の状況で、ユーザーが人物Ｐ１に焦点を合わせたいにもかかわらず、人物Ｐ２が選択され、人物Ｐ２に合焦するように焦点制御が行われてしまう。

＜課題の解決方法の説明＞
上述した課題の解決方法について説明する。実施例１では、意図せぬ視線の変更（反射的な視線の変更）による主被写体の変更を抑制する。

図９（ａ）は、図８（ａ）～８（ｃ）に示す視点のＸ座標の時間変化を示すグラフである。太実線は視点の時間変化を表し、破線は合焦位置の時間変化を表す。時刻Ｔ１～Ｔ２の期間では、図８（ａ）に示すように、ユーザーは人物Ｐ１に視線を向けており、視点のＸ座標は人物Ｐ１の位置のＸ座標ＸＡとなっている。時刻Ｔ３～Ｔ４の期間では、図８（ｂ）に示すように、ユーザーは反射的に人物Ｐ２に視線を向けており、視点のＸ座標は人物Ｐ２の位置のＸ座標ＸＢとなっている。時刻Ｔ５以降では、図８（ｃ）に示すように、ユーザーは人物Ｐ１に視線を戻しており、視点のＸ座標は人物Ｐ１の位置のＸ座標ＸＡに戻っている。

まず、ＣＰＵ３は、所定の時間あたりの視点の移動量ΔＸ（視線の変化量）が閾値量Ｘｔｈを超えているか否かを判定する。例えば、この判定は、視点の移動量ΔＸが固視微動よりも大きいか否かの判定であり、閾値量Ｘｔｈは、固視微動における視点の移動量に基づいて予め決定される。閾値量Ｘｔｈよりも小さい移動量ΔＸでの視点の移動は、固視微動や遅い視点の移動などであると判定され、閾値量Ｘｔｈよりも大きい移動量ΔＸでの視点の移動は、固視微動などでない（急激な視点の移動である）と判定される。閾値量Ｘｔｈと等しい移動量ΔＸでの視点の移動は、固視微動などであると判定されてもよいし、固視微動などでない（急激な視点の移動である）と判定されてもよい。図９（ａ）では、時刻Ｔ２から時刻Ｔ３にかけての視点の移動量ΔＸが閾値量Ｘｔｈよりも大きく、この移動は急激な視点の移動であると判定される。

次に、ＣＰＵ３は、急激な視点の移動（閾値量Ｘｔｈよりも大きい移動量ΔＸでの視点の移動）が行われたタイミングからの視点の停滞時間Δｔをカウント（計測）する。この停滞時間Δｔは、視点の移動量ΔＸ（視線の変化量）が閾値量Ｘｔｈよりも小さい時間である。

そして、ＣＰＵ３は、上述した停滞時間Δｔに基づいて、主被写体の変更（選択する物体の変更）を抑制する。例えば、ＣＰＵ３は、停滞時間Δｔが閾値時間Ｔｔｈを超えているか否かを判定する。急激な視点の移動が反射的な視点の移動（人間の生理的な反応）であった場合には、図８（ｂ），８（ｃ）に示すように、視点はすぐに（短い停滞時間Δｔで）元の位置に戻る。そのため、停滞時間Δｔが閾値時間Ｔｔｈよりも短い場合には、ＣＰＵ３は、急激な視点の移動が反射的な視点の移動であったと判断し、主被写体を変更しない（維持する）ようにする。停滞時間Δｔが閾値時間Ｔｔｈを超えている場合には、ＣＰＵ３は、急激な視点の移動が反射的な視点の移動ではなかった（意図的な移動であった）と判断し、主被写体の変更を許容し、ユーザーの視線が向けられた被写体を主被写体として選択する。

図９（ａ）では、時刻Ｔ２から時刻Ｔ３にかけて視点が人物Ｐ２の位置に移動した後、時刻Ｔ４まで視点が同じ位置（人物Ｐ２の位置）に停滞し、時刻Ｔ５に視点が人物Ｐ１の位置に戻っている。視点が人物Ｐ２の位置に停滞している時間（停滞時間）Δｔは、閾値時間Ｔｔｈよりも短い。このため、時刻Ｔ２から時刻Ｔ３にかけての視点の移動は、反射的な視点の移動であると判断され、主被写体の変更は行われない。そのため、時刻Ｔ２から時刻Ｔ３にかけて、太実線で表された視点のＸ座標が人物Ｐ１のＸ座標ＸＡから人物Ｐ
２のＸ座標ＸＢに変化しているのに対し、破線で表された合焦位置のＸ座標は人物Ｐ１のＸ座標ＸＡのまま変化しない。

このように、実施例１では、意図せぬ視線の変更（反射的な視線の変更）による物体（主被写体）の変更を抑制する。これにより、ユーザーの意図に反した物体（主被写体）の選択を抑制して、ユーザーの意図した物体（主被写体）を高精度に選択することができる。

なお、主被写体の変更の抑制方法は、上記方法に限られない。例えば、視線に関する時間方向のフィルタ処理を行うことで、推定された視線の変化を抑制し、主被写体の変更を抑制してもよい。この場合は、フィルタ処理後の視線が向けられた被写体を、主被写体として選択する。ここで、現在のフレームでの視点のＸ座標がＸ（ｔ）、現在のフレームの１つ前のフレームでの視点のＸ座標がＸ（ｔ－１）、現在のフレームの２つ前のフレームでの視点のＸ座標がＸ（ｔ－２）であるとする。そして、現在のフレームの３つ前のフレームでの視点のＸ座標がＸ（ｔ－３）、現在のフレームの４つ前のフレームでの視点のＸ座標がＸ（ｔ－４）、現在のフレームの２つ前のフレームでの視点のＸ座標がＸ（ｔ－５）であるとする。この場合は、現在のＸ座標Ｘ（ｔ）をＸ’（ｔ）＝｛Ｘ（ｔ－５）＋Ｘ（ｔ－４）＋Ｘ（ｔ－３）＋Ｘ（ｔ－２）＋Ｘ（ｔ－１）＋Ｘ（ｔ）｝／６に補正してもよい（６フレーム分の時間平均）。こうすることで、Ｘ座標Ｘ（ｔ）にかけて急激な視点の移動が発生しても、時間平均により、移動量ΔＸ＝Ｘ’（ｔ）－Ｘ’（ｔ－１）として小さな値を得ることができ、急激な視点の移動による影響を軽減することができる。時間平均をとるフレーム数は、６フレームより多くても少なくてもよい。

＜パラメータ制御の説明＞
図９（ｂ）は、視点および合焦位置のＸ座標の時間変化を示すグラフである。図９（ｂ）は、時刻Ｔ２から時刻Ｔ３にかけて人物Ｐ１から人物Ｐ２に意図的に視線が移され、時刻Ｔ３以降では人物Ｐ２に視線が向けられる場合のグラフである。図９（ａ）と同様に、時刻Ｔ２から時刻Ｔ３にかけての視点の移動量ΔＸは閾値量Ｘｔｈよりも大きく、この移動は急激な視点の移動であると判定される。ユーザーは意図的に人物Ｐ２を見ているため、時刻Ｔ３以降に人物Ｐ２の位置に合焦位置を変更すべきである。合焦位置は、時刻Ｔ３から閾値時間Ｔｔｈ後の時刻Ｔ４’で変化する。このように、合焦位置は視点の変化に対して閾値時間Ｔｔｈだけ遅延して変化する。

上記遅延の時間（閾値時間Ｔｔｈ）は短いことが好ましい。しかしながら、閾値時間Ｔｔｈが短いと、意図せぬ視線の変更（反射的な視線の変更）による主被写体の変更を高精度に抑制することができない。意図せぬ視線の変更（反射的な視線の変更）による主被写体の変更を抑制するためには、閾値時間Ｔｔｈは長いことが好ましい。

そして、閾値時間Ｔｔｈとして好適な時間は、被写体の種類に依存する。例えば、子供や犬などのように動く方向がランダムかつ急激に変化する被写体の場合には、被写体の動きの急激な変化に合焦位置を追従させるため、閾値時間Ｔｔｈ（遅延時間）は短いことが好ましい。また、大人や馬などのように動く方向の変化が少ない被写体の場合には、被写体の動きが予測できるため、合焦位置の変化の遅延は発生しにくい。そのため、そのような場合には、意図せぬ視線の変更（反射的な視線の変更）による主被写体の変更を高精度に抑制するために、閾値時間Ｔｔｈは長いことが好ましい。

同様に、閾値時間Ｔｔｈとして好適な時間は、撮影シーン（ユーザーが見ている場面）の種類に依存する。例えば、サッカーやバスケットボールなどの撮影シーンでは、被写体の動く方向がランダムかつ急激に変化するため、閾値時間Ｔｔｈは短いことが好ましい。陸上競技やスケート競技におけるトラック競技などの撮影シーンでは、被写体が動く方向
の変化が少ないため、閾値時間Ｔｔｈは長いことが好ましい。

そこで、実施例１では、ＣＰＵ３は、主被写体の種類と撮影シーンの種類との少なくとも一方を考慮して、主被写体の変更を抑制する。例えば、ＣＰＵ３は、閾値時間Ｔｔｈや閾値量Ｘｔｈ、フィルタ処理のフレーム数などのパラメータを、主被写体の種類と撮影シーンの種類との少なくとも一方に基づいて制御する。メモリ部４は、複数のパラメータを予め記憶していてもよい。そして、ＣＰＵ３は、主被写体の種類と撮影シーンの種類との少なくとも一方に基づいて複数のパラメータのいずれかを選択し、選択したパラメータをメモリ部４から読み出して主被写体の変更抑制処理（主被写体の変更を抑制する処理）に適用してもよい。例えば、メモリ部４は、主被写体の複数の種類にそれぞれ対応する複数のパラメータを予め記憶していてもよいし、撮影シーンの複数の種類にそれぞれ対応する複数のパラメータを予め記憶していてもよい。メモリ部４は、主被写体の種類と撮影シーンの種類との複数の組み合わせにそれぞれ対応する複数のパラメータを予め記憶していてもよい。

＜ＣＮＮの説明＞
被写体の種類や撮影シーンの種類の識別方法は特に限定されないが、例えば、機械学習（深層学習）により学習された学習済みモデルを用いて被写体の種類や撮影シーンの種類を識別することができる。学習済みモデルでは、例えば、撮像素子２により撮像された画像がＣＮＮ（畳み込みニューラルネットワーク）に入力される。ＣＮＮからは、被写体の種類や撮影シーンの種類の識別に使用する特徴量が出力される。そして、ＣＮＮから出力された特徴量を用いて、被写体の種類や撮影シーンの種類が識別される。カメラ１は、このような処理を行う識別器（クラス分類によって物体（被写体）の種類を識別する物体識別器や、クラス分類によって場面（撮影シーン）の種類を識別する場面識別器）を有してもよい。

図１０は、ＣＮＮの構成を示す。ＣＮＮは、特徴検出層（Ｓ層）と特徴統合層（Ｃ層）と呼ばれる２つの層をひとつのセットとし、階層的な複数のセットを有する。Ｓ層では、１つ前の階層で検出された特徴をもとに次の特徴が検出される。最初のＳ層では、撮像された画像をもとに特徴量が検出される。Ｓ層において検出した特徴は同じ階層のＣ層で統合され、その階層における検出結果として次の階層に送られる。Ｓ層は１つ以上の特徴検出細胞面からなり、特徴検出細胞面ごとに異なる特徴を検出する。また、Ｃ層は、１つ以上の特徴統合細胞面からなり、同じ階層の特徴検出細胞面での検出結果をプーリングする。以下では、特に区別する必要がない場合、特徴検出細胞面および特徴統合細胞面を総称して特徴面と呼ぶ。実施例１では、最終階層である出力層はＣ層を有さず、Ｓ層のみを有するとする。

特徴検出細胞面での特徴検出処理、および特徴統合細胞面での特徴統合処理の詳細について、図１１を用いて説明する。特徴検出細胞面は、複数の特徴検出ニューロンにより構成され、特徴検出ニューロンは１つ前の階層のＣ層に所定の構造で結合している。また特徴統合細胞面は、複数の特徴統合ニューロンにより構成され、特徴統合ニューロンは同じ階層のＳ層に所定の構造で結合している。Ｌ階層目Ｓ層のＭ番目細胞面内において、位置（ξ，ζ）の特徴検出ニューロンの出力値をｙ_Ｍ ^ＬＳ（ξ，ζ）、Ｌ階層目Ｃ層のＭ番目細胞面内において、位置（ξ，ζ）の特徴統合ニューロンの出力値をｙ_Ｍ ^ＬＣ（ξ，ζ）と記載する。そして、各ニューロンの結合係数をｗ_Ｍ ^ＬＳ（ｎ，ｕ，ｖ）、ｗ_Ｍ ^ＬＣ（ｕ，ｖ）とすると、各出力値は以下の式４，５のように表すことができる。

式４のｆは活性化関数であり、ロジスティック関数や双曲正接関数などのシグモイド関数であればよく、例えばｔａｎｈ関数であってもよい。ｕ_Ｍ ^ＬＳ（ξ，ζ）は、Ｌ階層目Ｓ層のＭ番目細胞面における、位置（ξ，ζ）の特徴検出ニューロンの内部状態である。式５では活性化関数を用いず単純な線形和が算出される。式５のように活性化関数を用いない場合は、ニューロンの内部状態ｕ_Ｍ ^ＬＣ（ξ，ζ）と出力値ｙ_Ｍ ^ＬＣ（ξ，ζ）は等しい。また、式４のｙ_ｎ ^Ｌ－１Ｃ（ξ＋ｕ，ζ＋ｖ）、式５のｙ_Ｍ ^ＬＳ（ξ＋ｕ，ζ＋ｖ）をそれぞれ特徴検出ニューロンの結合先出力値、特徴統合ニューロンの結合先出力値と呼ぶ。

式４，５中のξ、ζ、ｕ、ｖ、ｎについて説明する。位置（ξ，ζ）は入力画像における位置座標に対応しており、例えばｙ_Ｍ ^ＬＳ（ξ，ζ）が高い出力値である場合は、入力画像の画素位置（ξ，ζ）に、Ｌ階層目Ｓ層Ｍ番目細胞面において検出する特徴が存在する可能性が高いことを意味する。式４において、ｎは、Ｌ－１階層目Ｃ層ｎ番目細胞面を意味しており、統合先特徴番号と呼ぶ。基本的にＬ－１階層目Ｃ層に存在する全ての細胞面についての積和演算を行う。（ｕ，ｖ）は結合係数の相対位置座標であり、検出する特徴のサイズに応じて有限の範囲（ｕ，ｖ）において積和演算を行う。このような有限な（ｕ，ｖ）の範囲を受容野と呼ぶ。また受容野の大きさを、以下では受容野サイズと呼び、結合している範囲の横画素数×縦画素数で表す。

また、式４において、Ｌ＝１つまり最初のＳ層の場合には、ｙ_ｎ ^Ｌ－１Ｃ（ξ＋ｕ，ζ＋ｖ）は、入力画像ｙ^{ｉｎ＿ｉｍａｇｅ}（ξ＋ｕ，ζ＋ｖ）または、入力位置マップｙ^{ｉｎ＿ｐｏｓｉ＿ｍａｐ}（ξ＋ｕ，ζ＋ｖ）となる。なお、ニューロンや画素の分布は離散的であり、結合先特徴番号も離散的であるため、ξ、ζ、ｕ、ｖ、ｎは連続な変数ではなく、離散的な値をとる。ここでは、ξとζは非負整数、ｎは自然数、ｕとｖは整数とし、いずれも有限な範囲の値となる。

式４中のｗ_Ｍ ^ＬＳ（ｎ，ｕ，ｖ）は、所定の特徴を検出するための結合係数分布であり、これを適切な値に調整することによって、所定の特徴を検出することが可能になる。この結合係数分布の調整が学習であり、ＣＮＮの構築においては、さまざまなテストパターンを提示して、ｙ_Ｍ ^ＬＳ（ξ，ζ）が適切な出力値になるように、結合係数を繰り返し徐々に修正していくことで結合係数の調整を行う。

式５中のｗ_Ｍ ^ＬＣ（ｕ，ｖ）は、２次元のガウシアン関数を用いて、以下の式６のように表すことができる。

ここでも、（ｕ，ｖ）は有限の範囲としてあるので、特徴検出ニューロンの説明と同様に、有限の範囲を受容野と呼び、範囲の大きさを受容野サイズと呼ぶ。この受容野サイズは、ここではＬ階層目Ｓ層Ｍ番目の特徴のサイズに応じて適当な値に設定すればよい。式６中のσは特徴サイズ因子であり、受容野サイズに応じて適当な定数に設定しておけばよい。具体的には、受容野の最も外側の値がほぼ０とみなせるような値になるようにσを設定するのがよい。

上述のような演算を各階層で行うことで、最終階層のＳ層において、被写体の種類や撮影シーンの種類の識別に使用する特徴量を得ることができる。なお、被写体の種類や撮影シーンの種類の識別までをＣＮＮで構成し、ＣＮＮから識別結果が出力されてもよい。

＜カメラ動作の説明＞
図１２は、カメラ動作のフローチャートである。例えば、カメラ１の電源がＯＮされると、図１２のカメラ動作が行われる。カメラ１の電源は、カメラ１に対するユーザー操作に応じてＯＮ／ＯＦＦされる。

ステップＳ１０１では、ＣＰＵ３は、撮像素子２を制御して、スルー画像（画像信号）の取得を開始する。ＣＰＵ３は、取得したスルー画像を表示デバイス１０に表示する。ユーザーは表示デバイス１０に表示されたスルー画像を見ることで、被写体を確認する。

ステップＳ１０２では、ＣＰＵ３は、カメラ１の電源をＯＦＦするか否かを判定し、ＯＦＦする場合は図１２のカメラ動作を終了し、ＯＦＦしない場合はステップＳ１０３に処理を進める。

ステップＳ１０３では、ＣＰＵ３は、ステップＳ１０１でスルー画像を視認し始めたユーザーの眼画像の取得を開始し、図７の視線検出動作を行う。視線検出動作により、眼画像における瞳孔像や角膜反射像の座標が検出され、表示デバイス１０の画面における視点の座標が算出される。

ステップＳ１０４では、ＣＰＵ３は、撮像素子２により撮像されたスルー画像に基づいて、当該スルー画像に写っている被写体の種類や、当該スルー画像の撮影シーンの種類などを識別する。そして、ＣＰＵ３は、識別結果に対応するパラメータをメモリ部４から読み出し、主被写体の変更抑制処理（主被写体の変更を抑制する処理）のパラメータとして設定する（パラメータの設定または更新）。

ステップＳ１０５では、ＣＰＵ３は、撮像素子２により撮像されたスルー画像に基づいて、主被写体候補（主被写体の候補）を検出する。例えば、上述したように、顔領域認識技術や瞳領域認識技術などを用いて、スルー画像から人物の領域を主被写体候補の領域として検出する。被写体の種類の識別結果を用いて、人物や動物などの特定の種類の被写体の領域を主被写体候補の領域として検出してもよい。

ステップＳ１０６では、ＣＰＵ３は、撮像素子２により撮像された（最新の）スルー画像が１フレーム目の画像（カメラ１の電源がＯＮされて最初に撮像された画像）であるか否かを判定する。ＣＰＵ３は、スルー画像が１フレーム目の画像である場合はステップＳ１０７に処理を進め、スルー画像が２フレーム目以降の画像である場合はステップＳ１１０に処理を進める。

ステップＳ１０７では、ＣＰＵ３は、ステップＳ１０３で算出した視点の座標と、ステップＳ１０５で検出した１つ以上の主被写体候補とに基づいて、最新の視点を含む領域の主被写体候補を、主被写体として選択する。最新の視点を含む領域の主被写体候補は、ユ
ーザーが視線を向けている主被写体候補である。そして、ＣＰＵ３は、表示デバイス１０の画面上で、選択した主被写体を囲む枠を表示する。その後、ＣＰＵ３は、ステップＳ２００に処理を進める。

ステップＳ１１０では、ＣＰＵ３は、１つ前のフレームから現在のフレームにかけての視点の移動量ΔＸが閾値量Ｘｔｈを超えているか否かを判定する。視点の移動量ΔＸが閾値量Ｘｔｈ以下である場合は、ＣＰＵ３は、ユーザーが同じ被写体を見続けていると判断し、ステップＳ１１１に処理を進める。視点の移動量ΔＸが閾値量Ｘｔｈを超えている場合には、ＣＰＵ３は、ユーザーが見る被写体を変更したと判断し、ステップＳ１２０に処理を進める。

ステップＳ１１１では、ＣＰＵ３は、視点が停滞しているため、視点の停滞時間Δｔをカウントアップする。そして、ＣＰＵ３は、ステップＳ１１２に処理を進める。

ステップＳ１１２では、ＣＰＵ３は、視点の停滞時間Δｔが閾値時間Ｔｔｈを超えているか否かを判定する。停滞時間Δｔが閾値時間Ｔｔｈ以下である場合は、ＣＰＵ３は、ユーザーが意図的に被写体を見ただけと判断し、ステップＳ１３０に処理を進める。停滞時間Δｔが閾値時間Ｔｔｈを超えている場合には、ＣＰＵ３は、ユーザーが意図的に被写体を見ていると判断し、ステップＳ１０７に処理を進める。このため、ユーザーが意図的に被写体を見ていると判断された場合は、ユーザーが視線を向けている主被写体候補が主被写体として選択される。

ステップＳ１２０では、ＣＰＵ３は、視点の急激な変化があったため、視点の停滞時間Δｔを０に初期化する。そして、ＣＰＵ３は、ステップＳ１３０に処理を進める。

ステップＳ１３０では、ＣＰＵ３は、１つ前のフレームから主被写体を変更せずに、１つ前のフレームと同じ主被写体を選択し続ける。ＣＰＵ３は、表示デバイス１０の画面上で、選択した主被写体を囲む枠を表示する。その後、ＣＰＵ３は、ステップＳ２００に処理を進める。

ステップＳ２００では、ＣＰＵ３は、ユーザーによってレリーズボタン５が押されて（半押しされて）スイッチＳＷ１がＯＮとなったか否かを判定する。例えば、ユーザーは、スルー画像に重ねて表示された主被写体枠（選択された主被写体を囲む枠）の位置での合焦に同意した場合に、レリーズボタン５の半押しを行い、スイッチＳＷ１をＯＮにする。ＣＰＵ３は、スイッチＳＷ１がＯＮとなった場合はステップＳ２０１に処理を進め、スイッチＳＷ１がＯＮとならなかった場合はステップＳ１０３に処理を戻して視点の再推定を行う。

ステップＳ２０１では、ＣＰＵ３は、現在の主被写体枠の位置での測距動作を行い、測距動作が行われたことを、主被写体枠の色を変える等の強調表示でユーザーに知らせる。

ステップＳ２０２では、ＣＰＵ３は、ステップＳ２０１で得られた測距結果に応じて、撮影レンズユニット１Ａ内のレンズ１０１を駆動する。これにより、スルー画像に重ねて表示された主被写体枠の位置での合焦（主被写体への合焦）が実現される。

ステップＳ２０３では、ＣＰＵ３は、ユーザーによってレリーズボタン５がさらに押し込まれて（全押しされて）スイッチＳＷ２がＯＮとなったか否かを判定する。例えば、ユーザーは、現在の合焦位置での撮影に同意した場合に、レリーズボタン５の全押しを行い、スイッチＳＷ２をＯＮにする。ＣＰＵ３は、スイッチＳＷ２がＯＮとなった場合はステップＳ２０４に処理を進め、スイッチＳＷ２がＯＮとならなかった場合はステップＳ２０
０に処理を戻す。

ステップＳ２０４では、ＣＰＵ３は、撮影動作を行うことで、撮像素子２によって撮像された画像を、メモリ部４に格納する。

ステップＳ２０５では、ＣＰＵ３は、ステップＳ２０４でメモリ部４に格納された画像（撮影された画像）を表示デバイス１０に所定時間表示し、ステップＳ１０２に処理を戻す。

＜まとめ＞
以上述べたように、実施例１によれば、視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更が抑制される。これにより、ユーザーの意図に反した物体の選択を抑制して、ユーザーの意図した物体を高精度に選択することができる。また、実施例１によれば、選択した物体の種類や、ユーザーが見ている場面の種類などを考慮することにより、ユーザーの意図した物体をより高精度に選択することができる。

実施例１に係る動作は図９（ａ），９（ｂ）を用いて説明したが、以下にもう一度説明する。ここでは、ユーザーが第１の物体に視線を向けて第１の物体が選択された後、ユーザーが第１の物体から第２の物体に視線を移した場合を考える。この場合に、ユーザーが第２の物体に継続して視線を向けている視認時間が閾値時間を超えるまでは、第１の物体が選択され続け、第２の物体の視認時間が閾値時間を超えると、選択する物体が第１の物体から第２の物体に変更される。第２の物体の視認時間が閾値時間を超える前にユーザーが第２の物体から第１の物体に視線を戻した場合には、選択する物体が第１の物体から第２の物体に変更されることはなく、第１の物体が選択され続ける。

＜＜実施例２＞＞
以下、本発明の実施例２について説明する。実施例１では主被写体の種類や撮影シーンの種類を考慮する例を説明した。実施例２では、カメラワークの種類（カメラの取り回しの方法）を考慮する例を説明する。なお、以下では、実施例１と同じ点（構成や処理など）についての説明は省略し、実施例１と異なる点について説明する。

＜パラメータ制御の説明＞
実施例２では、カメラワークの種類を考慮して主被写体の変更を抑制する。例えば、ＣＰＵ３は、カメラワークの種類に基づいて、主被写体の変更を抑制する処理のパラメータ（閾値時間Ｔｔｈや閾値量Ｘｔｈ、フィルタ処理のフレーム数など）を制御する。ここでは、カメラワークの種類が異なる撮像として、固定撮像とフレーミング撮像とを考える。固定撮像は、カメラ１に三脚などを装着して画角（撮像範囲）を固定した状態で行われる撮像である。フレーミング撮像は、カメラ１を手持ちした状態や、カメラ１に一脚を装着した状態などで、被写体を画角中央などの所定の位置に捕らえ続けるようにカメラ１を動かすフレーミング動作（パンニング動作）と共に行われる撮像である。

図１３（ａ），１３（ｂ）は固定撮像の場合のファインダー内視野を示す。表示デバイス１０は、撮像素子２により撮像された画像を表示している。撮像素子２により撮像された画像は、陸上競技におけるトラック競技の画像であり、被写体（人物）が画角の左側から右側へ向かって移動している。画角が固定されているため、被写体の表示位置（表示デバイス１０の画面上での位置）の移動速度および移動量は大きい。

図１４（ａ），１４（ｂ）はフレーミング撮像の場合のファインダー内視野を示す。被写体を画角中央に捕らえ続けるようにカメラ１を動かすフレーミング動作が行われているため、被写体の表示位置は画面中央に保たれ、被写体の移動速度および移動量は小さい。

固定撮像の場合は、被写体を追うユーザーの視点の移動速度および移動量も大きい。そのため、視点の移動に対して敏感に合焦位置の変更を行う必要があり、閾値時間Ｔｔｈは短いことが好ましい。一方で、フレーミング撮像の場合は、被写体を追うユーザーの視点の移動速度および移動量も小さい。そのため、そのため、視点の移動に対して敏感に合焦位置の変更を行う必要性は低く、意図せぬ視線の変更（反射的な視線の変更）による主被写体の変更を高精度に抑制するために、閾値時間Ｔｔｈは長いことが好ましい。

そこで、実施例２では、ＣＰＵ３は、カメラワークの種類を考慮して、主被写体の変更を抑制する。例えば、加速度センサ（ジャイロセンサを含む）をカメラ１に設ける。そして、ＣＰＵ３は、加速度センサの出力に基づいてカメラワークの種類を識別する。ＣＰＵ３は、加速度センサの出力に基づいてフレーミング動作（パンニング動作）が行われているか否かを判定してもよい。そして、ＣＰＵ３は、フレーミング動作が行われている場合に長い時間を閾値時間Ｔｔｈに設定し、フレーミング動作が行われていない場合に短い時間を閾値時間Ｔｔｈに設定してもよい。

ＣＰＵ３は、撮像素子２により撮像された画像における主被写体の位置に基づいてカメラワークの種類を識別してもよい。例えば、ＣＰＵ３は、主被写体の位置が画角中央に保たれているか否かを判定する。そして、ＣＰＵ３は、主被写体の位置が画角中央に保たれている場合に長い時間を閾値時間Ｔｔｈに設定し、主被写体の位置が画角中央に保たれていない場合に短い時間を閾値時間Ｔｔｈに設定する。

ＣＰＵ３は、撮像素子２により撮像された画像の動きベクトル（フレーム間における移動量と移動方向）に基づいてカメラワークの種類を識別してもよい。例えば、ＣＰＵ３は、動きベクトルに基づいてフレーミング動作（パンニング動作）が行われているか否かを判定する。そして、ＣＰＵ３は、フレーミング動作が行われている場合に長い時間を閾値時間Ｔｔｈに設定し、フレーミング動作が行われていない場合に短い時間を閾値時間Ｔｔｈに設定する。

ＣＰＵ３は、カメラ１に三脚が装着されているか否かに基づいてカメラワークの種類を識別してもよい。例えば、ＣＰＵ３は、三脚が装着されている場合に短い時間を閾値時間Ｔｔｈに設定し、三脚が装着されていない場合に長い時間を閾値時間Ｔｔｈに設定する。三脚が装着されているか否かの判定方法は特に限定さない。例えば、三脚が装着された際に押下されるスイッチ（三脚のねじに接続される電気接点を含む）などをカメラ１に設け、スイッチの状態に応じて、三脚が装着されているか否かを判定することができる。

実施例２に係るカメラ動作は、実施例１（図１２）と同様である。但し、ステップＳ１０４では、被写体の種類や撮影シーンの種類ではなく、カメラワークの種類に応じて、パラメータ判定を設定する。

＜まとめ＞
以上述べたように、実施例２によれば、カメラワークの種類を考慮することにより、ユーザーの意図した物体をより高精度に選択することができる。

なお、上記実施例（変形例を含む）はあくまで一例であり、本発明の要旨の範囲内で上記実施例の構成を適宜変形したり変更したりすることにより得られる構成も、本発明に含まれる。上記実施例の構成を適宜組み合わせて得られる構成も、本発明に含まれる。

例えば、ＥＶＦ（電子ビューファインダー）を介して被写体を見る場合の例を説明したが、ＯＶＦ（光学ビューファインダー）を介して被写体を見る場合にも本発明は適用可能
である。本発明は撮像装置（カメラ）以外にも適用可能であり、コンピュータグラフィックなどを見る場合にも適用可能である。本発明は、視線情報に基づいて物体（アイコンなどの表示アイテムを含む）を選択することのできる様々な電子機器に適用可能である。

＜＜他の電子機器への適用例＞＞
図１５（ａ）は、ノート型パーソナルコンピュータ１５１０（ノートＰＣ）の外観図である。図１５（ａ）では、ノートＰＣ１５１０の表示部１５１１を見るユーザーを撮像する撮像ユニット１５１５がノートＰＣ１５１０に接続されており、ノートＰＣ１５１０は撮像ユニット１５１５から撮像結果を取得する。そして、ノートＰＣ１５１０は、撮像結果に基づいてユーザーの視点を検出する。本発明は、ノートＰＣ１５１０にも適用可能である。

図１５（ｂ）は、スマートフォン１５２０の外観図である。図１５（ｂ）では、スマートフォン１５２０は、インカメラ１５２１（フロントカメラ）の撮像結果に基づいて、スマートフォン１５２０の表示部１５２２を見るユーザーの視点を検出する。本発明は、スマートフォン１５２０にも適用可能である。同様に、本発明は、種々のタブレット端末にも適用可能である。

図１５（ｃ）は、ゲーム機１５３０の外観図である。図１５（ｃ）では、ゲームのＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）画像を表示部１５３６に表示するヘッドマウントディスプレイ１５３５（ＨＭＤ）が、ゲーム機１５３０に接続されている。ＨＭＤ１５３５は、ＨＭＤ１５３５を装着したユーザーの眼を撮像するカメラ１５３７を有しており、ゲーム機１５３０は、ＨＭＤ１５３５から撮像結果を取得する。そして、ゲーム機１５３０は、撮像結果に基づいてユーザーの視点を検出する。本発明は、ゲーム機１５３０にも適用可能である。ゲーム機１５３０の構成要素はＨＭＤ１５３５に内蔵されていてもよい。従って、本発明は、ＨＭＤ１５３５にも適用可能である。ＨＭＤに表示したＶＲ画像を見る場合に本発明が適用可能であるのと同様に、眼鏡型のウェアラブル端末のレンズ部分などに表示したＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）画像や、レンズ部分の先にある実物を見る場合にも本発明は適用可能である。ＶＲ技術やＡＲ技術に本発明が適用可能であるのと同様に、ＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）技術やＳＲ（ＳｕｂｓｔｉｔｕｔｉｏｎａｌＲｅａｌｉｔｙ）技術などの別のｘＲ技術にも本発明は適用可能である。

＜＜その他の実施例＞＞
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本実施形態の開示は、以下の構成、方法、プログラム、および媒体を含む。
（構成１）
ユーザーの視線に関する視線情報を取得する取得手段と、
前記視線情報に基づいて、前記視線が向けられた物体を選択する選択手段と
を有し、
前記選択手段は、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制する
ことを特徴とする電子機器。
（構成２）
前記選択手段は、前記停滞時間が閾値時間よりも短い場合には、前記選択する物体を変更しない
ことを特徴とする構成１に記載の電子機器。
（構成３）
前記選択手段は、前記停滞時間が閾値時間を超えている場合に、前記視線が向けられた物体を選択する
ことを特徴とする構成１または２に記載の電子機器。
（構成４）
前記選択手段は、前記視線に関する時間方向のフィルタ処理を行い、前記フィルタ処理後の視線が向けられた物体を選択する
ことを特徴とする構成１に記載の電子機器。
（構成５）
前記選択手段は、選択した物体の種類にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成１～４のいずれか１項に記載の電子機器。
（構成６）
前記選択手段は、前記ユーザーが見ている場面の種類にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成１～４のいずれか１項に記載の電子機器。
（構成７）
前記選択手段は、選択した物体の種類と、前記ユーザーが見ている場面の種類とにさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成１～４のいずれか１項に記載の電子機器。
（構成８）
前記選択手段によって選択された物体の種類をクラス分類によって識別する物体識別器をさらに有する
ことを特徴とする構成５または７に記載の電子機器。
（構成９）
前記ユーザーが見ている場面の種類をクラス分類によって識別する場面識別器をさらに有する
ことを特徴とする構成６または７に記載の電子機器。
（構成１０）
複数のパラメータを記憶する記憶手段をさらに有し、
前記選択手段は、前記選択した物体の種類と、前記ユーザーが見ている場面の種類との少なくとも一方に基づいて前記複数のパラメータのいずれかを選択し、選択したパラメータを、前記選択する物体の変更を抑制する処理に適用する
ことを特徴とする構成１～９のいずれか１項に記載の電子機器。
（構成１１）
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置のカメラワークの種類にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成１～１０のいずれか１項に記載の電子機器。
（構成１２）
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置の加速度センサの出力にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成１～１０のいずれか１項に記載の電子機器。
（構成１３）
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置が撮像した画像の動きベクトルにさらに基づいて、前記
選択する物体の変更を抑制する
ことを特徴とする構成１～１０のいずれか１項に記載の電子機器。
（構成１４）
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置が撮像した画像における、選択した物体の位置にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成１～１０のいずれか１項に記載の電子機器。
（構成１５）
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置に三脚が装着されているか否かにさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成１～１０のいずれか１項に記載の電子機器。
（構成１６）
ユーザーの視線が向けられた物体を選択する選択手段を有し、
前記ユーザーが第１の物体に視線を向けて前記選択手段が第１の物体を選択した後、前記ユーザーが前記第１の物体から第２の物体に視線を移した場合に、
前記ユーザーが前記第２の物体に継続して視線を向けている視認時間が閾値時間を超えるまでは、前記選択手段は前記第１の物体を選択し続け、
前記第２の物体の前記視認時間が前記閾値時間を超えると、前記選択手段は、選択する物体を前記第１の物体から前記第２の物体に変更する
ことを特徴とする電子機器。
（構成１７）
前記ユーザーが前記第１の物体に視線を向けて前記選択手段が前記第１の物体を選択した後、前記ユーザーが前記第１の物体から前記第２の物体に視線を移し、前記第２の物体の前記視認時間が前記閾値時間を超える前に前記第２の物体から前記第１の物体に視線を戻した場合に、前記選択手段は前記第１の物体を選択し続ける
ことを特徴とする構成１６に記載の電子機器。
（方法）
ユーザーの視線に関する視線情報を取得する取得ステップと、
前記視線情報に基づいて、前記視線が向けられた物体を選択する選択ステップと
を有し、
前記選択ステップでは、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制する
ことを特徴とする電子機器の制御方法。
（プログラム）
コンピュータを、構成１～１７のいずれか１項に記載の電子機器の各手段として機能させるためのプログラム。
（媒体）
コンピュータを、構成１～１７のいずれか１項に記載の電子機器の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体。

１：カメラ３：ＣＰＵ

Claims

ユーザーの視線に関する視線情報を取得する取得手段と、
前記視線情報に基づいて、前記視線が向けられた物体を選択する選択手段と
を有し、
前記選択手段は、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制する
ことを特徴とする電子機器。
前記選択手段は、前記停滞時間が閾値時間よりも短い場合には、前記選択する物体を変更しない
ことを特徴とする請求項１に記載の電子機器。
前記選択手段は、前記停滞時間が閾値時間を超えている場合に、前記視線が向けられた物体を選択する
ことを特徴とする請求項１に記載の電子機器。
前記選択手段は、前記視線に関する時間方向のフィルタ処理を行い、前記フィルタ処理後の視線が向けられた物体を選択する
ことを特徴とする請求項１に記載の電子機器。
前記選択手段は、選択した物体の種類にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする請求項１に記載の電子機器。
前記選択手段は、前記ユーザーが見ている場面の種類にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする請求項１に記載の電子機器。
前記選択手段は、選択した物体の種類と、前記ユーザーが見ている場面の種類とにさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする請求項１に記載の電子機器。
前記選択手段によって選択された物体の種類をクラス分類によって識別する物体識別器をさらに有する
ことを特徴とする請求項５に記載の電子機器。
前記ユーザーが見ている場面の種類をクラス分類によって識別する場面識別器をさらに有する
ことを特徴とする請求項６に記載の電子機器。
複数のパラメータを記憶する記憶手段をさらに有し、
前記選択手段は、前記選択した物体の種類と、前記ユーザーが見ている場面の種類との少なくとも一方に基づいて前記複数のパラメータのいずれかを選択し、選択したパラメータを、前記選択する物体の変更を抑制する処理に適用する
ことを特徴とする請求項１に記載の電子機器。
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置のカメラワークの種類にさらに基づいて、前記選択する
物体の変更を抑制する
ことを特徴とする請求項１に記載の電子機器。
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置の加速度センサの出力にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする請求項１に記載の電子機器。
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置が撮像した画像の動きベクトルにさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする請求項１に記載の電子機器。
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置が撮像した画像における、選択した物体の位置にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする請求項１に記載の電子機器。
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置に三脚が装着されているか否かにさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする請求項１に記載の電子機器。
ユーザーの視線が向けられた物体を選択する選択手段を有し、
前記ユーザーが第１の物体に視線を向けて前記選択手段が第１の物体を選択した後、前記ユーザーが前記第１の物体から第２の物体に視線を移した場合に、
前記ユーザーが前記第２の物体に継続して視線を向けている視認時間が閾値時間を超えるまでは、前記選択手段は前記第１の物体を選択し続け、
前記第２の物体の前記視認時間が前記閾値時間を超えると、前記選択手段は、選択する物体を前記第１の物体から前記第２の物体に変更する
ことを特徴とする電子機器。
前記ユーザーが前記第１の物体に視線を向けて前記選択手段が前記第１の物体を選択した後、前記ユーザーが前記第１の物体から前記第２の物体に視線を移し、前記第２の物体の前記視認時間が前記閾値時間を超える前に前記第２の物体から前記第１の物体に視線を戻した場合に、前記選択手段は前記第１の物体を選択し続ける
ことを特徴とする請求項１６に記載の電子機器。
ユーザーの視線に関する視線情報を取得する取得ステップと、
前記視線情報に基づいて、前記視線が向けられた物体を選択する選択ステップと
を有し、
前記選択ステップでは、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制する
ことを特徴とする電子機器の制御方法。
コンピュータを、請求項１～１７のいずれか１項に記載の電子機器の各手段として機能
させるためのプログラム。
コンピュータを、請求項１～１７のいずれか１項に記載の電子機器の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体。