JP2024003432A - 電子機器 - Google Patents

電子機器 Download PDF

Info

Publication number
JP2024003432A
JP2024003432A JP2022102563A JP2022102563A JP2024003432A JP 2024003432 A JP2024003432 A JP 2024003432A JP 2022102563 A JP2022102563 A JP 2022102563A JP 2022102563 A JP2022102563 A JP 2022102563A JP 2024003432 A JP2024003432 A JP 2024003432A
Authority
JP
Japan
Prior art keywords
sight
line
user
electronic device
selection means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022102563A
Other languages
English (en)
Inventor
武志 内田
Takeshi Uchida
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022102563A priority Critical patent/JP2024003432A/ja
Publication of JP2024003432A publication Critical patent/JP2024003432A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザーの意図に反した物体の選択を抑制して、ユーザーの意図した物体を高精度に選択することのできる技術を提供する。【解決手段】本発明の電子機器は、ユーザーの視線に関する視線情報を取得する取得手段と、前記視線情報に基づいて、前記視線が向けられた物体を選択する選択手段とを有し、前記選択手段は、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制することを特徴とする。【選択図】図12

Description

本発明は、電子機器に関し、特に撮像装置の主被写体などの物体を選択する技術に関する。
近年、カメラの自動化・インテリジェント化が進んでいる。特許文献1には、手動で被写体位置が入力されなくても、ファインダーを覗く撮影者の視線位置の情報に基づいて、撮影者の意図した被写体を認識し、焦点制御を行う技術が開示されている。特許文献2には、人物の視線の移動時間に基づいて、当該人物が複数の対象物を見比べたか否かを判定する技術が開示されている。特許文献3には、撮像装置のパンニングを検出し、視線が所定の領域内に集中している場合に、焦点制御を行う技術が開示されている。
特開2004-8323号公報 特開2018-116328号公報 特開2019-20716号公報
しかしながら、ユーザーの視線が向けられた物体を選択する従来技術では、ユーザーの意図に反した物体が選択されてしまうことがある。特許文献1~3に開示の技術を用いたとしても、このような課題を解決することはできない。
本発明は、ユーザーの意図に反した物体の選択を抑制して、ユーザーの意図した物体を高精度に選択することのできる技術を提供することを目的とする。
本発明の第1の態様は、ユーザーの視線に関する視線情報を取得する取得手段と、前記視線情報に基づいて、前記視線が向けられた物体を選択する選択手段とを有し、前記選択手段は、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制することを特徴とする電子機器である。
本発明の第2の態様は、ユーザーの視線が向けられた物体を選択する選択手段を有し、前記ユーザーが第1の物体に視線を向けて前記選択手段が第1の物体を選択した後、前記ユーザーが前記第1の物体から第2の物体に視線を移した場合に、前記ユーザーが前記第2の物体に継続して視線を向けている視認時間が閾値時間を超えるまでは、前記選択手段は前記第1の物体を選択し続け、前記第2の物体の前記視認時間が前記閾値時間を超えると、前記選択手段は、選択する物体を前記第1の物体から前記第2の物体に変更する
ことを特徴とする電子機器である。
本発明の第3の態様は、ユーザーの視線に関する視線情報を取得する取得ステップと、前記視線情報に基づいて、前記視線が向けられた物体を選択する選択ステップとを有し、前記選択ステップでは、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制することを特徴とする電子機器の制御方法である。
本発明の第4の態様は、コンピュータを、上述した電子機器の各手段として機能させる
ためのプログラムである。本発明の第5の態様は、コンピュータを、上述した電子機器の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体である。
本発明によれば、ユーザーの意図に反した物体の選択を抑制して、ユーザーの意図した物体を高精度に選択することができる。
実施例1に係るカメラの外観図である。 実施例1に係るカメラの断面図である。 実施例1に係るカメラのブロック図である。 実施例1に係るファインダー内視野を示す図である。 実施例1に係る視線検出方法の原理を説明するための図である。 実施例1に係る眼画像を示す図である。 実施例1に係る視線検出動作のフローチャートである。 実施例1に係るファインダー内視野を示す図である。 実施例1に係る視点の時間変化を示すグラフである。 実施例1に係るCNNの構成を示す図である。 実施例1に係る特徴検出処理と特徴統合処理を示す図である。 実施例1に係るカメラ動作のフローチャートである。 実施例2に係るファインダー内視野を示す図である。 実施例2に係るファインダー内視野を示す図である。 本発明を適用可能な他の電子機器の外観図である。
<<実施例1>>
以下、本発明の実施例1について説明する。
<構成の説明>
図1(a),1(b)は、実施例1に係るカメラ1(デジタルスチルカメラ;レンズ交換式カメラ)の外観を示す。図1(a)は正面斜視図であり、図1(b)は背面斜視図である。図1(a)に示すように、カメラ1は、撮影レンズユニット1A及びカメラ筐体1Bを有する。カメラ筐体1Bには、ユーザー(撮影者)からの撮像操作を受け付ける操作部材であるレリーズボタン5が配置されている。図1(b)に示すように、カメラ筐体1Bの背面には、カメラ筐体1B内に含まれている後述の表示デバイス10(表示パネル)を見るためにユーザーが覗き込む接眼レンズ12(ファインダー)が配置されている。カメラ筐体1Bの背面には、ユーザーからの各種操作を受け付ける操作部材41~43も配置されている。例えば、操作部材41はタッチ操作を受け付けるタッチパネルであり、操作部材42は各方向に押し倒し可能な操作レバーであり、操作部材43は4方向のそれぞれに押し込み可能な4方向キーである。操作部材41(タッチパネル)は、液晶パネルなどの表示パネルを備えており、表示パネルで画像を表示する機能を有する。
図2は、図1(a)に示したY軸とZ軸が成すYZ平面でカメラ1を切断した断面図であり、カメラ1の大まかな内部構成を示す。
撮影レンズユニット1A内には、2枚のレンズ101,102、絞り111、絞り駆動部112、レンズ駆動モーター113、レンズ駆動部材114、フォトカプラー115、パルス板116、マウント接点117、焦点調節回路118などが含まれている。レンズ駆動部材114は駆動ギヤなどからなり、フォトカプラー115は、レンズ駆動部材11
4に連動するパルス板116の回転を検知して、焦点調節回路118に伝える。焦点調節回路118は、フォトカプラー115からの情報と、カメラ筐体1Bからの情報(レンズ駆動量の情報)とに基づいてレンズ駆動モーター113を駆動し、レンズ101を移動させて合焦位置を変更する。マウント接点117は、撮影レンズユニット1Aとカメラ筐体1Bとのインターフェイスである。なお、簡単のために2枚のレンズ101,102を示したが、実際は2枚より多くのレンズが撮影レンズユニット1A内に含まれている。
カメラ筐体1B内には、撮像素子2、CPU3、メモリ部4、表示デバイス10、表示デバイス駆動回路11などが含まれている。撮像素子2は、撮影レンズユニット1Aの予定結像面に配置されている。CPU3は、マイクロコンピュータの中央処理部であり、カメラ1全体を制御する。メモリ部4は、撮像素子2により撮像された画像などを記憶する。表示デバイス10は、液晶などで構成されており、撮像された画像(被写体像)などを表示デバイス10の画面(表示面)に表示する。表示デバイス駆動回路11は、表示デバイス10を駆動する。ユーザーは、接眼レンズ12を通して、表示デバイス10の画面を見ることができる。
カメラ筐体1B内には、光源13a,13b、光分割器15、受光レンズ16、眼撮像素子17なども含まれている。光源13a,13bは、光の角膜反射による反射像(角膜反射像)と瞳孔の関係から視線を検出するために従来から一眼レフカメラなどで用いられている光源であり、ユーザーの眼球14を照明するための光源である。具体的には、光源13a,13bは、ユーザーに対して不感の赤外光を発する赤外発光ダイオードなどであり、接眼レンズ12の周りに配置されている。照明された眼球14の光学像(眼光学像;光源13a,13bから発せられて眼球14で反射した反射光による像)は、接眼レンズ12を透過し、光分割器15で反射される。そして、眼光学像は、受光レンズ16によって、CCDやCMOSなどの光電素子列を2次元的に配した眼撮像素子17上に結像される。受光レンズ16は、眼球14の瞳孔と眼撮像素子17を共役な結像関係に位置付けている。後述する所定のアルゴリズムにより、眼撮像素子17上に結像された眼光学像における角膜反射像の位置から、眼球14の視線が検出される。具体的には、視線に関する情報として、視線方向(視線の方向)や、表示デバイス10の画面における視点(視線が注がれた位置)などを示す情報が得られる。視点は、ユーザーが見ている位置や、視線位置などと捉えることもできる。
図3は、カメラ1内の電気的構成を示すブロック図である。CPU3には、視線検出回路201、測光回路202、自動焦点検出回路203、信号入力回路204、表示デバイス駆動回路11、光源駆動回路205などが接続されている。また、CPU3は、撮影レンズユニット1A内に配置された焦点調節回路118と、撮影レンズユニット1A内の絞り駆動部112に含まれた絞り制御回路206とに、マウント接点117を介して信号を伝達する。CPU3に付随したメモリ部4は、撮像素子2および眼撮像素子17からの撮像信号の記憶機能と、後述する視線の個人差を補正する視線補正パラメータの記憶機能とを有する。
視線検出回路201は、眼撮像素子17(CCD-EYE)上に眼光学像が結像した状態での眼撮像素子17の出力(眼(眼球14)を撮像した眼画像)をA/D変換し、その結果をCPU3に送信する。CPU3は、後述する所定のアルゴリズムに従って眼画像から視線検出に必要な特徴点を抽出し、特徴点の位置からユーザーの視線を検出する。
測光回路202は、測光センサの役割を兼ねた撮像素子2から得られる信号、具体的には被写界の明るさに対応した輝度信号の増幅、対数圧縮、A/D変換などを行い、その結果を被写界輝度情報としてCPU3に送る。
自動焦点検出回路203は、撮像素子2におけるCCDの中に含まれる、位相差検出のために使用される複数の検出素子(複数の画素)からの信号電圧をA/D変換し、CPU3に送る。CPU3は、複数の検出素子の信号から、各焦点検出ポイントに対応する被写体までの距離を演算する。これは撮像面位相差AFとして知られる公知の技術である。実施例1では、一例として、図4のファインダー内視野(表示デバイス10の画面)に示した180か所に対応する撮像面上の180か所のそれぞれに、焦点検出ポイントがあるとする。
信号入力回路204には、スイッチSW1とスイッチSW2が接続されている。スイッチSW1は、レリーズボタン5の第1ストロークでONし、カメラ1の測光、測距、視線検出動作などを開始するためのスイッチであり、スイッチSW2は、レリーズボタン5の第2ストロークでONし、撮影動作を開始するためのスイッチである。スイッチSW1,SW2からのON信号が信号入力回路204に入力され、CPU3に送信される。
光源駆動回路205は、光源13a,13bを駆動する。
図4は、ファインダー内視野を示した図であり、表示デバイス10が動作した状態(画像を表示した状態)を示す。図4に示すように、ファインダー内視野には、焦点検出領域400、180個の測距点指標401、視野マスク402などがある。180個の測距点指標401のそれぞれは、撮像面上における焦点検出ポイントに対応する位置に表示されるように、表示デバイス10に表示されたスルー画像(ライブビュー画像)に重ねて表示される。また、180個の測距点指標401のうち、現在の視点A(推定位置)に対応する測距点指標401は、枠などで強調されて表示される。
<視線検出動作の説明>
図5,6(a),6(b),7を用いて、視線検出方法について説明する。図5は、視線検出方法の原理を説明するための図であり、視線検出を行うための光学系の概略図である。図5に示すように、光源13a,13bは受光レンズ16の光軸に対して略対称に配置され、ユーザーの眼球14を照らす。光源13a,13bから発せられて眼球14で反射した光の一部は、受光レンズ16によって、眼撮像素子17に集光する。図6(a)は、眼撮像素子17で撮像された眼画像(眼撮像素子17に投影された眼光学像)の概略図であり、図6(b)は眼撮像素子17におけるCCDの出力強度を示す図である。図7は、視線検出動作の概略フローチャートである。
視線検出動作が開始すると、図7のステップS1で、CPU3は、光源駆動回路205を介して光源13a,13bを制御して、ユーザーの眼球14に向けて赤外光を発する。赤外光によって照明されたユーザーの眼光学像は、受光レンズ16を通して眼撮像素子17上に結像され、眼撮像素子17により光電変換される。これにより、処理可能な眼画像の電気信号が得られる。
ステップS2では、CPU3は、眼撮像素子17から視線検出回路201を介して眼画像(眼画像信号;眼画像の電気信号)を取得する。
ステップS3では、CPU3は、ステップS2で得られた眼画像から、光源13a,13bの角膜反射像Pd,Peと瞳孔中心cに対応する点の座標を検出する。
光源13a,13bより発せられた赤外光は、ユーザーの眼球14の角膜142を照明する。このとき、角膜142の表面で反射した赤外光の一部により形成される角膜反射像Pd,Peは、受光レンズ16により集光され、眼撮像素子17上に結像して、眼画像における角膜反射像Pd’,Pe’となる。同様に瞳孔141の端部a,bからの光束も眼
撮像素子17上に結像して、眼画像における瞳孔端像a’,b’となる。
図6(b)は、図6(a)の眼画像における領域αの輝度情報(輝度分布)を示す。図6(b)では、眼画像の水平方向をX軸方向、垂直方向をY軸方向とし、X軸方向の輝度分布が示されている。実施例1では、角膜反射像Pd’,Pe’のX軸方向(水平方向)の座標をXd,Xeとし、瞳孔端像a’,b’のX軸方向の座標をXa,Xbとする。図6(b)に示すように、角膜反射像Pd’,Pe’の座標Xd,Xeでは、極端に高いレベルの輝度が得られる。瞳孔141の領域(瞳孔141からの光束が眼撮像素子17上に結像して得られる瞳孔像の領域)に相当する、座標Xaから座標Xbまでの領域では、座標Xd,Xeを除いて、極端に低いレベルの輝度が得られる。そして、瞳孔141の外側の虹彩143の領域(虹彩143からの光束が結像して得られる、瞳孔像の外側の虹彩像の領域)では、上記2種の輝度の中間の輝度が得られる。具体的には、X座標(X軸方向の座標)が座標Xaより大きい領域と、X座標が座標Xbより小さい領域とで、上記2種の輝度の中間の輝度が得られる。
図6(b)に示すような輝度分布から、角膜反射像Pd’,Pe’のX座標Xd,Xeと、瞳孔端像a’,b’のX座標Xa,Xbを得ることができる。具体的には、輝度が極端に高い座標を角膜反射像Pd’,Pe’の座標として得ることができ、輝度が極端に低い座標を瞳孔端像a’,b’の座標として得ることができる。また、受光レンズ16の光軸に対する眼球14の光軸の回転角θxが小さい場合には、瞳孔中心cからの光束が眼撮像素子17上に結像して得られる瞳孔中心像c’(瞳孔像の中心)の座標Xcは、Xc≒(Xa+Xb)/2と表すことができる。つまり、瞳孔端像a’,b’のX座標Xa,Xbから、瞳孔中心像c’の座標Xcを算出できる。このようにして、角膜反射像Pd’,Pe’の座標と、瞳孔中心像c’の座標とを見積もることができる。
ステップS4では、CPU3は、眼画像の結像倍率βを算出する。結像倍率βは、受光レンズ16に対する眼球14の位置により決まる倍率で、角膜反射像Pd’,Pe’の間隔(Xd-Xe)の関数を用いて算出することができる。
ステップS5では、CPU3は、受光レンズ16の光軸に対する眼球14の光軸の回転角を算出する。角膜反射像Pdと角膜反射像Peの中点のX座標と角膜142の曲率中心OのX座標とはほぼ一致する。このため、角膜142の曲率中心Oから瞳孔141の中心cまでの標準的な距離をOcとすると、Z-X平面(Y軸に垂直な平面)内での眼球14の回転角θxは、以下の式1で算出できる。Z-Y平面(X軸に垂直な平面)内での眼球14の回転角θyも、回転角θxの算出方法と同様の方法で算出できる。

β×Oc×SINθx≒{(Xd+Xe)/2}-Xc ・・・(式1)
ステップS6では、CPU3は、ステップS5で算出した回転角θx,θyを用いて、表示デバイス10の画面におけるユーザーの視点を推定する。視点の座標(Hx,Hy)が瞳孔中心cに対応する座標であるとすると、視点の座標(Hx,Hy)は以下の式2,3で算出できる。

Hx=m×(Ax×θx+Bx) ・・・(式2)
Hy=m×(Ay×θy+By) ・・・(式3)
式2,3のパラメータmは、カメラ1のファインダ光学系(受光レンズ16など)の構成で定まる定数であり、回転角θx,θyを表示デバイス10の画面において瞳孔中心c
に対応する座標に変換する変換係数である。パラメータmは、予め決定されてメモリ部4に格納されるとする。パラメータAx,Bx,Ay,Byは、視線の個人差を補正する視線補正パラメータであり、視線検出のキャリブレーションを行うことで取得される。視線補正パラメータAx,Bx,Ay,Byは、視線検出動作が開始する前にメモリ部4に格納されるとする。キャリブレーションは人物ごとに行われ、パラメータAx,Bx,Ay,Byは人物ごとに決定されてメモリ部4に格納されてもよい。
ステップS7では、CPU3は、視点の座標(Hx,Hy)をメモリ部4に格納し、視線検出動作を終える。
なお、視線検出方法は上記方法に限られず、例えば眼画像から視線情報を取得する方法であれば、どのような方法であってもよい。最終的な視線情報として、視点を示す情報ではなく、視線方向を示す情報が得られてもよい。例えば、視点の座標(Hx,Hy)を得ずに、回転角(Ax×θx+BxやAy×θy+By)を得るまでの処理が行われてもよい。
<被写体補足機能の説明>
カメラ1は、物体(被写体、例えば主被写体)を補足する被写体補足機能を有する。被写体補足機能は、物体(被写体、例えば主被写体)を選択する主被写体選択機能と捉えることもできる。この機能の処理は、例えば、CPU3により行われる。例えば、CPU3は、公知技術である顔領域認識技術や瞳領域認識技術などを用いて、撮像素子2により撮像された画像から人物の領域を1つ以上検出する。そして、CPU3は、視線検出動作により得られた視線情報に基づいて、検出した1つ以上の領域のうち、ユーザーの視線が向けられた領域を、主被写体の領域として選択する。CPU3は、主被写体を選択した後、公知のパターンマッチング技術を用いて、撮像素子2により順次撮像された複数の画像(現在のフレーム(コマ)の画像と過去(1つ前)のフレームの画像)を比較し、主被写体を補足し続ける(追尾する)。なお、物体(被写体、例えば主被写体)の検出方法や選択方法、追尾方法などは特に限定されない。例えば、公知技術である撮像面位相差AFが可能な撮像素子を撮像素子2として使用する場合は、画角(撮像範囲)に対する測距の結果に基づいて、撮像された画像のうち、ユーザーに対して背景よりも近い位置に存在する被写体の領域を検出してもよい。また、撮像された画像を後述のCNN(物体識別器)に入力することにより、当該画像に写っている被写体の種類を推定し、人物や動物などの特定の種類の被写体の領域を検出してもよい。
<ユーザーの視線が向けられた物体の選択における課題の説明>
ユーザーの視線が向けられた物体の選択における課題について説明する。ここでは、ユーザーの視線が向けられた被写体を主被写体として選択し、主被写体に焦点を合わせるものとする。図8(a)~8(c)は、ファインダー内視野を示す。表示デバイス10は、撮像素子2により撮像された画像を表示している。撮像素子2により撮像された画像は、陸上競技におけるトラック競技の画像であり、人物P1が1位を走っており、人物P2が2位を走っている。
ユーザーは1位の人物P1に焦点を合わせたいとする。そのため、ユーザーは、図8(a)に示すように、1位の人物P1に視線を向ける。しかし、2位の人物P2が1位の人物P1に迫るなどの動きがあると、人間の生理的な反応により、ユーザーは、図8(b)に示すように、反射的にわずかな時間、人物P1から人物P2に視線を移すことがある。その後、ユーザーは、図8(c)に示すように、人物P2から人物P1に視線を戻す。
ユーザーの視線が向けられた被写体を主被写体として選択し、主被写体に焦点を合わせる構成では、意図せぬ被写体に対して反射的に視線が向けられた状況において、意図せぬ
被写体が選択され、当該意図せぬ被写体に合焦するように焦点制御が行われてしまう。例えば、図8(b)の状況で、ユーザーが人物P1に焦点を合わせたいにもかかわらず、人物P2が選択され、人物P2に合焦するように焦点制御が行われてしまう。
<課題の解決方法の説明>
上述した課題の解決方法について説明する。実施例1では、意図せぬ視線の変更(反射的な視線の変更)による主被写体の変更を抑制する。
図9(a)は、図8(a)~8(c)に示す視点のX座標の時間変化を示すグラフである。太実線は視点の時間変化を表し、破線は合焦位置の時間変化を表す。時刻T1~T2の期間では、図8(a)に示すように、ユーザーは人物P1に視線を向けており、視点のX座標は人物P1の位置のX座標XAとなっている。時刻T3~T4の期間では、図8(b)に示すように、ユーザーは反射的に人物P2に視線を向けており、視点のX座標は人物P2の位置のX座標XBとなっている。時刻T5以降では、図8(c)に示すように、ユーザーは人物P1に視線を戻しており、視点のX座標は人物P1の位置のX座標XAに戻っている。
まず、CPU3は、所定の時間あたりの視点の移動量ΔX(視線の変化量)が閾値量Xthを超えているか否かを判定する。例えば、この判定は、視点の移動量ΔXが固視微動よりも大きいか否かの判定であり、閾値量Xthは、固視微動における視点の移動量に基づいて予め決定される。閾値量Xthよりも小さい移動量ΔXでの視点の移動は、固視微動や遅い視点の移動などであると判定され、閾値量Xthよりも大きい移動量ΔXでの視点の移動は、固視微動などでない(急激な視点の移動である)と判定される。閾値量Xthと等しい移動量ΔXでの視点の移動は、固視微動などであると判定されてもよいし、固視微動などでない(急激な視点の移動である)と判定されてもよい。図9(a)では、時刻T2から時刻T3にかけての視点の移動量ΔXが閾値量Xthよりも大きく、この移動は急激な視点の移動であると判定される。
次に、CPU3は、急激な視点の移動(閾値量Xthよりも大きい移動量ΔXでの視点の移動)が行われたタイミングからの視点の停滞時間Δtをカウント(計測)する。この停滞時間Δtは、視点の移動量ΔX(視線の変化量)が閾値量Xthよりも小さい時間である。
そして、CPU3は、上述した停滞時間Δtに基づいて、主被写体の変更(選択する物体の変更)を抑制する。例えば、CPU3は、停滞時間Δtが閾値時間Tthを超えているか否かを判定する。急激な視点の移動が反射的な視点の移動(人間の生理的な反応)であった場合には、図8(b),8(c)に示すように、視点はすぐに(短い停滞時間Δtで)元の位置に戻る。そのため、停滞時間Δtが閾値時間Tthよりも短い場合には、CPU3は、急激な視点の移動が反射的な視点の移動であったと判断し、主被写体を変更しない(維持する)ようにする。停滞時間Δtが閾値時間Tthを超えている場合には、CPU3は、急激な視点の移動が反射的な視点の移動ではなかった(意図的な移動であった)と判断し、主被写体の変更を許容し、ユーザーの視線が向けられた被写体を主被写体として選択する。
図9(a)では、時刻T2から時刻T3にかけて視点が人物P2の位置に移動した後、時刻T4まで視点が同じ位置(人物P2の位置)に停滞し、時刻T5に視点が人物P1の位置に戻っている。視点が人物P2の位置に停滞している時間(停滞時間)Δtは、閾値時間Tthよりも短い。このため、時刻T2から時刻T3にかけての視点の移動は、反射的な視点の移動であると判断され、主被写体の変更は行われない。そのため、時刻T2から時刻T3にかけて、太実線で表された視点のX座標が人物P1のX座標XAから人物P
2のX座標XBに変化しているのに対し、破線で表された合焦位置のX座標は人物P1のX座標XAのまま変化しない。
このように、実施例1では、意図せぬ視線の変更(反射的な視線の変更)による物体(主被写体)の変更を抑制する。これにより、ユーザーの意図に反した物体(主被写体)の選択を抑制して、ユーザーの意図した物体(主被写体)を高精度に選択することができる。
なお、主被写体の変更の抑制方法は、上記方法に限られない。例えば、視線に関する時間方向のフィルタ処理を行うことで、推定された視線の変化を抑制し、主被写体の変更を抑制してもよい。この場合は、フィルタ処理後の視線が向けられた被写体を、主被写体として選択する。ここで、現在のフレームでの視点のX座標がX(t)、現在のフレームの1つ前のフレームでの視点のX座標がX(t-1)、現在のフレームの2つ前のフレームでの視点のX座標がX(t-2)であるとする。そして、現在のフレームの3つ前のフレームでの視点のX座標がX(t-3)、現在のフレームの4つ前のフレームでの視点のX座標がX(t-4)、現在のフレームの2つ前のフレームでの視点のX座標がX(t-5)であるとする。この場合は、現在のX座標X(t)をX’(t)={X(t-5)+X(t-4)+X(t-3)+X(t-2)+X(t-1)+X(t)}/6に補正してもよい(6フレーム分の時間平均)。こうすることで、X座標X(t)にかけて急激な視点の移動が発生しても、時間平均により、移動量ΔX=X’(t)-X’(t-1)として小さな値を得ることができ、急激な視点の移動による影響を軽減することができる。時間平均をとるフレーム数は、6フレームより多くても少なくてもよい。
<パラメータ制御の説明>
図9(b)は、視点および合焦位置のX座標の時間変化を示すグラフである。図9(b)は、時刻T2から時刻T3にかけて人物P1から人物P2に意図的に視線が移され、時刻T3以降では人物P2に視線が向けられる場合のグラフである。図9(a)と同様に、時刻T2から時刻T3にかけての視点の移動量ΔXは閾値量Xthよりも大きく、この移動は急激な視点の移動であると判定される。ユーザーは意図的に人物P2を見ているため、時刻T3以降に人物P2の位置に合焦位置を変更すべきである。合焦位置は、時刻T3から閾値時間Tth後の時刻T4’で変化する。このように、合焦位置は視点の変化に対して閾値時間Tthだけ遅延して変化する。
上記遅延の時間(閾値時間Tth)は短いことが好ましい。しかしながら、閾値時間Tthが短いと、意図せぬ視線の変更(反射的な視線の変更)による主被写体の変更を高精度に抑制することができない。意図せぬ視線の変更(反射的な視線の変更)による主被写体の変更を抑制するためには、閾値時間Tthは長いことが好ましい。
そして、閾値時間Tthとして好適な時間は、被写体の種類に依存する。例えば、子供や犬などのように動く方向がランダムかつ急激に変化する被写体の場合には、被写体の動きの急激な変化に合焦位置を追従させるため、閾値時間Tth(遅延時間)は短いことが好ましい。また、大人や馬などのように動く方向の変化が少ない被写体の場合には、被写体の動きが予測できるため、合焦位置の変化の遅延は発生しにくい。そのため、そのような場合には、意図せぬ視線の変更(反射的な視線の変更)による主被写体の変更を高精度に抑制するために、閾値時間Tthは長いことが好ましい。
同様に、閾値時間Tthとして好適な時間は、撮影シーン(ユーザーが見ている場面)の種類に依存する。例えば、サッカーやバスケットボールなどの撮影シーンでは、被写体の動く方向がランダムかつ急激に変化するため、閾値時間Tthは短いことが好ましい。陸上競技やスケート競技におけるトラック競技などの撮影シーンでは、被写体が動く方向
の変化が少ないため、閾値時間Tthは長いことが好ましい。
そこで、実施例1では、CPU3は、主被写体の種類と撮影シーンの種類との少なくとも一方を考慮して、主被写体の変更を抑制する。例えば、CPU3は、閾値時間Tthや閾値量Xth、フィルタ処理のフレーム数などのパラメータを、主被写体の種類と撮影シーンの種類との少なくとも一方に基づいて制御する。メモリ部4は、複数のパラメータを予め記憶していてもよい。そして、CPU3は、主被写体の種類と撮影シーンの種類との少なくとも一方に基づいて複数のパラメータのいずれかを選択し、選択したパラメータをメモリ部4から読み出して主被写体の変更抑制処理(主被写体の変更を抑制する処理)に適用してもよい。例えば、メモリ部4は、主被写体の複数の種類にそれぞれ対応する複数のパラメータを予め記憶していてもよいし、撮影シーンの複数の種類にそれぞれ対応する複数のパラメータを予め記憶していてもよい。メモリ部4は、主被写体の種類と撮影シーンの種類との複数の組み合わせにそれぞれ対応する複数のパラメータを予め記憶していてもよい。
<CNNの説明>
被写体の種類や撮影シーンの種類の識別方法は特に限定されないが、例えば、機械学習(深層学習)により学習された学習済みモデルを用いて被写体の種類や撮影シーンの種類を識別することができる。学習済みモデルでは、例えば、撮像素子2により撮像された画像がCNN(畳み込みニューラルネットワーク)に入力される。CNNからは、被写体の種類や撮影シーンの種類の識別に使用する特徴量が出力される。そして、CNNから出力された特徴量を用いて、被写体の種類や撮影シーンの種類が識別される。カメラ1は、このような処理を行う識別器(クラス分類によって物体(被写体)の種類を識別する物体識別器や、クラス分類によって場面(撮影シーン)の種類を識別する場面識別器)を有してもよい。
図10は、CNNの構成を示す。CNNは、特徴検出層(S層)と特徴統合層(C層)と呼ばれる2つの層をひとつのセットとし、階層的な複数のセットを有する。S層では、1つ前の階層で検出された特徴をもとに次の特徴が検出される。最初のS層では、撮像された画像をもとに特徴量が検出される。S層において検出した特徴は同じ階層のC層で統合され、その階層における検出結果として次の階層に送られる。S層は1つ以上の特徴検出細胞面からなり、特徴検出細胞面ごとに異なる特徴を検出する。また、C層は、1つ以上の特徴統合細胞面からなり、同じ階層の特徴検出細胞面での検出結果をプーリングする。以下では、特に区別する必要がない場合、特徴検出細胞面および特徴統合細胞面を総称して特徴面と呼ぶ。実施例1では、最終階層である出力層はC層を有さず、S層のみを有するとする。
特徴検出細胞面での特徴検出処理、および特徴統合細胞面での特徴統合処理の詳細について、図11を用いて説明する。特徴検出細胞面は、複数の特徴検出ニューロンにより構成され、特徴検出ニューロンは1つ前の階層のC層に所定の構造で結合している。また特徴統合細胞面は、複数の特徴統合ニューロンにより構成され、特徴統合ニューロンは同じ階層のS層に所定の構造で結合している。L階層目S層のM番目細胞面内において、位置(ξ,ζ)の特徴検出ニューロンの出力値をy LS(ξ,ζ)、L階層目C層のM番目細胞面内において、位置(ξ,ζ)の特徴統合ニューロンの出力値をy LC(ξ,ζ)と記載する。そして、各ニューロンの結合係数をw LS(n,u,v)、w LC(u,v)とすると、各出力値は以下の式4,5のように表すことができる。
Figure 2024003432000002
Figure 2024003432000003
式4のfは活性化関数であり、ロジスティック関数や双曲正接関数などのシグモイド関数であればよく、例えばtanh関数であってもよい。u LS(ξ,ζ)は、L階層目S層のM番目細胞面における、位置(ξ,ζ)の特徴検出ニューロンの内部状態である。式5では活性化関数を用いず単純な線形和が算出される。式5のように活性化関数を用いない場合は、ニューロンの内部状態u LC(ξ,ζ)と出力値y LC(ξ,ζ)は等しい。また、式4のy L-1C(ξ+u,ζ+v)、式5のy LS(ξ+u,ζ+v)をそれぞれ特徴検出ニューロンの結合先出力値、特徴統合ニューロンの結合先出力値と呼ぶ。
式4,5中のξ、ζ、u、v、nについて説明する。位置(ξ,ζ)は入力画像における位置座標に対応しており、例えばy LS(ξ,ζ)が高い出力値である場合は、入力画像の画素位置(ξ,ζ)に、L階層目S層M番目細胞面において検出する特徴が存在する可能性が高いことを意味する。式4において、nは、L-1階層目C層n番目細胞面を意味しており、統合先特徴番号と呼ぶ。基本的にL-1階層目C層に存在する全ての細胞面についての積和演算を行う。(u,v)は結合係数の相対位置座標であり、検出する特徴のサイズに応じて有限の範囲(u,v)において積和演算を行う。このような有限な(u,v)の範囲を受容野と呼ぶ。また受容野の大きさを、以下では受容野サイズと呼び、結合している範囲の横画素数×縦画素数で表す。
また、式4において、L=1つまり最初のS層の場合には、y L-1C(ξ+u,ζ+v)は、入力画像yin_image(ξ+u,ζ+v)または、入力位置マップyin_posi_map(ξ+u,ζ+v)となる。なお、ニューロンや画素の分布は離散的であり、結合先特徴番号も離散的であるため、ξ、ζ、u、v、nは連続な変数ではなく、離散的な値をとる。ここでは、ξとζは非負整数、nは自然数、uとvは整数とし、いずれも有限な範囲の値となる。
式4中のw LS(n,u,v)は、所定の特徴を検出するための結合係数分布であり、これを適切な値に調整することによって、所定の特徴を検出することが可能になる。この結合係数分布の調整が学習であり、CNNの構築においては、さまざまなテストパターンを提示して、y LS(ξ,ζ)が適切な出力値になるように、結合係数を繰り返し徐々に修正していくことで結合係数の調整を行う。
式5中のw LC(u,v)は、2次元のガウシアン関数を用いて、以下の式6のように表すことができる。
Figure 2024003432000004
ここでも、(u,v)は有限の範囲としてあるので、特徴検出ニューロンの説明と同様に、有限の範囲を受容野と呼び、範囲の大きさを受容野サイズと呼ぶ。この受容野サイズは、ここではL階層目S層M番目の特徴のサイズに応じて適当な値に設定すればよい。式6中のσは特徴サイズ因子であり、受容野サイズに応じて適当な定数に設定しておけばよい。具体的には、受容野の最も外側の値がほぼ0とみなせるような値になるようにσを設定するのがよい。
上述のような演算を各階層で行うことで、最終階層のS層において、被写体の種類や撮影シーンの種類の識別に使用する特徴量を得ることができる。なお、被写体の種類や撮影シーンの種類の識別までをCNNで構成し、CNNから識別結果が出力されてもよい。
<カメラ動作の説明>
図12は、カメラ動作のフローチャートである。例えば、カメラ1の電源がONされると、図12のカメラ動作が行われる。カメラ1の電源は、カメラ1に対するユーザー操作に応じてON/OFFされる。
ステップS101では、CPU3は、撮像素子2を制御して、スルー画像(画像信号)の取得を開始する。CPU3は、取得したスルー画像を表示デバイス10に表示する。ユーザーは表示デバイス10に表示されたスルー画像を見ることで、被写体を確認する。
ステップS102では、CPU3は、カメラ1の電源をOFFするか否かを判定し、OFFする場合は図12のカメラ動作を終了し、OFFしない場合はステップS103に処理を進める。
ステップS103では、CPU3は、ステップS101でスルー画像を視認し始めたユーザーの眼画像の取得を開始し、図7の視線検出動作を行う。視線検出動作により、眼画像における瞳孔像や角膜反射像の座標が検出され、表示デバイス10の画面における視点の座標が算出される。
ステップS104では、CPU3は、撮像素子2により撮像されたスルー画像に基づいて、当該スルー画像に写っている被写体の種類や、当該スルー画像の撮影シーンの種類などを識別する。そして、CPU3は、識別結果に対応するパラメータをメモリ部4から読み出し、主被写体の変更抑制処理(主被写体の変更を抑制する処理)のパラメータとして設定する(パラメータの設定または更新)。
ステップS105では、CPU3は、撮像素子2により撮像されたスルー画像に基づいて、主被写体候補(主被写体の候補)を検出する。例えば、上述したように、顔領域認識技術や瞳領域認識技術などを用いて、スルー画像から人物の領域を主被写体候補の領域として検出する。被写体の種類の識別結果を用いて、人物や動物などの特定の種類の被写体の領域を主被写体候補の領域として検出してもよい。
ステップS106では、CPU3は、撮像素子2により撮像された(最新の)スルー画像が1フレーム目の画像(カメラ1の電源がONされて最初に撮像された画像)であるか否かを判定する。CPU3は、スルー画像が1フレーム目の画像である場合はステップS107に処理を進め、スルー画像が2フレーム目以降の画像である場合はステップS110に処理を進める。
ステップS107では、CPU3は、ステップS103で算出した視点の座標と、ステップS105で検出した1つ以上の主被写体候補とに基づいて、最新の視点を含む領域の主被写体候補を、主被写体として選択する。最新の視点を含む領域の主被写体候補は、ユ
ーザーが視線を向けている主被写体候補である。そして、CPU3は、表示デバイス10の画面上で、選択した主被写体を囲む枠を表示する。その後、CPU3は、ステップS200に処理を進める。
ステップS110では、CPU3は、1つ前のフレームから現在のフレームにかけての視点の移動量ΔXが閾値量Xthを超えているか否かを判定する。視点の移動量ΔXが閾値量Xth以下である場合は、CPU3は、ユーザーが同じ被写体を見続けていると判断し、ステップS111に処理を進める。視点の移動量ΔXが閾値量Xthを超えている場合には、CPU3は、ユーザーが見る被写体を変更したと判断し、ステップS120に処理を進める。
ステップS111では、CPU3は、視点が停滞しているため、視点の停滞時間Δtをカウントアップする。そして、CPU3は、ステップS112に処理を進める。
ステップS112では、CPU3は、視点の停滞時間Δtが閾値時間Tthを超えているか否かを判定する。停滞時間Δtが閾値時間Tth以下である場合は、CPU3は、ユーザーが意図的に被写体を見ただけと判断し、ステップS130に処理を進める。停滞時間Δtが閾値時間Tthを超えている場合には、CPU3は、ユーザーが意図的に被写体を見ていると判断し、ステップS107に処理を進める。このため、ユーザーが意図的に被写体を見ていると判断された場合は、ユーザーが視線を向けている主被写体候補が主被写体として選択される。
ステップS120では、CPU3は、視点の急激な変化があったため、視点の停滞時間Δtを0に初期化する。そして、CPU3は、ステップS130に処理を進める。
ステップS130では、CPU3は、1つ前のフレームから主被写体を変更せずに、1つ前のフレームと同じ主被写体を選択し続ける。CPU3は、表示デバイス10の画面上で、選択した主被写体を囲む枠を表示する。その後、CPU3は、ステップS200に処理を進める。
ステップS200では、CPU3は、ユーザーによってレリーズボタン5が押されて(半押しされて)スイッチSW1がONとなったか否かを判定する。例えば、ユーザーは、スルー画像に重ねて表示された主被写体枠(選択された主被写体を囲む枠)の位置での合焦に同意した場合に、レリーズボタン5の半押しを行い、スイッチSW1をONにする。CPU3は、スイッチSW1がONとなった場合はステップS201に処理を進め、スイッチSW1がONとならなかった場合はステップS103に処理を戻して視点の再推定を行う。
ステップS201では、CPU3は、現在の主被写体枠の位置での測距動作を行い、測距動作が行われたことを、主被写体枠の色を変える等の強調表示でユーザーに知らせる。
ステップS202では、CPU3は、ステップS201で得られた測距結果に応じて、撮影レンズユニット1A内のレンズ101を駆動する。これにより、スルー画像に重ねて表示された主被写体枠の位置での合焦(主被写体への合焦)が実現される。
ステップS203では、CPU3は、ユーザーによってレリーズボタン5がさらに押し込まれて(全押しされて)スイッチSW2がONとなったか否かを判定する。例えば、ユーザーは、現在の合焦位置での撮影に同意した場合に、レリーズボタン5の全押しを行い、スイッチSW2をONにする。CPU3は、スイッチSW2がONとなった場合はステップS204に処理を進め、スイッチSW2がONとならなかった場合はステップS20
0に処理を戻す。
ステップS204では、CPU3は、撮影動作を行うことで、撮像素子2によって撮像された画像を、メモリ部4に格納する。
ステップS205では、CPU3は、ステップS204でメモリ部4に格納された画像(撮影された画像)を表示デバイス10に所定時間表示し、ステップS102に処理を戻す。
<まとめ>
以上述べたように、実施例1によれば、視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更が抑制される。これにより、ユーザーの意図に反した物体の選択を抑制して、ユーザーの意図した物体を高精度に選択することができる。また、実施例1によれば、選択した物体の種類や、ユーザーが見ている場面の種類などを考慮することにより、ユーザーの意図した物体をより高精度に選択することができる。
実施例1に係る動作は図9(a),9(b)を用いて説明したが、以下にもう一度説明する。ここでは、ユーザーが第1の物体に視線を向けて第1の物体が選択された後、ユーザーが第1の物体から第2の物体に視線を移した場合を考える。この場合に、ユーザーが第2の物体に継続して視線を向けている視認時間が閾値時間を超えるまでは、第1の物体が選択され続け、第2の物体の視認時間が閾値時間を超えると、選択する物体が第1の物体から第2の物体に変更される。第2の物体の視認時間が閾値時間を超える前にユーザーが第2の物体から第1の物体に視線を戻した場合には、選択する物体が第1の物体から第2の物体に変更されることはなく、第1の物体が選択され続ける。
<<実施例2>>
以下、本発明の実施例2について説明する。実施例1では主被写体の種類や撮影シーンの種類を考慮する例を説明した。実施例2では、カメラワークの種類(カメラの取り回しの方法)を考慮する例を説明する。なお、以下では、実施例1と同じ点(構成や処理など)についての説明は省略し、実施例1と異なる点について説明する。
<パラメータ制御の説明>
実施例2では、カメラワークの種類を考慮して主被写体の変更を抑制する。例えば、CPU3は、カメラワークの種類に基づいて、主被写体の変更を抑制する処理のパラメータ(閾値時間Tthや閾値量Xth、フィルタ処理のフレーム数など)を制御する。ここでは、カメラワークの種類が異なる撮像として、固定撮像とフレーミング撮像とを考える。固定撮像は、カメラ1に三脚などを装着して画角(撮像範囲)を固定した状態で行われる撮像である。フレーミング撮像は、カメラ1を手持ちした状態や、カメラ1に一脚を装着した状態などで、被写体を画角中央などの所定の位置に捕らえ続けるようにカメラ1を動かすフレーミング動作(パンニング動作)と共に行われる撮像である。
図13(a),13(b)は固定撮像の場合のファインダー内視野を示す。表示デバイス10は、撮像素子2により撮像された画像を表示している。撮像素子2により撮像された画像は、陸上競技におけるトラック競技の画像であり、被写体(人物)が画角の左側から右側へ向かって移動している。画角が固定されているため、被写体の表示位置(表示デバイス10の画面上での位置)の移動速度および移動量は大きい。
図14(a),14(b)はフレーミング撮像の場合のファインダー内視野を示す。被写体を画角中央に捕らえ続けるようにカメラ1を動かすフレーミング動作が行われているため、被写体の表示位置は画面中央に保たれ、被写体の移動速度および移動量は小さい。
固定撮像の場合は、被写体を追うユーザーの視点の移動速度および移動量も大きい。そのため、視点の移動に対して敏感に合焦位置の変更を行う必要があり、閾値時間Tthは短いことが好ましい。一方で、フレーミング撮像の場合は、被写体を追うユーザーの視点の移動速度および移動量も小さい。そのため、そのため、視点の移動に対して敏感に合焦位置の変更を行う必要性は低く、意図せぬ視線の変更(反射的な視線の変更)による主被写体の変更を高精度に抑制するために、閾値時間Tthは長いことが好ましい。
そこで、実施例2では、CPU3は、カメラワークの種類を考慮して、主被写体の変更を抑制する。例えば、加速度センサ(ジャイロセンサを含む)をカメラ1に設ける。そして、CPU3は、加速度センサの出力に基づいてカメラワークの種類を識別する。CPU3は、加速度センサの出力に基づいてフレーミング動作(パンニング動作)が行われているか否かを判定してもよい。そして、CPU3は、フレーミング動作が行われている場合に長い時間を閾値時間Tthに設定し、フレーミング動作が行われていない場合に短い時間を閾値時間Tthに設定してもよい。
CPU3は、撮像素子2により撮像された画像における主被写体の位置に基づいてカメラワークの種類を識別してもよい。例えば、CPU3は、主被写体の位置が画角中央に保たれているか否かを判定する。そして、CPU3は、主被写体の位置が画角中央に保たれている場合に長い時間を閾値時間Tthに設定し、主被写体の位置が画角中央に保たれていない場合に短い時間を閾値時間Tthに設定する。
CPU3は、撮像素子2により撮像された画像の動きベクトル(フレーム間における移動量と移動方向)に基づいてカメラワークの種類を識別してもよい。例えば、CPU3は、動きベクトルに基づいてフレーミング動作(パンニング動作)が行われているか否かを判定する。そして、CPU3は、フレーミング動作が行われている場合に長い時間を閾値時間Tthに設定し、フレーミング動作が行われていない場合に短い時間を閾値時間Tthに設定する。
CPU3は、カメラ1に三脚が装着されているか否かに基づいてカメラワークの種類を識別してもよい。例えば、CPU3は、三脚が装着されている場合に短い時間を閾値時間Tthに設定し、三脚が装着されていない場合に長い時間を閾値時間Tthに設定する。三脚が装着されているか否かの判定方法は特に限定さない。例えば、三脚が装着された際に押下されるスイッチ(三脚のねじに接続される電気接点を含む)などをカメラ1に設け、スイッチの状態に応じて、三脚が装着されているか否かを判定することができる。
実施例2に係るカメラ動作は、実施例1(図12)と同様である。但し、ステップS104では、被写体の種類や撮影シーンの種類ではなく、カメラワークの種類に応じて、パラメータ判定を設定する。
<まとめ>
以上述べたように、実施例2によれば、カメラワークの種類を考慮することにより、ユーザーの意図した物体をより高精度に選択することができる。
なお、上記実施例(変形例を含む)はあくまで一例であり、本発明の要旨の範囲内で上記実施例の構成を適宜変形したり変更したりすることにより得られる構成も、本発明に含まれる。上記実施例の構成を適宜組み合わせて得られる構成も、本発明に含まれる。
例えば、EVF(電子ビューファインダー)を介して被写体を見る場合の例を説明したが、OVF(光学ビューファインダー)を介して被写体を見る場合にも本発明は適用可能
である。本発明は撮像装置(カメラ)以外にも適用可能であり、コンピュータグラフィックなどを見る場合にも適用可能である。本発明は、視線情報に基づいて物体(アイコンなどの表示アイテムを含む)を選択することのできる様々な電子機器に適用可能である。
<<他の電子機器への適用例>>
図15(a)は、ノート型パーソナルコンピュータ1510(ノートPC)の外観図である。図15(a)では、ノートPC1510の表示部1511を見るユーザーを撮像する撮像ユニット1515がノートPC1510に接続されており、ノートPC1510は撮像ユニット1515から撮像結果を取得する。そして、ノートPC1510は、撮像結果に基づいてユーザーの視点を検出する。本発明は、ノートPC1510にも適用可能である。
図15(b)は、スマートフォン1520の外観図である。図15(b)では、スマートフォン1520は、インカメラ1521(フロントカメラ)の撮像結果に基づいて、スマートフォン1520の表示部1522を見るユーザーの視点を検出する。本発明は、スマートフォン1520にも適用可能である。同様に、本発明は、種々のタブレット端末にも適用可能である。
図15(c)は、ゲーム機1530の外観図である。図15(c)では、ゲームのVR(Virtual Reality)画像を表示部1536に表示するヘッドマウントディスプレイ1535(HMD)が、ゲーム機1530に接続されている。HMD1535は、HMD1535を装着したユーザーの眼を撮像するカメラ1537を有しており、ゲーム機1530は、HMD1535から撮像結果を取得する。そして、ゲーム機1530は、撮像結果に基づいてユーザーの視点を検出する。本発明は、ゲーム機1530にも適用可能である。ゲーム機1530の構成要素はHMD1535に内蔵されていてもよい。従って、本発明は、HMD1535にも適用可能である。HMDに表示したVR画像を見る場合に本発明が適用可能であるのと同様に、眼鏡型のウェアラブル端末のレンズ部分などに表示したAR(Augmented Reality)画像や、レンズ部分の先にある実物を見る場合にも本発明は適用可能である。VR技術やAR技術に本発明が適用可能であるのと同様に、MR(Mixed Reality)技術やSR(Substitutional Reality)技術などの別のxR技術にも本発明は適用可能である。
<<その他の実施例>>
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本実施形態の開示は、以下の構成、方法、プログラム、および媒体を含む。
(構成1)
ユーザーの視線に関する視線情報を取得する取得手段と、
前記視線情報に基づいて、前記視線が向けられた物体を選択する選択手段と
を有し、
前記選択手段は、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制する
ことを特徴とする電子機器。
(構成2)
前記選択手段は、前記停滞時間が閾値時間よりも短い場合には、前記選択する物体を変更しない
ことを特徴とする構成1に記載の電子機器。
(構成3)
前記選択手段は、前記停滞時間が閾値時間を超えている場合に、前記視線が向けられた物体を選択する
ことを特徴とする構成1または2に記載の電子機器。
(構成4)
前記選択手段は、前記視線に関する時間方向のフィルタ処理を行い、前記フィルタ処理後の視線が向けられた物体を選択する
ことを特徴とする構成1に記載の電子機器。
(構成5)
前記選択手段は、選択した物体の種類にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成1~4のいずれか1項に記載の電子機器。
(構成6)
前記選択手段は、前記ユーザーが見ている場面の種類にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成1~4のいずれか1項に記載の電子機器。
(構成7)
前記選択手段は、選択した物体の種類と、前記ユーザーが見ている場面の種類とにさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成1~4のいずれか1項に記載の電子機器。
(構成8)
前記選択手段によって選択された物体の種類をクラス分類によって識別する物体識別器をさらに有する
ことを特徴とする構成5または7に記載の電子機器。
(構成9)
前記ユーザーが見ている場面の種類をクラス分類によって識別する場面識別器をさらに有する
ことを特徴とする構成6または7に記載の電子機器。
(構成10)
複数のパラメータを記憶する記憶手段をさらに有し、
前記選択手段は、前記選択した物体の種類と、前記ユーザーが見ている場面の種類との少なくとも一方に基づいて前記複数のパラメータのいずれかを選択し、選択したパラメータを、前記選択する物体の変更を抑制する処理に適用する
ことを特徴とする構成1~9のいずれか1項に記載の電子機器。
(構成11)
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置のカメラワークの種類にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成1~10のいずれか1項に記載の電子機器。
(構成12)
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置の加速度センサの出力にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成1~10のいずれか1項に記載の電子機器。
(構成13)
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置が撮像した画像の動きベクトルにさらに基づいて、前記
選択する物体の変更を抑制する
ことを特徴とする構成1~10のいずれか1項に記載の電子機器。
(構成14)
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置が撮像した画像における、選択した物体の位置にさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成1~10のいずれか1項に記載の電子機器。
(構成15)
前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
前記選択手段は、前記撮像装置に三脚が装着されているか否かにさらに基づいて、前記選択する物体の変更を抑制する
ことを特徴とする構成1~10のいずれか1項に記載の電子機器。
(構成16)
ユーザーの視線が向けられた物体を選択する選択手段を有し、
前記ユーザーが第1の物体に視線を向けて前記選択手段が第1の物体を選択した後、前記ユーザーが前記第1の物体から第2の物体に視線を移した場合に、
前記ユーザーが前記第2の物体に継続して視線を向けている視認時間が閾値時間を超えるまでは、前記選択手段は前記第1の物体を選択し続け、
前記第2の物体の前記視認時間が前記閾値時間を超えると、前記選択手段は、選択する物体を前記第1の物体から前記第2の物体に変更する
ことを特徴とする電子機器。
(構成17)
前記ユーザーが前記第1の物体に視線を向けて前記選択手段が前記第1の物体を選択した後、前記ユーザーが前記第1の物体から前記第2の物体に視線を移し、前記第2の物体の前記視認時間が前記閾値時間を超える前に前記第2の物体から前記第1の物体に視線を戻した場合に、前記選択手段は前記第1の物体を選択し続ける
ことを特徴とする構成16に記載の電子機器。
(方法)
ユーザーの視線に関する視線情報を取得する取得ステップと、
前記視線情報に基づいて、前記視線が向けられた物体を選択する選択ステップと
を有し、
前記選択ステップでは、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制する
ことを特徴とする電子機器の制御方法。
(プログラム)
コンピュータを、構成1~17のいずれか1項に記載の電子機器の各手段として機能させるためのプログラム。
(媒体)
コンピュータを、構成1~17のいずれか1項に記載の電子機器の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体。
1:カメラ 3:CPU

Claims (20)

  1. ユーザーの視線に関する視線情報を取得する取得手段と、
    前記視線情報に基づいて、前記視線が向けられた物体を選択する選択手段と
    を有し、
    前記選択手段は、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制する
    ことを特徴とする電子機器。
  2. 前記選択手段は、前記停滞時間が閾値時間よりも短い場合には、前記選択する物体を変更しない
    ことを特徴とする請求項1に記載の電子機器。
  3. 前記選択手段は、前記停滞時間が閾値時間を超えている場合に、前記視線が向けられた物体を選択する
    ことを特徴とする請求項1に記載の電子機器。
  4. 前記選択手段は、前記視線に関する時間方向のフィルタ処理を行い、前記フィルタ処理後の視線が向けられた物体を選択する
    ことを特徴とする請求項1に記載の電子機器。
  5. 前記選択手段は、選択した物体の種類にさらに基づいて、前記選択する物体の変更を抑制する
    ことを特徴とする請求項1に記載の電子機器。
  6. 前記選択手段は、前記ユーザーが見ている場面の種類にさらに基づいて、前記選択する物体の変更を抑制する
    ことを特徴とする請求項1に記載の電子機器。
  7. 前記選択手段は、選択した物体の種類と、前記ユーザーが見ている場面の種類とにさらに基づいて、前記選択する物体の変更を抑制する
    ことを特徴とする請求項1に記載の電子機器。
  8. 前記選択手段によって選択された物体の種類をクラス分類によって識別する物体識別器をさらに有する
    ことを特徴とする請求項5に記載の電子機器。
  9. 前記ユーザーが見ている場面の種類をクラス分類によって識別する場面識別器をさらに有する
    ことを特徴とする請求項6に記載の電子機器。
  10. 複数のパラメータを記憶する記憶手段をさらに有し、
    前記選択手段は、前記選択した物体の種類と、前記ユーザーが見ている場面の種類との少なくとも一方に基づいて前記複数のパラメータのいずれかを選択し、選択したパラメータを、前記選択する物体の変更を抑制する処理に適用する
    ことを特徴とする請求項1に記載の電子機器。
  11. 前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
    前記選択手段は、前記撮像装置のカメラワークの種類にさらに基づいて、前記選択する
    物体の変更を抑制する
    ことを特徴とする請求項1に記載の電子機器。
  12. 前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
    前記選択手段は、前記撮像装置の加速度センサの出力にさらに基づいて、前記選択する物体の変更を抑制する
    ことを特徴とする請求項1に記載の電子機器。
  13. 前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
    前記選択手段は、前記撮像装置が撮像した画像の動きベクトルにさらに基づいて、前記選択する物体の変更を抑制する
    ことを特徴とする請求項1に記載の電子機器。
  14. 前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
    前記選択手段は、前記撮像装置が撮像した画像における、選択した物体の位置にさらに基づいて、前記選択する物体の変更を抑制する
    ことを特徴とする請求項1に記載の電子機器。
  15. 前記視線情報は、撮像装置のファインダーを介して被写体を見る前記ユーザーの視線に関する情報であり、
    前記選択手段は、前記撮像装置に三脚が装着されているか否かにさらに基づいて、前記選択する物体の変更を抑制する
    ことを特徴とする請求項1に記載の電子機器。
  16. ユーザーの視線が向けられた物体を選択する選択手段を有し、
    前記ユーザーが第1の物体に視線を向けて前記選択手段が第1の物体を選択した後、前記ユーザーが前記第1の物体から第2の物体に視線を移した場合に、
    前記ユーザーが前記第2の物体に継続して視線を向けている視認時間が閾値時間を超えるまでは、前記選択手段は前記第1の物体を選択し続け、
    前記第2の物体の前記視認時間が前記閾値時間を超えると、前記選択手段は、選択する物体を前記第1の物体から前記第2の物体に変更する
    ことを特徴とする電子機器。
  17. 前記ユーザーが前記第1の物体に視線を向けて前記選択手段が前記第1の物体を選択した後、前記ユーザーが前記第1の物体から前記第2の物体に視線を移し、前記第2の物体の前記視認時間が前記閾値時間を超える前に前記第2の物体から前記第1の物体に視線を戻した場合に、前記選択手段は前記第1の物体を選択し続ける
    ことを特徴とする請求項16に記載の電子機器。
  18. ユーザーの視線に関する視線情報を取得する取得ステップと、
    前記視線情報に基づいて、前記視線が向けられた物体を選択する選択ステップと
    を有し、
    前記選択ステップでは、前記視線の変化量が閾値量よりも小さい停滞時間に基づいて、選択する物体の変更を抑制する
    ことを特徴とする電子機器の制御方法。
  19. コンピュータを、請求項1~17のいずれか1項に記載の電子機器の各手段として機能
    させるためのプログラム。
  20. コンピュータを、請求項1~17のいずれか1項に記載の電子機器の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体。
JP2022102563A 2022-06-27 2022-06-27 電子機器 Pending JP2024003432A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022102563A JP2024003432A (ja) 2022-06-27 2022-06-27 電子機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022102563A JP2024003432A (ja) 2022-06-27 2022-06-27 電子機器

Publications (1)

Publication Number Publication Date
JP2024003432A true JP2024003432A (ja) 2024-01-15

Family

ID=89533993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022102563A Pending JP2024003432A (ja) 2022-06-27 2022-06-27 電子機器

Country Status (1)

Country Link
JP (1) JP2024003432A (ja)

Similar Documents

Publication Publication Date Title
JP3102825B2 (ja) カメラ
JP2001116985A (ja) 被写体認識機能を有するカメラおよび被写体認識方法
US11509816B2 (en) Image processing apparatus, image pickup apparatus, and control method of image processing apparatus
JP2020008899A (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
JP2024003037A (ja) 電子機器、電子機器の制御方法、プログラムおよび記憶媒体
JP2024003432A (ja) 電子機器
JP2021125867A (ja) 画像処理装置、撮像装置、画像処理装置の制御方法、およびプログラム
JP7358130B2 (ja) 電子機器およびその制御方法
JP7446898B2 (ja) 電子機器
WO2022091664A1 (ja) 電子機器およびその制御方法
US20230186520A1 (en) Gaze detection apparatus
US11829052B2 (en) Gaze detection apparatus, gaze detection method, and non-transitory computer readable medium
JP2023083695A (ja) 電子機器
US20240085979A1 (en) Recording device, image-capturing apparatus, control method, and recording system
US20230336862A1 (en) Electronic device, control method, and non-transitory computer readable medium
US20230092593A1 (en) Detection device detecting gaze point of user, control method therefor, and storage medium storing control program therefor
JP3180458B2 (ja) 視線検出手段を有するカメラ
JP2023063023A (ja) 電子機器及び電子機器の制御方法
JP2022165239A (ja) 撮像装置及びその制御方法、並びにプログラム
JP2024002562A (ja) 識別装置
JP3184542B2 (ja) カメラ
JP2023063760A (ja) 識別装置
JP2022185313A (ja) 撮像装置
JP2022183552A (ja) 視線情報取得装置、撮像装置、視線情報取得方法、プログラム、及び、記憶媒体
JP2023073758A (ja) 電子機器、制御方法