JP2022165239A - Imaging apparatus and control method for the same, and program - Google Patents
Imaging apparatus and control method for the same, and program Download PDFInfo
- Publication number
- JP2022165239A JP2022165239A JP2021070512A JP2021070512A JP2022165239A JP 2022165239 A JP2022165239 A JP 2022165239A JP 2021070512 A JP2021070512 A JP 2021070512A JP 2021070512 A JP2021070512 A JP 2021070512A JP 2022165239 A JP2022165239 A JP 2022165239A
- Authority
- JP
- Japan
- Prior art keywords
- line
- eye image
- sight
- image data
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003384 imaging method Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 65
- 210000001508 eye Anatomy 0.000 claims abstract description 123
- 238000001514 detection method Methods 0.000 claims abstract description 95
- 210000005252 bulbus oculi Anatomy 0.000 claims abstract description 30
- 210000001747 pupil Anatomy 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 4
- 230000001179 pupillary effect Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 40
- 238000012545 processing Methods 0.000 description 21
- 238000013527 convolutional neural network Methods 0.000 description 18
- 210000004027 cell Anatomy 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 210000002569 neuron Anatomy 0.000 description 11
- 238000012937 correction Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 10
- 230000010354 integration Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 210000004087 cornea Anatomy 0.000 description 6
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000005375 photometry Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Abstract
Description
本発明は撮像装置及びその制御方法、並びにプログラムに関し、特に検出された視線位置の情報に基づき焦点制御を行う撮像装置及びその制御方法、並びにプログラムに関する。 The present invention relates to an image pickup apparatus, its control method, and a program, and more particularly to an image pickup apparatus, its control method, and its program, which perform focus control based on information on a detected line-of-sight position.
近年、撮像装置の自動化・インテリジェント化が進み、手動で被写体位置を入力せずとも、ファインダを覗くユーザの視線位置の情報に基づいてユーザが意図する被写体を認識し、焦点制御を行うことを可能とする撮像装置が提案されている。この際、撮像装置がユーザの視線位置を検出する際に、ユーザの意図した視線位置と撮像装置が認識するユーザの視線位置の間にズレが生じ、ユーザの意図する被写体に焦点を合わせることができない場合がある。 In recent years, imaging devices have become increasingly automated and intelligent, making it possible to recognize the user's intended subject and perform focus control based on information about the user's line of sight when looking through the viewfinder, without having to manually enter the subject's position. An imaging device has been proposed. In this case, when the imaging device detects the line-of-sight position of the user, a deviation occurs between the line-of-sight position intended by the user and the position of the user's line of sight recognized by the imaging device, and the user's intended subject may be focused. Sometimes you can't.
これに対し、撮影前にファインダ内に指標を表示し、ユーザにその指標を注視するよう指示を出し、その注視状態において、ユーザの視線位置を検出し、該指標位置とのずれ量を検出するキャリブレーションを実行する。その後、撮影時において、その検出されたずれ量だけ撮像装置が認識するユーザの視線位置を補正することで、補正後の視線位置をよりユーザの意図に近い視線位置とする技術が知られている(例えば、特許文献1参照)。
On the other hand, an index is displayed in the finder before photographing, an instruction is given to the user to gaze at the index, and in the gaze state, the user's gaze position is detected, and the amount of deviation from the index position is detected. Execute calibration. After that, a technique is known in which, at the time of photographing, by correcting the line-of-sight position of the user recognized by the imaging apparatus by the amount of the detected deviation, the corrected line-of-sight position is closer to the user's intention. (See
また、視線位置の検出精度を判定し、判定された検出精度が低い箇所においては、表示オブジェクトを疎に表示し、視線検出精度が高い箇所においては表示オブジェクトを密に表示する。これにより、ユーザの意図しない視線位置が選択されないようにする技術が知られている(例えば、特許文献2参照)。 In addition, the detection accuracy of the line-of-sight position is determined, and the display objects are displayed sparsely at locations where the determined detection accuracy is low, and the display objects are densely displayed at locations where the line-of-sight detection accuracy is high. There is known a technique for preventing selection of an unintended line-of-sight position by the user (see, for example, Patent Document 2).
しかしながら、特許文献1に開示された従来技術では、撮影時とキャリブレーション時で、ファインダを覗くユーザの目の瞳孔径や距離などの条件が異なる場合、視線位置の検出精度が落ちてしまう。このように視線位置の検出精度が落ちるたびに再度キャリブレーションを行うようにすると、ユーザの負担が大きくなる。
However, in the conventional technology disclosed in
また特許文献2にあるように、例えば検出精度が悪い箇所では焦点枠を大きくすることで、視線位置の誤検出を防ぐことは可能であるが、焦点枠が大きくなってしまうと、ユーザの望む焦点制御を行うことができない恐れがある。
As described in
そこで、本発明の目的は、ユーザの視線位置の検出精度を向上することができる撮像装置及びその制御方法、並びにプログラムを提供することである。 SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide an imaging apparatus, a control method thereof, and a program capable of improving detection accuracy of a user's line-of-sight position.
本発明の請求項1に係る撮像装置は、内部のファインダにスルー画像を表示する撮像装置であって、前記ファインダを覗くユーザの眼球を撮像して眼画像データを生成する生成手段と、前記眼画像データを取得し、前記取得した眼画像データに基づき前記ファインダの前記スルー画像に注がれるユーザの視線位置を検出する視線検出手段と、前記検出された視線位置を、第1のユーザ操作により他の位置に移動可能に前記ファインダに表示する表示制御手段と、前記他の位置をフォーカス位置に決定する第2のユーザ操作があった場合、前記他の位置を正解位置として収集する収集手段とを備え、前記正解位置は、前記視線検出手段によって取得された前記眼画像データを入力データとし、前記視線位置を推定する推論器を作成するための学習に用いられることを特徴とする。
An imaging apparatus according to
本発明によれば、ユーザの視線位置の検出精度を向上することができる。 ADVANTAGE OF THE INVENTION According to this invention, the detection accuracy of a user's gaze position can be improved.
以下、添付図面を参照して本発明の実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る本発明を限定するものでなく、また本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In addition, the following embodiments do not limit the present invention according to the claims, and not all combinations of features described in the embodiments are essential for the solution of the present invention. .
(実施例1)
以下、図1~10,13,14を参照して、本発明の実施例1に係る撮像装置1における視線位置の検出精度の向上のために実行される学習方法及び推論方法について説明する。
(Example 1)
1 to 10, 13, and 14, a learning method and an inference method that are executed to improve the detection accuracy of the line-of-sight position in the
図1~3を用いて、撮像装置1の構成に関して説明する。
The configuration of the
図2は、撮像装置1の外観を示す図であり、図2(a)は正面斜視図、図2(b)は背面斜視図、図2(c)は図2(b)の操作部材42を説明するための図である。
2A is a front perspective view, FIG. 2B is a rear perspective view, and FIG. 2C is an
本実施例において撮像装置1は、カメラ筐体部1B及びこれに脱着可能に装着される撮影レンズ1Aで構成されている。
In this embodiment, the
カメラ筐体部1Bの正面には、図2(a)で示すようにレリーズボタン5が設けられる。
A
レリーズボタン5は、ユーザからの撮像操作を受ける操作部材である。
The
また、図2(b)で示すように、カメラ筐体部1Bの背面には、接眼窓6、操作部材41~43が設けられる。
Further, as shown in FIG. 2(b), an
接眼窓6は、カメラ筐体部1Bの内部に含まれる図1で後述するファインダ10上に表示される視認用画像をユーザが覗くための窓である。
The
操作部材41は、タッチパネル対応液晶であり、操作部材42は、レバー式操作部材であり、操作部材43は、ボタン式十字キーである。尚、本実施例では、後述の推定注視点位置の手動操作による移動制御等のカメラ操作に使用する操作部材41~43がカメラ筐体部1Bに設けられているがこれに限定されない。例えば、電子ダイヤル等の他の操作部材がカメラ筐体部1Bに更にまたは操作部材41~43の代わりに設けられていてもよい。
The
図1は、図2(a)で図示したY軸とZ軸が成すYZ平面でカメラ筐体Bを切った断面図であり、撮像装置1の内部構成の概略を示す図である。尚、図1では、図2と同一の構成には同一の符号が付されている。 FIG. 1 is a cross-sectional view of the camera housing B cut along the YZ plane formed by the Y-axis and Z-axis shown in FIG. In FIG. 1, the same components as those in FIG. 2 are denoted by the same reference numerals.
図1において、撮影レンズ1Aは、カメラ筐体部1Bに脱着可能に装着される撮影レンズである。本実施例では便宜上撮影レンズ1Aの内部にあるレンズとして二枚のレンズ101,102のレンズのみが図示されているが、実際はさらに多数のレンズで構成されていることは周知の通りである。
In FIG. 1, a photographing
カメラ筐体部1Bは、その内部に、撮像素子2、CPU3、メモリ部4、ファインダ10、ファインダ駆動回路11、接眼レンズ12、光源13a~13b、光分割器15、受光レンズ16、及び眼用撮像素子17を備える。
The
撮像素子2は、撮影レンズ1Aの予定結像面に配置され、画像を撮像する。また、撮像素子2は、測光センサの役割も兼ねる。
The
CPU3は、撮像装置1全体を制御するマイクロコンピュータの中央処理装置である。
The
メモリ部4は、撮像素子2にて撮像された画像を記録する。またメモリ部4は、撮像素子2および眼用撮像素子17からの撮像信号の記憶機能及び、後述する視線の個人差を補正する視線補正データを記憶する。
The
ファインダ10は、撮像素子2にて撮像された画像(スルー画像)を表示するための液晶等で構成される。
The
ファインダ駆動回路11は、ファインダ10を駆動する回路である。
A
接眼レンズ12は、ファインダ10に表示される視認用画像を接眼窓6(図2)からユーザが覗き込んで観察するためのレンズである。
The
光源13a~13bは、ユーザの視線方向を検出するため、ユーザの眼球14を照明するための赤外発光ダイオードからなる光源であり、接眼窓6(図2)の周りに配置されている。光源13a~13bの点灯により眼球14には光源13a~13bの角膜反射像(プルキニエ像)Pd,Pe(図5)が形成される。この状態で眼球14からの光が接眼レンズ12を透過し、光分割器15で反射され、受光レンズ16によってCMOS等の光電素子列を2次元的に配した眼用撮像素子17(生成手段)上に眼球像を含む眼画像が結像され、眼画像データが生成される。受光レンズ16はユーザの眼球14の瞳孔と眼用撮像素子17を共役な結像関係に位置付けている。後述する所定のアルゴリズムにより、視線検出回路201(視線検出手段:図3)が、眼用撮像素子17上に結像された眼球像における角膜反射像の位置から、視線方向(視認用画像に注がれるユーザの視点、以下、第1の推定注視点位置と称する。)を検出する。
The
光分割器15は、接眼レンズ12を透過した光を反射し、受光レンズ16を介して眼用撮像素子17上に結像させると共に、ファインダ10からの光を透過し、ユーザがファインダ10に表示される視認用画像を見ることができるように構成されている。
The
撮影レンズ1Aは、絞り111、絞り駆動装置112、レンズ駆動用モーター113、駆動ギヤ等からなるレンズ駆動部材114、フォトカプラー115、パルス板116、マウント接点117、及び焦点調節回路118を備える。
The photographing
フォトカプラー115は、レンズ駆動部材114に連動するパルス板116の回転を検知して、焦点調節回路118に伝えている。
A
焦点調節回路118は、フォトカプラー115からの情報とカメラ筐体部1Bからのレンズ駆動量の情報にもとづいてレンズ駆動用モーター113を所定量駆動させ、撮影レンズ1Aを合焦点位置に移動させる。
The
マウント接点117は、カメラ筐体部1Bと撮影レンズ1Aとのインターフェイスであり、公知の構成を有する。カメラ筐体部1Bと撮影レンズ1Aでは、マウント接点117を介して信号の伝達がなされる。カメラ筐体部1BのCPU3は、撮影レンズ1Aの種別情報や光学情報などを取得することで、カメラ筐体部1Bに装着された撮影レンズ1Aによる焦点可能な範囲を判定する。
A
図3は、撮像装置1に内蔵された電気的構成を示すブロック図である。尚、図3では、図1、図2と同一の構成には同一番号が付されている。
FIG. 3 is a block diagram showing an electrical configuration built into the
カメラ筐体部1Bは、視線検出回路201、測光回路202、自動焦点検出回路203、信号入力回路204、ファインダ駆動回路11、光源駆動回路205、視線検出信頼度判別回路31、及び通信回路32を備え、これらは夫々CPU3と接続されている。また、撮影レンズ1Aは、焦点調節回路118、及び絞り駆動装置112(図1)に含まれる絞り制御回路206を備え、これらは夫々マウント接点117を介してカメラ筐体部1BのCPU3との間で信号の伝達を行う。
The
視線検出回路201は、眼用撮像素子17上で結像・出力された眼画像データをA/D変換し、この眼画像データをCPU3に送信する。CPU3は、眼画像データから視線検出に必要な眼画像の各特徴点を後述する所定のアルゴリズムに従って抽出し、更に抽出された各特徴点の位置から推定されたユーザの視線位置(第1の推定注視点位置)を算出する。
The line-of-sight detection circuit 201 A/D-converts the eye image data formed and output on the
測光回路202は、測光センサの役割も兼ねる撮像素子2から得られる信号を元に、被写界の明るさに対応した輝度信号出力を増幅後、対数圧縮、A/D変換し、被写界輝度情報として、CPU3に送る。
The
自動焦点検出回路203は、撮像素子2に含まれる、位相差検出の為に使用される複数の画素からの信号電圧をA/D変換し、CPU3に送る。CPU3は前記複数の画素からの信号電圧から、各焦点検出ポイントに対応する被写体までの距離を演算する。これは撮像面位相差AFとして知られる公知の技術である。本実施例では、図4に示すファインダ内視野像(視認用画像)で示すように、ファインダ10の撮像面上に180か所の焦点検出ポイントがある。
The autofocus detection circuit 203 A/D-converts signal voltages from a plurality of pixels included in the
信号入力回路204は、不図示のスイッチSW1,SW2と接続される。スイッチSW1は、レリーズボタン5(図2(a))の第一ストロークでONし、撮像装置1の測光、測距、視線検出動作等を開始するためスイッチである。スイッチSW2は、レリーズボタン5の第二ストロークでONし、レリーズ動作を開始するためのスイッチである。スイッチSW1,SW2からの信号が信号入力回路204に入力され、CPU3に送信される。
The
視線検出信頼度判別回路31(信頼度判別手段)は、CPU3によって算出された第1の推定注視点位置の信頼度を判別する。この判別は、後述するキャリブレーション時に取得した眼画像データと、撮影時に取得した眼画像データの2つの眼画像データの差異に基づき実行される。ここでの差異は、具体的には、上記2つの眼画像データの夫々から検出される、瞳孔径の大きさの違い、角膜反射像の数の違い、外光の入り込みの違いである。より具体的には、図5~図7で後述する視線検出方法により瞳孔端を算出するのだが、例えばこの瞳孔端の抽出数が閾値以上の場合に信頼度が高いと判別し、そうでない場合信頼度は低いと判別する。なぜなら瞳孔端をつなぎ合わせることでユーザの眼球14の瞳孔141(図5)として推定するため、抽出できる瞳孔端の個数が多いほど、推定精度があがるためである。またほかにも瞳孔端をつなぎ合わせて算出される瞳孔141が円に対してどれだけ歪んでいるかで信頼度を判別してもよい。またその他の手法として後述するキャリブレーション時にユーザに注視させた指標の付近では信頼度を高く、指標から離れるほど信頼度を低いものとして判別してもよい。視線検出回路201によって算出されたユーザの視線位置情報をCPU3に送信する際、視線検出信頼度判別回路31がその視線位置情報の信頼度をCPU3に送信する。
A line-of-sight detection reliability determination circuit 31 (reliability determination means) determines the reliability of the first estimated gaze point position calculated by the
通信回路32は、CPU3の制御に基づき、LANやインターネットといったネットワーク(不図示)を介して、サーバ上のPC(不図示)に対する通信を行う。
Under the control of the
また、前述した操作部材41~43は、CPU3にその操作信号が伝わる構成となっており、それに応じて後述する第1の推定注視点位置の手動操作による移動制御等が行われる。
Further, the
図4は、ファインダ内視野を示した図であり、ファインダ10が動作する状態(視認用画像を表示した状態)を示す。
FIG. 4 is a view showing the viewfinder's internal field of view, showing a state in which the
図4に示すように、ファインダ内視野には、視野マスク300、焦点検出領域400、180個の測距点指標4001~4180等がある。
As shown in FIG. 4, the viewfinder field includes a
測距点指標4001~4180の夫々は、ファインダ10の撮像面上における複数の焦点検出ポイントの一つと対応する位置に表示されるように、ファインダ10に表示されたスルー画像(ライブビュー画像)に重畳表示される。また、測距点指標4001~4180のうち、現在の第1の推定注視点位置である位置Aと一致する指標は、ファインダ10において強調表示される。
Each of the ranging
次に、図5~図7を用いて撮像装置1による視線検出方法について説明する。
Next, a line-of-sight detection method by the
図5は、視線検出方法の原理を説明するための図であり、視線検出を行うための光学系の概略図である。 FIG. 5 is a diagram for explaining the principle of the line-of-sight detection method, and is a schematic diagram of an optical system for performing line-of-sight detection.
図5において、光源13a,13bは、ユーザに対して不感の赤外光を放射する発光ダイオード等の光源であり、各光源は受光レンズ16の光軸に対して略対称に配置されユーザの眼球14を照らす。光源13a,13bから発せられて眼球14で反射した照明光の一部は受光レンズ16によって、眼用撮像素子17に集光する。
In FIG. 5, the
図6(a)は、眼用撮像素子17で撮像された眼画像(眼用撮像素子17に投影される眼画像)の概略図であり、図6(b)は眼用撮像素子17における光電素子列の出力強度を示す図である。 FIG. 6A is a schematic diagram of an eye image captured by the eye image sensor 17 (an eye image projected on the eye image sensor 17), and FIG. FIG. 4 is a diagram showing output intensity of an element array;
図7は、視線検出処理のフローチャートである。本処理はCPU3が、図3において不図示のROMに記録されるプログラムを読み出すことにより実行される。
FIG. 7 is a flowchart of line-of-sight detection processing. This process is executed by the
図7において、視線検出処理が開始すると、ステップS701において、CPU3は、光源13a、13bからユーザの眼球14に向けて赤外光を放射させる。赤外光によって照明されたユーザの眼画像は、受光レンズ16を通して眼用撮像素子17上に結像され、眼用撮像素子17により光電変換される。これにより、処理可能な眼画像の電気信号(眼画像データ)が得られる。
In FIG. 7, when the line-of-sight detection process starts, the
ステップS702において、CPU3は、上記のように眼用撮像素子17から得られた眼画像データを眼用撮像素子17から取得する。
In step S<b>702 , the
ステップS703では、CPU3は、ステップS702において得られた眼画像データから、光源13a,13bの角膜反射像Pd,Pe及び瞳孔中心cに対応する座標を検出する。
In step S703, the
光源13a、13bより発せられた赤外光は、ユーザの眼球14の角膜142を照明する。このとき、角膜142の表面で反射した赤外光の一部により形成される角膜反射像Pd,Peは、受光レンズ16により集光され、眼用撮像素子17上に結像して、角膜反射像Pd’,Pe’となる。同様に瞳孔141の端部a,bからの光束も眼用撮像素子17上に結像して、瞳孔端像a’,b’となる。
The infrared light emitted by the
図6(b)は、図6(a)の眼画像における領域αの輝度情報(輝度分布)を示す。図6(b)では、眼画像の水平方向をX軸、垂直方向をY軸とし、X軸方向の輝度分布が示されている。本実施例では、角膜反射像Pd’,Pe’のX軸方向(水平方向)の座標をXd,Xeとし、瞳孔端像a’,b’のX軸方向の座標をXa,Xbとする。図6(b)に示すように、角膜反射像Pd’,Pe’の座標Xd,Xeでは、極端に高いレベルの輝度が得られる。瞳孔141の領域(瞳孔141からの光束が眼用撮像素子17上に結像して得られる瞳孔像141’の領域)に相当する、座標Xaより大きく座標Xbより小さい範囲では、座標Xd,Xeを除いて、極端に低いレベルの輝度が得られる。これに対し、瞳孔141の外側の光彩143の領域(光彩143からの光束が結像して得られる、瞳孔像141’の外側の光彩像143’の領域)では、上記2種の輝度の中間の輝度が得られる。具体的には、X座標(X軸方向の座標)が座標Xaより小さい領域と、X座標が座標Xbより大きい領域とで、上記2種の輝度の中間の輝度が得られる。
FIG. 6(b) shows luminance information (luminance distribution) of the region α in the eye image of FIG. 6(a). In FIG. 6(b), the horizontal direction of the eye image is the X axis and the vertical direction is the Y axis, and the luminance distribution in the X axis direction is shown. In this embodiment, the X-axis (horizontal) coordinates of the corneal reflection images Pd' and Pe' are Xd and Xe, and the X-axis coordinates of the pupil edge images a' and b' are Xa and Xb. As shown in FIG. 6B, extremely high levels of brightness are obtained at the coordinates Xd and Xe of the corneal reflection images Pd' and Pe'. In a range larger than the coordinate Xa and smaller than the coordinate Xb, which corresponds to the area of the pupil 141 (the area of the pupil image 141' obtained by forming an image of the light flux from the
図6(b)に示すような輝度分布から、角膜反射像Pd’,Pe’のX座標Xd,Xeと、瞳孔端像a’,b’のX座標Xa,Xbを得ることができる。具体的には、輝度が極端に高い座標を角膜反射像Pd’,Pe’の座標として得ることができ、輝度が極端に低い座標を瞳孔端像a’,b’の座標として得ることができる。また、受光レンズ16の光軸に対する眼球14の光軸の回転角θxが小さい場合には、瞳孔中心cからの光束が眼用撮像素子17上に結像して得られる瞳孔中心像c’(瞳孔像141’の中心)の座標Xcは、Xc≒(Xa+Xb)/2と表すことができる。つまり、瞳孔端像a’,b’のX座標Xa,Xbから、瞳孔中心像c’のX座標Xcを算出できる。このようにして、角膜反射像Pd’,Pe’のX座標と、瞳孔中心像c’のX座標とを見積もることができる。
From the luminance distribution shown in FIG. 6B, the X coordinates Xd and Xe of the corneal reflection images Pd' and Pe' and the X coordinates Xa and Xb of the pupil edge images a' and b' can be obtained. Specifically, the coordinates with extremely high brightness can be obtained as the coordinates of the corneal reflection images Pd' and Pe', and the coordinates with extremely low brightness can be obtained as the coordinates of the pupil edge images a' and b'. . Further, when the rotation angle θx of the optical axis of the
図7に戻り、ステップS704では、CPU3は、眼球像の結像倍率βを算出する。結像倍率βは、受光レンズ16に対する眼球14の位置により決まる倍率で、角膜反射像Pd‘、Pe’の間隔(Xd-Xe)の関数として求めることができる。
Returning to FIG. 7, in step S704, the
ステップS705では、CPU3は、受光レンズ16の光軸に対する眼球14の光軸の
回転角を算出する。角膜反射像Pdと角膜反射像Peの中点のX座標と角膜142の曲率中心OのX座標とはほぼ一致する。このため、角膜142の曲率中心Oと瞳孔141の中心cまでの標準的な距離をOcとすると、Z-X平面(Y軸に垂直な平面)内の眼球14の回転角θXは、以下の式1で算出できる。Z-Y平面(X軸に垂直な平面)内での眼球14の回転角θyも、回転角θxの算出方法と同様の方法で算出できる。
In step S<b>705 ,
β×Oc×SINθX≒{(Xd+Xe)/2}-Xc・・・(式1)
ステップS706では、CPU3は、メモリ部4から補正係数(係数m、及び視線補正係数Ax,Bx,Ay,By)を取得する。係数mは撮像装置1のファインダ光学系(受光レンズ16等)の構成で定まる定数であり、回転角θx,θyを視認用画像において瞳孔中心cに対応する座標に変換する変換係数であり、予め決定されてメモリ部4に格納されている。また、視線補正係数Ax,Bx,Ay,Byは、眼球の個人差を補正するパラメータであり、後述するキャリブレーション作業を行うことで取得され、本処理が開始する前にメモリ部4に格納されている。
β×Oc×SINθ X ≈{(Xd+Xe)/2}−Xc (Formula 1)
In step S<b>706 , the
ステップS707では、CPU3は、視線検出回路201に指示し、ファインダ10に表示された視認用画像に注がれるユーザの視点の位置(第1の推定注視点位置)を算出させる。具体的には、視線検出回路201は、ステップS705で算出した眼球14の回転角θx,θy、及びステップS706で取得した補正係数データを用いて、第1の推定注視点位置を算出する。第1の推定注視点位置の座標(Hx,Hy)が瞳孔中心cに対応する座標であるとすると、第1の推定注視点位置の座標(Hx,Hy)は以下の式2,3で算出できる。
In step S<b>707 , the
Hx=m×(Ax×θx+Bx)・・・(式2)
Hy=m×(Ay×θy+By)・・・(式3)
ステップS708では、CPU3は、ステップS706で算出した第1の推定注視点位置の座標(Hx,Hy)をメモリ部4に格納して、本処理を終える。
Hx=m×(Ax×θx+Bx) (Formula 2)
Hy=m×(Ay×θy+By) (Formula 3)
In step S708, the
以上、本実施例の視線検出処理においては、眼球14の回転角θx,θy、及び後述するキャリブレーション作業等により予め取得している補正係数(係数m、及び視線補正係数Ax,Bx,Ay,By)を用いて、第1の推定注視点位置が算出された。
As described above, in the line-of-sight detection processing of this embodiment, the rotation angles θx and θy of the
しかし、人間の眼球の形状の個人差等の要因により、第1の推定注視点位置を高精度に推定できないことがある。具体的には、視線補正係数Ax,Ay,Bx,Byの値をユーザに適した値に調整しなければ、図4(b)に示したように、ユーザが実際に注視している位置BとステップS707で算出された第1の推定注視点位置である位置Cとのずれが生じてしまう。図4(b)では、ユーザは位置Bの人物を注視しているが、撮像装置1は、ユーザが第1の推定注視点位置である位置Cの背景を注視していると誤って推定しており、適切な焦点検出及び調整ができない状態に陥ってしまっている。
However, due to factors such as individual differences in the shape of human eyeballs, the first estimated gaze point position may not be estimated with high accuracy. Specifically, unless the values of the line-of-sight correction coefficients Ax, Ay, Bx, and By are adjusted to values suitable for the user, as shown in FIG. and position C, which is the first estimated gaze point position calculated in step S707. In FIG. 4B, the user is gazing at the person at position B, but the
そこで、CPU3(キャリブレーション手段)は、撮像装置1が撮像(焦点検出)を行う前に、キャリブレーション作業を行い、ユーザに適した視線補正係数Ax,Ay,Bx,Byを取得し、メモリ部4に格納する。
Therefore, the CPU 3 (calibration means) performs calibration work before the
従来より、キャリブレーション作業は、撮像前に図4(c)のような位置の異なる複数の指標D1~D5を視認用画像で強調表示し、ユーザにその指標を見てもらうことで行われている。そして、各視標の注視時に視線検出処理を行い、算出された複数の第1の推定注視点位置の座標と、各指標の座標とから、ユーザに適した視線補正係数Ax,Ay,Bx,Byを求める技術が、公知の技術として知られている。なお、ユーザの見るべき位置が示唆されれば、指標の表示でなくてもよく、輝度や色の変更で位置が強調されてもよい。 Conventionally, calibration work is performed by highlighting a plurality of indices D1 to D5 at different positions as shown in FIG. there is Then, line-of-sight detection processing is performed when gazing at each visual target, and line-of-sight correction coefficients Ax, Ay, Bx, A technique for obtaining By is known as a known technique. As long as the position to be viewed by the user is suggested, the position may be emphasized by changing the brightness or color instead of displaying the index.
しかしながら、先述したように撮影時とキャリブレーション時の条件の違いによっては、視線検出の精度が落ちてしまう。例えば外光の入り込みや、ファインダ10を覗くユーザの目の距離が撮影時とキャリブレーション時で異なる時などである。
However, as described above, the accuracy of line-of-sight detection is degraded depending on the difference in conditions at the time of photographing and at the time of calibration. For example, this is the case when external light enters, or when the distance of the user's eyes looking into the
図8は、視線検出信頼度判別回路31により信頼度が低いと判断される、キャリブレーション時及び撮影時の眼画像データの一例を示す図である。図8(a)はキャリブレーション時に視線検出回路201から取得した眼画像データの一例であり、図8(b)は撮影時に視線検出回路201から取得した眼画像データの一例である。ここでは、図8(b)において、キャリブレーション時よりも撮影時の方が接眼窓6からユーザの目の位置が離れてしまい、眼画像データから検出される目の大きさが小さくなった場合を示している。例えば、撮像装置1を光軸方向に対して水平にしてキャリブレーションを行った後、撮像装置1を光軸方向に対して下に向けて地面に咲いている花を撮影した場合などに、図8に示すような眼画像データが得られることがある。
FIG. 8 is a diagram showing an example of eye image data at the time of calibration and photographing, which is determined to have low reliability by the line-of-sight detection
このような場合、視線検出信頼度判別回路31から出力される第1の推定注視点位置の信頼度は低くなるため、本実施例ではCPU3は、ニューラルネットワーク、より具体的にはCNNを用いた推論器により第2の推定注視点位置を推定する。ここで、CNNとは、特に画像認識を行う際によく用いられる、畳み込みニューラルネットワーク(Convolutional Neural Network)の略である。
In such a case, the reliability of the first estimated gaze point position output from the line-of-sight detection
本実施例では、CPU3が、CNNを用いた推論器での演算を行う。CNNの基本的な構成について、図13および図14を用いて説明する。
In this embodiment, the
図13は、視線検出回路201からCPU3に出力された眼画像データから第2の推定注視点位置を推定するCNNの基本的な構成を示す。
FIG. 13 shows the basic configuration of a CNN for estimating the second estimated gazing point position from the eye image data output from the line-of-
処理の流れは、左端を入力とし、右方向に処理が進んでいく。CNNは、特徴検出層(S層)と特徴統合層(C層)と呼ばれる2つの層をひとつのセットとし、それが階層的に構成されている。 In the flow of processing, the left end is the input and the processing proceeds to the right. The CNN has a set of two layers called a feature detection layer (S layer) and a feature integration layer (C layer), which are hierarchically configured.
CNNでは、まずS層において前段階層で検出された特徴をもとに次の特徴を検出する。またS層において検出した特徴をC層で統合し、その階層における検出結果として次の階層に送る構成になっている。 In CNN, first, the following features are detected in the S layer based on the features detected in the previous layer. In addition, the features detected in the S layer are integrated in the C layer and sent to the next layer as the detection result in that layer.
S層は特徴検出細胞面からなり、特徴検出細胞面ごとに異なる特徴を検出する。また、C層は、特徴統合細胞面からなり、前段の特徴検出細胞面での検出結果をプーリングする。以下では、特に区別する必要がない場合、特徴検出細胞面および特徴統合細胞面を総称して特徴面と呼ぶ。本実施形態では、最終段階層である出力層ではC層は用いずS層のみで構成している。 The S layer consists of feature detection cell planes, and detects different features for each feature detection cell plane. Also, the C layer consists of a feature integration cell plane, and pools the detection results of the feature detection cell plane in the preceding stage. Hereinafter, the feature detection cell plane and the feature integration cell plane will be collectively referred to as feature planes when there is no particular need to distinguish them. In this embodiment, the output layer, which is the final stage layer, is composed only of the S layer without using the C layer.
特徴検出細胞面での特徴検出処理、および特徴統合細胞面での特徴統合処理の詳細について、図14を用いて説明する。特徴検出細胞面は、複数の特徴検出ニューロンにより構成され、特徴検出ニューロンは前段階層のC層に所定の構造で結合している。また特徴統合細胞面は、複数の特徴統合ニューロンにより構成され、特徴統合ニューロンは同階層のS層に所定の構造で結合している。図14中に示した、L階層目S層のM番目細胞面内において、位置(ξ,ζ)の特徴検出ニューロンの出力値をyM
LS(ξ,ζ)、L階層目C層のM番目細胞面内において、位置(ξ,ζ)の特徴統合ニューロンの出力値をyM
LC(ξ,ζ)と表記する。その時、それぞれのニューロンの結合係数をwM
LS(n,u,v)、wM
LC(u,v)とすると、各出力値は以下の式4,5のように表すことができる。
Details of feature detection processing in the feature detection cell plane and feature integration processing in the feature integration cell plane will be described with reference to FIG. The feature detection cell surface is composed of a plurality of feature detection neurons, and the feature detection neurons are connected to the C layer of the prestage layer in a predetermined structure. The feature-integrating cell surface is composed of a plurality of feature-integrating neurons, and the feature-integrating neurons are connected to the S-layer of the same layer in a predetermined structure. In the M - th cell plane of the L-th layer S layer shown in FIG. In the th cell plane, the output value of the feature integration neuron at the position (ξ, ζ) is expressed as y M LC (ξ, ζ). At that time, if the coupling coefficients of the neurons are w M LS (n, u, v) and w M LC (u, v), each output value can be expressed as in
式4のfは、活性化関数であり、ロジスティック関数や双曲正接関数などのシグモイド関数であれば何でもよい。式4のuM
LS(ξ,ζ)は、L階層目S層のM番目細胞面における、位置(ξ,ζ)の特徴検出ニューロンの内部状態である。一方、式5では活性化関数を用いず単純な線形和をとっているので、L階層目C層のM番目細胞面における、位置(ξ,ζ)の特徴統合ニューロンの内部状態である、uM
LC(ξ,ζ)は、式5で算出される出力値yM
LC(ξ,ζ)は等しい。また、式4のyn
L-1C(ξ+u,ζ+v)、式5のyM
LS(ξ+u,ζ+v)をそれぞれ特徴検出ニューロンの結合先出力値、特徴統合ニューロンの結合先出力値と呼ぶ。
f in
式4,5中のξ,ζ,u,v,nについて説明する。
ξ, ζ, u, v, and n in
位置(ξ,ζ)は、入力画像における位置座標に対応している。例えば式4で算出される出力値yM
LS(ξ,ζ)が高い出力値である場合は、入力画像の画素位置(ξ,ζ)に、L階層目S層M番目細胞面において検出する特徴が存在する可能性が高いことを意味する。
Position (ξ, ζ) corresponds to position coordinates in the input image. For example, when the output value y M LS (ξ, ζ) calculated by
またnは、式4において、L-1階層目C層n番目細胞面を意味しており、統合先特徴番号と呼ぶ。基本的にL-1階層目C層に存在する全ての細胞面についての積和演算を行う。
Also, n in
(u,v)は、結合係数の相対位置座標であり、検出する特徴のサイズに応じて有限の範囲(u,v)において積和演算を行う。このような有限な(u,v)の範囲を受容野と呼ぶ。また受容野の大きさを、以下では受容野サイズと呼び、結合している範囲の横画素数×縦画素数で表す。 (u, v) are the relative position coordinates of the coupling coefficient, and the sum-of-products operation is performed in a finite range (u, v) according to the size of the feature to be detected. Such a finite range of (u, v) is called a receptive field. The size of the receptive field is hereinafter referred to as the size of the receptive field, and is represented by the number of horizontal pixels×the number of vertical pixels in the combined range.
また式4において、L=1つまり一番初めのS層では、式4中のyn
L-1C(ξ+u,ζ+v)は、入力画像yin_image(ξ+u,ζ+v)となる。ちなみにニューロンや画素の分布は離散的であり、結合先特徴番号も離散的なので、ξ,ζ,u,v,nは連続な変数ではなく、離散的な値をとる。ここでは、ξ,ζは非負整数、nは自然数、u,vは整数とし、何れも有限な範囲となる。
Also, in
式4中のwM
LS(n,u,v)は、所定の特徴を検出するための結合係数分布であり、これを適切な値に調整することによって、所定の特徴を検出することが可能になる。この結合係数分布の調整が学習であり、CNNの構築においては、さまざまなテストパターンを提示して、式4で算出される出力値yM
LS(ξ,ζ)が適切な出力値になるように、結合係数を繰り返し徐々に修正していくことで結合係数の調整を行う。
w M LS (n, u, v) in
次に、式5中のwM
LC(u,v)は、2次元のガウシアン関数を用いており、以下の式6のように表すことができる。
Next, w M LC (u, v) in
ここでも、(u,v)は有限の範囲としてあるので、特徴検出ニューロンの説明と同様に、有限の範囲を受容野といい、範囲の大きさを受容野サイズと呼ぶ。この受容野サイズは、ここではL階層目S層のM番目特徴のサイズに応じて適当な値に設定すれば良い。式6中の、σは特徴サイズ因子であり、受容野サイズに応じて適当な定数に設定しておけば良い。具体的には、受容野の一番外側の値がほぼ0とみなせるような値になるように設定するのが良い。本実施例のCNNは、上述のような演算を各階層で行うことで、最終階層のS層において、第2の推定注視点位置を推定するよう構成される。
Again, since (u, v) has a finite range, the finite range is called the receptive field, and the size of the range is called the receptive field size, as in the description of the feature detection neuron. This receptive field size may be set to an appropriate value according to the size of the M-th feature of the L-th layer S layer. σ in
ここでファインダ10を覗くユーザの眼画像データを入力データとして、第2の推定注視点位置を推論結果として出力する推論器を作成する際に重要となってくるのが、正解データ(正解位置)をどのように定義するかとなる。視線検出信頼度判別回路31により算出された、第1の推定注視点位置の信頼度が高い場合は、正解位置を第1の推定注視点位置としてもよいが、そうでない場合に第1の推定注視点位置を正解位置としてしまうと、学習による正解率が上がらない。よって、本実施例では、第1の推定注視点位置の信頼度が低い場合は、撮像装置1から得られる他の情報を正解データとして収集する。
Correct data (correct position) is important when creating an inference device that outputs a second estimated gaze point position as an inference result using eye image data of the user looking through the
図9は、推論器を作成する際の学習に用いる正解データの収集処理のフローチャートである。本処理はCPU3が、図3において不図示のROMに記録されるプログラムを読み出すことにより実行される。
FIG. 9 is a flow chart of processing for collecting correct data used for learning when creating a reasoner. This process is executed by the
ステップS901において、CPU3は、ユーザがファインダ10を覗いているかどうかを監視する。これは例えば、視線検出回路201より出力される画像データが眼画像データであるか否かで判断することが可能である。尚、ユーザがファインダ10を覗いているかどうかが監視できる方法であれば特にこれに限るものではなく、接眼レンズ12の周囲に設けられる不図示の光センサを用いて、接眼レンズ12への接眼の有無を検知してもよい。ユーザがファインダ10を覗いていると判断した場合、ステップS902へと進む。
In step S901,
ステップS902において、CPU3は、視線検出回路201より出力される眼画像データから第1の推定注視点位置を算出すると共に、視線検出信頼度判別回路31より出力される信頼度を取得する。その後ステップS903へと進む。
In step S<b>902 , the
ステップS903において、CPU3は、視線検出信頼度判別回路31より出力された信頼度が高い場合には、ステップS904へと進む。また信頼度が低い場合には、ステップS905へと進む。
In step S903, when the reliability output from the line-of-sight detection
ステップS904において、CPU3は、第1の推定注視点位置を正解位置として収集した後、本処理を終了する。
In step S904,
ステップS905において、CPU3は、第1の推定注視点位置の付近に被写体があるかどうかを判別する。この判別では、被写体として人物を検出してもよいし、瞳を検出してもよい。この判別の結果、第1の推定注視点位置の付近に被写体が検出された場合、ステップS906へと進む一方、そうでない場合、ステップS907へと進む。
In step S905,
ステップS906において、CPU3(収集手段)は、第1の推定注視点位置の付近に被写体の座標を正解位置として収集した後、本処理を終了する。 In step S906, CPU 3 (collecting means) collects the coordinates of the subject near the first estimated gaze point position as the correct position, and then terminates this process.
ステップS907において、CPU3(表示制御手段)は、第1の推定注視点位置(以下本処理では、図4(b)の位置C)を第1のユーザ操作により他の位置(以下本処理では図4(b)の位置B)に移動可能にファインダ10に強調表示する。ここで第1のユーザ操作とは、操作部材41~43のいずれかを用いたユーザの手動操作をいう。その後、CPU3は、第1のユーザ操作によりファインダ10に強調表示されていた位置Cが位置Bに移動した後、撮像装置1で位置Bをフォーカス位置とした画像の撮影が行われたか(レリーズボタン5の押下(第2のユーザ操作)がされたか)否かを判別する。かかる撮影が行われた場合のみ、ステップS908へと進む。尚、第2のユーザ操作は、ユーザが選択したファインダ10上の他の位置をフォーカス位置に決定するユーザ操作であればよく、レリーズボタン5の押下以外のユーザ操作であってもよい。
In step S907, the CPU 3 (display control means) moves the first estimated gazing point position (hereinafter referred to as position C in FIG. 4B in this process) to another position (hereinafter referred to as 4(b), position B) is highlighted in the
ステップS908において、CPU3(収集手段)は、撮影画像のフォーカス位置(他の位置)の座標を正解位置として収集した後、本処理を終了する。 In step S908, the CPU 3 (collecting means) collects the coordinates of the focus position (other position) of the captured image as the correct position, and then terminates this process.
CPU3は、図9の処理で収集した眼画像データ(入力データ)及びその際の正解位置(正解データ)を、通信回路32を用いて、LANやインターネットといったネットワークを介して、不図示のサーバ上のPCに対して送信する。サーバ上のPCは、これらのデータを用いたCNNの機械学習を行い、学習結果として生成した「推論器」を撮像装置1に送信する。尚、撮像装置1が高性能のGPUを有し、そのGPU(またはCPU3との協働)により上記CNNの機械学習を行うようにしてもよい。
The
次に、サーバ上のPCでCNNの機械学習が行われ、生成された推論器の使い方に関して説明する。 Next, a description will be given of how to use an inference device generated by performing CNN machine learning on a PC on the server.
図10は、撮影時のフォーカス処理のフローチャートである。本処理はCPU3が、図3において不図示のROMに記録されるプログラムを読み出すことにより実行される。
FIG. 10 is a flowchart of focus processing during shooting. This process is executed by the
図10において、まず、CPU3は、ステップS901~S903の処理を行う。これらの処理は、図9の説明で前述しているため、重複した説明を割愛する。
In FIG. 10, the
ステップS903において、CPU3は、第1の推定注視点位置の信頼度が高い場合はステップS1004へと進み、信頼度が低い場合はステップS1005と進む。
In step S903,
ステップS1004において、CPU3(第1のフォーカス手段)は、第1の推定注視点位置がユーザの望むフォーカス位置であると判断し、第1の推定注視点位置に基づいてフォーカスを行う。この処理はCPU3の指示により、自動焦点検出回路203と焦点調節回路118を動作させることで実現される。具体的には、まず、自動焦点検出回路203が、第1の推定注視点位置と一致する焦点検出ポイントに対応する被写体までの距離を演算する。その後、焦点調節回路118が、この情報にもとづいてレンズ駆動用モーター113を所定量駆動させ、撮影レンズ1Aを合焦点位置に移動させる。その後、本処理を終了する。
In step S1004, CPU 3 (first focusing means) determines that the first estimated position of the point of gaze is the focus position desired by the user, and performs focusing based on the first estimated position of the point of gaze. This processing is realized by operating the automatic
ステップS1005において、CPU3が、サーバ上のPCから送信された推論器に、ステップS902で視線検出回路201より出力された眼画像データを入力し、第2の推定注視点位置を推定する。尚、本実施例では、CPU3が第2の推定注視点位置の推定を行っているが、これに限定されない。例えば、サーバ上のPCが第2の推定注視点位置の推定を行ってもよい。この場合、CPU3は、ステップS902で視線検出回路201より出力された眼画像データをサーバ上のPCに送信し、サーバ上のPCが推論器を用いて第2の推定注視点位置の推定を行い、推論結果を撮像装置1のCPU3に出力する。その後ステップS1006へと進む。
In step S1005, the
ステップS1006において、CPU3は、ステップS1005で推定された第2の推定注視点位置の信頼度が高いと判断した場合はステップS1007へと進む。信頼度が低いと判断した場合はステップS1008へと進む。尚、本実施例の推論器においては、180か所の焦点検出ポイントの夫々についてその尤度が算出される。よって、最も高い尤度が算出された焦点検出ポイントを第2の推定注視点位置とする。また最も高い尤度の値が閾値以上である場合、第2の推定注視点位置の信頼度が高いと判別される。
In step S1006, when
ステップS1007において、CPU3(第2のフォーカス手段)は、第2の推定注視点位置がユーザの望むフォーカス位置であると判断し、第2の推定注視点位置に基づいてフォーカスを行う。この処理はCPU3の指示により、自動焦点検出回路203と焦点調節回路118を動作させることで実現される。その後、本処理を終了する。
In step S1007, CPU 3 (second focus means) determines that the second estimated position of the point of interest is the focus position desired by the user, and performs focus based on the second estimated position of the point of interest. This processing is realized by operating the automatic
ステップS1008において、CPU3は、第1の推定注視点位置と第2の推定注視点位置のどちらの信頼度が高いかを判断する。第1の推定注視点位置の信頼度の方が高いと判断した場合はステップS1009へと進む一方、第2の推定注視点位置の信頼度の方がが高いと判断した場合はステップS1010へと進む。
In step S1008, the
ステップS1009において、CPU3は、第1の推定注視点位置の付近にユーザの望むフォーカス位置があると判断し、第1の推定注視点位置の付近の被写体検出を行い、検出された被写体をフォーカスポイントとしてフォーカスを行う。その後、本処理を終了する。
In step S1009, the
ステップS1010において、CPU3は、第2の推定注視点位置の付近にユーザの望むフォーカス位置があると判断し、第2の推定注視点位置の付近の被写体検出を行い、検出された被写体をフォーカスポイントとしてフォーカスを行う。その後、本処理を終了する。
In step S1010,
また、サーバ上のPCでのCNNの機械学習が進み、第1の推定注視点位置の信頼度が高い場合でも、推論器が推定する第2の推定注視点位置の信頼度がこれと同等以上となった場合は、撮影時のフォーカス処理を常に推論器を用いて行うようにしてもよい。具体的には図10のステップS902,S903,S1004,S1008,S1009が不要となり、ステップS901でYESの場合、直接ステップS1005に進み、ステップS1006でNOの場合、直接ステップS1010に進む。これにより、第2の推定注視点位置のみに基づいてフォーカス位置が決定される。 In addition, even if the machine learning of CNN on the PC on the server progresses and the reliability of the first estimated gaze point position is high, the reliability of the second estimated gaze point position estimated by the inference device is equal to or higher than this. In this case, the inference unit may always be used for focus processing during shooting. Specifically, steps S902, S903, S1004, S1008, and S1009 in FIG. 10 are not required, and if YES in step S901, the process proceeds directly to step S1005, and if NO in step S1006, the process proceeds directly to step S1010. Thereby, the focus position is determined based only on the second estimated gaze point position.
本実施例では、撮影時のファインダ10を覗くユーザの目の位置が、キャリブレーション時よりも接眼窓6から離れた場合を説明したが、これに限るものではない。すなわち、視線検出信頼度判別回路31により出力される信頼度が下がる種々の条件でフォーカス処理が行う場合において、本実施例は適用することが可能である。
In this embodiment, a case has been described in which the user's eyes looking through the
以上説明したように本実施例においては、学習時に撮像装置1の情報を用いて正解位置を定義することで、視線検出の精度が落ちているときにおいても有意な学習を行うことができる。その上で第1及び第2の推定注視点位置の信頼度に応じて、視線検出回路201と推論器を切り替えることにより、キャリブレーション時と差異があるような撮影状況においても、視線検出の精度を向上することができる。
As described above, in this embodiment, by defining the correct position using the information of the
(実施例2)
以下、図11、図12を参照して、本発明の実施例2による、様々な条件で視線検出の信頼度が低くなった場合における最適な学習時の入力データの収集方法について説明する。尚、本実施例において、実施例1と同一の構成については同一の付番を付し、重複した説明は省略する。
(Example 2)
11 and 12, a method of collecting input data during optimal learning when the reliability of line-of-sight detection is low under various conditions will be described according to the second embodiment of the present invention. In addition, in the present embodiment, the same numbers are assigned to the same configurations as in the first embodiment, and redundant explanations are omitted.
実施例1において説明したように、第1の推定注視点位置の信頼度の低下はキャリブレーション時と撮影時で、目の情報が異なる際に顕著に出てくる。ただこの要因はファインダ10を覗くユーザの目と接眼レンズ12との距離の違いや、光の入り込みの違いなど複数の要因が考えられる。そこで本実施例では、CPU3(信頼度低下要因判別手段)は、このような複数の信頼度低下の要因を判断し、各要因に応じた最適なニューラルネットワークの学習時の入力データを収集する。
As described in the first embodiment, the decrease in the reliability of the first estimated gaze point position becomes conspicuous when eye information differs between calibration and photographing. However, there are a number of possible factors for this, such as the difference in the distance between the user's eye looking through the
図11は、本実施例に係る、第1の推定注視点位置の信頼度低下要因の判定処理のフローチャートである。本処理はCPU3が、図3において不図示のROMに記録されるプログラムを読み出すことにより実行される。
FIG. 11 is a flowchart of the process of determining the reliability reduction factor of the first estimated gazing point position according to the present embodiment. This process is executed by the
図11において、まず、CPU3は、撮像装置1で撮影が行われると、ステップS901~S903の処理を行う。これらの処理は、図9の説明で前述しているため、重複した説明を割愛する。
In FIG. 11, first, when the
ステップS903において、CPU3は、第1の推定注視点位置の信頼度が低い場合、ステップS1101へと進み、信頼度が高い場合はそのまま本処理を終了する。
In step S903, if the reliability of the first estimated gazing point position is low, the
ステップS1101において、CPU3は、キャリブレーション時と目の大きさが異なるかどうか、すなわち、ファインダ10を覗くユーザの目と接眼レンズ12の距離の違いが発生して信頼度が低下したかどうかを判別する。接眼レンズ12とユーザの目との間の距離は、キャリブレーション時の目の大きさに対する現在の目の大きさの大小で算出可能である。例えば図5~図7で示すような視線検出方法によって瞳孔を検出する際、この算出された瞳孔径の大きさを目の大きさとして算出し、接眼レンズ12とユーザの目との間の距離がキャリブレーション時とどれだけ離れているかが推測可能である。尚、キャリブレーション時と目の大きさが違うかどうかが判別できる方法であれば特にこれに限るものではなく、接眼レンズ12の周囲に設けられる光センサを用いてキャリブレーション時と撮影時に接眼レンズ12とユーザの目との間の距離を算出してもよい。キャリブレーション時と同様と判断した場合は、ステップS1103へと進み、キャリブレーション時と異なると判断した場合は、ステップS1102へと進む。
In step S1101, the
ステップS1102において、CPU3は、信頼度低下要因として、ファインダ10と撮影者(ユーザの目)との間の距離が異なるという情報をメモリ部4に格納する。その後ステップS1103へと進む。
In step S1102, the
ステップS1103においては、CPU3は、輝度が所定以上であるかどうかを判別する。これは、眼用撮像素子17で取得した、ファインダ10を覗くユーザの眼画像データの輝度を確認することで判別可能である。輝度が所定以上である場合、外光の入り込みがあったと判断してステップS1104へと進む。輝度が所定未満である場合、外光の入り込みがなかったと判断して本処理を終了する。
In step S1103,
ステップS1104において、CPU3は、信頼度低下要因として、外光の入り込みがあるという情報をメモリ部4に格納する。また、後述する図12(c)の差分眼画像データを入力データとして生成する。その後本処理を終了する。
In step S1104, the
一般的に推論器による推論の精度を上げるには多量の入力データを用いた学習が必要となる。よって、入力データが少ない場合、元の入力データに変換を加えてデータ量を増やす水増しと呼ばれる手法がCNNではよく用いられる。この水増しの手法としては、ノイズを増やしたり、画像の拡大縮小をしたり、部分をマスクしたり、画像を反転したりといった様々な方法があるが、水増しの手法によっては推論器による推論の精度を悪くしてしまう可能性がある。これは学習時の水増しデータが、実際にはあり得ないデータや推論器により推論ができないデータ等の品質の悪いデータである場合があるためである。本実施例においては、図11の処理に従い信頼度が低下した要因を記憶しておくことで、取得した元の入力データに応じた適切な水増しを行うことが可能である。 In general, learning using a large amount of input data is necessary to improve the accuracy of inference by an inference machine. Therefore, when the amount of input data is small, CNN often uses a technique called padding, in which the original input data is transformed to increase the amount of data. There are various methods for this padding, such as increasing noise, scaling the image, masking parts, and inverting the image. can make things worse. This is because the padding data during learning may be data of poor quality such as data that cannot actually exist or data that cannot be inferred by an inference device. In this embodiment, it is possible to perform appropriate padding according to the acquired original input data by storing the factor of the decrease in reliability according to the process of FIG. 11 .
CPU3は、図9の処理で収集した眼画像データ及びその際の正解位置(正解データ)、並びに図11の処理で取得した信頼度低下要因を、通信回路32を用いて、LANやインターネットといったネットワークを介して、サーバ上のPCに対して送信する。サーバ上のPCは、これらのデータを用いたCNNの機械学習を行い、学習結果として生成した「推論器」を撮像装置1に送信する。
The
サーバ上のPCは、信頼度低下要因として、ファインダ10と撮影者との間の距離が異なるという情報を受け取った場合、撮像時の眼画像データ(元の入力データ)が撮像装置1から送信されると、これを拡大・縮小したデータを学習時の水増しデータとする。より具体的には、サーバ上のPCは、キャリブレーション時の眼画像データも撮像装置1から取得し、キャリブレーション時及び撮影時の夫々の眼画像データから瞳孔径の大きさを検出する。水増しデータから検出される瞳孔径の大きさが、これらの検出された瞳孔径の大きさの範囲内となるように元の入力データの拡大・縮小を行って水増しデータを作成する。このように水増しデータを作成することで、品質の悪い水増しデータの生成を抑制しつつ、最適な水増しを行うことができる。また、ユーザの瞳画像の一部分をマスクするなどの実際にはあり得ないデータが水増しデータとして生成されることをなくすことができる。
When the PC on the server receives the information that the distance between the
一方、外光の入り込みために信頼度が下がった場合、外光条件によって、眼用撮像素子17で撮影される眼画像の上部が白潰れすることもあれば、下部が白潰れすることもある。前者は、例えば日中の外での撮影において太陽光が入り込むために起こり、後者はスキー場の雪などの太陽光の反射から発生する。またそのほかにも撮像装置1の撮影姿勢によって接眼レンズ12の横から太陽光が入り込むこともある。すなわち、眼画像の白潰れが発生する部分は外光条件に応じて多岐にわたる。
On the other hand, if the reliability is lowered due to the entry of external light, depending on the external light conditions, the upper part of the eye image captured by the
このような白潰れが発生している眼画像データを入力データとして学習させても、外光条件が異なると、推論器による推論の精度はなかなか上がらない。そこで、本実施例では、このような場合、図12に示す方法で生成した差分眼画像データを入力データとして収集する。 Even if the eye image data in which such white saturation occurs is used as input data for learning, the accuracy of inference by the inference device does not easily improve if the external light conditions are different. Therefore, in this embodiment, in such a case, differential eye image data generated by the method shown in FIG. 12 is collected as input data.
図12(a)の眼画像データは、眼用撮像素子17から出力された眼画像データであって、その上部に外光1200が入り込んでいる。またこの撮像時においては、光源13a,13bが点灯しており、ユーザの角膜(眼球)には角膜反射像1201a~cが形成されている。
The eye image data of FIG. 12(a) is the eye image data output from the eye
図12(b)の眼画像データは、眼用撮像素子17で出力された眼画像データであって、図12(a)と同様に、その上部に外光1200が入り込んでいる。但し、この撮像時においては、光源13a,13bが消灯しており、ユーザの角膜(眼球)には角膜反射像1201a~cが形成されていない。図12(b)に示す眼画像は、光源13a,13bが消灯している分、図12(a)に示す眼画像よりも全体にやや暗く撮像される。
The eye image data in FIG. 12(b) is the eye image data output by the eye
図12(c)の差分眼画像データは、図12(a)から図12(b)の差分をとった差分データであり、眼画像の上部に入り込んでいた外光1200を取り除かれている。
The difference eye image data of FIG. 12(c) is difference data obtained by taking the difference between FIG. 12(a) and FIG. 12(b), and the
このように、サーバ上のPCは、信頼度低下要因が、外光の入り込みがあるという情報である場合、入力データとして、図12(a)のような角膜反射像が形成される眼画像データではなく、図12(c)のような差分眼画像データを受け取る。よって、外光の条件をある程度分離した学習が可能である。但し、図12(c)の差分眼画像データは、外光という強い光に対して差分がとられた画像であるため、瞳孔周りのエッジがぼやけ、視線検出の検出精度が悪化する。サーバ上のPCは、差分眼画像データ及びこれに基づき作成された水増しデータを用いてCNNの機械学習を行うことで、瞳孔周りのエッジぼけに対して優位な推論器を作成でき、外光条件が変わっても推論が可能となる。またこの場合、撮像装置1から送信された差分眼画像データの瞳孔境界の一部分をマスクしたデータや、その瞳孔周りのノイズを増やしたデータを作成し、学習時の水増しデータとする。
In this way, when the reliability lowering factor is the information that external light enters, the PC on the server receives as input data eye image data that forms a corneal reflection image as shown in FIG. Instead, it receives differential eye image data as shown in FIG. 12(c). Therefore, it is possible to perform learning in which the external light conditions are separated to some extent. However, since the difference eye image data of FIG. 12C is an image obtained by taking a difference with respect to strong external light, the edge around the pupil is blurred and the detection accuracy of sight line detection is deteriorated. The PC on the server performs CNN machine learning using the differential eye image data and the inflated data created based on it, so that it is possible to create a reasoner that is superior to the edge blur around the pupil. Inference is possible even if is changed. In this case, data obtained by masking a portion of the pupillary boundary of the differential eye image data transmitted from the
以上説明したように本実施例では、学習時の入力データの収集において、第1の推定注視点位置の信頼度が落ちている際、CPU3は、その信頼度の低下要因を示すフラグを入力データと併せてサーバ上のPCに送信する。これにより、サーバ上のPCは、入力データを元に適切な水増しデータを作成することができ、少ない学習回数で推論器の精度を向上させることができる。
As described above, in the present embodiment, when the reliability of the first estimated gazing point position is lowered in the collection of input data during learning, the
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。 Although preferred embodiments of the present invention have been described above, the present invention is not limited to these embodiments, and various modifications and changes are possible within the scope of the gist.
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実行可能である。
(Other embodiments)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (eg, an ASIC) that implements one or more functions.
1 撮像装置
3 CPU
10 ファインダ
13a~13b 光源
17 眼用撮像素子
31 視線検出信頼度判別回路
41~43 操作部材
118 焦点調節回路
201 視線検出回路
203 自動焦点検出回路
1
REFERENCE SIGNS
Claims (13)
前記ファインダを覗くユーザの眼球を撮像して眼画像データを生成する生成手段と、
前記眼画像データを取得し、前記取得した眼画像データに基づき前記ファインダの前記スルー画像に注がれるユーザの視線位置を検出する視線検出手段と、
前記検出された視線位置を、第1のユーザ操作により他の位置に移動可能に前記ファインダに表示する表示制御手段と、
前記他の位置をフォーカス位置に決定する第2のユーザ操作があった場合、前記他の位置を正解位置として収集する収集手段とを備え、
前記正解位置は、前記視線検出手段によって取得された前記眼画像データを入力データとし、前記視線位置を推定する推論器を作成するための学習に用いられることを特徴とする撮像装置。 An imaging device that displays a through image in an internal viewfinder,
generating means for generating eye image data by capturing an eyeball of the user looking through the viewfinder;
sight line detection means for obtaining the eye image data and detecting the position of the user's sight line focused on the through image of the viewfinder based on the obtained eye image data;
display control means for displaying the detected line-of-sight position on the finder so as to be movable to another position by a first user operation;
collecting means for collecting the other position as a correct position when there is a second user operation to determine the other position as the focus position;
The imaging apparatus, wherein the correct position is used for learning to create a reasoner for estimating the line-of-sight position using the eye image data acquired by the line-of-sight detection means as input data.
前記信頼度が高い場合、前記検出された視線位置を前記フォーカス位置として前記撮像装置のフォーカスを行う第1のフォーカス手段と、
前記信頼度が低い場合、前記推論器により推定された視線位置を前記フォーカス位置として前記撮像装置のフォーカスを行う第2のフォーカス手段とを更に備えることを特徴とする請求項1又は2記載の撮像装置。 Reliability determination means for determining reliability of the detected line-of-sight position;
when the reliability is high, a first focusing means for focusing the imaging device using the detected line-of-sight position as the focus position;
3. The imaging according to claim 1, further comprising second focusing means for focusing the imaging device using the line-of-sight position estimated by the inference unit as the focus position when the reliability is low. Device.
前記信頼度判別手段は、前記キャリブレーション手段によって取得された前記眼画像データ、及び前記視線検出手段によって取得された前記眼画像データの2つの眼画像データの差異に基づき前記信頼度を判別することを特徴とする請求項3記載の撮像装置。 a calibration means for obtaining the eye image data before the sight line position is detected by the sight line detection means, and correcting individual differences in eyeballs based on the obtained eye image data;
The reliability determination means determines the reliability based on a difference between two eye image data, the eye image data acquired by the calibration means and the eye image data acquired by the line-of-sight detection means. 4. The imaging apparatus according to claim 3, characterized by:
前記差異は、前記2つの眼画像データの夫々から検出される、前記光源の点灯により前記ユーザの眼球に形成された角膜反射像の数の違いであることを特徴とする請求項6記載の撮像装置。 further comprising a light source for illuminating the eye of the user;
7. The imaging according to claim 6, wherein the difference is a difference in the number of corneal reflection images formed on the eyeball of the user by lighting of the light source, which is detected from each of the two eye image data. Device.
前記学習の際、前記信頼度低下要因に対応した水増しデータが作成されることを特徴とする請求項8記載の撮像装置。 further comprising reliability reduction factor determination means for determining a reliability reduction factor when the reliability determination means determines that the reliability is low,
9. The image pickup apparatus according to claim 8, wherein padded data corresponding to said reliability lowering factor is created during said learning.
前記ファインダを覗くユーザの眼球を撮像して眼画像データを生成する生成ステップと、
前記眼画像データを取得し、前記取得した眼画像データに基づき前記ファインダの前記スルー画像に注がれるユーザの視線位置を検出する視線検出ステップと、
前記検出された視線位置を、第1のユーザ操作により他の位置に移動可能に前記ファインダに表示する表示制御ステップと、
前記他の位置をフォーカス位置に決定する第2のユーザ操作があった場合、前記他の位置を正解位置として収集する収集ステップとを有し、
前記正解位置は、前記視線検出ステップにおいて取得された前記眼画像データを入力データとし、前記視線位置を推定する推論器を作成するための学習に用いられることを特徴とする制御方法。 A control method for an imaging device that displays a through image in an internal finder, comprising:
a generation step of capturing an eyeball of a user looking through the finder and generating eye image data;
a line-of-sight detection step of acquiring the eye image data and detecting a position of the user's line of sight focused on the through image of the finder based on the acquired eye image data;
a display control step of displaying the detected line-of-sight position on the finder so as to be movable to another position by a first user operation;
a collecting step of collecting the other position as a correct position when there is a second user operation to determine the other position as the focus position;
The control method, wherein the correct position is used for learning for creating an inference device for estimating the line-of-sight position using the eye image data acquired in the line-of-sight detection step as input data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021070512A JP2022165239A (en) | 2021-04-19 | 2021-04-19 | Imaging apparatus and control method for the same, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021070512A JP2022165239A (en) | 2021-04-19 | 2021-04-19 | Imaging apparatus and control method for the same, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022165239A true JP2022165239A (en) | 2022-10-31 |
Family
ID=83845697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021070512A Pending JP2022165239A (en) | 2021-04-19 | 2021-04-19 | Imaging apparatus and control method for the same, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022165239A (en) |
-
2021
- 2021-04-19 JP JP2021070512A patent/JP2022165239A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5171468B2 (en) | IMAGING DEVICE AND IMAGING DEVICE CONTROL METHOD | |
JP7358530B2 (en) | Object recognition device and method of controlling the object recognition device | |
KR20140118608A (en) | Method for automatically setting focus and therefor | |
US20210243361A1 (en) | Image processing apparatus, image pickup apparatus, and control method of image processing apparatus | |
JP2024003037A (en) | Electronic apparatus, method for controlling electronic apparatus, program, and storage medium | |
JP2021032927A (en) | Image capturing device and control method therefor | |
US5694623A (en) | Line of sight detecting device, and equipment comprising the device | |
JP2020106552A (en) | Subject recognition device | |
JP2022165239A (en) | Imaging apparatus and control method for the same, and program | |
JP3256294B2 (en) | Eye gaze detection apparatus and eye gaze detection method | |
JP7358130B2 (en) | Electronic equipment and its control method | |
JP2024002562A (en) | identification device | |
JP2022171084A (en) | Imaging device, control method of the same and program | |
JP2023063760A (en) | identification device | |
US20240085979A1 (en) | Recording device, image-capturing apparatus, control method, and recording system | |
JP2024003432A (en) | Electronic device | |
US20230083725A1 (en) | Personal authentication apparatus, personal authentication method, and storage medium | |
US20230186520A1 (en) | Gaze detection apparatus | |
WO2022091664A1 (en) | Electronic apparatus and control method therefor | |
JP2023063023A (en) | Electronic device and control method for the same | |
JP2022183552A (en) | Visual line information acquisition device, imaging device, visual line information acquisition method, program, and storage medium | |
JP2023006629A (en) | Control device and control method | |
JP2023083695A (en) | Electronic apparatus | |
JP2023045131A (en) | Detection device, control method and program | |
CN114650350A (en) | Gaze detection apparatus, gaze detection method, and computer-readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240416 |