JP2023125652A - Pupil detection device and pupil detection method - Google Patents
Pupil detection device and pupil detection method Download PDFInfo
- Publication number
- JP2023125652A JP2023125652A JP2022029876A JP2022029876A JP2023125652A JP 2023125652 A JP2023125652 A JP 2023125652A JP 2022029876 A JP2022029876 A JP 2022029876A JP 2022029876 A JP2022029876 A JP 2022029876A JP 2023125652 A JP2023125652 A JP 2023125652A
- Authority
- JP
- Japan
- Prior art keywords
- pupil
- image
- subject
- face
- face image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000001747 pupil Anatomy 0.000 title claims abstract description 382
- 238000001514 detection method Methods 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000003384 imaging method Methods 0.000 claims abstract description 4
- 238000010801 machine learning Methods 0.000 claims description 52
- 230000001815 facial effect Effects 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 90
- 230000004399 eye closure Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 23
- 210000000720 eyelash Anatomy 0.000 description 21
- 230000000007 visual effect Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000004397 blinking Effects 0.000 description 5
- 210000003128 head Anatomy 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000001678 irradiating effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、対象者の画像から瞳孔の位置を検出する瞳孔検出装置および瞳孔検出方法に関する。 The present invention relates to a pupil detection device and a pupil detection method for detecting the position of a pupil from an image of a subject.
従来から、対象者の目を含む顔の画像を取得して、その画像を基に対象者の瞳孔の位置を検出する装置が用いられている(例えば、下記特許文献1参照。)。この装置は、瞳孔が明るく写った明瞳孔画像と瞳孔が暗く写った暗瞳孔画像との差分により求まる差分画像を基に瞳孔の位置を検出している。その際、演算効率及び演算精度を高めるために、前のフレームの画像上で検出された瞳孔の位置から次のフレームの画像上において瞳孔の位置と予測される部分にウィンドウを設定し、そのウィンドウ内で瞳孔を探索している。
BACKGROUND ART Conventionally, devices have been used that acquire an image of a subject's face including the eyes and detect the position of the subject's pupils based on the image (for example, see
上述した特許文献1に記載の装置では、対象者が瞬き等によって目を閉じた(以下、「閉眼した」ともいう。)場合に、画像上に設定するウィンドウの位置が現実の瞳孔の位置から外れてしまい、瞳孔の検出ができなくなる傾向にあった。ウィンドウを大きく設定すればそのような事態を回避できるが演算効率が低下する。
In the device described in
本発明は、上記課題に鑑みて為されたものであり、演算効率及び検出精度を高めることが可能な瞳孔検出装置及び瞳孔検出方法を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a pupil detection device and a pupil detection method that can improve calculation efficiency and detection accuracy.
上記課題を解決するため、本発明の一形態にかかる瞳孔検出装置は、対象者の顔を撮像することにより顔画像を連続したタイミングで取得するカメラと、対象者の顔に向けて光を照射する光源と、光の照射タイミングでカメラによって取得された顔画像を処理する演算装置とを備え、演算装置は、顔画像上で対象者の瞳孔の位置を検出する瞳孔位置検出部と、顔画像上で閉眼状態における顔の特徴部の位置を探索することにより、対象者の閉眼中の瞳孔の位置を予測する瞳孔位置予測部と、を有し、瞳孔位置検出部は、瞳孔位置予測部によって予測された瞳孔の位置を利用して瞳孔を追尾することにより、瞳孔の位置を検出する。 In order to solve the above problems, a pupil detection device according to one embodiment of the present invention includes a camera that acquires facial images at consecutive timings by capturing an image of a target person's face, and a camera that irradiates light toward the target person's face. The computing device includes a pupil position detection unit that detects the position of the subject's pupil on the facial image, and a computing device that processes the facial image acquired by the camera at the timing of light irradiation. and a pupil position prediction unit that predicts the position of the pupil of the subject when the eyes are closed by searching for the position of the facial features in the eye closed state, and the pupil position detection unit predicts the position of the pupil of the subject when the eyes are closed. The position of the pupil is detected by tracking the pupil using the predicted pupil position.
また、本発明の他の形態にかかる瞳孔検出方法は、対象者の顔を撮像することにより顔画像を連続したタイミングで取得するカメラと、対象者の顔に向けて光を照射する光源と、光の照射タイミングでカメラによって取得された顔画像を処理する演算装置とを用いた瞳孔検出方法であって、演算装置が、顔画像上で対象者の瞳孔の位置を検出する瞳孔位置検出ステップと、演算装置が、顔画像上で閉眼状態における顔の特徴部の位置を探索することにより、対象者の閉眼中の瞳孔の位置を予測する瞳孔位置予測ステップと、を有し、瞳孔位置検出ステップでは、瞳孔位置予測ステップによって予測された瞳孔の位置を利用して瞳孔を追尾することにより、瞳孔の位置を検出する。 Further, a pupil detection method according to another aspect of the present invention includes: a camera that captures facial images of a target person at consecutive timings by imaging the target person's face; a light source that irradiates light toward the target person's face; A pupil detection method using a computing device that processes a face image acquired by a camera at the timing of light irradiation, the computing device detecting a pupil position of a subject on the face image; , a pupil position prediction step in which the arithmetic device predicts the position of the subject's pupil when the subject's eyes are closed by searching for the position of facial features in the eye closed state on the face image, and a pupil position detection step Then, the pupil position is detected by tracking the pupil using the pupil position predicted in the pupil position prediction step.
上記一形態の瞳孔検出装置、あるいは、上記他の形態の瞳孔検出方法によれば、カメラによって連続したタイミングで取得された顔画像上で瞳孔の位置が検出され、その顔画像から閉眼状態における顔の特徴部の位置が探索されることにより、その顔画像上において閉眼中の瞳孔の位置が予測される。そして瞳孔の位置の検出の際には、顔画像上で予測された瞳孔の位置を利用して瞳孔が追尾される。これにより、対象者が閉眼した場合であっても瞳孔を追尾することによって瞳孔の位置を検出でき、高い演算効率で、高精度の瞳孔検出処理が実現できる。 According to the pupil detection device of one form described above or the pupil detection method of another form described above, the position of the pupil is detected on face images acquired at consecutive timings by a camera, and the position of the pupil is detected from the face image in a state where the eyes are closed. By searching the position of the characteristic part of the face, the position of the pupil when the eyes are closed can be predicted on the face image. When detecting the position of the pupil, the pupil is tracked using the position of the pupil predicted on the face image. Thereby, even when the subject's eyes are closed, the position of the pupil can be detected by tracking the pupil, and highly accurate pupil detection processing can be achieved with high computational efficiency.
ここで、顔の特徴部は、対象者の目の特徴部であってよい。この場合、顔画像における目の特徴部の位置を探索してその位置から瞳孔の位置が予測されることにより、瞳孔の位置の予測精度を高めることができ、より高精度の瞳孔検出処理が実現される。 Here, the facial feature may be a feature of the subject's eyes. In this case, by searching for the position of the eye feature in the face image and predicting the pupil position from that position, it is possible to improve the prediction accuracy of the pupil position and achieve more accurate pupil detection processing. be done.
また、瞳孔位置予測部は、ニューラルネットワークを用いた機械学習モデルにより瞳孔の位置を予測する、こととしてもよい。この場合、顔画像上の瞳孔の位置の予測精度を簡易な学習手法によって確実に高めることができ、安定した瞳孔検出処理が実現される。 Furthermore, the pupil position prediction unit may predict the position of the pupil using a machine learning model using a neural network. In this case, the accuracy of predicting the position of the pupil on the face image can be reliably improved by a simple learning method, and stable pupil detection processing can be achieved.
また、瞳孔位置予測部は、顔画像を切り出した部分画像を入力データとして機械学習モデルに入力し、機械学習モデルを用いて、顔の特徴部が含まれる部分画像の位置を探索することにより、瞳孔の位置を予測する、こととしてもよい。この場合、顔画像を切り出した部分画像を入力データとして用いることにより、簡易な処理によって顔画像上の瞳孔の位置を予測することができる。その結果、瞳孔検出処理の演算効率をより高めることができる。 In addition, the pupil position prediction unit inputs a partial image extracted from the facial image as input data to a machine learning model, and uses the machine learning model to search for the position of the partial image containing the facial features. It can also be used to predict the position of the pupil. In this case, by using a partial image cut out from the face image as input data, the position of the pupil on the face image can be predicted through simple processing. As a result, the calculation efficiency of the pupil detection process can be further improved.
また、瞳孔位置予測部は、部分画像を顔の特徴部の全体を含むサイズで切り出す、こととしてもよい。この場合、顔画像を切り出した部分画像に顔の特徴部の全体を収めることができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。 Furthermore, the pupil position prediction unit may cut out the partial image in a size that includes the entire facial feature. In this case, the entire feature of the face can be contained in a partial image cut out from the face image, and the accuracy of predicting the position of the pupil can be improved. As a result, more stable pupil detection processing is realized.
また、演算装置は、機械学習モデルを学習させるモデル学習部をさらに有し、モデル学習部は、対象者の閉眼時に取得された顔画像を、対象者の閉眼直前に瞳孔位置検出部によって検出された瞳孔の位置を基準に切り出し、切り出した顔画像をトレーニングデータとして用いて、機械学習モデルを学習させる、こととしてもよい。こうすれば、適切なトレーニングデータを作成することができ、そのトレーニングデータを用いて学習させることにより瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。 The arithmetic device further includes a model learning unit that learns a machine learning model, and the model learning unit stores a face image obtained when the subject's eyes are closed, which is detected by the pupil position detection unit immediately before the subject's eyes are closed. It is also possible to cut out the face image based on the position of the pupil and use the cut out face image as training data to train the machine learning model. In this way, it is possible to create appropriate training data, and by performing learning using the training data, it is possible to improve the prediction accuracy of the pupil position. As a result, more stable pupil detection processing is realized.
また、演算装置は、カメラから瞳孔までの距離を検出する瞳孔距離検出部をさらに有し、瞳孔位置予測部は、入力データとしての部分画像の切り出しのサイズを、瞳孔の距離に応じて可変に設定する、こととしてもよい。この場合には、入力データとして用いる部分画像のサイズを適切に設定することができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。 The arithmetic device further includes a pupil distance detection unit that detects the distance from the camera to the pupil, and the pupil position prediction unit changes the size of the cutout of the partial image as input data according to the distance of the pupil. It can also be used to set. In this case, the size of the partial image used as input data can be appropriately set, and the accuracy of predicting the pupil position can be improved. As a result, more stable pupil detection processing is realized.
また、演算装置は、カメラから瞳孔までの距離を検出する瞳孔距離検出部をさらに有し、モデル学習部は、トレーニングデータとしての顔画像の切り出しのサイズを、瞳孔の距離に応じて可変に設定する、こととしてもよい。こうすれば、トレーニングデータとして用いる顔画像の切り出しのサイズを適切に設定することができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。 The computing device further includes a pupil distance detection unit that detects the distance from the camera to the pupil, and the model learning unit variably sets the size of the cutout of the face image as training data according to the distance of the pupil. It can also be said to do. In this way, the size of the cutout of the face image used as training data can be appropriately set, and the accuracy of predicting the position of the pupil can be improved. As a result, more stable pupil detection processing is realized.
また、モデル学習部は、切り出した顔画像の中から顔の特徴部の存在する領域を特定し、特定した領域を基にトレーニングデータとしての顔画像の切り出しのサイズを設定する、こととしてもよい。こうすれば、トレーニングデータとして用いる顔画像の切り出しのサイズを顔の特徴部の領域に応じて適切に設定することができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。 Furthermore, the model learning unit may identify a region in which facial features exist from the extracted facial image, and set the size of the facial image to be extracted as training data based on the identified region. . In this way, the size of the cutout of the face image used as training data can be appropriately set according to the region of the facial feature, and the accuracy of predicting the position of the pupil can be improved. As a result, more stable pupil detection processing is realized.
また、モデル学習部は、切り出した顔画像の中から顔の特徴部の存在する領域を特定し、特定した領域が画像の中央に位置するようにトレーニングデータとしての顔画像の切り出しの位置を設定する、こととしてもよい。こうすれば、トレーニングデータとして用いる顔画像の切り出しの位置を顔の特徴部の領域に応じて適切に設定することができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。 In addition, the model learning unit identifies regions in which facial features are present in the extracted facial images, and sets the location for cropping the facial images as training data so that the identified regions are located in the center of the image. It can also be said to do. In this way, the position of cutting out the face image used as training data can be appropriately set according to the region of the facial feature, and the accuracy of predicting the position of the pupil can be improved. As a result, more stable pupil detection processing is realized.
また、機械学習モデルは、対象者の閉眼直前に瞳孔位置検出部によって検出された瞳孔の位置を基準に切り出した顔画像に対する、顔の特徴部が含まれる部分画像の位置のずれ量を予測するモデルであり、モデル学習部は、切り出した顔画像をずらしながらシフト画像を生成し、シフト画像と当該シフト画像のずれ量とをトレーニングデータとして用いて、学習モデルを学習させる、こととしてもよい。この場合には、入力データとして用いる複数の部分画像間の顔画像上におけるずれ量の大きさに関わらず、顔画像上の瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。 In addition, the machine learning model predicts the amount of shift in the position of a partial image containing facial features with respect to a face image extracted based on the position of the pupil detected by the pupil position detection unit just before the subject's eyes are closed. The model learning unit may generate a shifted image while shifting the extracted face image, and use the shifted image and the amount of shift of the shifted image as training data to learn the learning model. In this case, the accuracy of predicting the position of the pupil on the face image can be improved regardless of the amount of deviation on the face image between the plurality of partial images used as input data. As a result, more stable pupil detection processing is realized.
また、瞳孔位置検出部は、対象者が閉眼した後に再度開眼した際に、対象者の閉眼したタイミングで瞳孔位置予測部によって予測された瞳孔の位置を基に顔画像上のウィンドウを設定することにより、瞳孔の位置を検出する、こととしてもよい。従来では、閉眼状態の後に開眼状態になった後は、数フレームの画像の間では瞳孔を検出できない状態になる傾向にあった。このような構成によれば、開眼した直後のフレームから、遅れなく、安定して瞳孔検出を再開することができる。 Furthermore, when the subject closes their eyes and then opens them again, the pupil position detection unit sets a window on the face image based on the pupil position predicted by the pupil position prediction unit at the timing when the subject closes their eyes. The position of the pupil may be detected by this method. Conventionally, after the eyes are closed and then opened, the pupils tend to be undetectable for several frames of images. According to such a configuration, pupil detection can be stably resumed without delay from the frame immediately after the eye is opened.
また、瞳孔位置検出部は、連続したフレームの顔画像上で検出された瞳孔の位置を用いて瞳孔の位置を追尾することにより、瞳孔の位置を検出し、直前のフレームの顔画像上で瞳孔の位置の検出が失敗した場合、瞳孔位置予測部によって予測された瞳孔の位置を利用して瞳孔の位置を追尾する、こととしてもよい。かかる構成によれば、連続して瞳孔の位置を検出する際に対象者が瞬き等により閉眼して画像上に瞳孔の像が現れなくなっても安定して瞳孔の位置を追尾することができ、対象者が開眼して画像上に再度瞳孔の像が現れた際に安定して瞳孔の位置を検出することができる。 In addition, the pupil position detection unit detects the pupil position by tracking the pupil position using the pupil position detected on the face image of consecutive frames, and detects the pupil position on the face image of the immediately previous frame. If the detection of the position of the pupil fails, the pupil position may be tracked using the pupil position predicted by the pupil position prediction unit. According to this configuration, when continuously detecting the position of the pupil, even if the subject closes his eyes due to blinking or the like and the image of the pupil no longer appears on the image, the position of the pupil can be stably tracked; When the subject opens his or her eyes and the image of the pupil appears on the image again, the position of the pupil can be stably detected.
本発明によれば、簡易な装置構成により瞳孔検出処理の演算効率及び検出精度を高めることができる。 According to the present invention, the calculation efficiency and detection accuracy of pupil detection processing can be improved with a simple device configuration.
以下、図面を参照しつつ本発明に係る瞳孔検出装置及び瞳孔検出方法の好適な実施形態について詳細に説明する。なお、図面の説明においては、同一又は相当部分には同一符号を付し、重複する説明を省略する。 Hereinafter, preferred embodiments of a pupil detection device and a pupil detection method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same or corresponding parts are denoted by the same reference numerals, and redundant description will be omitted.
[視線検出装置の構成]
まず、図1~4を用いて、実施形態に係る瞳孔検出装置である視線検出装置1の構成を説明する。視線検出装置1は、対象者の顔を撮像することで対象者の瞳孔及び角膜反射を検出し、その検出結果を利用して対象者の視線方向を検出するコンピュータシステムであり、この装置により、本実施形態に係る瞳孔検出方法が実施される。対象者とは、視線方向を検出する対象となる人であり、被験者ともいうことができる。視線検出装置1および瞳孔検出方法の利用目的は何ら限定されず、例えば、よそ見運転の検出、運転者のサイドミラーやルームミラーの安全確認動作の確認、運転者の眠気の検出、商品の興味の度合いの調査、アミューズメント装置等に利用されるコンピュータへのデータ入力、乳幼児の自閉症診断等の診断用装置、遠隔地間で利用されるコミュニケーションシステム、遠隔で事象を観察する観察装置などに視線検出装置1を利用することができる。
[Configuration of line of sight detection device]
First, the configuration of a line of
図1に模式的に示すように、視線検出装置1は、ステレオカメラとして機能する一対のカメラ10と画像処理装置(演算装置)20とを備える。以下では、必要に応じて、一対のカメラ10を、対象者Aの左側にある左カメラ10Lと、対象者Aの右側にある右カメラ10Rとに区別する。本実施形態では、視線検出装置1は、対象者Aが見る対象であるディスプレイ装置30をさらに備えるが、視線検出装置1の利用目的は上記のように限定されないので、対象者Aの視線の先にある物はディスプレイ装置30に限定されず、例えば自動車のフロントガラスでもあり得る。したがって、ディスプレイ装置30は視線検出装置1における必須の要素ではない。それぞれのカメラ10は画像処理装置20と無線または有線により接続され、カメラ10と画像処理装置20との間で各種のデータまたは命令が送受信される。各カメラ10に対しては予めカメラ較正が行われる。
As schematically shown in FIG. 1, the line of
カメラ10は、対象者Aの左右の目を含む顔部分を撮影して顔画像を取得する。一対のカメラ10は水平方向に沿って所定の間隔をおいて配され、かつ、対象者Aが眼鏡をかけているときの顔画像における反射光の写り込みを防止する目的で対象者Aの顔より低い位置に設けられる。水平方向に対するカメラ10の仰角は、瞳孔の確実な検出と対象者Aの視野範囲の妨げの回避との双方を考慮して、例えば20~35度の範囲に設定される。個々のカメラ10に対しては予めカメラ較正が行われる。
The
本実施形態では、カメラ10は、連続した定期的なタイミングで複数のフレームの顔画像を取得可能なカメラである。カメラ10は、画像処理装置20からの命令に応じて対象者Aを撮像し、顔画像を画像処理装置20に出力する。
In this embodiment, the
カメラ10のレンズ部分を図2に模式的に示す。この図に示すように、カメラ10では、対物レンズ11が円形状の開口部12に収容され、開口部12の外側に光源13が取り付けられている。光源13は、対象者Aの顔に向けて照明光を照射するための機器であり、複数の発光素子13aと複数の発光素子13bとから成る。発光素子13aは、出力光の中心波長が850nmの半導体発光素子(LED)であり、開口部12の縁に沿って等間隔でリング状に配される。発光素子13bは、出力光の中心波長が940nmの半導体発光素子であり、発光素子13aの外側に等間隔でリング状に配される。したがって、カメラ10の光軸から発光素子13bまでの距離は、該光軸から発光素子13aまでの距離よりも大きい。それぞれの発光素子13a,13bは、カメラ10の光軸に沿って照明光を出射するように設けられる。なお、光源13の配置は図2に示す構成に限定されず、カメラをピンホールモデルとみなすことができれば他の配置であってもよい。光源13は、画像処理装置20からの命令に応じたタイミングで照明光を出射する。
The lens portion of the
画像処理装置20は、カメラ10、及び光源13の制御と、対象者Aの顔画像を用いた視線方向の検出とを実行するコンピュータ(演算装置)である。画像処理装置20は、据置型または携帯型のパーソナルコンピュータ(PC)により構築されてもよいし、ワークステーションにより構築されてもよいし、他の種類のコンピュータにより構築されてもよい。あるいは、画像処理装置20は複数台の任意の種類のコンピュータを組み合わせて構築されてもよい。複数台のコンピュータを用いる場合には、これらのコンピュータはインターネットやイントラネットなどの通信ネットワークを介して接続される。
The
画像処理装置20の一般的なハードウェア構成を図3に示す。画像処理装置20は、オペレーティングシステムまたはアプリケーションプログラムなどを実行するCPU(プロセッサ)101と、ROMおよびRAMで構成される主記憶部102と、ハードディスクあるいはフラッシュメモリなどで構成される補助記憶部103と、ネットワークカードあるいは無線通信モジュールで構成される通信制御部104と、キーボードやマウスなどの入力装置105と、ディスプレイあるいはプリンタなどの出力装置106とを備える。
FIG. 3 shows a general hardware configuration of the
後述する画像処理装置20の各機能要素は、CPU101または主記憶部102の上に所定のソフトウェアを読み込ませ、CPU101の制御の下で通信制御部104、入力装置105、又は出力装置106などを動作させ、主記憶部102または補助記憶部103におけるデータの読み出しおよび書き込みを行うことで実現される。処理に必要なデータあるいはデータベースは主記憶部102または補助記憶部103内に格納される。
Each functional element of the
図4に示すように、画像処理装置20は機能的構成要素として点灯制御部21、画像取得部22、視線検出部(瞳孔位置検出部、瞳孔距離検出部)23、部分画像作成部24、瞳孔位置予測部25、学習用画像作成部26、及びモデル学習部27を備える。点灯制御部21は、光源13の点灯タイミングを制御する。画像取得部22は、カメラ10の撮影タイミングに光源13の点灯タイミングを同期させるように制御することで、カメラ10から点灯タイミングでの顔画像のデータを取得する機能要素である。視線検出部23は、顔画像から得られる視線ベクトルに基づいて視軸(視線ともいう)の方向を検出する機能要素である。視軸(視線)とは、対象者の瞳孔中心と該対象者の注視点(対象者が見ている点)とを結ぶ線である。なお、「視軸」という用語は、起点、終点、および方向の意味(概念)を含む。また、「視線ベクトル」とは、対象者の視軸の方向をベクトルで表したもので、「視軸の方向」を表す一形態である。画像処理装置20の検出結果の視軸の方向の出力先は何ら限定されない。例えば、画像処理装置20は判定結果を画像、図形、またはテキストでモニタに表示してもよいし、メモリあるいはデータベースなどの記憶装置に格納してもよいし、通信ネットワーク経由で他のコンピュータシステムに送信してもよい。
As shown in FIG. 4, the
ここで、画像処理装置20による視線検出の基本動作について説明する。
Here, the basic operation of visual line detection by the
まず、点灯制御部21が、光源13に含まれる発光素子13a及び発光素子13bがカメラ10の撮影タイミングに同期させて交互に点灯するようにそれらの点灯タイミングを制御し、その交互の点灯タイミングに合わせて画像取得部22が、それぞれのカメラ10から、瞳孔が比較的明るく写った明瞳孔画像(顔画像)および瞳孔が比較的暗く写った暗瞳孔画像(顔画像)を取得する。続いて、視線検出部23が、それぞれのカメラ10からの明瞳孔画像及び暗瞳孔画像の差分画像(あるいは除算画像)を対象にして、それぞれのカメラ10の顔画像中の瞳孔中心の位置及び角膜反射の位置を検出する。そして、視線検出部23は、2つのカメラ10の顔画像から検出された瞳孔中心の位置を用いてステレオ法によって計算することによって、対象者Aの左右の瞳孔中心の3次元座標、及びそれぞれのカメラ10から左右の瞳孔までの距離を取得する。さらに、視線検出部23は、算出したいずれかのカメラ10の顔画像における瞳孔中心及び角膜反射の位置、及び左右の瞳孔の3次元座標を基に、左右の目の視軸(視線ベクトル)を算出する。さらに、視線検出部23は、算出した視軸を参照して所定の視対称平面上の注視点を算出してもよい。以上の処理は、交互に得られる明瞳孔画像及び暗瞳孔画像のペアを対象に繰り返し実行される。
First, the
ここで、視線検出部23による明瞳孔画像及び暗瞳孔画像を対象にした、瞳孔中心の位置及び角膜反射の位置の検出は、明瞳孔画像及び暗瞳孔画像中に設定された所定の大きさのウィンドウの範囲内の画像を対象に実行される。このウィンドウの位置は、検出対象の顔画像の前のフレームで検出された瞳孔の3次元位置を少なくとも用いて予測された現フレーム上の瞳孔の位置を基に、その瞳孔の位置を含むように設定される(例えば、特開2007-268026号公報に記載の手法を採用する。)。すなわち、ウィンドウの位置は、連続したフレーム間で瞳孔の位置を追尾するように設定される。ただし、前のフレームの顔画像を対象として視線検出部23によって瞳孔中心の位置の検出に失敗した場合には、後述する瞳孔位置予測部25によって予測される瞳孔の3次元位置を利用して、現フレームの顔画像上のウィンドウの位置が設定される。ここで、視線検出部23による瞳孔中心の位置の検出の失敗の判断(瞬きなどによる閉眼の判断)は、明瞳孔画像及び暗瞳孔画像の差分画像(あるいは除算画像)上で検出された瞳孔の面積(例えば、閾値を用いた二値化画像の瞳孔領域の画素数)がゼロに近くなって瞳孔が存在しないと認識することにより行われる。一般的に、瞬きなどによる閉眼は瞬時にして起こるため、あるフレームで突然に瞳孔が検出できなくなる。したがって、閉眼直前と閉眼直後の間で頭部が動いていなければ、閉眼直前と閉眼直後で同じ位置に目あるいは瞳孔が存在する。よって、閉眼画像と瞳孔位置を対応づけることができる。視線検出部23による瞳孔の位置の検出と、瞳孔位置予測部25による瞳孔の位置の予測とは、連続して取得される顔画像を対象に並列に実行されてよい。この場合、視線検出部23において、前のフレームでの検出が失敗したと判断された場合に、瞳孔位置予測部25による予測結果が利用されて現フレームにおけるウィンドウの位置が設定される。一方で、あるフレームで視線検出部23による瞳孔の位置の検出が失敗した場合に、そのフレームを対象とした瞳孔位置予測部25による予測処理を実行させることもできる。この場合、視線検出部23において、瞳孔位置予測部25による予測結果が利用されて次のフレームにおけるウィンドウの位置が設定される。
Here, the detection of the position of the pupil center and the position of the corneal reflection for the bright pupil image and the dark pupil image by the line of
次に、画像処理装置20の他の構成要素の機能について説明する。なお、以下に説明する部分画像作成部24、瞳孔位置予測部25、学習用画像作成部26、及びモデル学習部27による処理は、2つのカメラ10毎に連続的に取得される明瞳孔画像及び暗瞳孔画像を対象に別々に実行される。
Next, the functions of other components of the
部分画像作成部24は、画像取得部22によってそれぞれのカメラ10から取得された顔画像から、所定のサイズの矩形領域の部分画像を切り出す。例えば、顔画像が、横150ピクセル×縦80ピクセルのサイズであり、この部分画像が、横30ピクセル×縦20ピクセルのサイズである。この部分画像のサイズは、対象者Aの顔における目の特徴部である睫毛全体が含まれるようなサイズに設定される。このとき、部分画像作成部24は、処理対象の顔画像の直前のフレームに関して視線検出部23あるいは瞳孔位置予測部25によって検出あるいは予測されたカメラ10から瞳孔までの距離を基に、目の特徴部の全体が含まれるように部分画像の切り出しサイズを可変に設定し、切り出した部分画像を所定サイズ(例えば、8ピクセル×5ピクセル)の画像データに変換してもよい。そして、部分画像作成部24は、顔画像中において部分画像の切り出し領域を二次元的な方向に繰り返しシフト(例えば、横方向に10ピクセルずつ、縦方向に5ピクセルずつシフト)させ、互いに横方向及び縦方向にオーバーラップさせた複数の部分画像を作成する。
The partial
図5には、部分画像作成部24によって作成される部分画像のイメージを示している。例えば、切り出し対象の顔画像GF1が、横150ピクセル×縦80ピクセルのサイズであり、部分画像の切り出しサイズが横30ピクセル×縦20ピクセルであり、横方向のシフト量が10ピクセルであり、縦方向のシフト量が5ピクセルである場合、部分画像作成部24は、1フレームの顔画像GF1を対象に合計169枚の部分画像GPF1を作成する。
FIG. 5 shows an image of a partial image created by the partial
また、部分画像作成部24は、処理対象のフレームの直前のフレームにおいて瞳孔位置予測部25によって顔画像上の瞳孔の位置が予測されている場合には、その位置を中心とした矩形領域のウィンドウを設定し、そのウィンドウ内から部分画像を切り出すように機能する。例えば、部分画像作成部24は、予測された位置を中心にして、横60ピクセル、縦40ピクセルのウィンドウを設定し、そのウィンドウ内から横40ピクセル、縦20ピクセルのサイズで縦横5ピクセルずつシフトさせながら部分画像を切り出す。
In addition, if the pupil
また、部分画像作成部24は、処理対象のフレームの1つ前及び2つ前のフレームにおいて瞳孔位置予測部25によって瞳孔の3次元位置が予測されている場合には、瞳孔が等速で3次元空間内を動いているとの仮定の下で等速モデルを用いて処理対象のフレームにおける瞳孔の位置を予測する。この場合は、3次元空間愛の位置を二次元画像である顔画像上に投影することによって瞳孔の位置を予測する。そして、部分画像作成部24は、予測した位置を中心とした矩形領域のウィンドウを設定し、そのウィンドウ内から部分画像を切り出すように機能する。例えば、部分画像作成部24は、予測した位置を中心にして、横60ピクセル、縦40ピクセルのウィンドウを設定し、そのウィンドウ内から横40ピクセル、縦20ピクセルのサイズで縦横5ピクセルずつシフトさせながら部分画像を切り出す。
In addition, when the three-dimensional position of the pupil is predicted by the pupil
瞳孔位置予測部25は、部分画像作成部24によってそれぞれのカメラ10の顔画像を対象にして作成された複数の部分画像を基に、顔画像上の閉眼状態における目の特徴部(本実施形態では睫毛部分)の位置を探索することにより、対象者Aの閉眼中の顔画像上の瞳孔の位置を予測する。この瞳孔の位置の予測は、左右の目のそれぞれについて行われる。
The pupil
すなわち、瞳孔位置予測部25は、CNN(畳み込みニューラルネットワーク)を用いた機械学習モデルによって瞳孔の位置の予測を実行する。まず、瞳孔位置予測部25は、モデル学習部27によって予め学習された機械学習モデル1を用いて、複数の部分画像の中から、閉眼状態における目の特徴部(睫毛部分)が含まれる画像(以下、単に「閉眼画像」ともいう。)としての尤度の高い部分画像を予測する。図6には、瞳孔位置予測部25によって用いられる機械学習モデル1の層構成の一例を示す。ただし、図6に示す層構成は一例であり、この構成以外の他の層構成が採用されてもよい。機械学習モデル1は、畳み込み層および畳み込み層の出力を変換するReLU(Rectified Linear Unit)関数等の活性化関数を有する前処理部と、平滑化層、全結合層、全結合層の出力を変換するReLU関数等の活性化関数、および全結合層をこの順に有する後処理部とによって構成され、入力画像を処理して閉眼画像に関する尤度を算出する。ここで、入力される部分画像はカメラ10から瞳孔までの距離を基に目の特徴部の全体が含まれるように部分画像を所定サイズの画像データに変換されているので、機械学習モデル1による演算において処理対象の画像の大きさの変化が生じにくいため、機械学習モデル1において、画像を縮小することなく特徴抽出処理で大小の特徴を維持できるため、前処理部におけるプーリング層を省略することができる。また、プーリング層の役割の1つである、入力画像における特徴部の位置ずれの影響を低減させる機能は、部分画像作成部24による複数の部分画像を特徴部全体が含まれるようにオーバーラップさせながら作成する機能によって実現できる。
That is, the pupil
さらに、瞳孔位置予測部25は、上記のようにして予測された部分画像を、モデル学習部27によって予め学習された機械学習モデル2に入力し、その機械学習モデル2の出力値を基に、部分画像の閉眼画像からの二次元的な位置のずれ量を予測する。例えば、瞳孔位置予測部25は、画像の横方向をx軸、画像の縦方向をy軸として、二次元的な位置のずれ量として、x軸方向のずれ量Δxとy軸方向のずれ量Δyとをサブピクセルの単位で予測する。図7には、瞳孔位置予測部25によって用いられる機械学習モデル2の層構成の一例を示す。ただし、図7に示す層構成は一例であり、この構成以外の他の層構成が採用されてもよい。機械学習モデル2は、畳み込み層およびプーリング層を有する前処理部と、平滑化層、3つの全結合層、全結合層の出力を変換するReLU関数等の活性化関数、および全結合層の出力を変換するリニア関数を有する後処理部とによって構成される。この機械学習モデル2は、入力画像を処理して閉眼画像に対する二次元的なずれ量(Δx,Δy)毎に尤度を算出する。
Furthermore, the pupil
加えて、瞳孔位置予測部25は、上記のようにして予測された閉眼画像に対するずれ量(Δx,Δy)を基に、予め画像処理装置20内に記憶された閉眼画像と瞳孔の位置との関係のデータを参照して、そのずれ量を相殺するように部分画像中の瞳孔の位置を計算する。ここで、予め画像処理装置20内に記憶される瞳孔の位置に関する関係データは、左右の瞳孔毎に別々の値とされている。これにより、瞳孔位置予測部25は、閉眼中の顔画像上の瞳孔の位置を予測する。そして、瞳孔位置予測部25は、2つのカメラ10によって同時に取得された2つの顔画像を対象に予測された顔画像上の左右の瞳孔の位置を基に、ステレオ法を用いて左右の瞳孔の3次元位置を計算する。瞳孔位置予測部25は、このような左右の瞳孔の位置の予測を、連続するフレームの顔画像毎に繰り返し実行する。
In addition, the pupil
学習用画像作成部26は、上述した機械学習モデル1および機械学習モデル2の事前学習用の学習データ(トレーニングデータ)を作成する。この学習用画像作成部26による学習データの作成は、特開2005-230049号公報等に開示された視線方向の検出のための較正処理が終わった直後に実行されることが好ましい。
The learning
すなわち、学習用画像作成部26は、較正処理において画像処理装置20による対象者Aに対する指示出力に応じて対象者Aが目を閉じた前後に、それぞれのカメラ10から連続した複数フレームの顔画像を取得し、それらの顔画像を基に最後に視線検出部23によって検出された瞳孔の位置を特定する。そして、学習用画像作成部26は、瞳孔の位置が特定されたフレームの直後における対象者Aが目を閉じたタイミングのフレームの顔画像を取得し、瞳孔の位置を基準として所定のサイズの矩形領域の画像を、閉眼画像として切り出す。例えば、顔画像が横150ピクセル×縦80ピクセルのサイズである場合、閉眼画像のサイズは横30ピクセル×縦20ピクセルである。この閉眼画像のサイズは、対象者Aの顔における目の特徴部である睫毛全体が含まれるようなサイズに設定される。また、瞳孔の位置と閉眼画像の切り出し位置との関係は、左右の瞳孔で異なる関係に予め設定され、それらの関係は、画像処理装置20内に記憶され、瞳孔位置予測部25による瞳孔の位置の予測時に参照される。さらに、学習用画像作成部26は、同様な処理を繰り返して左右の瞳孔の閉眼画像を複数フレーム分作成し、これらをポジティブ(正解)の学習データ「学習画像1」として画像処理装置20内に記憶する。このとき、学習用画像作成部26は、画像処理装置20からの指示情報の出力(例えばディスプレイ装置30への出力)により対象者Aの顔を複数の方向に向けさせて対象者Aに目を閉じさせ(例えば、ディスプレイ装置30に対する正面方向、右30度方向、左30度方向)、それぞれの方向で左右の瞳孔の閉眼画像をポジティブ(正解)の学習データ「学習画像1」として作成することもできる。
That is, the learning
図8には、顔画像GF2を対象に学習用画像作成部26によって作成された左右の瞳孔の閉眼画像GPL1,GPR1の一例を示す。このように、顔画像GF2から、閉眼直前に検出された瞳孔の位置PL1,PR1を基準に、睫毛全体が含まれるような閉眼画像が自動的に作成される。
FIG. 8 shows an example of closed-eye images GP L1 and GP R1 of the left and right pupils created by the learning
また、学習用画像作成部26は、上述した複数フレーム分のポジティブの学習データ「学習画像1」の作成と同時に、ネガティブ(不正解)の学習データ「学習画像2」の作成も行う。すなわち、学習用画像作成部26は、顔画像中においてポジティブの学習データである閉眼画像の基準位置から2次元方向に所定幅でシフトした画像をネガティブの学習データとして複数フレーム分作成する。例えば、1つの閉眼画像に対して、縦方向に±5ピクセル、および横方向に±5ピクセルの範囲で、5ピクセルずつ2次元方向に8パターンでシフトした画像を、ネガティブの学習データとして作成する。加えて、縦方向に±10ピクセル、および横方向に±10ピクセルの範囲で、20ピクセルずつ2次元方向に4パターンでシフトした画像を、ネガティブの学習データとして作成する。ただし、学習用画像作成部26は、ネガティブの学習データをポジティブの学習データとは異なる画像サイズで作成してもよい。学習用画像作成部26は、作成したネガティブの学習データ「学習画像2」を画像処理装置20内に記憶する。
Further, the learning
なお、学習用画像作成部26は、部分画像作成部24と同様にして、処理対象の顔画像の直前のフレームに関して視線検出部23によって検出されたカメラ10から瞳孔までの距離を基に、目の特徴部(本実施形態では睫毛)の全体が含まれるように学習データの切り出しサイズを可変に設定し、切り出した学習データを所定サイズ(例えば、8ピクセル×5ピクセル)の画像データに変換してもよい。
Note that, similar to the partial
加えて、学習用画像作成部26は、上述した複数フレーム分のポジティブの学習データ「学習画像1」の作成と同時に、瞳孔位置決定のための機械学習モデル2用の学習データ「学習画像3」の作成も行う。詳細には、学習用画像作成部26は、顔画像中においてポジティブの学習データである閉眼画像の基準位置から2次元方向に所定幅でシフトした画像(シフト画像)を「学習画像3」として複数フレーム分作成する。ただし、「学習画像3」のシフト幅は、「学習画像2」のシフト幅よりも小さい値に設定される。例えば、1つの閉眼画像に対して、縦方向に±2ピクセル、および横方向に±2ピクセルの範囲で、1ピクセルずつ2次元方向に25パターンでシフトした複数の画像を、学習データ「学習画像3」として作成する。ただし、学習用画像作成部26は、学習データ「学習画像3」を学習データ「学習画像1」より大きな画像サイズで作成してもよい。学習用画像作成部26は、作成した複数の学習データ「学習画像3」を、それぞれの学習画像の閉眼画像に対する、x軸方向のずれ量Δx及びy軸方向のずれ量Δyとともに、画像処理装置20内に記憶する。
In addition, the learning
図9には、対象者Aが閉眼時に取得した顔画像GF2を対象に学習用画像作成部26によって作成された学習データ「学習画像3」の一例を示す。このように、顔画像GF2から、睫毛全体が含まれるような閉眼画像が縦方向に±2ピクセル、および横方向に±2ピクセルの範囲でシフトされた学習画像GPR2~GPR4が自動的に作成される。
FIG. 9 shows an example of learning data "learning image 3" created by the learning
モデル学習部27は、学習用画像作成部26によって作成された学習データを用いて、瞳孔位置予測部25が用いる機械学習モデル1および機械学習モデル2を学習させる。すなわち、モデル学習部27は、画像処理装置20内に記憶された、複数枚のポジティブの学習データ「学習画像1」、及び複数枚のネガティブの学習データ「学習画像2」を用いて、機械学習モデル1を学習させる。また、モデル学習部27は、画像処理装置20内に記憶された、複数枚の学習データ「学習画像3」と、それぞれの学習画像のずれ量Δx,Δyとの組み合わせをポジティブ画像のトレーニングデータとして用いて、機械学習モデル2を学習させる。
The
次に、視線検出装置1の動作手順を説明するとともに、本実施形態に係る瞳孔検出方法のステップについて説明する。図10は、視線検出装置1の動作手順を示すフローチャートである。
Next, the operating procedure of the line of
まず、対象者Aを対象とした視線方向の検出処理が開始されると、画像処理装置20の点灯制御部21及び画像取得部22によって、光源13の点灯タイミングの制御、及びカメラ10からの画像取得の制御が開始される(ステップS101)。その後、画像処理装置20の学習用画像作成部26により、視線方向検出のための較正処理中に、学習データである、「学習画像1」、「学習画像2」、および「学習画像3」が、それぞれ複数枚取得される(ステップS102)。次に、画像処理装置20のモデル学習部27によって、学習データを用いて、機械学習モデル1および機械学習モデル2が学習される(ステップS103)。
First, when the line-of-sight direction detection processing for the subject A is started, the
そして、画像処理装置20の視線検出部23によって、カメラ10から連続して取得されるフレームの顔画像を対象にした視線方向の検出処理(瞳孔位置の検出も含む。)が実行される(ステップS104;瞳孔位置検出ステップ)。それに並行して、画像処理装置20の部分画像作成部24によって、顔画像中から複数の部分画像が取得される(ステップS105)。その後、画像処理装置20の瞳孔位置予測部25によって、複数の部分画像を基に、瞳孔位置の予測処理が実行される(ステップS106;瞳孔位置予測ステップ)。さらに、画像処理装置20において、次のフレームの顔画像が存在するか否かが判定され(ステップS107)、次のフレームの顔画像が存在する場合にはステップS104~S106の処理が繰り返される。ここで、ステップS104における顔画像中のウィンドウの設定においては、処理対象の顔画像の前のフレームを対象にステップS106の処理によって予測された瞳孔の3次元位置を追尾するように設定される。
Then, the line-of-
本開示の実施形態の視線検出装置1及びそれを用いた瞳孔検出方法の作用効果について説明する。
The effects of the line of
視線検出装置1によれば、カメラ10によって連続したタイミングで取得された顔画像上で瞳孔の位置が検出され、その顔画像から閉眼状態における目の特徴部の位置が探索されることにより、その顔画像上において閉眼中の瞳孔の位置が予測される。そして瞳孔の位置の検出の際には、顔画像上で予測された瞳孔の位置を利用してウィンドウが設定されることによって瞳孔が追尾される。これにより、対象者Aが閉眼した場合であっても瞳孔を追尾することによって瞳孔の位置を検出できるのでウィンドウサイズを比較的小さくすることができ、高い演算効率で、高精度の瞳孔検出処理が実現できる。加えて、複雑な光学系を必要としないので、簡易な装置構成によって瞳孔検出処理を実現することができる。
According to the line of
従来の特開2017-102731号公報に記載された視線検出装置は、対象者の頭部の3次元位置を検出する対象者検出装置と、狭視野カメラと、狭視野カメラの姿勢を調整するパンチルト機構とを備えていた。この装置では、対象者検出装置によって検出された対象者の頭部の3次元位置を基に狭視野カメラの姿勢及びズーム値が制御され、姿勢及びズーム値が制御された狭視野カメラによって得られた明瞳孔画像及び暗瞳孔画像を用いて、対象者の瞳孔の位置が検出される。一方で、この従来の装置においては、検出光学系が2種類必要となり装置構成が複雑化する傾向にある。これに対して、本実施形態の視線検出装置1の構成によれば、複雑な光学系を必要としないので、簡易な装置構成によって瞳孔検出処理を実現することができる。
The line of sight detection device described in the conventional Japanese Patent Application Publication No. 2017-102731 includes a subject detection device that detects the three-dimensional position of the subject's head, a narrow-field camera, and a pan-tilt that adjusts the attitude of the narrow-field camera. It was equipped with a mechanism. In this device, the posture and zoom value of the narrow-field camera are controlled based on the three-dimensional position of the subject's head detected by the subject detection device, and the posture and zoom value are obtained by the controlled narrow-field camera. The position of the subject's pupil is detected using the bright pupil image and the dark pupil image. On the other hand, this conventional device requires two types of detection optical systems, which tends to complicate the device configuration. On the other hand, according to the configuration of the line of
ここで、本実施形態においては、瞳孔位置の予測には、ニューラルネットワークを用いた機械学習モデルが用いられている。この場合、顔画像上の瞳孔の位置の予測精度を簡易な学習手法によって確実に高めることができ、安定した瞳孔検出処理が実現される。 In this embodiment, a machine learning model using a neural network is used to predict the pupil position. In this case, the accuracy of predicting the position of the pupil on the face image can be reliably improved by a simple learning method, and stable pupil detection processing can be achieved.
さらに、本実施形態では、顔画像を切り出した部分画像を入力データとして機械学習モデルに入力し、機械学習モデルを用いて、目の特徴部が含まれる部分画像の位置を探索することにより、瞳孔の位置が予測されている。この場合、顔画像を切り出した部分画像を入力データとして用いることにより、簡易な処理によって顔画像上の瞳孔の位置を予測することができる。その結果、瞳孔検出処理の演算効率をより高めることができる。 Furthermore, in this embodiment, a partial image cut out from a face image is input to a machine learning model as input data, and the machine learning model is used to search for the position of the partial image that includes the characteristic part of the eye. location is predicted. In this case, by using a partial image cut out from the face image as input data, the position of the pupil on the face image can be predicted through simple processing. As a result, the calculation efficiency of the pupil detection process can be further improved.
このとき、機械学習モデルの入力データとして用いる部分画像が、目の特徴部の全体を含むサイズで切り出されている。この場合、顔画像を切り出した部分画像に目の特徴部の全体を収めることができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。 At this time, the partial image used as input data for the machine learning model is cut out to a size that includes the entire characteristic part of the eye. In this case, the entire characteristic part of the eye can be included in the partial image extracted from the face image, and the accuracy of predicting the position of the pupil can be improved. As a result, more stable pupil detection processing is realized.
また、画像処理装置20は、機械学習モデルを学習させるモデル学習部27をさらに有し、モデル学習部27は、対象者Aの閉眼時に取得された顔画像を、対象者Aの閉眼直前に検出された瞳孔の位置を基準に切り出し、切り出した顔画像をトレーニングデータとして用いて、機械学習モデルを学習させている。こうすれば、切り出した顔画像と瞳孔の位置との関係が適切に設定されたトレーニングデータを作成することができ、そのトレーニングデータを用いて学習させることにより瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。また、本実施形態では、トレーニングデータを較正処理時に自動的に取得する自動アノテーションを可能としている。これにより、マニュアルによるトレーニングデータの取得が不要となり、学習時のユーザの作業負担を軽減することができる。
The
また、画像処理装置20は、カメラ10から瞳孔までの距離を検出する機能を有し、入力データとしての部分画像の切り出しのサイズを、瞳孔の距離に応じて可変に設定している。このような機能により、入力データとして用いる部分画像のサイズを適切に設定することができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。また、瞳孔位置の予測に用いる機械学習モデルにおいて、画像サイズに変化があっても予測できるようにするために設けるプーリング層を省略することができる。よって、学習時及び予測時の演算を高速化することができる。
The
また、画像処理装置20は、カメラ10から瞳孔までの距離を検出する機能を有し、トレーニングデータとしての顔画像の切り出しのサイズを、瞳孔の距離に応じて可変に設定している。このような機能により、トレーニングデータとして用いる顔画像の切り出しのサイズを適切に設定することができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。
The
また、画像処理装置20で用いられる機械学習モデル2は、目の特徴部が含まれる部分画像の位置の二次元的なずれ量を予測するモデルであり、モデル学習部27は、切り出した顔画像を二次元的にずらしながらシフト画像を生成し、シフト画像と当該シフト画像の二次元的なずれ量とをトレーニングデータとして用いて、学習モデルを学習させている。この場合、予測時に入力データとして用いる複数の部分画像間の顔画像上におけるずれ量の大きさに関わらず、顔画像上の瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。
Further, the
また、画像処理装置20の視線検出部23は、連続したフレームの顔画像上で検出された瞳孔の位置を用いて瞳孔の位置を追尾することにより、瞳孔の位置を検出し、直前のフレームの顔画像上で瞳孔の位置の検出が失敗した場合、瞳孔位置予測部25によって予測された瞳孔の位置を利用して瞳孔の位置を追尾する、こととしてもよい。かかる構成によれば、連続して瞳孔の位置を検出する際に対象者Aが瞬き等により閉眼して画像上に瞳孔の像が現れなくなっても安定して瞳孔の位置を追尾することができ、対象者Aが開眼して画像上に再度瞳孔の像が現れた際に、閉眼時に追尾していた瞳孔位置をウィンドウ設定に利用することにより、開眼直後より、遅れなく、安定して瞳孔の位置を検出することができる。
In addition, the line of
本発明は、上述した実施形態に限定されるものではない。上記実施形態の構成は様々変更されうる。 The present invention is not limited to the embodiments described above. The configuration of the above embodiment may be modified in various ways.
例えば、上記実施形態に係る画像処理装置20は学習用画像作成部26及びモデル学習部27を備えていたが、学習用画像作成部26及びモデル学習部27のいずれかあるいは両方の機能は、画像処理装置20とは別のコンピュータ内に実装され、トレーニングデータの作成、及び、機械学習モデルの学習のいずれか一方あるいは両方は、別のコンピュータによって実行されてもよい。
For example, although the
また、本実施形態において探索の対象とされている目の特徴部は、睫毛の代わりに、瞼、眉毛、等とされてもよい。また、探索対象は、目の特徴部の代わりに、鼻孔等の顔の特徴部とされてもよい。鼻孔等の顔の特徴部を探索の対象とする場合には、画像処理装置20は、予め、瞳孔と顔の特徴部との間の相対的な3次元位置の情報を記憶しておき、さらに瞳孔と顔の特徴部から求まる頭部の回転状態と移動状態の情報を基に瞳孔の位置を予測することが好ましい。
Furthermore, in this embodiment, the characteristic parts of the eye that are searched may be eyelids, eyebrows, etc. instead of eyelashes. Furthermore, the search target may be a facial feature such as a nostril instead of an eye feature. When searching for a facial feature such as a nostril, the
また、視線検出装置1は、予測した瞳孔の位置を用いて瞳孔を追尾して顔画像上に設定するウィンドウの位置を設定して瞳孔の位置を検出していたが、特開2017-102731号公報に記載の構成と同様に、狭視野カメラの姿勢及びズーム値が制御可能な構成が採用されてもよい。この場合、視線検出装置1は、予測した瞳孔の3次元位置を用いて、狭視野カメラの姿勢及びズーム値を制御することによって、瞳孔を追尾するように構成される。このような変形例によっても、対象者Aが閉眼したときも瞳孔を追尾することができ、高い演算効率で、高精度の瞳孔検出処理が実現できる。
Furthermore, the line of
また、視線検出装置1の画像処理装置20は、ニューラルネットワークを用いた機械学習モデルによって瞳孔位置を予測していたが、テンプレートマッチング等の他の画像処理によって瞳孔位置を予測するように動作してもよい。このような動作によっても、顔画像中から目の特徴部の位置を探索でき、この位置を基に瞳孔の位置を予測することができる。
In addition, the
また、画像処理装置20は、ステレオ法によって瞳孔の3次元位置を計算する代わりに、特開2007-268164号公報に記載の手法を用いて、画像上の瞳孔の位置、鼻孔の位置、その他の顔の特徴部の位置、あるいは顔に付したマーカの位置等を用いて、瞳孔の3次元位置を求めるように機能してもよい。また、画像処理装置20は、顔にドットパターンを与え、このドットパターンによって顔全体の形状を把握しながら同時に瞳孔を検出することにより、顔全体の構造(形状)に対する瞳孔の3次元位置を求めるように機能してもよい。また、画像処理装置20は、TOF(Time Of Flight)カメラを用いて画素毎に顔までの距離を求めることにより、顔の構造に対する瞳孔の3次元位置を求めるように機能してもよい。
Furthermore, instead of calculating the three-dimensional position of the pupil using the stereo method, the
上述した実施形態に係る画像処理装置20による学習データの作成においては、目の特徴部である睫毛全体が含まれるような閉眼画像が生成されている。この閉眼画像のサイズが小さすぎると睫毛が画像からはみ出てしまい、機械学習モデルによる瞳孔位置の予測精度が低下する。逆に閉眼画像のサイズが大きすぎると睫毛以外の特徴部(例えば、眉毛、髪の毛等)が画像に含まれるため、その特徴部の影響により機械学習モデルによる瞳孔位置の予測精度が低下する。画像処理装置20では、閉眼画像のサイズに起因した瞳孔位置の予測精度の低下を防止するために、閉眼画像のサイズの適正化を自動で行う機能を有していてもよい。例えば、画像処理装置20の学習用画像作成部26は、最初に閉眼画像を比較的大きなサイズで取得した後に、取得した閉眼画像の中から画像解析によって睫毛の存在する領域を特定し、部分画像のシフト量よりも大きな隙間が睫毛の周辺に確保されるようなサイズに閉眼画像のサイズを設定する。このような機能により、トレーニングデータとして用いる顔画像の切り出しのサイズを睫毛の領域に応じて適切に設定することができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。
When the learning data is created by the
また、閉眼画像において閉眼直前の瞳孔位置と睫毛の位置とがずれてしまっている場合、睫毛の位置が閉眼画像の領域の端に位置してしまい、機械学習モデルによる瞳孔位置の予測精度が低下することも考えられる。つまり、閉眼画像の中央付近に睫毛が位置することが瞳孔位置の予測精度の向上には好ましいと考えられる。この場合は、閉眼画像が比較的小さなサイズに設定することができ、瞳孔位置の予測の演算時間を短くすることもできる。閉眼画像における睫毛の位置ずれに起因した瞳孔位置の予測精度の低下を防止するために、画像処理装置20の学習用画像作成部26は、いったん取得した閉眼画像の中から画像解析によって睫毛の存在する領域を特定し、閉眼画像中の中央に睫毛が位置するように閉眼画像の切り出し領域を変更するように設定する。この場合も、学習用画像作成部26は、瞳孔の位置と閉眼画像の切り出し位置との関係を示すデータを、画像処理装置20内に記憶する。このような機能により、トレーニングデータとして用いる顔画像の切り出しの位置を睫毛の領域に応じて適切に設定することができ、瞳孔の位置の予測精度を高めることができる。その結果、より安定した瞳孔検出処理が実現される。
Additionally, if the position of the pupil just before closing the eyes and the position of the eyelashes are misaligned in the eye-closed image, the position of the eyelashes will be located at the edge of the area of the eye-closed image, reducing the accuracy of predicting the pupil position by the machine learning model. It is also possible to do so. In other words, it is considered preferable for the eyelashes to be located near the center of the eye-closed image in order to improve the prediction accuracy of the pupil position. In this case, the eye-closed image can be set to a relatively small size, and the calculation time for predicting the pupil position can also be shortened. In order to prevent a decrease in the prediction accuracy of the pupil position due to the positional deviation of the eyelashes in the eye-closed image, the learning
また、本実施形態の画像処理装置20の視線検出部23は、瞳孔の位置検出時のウィンドウの設定を次のように行ってもよい。具体的には、視線検出部23は、対象者Aが閉眼して再度開眼した場合は、瞳孔位置予測部25により追尾されていた閉眼時の瞳孔位置の予測結果を用いて、視線検出部23において所定の大きさのウィンドウを設定して、明瞳孔画像と暗瞳孔画像の差分画像を基にした瞳孔検出を再開することができる。従来の瞳孔検出装置では、閉眼後に開眼状態になってからの数フレームの間は瞳孔を検出できない状態になる傾向にあった。上記の視線検出部23の機能により、対象者Aが閉眼後に再度開眼した直後のフレームから、遅れなく、安定して瞳孔検出を再開することができる。
Further, the line of
また、本実施形態に係る画像処理装置20の瞳孔位置予測部25は、機械学習モデル1と機械学習モデル2との2つのネットワークを使用して瞳孔の位置を予測している。一方で、変形例として、画像処理装置20は、2つのネットワークの予測機能を統合した1つのネットワークを用いて瞳孔の位置を予測してもよいし、3つ以上のネットワークを用いて瞳孔の位置を予測してもよい。例えば、3つのネットワークとして、顔画像のウィンドウ内から切り出された複数の部分画像を用いて閉眼画像を予測する「機械学習モデル1」と、部分画像の閉眼画像からのずれ量を予測する「機械学習モデル2」と、顔画像の全体から切り出された複数の部分画像を用いて閉眼画像を予測する「機械学習モデル3」とを用いてもよい。
Furthermore, the pupil
1…視線検出装置(瞳孔検出装置)、10…カメラ、13…光源、20…画像処理装置(演算装置)、23…視線検出部(瞳孔位置検出部、瞳孔距離検出部)、24…部分画像作成部、25…瞳孔位置予測部、27…モデル学習部、A…対象者、GF1,GF2…顔画像、GPF1…部分画像、GPL1,GPR1…閉眼画像、PL1,PR1…瞳孔位置。 1... Line of sight detection device (pupil detection device), 10... Camera, 13... Light source, 20... Image processing device (computation device), 23... Line of sight detection section (pupil position detection section, pupil distance detection section), 24... Partial image Creation unit, 25... Pupil position prediction unit, 27... Model learning unit, A... Subject, GF1, GF2... Face image, GP F1... Partial image, GP L1 , GP R1 ... Eyes closed image, PL1 , PR1 ...pupil position.
Claims (14)
前記対象者の顔に向けて光を照射する光源と、
前記光の照射タイミングで前記カメラによって取得された顔画像を処理する演算装置とを備え、
前記演算装置は、
前記顔画像上で対象者の瞳孔の位置を検出する瞳孔位置検出部と、
前記顔画像上で閉眼状態における前記顔の特徴部の位置を探索することにより、対象者の閉眼中の瞳孔の位置を予測する瞳孔位置予測部と、を有し、
前記瞳孔位置検出部は、前記瞳孔位置予測部によって予測された前記瞳孔の位置を利用して前記瞳孔を追尾することにより、前記瞳孔の位置を検出する、
瞳孔検出装置。 a camera that captures facial images of a subject at consecutive timings by capturing an image of the subject's face;
a light source that emits light toward the subject's face;
a calculation device that processes a face image acquired by the camera at the timing of irradiation of the light;
The arithmetic device is
a pupil position detection unit that detects the position of the subject's pupil on the face image;
a pupil position prediction unit that predicts the position of the pupil of the subject when the subject's eyes are closed by searching for the position of the characteristic part of the face in the eye-closed state on the face image;
The pupil position detection unit detects the position of the pupil by tracking the pupil using the position of the pupil predicted by the pupil position prediction unit.
Pupil detection device.
請求項1記載の瞳孔検出装置。 The facial features are eye features of the subject;
The pupil detection device according to claim 1.
請求項1又は2に記載の瞳孔検出装置。 The pupil position prediction unit predicts the pupil position using a machine learning model using a neural network.
The pupil detection device according to claim 1 or 2.
請求項3に記載の瞳孔検出装置。 The pupil position prediction unit inputs a partial image extracted from the face image to the machine learning model as input data, and uses the machine learning model to search for a position of the partial image including the facial feature. predicting the position of the pupil by
The pupil detection device according to claim 3.
請求項4に記載の瞳孔検出装置。 The pupil position prediction unit cuts out the partial image in a size that includes the entire feature of the face.
The pupil detection device according to claim 4.
前記モデル学習部は、前記対象者の閉眼時に取得された前記顔画像を、前記対象者の閉眼直前に前記瞳孔位置検出部によって検出された前記瞳孔の位置を基準に切り出し、切り出した前記顔画像をトレーニングデータとして用いて、前記機械学習モデルを学習させる、
請求項4又は5に記載の瞳孔検出装置。 The arithmetic device further includes a model learning unit that learns the machine learning model,
The model learning unit cuts out the face image acquired when the subject's eyes are closed based on the position of the pupil detected by the pupil position detection unit immediately before the subject closes his eyes, and extracts the cut out face image. learning the machine learning model using as training data;
The pupil detection device according to claim 4 or 5.
前記瞳孔位置予測部は、前記入力データとしての前記部分画像の切り出しのサイズを、前記瞳孔の距離に応じて可変に設定する、
請求項4又は5に記載の瞳孔検出装置。 The arithmetic device further includes a pupil distance detection unit that detects a distance from the camera to the pupil,
The pupil position prediction unit variably sets the size of the cutout of the partial image as the input data according to the distance of the pupil.
The pupil detection device according to claim 4 or 5.
前記モデル学習部は、トレーニングデータとしての前記顔画像の切り出しのサイズを、前記瞳孔の距離に応じて可変に設定する、
請求項6に記載の瞳孔検出装置。 The arithmetic device further includes a pupil distance detection unit that detects a distance from the camera to the pupil,
The model learning unit variably sets the size of the cutout of the face image as training data according to the distance of the pupil.
The pupil detection device according to claim 6.
請求項6に記載の瞳孔検出装置。 The model learning unit specifies a region in which the facial feature exists from the cut out face image, and sets a size for cutting out the face image as training data based on the specified region.
The pupil detection device according to claim 6.
請求項6又は9に記載の瞳孔検出装置。 The model learning unit identifies a region in which the facial features are present in the cut out facial image, and adjusts the cutout of the facial image as training data so that the identified region is located in the center of the image. set the position,
The pupil detection device according to claim 6 or 9.
前記モデル学習部は、前記切り出した前記顔画像をずらしながらシフト画像を生成し、前記シフト画像と当該シフト画像のずれ量とをトレーニングデータとして用いて、前記学習モデルを学習させる、
請求項6又は8に記載の瞳孔検出装置。 The machine learning model calculates a positional shift of a partial image including the facial features with respect to the face image cut out based on the position of the pupil detected by the pupil position detection unit immediately before the subject's eyes are closed. It is a model that predicts the amount of
The model learning unit generates a shifted image while shifting the cut out face image, and uses the shifted image and a shift amount of the shifted image as training data to learn the learning model.
The pupil detection device according to claim 6 or 8.
請求項1~11のいずれか1項に記載の瞳孔検出装置。 The pupil position detection unit detects the pupil position by tracking the pupil position using the pupil position detected on the face image in consecutive frames, and detects the pupil position on the face image in the immediately previous frame. If detection of the position of the pupil on the image fails, tracking the position of the pupil using the position of the pupil predicted by the pupil position prediction unit;
The pupil detection device according to any one of claims 1 to 11.
請求項12に記載の瞳孔検出装置。 The pupil position detection section is configured to detect a window on the face image based on the pupil position predicted by the pupil position prediction section at the timing when the subject's eyes are closed, when the subject closes his eyes and then opens his eyes again. Detecting the position of the pupil by setting
The pupil detection device according to claim 12.
前記演算装置が、前記顔画像上で対象者の瞳孔の位置を検出する瞳孔位置検出ステップと、
前記演算装置が、前記顔画像上で閉眼状態における前記顔の特徴部の位置を探索することにより、対象者の閉眼中の瞳孔の位置を予測する瞳孔位置予測ステップと、を有し、
前記瞳孔位置検出ステップでは、前記瞳孔位置予測ステップによって予測された前記瞳孔の位置を利用して前記瞳孔を追尾することにより、前記瞳孔の位置を検出する、
瞳孔検出方法。
A camera that captures facial images of a target person at successive timings by imaging the target person's face, a light source that irradiates light toward the target person's face, and facial images acquired by the camera at the light irradiation timings. A pupil detection method using a calculation device that processes
a pupil position detection step in which the calculation device detects the position of the subject's pupil on the face image;
a pupil position prediction step in which the arithmetic device predicts the position of the pupil of the subject when the subject's eyes are closed by searching for the position of the feature part of the face in the eye-closed state on the face image;
In the pupil position detection step, the pupil position is detected by tracking the pupil using the pupil position predicted in the pupil position prediction step.
Pupil detection method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022029876A JP2023125652A (en) | 2022-02-28 | 2022-02-28 | Pupil detection device and pupil detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022029876A JP2023125652A (en) | 2022-02-28 | 2022-02-28 | Pupil detection device and pupil detection method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023125652A true JP2023125652A (en) | 2023-09-07 |
Family
ID=87887158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022029876A Pending JP2023125652A (en) | 2022-02-28 | 2022-02-28 | Pupil detection device and pupil detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023125652A (en) |
-
2022
- 2022-02-28 JP JP2022029876A patent/JP2023125652A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878237B2 (en) | Systems and methods for performing eye gaze tracking | |
US10521683B2 (en) | Glare reduction | |
EP1320830B1 (en) | Facial image processing system | |
US11715231B2 (en) | Head pose estimation from local eye region | |
Saran et al. | Human gaze following for human-robot interaction | |
JP5001930B2 (en) | Motion recognition apparatus and method | |
US10552675B2 (en) | Method and apparatus for eye detection from glints | |
JP6583734B2 (en) | Corneal reflection position estimation system, corneal reflection position estimation method, corneal reflection position estimation program, pupil detection system, pupil detection method, pupil detection program, gaze detection system, gaze detection method, gaze detection program, face posture detection system, face posture detection Method and face posture detection program | |
JP2003015816A (en) | Face/visual line recognizing device using stereo camera | |
JP2008146356A (en) | Visual line direction predicting device and visual line direction predicting method | |
TW202044828A (en) | Eye tracking device and a method thereof | |
WO2015027289A1 (en) | Method and apparatus for eye detection from glints | |
JP2019159518A (en) | Visual state detection apparatus, visual state detection method, and visual state detection program | |
US11435820B1 (en) | Gaze detection pipeline in an artificial reality system | |
Geisler et al. | Real-time 3d glint detection in remote eye tracking based on bayesian inference | |
JP6288770B2 (en) | Face detection method, face detection system, and face detection program | |
CN110246190A (en) | A kind of robot interactive method that more technologies are realized | |
Ude et al. | Combining peripheral and foveal humanoid vision to detect, pursue, recognize and act | |
JP2023125652A (en) | Pupil detection device and pupil detection method | |
Malakhova et al. | Temporal data processing from webcam eye tracking using artificial neural networks | |
EP3975114B1 (en) | Eyeball detection device, line-of-sight detection device, eyeball detection method, and eyeball detection program | |
JP2019146087A (en) | Information processing device, control method of imaging device, computer program, and storage medium | |
JP2016045707A (en) | Feature point detection system, feature point detection method, and feature point detection program |