JP6932742B2

JP6932742B2 - 深層学習モデルを利用して、眼球状態を検出する眼球状態検出システム及びその眼球状態検出システムを動作させる方法

Info

Publication number: JP6932742B2
Application number: JP2019111061A
Authority: JP
Inventors: 普張; 維周; 崇仰林
Original assignee: ArcSoft Hangzhou Multimedia Technology Co Ltd
Current assignee: ArcSoft Corp Ltd
Priority date: 2018-09-14
Filing date: 2019-06-14
Publication date: 2021-09-08
Anticipated expiration: 2039-06-14
Also published as: US20200085296A1; TWI669664B; KR102223478B1; KR20200031503A; CN110909561A; TW202011284A; JP2020047253A

Description

本発明は、眼球状態検出システムに関し、特に、深層学習モデルを利用して眼球状態を検出する眼球状態検出システムに関する。

携帯電話の高機能化により、携帯電話のユーザは、画像を取り込み、日常生活を記録し、そして、画像を共有するために携帯電話を高い頻度で使用する。ユーザが十分な画像を取り込むことを容易にするために、従来技術においては、モバイルデバイスは、閉眼検出等の機能を備え、その閉眼検出等の機能は、写真撮影の際に、ユーザが目を閉じている人物の画像を取り込むことを防止する。さらに、閉眼検出技術は、運転補助システムにも適用することが可能である。例えば、閉眼検出技術を使用して、運転者の閉眼を検出することによって、運転者の疲労状態を決定することが可能である。

一般的に、閉眼検出プロセスにおいては、最初に、画像から眼球の特徴点を抽出し、その次に、それらの眼球の特徴点の情報をディフォルトの値と比較して、その画像の中の人物が目を閉じているか否かを決定する。あらゆる人物の眼球は、形状及び大きさが異なっているため、閉眼の間に検出される眼球の特徴点は、相当程度の相違があることがある。さらに、閉眼検出は、人物のある特定の姿勢によって眼球の一部が隠されていること、周辺光の干渉、又は、人物が着用している眼鏡のために、失敗することがあり、閉眼検出の不十分な頑健性につながり、そして、ユーザの要求を満たすことができない。

本発明の1つの実施形態において、眼球状態検出システムを動作させる方法が提供される。その眼球状態検出システムは、画像プロセッサ及び深層学習プロセッサを含む。

眼球状態検出システムを動作させる方法は、
画像プロセッサが、検出されるべき画像を受信するステップと、
前記画像プロセッサが、複数の顔面特徴点にしたがって、検出されるべき前記画像から眼球領域を識別するステップと、
前記画像プロセッサが、前記眼球領域に対して画像登録(画像位置合わせ)(image registration)を実行して、検出されるべき正規化された眼球画像を生成するステップと、
深層学習プロセッサが、深層学習モデルにしたがって、検出されるべき前記正規化された眼球画像から、複数の眼球特徴を抽出するステップと、
前記深層学習プロセッサが、前記複数の眼球特徴及び前記深層学習モデルの中の複数のトレーニングサンプルにしたがって、前記眼球領域の中の眼球状態を出力するステップと、を含む。

本発明の他の実施形態において、画像プロセッサ及び深層学習プロセッサを含む眼球状態検出システムが提供される。

前記画像プロセッサは、検出されるべき画像を受信し、複数の顔面特徴点にしたがって、検出されるべき前記画像から眼球領域を識別し、そして、前記眼球領域に対して画像登録を実行して、検出されるべき正規化された眼球画像を生成する、のに使用される。

前記深層学習プロセッサは、深層学習モデルにしたがって、検出されるべき前記正規化された眼球画像から、複数の眼球特徴を抽出し、そして、前記複数の眼球特徴及び前記深層学習モデルの中の複数のトレーニングサンプルにしたがって、前記眼球領域の中の眼球状態を出力する、のに使用される。

さまざまな図表及び図面の中で図示されている好ましい実施形態の以下の詳細な説明を読んだ後に、本発明のこれらの及び他の目的は、間違いなく、当業者に明らかとなるであろう。

本発明の1つの実施形態にしたがって、眼球状態検出システムを動作させる方法の概略的な図である。検出されるべき画像を示している。眼球領域にしたがって、図1の中の画像プロセッサが検出して生成する眼球画像を示している。図1の眼球状態検出システムを動作させる方法のフローチャートである。

図1は、本発明の1つの実施形態にしたがって眼球状態検出システム100を動作させる方法の概略的な図である。その眼球状態検出システム100は、画像プロセッサ110及び深層学習プロセッサ120を含む。その深層学習プロセッサ120は、画像プロセッサ110に接続していてもよい。

画像プロセッサ110は、検出されるべき画像IMG1を受信することが可能である。図2は、検出されるべき画像IMG1を示している。その検出されるべき画像IMG1は、ユーザにより撮影された画像、車載監視カメラによって取り込まれた画像、であってもよく、さまざまな応用分野に基づいて、他のデバイスによって生成されてもよい。さらに、本発明のいくつかの実施形態において、画像プロセッサ110は、画像処理のための特定用途向け集積回路、又は、対応する手順を実行するための汎用アプリケーションプロセッサであってもよい。

画像プロセッサ110は、複数の顔面特徴点にしたがって、検出されるべき画像IMG1から、眼球領域A1を識別することが可能である。本発明のいくつかの実施形態において、画像プロセッサ110は、最初に、複数の顔面特徴点にしたがって、検出されるべき画像IMG1から、顔面領域A0を識別し、その次に、複数の眼球重要点にしたがって、顔面領域A0から眼球領域A1を識別してもよい。それらの複数の顔面特徴点は、システムにおいてディフォルトの複数の顔面特徴と関連する複数のパラメータ値であってもよい。画像プロセッサ110は、画像処理技術を使用することによって、検出されるべき画像IMG1から、比較のためのパラメータ値を抽出し、そして、比較のためのそれらのパラメータ値とシステムにおいてディフォルトの複数の顔面特徴とを比較して、人物の顔面がその検出されるべき画像IMG1の中に存在するか否かを識別してもよい。顔面領域A0を検出した後に、画像プロセッサ110は、その次に、その顔面領域A0の中の眼球領域A1を検出してもよい。このように、その画像の中に人物の顔面が存在しないときは、実施形態は、画像プロセッサ110が人物の眼球の検出に必要な複雑な演算を直接的に実行することを防止することが可能である。

検出されるべき異なる画像または同一の画像において、画像プロセッサ110は、異なるサイズの眼球領域を識別することが可能であるので、深層学習プロセッサ120が実行する以降の分析を容易にするとともに、検出されるべき画像の中の眼球の大きさ及び角度の相違による誤った決定を防止するために、画像プロセッサ110は、眼球領域A1に対して画像登録(画像位置合わせ)(image registration)を実行して、検出されるべき正規化された眼球画像を生成してもよい。図3は、眼球領域A1にしたがって画像プロセッサ110によって検出されるとともに生成されるべき眼球画像IMG2を示している。参照の都合上、図3の実施形態において、検出されるべき眼球画像IMG2は、眼球領域A1の中の右側眼球のみを含み、眼球領域A1の中の左側眼球は、他の検出されるべき眼球画像によって表されてもよい。本発明は、実施形態において示されている構成に限定されないということが明らかであるはずである。本発明の他の実施形態において、検出されるべき眼球画像IMG2は、深層学習プロセッサ120の要件に応じて、眼球領域A1の中の左側眼球及び右側眼球の双方を含んでもよい。

検出されるべき画像IMG1において、眼球領域A1の中の眼球端部の座標は、座標Po1(u1,v1)及び座標Po2(u2,v2)によって表されてもよい。画像登録の後に生成される検出されるべき眼球画像IMG2において、画像登録の後に生成される変換された眼球端部の座標Pe1(x1,y1)及びPe2(x2,y2)は、眼球端部の座標Po1(u1,v1)及びPo2(u2,v2)に対応する。本発明のいくつかの実施形態において、変換された眼球端部の座標Pe1(x1,y1)及びPe2(x2,y2)の位置は、検出されるべき眼球画像IMG2の中で固定されてもよい。画像プロセッサ110は、シフト、回転、スケーリング等のアフィン演算(affine operation)を実行することによって、検出されるべき画像IMG1の中の眼球端部の座標Po1(u1,v1)及びPo2(u2,v2)を、検出されるべき眼球画像IMG2の中の変換された眼球端部の座標Pe1(x1,y1)及びPe2(x2,y2)に変換してもよい。言い換えると、複数の異なる検出されるべき画像IMG1に複数の異なるアフィン変換演算(affine transformation operation)を適用して、変換を実行し、それにより、検出されるべき画像IMG1の中の眼球領域が、検出されるべき眼球画像IMG2の中の固定されたディフォルトの位置に留まることを可能にし、結果として、標準のサイズ及び方向を使用して表現することによって正規化を実現する。

アフィン変換は、主として、複数の座標の間の一次線形変換であるので、例えば、式1及び式2によって、アフィン変換を表してもよい。

同じ演算を使用して、眼球端部の座標Po1(u1,v1)及びPo2(u2,v2)を眼球端部の座標Pe1(x1,y1)及びPe2(x2,y2)に変換してもよいので、眼球端部の座標Po1(u1,v1)及びPo2(u2,v2)にしたがって、眼球端部の座標行列Aを定義してもよい。眼球端部の座標行列Aは、式3によって表されてもよい。

すなわち、眼球端部の座標行列Aは、眼球端部の座標Pe1(x1,y1)及びPe2(x2,y2)にしたがって生成されるアフィン変換パラメータ行列Cとターゲット変換行列Bとの乗算の結果と考えることが可能である。ターゲット変換行列Bは、眼球端部の座標Pe1(x1,y1)及びPe2(x2,y2)を含み、例えば、式4によって表されてもよい。アフィン変換パラメータ行列Cは、例えば、式5によって表されてもよい。

このような場合に、画像プロセッサ110は、式6を使用して、アフィン変換パラメータ行列Cを取得して、眼球端部の座標Po1(u1,v1)及び(u2,v2)と眼球端部の座標Pe1(x1,y1)及びPe2(x2,y2)との間で変換を実行してもよい。

すなわち、画像プロセッサ110は、ターゲット変換行列Bの転置行列B^Tとターゲット変換行列Bとを乗算して、第1の行列(B^TB)を生成してもよく、そして、ターゲット変換行列Bの転置行列B^T及び眼球端部の座標行列Aを第1の行列(B^TB)の逆行列(B^TB)^-1に乗算して、アフィン変換パラメータ行列Cを生成してもよい。その結果、画像プロセッサ110は、アフィン変換パラメータ行列Cを使用して、眼球領域A1を処理してもよく、それにより、検出されるべき眼球画像IMG2を生成してもよい。ターゲット変換行列Bは、検出されるべき眼球画像の眼球端部の座標行列Aの2つの座標行列を含む。

画像登録が完了し、検出されるべき眼球画像IMG2を取得した後に、深層学習プロセッサ120は、深層学習モデルにしたがって、検出されるべき眼球画像IMG2から、複数の眼球特徴を抽出し、そして、深層学習モデルの中の複数のトレーニングサンプル及び複数の眼球特徴にしたがって、眼球領域の眼球状態を出力する、ように構成される。

例えば、深層学習プロセッサ120の中の深層学習モデルは、畳み込みニューラルネットワーク(Convolution Neural Network(CNN))であってもよい。その畳み込みニューラルネットワークは、主として、畳み込み層(convolution layer)、プーリング層(pooling layer)、及び完全に接続された層(fully connected layer)を含む。その畳み込み層において、深層学習プロセッサ120は、畳み込みカーネル(convolutional kernel)とも称される複数の特徴検出器を使用して、検出されるべき眼球画像IMG2に対して畳み込み演算を実行して、検出されるべき眼球画像IMG2からさまざまな特徴データを抽出してもよい。次に、深層学習プロセッサ120は、局所的な最大値を選択し、完全に接続された層を介してプーリング層の中の特徴データを平坦化し、予備トレーニングサンプルによって学習されているとともに生成されているニューラルネットワークに接続することによって、特徴データの中の雑音を低減してもよい。

畳み込みニューラルネットワークは、予備トレーニングサンプルに基づいて、複数の異なる特徴を比較し、そして、複数の異なる特徴の間の関連性にしたがって、最終的な決定結果を出力することが可能であるので、さまざまなシナリオ、姿勢、及び周辺光について、眼球の開放又は閉鎖の状態をより正確に決定することが可能であり、そして、ユーザのための基準として役立つように、その決定された眼球の状態の信頼性を出力することが可能である。

本発明のいくつかの実施形態において、深層学習プロセッサ120は、深層学習を処理するための特定用途向け集積回路であってもよく、対応する手順を実行するための汎用アプリケーションプロセッサ又は汎用グラフィック処理ユニット(GPGPU)であってもよい。

図4は、眼球状態検出システム100を動作させる方法200のフローチャートである。その方法200は、ステップS210乃至S250を含む。

S210: 画像プロセッサ110は、検出されるべき画像IMG1を受信する。

S220: 画像プロセッサ110は、複数の顔面特徴点にしたがって、検出されるべき画像IMG1から眼球領域A1を識別する。

S230: 画像プロセッサ110は、眼球領域A1に対して画像登録を実行して、検出されるべき正規化された眼球画像IMG2を生成する。

S240: 深層学習プロセッサ120は、深層学習モデルにしたがって、検出されるべき正規化された眼球画像IMG2から、複数の眼球特徴を抽出する。

S250: 深層学習プロセッサ120は、複数の眼球特徴及び深層学習モデルの中の複数のトレーニングサンプルにしたがって、眼球領域A1の中の眼球状態を出力する。

ステップS220において、画像プロセッサ110は、最初に、複数の人物顔面特徴点を使用して、顔面領域A0を識別し、そして、その次に、複数の眼球重要点を使用して、眼球領域A1を識別してもよい。言い換えると、顔面領域A0を識別した後に、画像プロセッサ110は、その顔面領域A0から眼球領域A1を決定してもよい。このように、その画像の中に人物の顔面が存在しないときは、実施形態は、画像プロセッサ110が人物の眼球の検出に必要な複雑な演算を直接的に実行することを防止することが可能である。

追加的に、検出されるべき画像の中の眼球の大きさ及び角度の相違による誤った決定を防止するために、動作方法200のステップS230において、画像登録プロセスを実行して、検出されるべき正規化された眼球画像IMG2を生成する。例えば、演算方法200を採用して、式3乃至式6にしたがって、検出されるべき画像IMG1の中の眼球端部の座標Po1(u1,v1)及びPo2(u2,v2)と検出されるべき眼球画像IMG2の中の眼球端部の座標Pe1(x1,y1)及びPe2(x2,y2)との間の変換のためのアフィン変換パラメータ行列Cを取得してもよい。

本発明のいくつかの実施形態において、ステップS240及びS250において利用される深層学習モデルは、畳み込みニューラルネットワークを含んでもよい。畳み込みニューラルネットワークは、予備トレーニングサンプルにしたがって、さまざまな特徴を比較し、そして、さまざまな特徴の間の関連性にしたがって、最終的な決定結果を出力することが可能であるので、さまざまなシナリオ、姿勢、及び周辺光について、眼球の開放及び閉鎖の状態をより正確に決定することが可能であり、そして、ユーザのための基準として役立つように、その決定された眼球の状態の信頼性を出力してもよい。

画像登録によって、検出されるべき画像の中の眼球領域を正規化し、そして、深層学習モデルを使用して、眼球の開放及び閉鎖の状態をより正確に決定するのに、本発明の実施形態によって提供される眼球状態検出システム及びその眼球状態検出システムの動作方法を採用してもよい。その結果、運転補助システム又はディジタルカメラ等のさまざまな分野の撮影機能に、その閉眼検出をより効果的に適用することが可能である。

当業者は、本発明の教示を心に留めながら、デバイス及び方法の数多くの修正及び変更を行うことが可能であるということを容易に理解するであろう。したがって、上記の開示は、添付の特許請求の範囲の境界及び限界によってのみ限定されると解釈されるべきである。

Claims

眼球状態検出システムを動作させる方法であって、前記眼球状態検出システムは、画像プロセッサ及び深層学習プロセッサを含み、当該方法は、
前記画像プロセッサが、検出されるべき画像を受信するステップと、
前記画像プロセッサが、複数の顔面特徴点にしたがって、検出されるべき前記画像から眼球領域を識別するステップと、
前記画像プロセッサが、検出されるべき前記受信した画像の中の前記識別した眼球領域に対してアフィン変換演算を実行して、前記識別した眼球領域が、検出されるべき変換された画像の中で特定のサイズ及び特定の方向を有することを可能にすることによって、前記眼球領域に対して画像登録を実行して、検出されるべき正規化された眼球画像を生成するステップと、
前記深層学習プロセッサが、深層学習モデルにしたがって、検出されるべき前記正規化された眼球画像から、複数の眼球特徴を抽出するステップと、
前記深層学習プロセッサが、前記複数の眼球特徴及び前記深層学習モデルの中の複数のトレーニングサンプルにしたがって、前記眼球領域の中の眼球状態を出力するステップと、を含み、
前記画像プロセッサが、検出されるべき前記受信した画像の中の前記識別した眼球領域に対してアフィン変換演算を実行する前記ステップは、
前記画像プロセッサが、前記眼球領域の眼球端部の座標行列を定義するステップと、
前記画像プロセッサが、前記眼球端部の座標行列にしたがって、ターゲット変換行列を定義するステップであって、前記ターゲット変換行列は、検出されるべき前記正規化された眼球画像の変換された眼球端部の座標を含む、ステップと、
前記画像プロセッサが、前記ターゲット変換行列の転置行列と前記ターゲット変換行列とを乗算して、第1の行列を生成するステップと、
前記画像プロセッサが、前記第1の行列の逆行列に前記ターゲット変換行列の前記転置行列及び前記眼球端部の座標行列を乗算して、アフィン変換パラメータ行列を生成するステップと、
前記画像プロセッサが、前記アフィン変換パラメータ行列を使用することによって、前記眼球領域を処理して、検出されるべき前記正規化された眼球画像を生成するステップと、を含む、
方法。
前記画像プロセッサが、前記複数の顔面特徴点にしたがって、検出されるべき前記画像から前記眼球領域を識別する前記ステップは、
前記複数の顔面特徴点にしたがって、検出されるべき前記画像から、顔面領域を識別するステップと、
複数の眼球重要点にしたがって、前記顔面領域から前記眼球領域を識別するステップと、を含む、請求項1に記載の方法。
前記深層学習モデルは、畳み込みニューラルネットワークである、請求項1に記載の方法。
前記ターゲット変換行列及び前記アフィン変換パラメータ行列の積が、前記眼球端部の座標行列である、請求項1に記載の方法。
眼球状態検出システムであって、
検出されるべき画像を受信し、複数の顔面特徴点にしたがって、検出されるべき前記画像から眼球領域を識別し、そして、検出されるべき前記受信した画像の中の前記識別した眼球領域に対してアフィン変換演算を実行して、前記識別した眼球領域が、検出されるべき変換された画像の中で特定のサイズ及び特定の方向を有することを可能にすることによって、前記眼球領域に対して画像登録を実行して、検出されるべき正規化された眼球画像を生成する、ように構成される画像プロセッサと、
深層学習モデルにしたがって、検出されるべき前記正規化された眼球画像から、複数の眼球特徴を抽出し、そして、前記複数の眼球特徴及び前記深層学習モデルの中の複数のトレーニングサンプルにしたがって、前記眼球領域の中の眼球状態を出力する、ように構成される深層学習プロセッサと、を含み、
前記画像プロセッサは、前記眼球領域の眼球端部の座標行列を定義し、前記眼球端部の座標行列にしたがって、ターゲット変換行列を定義し、前記ターゲット変換行列の転置行列と前記ターゲット変換行列とを乗算して、第1の行列を生成し、前記第1の行列の逆行列に前記ターゲット変換行列の前記転置行列及び前記眼球端部の座標行列を乗算して、アフィン変換パラメータ行列を生成し、そして、前記アフィン変換パラメータ行列を使用することによって、前記眼球領域を処理して、検出されるべき前記正規化された眼球画像を生成する、ように構成され、前記ターゲット変換行列は、検出されるべき前記正規化された眼球画像の変換された眼球端部の座標を含む、
眼球状態検出システム。
前記画像プロセッサは、前記複数の顔面特徴点にしたがって、検出されるべき前記画像から、顔面領域を識別し、そして、複数の眼球重要点にしたがって、前記顔面領域から前記眼球領域を識別する、ように構成される、請求項5に記載の眼球状態検出システム。
前記深層学習モデルは、畳み込みニューラルネットワークである、請求項5に記載の眼球状態検出システム。
前記ターゲット変換行列及び前記アフィン変換パラメータ行列の積が、前記眼球端部の座標行列である、請求項5に記載の眼球状態検出システム。
コンピュータ実行可能な命令を含むコンピュータプログラムであって、前記コンピュータ実行可能な命令が眼球状態検出システムの画像プロセッサ及び深層学習プロセッサで実行されると、前記コンピュータ実行可能な命令は、
前記画像プロセッサが、検出されるべき画像を受信するステップと、
前記画像プロセッサが、複数の顔面特徴点にしたがって、検出されるべき前記画像から眼球領域を識別するステップと、
前記画像プロセッサが、検出されるべき前記受信した画像の中の前記識別した眼球領域に対してアフィン変換演算を実行して、前記識別した眼球領域が、検出されるべき変換された画像の中で特定のサイズ及び特定の方向を有することを可能にすることによって、前記眼球領域に対して画像登録を実行して、検出されるべき正規化された眼球画像を生成するステップと、
前記深層学習プロセッサが、深層学習モデルにしたがって、検出されるべき前記正規化された眼球画像から、複数の眼球特徴を抽出するステップと、
前記深層学習プロセッサが、前記複数の眼球特徴及び前記深層学習モデルの中の複数のトレーニングサンプルにしたがって、前記眼球領域の中の眼球状態を出力するステップと、を含み、
前記画像プロセッサが、検出されるべき前記受信した画像の中の前記識別した眼球領域に対してアフィン変換演算を実行する前記ステップは、
前記画像プロセッサが、前記眼球領域の眼球端部の座標行列を定義するステップと、
前記画像プロセッサが、前記眼球端部の座標行列にしたがって、ターゲット変換行列を定義するステップであって、前記ターゲット変換行列は、検出されるべき前記正規化された眼球画像の変換された眼球端部の座標を含む、ステップと、
前記画像プロセッサが、前記ターゲット変換行列の転置行列と前記ターゲット変換行列とを乗算して、第1の行列を生成するステップと、
前記画像プロセッサが、前記第1の行列の逆行列に前記ターゲット変換行列の前記転置行列及び前記眼球端部の座標行列を乗算して、アフィン変換パラメータ行列を生成するステップと、
前記画像プロセッサが、前記アフィン変換パラメータ行列を使用することによって、前記眼球領域を処理して、検出されるべき前記正規化された眼球画像を生成するステップと、を含む、方法を前記眼球状態検出システムに実行させる、
コンピュータプログラム。