JP2022517398A - ニューラルネットワークのトレーニング及び目開閉状態の検出方法、装置並び機器 - Google Patents

ニューラルネットワークのトレーニング及び目開閉状態の検出方法、装置並び機器 Download PDF

Info

Publication number
JP2022517398A
JP2022517398A JP2021541183A JP2021541183A JP2022517398A JP 2022517398 A JP2022517398 A JP 2022517398A JP 2021541183 A JP2021541183 A JP 2021541183A JP 2021541183 A JP2021541183 A JP 2021541183A JP 2022517398 A JP2022517398 A JP 2022517398A
Authority
JP
Japan
Prior art keywords
eye
closing
eye opening
neural network
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021541183A
Other languages
English (en)
Other versions
JP7227385B2 (ja
Inventor
ワン,フェイ
キャン,チェン
Original Assignee
ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド filed Critical ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Publication of JP2022517398A publication Critical patent/JP2022517398A/ja
Application granted granted Critical
Publication of JP7227385B2 publication Critical patent/JP7227385B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Abstract

本開示の実施形態は、ニューラルネットワークのトレーニング方法、目開閉状態の検出方法、インテリジェント運転制御方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを開示し、ニューラルネットワークのトレーニング方法は、トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することと、前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含み、異なる画像セットに含まれる目画像は少なくとも部分的に異なる。【選択図】図1

Description

「関連出願の相互参照」
本開示は、2019年2月28日に中国特許庁に出願された第201910153463.4号「ニューラルネットワークのトレーニング及び目開閉状態の検出方法、装置並び機器」を発明の名称とした中国特許出願の優先権を主張し、その内容全体が引用により本開示に組み込まれる。
本開示はコンピュータビジュアルテクノロジーに関し、特にニューラルネットワークのトレーニング方法、ニューラルネットワークのトレーニング装置、目開閉状態の検出方法、目開閉状態の検出装置、インテリジェント運転制御方法、インテリジェント運転制御装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムに関する。
目開閉状態の検出は、つまり目開閉状況を検出することである。目開閉状態の検出は疲労監視、生体認識、表情認識などの分野に用いることができる。例えば、運転支援技術において、運転手に対して目開閉状態の検出を行い、目開閉状態の検出結果に基づいて、運転手が疲労運転の状態にあるかを判断して疲労運転の監視を実現する必要がある。目開閉状態を正確に検出し、誤判断をなるべく回避することは車両走行の安全性の向上に有利である。
本開示の実施形態はニューラルネットワークトレーニング、目開閉状態の検出及びインテリジェント運転制御の技術方案を提供する。
本開示の実施形態の一側面では、トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することと、前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含み、異なる画像セットに含まれる目画像は少なくとも部分的に異なる、ニューラルネットワークのトレーニング方法を提供する。
本開示の実施形態の別の側面では、被処理画像を取得することと、ニューラルネットワークを介して、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することと、を含み、前記ニューラルネットワークは上記の実施形態に記載のニューラルネットワークのトレーニング方法によりトレーニングして得たものである、目開閉状態の検出方法を提供する。
本開示の実施形態の別の側面では、車両に搭載される撮影装置により収集された被処理画像を取得することと、ニューラルネットワークを介して、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することと、少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の疲労状態を決定することと、前記対象者の疲労状態に応じて、指令を生成し出力することと、を含み、前記ニューラルネットワークは上記の実施形態に記載のニューラルネットワークのトレーニング方法でトレーニングされたものである、インテリジェント運転制御方法を提供する。
本開示の実施形態の別の側面では、少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することに用いられるトレーニング対象の目開閉検出用ニューラルネットワークと、前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することに用いられる調整モジュールと、を含み、異なる画像セットに含まれる目画像は少なくとも部分的に異なる、ニューラルネットワークのトレーニング装置を提供する。
本開示の実施形態の別の側面では、被処理画像を取得することに用いられる取得モジュールと、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられるニューラルネットワークと、を含み、前記ニューラルネットワークは上記の実施形態に記載のニューラルネットワークのトレーニング装置でトレーニングされたものである、目開閉状態の検出装置を提供する。
本開示の実施形態の別の側面では、車両に搭載される撮影装置により収集された被処理画像を取得することに用いられる取得モジュールと、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられるニューラルネットワークと、少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の疲労状態を決定することに用いられる疲労状態決定モジュールと、前記対象者の疲労状態に応じて、指令を生成し出力することに用いられる指令モジュールと、を含み、前記ニューラルネットワークは上記の実施形態に記載のニューラルネットワークのトレーニング装置でトレーニングされたものである、インテリジェント運転制御装置を提供する。
本開示の実施形態の別の側面では、コンピュータプログラムを記憶するためのメモリと、前記メモリに記憶されたコンピュータプログラムを実行し、かつ前記コンピュータプログラムが実行されると、本開示のいずれかの方法の実施形態を実現させるプロセッサと、を含む電子機器を提供する。
本開示の実施形態の別の側面では、プロセッサにより実行されると、本開示のいずれかの方法の実施形態を実現させるコンピュータプログラムを記憶したコンピュータ読み取り可能な記憶媒体を提供する。
本開示の実施形態の別の側面では、機器のプロセッサにおいて実行されると、本開示のいずれかの方法の実施形態を実現させるコンピュータ命令を含む、コンピュータプログラムを提供する。
本開示の実施例を実施する過程において、発明者らは、従来の単一タスクをトレーニングするニューラルネットワークにおいて、当該タスクの画像セットに対してトレーニングされたニューラルネットワークについて、当該タスクに対応するシーンでは比較的良い目開閉検出の正確率を有するが、当該タスクに対応しない他のシーンでは目開閉検出の正確度を確保することは困難であることを見出した。単に異なるシーンで収集された複数の画像をニューラルネットワークトレーニング用の1画像セットとし、画像セット内の画像が異なるシーンのものであるか、異なるトレーニングタスクに対応するかを区別しないと、この1画像セットからューラルネットワークトレーニングへ毎回入力された画像サブセット(バッチ)の分布は制御できず、あるシーンの画像が多くあるが、他のシーンの画像が少なく、ひいてはない可能性があり、異なる反復トレーニングされた画像サブセットセの分布も完全に同じではない。つまり、ニューラルネットワークの反復毎に画像サブセットの分布がランダムすぎ、異なるトレーニングタスクに対して損失計算が実行されず、トレーニングプロセスにおいて各異なるトレーニングタスクを考慮したニューラルネットワークの能力学習を制御できない。そのため、トレーニングされたニューラルネットワークは異なるタスクに対応する異なるシーンでの目開閉検出の正確性を確保することができない。
本開示に係るニューラルネットワークのトレーニング方法及び装置、目開閉状態の検出方法及び装置、インテリジェント運転制御方法及び装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムにより、複数の異なる目開閉検出タスクから対応する画像セットをそれぞれ決定し、複数の画像セットからニューラルネットワークの一回のトレーニングにおける複数の目画像を決定し、複数の画像セットからの目画像に基づいて当該トレーニングにおける各トレーニングタスクの目開閉検出結果に関するニューラルネットワークの損失をそれぞれ決定し、各損失に基づいてニューラルネットワークのネットワークパラメータを調整する。このようにして、ニューラルネットワークの毎回の反復トレーニングにニューラルネットワークに提供された目画像のサブセットに各トレーニングタスクに対応する目画像が含まれ、各トレーニングタスクに対して損失が計算されるため、ニューラルネットワークのトレーニングプロセスにおいて、トレーニングタスク毎に目の開閉能力の検出に関する能力学習が可能であり、異なるトレーニングタスクを考慮した能力学習を行なうことができる。これにより、トレーニングされたニューラルネットワークは複数のトレーニングタスクに対応する複数のシーンにおける各シーンでの目画像の目開閉検出の正確性を同時に高めることができ、当該ニューラルネットワークに基づいて異なるシーンで目開閉を正確に検出する発明の普遍性と一般化の向上を促進し、複数シーンに関する実際の応用ニーズをより良く満たすために有利である。
以下に図面及び実施形態を参照しながら本開示の技術方案を更に詳しく説明する。
本明細書の図面は、明細書の一部分として本開示の実施形態を説明し、その説明と共に本開示の原理を解釈するために用いられる。
図面を参照しながら、以下の詳細な説明により、本開示がより明瞭になる。
本開示のニューラルネットワークのトレーニング方法の一実施形態のフローチャートを示す。 本開示の目開閉状態の検出方法の一実施形態のフローチャートを示す。 本開示の目開閉状態の検出方法の一実施形態のフローチャートを示す。 本開示のインテリジェント運転制御方法の一実施形態のフローチャートを示す。 本開示のニューラルネットワークのトレーニング装置の一実施形態の構成の模式図を示す。 本開示の目開閉状態の検出装置の一実施形態の構成模式図を示す。 本開示のインテリジェント運転制御装置の一実施形態の構成模式図を示す。 本開示の実施形態の例示的な機器のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例を詳細に説明する。特に説明がない限り、これらの実施例に記述される手段及びステップの相対的な配置、数式及び数値は本開示の範囲を限定するものではない。
また、説明の便利のため、図面に示される各部分の寸法が実際の比例関係にしたがって描かれるものではないことは理解されるべきである。
以下に少なくとも1つの例示的実施例の記述は実際に、説明的なものに過ぎず、本開示及びそれの応用または使用に対する如何なる限定ではない。
関連分野の一般的な技術者に周知された技術、方法及び機器について詳細な検討はされない場合があるが、適当な場合に、かかる技術、方法及び機器は本明細書の一部としてみなされるべきである。
なお、類似の符号及びや文字は類似の要素を示す。そのため、ある要素が1つの図面において定義されると、それについてその後の図面で更に検討する必要はないことに注意すべきである。
本開示実施例は、端末装置、コンピュータシステム及びサーバなど電子機器に用いることができ、他の多くの汎用または専用のコンピュータシステム環境または構成とともに操作されることができる。端末装置、コンピュータシステム及びサーバなど電子機器とともに使用さることに適する公知の端末装置、コンピュータシステム、環境および/または構成の例として、パソコンシステム、サーバコンピュータシステム、シン・クライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電子機器、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステムおよび上述のシステムのいずれかを含む分散型クラウドコンピューティングテクノロジー環境などを含むが、これらに限定されない。
端末装置、コンピュータシステム及びサーバなど電子機器はコンピュータシステムによって実行されるコンピュータシステムの実行可能命令(プログラムモジュールなど)の一般的なコンテキストで記述され得る。一般に、プログラムモジュールには、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクトプログラム、コンポーネント、ロジック、データ構造などが含まれ得る。コンピュータシステム/サーバ は、分散型クラウドコンピューティング環境で実施可能であり、分散型クラウドコンピューティング環境では、タスクは、通信ネットワークを介してリンクされたリモート処理装置によって実行される。分散型クラウドコンピューティング環境では、プログラムモジュールは、記憶装置を含むローカルまたはリモートコンピューティングシステムの記憶媒体に配置できる。
例示的な実施例
図1は本開示のニューラルネットワークのトレーニング方法の一実施形態のフローチャートを示す。図1に示すように、この実施例に係る方法は、ステップ:S100及びS110を含む。以下に図1の各ステップをそれぞれ詳しく説明する。
S100、トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行い、目開閉状態の検出結果を出力する。
選択可能な一例において、本開示のトレーニング対象の目開閉検出用ニューラルネットワークはトレーニングされた後、被処理画像に対して目開閉状態の検出を行い、被処理画像の目開閉状態の検出結果を出力することに用いることができる。例えば、1つの被処理画像に対して、ニューラルネットワークは2つの確率値を出力し、そのうちの1つの確率値は被処理画像における対象者の目が開いている状態にある確率を示し、この確率値が大きいほど、開眼状態に近いことを表す。そのうちのもう1つの確率値は被処理画像における対象者の目が閉じている状態にある確率を示し、この確率値が大きいほど、閉眼状態に近いことを表す。2つの確率値の和は1であってもよい。
選択可能な一例において、本開示のニューラルネットワークは畳み込みニューラルネットワークであってもよい。本開示のニューラルネットワークは畳み込み層 、Relu(Rectified Linear Unit、正規化線形ユニット)層(活性化層とも呼ばれる)、プーリング層、全結合層及び分類用(例えば2項分類)の層などを含んでもよいが、これらに限定されない。このニューラルネットワークに含まれる層数が多いほど、ネットワークが深い。本開示はニューラルネットワークの具体的な構成を限定しない。
選択可能な一例において、本開示でニューラルネットワークをトレーニングするプロセスに関わる目開閉検出のトレーニングタスクは少なくとも2つあり、かつそれぞれの目開閉検出トレーニングタスクはいずれもニューラルネットワークに目開閉状態の検出を実現させるためのトレーニングタスク全体に属すべきである。異なる目開閉検出トレーニングタスクに対応するトレーニング目標は完全に同じではない。つまり、本開示は以ニューラルネットワークのトレーニングタスク全体を複数のトレーニングタスクに分けることができ、1つのトレーニングタスクは1つのトレーニング目標に対応し、かつ異なるトレーニングタスクに対応するトレーニング目標が異なる。
選択可能な一例において、本開示の少なくとも2つの目開閉検出トレーニングタスクは、目に装着物が装着されている場合の目開閉検出タスク、目に装着物が装着されない場合の目開閉検出タスク、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクのうちの少なくとも2つを含んでもよい。上記装着物は眼鏡または透明なプラスチックシートなどであってもよい。上記スポットは装着物が反射することによって装着物に形成されたスポットであってもよい。本開示の眼鏡は通常、レンズを通して着用者の目を見ることができる眼鏡を指す。
所望により、目に装着物が装着されている場合の目開閉検出タスクは、眼鏡をかけている目開閉検出タスクであってもよい。この眼鏡をかけている目開閉検出タスクは室内の眼鏡をかけている目開閉検出及び室外の眼鏡をかけている目開閉検出のうちの少なくとも1つを実現できる。
所望により、目に装着物が装着されない場合の目開閉検出タスクは、眼鏡をかけていない目開閉検出タスクであってもよい。この眼鏡をかけていない目開閉検出タスクは室内の眼鏡をかけていない目開閉検出及び室外の眼鏡をかけていない目開閉検出のうちの少なくとも1つことを実現できる。
所望により、室内環境での目開閉検出タスクは、室内の眼鏡をかけていない目開閉検出、室内で眼鏡をかけており、かつ眼鏡が反射した目開閉検出、及び室内で眼鏡をかけており、かつ眼鏡が反射していない目開閉検出のうちの少なくとも1つを実現できる。
所望により、室外環境での目開閉検出タスクは、室外の眼鏡をかけていない目開閉検出、室外で眼鏡をかけており、かつ眼鏡が反射した目開閉検出、及び室外で眼鏡をかけており、かつ眼鏡が反射していない目開閉検出のうちの少なくとも1つことを実現できる。
所望により、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスクは眼鏡をかけており、かつ眼鏡が反射した目開閉検出タスクであってもよい。この眼鏡をかけており、かつ眼鏡が反射した目開閉検出タスクは、室内で眼鏡をかけており、かつ眼鏡が反射した目開閉検出及び室外で眼鏡をかけており、かつ眼鏡が反射した目開閉検出のうちの少なくとも1つを実現できる。
所望により、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクは眼鏡をかけており、かつ眼鏡が反射していない目開閉検出タスクであってもよい。この眼鏡をかけており、かつ眼鏡が反射していない目開閉検出タスクは、室内で眼鏡をかけており、かつ眼鏡が反射していない目開閉検出及び室外で眼鏡をかけており、かつ眼鏡が反射していない目開閉検出のうちの少なくとも1つを実現できる。
上記内容から分かるように、本開示の異なる目開閉検出トレーニングタスクの間に共通部分があり、例えば、眼鏡をかけている目開閉検出タスクは、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクとそれぞれ共通部分があってもよい。ここで、上記列記した6つの目開閉検出トレーニングタスクの間に共通部分があることについては、一々説明しない。また、本開示はかかる目開閉検出トレーニングタスクの数を限定せず、かつ目開閉検出トレーニングタスクの数は実際の需要に応じて決定することができる。本開示はいずれかの目開閉検出トレーニングタスクの具体化される形式も限定しない。
所望により、図2に示すように、本開示の少なくとも2つの目開閉検出トレーニングタスクは、下記3つの目開閉検出トレーニングタスクを含んでもよい。
目開閉検出トレーニングタスクa、室内環境での目開閉検出トレーニングタスク。
目開閉検出トレーニングタスクb、室外環境での目開閉検出タスク。
目開閉検出トレーニングタスクc、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク。
目開閉検出トレーニングタスクaと目開閉検出トレーニングタスクbとの間には共通部分がなく、トレーニングタスクaとトレーニングタスクcとの間には共通部分があってもよく、トレーニングタスクbとトレーニングタスクcとの間には共通部分があってもよい。
選択可能な一例において、本開示の少なくとも2つの目開閉検出トレーニングタスクはそれぞれ対応する画像セットがあり、例えば、図2の目開閉検出トレーニングタスクa、目開閉検出トレーニングタスクb及び目開閉検出トレーニングタスクcはそれぞれ対応する画像セットがある。通常、各画像セット毎に複数の目画像が含まれる。異なる画像セットに含まれる目画像は少なくとも部分的に異なる。つまり、1つの画像セットにとって、この画像セット内の少なくもと一部の目画像は他の画像セットにない。所望により、異なる画像セットに含まれる目画像は共通部分があってもよい。
所望により、上記列記した6つの目開閉検出トレーニングタスクのそれぞれに対応する画像セットはそれぞれ、目に装着物が装着されている目画像セット、目に装着物が装着されない目画像セット、室内環境で収集した目画像セット、室外環境で収集した目画像セット、目に装着物が装着され且つ装着物にスポットがある目画像セット、目に装着物が装着され且つ装着物にスポットがない目画像セットであってもよい。
所望により、目に装着物が装着されている目画像セットのうちの全ての目画像は眼鏡をかけている目画像であってもよく、例えば、この目画像セットは、室内環境で収集した眼鏡をかけている目画像及び室外環境で収集した眼鏡をかけている目画像を含んでもよい。
所望により、目に装着物が装着されない目画像セットのうちの全ての画像は眼鏡をかけていない目画像であってもよく、例えば、この目画像セットは、室内環境で収集した眼鏡をかけていない目画像及び室外環境で収集した眼鏡をかけていない目画像を含んでもよい。
所望により、室内環境で収集した目画像セットは室内環境で収集した眼鏡をかけていない目画像、及び室内環境で収集した眼鏡をかけている目画像を含んでもよい。
所望により、室外環境で収集した目画像セットは室外環境で収集した眼鏡をかけていない目画像、及び室外環境で収集した眼鏡をかけている目画像を含んでもよい。
所望により、目に装着物が装着され且つ装着物にスポットがある目画像セットのうちの全ての目画像は眼鏡をかけており、かつ眼鏡にスポットがある目画像であってもよい。例えば、この目画像セットは、室内環境で収集した眼鏡をかけており、かつ眼鏡にスポットがある目画像及び室外環境で収集した眼鏡をかけており、かつ眼鏡にスポットがある目画像を含んでもよい。
所望により、目に装着物が装着され且つ装着物にスポットがない目画像セットのうちの全ての目画像は眼鏡をかけており、かつ眼鏡にスポットがない目画像であってもよい。例えば、この目画像セットは、室内環境で収集した眼鏡をかけており、かつ眼鏡にスポットがない目画像及び室外環境で収集した眼鏡をかけており、かつ眼鏡にスポットがない目画像を含んでもよい。
選択可能な一例において、本開示に含まれる画像セットは本開示に含まれる目開閉検出トレーニングタスクによって決定される。例えば、本開示は上記6つの目開閉検出トレーニングタスクのうちの少なくとも2つを含むと、本開示はこの少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する目画像セットを含むことになる。
選択可能な一例において、本開示のニューラルネットワークのトレーニングプロセスに用いられる目画像は目画像サンプルと呼んでもよく、通常、目画像サンプルの画像コンテンツには目が含まれる。本開示の目画像サンプルは、通常、片眼に基づく目画像サンプルである。すなわち、目画像サンプルの画像コンテンツは両眼を含まず、片眼を含む。所望により、目画像サンプルは片側の目に基づく目画像サンプルであってもよい。例えば、左目に基づく目画像サンプルであってもよい。当然、本開示は目画像サンプルが両目に基づく目画像サンプルまたはいずれか側の目に基づく目画像サンプルである場合を除外しない。
選択可能な一例において、本開示の目画像は通常、撮影装置により撮影した目を含む画像から切り取った目画像ブロックであってもよい。例えば、本開示における目画像を形成する過程は、撮影装置により撮影した画像に対して目の検出を行い、画像における目の部分を決定し、そして、検出された目の部分を画像から切り取り、所望により、本開示は切り取った画像ブロックに対してズームおよび/または画像コンテンツのマッピング(たとえば、右目画像ブロックは、画像コンテンツのマッピングを通じて左目画像ブロックに変換される)などの処理をし、目開閉検出用ニューラルネットワークをトレーニングするための目画像を形成することを含み得る。当然、本開示における目画像は撮影装置により撮影した、目を含む完全な画像を目画像とする可能性を除外しない。また、本開示における目画像は対応するトレーニングサンプルセットにおける目画像であってもよい。
選択可能な一例において、本開示における目開閉検出用ニューラルネットワークをトレーニングするための目画像は、通常、ラベリング情報を有し、かつこのラベリング情報は目画像における目開閉状態を表すことができる。つまり、ラベリング情報は目画像における目が開眼状態にあるか、また閉眼状態にあるかを表すことができる。1つの選択可能な例において、目画像のラベリング情報が1であることは、この目画像における目が開眼状態にあることを表し、目画像のラベリング情報が0であることは、この目画像における目が閉眼状態にあることを表す。
選択可能な一例において、本開示は、通常、異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得する。例えば、図2において、目開閉検出トレーニングタスクaに対応する画像セットから対応する枚数の目画像を取得してトレーニング対象の目開閉検出用ニューラルネットワークに提供し、目開閉検出トレーニングタスクbに対応する画像セットから対応する枚数の目画像を取得してトレーニング対象の目開閉検出用ニューラルネットワークに提供し、目開閉検出トレーニングタスクcに対応する画像セットから対応する枚数の目画像を取得してトレーニング対象の目開閉検出用ニューラルネットワークに提供する。
1つの選択可能な例において、本開示は、異なるトレーニングタスクに予め設定された画像の枚数の比例に従って、異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得することができる。また、目画像を取得するプロセスにおいて、通常、予め設定されたバッチ処理の数も考慮する。例えば、目開閉検出トレーニングタスクa、目開閉検出トレーニングタスクb及び目開閉検出トレーニングタスクcに対して予め設定された画像の枚数の比例が1:1:1である場合、予め設定されたバッチ処理数が600であると、本開示は目開閉検出トレーニングタスクaに対応する目画像セットから200枚の目画像、目開閉検出トレーニングタスクbに対応する目画像セットから200枚の目画像、目開閉検出トレーニングタスクcに対応する目画像セットから200枚の目画像を取得することができる。
所望により、ある目開閉検出トレーニングタスクに対応する目画像セット内の目画像の枚数が、対応する枚数に達していない場合(例えば、200に達していない)、バッチ処理数に達するように他の目開閉検出トレーニングタスクに対応する目画像セットから対応する枚数の目画像を取得することができる。例えば、目開閉検出トレーニングタスクcに対応する目画像セットに100枚の目画像のみがあり、目開閉検出トレーニングタスクa及び目開閉検出トレーニングタスクbのそれぞれに対応する目画像セット内の目画像の枚数がいずれも250を超えると、目開閉検出トレーニングタスクaに対応する目画像セットから250枚の目画像、目開閉検出トレーニングタスクbに対応する目画像セットから250枚の目画像、目開閉検出トレーニングタスクcに対応する目画像セットから100枚の目画像を取得し、合計600枚の目画像を取得することができる。これにより、目画像を取得する柔軟性を高めることができる。
なお、本開示は数をランダムに設置する方法を採用して異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得することができる。本開示は異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得するための具体的な実現方法を限定しない。また、目画像セットから目画像を取得するプロセスにおいて、ラベリング情報が開閉不明な状態である目画像の取得を回避すべきであり、これにより、目開閉検出用ニューラルネットワークの検出の正確性の向上に有利である。
選択可能な一例において、本開示は取得した複数の目画像の順番をトレーニング対象の目開閉検出用ニューラルネットワークに提供し、入力された目画像毎に目開閉状態の検出処理をトレーニング対象の目開閉検出用ニューラルネットワークによりそれぞれ行うことができる。これにより、トレーニング対象の目開閉検出用ニューラルネットワークが各目画像の目開閉状態の検出結果を順番に出力する。例えば、トレーニング対象の目開閉検出用ニューラルネットワークに入力された一枚の目画像は、順番に畳み込み層の処理、全結合層の処理及び分類用の層の処理を経て後、トレーニング対象の目開閉検出用ニューラルネットワークにより2つの確率値を出力し、2つの確率値の範囲はともに0~1であり、かつ2つの確率値の和は1である。そのうちの1つの確率値は開眼状態に対応し、この確率値の大きさが1に近いほど、この目画像における目が開眼状態に近いことを表す。その内のもう一つの確率値は閉眼状態に対応し、この確率値の大きさが1に近いほど、この目画像における目が閉眼状態に近いことを表す。
S110、目画像の目開閉のラベリング情報及び上記ニューラルネットワークから出力された目開閉状態の検出結果に基づき、上記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいてニューラルネットワークのネットワークパラメータを調整する。
選択可能な一例において、本開示は各目開閉検出トレーニングタスクのそれぞれに対応する損失を決定し、全てのトレーニングタスクのそれぞれに対応する損失に基づいて総合損失を決定し、この総合損失を利用してニューラルネットワークのネットワークパラメータを調整すべきである。本開示におけるネットワークパラメータは畳み込みカーネルパラメータおよび/または行列の重みなどを含んでもよいが、これらに限定されない。本開示はネットワークパラメータに含まれる具体的な内容を限定しない。
選択可能な一例において、いずれかの目開閉検出トレーニングタスクに対して、本開示は当該トレーニングタスクに対応する画像セット内の複数の目画像のそれぞれに対してニューラルネットワークから出力した目開閉状態の検出結果のうちの最大確率値と、当該画像セット内の対応する目画像のラベリング情報に対応する境界面との間の夾角に基づいて、当該トレーニングタスクに対応する損失を決定することができる。所望により、本開示は目画像の目開閉のラベリング情報及びニューラルネットワークから出力された目開閉状態の検出結果に基づいて、A-softmax(角度付きの正規化された指数)損失関数を利用して、異なる目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、異なる目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて総合損失(例えば各損失の和)を決定し、確率的勾配降下法を採用してニューラルネットワークのネットワークパラメータを調整することができる。例えば、本開示はA-softmax損失関数を用いて各目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ算出し、全ての目開閉検出トレーニングタスクのそれぞれに対応する損失の和に基づいてバックプロパゲーション処理を行い、トレーニング対象の目開閉検出用ニューラルネットワークのネットワークパラメータを損失勾配降下の方法で更新させることができる。
上記内容から分かるように、本開示はニューラルネットワークをトレーニングするプロセスにおいて、毎回の反復トレーニングにニューラルネットワークに提供された全ての目画像は1つの目画像のサブセットを形成することができる。この目画像のサブセットには、各トレーニングタスクに対応する目画像が含まれる。本開示は各トレーニングタスクに対して損失を計算するため、ニューラルネットワークはトレーニングのプロセスにおいて、トレーニングタスク毎に目の開閉能力の検出に関する能力学習が可能であり、異なるトレーニングタスクを考慮した能力学習を行なうことができる。これにより、トレーニングされたニューラルネットワークは複数のトレーニングタスクに対応する複数のシーンにおける各シーンでの目画像の目開閉検出の正確性を同時に高めることができ、当該ニューラルネットワークに基づいて異なるシーンで目開閉を正確に検出する発明の普遍性と一般化の向上を促進し、複数シーンに関する実際の応用ニーズをより良く満たすために有利である。
本開示におけるA-softmax損失関数は下記の式(1)で示すことができる。
Figure 2022517398000002
式(1)
上記式(1)において、Langは1つのトレーニングタスクに対応する損失を表し、Nは当該トレーニングタスクの目画像の枚数を表し、||*||は*のモデュラス(Modulus)を表し、xは当該トレーニングタスクに対応するi番目の目画像を表し、yは当該トレーニングタスクに対応するi番目の目画像のラベリング値を表し、mは常数であって、mの最小値が通常、所定値以上、例えば2+√3以上であり、
Figure 2022517398000003
は、i番目の目画像について、ニューラルネットワークから出力された目開閉状態の検出結果のうちの最大確率値と、ラベリング値に対応する境界面との間の夾角を表す。
Figure 2022517398000004
は、mと上記夾角との積を表す。
選択可能な一例において、トレーニング対象の目開閉検出用ニューラルネットワークに対するトレーニングが所定の反復条件に達した時、このトレーニングプロセスが終了する。本開示における所定の反復条件は、目画像に対してトレーニング対象の目開閉検出用ニューラルネットワークが出力した目開閉状態の検出結果と目画像のラベリング情報との間の差異が、所定差異の要求を満たすことを含んでもよい。差異が所定の差異要求を満たした場合、ニューラルネットワークに対する今回のトレーニングが成功に完了された。また、本開示における所定の反復条件は、トレーニング対象の目開閉検出用ニューラルネットワークをトレーニングし、使用される目画像の枚数が所定の枚数の要求に達したことなどを含んでもよい。使用される目画像の枚数が所定の枚数の要求に達したが、差異が所定の差異要求を満たしてない場合、ニューラルネットワークに対する今回のトレーニングが成功ではない。成功にトレーニングされたニューラルネットワークは目開閉状態の検出処理に用いることができる。
本開示は異なるトレーニングタスクの損失に基づいて総合損失を形成し、総合損失を利用して目開閉検出用ニューラルネットワークのネットワークパラメータを調整し、ニューラルネットワークがトレーニングプロセスにおいて、トレーニングタスク毎に目の開閉能力の検出に関する能力学習が可能であり、異なるトレーニングタスクを考慮した能力学習を行なうことができる。これにより、トレーニングされたニューラルネットワークは複数のトレーニングタスクに対応する複数のシーンにおける各シーンでの目画像の目開閉検出の正確性を同時に高めることができ、当該ニューラルネットワークに基づいて異なるシーンで目開閉を正確に検出する発明の普遍性と一般化の向上を促進し、複数シーンに関する実際の応用ニーズをより良く満たすために有利である。
図3は本開示の目開閉状態の検出方法の一実施形態のフローチャートを示す。
図3に示すように、この実施例の方法はステップ:S300及びS310を含む。以下に、図3における各ステップをそれぞれ詳しく説明する。
S300、被処理画像を取得する。
選択可能な一例において、本開示の被処理画像は、静止的な画像または写真など画像であってもよく、または動的ビデオのビデオフレーム、例えば、移動物体上に設定された撮影装置によって撮影されたビデオのビデオフレームであってもよく、別の例では、固定位置に設定された撮影装置によって撮影されたビデオのビデオフレームであってもよい。上記移動物体は、車両、ロボット、またはロボットアームであってもよい。上記固定位置はデスクまたは壁であってもよい。本開示は、移動物体および固定位置の具体化される形式を限定しない。
選択可能な一例において、本開示は被処理画像を取得した後、被処理画像における目の位置領域を検出することができる。例えば、顔検出または顔のキーポイント検出方法などにより、被処理画像の目のバウンディングボックスを決定することができる。その後、本開示は目のバウンディングボックスに基づいて目の領域の画像を被処理画から切り取り、切り取った目画像ブロックがニューラルネットワークに提供される。当然、切り取った目画像ブロックは一定の前処理をされた後にニューラルネットワークに提供され得る。例えば、切り取った目画像ブロックに対してズーム処理を行い、ズーム処理された目画像ブロックの大きさをニューラルネットワークに入力された画像の寸法要求を満足させる。別の例では、対象者の両眼の目画像ブロックを切り取った後、所定側の目画像ブロックに対してマッピング処理を行い、対象者の2つの同一側の目画像ブロックを形成させる。所望により、2つの同一側の目画像ブロックに対してもズーム処理を行なうことができる。本開示は被処理画像から目画像ブロックを切り取るための具体的な実現方法を限定せず、切り取った目画像ブロックに対して前処理を行なうための具体的な実現方法も限定しない。
S310、ニューラルネットワークを介して、上記被処理画像に対して、目開閉状態の検出処理を行い、目開閉状態の検出結果を出力する。本開示におけるニューラルネットワークは本開示におけるニューラルネットワークのトレーニング方法の実施形態を利用して成功にトレーニングして得たものである。
選択可能な一例において、入力された目画像ブロックに対して本開示におけるニューラルネットワークから出力された目開閉状態の検出結果は少なくとも1つの確率値、例えば、目が開眼状態にあることを示す確率値及び目が閉眼状態にあることを示す確率値であってもよい。この2つの確率値の範囲はともに0~1であり、同一の目画像ブロックに対する2つの確率値の和は1である。目が開眼状態にあることを示す確率値の大きさが1に近いほど、目画像ブロックにおける目が開眼状態に近いことを表す。目が閉眼状態にあることを示す確率値の大きさが1に近いほど、目画像ブロックにおける目が閉眼状態に近いことを表す。
選択可能な一例において、本開示はニューラルネットワークから出力された、時系列の目開閉状態の検出結果に対して更に判断することができる。これにより、時系列の複数の被処理画像における対象者の目の動作、例えば、速くまばたく動作、または1つの目を開け、もう1つの目を閉じる動作、または目を細める動作などを決定することができる。
選択可能な一例において、本開示はニューラルネットワークから出力された時系列の目開閉状態の検出結果及び対象者の顔の他の器官の状態に基づいて、時系列の複数の被処理画像における対象者の表情、例えば、微笑み、大笑いまたは泣きまたは悲しみなどを決定することができる。
選択可能な一例において、本開示はニューラルネットワークから出力された時系列の目開閉状態の検出結果に対して更に判断することができる。これにより、時系列の複数の被処理画像における対象者の疲労状態、例えば、軽度の疲労または居眠りまたは熟睡などを決定することができる。
選択可能な一例において、本開示はニューラルネットワークから出力された、時系列の目開閉状態の検出結果に対して更に判断することができる。これにより、時系列の複数の被処理画像における対象者の目の動作を決定することができるため、本開示は少なくとも目の動作に基づいて時系列の複数の被処理画像における対象者で表される対話制御情報を決定することができる。
選択可能な一例において、本開示によって決定される目の動作、表情、疲労状態及び対話制御情報は様々な用途として利用することができる。例えば、対象者の所定の目の動作および/または表情を使用して、ライブ/中継中の所定の特殊効果をトリガーするか、または対応する人間とコンピュータの相互作用などを実現して、用途の実現方法を多様にすることに有利である。別の例では、インテリジェント運転技術において、運転手の疲労状態をリアルタイムに検出することにより、疲労運転の現象の防止に有利である。本開示はニューラルネットワークから出力された目開閉状態の検出結果の具体的な応用を限定しない。
図4は本開示のインテリジェント運転制御方法の一実施形態のフローチャートを示す。本開示のインテリジェント運転制御方法は自動運転環境に適用することができ、巡航運転環境にも適用することができる。本開示はインテリジェント運転制御方法の適用環境を限定しない。
図4に示すように、この実施例の方法はステップ:S400、S410、S420及びS430を含む。以下に図4における各ステップを詳しく説明する。
S400、車両に搭載される撮影装置により収集された被処理画像を取得する。本ステップの具体的な実現方法は上記方法の実施形態における図3のS300に関する説明を参照されたく、ここでその詳細を省略する。
S410、ニューラルネットワークを介して、上記被処理画像に対して、目開閉状態の検出処理を行い、目開閉状態の検出結果を出力する。本実施例のニューラルネットワークは上記ニューラルネットワークのトレーニング方法の実施形態を利用して成功にトレーニングして得たものである。本ステップの具体的な実現方法は上記方法の実施形態における図3のS310に関する説明を参照されたく、ここでその詳細を省略する。
S420、少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて対象者の疲労状態を決定する。
選択可能な一例において、本開示の対象者は、通常、車両の運転手である。本開示は同一対象者に属し、かつ時系列の複数の目開閉状態の検出結果に基づいて、この対象者(例えば運転手)が単位時間当たりにまばたく回数、1回当たりの閉眼時間または1回当たりの開眼時間などの指標パラメータを決定することができ、これにより、所定の指標要求を用いて対応する指標パラメータを更に判断し、対象者(例えば運転手)が疲労状態にあるか否かを決定することができる。本開示における疲労状態は例えば、軽度の疲労状態、中度の疲労状態または重度の疲労状態など様々の異なる度合いの疲労状態を含んでもよい。本開示は対象者の疲労状態を決定するための具体的な実現方法を限定しない。
S430、対象者の疲労状態に応じて、指令を生成し出力する。
選択可能な一例において、本開示は対象者の疲労状態に応じて生成された指令として、インテリジェント運転状態への切り替え指令、疲労運転の音声警告指令、振動ウェイクアップ指令及び危険な運転情報の報知指令などのうちの少なくとも1種を含んでもよい。本開示は指令の具体化される形式を限定しない。
本開示のニューラルネットワークのトレーニング方法でトレーニングされたニューラルネットワークは、ニューラルネットワークの目開閉状態の検出結果の正確性の向上に有利である。そのため、このニューラルネットワークから出力された目開閉状態の検出結果を用いて疲労状態を判断することは、疲労状態検出の正確性の向上に役立ち、検出された疲労状態の検出結果に応じて指令を生成し、疲労運転の回避、更に運転の安全性に有利である。
図5は本開示のニューラルネットワークのトレーニング装置の一実施形態の構成模式図を示す。図5に示すニューラルネットワークのトレーニング装置は、トレーニング対象の目開閉検出用ニューラルネットワーク500及び調整モジュール510を含む。所望により、この装置はさらに、入力モジュール520を含んでもよい。
トレーニング対象の目開閉検出用ニューラルネットワーク500は少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像に対して、それぞれ開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられる。異なる画像セットに含まれる目画像は少なくとも部分的に異なる。
選択可能な一例において、本開示のトレーニング対象の目開閉検出用ニューラルネットワーク500はトレーニングされた後、被処理画像に対して目開閉状態の検出を行い、被処理画像の目開閉状態の検出結果を出力することに用いることができる。例えば、1つの被処理画像に対して、ニューラルネットワーク5002つの確率値を出力し、そのうちの1つの確率値は被処理画像における対象者の目が開いている状態にある確率を示し、この確率値が大きいほど、開眼状態に近いことを表す。そのうちのもう1つの確率値は被処理画像における対象者の目が閉じている状態にある確率を示し、この確率値が大きいほど、閉眼状態に近いことを表す。2つの確率値の和は1であってもよい。
選択可能な一例において、本開示におけるニューラルネットワーク500は畳み込みニューラルネットワークであってもよい。本開示におけるニューラルネットワーク500は畳み込み層、Relu層(活性化層とも呼ばれる)、プーリング層、全結合層及び分類用(例えば2項分類)の層などを含んでもよいが、これらに限定されない。このニューラルネットワーク500に含まれる層数が多いほど、ネットワークが深い。本開示はニューラルネットワーク500の具体的な構成を限定しない。
選択可能な一例において、本開示でニューラルネットワーク500をトレーニングするプロセスに関わる目開閉検出トレーニングタスクは少なくとも2つあり、かつそれぞれの目開閉検出トレーニングタスクはいずれもニューラルネットワークに目開閉状態の検出を実現させるためのトレーニングタスク全体に属すべきである。異なる目開閉検出トレーニングタスクに対応するトレーニング目標が完全に同じではない。つまり、本開示は以ニューラルネットワーク500のトレーニングタスク全体を複数のトレーニングタスクに分けることができ、1つのトレーニングタスクは1つのトレーニング目標に対応し、かつ異なるトレーニングタスクに対応するトレーニング目標が異なる。
選択可能な一例において、本開示の少なくとも2つの目開閉検出トレーニングタスクは、目に装着物が装着されている場合の目開閉検出タスク、目に装着物が装着されない場合の目開閉検出タスク、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクのうちの少なくとも2つを含んでもよい。上記装着物は眼鏡または透明なプラスチックシートなどであってもよい。上記スポットは装着物が反射することによって装着物に形成されたスポットであってもよい。上記列記したタスクの詳細は上記方法の実施形態の説明を参照されたく、ここでその詳細を省略する。
選択可能な一例において、本開示の少なくとも2つの目開閉検出トレーニングタスクはそれぞれ対応する画像セットがあり、通常、画像セット毎に複数の目画像が含まれる。異なる画像セットに含まれる目画像は少なくとも部分的に異なる。つまり、1つの画像セットにとって、この画像セット内の少なくもと一部の目画像は他の画像セットにない。所望により、異なる画像セットに含まれる目画像は共通部分があってもよい。
所望により、上記列記した6つの目開閉検出トレーニングタスクのそれぞれに対応する画像セットはそれぞれ、目に装着物が装着されている目画像セット、目に装着物が装着されない目画像セット、室内環境で収集した目画像セット、室外環境で収集した目画像セット、目に装着物が装着され且つ装着物にスポットがある目画像セット、目に装着物が装着され且つ装着物にスポットがない目画像セットであってもよい。上記列記した画像セットの詳細は上記方法の実施形態の記載を参照されたく、ここでその詳細を省略する。
選択可能な一例において、本開示に含まれる画像セットは本開示に含まれる目開閉検出トレーニングタスクによって決定される。例えば、本開示は上記6つの目開閉検出トレーニングタスクのうちの少なくとも2つを含むと、本開示はこの少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する目画像セットを含むことになる。
選択可能な一例において、本開示における目画像は、通常、撮影装置により撮影した目画像を含むから切り取った目画像ブロックであってもよい。本開示における目画像を形成するプロセスは、上記方法の実施形態の記載を参照されたく、ここでその詳細を省略する。
選択可能な一例において、本開示の目開閉検出用ニューラルネットワーク500をトレーニングするための目画像は、通常、ラベリング情報を有し、かつ、このラベリング情報は目画像における目開閉状態を表すことができる。所望により、本開示におけるラベリング情報目画像における目が開閉不明の状態にあることも表すことができる。しかし、本開示における目開閉検出用ニューラルネットワーク500をトレーニングするための目画像は、通常、ラベリング情報が開閉不明な状態である目画像を含まないため、開閉不明な状態の目画像によるニューラルネットワーク500への影響を回避することに有利であり、目開閉検出用ニューラルネットワーク500の検出の正確性の向上に有利である。
入力モジュール520は異なる画像セットから対応する枚数の目画像を取得し、トレーニング対象の目開閉検出用ニューラルネットワーク500に提供することに用いられる。例えば、入力モジュール520は異なる目開閉検出トレーニングタスクに対し、当該異なる目開閉検出トレーニングタスクに予め設定された画像の枚数の比例に従って、異なる画像セットから対応する枚数の目画像をそれぞれ取得し、トレーニング対象の目開閉検出用ニューラルネットワーク500に提供することに用いられる。また、入力モジュール520は目画像を取得するプロセスにおいて、通常、予め設定されたバッチ処理数も考慮する 。例えば、目開閉検出トレーニングタスクa、目開閉検出トレーニングタスクb及び目開閉検出トレーニングタスクcに対して予め設定された画像の枚数の比例が1:1:1である場合、予め設定されたバッチ処理数が600であると、入力モジュール520は目開閉検出トレーニングタスクaに対応する目画像セットから200枚の目画像、目開閉検出トレーニングタスクbに対応する目画像セットから200枚の目画像、目開閉検出トレーニングタスクcに対応する目画像セットから200枚の目画像を取得することができる。
所望により、ある目開閉検出トレーニングタスクに対応する目画像セット内の目画像の枚数が対応する枚数に達していない(例えば200に達していない)場合、入力モジュール520はバッチ処理数に達するように他の目開閉検出トレーニングタスクに対応する目画像セットから対応する枚数の目画像を取得することができる。例えば、目開閉検出トレーニングタスクcに対応する目画像セットに100枚の目画像のみがあり、目開閉検出トレーニングタスクa及び目開閉検出トレーニングタスクbのそれぞれに対応する目画像セット内の目画像の枚数がいずれも250を超えると、入力モジュール520は目開閉検出トレーニングタスクaに対応する目画像セットから250枚の目画像、目開閉検出トレーニングタスクbに対応する目画像セットから250枚の目画像、目開閉検出トレーニングタスクcに対応する目画像セットから100枚の目画像を取得することができる。これにより、入力モジュール520は合計600枚の目画像を取得することになる。
なお、入力モジュール520数をランダムに設置する方法を採用して、異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得することができる。本開示は入力モジュール520が異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得するための具体的な実現方法を限定しない。また、入力モジュール520は目画像セットから目画像を取得するプロセスにおいて、ラベリング情報が開閉不明な状態である目画像の取得を回避すべきであり、これにより、目開閉検出用ニューラルネットワークの検出の正確性の向上に有利である。
選択可能な一例において、入力モジュール520は取得した複数の目画像の順番をトレーニング対象の目開閉検出用ニューラルネットワーク500に提供し、入力された目画像毎に目開閉状態の検出処理をトレーニング対象の目開閉検出用ニューラルネットワーク500によりそれぞれ行い、これにより、トレーニング対象の目開閉検出用ニューラルネットワーク500が各目画像の目開閉状態の検出結果を順番に出力する。例えば、トレーニング対象の目開閉検出用ニューラルネットワーク500に入力された一枚の目画像は、順番に畳み込み層の処理、全結合層の処理及び分類用の層の処理を経て後、トレーニング対象の目開閉検出用ニューラルネットワーク500により2つの確率値を出力し、2つの確率値の範囲はともに0~1であり、かつ2つの確率値の和は1である。そのうちの1つの確率値は開眼状態に対応し、この確率値の大きさが1に近いほど、この目画像における目が開眼状態に近いことを表す。その内のもう一つの確率値は閉眼状態に対応し、この確率値の大きさが1に近いほど、この目画像における目が閉眼状態に近いことを表す。
調整モジュール510は目画像の目開閉のラベリング情報及びニューラルネットワーク500から出力された目開閉状態の検出結果に基づき、上記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいてニューラルネットワーク500のネットワークパラメータを調整することに用いられる。
選択可能な一例において、調整モジュール510は各目開閉検出トレーニングタスクのそれぞれに対応する損失を決定し、全てのトレーニングタスクのそれぞれに対応する損失に基づいて総合損失を決定すべきである。調整モジュール510はこの総合損失を利用してニューラルネットワークのネットワークパラメータを調整する。本開示におけるネットワークパラメータは畳み込みカーネルパラメータおよび/または行列の重みなどを含んでもよいが、これらに限定されない。本開示はネットワークパラメータに含まれる具体的な内容を限定しない。
選択可能な一例において、いずれかの目開閉検出トレーニングタスクに対して、調整モジュール510は当該トレーニングタスクに対応する画像セット内の複数の目画像のそれぞれに対してニューラルネットワークから出力した目開閉状態の検出結果のうちの最大確率値と、当該画像セット内の対応する目画像のラベリング情報に対応する境界面との間の夾角に基づいて、当該トレーニングタスクに対応する損失を決定することができる。
所望により、調整モジュール510は目画像の目開閉のラベリング情報及びニューラルネットワークから出力された目開閉状態の検出結果に基づいて、A-softmax(角度付きの正規化された指数)損失関数を利用して、異なる目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、異なる目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて総合損失(例えば各損失の和)を決定する。その後、調整モジュール510は確率的勾配降下法を採用してニューラルネットワークのネットワークパラメータを調整することができる。例えば、調整モジュール510はA-softmax損失関数を用いて各目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ算出し、全ての目開閉検出トレーニングタスクのそれぞれに対応する損失の和に基づいてバックプロパゲーション処理を行い、トレーニング対象の目開閉検出用ニューラルネットワーク500のネットワークパラメータを損失勾配降下の方法で更新させることができる。
選択可能な一例において、トレーニング対象の目開閉検出用ニューラルネットワーク500に対するトレーニングが所定の反復条件に達した時、調整モジュール510は今回のトレーニングプロセスが終了するように制御することができる。本開示における所定の反復条件は、目画像に対してトレーニング対象の目開閉検出用ニューラルネットワーク500が出力した目開閉状態の検出結果と目画像のラベリング情報との間の差異が所定差異の要求を満たすことを含んでもよい。差異が所定の差異要求を満たした場合、ニューラルネットワーク500に対する今回のトレーニングが成功に完了された。
所望により、調整モジュール510により使用される所定の反復条件は、トレーニング対象の目開閉検出用ニューラルネットワークをトレーニングし、使用される目画像の枚数が所定の枚数の要求に達したことなどを含んでもよい。使用される目画像の枚数が所定の枚数の要求に達したが、差異が所定の差異要求を満たしてない場合、ニューラルネットワーク500に対する今回のトレーニングが成功ではない。成功にトレーニングされたニューラルネットワーク500は目開閉状態の検出処理に用いることができる。
図6は本開示の目開閉状態の検出装置の一実施形態の構成模式図を示す。図6に示すように、この実施例の装置は、取得モジュール600及びニューラルネットワーク610を含む。所望により、目開閉状態の検出装置はさらに、決定モジュール620を含んでもよい。
取得モジュール600は被処理画像を取得することに用いられる。
選択可能な一例において、取得モジュール600により取得された被処理画像は、静止的な画像または写真など画像であってもよく、または動的ビデオのビデオフレーム、例えば、移動物体上に設定された撮影装置によって撮影されたビデオのビデオフレームであってもよく、別の例では、固定位置に設定された撮影装置によって撮影されたビデオのビデオフレームであってもよい。上記移動物体は、車両、ロボット、またはロボットアームであってもよい。上記固定位置はデスクまたは壁であってもよい。
選択可能な一例において、取得モジュール600は被処理画像を取得した後、被処理画像における目の位置領域を検出することができる。例えば、取得モジュール600は顔検出または顔のキーポイント検出方法などにより、被処理画像の目のバウンディングボックスを決定することができる。その後、取得モジュール600は目のバウンディングボックスに基づいて目の領域の画像を被処理画から切り取り、切り取った目画像ブロックがニューラルネットワーク610に提供される。当然、取得モジュール600は切り取った目画像ブロックに対して一定の前処理を実施した後に、それをニューラルネットワーク610に提供することができる。例えば、取得モジュール600は切り取った目画像ブロックに対してズーム処理を行い、ズーム処理された目画像ブロックの大きさをニューラルネットワークに入力された画像の寸法要求を満足させる。別の例では、対象者の両眼の目画像ブロックを切り取った後、そのうちの所定側の目画像ブロックに対して取得モジュール600によりマッピング処理を行い、対象者の2つの同一側の目画像ブロックを形成させる。所望により、取得モジュール600はさらに、2つの同一側の目画像ブロックに対してズーム処理を行なうことができる。本開示は取得モジュール600が被処理画像から目画像ブロックを切り取るための具体的な実現方法を限定せず、取得モジュール600が切り取った目画像ブロックに対して前処理を行なうための具体的な実現方法も限定しない。
ニューラルネットワーク610は被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられる。
選択可能な一例において、入力された目画像ブロックに対して本開示におけるニューラルネットワーク610から出力された目開閉状態の検出結果は少なくとも1つの確率値、例えば、目が開眼状態にあることを示す確率値及び目が閉眼状態にあることを示す確率値であってもよい。この2つの確率値の範囲はともに0~1であり、同一の目画像ブロックに対する2つの確率値の和は1である。目が開眼状態にあることを示す確率値の大きさが1に近いほど、目画像ブロックにおける目が開眼状態に近いことを表す。目が閉眼状態にあることを示す確率値の大きさが1に近いほど、目画像ブロックにおける目が閉眼状態に近いことを表す。
決定モジュール620は少なくとも、時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、対象者の目の動作および/または表情および/または疲労状態および/または対話制御情報を決定することに用いられる。
選択可能な一例において、対象者の目の動作は例えば、速くまばたく動作、または1つの目を開け、もう1つの目を閉じる動作、または目を細める動作などである。対象者の表情は例えば、微笑み、大笑いまたは泣きまたは悲しみなどである。対象者の疲労状態は例えば、軽度の疲労または居眠りまたは熟睡などである。対象者で表される対話制御情報は例えば、確認や拒否などである。
図7は本開示のインテリジェント運転制御装置の一実施形態の構成模式図を示す。図7に示す装置は主として、取得モジュール600、ニューラルネットワーク610、疲労状態決定モジュール700及び指令モジュール710を含む。
取得モジュール600は車両に搭載される撮影装置により収集された被処理画像を取得することに用いられる。
ニューラルネットワーク610は被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられる。
取得モジュール600及びニューラルネットワーク610により具体的に実行される操作は、上記装置の実施形態の記載を参照されたく、ここでその詳細を省略する。
疲労状態決定モジュール700は少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて対象者の疲労状態を決定することに用いられる。
選択可能な一例において、本開示における対象者は、通常、運転手である。疲労状態決定モジュール700は同一対象者に属し、かつ時系列の複数の目開閉状態の監視結果に基づいて、この対象者(例えば運転手)が単位時間当たりにまばたく回数、1回当たりの閉眼時間または1回当たりの開眼時間などの指標パラメータを決定することができる。これにより、疲労状態決定モジュール700は所定の指標要求を用いて対応する指標パラメータを更に判断する。疲労状態決定モジュール700は対象者(例えば運転手)が疲労状態にあるか否かを決定することができる。本開示における疲労状態は例えば、軽度の疲労状態、中度の疲労状態または重度の疲労状態など様々な異なる度合いの疲労状態を含んでもよい。本開示は疲労状態決定モジュール700が対象者の疲労状態を決定するための具体的な実現方法を限定しない。
指令モジュール710は対象者の疲労状態に応じて、指令を生成し出力することに用いられる。
選択可能な一例において、指令モジュール710により対象者の疲労状態に応じて生成された指令として、インテリジェント運転状態への切り替え指令、疲労運転の音声警告指令、振動ウェイクアップ指令及び危険な運転情報の報知指令などのうちの少なくとも1種を含んでもよい。本開示は指令の具体化される形式を限定しない。
本開示のニューラルネットワークのトレーニング方法でトレーニングされたニューラルネットワーク610は、ニューラルネットワークの目開閉状態の検出結果の正確性の向上に有利である。そのため、疲労状態決定モジュール700がこのニューラルネットワーク610から出力された目開閉状態の検出結果を用いて疲労状態を判断することによって、疲労状態検出の正確性の向上に役立つ。これにより、指令モジュール710が検出された疲労状態の検出結果に応じて指令を生成することによって、疲労運転の回避、更に運転の安全性に有利である。
例示的な機器
図8は本開示の実施形態の例示的な機器のブロック図を示す。この機器800は、自動車に搭載される制御システム/電子システ、移動端末(例えば、スマートフォンなど)、パーソナルコンピュータ(PC、例えばデスクトップコンピュータまたはノートブックコンピュータなど)、タブレットコンピュータ及びサーバなどであってもよい。図8では、機器800は、1つまたは複数のプロセッサ、通信部などを含み、前記1つまたは複数のプロセッサは、1つまたは複数の中央処理ユニット(CPU)801、および/または1つまたは複数の加速ユニット813であってもよい。加速ユニット813は、グラフィックプロセッサ(GPU)などであってもよい。プロセッサは、読み取り専用メモリ(ROM)802に格納された実行可能命令、または記憶部808からランダムアクセスメモリ(RAM)803にロードされた実行可能命令に基づいて、さまざまな適切な動作及び処理を実行できる。通信部812は、ネットワークカードを含み得るが、これに限定されず、前記ネットワークカードは、IB(インフィニバンド)ネットワークカードを含み得るが、これに限定されない。プロセッサは、実行可能命令を実行するために読み取り専用メモリ802および/またはランダムアクセスメモリ803と通信し、バス804を介して通信部分812に接続され、通信部812を介して他のターゲットデバイスと通信することによって本開示の対応するステップを完了ささせる。
上記の各命令によって実行される操作は、上記方法実施例の関連記載を参照されたく、ここでその詳細を省略する。また、RAM803には、装置の動作に必要な様々なプログラムやデータを記憶することもできる。 CPU 801、ROM 802、およびRAM 803は、バス804を介して相互に接続される。
RAM803がある場合、ROM802は選択可能なモジュールである。RAM803は、実行可能命令を記憶するか、動作中に実行可能命令をROM802に書き込み、実行可能命令は中央処理ユニット801に上記の方法に含まれるステップを実行させる。入力/出力(I/O)インターフェース805もまた、バス804に接続されている。通信部812は、統合的に配置され得るか、または複数のサブモジュール(例えば、複数のIBネットワークカード)を有し、それぞれバスに接続されるように構成され得る。
以下の手段は、I/Oインターフェース805に接続されている:キーボードおよびマウスなどを含む入力部806、陰極線管(CRT)、液晶ディスプレイ(LDC)およびスピーカーなどを含む出力部807、ハードディスクを含む記憶部808、およびLANカード、モデムなどのネットワークインターフェースカードを含む通信部809。通信部809は、インターネットなどのネットワークを介して通信処理を行う。ドライバ810はまた、必要に応じてI/Oインターフェース805に接続されている。磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル媒体811は、必要に応じてドライブ810に取り付けられ、そこから読み取られたコンピュータプログラムが必要に応じて記憶部808に取り付けられることが容易になる。
なお、図8に示すアーキテクチャは選択可能な実現方法にすぎない。具体的実践において、実際のニーズに応じて、上記図8の手段の数及びタイプを選択、削除、追加、または置換することができる。機能が異なる部材の配置について、分散設置または統合設置などの実現方法を採用してもよい。例えば、加速ユニット813とCPU801を分散に配置することができる。別の例では、加速ユニット813をCPU801に統合させることができる。通信部は分散に配置することができ、CPU801または加速ユニット813に統合させることもできる。 これらの代替可能な実施形態は全て本開示の保護範囲に含まれる。
特に、本開示の実施形態によれば、以下にフローチャートを参照して説明するプロセスは、コンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施形態は、機器で読み取り可能な媒体上に具体化されたコンピュータプログラムを含み、コンピュータプログラムはフローチャートに示されるステップを実行するためのプログラムコードを含み、プログラムコードは本開示に係る方法のステップの実行に対応する命令を含み得る。
このような実施形態では、このコンピュータプログラムは、通信部分809を介してネットワークからダウンロードおよびインストールされ得、および/またはリムーバブル媒体811からインストールされ得る。このコンピュータプログラムが中央処理ユニット(CPU)801によって実行されると、上記の対応するステップを実施するための本開示に記載される命令が実行される。
選択可能な1つ以上の実施形態において、本開示の実施例はさらに、実行されると、コンピュータに上記のいずれかの実施例に記載のニューラルネットワークのトレーニング方法または目開閉状態の検出方法またはインテリジェント運転制御方法を実行させるコンピュータ読み取り可能な命令を記憶するためのコンピュータプログラム製品を提供する。
このコンピュータプログラム製品は、ハードウェア、ソフトウェア、またはそれらの組み合わせによって具体化され得る。選択可能な一例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体とし具体化されている。選択可能な別の例では、前記コンピュータプログラム製品は、ソフトウェア開発キット(Software Development Kit,SDK)などのソフトウェア製品として具体化されている。
選択可能な1つ以上の実施形態において、本開示の実施例はさらに、別の、目開閉状態の検出方法、インテリジェント運転制御方法及びニューラルネットワークのトレーニング方法並びそれに対応する装置及び電子機器、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品を提供し、そのうちの方法は、第一装置により、上記可能な何れかの実施可能な実施例におけるニューラルネットワークのトレーニング方法または目開閉状態の検出方法またはインテリジェント運転制御方法を第2の装置に実行させるためのニューラルネットワークトレーニング命令または目開閉状態の検出命令またはインテリジェント運転制御命令を、第2の装置に送信することと、第一装置が第2の装置から送信されたニューラルネットワークトレーニング結果または目開閉状態の検出結果またはインテリジェント運転制御結果を受信することと、を含む。
いくつかの実施例では、このニューラルネットワークトレーニング命令または眼の開閉状態検出命令またはインテリジェント運転制御命令は、具体的に呼び出し命令であってもよく、第1の装置は命令を呼び出すようにニューラルネットワークトレーニング操作または目開閉状態の検出操作またはインテリジェント運転制御操作を第2の装置に実行させることができ、相応的に、受信した呼び出し命令に応じて、第2の装置は上記のニューラルネットワークトレーニング方法または目開閉状態の検出方法またはインテリジェント運転制御方法のいずれかの実施例におけるステップおよび/またはフローを実行することができる。
本開示の実施形態における「第1の」および「第2の」などの用語は区別するためだけであり、本開示の実施例を限定するものとして解釈されるべきではないことを理解されたい。また、本開示において、「複数」は2つまたは2つ以上を指すことができ、「少なくとも1つ」は1つ、2つまたは2つ以上を指すことができることも理解されたい。更に、本開示で言及される任意の部材、データまたは構造は、明確な限定がない、または前後の文脈に反対の示唆がない限り、一般に、1つまたは複数として理解することも理解されたい。また、本開示における様々な実施例の記述は各実施例間の差異を重点として強調し、同一または類似するところは互いに参照することができ、簡潔にするために、それらは1つずつ繰り返されないことも理解されたい。
本開示の方法および装置、電子機器及びコンピュータ読み取り可能な記憶媒体は多くの方法で実施され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本開示の方法および装置、電子機器及びコンピュータ読み取り可能な記憶媒体を実現することができる。方法に用いられるステップの上記順番は説明的なものに過ぎず、特に説明がない限り、本開示の方法のステップは上記具体的に記載された順番に限定されない。さらに、いくつかの実施形態では、本開示は記録媒体に記録されたプログラムとして実施され得る。これらのプログラムは、本開示に係る方法を実施するための機器で読み取り可能な命令を含む。したがって、本開示はまた、本開示に係る方法を実行するためのプログラムを記憶するための記録媒体をカバーする。
この開示の説明は、例示および説明のために示すものであり、網羅的なものではなく、または本開示を披露された各形態に限定するものではない。当業者にとって、様々な修正及び変更が自明である。選択及び実施形態の説明は、本開示の原理と実際の適用をよりよく説明し、当業者が本開示の実施例を理解して特定の用途に適する様々な修正を伴う各実施形態を設計できるようにするためである。

Claims (19)

  1. トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することと、
    前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、
    を含み、
    異なる画像セットに含まれる目画像は少なくとも部分的に異なることを特徴とするニューラルネットワークのトレーニング方法。
  2. 前記少なくとも2つの目開閉検出トレーニングタスクは、目に装着物が装着されている場合の目開閉検出タスク、目に装着物が装着されない場合の目開閉検出タスク、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクのうちの少なくとも2つを含み、
    前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セットは、目に装着物が装着されている目画像セット、目に装着物が装着されない目画像セット、室内環境で収集した目画像セット、室外環境で収集した目画像セット、目に装着物が装着され且つ装着物にスポットがある目画像セット、目に装着物が装着され且つ装着物にスポットがない目画像セットのうちの少なくとも2つを含むことを特徴とする請求項1に記載の方法。
  3. 前記トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することは、
    異なる目開閉検出トレーニングタスクに対して、当該異なる目開閉検出トレーニングタスクに予め設定された画像の枚数の比例に従って、異なる前記画像セットから対応する枚数の目画像をそれぞれ取得することと、
    トレーニング対象の目開閉検出用ニューラルネットワークを介して、前記対応する枚数の目画像のそれぞれに対して、目開閉状態の検出処理を行い、各目画像のそれぞれに対応する目開閉状態の検出結果を出力することと、
    を含むことを特徴とする請求項1または2に記載の方法。
  4. 前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定することは、
    いずれかの目開閉検出トレーニングタスクについて、当該トレーニングタスクに対応する画像セット内の複数の目画像のそれぞれに対して前記ニューラルネットワークから出力した目開閉状態の検出結果のうちの最大確率値と、当該画像セット内の対応する目画像のラベリング情報に対応する境界面との間の夾角に基づいて、当該トレーニングタスクに対応する損失を決定することを含むことを特徴とする請求項1~3のいずれか1項に記載の方法。
  5. 前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することは、
    前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて、前記少なくとも2つの目開閉検出トレーニングタスクの総合損失を決定することと、
    前記総合損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することと、
    を含むことを特徴とする請求項1~4のいずれか1項に記載の方法。
  6. 被処理画像を取得することと、
    ニューラルネットワークを介して、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することと、
    を含み、
    前記ニューラルネットワークは上記請求項1~5のいずれか1項に記載の方法でトレーニングされたものであることを特徴とする目開閉状態の検出方法。
  7. 少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の目の動作および/または表情および/または疲労状態および/または対話制御情報を決定することをさらに含むことを特徴とする請求項6に記載の方法。
  8. 車両に搭載される撮影装置により収集された被処理画像を取得することと、
    ニューラルネットワークを介して、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することと、
    少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の疲労状態を決定することと、
    前記対象者の疲労状態に応じて、指令を生成し出力することと、
    を含み、
    前記ニューラルネットワークは上記請求項1~5のいずれか1項に記載の方法でトレーニングされたものであることを特徴とするインテリジェント運転制御方法。
  9. 少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することに用いられるトレーニング対象の目開閉検出用ニューラルネットワークと、
    前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することに用いられる調整モジュールと、
    を含み、
    異なる画像セットに含まれる目画像は少なくとも部分的に異なることを特徴とするニューラルネットワークのトレーニング装置。
  10. 前記少なくとも2つの目開閉検出トレーニングタスクは、目に装着物が装着されている場合の目開閉検出タスク、目に装着物が装着されない場合の目開閉検出タスク、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクのうちの少なくとも2つを含み、
    前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する画像セットは、目に装着物が装着されている目画像セット、目に装着物が装着されない目画像セット、室内環境で収集した目画像セット、室外環境で収集した目画像セット、目に装着物が装着され且つ装着物にスポットがある目画像セット、目に装着物が装着され且つ装着物にスポットがない目画像セットのうちの少なくとも2つを含むことを特徴とする請求項9に記載の装置。
  11. 異なる目開閉検出トレーニングタスクに対して、当該異なる目開閉検出トレーニングタスクに予め設定された画像の枚数の比例に従って、異なる前記画像セットから対応する枚数の目画像をそれぞれ取得して、トレーニング対象の目開閉検出用ニューラルネットワークに提供することに用いられる入力モジュールをさらに含み、
    前記トレーニング対象の目開閉検出用ニューラルネットワークは、前記対応する枚数の目画像のそれぞれに対して、目開閉状態の検出処理を行い、各目画像のそれぞれに対応する目開閉状態の検出結果を出力することを特徴とする請求項9または10に記載の装置。
  12. 前記調整モジュールはさらに、
    いずれかの目開閉検出トレーニングタスクについて、当該トレーニングタスクに対応する画像セット内の複数の目画像のそれぞれに対してニューラルネットワークから出力した目開閉状態の検出結果のうちの最大確率値と、当該画像セット内の対応する目画像のラベリング情報に対応する境界面との間の夾角に基づいて、当該トレーニングタスクに対応する損失を決定することに用いられることを特徴とする請求項9~11のいずれか1項に記載装置。
  13. 前記調整モジュールはさらに、
    前記少なくとも2つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて、前記少なくとも2つの目開閉検出トレーニングタスクの総合損失を決定することと、
    前記総合損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することに用いられることを特徴とする請求項9~12のいずれか1項に記載の装置。
  14. 被処理画像を取得することに用いられる取得モジュールと、
    前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられるニューラルネットワークと、
    を含み、
    前記ニューラルネットワークは上記請求項9~13のいずれか1項に記載の装置でトレーニングされたものであることを特徴とする目開閉状態の検出装置。
  15. 少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の目の動作および/または表情および/または疲労状態および/または対話制御情報を決定することに用いられる決定モジュールをさらに含むことを特徴とする請求項14に記載の装置。
  16. 車両に搭載される撮影装置により収集された被処理画像を取得することに用いられる取得モジュールと、
    前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられるニューラルネットワークと、
    少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の疲労状態を決定することに用いられる疲労状態決定モジュールと、
    前記対象者の疲労状態に応じて、指令を生成し出力することに用いられる指令モジュールと、
    を含み、
    前記ニューラルネットワークは上記請求項9~13のいずれか1項に記載の装置でトレーニングされたものであることを特徴とするインテリジェント運転制御装置。
  17. コンピュータプログラムを記憶するためのメモリと、
    前記メモリに記憶されたコンピュータプログラムを実行し、かつ、前記コンピュータプログラムが実行されると、上記請求項1~8のいずれか1項に記載の方法を実現させるプロセッサと、
    を含む電子機器。
  18. プロセッサにより実行されると、上記請求項1~8のいずれか1項に記載の方法を実現させるコンピュータプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
  19. 機器のプロセッサにおいて実行されると、上記請求項1~8のいずれか1項に記載の方法を実現させるコンピュータ命令を含むコンピュータプログラム。
JP2021541183A 2019-02-28 2019-11-13 ニューラルネットワークのトレーニング及び目開閉状態の検出方法、装置並び機器 Active JP7227385B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910153463.4 2019-02-28
CN201910153463.4A CN111626087A (zh) 2019-02-28 2019-02-28 神经网络训练及眼睛睁闭状态检测方法、装置及设备
PCT/CN2019/118127 WO2020173135A1 (zh) 2019-02-28 2019-11-13 神经网络训练及眼睛睁闭状态检测方法、装置及设备

Publications (2)

Publication Number Publication Date
JP2022517398A true JP2022517398A (ja) 2022-03-08
JP7227385B2 JP7227385B2 (ja) 2023-02-21

Family

ID=72238751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541183A Active JP7227385B2 (ja) 2019-02-28 2019-11-13 ニューラルネットワークのトレーニング及び目開閉状態の検出方法、装置並び機器

Country Status (4)

Country Link
JP (1) JP7227385B2 (ja)
KR (1) KR20210113621A (ja)
CN (1) CN111626087A (ja)
WO (1) WO2020173135A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313790A (zh) * 2021-05-31 2021-08-27 北京字跳网络技术有限公司 视频生成方法、装置、设备及存储介质
CN113537176A (zh) * 2021-09-16 2021-10-22 武汉未来幻影科技有限公司 一种驾驶员疲劳状态的确定方法、装置以及设备
CN114283488B (zh) * 2022-03-08 2022-06-14 北京万里红科技有限公司 生成检测模型的方法及利用检测模型检测眼睛状态的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251926A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 直射光検出装置
JP2006268189A (ja) * 2005-03-22 2006-10-05 Nissan Motor Co Ltd 視認行動判定装置
JP2008198078A (ja) * 2007-02-15 2008-08-28 Toyota Central R&D Labs Inc 画像検出装置
JP2016176699A (ja) * 2015-03-18 2016-10-06 株式会社オートネットワーク技術研究所 経路探索装置、経路探索方法及びコンピュータプログラム
JP2017010337A (ja) * 2015-06-23 2017-01-12 富士通株式会社 瞳孔検出プログラム、瞳孔検出方法、瞳孔検出装置および視線検出システム
JP2018018400A (ja) * 2016-07-29 2018-02-01 東芝アルパイン・オートモティブテクノロジー株式会社 瞼開閉検出装置および瞼開閉検出方法
JP2018018401A (ja) * 2016-07-29 2018-02-01 東芝アルパイン・オートモティブテクノロジー株式会社 瞼開閉検出装置および瞼開閉検出方法
JP2018075208A (ja) * 2016-11-10 2018-05-17 パナソニックIpマネジメント株式会社 運転者の状態検出システムおよび状態検出方法
CN108805185A (zh) * 2018-05-29 2018-11-13 腾讯科技(深圳)有限公司 模型的训练方法、装置、存储介质及计算机设备
WO2019028798A1 (zh) * 2017-08-10 2019-02-14 北京市商汤科技开发有限公司 驾驶状态监控方法、装置和电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107003834B (zh) * 2014-12-15 2018-07-06 北京市商汤科技开发有限公司 行人检测设备和方法
US10002415B2 (en) * 2016-04-12 2018-06-19 Adobe Systems Incorporated Utilizing deep learning for rating aesthetics of digital images
CN106529402B (zh) * 2016-09-27 2019-05-28 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN106585629B (zh) * 2016-12-06 2019-07-12 广东泓睿科技有限公司 一种车辆控制方法和装置
CN108985135A (zh) * 2017-06-02 2018-12-11 腾讯科技(深圳)有限公司 一种人脸检测器训练方法、装置及电子设备
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
CN108614999B (zh) * 2018-04-16 2022-09-16 贵州大学 基于深度学习的眼睛睁闭状态检测方法
CN108960071A (zh) * 2018-06-06 2018-12-07 武汉幻视智能科技有限公司 一种睁眼闭眼状态检测方法
CN108932536B (zh) * 2018-07-18 2021-11-09 电子科技大学 基于深度神经网络的人脸姿态重建方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251926A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 直射光検出装置
JP2006268189A (ja) * 2005-03-22 2006-10-05 Nissan Motor Co Ltd 視認行動判定装置
JP2008198078A (ja) * 2007-02-15 2008-08-28 Toyota Central R&D Labs Inc 画像検出装置
JP2016176699A (ja) * 2015-03-18 2016-10-06 株式会社オートネットワーク技術研究所 経路探索装置、経路探索方法及びコンピュータプログラム
JP2017010337A (ja) * 2015-06-23 2017-01-12 富士通株式会社 瞳孔検出プログラム、瞳孔検出方法、瞳孔検出装置および視線検出システム
JP2018018400A (ja) * 2016-07-29 2018-02-01 東芝アルパイン・オートモティブテクノロジー株式会社 瞼開閉検出装置および瞼開閉検出方法
JP2018018401A (ja) * 2016-07-29 2018-02-01 東芝アルパイン・オートモティブテクノロジー株式会社 瞼開閉検出装置および瞼開閉検出方法
JP2018075208A (ja) * 2016-11-10 2018-05-17 パナソニックIpマネジメント株式会社 運転者の状態検出システムおよび状態検出方法
WO2019028798A1 (zh) * 2017-08-10 2019-02-14 北京市商汤科技开发有限公司 驾驶状态监控方法、装置和电子设备
CN108805185A (zh) * 2018-05-29 2018-11-13 腾讯科技(深圳)有限公司 模型的训练方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
WO2020173135A1 (zh) 2020-09-03
JP7227385B2 (ja) 2023-02-21
KR20210113621A (ko) 2021-09-16
CN111626087A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
US11574451B2 (en) Controlling 3D positions in relation to multiple virtual planes
US11557085B2 (en) Neural network processing for multi-object 3D modeling
US10890968B2 (en) Electronic device with foveated display and gaze prediction
US11551377B2 (en) Eye gaze tracking using neural networks
JP6970305B2 (ja) 顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム
US20220229534A1 (en) Coordinating cursor movement between a physical surface and a virtual surface
JP6678246B2 (ja) 大域的最適化に基づく意味的セグメント化
JP2023052530A (ja) コンピュータによって実行される方法、コンピューティングデバイス、コンピューティングシステム、コンピュータプログラム、および車両
JP2022517398A (ja) ニューラルネットワークのトレーニング及び目開閉状態の検出方法、装置並び機器
US20220198836A1 (en) Gesture recognition method, electronic device, computer-readable storage medium, and chip
JP2021526269A (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
CN110597387B (zh) 基于人工智能的画面显示方法和装置、计算设备、存储介质
WO2022170223A1 (en) User interactions in extended reality
CN112597872A (zh) 视线角度估计方法和装置、存储介质、电子设备
JP2021530823A (ja) ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器
US10964046B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program for estimating face orientation by using an omni-directional camera
CN112106075A (zh) 扩展先前训练的深度神经网络
KR20210000671A (ko) 헤드 포즈 추정
WO2021238586A1 (zh) 一种训练方法、装置、设备以及计算机可读存储介质
CN114461078A (zh) 一种基于人工智能的人机交互方法
CN113506328A (zh) 视线估计模型的生成方法和装置、视线估计方法和装置
CN113516665A (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN112052770A (zh) 用于疲劳检测的方法、装置、介质以及电子设备
KR20210048270A (ko) 복수 객체에 대한 오디오 포커싱 방법 및 장치
US20230419721A1 (en) Electronic device for improving quality of image and method for improving quality of image by using same

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210715

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221219

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20221219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230209

R150 Certificate of patent or registration of utility model

Ref document number: 7227385

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150