JP2022517398A

JP2022517398A - ニューラルネットワークのトレーニング及び目開閉状態の検出方法、装置並び機器

Info

Publication number: JP2022517398A
Application number: JP2021541183A
Authority: JP
Inventors: ワン，フェイ; キャン，チェン
Original assignee: ベイジンセンスタイムテクノロジーディベロップメントカンパニーリミテッド
Priority date: 2019-02-28
Filing date: 2019-11-13
Publication date: 2022-03-08
Anticipated expiration: 2039-11-13
Also published as: WO2020173135A1; JP7227385B2; KR20210113621A; CN111626087A

Abstract

本開示の実施形態は、ニューラルネットワークのトレーニング方法、目開閉状態の検出方法、インテリジェント運転制御方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを開示し、ニューラルネットワークのトレーニング方法は、トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することと、前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含み、異なる画像セットに含まれる目画像は少なくとも部分的に異なる。【選択図】図１

Description

「関連出願の相互参照」
本開示は、２０１９年２月２８日に中国特許庁に出願された第２０１９１０１５３４６３．４号「ニューラルネットワークのトレーニング及び目開閉状態の検出方法、装置並び機器」を発明の名称とした中国特許出願の優先権を主張し、その内容全体が引用により本開示に組み込まれる。

本開示はコンピュータビジュアルテクノロジーに関し、特にニューラルネットワークのトレーニング方法、ニューラルネットワークのトレーニング装置、目開閉状態の検出方法、目開閉状態の検出装置、インテリジェント運転制御方法、インテリジェント運転制御装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムに関する。

目開閉状態の検出は、つまり目開閉状況を検出することである。目開閉状態の検出は疲労監視、生体認識、表情認識などの分野に用いることができる。例えば、運転支援技術において、運転手に対して目開閉状態の検出を行い、目開閉状態の検出結果に基づいて、運転手が疲労運転の状態にあるかを判断して疲労運転の監視を実現する必要がある。目開閉状態を正確に検出し、誤判断をなるべく回避することは車両走行の安全性の向上に有利である。

本開示の実施形態はニューラルネットワークトレーニング、目開閉状態の検出及びインテリジェント運転制御の技術方案を提供する。

本開示の実施形態の一側面では、トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することと、前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、を含み、異なる画像セットに含まれる目画像は少なくとも部分的に異なる、ニューラルネットワークのトレーニング方法を提供する。

本開示の実施形態の別の側面では、被処理画像を取得することと、ニューラルネットワークを介して、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することと、を含み、前記ニューラルネットワークは上記の実施形態に記載のニューラルネットワークのトレーニング方法によりトレーニングして得たものである、目開閉状態の検出方法を提供する。

本開示の実施形態の別の側面では、車両に搭載される撮影装置により収集された被処理画像を取得することと、ニューラルネットワークを介して、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することと、少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の疲労状態を決定することと、前記対象者の疲労状態に応じて、指令を生成し出力することと、を含み、前記ニューラルネットワークは上記の実施形態に記載のニューラルネットワークのトレーニング方法でトレーニングされたものである、インテリジェント運転制御方法を提供する。

本開示の実施形態の別の側面では、少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することに用いられるトレーニング対象の目開閉検出用ニューラルネットワークと、前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することに用いられる調整モジュールと、を含み、異なる画像セットに含まれる目画像は少なくとも部分的に異なる、ニューラルネットワークのトレーニング装置を提供する。

本開示の実施形態の別の側面では、被処理画像を取得することに用いられる取得モジュールと、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられるニューラルネットワークと、を含み、前記ニューラルネットワークは上記の実施形態に記載のニューラルネットワークのトレーニング装置でトレーニングされたものである、目開閉状態の検出装置を提供する。

本開示の実施形態の別の側面では、車両に搭載される撮影装置により収集された被処理画像を取得することに用いられる取得モジュールと、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられるニューラルネットワークと、少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の疲労状態を決定することに用いられる疲労状態決定モジュールと、前記対象者の疲労状態に応じて、指令を生成し出力することに用いられる指令モジュールと、を含み、前記ニューラルネットワークは上記の実施形態に記載のニューラルネットワークのトレーニング装置でトレーニングされたものである、インテリジェント運転制御装置を提供する。

本開示の実施形態の別の側面では、コンピュータプログラムを記憶するためのメモリと、前記メモリに記憶されたコンピュータプログラムを実行し、かつ前記コンピュータプログラムが実行されると、本開示のいずれかの方法の実施形態を実現させるプロセッサと、を含む電子機器を提供する。

本開示の実施形態の別の側面では、プロセッサにより実行されると、本開示のいずれかの方法の実施形態を実現させるコンピュータプログラムを記憶したコンピュータ読み取り可能な記憶媒体を提供する。

本開示の実施形態の別の側面では、機器のプロセッサにおいて実行されると、本開示のいずれかの方法の実施形態を実現させるコンピュータ命令を含む、コンピュータプログラムを提供する。

本開示の実施例を実施する過程において、発明者らは、従来の単一タスクをトレーニングするニューラルネットワークにおいて、当該タスクの画像セットに対してトレーニングされたニューラルネットワークについて、当該タスクに対応するシーンでは比較的良い目開閉検出の正確率を有するが、当該タスクに対応しない他のシーンでは目開閉検出の正確度を確保することは困難であることを見出した。単に異なるシーンで収集された複数の画像をニューラルネットワークトレーニング用の１画像セットとし、画像セット内の画像が異なるシーンのものであるか、異なるトレーニングタスクに対応するかを区別しないと、この１画像セットからューラルネットワークトレーニングへ毎回入力された画像サブセット（バッチ）の分布は制御できず、あるシーンの画像が多くあるが、他のシーンの画像が少なく、ひいてはない可能性があり、異なる反復トレーニングされた画像サブセットセの分布も完全に同じではない。つまり、ニューラルネットワークの反復毎に画像サブセットの分布がランダムすぎ、異なるトレーニングタスクに対して損失計算が実行されず、トレーニングプロセスにおいて各異なるトレーニングタスクを考慮したニューラルネットワークの能力学習を制御できない。そのため、トレーニングされたニューラルネットワークは異なるタスクに対応する異なるシーンでの目開閉検出の正確性を確保することができない。

本開示に係るニューラルネットワークのトレーニング方法及び装置、目開閉状態の検出方法及び装置、インテリジェント運転制御方法及び装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムにより、複数の異なる目開閉検出タスクから対応する画像セットをそれぞれ決定し、複数の画像セットからニューラルネットワークの一回のトレーニングにおける複数の目画像を決定し、複数の画像セットからの目画像に基づいて当該トレーニングにおける各トレーニングタスクの目開閉検出結果に関するニューラルネットワークの損失をそれぞれ決定し、各損失に基づいてニューラルネットワークのネットワークパラメータを調整する。このようにして、ニューラルネットワークの毎回の反復トレーニングにニューラルネットワークに提供された目画像のサブセットに各トレーニングタスクに対応する目画像が含まれ、各トレーニングタスクに対して損失が計算されるため、ニューラルネットワークのトレーニングプロセスにおいて、トレーニングタスク毎に目の開閉能力の検出に関する能力学習が可能であり、異なるトレーニングタスクを考慮した能力学習を行なうことができる。これにより、トレーニングされたニューラルネットワークは複数のトレーニングタスクに対応する複数のシーンにおける各シーンでの目画像の目開閉検出の正確性を同時に高めることができ、当該ニューラルネットワークに基づいて異なるシーンで目開閉を正確に検出する発明の普遍性と一般化の向上を促進し、複数シーンに関する実際の応用ニーズをより良く満たすために有利である。

以下に図面及び実施形態を参照しながら本開示の技術方案を更に詳しく説明する。

本明細書の図面は、明細書の一部分として本開示の実施形態を説明し、その説明と共に本開示の原理を解釈するために用いられる。

図面を参照しながら、以下の詳細な説明により、本開示がより明瞭になる。

本開示のニューラルネットワークのトレーニング方法の一実施形態のフローチャートを示す。本開示の目開閉状態の検出方法の一実施形態のフローチャートを示す。本開示の目開閉状態の検出方法の一実施形態のフローチャートを示す。本開示のインテリジェント運転制御方法の一実施形態のフローチャートを示す。本開示のニューラルネットワークのトレーニング装置の一実施形態の構成の模式図を示す。本開示の目開閉状態の検出装置の一実施形態の構成模式図を示す。本開示のインテリジェント運転制御装置の一実施形態の構成模式図を示す。本開示の実施形態の例示的な機器のブロック図を示す。

以下に図面を参照しながら本開示の様々な例示的実施例を詳細に説明する。特に説明がない限り、これらの実施例に記述される手段及びステップの相対的な配置、数式及び数値は本開示の範囲を限定するものではない。

また、説明の便利のため、図面に示される各部分の寸法が実際の比例関係にしたがって描かれるものではないことは理解されるべきである。

以下に少なくとも１つの例示的実施例の記述は実際に、説明的なものに過ぎず、本開示及びそれの応用または使用に対する如何なる限定ではない。

関連分野の一般的な技術者に周知された技術、方法及び機器について詳細な検討はされない場合があるが、適当な場合に、かかる技術、方法及び機器は本明細書の一部としてみなされるべきである。

なお、類似の符号及びや文字は類似の要素を示す。そのため、ある要素が１つの図面において定義されると、それについてその後の図面で更に検討する必要はないことに注意すべきである。

本開示実施例は、端末装置、コンピュータシステム及びサーバなど電子機器に用いることができ、他の多くの汎用または専用のコンピュータシステム環境または構成とともに操作されることができる。端末装置、コンピュータシステム及びサーバなど電子機器とともに使用さることに適する公知の端末装置、コンピュータシステム、環境および／または構成の例として、パソコンシステム、サーバコンピュータシステム、シン・クライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電子機器、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステムおよび上述のシステムのいずれかを含む分散型クラウドコンピューティングテクノロジー環境などを含むが、これらに限定されない。

端末装置、コンピュータシステム及びサーバなど電子機器はコンピュータシステムによって実行されるコンピュータシステムの実行可能命令（プログラムモジュールなど）の一般的なコンテキストで記述され得る。一般に、プログラムモジュールには、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクトプログラム、コンポーネント、ロジック、データ構造などが含まれ得る。コンピュータシステム／サーバは、分散型クラウドコンピューティング環境で実施可能であり、分散型クラウドコンピューティング環境では、タスクは、通信ネットワークを介してリンクされたリモート処理装置によって実行される。分散型クラウドコンピューティング環境では、プログラムモジュールは、記憶装置を含むローカルまたはリモートコンピューティングシステムの記憶媒体に配置できる。

例示的な実施例
図１は本開示のニューラルネットワークのトレーニング方法の一実施形態のフローチャートを示す。図１に示すように、この実施例に係る方法は、ステップ：Ｓ１００及びＳ１１０を含む。以下に図１の各ステップをそれぞれ詳しく説明する。

Ｓ１００、トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行い、目開閉状態の検出結果を出力する。

選択可能な一例において、本開示のトレーニング対象の目開閉検出用ニューラルネットワークはトレーニングされた後、被処理画像に対して目開閉状態の検出を行い、被処理画像の目開閉状態の検出結果を出力することに用いることができる。例えば、１つの被処理画像に対して、ニューラルネットワークは２つの確率値を出力し、そのうちの１つの確率値は被処理画像における対象者の目が開いている状態にある確率を示し、この確率値が大きいほど、開眼状態に近いことを表す。そのうちのもう１つの確率値は被処理画像における対象者の目が閉じている状態にある確率を示し、この確率値が大きいほど、閉眼状態に近いことを表す。２つの確率値の和は１であってもよい。

選択可能な一例において、本開示のニューラルネットワークは畳み込みニューラルネットワークであってもよい。本開示のニューラルネットワークは畳み込み層、Ｒｅｌｕ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、正規化線形ユニット）層（活性化層とも呼ばれる）、プーリング層、全結合層及び分類用（例えば２項分類）の層などを含んでもよいが、これらに限定されない。このニューラルネットワークに含まれる層数が多いほど、ネットワークが深い。本開示はニューラルネットワークの具体的な構成を限定しない。

選択可能な一例において、本開示でニューラルネットワークをトレーニングするプロセスに関わる目開閉検出のトレーニングタスクは少なくとも２つあり、かつそれぞれの目開閉検出トレーニングタスクはいずれもニューラルネットワークに目開閉状態の検出を実現させるためのトレーニングタスク全体に属すべきである。異なる目開閉検出トレーニングタスクに対応するトレーニング目標は完全に同じではない。つまり、本開示は以ニューラルネットワークのトレーニングタスク全体を複数のトレーニングタスクに分けることができ、１つのトレーニングタスクは１つのトレーニング目標に対応し、かつ異なるトレーニングタスクに対応するトレーニング目標が異なる。

選択可能な一例において、本開示の少なくとも２つの目開閉検出トレーニングタスクは、目に装着物が装着されている場合の目開閉検出タスク、目に装着物が装着されない場合の目開閉検出タスク、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクのうちの少なくとも２つを含んでもよい。上記装着物は眼鏡または透明なプラスチックシートなどであってもよい。上記スポットは装着物が反射することによって装着物に形成されたスポットであってもよい。本開示の眼鏡は通常、レンズを通して着用者の目を見ることができる眼鏡を指す。

所望により、目に装着物が装着されている場合の目開閉検出タスクは、眼鏡をかけている目開閉検出タスクであってもよい。この眼鏡をかけている目開閉検出タスクは室内の眼鏡をかけている目開閉検出及び室外の眼鏡をかけている目開閉検出のうちの少なくとも１つを実現できる。

所望により、目に装着物が装着されない場合の目開閉検出タスクは、眼鏡をかけていない目開閉検出タスクであってもよい。この眼鏡をかけていない目開閉検出タスクは室内の眼鏡をかけていない目開閉検出及び室外の眼鏡をかけていない目開閉検出のうちの少なくとも１つことを実現できる。

所望により、室内環境での目開閉検出タスクは、室内の眼鏡をかけていない目開閉検出、室内で眼鏡をかけており、かつ眼鏡が反射した目開閉検出、及び室内で眼鏡をかけており、かつ眼鏡が反射していない目開閉検出のうちの少なくとも１つを実現できる。

所望により、室外環境での目開閉検出タスクは、室外の眼鏡をかけていない目開閉検出、室外で眼鏡をかけており、かつ眼鏡が反射した目開閉検出、及び室外で眼鏡をかけており、かつ眼鏡が反射していない目開閉検出のうちの少なくとも１つことを実現できる。

所望により、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスクは眼鏡をかけており、かつ眼鏡が反射した目開閉検出タスクであってもよい。この眼鏡をかけており、かつ眼鏡が反射した目開閉検出タスクは、室内で眼鏡をかけており、かつ眼鏡が反射した目開閉検出及び室外で眼鏡をかけており、かつ眼鏡が反射した目開閉検出のうちの少なくとも１つを実現できる。

所望により、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクは眼鏡をかけており、かつ眼鏡が反射していない目開閉検出タスクであってもよい。この眼鏡をかけており、かつ眼鏡が反射していない目開閉検出タスクは、室内で眼鏡をかけており、かつ眼鏡が反射していない目開閉検出及び室外で眼鏡をかけており、かつ眼鏡が反射していない目開閉検出のうちの少なくとも１つを実現できる。

上記内容から分かるように、本開示の異なる目開閉検出トレーニングタスクの間に共通部分があり、例えば、眼鏡をかけている目開閉検出タスクは、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクとそれぞれ共通部分があってもよい。ここで、上記列記した６つの目開閉検出トレーニングタスクの間に共通部分があることについては、一々説明しない。また、本開示はかかる目開閉検出トレーニングタスクの数を限定せず、かつ目開閉検出トレーニングタスクの数は実際の需要に応じて決定することができる。本開示はいずれかの目開閉検出トレーニングタスクの具体化される形式も限定しない。

所望により、図２に示すように、本開示の少なくとも２つの目開閉検出トレーニングタスクは、下記３つの目開閉検出トレーニングタスクを含んでもよい。

目開閉検出トレーニングタスクａ、室内環境での目開閉検出トレーニングタスク。

目開閉検出トレーニングタスクｂ、室外環境での目開閉検出タスク。

目開閉検出トレーニングタスクｃ、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク。

目開閉検出トレーニングタスクａと目開閉検出トレーニングタスクｂとの間には共通部分がなく、トレーニングタスクａとトレーニングタスクｃとの間には共通部分があってもよく、トレーニングタスクｂとトレーニングタスクｃとの間には共通部分があってもよい。

選択可能な一例において、本開示の少なくとも２つの目開閉検出トレーニングタスクはそれぞれ対応する画像セットがあり、例えば、図２の目開閉検出トレーニングタスクａ、目開閉検出トレーニングタスクｂ及び目開閉検出トレーニングタスクｃはそれぞれ対応する画像セットがある。通常、各画像セット毎に複数の目画像が含まれる。異なる画像セットに含まれる目画像は少なくとも部分的に異なる。つまり、１つの画像セットにとって、この画像セット内の少なくもと一部の目画像は他の画像セットにない。所望により、異なる画像セットに含まれる目画像は共通部分があってもよい。

所望により、上記列記した６つの目開閉検出トレーニングタスクのそれぞれに対応する画像セットはそれぞれ、目に装着物が装着されている目画像セット、目に装着物が装着されない目画像セット、室内環境で収集した目画像セット、室外環境で収集した目画像セット、目に装着物が装着され且つ装着物にスポットがある目画像セット、目に装着物が装着され且つ装着物にスポットがない目画像セットであってもよい。

所望により、目に装着物が装着されている目画像セットのうちの全ての目画像は眼鏡をかけている目画像であってもよく、例えば、この目画像セットは、室内環境で収集した眼鏡をかけている目画像及び室外環境で収集した眼鏡をかけている目画像を含んでもよい。

所望により、目に装着物が装着されない目画像セットのうちの全ての画像は眼鏡をかけていない目画像であってもよく、例えば、この目画像セットは、室内環境で収集した眼鏡をかけていない目画像及び室外環境で収集した眼鏡をかけていない目画像を含んでもよい。

所望により、室内環境で収集した目画像セットは室内環境で収集した眼鏡をかけていない目画像、及び室内環境で収集した眼鏡をかけている目画像を含んでもよい。

所望により、室外環境で収集した目画像セットは室外環境で収集した眼鏡をかけていない目画像、及び室外環境で収集した眼鏡をかけている目画像を含んでもよい。

所望により、目に装着物が装着され且つ装着物にスポットがある目画像セットのうちの全ての目画像は眼鏡をかけており、かつ眼鏡にスポットがある目画像であってもよい。例えば、この目画像セットは、室内環境で収集した眼鏡をかけており、かつ眼鏡にスポットがある目画像及び室外環境で収集した眼鏡をかけており、かつ眼鏡にスポットがある目画像を含んでもよい。

所望により、目に装着物が装着され且つ装着物にスポットがない目画像セットのうちの全ての目画像は眼鏡をかけており、かつ眼鏡にスポットがない目画像であってもよい。例えば、この目画像セットは、室内環境で収集した眼鏡をかけており、かつ眼鏡にスポットがない目画像及び室外環境で収集した眼鏡をかけており、かつ眼鏡にスポットがない目画像を含んでもよい。

選択可能な一例において、本開示に含まれる画像セットは本開示に含まれる目開閉検出トレーニングタスクによって決定される。例えば、本開示は上記６つの目開閉検出トレーニングタスクのうちの少なくとも２つを含むと、本開示はこの少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する目画像セットを含むことになる。

選択可能な一例において、本開示のニューラルネットワークのトレーニングプロセスに用いられる目画像は目画像サンプルと呼んでもよく、通常、目画像サンプルの画像コンテンツには目が含まれる。本開示の目画像サンプルは、通常、片眼に基づく目画像サンプルである。すなわち、目画像サンプルの画像コンテンツは両眼を含まず、片眼を含む。所望により、目画像サンプルは片側の目に基づく目画像サンプルであってもよい。例えば、左目に基づく目画像サンプルであってもよい。当然、本開示は目画像サンプルが両目に基づく目画像サンプルまたはいずれか側の目に基づく目画像サンプルである場合を除外しない。

選択可能な一例において、本開示の目画像は通常、撮影装置により撮影した目を含む画像から切り取った目画像ブロックであってもよい。例えば、本開示における目画像を形成する過程は、撮影装置により撮影した画像に対して目の検出を行い、画像における目の部分を決定し、そして、検出された目の部分を画像から切り取り、所望により、本開示は切り取った画像ブロックに対してズームおよび／または画像コンテンツのマッピング（たとえば、右目画像ブロックは、画像コンテンツのマッピングを通じて左目画像ブロックに変換される）などの処理をし、目開閉検出用ニューラルネットワークをトレーニングするための目画像を形成することを含み得る。当然、本開示における目画像は撮影装置により撮影した、目を含む完全な画像を目画像とする可能性を除外しない。また、本開示における目画像は対応するトレーニングサンプルセットにおける目画像であってもよい。

選択可能な一例において、本開示における目開閉検出用ニューラルネットワークをトレーニングするための目画像は、通常、ラベリング情報を有し、かつこのラベリング情報は目画像における目開閉状態を表すことができる。つまり、ラベリング情報は目画像における目が開眼状態にあるか、また閉眼状態にあるかを表すことができる。１つの選択可能な例において、目画像のラベリング情報が１であることは、この目画像における目が開眼状態にあることを表し、目画像のラベリング情報が０であることは、この目画像における目が閉眼状態にあることを表す。

選択可能な一例において、本開示は、通常、異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得する。例えば、図２において、目開閉検出トレーニングタスクａに対応する画像セットから対応する枚数の目画像を取得してトレーニング対象の目開閉検出用ニューラルネットワークに提供し、目開閉検出トレーニングタスクｂに対応する画像セットから対応する枚数の目画像を取得してトレーニング対象の目開閉検出用ニューラルネットワークに提供し、目開閉検出トレーニングタスクｃに対応する画像セットから対応する枚数の目画像を取得してトレーニング対象の目開閉検出用ニューラルネットワークに提供する。

１つの選択可能な例において、本開示は、異なるトレーニングタスクに予め設定された画像の枚数の比例に従って、異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得することができる。また、目画像を取得するプロセスにおいて、通常、予め設定されたバッチ処理の数も考慮する。例えば、目開閉検出トレーニングタスクａ、目開閉検出トレーニングタスクｂ及び目開閉検出トレーニングタスクｃに対して予め設定された画像の枚数の比例が１：１：１である場合、予め設定されたバッチ処理数が６００であると、本開示は目開閉検出トレーニングタスクａに対応する目画像セットから２００枚の目画像、目開閉検出トレーニングタスクｂに対応する目画像セットから２００枚の目画像、目開閉検出トレーニングタスクｃに対応する目画像セットから２００枚の目画像を取得することができる。

所望により、ある目開閉検出トレーニングタスクに対応する目画像セット内の目画像の枚数が、対応する枚数に達していない場合（例えば、２００に達していない）、バッチ処理数に達するように他の目開閉検出トレーニングタスクに対応する目画像セットから対応する枚数の目画像を取得することができる。例えば、目開閉検出トレーニングタスクｃに対応する目画像セットに１００枚の目画像のみがあり、目開閉検出トレーニングタスクａ及び目開閉検出トレーニングタスクｂのそれぞれに対応する目画像セット内の目画像の枚数がいずれも２５０を超えると、目開閉検出トレーニングタスクａに対応する目画像セットから２５０枚の目画像、目開閉検出トレーニングタスクｂに対応する目画像セットから２５０枚の目画像、目開閉検出トレーニングタスクｃに対応する目画像セットから１００枚の目画像を取得し、合計６００枚の目画像を取得することができる。これにより、目画像を取得する柔軟性を高めることができる。

なお、本開示は数をランダムに設置する方法を採用して異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得することができる。本開示は異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得するための具体的な実現方法を限定しない。また、目画像セットから目画像を取得するプロセスにおいて、ラベリング情報が開閉不明な状態である目画像の取得を回避すべきであり、これにより、目開閉検出用ニューラルネットワークの検出の正確性の向上に有利である。

選択可能な一例において、本開示は取得した複数の目画像の順番をトレーニング対象の目開閉検出用ニューラルネットワークに提供し、入力された目画像毎に目開閉状態の検出処理をトレーニング対象の目開閉検出用ニューラルネットワークによりそれぞれ行うことができる。これにより、トレーニング対象の目開閉検出用ニューラルネットワークが各目画像の目開閉状態の検出結果を順番に出力する。例えば、トレーニング対象の目開閉検出用ニューラルネットワークに入力された一枚の目画像は、順番に畳み込み層の処理、全結合層の処理及び分類用の層の処理を経て後、トレーニング対象の目開閉検出用ニューラルネットワークにより２つの確率値を出力し、２つの確率値の範囲はともに０～１であり、かつ２つの確率値の和は１である。そのうちの１つの確率値は開眼状態に対応し、この確率値の大きさが１に近いほど、この目画像における目が開眼状態に近いことを表す。その内のもう一つの確率値は閉眼状態に対応し、この確率値の大きさが１に近いほど、この目画像における目が閉眼状態に近いことを表す。

Ｓ１１０、目画像の目開閉のラベリング情報及び上記ニューラルネットワークから出力された目開閉状態の検出結果に基づき、上記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいてニューラルネットワークのネットワークパラメータを調整する。

選択可能な一例において、本開示は各目開閉検出トレーニングタスクのそれぞれに対応する損失を決定し、全てのトレーニングタスクのそれぞれに対応する損失に基づいて総合損失を決定し、この総合損失を利用してニューラルネットワークのネットワークパラメータを調整すべきである。本開示におけるネットワークパラメータは畳み込みカーネルパラメータおよび／または行列の重みなどを含んでもよいが、これらに限定されない。本開示はネットワークパラメータに含まれる具体的な内容を限定しない。

選択可能な一例において、いずれかの目開閉検出トレーニングタスクに対して、本開示は当該トレーニングタスクに対応する画像セット内の複数の目画像のそれぞれに対してニューラルネットワークから出力した目開閉状態の検出結果のうちの最大確率値と、当該画像セット内の対応する目画像のラベリング情報に対応する境界面との間の夾角に基づいて、当該トレーニングタスクに対応する損失を決定することができる。所望により、本開示は目画像の目開閉のラベリング情報及びニューラルネットワークから出力された目開閉状態の検出結果に基づいて、Ａ－ｓｏｆｔｍａｘ（角度付きの正規化された指数）損失関数を利用して、異なる目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、異なる目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて総合損失（例えば各損失の和）を決定し、確率的勾配降下法を採用してニューラルネットワークのネットワークパラメータを調整することができる。例えば、本開示はＡ－ｓｏｆｔｍａｘ損失関数を用いて各目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ算出し、全ての目開閉検出トレーニングタスクのそれぞれに対応する損失の和に基づいてバックプロパゲーション処理を行い、トレーニング対象の目開閉検出用ニューラルネットワークのネットワークパラメータを損失勾配降下の方法で更新させることができる。

上記内容から分かるように、本開示はニューラルネットワークをトレーニングするプロセスにおいて、毎回の反復トレーニングにニューラルネットワークに提供された全ての目画像は１つの目画像のサブセットを形成することができる。この目画像のサブセットには、各トレーニングタスクに対応する目画像が含まれる。本開示は各トレーニングタスクに対して損失を計算するため、ニューラルネットワークはトレーニングのプロセスにおいて、トレーニングタスク毎に目の開閉能力の検出に関する能力学習が可能であり、異なるトレーニングタスクを考慮した能力学習を行なうことができる。これにより、トレーニングされたニューラルネットワークは複数のトレーニングタスクに対応する複数のシーンにおける各シーンでの目画像の目開閉検出の正確性を同時に高めることができ、当該ニューラルネットワークに基づいて異なるシーンで目開閉を正確に検出する発明の普遍性と一般化の向上を促進し、複数シーンに関する実際の応用ニーズをより良く満たすために有利である。

本開示におけるＡ－ｓｏｆｔｍａｘ損失関数は下記の式（１）で示すことができる。

式（１）

上記式（１）において、Ｌ_ａｎｇは１つのトレーニングタスクに対応する損失を表し、Ｎは当該トレーニングタスクの目画像の枚数を表し、｜｜＊｜｜は＊のモデュラス（Modulus）を表し、ｘ_ｉは当該トレーニングタスクに対応するｉ番目の目画像を表し、ｙ_ｉは当該トレーニングタスクに対応するｉ番目の目画像のラベリング値を表し、ｍは常数であって、ｍの最小値が通常、所定値以上、例えば２+√３以上であり、

は、ｉ番目の目画像について、ニューラルネットワークから出力された目開閉状態の検出結果のうちの最大確率値と、ラベリング値に対応する境界面との間の夾角を表す。

は、ｍと上記夾角との積を表す。

選択可能な一例において、トレーニング対象の目開閉検出用ニューラルネットワークに対するトレーニングが所定の反復条件に達した時、このトレーニングプロセスが終了する。本開示における所定の反復条件は、目画像に対してトレーニング対象の目開閉検出用ニューラルネットワークが出力した目開閉状態の検出結果と目画像のラベリング情報との間の差異が、所定差異の要求を満たすことを含んでもよい。差異が所定の差異要求を満たした場合、ニューラルネットワークに対する今回のトレーニングが成功に完了された。また、本開示における所定の反復条件は、トレーニング対象の目開閉検出用ニューラルネットワークをトレーニングし、使用される目画像の枚数が所定の枚数の要求に達したことなどを含んでもよい。使用される目画像の枚数が所定の枚数の要求に達したが、差異が所定の差異要求を満たしてない場合、ニューラルネットワークに対する今回のトレーニングが成功ではない。成功にトレーニングされたニューラルネットワークは目開閉状態の検出処理に用いることができる。

本開示は異なるトレーニングタスクの損失に基づいて総合損失を形成し、総合損失を利用して目開閉検出用ニューラルネットワークのネットワークパラメータを調整し、ニューラルネットワークがトレーニングプロセスにおいて、トレーニングタスク毎に目の開閉能力の検出に関する能力学習が可能であり、異なるトレーニングタスクを考慮した能力学習を行なうことができる。これにより、トレーニングされたニューラルネットワークは複数のトレーニングタスクに対応する複数のシーンにおける各シーンでの目画像の目開閉検出の正確性を同時に高めることができ、当該ニューラルネットワークに基づいて異なるシーンで目開閉を正確に検出する発明の普遍性と一般化の向上を促進し、複数シーンに関する実際の応用ニーズをより良く満たすために有利である。

図３は本開示の目開閉状態の検出方法の一実施形態のフローチャートを示す。

図３に示すように、この実施例の方法はステップ：Ｓ３００及びＳ３１０を含む。以下に、図３における各ステップをそれぞれ詳しく説明する。

Ｓ３００、被処理画像を取得する。

選択可能な一例において、本開示の被処理画像は、静止的な画像または写真など画像であってもよく、または動的ビデオのビデオフレーム、例えば、移動物体上に設定された撮影装置によって撮影されたビデオのビデオフレームであってもよく、別の例では、固定位置に設定された撮影装置によって撮影されたビデオのビデオフレームであってもよい。上記移動物体は、車両、ロボット、またはロボットアームであってもよい。上記固定位置はデスクまたは壁であってもよい。本開示は、移動物体および固定位置の具体化される形式を限定しない。

選択可能な一例において、本開示は被処理画像を取得した後、被処理画像における目の位置領域を検出することができる。例えば、顔検出または顔のキーポイント検出方法などにより、被処理画像の目のバウンディングボックスを決定することができる。その後、本開示は目のバウンディングボックスに基づいて目の領域の画像を被処理画から切り取り、切り取った目画像ブロックがニューラルネットワークに提供される。当然、切り取った目画像ブロックは一定の前処理をされた後にニューラルネットワークに提供され得る。例えば、切り取った目画像ブロックに対してズーム処理を行い、ズーム処理された目画像ブロックの大きさをニューラルネットワークに入力された画像の寸法要求を満足させる。別の例では、対象者の両眼の目画像ブロックを切り取った後、所定側の目画像ブロックに対してマッピング処理を行い、対象者の２つの同一側の目画像ブロックを形成させる。所望により、２つの同一側の目画像ブロックに対してもズーム処理を行なうことができる。本開示は被処理画像から目画像ブロックを切り取るための具体的な実現方法を限定せず、切り取った目画像ブロックに対して前処理を行なうための具体的な実現方法も限定しない。

Ｓ３１０、ニューラルネットワークを介して、上記被処理画像に対して、目開閉状態の検出処理を行い、目開閉状態の検出結果を出力する。本開示におけるニューラルネットワークは本開示におけるニューラルネットワークのトレーニング方法の実施形態を利用して成功にトレーニングして得たものである。

選択可能な一例において、入力された目画像ブロックに対して本開示におけるニューラルネットワークから出力された目開閉状態の検出結果は少なくとも１つの確率値、例えば、目が開眼状態にあることを示す確率値及び目が閉眼状態にあることを示す確率値であってもよい。この２つの確率値の範囲はともに０～１であり、同一の目画像ブロックに対する２つの確率値の和は１である。目が開眼状態にあることを示す確率値の大きさが１に近いほど、目画像ブロックにおける目が開眼状態に近いことを表す。目が閉眼状態にあることを示す確率値の大きさが１に近いほど、目画像ブロックにおける目が閉眼状態に近いことを表す。

選択可能な一例において、本開示はニューラルネットワークから出力された、時系列の目開閉状態の検出結果に対して更に判断することができる。これにより、時系列の複数の被処理画像における対象者の目の動作、例えば、速くまばたく動作、または１つの目を開け、もう１つの目を閉じる動作、または目を細める動作などを決定することができる。

選択可能な一例において、本開示はニューラルネットワークから出力された時系列の目開閉状態の検出結果及び対象者の顔の他の器官の状態に基づいて、時系列の複数の被処理画像における対象者の表情、例えば、微笑み、大笑いまたは泣きまたは悲しみなどを決定することができる。

選択可能な一例において、本開示はニューラルネットワークから出力された時系列の目開閉状態の検出結果に対して更に判断することができる。これにより、時系列の複数の被処理画像における対象者の疲労状態、例えば、軽度の疲労または居眠りまたは熟睡などを決定することができる。

選択可能な一例において、本開示はニューラルネットワークから出力された、時系列の目開閉状態の検出結果に対して更に判断することができる。これにより、時系列の複数の被処理画像における対象者の目の動作を決定することができるため、本開示は少なくとも目の動作に基づいて時系列の複数の被処理画像における対象者で表される対話制御情報を決定することができる。

選択可能な一例において、本開示によって決定される目の動作、表情、疲労状態及び対話制御情報は様々な用途として利用することができる。例えば、対象者の所定の目の動作および／または表情を使用して、ライブ／中継中の所定の特殊効果をトリガーするか、または対応する人間とコンピュータの相互作用などを実現して、用途の実現方法を多様にすることに有利である。別の例では、インテリジェント運転技術において、運転手の疲労状態をリアルタイムに検出することにより、疲労運転の現象の防止に有利である。本開示はニューラルネットワークから出力された目開閉状態の検出結果の具体的な応用を限定しない。

図４は本開示のインテリジェント運転制御方法の一実施形態のフローチャートを示す。本開示のインテリジェント運転制御方法は自動運転環境に適用することができ、巡航運転環境にも適用することができる。本開示はインテリジェント運転制御方法の適用環境を限定しない。

図４に示すように、この実施例の方法はステップ：Ｓ４００、Ｓ４１０、Ｓ４２０及びＳ４３０を含む。以下に図４における各ステップを詳しく説明する。

Ｓ４００、車両に搭載される撮影装置により収集された被処理画像を取得する。本ステップの具体的な実現方法は上記方法の実施形態における図３のＳ３００に関する説明を参照されたく、ここでその詳細を省略する。

Ｓ４１０、ニューラルネットワークを介して、上記被処理画像に対して、目開閉状態の検出処理を行い、目開閉状態の検出結果を出力する。本実施例のニューラルネットワークは上記ニューラルネットワークのトレーニング方法の実施形態を利用して成功にトレーニングして得たものである。本ステップの具体的な実現方法は上記方法の実施形態における図３のＳ３１０に関する説明を参照されたく、ここでその詳細を省略する。

Ｓ４２０、少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて対象者の疲労状態を決定する。

選択可能な一例において、本開示の対象者は、通常、車両の運転手である。本開示は同一対象者に属し、かつ時系列の複数の目開閉状態の検出結果に基づいて、この対象者（例えば運転手）が単位時間当たりにまばたく回数、１回当たりの閉眼時間または１回当たりの開眼時間などの指標パラメータを決定することができ、これにより、所定の指標要求を用いて対応する指標パラメータを更に判断し、対象者（例えば運転手）が疲労状態にあるか否かを決定することができる。本開示における疲労状態は例えば、軽度の疲労状態、中度の疲労状態または重度の疲労状態など様々の異なる度合いの疲労状態を含んでもよい。本開示は対象者の疲労状態を決定するための具体的な実現方法を限定しない。

Ｓ４３０、対象者の疲労状態に応じて、指令を生成し出力する。

選択可能な一例において、本開示は対象者の疲労状態に応じて生成された指令として、インテリジェント運転状態への切り替え指令、疲労運転の音声警告指令、振動ウェイクアップ指令及び危険な運転情報の報知指令などのうちの少なくとも１種を含んでもよい。本開示は指令の具体化される形式を限定しない。

本開示のニューラルネットワークのトレーニング方法でトレーニングされたニューラルネットワークは、ニューラルネットワークの目開閉状態の検出結果の正確性の向上に有利である。そのため、このニューラルネットワークから出力された目開閉状態の検出結果を用いて疲労状態を判断することは、疲労状態検出の正確性の向上に役立ち、検出された疲労状態の検出結果に応じて指令を生成し、疲労運転の回避、更に運転の安全性に有利である。

図５は本開示のニューラルネットワークのトレーニング装置の一実施形態の構成模式図を示す。図５に示すニューラルネットワークのトレーニング装置は、トレーニング対象の目開閉検出用ニューラルネットワーク５００及び調整モジュール５１０を含む。所望により、この装置はさらに、入力モジュール５２０を含んでもよい。

トレーニング対象の目開閉検出用ニューラルネットワーク５００は少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像に対して、それぞれ開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられる。異なる画像セットに含まれる目画像は少なくとも部分的に異なる。

選択可能な一例において、本開示のトレーニング対象の目開閉検出用ニューラルネットワーク５００はトレーニングされた後、被処理画像に対して目開閉状態の検出を行い、被処理画像の目開閉状態の検出結果を出力することに用いることができる。例えば、１つの被処理画像に対して、ニューラルネットワーク５００２つの確率値を出力し、そのうちの１つの確率値は被処理画像における対象者の目が開いている状態にある確率を示し、この確率値が大きいほど、開眼状態に近いことを表す。そのうちのもう１つの確率値は被処理画像における対象者の目が閉じている状態にある確率を示し、この確率値が大きいほど、閉眼状態に近いことを表す。２つの確率値の和は１であってもよい。

選択可能な一例において、本開示におけるニューラルネットワーク５００は畳み込みニューラルネットワークであってもよい。本開示におけるニューラルネットワーク５００は畳み込み層、Ｒｅｌｕ層（活性化層とも呼ばれる）、プーリング層、全結合層及び分類用（例えば２項分類）の層などを含んでもよいが、これらに限定されない。このニューラルネットワーク５００に含まれる層数が多いほど、ネットワークが深い。本開示はニューラルネットワーク５００の具体的な構成を限定しない。

選択可能な一例において、本開示でニューラルネットワーク５００をトレーニングするプロセスに関わる目開閉検出トレーニングタスクは少なくとも２つあり、かつそれぞれの目開閉検出トレーニングタスクはいずれもニューラルネットワークに目開閉状態の検出を実現させるためのトレーニングタスク全体に属すべきである。異なる目開閉検出トレーニングタスクに対応するトレーニング目標が完全に同じではない。つまり、本開示は以ニューラルネットワーク５００のトレーニングタスク全体を複数のトレーニングタスクに分けることができ、１つのトレーニングタスクは１つのトレーニング目標に対応し、かつ異なるトレーニングタスクに対応するトレーニング目標が異なる。

選択可能な一例において、本開示の少なくとも２つの目開閉検出トレーニングタスクは、目に装着物が装着されている場合の目開閉検出タスク、目に装着物が装着されない場合の目開閉検出タスク、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクのうちの少なくとも２つを含んでもよい。上記装着物は眼鏡または透明なプラスチックシートなどであってもよい。上記スポットは装着物が反射することによって装着物に形成されたスポットであってもよい。上記列記したタスクの詳細は上記方法の実施形態の説明を参照されたく、ここでその詳細を省略する。

選択可能な一例において、本開示の少なくとも２つの目開閉検出トレーニングタスクはそれぞれ対応する画像セットがあり、通常、画像セット毎に複数の目画像が含まれる。異なる画像セットに含まれる目画像は少なくとも部分的に異なる。つまり、１つの画像セットにとって、この画像セット内の少なくもと一部の目画像は他の画像セットにない。所望により、異なる画像セットに含まれる目画像は共通部分があってもよい。

所望により、上記列記した６つの目開閉検出トレーニングタスクのそれぞれに対応する画像セットはそれぞれ、目に装着物が装着されている目画像セット、目に装着物が装着されない目画像セット、室内環境で収集した目画像セット、室外環境で収集した目画像セット、目に装着物が装着され且つ装着物にスポットがある目画像セット、目に装着物が装着され且つ装着物にスポットがない目画像セットであってもよい。上記列記した画像セットの詳細は上記方法の実施形態の記載を参照されたく、ここでその詳細を省略する。

選択可能な一例において、本開示における目画像は、通常、撮影装置により撮影した目画像を含むから切り取った目画像ブロックであってもよい。本開示における目画像を形成するプロセスは、上記方法の実施形態の記載を参照されたく、ここでその詳細を省略する。

選択可能な一例において、本開示の目開閉検出用ニューラルネットワーク５００をトレーニングするための目画像は、通常、ラベリング情報を有し、かつ、このラベリング情報は目画像における目開閉状態を表すことができる。所望により、本開示におけるラベリング情報目画像における目が開閉不明の状態にあることも表すことができる。しかし、本開示における目開閉検出用ニューラルネットワーク５００をトレーニングするための目画像は、通常、ラベリング情報が開閉不明な状態である目画像を含まないため、開閉不明な状態の目画像によるニューラルネットワーク５００への影響を回避することに有利であり、目開閉検出用ニューラルネットワーク５００の検出の正確性の向上に有利である。

入力モジュール５２０は異なる画像セットから対応する枚数の目画像を取得し、トレーニング対象の目開閉検出用ニューラルネットワーク５００に提供することに用いられる。例えば、入力モジュール５２０は異なる目開閉検出トレーニングタスクに対し、当該異なる目開閉検出トレーニングタスクに予め設定された画像の枚数の比例に従って、異なる画像セットから対応する枚数の目画像をそれぞれ取得し、トレーニング対象の目開閉検出用ニューラルネットワーク５００に提供することに用いられる。また、入力モジュール５２０は目画像を取得するプロセスにおいて、通常、予め設定されたバッチ処理数も考慮する。例えば、目開閉検出トレーニングタスクａ、目開閉検出トレーニングタスクｂ及び目開閉検出トレーニングタスクｃに対して予め設定された画像の枚数の比例が１：１：１である場合、予め設定されたバッチ処理数が６００であると、入力モジュール５２０は目開閉検出トレーニングタスクａに対応する目画像セットから２００枚の目画像、目開閉検出トレーニングタスクｂに対応する目画像セットから２００枚の目画像、目開閉検出トレーニングタスクｃに対応する目画像セットから２００枚の目画像を取得することができる。

所望により、ある目開閉検出トレーニングタスクに対応する目画像セット内の目画像の枚数が対応する枚数に達していない（例えば２００に達していない）場合、入力モジュール５２０はバッチ処理数に達するように他の目開閉検出トレーニングタスクに対応する目画像セットから対応する枚数の目画像を取得することができる。例えば、目開閉検出トレーニングタスクｃに対応する目画像セットに１００枚の目画像のみがあり、目開閉検出トレーニングタスクａ及び目開閉検出トレーニングタスクｂのそれぞれに対応する目画像セット内の目画像の枚数がいずれも２５０を超えると、入力モジュール５２０は目開閉検出トレーニングタスクａに対応する目画像セットから２５０枚の目画像、目開閉検出トレーニングタスクｂに対応する目画像セットから２５０枚の目画像、目開閉検出トレーニングタスクｃに対応する目画像セットから１００枚の目画像を取得することができる。これにより、入力モジュール５２０は合計６００枚の目画像を取得することになる。

なお、入力モジュール５２０数をランダムに設置する方法を採用して、異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得することができる。本開示は入力モジュール５２０が異なるトレーニングタスクのそれぞれに対応する目画像セットから対応する枚数の目画像をそれぞれ取得するための具体的な実現方法を限定しない。また、入力モジュール５２０は目画像セットから目画像を取得するプロセスにおいて、ラベリング情報が開閉不明な状態である目画像の取得を回避すべきであり、これにより、目開閉検出用ニューラルネットワークの検出の正確性の向上に有利である。

選択可能な一例において、入力モジュール５２０は取得した複数の目画像の順番をトレーニング対象の目開閉検出用ニューラルネットワーク５００に提供し、入力された目画像毎に目開閉状態の検出処理をトレーニング対象の目開閉検出用ニューラルネットワーク５００によりそれぞれ行い、これにより、トレーニング対象の目開閉検出用ニューラルネットワーク５００が各目画像の目開閉状態の検出結果を順番に出力する。例えば、トレーニング対象の目開閉検出用ニューラルネットワーク５００に入力された一枚の目画像は、順番に畳み込み層の処理、全結合層の処理及び分類用の層の処理を経て後、トレーニング対象の目開閉検出用ニューラルネットワーク５００により２つの確率値を出力し、２つの確率値の範囲はともに０～１であり、かつ２つの確率値の和は１である。そのうちの１つの確率値は開眼状態に対応し、この確率値の大きさが１に近いほど、この目画像における目が開眼状態に近いことを表す。その内のもう一つの確率値は閉眼状態に対応し、この確率値の大きさが１に近いほど、この目画像における目が閉眼状態に近いことを表す。

調整モジュール５１０は目画像の目開閉のラベリング情報及びニューラルネットワーク５００から出力された目開閉状態の検出結果に基づき、上記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいてニューラルネットワーク５００のネットワークパラメータを調整することに用いられる。

選択可能な一例において、調整モジュール５１０は各目開閉検出トレーニングタスクのそれぞれに対応する損失を決定し、全てのトレーニングタスクのそれぞれに対応する損失に基づいて総合損失を決定すべきである。調整モジュール５１０はこの総合損失を利用してニューラルネットワークのネットワークパラメータを調整する。本開示におけるネットワークパラメータは畳み込みカーネルパラメータおよび／または行列の重みなどを含んでもよいが、これらに限定されない。本開示はネットワークパラメータに含まれる具体的な内容を限定しない。

選択可能な一例において、いずれかの目開閉検出トレーニングタスクに対して、調整モジュール５１０は当該トレーニングタスクに対応する画像セット内の複数の目画像のそれぞれに対してニューラルネットワークから出力した目開閉状態の検出結果のうちの最大確率値と、当該画像セット内の対応する目画像のラベリング情報に対応する境界面との間の夾角に基づいて、当該トレーニングタスクに対応する損失を決定することができる。

所望により、調整モジュール５１０は目画像の目開閉のラベリング情報及びニューラルネットワークから出力された目開閉状態の検出結果に基づいて、Ａ－ｓｏｆｔｍａｘ（角度付きの正規化された指数）損失関数を利用して、異なる目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、異なる目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて総合損失（例えば各損失の和）を決定する。その後、調整モジュール５１０は確率的勾配降下法を採用してニューラルネットワークのネットワークパラメータを調整することができる。例えば、調整モジュール５１０はＡ－ｓｏｆｔｍａｘ損失関数を用いて各目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ算出し、全ての目開閉検出トレーニングタスクのそれぞれに対応する損失の和に基づいてバックプロパゲーション処理を行い、トレーニング対象の目開閉検出用ニューラルネットワーク５００のネットワークパラメータを損失勾配降下の方法で更新させることができる。

選択可能な一例において、トレーニング対象の目開閉検出用ニューラルネットワーク５００に対するトレーニングが所定の反復条件に達した時、調整モジュール５１０は今回のトレーニングプロセスが終了するように制御することができる。本開示における所定の反復条件は、目画像に対してトレーニング対象の目開閉検出用ニューラルネットワーク５００が出力した目開閉状態の検出結果と目画像のラベリング情報との間の差異が所定差異の要求を満たすことを含んでもよい。差異が所定の差異要求を満たした場合、ニューラルネットワーク５００に対する今回のトレーニングが成功に完了された。

所望により、調整モジュール５１０により使用される所定の反復条件は、トレーニング対象の目開閉検出用ニューラルネットワークをトレーニングし、使用される目画像の枚数が所定の枚数の要求に達したことなどを含んでもよい。使用される目画像の枚数が所定の枚数の要求に達したが、差異が所定の差異要求を満たしてない場合、ニューラルネットワーク５００に対する今回のトレーニングが成功ではない。成功にトレーニングされたニューラルネットワーク５００は目開閉状態の検出処理に用いることができる。

図６は本開示の目開閉状態の検出装置の一実施形態の構成模式図を示す。図６に示すように、この実施例の装置は、取得モジュール６００及びニューラルネットワーク６１０を含む。所望により、目開閉状態の検出装置はさらに、決定モジュール６２０を含んでもよい。

取得モジュール６００は被処理画像を取得することに用いられる。

選択可能な一例において、取得モジュール６００により取得された被処理画像は、静止的な画像または写真など画像であってもよく、または動的ビデオのビデオフレーム、例えば、移動物体上に設定された撮影装置によって撮影されたビデオのビデオフレームであってもよく、別の例では、固定位置に設定された撮影装置によって撮影されたビデオのビデオフレームであってもよい。上記移動物体は、車両、ロボット、またはロボットアームであってもよい。上記固定位置はデスクまたは壁であってもよい。

選択可能な一例において、取得モジュール６００は被処理画像を取得した後、被処理画像における目の位置領域を検出することができる。例えば、取得モジュール６００は顔検出または顔のキーポイント検出方法などにより、被処理画像の目のバウンディングボックスを決定することができる。その後、取得モジュール６００は目のバウンディングボックスに基づいて目の領域の画像を被処理画から切り取り、切り取った目画像ブロックがニューラルネットワーク６１０に提供される。当然、取得モジュール６００は切り取った目画像ブロックに対して一定の前処理を実施した後に、それをニューラルネットワーク６１０に提供することができる。例えば、取得モジュール６００は切り取った目画像ブロックに対してズーム処理を行い、ズーム処理された目画像ブロックの大きさをニューラルネットワークに入力された画像の寸法要求を満足させる。別の例では、対象者の両眼の目画像ブロックを切り取った後、そのうちの所定側の目画像ブロックに対して取得モジュール６００によりマッピング処理を行い、対象者の２つの同一側の目画像ブロックを形成させる。所望により、取得モジュール６００はさらに、２つの同一側の目画像ブロックに対してズーム処理を行なうことができる。本開示は取得モジュール６００が被処理画像から目画像ブロックを切り取るための具体的な実現方法を限定せず、取得モジュール６００が切り取った目画像ブロックに対して前処理を行なうための具体的な実現方法も限定しない。

ニューラルネットワーク６１０は被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられる。

選択可能な一例において、入力された目画像ブロックに対して本開示におけるニューラルネットワーク６１０から出力された目開閉状態の検出結果は少なくとも１つの確率値、例えば、目が開眼状態にあることを示す確率値及び目が閉眼状態にあることを示す確率値であってもよい。この２つの確率値の範囲はともに０～１であり、同一の目画像ブロックに対する２つの確率値の和は１である。目が開眼状態にあることを示す確率値の大きさが１に近いほど、目画像ブロックにおける目が開眼状態に近いことを表す。目が閉眼状態にあることを示す確率値の大きさが１に近いほど、目画像ブロックにおける目が閉眼状態に近いことを表す。

決定モジュール６２０は少なくとも、時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、対象者の目の動作および／または表情および／または疲労状態および／または対話制御情報を決定することに用いられる。

選択可能な一例において、対象者の目の動作は例えば、速くまばたく動作、または１つの目を開け、もう１つの目を閉じる動作、または目を細める動作などである。対象者の表情は例えば、微笑み、大笑いまたは泣きまたは悲しみなどである。対象者の疲労状態は例えば、軽度の疲労または居眠りまたは熟睡などである。対象者で表される対話制御情報は例えば、確認や拒否などである。

図７は本開示のインテリジェント運転制御装置の一実施形態の構成模式図を示す。図７に示す装置は主として、取得モジュール６００、ニューラルネットワーク６１０、疲労状態決定モジュール７００及び指令モジュール７１０を含む。

取得モジュール６００は車両に搭載される撮影装置により収集された被処理画像を取得することに用いられる。

取得モジュール６００及びニューラルネットワーク６１０により具体的に実行される操作は、上記装置の実施形態の記載を参照されたく、ここでその詳細を省略する。

疲労状態決定モジュール７００は少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて対象者の疲労状態を決定することに用いられる。

選択可能な一例において、本開示における対象者は、通常、運転手である。疲労状態決定モジュール７００は同一対象者に属し、かつ時系列の複数の目開閉状態の監視結果に基づいて、この対象者（例えば運転手）が単位時間当たりにまばたく回数、１回当たりの閉眼時間または１回当たりの開眼時間などの指標パラメータを決定することができる。これにより、疲労状態決定モジュール７００は所定の指標要求を用いて対応する指標パラメータを更に判断する。疲労状態決定モジュール７００は対象者（例えば運転手）が疲労状態にあるか否かを決定することができる。本開示における疲労状態は例えば、軽度の疲労状態、中度の疲労状態または重度の疲労状態など様々な異なる度合いの疲労状態を含んでもよい。本開示は疲労状態決定モジュール７００が対象者の疲労状態を決定するための具体的な実現方法を限定しない。

指令モジュール７１０は対象者の疲労状態に応じて、指令を生成し出力することに用いられる。

選択可能な一例において、指令モジュール７１０により対象者の疲労状態に応じて生成された指令として、インテリジェント運転状態への切り替え指令、疲労運転の音声警告指令、振動ウェイクアップ指令及び危険な運転情報の報知指令などのうちの少なくとも１種を含んでもよい。本開示は指令の具体化される形式を限定しない。

本開示のニューラルネットワークのトレーニング方法でトレーニングされたニューラルネットワーク６１０は、ニューラルネットワークの目開閉状態の検出結果の正確性の向上に有利である。そのため、疲労状態決定モジュール７００がこのニューラルネットワーク６１０から出力された目開閉状態の検出結果を用いて疲労状態を判断することによって、疲労状態検出の正確性の向上に役立つ。これにより、指令モジュール７１０が検出された疲労状態の検出結果に応じて指令を生成することによって、疲労運転の回避、更に運転の安全性に有利である。

例示的な機器
図８は本開示の実施形態の例示的な機器のブロック図を示す。この機器８００は、自動車に搭載される制御システム／電子システ、移動端末（例えば、スマートフォンなど）、パーソナルコンピュータ（ＰＣ、例えばデスクトップコンピュータまたはノートブックコンピュータなど）、タブレットコンピュータ及びサーバなどであってもよい。図８では、機器８００は、１つまたは複数のプロセッサ、通信部などを含み、前記１つまたは複数のプロセッサは、１つまたは複数の中央処理ユニット（ＣＰＵ）８０１、および／または１つまたは複数の加速ユニット８１３であってもよい。加速ユニット８１３は、グラフィックプロセッサ（ＧＰＵ）などであってもよい。プロセッサは、読み取り専用メモリ（ＲＯＭ）８０２に格納された実行可能命令、または記憶部８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされた実行可能命令に基づいて、さまざまな適切な動作及び処理を実行できる。通信部８１２は、ネットワークカードを含み得るが、これに限定されず、前記ネットワークカードは、ＩＢ（インフィニバンド）ネットワークカードを含み得るが、これに限定されない。プロセッサは、実行可能命令を実行するために読み取り専用メモリ８０２および／またはランダムアクセスメモリ８０３と通信し、バス８０４を介して通信部分８１２に接続され、通信部８１２を介して他のターゲットデバイスと通信することによって本開示の対応するステップを完了ささせる。

上記の各命令によって実行される操作は、上記方法実施例の関連記載を参照されたく、ここでその詳細を省略する。また、ＲＡＭ８０３には、装置の動作に必要な様々なプログラムやデータを記憶することもできる。ＣＰＵ８０１、ＲＯＭ８０２、およびＲＡＭ８０３は、バス８０４を介して相互に接続される。

ＲＡＭ８０３がある場合、ＲＯＭ８０２は選択可能なモジュールである。ＲＡＭ８０３は、実行可能命令を記憶するか、動作中に実行可能命令をＲＯＭ８０２に書き込み、実行可能命令は中央処理ユニット８０１に上記の方法に含まれるステップを実行させる。入力／出力（Ｉ／Ｏ）インターフェース８０５もまた、バス８０４に接続されている。通信部８１２は、統合的に配置され得るか、または複数のサブモジュール（例えば、複数のＩＢネットワークカード）を有し、それぞれバスに接続されるように構成され得る。

以下の手段は、Ｉ／Ｏインターフェース８０５に接続されている：キーボードおよびマウスなどを含む入力部８０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＤＣ）およびスピーカーなどを含む出力部８０７、ハードディスクを含む記憶部８０８、およびＬＡＮカード、モデムなどのネットワークインターフェースカードを含む通信部８０９。通信部８０９は、インターネットなどのネットワークを介して通信処理を行う。ドライバ８１０はまた、必要に応じてＩ／Ｏインターフェース８０５に接続されている。磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル媒体８１１は、必要に応じてドライブ８１０に取り付けられ、そこから読み取られたコンピュータプログラムが必要に応じて記憶部８０８に取り付けられることが容易になる。

なお、図８に示すアーキテクチャは選択可能な実現方法にすぎない。具体的実践において、実際のニーズに応じて、上記図８の手段の数及びタイプを選択、削除、追加、または置換することができる。機能が異なる部材の配置について、分散設置または統合設置などの実現方法を採用してもよい。例えば、加速ユニット８１３とＣＰＵ８０１を分散に配置することができる。別の例では、加速ユニット８１３をＣＰＵ８０１に統合させることができる。通信部は分散に配置することができ、ＣＰＵ８０１または加速ユニット８１３に統合させることもできる。これらの代替可能な実施形態は全て本開示の保護範囲に含まれる。

特に、本開示の実施形態によれば、以下にフローチャートを参照して説明するプロセスは、コンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施形態は、機器で読み取り可能な媒体上に具体化されたコンピュータプログラムを含み、コンピュータプログラムはフローチャートに示されるステップを実行するためのプログラムコードを含み、プログラムコードは本開示に係る方法のステップの実行に対応する命令を含み得る。

このような実施形態では、このコンピュータプログラムは、通信部分８０９を介してネットワークからダウンロードおよびインストールされ得、および／またはリムーバブル媒体８１１からインストールされ得る。このコンピュータプログラムが中央処理ユニット（ＣＰＵ）８０１によって実行されると、上記の対応するステップを実施するための本開示に記載される命令が実行される。

選択可能な１つ以上の実施形態において、本開示の実施例はさらに、実行されると、コンピュータに上記のいずれかの実施例に記載のニューラルネットワークのトレーニング方法または目開閉状態の検出方法またはインテリジェント運転制御方法を実行させるコンピュータ読み取り可能な命令を記憶するためのコンピュータプログラム製品を提供する。

このコンピュータプログラム製品は、ハードウェア、ソフトウェア、またはそれらの組み合わせによって具体化され得る。選択可能な一例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体とし具体化されている。選択可能な別の例では、前記コンピュータプログラム製品は、ソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ，ＳＤＫ）などのソフトウェア製品として具体化されている。

選択可能な１つ以上の実施形態において、本開示の実施例はさらに、別の、目開閉状態の検出方法、インテリジェント運転制御方法及びニューラルネットワークのトレーニング方法並びそれに対応する装置及び電子機器、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品を提供し、そのうちの方法は、第一装置により、上記可能な何れかの実施可能な実施例におけるニューラルネットワークのトレーニング方法または目開閉状態の検出方法またはインテリジェント運転制御方法を第２の装置に実行させるためのニューラルネットワークトレーニング命令または目開閉状態の検出命令またはインテリジェント運転制御命令を、第２の装置に送信することと、第一装置が第２の装置から送信されたニューラルネットワークトレーニング結果または目開閉状態の検出結果またはインテリジェント運転制御結果を受信することと、を含む。

いくつかの実施例では、このニューラルネットワークトレーニング命令または眼の開閉状態検出命令またはインテリジェント運転制御命令は、具体的に呼び出し命令であってもよく、第１の装置は命令を呼び出すようにニューラルネットワークトレーニング操作または目開閉状態の検出操作またはインテリジェント運転制御操作を第２の装置に実行させることができ、相応的に、受信した呼び出し命令に応じて、第２の装置は上記のニューラルネットワークトレーニング方法または目開閉状態の検出方法またはインテリジェント運転制御方法のいずれかの実施例におけるステップおよび／またはフローを実行することができる。

本開示の実施形態における「第１の」および「第２の」などの用語は区別するためだけであり、本開示の実施例を限定するものとして解釈されるべきではないことを理解されたい。また、本開示において、「複数」は２つまたは２つ以上を指すことができ、「少なくとも１つ」は１つ、２つまたは２つ以上を指すことができることも理解されたい。更に、本開示で言及される任意の部材、データまたは構造は、明確な限定がない、または前後の文脈に反対の示唆がない限り、一般に、１つまたは複数として理解することも理解されたい。また、本開示における様々な実施例の記述は各実施例間の差異を重点として強調し、同一または類似するところは互いに参照することができ、簡潔にするために、それらは１つずつ繰り返されないことも理解されたい。

本開示の方法および装置、電子機器及びコンピュータ読み取り可能な記憶媒体は多くの方法で実施され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本開示の方法および装置、電子機器及びコンピュータ読み取り可能な記憶媒体を実現することができる。方法に用いられるステップの上記順番は説明的なものに過ぎず、特に説明がない限り、本開示の方法のステップは上記具体的に記載された順番に限定されない。さらに、いくつかの実施形態では、本開示は記録媒体に記録されたプログラムとして実施され得る。これらのプログラムは、本開示に係る方法を実施するための機器で読み取り可能な命令を含む。したがって、本開示はまた、本開示に係る方法を実行するためのプログラムを記憶するための記録媒体をカバーする。

この開示の説明は、例示および説明のために示すものであり、網羅的なものではなく、または本開示を披露された各形態に限定するものではない。当業者にとって、様々な修正及び変更が自明である。選択及び実施形態の説明は、本開示の原理と実際の適用をよりよく説明し、当業者が本開示の実施例を理解して特定の用途に適する様々な修正を伴う各実施形態を設計できるようにするためである。

Claims

トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することと、
前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することと、
を含み、
異なる画像セットに含まれる目画像は少なくとも部分的に異なることを特徴とするニューラルネットワークのトレーニング方法。
前記少なくとも２つの目開閉検出トレーニングタスクは、目に装着物が装着されている場合の目開閉検出タスク、目に装着物が装着されない場合の目開閉検出タスク、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクのうちの少なくとも２つを含み、
前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セットは、目に装着物が装着されている目画像セット、目に装着物が装着されない目画像セット、室内環境で収集した目画像セット、室外環境で収集した目画像セット、目に装着物が装着され且つ装着物にスポットがある目画像セット、目に装着物が装着され且つ装着物にスポットがない目画像セットのうちの少なくとも２つを含むことを特徴とする請求項１に記載の方法。
前記トレーニング対象の目開閉検出用ニューラルネットワークを介して、少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することは、
異なる目開閉検出トレーニングタスクに対して、当該異なる目開閉検出トレーニングタスクに予め設定された画像の枚数の比例に従って、異なる前記画像セットから対応する枚数の目画像をそれぞれ取得することと、
トレーニング対象の目開閉検出用ニューラルネットワークを介して、前記対応する枚数の目画像のそれぞれに対して、目開閉状態の検出処理を行い、各目画像のそれぞれに対応する目開閉状態の検出結果を出力することと、
を含むことを特徴とする請求項１または２に記載の方法。
前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定することは、
いずれかの目開閉検出トレーニングタスクについて、当該トレーニングタスクに対応する画像セット内の複数の目画像のそれぞれに対して前記ニューラルネットワークから出力した目開閉状態の検出結果のうちの最大確率値と、当該画像セット内の対応する目画像のラベリング情報に対応する境界面との間の夾角に基づいて、当該トレーニングタスクに対応する損失を決定することを含むことを特徴とする請求項１～３のいずれか１項に記載の方法。
前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することは、
前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて、前記少なくとも２つの目開閉検出トレーニングタスクの総合損失を決定することと、
前記総合損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整することと、
を含むことを特徴とする請求項１～４のいずれか１項に記載の方法。
被処理画像を取得することと、
ニューラルネットワークを介して、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することと、
を含み、
前記ニューラルネットワークは上記請求項１～５のいずれか１項に記載の方法でトレーニングされたものであることを特徴とする目開閉状態の検出方法。
少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の目の動作および／または表情および／または疲労状態および／または対話制御情報を決定することをさらに含むことを特徴とする請求項６に記載の方法。
車両に搭載される撮影装置により収集された被処理画像を取得することと、
ニューラルネットワークを介して、前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することと、
少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の疲労状態を決定することと、
前記対象者の疲労状態に応じて、指令を生成し出力することと、
を含み、
前記ニューラルネットワークは上記請求項１～５のいずれか１項に記載の方法でトレーニングされたものであることを特徴とするインテリジェント運転制御方法。
少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セット内の複数の目画像のそれぞれに対して、目開閉状態の検出処理を行って目開閉状態の検出結果を出力することに用いられるトレーニング対象の目開閉検出用ニューラルネットワークと、
前記目画像の、目開閉のラベリング情報及び前記ニューラルネットワークから出力された目開閉状態の検出結果に基づいて、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失をそれぞれ決定し、前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することに用いられる調整モジュールと、
を含み、
異なる画像セットに含まれる目画像は少なくとも部分的に異なることを特徴とするニューラルネットワークのトレーニング装置。
前記少なくとも２つの目開閉検出トレーニングタスクは、目に装着物が装着されている場合の目開閉検出タスク、目に装着物が装着されない場合の目開閉検出タスク、室内環境での目開閉検出タスク、室外環境での目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがある場合の目開閉検出タスク、目に装着物が装着され且つ装着物にスポットがない場合の目開閉検出タスクのうちの少なくとも２つを含み、
前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する画像セットは、目に装着物が装着されている目画像セット、目に装着物が装着されない目画像セット、室内環境で収集した目画像セット、室外環境で収集した目画像セット、目に装着物が装着され且つ装着物にスポットがある目画像セット、目に装着物が装着され且つ装着物にスポットがない目画像セットのうちの少なくとも２つを含むことを特徴とする請求項９に記載の装置。
異なる目開閉検出トレーニングタスクに対して、当該異なる目開閉検出トレーニングタスクに予め設定された画像の枚数の比例に従って、異なる前記画像セットから対応する枚数の目画像をそれぞれ取得して、トレーニング対象の目開閉検出用ニューラルネットワークに提供することに用いられる入力モジュールをさらに含み、
前記トレーニング対象の目開閉検出用ニューラルネットワークは、前記対応する枚数の目画像のそれぞれに対して、目開閉状態の検出処理を行い、各目画像のそれぞれに対応する目開閉状態の検出結果を出力することを特徴とする請求項９または１０に記載の装置。
前記調整モジュールはさらに、
いずれかの目開閉検出トレーニングタスクについて、当該トレーニングタスクに対応する画像セット内の複数の目画像のそれぞれに対してニューラルネットワークから出力した目開閉状態の検出結果のうちの最大確率値と、当該画像セット内の対応する目画像のラベリング情報に対応する境界面との間の夾角に基づいて、当該トレーニングタスクに対応する損失を決定することに用いられることを特徴とする請求項９～１１のいずれか１項に記載装置。
前記調整モジュールはさらに、
前記少なくとも２つの目開閉検出トレーニングタスクのそれぞれに対応する損失に基づいて、前記少なくとも２つの目開閉検出トレーニングタスクの総合損失を決定することと、
前記総合損失に基づいて前記ニューラルネットワークのネットワークパラメータを調整することに用いられることを特徴とする請求項９～１２のいずれか１項に記載の装置。
被処理画像を取得することに用いられる取得モジュールと、
前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられるニューラルネットワークと、
を含み、
前記ニューラルネットワークは上記請求項９～１３のいずれか１項に記載の装置でトレーニングされたものであることを特徴とする目開閉状態の検出装置。
少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の目の動作および／または表情および／または疲労状態および／または対話制御情報を決定することに用いられる決定モジュールをさらに含むことを特徴とする請求項１４に記載の装置。
車両に搭載される撮影装置により収集された被処理画像を取得することに用いられる取得モジュールと、
前記被処理画像に対して目開閉状態の検出処理を行い、目開閉状態の検出結果を出力することに用いられるニューラルネットワークと、
少なくとも時系列の複数の被処理画像における同一の対象者の目開閉状態の検出結果に基づいて、前記対象者の疲労状態を決定することに用いられる疲労状態決定モジュールと、
前記対象者の疲労状態に応じて、指令を生成し出力することに用いられる指令モジュールと、
を含み、
前記ニューラルネットワークは上記請求項９～１３のいずれか１項に記載の装置でトレーニングされたものであることを特徴とするインテリジェント運転制御装置。
コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶されたコンピュータプログラムを実行し、かつ、前記コンピュータプログラムが実行されると、上記請求項１～８のいずれか１項に記載の方法を実現させるプロセッサと、
を含む電子機器。
プロセッサにより実行されると、上記請求項１～８のいずれか１項に記載の方法を実現させるコンピュータプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
機器のプロセッサにおいて実行されると、上記請求項１～８のいずれか１項に記載の方法を実現させるコンピュータ命令を含むコンピュータプログラム。