JP2021518010A

JP2021518010A - 運転者注意力の監視方法および装置、ならびに電子機器

Info

Publication number: JP2021518010A
Application number: JP2020550127A
Authority: JP
Inventors: 王▲飛▼; 黄▲詩▼▲堯▼; ▲錢▼晨
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2019-03-18
Filing date: 2019-11-21
Publication date: 2021-07-29
Anticipated expiration: 2039-11-21
Also published as: CN111709264A; KR20200123183A; WO2020186801A1; US20210012128A1; TW202036465A; JP7105316B2; TWI741512B; SG11202009677WA

Abstract

本願は運転者注意力の監視方法および装置、ならびに電子機器を開示する。前記方法は、車両に設けられるカメラによって前記車両の運転領域のビデオを収集するステップと、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する、ステップと、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するステップと、を含む。

Description

（関連出願の相互参照）
本願は２０１９年３月１８日に中国特許局に提出された、出願番号２０１９１０２０５３２８．Ｘ、発明名称「運転者注意力の監視方法および装置、ならびに電子機器」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願は画像処理の技術分野に関し、特に運転者注意力の監視方法および装置、ならびに電子機器に関する。

道路上を走行する車両の増加に伴い、どのように道路交通事故を未然に防ぐかはますます注目されており、中でも、運転者の不注意、注意力低下などに起因する脇見運転のような人的要因は、道路交通事故の原因のうち大きな割合を占めている。

本願は運転者の注意力を監視する技術的解決手段を提供する。

第１の態様では、車両に設けられるカメラによって前記車両の運転領域のビデオを収集するステップと、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する、ステップと、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するステップと、を含む運転者注意力の監視方法を提供する。

本願のいずれか１つの実施形態によれば、事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の２種以上を含む。

本願のいずれか１つの実施形態によれば、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するステップと、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび／または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するステップと、を含む。

本願のいずれか１つの実施形態によれば、前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも２つの異なる種類の定義注視領域に対応する時間閾値は異なり、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するステップを含む。

本願のいずれか１つの実施形態によれば、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および／または頭部姿勢の検出を行うステップと、各フレームの顔画像の視線および／または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するステップと、を含む。

本願のいずれか１つの実施形態によれば、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するステップを含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の１つを含む。

本願のいずれか１つの実施形態によれば、前記ニューラルネットワークのトレーニングは、前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するステップと、前記顔画像における、左眼および／または右眼を含む少なくとも片眼の眼部画像を切り出すステップと、前記顔画像の第１の特徴および少なくとも片眼の眼部画像の第２の特徴をそれぞれ抽出するステップと、前記第１の特徴と前記第２の特徴を融合し、第３の特徴を得るステップと、前記第３の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するステップと、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む。

本願のいずれか１つの実施形態によれば、前記方法は、前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも１つを含む脇見運転の注意喚起を促すステップ、または、前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定し、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から１つ決定して前記運転者に対して脇見運転の注意喚起を促すステップ、をさらに含む。

本願のいずれか１つの実施形態によれば、前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含む。

本願のいずれか１つの実施形態によれば、車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定することは、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するステップと、前記複数のビデオにおける時刻が揃っている前記各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するステップと、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定することとを含む。

本願のいずれか１つの実施形態によれば、前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも１つを含む。

本願のいずれか１つの実施形態によれば、車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するステップと、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定することとを含む。

本願のいずれか１つの実施形態によれば、前記方法は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するステップ、および／または、前記運転者注意力の監視結果について統計分析を行うステップ、をさらに含む。

本願のいずれか１つの実施形態によれば、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、さらに、前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するステップを含む。

第２の態様では、車両に設けられるカメラによって前記車両の運転領域のビデオを収集するための第１の制御ユニットと、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第１の決定ユニットであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する、第１の決定ユニットと、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するための第２の決定ユニットと、を含む運転者注意力の監視装置を提供する。

本願のいずれか１つの実施形態によれば、前記第２の決定ユニットは、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するための第１の決定サブユニットと、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび／または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するための第２の決定サブユニットと、を含む。

本願のいずれか１つの実施形態によれば、前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも２つの異なる種類の定義注視領域に対応する時間閾値は異なり、前記第２の決定サブユニットは、さらに前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するために用いられる。

本願のいずれか１つの実施形態によれば、前記第１の決定ユニットは、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および／または頭部姿勢の検出を行うための第１の検出サブユニットと、各フレームの顔画像の視線および／または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するための第３の決定サブユニットと、を含む。

本願のいずれか１つの実施形態によれば、前記第１の決定ユニットは、複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するための処理サブユニットをさらに含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の１つを含む。

本願のいずれか１つの実施形態によれば、前記装置は前記ニューラルネットワークのトレーニングユニットをさらに含み、前記トレーニングユニットは、前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するための取得サブユニットと、前記顔画像における、左眼および／または右眼を含む少なくとも片眼の眼部画像を切り出すための画像切り出しサブユニットと、前記顔画像の第１の特徴および少なくとも片眼の眼部画像の第２の特徴をそれぞれ抽出するための特徴抽出サブユニットと、前記第１の特徴と前記第２の特徴を融合し、第３の特徴を得るための特徴融合サブユニットと、前記第３の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するための第４の決定サブユニットと、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含む。

本願のいずれか１つの実施形態によれば、前記装置は、前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも１つを含む脇見運転の注意喚起を促すための注意喚起ユニットと、前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定するための第３の決定ユニットと、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から１つ決定して前記運転者に対して脇見運転の注意喚起を促す第４の決定ユニットと、をさらに含む。

本願のいずれか１つの実施形態によれば、前記装置において、前記第１の制御ユニットは車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、前記第１の決定ユニットは、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するための第５の決定ユニットと、前記複数のビデオにおける時刻が揃っている前記各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するための第６の決定ユニットと、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第７の決定サブユニットと、をさらに含む。

本願のいずれか１つの実施形態によれば、前記第１の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、前記第１の決定ユニットは、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するための第２の検出サブユニットと、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定するための第８の決定サブユニットと、をさらに含む。

本願のいずれか１つの実施形態によれば、前記装置は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するための送信ユニット、および／または、前記運転者注意力の監視結果について統計分析を行うための分析ユニット、をさらに含む。

本願のいずれか１つの実施形態によれば、前記装置は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、且つ前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するための第２の制御ユニットをさらに含む。

第３の態様では、前記装置が上記第１の態様およびそのいずれか１つの可能な実施形態の方法における対応する機能を実行できるように構成されているプロセッサと、プロセッサと結合し、前記装置にて必要とされるプログラム（コマンド）およびデータを記憶するためのメモリと、を含む電子機器を提供する。任意選択的に、前記装置は、さらに前記装置と他の装置との間の通信をサポートするための入力／出力インタフェースを含んでもよい。

第４の態様では、コンピュータ上で実行される時にコンピュータが上記第１の態様、およびそのいずれか１つの可能な実施形態の方法を実行するコマンドが記憶されているコンピュータ可読記憶媒体を提供する。

第５の態様では、コンピュータ上で実行される時にコンピュータが上記第１の態様、およびそのいずれか１つの可能な実施形態の方法を実行するコンピュータプログラムまたはコマンドを含むコンピュータプログラム製品を提供する。

ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に適合する実施例を示し、明細書と共に本開示の技術的解決手段を説明するために用いられる。
本願の実施例が提供する運転者注意力の監視方法のフローチャートである。本願の実施例が提供する注視領域の分割の概略図である。本願の実施例が提供する別の運転者注意力の監視方法のフローチャートである。本願の実施例が提供するニューラルネットワークのトレーニング方法のフローチャートである。本願の実施例が提供する別のニューラルネットワークのトレーニング方法のフローチャートである。本願の実施例が提供する別の運転者注意力の監視方法のフローチャートである。本願の実施例が提供する運転者注意力の監視装置の概略構造図である。本願の実施例が提供するトレーニングユニットの概略構造図である。本願の実施例が提供する運転者注意力の監視装置のハードウェア構成図である。

当業者が本願の解決手段をより良く理解できるように、以下に本願の実施例における図面と関連付けて、本願の実施例における技術的解決手段を明確に、完全に説明し、当然ながら、説明される実施例は本願の実施例の一部に過ぎず、全ての実施例ではない。本願における実施例に基づき、当業者が創造的な労力を要することなく、得られた他の全ての実施例は、いずれも本願の保護範囲に属する。

本願の明細書、特許請求の範囲および上記図面における「第１」、「第２」等の用語は、特定の順序を記述するものではなく、異なる対象を区別するためのものである。また、「含む」、「備える」という用語およびそれらのいかなる変形も、非排他的に含むことを意図する。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品または機器は、挙げられたステップまたはユニットに限定されるものではなく、さらに挙げられないステップまたはユニットを選択可能に含み、または、さらに、これらのプロセス、方法または機器に固有の他のステップまたはユニットを選択可能に含む。

本明細書において、「実施例」に関する言及は、実施例に関連して記述される特定の特徴、構造または特性が、本願の少なくとも１つの実施例に含まれ得ることを意味する。本明細書の全体にわたって各所に現れる「実施例」という語句は、必ずしも全て同じ実施例を指すものではなく、また、他の実施例と相互排他的な独立または代替の実施例でもない。当業者であれば、本明細書に記載の実施例は他の実施例と組み合わせることができることを明示的および暗黙的に理解できる。

本願の実施例または背景技術における技術的解決手段をより明瞭に説明するために、以下、本願の実施例または背景技術に用いられる図面について説明する。

以下に本願の実施例における図面と関連付けて、本願の実施例を説明する。

図１は、本願の実施例が提供する運転者注意力の監視方法のフローチャートである。

１０１では、車両に設けられるカメラによって前記車両の運転領域のビデオを収集する。

本願の実施例において、運転領域は車内の運転室領域を含む。カメラは、運転領域を撮影できる車内の任意の領域に装着可能であり、例えば、カメラは車内のセンターコンソールまたはフロントウインドウシールドに装着してもよく、車両のバックミラーに装着してもよく、さらに車両のＡピラーなどに装着してもよく、また、カメラの数は一個であっても、複数であってもよく、本願の実施例はカメラの装着位置およびカメラの具体的な数を限定しない。

いくつかの実施可能な形態では、車両のバックミラーに装着されるカメラによって車内の運転室領域のビデオ撮影を行い、運転領域のビデオを得る。任意選択的に、カメラは特定のコマンドを受信した場合に、車両の運転領域のビデオを収集することが可能であり、例えば、カメラのエネルギー消費を削減するよう、車両の起動（例えば点火始動、ボタン式始動など）をカメラによるビデオ収集のコマンドとする。さらなる例として、カメラに接続される端末によって、運転領域のビデオを収集するようにカメラを制御し、カメラに対する遠隔制御を実現する。なお、カメラと端末は無線または有線の方式により接続され得、本願の実施例では、カメラと端末の具体的な接続方式について限定されないことを理解されたい。

１０２では、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定し、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する。

本願の実施例では、運転者の顔画像は運転者の頭全体を含むものでも、運転者の顔輪郭および五官を含むものでもあり得る。ビデオにおける任意のフレーム画像を運転者の顔画像としてもよく、ビデオにおける任意のフレーム画像から運転者の顔領域の画像を検出し、この顔領域画像を運転者の顔画像としてもよく、上記運転者の顔領域画像を検出する方式は任意の顔検出アルゴリズムであってよく、本願はこれに関して具体的に限定しない。

本願の実施例では、車両の室内空間を分割して得られた複数の異なる領域を上記複数の異なる種別の領域としてもよく、または車両の室外空間を分割して得られた複数の異なる領域を上記複数の異なる種別の領域としてもよく、または車両の室内空間および車両の室外空間を分割して得られた複数の異なる領域を上記複数の異なる種別の注視領域としてもよい。例えば、図２は本願が提供する注視領域の種別の区分方式であり、図２に示すように、事前に車両に対して空間領域の分割を行って得られた複数種別の注視領域は、左フロントウインドウシールド領域（１番の注視領域）、右フロントウインドウシールド領域（２番の注視領域）、インストルメントパネル領域（３番の注視領域）、車両インナーミラー領域（４番の注視領域）、センターコンソール領域（５番の注視領域）、左バックミラー領域（６番の注視領域）、右バックミラー領域（７番の注視領域）、サンバイザ領域（８番の注視領域）、シフトロッド領域（９番の注視領域）、ハンドル下方領域（１０番の注視領域）、助手席領域（１１番の注視領域）、および助手席前方的グローブボックス領域（１２番の注視領域）の２種以上を含む。このように車両の空間領域を分割することは、運転者注意力への選択的な監視に寄与する。上記方式では、運転状態にある運転者が注意し得る様々な領域を十分に考慮し、運転者の注意力に関する車両前方への選択的な監視、または車両前方の全空間にわたる監視を図るうえで有利であり、これにより運転者注意力の監視の正確度および精度が高まる。

なお、車種によって車両の空間分布が異なるため、車種に応じて注視領域の種別を区分し得ることが理解されるべきであり、例えば、図２において、運転室は車両の左側に位置し、通常の運転中に、運転者の視線はたいていの場合、左フロントウインドウシールド領域に滞留し、一方、運転室が車両の右側にある車種について、通常の運転中に、運転者の視線はたいていの場合、右フロントウインドウシールド領域に滞留し、明らかに、注視領域種別の区分は図２における注視領域種別の区分とは異なるものとすべきである。また、使用者の個人的好みによって注視領域の種別を区分することもでき、例えば、使用者はセンターコンソールのスクリーン面積が小さすぎると思い、スクリーン面積がより大きな端末によって空調、オーディオなどの快適装置を制御することを好む場合、端末の配置位置に合わせて注視領域におけるセンターコンソール領域を調整することができる。また、具体的な状況に応じて他の方式で注視領域の種別を区分することもでき、本願は注視領域種別の区分方式について限定しない。

眼は、運転者が道路状況情報を取得するための主な感覚器官であり、運転者の視線が滞留している領域は、運転者の注意力状況を大きく反映しており、ビデオに含まれる運転領域に位置する運転者の複数フレームの顔画像を処理することで、各フレームの顔画像における運転者の注視領域の種別を決定することができ、さらに運転者注意力の監視が実現される。いくつかの実施可能な形態では、運転者の顔画像を処理し、顔画像における運転者の視線方向を取得し、さらに予め設定された視線方向と注視領域の種別とのマッピング関係に基づいて、顔画像における運転者の注視領域の種別を決定する。他の実施可能な形態では、運転者の顔画像に対して特徴抽出の処理を行い、抽出された特徴に基づいて顔画像における運転者の注視領域の種別を決定し、代替的な一例では、得られた注視領域の種別は各注視領域に対応する所定の番号である。

１０３では、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定する。

本願の実施例では、スライディング時間窓のサイズおよびスライドステップ長さは、予め設定された時間長であっても、顔画像の数であってもよく、いくつかの実施可能な形態では、スライディング時間窓のサイズを５秒、スライドステップ長さを０．１秒とし、現時点でのスライディング時間窓の開始時刻を１０時４０分１０秒とし、終了時刻を１０時４０分１５秒とすると、０．１秒後、スライディング時間窓の開始時刻は１０時４０分１５．１秒、終了時刻は１０時４０分１５．１秒となり、なお、上記時間は、いずれもカメラによるビデオ収集の時間であることを理解されたい。他の実施可能な形態では、ビデオにおける各フレームの顔画像に対して、カメラによるビデオ収集の時間の時系列で小さい順に番号を付け、例えば、１０時４０分１５秒に収集された顔画像の番号を１とし、１０時４０分１５．１秒に収集された顔画像の番号を２とし、以降同様に…、スライディング時間窓の大きさを１０フレームの顔画像とし、スライドステップ長さを１フレームの顔画像とし、現時点でのスライディング時間窓内の最初のフレームの顔画像の番号を５、スライディング時間窓内の最後のフレームの顔画像の番号を１４とすると、スライディング時間窓が１スライドステップ長さ進んだ後、スライディング時間窓内の最初のフレームの顔画像の番号は６、スライディング時間窓内の最後のフレームの顔画像の番号は１５となる。

本願のいくつかの代替実施例では、注意力の監視結果は脇見運転を含んでもよく、または注意力の監視結果は疲労運転を含んでもよく、または注意力の監視結果は脇見運転および疲労運転を含んでもよい。任意選択的に、注意力の監視結果は脇見運転のレベルを含んでもよく、または疲労運転のレベルを含んでもよく、または脇見運転のレベルおよび疲労運転のレベルを含んでもよい。車両の運転中に、運転者の視線は異なる注視領域間で切り替わることがあるため、異なる時点で収集された顔画像における運転者の注視領域の種別も対応して変化することとなる。図２を例とすると、通常の運転中に、運転者の視線が１番の注視領域内に滞留する確率は大きく、道路状況および車両状況観察の必要性により運転者の視線が２、３、４、６、７番の注視領域内に滞留する確率は、１番の注視領域内に滞留する確率より小さく、また、運転者の視線が５、８、９、１０、１１、１２番の注視領域内に滞留する確率は、前記どちらの場合よりも小さい。そこで、スライディング時間窓内の各フレームの顔画像の注視領域の種別に基づいて、このスライディング時間窓内の運転者の注視領域の種別分布を決定し、その後運転者の注視領域の種別に基づいて注意力の監視結果を決定する。

いくつかの実施可能な形態では、図２の注視領域種別の区分を例にして、１番の注視領域の第１の割合閾値を６０％とし、２、３、４、６、７番の注視領域の第２の割合閾値を４０％とし、５、８、９、１０、１１、１２番の注視領域の第２の割合閾値を１５％とする。ここで、いずれか１つのスライディング時間窓内で、運転者の視線が１番の注視領域内に滞留する割合が６０％以下である場合、注意力の監視結果は脇見運転に決定される。いずれか１つのスライディング時間窓内で、運転者の視線が２、３、４、６、７番の注視領域内に滞留する割合が４０％以上である場合、注意力の監視結果は脇見運転に決定される。いずれか１つのスライディング時間窓内で、運転者の視線が５、８、９、１０、１１、１２番の注視領域内に滞留する割合が１５％以上である場合、注意力の監視結果は脇見運転に決定される。運転者の脇見運転が監視されていない場合、注意力の監視結果は脇見運転でないことに決定される。例えば、１つのスライディング時間窓内の１０フレームの顔画像のうち、４フレームの顔画像の注視領域の種別は１、３フレームの顔画像の注視領域の種別は２、２フレームの顔画像の注視領域の種別は５、１フレームの顔画像の注視領域の種別は１２であり、そのうち、運転者の視線が１番の注視領域内に滞留する割合は４０％、運転者の視線が２、３、４、６、７番の注視領域内に滞留する割合は３０％、運転者の視線が５、８、９、１０、１１、１２番の注視領域内に滞留する割合は３０％である場合、運転者注意力の監視結果は脇見運転に決定される。他の実施可能な形態では、１つのスライディング時間窓で、注視領域の種別分布が同時に上記２つまたは３つの脇見運転状況に該当する場合、注意力の監視結果はさらに、それぞれの脇見運転のレベルを含むことができ、任意選択的に、脇見運転のレベルは、注視領域の種別分布が該当する脇見運転状況の数と正に相関している。

また、連続した複数のスライディング時間窓内に含まれる各フレームの顔画像の各注視領域の種別分布に基づいて、運転者注意力の監視結果を決定してもよく、いくつかの実施可能な形態では、図２に示すように、通常運転時、ほとんどの時間、運転者の視線は２番の注視領域内に滞留し、また、道路状況および車両状況観察の必要性により、運転者の視線は２、３、４、６、７番の注視領域内にも滞留するはずであり、仮に、運転者の視線が長期間１番の注視領域内に滞留している場合、異常運転状態であることは明らかである。そこで、第１の閾値を設定し、運転者の視線が１番の注視領域内に滞留する継続時間が第１の閾値に達した場合、運転者注意力の監視結果は脇見運転に決定される。スライディング時間窓のサイズが第１の閾値より小さいため、このとき、連続した複数のスライディング時間窓内の注視領域の種別分布に基づいて、運転者の視線が１番の注視領域内に滞留する継続時間が第１の閾値に達したか否かを判断することができる。

本願の実施例は実際の要求（例えば車種、例えば使用者の好み、例えば車種および使用者の好みなど）に応じて、車内／車外の空間領域を異なる領域に分割し、異なる種別の注視領域を取得する。カメラにより収集される運転者の顔画像に基づいて、顔画像における運転者の注視領域の種別を決定することができる。スライディング時間窓内の注視領域の種別分布によって運転者の注意力に対する継続監視は実現される。この解決手段は運転者の注視領域の種別によって運転者の注意力を監視し、運転者の注意力に関する車両前方への選択的な監視、または車両前方の全空間にわたる監視を図るうえで有利であり、これにより運転者注意力の監視精度が高まり、さらにスライディング時間窓内の注視領域の種別分布との関連付けによって、監視結果の正確度が一層高まる。

図３は、本願の実施例が提供する運転者注意力の監視方法におけるステップ１０２の一可能な実施形態のフローチャートである。

３０１では、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および／または頭部姿勢の検出を行う。

本願の実施例では、視線および／または頭部姿勢の検出は、視線検出、頭部姿勢の検出、視線検出および頭部姿勢の検出を含む。

事前にトレーニングされたニューラルネットワークによって、運転者の顔画像に対して視線検出および頭部姿勢の検出を行うと、視線情報および／または頭部姿勢情報が得られ、そのうち、視線情報は視線および視線の始点位置を含み、実施可能な一形態では、運転者の顔画像に対して順に畳み込み処理、正規化処理、線形変換を行うことで、視線情報および／または頭部姿勢情報を得る。

例えば、運転者の顔画像に対して運転者の顔の確認を順に行い、眼部領域を決定し、虹彩の中心を決定し、視線検出を行って視線情報を決定することが可能である。いくつかの実施可能な形態では、人が水平視または仰視時に、眼の輪郭は下視時より大きいため、まず、予め測定された眼窩の大きさによって、下視を水平視および仰視と区別させる。次に、見上げ時と水平視時は、上眼窩から眼中心までの距離の比率が異なることにより、見上げと水平視を区別する。その後、左視、中央視、右視に関する問題を処理する。全ての瞳孔点から眼窩左縁までの距離の二乗和と、右縁までの距離の二乗和との比率を算出し、この比率に基づいて左視、中央視、右視時の各々の視線情報を決定する。

例えば、運転者の顔画像を処理することで、運転者の頭部姿勢を決定することができる。いくつかの実施可能な形態では、運転者の顔画像に対して顔特徴点（例えば、口、鼻、眼）の抽出を行い、抽出された顔特徴点に基づいて顔画像における顔特徴点の位置を決定し、さらに、顔特徴点と頭部との間の相対位置に基づいて、顔画像における運転者の頭部姿勢を決定する。

例えば、視線および頭部姿勢を同時に検出し、検出精度を高めることが可能である。いくつかの実施可能な形態では、車両に配置されるカメラによって眼の動きの系列画像を収集し、該系列画像を正視時の眼部画像と比較し、相違点によって眼球の回転角を取得し、眼球の回転角に基づいて視線ベクトルを決定する。ここでは頭部が動いていない場合を想定して得られた検出結果である。頭部の微小回動が発生した場合、最初に座標補償メカニズムを確立し、正視時の眼部画像を調整する。ただし、頭部が大きく回動した場合、最初に空間の特定の固定座標系に対する頭部の変化位置、変化方向を観察し、その後視線ベクトルを決定する。

以上は本願の実施例が提供する視線および／または頭部姿勢検出の例であり、具体的な実現において、当業者は他の方法で視線および／または頭部姿勢の検出を行うことができ、本願では限定されないことを理解されたい。

３０２では、各フレームの顔画像の視線および／または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定する。

本願の実施例では、視線の検出結果は、各フレームの顔画像における運転者の視線ベクトル、および視線ベクトルの開始位置を含み、頭部姿勢の検出結果は、各フレームの顔画像における運転者の頭部姿勢を含み、ここで、視線ベクトルは視線の方向と解釈することができ、視線ベクトルによって、運転者正視時の視線に対する顔画像における運転者の視線のずれ角度を決定することができる。頭部姿勢は、座標系における運転者の頭部のオイラー角であり得、ここで、上記座標系は、世界座標系、カメラ座標系、画像座標系などであり得る。

注視領域種別のラベリング情報が含まれる視線および／または頭部姿勢の検出結果をトレーニング集合として、注視領域の分類モデルをトレーニングすることにより、トレーニング後の分類モデルは、視線および／または頭部姿勢の検出結果に基づいて、運転者の注視領域の種別を決定することができ、ここで、上記注視領域の分類モデルは、決定木分類モデル、選択木分類モデル、ｓｏｆｔｍａｘ分類モデルなどであり得る。いくつかの実施可能な形態では、視線の検出結果および頭部姿勢の検出結果はいずれも特徴ベクトルであり、視線の検出結果と頭部姿勢の検出結果の融合処理を行い、その後、注視領域の分類モデルは、融合後の特徴に基づいて運転者の注視領域の種別を決定し、任意選択的に、上記融合処理は特徴のスティッチングであり得る。他の実施可能な形態では、注視領域の分類モデルは、視線の検出結果または頭部姿勢の検出結果に基づいて運転者の注視領域の種別を決定することができる。

車種によって、車内環境および注視領域の種別の区分方式が異なる可能性もあり、本実施例では、車種に対応するトレーニング集合によって、注視領域を分類するための分類器をトレーニングすることで、トレーニング後の分類器は異なる車種に対応できる。ここで、車種に対応するトレーニング集合とは、当該車種の注視領域種別のラベリング情報が含まれる視線および／または頭部姿勢の検出結果、および対応する新車種の注視領域種別のラベリング情報を意味し、トレーニング集合に基づいて、新車種において使用されるべき分類器の教師ありトレーニングを行う。分類器はニューラルネットワーク、サポートベクターマシン等の方式により予め構築されてよく、本願は分類器の具体的な構造を限定しない。

例えば、いくつかの実施可能な形態では、Ａ車種は、運転者に対する前方空間が１２個の注視領域に分割され、Ｂ車種は、車自体の空間特徴に応じて、運転者に対する前方空間がＡ車種と比して異なる注視領域の分割が必要となり、例えば１０個の注視領域に分割される。この場合、本実施例により構築された運転者注意力監視の技術的解決手段をＡ車種に適用し、また、この注意力監視の技術的解決手段をＢ車種に適用する前に、Ａ車種における視線および／または頭部姿勢の検出技術を重複使用することができ、そのためにはＢ車種の空間特徴に応じて注視領域を改めて分割し、視線および／または頭部姿勢の検出技術、およびＢ車種に対応する注視領域の分割に基づいて、トレーニング集合を構築するだけでよく、該トレーニング集合に含まれる顔画像は、視線および／または頭部姿勢の検出結果、およびその対応するＢ車種に対応する注視領域の種別ラベリング情報を含み、このように、視線および／または頭部姿勢の検出のためのモデルを繰り返しトレーニングする必要なく、構築されたトレーニング集合に基づいてＢ車種の注視領域を分類するための分類器の教師ありトレーニングを行う。トレーニング完了後の分類器、および重複使用される視線および／または頭部姿勢の検出技術は、本願の実施例が提供する運転者注意力監視の解決手段を構成している。

本実施例では、注視領域の分類に必要な特徴情報の検出（例えば、視線および／または頭部姿勢の検出）と上記特徴情報に基づく注視領域の分類は、相対的に独立している２つの段階に分けて行われ、視線および／または頭部姿勢などのような特徴情報の検出技術の異なる車種における重複使用性が高まり、注視領域の分割が変わった新しい応用シーン（例えば、新車種など）について、新しい注視領域の分割に適応する分類器または分類方法を適宜調整するだけでよく、注視領域の分割が変わった新しい応用シーンでの運転者注意力検出の技術的解決手段の調整の複雑度と演算量が低減され、技術的解決手段の普遍性と汎化性が高まり、これにより多様化する実際の応用ニーズをより良好に満たしている。

注視領域の分類に必要な特徴情報の検出と上記特徴情報に基づく注視領域の分類を、相対的に独立している２つの段階に分けるほか、本願の実施例では、さらにニューラルネットワークに基づいて、注視領域種別のエンドツーエンドの検出を実現することもでき、すなわち、ニューラルネットワークに顔画像を入力し、ニューラルネットワークによって顔画像を処理した後、注視領域種別の検出結果を出力する。ここで、ニューラルネットワークは、畳み込み層、非線形層、全結合層などのネットワークユニットをベースにして所定の方式で積層または構成されてよく、従来のニューラルネットワーク構造を採用してもよく、本願はこれについて限定しない。トレーニングされるべきニューラルネットワーク構造を決定した後、前記ニューラルネットワークに対して、注視領域種別のラベリング情報が含まれる顔画像集合を用いて教師ありトレーニングを行ってもよく、または、前記ニューラルネットワークに対して、注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて教師ありトレーニングを行ってもよく、前記注視領域種別のラベリング情報には、前記複数種別の定義注視領域の１つが含まれる。上記ラベリング情報付きの顔画像集合に基づいてニューラルネットワークの教師ありトレーニングを行うことにより、該ニューラルネットワークは、注視領域種別の区分に必要な特徴抽出能力、および注視領域の分類能力を同時に習得でき、これにより画像の入力から注視領域種別の検出結果の出力へのエンドツーエンド検出を実現する。

図４は、本願の実施例が提供する注視領域種別を検出するためのニューラルネットワークの一実現可能なトレーニング方法のフローチャートである。

４０１では、前記注視領域種別のラベリング情報が含まれる顔画像集合を取得する。

本実施例では、顔画像集合における各フレーム画像にはいずれも注視領域の種別が含まれ、図２の注視領域種別の区分を例にして、各フレーム画像に含まれるラベリング情報は、１から１２のいずれか１つの数字である。

４０２では、前記顔画像集合における画像に対して特徴抽出処理を行い、第４の特徴を取得する。

ニューラルネットワークによって顔画像に対して特徴抽出処理を行い、第４の特徴を取得する。いくつかの実施可能な形態では、顔画像に対して順に畳み込み処理、正規化処理、第１の線形変換、第２の線形変換を行って特徴抽出処理をし、第４の特徴を取得する。

まず、ニューラルネットワークにおける複層の畳み込み層によって、顔画像の畳み込み処理を行い、第５の特徴を取得し、ここで、畳み込み層毎に抽出された特徴内容および語義情報はいずれも異なり、具体的には、複層の畳み込み層の畳み込み処理によって画像特徴を段階的に抽象化しつつ、比較的重要でない特徴は徐々に除去され、そのため、後になるほど抽出された特徴のサイズが小さくなり、内容および語義情報が凝縮となる。複層の畳み込み層によって顔画像の畳み込み操作を段階的に行い、対応する中間特徴を抽出し、最終的には固定サイズの特徴データを得る。このように、顔画像の主要な内容情報（すなわち顔画像の特徴データ）を取得したと同時に、画像サイズが縮小され、システムの演算量が軽減され、演算速度が高まる。上記畳み込み処理の実現プロセスは以下のようになる。畳み込み層は顔画像の畳み込み処理を行い、すなわち、畳み込みカーネルを用いて顔画像上でスライドさせ、顔画像点における画素値に、対応する畳み込みカーネルにおける数値を乗算し、その後、乗算された全ての値を加算して、畳み込みカーネルの中間像素に対応する画像における画素値とし、最終的には顔画像における全ての画素値のスライド処理を完了し、第５の特徴を抽出する。なお、本願は上記畳み込み層の数を具体的に限定しないことを理解されたい。

顔画像の畳み込み処理を行う時、データは各層のネットワークに処理された度に、そのデータ分布は変化し、結果として、次の層のネットワークの抽出は困難となる。そこで、畳み込み処理により得られた第５の特徴に対して後続の処理を行う前に、第５の特徴に対する正規化処理が必要となり、すなわち、第５の特徴を平均値が０且つ分散が１の正規分布に正規化する。いくつかの実施可能な形態では、畳み込み層の後に正規化処理（ｂａｔｃｈｎｏｒｍ、ＢＮ）層を結合し、ＢＮ層では、トレーニング可能なパラメータを加えることで特徴の正規化処理を行い、トレーニング速度が高まり、データの相関性が除去され、特徴間の分布差が強調される。一例では、ＢＮ層による第５の特徴の処理プロセスは以下のようになる。

第５の特徴は

で、合計で

個のデータがあり、出力は

であると仮定すると、ＢＮ層は第５の特徴に対して次のような動作を実行する。

まず、上記第５の特徴

の平均値、すなわち、

を求める。

上記平均値

から、上記第５の特徴の分散、すなわち、

を決定する。

上記平均値

と分散

に基づいて、上記第５の特徴の正規化処理を行い、

を得る。

最後に、スケーリング変数

と平行移動変数

から、正規化の結果、すなわち、

を得て、ここで、

はいずれも既知である。

畳み込み処理および正規化処理は、データから複雑なマッピングを学習する能力が弱く、複雑型のデータ、例えば画像、ビデオ、オーディオ、音声などを学習および処理できない。よって、正規化処理されたデータに対して線形変換を行うことで、画像処理、ビデオ処理などのような複雑な問題を解決しなければならない。ＢＮ層の後に線形活性化関数を結合して、活性化関数によって正規化処理されたデータに対して線形変換を行い、それにより複雑なマッピングが処理可能になる。いくつかの実施可能な形態では、正規化処理済みのデータを正規化線形関数（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ：ＲｅＬＵ）に代入し、正規化処理済みのデータに対する第１の線形変換を実現し、第６の特徴を得る。

活性化関数層の後に全結合（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒｓ：ＦＣ）層が結合され、全結合層によって第６の特徴を処理し、第６の特徴をサンプル（すなわち注視領域）ラベリング空間にマッピングすることができる。いくつかの実施可能な形態では、全結合層によって第６の特徴に対して第２の線形変換を行う。全結合層は、入力層（すなわち活性化関数層）および出力層を含み、出力層におけるいずれのニューロンも、入力層における全てのニューロンに接続され、ここで、出力層における各ニューロンは、いずれもそれぞれの重みおよびオフセットを持ち、よって、全結合層の全てのパラメータは、各ニューロンの重みおよびオフセットであり、該重みおよびオフセットの具体的なサイズは、全結合層に対するトレーニングにより得られる。

第６の特徴を全結合層に入力するとき、全結合層の重みおよびオフセット（すなわち第２の特徴データの重み）を取得し、その後、重みおよびオフセットに基づいて、上記第６の特徴を重み付け加算し、上記第４の特徴を取得する。いくつかの実施可能な形態では、全結合層の重みおよびオフセットをそれぞれ

とし、ここで、

はニューロンの数、第６の特徴は

であり、この場合、全結合層が第３の特徴データに対して第２の線形変換を行って得られた第１の特徴データは

である。

４０３では、第１の特徴データに対して第１の非線形変換を行い、注視領域種別の検出結果を得る。

全結合層の後にｓｏｆｔｍａｘ層を結合させ、ｓｏｆｔｍａｘ層に内蔵されているｓｏｆｔｍａｘ関数によって、入力された異なる特徴データを０から１の間の値にマッピングし、且つマッピング後の全ての値の和を１とし、マッピング後の値と入力した特徴は一対一に対応し、こうして、各特徴データについての予測を完了したことに相当し、且つ対応する確率が数値の形式で示される。１つの実施可能な形態では、第４の特徴をｓｏｆｔｍａｘ層に入力し、第４の特徴をｓｏｆｔｍａｘ関数に代入して第１の非線形変換を行い、運転者の視線が異なる注視領域に滞留する確率を得る。

４０４では、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報の差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。

本実施例では、ニューラルネットワークはクロスエントロピー損失関数、平均分散損失関数、二乗損失関数などであり得る損失関数を含み、本願は損失関数の具体的な形態を限定しない。

顔画像集合における各画像は、いずれもそれぞれのラベリング情報を有し、すなわち各顔画像は、いずれも１つの注視領域種別に対応しており、４０２で得られた異なる注視領域の確率およびラベリング情報を損失関数に代入し、損失関数値を得る。ニューラルネットワークのネットワークパラメータを調整することで、損失関数値は第２の閾値以下となったら、ニューラルネットワークのトレーニングが完了し、ここで、上記ネットワークパラメータは、４０１および４０２における各ネットワーク層の重みおよびオフセットを含む。

本実施例は前記注視領域種別のラベリング情報が含まれる顔画像集合に基づいて、ニューラルネットワークをトレーニングし、トレーニング後のニューラルネットワークは抽出された顔画像の特徴に基づいて、注視領域の種別を決定することができ、本実施例により提供されるトレーニング方法によれば、顔画像集合を入力するだけでトレーニング後のニューラルネットワークが得られ、トレーニング方式が簡単で、トレーニング時間が短い。

図５は、本願の実施例が提供する上記ニューラルネットワークの別の実現可能なトレーニング方法のフローチャートである。

５０１では、前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得する。

本実施例では、顔画像集合における各画像は、いずれも注視領域の種別が含まれ、図２の注視領域種別の区分を例にして、各フレーム画像に含まれるラベリング情報は１から１２のいずれか１つの数字である。

寸法が異なる特徴を融合し、特徴情報を充実にすることで、注視領域種別の検出精度が高まり、特徴情報を充実にする上記ステップの実現プロセスを５０２〜５０５に示す。

５０２では、前記顔画像における、左眼および／または右眼を含む少なくとも片眼の眼部画像を切り出す。

上記左眼および／または右眼は、左眼、または右眼、または左眼および右眼を含む。

本実施例では、顔画像における眼部領域画像を認識し、ショットソフトウェアによって顔画像から眼部領域画像を切り出し、またはペイントソフトウェアによって顔画像から眼部領域画像を切り出すことなども可能であり、本願では、顔画像における眼部領域画像の認識、および顔画像から眼部領域画像を切り出すことの具体的な実施形態について限定しない。

５０３では、前記顔画像の第１の特徴および少なくとも片眼の眼部画像の第２の特徴をそれぞれ抽出する。

本実施例では、トレーニングされたニューラルネットワークは、複数の特徴抽出分岐を含み、異なる特徴抽出分岐によって、顔画像および眼部画像に対して第２の特徴抽出処理を行い、顔画像の第１の特徴および眼部画像の第２の特徴を取得し、抽出された画像の特徴寸法を豊富にし、いくつかの実施可能な形態では、異なる特徴抽出分岐によって、顔画像に対して、それぞれ順に畳み込み処理、正規化処理、第３の線形変換、第４の線形変換を行い、顔画像特徴および眼部画像特徴を取得し、そのうち、視線ベクトル情報は視線ベクトル、および視線ベクトルの始点位置を含む。なお、上記眼部画像には片眼（左眼または右眼）のみが含まれてもよく、両眼が含まれてもよく、本願では限定されないことを理解されたい。

上記畳み込み処理、正規化処理、第３の線形変換、第４の線形変換の具体的な実現プロセスは、ステップ４０２における畳み込み処理、正規化処理、第１の線形変換、第２の線形変換に示すとおりであり、ここで詳しい説明を省略する。

５０４では、前記第１の特徴と前記第２の特徴を融合し、第３の特徴を得る。

同一物体（本実施例では運転者を指す）の寸法が異なる特徴に含まれるシーン情報は全て異なるため、寸法が異なる特徴を融合することで、情報がより充実した特徴は得られる。

いくつかの実施可能な形態では、第１の特徴と第２の特徴の融合処理を行うことで、複数の特徴における特徴情報が１つの特徴に融合され、運転者注視領域の種別の検出精度の向上に寄与する。

５０５では、前記第３の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定する。

本実施例では、注視領域種別の検出結果は運転者の視線が異なる注視領域に滞留する確率であり、値の範囲は０から１とする。いくつかの実施可能な形態では、第３の特徴をｓｏｆｔｍａｘ層に入力し、第３の特徴をｓｏｆｔｍａｘ関数に代入して第２の非線形変換を行い、運転者の視線が異なる注視領域に滞留する確率を得る。

５０６では、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。

５０５で得られた異なる注視領域の確率、およびラベリング情報を損失関数に代入し、損失関数値を得る。ニューラルネットワークのネットワークパラメータを調整することで、損失関数値は第３の閾値以下となったら、ニューラルネットワークのトレーニングが完了し、ここで、上記ネットワークパラメータは５０３から５０５における各ネットワーク層の重みおよびオフセットを含む。

本実施例で提供されるトレーニング方法によってトレーニングして得られたニューラルネットワークは、同一フレームの画像から抽出された寸法が異なる特徴を融合し、特徴情報を充実にし、さらに融合後の特徴に基づいて運転者の注視領域の種別を識別して識別精度を向上させることができる。

本願に提供される２つのニューラルネットワークトレーニング方法（４０１〜４０４および５０１〜５０６）は、ローカル端末（例えば、コンピュータ、携帯電話、車両端末）で実現してもよく、クラウドを介して実現してもよく、本願ではこれについて限定しないことが、当業者には理解されるであろう。

図６は本願の実施例が提供する運転者注意力の監視方法におけるステップ１０３の一可能な実施形態のフローチャートである。

６０１では、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定する。

運転時、運転者の視線が左フロントウインドウシールド領域（運転室が車両の左側にあり、図２を参照）以外の注視領域内に滞留する時間が長いほど、運転者が脇見運転している可能性が高く、脇見運転のレベルも高い。よって、運転者の視線が注視領域に滞留する時間長に基づいて、運転者注意力の監視結果を決定することができる。車両の運転中に、運転者の視線は異なる注視領域で切り替わることがあるため、注視領域の種別も対応して変化することとなる。明らかに、運転者の視線が注視領域に滞留する累計時間に基づいて注意力の監視結果を決定すること、および運転者の視線が注視領域に滞留する継続時間に基づいて注意力の監視結果を決定することは、いずれも合理的でなく、そこで、スライディング時間窓によって運転者の注意力を監視し、運転者の注意力に対する継続監視を実現する。まず、スライディング時間窓における各フレームの顔画像の注視領域の種別、および各フレームの顔画像の時間長を決定し、該スライディング時間窓内の各注視領域の累計時間を決定する。いくつかの実施可能な形態では、図２の注視領域種別の区分を例にして、１つのスライディング時間窓内の１０フレームの顔画像のうち、４フレームの顔画像の注視領域の種別は１、３フレームの顔画像の注視領域の種別は２、２フレームの顔画像の注視領域の種別は５、１フレームの顔画像の注視領域の種別は１２であり、且つ各フレームの顔画像の時間長は０．４秒である場合、該スライディング時間窓内で、１番の注視領域の累計時間は１．６秒、２番の注視領域の累計時間は１．２秒、５番の注視領域の累計時間は０．８秒、１２番の注視領域の累計時間は０．４秒となる。

６０２では、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび／または脇見運転のレベルを含む前記運転者注意力の監視結果を決定する。

本願の実施に際して、脇見運転および／または脇見運転のレベルは、脇見運転、または脇見運転のレベル、または脇見運転および脇見運転のレベルを含む。

上記のとおり、運転上の要求から、一定時間内で運転者の注視領域の種別は複数あり得る。明らかに、異なる注視領域に対応する脇見運転の確率は全て異なり、図２を例にして、運転者の注視領域が１である場合、運転者が脇見運転している確率は小さく、運転者の注視領域が１０である場合、運転者が脇見運転している確率は大きい。よって、異なる種別の注視領域に異なる時間閾値を設定し、運転者の視線が異なる種別の注視領域に滞留するとき、運転者の脇見運転の確率が異なることを反映する。さらに、少なくとも１つのスライディング時間窓内の各種の注視領域の注視累計時間と、該当する種別の定義注視領域の時間閾値との比較結果に基づいて、運転者注意力の監視結果を決定し、このように、各スライディング時間窓はそれぞれ１つの注意力監視結果に対応するようになる。

任意選択的に、１つのスライディング時間窓内で、運転者の視線がいずれか１つの注視領域内に滞留する累計時間が該注視領域の時間閾値に達した場合、運転者の注意力検出結果は脇見運転に決定される。いくつかの実施可能な形態では、図２を例にして、スライディング時間窓の時間長を５秒とし、運転者が右前方の道路状況を観察するとき、視線は注視領域２に滞留し、運転中に、運転者がインストルメントパネルに表示されるデータを観察して、車両のリアルタイムの状況をチェックするとき、視線は注視領域３に滞留し、また、通常の運転中に、運転者の視線は注視領域１０に滞留するはずがないから、注視領域２、３、１０の時間閾値をそれぞれ２．５秒、１．５秒、０．７秒とすることができる。１つのスライディング時間窓内で、運転者の注視領域の種別が２、３、１０である累計時間がそれぞれ１．８秒、１秒、１秒であると検出された場合、運転者の注意力検出結果は脇見運転である。なお、スライディング時間窓のサイズ、および注視領域の時間閾値の大きさは実際の使用状況に応じて調整でき、本願はこれに関して具体的に限定しないことを理解されたい。

任意選択的に、注意力の監視結果はさらに脇見運転のレベルを含み、すなわち、連続した複数のスライディング時間窓の注意力の監視結果がいずれも脇見運転である場合、対応する脇見運転のレベルも相応に高まることとなり、例えば、いずれか１つのスライディング時間窓の注意力の監視結果が脇見運転である場合、対応する脇見運転のレベルはレベル１であり、連続した２つのスライディング時間窓の注意力の監視結果が脇見運転である場合、対応する脇見運転のレベルはレベル２である。

任意選択的に、車両室内のいろいろな箇所で複数のカメラを配置してもよく、車両室外のいろいろな箇所で複数のカメラを配置してもよく、車両室内および車両室外のいろいろな箇所で複数のカメラを配置してもよい。上記複数のカメラによって、同一時刻での複数枚の顔画像を得ることができ、処理された各フレームの顔画像は、いずれも１つの注視領域種別を持つこととなり、このとき、各フレーム画像の注視領域の種別を総合して運転者の注視領域の種別を決定し、そこで、本願の実施例は「多数決」の投票方法を提供し、注視領域の種別を決定し、これにより注視領域種別の検出の信頼性が高まり、さらに運転者注意力の検出の正確度が高まる。この方法は以下ステップを含む。

車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集する。

収集された複数のビデオの各々に含まれる運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における運転者の注視領域の種別をそれぞれ検出する。

得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定する。

本実施例では、複数のビデオ時刻が揃っている各フレームの顔画像とは、複数のカメラにより収集されたビデオにおける、同一時刻での各フレームの顔画像を意味する。いくつかの実施可能な形態では、車両に３つのカメラが配置され、それぞれ１番のカメラ、２番のカメラ、３番のカメラであり、また、この３つのカメラによって、それぞれ異なる角度から運転領域のビデオを収集することができ、この３つのカメラをそれぞれ車両の異なる位置に配置し、異なる角度から運転領域のビデオを収集することなどが可能である。例えば、同一時刻で、１番のカメラにより収集された顔画像に対応する注視領域の種別は右フロントウインドウシールド領域、２番のカメラにより収集された顔画像に対応する注視領域の種別は車両インナーミラー領域、３番のカメラにより収集された顔画像に対応する注視領域の種別は右フロントウインドウシールド領域であり、３つの結果のうち、２つの結果が右フロントウインドウシールド領域であり、車両インナーミラー領域という結果が１つしかなく、よって最終的に出力される運転者の注視領域は右フロントウインドウシールド領域であり、注視領域の種別は２である。

任意選択的に、現実環境内における光線が複雑で、車内光線はなおさらで、一層複雑になり、一方、光強度はカメラの撮像品質に直接影響を及ぼし、品質の低い画像またはビデオである場合、一部の有用な情報が失われる。また、撮像角度によって、撮像された画像の品質に影響が及ぼされることもあり、結果として、ビデオまたは画像における特徴物が顕著でなく、または遮蔽される等の問題となる。例えば、運転者の眼鏡レンズの光反射により、カメラは運転者の眼を明瞭に撮像できず、または、運転者の頭部姿勢により眼部分の画像を撮れず、それにより、後続の画像による検出処理に影響を及ぼす。そのため、本実施例は、多角度撮像された画像から品質の高い画像を選択して、運転者の注視領域種別の検出のための画像とする解決手段をさらに提供し、検出の基礎となる画像の品質が保証されたため、注視領域種別の検出の正確度が高まり、異なる光線環境、顔の広角撮像または遮蔽などのシーンに解決手段を提供し、運転者注意力の監視の正確度は高まる。該方法は以下のステップを含む。

画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアを決定する。

複数のビデオ時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定する。

画質スコアが最も高い各顔画像における運転者の注視領域の種別をそれぞれ決定する。

本実施例では、前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも１つを含む。複数のビデオ時刻が揃っている各フレームの顔画像とは、複数のカメラにより収集されたビデオにおける、同一時刻での各フレームの顔画像を意味する。上記画質評価指標に基づいて決定された画像により、画像における運転者注視領域の検出をより正確に行うことができる。

いくつかの実施可能な形態では、同一時刻で、車両のいろいろな箇所で配置されるカメラは、それぞれ異なる角度から運転者の顔が含まれる画像を取得し、上記画質評価指標に基づいて、全ての画像の品質に対して採点し、例えば、画像に眼部画像が含まれる場合５点を付け、さらに画像における眼部領域の精細度に応じて１〜５点から対応する点数を付け、最後に２つの点数を加算し、画質スコアを得て、同一時刻で角度が異なるカメラから収集された複数フレームの画像のうち、画質スコアが最も高い画像を、注視領域種別を決定するための当該時刻の処理対象画像とし、処理対象画像における運転者の注視領域の種別を決定する。なお、画像における眼部領域の精細度の判断は任意の画像精細度アルゴリズム、例えば、グレースケール分散関数、グレースケール分散積関数、エネルギー勾配関数により実現でき、これに関して本願は具体的に限定したいことを理解されたい。

本実施例では、スライディング時間窓内の各種の注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、前記運転者が脇見運転しているか否かを決定し、スライディング時間窓の数に基づいて脇見運転のレベルを決定し、車両の異なる領域に配置されるカメラによって、複数の角度から運転領域のビデオを収集し、収集された顔画像の画質を向上させ、また、画質評価指標に基づいて画質が最も高い顔画像を決定し、画質が最も高い顔画像に基づいて注意力の監視結果を決定し、これらにより、監視精度は高まる。車両に複数のカメラが配置される場合、さらに「多数決」の原則に従って、同一時刻での複数のカメラに対応する複数の注意力の監視結果から注意力の監視結果を決定し、これも検出精度の向上につながる。

運転者が脇見運転していると決定された場合、適時に運転者の注意を喚起し、運転に集中するように運転者に促すことができ、以下の実施例は本願が提供する脇見運転の注意喚起の一実施可能な形態である。

運転者注意力の監視結果が脇見運転である場合、運転者に対して、対応する脇見運転の注意喚起を促し、運転に集中させることができる。脇見運転の注意喚起は、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも１つを含む。

いくつかの実施可能な形態では、運転者注意力の監視結果が脇見運転であると検出されると、ヘッドアップディスプレイ（ｈｅａｄｕｐｄｉｓｐｌａｙ、ＨＵＤ）によってダイアログボックスをポップアップさせ、運転者に対して注意喚起および警告を行ってもよく、車載端末に内蔵されている音声データ、例えば「運転に集中してください」などによって注意喚起および警告を行ってもよい。または、意識をはっきりさせる効果がある気体を放出、例えば、車載噴霧ノズルによってオーデコロンを噴霧させてもよく、オーデコロンはすがすがしい香りをして心地良く、運転者に対して注意喚起および警告を行うと共に、意識をはっきりさせる効果も生じる。さらに、注意喚起および警告の目的を達成するために、座席から低電流を放出して運転者に刺激を与えてもよい。

本実施例はいくつかの脇見運転の注意喚起方式を提供しており、運転者が脇見運転している場合、運転者に対して効果的に注意喚起および警告を行うことが実現される。

以下の実施例は本願が提供する脇見運転の注意喚起の別の実現可能な形態である。

上記のとおり、連続した複数のスライディング時間窓の注意力の監視結果がいずれも脇見運転である場合、対応する脇見運転のレベルも相応に高まることとなり、前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定し、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から１つ決定して前記運転者に対して脇見運転の注意喚起を促す。ここで、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果が全て脇見運転である場合、脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含む。

いくつかの実施可能な形態では、スライディング時間窓の数、脇見運転のレベルおよび注意喚起方式のマッピング関係を表１に示す。

いずれか１つのスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを１と決定し、このとき、香りによる注意喚起の方式によって運転者に対して注意喚起および警告を行い、例えば、意識をはっきりさせる効果がある気体を放出させ、例えば、車載噴霧ノズルによってオーデコロンを噴霧させる。連続した２つまたは３つのスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを２と決定し、このとき、文字による注意喚起の方式によって運転者に対して注意喚起および警告を行い、例えば、ＨＵＤディスプレイによってダイアログボックスをポップアップさせ、運転者に対して注意喚起および警告を行う。連続した４つまたは５つのスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを３と決定し、このとき、音声による注意喚起の方式によって運転者に対して注意喚起および警告を行い、例えば、車載端末から「運転に集中してください」などの注意喚起音声を放送する。連続した６つから８つのスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを４と決定し、このとき、低電流刺激の注意喚起方式によって運転者に対して注意喚起および警告を行い、例えば、運転者の座席から低電流を放出して運転者に刺激を与える。連続した９つまたはそれ以上のスライディング時間窓の注意力の監視結果が脇見運転である場合、運転者の脇見運転のレベルを５と決定し、このとき、運転者に対して、同時に音声による注意喚起および低電流刺激による注意喚起を行い、運転に集中させる。

本実施例では、スライディング時間窓の数、脇見運転のレベルおよび注意喚起方式のマッピング関係に基づいて運転者脇見運転のレベルを決定し、程度の異なる注意喚起を行い、それによって合理的な方式で適時に運転者の注意を喚起し、運転に集中させ、運転者の脇見運転による交通事故を予防することを実現する。

運転者注意力の監視結果が決定された後、運転者注意力の監視結果を分析することができ、例えば、運転者注意力の監視結果に基づいて、運転者の運転習慣を特定し、脇見運転の原因を与える。注意力の監視結果をサーバまたは端末に送信することもでき、関係者はサーバまたは端末によって車両に対する遠隔制御を実現し、または注意力の監視結果から運転者の運転状態を把握し、運転者の運転状態に応じて適宜処理することができる。以下の実施例は、本願で提供される注意力の監視結果に基づいて実現可能ないくつかの形態である。

車両は、サーバまたは端末との通信接続を確立することができ、ここで、上記通信接続は、セルラーネットワーク接続、近距離無線通信（ｎｅａｒｆｉｅｌｄｃｏｍｍｕｎｉｃａｔｉｏｎ：ＮＦＣ）接続、ブルートゥース（登録商標）接続などであり得、本願は通信接続の方式について限定しない。運転者注意力の監視結果が決定されると、車両に通信接続されるサーバまたは端末へ運転者注意力の監視結果を送信し、これにより、サーバ側の関係者および端末側の使用者は運転者の注意力の監視結果をリアルタイムに把握できるようになる。

いくつかの実施可能な形態では、物流会社の関係スタッフはサーバによって各運転者の注意力の監視結果をリアルタイムに知ることができ、サーバに記憶されている運転者注意力の監視結果を統計し、統計結果に基づいて運転者を管理することもできる。いくつかの実施可能な形態では、物流会社Ｃでは、物流輸送中の運転者の注意力の監視結果を運転者の評価基準の１つとすることが規定されており、例えば、いずれか１回の物流輸送の過程で、物流輸送の合計時間に脇見運転の累計時間の占める割合が５％以上である場合、評点から１点を減算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が７％以上である場合、評点から２点を減算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が１０％以上である場合、評点から３点を減算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が３％以下である場合、評点に１点を加算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が２％以下である場合、評点に２点を加算する。物流輸送の合計時間に脇見運転の累計時間の占める割合が１％以下である場合、評点に３点を加算する。別の例として、レベル１の脇見運転が発生する度に、評点から０．１点を減算する。レベル２の脇見運転が発生する度に、評点から０．２点を減算する。レベル３の脇見運転が発生する度に、評点から０．３点を減算する。レベル４の脇見運転が発生する度に、評点から０．４点を減算する。レベル５の脇見運転が発生する度に、評点から０．５点を減算する。

さらに、運転者に対する管理のもとに、車両隊の管理も可能であり、他の実施可能な形態では、物流会社Ｃは運転者の評点に基づいて運転者の等級付けを行うことができ、評点が高いほど、その分、グレードも高い。当然、運転者のグレードが高いほど、運転者の運転習慣は比較的良好であり、ここで、運転習慣として、脇見運転しないこと、疲労運転しないことなどが挙げられ、優先度の高い輸送作業について、物流会社Ｃはグレードの高い運転者を優先して指定して輸送を行うことが可能であり、このように、輸送作業が正常に完了することを保証できると共に、会社の手配を運転者に納得させることもできる。

車両は、ＮＦＣまたはブルートゥース（登録商標）を介して車内の他の人（運転者以外のいずれか１人）のモバイル端末（例えば、携帯電話、タブレット、ノートパソコン、ウェアラブルデバイなど）に接続され、運転者注意力の監視結果を該モバイル端末にリアルタイムに送信し、このように、車内の他の人は、運転者が脇見運転している時に運転者に注意喚起を行うことができる。いくつかの実施可能な形態では、夫が運転者で、妻が助手席に座ってタブレットで映画を見ており、妻は、タブレットにポップアップしたメッセージから、夫が脇見運転しており、且つ脇見運転のレベルがレベル３に達したと知った場合、妻は、手元にあるタブレットを手放し、夫に対して口頭注意、例えば「どこ見てるの、運転に集中しなさい！」のように注意することができ、このように夫に対する注意喚起および警告の役割を果たし、運転に集中させるように夫に促す。端末による運転者注意力の監視結果の表示方式は上記「ポップアップ」に限定されず、音声による注意喚起、動的効果表示などであってもよく、本願はこれについて限定しない。なお、このような実施形態では、車内の他の人は、注意力の監視結果、道路状況、車両状況などの要因に応じて、運転者に対する注意喚起の要否、または運転者に対するどの程度の注意喚起が必要であるかを人為的に判断することができ、ほとんどの場合、人の判断能力は機器の判断能力より優れていることが明白であり、よって、車内の他の人が運転者の注意を喚起する効果は、表１における注意喚起方式より高いということを理解されたい。

セルラーネットワークを介して運転者注意力の監視結果を車両に通信接続される端末に送信し、ここで、端末は移動可能な端末でも、移動不能な端末でもよく、端末の使用者は運転者の家族でも、運転者が信頼している人でもよく、本願はこれについて限定しない。端末使用者は運転者注意力の監視結果に応じて、適切な措置をとり、交通事故の発生を予防することができる。いくつかの実施可能な形態では、在宅中の父が携帯電話によって、運転者である息子が脇見運転しており、脇見運転のレベルがレベル５に達し、且つ注意力の監視結果として、脇見運転のスライディング時間窓の数が増加し続けており、明らかに、運転者の運転状態がかなり異常であり、交通事故が極めて発生しやすいと知った場合、父は、助手席に座って映画を見ている嫁に電話をかけ、嫁に、息子に対して注意喚起を行い、または他の措置をとり、安全性上のリスクを低減するよう連絡を取る。

任意選択的に、端末によって車両に制御コマンド、例えば、運転モードの切り替え、または警告モードの調整、または運転モード切り替えおよび警告モード調整の両方を行うなどを送信し、サーバまたは端末から送信される制御コマンドを受信した場合、制御コマンドに従って車両を制御することもでき、いくつかの実施可能な形態では、車両の遠隔制御端末によって車両に制御コマンドを送信し、車両の運転モードを非自動運転モードから自動運転モードに切り替えることで、車両は、自動運転モードで自動運転することとなり、運転者の危険運転による安全上のリスクを低減する。他の実施可能な形態では、車両の遠隔制御端末によって車両に制御コマンドを送信し、車両の警告モードを調整し（例えば、車上警報器の音量を上げるなど）、警告効果を高め、安全上のリスクを低減する。さらに別の実施可能な形態では、車両の遠隔制御端末によって車両に制御コマンドを送信し、車両の運転モードを非自動運転モードから自動運転モードに切り替えると共に、車両の警告モードを調整する。

車載端末は運転者の注意力検出結果について統計分析を行い、分析結果、例えば、脇見運転が発生する時間、脇見運転の回数、脇見運転の累計時間、脇見運転毎回のレベル、および脇見運転時の注視領域の種別分布や、脇見運転の原因を含めた運転者の運転習慣情報を得ることもできる。いくつかの実施可能な形態では、車載端末は、運転者注意力の監視結果について統計を行い、脇見運転時の注視領域の種別分布を取得し、例えば、図２を例にして、過去直近１週間内で、脇見運転しているとき、５０％の注視領域の種別は１２番の領域、３０％の注視領域の種別は７番の領域、１０％の注視領域の種別は２番の領域、１０％の注視領域の種別はその他の領域である。さらに、注視領域の種別分布に基づいて、運転者が脇見運転している原因、例えば、運転時に助手席に座っている乗客と会話しているなどを与えることができる。注視領域の種別分布、および脇見運転の原因を統計レポートの形で運転者に提示し、運転者は自分の運転習慣を直ちに知って、それに応じて適宜調整することができる。任意選択的に、脇見運転が発生する時間、脇見運転の回数、脇見運転の累計時間、脇見運転毎回のレベルの統計結果をレポートの形で運転者に提示することもできる。本実施例の適用により、運転者注意力の監視結果をサーバに送信して記憶することができ、関係者はサーバに記憶されている注意力の監視結果に応じて運転者を管理することが可能である。運転者注意力の監視結果を車内の他の端末に送信することで、車内の他の人は、運転者の運転状態を直ぐに把握することができ、それに応じて運転者に対して注意喚起を適宜行い、交通事故の発生を未然に防止する。運転者注意力の監視結果を遠隔端末に送信することで、他の人は、注意力の監視結果に応じて車両を適宜制御し、安全上のリスクを低減することができる。運転者注意力の監視結果を分析することで、運転者は分析結果に基づき、自分の運転状態をより明白に把握することができ、自身の不良の運転習慣を適時に矯正し、交通事故の発生を未然に防止する。

具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならず、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。

図７は、本願の実施例が提供する脇見運転認識装置の概略構造図であり、該装置１は、第１の制御ユニット１１、第１の決定ユニット１２、第２の決定ユニット１３、注意喚起ユニット１４、第３の決定ユニット１５、第４の決定ユニット１６、トレーニングユニット１７、送信ユニット１８、分析ユニット１９および第２の制御ユニット２０を含む。

そのうち、第１の制御ユニット１１は、車両に設けられるカメラによって前記車両の運転領域のビデオを収集するために、そして、車上の複数領域で異なる角度のカメラをそれぞれ配置し、複数のカメラによって運転領域のビデオストリームをそれぞれ収集するために、そして、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するために用いられる。

第１の決定ユニット１２は、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定し、そして、車上の複数領域で異なる角度のカメラをそれぞれ配置し、複数のカメラによって運転領域のビデオストリームをそれぞれ収集し、収集された複数のビデオストリームについて同一時刻での顔画像における注視領域の種別をそれぞれ検出するために用いられる。ここで、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する。

第２の決定ユニット１３は、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するために用いられる。

注意喚起ユニット１４は、前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも１つを含む脇見運転の注意喚起を行うために用いられる。

第３の決定ユニット１５は、前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定するために用いられる。

第４の決定ユニット１６は、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から１つ決定して前記運転者に対して脇見運転の注意喚起を行うために用いられる。

トレーニングユニット１７は、前記ニューラルネットワークをトレーニングするために用いられる。

送信ユニット１８は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するために用いられる。

分析ユニット１９は、前記運転者注意力の監視結果について統計分析を行うために用いられる。

第２の制御ユニット２０は、前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、且つ前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するために用いられる。

実施可能な一形態では、事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の２種以上を含む。

さらに、前記第２の決定ユニット１３は、前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するための第１の決定サブユニット１３１と、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび／または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するための第２の決定サブユニット１３２と、を含む。

さらに、前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも２つの異なる種類の定義注視領域に対応する時間閾値は異なり、前記第２の決定サブユニット１３２は、さらに前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するために用いられる。

さらに、前記第１の決定ユニット１２は、前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および／または頭部姿勢の検出を行うための第１の検出サブユニット１２１と、各フレームの顔画像の視線および／または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するための第３の決定サブユニット１２２と、を含む。

さらに、前記第１の決定ユニット１２は、複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するための処理サブユニット１２３をさらに含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の１つを含む。

さらに、前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含む。

さらに、前記第１の決定ユニット１２は、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するための第５の決定ユニット１２４と、複数のビデオ時刻が揃っている前記各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するための第６の決定ユニット１２５と、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定する第７の決定サブユニット１２６と、をさらに含む。

さらに、前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも１つを含む。

さらに、前記第１の決定ユニット１２は、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するための第２の検出サブユニット１２７と、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定するための第８の決定サブユニット１２８と、をさらに含む。

図８は本願の実施例が提供するトレーニングユニット１７の概略構造図であり、該ユニット１７は、前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するための取得サブユニット１７１と、前記顔画像における、左眼および／または右眼を含む少なくとも片眼の眼部画像を切り出すための画像切り出しサブユニット１７２と、前記顔画像の第１の特徴および少なくとも片眼の眼部画像の第２の特徴をそれぞれ抽出するための特徴抽出サブユニット１７３と、前記第１の特徴と前記第２の特徴を融合し、第３の特徴を得るための特徴融合サブユニット１７４と、前記第３の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するための第４の決定サブユニット１７５と、前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニット１７６と、を含む。

いくつかの実施例では、本開示の実施例で提供された装置に備えた機能またはモジュールは、上記方法実施例に記載の方法を実行するために利用可能であり、その具体的な実施形態については上記方法実施例の説明を参照してよく、簡単化するために、ここで重複説明は割愛する。

図９は本願の実施例が提供する運転者注意力の監視装置のハードウェア構成図である。この監視装置３は、プロセッサ３１を含み、入力装置３２、出力装置３３およびメモリ３４をさらに含んでもよい。この入力装置３２、出力装置３３、メモリ３４およびプロセッサ３１の間はバスを介して互いに接続される。

メモリは、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、リードオンリーメモリ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）、消去可能なプログラマブル読出し専用メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ：ＥＰＲＯＭ）、または携帯型リードオンリーメモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＣＤ−ＲＯＭ）を含むが、それらに限定されず、該メモリは、関連するコマンドおよびデータを記憶するために用いられる。

入力装置はデータおよび／または信号を入力するために用いられ、出力装置はデータおよび／または信号を出力するために用いられる。入力装置および出力装置は、独立したデバイスであっても、統合されたデバイスであってもよい。

プロセッサは１つでも、複数でもよく、例えば、１つまたは複数の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵ）を含み、プロセッサが１つのＣＰＵである場合、該ＣＰＵはシングルコアＣＰＵであっても、マルチコアＣＰＵであってもよい。

メモリは、ネットワーク装置のプログラムコードおよびデータを記憶するために用いられる。

プロセッサは、該メモリ内のプログラムコードおよびデータを呼び出し、上記方法の実施例におけるステップを実行するために用いられる。具体的には、方法の実施例での記述を参照してよく、ここでは説明を省略する。

図９は、運転者注意力の監視装置の一簡略化した設計を示したに過ぎないことが理解される。実際の応用時に、運転者注意力の監視装置は、必要な他の素子をそれぞれ含み得、任意の数の入力／出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されず、本願の実施例を実現可能な全ての運転者注意力の監視装置は、本願の保護範囲内に含まれる。

なお、本明細書に開示する実施例と関連付けて記述した各例のユニットおよびアルゴリズムのステップは、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアの組み合わせで実現可能であることは、当業者であれば認識できる。これらの機能をハードウェアの形態で実行するか、またはソフトウェアの形態で実行するかは、技術的解決手段の特定の応用および設計制約条件によって決定される。専門技術者は各特定の応用について、記述した機能を異なる方法を用いて実現できるが、このような実現は本願の範囲を超えたものと理解すべきではない。

説明を簡便にするために、上述したシステム、装置およびユニットの具体的な動作プロセスは、前記方法の実施例での対応するプロセスを参照すればよく、ここで説明を省略することは、当業者であれば明確に理解できる。なお、本願の各実施例に対する記述が着目している点が異なり、説明を簡便にするために、様々な実施例では、同一または類似の部分を繰り返し記述しないことがあり、よって、１つの実施例において記述または詳細に記述されていない部分は、他の実施例の記載を参照すればよいことも、当業者であれば明確に理解できる。

本願で提供されるいくつかの実施例では、開示するシステム、装置および方法は、他の形態で実現できることを理解すべきである。例えば、上述した装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現時に別の分割形態にしてもよく、例えば複数のユニットまたはコンポーネントは組み合わせてもよく、または別のシステムに統合してもよく、またはいくつかの特徴を省略してもよく、もしくは実行しなくてもよい。一方、示したまたは論じた結合、直接結合、または通信接続は、いくつかのインタフェース、装置またはユニットを介した間接結合または通信接続であり得、電気的、機械的または他の形態であり得る。

前記分離部材として説明したユニットは物理的に分離されたものであってもなくてもよく、ユニットとして示された部材は物理ユニットであってもなくてもよく、即ち一箇所に位置してもよく、または複数のネットワークユニットに分布してもよい。実際の必要に応じてその一部または全てのユニットを選択して本実施例の解決手段の目的を実現できる。

また、本願の各実施例における各機能ユニットは１つの処理ユニットに統合されてもよく、それぞれ独立して物理的に存在してもよく、２つ以上で１つのユニットに統合されてもよい。

上記実施例では、ソフトウェア、ハードウェア、ファームウエアまたはそれらの任意の組み合わせにより全体的または部分的に実現することができる。ソフトウェアにより実現する時に、コンピュータプログラム製品として全体的または部分的に実現することができる。前記コンピュータプログラム製品は１つまたは複数のコンピュータコマンドを含む。コンピュータに前記コンピュータプログラムコマンドをロードし、実行する時に、本願の実施例によるフローまたは機能が全体的または部分的に発生する。前記コンピュータは汎用コンピュータ、専用コンピュータ、コンピュータネットワークまたは他のプログラマブルデバイスであってよい。前記コンピュータコマンドはコンピュータ読取可能記憶媒体に記憶されてもよいし、前記コンピュータ読取可能記憶媒体により伝送されてもよい。前記コンピュータコマンドは１つのウエブサイト、コンピュータ、サーバまたはデータセンタから有線（例えば、同軸ケーブル、光ファイバ、デジタル加入者回線（ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ、ＤＳＬ））または無線（例えば、赤外線、無線、マイクロ波等）で別のウエブサイト、コンピュータ、サーバまたはデータセンタに伝送可能である。前記コンピュータ読取可能記憶媒体は、コンピュータがアクセス可能なあらゆる利用可能な媒体であってもよいし、または１つ以上の利用可能な媒体を含んで統合されたサーバ、データセンタ等のデータ記憶装置であってもよい。前記利用可能な媒体は、磁気媒体（例えば、フロッピー（登録商標）ディスク、ハードディスク、磁気テープ）、光媒体（例えば、デジタル多用途ディスク（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ：ＤＶＤ））、または半導体媒体（例えば、ソリッドステートディスク（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ：ＳＳＤ））等であってよい。

上記実施例の方法を実現する全てまたは一部のフローは、コンピュータプログラムによって関連するハードウェアに指示を出すことにより完了でき、このプログラムは、リードオンリーメモリ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）またはランダムアクセスメモ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記各方法の実施例のフローを含んでよいことは、当業者であれば理解できる。

第５の態様では、コンピュータ上で実行される時にコンピュータが上記第１の態様、およびそのいずれか１つの可能な実施形態の方法を実行するコンピュータプログラムまたはコマンドを含むコンピュータプログラム製品を提供する。
例えば、本願は以下の項目を提供する。
（項目１）
車両に設けられるカメラによって前記車両の運転領域のビデオを収集するステップと、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する、ステップと、
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するステップと、を含むことを特徴とする運転者注意力の監視方法。
（項目２）
前記事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の２種以上を含むことを特徴とする項目１に記載の方法。
（項目３）
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するステップと、
前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび／または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するステップと、を含むことを特徴とする項目１または２に記載の方法。
（項目４）
前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも２つの異なる種別の定義注視領域に対応する時間閾値は異なり、
前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するステップを含むことを特徴とする項目３に記載の方法。
（項目５）
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および／または頭部姿勢の検出を行うステップと、
各フレームの顔画像の視線および／または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するステップと、を含むことを特徴とする項目１から４のいずれか一項に記載の方法。
（項目６）
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、
複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するステップを含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の１つを含むことを特徴とする項目１から４のいずれか一項に記載の方法。
（項目７）
前記ニューラルネットワークのトレーニングは、
前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するステップと、
前記顔画像における、左眼および／または右眼を含む少なくとも片眼の眼部画像を切り出すステップと、
前記顔画像の第１の特徴および少なくとも片眼の眼部画像の第２の特徴をそれぞれ抽出するステップと、
前記第１の特徴と前記第２の特徴を融合し、第３の特徴を得るステップと、
前記第３の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するステップと、
前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする項目６に記載の方法。
（項目８）
前記方法は、
前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも１つを含む脇見運転の注意喚起を促すステップ、または
前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定し、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から１つ決定して前記運転者に対して脇見運転の注意喚起を促すステップ、をさらに含むことを特徴とする項目１から７のいずれか一項に記載の方法。
（項目９）
前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含むことを特徴とする項目１から８のいずれか一項に記載の方法。
（項目１０）
前記車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップは、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するステップと、前記複数のビデオにおける時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するステップと、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップと、を含む、ことを特徴とする項目１から９のいずれか一項に記載の方法。
（項目１１）
前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも１つを含むことを特徴とする項目１０に記載の方法。
（項目１２）
前記車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するステップと、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定することとを含む、ことを特徴とする項目１から９のいずれか一項に記載の方法。
（項目１３）
前記方法は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するステップ、および／または
前記運転者注意力の監視結果について統計分析を行うステップ、をさらに含むことを特徴とする項目１から１２のいずれか一項に記載の方法。
（項目１４）
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、さらに
前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するステップを含むことを特徴とする項目１３に記載の方法。
（項目１５）
車両に設けられるカメラによって前記車両の運転領域のビデオを収集するための第１の制御ユニットと、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第１の決定ユニットであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する、第１の決定ユニットと、
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するための第２の決定ユニットと、を含むことを特徴とする運転者注意力の監視装置。
（項目１６）
前記事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の２種以上を含むことを特徴とする項目１５に記載の装置。
（項目１７）
前記第２の決定ユニットは、
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するための第１の決定サブユニットと、
前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび／または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するための第２の決定サブユニットと、を含むことを特徴とする項目１５または１６に記載の装置。
（項目１８）
前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも２つの異なる種類の定義注視領域に対応する時間閾値は異なり、
前記第２の決定サブユニットは、さらに前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するために用いられることを特徴とする項目１７に記載の装置。
（項目１９）
前記第１の決定ユニットは、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および／または頭部姿勢の検出を行うための第１の検出サブユニットと、
各フレームの顔画像の視線および／または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するための第３の決定サブユニットと、を含むことを特徴とする項目１５から１８のいずれか一項に記載の装置。
（項目２０）
前記第１の決定ユニットは、
複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するための処理サブユニットをさらに含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の１つを含むことを特徴とする項目１５から１８のいずれか一項に記載の装置。
（項目２１）
前記装置は前記ニューラルネットワークのトレーニングユニットをさらに含み、前記トレーニングユニットは、
前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するための取得サブユニットと、
前記顔画像における、左眼および／または右眼を含む少なくとも片眼の眼部画像を切り出すための画像切り出しサブユニットと、
前記顔画像の第１の特徴および少なくとも片眼の眼部画像の第２の特徴をそれぞれ抽出するための特徴抽出サブユニットと、
前記第１の特徴と前記第２の特徴を融合し、第３の特徴を得るための特徴融合サブユニットと、
前記第３の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するための第４の決定サブユニットと、
前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含むことを特徴とする項目２０に記載の装置。
（項目２２）
前記装置は、
前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも１つを含む脇見運転の注意喚起を促すための注意喚起ユニットと、
前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定するための第３の決定ユニットと、
予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から１つ決定して前記運転者に対して脇見運転の注意喚起を促す第４の決定ユニットと、をさらに含むことを特徴とする項目１５から２１のいずれか一項に記載の装置。
（項目２３）
前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含むことを特徴とする項目１５から２２のいずれか一項に記載の装置。
（項目２４）
前記第１の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、
前記第１の決定ユニットは、
画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するための第５の決定ユニットと、
前記複数のビデオにおける時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するための第６の決定ユニットと、
画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第７の決定サブユニットと、をさらに含むことを特徴とする項目１５から２３のいずれか一項に記載の装置。
（項目２５）
前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも１つを含むことを特徴とする項目２４に記載の装置。
（項目２６）
前記第１の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、
前記第１の決定ユニットは、
収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するための第２の検出サブユニットと、
得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定するための第８の決定サブユニットと、をさらに含むことを特徴とする項目１５から２３のいずれか一項に記載の装置。
（項目２７）
前記装置は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するための送信ユニット、および／または
前記運転者注意力の監視結果について統計分析を行うための分析ユニット、をさらに含むことを特徴とする項目１５から２６のいずれか一項に記載の装置。
（項目２８）
前記装置は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、且つ前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するための第２の制御ユニットをさらに含むことを特徴とする項目２７に記載の装置。
（項目２９）
コンピュータ実行可能コマンドが記憶されているメモリと、前記メモリ上のコンピュータ実行可能コマンドを実行する時に項目１から１４のいずれか一項に記載の方法を実現するプロセッサと、を含むことを特徴とする電子機器。
（項目３０）
プロセッサによって実行される時に項目１から１４のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータ可読記憶媒体。
（項目３１）
コンピュータ上で実行される時に項目１から１４のいずれか一項に記載の方法を実現するコンピュータプログラムまたはコマンドを含むことを特徴とするコンピュータプログラム製品。

Claims

車両に設けられるカメラによって前記車両の運転領域のビデオを収集するステップと、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する、ステップと、
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するステップと、を含むことを特徴とする運転者注意力の監視方法。
前記事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の２種以上を含むことを特徴とする請求項１に記載の方法。
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するステップと、
前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび／または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するステップと、を含むことを特徴とする請求項１または２に記載の方法。
前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも２つの異なる種別の定義注視領域に対応する時間閾値は異なり、
前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定する前記ステップは、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するステップを含むことを特徴とする請求項３に記載の方法。
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および／または頭部姿勢の検出を行うステップと、
各フレームの顔画像の視線および／または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するステップと、を含むことを特徴とする請求項１から４のいずれか一項に記載の方法。
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、
複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するステップを含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の１つを含むことを特徴とする請求項１から４のいずれか一項に記載の方法。
前記ニューラルネットワークのトレーニングは、
前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するステップと、
前記顔画像における、左眼および／または右眼を含む少なくとも片眼の眼部画像を切り出すステップと、
前記顔画像の第１の特徴および少なくとも片眼の眼部画像の第２の特徴をそれぞれ抽出するステップと、
前記第１の特徴と前記第２の特徴を融合し、第３の特徴を得るステップと、
前記第３の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するステップと、
前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含むことを特徴とする請求項６に記載の方法。
前記方法は、
前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも１つを含む脇見運転の注意喚起を促すステップ、または
前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定し、予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から１つ決定して前記運転者に対して脇見運転の注意喚起を促すステップ、をさらに含むことを特徴とする請求項１から７のいずれか一項に記載の方法。
前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含むことを特徴とする請求項１から８のいずれか一項に記載の方法。
前記車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップは、画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するステップと、前記複数のビデオにおける時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するステップと、画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するステップと、を含む、ことを特徴とする請求項１から９のいずれか一項に記載の方法。
前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも１つを含むことを特徴とする請求項１０に記載の方法。
前記車両に設けられるカメラによって前記車両の運転領域のビデオを収集する前記ステップは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するステップを含み、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定する前記ステップは、収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するステップと、得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定することとを含む、ことを特徴とする請求項１から９のいずれか一項に記載の方法。
前記方法は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するステップ、および／または
前記運転者注意力の監視結果について統計分析を行うステップ、をさらに含むことを特徴とする請求項１から１２のいずれか一項に記載の方法。
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、さらに
前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するステップを含むことを特徴とする請求項１３に記載の方法。
車両に設けられるカメラによって前記車両の運転領域のビデオを収集するための第１の制御ユニットと、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に基づいて、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第１の決定ユニットであって、各フレームの顔画像の注視領域は、事前に前記車両の空間領域の分割を行って得られた複数種別の定義注視領域の１つに属する、第１の決定ユニットと、
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記運転者注意力の監視結果を決定するための第２の決定ユニットと、を含むことを特徴とする運転者注意力の監視装置。
前記事前に前記車両の空間領域の分割を行って得られた前記複数種別の定義注視領域は、左フロントウインドウシールド領域、右フロントウインドウシールド領域、インストルメントパネル領域、車両インナーミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、助手席領域、および助手席前方のグローブボックス領域の２種以上を含むことを特徴とする請求項１５に記載の装置。
前記第２の決定ユニットは、
前記ビデオ内の少なくとも１つのスライディング時間窓内に含まれる各フレームの顔画像の前記注視領域の各々の種別分布に基づいて、前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間を決定するための第１の決定サブユニットと、
前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と予め定められた時間閾値との比較結果に基づいて、脇見運転であるか否かおよび／または脇見運転のレベルを含む前記運転者注意力の監視結果を決定するための第２の決定サブユニットと、を含むことを特徴とする請求項１５または１６に記載の装置。
前記時間閾値は、各種の前記定義注視領域にそれぞれ対応する複数の時間閾値を含み、ここで、前記複数種別の定義注視領域における少なくとも２つの異なる種類の定義注視領域に対応する時間閾値は異なり、
前記第２の決定サブユニットは、さらに前記少なくとも１つのスライディング時間窓内の各種の前記注視領域の注視累計時間と該当する種別の定義注視領域の時間閾値との比較結果に基づいて、前記運転者注意力の監視結果を決定するために用いられることを特徴とする請求項１７に記載の装置。
前記第１の決定ユニットは、
前記ビデオに含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して視線および／または頭部姿勢の検出を行うための第１の検出サブユニットと、
各フレームの顔画像の視線および／または頭部姿勢の検出結果に基づいて、各フレームの顔画像における前記運転者の注視領域の種別を決定するための第３の決定サブユニットと、を含むことを特徴とする請求項１５から１８のいずれか一項に記載の装置。
前記第１の決定ユニットは、
複数フレームの前記顔画像をニューラルネットワークにそれぞれ入力し、前記ニューラルネットワークを介して、各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ出力するための処理サブユニットをさらに含み、ここで、前記ニューラルネットワークは予め注視領域種別のラベリング情報が含まれる顔画像集合を用いて事前にトレーニングして得られるか、または、予め注視領域種別のラベリング情報が含まれる顔画像集合、および前記顔画像集合における各顔画像に基づいて切り出した眼部画像を用いて事前にトレーニングして得られ、前記注視領域種別のラベリング情報は前記複数種別の定義注視領域の１つを含むことを特徴とする請求項１５から１８のいずれか一項に記載の装置。
前記装置は前記ニューラルネットワークのトレーニングユニットをさらに含み、前記トレーニングユニットは、
前記顔画像集合における、注視領域種別のラベリング情報が含まれる顔画像を取得するための取得サブユニットと、
前記顔画像における、左眼および／または右眼を含む少なくとも片眼の眼部画像を切り出すための画像切り出しサブユニットと、
前記顔画像の第１の特徴および少なくとも片眼の眼部画像の第２の特徴をそれぞれ抽出するための特徴抽出サブユニットと、
前記第１の特徴と前記第２の特徴を融合し、第３の特徴を得るための特徴融合サブユニットと、
前記第３の特徴に基づいて前記顔画像の注視領域種別の検出結果を決定するための第４の決定サブユニットと、
前記注視領域種別の検出結果と前記注視領域種別のラベリング情報との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整サブユニットと、を含むことを特徴とする請求項２０に記載の装置。
前記装置は、
前記運転者注意力の監視結果が脇見運転である場合、前記運転者に対して、文字による注意喚起、音声による注意喚起、香りによる注意喚起、低電流刺激による注意喚起のうちの少なくとも１つを含む脇見運転の注意喚起を促すための注意喚起ユニットと、
前記運転者注意力の監視結果が脇見運転である場合、予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係、および前記運転者注意力の監視結果に基づいて、前記運転者の脇見運転のレベルを決定するための第３の決定ユニットと、
予め設定された脇見運転のレベルと脇見運転の注意喚起とのマッピング関係、および前記運転者の脇見運転のレベルに基づいて、前記脇見運転の注意喚起から１つ決定して前記運転者に対して脇見運転の注意喚起を促す第４の決定ユニットと、をさらに含むことを特徴とする請求項１５から２１のいずれか一項に記載の装置。
前記予め設定された脇見運転のレベルと注意力の監視結果とのマッピング関係は、複数の連続したスライディング時間窓の監視結果がいずれも脇見運転であった場合、前記脇見運転のレベルがスライディング時間窓の数と正に相関しているという関係を含むことを特徴とする請求項１５から２２のいずれか一項に記載の装置。
前記第１の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、
前記第１の決定ユニットは、
画質評価指標に基づいて、収集された複数のビデオの各々に含まれる、前記運転領域に位置する運転者の複数フレームの顔画像における各フレームの顔画像の画質スコアをそれぞれ決定するための第５の決定ユニットと、
前記複数のビデオにおける時刻が揃っている各フレームの顔画像のうち、画質スコアが最も高い顔画像をそれぞれ決定するための第６の決定ユニットと、
画質スコアが最も高い各顔画像における前記運転者の注視領域の種別をそれぞれ決定するための第７の決定サブユニットと、をさらに含むことを特徴とする請求項１５から２３のいずれか一項に記載の装置。
前記画質評価指標は、画像に眼部画像が含まれるか否か、画像における眼部領域の精細度、画像における眼部領域の遮蔽状況、画像における眼部領域の眼開閉状態のうちの少なくとも１つを含むことを特徴とする請求項２４に記載の装置。
前記第１の制御ユニットは、車上の複数領域にそれぞれ配置される複数のカメラによって、異なる角度から運転領域のビデオをそれぞれ収集するためにも用いられ、
前記第１の決定ユニットは、
収集された複数のビデオの各々に含まれる前記運転領域に位置する運転者の複数フレームの顔画像に対して、時刻が揃っている各フレームの顔画像における前記運転者の注視領域の種別をそれぞれ検出するための第２の検出サブユニットと、
得られた各注視領域種別に多数を占める結果を当該時刻の顔画像の注視領域種別として決定するための第８の決定サブユニットと、をさらに含むことを特徴とする請求項１５から２３のいずれか一項に記載の装置。
前記装置は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信するための送信ユニット、および／または
前記運転者注意力の監視結果について統計分析を行うための分析ユニット、をさらに含むことを特徴とする請求項１５から２６のいずれか一項に記載の装置。
前記装置は、
前記車両と通信接続されるサーバまたは端末に、前記運転者注意力の監視結果を送信した後、且つ前記サーバまたは前記端末から送信される制御コマンドを受信した場合、前記制御コマンドに従って前記車両を制御するための第２の制御ユニットをさらに含むことを特徴とする請求項２７に記載の装置。
コンピュータ実行可能コマンドが記憶されているメモリと、前記メモリ上のコンピュータ実行可能コマンドを実行する時に請求項１から１４のいずれか一項に記載の方法を実現するプロセッサと、を含むことを特徴とする電子機器。
プロセッサによって実行される時に請求項１から１４のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータ可読記憶媒体。
コンピュータ上で実行される時に請求項１から１４のいずれか一項に記載の方法を実現するコンピュータプログラムまたはコマンドを含むことを特徴とするコンピュータプログラム製品。