JP2021530789A

JP2021530789A - 動作認識方法、電子機器及び記憶媒体

Info

Publication number: JP2021530789A
Application number: JP2021500697A
Authority: JP
Inventors: 彦傑陳; 飛王; 晨銭
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-09-27
Filing date: 2019-06-25
Publication date: 2021-11-11
Anticipated expiration: 2039-06-25
Also published as: US20210133468A1; CN110956061B; KR20210036955A; SG11202100356TA; JP7295936B2; CN110956061A; WO2020062969A1

Abstract

本開示は、検出画像から顔の目標部位を検出することと、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すことと、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識することと、を含む動作認識方法及び装置、運転者状態解析方法及び装置に関する。本開示の実施例は、異なる検出画像における面積が異なる顔に適用可能であり、異なる顔型の顔にも適用可能である。本開示の実施例は適用範囲が広い。目標画像は、解析するための十分な情報を含み、切り出された目標画像の面積が大き過ぎ、無用情報が多過ぎることによるシステム処理効率の低下という問題を減少させることができる。【選択図】図１

Description

本開示は、画像処理技術に関し、特に、動作認識方法及び装置、運転者状態解析方法及び装置に関する。

動作認識は、セキュリティの分野で広く応用されている。動作認識の正確率と効率等の性能は、その応用分野において注目されているものである。

本開示は、動作認識の技術的手段を提供する。

本開示の一方面によれば、検出画像から顔の目標部位を検出することと、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すことと、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識することと、を含む動作認識方法を提供する。

本開示の一方面によれば、運転者に対する検出画像を取得することと、上記動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することと、認識された動作に基づいて運転者の状態を決定することと、を含む運転者状態解析方法を提供する。

本開示の一方面によれば、検出画像から顔の目標部位を検出するための目標部位検出モジュールと、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すための目標画像切り出しモジュールと、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識するための動作認識モジュールと、を含む動作認識装置を提供する。

本開示の一方面によれば、運転者に対する検出画像を取得するための運転者画像取得モジュールと、上記動作認識装置を用いて、運転者が所定動作を実行しているか否かを認識するための動作認識モジュールと、認識された動作に基づいて運転者の状態を決定するための状態認識モジュールと、を含む運転者状態解析装置を提供する。

本開示の一方面によれば、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは、上記動作認識方法及び／又は運転者状態解析方法を実行するように構成される電子機器を提供する。

本開示の一方面によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行されると、上記動作認識方法及び／又は運転者状態解析方法を実現させるコンピュータ読取可能な記憶媒体を提供する。

本開示の一方面によれば、コンピュータ読取可能なコードを含むコンピュータプログラムであって、前記コンピュータ読取可能なコードは、電子機器で実行されると、前記電子機器のプロセッサに上記動作認識方法及び／又は運転者状態解析方法を実現するためのコマンドを実行させるコンピュータプログラムを提供する。

本開示の実施例では、検出画像から顔の目標部位を認識し、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出し、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識する。目標部位の検出結果に基づいて目標画像を切り出すことは、異なる検出画像における面積が異なる顔に適用可能であり、異なる顔型の顔にも適用可能である。本開示の実施例は適用範囲が広い。目標画像は、解析するための十分な情報を含み、また、切り出された目標画像の面積が大き過ぎ、無用情報が多過ぎることによるシステム処理効率の低下という問題を減少させることができる。

以下の図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴および方面は明確になる。

明細書に含まれ且つ明細書の一部を構成する図面は明細書と共に本開示の例示的な実施例、特徴及び方面を示し、更に本開示の原理を解釈するために用いられる。
本開示の実施例に係る動作認識方法のフローチャートである。本開示の実施例に係る動作認識方法のフローチャートである。本開示の実施例に係る動作認識方法のフローチャートである。本開示の実施例に係る動作認識方法のフローチャートである。本開示の実施例に係る動作認識方法のフローチャートである。本開示の実施例に係る運転者状態解析方法のフローチャートである。本開示の実施例に係る動作認識方法における検出画像である。本開示の実施例に係る動作認識方法における顔検出結果の模式図である。本開示の実施例に係る動作認識方法において目標画像を決定する模式図である。本開示の実施例に係る動作認識方法において目標画像に基づいて動作認識を行う模式図である。本開示の実施例に係る動作認識方法においてノイズ画像でニューラルネットワークをトレーニングする模式図である。本開示の実施例に係る動作認識装置のブロック図である。本開示の実施例に係る運転者状態解析装置のブロック図である。例示的実施例に係る動作認識装置のブロック図である。例示的実施例に係る動作認識装置のブロック図である。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面において、同じ符号が同じまたは類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を作る必要がない。

ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例も他の実施例より好ましい又は優れるものであると理解すべきではない。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくても、本開示が実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するように、当業者に既知の方法、手段、要素および回路について詳細な説明を行わない。

図１は本開示の実施例に係る動作認識方法のフローチャートである。前記動作認識方法は、ユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ちの機器、計算装置、車載装置、ウエアラブル装置等の端末装置又はサーバ等の電子機器により実行されてもよい。いくつかの可能な実施形態では、前記動作認識方法はプロセッサによりメモリに記憶されているコンピュータ読取可能なコマンドを呼び出すことで実現されてもよい。

図１に示すように、前記動作認識方法は、以下のステップを含む。

ステップＳ１０、検出画像から顔の目標部位を検出する。

可能な実施形態では、前記検出画像は、単枚の画像を含んでもよいし、ビデオストリーム中のフレーム画像を含んでもよい。前記検出画像は、撮影装置により直接撮影した画像を含んでもよいし、撮影装置により撮影した画像に対してノイズ除去等の前処理を行った後の画像を含んでもよい。検出画像は、可視光画像、赤外線画像、近赤外線画像等の様々な画像を含んでもよく、本開示はこれを限定しない。

可能な実施形態では、可視光カメラ、赤外線カメラ、近赤外線カメラの少なくとも１つを含むカメラにより前記検出画像を取得することができる。ここで、可視光カメラは、可視光画像を取得するために用いられ、赤外線カメラは、赤外線画像を取得するために用いられ、近赤外線カメラは、近赤外線画像を取得するために用いられる。

可能な実施形態では、通常に、顔部に基づく動作が顔の五官に関する。例えば、喫煙又は飲食の動作は口部に関し、電話通話の動作は耳部に関する。顔の目標部位は、口部、耳部、鼻部、眼部、眉部のいずれか１つまたはそれらの組合を含んでもよい。必要に応じて顔の目標部位を決定することができる。目標部位は１つの部位を含んでもよいし、複数の部位を含んでも良い。顔検出技術を用いて顔の目標部位を検出することができる。

ステップＳ２０、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出す。

可能な実施形態では、顔部に基づく動作は、目標部位を中心としてもよい。検出画像において顔以外の領域に動作に関する物体を含んでもよい。例えば、喫煙の動作は口部を中心とし、タバコが検出画像において顔以外の領域に出現可能である。

可能な実施形態では、検出画像に占める顔の面積が異なり、顔の位置が異なり、また、顔の長さと太さも異なっている。所定サイズの切り出し枠により切り出される目標画像の面積が小さすぎると、目標画像に十分な解析情報が含まれないため動作検出結果が不正確となる恐れがある。切り出される目標画像の面積が大きすぎると、目標画像に多過ぎる無用情報が含まれるため解析効率が低下する恐れがある。

例えば、検出画像において、人物Ａの顔の占める面積が小さく、人物Ｂの顔の占める面積が大きい。所定面積の枠を用いて検出画像から目標画像を切り出す場合、面積が十分な人物Ａの口部の目標画像を切り出すことが可能であるが、面積が十分な人物Ｂの口部の目標画像を切り出すことができなく、人物Ｂの口部の目標画像に基づいて精確な動作検出結果を取得することができない。又は、面積が十分なＢの口部の目標画像を切り出すことが可能であるが、切り出されるＡの口部の目標画像の面積が大きいため、Ａの口部の目標画像に多過ぎる無用情報が含まれて、システムの処理効率を低減してしまう。

可能な実施形態では、目標部位の検出結果に基づいて目標部位の顔における位置を決定することができ、目標部位の顔における位置に基づいて目標画像の切り出しサイズ及び／又は切り出し位置を決定することができる。本開示の実施例は、切り出された目標画像が前記対象顔の自身特徴に更に合致するように設定された条件により検出画像から目標部位に対応する目標画像を切り出すことができる。例えば、目標部位と顔における所定位置との距離に基づいて、切り出される目標画像の大きさを決定することができる。例えば、人物Ａの口部とＡの顔中心点との距離に基づいて人物Ａの口部の目標画像の大きさを決定する。同様に、人物Ｂの口部とＢの顔中心点との距離に基づいて人物Ｂの口部の目標画像の大きさを決定する。口部と顔中心との距離は顔の自身特徴に関するので、切り出された目標画像が顔の自身特徴に更に合致させる。顔における目標部位の位置に基づいて切り出された目標画像は、顔の自身特徴に更に合致すると共に、動作にかかる物体がより完全な画像領域も含む。

ステップＳ３０、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識する。

可能な実施形態では、目標画像の特徴を抽出し、抽出された特徴に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを決定することができる。

可能な実施形態では、前記所定動作は、喫煙、飲食、マスク着用、水／飲料飲み、電話通話、化粧のいずれか１つ又はそれらの組合せを含んでもよい。顔の所属する対象者が所定動作を実行している時に、運転、歩行、オートバイや自転車などに乗る等の動作を同時に実行することがある。この場合、上記所定動作により、顔の所属する対象者の気が散って、安全上の懸念が生じてしまう。所定動作の認識結果に基づいて顔の所属する対象者に対して安全解析等の応用を行うことができる。例えば、検出画像が路面における監視カメラにより撮影した画像である場合に、検出画像における顔が車両を運転している運転者の顔である。検出画像における顔の所属する対象者が喫煙動作をしている場合、口部の目標画像の特徴を抽出し、その特徴に基づいて目標画像にタバコの特徴があるか否かを判断することにより、顔の所属する対象者が喫煙しているか否かを決定することができる。運転者が喫煙動作をしていれば、安全上の懸念が存在すると考えられる。

本実施例では、検出画像から顔の目標部位を認識し、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出し、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識する。目標部位の検出結果に基づいて目標画像を切り出すことは、異なる検出画像における面積が異なる顔に適用可能であり、異なる顔型の顔にも適用可能である。本開示の実施例は適用範囲が広い。目標画像は、解析するための十分な情報を含み、また、切り出された目標画像の面積が大き過ぎ、無用情報が多過ぎることによるシステム処理効率の低下という問題を減少させることができる。

図２は本開示の実施例に係る動作認識方法のフローチャートを示し、図２に示すように、前記動作認識方法におけるステップＳ１０には、以下のステップを含む。

ステップＳ１１、前記検出画像から顔を検出する。

可能な実施形態では、顔検出アルゴリズムを用いて検出画像から顔を検出することができる。顔検出アルゴリズムは、１、検出画像の特徴を抽出することと、２、抽出された特徴に基づいて検出画像から候補枠を決定することと、３、各候補枠の分類結果により、候補枠から顔枠を決定することと、４、座標フィッティングにより顔枠の検出画像における座標を取得して、顔検出結果を取得することと、を含んでもよい。顔検出結果は顔枠の４つの頂点の座標、顔枠の長さ及び幅を含んでもよい。

ステップＳ１２、顔の検出結果に基づいて顔キーポイントの検出を行う。

可能な実施形態では、顔キーポイントは顔における所定位置の点を含んでもよい。顔における各部位の異なる位置の点を顔キーポイントとして決定することができる。例えば顔キーポイントは、眼部輪廓線における点（目尻、目頭等）、眉部輪廓線における点、鼻部輪廓線における点等を含んでもよい。必要に応じて顔キーポイントの位置と数量を決定することができる。検出画像における顔枠が位置する領域の特徴を抽出し、所定のマップ関数と抽出された特徴に基づいて、検出画像における顔の各キーポイントの２次元座標を取得することができる。

ステップＳ１３、顔キーポイントの検出結果に基づいて前記検出画像における顔の目標部位を決定する。

可能な実施形態では、顔キーポイントにより顔の目標部位を精度よく決定することができる。例えば、眼部に関する顔キーポイントにより眼部を決定することができる。口部に関する顔キーポイントにより口部を決定することができる。

可能な実施形態では、前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントを含む。前記ステップＳ１３には、口部キーポイントの検出結果に基づいて前記検出画像における顔の口部を決定することを含む。

可能な実施形態では、顔キーポイントは、口部キーポイント、耳部キーポイント、鼻部キーポイント、眼部キーポイント、眉部キーポイント、顔部外輪廓キーポイント等を含んでもよい。口部キーポイントは、上唇輪廓線と下唇輪廓線における１つ又は複数のキーポイントを含んでもよい。口部キーポイントにより検出画像における顔の口部を決定することができる。

本実施例では、検出画像から顔を検出し、顔キーポイントを検出し、顔キーポイントにより目標部位を決定することができる。顔キーポイントにより決定された目標部位はより精確である。

図３は本開示の実施例に係る動作認識方法のフローチャートを示し、前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントと眉部キーポイントを含む。図３に示すように、前記動作認識方法におけるステップＳ２０には、以下のステップを含む。

ステップＳ２１、前記口部キーポイントと前記眉部キーポイントの検出結果に基づいて前記検出画像における顔の口部から眉間までの距離を決定する。

ステップＳ２２、前記口部キーポイントと前記距離に基づいて、前記検出画像から口部に対応する目標画像を切り出す。

可能な実施形態では、眉部キーポイントは左右眉の輪廓線における１つ又は複数のキーポイントを含んでもよい。眉部キーポイントにより顔の眉を決定し、且つ顔の眉間の位置を決定することができる。

可能な実施形態では、異なる検出画像における顔が占める面積が異なってもよく、異なる顔の顔型が異なってもよい。口部から眉間までの距離は、検出画像に占める顔の面積を直感的且つ全面的に体現することができ、異なる顔型を直感的且つ全面的に体現することもできる。口部から顔における眉間までの距離に基づいて、口部に対応する目標画像を切り出すことにより、目標画像に含まれる画像内容が顔の個別的特徴によって異なるようになる。口部動作に関する物体が目標画像に含まれるように口部下方の顔以外の領域をより多く含ませてもよい。目標画像の特徴に基づいて、例えば、喫煙、電話通話等の口部又は口部近傍で発生する微細動作を容易に認識することができる。

例えば、顔が長い場合に、口部から眉間までの距離が大きく、口部キーポイント及び口部と眉間との距離に基づいて決定される目標画像の面積が大きくなり、顔の自身特徴に更に合致することができる。顔以外の領域において喫煙動作に関するタバコが目標画像に含まれるようにしてもよい。このように喫煙の動作認識結果がより精確になる。

可能な実施形態では、目標画像は任意の形状であってもよい。例えば、口部から前記顔における眉間までの距離をｄとし、口部の中心点を中心とし、ｄより大きい所定長さを辺の長さとして、矩形の目標画像を切り出すようにしてもよい。切り出された目標画像には口部下方の顔以外の領域が含まれる。口部を目標部位とする動作を検出する場合に、口部下方の顔以外の領域でタバコ、食物等の物体が検出されることが可能であって、より精確な動作検出結果が取得される。

本実施例では、口部から前記顔における眉間までの距離に基づいて切り出された口部の目標画像は、顔の自身特徴に更に合致し、口部下方の顔以外の領域が含まれ、口部を目標部位とする動作検出の結果をより精確にすることができる。

図４は本開示の実施例に係る動作認識方法のフローチャートを示し、図４に示すように、前記動作認識方法におけるステップＳ３０には、以下のステップを含む。

ステップＳ３１、前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出する。

可能な実施形態では、画像を２次元の離散的な信号と見なしてもよく、画像に対して畳み込み処理を行うことは、畳み込みカーネルを画像上でスライディングさせ、画像点上の画素階調値と対応する畳み込みカーネル上の数値を乗算し、乗算した値を全て加算して畳み込みカーネル中間画素に対応する画像上の画素の階調値とすることを、画像の全ての画素に対する処理が完成するまでに繰り返すプロセスを含む。畳み込み演算は画像処理中に画像のフィルタリングに用いられることができる。所定の畳み込みカーネルにより目標画像に対して畳み込み演算処理を行い、目標画像の畳み込み特徴を抽出することができる。

ステップＳ３２、前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定する。

可能な実施形態では、分類処理は２クラス分類処理等の分類処理を含んでもよい。ここで、２クラス分類処理は、入力されるデータを処理して、予め設定された２つのクラスのどちらに属するかについての結果を出力することを含んでもよい。２つのクラスとして喫煙動作と非喫煙動作を予め設定してもよい。目標画像の畳み込み特徴に対して２クラス分類処理を行った後、目標画像における顔の所属する対象者が喫煙動作をしている確率と喫煙動作をしていない確率を取得することができる。

可能な実施形態では、分類処理は多クラス分類処理を更に含んでもよい。目標画像の畳み込み特徴に対してマルチタスクの分類処理を行った後、目標画像における顔の所属する対象者の各タスクに属する確率を取得することができる。本開示はこれを限定しない。

本実施例では、畳み込み処理と分類処理により目標画像における顔の所属する対象者が所定動作を実行しているか否かを決定することができる。畳み込み処理と分類処理により、動作検出の検出結果をより精確にし、検出プロセスの効率を高くすることができる。

可能な実施形態では、ステップＳ３１には、ニューラルネットワークの畳み込み層により前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出することを含んでもよく、ステップＳ３２には、前記ニューラルネットワークの分類層により前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定することを含んでもよい。

可能な実施形態では、ニューラルネットワークは入力から出力へのマッピングを含んでもよい。入力と出力との間の精確な数学表現式が必要ではなく、大量の入力と出力とのマッピング関係を学習し、既知のモードを用いてトレーニングすることにより、入力から出力への出力マッピングを完成させることができる。検出動作を含むサンプル画像を用いてニューラルネットワークをトレーニングすることができる。

可能な実施形態では、ニューラルネットワークは畳み込み層と分類層を含んでもよい。ここで、畳み込み層は、入力された目標画像又は特徴に対して畳み込み処理を行うために用いられる。分類層は、特徴を分類処理するために用いられる。本開示は、畳み込み層と分類層の具体的な実施形態を限定するものではない。

本実施例では、目標画像をトレーニングされたニューラルネットワークに入力して、ニューラルネットワークの強い処理能力により精確な動作検出結果を取得する。

可能な実施形態では、前記ニューラルネットワークは、予めラベル付きサンプル画像セットにより教師ありトレーニングを行われたものであり、ここで、前記サンプル画像セットは、サンプル画像と、サンプル画像にノイズを加えたノイズ画像と、を含む。

可能な実施形態では、撮影装置による検出画像撮影中に様々な原因によって異なる検出画像の間に微小の差異が存在することがある。例えば、撮影装置によりビデオストリームを撮影する時に、撮影装置の微小な位置変化により、ビデオストリームにおいて異なるフレームの検出画像に差異が存在することがある。ニューラルネットワークは高次元空間での関数マップであると考えられ、高次元関数の場合、ある位置での導関数が大きい値となり得る。ある位置での導関数が大きい値となる場合、ニューラルネットワークに入力される画像中の画素レベルの微小差異であっても出力特徴の大きく変動してしまう。ニューラルネットワークの演算正確率を高めるために、トレーニング中にサンプル画像の変動（画素レベルの変動であっても）によるニューラルネットワークの出力の大きい誤差を解消することができる。

可能な実施形態では、前記動作認識方法は、前記サンプル画像に対して回転、平行移動、スケール変更、ノイズ付加のうちの少なくとも１つの処理を行って、ノイズ画像を取得することを更に含む。

可能な実施形態では、サンプル画像に対して極めて小さい角度の回転、極めて小さい距離の平行移動、スケール拡大、スケール縮小等の操作を行った後、サンプル画像にノイズを加えてノイズ画像を取得することができる。

可能な実施形態では、サンプル画像とノイズ画像を全てニューラルネットワークに入力し、サンプル画像により得られた出力結果、ノイズ画像により得られた出力結果及びサンプル画像のラベルを用いてニューラルネットワーク逆伝搬のための損失を取得し、更に、得られた損失を用いてニューラルネットワークをトレーニングすることができる。

本実施例では、サンプル画像によりノイズ画像を取得し、更にサンプル画像とノイズ画像によりニューラルネットワークをトレーニングすることにより、トレーニングされたニューラルネットワークにより抽出された特徴の安定性が強く、変動防止性能が高く、得られた動作認識結果もより精確になる。

可能な実施形態では、前記ニューラルネットワークのトレーニングプロセスには、ニューラルネットワークにより前記サンプル画像及び前記ノイズ画像のそれぞれの所定動作検出結果をそれぞれ取得することと、前記サンプル画像の所定動作検出結果とそのラベルの第１の損失、及び前記ノイズ画像の所定動作検出結果とそのラベルの第２の損失をそれぞれ決定することと、前記第１の損失と前記第２の損失に基づいてニューラルネットワークのネットワークパラメータを調整することと、を含む。

可能な実施形態では、第１の損失はｓｏｆｔｍａｘ（ソフトマックス）損失を含んでもよい。ｓｏｆｔｍａｘ損失は多クラス分類プロセスに用いられて、複数の出力を（０、１）区間内にマッピングして分類結果を取得することができる。以下の式（１）により第１の損失Ｌｓｏｆｔｍａｘを取得することができる。

ただし、ｐ_iはニューラルネットワークが出力するサンプル画像の実際正確類別の確率であり、Ｎはサンプル画像の合計サンプル数であり（ただし、Ｎが正整数）、ｉはサンプル番号である（ただし、ｉが正整数であり、且つｉ≦Ｎである）。

可能な実施形態では、前記サンプル画像をニューラルネットワークに入力し、前記サンプル画像の第１の特徴を抽出する。前記ノイズ画像をニューラルネットワークに入力し、前記ノイズ画像の第２の特徴を抽出する。前記第１の特徴と前記第２の特徴に基づいて、前記ニューラルネットワークの第２の損失を決定するようにしてもよい。第２の損失はユークリッド損失を含んでもよい。

例えば、サンプル画像はサイズがＷ×Ｈの画像Ｉ_oriであってもよく、それに対応するニューラルネットワークによる特徴ベクトルはＦ_oriである。Ｉ_oriに一定のノイズを加えてノイズ画像Ｉ_noiseを取得することができる。Ｉ_noiseも同時にニューラルネットワークに入力してフィードフォワードを行うことができる。ニューラルネットワークによる対応の特徴ベクトルはＦ_noiseである。ベクトルＦ_oriとベクトルＦ_noiseとの差をドリフト特徴△Ｆと表記し、以下の式（２）により第２の損失Ｌ_Euclideanを取得することができる。

可能な実施形態では、第１の損失と第２の損失に基づいてニューラルネットワーク逆伝搬の損失Ｌｏｓｓを取得することができる。

以下の式（３）を用いてニューラルネットワーク逆伝搬の損失Ｌｏｓｓを取得することができる。

損失Ｌｏｓｓに基づいて勾配逆伝搬アルゴリズムを用いてニューラルネットワークをトレーニングすることができる。

本実施例では、サンプル画像により第１の損失を取得し、サンプル画像とノイズ画像により第２の損失を取得し、更に第１の損失と第２の損失に基づいてニューラルネットワーク逆伝搬の損失を取得した後、ニューラルネットワークをトレーニングすることができる。トレーニングされたニューラルネットワークは変動防止性能に優れ、抽出する特徴の安定性が強く、動作検出結果が精確である。

図５は本開示の実施例に係る動作認識方法のフローチャートを示し、図５に示すように、前記動作認識方法は、以下のステップを更に含む。

ステップＳ４０、前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信する。

可能な実施形態では、顔の所属する対象者が所定動作を実行していると検出した場合に、例えば、路面監視カメラにより撮影した車両運転者の画像から、運転者が喫煙、飲食、マスク着用、電話通話、化粧等の動作をしていると検出した場合に、運転者が注意力を集中していなく、安全上の懸念が生じることを示し、警報情報を送信して関係者に介入させるように通知することができる。

可能な実施形態では、警報情報は音声、文字、画像等の様々の表現形式の情報を含んでもよい。警報情報は検出された動作によって異なる警報レベルに分けてもよい。異なる警報レベルによって異なる警報情報を送信する。本開示はこれを限定しない。

本実施例では、顔の所属する対象者が所定動作を実行している場合に、警報情報を送信する。必要に応じて、本開示の実施例は異なる使用要求及び異なる使用環境に適用可能になるように動作検出の結果によって警報情報を送信することができる。

可能な実施形態では、ステップＳ４０には、前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信することを含む。

可能な実施形態では、警報条件を予め設定して、動作が警報条件を満たしていないと認識した場合に、警報情報を送信する必要がなくてもよい。動作が所定動作であると認識した場合に、警報情報を送信する。認識された動作が所定動作ではない場合に、警報情報を送信しない。異なる警報条件は異なる警報情報類型又は内容に対応するように複数の警報条件を設定してもよい。必要に応じて警報条件を調整して、送信する警報情報の類型又は内容等を調整することができる。

本実施例では、前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信する。警報条件によって異なる警報情報を送信して、異なる使用要求に更に合致するようにしてもよい。

可能な実施形態では、前記動作は動作持続時間を含み、前記警報条件は認識された動作持続時間が時間閾値を超えることを含む。

可能な実施形態では、動作は動作持続時間を含んでもよい。動作持続時間が時間閾値を超えると、動作の実行により動作実行対象者の気が多く散ることになり、危険動作であると考えられ、警報情報を送信する必要がある。例えば、運転者の喫煙動作の時間が３秒を超えると、喫煙動作が危険動作であり、運転者の運転動作に影響を与えると考えられ、運転者に警報情報を送信する必要がある。

本実施例では、動作持続時間と時間閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。

可能な実施形態では、前記動作は動作回数を含み、前記警報条件は認識された動作回数が回数閾値を超えることを含む。

可能な実施形態では、動作は動作回数を含んでもよい。動作回数が回数閾値を超えると、動作実行対象者の動作が頻繁で、気が多く散ることになり、危険動作であると考えられ、警報情報を送信する必要がある。例えば、運転者の喫煙動作の回数が５回を超えると、喫煙動作が危険動作であって、運転者の運転動作に影響を与えると考えられ、運転者に警報情報を送信する必要がある。

本実施例では、動作回数と回数閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。

可能な実施形態では、前記動作は動作持続時間と動作回数を含み、前記警報条件は認識された動作持続時間が時間閾値を超え、且つ認識された動作回数が回数閾値を超えることを含む。

可能な実施形態では、動作の持続時間が時間閾値を超え且つ動作回数が回数閾値を超えると、動作実行対象者の動作が頻繁で且つ動作持続時間が長く、気が多く散ることになり、危険動作であると考えられ、警報情報を送信する必要がある。

本実施例では、動作回数と回数閾値、動作持続時間と時間閾値により警報情報の送信条件を調整することができ、そのように警報情報の送信の適合性がより高く、異なる使用要求に更に適応するようになる。

可能な実施形態では、前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信することは、動作の認識結果に基づいて動作レベルを決定することと、前記動作レベルに対応するレベル対応警報情報を送信することと、を含む。

可能な実施形態では、例えば、化粧動作の危険レベルが高く、喫煙、飲食、水／飲料飲み動作の危険レベルが一般であり、マスク着用動作と電話通話動作の危険レベルが低いように、異なる動作に対して動作レベルを設定してもよい。危険レベルが高い動作を高級警報情報に対応付け、危険レベルが一般である動作を中級警報情報に対応付け、危険レベルが低い動作を低級警報情報に対応付けるようにしてもよい。高級警報情報の危険レベルが中級警報レベルより高く、中級警報情報の危険レベルが低級警報レベルより高い。異なる警報目的が達成されるために、異なる動作に応じて異なるレベルの警報情報を送信することができる。

本実施例では、異なる動作レベルに応じて異なる警報情報を送信することで、警報情報の送信の適合性がより高く、異なる使用要求に更に適応することができる。

図６は本開示の実施例に係る運転者状態解析方法のフローチャートを示す。前記運転者状態解析方法は、ユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ちの機器、計算装置、車載装置、ウエアラブル装置等の端末装置又はサーバ等の電子機器により実行されてもよい。いくつかの可能な実施形態では、前記運転者状態解析方法はプロセッサによりメモリに記憶されているコンピュータ読取可能なコマンドを呼び出すことで実現されてもよい。

図６に示すように、前記運転者状態解析方法は、運転者に対する検出画像を取得するステップＳ１００と、上記のいずれか一項に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識するステップＳ２００と、認識された動作に基づいて運転者の状態を決定するステップＳ３００と、を含む。

可能な実施形態では、車両内に監視カメラを設置して、運転者に対する検出画像を撮影することができる。その監視カメラは可視光カメラ、赤外線カメラ又は近赤外線カメラ等の様々のカメラを含んでもよい。

可能な実施形態では、上記のいずれか１つの実施例に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識するようにしてもよい。例えば、運転者が喫煙、飲食、マスク着用、水／飲料飲み、電話通話、化粧等の所定動作を実行しているか否かを認識することができる。

可能な実施形態では、運転者の状態は、安全状態と危険状態、又は正常状態と危険状態等を含んでもよい。運転者の動作認識結果に基づいて運転者の状態を決定することができる。例えば、喫煙、飲食、マスク着用、水／飲料飲み、電話通話、化粧等の所定動作であると認識した場合に、運転者の状態は危険状態又は異常状態となる。

可能な実施形態では、運転者の状態に応じて運転者又は車両管理センタに警報情報を送信して、車両が危険運転中である可能性があることを運転者又は管理者に通知することができる。

本実施例では、運転者に対する検出画像を取得し、本開示の実施例における動作認識方法を用いて運転者が所定動作を実行しているか否かを認識し、認識された動作に基づいて運転者の状態を決定するようにしてもよい。運転者の状態に応じて車両の運転安全性を高めることができる。

可能な実施形態では、前記運転者状態解析方法は、車両状態情報を取得することを更に含み、ステップＳ２００には、車両状態情報が設定トリガ条件を満たすことに応じて、上記のいずれか一項に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することを含む。

可能な実施形態では、車両の状態情報を取得し、取得された車両の状態情報に基づいて設定トリガ条件を満たすか否かを判断することができる。車両の状態情報が設定トリガ条件を満たす場合に、本開示の実施例における動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することができる。設定トリガ条件を調整することにより、ユーザの要求に応じて運転の動作を認識することが可能になる。

本実施例では、車両状態情報を取得し、車両状態情報が設定トリガ条件を満たす場合に、運転者が所定動作を実行しているか否かを認識することができる。設定トリガ条件により、運転者の動作認識はユーザの異なる使用要求を満たし、本開示の実施例の適合性と適用範囲を高めることが可能になる。

可能な実施形態では、車両状態情報は車両点火状態を含み、所定トリガ条件は車両が点火されたことが検出されたことを含む。

可能な実施形態では、車両が点火して走行し始めた後、運転者が喫煙、飲食、マスク着用、水／飲料飲み、電話通話、化粧等の所定動作を実行すれば、車両運転の安全性が影響される。所定トリガ条件は車両が点火されたと検出されたことを含んでもよい。車両内の監視カメラにより撮影した監視画像から、車両点火後に運転者の動作を認識して、車両の走行安全性を高めることができる。

本実施例では、車両が点火された後に運転者の動作を認識することで、車両走行中の安全性を高めることができる。

可能な実施形態では、車両状態情報は車両の車速を含み、所定トリガ条件は車両の車速が車速閾値を超えることが検出されたことを含む。

可能な実施形態では、車両の車速が車速閾値を超えると、運転者は注意力を高度に集中しなければならない。所定トリガ条件は車両車速が車速閾値を超えると検出したことを含んでもよい。車両内の監視カメラにより撮影した監視画像から、車両の車速が車速閾値を超える場合に運転者の動作を認識して、車両の走行安全性を高めることができる。

本実施例では、車両の車速が車速閾値を超える場合に運転者の動作を認識することで、車両高速走行中の安全性を高めることができる。

可能な実施形態では、前記運転者状態解析方法は、運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送することを更に含む。

可能な実施形態では、運転者の状態を例えば運転者の家族、管理者等の設定された連絡先に伝送してもよい。そのようにして、運転者の設定された連絡先が運転者の状態を取得して車両の運転状態を監視することが可能になる。また、運転者の状態を例えば車両の管理サーバプラットフォームのような指定サーバプラットフォームに伝送してもよい、そのようにして、車両の管理者が運転者の状態を取得して車両の運転状態を監視することが可能になる。

本実施例では、運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送することで、設定された連絡先又は指定されたサーバプラットフォームの管理者が車両の運転状態を監視することが可能になる。

可能な実施形態では、前記運転者状態解析方法は、前記運転者の動作認識結果を含む検出画像を記憶又は送信すること、又は前記運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信することを更に含む。

可能な実施形態では、運転者の動作認識結果を含む検出画像、又は運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信するようにしてもよい。記憶装置に記憶し、または設定されたメモリに送信して記憶することにより、検出画像又はビデオセグメントを長時間保存することができる。

本実施例では、運転者の動作認識結果を含む検出画像又はビデオセグメントを記憶又は送信することで、検出画像又はビデオセグメントを長時間保存することができる。
（応用例）

図７は本開示の実施例に係る動作認識方法における検出画像を示す。図７に示す検出画像は、路面監視カメラにより撮影した車両運転者の画像である。検出画像における運転者が喫煙している。

図８は本開示の実施例に係る動作認識方法における顔検出結果の模式図を示す。本開示の実施例における動作認識方法を用いて検出画像に対して顔検出を行って、検出画像から顔の位置を取得することができる。図８に示すように、図８における顔検出枠は、運転者の顔の位置する領域を決定している。

図９は本開示の実施例に係る動作認識方法において目標画像を決定する模式図を示す。顔キーポイントに対して更なる検出を行い、顔キーポイントにより顔における口部を決定することができる。口部を中心とし、口部から眉間までの距離の２倍とされる切り出し長さで、口部の目標画像を切り出すようにしてもよい。図９に示すように、切り出された口部の目標画像は口部下方の顔以外の部分領域を含む。また、口部下方の顔以外の部分領域には喫煙している手部とタバコが含まれる。

図１０は本開示の実施例に係る動作認識方法において目標画像に基づいて動作認識を行う模式図を示す。図１０に示すように、図９で切り出された目標画像をニューラルネットワークに入力して、運転者が喫煙しているか否かについての動作認識結果を取得することができる。

図１１は本開示の実施例に係る動作認識方法においてノイズ画像でニューラルネットワークをトレーニングする模式図を示す。図７に示すように、上方左側の目標画像にノイズを加えて、上方右側のノイズ画像が取得される。目標画像とノイズ画像を全てニューラルネットワークに入力して特徴抽出を行って、目標画像特徴とノイズ画像特徴をそれぞれ取得するようにしてもよい。目標画像特徴とノイズ画像特徴により、損失を取得し、且つ損失に基づいてニューラルネットワークのパラメータを調整することができる。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。

なお、本開示は、更に、動作認識装置、運転者状態解析装置、電子機器、コンピュータ読取可能な記憶媒体、プログラムを提供する。それらは全て本開示により提供された動作認識方法、運転者状態解析方法のいずれか１つを実現するために用いることができ、対応する技術的手段及び説明は方法について、対応的な記載を参照すればよく、重複説明は割愛する。

図１２は本開示の実施例に係る動作認識装置のブロック図を示し、図１２に示すように、前記動作認識装置は、検出画像から顔の目標部位を検出するための目標部位検出モジュール１０と、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すための目標画像切り出しモジュール２０と、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識するための動作認識モジュール３０と、を含む。

本実施例では、検出画像から顔の目標部位を認識し、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出し、前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識する。目標部位の検出結果に基づいて目標画像を切り出すことは、異なる検出画像における面積が異なる顔に適用可能であり、異なる顔型の顔にも適用可能である。本開示の実施例は適用範囲が広い。目標画像は、解析するための十分な情報を含み、また切り出された目標画像の面積が大き過ぎ、無用情報が多過ぎることによるシステム処理効率の低下という問題を減少させることができる。

可能な実施形態では、前記目標部位検出モジュール１０は、前記検出画像から顔を検出するための顔検出サブモジュールと、顔の検出結果に基づいて顔キーポイントの検出を行うためのキーポイント検出サブモジュールと、顔キーポイントの検出結果に基づいて前記検出画像における顔の目標部位を決定するための目標部位検出サブモジュールと、を含む。

可能な実施形態では、前記目標部位は、口部、耳部、鼻部、眼部、眉部のいずれか１つ又はそれらの任意の組合を含む。必要に応じて顔の目標部位を決定することができる。目標部位は１つまたは複数の部位を含んでもよい。顔検出技術を用いて顔の目標部位を検出することができる。

可能な実施形態では、前記所定動作は、喫煙、飲食、マスク着用、水／飲料飲み、電話通話、化粧のいずれか１つ又はそれらの組合せを含んでもよい。顔の所属する対象者が所定動作を実行している時に、運転、歩行、オートバイや自転車などに乗る等の動作を同時に実行することがある。この場合、上記所定動作により、顔の所属する対象者の気が散って、安全上の懸念が生じてしまう。所定動作の認識結果に基づいて顔の所属する対象者に対して安全解析等の応用を行うことができる。

可能な実施形態では、前記装置は、可視光カメラ、赤外線カメラ、近赤外線カメラの少なくとも１つを含むカメラにより前記検出画像を取得するための検出画像取得モジュールを更に含む。ここで、可視光カメラは、可視光画像を取得するために用いられ、赤外線カメラは、赤外線画像を取得するために用いられ、近赤外線カメラは、近赤外線画像を取得するために用いられる。

可能な実施形態では、前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントを含む。前記目標部位検出サブモジュールは、口部キーポイントの検出結果に基づいて前記検出画像における顔の口部を決定するために用いられる。

可能な実施形態では、前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントと眉部キーポイントを含む。前記目標画像切り出しモジュール２０は、前記口部キーポイントと前記眉部キーポイントの検出結果に基づいて前記検出画像における顔の口部から眉間までの距離を決定するための距離決定サブモジュールと、前記口部キーポイントと前記距離に基づいて、前記検出画像から口部に対応する目標画像を切り出すための口部画像切り出しサブモジュールと、を含む。

可能な実施形態では、前記動作認識モジュール３０は、前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出するための特徴抽出サブモジュールと、前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定するための分類処理サブモジュールと、を含む。

可能な実施形態では、前記特徴抽出サブモジュールは、ニューラルネットワークの畳み込み層により前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出するために用いられる。前記分類処理サブモジュールは、前記ニューラルネットワークの分類層により前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定するために用いられる。

本実施例では、サンプル画像によりノイズ画像を取得し、更にサンプル画像とノイズ画像によりニューラルネットワークをトレーニングすることにより、トレーニングされたニューラルネットワークにより抽出された特徴の安定性が強く、変動防止性能が高く、得られた動作認識結果もより精確になることが可能である。

可能な実施形態では、前記ニューラルネットワークは、トレーニングモジュールを含み、前記トレーニングモジュールは、ニューラルネットワークにより前記サンプル画像及び前記ノイズ画像のそれぞれの所定動作検出結果をそれぞれ取得するための検出結果取得サブモジュールと、前記サンプル画像の所定動作検出結果とそのラベルの第１の損失、及び前記ノイズ画像の所定動作検出結果とそのラベルの第２の損失をそれぞれ決定するための損失決定サブモジュールと、前記第１の損失と前記第２の損失に基づいてニューラルネットワークのネットワークパラメータを調整するためのパラメータ調整サブモジュールとを備える。

可能な実施形態では、前記装置は、前記サンプル画像に対して回転、平行移動、スケール変更、ノイズ付加のうちの少なくとも１つの処理を行って、ノイズ画像を取得するためのノイズ画像取得モジュールを更に含む。

可能な実施形態では、前記装置は、前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信するための警報情報送信モジュールを更に含む。

可能な実施形態では、前記警報情報送信モジュールは、前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信するための第１の警報情報送信サブモジュールを含む。

可能な実施形態では、前記警報情報送信モジュールは、動作の認識結果に基づいて動作レベルを決定するための動作レベル決定サブモジュールと、前記動作レベルに対応するレベル対応警報情報を送信するためのレベル対応警報情報送信サブモジュールと、を含む。

図１３は本開示の実施例に係る運転者状態解析装置のブロック図を示し、図１３に示すように、前記装置は、運転者に対する検出画像を取得するための運転者画像取得モジュール１００と、上記のいずれか一項に記載の動作認識装置を用いて、運転者が所定動作を実行しているか否かを認識するための動作認識モジュール２００と、認識された動作に基づいて運転者の状態を決定するための状態認識モジュール３００と、を含む。

本実施例では、運転者に対する検出画像を取得し、本開示の実施例における動作認識装置を用いて運転者が所定動作を実行しているか否かを認識し、認識された動作に基づいて運転者の状態を決定するようにしてもよい。運転者の状態に応じて車両の運転安全性を高めることができる。

可能な実施形態では、前記装置は、車両状態情報を取得するための車両状態取得モジュールを更に含み、前記動作認識モジュールは、車両状態情報が設定トリガ条件を満たすことに応じて、請求項２５〜４２のいずれか一項に記載の動作認識装置を用いて、運転者が所定動作を実行しているか否かを認識するための条件応答サブモジュールを含む。

可能な実施形態では、前記装置は、運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送するための状態伝送モジュールを更に含む。

可能な実施形態では、前記装置は、前記運転者の動作認識結果を含む検出画像を記憶又は送信すること、又は前記運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信することに用いられる記憶送信モジュールを更に含む。

本実施例では、運転者の動作認識結果を含む検出画像又はビデオセグメントを記憶又は送信することで、検出画像又はビデオセグメントを長時間保存することができる。

いくつかの実施例では、本開示の実施例で提供された装置が備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられることができる。具体的な実施形態については上記方法実施例の説明を参照すればよく、簡潔化するために、ここで重複説明は割愛する。

本開示の実施例は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリとを含む電子機器を更に提供し、ここで、前記プロセッサは前記実行可能なコマンドを直接的または間接的に呼び出すことにより上記動作認識方法及び／又は運転者状態解析方法を実行する。

本開示の実施例は、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行されると、上記動作認識方法及び／又は運転者状態解析方法を実現させるコンピュータ読取可能な記憶媒体を更に提供する。コンピュータ読取可能な記憶媒体は非揮発性コンピュータ読取可能な記憶媒体であってもよいし、揮発性コンピュータ読取可能な記憶媒体であってもよい。

本開示の実施例は、コンピュータ読取可能なコードを含むコンピュータプログラムであって、前記コンピュータ読取可能なコードが電子機器で実行されると、前記電子機器のプロセッサに上記動作認識方法及び／又は運転者状態解析方法を実行させるコンピュータプログラムを更に提供する。

図１４は例示的実施例に係る動作認識装置８００のブロック図である。例えば、装置８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。

図１４を参照すると、装置８００は処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）のインタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６の一つ以上を含むことができる。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または背面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、一つのマイク（ＭＩＣ）を含み、マイク（ＭＩＣ）は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は電子機器８００の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、例えば電子機器８００の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との有線または無線通信を実現するように構成される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標／ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタルシグナルプロセッサ（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されと、上記方法を実行させることができる。

図１５は一例示的実施例により示された動作認識装置１９００のブロック図である。例えば、装置１９００はサーバとして提供できる。図１５を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は命令を実行することによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されているオペレーティングシステム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、不揮発性コンピュータ読取可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されと、上記方法を実行させることができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ読取可能なプログラム命令が有しているコンピュータ読取可能な記憶媒体を含んでもよい。

コンピュータ読取可能な記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読取可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読取可能な記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読取可能な記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読取可能なプログラム命令を受信し、該コンピュータ読取可能なプログラム命令を転送し、各計算／処理機器内のコンピュータ読取可能な記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読取可能なプログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読取可能なプログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ読取可能なプログラム命令を実行することより、本開示の各方面を実現するようにしてもよい。

これらのコンピュータ読取可能なプログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現ように、装置を製造してもよい。これらのコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ読取可能な記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現する命令を有する製品を含む。

コンピュータ読取可能なプログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

論理に違反しない限り、本願のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照すればよい。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

本願は、２０１８年９月２７日に中国特許局に提出された、出願番号２０１８１１１３２６８１．１、発明の名称「動作認識方法及び装置、運転者状態解析方法及び装置」の中国特許出願の優先権を主張し、その開示の全てが援用によって本願に組み込まれる。

Claims

検出画像から顔の目標部位を検出することと、
前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すことと、
前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識することと、を含むことを特徴とする動作認識方法。
検出画像から顔の目標部位を検出することは、
前記検出画像から顔を検出することと、
顔の検出結果に基づいて顔キーポイントの検出を行うことと、
顔キーポイントの検出結果に基づいて前記検出画像における顔の目標部位を決定することと、を含むことを特徴とする請求項１に記載の方法。
前記目標部位は、口部、耳部、鼻部、眼部、眉部のいずれか１つ又はそれらの任意の組合を含むことを特徴とする請求項１又は２に記載の方法。
前記所定動作は、喫煙、飲食、マスク着用、水／飲料飲み、電話通話、化粧のいずれか１つ又はそれらの任意の組合を含むことを特徴とする請求項１〜３のいずれか一項に記載の方法。
検出画像から顔の目標部位を検出する前に、
可視光カメラ、赤外線カメラ、近赤外線カメラの少なくとも１つを含むカメラにより前記検出画像を取得することを更に含むことを特徴とする請求項１〜４のいずれか一項に記載の方法。
前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントを含み、顔キーポイントの検出結果に基づいて前記検出画像における顔の目標部位を決定することは、
口部キーポイントの検出結果に基づいて前記検出画像における顔の口部を決定することを含むことを特徴とする請求項３〜５のいずれか一項に記載の方法。
前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントと眉部キーポイントを含み、前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すことは、
前記口部キーポイントと前記眉部キーポイントの検出結果に基づいて前記検出画像における顔の口部から眉間までの距離を決定することと、
前記口部キーポイントと前記距離に基づいて、前記検出画像から口部に対応する目標画像を切り出すことと、を含むことを特徴とする請求項３〜５のいずれか一項に記載の方法。
前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識することは、
前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出することと、
前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定することと、を含むことを特徴とする請求項１〜７のいずれか一項に記載の方法。
前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出することは、
ニューラルネットワークの畳み込み層により前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出することを含み、
前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定することは、
前記ニューラルネットワークの分類層により前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定することを含むことを特徴とする請求項８に記載の方法。
前記ニューラルネットワークは、予めラベル付きサンプル画像セットにより教師ありトレーニングを行われたものであり、前記サンプル画像セットは、サンプル画像と、サンプル画像にノイズを加えたノイズ画像と、を含むことを特徴とする請求項９に記載の方法。
前記ニューラルネットワークのトレーニングプロセスには、
ニューラルネットワークにより前記サンプル画像及び前記ノイズ画像のそれぞれの所定動作検出結果をそれぞれ取得することと、
前記サンプル画像の所定動作検出結果とそのラベルの第１の損失、及び前記ノイズ画像の所定動作検出結果とそのラベルの第２の損失をそれぞれ決定することと、
前記第１の損失と前記第２の損失に基づいてニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項１０に記載の方法。
前記サンプル画像に対して回転、平行移動、スケール変更、ノイズ付加のうちの少なくとも１つの処理を行って、ノイズ画像を取得することを更に含むことを特徴とする請求項１０又は１１に記載の方法。
前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信することを更に含むことを特徴とする請求項１〜１２のいずれか一項に記載の方法。
前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信することは、
前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信することを含むことを特徴とする請求項１３に記載の方法。
前記動作は動作持続時間を含み、前記警報条件は認識された動作持続時間が時間閾値を超えることを含むことを特徴とする請求項１４に記載の方法。
前記動作は動作回数を含み、前記警報条件は認識された動作回数が回数閾値を超えることを含むことを特徴とする請求項１４に記載の方法。
前記動作は動作持続時間と動作回数を含み、前記警報条件は認識された動作持続時間が時間閾値を超え、且つ認識された動作回数が回数閾値を超えることを含むことを特徴とする請求項１４に記載の方法。
前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信することは、
動作の認識結果に基づいて動作レベルを決定することと、
前記動作レベルに対応するレベル対応警報情報を送信することと、を含むことを特徴とする請求項１４〜１７のいずれか一項に記載の方法。
運転者に対する検出画像を取得することと、
請求項１〜１８のいずれか一項に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することと、
認識された動作に基づいて運転者の状態を決定することと、を含むことを特徴とする運転者状態解析方法。
車両状態情報を取得することを更に含み、
請求項１〜１８のいずれか一項に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することは、
車両状態情報が所定トリガ条件を満たすことに応じて、請求項１〜１８のいずれか一項に記載の動作認識方法を用いて、運転者が所定動作を実行しているか否かを認識することを含むことを特徴とする請求項１９に記載の方法。
車両状態情報は車両点火状態を含み、所定トリガ条件は車両が点火されたことが検出されたことを含むことを特徴とする請求項２０に記載の方法。
車両状態情報は車両の車速を含み、所定トリガ条件は車両の車速が車速閾値を超えることが検出されたことを含むことを特徴とする請求項２０に記載の方法。
運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送することを更に含むことを特徴とする請求項１９〜２２のいずれか一項に記載の方法。
前記運転者の動作認識結果を含む検出画像を記憶又は送信すること、又は
前記運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信することを更に含むことを特徴とする請求項１９〜２３のいずれか一項に記載の方法。
検出画像から顔の目標部位を検出するための目標部位検出モジュールと、
前記目標部位の検出結果に基づいて前記検出画像から前記目標部位に対応する目標画像を切り出すための目標画像切り出しモジュールと、
前記目標画像に基づいて前記顔の所属する対象者が所定動作を実行しているか否かを認識するための動作認識モジュールと、を含むことを特徴とする動作認識装置。
前記目標部位検出モジュールは、
前記検出画像から顔を検出するための顔検出サブモジュールと、
顔の検出結果に基づいて顔キーポイントの検出を行うためのキーポイント検出サブモジュールと、
顔キーポイントの検出結果に基づいて前記検出画像における顔の目標部位を決定するための目標部位検出サブモジュールと、を含むことを特徴とする請求項２５に記載の装置。
前記目標部位は、口部、耳部、鼻部、眼部、眉部のいずれか１つ又はそれらの任意の組合を含むことを特徴とする請求項２５又は２６記載の装置。
前記所定動作は、喫煙、飲食、マスク着用、水／飲料飲み、電話通話、化粧のいずれか１つ又はそれらの任意の組合を含むことを特徴とする請求項２５〜２７のいずれか一項に記載された動作認識装置。
可視光カメラ、赤外線カメラ、近赤外線カメラの少なくとも１つを含むカメラにより前記検出画像を取得するための検出画像取得モジュールを更に含むことを特徴とする請求項２５〜２８のいずれか一項に記載の装置。
前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントを含み、
前記目標部位検出サブモジュールは、
口部キーポイントの検出結果に基づいて前記検出画像における顔の口部を決定するために用いられることを特徴とする請求項２７〜２９のいずれか一項に記載の装置。
前記目標部位は口部を含み、前記顔キーポイントは口部キーポイントと眉部キーポイントを含み、前記目標画像切り出しモジュールは、
前記口部キーポイントと前記眉部キーポイントの検出結果に基づいて前記検出画像における顔の口部から眉間までの距離を決定するための距離決定サブモジュールと、
前記口部キーポイントと前記距離に基づいて、前記検出画像から口部に対応する目標画像を切り出すための口部画像切り出しサブモジュールと、を含むことを特徴とする請求項２７〜２９のいずれか一項に記載の装置。
前記動作認識モジュールは、
前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出するための特徴抽出サブモジュールと、
前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定するための分類処理サブモジュールと、を含むことを特徴とする請求項２５〜３１のいずれか一項に記載の装置。
前記特徴抽出サブモジュールは、
ニューラルネットワークの畳み込み層により前記目標画像に対して畳み込み処理を行って、前記目標画像の畳み込み特徴を抽出するために用いられ、
前記分類処理サブモジュールは、
前記ニューラルネットワークの分類層により前記畳み込み特徴に対して分類処理を行って、前記顔の所属する対象者が所定動作を実行しているか否かを決定するために用いられることを特徴とする請求項３２に記載の装置。
前記ニューラルネットワークは、予めラベル付きサンプル画像セットにより教師ありトレーニングを行われたものであり、前記サンプル画像セットは、サンプル画像と、サンプル画像にノイズを加えたノイズ画像と、を含むことを特徴とする請求項３３に記載の装置。
前記ニューラルネットワークは、トレーニングモジュールを含み、
前記トレーニングモジュールは、
ニューラルネットワークにより前記サンプル画像及び前記ノイズ画像のそれぞれの所定動作検出結果をそれぞれ取得するための検出結果取得サブモジュールと、
前記サンプル画像の所定動作検出結果とそのラベルの第１の損失、及び前記ノイズ画像の所定動作検出結果とそのラベルの第２の損失をそれぞれ決定するための損失決定サブモジュールと、
前記第１の損失と前記第２の損失に基づいてニューラルネットワークのネットワークパラメータを調整するためのパラメータ調整サブモジュールとを備えることを特徴とする請求項３４に記載の装置。
前記サンプル画像に対して回転、平行移動、スケール変更、ノイズ付加のうちの少なくとも１つの処理を行って、ノイズ画像を取得するためのノイズ画像取得モジュールを更に含むことを特徴とする請求項３４又は３５に記載の装置。
前記顔の所属する対象者が所定動作を実行していると認識した場合に、警報情報を送信するための警報情報送信モジュールを更に含むことを特徴とする請求項２５〜３６のいずれか一項に記載の装置。
前記警報情報送信モジュールは、
前記顔の所属する対象者が所定動作を実行していると認識され、且つ認識された動作が警報条件を満たす場合に、警報情報を送信するための第１の警報情報送信サブモジュールを含むことを特徴とする請求項３７前記の装置。
前記動作は動作持続時間を含み、前記警報条件は認識された動作持続時間が時間閾値を超えることを含むことを特徴とする請求項３８に記載の装置。
前記動作は動作回数を含み、前記警報条件は認識された動作回数が回数閾値を超えることを含むことを特徴とする請求項３８に記載の装置。
前記動作は動作持続時間と動作回数を含み、前記警報条件は認識された動作持続時間が時間閾値を超え、且つ認識された動作回数が回数閾値を超えることを含むことを特徴とする請求項３８に記載の装置。
前記警報情報送信モジュールは、
動作の認識結果に基づいて動作レベルを決定するための動作レベル決定サブモジュールと、
前記動作レベルに対応するレベル対応警報情報を送信するためのレベル対応警報情報送信サブモジュールと、を含むことを特徴とする請求項３８〜４１のいずれか一項に記載の装置。
運転者に対する検出画像を取得するための運転者画像取得モジュールと、
請求項２５〜４２のいずれか一項に記載の動作認識装置を用いて、運転者が所定動作を実行しているか否かを認識するための動作認識モジュールと、
認識された動作に基づいて運転者の状態を決定するための状態認識モジュールと、を含むことを特徴とする運転者状態解析装置。
車両状態情報を取得するための車両状態取得モジュールを更に含み、
前記動作認識モジュールは、
車両状態情報が所定トリガ条件を満たすことに応じて、請求項２５〜４２のいずれか一項に記載の動作認識装置を用いて、運転者が所定動作を実行しているか否かを認識するための条件応答サブモジュールを含むことを特徴とする請求項４３に記載の装置。
車両状態情報は車両点火状態を含み、所定トリガ条件は車両が点火されたことが検出されたことを含むことを特徴とする請求項４４に記載の装置。
車両状態情報は車両の車速を含み、所定トリガ条件は車両の車速が車速閾値を超えることが検出されたことを含むことを特徴とする請求項４４に記載の装置。
運転者の状態を設定された連絡先又は指定されたサーバプラットフォームに伝送するための状態伝送モジュールを更に含むことを特徴とする請求項４３〜４６のいずれか一項に記載の装置。
前記運転者の動作認識結果を含む検出画像を記憶又は送信すること、又は前記運転者の動作認識結果を含む検出画像及びこの画像前後の所定数のフレームから構成されるビデオセグメントを記憶又は送信することに用いられる記憶送信モジュールを更に含むことを特徴とする請求項４３〜４７のいずれか一項に記載の装置。
プロセッサと、
プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、
前記プロセッサは、請求項１〜２４のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
コンピュータプログラムコマンドが記憶されているコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行されると、請求項１〜２４のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読取可能な記憶媒体。
コンピュータ読取可能なコードを含むコンピュータプログラムであって、前記コンピュータ読取可能なコードは電子機器で実行されると、前記電子機器のプロセッサに請求項１〜２４のいずれか一項に記載の方法を実現するためのコマンドを実行させることを特徴とするコンピュータプログラム。