以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、図面を参照して、本出願の実施例のシートベルト着用状態の認識方法、認識装置、電子機器及び記憶媒体について説明する。
図1は、本出願の実施例1にて提供されるシートベルト着用状態の認識方法の概略フローチャートである。
本出願の実施例は、当該シートベルト着用状態の認識方法がシートベルト着用状態の認識装置に構成されることを例として説明し、当該シートベルト着用状態の認識装置は、いずれの電子機器にも適用できて、それにより当該電子機器はシートベルト着用状態の認識機能を実行できる。
ここで、電子機器は、計算能力を有するいずれの機器であってもよく、例えば、パーソナルコンピューター(Personal Computer,PCと略称される)、モバイル端末、サーバなどであってもよく、モバイル端末は、例えば、携帯電話、タブレットコンピューター、パーソナルデジタルアシスタント、ウェアラブル機器、車載機器などの、様々な操作システム、タッチスクリーン及び/又は表示画面を有するハードウェア機器であってもよい。
図1に示すように、当該シートベルト着用状態の認識方法は、以下のステップ101〜ステップ104を含んでもよい。
ステップ101において、交通手段を監視して取得した監視画像を取得する。
本出願の実施例において、交通手段とは、人の移動や運びに使用される装置を言い、例えば、交通手段は、車両(自動車、列車など)、水上機器(船舶、潜水艦など)、飛行機器(飛行機、宇宙船、ロケットなど)などであってもよい。
本出願の実施例において、監視画像は、電子機器がリアルタイムで撮影した画像、又は、電子機器が予め撮影したか又はダウンロードした画像、又は、電子機器がオンラインで閲覧した画像、又は、電子機器が外部機器側から取得した画像などであってもよく、本出願はこれに対して限定しない。
一例示として、電子機器は、交通手段を監視して監視画像を取得することができ、例えば、電子機器にカメラを設けてもよく、カメラで交通手段をリアルタイム又は間欠的に監視して監視画像を得てもよい。例を挙げると、電子機器は、携帯電話、タブレットコンピューター、車載機器などのモバイル端末であってもよく、それにより、電子機器は、車内環境の画像を撮影して、監視画像を取得することができる。
別の例示として、外部機器で交通手段を監視して監視画像を取得することができ、電子機器は、外部機器と通信して上記監視画像を取得することができる。例を挙げると、交通手段が車両である場合、当該外部機器は交差点のカメラであってもよく、交差点のカメラで交通手段を監視して監視画像を取得し、電子機器は監視センターの機器であり、それにより電子機器は交差点のカメラと通信することで、交差点のカメラが撮影した監視画像を取得することができる。
ここで、電子機器に設けられるカメラの数は限定されず、例えば1つであってもよく、複数であってもよい。カメラが電子機器に設けられる形態も限定されず、例えば、電子機器に内蔵されるカメラであってもよく、電子機器の外側に付けられるカメラであってもよく、また、例えば、フロントカメラであってもよく、バックカメラであってもよい。ここで、カメラは、いかなるタイプのカメラであってもよく、例えば、カメラは、カラーカメラ、白黒カメラ、深度カメラ、望遠カメラ、広角カメラなどであってもよく、ここでは、限定されない。
ここで、電子機器に複数のカメラが設けられている場合、複数のカメラは、同じタイプのカメラであってもよいし、異なるタイプのカメラであってもよく、本出願はこれに対して限定しない。例えば、全部カラーカメラであってもよいし、全部白黒カメラであってもよく、又は、そのうちの1つのカメラは望遠カメラで、他のカメラは広角カメラであってもよいなどの場合がある。
本出願の実施例において、ユーザ操作を検出することができ、ユーザ操作に応答して、監視画像を取得してもよく、又は、画像を継続的又は断続的に撮影して監視画像を取得してもよい。又は、外部機器と継続的又は断続的に通信して、外部機器が撮影した監視画像を取得してもよい。
ステップ102において、監視画像に対して顔認識を行って、顔領域を取得する。
本出願の実施例において、顔認識アルゴリズムに基づいて、監視画像に対して顔認識を行って、顔領域を取得してもよいし、対象認識アルゴリズムに基づいて、監視画像に対して顔認識を行って、顔領域を取得してもよい。例えば、シングルショットマルチボックスディテクタ(Single Shot MultiBox Detector、SSDと略称される)、一度だけ見る(You Only Look Once、YOLOと略称される)、Faster−RCNNなどの対象検出アルゴリズムに基づいて、監視画像に対して顔認識を行って、顔領域を取得することができる。
一例示として、認識結果の精度を向上させるために、深層学習技術に基づいて監視画像に対して顔認識を行って、顔領域を取得することができる。例えば、顔領域のタグ付けが済んだ多くのサンプル画像を用いて顔検出モデルを訓練することにより、訓練後の顔検出モデルが顔領域と画像との対応関係を学習して得るようにする。それにより、本出願では、監視画像を取得した後、当該監視画像を入力とし、顔検出モデルを用いて、当該監視画像に対して顔認識を行い、取得した顔領域を出力する。
なお、監視画像には、例えば、運転席領域と助手席領域に顔が同時に存在するなど、複数の顔が含まれている可能性もあり、この場合、検出結果の精度を向上させるために、監視画像における各々の顔を検出し、各顔に対応する顔領域を取得することができる。
ステップ103において、顔領域のサイズと位置に基づいて、監視画像から対象領域を決定する。
本出願の実施例において、対象領域は、シートベルト着用位置を指示するために用いられる。
予備知識から分かるように、運転者又は乗客のシートベルト着用行為は、一般的に顔の下方領域に現れるので、すなわち、シートベルトの着用位置は顔の下方にあるので、本出願では、顔領域を認識した後、顔領域の下方領域に基づいて、本出願では対象領域と記されているシートベルトの認識領域を決定する。ここで、下方とは、顔領域の下方に対する位置を言い、顔領域の位置と対向する位置である。
なお、監視画像に顔領域が1つだけ含まれている場合には、対象領域は1つであり、監視画像に顔領域が複数含まれている場合には、対象領域も複数であり、顔領域のサイズ及び位置に応じて、対応する対象領域をそれぞれ決定することができる。
ステップ104において、対象領域の画像特徴に基づいて、シートベルト着用状態を認識する。
本出願の実施例において、シートベルト着用状態には、着用済状態と非着用状態がある。
本出願の実施例において、画像特徴は、色特徴、テクスチャ特徴、形状特徴、空間関係特徴のうちの少なくとも1つを含み得る。
本出願の実施例において、各対象領域を決定した後、特徴抽出アルゴリズムに基づいて、各対象領域に対して特徴抽出を行って、各対象領域の画像特徴を取得することができる。例えば、色ヒストグラム方法を用いて各対象領域の色特徴を抽出し、統計に基づく方法を用いて各対象領域のテクスチャ特徴を抽出し、幾何学的パラメータ法、形状不変モーメント法を用いて各対象領域の形状特徴を抽出し、各対象領域をいくつかの規則的なサブブロックに均一に分割し、続いて各画像サブブロックの特徴を抽出するとともに、インデックスを作成して、各対象領域に対応する空間関係特徴を取得することができる。
ここで、特徴抽出とは、コンピュータビジョンと画像処理の概念である。これは、コンピュータを使用して画像情報を抽出し、各画像の点が1つの画像特徴に属するか否かを決定することを意味する。特徴抽出の結果は、画像上の点を異なるサブセットに分けることであり、これらのサブセットは、孤立点、連続曲線、又は連続領域に属する場合が多い。
本出願の実施例では、各対象領域の画像特徴を決定した後、各対象領域の画像特徴に基づいて、シートベルト着用状態を認識することができる。
可能な一実現形態として、認識結果の精度を向上させるため、深層学習技術に基づいて、各対象領域を認識して、各対象領域におけるシートベルト着用状態を決定することができる。例えば、分類モデルにより、各対象領域を認識して、各対象領域におけるシートベルト着用状態を決定することができる。
ここで、分類モデルは、訓練時に、訓練サンプルピクチャーにおけるシートベルト着用状態が着用済状態であれば、当該訓練サンプルピクチャーのタグを1とし、訓練サンプルピクチャーにおけるシートベルト着用状態が非着用状態であれば、当該訓練サンプルのピクチャーのタグを0とし、訓練後の分類モデルを用いて対象領域の画像特徴を認識し、0から1までの分類確率を出力し、ここで、分類確率が1に近いほど、監視画像におけるシートベルト着用状態が着用済状態である確率が大きいことは示される。したがって、確率閾値を設定してもよく、例えば0.5に設定し、分類モデルから出力された分類確率が当該確率閾値以上である場合、シートベルト着用状態を着用済状態であると決定し、分類モデルから出力された分類確率が当該確率閾値未満である場合、シートベルト着用状態を非着用状態であると決定することができる。
一例示として、各対象領域について、畳み込みニューラルネットワークにより、当該対象領域に対して特徴抽出を行って、当該対象領域の画像特徴を取得し、当該対象領域の画像特徴をフルリンク層に入力し、フルリンク層の出力に基づいて、シートベルト着用状態を決定することができる。例えば、フルリンク層によって出力された分類確率が0.5よりも低いと、近似的に0とみなし、シートベルト着用状態が非着用状態であると決定することができ、フルリンク層によって出力された分類確率が0.5よりも高いと、近似的に1とみなし、シートベルト着用状態が着用済状態であると決定することができる。ここで、畳み込みニューラルネットワークは畳み込み層とプール化層とを含む。
応用シーンとして、電子機器で交通手段の内部環境の画像を撮影して、監視画像を取得し、例えば、電子機器は携帯電話、タブレットコンピューター、車載機器などのモバイル端末であり、当該電子機器は車内に位置してもよく、撮影した監視画像には複数枚の顔が含まれていてもよく、例えば運転席領域、助手席領域、後部乗客領域に同時に顔が存在し、この場合、監視画像に対して顔認識を行い、顔画像を複数枚取得し、各顔領域の下方のシートベルト着用領域、すなわち対象領域に対してシートベルト着用状態の認識を行うことができる。
さらに、シートベルト着用状態が非着用状態である場合には、運転者又は乗客に対して注意を促すこともできる。例えば、スピーカを介して音声でブロードキャストする方式で運転者や乗客に注意メッセージをブロードキャストするか、又は、インジケーターライトを介してシートベルト非着用状態を視覚的に表示するか、又は、表示画面にシートベルト非着用の注意メッセージを表示するか、又は、運転者の移動機器に注意メッセージを送信するか、又は、音声や振動などの方式で運転者や乗客に対してシートベルト非着用の注意を促すことなどができ、本出願はこれに対して限定しない。
別の応用シーンとして、交通手段が車両である場合を例に挙げると、交差点のカメラで交差点の車両を監視して、監視画像を取得し、電子機器は交差点のカメラと通信して監視画像を取得することができる。なお、撮影視角及び撮影距離によっては、カメラが撮影した監視画像には、後部乗客領域の表示ができず、運転席領域及び助手席領域のみが含まれる可能性があるため、本出願では、運転席領域及び助手席領域のみに対して顔認識を行い、かつ、各顔領域の下方のシートベルト着用領域、すなわち、対象領域に対してシートベルト着用状態の認識を行うことができる。
さらに、シートベルト着用状態が非着用状態である場合に、さらに、引き続き車両に対してナンバープレート認識を行うことができ、例えば、対象認識アルゴリズムに基づいて、監視画像からナンバープレート領域を認識し、深層学習技術に基づいて、ナンバープレート領域に対してテキスト認識を行って、ナンバープレート情報を取得することができる。ナンバープレート情報が認識された後、関係者は、当該車両を対応して処罰するために、当該ナンバープレート情報にマークを付けることができ、これにより、運転者に注意や警告促すことができ、運転者の交通法の遵守意識を高めることができる。
なお、本出願は、上記に交通手段が車両である場合のみを例に挙げたが、実際に適用するとき、交通手段は、車両に限定されず、例えば、飛行機、宇宙船などであってもよく、同様に、上記方式に基づいて、撮影された監視画像におけるシートベルト着用状態を認識することができ、本出願はこれに対して限定しない。
なお、モデルにより監視画像を直接検出してシートベルト着用状態を決定することができるが、フル画像を認識する方式は、入力画像のサイズが大きいため、アルゴリズムの演算量が多くなり、計算能力の低い機器には適さない。
本出願では、交通手段を監視して取得した監視画像を取得した後、運転者又は乗客のシートベルト着用行為が、一般的に顔の下方領域に現れる予備知識を利用して、本出願では対象領域と記されているシートベルト着用領域を予測して、当該対象領域のみに対してシートベルト着用状態の認識を行うことで、監視画像の他の不要な情報の干渉を効果的に減らすとともに、モデル入力画像のサイズを小さくし、演算量を低減し、認識速度を向上させることに加え、認識結果の精度を向上させることもでき、計算能力が低い機器、例えば車載機器に適用することができ、当該方法の適用性を向上させる。
本出願の実施例のシートベルト着用状態の認識方法は、交通手段を監視して取得した監視画像に対して顔認識を行って、顔領域を取得し、顔領域のサイズ及び位置に基づいて、監視画像から対象領域を決定し、続いて対象領域の画像特徴に基づいて、シートベルト着用状態を認識する。これにより、本出願では、対象領域と記されているシートベルト着用領域を予測して、当該対象領域のみに対してシートベルト着用状態の認識を行うことにより、監視画像の他の不要な情報の干渉を効果的に減らし、演算量を低減し、認識速度を向上させることができ、計算能力が低い機器、例えば車載機器に適用され、当該方法の適用性を向上させることができる。
可能な一実現形態として、演算量をより一層低減するために、本出願では、顔領域の下方の、顔領域との距離が顔領域の高さに合致する領域を対象領域としてもよい。以下、実施例2を参照しながら、上記過程について詳細に説明する。
図2は本出願の実施例2にて提供されるシートベルト着用状態の認識方法の概略フローチャートである。
図2に示すように、当該シートベルト着用状態の認識方法は、以下のステップ201〜ステップ205を含んでもよい。
ステップ201において、交通手段を監視して取得した監視画像を取得する。
ステップ201の実行過程は、上記実施例におけるステップ101の実行過程を参照することができ、ここでは説明を省略する。
ステップ202において、監視画像に対して顔認識を行って、顔領域を取得する。
可能な一実現形態として、認識結果の精度を向上させるために、深層学習技術に基づいて、監視画像に対して顔認識を行って、顔領域を取得することができる。
例えば、顔検出モデルにより、監視画像に対して顔領域検出を行って、顔領域を取得し、ここで、顔検出モデルにおける6層の畳み込みネットワークによよって顔基礎特徴抽出を行い、各層の畳み込みネットワークによって1回の画像ダウンサンプリングが実施され、最後の3層の畳み込みニューラルネットワークに基づいて、それぞれの異なるサイズの顔アンカー枠を固定数で予め設定して顔検出枠回帰を行い、最終的に、得られた顔領域の認識結果を出力し、すなわち、顔領域に対応する4つの頂点座標を出力する。
ステップ203において、顔領域の高さに基づいて、間隔距離を決定する。
本出願の実施例では、顔領域を取得したことが決定されると、顔領域の4つの頂点座標に基づいて、顔領域の高さを決定し、さらに、顔領域の高さを間隔距離とすることができる。具体的には、顔領域の4つの頂点座標は、左上隅に対応する画素点の座標と、左下隅に対応する画素点の座標と、右上隅に対応する画素点の座標と、右下隅に対応する画素点の座標とを含み、左上隅に対応する画素点の座標を(x1,y1)、右上隅に対応する画素点の座標を(x2,y2)、右下隅に対応する画素点の座標を(x3,y3)、左下隅に対応する画素点の座標を(x4,y4)とマークすると、顔領域の幅はw=x2−x1で、高さはh=y4−y1で、間隔距離はhである。
ステップ204において、顔領域の位置に基づいて、顔領域の下方に位置しかつ顔領域との距離が間隔距離に合致する領域を対象領域とする。
予備知識から分かるように、シートベルトの着用位置は顔の下方にあるため、本出願では、顔領域の下方に位置しかつ顔領域との距離が間隔距離hに合致する領域を対象領域とすることができる。これにより、画像の不要な情報の干渉を効果的に減らし、画像の処理速度を向上させることができる。ここで、下方とは、顔領域の下方に対する位置を言い、顔領域の位置と対向する位置である。
ステップ205において、対象領域の画像特徴に基づいて、シートベルト着用状態を認識する。
ステップ205の実行過程は、上記実施例におけるステップ104の実行過程を参照することができ、ここでは説明を省略する。
可能な一実現形態として、認識効率をより一層向上させるために、本出願では、顔領域の下方に位置しかつ顔領域から距離h離れた領域全体を対象領域とするのではなく、顔領域の下方に位置し、顔領域から距離h離れ、面積が顔領域の設定倍数である領域を対象領域とすることにより、背景の枠取りを回避する前提で、シートベルトの認識領域を可能な限り最大化することができる。以下、実施例3を参照しながら、上記過程について詳細に説明する。
図3は、本出願の実施例3にて提供されるシートベルト着用状態の認識方法の概略フローチャートである。
図3に示すように、当該シートベルト着用状態の認識方法は、以下のステップ301〜ステップ307を含み得る。
ステップ301において、交通手段を監視して取得した監視画像を取得する。
ステップ302において、監視画像に対して顔認識を行って、顔領域を取得する。
ステップ303において、顔領域の高さに基づいて、間隔距離を決定する。
ステップ301乃至303の実行過程は、上記実施例における実行過程を参照することができ、ここでは説明を省略する。
ステップ304において、顔領域の面積に基づいて、面積が顔領域の面積の設定倍数である検出枠を生成する。
本出願実施例では、設定倍数は、予め設定されたものである。
本出願の実施例では、検出枠内にある監視画像は、シートベルト着用位置を示すために用いられる。
なお、シートベルト着用状態を正確に認識するために、検出枠の面積をあまり小さく設定してはならず、また、背景領域の枠取りを回避するため、検出枠の面積をあまり大きく設定してもいけない。したがって、本出願では、処理効率を向上させるとともに、認識結果の精度を向上させるために、検出枠の面積は、顔領域の面積の設定倍数にすることができ、ここで、設定倍数は、2以上の整数又はフロートであってもよく、例えば、検出枠の面積は、顔領域の面積の2倍であってもよいため、背景の枠取りを回避する前提で、シートベルトの認識領域を可能な限り最大化することができる。
ステップ305において、検出枠を顔領域の下方に、かつ、顔領域と間隔距離を有するように設置する。
予備知識から分かるように、シートベルトの着用位置は顔の下方にあるため、本出願では、検出枠を顔領域の下方に、かつ、顔領域と間隔距離を有するように設置してもよい。
すなわち、顔領域を決定した後、顔領域に対応する4つの頂点座標を決定することができ、例えば、左上隅に対応する画素点の座標(x1,y1)、右上隅に対応する画素点の座標(x2,y2)、右下隅に対応する画素点の座標(x3,y3)、左下隅に対応する画素点の座標(x4,y4)を決定することができ、顔領域の幅はw=x2−x1で、高さはh=y4−y1で、間隔距離はhである。この場合、顔領域に対応する顔検出枠をh単位だけ下方に平行移動して、シートベルト対応検出枠に対応する4つの頂点座標、すなわち左上隅に対応する画素点の座標(x1,y1−h)、右上隅に対応する画素点の座標(x2,y2−h)、右下隅に対応する画素点の座標(x3,y3−h)、左下隅に対応する画素点の座標(x4,y4−h)を取得することができる。さらに、背景の枠取りを回避する前提で、シートベルト認識領域を可能な限り最大化することを実現するために、本出願では、シートベルトに対応する検出枠を設定倍数だけ拡大することも可能であり、例えば、設定倍数は2、2.5などであり得る。
ステップ306において、監視画像において、検出枠内にある部分を対象領域とする。
本出願の実施例において、検出枠の位置を設定した後、監視画像において、検出枠内にある部分を対象領域とすることができる。これにより、画像の不要な情報の干渉を効果的に減らし、画像の処理速度を向上させることができる。
ステップ307において、対象領域の画像特徴に基づいて、シートベルト着用状態を認識する。
ステップ307の実行過程は、上記実施例におけるステップ104の実行過程を参照することができ、ここでは説明を省略する。
可能な一実現形態として、監視画像から対象領域を決定した後、対象領域に対して、変換された対象領域が対象解像度に合致するように解像度変換を行うことができる。これにより、対象領域を統一サイズに変換し、後続の認識を容易にすることができる。
ここで、対象解像度は予め設定されている。例えば、分類モデルを用いて対象領域に対してシートベルト着用状態を認識する場合、当該対象解像度は、分類モデルの入力画像のサイズにすることができ、例えば144*144である。これにより、対象領域を統一サイズに変換し、後続の分類モデルの入力を容易にすることができる。
なお、対象領域における各画素点の値は、0から255の間にあってもよく、対象領域における各画素点の輝度による認識の干渉を回避するために、本出願では、対象解像度の対象領域における各画素点の値に対して、各画素点の値が対象値区間内にあるように正規化処理することができる。
例えば、正規化式は、(x−128)/256であってもよく、ここで、xは画素点の値を表し、xは0から255の間にあり、対象解像度の対象領域における各画素点の値に対して、各画素点の値が[−0.5,0.5]の間にあるように正規化処理を行うことができる。
可能な一実施形態として、認識結果の精度を向上させるために、深層学習技術に基づいて、対象領域の画像特徴を分類して、シートベルト着用状態を決定することができる。以下、実施例4を参照しながら、上記過程について詳細に説明する。
図4は、本出願の実施例4にて提供されるシートベルト着用状態の認識方法の概略フローチャートである。
図4に示すように、当該シートベルト着用状態の認識方法は、以下のステップ401〜ステップ405を含んでもよい。
ステップ401において、交通手段を監視して取得した監視画像を取得する。
ステップ402において、監視画像に対して顔認識を行って、顔領域を取得する。
ステップ403において、顔領域のサイズと位置に基づいて、監視画像から対象領域を決定する。
ステップ401乃至403の実行過程は、上記実施例の実行過程を参照することができ、ここでは説明を省略する。
ステップ404において、対象領域の画像特徴に基づいて分類する。
ここで、画像分類の原理は以下のとおりである。画像中の同種のシーンは、同じ条件で同じ又は類似の画像特徴、例えば、スペクトル情報の特徴及び空間情報の特徴を有するべきであり、それにより、同種のシーンの固有の類似性を表し、すなわち、同種のシーンの画素の特徴ベクトルは、同じ特徴の空間領域にクラスター化され、異なるシーンは、スペクトル情報の特徴及び空間情報の特徴が異なるので、異なる特徴の空間領域にクラスター化される。
したがって、本出願では、対象領域の画像特徴を分類して、シートベルト着用状態を決定することができる。例えば、分類モデルを用いて対象領域を分類することができる。
ステップ405において、分類して得られたカテゴリに応じて、シートベルト着用状態を決定する。
本出願の実施例では、分類して得られたカテゴリに応じて、シートベルト着用状態を決定することができる。
例えば、分類モデルは、畳み込みネットワークで特徴を抽出した後、フルリンク層及び出力層を接続し、分類確率を出力し、分類確率が0.5以下であれば、近似的に0とみなし、シートベルト着用状態が非着用状態であると決定し、出力の分類確率が0.5以上であれば、近似的に1とみなし、シートベルト着用状態が着用済状態であると決定することができる。
一例示として、図5に示す畳み込みニューラルネットワークに基づいて、対象領域に対して特徴抽出を行い、フルリンク層の出力によりシートベルト着用状態を取得することができる。ここで、畳み込みニューラルネットワークは畳み込み層とプール化層とを含む。
ここで、畳み込みニューラルネットワークは8層の畳み込み層と5層のプール化層(図5に図示せず)とを含み、畳み込みニューラルネットワークの入力は赤、緑、青(Red Green Blue、RGBと略称される)の三色チャンネルの画像であり、解像度は144*144であり、ここで、異なる畳み込み層は異なる畳み込みカーネルを介して画像特徴を畳み込んで、その中からサイズ又は粒度が異なる特徴を抽出し、最終的に出力した特徴ベクトルのサイズは1*1*5(テンソル空間サイズ)である。
一例示として、監視画像を取得した後、顔検出モデルに基づいて、監視画像に対して顔認識を行って、各顔領域に対応する顔検出枠を取得し、各顔領域に対して、顔検出枠の4つの頂点座標、すなわち、左上隅に対応する画素点の座標(x1,y1)、右上隅に対応する画素点の座標(x2,y2)、右下隅に対応する画素点の座標(x3,y3)、左下隅に対応する画素点の座標(x4,y4)をマークすると、顔検出枠の幅はw=x2−x1で、高さはh=y4−y1である。
予備知識から分かるように、シートベルト着用位置が顔の下方にあるため、顔検出枠をh単位だけ下方に平行移動して、シートベルト検出枠の4つの頂点座標、すなわち、左上隅に対応する画素点の座標(x1,y1−h)、右上隅に対応する画素点の座標(x2,y2−h)、右下隅に対応する画素点の座標(x3,y3−h)、左下隅に対応する画素点の座標(x4,y4−h)を取得することができる。
背景の枠取りを回避する前提で、シートベルト認識領域を可能な限り最大化するため、本出願では、シートベルトに対応する検出枠を2倍に拡大してトリミングすることも可能である。トリミングされた画像のサイズを変換し、解像度が144*144の画像に変換する。
次に、対象領域の各画素点の輝度による認識の干渉を回避するために、本出願では、変換された画像に対して、各画素点の画素値が[−0.5,0.5]の間にあるように正規化処理を行うことができる。
最後に、畳み込みニューラルネットワークにより、処理された画像に対して特徴抽出を行い、フルリンク層によりシートベルト着用状態を出力する。
本出願の実施例に係るシートベルト着用状態の認識方法は、運転者又は乗客のシートベルト着用行為が顔の下方領域に現れるという予備知識を利用し、顔検出に基づいてシートベルト着用領域を予測し、続いて、分類方法により、運転者又は乗客がシートベルトを着用しているか否かを認識することで、画像の他の不要な情報の干渉を効果的に減らすとともに、モデル入力画像のサイズを小さくすることができ、認識結果の精度を向上させるとともに、演算量を大幅に低減し、計算能力が低い機器、例えば車載機器に適用することができ、当該方法の適用性を向上させる。
上記実施例を実現するために、本出願は、シートベルト着用状態の認識装置をさらに提供する。
図6は、本出願の実施例5にて提供されるシートベルト着用状態の認識装置の概略構造図である。
図6に示すように、当該シートベルト着用状態の認識装置600は、取得モジュール610と、顔認識モジュール620と、決定モジュール630と、状態認識モジュール640と、を備える。
ここで、取得モジュール610は、交通手段を監視して取得した監視画像を取得するために用いられる。
顔認識モジュール620は、監視画像に対して顔認識を行って、顔領域を取得するために用いられる。
決定モジュール630は、顔領域のサイズ及び位置に基づいて、監視画像から対象領域を決定するために用いられる。
状態認識モジュール640は、対象領域の画像特徴に基づいて、シートベルト着用状態を認識するために用いられる。
さらに、本出願の実施例の可能な一実施形態において、図7を参照すると、図6に示す実施例に加え、当該シートベルト着用状態の認識装置600は、さらに、決定ユニット631と処理ユニット632とを備える決定モジュール630と、変換モジュール650と、処理モジュール660と、を備えてもよい。
決定ユニット631は、顔領域の高さに基づいて、間隔距離を決定するために用いられる。
処理ユニット632は、顔領域の位置に基づいて、顔領域の下方に位置しかつ顔領域との距離が間隔距離に合致する領域を対象領域とするために用いられる。
可能な一実施形態として、処理ユニットは、具体的には、顔領域の面積に基づいて、面積が顔領域の面積の設定倍数である検出枠を生成し、検出枠を顔領域の下方に、かつ、顔領域と間隔距離を有するように設置し、監視画像において、検出枠内にある部分を対象領域とするために用いられる。
変換モジュール650は、対象領域に対して、変換された対象領域が対象解像度に合致するように解像度変換を行うために用いられる。
処理モジュール660は、対象解像度の対象領域における各画素点の値に対して、各画素点の値が対象値区間内にあるように正規化処理を行うために用いられる。
可能な一実施形態として、状態認識モジュール640は、具体的には、対象領域の画像特徴に基づいて分類し、分類されたカテゴリに基づいてシートベルト着用状態を決定するために用いられる。
なお、上記図1乃至図4の実施例に係るシートベルト着用状態の認識方法の解釈と説明は、当該実施例に係るシートベルト着用状態の認識装置にも適用するため、ここでは説明を省略する。
本出願の実施例のシートベルト着用状態の認識装置は、交通手段を監視して取得した監視画像に対して顔認識を行って、顔領域を取得し、顔領域のサイズ及び位置に基づいて、監視画像から対象領域を決定し、続いて対象領域の画像特徴に基づいて、シートベルト着用状態を認識する。これにより、本出願では、対象領域と記されているシートベルト着用領域を予測して、当該対象領域のみに対してシートベルト着用状態の認識を行うことにより、監視画像の他の不要な情報の干渉を効果的に減らし、演算量を低減し、認識速度を向上させることができ、計算能力が低い機器、例えば車載機器に適用され、当該方法の適用性を向上させることができる。
本出願の実施例によれば、本出願は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
図8に示すように、本出願の実施例のシートベルト着用状態の認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図8に示すように、当該電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、高速インターフェース及び低速インターフェースを備える、各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力/出力装置(例えば、インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図8では、1つのプロセッサ801を例とする。
メモリ802は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが本出願により提供されるシートベルト着用状態の認識方法を実行するようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供されるシートベルト着用状態の認識方法を実行させるためのコンピュータ命令が記憶されている。
メモリ802は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるシートベルト着用状態の認識方法に対応するプログラム命令/モジュール(例えば、図6に示す取得モジュール610、顔認識モジュール620、決定モジュール630及び状態認識モジュール640)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例におけるシートベルト着用状態の認識方法を実現する。
メモリ802は、プログラムストレージエリアとデータストレージエリアとを含むことができ、ここで、プログラムストレージエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、シートベルト着用状態の認識方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ802は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介しての電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
電子機器は、入力装置803と出力装置804とをさらに備えてもよい。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バス又は他の方式を介して接続することができ、図8では、バスを介して接続することを例とする。
入力装置803は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを備えることができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を備える。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバにすることができ、従来の物理ホストおよびVPSサービスに存在する管理の困難さおよび弱いサービス拡張性の欠点を解決するための、クラウドコンピューティングサービスシステムにおけるホスト製品の1つである。
本出願の実施例の技術案によれば、交通手段を監視して取得した監視画像に対して顔認識を行って、顔領域を取得し、顔領域のサイズ及び位置に基づいて、監視画像から対象領域を決定し、続いて対象領域の画像特徴に基づいて、シートベルト着用状態を認識する。これにより、本出願では、対象領域と記されているシートベルト着用領域を予測して、当該対象領域のみに対してシートベルト着用状態の認識を行うことにより、監視画像の他の不要な情報の干渉を効果的に減らし、演算量を低減し、認識速度を向上させることができ、計算能力が低い機器、例えば車載機器に適用され、当該方法の適用性を向上させることができる。
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。