JP7286010B2

JP7286010B2 - 人体属性の認識方法、装置、電子機器及びコンピュータプログラム

Info

Publication number: JP7286010B2
Application number: JP2022517445A
Authority: JP
Inventors: 珂珂 ▲賀▼; ▲ジン▼ ▲劉▼; 彦昊葛; ▲チェン▼杰汪; 季▲リン▼ 李
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-11
Filing date: 2020-09-24
Publication date: 2023-06-02
Anticipated expiration: 2040-09-24
Also published as: EP3989112A1; US20220036059A1; WO2021114814A1; EP3989112A4; US11710335B2; JP2022548915A; CN110991380A; KR20220020986A

Description

本願は、２０１９年１２月１１日付けで中国特許局に提出された、出願番号が２０１９１１２６８０８８．４であり、発明の名称が「人体属性の認識方法、装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張するものであり、その内容の全てが引用により本願に組み込まれている。

本願は、コンピュータ技術分野に関し、具体的には、人体属性の認識方法、装置、電子機器及び記憶媒体に関する。

人体属性認識は、人の性別、年齢、衣類のタイプ及び色などに対する認識であり、危険な行動の早期警告、交通違法監視、産業セキュリティ、自動販売機、ショッピングモール及び駅などの公共の場所のターゲット人物をターゲットにするなどの分野に幅広く適用される。

現在の人体属性の認識技術において、まず、頭部、胴体及び手足などの複数の人体特徴を認識し、その後、各人体特徴に対応する人体属性を認識する。人体内の複数の属性を認識する必要がある場合、例えば、人体の頭部属性および人体の胴体属性を認識する場合、頭部と胴体との接続性のため、人体特徴認識を実行するとき、人体の頭部が、人体の胴体として誤って認識される可能性があり、それにより、後続の人体属性認識の結果が不正確になる。

本願実施例は、人体属性認識の精度を向上させることができる人体属性の認識方法、装置、電子機器及び記憶媒体を提供する。

本願実施例は、電子機器が実行する、人体属性の認識方法を提供し、前記方法は、
複数の検出領域を含む人体画像サンプルを取得するステップであって、前記検出領域には、人体属性の実の値がラベル付けされている、ステップと、
認識モデルを介して前記人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得する、ステップと、
前記グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得する、ステップと、
前記グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定する、ステップと、
前記注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正する、ステップと、
補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する、ステップと、を含む。

それに対応して、本願実施例は、人体属性の認識装置をさらに提供し、前記装置は、
複数の検出領域を含む人体画像サンプルを取得するスように構成される、取得モジュールであって、前記検出領域には、人体属性の実の値がラベル付けされている、取得モジュールと、
認識モデルを介して前記人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得するように構成される、生成モジュールと、
前記グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得するように構成される、融合モジュールと、
前記グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定するように構成される、決定モジュールと、
前記注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正するように構成される、補正モジュールと、
補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行するように構成される、認識モジュールと、を備える。

本願実施例は、メモリ、プロセッサおよびメモリに記憶され且つプロセッサで実行可能なコンピュータプログラムを備える、電子機器をさらに提供し、ここで、前記プロセッサが前記プログラムを実行するとき、上記の人体属性の認識方法のステップを実現する。

本願実施例は、コンピュータプログラムが記憶された、コンピュータ可読記憶媒体をさらに提供し、ここで、前記コンピュータプログラムがプロセッサによって実行されるとき、上記の人体属性の認識方法のステップを実現する。

本願実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面に従って他の図面を得ることもできることは自明である。

本願実施例による人体属性の認識方法のシナリオの概略図である。本願実施例による人体属性の認識方法の例示的なフローチャートである。本願実施例による人体属性の認識方法の別の例示的なフローチャートである。本願実施例による人体属性の認識方法におけるクラス活性化マップを生成する概略図である。本願実施例による人体属性の認識方法におけるミラーリング処理後のクラス活性化マップを介してクラス活性化マップを調整する概略図である。本願実施例による認識結果に対応するページの概略図である。本願実施例による人体属性の認識装置の例示的な構造図である。本願実施例による電子機器の例示的な構造図である。

以下、本願実施例における図面を参照して、本願実施例の技術的解決策を明確且つ完全に説明する。明らかに、以下で説明される実施例は、本願実施例の一部に過ぎず、全ての実施例ではない。本願実施例に基づいて、創造的な努力なしに当業者によって取得される他のすべての実施例は、本願の保護範囲に含まれるものとする。

本願実施例は、人体属性の認識方法、装置、電子機器及び記憶媒体を提供する。

ここで、当該人体属性の認識装置は、具体的には、端末又はサーバに統合されることができ、端末は、携帯電話、タブレット、パーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）又は監視機器を含み得、サーバは、１つの独立して実行するサーバ又は分布式サーバを含んでもよいし、複数のサーバによって組み合わされたサーバクラスタを含んでもよい。

例えば、図１Ａを参照すると、当該人体属性の認識装置が監視機器に統合され、当該監視機器は、カメラを含み得る。まず、当該監視機器は、複数の人体画像サンプルを取得することができ、ここで、各検出領域には、人体属性の実の値がラベル付けされ、その後、当該監視機器は、認識モデルを介して人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得する。次に、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、その次に、当該監視機器は、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定することができる。最後に、当該監視機器は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正することができ、犯罪容疑者が当該監視機器によって監視される領域に進入した場合、当該監視領域には歩行者もいる。犯罪容疑者が白いシャツ、黒いズボン及び赤い靴を履いていることを知っている場合、監視機器は、補正された認識モデルに基づいて、カメラによって撮影された画像に対して人体属性認識を実行し、それにより、人出から犯罪容疑者を認識することができる。

当該技術案は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正し、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行することである。つまり、人体属性認識を実行するとき、各タイプの人体属性の注目領域を考慮するため、各属性が注目すべき領域をよりよく注目できるようにし、それにより、人体属性認識の精度を向上させる。

以下、それぞれ詳細に説明する。以下の実施例の説明順序は、実施例の優先順位に対する制限ではないことに留意されたい。

図４に示された電子機器が実行する、人体属性の認識方法は、複数の検出領域を含む人体画像サンプルを取得するステップであって、検出領域には、人体属性の実の値がラベル付けされている、ステップと、認識モデルを介して人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得する、ステップと、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得する、ステップと、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定する、ステップと、注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正する、ステップと、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する、ステップと、を含む。

図１Ｂを参照すると、図１Ｂは、本願実施例による人体属性の認識方法の例示的なフローチャートである。当該人体属性の認識方法は、図４に示された電子機器によって実行されることができ、具体的なプロセスは、以下の通りであり得る。

ステップ１０１において、複数の検出領域を含む人体画像サンプルを取得する。

当該人体画像サンプルは、サンプル人体の画像であり、且つ、各検出領域には、人体属性の実の値がラベル付けされており、当該人体画像サンプルは、ローカルに事前に保存されたものであってもよいし、ネットワークインターフェースをアクセスして得られたものであってもよいし、カメラによってリアルタイムで撮影されたものであってもよく、具体的には、実際の状況によって決定される。

ここで、サンプル人体に対応する特徴点に従って、人体画像サンプルに対して領域分割を実行することができ、即ち、いくつかの実施例において、「複数の検出領域を含む人体画像サンプルを取得する」ステップは、具体的には、以下のステップを含み得る。

（１１）サンプル人体を含む人体画像サンプルを取得する。

（１２）人体画像サンプルに対して人体特徴点認識を実行して、サンプル人体に対応する第２特徴点セットを取得する。

（１３）第２特徴点セットに基づいて、サンプル人体に対して領域分割を実行して、サンプル人体に対応する複数の検出領域を取得する。

具体的には、人体画像サンプル内のサンプル人体のキー特徴点を検出することができ、例えば、１４個のキー特徴点（即ち、第２特徴点）が検出され、その後、この１４個のキー特徴点に基づいて、サンプル人体に対して領域分割を実行して、サンプル人体の頭部領域、サンプル人体の胴体領域及びサンプル人体の手足領域を取得し、即ち、３つの検出領域を取得する。

ステップ１０２において、認識モデルを介して、人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得する。

ここで、まず、熱画像の概念について紹介する。熱画像は、密度マップとして、通常、顕著な色の違いを有する方式を使用してデータ効果を表現し、ヒートマップの明るい色は、イベントの発生頻度が高いか物事の分布密度が高いことを表し、暗い色はその逆である。本願実施例において、グローバル熱画像は、人体画像サンプルにおけるサンプル人体の熱情報を表すために使用され、ローカル熱画像は、検出対象となる領域におけるサンプル人体の熱情報を表すために使用される。

ここで、認識モデル内の人体特徴認識サブネットワークを介して、人体画像サンプル及び検出対象となる領域に対して特徴抽出を実行して、人体画像サンプルに対応するグローバル熱画像及び検出対象となる領域に対応するローカル熱画像を取得することができる。

ここで、当該人体特徴認識サブネットワークは、畳み込み層と、全結合層と、を含み得る。

畳み込み層：主に、入力された画像（例えばトレーニングサンプル又は認識する必要のある画像）に対して特徴抽出を実行するように構成され、ここで、畳み込みカーネルのサイズ及び畳み込みカーネルの数は、実際の適用に応じて設定することができ、例えば、最初の畳み込み層から４番目の畳み込み層の畳み込みカーネルのサイズは、順次に、（７，７）、（５，５）、（３，３）、（３，３）であり得る。計算の複雑さを低下し、計算効率を向上させるために、本実施例において、この４層の畳み込み層の畳み込みカーネルのサイズはすべて（３，３）に設定することができ、活性化関数はすべて「線形整流関数（ｒｅｌｕ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）」を採用するが、ｐａｄｄｉｎｇ（ｐａｄｄｉｎｇは、属性定義要素フレームと要素コンテンツとの間の空間を指す）方式はすべて「ｓａｍｅ」に設定し、「ｓａｍｅ」パディング方式は、０でエッジをパディングすることとして簡単に理解することができ、左側（上部）に０を補充する数と、右側（下部）に０を補充する数は同じであるか１つ少ない。畳み込み層と畳み込み層との間は、直結する方式を介して接続され、それにより、ネットワークの収束速度を加速化することができ、計算量をさらに減らすために、さらに、２～４番目の畳み込み層のすべての層又は任意の１～２層でダウンサンプリング（ｐｏｏｌｉｎｇ）動作を実行することができ、当該ダウンサンプリング動作は、畳み込みの動作とほとんど同じであるが、ダウンサンプリングの畳み込みカーネルは、対応する位置の最大値（ｍａｘｐｏｏｌｉｎｇ）又は平均値（ａｖｅｒａｇｅｐｏｏｌｉｎｇ）などのみを取る。説明の便宜上、本願実施例において、すべて、２番目の畳み込み層及び３番目の畳み込み層でダウンサンプリング動作を実行し且つ当該ダウンサンプリング動作が具体的にｍａｘｐｏｏｌｉｎｇであることを例として説明する。

説明の便宜上、本願実施例において、活性化関数が配置されている層及びダウンサンプリング層（プーリング層とも称する）は両方とも畳み込み層に分類されることに留意されたい。当該構造は、畳み込み層、活性化関数が配置されている層、ダウンサンプリング層（即ち、プーリング層）及び全結合層を含むと見なすことができ、もちろん、さらに、データを入力するための入力層及びデータを出力するための出力層を含んでもよいが、ここでは詳細に説明しないことを理解されたい。

全結合層：学習された特徴をサンプルラベル空間にマッピングすることができ、すべての畳み込みニューラルネットワークでは主に「分類器」として作用し、全結合層の各ノードはすべて、前の層（畳み込み層のうちのダウンサンプリング層など）によって出力されたすべてのノードに接続される。ここで、全結合層の１つのノードは、全結合層内の１つのニューロンと称され、全結合層内のニューロンの数は、実際の適用のニーズに応じて設定することができる。例えば、当該人体属性認識モデルでは、全結合層のニューロンの数を、すべて５１２個に設定するか、すべて１２８個に設定することができる。畳み込み層と類似して、全結合層では、活性化関数を追加することにより非線形要因を追加することができ、例えば、活性化関数ｓｉｇｍｏｉｄ（シグモイド関数）を追加することができる。

ステップ１０３において、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得する。

まず、グローバル熱画像のサイズ及びローカル熱画像のサイズをプリセットサイズにそれぞれ圧縮することができ、その後、圧縮されたグローバル熱画像を圧縮されたローカル熱画像と繋ぎ合わせて、融合された画像を取得し、認識モデルに基づいて、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、ここで、当該人体属性の予測値は、人体画像サンプル内の各画素点が人体に属する確率である。

ステップ１０４において、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定する。

人体属性を認識する際の認識モデルの精度をさらに向上させるために、例えば、認識しようとする人体属性が黒髪属性である場合、認識モデルが注目すべき領域は人体の頭部領域であり、つまり、頭部領域は黒髪属性に対応する注目領域であり、さらに例えば、認識しようとする人体属性が白服属性及び青靴属性であると、認識モデルが注目すべき領域は人体の胴体領域及び人体の下肢領域であるため、グローバル熱画像及びローカル熱画像を介して、各タイプの人体属性の注目領域を決定することができる。いくつかの実施例において、「グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定する」ステップは、具体的に以下のステップを含み得る。

（２１）グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性に対応するクラス活性化マップを生成する。

（２２）クラス活性化マップを補正し、補正結果に基づいて、各タイプの人体属性の注目領域を決定する。

ここで、クラス活性化マップも熱画像の一種であるが、上記のグローバル熱画像及びローカル熱画像との区別は、クラス活性化マップは、あるタイプの特定領域を強調するための熱画像であり、具体的には、グローバル熱画像に対応するローカル熱画像の位置を取得し、当該位置情報に基づいて、当該ローカル熱画像がどの人体属性に関連するかを決定することができる。例えば、グローバル熱画像に対応するローカル熱画像Ａの位置が頭部領域であると、当該ローカル熱画像Ａは、髪属性、帽子属性及びイヤリング属性に関連するが、衣服属性、靴属性及び腕時計属性などの属性は、頭部領域から認識されないものであり、ローカル熱画像に対応する人体属性を決定した後、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性に対応するクラス活性化マップを生成することができる。

いくつかの実施例において、さらに、グローバル熱画像に対してベクトル化処理を実行して、グローバル熱画像に対応する特徴ベクトルを取得し、その後、グローバル熱画像における各ローカル熱画像の分布に基づいて、各ローカル画像で注目している人体属性を決定し、各ローカル画像で注目している人体属性に従って、各ローカル画像に対応する重み行列を生成し、最後に、特徴ベクトルと各重み行列との乗積をそれぞれ計算して、各タイプの人体属性に対応するクラス活性化マップを取得することができる。即ち、「グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性に対応するクラス活性化マップを生成する」ステップは、具体的に、以下のステップを含み得る。

（３１）グローバル熱画像に対してベクトル化処理を実行して、グローバル熱画像に対応する特徴ベクトルを取得する。

（３２）グローバル熱画像における各ローカル熱画像の分布に基づいて、各ローカル画像で注目している人体属性を決定する。

（３３）各ローカル画像で注目している人体属性に従って、各ローカル画像に対応する重み行列を生成する。

（３４）特徴ベクトルと各重み行列との乗積をそれぞれ計算して、各タイプの人体属性に対応するクラス活性化マップを取得する。

例えば、一枚のトレーニング画像サンプルについて、認識モデル内の人体特徴サブネットワークを通じた後、Ｑ＊Ｒ＊Ｅサイズのグローバル熱画像を出力することができ、ここで、Ｑは、チャネル数であり、Ｒは、熱画像の幅であり、Ｅは、熱画像の高さである。２０４８＊８＊２４を出力すると仮定する場合、２０４８枚のグローバル熱画像があることに相当する。その後、すべてのグローバル熱画像に対してグローバルプーリング処理を実行した後、１つの２０４８次元の特徴ベクトルを取得し、その後、各ローカル画像で注目している人体属性に従って、各ローカル画像に対応する重み行列Ｗを生成し、最後に、特徴ベクトルと各重み行列Ｗとの乗積をそれぞれ計算して、各タイプの人体属性に対応するクラス活性化マップを取得し、例えば、あるタイプの人体属性について、当該人体属性に対応するクラス活性化マップは、以下の式で表すことができる。

ここで、Ｉは、人体属性に対応するクラス活性化マップを表し、Ｗ_ｎは、ｎ番目のローカル熱画像に対応する重み行列を表し、Ｄ_ｉは、ｉ番目のグローバル熱画像を表す。

生成されたクラス活性化マップには、注目する領域範囲が大き過ぎて、注目をするはずがないいくつかの領域をカバーする可能性があることに留意されたい。例えば、黒髪属性が注目しようとする領域は、頭部領域であるが、生成されたクラス活性化マップには、注目した領域が、人体の胴体領域の一部をカバーしたため、クラス活性化マップを補正し、補正結果に基づいて、各タイプの人体属性の注目領域を決定する必要がある。

クラス活性化マップを補正する方法は様々であり得るが、本願において、グローバル熱画像及びローカル熱画像に対してそれぞれミラーリング処理を実行し、処理されたグローバル熱画像及び処理されたローカル熱画像に基づいて、各タイプの人体属性の注目領域を決定することができる。即ち、「クラス活性化マップを補正し、補正結果に基づいて各タイプの人体属性の注目領域を決定する」ステップは、具体的には、以下のステップを含み得る。

（４１）グローバル熱画像及びローカル熱画像に対してそれぞれミラーリング処理を実行して、処理されたグローバル熱画像及び処理されたローカル熱画像を取得する。

（４２）処理されたグローバル熱画像及び処理されたローカル熱画像に基づいて、各タイプの人体属性のミラーリング処理後のクラス活性化マップを生成する。

（４３）クラス活性化マップ及びミラーリング処理後のクラス活性化マップに従って、各タイプの人体属性の注目領域を決定する。

同じ一枚の画像Ｐに対して、ミラーリング処理後の画像Ｐのクラス活性化マップは、画像Ｐのクラス活性化マップがミラーリング処理されて得られた結果と同じであるため、ミラーリング処理後のクラス活性化マップを介して、クラス活性化マップで注目する領域を調整して、各タイプの人体属性の注目領域を決定することができることに留意されたい。

例えば、クラス活性化マップの特徴点を介して、当該クラス活性化マップで注目する領域を決定し、及びミラーリング処理後のクラス活性化マップの特徴点を介して、当該ミラーリング処理後のクラス活性化マップで注目する領域を決定し、さらに、ミラーリング処理後のクラス活性化マップで注目する領域に従って、クラス活性化マップで注目する領域を調整して、各タイプの人体属性の注目領域を決定することができる。即ち、「クラス活性化マップ及びミラーリング処理後のクラス活性化マップに従って、各タイプの人体属性の注目領域を決定する」ステップは、具体的には以下のステップを含み得る。

（５１）クラス活性化マップの特徴点及びミラーリング処理後のクラス活性化マップの特徴点をそれぞれ取得して、クラス活性化マップに対応する複数の第１特徴点及びミラーリング処理後のクラス活性化マップに対応する複数の第２特徴点を取得し、各第１特徴点は、１つの第２特徴点に対応する。

（５２）第１特徴点の熱値を抽出して、第１特徴点に対応する第１熱値を取得し、第２特徴点の熱値を抽出して、第２特徴点に対応する第２熱値を取得する。

（５３）第１熱値及び第２熱値に基づいて、各タイプの人体属性の注目領域を構築する。

ここで、第１熱値に従って、クラス活性化マップで注目する領域を決定することができ、例えば、ある第１熱値がプリセット閾値より大きい場合、当該第１熱値に対応する第１特徴点は、クラス活性化マップで注目する領域内に位置し、プリセット閾値より大きい当該第１熱値に対応する第１特徴点を第１基準点に決定し、その後、第１基準点に対応する人体属性の第１基準領域を構築する。同様に、第２熱値に従って、ミラーリング処理後のクラス活性化マップで注目する領域を決定する方法も同じであり、もちろん、ミラーリング処理後のクラス活性化マップは、処理されたグローバル熱画像及び処理されたローカル熱画像に基づいて得られたため、つまり、クラス活性化マップ内で各第２特徴点はすべて、それに対応する１つの第１特徴点がある。即ち、いくつかの実施例において、「第１熱値及び第２熱値に基づいて、各タイプの人体属性の注目領域を構築する」ステップは、具体的には以下のステップを含み得る。

（６１）各第１熱値がプリセット条件を満たすか否かを検出する。

（６２）複数の第１特徴点から、プリセット条件を満たす第１特徴点を選択して、第１基準点を取得する。

（６３）第１基準点に対応する人体属性の第１基準領域を構築する。

（６４）第１基準点に対応する第２特徴点を取得して、第２基準点を取得する。

（６５）第２基準点に対応する人体属性の第２基準領域を構築する。

（６６）第２基準領域に対してミラーリング処理を実行して、処理された第２基準領域を取得する。

（６７）処理された第２基準領域を介して第１基準領域のサイズを調整して、人体属性の注目領域を取得する。

各タイプの人体属性の注目領域を決定した後、ステップ１０５を実行し、ステップ１０３及びステップ１０４の優先順位に対して限定しないことに留意されたい。

ステップ１０５において、注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正する。

本願において、クラス活性化マップを補正する考えは、次の通りである：一枚の人体画像Ｃの特定の人体属性の場合、人体画像Ｃによって出力されたクラス活性化関数は、ミラーリング処理後の人体画像Ｃによって出力されたクラス活性化関数と等しく、即ち、ＣＡＭ（Ｃ）＝ＣＡＭ（Ｆ（Ｃ））である。

ここで、ＣＡＭ（Ｃ）は、人体画像Ｃのクラス活性化関数を表し、ＣＡＭ（Ｆ（Ｃ））は、Ｆ関数を介して人体画像Ｃをミラーリング処理した後、ミラーリング処理後の人体画像Ｃのクラス活性化関数であり、つまり、注目領域の対応する損失関数Ｌｃａｍは、以下の通りである。

更に、人体属性の実の値及び人体属性の予測値に従って、認識モデルの損失関数を計算し、計算された損失関数及び注目領域の対応する損失関数に基づいて、認識モデルを補正する。即ち、いくつかの実施例において、「注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正する」ステップは、具体的には以下のステップを含み得る。

（７１）人体属性の実の値及び人体属性の予測値に基づいて、認識モデルの損失関数を計算して、第１損失関数を取得する。

（７２）認識モデルを介して、注目領域に対応する損失関数を取得して、第２損失関数を取得する。

（７３）第１損失関数を第２損失関数と重ね合わせて、認識モデルのターゲット損失関数を取得する。

（７４）ターゲット損失関数を介して認識モデルを補正する。

例えば、具体的に、人体属性の実の値及び人体属性の予測値に基づいて、認識モデルの損失関数を計算して、第１損失関数を取得し、当該第１損失関数は、以下の式で表すことができる。

ここで、Ｋは、注目領域の数を表し、Ｊは、人体属性のカテゴリを表し、ｕ_ｋｊは、人体属性の実の値であり、ｋ番目の注目領域がｊ番目の人体属性に属する実の確率を表すために使用され、Ｘ_ｋｊは、人体属性の予測値であり、ｋ番目の注目領域がｊ番目の人体属性に属する予測確率を表すために使用され、ｅは、自然定数であり、最終的なターゲット損失関数は、第１損失関数と第２損失関数との合計と等しく、即ち、Ｌ＝Ｌｃａｍ＋Ｌｐｒｅｄである。

ステップ１０６において、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する。

例えば、具体的に、補正された認識モデルを介して、認識対象となる画像に対して人体属性認識を実行して、当該認識対象となる画像内の認識対象となる人体の人体属性認識結果を取得し、例えば、認識対象となる人体の人体属性が、白いシャツ、青いズボン及び黒い靴などであることを認識することができる。具体的には、認識対象となる人体を含む認識対象となる画像に対して人体特徴点認識を実行して、認識対象となる人体に対応する１４個の特徴点を取得し、その後、この１４個の特徴点に基づいて、認識対象となる人体に対して領域分割を実行して、認識対象となる人体に対応する複数の検出対象となる領域を取得し、最後に、複数の検出対象となる領域に基づいて、補正された認識モデルを介して、認識対象となる画像に対して人体属性認識を実行することができる。即ち、いくつかの実施例において、「補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する」ステップは、具体的には以下のステップを含み得る。

（８１）認識対象となる人体を含む認識対象となる画像を取得する。

（８２）認識対象となる画像に対して人体特徴点認識を実行して、認識対象となる人体に対応する第１特徴点セットを取得する。

（８３）第１特徴点セットに基づいて、認識対象となる人体に対して領域分割を実行して、認識対象となる人体に対応する複数の検出対象となる領域を取得する。

（８４）補正された認識モデルを介して、複数の検出対象となる領域に対してそれぞれ人体属性認識を実行する。

本願実施例は、複数の検出領域を含む人体画像サンプルを取得した後、検出領域には、人体属性の実の値がラベル付けされており、認識モデルを介して人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得し、その後、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、次に、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定し、その後、注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正し、最後に、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する。当該技術案は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正し、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行することであるため、つまり、人体属性認識を実行するとき、各タイプの人体属性の注目領域を考慮するため、各属性が注目すべき領域をよりよく注目できるようにし、それにより、人体属性認識の精度を向上させる。

実施例に記載の人体属性の認識方法に従って、以下は、例を挙げてさらに詳細に説明する。

本実施例において、当該人体属性の認識装置が具体的に端末に統合されたことを例として説明する。

図２Ａを参照すると、人体属性の認識方法は、図４に示された電子機器が実行し、具体的なプロセスは、以下の通りであり得る。

ステップ２０１において、端末が、複数の検出領域を含む人体画像サンプルを取得する。

ここで、当該人体画像サンプルは、サンプル人体の画像であり、且つ、当該検出領域には、人体属性の実の値がラベル付けされており、当該人体画像サンプルはローカルに事前に保存されたものであってもよいし、ネットワークインターフェースをアクセスして得られたものであってもよいし、カメラによってリアルタイムで撮影されたものであってもよく、具体的には、実際の状況によって決定される。

ステップ２０２において、端末が、認識モデルを介して、人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得する。

ここで、端末は、認識モデル内の人体特徴認識サブネットワークを介して、人体画像サンプル及び検出対象となる領域に対して特徴抽出を実行して、人体画像サンプルに対応するグローバル熱画像及び検出対象となる領域に対応するローカル熱画像を取得することができる。

ステップ２０３において、端末が、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得する。

ここで、端末は、グローバル熱画像のサイズ及びローカル熱画像のサイズをプリセットサイズにそれぞれ圧縮することができ、その後、圧縮されたグローバル熱画像を圧縮されたローカル熱画像と繋ぎ合わせて、融合された画像を取得し、認識モデルに基づいて、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、ここで、当該人体属性の予測値は、人体画像サンプル内の各画素点が人体に属する確率である。

ステップ２０４において、端末が、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定する。

例えば、端末が認識しようとする人体属性が黒髪属性であると、認識モデルが注目すべき領域は人体の頭部領域であり、つまり、頭部領域は黒髪属性に対応する注目領域であり、さらに例えば、端末が認識しようとする人体属性が白服属性及び青靴属性であると、認識モデルが注目すべき領域は人体の胴体領域及び人体の下肢領域であるため、グローバル熱画像及びローカル熱画像を介して、各タイプの人体属性の注目領域を決定することができる。

ステップ２０５において、端末が、注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正する。

例えば、端末は、人体属性の実の値及び人体属性の予測値に従って、認識モデルに対応する損失関数を計算して、第１損失関数を取得し、同時に、端末は、注目領域の対応する損失関数を取得して、第２損失関数を取得し、その後、端末は、第１損失関数を第２損失関数と重ね合わせて、認識モデルのターゲット損失関数を取得し、最後に、端末は、ターゲット損失関数を介して、認識モデルを補正する。

ステップ２０６において、端末が、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する。

例えば、具体的に、端末は、補正された認識モデルを介して、認識対象となる画像に対して人体属性認識を実行して、当該認識対象となる画像内の認識対象となる人体の人体属性認識結果を取得し、例えば、認識対象となる人体の人体属性が、白いシャツ、青いズボン及び黒い靴などであることを認識することができる。具体的には、認識対象となる人体を含む認識対象となる画像に対して人体特徴点認識を実行して、認識対象となる人体に対応する１４個の特徴点を取得し、その後、この１４個の特徴点に基づいて、認識対象となる人体に対して領域分割を実行して、認識対象となる人体に対応する複数の検出対象となる領域を取得し、最後に、複数の検出対象となる領域に基づいて、補正された認識モデルを介して、認識対象となる画像に対して人体属性認識を実行することができる。

本願実施例の端末は、複数の検出領域を含む人体画像サンプルを取得した後、検出領域には、人体属性の実の値がラベル付けされており、端末は、認識モデルを介して人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得し、その後、端末は、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、次に、端末は、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定し、その後、端末は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正し、最後に、端末は、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する。本願の端末は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正し、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行することであるため、つまり、端末は、人体属性認識を実行するとき、各タイプの人体属性の注目領域を考慮して、各属性に、自分が注目すべき領域をよりよく注目できるようにし、それにより、人体属性認識の精度を向上させる。

本願実施例による人体属性の認識方法を理解し易くするために、監視シナリオを例として、当該シナリオは、監視機器及び監視機器に接続された端末を含み得、トレーニング段階では、端末は、監視機器によってアップロードされた複数の画像を受信し、複数の画像から、モデルのトレーニングのためのサンプル人体を含む人体画像サンプルを選択することができ、次に、端末は、人体画像サンプルに対して人体属性の実の値をラベル付けすることができ、さらに、端末は、人体画像サンプルに対して人体キーポイント検出を実行して、サンプル人体に対応する１４個のキーポイントを取得し、この１４個のキーポイントを利用してサンプル人体に対して領域分割を実行して、サンプル人体に対応する頭部領域、上半身領域及び下半身領域を取得することができ、端末は、当該人体画像サンプルを認識モデルに入力して、人体画像サンプルに対応するグローバル熱画像、及び分割して得られた領域に対応するローカル熱画像を取得し、その後、端末は、各ローカル画像で注目している人体属性に従って、各ローカル画像に対応する重み行列を生成し、特徴ベクトルと各重み行列との乗積をそれぞれ計算して、各タイプの人体属性に対応するクラス活性化マップを取得する。図２Ｂに示されたように、異なる人体属性が注目すべき領域は異なることを理解されたい。例えば、帽子スタイルを認識するために、注目すべき領域は注目領域Ａであり、注目領域Ｂの人体属性及び注目領域Ｃの人体属性を認識する必要がなく、同時に、端末は、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得することができ、次に、端末は、グローバル熱画像及びローカル熱画像に対してそれぞれミラーリング処理を実行して、処理されたグローバル熱画像及び処理されたローカル熱画像を取得し、処理されたグローバル熱画像及び処理されたローカル熱画像に基づいて、各タイプの人体属性に対応するミラーリング処理後のクラス活性化マップを生成し、その後、端末は、ミラーリング処理後のクラス活性化マップを介して、クラス活性化マップを調整して、調整結果を取得し、図２Ｃに示されたように、さらにその後、端末は調整結果、人体属性の実の値及び人体属性の予測値に基づいて、認識モデルを補正し、最後に、端末は、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行し、図２Ｄに示されたように、端末のディスプレイスクリーンで認識結果に対応するページを表示することができる。

本願実施例の人体属性の認識方法をよりよく実施するために、本願実施例は、さらに、上記の方法に基づく人体属性の認識装置（認識装置と略称する）を提供する。ここでの用語の意味は、上記の人体属性の認識方法における意味と同じであり、実現に関する具体的な詳細は、方法実施例における説明を参照することができる。

図３を参照すると、図３は、本願実施例による人体属性の認識装置の例示的な構造図であり、ここで、当該認識装置は、取得モジュール３０１、生成モジュール３０２、融合モジュール３０３、決定モジュール３０４、補正モジュール３０５及び認識モジュール３０６を備えることができ、具体的には、以下の通りである。

取得モジュール３０１は、複数の検出領域を含む人体画像サンプルを取得するように構成される。

ここで、当該人体画像サンプルはサンプル人体の画像であり、且つ、当該検出領域には、人体属性の実の値がラベル付けされており、当該人体画像サンプルはローカルに事前に保存されたものであってもよいし、ネットワークインターフェースをアクセスして得られたものであってもよいし、カメラによってリアルタイムで撮影されたものであってもよく、具体的には、実際の状況によって決定される。

いくつかの実施例において、取得モジュール３０１は、具体的に、サンプル人体を含む人体画像サンプルを取得し、人体画像サンプルに対して人体特徴点認識を実行して、サンプル人体に対応する第２特徴点セットを取得し、第２特徴点セットに基づいて、サンプル人体に対して領域分割を実行して、サンプル人体に対応する複数の検出領域を取得するように構成される。

生成モジュール３０２は、認識モデルを介して前記人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得するように構成される。

ここで、生成モジュール３０２は、認識モデル内の人体特徴認識サブネットワークを介して、人体画像サンプル及び検出対象となる領域に対して特徴抽出を実行して、人体画像サンプルに対応するグローバル熱画像及び検出対象となる領域に対応するローカル熱画像を取得することができる。

融合モジュール３０３は、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得するように構成される。

例えば、融合モジュール３０３は、グローバル熱画像のサイズ及びローカル熱画像のサイズをプリセットサイズにそれぞれ圧縮することができ、その後、圧縮されたグローバル熱画像を圧縮されたローカル熱画像と繋ぎ合わせて、融合された画像を取得し、認識モデルに基づいて、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、ここで、当該人体属性の予測値は、人体画像サンプル内の各画素点が人体に属する確率である。

決定モジュール３０４は、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定するように構成される。

いくつかの実施例において、決定モジュール３０４は、具体的に、
グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性に対応するクラス活性化マップを生成するように構成される、生成サブモジュールと、
クラス活性化マップを補正し、補正結果に基づいて各タイプの人体属性の注目領域を決定するように構成される、補正モジュールと、を備えることができる。

いくつかの実施例において、生成サブモジュールは、具体的に、
グローバル熱画像及びローカル熱画像に対してそれぞれミラーリング処理を実行して、処理されたグローバル熱画像及び処理されたローカル熱画像を取得するように構成される、処理ユニットと、
処理されたグローバル熱画像及び処理されたローカル熱画像に基づいて、各タイプの人体属性のミラーリング処理されたクラス活性化マップを生成するように構成される、生成ユニットと、
クラス活性化マップ及びミラーリング処理されたクラス活性化マップに従って、各タイプの人体属性の注目領域を決定するように構成される、決定ユニットと、を備えることができる。

いくつかの実施例において、決定ユニットは、具体的に、
クラス活性化マップの特徴点及びミラーリング処理されたクラス活性化マップの特徴点をそれぞれ取得して、クラス活性化マップに対応する複数の第１特徴点及びミラーリング処理されたクラス活性化マップに対応する複数の第２特徴点を取得するように構成される、取得サブユニットであって、各第１特徴点は、１つの第２特徴点に対応する、取得サブユニットと、
第１特徴点の熱値を抽出して、第１特徴点に対応する第１熱値を取得し、第２特徴点の熱値を抽出して、第２特徴点に対応する第２熱値を取得するように構成される、抽出サブユニットと、
前記第１熱値及び第２熱値に基づいて、各タイプの人体属性の注目領域を構築するように構成される、構築サブユニットと、を備えることができる。

いくつかの実施例において、構築サブユニットは、具体的に、各第１熱値がプリセット条件を満たすか否かを検出し、複数の第１特徴点からプリセット条件を満たす第１特徴点を選択して、第１基準点を取得し、第１基準点に対応する人体属性の第１基準領域を構築し、第１基準点に対応する第２特徴点を取得して、第２基準点を取得し、第２基準点に対応する人体属性の第２基準領域を構築し、第２基準領域に対してミラーリング処理を実行して、処理された第２基準領域を取得し、処理された第２基準領域を介して、第１基準領域に対してサイズ調整を実行して、人体属性の注目領域を取得するように構成されることができる。

いくつかの実施例において、生成サブモジュールは、具体的に、グローバル熱画像に対してベクトル化処理を実行して、グローバル熱画像に対応する特徴ベクトルを取得し、グローバル熱画像における各ローカル熱画像の分布に基づいて、各ローカル画像で注目している人体属性を決定し、各ローカル画像で注目している人体属性に従って、各ローカル画像に対応する重み行列を生成し、特徴ベクトルと各重み行列との乗積をそれぞれ計算して、各タイプの人体属性に対応するクラス活性化マップを取得するように構成されることができる。

補正モジュール３０５は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正するように構成される。

いくつかの実施例において、補正モジュールは、具体的に、人体属性の実の値及び人体属性の予測値に基づいて認識モデルの損失関数を計算して、第１損失関数を取得し、認識モデルを介して、注目領域に対応する損失関数を取得して、第２損失関数を取得し、第１損失関数を第２損失関数と重ね合わせて、認識モデルのターゲット損失関数を取得し、ターゲット損失関数を介して認識モデルを補正するように構成されることができる。

認識モジュール３０６は、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行するように構成される。

例えば、具体的には、認識モジュール３０６は、補正された認識モデルを介して、認識対象となる画像に対して人体属性認識を実行して、当該認識対象となる画像内の認識対象となる人体の人体属性認識結果を取得する。

いくつかの実施例において、認識モジュール３０６は、具体的に、認識対象となる人体を含む認識対象となる画像を取得し、認識対象となる画像に対して人体特徴点認識を実行して、認識対象となる人体に対応する第１特徴点セットを取得し、第１特徴点セットに基づいて、認識対象となる人体に対して領域分割を実行して、認識対象となる人体に対応する複数の検出対象となる領域を取得し、補正された認識モデルを介して、複数の検出対象となる領域に対してそれぞれ人体属性認識を実行するように構成されることができる。

本願実施例は、取得モジュール３０１が複数の検出領域を含む人体画像サンプルを取得した後、検出領域には、人体属性の実の値がラベル付けされており、生成モジュール３０２は、認識モデルを介して人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得し、その後、融合モジュール３０３は、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、次に、決定モジュール３０４は、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定し、その後、補正モジュール３０５は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正し、最後に、認識モジュール３０６は、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する。当該技術案の補正モジュール３０５は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正し、認識モジュール３０６が、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行することであるため、つまり、人体属性認識を実行するとき、各タイプの人体属性の注目領域を考慮して、各属性に、自分が注目すべき領域をよりよく注目できるようにし、それにより、人体属性認識の精度を向上させる。

さらに、本願実施例は、電子機器を提供し、図４に示されたように、本願実施例に関する電子機器の例示的な構造図を示し、具体的には、
当該電子機器は、コアを処理する１つ又は１つ以上のプロセッサ４０１、１つ又は１つ以上のコンピュータ可読記憶媒体のメモリ４０２、電源４０３及び入力ユニット４０４などの部品を備えることができる。当業者なら自明であるが、図４で示された電子機器の構造は、電子機器への限定を構成するものではなく、図示されたものよりも多いまたは少ないコンポーネントを備えるか、または一部の部品を組み合わせるか、または異なるコンポーネント配置を有することができる。ここで、
プロセッサ４０１は、当該電子機器の制御センタであり、様々なインターフェース及び回線を使用して電子機器全体の各部分を接続し、メモリ４０２に記憶されたソフトウェアプログラム及び／又はモジュールを実行し、メモリ４０２内に記憶されたデータを呼び出すことにより、電子機器の各種機能及びデータ処理を実行し、それにより、電子機器の全体的な監視を実行する。プロセッサ４０１は、１つ又は複数の処理コアを備えることができ、プロセッサ４０１は、アプリケーションプロセッサとモデムプロセッサを統合することができ、ここで、アプリケーションプロセッサは、主に、オペレーティングシステム、ユーザインターフェース、及びアプリケーションなどを処理し、モデムプロセッサは、主に、無線通信を処理する。前記モデムプロセッサは、プロセッサ４０１に統合されない場合があることを理解されたい。

メモリ４０２は、ソフトウェアプログラムやモジュールを記憶するように構成でき、プロセッサ４０１は、メモリ４０２に記憶されたソフトウェアプログラムやモジュールを実行することによって、様々な機能アプリケーション及びデータ処理を実行する。メモリ４０２は、プログラム記憶領域及びデータ記憶領域を含み得、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーション（例えば、音声再生機能、画像再生機能など）を記憶することができる。データ記憶領域は、電子機器の使用に基づいて作成されたデータなどを記憶することができる。更に、メモリ４０２は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ（例えば、少なくとも１つのディスクメモリ、フラッシュメモリ、又は他の不揮発性固体メモリなど）を備えてもよい。それに対応して、メモリ４０２に対するプロセッサ４０１のアクセスを提供するために、メモリ４０２は、さらに、メモリコントローラを含み得る。

電子機器は、更に、各コンポーネントに電力を供給するための電源４０３を備え、電源４０３は、電力管理システムを介してプロセッサ４０１に論理的に接続でき、それにより、電力管理システムにより、充電、放電、及び消費電力管理などの機能を管理することを実現する。電源４０３は、更に、１つ又は１つ以上の直流又は交流電源、再充電システム、電源故障検出回路、電源コンバータ又はインバータ、電源状態指示器などの任意のコンポーネントを備えることができる。

当該電子機器は、さらに、入力ユニット４０４を備え、当該入力ユニット４０４は、入力されたデジタル又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関連するキーボード、マウス、ジョイスティック、光学又はトラックボール信号入力を受信するように構成されることができる。

未図示であるが、電子機器は、さらに、ディスプレイユニットなどを備えることができ、ここでは詳細に説明しない。具体的には、本実施例において、電子機器内のプロセッサ４０１は、以下の命令に従って、１つ又は１つ以上のアプリケーションプログラムのプロセスに対応する実行可能なファイルをメモリ４０２にロードし、プロセッサ４０１によって、メモリ４０２に記憶されたアプリケーションプログラムを実行して、様々な機能を実現する。

複数の検出領域を含む人体画像サンプルを取得し、検出領域には、人体属性の実の値がラベル付けされており、認識モデルを介して人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得し、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定し、注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正し、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する。

以上の各動作の具体的な実施は、上記の実施例を参照でき、ここでは繰り返して説明しない。

本願実施例は、複数の検出領域を含む人体画像サンプルを取得した後、検出領域には、人体属性の実の値がラベル付けされており、認識モデルを介して人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得し、その後、グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、次に、グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定し、その後、注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正し、最後に、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する。当該技術案は、注目領域、人体属性の実の値及び人体属性の予測値を利用して、認識モデルを補正し、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行することであるため、つまり、人体属性認識を実行するとき、各タイプの人体属性の注目領域を考慮して、各属性に、自分が注目すべき領域をよりよく注目できるようにし、それにより、人体属性認識の精度を向上させる。

上記の実施例の様々な方法におけるステップの全部又は一部は、命令することにより完了することができ、又は制御に関連するハードウェアを命令することにより完了することができ、当該命令は、１つのコンピュータ可読記憶媒体に記憶され、プロセッサによってロードし実行されることができることを当業者なら理解できる。

本願の一態様によれば、コンピュータ命令を含む、コンピュータプログラム製品またはコンピュータプログラムを提供し、当該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。電子機器のプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサは当該コンピュータ命令を実行して、当該電子機器に上記の実施例による人体属性の認識方法を実行させる。

本願実施例は、さらに、複数の命令が記憶された、記憶媒体を提供し、本願実施例による任意の１つの人体属性の認識方法におけるステップを実行するために、当該命令はプロセッサによってロードされることができる。例えば、当該命令は、以下のステップを実行することができる。

ここで、当該記憶媒体は、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなどを含み得る。

当該記憶媒体に記憶された命令は、本願実施例による任意の１つの人体属性の認識方法におけるステップを実行することができるため、本願実施例による任意の１つの人体属性の認識方法によって実現できる有益な効果を実現することができ、詳細は上記の実施例を参照でき、ここでは繰り返して説明しない。

本願実施例は、複数の検出領域を含む人体画像サンプルを取得した後、前記検出領域には、人体属性の実の値がラベル付けされており、認識モデルを介して前記人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得し、その後、前記グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得し、次に、前記グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定し、その後、前記注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正し、最後に、補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する。したがって、当該技術案は、人体属性認識の精度を効果的に向上させることができる。

以上は、本願実施例による人体属性の認識方法、端末、装置、電子機器及び記憶媒体を詳細に紹介しており、本明細書には、具体的な例を応用して本願の原理および実施形態を説明したが、上述した実施例の説明は、単に本願の方法およびその本旨の理解のためのものである。同時に、当業者に対して、本願の精神に従って、具体的な実施形態および適用範囲には全て変更される部分がある。まとめると、本明細書の内容は、本願の制限として解釈されるべきではない。

301 取得モジュール
302 生成モジュール
303 融合モジュール
304 決定モジュール
305 補正モジュール
306 認識モジュール
401 プロセッサ
402 メモリ
403 電源
404 入力ユニット

Claims

電子機器が実行する、人体属性の認識方法であって、
複数の検出領域を含む人体画像サンプルを取得するステップであって、前記検出領域には、人体属性の実の値がラベル付けされている、ステップと、
認識モデルを介して前記人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得する、ステップと、
前記グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得する、ステップと、
前記グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定する、ステップと、
前記注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正する、ステップと、
補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する、ステップと、
を含む、人体属性の認識方法。
前記グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定する、前記ステップは、
前記グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性に対応するクラス活性化マップを生成する、ステップと、
前記クラス活性化マップを補正し、補正結果に基づいて各タイプの人体属性の注目領域を決定する、ステップと、
を含む、請求項１に記載の人体属性の認識方法。
前記クラス活性化マップを補正し、補正結果に基づいて各タイプの人体属性の注目領域を決定する、前記ステップは、
前記グローバル熱画像及びローカル熱画像に対してそれぞれミラーリング処理を実行して、処理されたグローバル熱画像及び処理されたローカル熱画像を取得する、ステップと、
処理されたグローバル熱画像及び処理されたローカル熱画像に基づいて、各タイプの人体属性のミラーリング処理後のクラス活性化マップを生成する、ステップと、
前記クラス活性化マップ及びミラーリング処理後のクラス活性化マップに従って、各タイプの人体属性の注目領域を決定する、ステップと、
を含む、請求項２に記載の人体属性の認識方法。
前記クラス活性化マップ及びミラーリング処理後のクラス活性化マップに従って、各タイプの人体属性の注目領域を決定する、前記ステップは、
クラス活性化マップの特徴点及びミラーリング処理後のクラス活性化マップの特徴点をそれぞれ取得して、前記クラス活性化マップに対応する複数の第１特徴点及びミラーリング処理後のクラス活性化マップに対応する複数の第２特徴点を取得するステップであって、各第１特徴点は、１つの第２特徴点に対応する、ステップと、
第１特徴点の熱値を抽出して、第１特徴点に対応する第１熱値を取得する、ステップと、
第２特徴点の熱値を抽出して、第２特徴点に対応する第２熱値を取得する、ステップと、
前記第１熱値及び第２熱値に基づいて、各タイプの人体属性の注目領域を構築する、ステップと、
を含む、請求項３に記載の人体属性の認識方法。
前記第１熱値及び第２熱値に基づいて、各タイプの人体属性の注目領域を構築する、前記ステップは、
各第１熱値がプリセット条件を満たすか否かを検出する、ステップと、
複数の第１特徴点から、プリセット条件を満たす第１特徴点を選択して、第１基準点を取得する、ステップと、
第１基準点に対応する人体属性の第１基準領域を構築する、ステップと、
前記第１基準点に対応する第２特徴点を取得して、第２基準点を取得する、ステップと、
第２基準点に対応する人体属性の第２基準領域を構築する、ステップと、
前記第２基準領域に対してミラーリング処理を実行して、処理された第２基準領域を取得する、ステップと、
処理された第２基準領域を介して第１基準領域のサイズを調整して、人体属性の注目領域を取得する、ステップと、
を含む、請求項４に記載の人体属性の認識方法。
前記グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性に対応するクラス活性化マップを生成する、前記ステップは、
前記グローバル熱画像に対してベクトル化処理を実行して、前記グローバル熱画像に対応する特徴ベクトルを取得する、ステップと、
前記グローバル熱画像における各ローカル熱画像の分布に基づいて、各ローカル画像で注目している人体属性を決定する、ステップと、
各ローカル画像で注目している人体属性に従って、各ローカル画像に対応する重み行列を生成する、ステップと、
前記特徴ベクトルと各重み行列との乗積をそれぞれ計算して、各タイプの人体属性に対応するクラス活性化マップを取得する、ステップと、
を含む、請求項２に記載の人体属性の認識方法。
前記注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正する、前記ステップは、
前記人体属性の実の値及び人体属性の予測値に基づいて、前記認識モデルの損失関数を計算して、第１損失関数を取得する、ステップと、
前記認識モデルを介して、前記注目領域に対応する損失関数を取得して、第２損失関数を取得する、ステップと、
前記第１損失関数を第２損失関数と重ね合わせて、前記認識モデルのターゲット損失関数を取得する、ステップと、
前記ターゲット損失関数を介して前記認識モデルを補正する、ステップと、
を含む、請求項１ないし６のいずれか一項に記載の人体属性の認識方法。
補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行する、前記ステップは、
認識対象となる人体を含む認識対象となる画像を取得する、ステップと、
前記認識対象となる画像に対して人体特徴点認識を実行して、前記認識対象となる人体に対応する第１特徴点セットを取得する、ステップと、
前記第１特徴点セットに基づいて、前記認識対象となる人体に対して領域分割を実行して、前記認識対象となる人体に対応する複数の検出対象となる領域を取得する、ステップと、
補正された認識モデルを介して、複数の検出対象となる領域に対してそれぞれ人体属性認識を実行する、ステップと、
を含む、請求項１ないし６のいずれか一項に記載の人体属性の認識方法。
複数の検出領域を含む人体画像サンプルを取得する、前記ステップは、
サンプル人体を含む人体画像サンプルを取得する、ステップと、
前記人体画像サンプルに対して人体特徴点認識を実行して、前記サンプル人体に対応する第２特徴点セットを取得する、ステップと、
前記第２特徴点セットに基づいて、前記サンプル人体に対して領域分割を実行して、前記サンプル人体に対応する複数の検出領域を取得する、ステップと、
を含む、請求項１ないし６のいずれか一項に記載の人体属性の認識方法。
人体属性の認識装置であって、
複数の検出領域を含む人体画像サンプルを取得するスように構成される、取得モジュールであって、前記検出領域には、人体属性の実の値がラベル付けされている、取得モジュールと、
認識モデルを介して前記人体画像サンプルの熱画像及び検出対象となる領域の熱画像を生成して、人体画像サンプルに対応するグローバル熱画像及びローカル熱画像を取得するように構成される、生成モジュールと、
前記グローバル熱画像及びローカル熱画像を融合し、融合された画像に対して人体属性認識を実行して、人体画像サンプルの人体属性の予測値を取得するように構成される、融合モジュールと、
前記グローバル熱画像及びローカル熱画像に従って、各タイプの人体属性の注目領域を決定するように構成される、決定モジュールと、
前記注目領域、人体属性の実の値及び人体属性の予測値を利用して、前記認識モデルを補正するように構成される、補正モジュールと、
補正された認識モデルに基づいて、認識対象となる画像に対して人体属性認識を実行するように構成される、認識モジュールと、
を備える、人体属性の認識装置。
メモリ、プロセッサおよびメモリに記憶され、且つプロセッサで実行可能なコンピュータプログラムを備える、電子機器であって、前記プロセッサが前記プログラムを実行するとき、請求項１ないし９のいずれか一項に記載の人体属性の認識方法のステップを実現する、電子機器。
コンピュータプログラムであって、
コンピュータに、請求項１ないし９のいずれか一項に記載の人体属性の認識方法のステップを実行させる、コンピュータプログラム。