JP2022174707A

JP2022174707A - スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法

Info

Publication number: JP2022174707A
Application number: JP2021136885A
Authority: JP
Inventors: 徳双黄; Deshuang Huang; 焜張; Kun Zhang; 永伍; Yong Wu; 昌安元; Chang'an Yuan
Original assignee: Guangxi Academy of Sciences
Current assignee: Guangxi Academy of Sciences
Priority date: 2021-05-11
Filing date: 2021-08-25
Publication date: 2022-11-24
Also published as: CN113239784A; CN113239784B

Abstract

【課題】スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法を提供する。【解決手段】スペース・シーケンス・フィーチャ学習に基づく歩行者の再識別システムであって、Ｒｅｓ２Ｎｅｔネットワーク、グローバル・フィーチャモジュールおよびスペース・シーケンス・フィーチャ学習モジュールを含む。Ｒｅｓ２Ｎｅｔネットワークは、グローバル・フィーチャモジュールおよびスペース・シーケンス・フィーチャ学習モジュールにそれぞれ接続される。グローバル・フィーチャモジュールは、フラット・プーリング化モジュールおよびフル・コネクテッド・レイヤーモジュールを含む。スペース・シーケンス・フィーチャ学習モジュールは、コンボリューション・レイヤー、ランダムマスクモジュール、最大プーリング化モジュール、セルフアテンション・モジュールを含む。【選択図】図１

Description

本発明は、歩行者の再識別の分野に関し、特に、スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法に関するものである。

歩行者の再識別はコンピュータビジョンの分野における重要な研究方向であり、公共の安全に対する国民の要求の高まりや公共カメラの普及に伴い、インテリジェントセキュリティの分野における歩行者の再識別技術の役割はますます重要になっている。従来の歩行者の再識別の研究は、主に手動で歩行者のフィーチャーを構築することに基づいている。ディープラーニング技術の発展に伴い、歩行者の再識別モデルの性能は大幅に向上したが、歩行者の解像度が低いこと、画像のオクルージョンがあること、データセットの規模が小さいことなどの要因がモデル性能を制約している。この段階で、多くの研究では、局所的なフィーチャーを学習する際に、そのスペースな意味的関係を無視している。

初期の歩行者の再識別研究はグローバル・フィーチャーに基づいて行われたが、歩行者の画像の入手が困難で、歩行者の正面画像が得られなかったり、歩行者の胴体の一部が障害物で見えなかったりすることがよくある。歩行者の服装が似ていたり、重要な部分が遮られていたりすると、異なる歩行者画像は非常に似通ってしまい、グローバル・フィーチャーだけでは区別できないため、近年では局所的フィーチャーに基づいて改善する研究が多くなっている。局所的なフィーチャーを得るための一般的な方法は２つあり、１つはマルチスケールのフィーチャーによってモデルを抽出し、局所的で細かいフィーチャーを抽出する方法で、この方法は画像識別のいくつかの分野でも広く使用されており、研究もより成熟している。２つ目の方法は、歩行者画像を人手または自動化によって複数の領域に分割し、それぞれスペースフィーチャーを抽出して融合する方式である。Ｖａｒｉｏｒらは画像を水平方向に６つの領域に分割してそれぞれフィーチャーを抽出しているが、歩行者の各画像における位置と姿態が一致しないため、空間的に分割すると局所的な領域が揃わないという問題がある。目標検出方式で姿態情報を導入して局所的フィーチャーの位置合わせを補助し、一定の向上を得た研究者もいる。
しかし、スペース領域のフィーチャー学習に基づく先行技術のアプローチには、２つの欠点がある。

（１）多くの研究者は、生物学的に頭部、四肢、胴体に応じて人を分類し、水平方向に応じて画像を分割している。しかし、ニューラルネットワークは生物学的な方法でフィーチャー抽出を行うわけではなく、特に歩行者が壁や電柱などの垂直方向の障害物に遮られる場合には、垂直方向に応じた分割を行うことでオクルージョン部分をよりよく分離することができ、有効なフィーチャーを得ることができる。

（２）目標検出方式で姿態などの情報を導入すると、モデル効果を高めることができるが、処理プロセスが煩雑になり、アルゴリズムの複雑さを増す。さらに、歩行者画像の高精度な姿態検出は、それ自体がより困難な課題であり、誤った姿態情報が導入されると、かえってモデルに支障を与えることにある。
そのため、現実の世界では、先行技術に存在する問題を解決できる方法が早急に必要とする。

本発明の目的は、上述した先行技術の問題点を解決するために、スペース・シーケンス・フィーチャー学習に基づいて歩行者の再識別システムおよび方法を提供することである。
上記の目的を達成するために、本発明は以下のような解決策を提供する。

本発明は、スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムを開示し、Ｒｅｓ２Ｎｅｔネットワーク、グローバル・フィーチャー・モジュール、およびスペース・シーケンス・フィーチャー学習モジュールを含み、
前記Ｒｅｓ２Ｎｅｔネットワークがインプット画像のフィーチャー抽出を行い、フィーチャー・マップを出力することのためであり、
前記グローバル・フィーチャー・モジュールがフラット・プーリング化モジュールとフル・コネクテッド・レイヤーモジュールから構成され、前記フィーチャー・マップにグローバル・フィーチャーを抽出することのためであり、
前記スペース・シーケンス・フィーチャー学習モジュールがコンボリューション・レイヤー、ランダムマスクモジュール、最大プーリング化モジュール、およびセルフアテンション・モジュールから構成され、
前記Ｒｅｓ２Ｎｅｔネットワークは、前記グローバル・フィーチャー・モジュールと前記スペース・シーケンス・フィーチャー学習モジュールにそれぞれ接続され、
前記フラット・プーリング化モジュールがフル・コネクテッド・レイヤーモジュールに接続され、
前記コンボリューション・レイヤーと前記ランダムマスクモジュールがそれぞれ前記最大プーリング化モジュールに接続されており、前記最大プーリング化モジュールが前記セルフアテンション・モジュールに接続されている。

好ましくは、前記Ｒｅｓ２Ｎｅｔネットワークはコンボリューション・コアー・レーヤーが３＊３とする複数セットのコンボリューションを含み、各セットのコンボリューションはレシジュアル・ストラクチャーである。

好ましくは、前記Ｒｅｓ２Ｎｅｔネットワークがシャネルアテンションを計算するＳＥモジュールをさらに備える。

好ましくは、前記フル・コネクテッド・レイヤーモジュールは第１のフル・コネクテッド・レイヤーと第２のフル・コネクテッド・レイヤーから構成され、前記第１のフル・コネクテッド・レイヤーがチャネル数を削減するために使用され、アクティベーション・ファンクションがＲｅＬＵで、前記第２のフル・コネクテッド・レイヤーがチャネル数を復元するために使用され、アクティベーション・ファンクションがｓｉｇｍｏｉｄである。

好ましくは、前記ランダムマスクモジュールがランダムな大きさと位置のマスクによりフィーチャー・マップをオクルージョンして、高頻度フィーチャーの発生確率を抑制するために使用される。

好ましくは、前記最大プーリング化モジュールが前記フィーチャー・マップを水平方向と垂直方向の両方にプーリング化するために使用される。

好ましくは、前記セルフアテンション・モジュールは、マルチヘッド・セルフアテンション・サブモジュールと、レシジュアル・ストラクチャーを組み込んだフィードフォワード・ニューラル・ネットワークとを含み、前記マルチヘッド・セルフアテンション・サブモジュールが複数のサブスペースにおける多面的なアテンションを計算するために使用される。

スペース・シーケンス・フィーチャー学習に基づいて歩行者の再識別システムおよび方法は下記のステップを含む：

歩行者の再識別モデルがＲｅｓ２Ｎｅｔネットワーク、フル・コネクテッド・レイヤー、ランダムマスクおよびセルフアテンション・モジュールから構成され、歩行者のオリジナル画像を取得し、３枚の前記歩行者のオリジナル画像をインプット画像のセットとする、という歩行者の再識別モデルを構築し画像データを取得するステップと、
フィーチャー・マップを得るために、前記インプット画像のセットを前記Ｒｅｓ２Ｎｅｔネットワークにインプットし、前記Ｒｅｓ２Ｎｅｔネットワークが前記歩行者のオリジナル画像のフィーチャーを抽出するというフィーチャー・マップを得るステップと、
平均プーリング化により前記フィーチャー・マップをディメンション・リダクションして第１のフィーチャー・マップを得て、前記第１のフィーチャー・マップを前記フル・コネクテッド・レイヤーにインプットし、分類スペースにマッピングして損失関数を計算するというグローバル・フィーチャーを抽出するステップと、
前記フィーチャー・マップを最初にコンボリューション・レイヤーを介してディメンション・リダクションし、第２のフィーチャー・マップを得て、前記第２のフィーチャー・マップの一部の領域を前記ランダムマスクで抑制し、水平方向と垂直方向に最大プーリング化を行って異なるスペースディメンションのフィーチャー・ベクトルを得てから、それぞれ前記セルフアテンション・モジュールにインプットしスペース・シーケンス・フィーチャーを学習し、損失関数を算出するというスペース・シーケンス・フィーチャーを抽出するステップ。

好ましくは、前記損失関数は、ランキング損失関数とＡＭ－Ｓｏｆｔｍａｘ損失関数からなる。

本発明は、以下のような技術的効果を開示するものである。

本発明は、効果的な局所的フィーチャーを抽出することが困難であるという問題を解決し、スペース・シーケンス・フィーチャーの学習に基づく歩行者の再識別モデルを提案する。マルチスケール・フィーチャー・ネットワークに基づいてグローバル・フィーチャーを学習し、自己アテンションメカニズムとランダムなバッチ・フィーチャー消去戦略を用いて、局所的フィーチャー抽出のためのシーケンス・フィーチャー間のスペース・セマンティック・リンクを学習し、データ増強技術と連携してトレーニングする。

自己学習メカニズムに基づいたスペース・シーケンス・フィーチャー学習モジュールを提案し、水平・垂直方向のスペース・シーケンス・フィーチャーを構築し、そのスペース・セマンティック・リンクを学習し、効果的な局所フィーチャーを抽出する。

ランダム・バッチ・フィーチャー消去トレーニング戦略を提案し、フィーチャー・マップの局所領域をランダムなマスクブロックでオクルージョンをすることで、抑制された低周波の局所フィーチャーをモデルに学習させる。

本発明の実施例または先行技術における技術的解決策をより明確に説明するために、以下、実施例に必要な添付図面について簡単に説明する。以下の説明における添付図面は、本発明の一部の実施例にすぎず、当業者にとって創造的な労力を要することなく、それらに基づいて他の添付図面を得ることができることは明らかである。
本発明におけるＲｅｓ２Ｎｅｔネットワークの構造を示す概略図である。本実施例におけるＲｅｓ２ＮｅｔＢｌｏｃｋの構造を示す概略図である。本実施例におけるセルフアテンション・モジュール（左）とマルチヘッド・セルフアテンション・モジュール（右）の比較図である。

次に、本発明の様々な例示的な実施例を詳細に説明するが、この詳細な説明は、本発明の限定とみなされるべきではなく、本発明の特定の側面、フィーチャー、および実施例をより詳細に説明するものと理解されるべきである。

本発明に記載されている用語は、特定の実施例を説明することのみを意図しており、本発明を限定することを意図しない。さらに、本発明における値の範囲に関しては、その範囲の上限と下限の間の各中間値も具体的に開示されていることを理解すべきである。また、記載された範囲内の任意の記載値または中間値と、記載された範囲内の他の記載値または中間値との間の各小さい範囲も本発明に含まれる。これらの小さい範囲の上限と下限は、それぞれ独立して範囲に含まれたり、除外されたりする。

特に記載のない限り、本発明で使用されるすべての技術的および科学的用語は、本発明が属する分野の通常の技術者によって一般的に理解されるものと同じ意味を持つ。本発明では好ましい方法および材料のみを記載しているが、本明細書に記載されているものと同様または同等の任意の方法および材料も、本発明の実施または試験に使用することができる。本明細書中で言及されているすべての文献は、当該文献に関連する方法および／または材料を開示し、説明する目的で参照により組み込まれている。組み込まれている文献との間に矛盾が生じた場合は、本仕様書の内容が優先されるものとする。

当業者には明らかなように、本発明の範囲や精神から逸脱することなく、本発明の明細書の特定の実施例に様々な改良や変形を加えることができる。本発明の明細書から得られる他の実施例は、当業者には明らかである。本願の明細書および実施例は、例示的なものに過ぎない。
本発明で使用されている「含む」、「インクルード」、「有する」などの言葉はいずれも開放的な用語であり、含むがこれに限定されないことを意味する。
本発明では、特に明記しない限り、「部」は質量で計算する。

本発明で使用するネットワークフレームワークを図１に示す。トリプルイメージをインプットとし、フィーチャー抽出にはＲｅｓ２Ｎｅｔ－５０ネットワークを使用した。ステージ４の抽出で得られたフィーチャー・マップは、それぞれグローバルフィーチャーブランチとスペース・シーケンスフィーチャー学習ブランチにインプットした。グローバルフィーチャーのブランチでは、まずフィーチャー・ベクトルが平均プーリング化操作によってディメンション・リダクションされ、フル・コネクテッド・レイヤーにインプットされて分類スペースにマッピングされた。ＲａｎｋｅｄＬｉｓｔＬｏｓｓとＡＭ－ＳｏｆｔｍａｘＬｏｓｓが計算された。一方、スペース・シーケンス・フィーチャーの学習ブランチでは、まず１＊１コンボリューション・レイヤーによって１０２４にディメンション・リダクションされてから、フィーチャー・マップの一部の領域にランダムマスクによって抑制された。次に、行方向と列方向にそれぞれ最大プーリング化を行い、異なるスペース・ディメンションのフィーチャー・ベクトルを得た。そして、それらはセルフアテンション・モジュールにインプットされ、スペース・シーケンスのフィーチャーを学習し、損失を計算した。

マルチスケールのフィーチャー抽出について：
本発明は、バックボーンのネットワーク構造としてＲｅｓ２Ｎｅｔネットワークを使用し、Ｒｅｓ２Ｎｅｔは、ＲｅｓＮｅｔのボトルネックモジュールを再構成して、各コンボリューションのグループが依然として残余の接続構造を維持している上に、複数セットの３＊３のコンボリューション・コアーレーヤーを使用して、マルチスケールのフィーチャー抽出を行った。そして、そのモジュールの最後にＳＥモジュールを追加して、チャネルアテンションを計算した。異なるモジュールを通して徐々に細かいフィーチャーを抽出するオリジナルのＲｅｓＮｅｔ構造と比較して、Ｒｅｓ２Ｎｅｔは、複数のスケールのフィーチャーを抽出するためにモジュール内にコンボリューション・レーヤーを導入し、知覚野を増やし、アテンションメカニズムを追加して、フィーチャーを抽出するモデルの能力を効果的に向上させた。

そして、その後のアクティベーション操作は、２つのフル・コネクテッド・レイヤーを介して実行された。第一のフル・コネクテッド・レイヤーでは、チャンネル数を減らし、アクティベーション・ファンクションとしてＲｅＬＵを使用する。そして、第二のフル・コネクテッド・レイヤーでは、チャンネル数を復元し、ｓｉｇｍｏｉｄアクティベーション・ファンクションを用いて、各チャンネルのウェートを表す区間［０、１］に出力を制限した。そこで、最終的な出力の

アクティベーション・ファンクションを表した。フル・コネクテッド・レイヤーを使用する目的は、特定のデータのロットに基づいてではなく、フル・コネクテッド・レイヤーのパラメータを通じて、データセット全体のすべてのデータに関する情報を保持し、各チャネルの重要性を計算できるようにすることであった。

スペース・シーケンス・フィーチャーの学習について：
本発明は、スペース・シーケンス・フィーチャー学習モジュールに着目したものである。上述したように、オリジナル画像を水平方向にカットしてスペース・シーケンス・フィーチャーを得る方式とは異なり、本発明では、Ｒｅｓ２Ｎｅｔから出力したフィーチャー・マップを使用し、水平方向と垂直方向のオリジナル画像のフィーチャーに対して、水平方向と垂直方向にプーリング化することでシーケンス・インプットを得た。これにより、オリジナル画像をカットするよりもシーケンス・インプットの知覚野が広くなり、カットによる重要な情報の損失が緩和され、スペース・シーケンス・フィーチャー間のセマンティック・リンクを効果的に学習することが可能になると考えられた。

する前に、インプットがｄでスケーリングされたことに注意されたい。これは、高ディメンションの場合にｓｏｆｔｍａｘ関数の出力がフラットになりすぎて各位置のアテンションウェートが近すぎることを避けるためであった。
ＲＮＮと比較して、セルフアテンションの構造は、シーケンス・インプットを並行して処理することができるため、計算量を減らし、ネットワークの計算効率を大幅に向上させることができ、また長距離の依頼を保持することができた。本発明で使用するマルチヘッド・セルフアテンション・モジュールは、図３に示すように、複数のセルフアテンションメカニズムをマージして使用し、フィードフォワード・ニューラル・ネットワークとレシジュアル・ストラクチャーを取り入れた。

マルチヘッド・アテンションは、複数のグループのマルチ・アテンションを同時に計算し、リニア・レイヤーを介して、インプット・シーケンスを複数のサブスペースにマッピングして別々にセルフアテンションを計算し、それをスプライスすることである。複数グループの注意を用いて、初期化パラメータを変えることで、インプットを複数の異なるサブスペースにマッピングすることができ、モデルが異なる側面のフィーチャー情報にアテンションさせることで、これまで見過ごされていた詳細なフィーチャーを明らかにすることができる。本発明では、マルチヘッド・セルフアテンションを使用してフィーチャーを抽出した後、フィーチャーとインプットを、レシジュアルモジュールを介してスプライスし、レイヤーのノーマライゼーション（ｌａｙｅｒｎｏｒｍａｌｉｚａｔｉｏｎ）を用いてノーマライゼーションしてから、フィードフォワード・ニューラル・ネットワークにインプットした。

ランダム・バッチ・フィーチャーの消去戦略について：
ディープネットワーク学習フィーチャーは、高周波数の繰り返し現れるフィーチャを中心に焦点を合わせる傾向があり、アテンションメカニズムを使用すると、この現象を悪化させる可能性が高い。本発明では、スペース・シーケンスのフィーチャ抽出にアテンションメカニズムを用いた場合、モデルは高周波数のフィーチャにより高いウェートを割り当てる傾向があり、オクルージョンや角度の問題でこれらのフィーチャが得られなくなると、モデルの認識能力は著しく低下する。この現象を緩和するために、本発明ではランダム・バッチ・フィーチャー消去戦略を用いて、フィーチャ・マップをランダムなサイズと位置のマスクでオクルージョンをし、高周波のフィーチャを減らし、モデルがそれらの抑制された低周波の局所情報に集中できるようにしていた。ランダム・バッチ・フィーチャーの消去アルゴリズムの具体的な流れをＡｌｇｏｒｉｔｈｍ１に示す。本発明では、ランダム・バッチ・フィーチャーの消去アルゴリズムによるＲｅｓ２Ｎｅｔ出力フィーチャＦに、位置のランダムなマスクを追加し、マスクで遮られる領域のフィーチャ

このランダム・バッチ・フィーチャーの消去戦略には、以下のような利点がある：
（１）追加のパラメータを導入していないので、様々な構造と軽く融合させて、計算コストを増やすことなく、ネットワークの有効性を高めることができる。
（２）バッチ内の各サンプルでは、モデルが高周波のフィーチャに過度に依頼することを避けるために、いくつかの領域がランダムに抑制される。
（３）ある程度で、フィーチャが遮られることをシミュレートして、アドバーサリー・トレーニングによってモデルのロバスト性を向上させる。

損失関数について：
本発明では、ブランチの損失関数として、ランクドリスト損失関数（ＲａｎｋｅｄＬｉｓｔＬｏｓｓ）とＡＭ－Ｓｏｆｔｍａｘ損失関数の融合を用いる。すなわち、

実験のセットアップについて：
実験環境：コードはＰｙｔｏｒｃｈフレームワークを用いて記述され、２枚のＮｖｉｄｉａＴＩＴＡＮＸｐグラフィックカードで構成されたサーバー上で実行された。
Ｒｅｓ２Ｎｅｔ：バックボーンネットワークは、ＩｍａｇｅＮｅｔで事前トレーニングされたＲｅｓ２Ｎｅｔ－５０ネットワークを使用し、その構造はＲｅｓ２Ｎｅｔ－５０と同様であるが、レシジュアル・モジュールを置き換え、サブ・フィーチャー・マップの数s＝４であった。最終的な出力フィーチャ・マップのサイズは１６＊８＊２０４８であった。

ＧＡＮネットワークについて：
ＧＡＮネットワークは画像しか生成しないため、歩行者認識モデルを実行してからデータの補強ができた。本発明では、認識モデルのベースラインとしてＤｅｎｓｅｎｅｔ－１２１ネットワークを使用し、このネットワークの後にフル・コネクテッド・レイヤーを設けて分類した。アドバーサリー・ネットワークは、マルチスケール条件に基づいて生成され、ラベルの割り当ては修正ＭＰＲＬ法を用いて行われた。

トレーニング戦略：ネットワークトレーニング中、インプット画像サイズは２２４＊２２４にスケーリングされ、ＢａｔｃｈＳｉｚｅは６４に設定された。これには１６人の歩行者が含まれ、各歩行者には４つの画像があった。オプティマイザーはＡｄａｍで、初期化学習率は０．００１で、合計１５０ラウンドのトレーニングがあった。最初の５０ラウンドではリニアＷａｒｍｕｐ戦略が使用された。１００ラウンド後、学習率は１０ラウンドごとに０．５ずつ減少した。

実験結果について：
本発明の提案方法をいくつかのデータセットで実験した結果を示し、以下の最先端の手法と比較する：ＰＮＧＡＮ、ＫＰＭ、ＦＤＧＡＮ、ＤａＲｅ、ＰＳＥ、Ｇ２Ｇ、ＤｅｅｐＣＲＦ、ＳＰＲｅＩＤ、ＰＡＢＲ、ＰＣＢ＋ＲＰＰ、ＳＧＧＮＮ、Ｍａｎｃｓ、ＭＧＮ、ＡＡＮｅｔ、ＣＡＭＡ、ＩＡＮｅｔ、ＤＧＮｅｔ、ＣＡＳＮ、ＢＮＮｅｃｋ、ＭＭＧＡ、ＭｕＤｅｅ、ＯＳＮｅｔ、ＡＢＤＮｅｔ、Ａｕｔｏ－ＲｅＩＤ、ＢＤＢ＋Ｃｕｔ、Ｐ^２－Ｎｅｔ、ＭＨＮ－６。

Ｍａｒｋｅｔ－１５０１データセットでの実験結果を表１に示すが、ｍＡＰとＲａｎｋ－１、Ｒａｎｋ－５はそれぞれ８９．７％、９５．２％、９８．４％に達し、前手法の最高指標と比較して、ｍＡＰとＲａｎｋ－１はそれぞれ０．９％（ＭＭＧＡ、８７．２％）、０．２％（ＡＢＤＮｅｔ．９５．６％）を向上した。
表１

ＤｕｋｅＭＴＭＣ－ｒｅＩＤデータセットでの実験結果を表２に示す。ｍＡＰとＲａｎｋ－１、Ｒａｎｋ－５はそれぞれ７９．２％、８９．１％、９４．９％に達し、従来の手法の最高指標と比較して、ｍＡＰは０．６％向上し（ＡＢＤＮｅｔ、７８．６％）、Ｒａｎｋ－１は基本的に同じ（ＭＭＧＡ、８９．５％）であった。
表２

ＣＵＨＫ０３データセットでの実験結果を表３と表４に示すが、ＣＵＨＫ０３（Ｌａｂｅｌｅｄ）とＣＵＨＫ０３（Ｄｅｔｅｃｔｅｄ）の両方で高度なレベルに達した。中でも、ＣＵＨＫ０３（Ｌａｂｅｌｅｄ）データセットでは、ｍＡＰとＲａｎｋ－１はそれぞれ７８．３％、８１．２％に達し、従来手法の最高指標と比較して、ｍＡＰが１．６％（ＢＤＢ＋Ｃｕｔ、７６．７％）の改善、Ｒａｎｋ－１がで２．８％（ＢＤＢ＋Ｃｕｔ、７９．４％）の改善が見られた。
一方、ＣＵＨＫ０３（Ｄｅｔｅｃｔｅｄ）データセットでは、ｍＡＰが７４．８％、Ｒａｎｋ－１が７６．９％に達し、従来の手法の最高指標と比較して、ｍＡＰが１．３％（ＢＤＢ＋Ｃｕｔ、７３．５％）の改善で、Ｒａｎｋ－１が０．５％（ＢＤＢ＋Ｃｕｔ、７６．４％）の改善をした。
表３

表４

アブレーション分析について：
また、本発明の提案構造の有効性を検証するために、本発明をＭａｒｋｅｔ－１５０１データセットでアブレーション分析を行った。
（１）セルフアテンション・モジュールについて、
セルフアテンションに基づくスペース・シーケンス・フィーチャ学習モジュールがモデル認識性能に与える影響を検証するために、本発明はスペース・シーケンス・フィーチャ学習ブランチを削除して実験を行い、その実験結果を表５に示す。ここで、Ｏｕｒｓ／Ｖ、Ｏｕｒｓ／ＨとＯｕｒｓ／（Ｖ＋Ｈ）は、それぞれ水平シーケンス・フィーチャ・ブランチのみを削除したこと、垂直シーケンスブランチのみを削除したこと、スペース・シーケンス・フィーチャ学習ブランチ全体を削除したことを示す。
表５

セルフアテンション・モジュールを削除した後のモデルの認識能力は大きく低下しており、中でもスペース・シーケンス・フィーチャ学習ブランチ全体を削除した効果は最も顕著に低下して、ｍＡＰが４．６％、Ｒａｎｋ－１が２．１％と低下したことがわかる。垂直シーケンス・フィーチャ・ブランチのみを削除したことと比べて、水平方向のスペース・シーケンス・フィーチャ・ブランチを削除した効果がより著しく低下されたことから、モデルの面では、水平方向のスペース・シーケンス・フィーチャがもっと多い情報を含んでいることがわかる。
（２）ランダム・バッチ・フィーチャーの消去戦略
ランダム・バッチ・フィーチャー消去戦略の有効性を検証するために、この戦略を用いずに本発明を実験し、その実験結果を表６に示す。
表６

ランダム・バッチ・フィーチャー消去戦略を使用しない場合、モデルの認識性能は低下し、ｍＡＰ指標が大幅に低下した。この手法は、モデルの低周波情報の学習を助け、モデルの全体的なロバスト性を向上させることができることを示した。
本発明ではまず、スペース・フィーチャ学習に基づく既存の手法を分析し、本発明で提案する手法を従来の手法と比較した。その後、本発明で提案するスペース・シーケンス・フィーチャ学習に基づく歩行者の再識別法について、マルチスケール・フィーチャ抽出、スペース・シーケンス・フィーチャ学習、ランダム・バッチ・フィーチャー消去戦略、損失関数の４つの側面から詳細に説明した。その後、公開されているいくつかのデータセットで実験とアブレーション分析を行い、最後に本発明の提案方法の有効性を示した。
上述した実施例は、本発明の好ましい方法を説明したものに過ぎず、本発明の範囲を限定することを意図したものではなく、当業者が本発明の技術的解決策に加えた様々な変形や改良は、本発明の設計の精神を逸脱することなく、本発明の特許請求の範囲によって決定される保護の範囲に入るものとする。

Claims

Ｒｅｓ２Ｎｅｔネットワーク、グローバル・フィーチャー・モジュール、およびスペース・シーケンス・フィーチャー学習モジュールを含み、前記Ｒｅｓ２Ｎｅｔネットワークがインプット・画像のフィーチャー抽出を行い、フィーチャー・マップを出力することのためであり、前記グローバル・フィーチャー・モジュールがフラット・プーリング化モジュールとフル・コネクテッド・レイヤーモジュールから構成され、前記フィーチャー・マップにグローバル・フィーチャーを抽出することのためであり、前記スペース・シーケンス・フィーチャー学習モジュールがコンボリューション・レイヤー、ランダムマスクモジュール、最大プーリング化モジュール、およびセルフアテンション・モジュールから構成され、前記Ｒｅｓ２Ｎｅｔネットワークは、前記グローバル・フィーチャー・モジュールと前記スペース・シーケンス・フィーチャー学習モジュールにそれぞれ接続され、前記フラット・プーリング化モジュールがフル・コネクテッド・レイヤーモジュールに接続され、前記コンボリューション・レイヤーと前記ランダムマスクモジュールがそれぞれ前記最大プーリング化モジュールに接続されており、前記最大プーリング化モジュールが前記セルフアテンション・モジュールに接続されている、ことを特徴とするスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
前記Ｒｅｓ２Ｎｅｔネットワークはコンボリューションコアーレーヤーが３＊３とする複数セットのコンボリューションを含み、各セットのコンボリューションはレシジュアル・ストラクチャーである、ことを特徴とする請求項１に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
前記Ｒｅｓ２Ｎｅｔネットワークがシャネルアテンションを計算するＳＥモジュールをさらに備えること、を特徴とする請求項１に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
前記フル・コネクテッド・レイヤーモジュールは第１のフル・コネクテッド・レイヤーと第２のフル・コネクテッド・レイヤーから構成され、前記第１のフル・コネクテッド・レイヤーがチャネル数を削減するために使用され、アクティベーション・ファンクションがＲｅＬＵで、前記第２のフル・コネクテッド・レイヤーがチャネル数を復元するために使用され、アクティベーション・ファンクションがｓｉｇｍｏｉｄであること、を特徴とする請求項１に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
前記ランダムマスクモジュールがランダムな大きさと位置のマスクによりフィーチャー・マップをオクルージョンして、高頻度フィーチャーの発生確率を抑制するために使用されること、を特徴とする請求項１に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
前記最大プーリング化モジュールが前記フィーチャー・マップを水平方向と垂直方向の両方にプーリング化するために使用されること、を特徴とする請求項１に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
前記セルフアテンション・モジュールは、マルチヘッド・セルフアテンション・サブモジュールと、レシジュアル・ストラクチャーを組み込んだフィードフォワード・ニューラル・ネットワークとを含み、前記マルチヘッド・セルフアテンション・サブモジュールが複数のサブスペースにおける多面的なアテンションを計算するために使用されること、を特徴とする請求項１に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
歩行者の再識別モデルがＲｅｓ２Ｎｅｔネットワーク、フル・コネクテッド・レイヤー、ランダムマスクおよびセルフアテンション・モジュールを含み、
歩行者のオリジナル画像を取得し、３枚の前記歩行者のオリジナル画像をインプット・画像のセットとする、という歩行者の再識別モデルを構築し画像データを取得するステップと、
フィーチャー・マップを得るために、前記インプット・画像のセットを前記Ｒｅｓ２Ｎｅｔネットワークにインプットし、前記Ｒｅｓ２Ｎｅｔネットワークが前記歩行者のオリジナル画像のフィーチャーを抽出するというフィーチャー・マップを得るステップと、
平均プーリング化により前記フィーチャー・マップをディメンション・リダクションして第１のフィーチャー・マップを得て、前記第１のフィーチャー・マップを前記フル・コネクテッド・レイヤーにインプットし、分類スペースにマッピングして損失関数を計算するというグローバル・フィーチャーを抽出するステップと、
前記フィーチャー・マップを最初にコンボリューション・レイヤーを介してディメンション・リダクションし、第２のフィーチャー・マップを得て、前記第２のフィーチャー・マップの一部の領域を前記ランダムマスクで抑制し、水平方向と垂直方向に最大プーリング化を行って異なるスペースディメンションのフィーチャー・ベクトルを得てから、それぞれ前記セルフアテンション・モジュールにインプットしスペース・シーケンス・フィーチャーを学習し、損失関数を算出することというスペース・シーケンス・フィーチャーを抽出するステップと、を含む、ことを特徴とするスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別方法。
前記損失関数は、ランキング損失関数とＡＭ－Ｓｏｆｔｍａｘ損失関数を含む、ことを特徴とする請求項８に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別方法。