JP2022174707A - スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法 - Google Patents

スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法 Download PDF

Info

Publication number
JP2022174707A
JP2022174707A JP2021136885A JP2021136885A JP2022174707A JP 2022174707 A JP2022174707 A JP 2022174707A JP 2021136885 A JP2021136885 A JP 2021136885A JP 2021136885 A JP2021136885 A JP 2021136885A JP 2022174707 A JP2022174707 A JP 2022174707A
Authority
JP
Japan
Prior art keywords
module
feature
pedestrian
space sequence
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021136885A
Other languages
English (en)
Inventor
徳双 黄
Deshuang Huang
焜 張
Kun Zhang
永 伍
Yong Wu
昌安 元
Chang'an Yuan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Academy of Sciences
Original Assignee
Guangxi Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Academy of Sciences filed Critical Guangxi Academy of Sciences
Publication of JP2022174707A publication Critical patent/JP2022174707A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法を提供する。【解決手段】スペース・シーケンス・フィーチャ学習に基づく歩行者の再識別システムであって、Res2Netネットワーク、グローバル・フィーチャモジュールおよびスペース・シーケンス・フィーチャ学習モジュールを含む。Res2Netネットワークは、グローバル・フィーチャモジュールおよびスペース・シーケンス・フィーチャ学習モジュールにそれぞれ接続される。グローバル・フィーチャモジュールは、フラット・プーリング化モジュールおよびフル・コネクテッド・レイヤーモジュールを含む。スペース・シーケンス・フィーチャ学習モジュールは、コンボリューション・レイヤー、ランダムマスクモジュール、最大プーリング化モジュール、セルフアテンション・モジュールを含む。【選択図】図1

Description

本発明は、歩行者の再識別の分野に関し、特に、スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法に関するものである。
歩行者の再識別はコンピュータビジョンの分野における重要な研究方向であり、公共の安全に対する国民の要求の高まりや公共カメラの普及に伴い、インテリジェントセキュリティの分野における歩行者の再識別技術の役割はますます重要になっている。従来の歩行者の再識別の研究は、主に手動で歩行者のフィーチャーを構築することに基づいている。ディープラーニング技術の発展に伴い、歩行者の再識別モデルの性能は大幅に向上したが、歩行者の解像度が低いこと、画像のオクルージョンがあること、データセットの規模が小さいことなどの要因がモデル性能を制約している。この段階で、多くの研究では、局所的なフィーチャーを学習する際に、そのスペースな意味的関係を無視している。
初期の歩行者の再識別研究はグローバル・フィーチャーに基づいて行われたが、歩行者の画像の入手が困難で、歩行者の正面画像が得られなかったり、歩行者の胴体の一部が障害物で見えなかったりすることがよくある。歩行者の服装が似ていたり、重要な部分が遮られていたりすると、異なる歩行者画像は非常に似通ってしまい、グローバル・フィーチャーだけでは区別できないため、近年では局所的フィーチャーに基づいて改善する研究が多くなっている。局所的なフィーチャーを得るための一般的な方法は2つあり、1つはマルチスケールのフィーチャーによってモデルを抽出し、局所的で細かいフィーチャーを抽出する方法で、この方法は画像識別のいくつかの分野でも広く使用されており、研究もより成熟している。2つ目の方法は、歩行者画像を人手または自動化によって複数の領域に分割し、それぞれスペースフィーチャーを抽出して融合する方式である。Variorらは画像を水平方向に6つの領域に分割してそれぞれフィーチャーを抽出しているが、歩行者の各画像における位置と姿態が一致しないため、空間的に分割すると局所的な領域が揃わないという問題がある。目標検出方式で姿態情報を導入して局所的フィーチャーの位置合わせを補助し、一定の向上を得た研究者もいる。
しかし、スペース領域のフィーチャー学習に基づく先行技術のアプローチには、2つの欠点がある。
(1)多くの研究者は、生物学的に頭部、四肢、胴体に応じて人を分類し、水平方向に応じて画像を分割している。しかし、ニューラルネットワークは生物学的な方法でフィーチャー抽出を行うわけではなく、特に歩行者が壁や電柱などの垂直方向の障害物に遮られる場合には、垂直方向に応じた分割を行うことでオクルージョン部分をよりよく分離することができ、有効なフィーチャーを得ることができる。
(2)目標検出方式で姿態などの情報を導入すると、モデル効果を高めることができるが、処理プロセスが煩雑になり、アルゴリズムの複雑さを増す。さらに、歩行者画像の高精度な姿態検出は、それ自体がより困難な課題であり、誤った姿態情報が導入されると、かえってモデルに支障を与えることにある。
そのため、現実の世界では、先行技術に存在する問題を解決できる方法が早急に必要とする。
本発明の目的は、上述した先行技術の問題点を解決するために、スペース・シーケンス・フィーチャー学習に基づいて歩行者の再識別システムおよび方法を提供することである。
上記の目的を達成するために、本発明は以下のような解決策を提供する。
本発明は、スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムを開示し、Res2Netネットワーク、グローバル・フィーチャー・モジュール、およびスペース・シーケンス・フィーチャー学習モジュールを含み、
前記Res2Netネットワークがインプット画像のフィーチャー抽出を行い、フィーチャー・マップを出力することのためであり、
前記グローバル・フィーチャー・モジュールがフラット・プーリング化モジュールとフル・コネクテッド・レイヤーモジュールから構成され、前記フィーチャー・マップにグローバル・フィーチャーを抽出することのためであり、
前記スペース・シーケンス・フィーチャー学習モジュールがコンボリューション・レイヤー、ランダムマスクモジュール、最大プーリング化モジュール、およびセルフアテンション・モジュールから構成され、
前記Res2Netネットワークは、前記グローバル・フィーチャー・モジュールと前記スペース・シーケンス・フィーチャー学習モジュールにそれぞれ接続され、
前記フラット・プーリング化モジュールがフル・コネクテッド・レイヤーモジュールに接続され、
前記コンボリューション・レイヤーと前記ランダムマスクモジュールがそれぞれ前記最大プーリング化モジュールに接続されており、前記最大プーリング化モジュールが前記セルフアテンション・モジュールに接続されている。
好ましくは、前記Res2Netネットワークはコンボリューション・コアー・レーヤーが3*3とする複数セットのコンボリューションを含み、各セットのコンボリューションはレシジュアル・ストラクチャーである。
好ましくは、前記Res2Netネットワークがシャネルアテンションを計算するSEモジュールをさらに備える。
好ましくは、前記フル・コネクテッド・レイヤーモジュールは第1のフル・コネクテッド・レイヤーと第2のフル・コネクテッド・レイヤーから構成され、前記第1のフル・コネクテッド・レイヤーがチャネル数を削減するために使用され、アクティベーション・ファンクションがReLUで、前記第2のフル・コネクテッド・レイヤーがチャネル数を復元するために使用され、アクティベーション・ファンクションがsigmoidである。
好ましくは、前記ランダムマスクモジュールがランダムな大きさと位置のマスクによりフィーチャー・マップをオクルージョンして、高頻度フィーチャーの発生確率を抑制するために使用される。
好ましくは、前記最大プーリング化モジュールが前記フィーチャー・マップを水平方向と垂直方向の両方にプーリング化するために使用される。
好ましくは、前記セルフアテンション・モジュールは、マルチヘッド・セルフアテンション・サブモジュールと、レシジュアル・ストラクチャーを組み込んだフィードフォワード・ニューラル・ネットワークとを含み、前記マルチヘッド・セルフアテンション・サブモジュールが複数のサブスペースにおける多面的なアテンションを計算するために使用される。
スペース・シーケンス・フィーチャー学習に基づいて歩行者の再識別システムおよび方法は下記のステップを含む:

歩行者の再識別モデルがRes2Netネットワーク、フル・コネクテッド・レイヤー、ランダムマスクおよびセルフアテンション・モジュールから構成され、歩行者のオリジナル画像を取得し、3枚の前記歩行者のオリジナル画像をインプット画像のセットとする、という歩行者の再識別モデルを構築し画像データを取得するステップと、
フィーチャー・マップを得るために、前記インプット画像のセットを前記Res2Netネットワークにインプットし、前記Res2Netネットワークが前記歩行者のオリジナル画像のフィーチャーを抽出するというフィーチャー・マップを得るステップと、
平均プーリング化により前記フィーチャー・マップをディメンション・リダクションして第1のフィーチャー・マップを得て、前記第1のフィーチャー・マップを前記フル・コネクテッド・レイヤーにインプットし、分類スペースにマッピングして損失関数を計算するというグローバル・フィーチャーを抽出するステップと、
前記フィーチャー・マップを最初にコンボリューション・レイヤーを介してディメンション・リダクションし、第2のフィーチャー・マップを得て、前記第2のフィーチャー・マップの一部の領域を前記ランダムマスクで抑制し、水平方向と垂直方向に最大プーリング化を行って異なるスペースディメンションのフィーチャー・ベクトルを得てから、それぞれ前記セルフアテンション・モジュールにインプットしスペース・シーケンス・フィーチャーを学習し、損失関数を算出するというスペース・シーケンス・フィーチャーを抽出するステップ。
好ましくは、前記損失関数は、ランキング損失関数とAM-Softmax損失関数からなる。
本発明は、以下のような技術的効果を開示するものである。
本発明は、効果的な局所的フィーチャーを抽出することが困難であるという問題を解決し、スペース・シーケンス・フィーチャーの学習に基づく歩行者の再識別モデルを提案する。マルチスケール・フィーチャー・ネットワークに基づいてグローバル・フィーチャーを学習し、自己アテンションメカニズムとランダムなバッチ・フィーチャー消去戦略を用いて、局所的フィーチャー抽出のためのシーケンス・フィーチャー間のスペース・セマンティック・リンクを学習し、データ増強技術と連携してトレーニングする。
自己学習メカニズムに基づいたスペース・シーケンス・フィーチャー学習モジュールを提案し、水平・垂直方向のスペース・シーケンス・フィーチャーを構築し、そのスペース・セマンティック・リンクを学習し、効果的な局所フィーチャーを抽出する。
ランダム・バッチ・フィーチャー消去トレーニング戦略を提案し、フィーチャー・マップの局所領域をランダムなマスクブロックでオクルージョンをすることで、抑制された低周波の局所フィーチャーをモデルに学習させる。
本発明の実施例または先行技術における技術的解決策をより明確に説明するために、以下、実施例に必要な添付図面について簡単に説明する。以下の説明における添付図面は、本発明の一部の実施例にすぎず、当業者にとって創造的な労力を要することなく、それらに基づいて他の添付図面を得ることができることは明らかである。
本発明におけるRes2Netネットワークの構造を示す概略図である。 本実施例におけるRes2Net Blockの構造を示す概略図である。 本実施例におけるセルフアテンション・モジュール(左)とマルチヘッド・セルフアテンション・モジュール(右)の比較図である。
次に、本発明の様々な例示的な実施例を詳細に説明するが、この詳細な説明は、本発明の限定とみなされるべきではなく、本発明の特定の側面、フィーチャー、および実施例をより詳細に説明するものと理解されるべきである。
本発明に記載されている用語は、特定の実施例を説明することのみを意図しており、本発明を限定することを意図しない。さらに、本発明における値の範囲に関しては、その範囲の上限と下限の間の各中間値も具体的に開示されていることを理解すべきである。また、記載された範囲内の任意の記載値または中間値と、記載された範囲内の他の記載値または中間値との間の各小さい範囲も本発明に含まれる。これらの小さい範囲の上限と下限は、それぞれ独立して範囲に含まれたり、除外されたりする。
特に記載のない限り、本発明で使用されるすべての技術的および科学的用語は、本発明が属する分野の通常の技術者によって一般的に理解されるものと同じ意味を持つ。本発明では好ましい方法および材料のみを記載しているが、本明細書に記載されているものと同様または同等の任意の方法および材料も、本発明の実施または試験に使用することができる。本明細書中で言及されているすべての文献は、当該文献に関連する方法および/または材料を開示し、説明する目的で参照により組み込まれている。組み込まれている文献との間に矛盾が生じた場合は、本仕様書の内容が優先されるものとする。
当業者には明らかなように、本発明の範囲や精神から逸脱することなく、本発明の明細書の特定の実施例に様々な改良や変形を加えることができる。本発明の明細書から得られる他の実施例は、当業者には明らかである。本願の明細書および実施例は、例示的なものに過ぎない。
本発明で使用されている「含む」、「インクルード」、「有する」などの言葉はいずれも開放的な用語であり、含むがこれに限定されないことを意味する。
本発明では、特に明記しない限り、「部」は質量で計算する。
本発明で使用するネットワークフレームワークを図1に示す。トリプルイメージをインプットとし、フィーチャー抽出にはRes2Net-50ネットワークを使用した。ステージ4の抽出で得られたフィーチャー・マップは、それぞれグローバルフィーチャーブランチとスペース・シーケンスフィーチャー学習ブランチにインプットした。グローバルフィーチャーのブランチでは、まずフィーチャー・ベクトルが平均プーリング化操作によってディメンション・リダクションされ、フル・コネクテッド・レイヤーにインプットされて分類スペースにマッピングされた。Ranked List LossとAM-Softmax Lossが計算された。一方、スペース・シーケンス・フィーチャーの学習ブランチでは、まず1*1コンボリューション・レイヤーによって1024にディメンション・リダクションされてから、フィーチャー・マップの一部の領域にランダムマスクによって抑制された。次に、行方向と列方向にそれぞれ最大プーリング化を行い、異なるスペース・ディメンションのフィーチャー・ベクトルを得た。そして、それらはセルフアテンション・モジュールにインプットされ、スペース・シーケンスのフィーチャーを学習し、損失を計算した。
マルチスケールのフィーチャー抽出について:
本発明は、バックボーンのネットワーク構造としてRes2Netネットワークを使用し、Res2Netは、ResNetのボトルネックモジュールを再構成して、各コンボリューションのグループが依然として残余の接続構造を維持している上に、複数セットの3*3のコンボリューション・コアーレーヤーを使用して、マルチスケールのフィーチャー抽出を行った。そして、そのモジュールの最後にSEモジュールを追加して、チャネルアテンションを計算した。異なるモジュールを通して徐々に細かいフィーチャーを抽出するオリジナルのResNet構造と比較して、Res2Netは、複数のスケールのフィーチャーを抽出するためにモジュール内にコンボリューション・レーヤーを導入し、知覚野を増やし、アテンションメカニズムを追加して、フィーチャーを抽出するモデルの能力を効果的に向上させた。
Figure 2022174707000002
Figure 2022174707000003
Figure 2022174707000004
Figure 2022174707000005
Figure 2022174707000006
そして、その後のアクティベーション操作は、2つのフル・コネクテッド・レイヤーを介して実行された。第一のフル・コネクテッド・レイヤーでは、チャンネル数を減らし、アクティベーション・ファンクションとしてReLUを使用する。そして、第二のフル・コネクテッド・レイヤーでは、チャンネル数を復元し、sigmoidアクティベーション・ファンクションを用いて、各チャンネルのウェートを表す区間[0、1]に出力を制限した。そこで、最終的な出力の
Figure 2022174707000007
アクティベーション・ファンクションを表した。フル・コネクテッド・レイヤーを使用する目的は、特定のデータのロットに基づいてではなく、フル・コネクテッド・レイヤーのパラメータを通じて、データセット全体のすべてのデータに関する情報を保持し、各チャネルの重要性を計算できるようにすることであった。
スペース・シーケンス・フィーチャーの学習について:
本発明は、スペース・シーケンス・フィーチャー学習モジュールに着目したものである。上述したように、オリジナル画像を水平方向にカットしてスペース・シーケンス・フィーチャーを得る方式とは異なり、本発明では、Res2Netから出力したフィーチャー・マップを使用し、水平方向と垂直方向のオリジナル画像のフィーチャーに対して、水平方向と垂直方向にプーリング化することでシーケンス・インプットを得た。これにより、オリジナル画像をカットするよりもシーケンス・インプットの知覚野が広くなり、カットによる重要な情報の損失が緩和され、スペース・シーケンス・フィーチャー間のセマンティック・リンクを効果的に学習することが可能になると考えられた。
Figure 2022174707000008
Figure 2022174707000009
する前に、インプットがdでスケーリングされたことに注意されたい。これは、高ディメンションの場合にsoftmax関数の出力がフラットになりすぎて各位置のアテンションウェートが近すぎることを避けるためであった。
RNNと比較して、セルフアテンションの構造は、シーケンス・インプットを並行して処理することができるため、計算量を減らし、ネットワークの計算効率を大幅に向上させることができ、また長距離の依頼を保持することができた。本発明で使用するマルチヘッド・セルフアテンション・モジュールは、図3に示すように、複数のセルフアテンションメカニズムをマージして使用し、フィードフォワード・ニューラル・ネットワークとレシジュアル・ストラクチャーを取り入れた。
マルチヘッド・アテンションは、複数のグループのマルチ・アテンションを同時に計算し、リニア・レイヤーを介して、インプット・シーケンスを複数のサブスペースにマッピングして別々にセルフアテンションを計算し、それをスプライスすることである。複数グループの注意を用いて、初期化パラメータを変えることで、インプットを複数の異なるサブスペースにマッピングすることができ、モデルが異なる側面のフィーチャー情報にアテンションさせることで、これまで見過ごされていた詳細なフィーチャーを明らかにすることができる。本発明では、マルチヘッド・セルフアテンションを使用してフィーチャーを抽出した後、フィーチャーとインプットを、レシジュアルモジュールを介してスプライスし、レイヤーのノーマライゼーション(layer normalization)を用いてノーマライゼーションしてから、フィードフォワード・ニューラル・ネットワークにインプットした。
Figure 2022174707000010
Figure 2022174707000011
ランダム・バッチ・フィーチャーの消去戦略について:
ディープネットワーク学習フィーチャーは、高周波数の繰り返し現れるフィーチャを中心に焦点を合わせる傾向があり、アテンションメカニズムを使用すると、この現象を悪化させる可能性が高い。本発明では、スペース・シーケンスのフィーチャ抽出にアテンションメカニズムを用いた場合、モデルは高周波数のフィーチャにより高いウェートを割り当てる傾向があり、オクルージョンや角度の問題でこれらのフィーチャが得られなくなると、モデルの認識能力は著しく低下する。この現象を緩和するために、本発明ではランダム・バッチ・フィーチャー消去戦略を用いて、フィーチャ・マップをランダムなサイズと位置のマスクでオクルージョンをし、高周波のフィーチャを減らし、モデルがそれらの抑制された低周波の局所情報に集中できるようにしていた。ランダム・バッチ・フィーチャーの消去アルゴリズムの具体的な流れをAlgorithm 1に示す。本発明では、ランダム・バッチ・フィーチャーの消去アルゴリズムによるRes2Net出力フィーチャFに、位置のランダムなマスクを追加し、マスクで遮られる領域のフィーチャ
Figure 2022174707000012
このランダム・バッチ・フィーチャーの消去戦略には、以下のような利点がある:
(1)追加のパラメータを導入していないので、様々な構造と軽く融合させて、計算コストを増やすことなく、ネットワークの有効性を高めることができる。
(2)バッチ内の各サンプルでは、モデルが高周波のフィーチャに過度に依頼することを避けるために、いくつかの領域がランダムに抑制される。
(3)ある程度で、フィーチャが遮られることをシミュレートして、アドバーサリー・トレーニングによってモデルのロバスト性を向上させる。
Figure 2022174707000013
損失関数について:
本発明では、ブランチの損失関数として、ランクドリスト損失関数(Ranked List Loss)とAM-Softmax損失関数の融合を用いる。すなわち、
Figure 2022174707000014
Figure 2022174707000015
Figure 2022174707000016
Figure 2022174707000017
Figure 2022174707000018
Figure 2022174707000019
実験のセットアップについて:
実験環境:コードはPytorchフレームワークを用いて記述され、2枚のNvidia TITAN Xpグラフィックカードで構成されたサーバー上で実行された。
Res2Net:バックボーンネットワークは、ImageNetで事前トレーニングされたRes2Net-50ネットワークを使用し、その構造はRes2Net-50と同様であるが、レシジュアル・モジュールを置き換え、サブ・フィーチャー・マップの数s=4であった。最終的な出力フィーチャ・マップのサイズは16 * 8 * 2048であった。
Figure 2022174707000020
GANネットワークについて:
GANネットワークは画像しか生成しないため、歩行者認識モデルを実行してからデータの補強ができた。本発明では、認識モデルのベースラインとしてDensenet-121ネットワークを使用し、このネットワークの後にフル・コネクテッド・レイヤーを設けて分類した。アドバーサリー・ネットワークは、マルチスケール条件に基づいて生成され、ラベルの割り当ては修正MPRL法を用いて行われた。
Figure 2022174707000021
トレーニング戦略:ネットワークトレーニング中、インプット画像サイズは224 * 224にスケーリングされ、BatchSizeは64に設定された。これには16人の歩行者が含まれ、各歩行者には4つの画像があった。オプティマイザーはAdamで、初期化学習率は0.001で、合計150ラウンドのトレーニングがあった。最初の50ラウンドではリニアWarm up戦略が使用された。100ラウンド後、学習率は10ラウンドごとに0.5ずつ減少した。
実験結果について:
本発明の提案方法をいくつかのデータセットで実験した結果を示し、以下の最先端の手法と比較する:PNGAN、KPM、FDGAN、DaRe、PSE、G2G、DeepCRF、SPReID、PABR、PCB+RPP、SGGNN、Mancs、MGN、AANet、CAMA、IANet、DGNet、CASN、BNNeck、MMGA、MuDee、OSNet、ABDNet、Auto-ReID、BDB+Cut、P-Net、MHN-6。
Market-1501データセットでの実験結果を表1に示すが、mAPとRank-1、Rank-5はそれぞれ89.7%、95.2%、98.4%に達し、前手法の最高指標と比較して、mAPとRank-1はそれぞれ0.9%(MMGA、 87.2%)、0.2%(ABDNet. 95.6%)を向上した。
表1
Figure 2022174707000022
DukeMTMC-reIDデータセットでの実験結果を表2に示す。mAPとRank-1、Rank-5はそれぞれ79.2%、89.1%、94.9%に達し、従来の手法の最高指標と比較して、mAPは0.6%向上し(ABDNet、78.6%)、Rank-1は基本的に同じ(MMGA、89.5%)であった。
表2
Figure 2022174707000023
CUHK03データセットでの実験結果を表3と表4に示すが、CUHK03(Labeled)とCUHK03(Detected)の両方で高度なレベルに達した。中でも、CUHK03(Labeled)データセットでは、mAPとRank-1はそれぞれ78.3%、81.2%に達し、従来手法の最高指標と比較して、mAPが1.6%(BDB+Cut、76.7%)の改善、Rank-1がで2.8%(BDB+Cut、 79.4%)の改善が見られた。
一方、CUHK03(Detected)データセットでは、mAPが74.8%、Rank-1が76.9%に達し、従来の手法の最高指標と比較して、mAPが1.3%(BDB+Cut、73.5%)の改善で、Rank-1が0.5%(BDB+Cut、76.4%)の改善をした。
表3
Figure 2022174707000024
表4
Figure 2022174707000025
アブレーション分析について:
また、本発明の提案構造の有効性を検証するために、本発明をMarket-1501データセットでアブレーション分析を行った。
(1)セルフアテンション・モジュールについて、
セルフアテンションに基づくスペース・シーケンス・フィーチャ学習モジュールがモデル認識性能に与える影響を検証するために、本発明はスペース・シーケンス・フィーチャ学習ブランチを削除して実験を行い、その実験結果を表5に示す。ここで、Ours/V、Ours/HとOurs/(V+H)は、それぞれ水平シーケンス・フィーチャ・ブランチのみを削除したこと、垂直シーケンスブランチのみを削除したこと、スペース・シーケンス・フィーチャ学習ブランチ全体を削除したことを示す。
表5
Figure 2022174707000026
セルフアテンション・モジュールを削除した後のモデルの認識能力は大きく低下しており、中でもスペース・シーケンス・フィーチャ学習ブランチ全体を削除した効果は最も顕著に低下して、mAPが4.6%、Rank-1が2.1%と低下したことがわかる。垂直シーケンス・フィーチャ・ブランチのみを削除したことと比べて、水平方向のスペース・シーケンス・フィーチャ・ブランチを削除した効果がより著しく低下されたことから、モデルの面では、水平方向のスペース・シーケンス・フィーチャがもっと多い情報を含んでいることがわかる。
(2) ランダム・バッチ・フィーチャーの消去戦略
ランダム・バッチ・フィーチャー消去戦略の有効性を検証するために、この戦略を用いずに本発明を実験し、その実験結果を表6に示す。
表6
Figure 2022174707000027
ランダム・バッチ・フィーチャー消去戦略を使用しない場合、モデルの認識性能は低下し、mAP指標が大幅に低下した。この手法は、モデルの低周波情報の学習を助け、モデルの全体的なロバスト性を向上させることができることを示した。
本発明ではまず、スペース・フィーチャ学習に基づく既存の手法を分析し、本発明で提案する手法を従来の手法と比較した。その後、本発明で提案するスペース・シーケンス・フィーチャ学習に基づく歩行者の再識別法について、マルチスケール・フィーチャ抽出、スペース・シーケンス・フィーチャ学習、ランダム・バッチ・フィーチャー消去戦略、損失関数の4つの側面から詳細に説明した。その後、公開されているいくつかのデータセットで実験とアブレーション分析を行い、最後に本発明の提案方法の有効性を示した。
上述した実施例は、本発明の好ましい方法を説明したものに過ぎず、本発明の範囲を限定することを意図したものではなく、当業者が本発明の技術的解決策に加えた様々な変形や改良は、本発明の設計の精神を逸脱することなく、本発明の特許請求の範囲によって決定される保護の範囲に入るものとする。

Claims (9)

  1. Res2Netネットワーク、グローバル・フィーチャー・モジュール、およびスペース・シーケンス・フィーチャー学習モジュールを含み、前記Res2Netネットワークがインプット・画像のフィーチャー抽出を行い、フィーチャー・マップを出力することのためであり、前記グローバル・フィーチャー・モジュールがフラット・プーリング化モジュールとフル・コネクテッド・レイヤーモジュールから構成され、前記フィーチャー・マップにグローバル・フィーチャーを抽出することのためであり、前記スペース・シーケンス・フィーチャー学習モジュールがコンボリューション・レイヤー、ランダムマスクモジュール、最大プーリング化モジュール、およびセルフアテンション・モジュールから構成され、前記Res2Netネットワークは、前記グローバル・フィーチャー・モジュールと前記スペース・シーケンス・フィーチャー学習モジュールにそれぞれ接続され、前記フラット・プーリング化モジュールがフル・コネクテッド・レイヤーモジュールに接続され、前記コンボリューション・レイヤーと前記ランダムマスクモジュールがそれぞれ前記最大プーリング化モジュールに接続されており、前記最大プーリング化モジュールが前記セルフアテンション・モジュールに接続されている、ことを特徴とするスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
  2. 前記Res2Netネットワークはコンボリューションコアーレーヤーが3*3とする複数セットのコンボリューションを含み、各セットのコンボリューションはレシジュアル・ストラクチャーである、ことを特徴とする請求項1に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
  3. 前記Res2Netネットワークがシャネルアテンションを計算するSEモジュールをさらに備えること、を特徴とする請求項1に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
  4. 前記フル・コネクテッド・レイヤーモジュールは第1のフル・コネクテッド・レイヤーと第2のフル・コネクテッド・レイヤーから構成され、前記第1のフル・コネクテッド・レイヤーがチャネル数を削減するために使用され、アクティベーション・ファンクションがReLUで、前記第2のフル・コネクテッド・レイヤーがチャネル数を復元するために使用され、アクティベーション・ファンクションがsigmoidであること、を特徴とする請求項1に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
  5. 前記ランダムマスクモジュールがランダムな大きさと位置のマスクによりフィーチャー・マップをオクルージョンして、高頻度フィーチャーの発生確率を抑制するために使用されること、を特徴とする請求項1に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
  6. 前記最大プーリング化モジュールが前記フィーチャー・マップを水平方向と垂直方向の両方にプーリング化するために使用されること、を特徴とする請求項1に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
  7. 前記セルフアテンション・モジュールは、マルチヘッド・セルフアテンション・サブモジュールと、レシジュアル・ストラクチャーを組み込んだフィードフォワード・ニューラル・ネットワークとを含み、前記マルチヘッド・セルフアテンション・サブモジュールが複数のサブスペースにおける多面的なアテンションを計算するために使用されること、を特徴とする請求項1に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システム。
  8. 歩行者の再識別モデルがRes2Netネットワーク、フル・コネクテッド・レイヤー、ランダムマスクおよびセルフアテンション・モジュールを含み、
    歩行者のオリジナル画像を取得し、3枚の前記歩行者のオリジナル画像をインプット・画像のセットとする、という歩行者の再識別モデルを構築し画像データを取得するステップと、
    フィーチャー・マップを得るために、前記インプット・画像のセットを前記Res2Netネットワークにインプットし、前記Res2Netネットワークが前記歩行者のオリジナル画像のフィーチャーを抽出するというフィーチャー・マップを得るステップと、
    平均プーリング化により前記フィーチャー・マップをディメンション・リダクションして第1のフィーチャー・マップを得て、前記第1のフィーチャー・マップを前記フル・コネクテッド・レイヤーにインプットし、分類スペースにマッピングして損失関数を計算するというグローバル・フィーチャーを抽出するステップと、
    前記フィーチャー・マップを最初にコンボリューション・レイヤーを介してディメンション・リダクションし、第2のフィーチャー・マップを得て、前記第2のフィーチャー・マップの一部の領域を前記ランダムマスクで抑制し、水平方向と垂直方向に最大プーリング化を行って異なるスペースディメンションのフィーチャー・ベクトルを得てから、それぞれ前記セルフアテンション・モジュールにインプットしスペース・シーケンス・フィーチャーを学習し、損失関数を算出することというスペース・シーケンス・フィーチャーを抽出するステップと、を含む、ことを特徴とするスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別方法。
  9. 前記損失関数は、ランキング損失関数とAM-Softmax損失関数を含む、ことを特徴とする請求項8に記載のスペース・シーケンス・フィーチャー学習に基づく歩行者の再識別方法。
JP2021136885A 2021-05-11 2021-08-25 スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法 Pending JP2022174707A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110509285.1 2021-05-11
CN202110509285.1A CN113239784B (zh) 2021-05-11 2021-05-11 一种基于空间序列特征学习的行人重识别系统及方法

Publications (1)

Publication Number Publication Date
JP2022174707A true JP2022174707A (ja) 2022-11-24

Family

ID=77133268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021136885A Pending JP2022174707A (ja) 2021-05-11 2021-08-25 スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法

Country Status (2)

Country Link
JP (1) JP2022174707A (ja)
CN (1) CN113239784B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661828A (zh) * 2022-12-08 2023-01-31 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法
CN115830637A (zh) * 2022-12-13 2023-03-21 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN116229178A (zh) * 2023-03-14 2023-06-06 安徽大学 一种基于Transformer针对少量训练样本的图像分类方法
CN116758621A (zh) * 2023-08-21 2023-09-15 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092364B (zh) * 2021-08-12 2023-10-03 荣耀终端有限公司 图像处理方法及其相关设备
CN113792686B (zh) * 2021-09-17 2023-12-08 中南大学 基于视觉表征跨传感器不变性的车辆重识别方法
CN113723366B (zh) * 2021-10-25 2022-03-25 山东力聚机器人科技股份有限公司 一种行人重识别方法、装置及计算机设备
CN114140825A (zh) * 2021-12-01 2022-03-04 深圳集智数字科技有限公司 行人匹配方法、装置、电子设备及计算机可读存储介质
CN114429524B (zh) * 2022-04-07 2022-09-23 深圳市城市交通规划设计研究中心股份有限公司 单目视觉下的三维目标检测模型的构建方法及检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110064302A1 (en) * 2008-01-31 2011-03-17 Yi Ma Recognition via high-dimensional data classification
JP2020009435A (ja) * 2018-07-03 2020-01-16 株式会社神戸製鋼所 鋼材成分学習装置、鋼材成分推定装置、鋼種判定装置、鋼材成分学習方法、鋼材成分推定方法、鋼種判定方法、及びプログラム
JP2020532017A (ja) * 2017-10-31 2020-11-05 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像質問応答方法、装置、システムおよび記憶媒体
JP2021039758A (ja) * 2019-09-03 2021-03-11 ネイバー コーポレーションNAVER Corporation 画像間の類似度を利用した類似領域強調方法およびシステム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376576A (zh) * 2018-08-21 2019-02-22 中国海洋大学 基于交替更新密集连通从零训练网络的目标检测方法
CN109977798B (zh) * 2019-03-06 2021-06-04 中山大学 用于行人重识别的掩膜池化模型训练和行人重识别方法
CN110110642B (zh) * 2019-04-29 2020-12-22 华南理工大学 一种基于多通道注意力特征的行人重识别方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110399799B (zh) * 2019-06-26 2022-07-26 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN110533084B (zh) * 2019-08-12 2022-09-30 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN110751018A (zh) * 2019-09-03 2020-02-04 上海交通大学 一种基于混合注意力机制的群组行人重识别方法
CN110765841A (zh) * 2019-09-03 2020-02-07 上海交通大学 基于混合注意力机制的群组行人重识别系统及终端
CN110717411A (zh) * 2019-09-23 2020-01-21 湖北工业大学 一种基于深层特征融合的行人重识别方法
CN110688938A (zh) * 2019-09-25 2020-01-14 江苏省未来网络创新研究院 一种集成注意力机制的行人重识别方法
CN110969087B (zh) * 2019-10-31 2023-11-21 杭州未名信科科技有限公司 一种步态识别方法及系统
CN111160295B (zh) * 2019-12-31 2023-05-12 广州视声智能科技有限公司 基于区域引导和时空注意力的视频行人重识别方法
CN111161195B (zh) * 2020-01-02 2023-10-13 重庆特斯联智慧科技股份有限公司 一种特征图处理方法、装置、存储介质及终端
CN111242127B (zh) * 2020-01-15 2023-02-24 上海应用技术大学 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
CN111259850B (zh) * 2020-01-23 2022-12-16 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111414815B (zh) * 2020-03-04 2023-11-14 清华大学深圳国际研究生院 行人重识别网络搜索方法及行人重识别方法
CN111539370B (zh) * 2020-04-30 2022-03-15 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111639564B (zh) * 2020-05-18 2022-05-27 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法
CN111860186B (zh) * 2020-06-23 2022-04-12 华北电力大学(保定) 一种基于多注意力机制的人脸属性编辑网络
CN111898736B (zh) * 2020-07-23 2022-07-05 武汉大学 基于属性感知的高效行人重识别方法
CN111860678B (zh) * 2020-07-29 2024-02-27 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN112307886A (zh) * 2020-08-25 2021-02-02 北京京东尚科信息技术有限公司 行人重识别方法和装置
CN112016489B (zh) * 2020-09-02 2022-10-04 重庆邮电大学 一种保留全局信息并增强局部特征的行人再识别方法
CN112163498B (zh) * 2020-09-23 2022-05-27 华中科技大学 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN112232300B (zh) * 2020-11-11 2024-01-19 汇纳科技股份有限公司 全局遮挡自适应的行人训练/识别方法、系统、设备及介质
CN112541409B (zh) * 2020-11-30 2021-09-14 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN112330696B (zh) * 2020-12-02 2022-08-09 青岛大学 人脸分割方法、装置及计算机可读存储介质
CN112712117B (zh) * 2020-12-30 2024-03-26 银江技术股份有限公司 一种基于全卷积注意力的多元时间序列分类方法及系统
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN112560831B (zh) * 2021-03-01 2021-05-04 四川大学 一种基于多尺度空间校正的行人属性识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110064302A1 (en) * 2008-01-31 2011-03-17 Yi Ma Recognition via high-dimensional data classification
JP2020532017A (ja) * 2017-10-31 2020-11-05 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像質問応答方法、装置、システムおよび記憶媒体
JP2020009435A (ja) * 2018-07-03 2020-01-16 株式会社神戸製鋼所 鋼材成分学習装置、鋼材成分推定装置、鋼種判定装置、鋼材成分学習方法、鋼材成分推定方法、鋼種判定方法、及びプログラム
JP2021039758A (ja) * 2019-09-03 2021-03-11 ネイバー コーポレーションNAVER Corporation 画像間の類似度を利用した類似領域強調方法およびシステム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LINGXUE SONG ET AL.: ""Occlusion Robust Face Recognition Based on Mask Learning With Pairwise Differential Siamese Network", 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6022042824, 27 October 2019 (2019-10-27), US, pages 773 - 782, XP033723588, ISSN: 0004893622, DOI: 10.1109/ICCV.2019.00086 *
YU HUIMING ET AL.: ""A remote sensing image target recognition method based on improved Mask-RCNN model"", 2021 IEEE 2ND INTERNATIONAL CONFERENCE ON BIG DATA, ARTIFICIAL INTELLIGENCE AND INTERNET OF THINGS E, JPN6022042823, 26 March 2021 (2021-03-26), US, pages 436 - 439, XP033893935, ISSN: 0004893621, DOI: 10.1109/ICBAIE52039.2021.9389916 *
竹田 史章: ""GAによりチューニングされたニューロ識別システムとその海外紙幣への応用"", 電気学会論文誌C, vol. 118, no. 5, JPN6022042822, 1 May 1998 (1998-05-01), JP, pages 773 - 780, ISSN: 0004893620 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661828A (zh) * 2022-12-08 2023-01-31 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法
CN115661828B (zh) * 2022-12-08 2023-10-20 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法
CN115830637A (zh) * 2022-12-13 2023-03-21 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN115830637B (zh) * 2022-12-13 2023-06-23 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法
US11908222B1 (en) 2022-12-13 2024-02-20 Hangzhou Dianzi University Occluded pedestrian re-identification method based on pose estimation and background suppression
CN116229178A (zh) * 2023-03-14 2023-06-06 安徽大学 一种基于Transformer针对少量训练样本的图像分类方法
CN116229178B (zh) * 2023-03-14 2023-11-24 安徽大学 一种基于Transformer针对少量训练样本的图像分类方法
CN116758621A (zh) * 2023-08-21 2023-09-15 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法
CN116758621B (zh) * 2023-08-21 2023-12-05 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

Also Published As

Publication number Publication date
CN113239784A (zh) 2021-08-10
CN113239784B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
JP2022174707A (ja) スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法
CN106529447B (zh) 一种小样本人脸识别方法
CN112766158B (zh) 基于多任务级联式人脸遮挡表情识别方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN108960141A (zh) 基于增强型深度卷积神经网络的行人再识别方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN111428664B (zh) 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法
CN108960288B (zh) 基于卷积神经网络的三维模型分类方法及系统
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN109241814A (zh) 基于yolo神经网络的行人检测方法
CN111723600B (zh) 一种基于多任务学习的行人重识别特征描述子
CN109101108A (zh) 基于三支决策优化智能座舱人机交互界面的方法及系统
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN113642393A (zh) 基于注意力机制的多特征融合视线估计方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN113393457A (zh) 一种结合残差密集块与位置注意力的无锚框目标检测方法
CN111797705A (zh) 一种基于人物关系建模的动作识别方法
CN115565207A (zh) 一种融合特征模仿的遮挡场景下行人检测方法
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN113361431B (zh) 一种基于图推理的人脸遮挡检测的网络模型及方法
CN114782979A (zh) 一种行人重识别模型的训练方法、装置、存储介质及终端
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN114333062A (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230509