JP7136500B2 - ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法 - Google Patents

ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法 Download PDF

Info

Publication number
JP7136500B2
JP7136500B2 JP2021087114A JP2021087114A JP7136500B2 JP 7136500 B2 JP7136500 B2 JP 7136500B2 JP 2021087114 A JP2021087114 A JP 2021087114A JP 2021087114 A JP2021087114 A JP 2021087114A JP 7136500 B2 JP7136500 B2 JP 7136500B2
Authority
JP
Japan
Prior art keywords
network
pedestrian
noise channel
data
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021087114A
Other languages
English (en)
Other versions
JP2022082493A (ja
Inventor
黄徳双
張焜
Original Assignee
同▲済▼大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 同▲済▼大学 filed Critical 同▲済▼大学
Publication of JP2022082493A publication Critical patent/JP2022082493A/ja
Application granted granted Critical
Publication of JP7136500B2 publication Critical patent/JP7136500B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Description

本発明は、コンピュータ視覚技術分野に関し、特にノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法に関する。
分布式マルチカメラ監視システムの基本的タスクは、異なる位置と異なる時間に人とカメラ視界とを関連することである。それは、歩行者再識別問題と呼ばれ、更に具体的には、歩行者再識別は、主に「ターゲット歩行者がどこにいたか」又は「ターゲット歩行者が監視ネットワークにおいてキャッチされた後にどこに行ったか」という問題を解決するためである。それは、多くのキーアプリケーション、例えば長時間のマルチカメル追跡と立証捜索等をサポートする。実際には、各カメラヘッドは、異なる角度と距離から、異なる光条件、遮蔽度と異なる静的状態と動的状態の背景で撮影を行うことが可能である。それは、歩行者再識別タスクにいくつかの大きなチャレンジをもたらす。それとともに、未知の距離にあるカメラで観察された歩行者は、混雑した背景、低い解像度等の条件の制限が存在する可能性があるため、例えば顔認識のような従来のバイオメトリクスに依存する歩行者再識別技術は、実行可能でも信頼性もない。
従来の歩行者再識別技術は、主に特徴発見と類似尺度の二つの態様に分けられる。一般的な特徴は、主にカラー特徴、テクスチャ特徴、形状特徴及びより高いレベルの属性特徴、行動語意特徴等を含む。類似尺度に対して、ユークリッド距離が最初に用いられ、その後いくつかの監督のある類似性の判別方法も提案されている。
ディープラーニングの発展に伴い、ディープラーニングモデルに基づく方法は、既に歩行者再識別の分野を占めており、歩行者再識別のための深度モデルは、現段階で主にidentification model、verification model及びtriplet modelの三種類に分けられる。Identification modelは、他のタスク上の分類モデルと同様であり、一枚の画像を所定してからそのラベルを出力し、このモデルは、単一画像のラベル情報を十分に活用することができる。Verification modelは、二枚の画像を入力として、その後それらが同じ歩行者であるか否かを入力する。Verification modelは、単一画像のラベル情報を使用せずに弱いラベル(二人の歩行者の関係)を使用する。同様に、triplet modelは、三枚の画像を入力として、クラス内距離を引き寄せ、クラス間距離を引き離すが、単一画像のラベル情報も使用しない。
特徴抽出の面で、深度モデルは、従来の人工で特徴を設計する方式を捨て、コンボリューショナルニューラルネットワークに基づいてネットワークモデルと構造モジュールを設計することで自動的に特徴を学習する。典型的なネットワーク構造は、GoogleNet、ResNetとDenseNet等を有する。一般的な特徴抽出構造は、inception構造、特徴ピラミッド及びアテンション構造等を有する。
この背景で、本発明は、ノイズチャネルに基づくランダム遮蔽回復のネットワークモデルを設計し、マルチスケール表徴学習は、判別力特徴(全域と局部を含む)を抽出して空間関係学習を補強することができる。ランダムバッチマスク対策は、ランダム遮蔽とアテンションメカニズムを採用し、局部詳細の特徴が抑制されるという状況を緩和する。
本発明の目的は、上記従来技術に存在する欠陥を克服するためのノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法を提供することである。
本発明の目的は、以下の技術的解決手段によって実現することができる。
ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法であって、該方法は、
参照用データセットに対してデータ区分及び前処理を行った後、遮蔽回復のためのCANネットワーク構造を構築し、且つそれを利用して参照用データセットにおいてデータ区分及び前処理を経た後に得られるトレーニングセットに対してデータ拡充を行い、データ拡充が行われた後のトレーニングセットを利用して基礎ネットワーク主体特徴抽出構造に対してトレーニングを行い、トレーニング済みの基礎ネットワーク主体特徴抽出構造を得るステップ1と、
データ拡充によるラベル誤差を減らすためのノイズチャネル構造を構築するステップ2と、
トレーニング済みの基礎ネットワーク主体特徴抽出構造、ノイズチャネル構造及び遮蔽回復のためのCANネットワーク構造に基づき、ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別ネットワークを総合的に確立して得るステップ3と、
ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別ネットワークを利用して実際の測定対象のオリジナル画像に対して識別を行うステップ4とを含む。
更に、前記ステップ1は、
参照用データセットをトレーニングセットとテストセットに区分した後、トレーニングセットからランダムに画像データを抽出し且つ前処理操作を行うステップ101と、
遮蔽回復のためのCANネットワーク構造を構築し且つそれを利用してトレーニングセットに対して更にデータ拡充を行うステップ102と、
トレーニングネットワークモデルに必要なパラメータと対応式を設定するステップ103と、
設定を完了した後に前処理操作とデータ拡充を経た後の画像データを基礎ネットワーク主体特徴抽出構造に入力し、トレーニング済みの基礎ネットワーク主体特徴抽出構造を得るステップ104を含む。
更に、前記ステップ101における参照用データセットは、Market1501データセットであり、前記ステップ101における前処理操作は、水平反転、付加的ノイズ又はランダム消去を含み、前記ステップ104における基礎ネットワーク主体特徴抽出構造は、ResNet50ネットワーク構造である。
更に、前記104において、前処理操作とデータ拡充を経た後の画像データを基礎ネットワーク主体特徴抽出構造に入力してトレーニングを行うプロセスにおいて、Adam最適化手法を用いてパラメータを自動的に調整し、Dropout対策を用いてオーバーフィッティング状況の発生を避け、Batch Normalizationを用いてネットワークの収束速度を上げる。
更に、前記ステップ103は、具体的には、トレーニング総サイクルepochを150に設定し、重み付け減衰パラメータweight decayを0.0005に設定し、バッチサイズbatch sizeを180に設定し、学習率更新方式を設定することを含み、その対応する記述式は、以下の数式1であり、式において、
Figure 0007136500000001
が学習率である。
Figure 0007136500000002
更に、前記ステップ1における遮蔽回復のためのCANネットワーク構造は、オリジナルデータセットを学習し且つ画像を生成するための生成器ネットワークと、入力画像がリアルであるか否か、即ち該入力データがオリジナルデータに属するか、それとも前記生成器によって生成されるかを判定するための判別器とで構成され、対応する数学記述式は、以下の数式2であり、式において、xが遮蔽画像であり、yがターゲット画像であり、DとGがそれぞれ判別器ネットワークと生成器ネットワークを表す。
Figure 0007136500000003
更に、前記ステップ2において前記ノイズチャネル構造を利用してデータ拡充によるラベル誤差を減らすプロセスは、具体的には、
生成される画像データに対応するオリジナルラベルと、前記ノイズチャネル構造を利用して観察して得られるノイズラベルとの間の移行確率に対して、分布を所定するステップ201と、
EMアルゴリズムを利用して分布に対して暗示パラメータを求めて得て、且つそれを利用してデータ拡充によるラベル誤差を減らすステップ202とを含む。
更に、前記ステップ201における分布は、その記述式は、以下の数式3であり、式において、
Figure 0007136500000004
Figure 0007136500000005
更に、前記ステップ202においてEMアルゴリズムを利用して分布に対して暗示パラメータを求めて得るプロセスには、
Figure 0007136500000006
Figure 0007136500000007
前記更新パラメータ
Figure 0007136500000008
は、その対応する記述式は、以下の数式5であり、式において、
Figure 0007136500000009
Figure 0007136500000010
更に、前記EMアルゴリズムにおいて採用されるターゲット関数は、その対応する記述式は、以下の数式6であり、式において、
Figure 0007136500000011
は、EMアルゴリズムに採用されるターゲット関数を表す。
Figure 0007136500000012
従来技術と比べて、本発明は、以下の利点を有する。
(1)本発明は、ディープラーニング技術を用いて、まずトレーニングセット画像に対して反転、切り取り等の前処理操作を行い、その後基礎的ネットワークモデル(ResNet50)を介して特徴抽出を行い、ResNet50ネットワークを介して抽出して得られる高次元特徴に対してランダムバッチマスクトレーニング対策及びマルチスケール表徴学習を行い、それによってより判別力を有し、より詳細な、歩行者の空間関連性を含む特徴情報を取得し、更に多損失関数を用いてネットワークの融合共同トレーニングを行う。
(2)本発明は、回復後の遮蔽画像を用いてデータセットを拡充し、且つラベルノイズチャネルを導入し、拡充データによる誤差を緩和し、ネットワークのロバスト性を向上させる。
本発明の実施例によるノイズチャネルに基づくランダム遮蔽回復の歩行者再識別技術のネットワーク全体のフレーム図である。 本発明の実施例によるノイズチャネルに基づくランダム遮蔽回復の歩行者再識別技術のネットワークトレーニングのフローチャートである。 本発明の実施例によるノイズチャネルに基づくランダム遮蔽回復の歩行者再識別技術の結果評価フローチャートである。
以下は、本発明の実施例における添付図面を結び付けながら、本発明の実施例における技術的解決手段を明瞭且つ完全に記述し、明らかに、記述される実施例は、本発明の一部の実施例であり、全部の実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を払わない前提で得られるすべての他の実施例は、いずれも本発明の保護範囲に属する。
本発明は、ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別技術であり、複数の参照用データセット上のより正確で効率的な歩行者再認識タスクを実現する。歩行者再認識のタスクは、重複視野がない異なるカメラによって収集される歩行者画像又はビデオサンプルの関係付けの処理プロセスであり、即ち異なる位置でのカメラによって異なる時刻に撮影される歩行者が同一の歩行者であるか否かを識別する。従来の歩行者再識別は、主に歩行者特徴発見と歩行者類似度の判別の二つのステップを含んでいる。
ディープラーニングに基づく歩行者再識別アルゴリズムと比べて、本発明は、ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法を提案する。オリジナル画像に遮蔽ブロックをランダムに追加し、GANモデルを用いて修復し、その後修復された画像を用いてオリジナルトレーニングセットを拡張する。補強されるデータセットを用いてベースラインモデルをトレーニングし、且つノイズチャネルを介して拡張画像のラベル誤差を緩和する。
1、基本的技術的解決手段
本発明は、ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別技術に関し、図1に示すように、その主な実現構造は、以下の部分に依存する。
1)オリジナルデータセットに対するトレーニングセットとテストセットとの区分、
2)基礎的ネットワーク主体特徴抽出構造、
3)ノイズチャネル構造、
4)遮蔽回復のためのCANネットワーク構造、
5)反復ステップサイズ調整方法、反復ステップサイズ初期値、学習関数選択等を含むネットワークの超パラメータ調整、
6)異なる構造に対して異なる損失関数を使用する損失関数の選択、及び、
7)PyTorchとPython及び一部のアシストライブラリに基づく全技術方法の編集。
以上の7つのステップにおけるステップ1)は、具体的には、参照用データセットをトレーニングセットとテストセットに区分することを含む。データセットMarket1501を例にし、そのうち751人の歩行者ID、合計12936枚の画像をトレーニングセットとして、別の750人の歩行者ID及び一部の背景画像、合計19732枚をトレーニングセットとする。
この基礎で、更にデータセット処理を行い、トレーニングセットの一部を更に分けてテストセットとすることで、トレーニングプロセスを制御し、効率的に最適な状態を得る。テストセットをqueryとgalleryの二つ部分に分ける。
クエリセット及び候補セットにおける画像に対して既にトレーニングされたネットワークを用いて特徴抽出を行い、抽出された特徴に対してそれぞれ二つずつユークリッド距離を計算して距離の順位付けを行う。候補セットにおいて、クエリセットにおけるターゲット距離に近い画像を得る。
以上の7つのステップにおけるステップ2)は、具体的には、成熟し且つ性能が比較的に高いネットワークを選択して実験を行い且つ結果の探究比較を行うことを含む。ResNet50ネットワーク構造を用いて、ResNetが短絡接続によって残差に対して学習を行ってネットワーク深度が深くなることによる退化問題を解決する。
以上の7つのステップにおけるステップ3)は、具体的には、生成される画像に対して、オリジナルラベルがリアルラベルであることを直接的に考えられないステップと、観察されたノイズラベルに対して、ノイズラベルとリアルラベルの前の移行確率を学習する必要があるステップと、すべてのトレーニング画像に対して、オリジナルデータのラベルがクリーンであるが、生成されるデータのラベルが雑音であると考えられるステップと、観察ラベルに対して、分布を所定し、EMアルゴリズムを用いて暗示パラメータを求めるステップとを含む。
以上の7つのステップにおけるステップ4)は、具体的には、生成対抗ネットワーク(GAN)が二人ゼロサムゲームの考え方を採用し、それが生成ネットワークと判別ネットワークの二つの部分で構成されることを含む。GANは、オリジナルデータセットを学習し且つ画像を生成するために用いられ、判別器ネットワークは、入力画像がリアル(オリジナルデータセット)であるか又は偽物(生成器ネットワークによって生成される)であるかを判定するために用いられる。同時に二つのネットワークをトレーニングする。目的は、判別モデルが生成される画像のリアル性を区別できないようにすることである。本発明の技術的解決手段において、条件GAN[15]を用いて、ターゲットを最適化する数学表現式は、以下の数式7であり、式において、xが遮蔽画像であり、yがターゲット画像であり、DとGがそれぞれ判別器ネットワークと生成器ネットワークを表す。
Figure 0007136500000013
本発明の技術的解決手段において、ResNet50ネットワーク構造に対して、SGDパラメータ選択が難しいことを解決するために、Adam最適化手法を用いてパラメータを自動的に調整する。Dropout対策を用いてオーバーフィッティング状況の発生を避け、Batch Normalizationを用いてネットワークの収束速度を上げる。
そのうち、ネットワーク超パラメータの調整及び初期化は、多くの実験経験に基づき、その特徴は、トレーニング総サイクル(epoch)を150に設定し、重み付け減衰パラメータ(weight decay)を0.0005に設定し、バッチサイズ(batch size)を180に設定し、学習率更新方式が以下の数式8であり、式において、
Figure 0007136500000014
が学習率であることである。
Figure 0007136500000015
以上の7つのステップにおけるステップ7)は、具体的には、PyTorchが動的画像の形式を採用し、自分のネットワーク構築の考え方を実現しやすいことを含む。
2.実際の実施
本発明の実施例は、以下のように実現され、ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別技術であり、前記技術は、以下を含む。
参照用データセットに対してデータ前処理を行ってデータ拡充を行う必要があり、以下のようないくつかのデータ処理方式を使用する。
1)データセットにおいてランダムに複数の画像を抽出して付加的ガウスノイズ処理を行う。
2)データセットにおいてランダムに複数の画像を抽出し、その上に一つの長方形の遮蔽ブロックをランダムに追加し、且つ2cmから5cmの領域の長さと幅をランダムに選択する。長方形がPerson画像を可能な限り遮蔽するように、画像を左から右へ三つの列に分け、且つ中央列においてマトリックスの中心をランダムに選択する。遮蔽ブロックのR、G及びBチャネルのピクセル値は0255であり、且つデータセットにおける平均値である。Market-1501データセットにおいて、ピクセルの平均値は、89.3、102.5及び98.7であり、Cycle GANによって遮蔽画像に対して回復を行う。
トレーニングデータにおいてランダムに複数枚の画像を抽出して水平反転、付加的ノイズ、ランダム消去等の処理を行う。それとともに、Market1501データセットにおける6つのcameraに対して、異なるcamera間の画像をCycle GANを用いてcameraスタイルマイグレーションを行い、データセットを倍増させる。
データセットに対して対応する組織と上記データ処理を行った後、パラメータ及び時間面の配慮により、ResNet50を基準ネットワークモデルとして使用し、画像をコンボリューショナルニューラルネットワーク(ResNet50)に入力して特徴抽出を行う。Market1501は、データ量が比較的に大きな歩行者データセットに属するため、ImageNetにおいて予めトレーニングされたネットワークモデルを用いて抽出を行う。
ネットワークトレーニング全体に対して、identification lossとranked list lossを融合させる方式で共同トレーニングを行い、モデル全体は、三つのブランチの特徴学習構造を含む。各ブランチ特徴によって画像の特徴図を抽出して得て、その後共同の損失によってネットワークトレーニング、重み付け更新を行う。
ラベルノイズチャネルに対して、生成される画像に対して、オリジナルラベルがリアルラベルであることを直接に考えられない。観察されたノイズラベルに対して、ノイズラベルとリアルラベルの前の移行確率を学習する必要があり、オリジナルデータのラベルがクリーンであるが、生成されるデータのラベルがノイズであると考えられる。観察ラベルに対して、以下の分布(数9)を定義する。
Figure 0007136500000016
式において、
Figure 0007136500000017
分布を所定し、EMアルゴリズムによって暗示パラメータを計算し、Eステップで、パラメータを固定し且つ移行確率を予測する。
Figure 0007136500000018
式において、
Figure 0007136500000019
Mステップで、パラメータを更新する。
Figure 0007136500000020
Figure 0007136500000021
最後に、ターゲット関数は、以下の数式12として表示することができ、式において、
Figure 0007136500000022
は、EMアルゴリズムにおいて採用されるターゲット関数を表す。
Figure 0007136500000023
本発明は、Market-1501データセットにおいて現段階で最も良い識別結果を達成し、Market-1501データセットにおける結果が表1に示される。
Figure 0007136500000024
図3に示すように、評価計算によって、本発明によって提案されるノイズチャネルに基づくランダム遮蔽回復の歩行者再識別技術は、Market1501データセット(re-rankingを使用せず)においてmAPが70.1であり、rank1が86.6であり、rank5が94.6である。それとともに、他のデータセットにおいてよい実験効果も取得した。
以上に記載しているのは、本発明の具体的な実施形態に過ぎないが、本発明の保護範囲は、これに限定されるものではなく、当業者であれば、本発明によって掲示された技術的範囲内において、様々な等価な修正又は置換を容易に想到でき、これらの修正又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は、請求項の保護範囲に準ずるものとする。

Claims (10)

  1. ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法であって、該方法は、
    参照用データセットに対してデータ区分及び前処理を行った後、遮蔽回復のためのCANネットワーク構造を構築し、且つそれを利用して参照用データセットにおいてデータ区分及び前処理を経た後に得られるトレーニングセットに対してデータ拡充を行い、データ拡充が行われた後のトレーニングセットを利用して基礎ネットワーク主体特徴抽出構造に対してトレーニングを行い、トレーニング済みの基礎ネットワーク主体特徴抽出構造を得るステップ1と、
    データ拡充によるラベル誤差を減らすためのノイズチャネル構造を構築するステップ2と、
    トレーニング済みの基礎ネットワーク主体特徴抽出構造、ノイズチャネル構造及び遮蔽回復のためのCANネットワーク構造に基づき、ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別ネットワークを総合的に確立して得るステップ3と、及び、
    ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別ネットワークを利用して実際の測定対象のオリジナル画像に対して識別を行うステップ4とを含む、ことを特徴とするノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法。
  2. 前記ステップ1は、
    参照用データセットをトレーニングセットとテストセットに区分した後、トレーニングセットからランダムに画像データを抽出し且つ前処理操作を行うステップ101と、
    遮蔽回復のためのCANネットワーク構造を構築し且つそれを利用してトレーニングセットに対して更にデータ拡充を行うステップ102と、
    トレーニングネットワークモデルに必要なパラメータと対応式を設定するステップ103と、及び、
    設定を完了した後に前処理操作とデータ拡充を経た後の画像データを基礎ネットワーク主体特徴抽出構造に入力し、トレーニング済みの基礎ネットワーク主体特徴抽出構造を得るステップ104とを含む、ことを特徴とする請求項1に記載のノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法。
  3. 前記ステップ101における参照用データセットは、Market1501データセットであり、前記ステップ101における前処理操作は、水平反転、付加的ノイズ又はランダム消去を含み、前記ステップ104における基礎ネットワーク主体特徴抽出構造は、ResNet50ネットワーク構造である、ことを特徴とする請求項2に記載のノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法。
  4. 前記ステップ104において、前処理操作とデータ拡充を経た後の画像データを基礎ネットワーク主体特徴抽出構造に入力してトレーニングを行うプロセスにおいて、Adam最適化手法を用いてパラメータを自動的に調整し、Dropout対策を用いてオーバーフィッティング状況の発生を避け、Batch Normalizationを用いてネットワークの収束速度を上げる、ことを特徴とする請求項2に記載のノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法。
  5. 前記ステップ103は、具体的には、トレーニング総サイクルepochを150に設定し、重み付け減衰パラメータweight decayを0.0005に設定し、バッチサイズbatch sizeを180に設定し、学習率更新方式を設定することを含み、その対応する記述式は、数式1であり、
    Figure 0007136500000025
    式において、
    Figure 0007136500000026
    が学習率である、ことを特徴とする請求項2に記載のノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法。
  6. 前記ステップ1における遮蔽回復のためのCANネットワーク構造は、オリジナルデータセットを学習し且つ画像を生成するための生成器ネットワークと、入力画像がリアルであるか否か、即ち該入力データがオリジナルデータに属するか、それとも前記生成器によって生成されるかを判定するための判別器とで構成され、対応する数学記述式は、数式2であり、
    Figure 0007136500000027
    式において、xが遮蔽画像であり、yがターゲット画像であり、DとGがそれぞれ判別器ネットワークと生成器ネットワークを表す、ことを特徴とする請求項1に記載のノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法。
  7. 前記ステップ2において前記ノイズチャネル構造を利用してデータ拡充によるラベル誤差を減らすプロセスは、具体的には、
    生成される画像データに対応するオリジナルラベルと、前記ノイズチャネル構造を利用して観察して得られるノイズラベルとの間の移行確率に対して、分布を所定するステップ201と、
    EMアルゴリズムを利用して分布に対して暗示パラメータを求めて得て、且つそれを利用してデータ拡充によるラベル誤差を減らすステップ202とを含む、ことを特徴とする請求項1に記載のノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法。
  8. 前記ステップ201における分布は、その記述式は、数式3であり、
    Figure 0007136500000028
    式において、
    Figure 0007136500000029
  9. 前記ステップ202においてEMアルゴリズムを利用して分布に対して暗示パラメータを求めて得るプロセスには、
    Eステップで暗示パラメータθとωを固定して移行確率を予測すること、Mステップでパラメータθを更新することが含まれ、そのうち、前記予測移行確率は、その対応する記述式は、数式4であり、
    Figure 0007136500000030
    式において、
    Figure 0007136500000031
    前記更新パラメータ
    Figure 0007136500000032
    は、その対応する記述式は、数式5であり、
    Figure 0007136500000033
    式において、
    Figure 0007136500000034
  10. 前記EMアルゴリズムにおいて採用されるターゲット関数は、その対応する記述式は、数式6であり、
    Figure 0007136500000035
    式において、
    Figure 0007136500000036
    は、EMアルゴリズムに採用されるターゲット関数を表す、ことを特徴とする請求項9に記載のノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法。
JP2021087114A 2020-11-23 2021-05-24 ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法 Active JP7136500B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011321451.7 2020-11-23
CN202011321451.7A CN112434599B (zh) 2020-11-23 2020-11-23 一种基于噪声通道的随机遮挡恢复的行人重识别方法

Publications (2)

Publication Number Publication Date
JP2022082493A JP2022082493A (ja) 2022-06-02
JP7136500B2 true JP7136500B2 (ja) 2022-09-13

Family

ID=74693648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021087114A Active JP7136500B2 (ja) 2020-11-23 2021-05-24 ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法

Country Status (2)

Country Link
JP (1) JP7136500B2 (ja)
CN (1) CN112434599B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239782B (zh) * 2021-05-11 2023-04-28 广西科学院 一种融合多尺度gan和标签学习的行人重识别系统及方法
TWI779760B (zh) * 2021-08-04 2022-10-01 瑞昱半導體股份有限公司 資料擴增方法與非暫態電腦可讀取媒體
CN113742775B (zh) * 2021-09-08 2023-07-28 哈尔滨工业大学(深圳) 一种图像数据安全检测方法、系统和存储介质
CN115909464B (zh) * 2022-12-26 2024-03-26 淮阴工学院 一种面向行人重识别的自适应弱监督标签标记方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101941994B1 (ko) 2018-08-24 2019-01-24 전북대학교산학협력단 결합심층네트워크에 기반한 보행자 인식 및 속성 추출 시스템
CN109977841A (zh) 2019-03-20 2019-07-05 中南大学 一种基于对抗深度学习网络的人脸识别方法
CN110443203A (zh) 2019-08-07 2019-11-12 中新国际联合研究院 基于对抗生成网络的人脸欺骗检测系统对抗样本生成方法
CN111310728A (zh) 2020-03-16 2020-06-19 中国科学技术大学 基于监控相机和无线定位的行人重识别系统
CN111666800A (zh) 2019-12-23 2020-09-15 珠海大横琴科技发展有限公司 一种行人重识别模型训练方法及行人重识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693723A (zh) * 2012-04-01 2012-09-26 北京安慧音通科技有限责任公司 一种基于子空间的非特定人孤立词识别方法及装置
CN108334848B (zh) * 2018-02-06 2020-12-25 哈尔滨工业大学 一种基于生成对抗网络的微小人脸识别方法
CN110008842A (zh) * 2019-03-09 2019-07-12 同济大学 一种基于深度多损失融合模型的行人重识别方法
CN110135366B (zh) * 2019-05-20 2021-04-13 厦门大学 基于多尺度生成对抗网络的遮挡行人重识别方法
CN111126360B (zh) * 2019-11-15 2023-03-24 西安电子科技大学 基于无监督联合多损失模型的跨域行人重识别方法
CN110929679B (zh) * 2019-12-05 2023-06-16 杭州电子科技大学 一种基于gan的无监督自适应行人重识别方法
CN111259850B (zh) * 2020-01-23 2022-12-16 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101941994B1 (ko) 2018-08-24 2019-01-24 전북대학교산학협력단 결합심층네트워크에 기반한 보행자 인식 및 속성 추출 시스템
CN109977841A (zh) 2019-03-20 2019-07-05 中南大学 一种基于对抗深度学习网络的人脸识别方法
CN110443203A (zh) 2019-08-07 2019-11-12 中新国际联合研究院 基于对抗生成网络的人脸欺骗检测系统对抗样本生成方法
CN111666800A (zh) 2019-12-23 2020-09-15 珠海大横琴科技发展有限公司 一种行人重识别模型训练方法及行人重识别方法
CN111310728A (zh) 2020-03-16 2020-06-19 中国科学技术大学 基于监控相机和无线定位的行人重识别系统

Also Published As

Publication number Publication date
JP2022082493A (ja) 2022-06-02
CN112434599A (zh) 2021-03-02
CN112434599B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
JP7136500B2 (ja) ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法
Jia et al. Single-side domain generalization for face anti-spoofing
Li et al. Dbcface: Towards pure convolutional neural network face detection
CN108764085B (zh) 基于生成对抗网络的人群计数方法
Tesfaye et al. Multi-target tracking in multiple non-overlapping cameras using constrained dominant sets
Ming et al. Simple triplet loss based on intra/inter-class metric learning for face verification
Lin et al. Integrating graph partitioning and matching for trajectory analysis in video surveillance
CN107230267B (zh) 基于人脸识别算法的幼儿园智能签到方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
Zheng et al. Attention-based spatial-temporal multi-scale network for face anti-spoofing
KR102132722B1 (ko) 영상 내 다중 객체 추적 방법 및 시스템
Wang et al. Describe and attend to track: Learning natural language guided structural representation and visual attention for object tracking
Xiao et al. MeMu: Metric correlation Siamese network and multi-class negative sampling for visual tracking
CN115527269B (zh) 一种人体姿态图像智能识别方法及系统
Tan et al. A multiple object tracking algorithm based on YOLO detection
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
Chen et al. A multi-scale fusion convolutional neural network for face detection
Yang et al. A method of pedestrians counting based on deep learning
Gao et al. An object point set inductive tracker for multi-object tracking and segmentation
Zhao et al. Exploring complementarity of global and local spatiotemporal information for fake face video detection
Zhu et al. A novel simple visual tracking algorithm based on hashing and deep learning
CN109002808A (zh) 一种人体行为识别方法及系统
CN106778589A (zh) 一种基于改进型LeNet的鲁棒蒙面人脸检测方法
Li et al. Occluded person re-identification method based on multiscale features and human feature reconstruction
Li An improved face detection method based on face recognition application

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220825

R150 Certificate of patent or registration of utility model

Ref document number: 7136500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150