JP7403673B2

JP7403673B2 - モデルトレーニング方法、歩行者再識別方法、装置および電子機器

Info

Publication number: JP7403673B2
Application number: JP2022547887A
Authority: JP
Inventors: ワーン，ジーガーン; ワーン，ジエン; スン，ハオ; ディーン，エルルイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-07
Filing date: 2022-01-29
Publication date: 2023-12-22
Anticipated expiration: 2042-01-29
Also published as: KR20220116331A; JP2023523502A

Description

本出願は、２０２１年４月７日に提出された、出願番号が２０２１１０３７２２４９．５、発明名称が「モデルトレーニング方法、歩行者再識別方法、装置および電子機器」である中国特許出願の優先権を主張し、その全内容は参照により本出願に組み込まれる。

本開示は人工知能分野に関し、具体的にはコンピュータ視覚と深層学習技術であり、インテリジェント都市のシーンに用いることができる。

歩行者再識別は、歩行者再度識別とも呼ばれ、コンピュータ視覚技術を利用して画像またはビデオシーケンス中に特定の歩行者が存在するかどうかを判定するための技術である。一般に、大量のサンプル画像を使用して、歩行者再識別モデルに、教師トレーニングまたは教師なしトレーニングを行い、収束までトレーニングされたモデルを使用して、歩行者再識別タスクを完了することができる。収束モデルの性能は、サンプル画像の品質および難易度に依存する。一般に、モデルは、外見が明らかに異なる歩行者を区別することができるが、外見が似ているが身分が異なる歩行者を区別しにくい。

本開示はモデルトレーニング方法、歩行者再識別方法、装置および電子機器を提供する。
本開示の一態様によれば、
第１エンコーダを利用してサンプルデータセットにおける第１歩行者画像と第２歩行者画像を特徴抽出し、第１歩行者画像の画像特徴と第２歩行者画像の画像特徴を得ることと、
第１歩行者画像の画像特徴と第２歩行者画像の画像特徴を融合し、融合特徴を得ることと、
第１デコーダを利用して融合特徴を特徴復号し、第３歩行者画像を得ることと、
第３歩行者画像を第１歩行者画像の負のサンプル画像として確定し、第１歩行者画像および負のサンプル画像を用いて第１プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得ることとを含むモデルトレーニング方法を提供する。

本開示の別の態様によれば、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、目標画像の歩行者特徴および候補歩行者画像の歩行者特徴を得て、ここでは、歩行者再識別モデルは本開示の任意の実施例によって提供されるモデルトレーニング方法によって得られるものであることと、
目標画像の歩行者特徴と候補歩行者画像の歩行者特徴に基づいて、目標画像と候補歩行者画像との類似度を確定することと、
類似度が予め設定された条件に合致する場合、候補歩行者画像を目標画像の関連画像として確定することとを含む歩行者再識別方法を提供する。

本開示の他の一態様によれば、
第１エンコーダを利用してサンプルデータセットにおける第１歩行者画像および第２歩行者画像を特徴抽出し、第１歩行者画像の画像特徴および第２歩行者画像の画像特徴を取得するために用いられる第１符号化モジュールと、
第１歩行者画像の画像特徴と第２歩行者画像の画像特徴を融合し、融合特徴を得るために用いられる融合モジュールと、
第１デコーダを利用して融合特徴を特徴復号し、第３歩行者画像を取得するために用いられる第１復号モジュールと、
第３歩行者画像を第１歩行者画像の負のサンプル画像と確定し、かつ第１歩行者画像および前記負のサンプル画像を利用して第１プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得るために用いられる第１トレーニングモジュールとを含むモデルトレーニング装置を提供する。

本開示の別の態様によれば、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、目標画像の歩行者特徴および候補歩行者画像の歩行者特徴を得るために用いられ、歩行者再識別モデルは本開示の任意の実施例によって提供されたモデルトレーニング方法によって得られるものである第２抽出モジュールと、
目標画像の歩行者特徴および候補歩行者画像の歩行者特徴に基づいて、目標画像と候補歩行者画像との類似度を確定するために用いられる第３類似度モジュールと、
類似度が予め設定された条件に合致する場合に、候補歩行者画像を目標画像の関連画像として確定するために用いられる第２確定モジュールとを含む歩行者再識別装置を提供する。

本開示の別の態様によれば、
少なくとも１つのプロセッサ、および
該少なくとも１つのプロセッサに通信接続されたメモリを含み、
該メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶され、該命令は、該少なくとも１つのプロセッサが本開示のいずれか１つの実施例における方法を実行できるように、該少なくとも１つのプロセッサによって実行される電子機器を提供する。

本開示の別の態様によれば、本開示に記載のいずれか１つの実施例における方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。

本開示の別の態様によれば、プロセッサによって実行されると、本開示のいずれか１つの実施例における方法を実施するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本開示の技術によれば、第３歩行者画像は、第１サンプル画像の画像特徴と第２サンプル画像の画像特徴とに基づいて融合されているので、第３歩行者画像は、第１歩行者画像中の情報も含めば、第１歩行者画像とは一定の差異も有する。第１歩行者画像の負のサンプルとして第３歩行者画像を利用することにより、第１歩行者画像とその負のサンプルとの間の区別の難易度を向上させることができ、したがって、区別が困難なサンプルに基づいてトレーニングして歩行者再識別モデルを得て、モデルにより外見が似ているが身分が異なる歩行者を区別する効果を向上させる。

この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことを理解されたい。本開示の他の特徴は、以下の明細書によって理解されやすくなる。

図面は、本解決案をより良く理解するためのものであり、本開示に対する制限を構成しない。
本開示の一実施例によって提供されるモデルトレーニング方法の概略図である。本開示の別の実施例によって提供されるモデルトレーニング方法の第１段階の概略図である。本開示の別の実施例によって提供されるモデルトレーニング方法の第２段階の概略図である。本開示の別の実施例によって提供されるモデルトレーニング方法の第３段階の概略図である。本開示の一実施例によって提供される歩行者再識別方法の概略図である。本開示の一実施例によって提供されるモデルトレーニング装置の概略図である。本開示の別の実施例によって提供されるモデルトレーニング装置の概略図である。本開示のさらに別の実施例によって提供されるモデルトレーニング装置の概略図である。本開示の一実施例によって提供される歩行者再識別装置の概略図である。本開示の実施例による方法を実現するための電子機器のブロック図である。

以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲および精神から逸脱することなく、本明細書で説明される実施形態に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略する。

図１は本開示の一実施例によって提供されるモデルトレーニング方法の概略図である。図１に示すように、モデルトレーニング方法は、
第１エンコーダを利用してサンプルデータセットにおける第１歩行者画像と第２歩行者画像を特徴抽出し、第１歩行者画像の画像特徴と第２歩行者画像の画像特徴を得るステップＳ１１と、
第１歩行者画像の画像特徴と第２歩行者画像の画像特徴を融合し、融合特徴を得るステップＳ１２と、
第１デコーダを利用して融合特徴を特徴復号し、第３歩行者画像を得るステップＳ１３と、
第３歩行者画像を第１歩行者画像の負のサンプル画像として確定し、第１歩行者画像および負のサンプル画像を用いて第１プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得るステップＳ１４と、を含む。

上述したステップＳ１１における第１エンコーダは、歩行者画像に基づいて画像特徴を抽出するために使用されてもよく、ステップＳ１３における第１デコーダは、画像特徴に基づいて復号して新しい画像を得るするために使用されてもよい。したがって、第１エンコーダおよび第１デコーダは画像生成モデルを構成することができ、入力された歩行者画像に基づいて新しい歩行者画像を再構成するために使用される。ここで、第１エンコーダによって抽出された画像特徴は、第１ベクトルを使用して表すことができる。該ベクトルは、対応する歩行者画像の多次元の特徴情報を含むことができる。

本開示の実施例では、サンプルデータセットにおける、第１歩行者画像および第２歩行者画像のような異なる歩行者画像を第１エンコーダにそれぞれ入力することができ、第１エンコーダは対応する画像特徴を出力する。画像特徴を融合することにより、融合特徴を得る。続いて融合特徴を第１デコーダに入力し、第１デコーダは、融合特徴に基づいて第３歩行者画像を再構成して出力する。

第１歩行者画像と第２歩行者画像との融合特徴に基づいて第３歩行者画像が再構成されるため、第３歩行者画像は、第１歩行者画像の情報も第２歩行者画像の情報も含む。第３歩行者画像を第１歩行者画像の負のサンプル画像とすることで、第１歩行者画像とその負のサンプル画像との間の区別を難しくし、したがって区別が困難なサンプルに基づいてトレーニングして歩行者再識別モデルを得て、モデルにより、外見が類似しているが身分が異なる歩行者を区別する効果を向上させる。

例示的に、サンプルデータセットは、少なくとも２つの歩行者画像を含むことができる。各歩行者画像は、１人の歩行者に対応する。異なる歩行者画像は、異なる歩行者に対応してもよいし、同一の歩行者に対応してもよい。

実際の応用では、サンプルデータセットから１つの画像をサンプリングして第１サンプル画像とすることができる。そして、第１サンプル画像を基準として、第１歩行者画像とは大きく異なる画像、例えば第１歩行者画像とは異なる歩行者に対応する画像を第２サンプル画像としてサンプリングする。サンプリングされた画像に基づいて第３歩行者画像を再構成し、第１歩行者画像と第３歩行者画像をそれぞれ第１プリセットモデルに入力し、第１プリセットモデルは第１歩行者画像と第３歩行者画像をそれぞれ処理した後、対応する処理結果、例えば画像中の歩行者特徴または歩行者標識を出力する。第１プリセットモデルの処理結果と第１プリセットモデルに対応する損失関数に基づいて、損失関数の関数値を算出する。そして、第１プリセットモデルが収束条件に到達するまで、例えば更新回数が第１プリセット閾値に到達し、損失関数の関数値が第２プリセット閾値より小さくなったり、損失関数の関数値が変化しなくなったりするまで、損失関数の関数値に基づいて第１プリセットモデルを更新し、収束した第１プリセットモデルを歩行者再識別タスクを完了することに利用できる歩行者再識別モデルとして確定する。

例示的には、第１プリセットモデルに対応する損失関数は、第１歩行者画像の処理結果および負のサンプル画像の処理結果をプッシュするように第１プリセットモデルを制約することに利用でき、あるいは、第１プリセットモデルが、第１歩行者画像および負のサンプル画像に対して、特徴空間内で、できるだけ離れた処理結果を出力するようにすることに利用できる。これにより、第１プリセットモデルは、異なる歩行者画像を区別することができる。

例示的には、サンプリングごとに第３歩行者画像を生成し、第１歩行者画像と第３歩行者画像を含む一組の正負のサンプルペアを形成した後、その一組の正負のサンプルペアを利用して第１プリセットモデルを更新する関連操作を実行することができる。続いて、次のサンプリングを行う。まずサンプルデータセットの各歩行者画像ごとにいずれも対応する負のサンプル画像を取得し、複数の正負のサンプルペアを形成した後、複数の正負のサンプルペアを用いて第１プリセットモデルを複数回更新する関連動作を実行してもよい。

例示的には、第１プリセットモデルを更新することによって第１プリセットモデルのトレーニングを実現する過程において、第１エンコーダおよび第１デコーダを更新することもできる。具体的には、モデルトレーニング方法は、
第１歩行者画像と負のサンプル画像に基づいて、第１類似度を確定することと、
サンプル画像セットの第１歩行者画像以外の少なくとも一つの歩行者画像に基づいて、少なくとも一つの歩行者画像にそれぞれ対応する少なくとも一つの第２類似度を確定することと、
第１類似度、少なくとも１つの第２類似度、および敵対的損失関数に基づいて第１エンコーダおよび第１デコーダを更新することとをさらに含むことができる。

ここでは、敵対的損失関数は、第１類似度が少なくとも１つの第２類似度のいずれかよりも大きいように制約するために使用することができる。これをもとに、第１類似度、少なくとも１つの第２類似度、および敵対的損失関数に基づいて、第１エンコーダおよび第１デコーダを更新して、第１エンコーダおよび第１デコーダによって再構成された画像を第１歩行者画像とより類似させることができ、第１歩行者画像と負のサンプル画像との間の区別の難しさを増加させて、歩行者再識別モデルの効果をさらに向上させることができる。

例示的に、第１類似度および第２類似度に基づいて、敵対的損失関数の関数値を計算し、敵対的損失関数の関数値に基づいて第１エンコーダおよび第１デコーダを更新することができる。

いくつかのシーンでは、再構成損失関数および／または負のサンプル画像の真実度に関連して第１エンコーダおよび第１デコーダを更新してもよい。ここでは、再構成損失関数は、第１エンコーダおよび第１デコーダによって再構成された画像と、第１歩行者画像および／または第２歩行者画像との類似度が予め設定された閾値よりも高い、すなわち、再構成された画像が、入力された画像とある程度の類似性を有するように制約するために使用することができる。真実度は真実度判別器を用いて確定することができる。一例として、まず、敵対的損失関数の関数値、再構成損失関数の関数値を計算し、真実度を確定してから、上記の３者を用いて第１エンコーダおよび第２エンコーダを更新してもよい。

第１歩行者画像およびその負のサンプル画像を用いて第１プリセットモデルをトレーニングして歩行者再識別モデルを得る過程において、また第１歩行者画像および前記負のサンプル画像を用いて第１エンコーダおよび第２デコーダをトレーニングするので、第１エンコーダおよび第１デコーダは、再構成される負のサンプル画像の品質を段階的に向上させ、これにより、第１プリセットモデルのトレーニング効果を段階的に向上させる。

例示的に、第１エンコーダおよび第１デコーダは、歩行者画像に基づいて予めトレーニングされて得られてもよい。具体的には、第１エンコーダおよび第１デコーダを取得する方法は、
第２エンコーダを利用してサンプルデータセットにおけるｉ番目の歩行者画像を特徴抽出し、ｉ番目の歩行者画像の画像特徴を得て、ｉは１以上の正の整数であることと、
第２デコーダを利用してｉ番目の歩行者画像の画像特徴を特徴復号し、生成画像を得ることと、
ｉ番目の歩行者画像と生成画像との類似度および再構成損失関数に基づいて、第２エンコーダおよび第２デコーダを更新することと、
第２エンコーダおよび第２デコーダが収束条件に合致する場合、第２エンコーダを第１エンコーダとして確定して、第２デコーダを第１デコーダとして確定することとを含む。

ここで、再構成損失関数は、ｉ番目の歩行者画像と生成画像との類似度が予め設定された閾値よりも小さいように制約するために使用される。あるいは、再構成損失関数は、復号された画像が入力符号化された画像と類似することを制約する。

上記の過程に基づいて、第２エンコーダおよび第２デコーダは、入力画像と類似する画像を再構成する能力を段階的に向上させる。収束条件に合致する状況で、第２エンコーダおよび第２デコーダを、第１エンコーダおよび第１デコーダが類似する画像を再構成する能力を有するように、第１エンコーダおよび第１デコーダとして確定する。したがって、、第１エンコーダと第１デコーダを負のサンプル画像の生成に適用することで、生成効果を向上させることができ、歩行者再識別モデルのトレーニング効果を向上させることができる。

例示的に、ｉ番目の歩行者画像と生成画像との類似度と、再構成損失関数とに基づいて第２エンコーダおよび第２デコーダを更新することは、
ｉ番目の歩行者画像と生成画像との類似度および再構成損失関数に基づいて、再構成損失関数の関数値を計算することと、
真実度判別器を利用して生成画像の真実度を確定することと、
再構成損失関数の関数値および生成画像の真実度に基づいて、第２エンコーダおよび第２デコーダを更新することとを含む。

つまり、トレーニング過程において、再構成損失関数を利用して、第２エンコーダおよび第２デコーダによって生成された画像が入力画像に類似するように制約するだけでなく、生成画像も可能な限りリアルになるように制約する。第２エンコーダと第２デコーダをトレーニングして得られた第１エンコーダと第１デコーダを負のサンプル画像の生成に適用することにより、生成効果を向上させ、これにより、歩行者再識別モデルのトレーニング効果を向上させることができる。

例示的に、上記の第１プリセットモデルはまた、予めトレーニングされて得られてもよい。具体的には、第１プリセットモデルを取得する方法は、
第２プリセットモデルを利用してサンプルデータセットにおける各歩行者画像を特徴抽出し、各歩行者画像の歩行者特徴を得ることと、
歩行者特徴に基づいてサンプルデータセットにおける各歩行者画像をクラスタリングし、少なくとも２つのクラスタラベルにそれぞれ対応する少なくとも２つのクラスタを得て、少なくとも２つのクラスタの各クラスタはいずれも少なくとも１つの歩行者画像を含むことと、
サンプルデータセットにおける各歩行者画像および各歩行者画像に対応するクラスタラベルに基づいて、第２プリセットモデルを、収束までトレーニングし、第１プリセットモデルを得ることとを含む。

ここで、歩行者特徴は、第２ベクトルを使用して表すことができる。第２ベクトルは、歩行者画像が対応する歩行者の多次元上の特徴を含む。
なお、本開示の実施例における各エンコーダおよび第１プリセットモデル、第２プリセットモデル、歩行者再識別モデルは、いずれも特徴抽出のために利用することができ、各エンコーダまたはモデルは、同じ方法または異なる方法によって異なる次元の特徴を抽出することができる。例えば、エンコーダは、画像のピクチャ効果に関連する色などの特徴を重点的に抽出し、第１プリセットモデル、第２プリセットモデル、歩行者再識別モデルは歩行者の高さなどの歩行者に関連する特徴を重点的に抽出することができる。

例示的には、上記の、歩行者画像をクラスタリングすることは、ＤＢＳＣＡＮ（Ｄｅｎｓｉｔｙ－ＢａｓｅｄＳｐａｔｉａｌＣｌｕｓｔｅｒｉｎｇｏｆＡｐｐｌｉｃａｔｉｏｎｓｗｉｔｈＮｏｉｓｅ、ノイズを伴うアプリケーションの密度ベースの空間クラスタリング方法）、Ｋ－ｍｅａｎｓ（Ｋ－ｍｅａｎｓＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍ、Ｋ平均クラスタリングアルゴリズム）などの少なくとも１つによって実現することができる。

クラスタリングにより、各歩行者画像は異なるクラスタに分割され、各クラスタのクラスタラベルはクラスタにおける各歩行者画像の擬似ラベルとすることができる。各歩行者画像とそのクラスタラベルまたは擬似ラベルを利用して第２プリセットモデルをトレーニングし、教師なしトレーニングを実現し、各歩行者画像に対するマーキングコストを減少することができる。

実際の応用では、第２プリセットモデルを収束までトレーニングし、第１プリセットモデルを得る過程において、第２プリセットモデルに対応する損失関数を利用して、第２プリセットモデルを拘束して、異なるクラスタの歩行者画像に対する処理結果をプッシュし、同じクラスタの歩行者画像に対する処理結果をプルすることができる。したがって、第２プリセットモデルは、異なる歩行者画像を区別する能力を段階的に向上させることができる。

例示的に、上記の第１歩行者画像および第２歩行者画像は、少なくとも２つのクラスタのうちの異なるクラスタにおける歩行者画像であってもよい。
第１歩行者画像および第２歩行者画像として異なるクラスタの画像を使用することによって、融合特徴を用いて再構成された第３歩行者画像が第１歩行者画像と異なることを確保することができ、これによって歩行者再識別モデルが正確に区別するという能力を有することを確保することができる。

以下、具体的な適用例によって、本開示の実施例のモデルトレーニング方法の代替的な実施形態を説明する。適用例では、モデルトレーニング方法は、歩行者再識別モデルをトレーニングして得るために利用される。具体的には３段階に分けることができる。

図２は、第１段階の概略図である。図２に示すように、第１段階は以下のステップを含む：
特徴抽出ステップ２０１：初期化されたモデルを使用してラベルなしサンプルデータセット２００における各歩行者画像を特徴抽出する。ここで、初期化されたモデルを第２プリセットモデルと表記し、ラベル付き複数の歩行者画像を利用してトレーニングして初期化されたモデルを得ることができる。

クラスタリングステップ２０２：ＤＢＳＣＡＮ、ｋ－ｍｅａｎｓなどのクラスタリングアルゴリズムのうちの１つまたは複数を使用して、ステップ２０１で抽出された特徴をクラスタリングし、ラベルなしサンプルデータセット２００における画像のクラスタリングを実現する。このようにして、ラベルなしサンプルデータセット２００における各画像は、特徴空間において、異なるクラスタに分割される。

擬似ラベルを割り当てるステップ２０３：特徴空間における、各画像の対応するクラスクに応じて、各画像に擬似ラベルを割り当てる。擬似ラベルは、対応するクラスタインデックスである。

教師なし比較トレーニングステップ２０４：各画像、ステップ２０３で割り当てられた擬似ラベルおよび損失関数に基づいて、第２プリセットモデルをトレーニングする。ここでは、損失関数は同じクラスタ内の画像が特徴空間において互いに近づき、異なるクラスタの画像が特徴空間において互いに離れるように制約する。

ステップ２０４での往復反復のトレーニング過程を経て、第２プリセットモデルは収束し、第１プリセットモデル２０５を得る。
図３は、第２段階の概略図である。第２段階は、画像生成モデルをトレーニングするために使用され、画像生成モデルはエンコーダおよびデコーダを含む。第２段階の目的は、画像生成モデルに、抽象特徴から自然画像を再構成する能力を持たせることである。第２段階は以下のステップを含む：
特徴符号化ステップ３００：画像生成モデルにおける第２エンコーダを用いて、ラベルなしサンプルデータセット２００における各画像を特徴抽出し、対応する画像特徴３０１を得る。

特徴復号ステップ３０２：画像生成モデルにおける第２デコーダを利用して画像特徴３０１を復号し、生成画像を得る。
真実度判別ステップ３０３：真実度判別器を利用して、生成画像の真実度を確定する。該ステップは、画像生成モデルから出力される生成画像ができるだけリアルになるように制約するために使用される。

再構成損失関数計算ステップ３０４：生成画像およびラベルなしサンプルデータセット２００における画像生成モデルに入力する画像に基づいて再構成損失関数を計算し、再構成損失関数は、第２デコーダによって復号された生成画像が第２エンコーダに入力された画像に類似するように制限するために使用される。

ステップ３０３およびステップ３０４の出力に基づいて、画像生成モデルを更新することができる。予め設定された収束条件に合致する場合、画像生成モデルにおける第２エンコーダを第１エンコーダとして確定し、画像生成モデルにおける第２デコーダを第１デコーダとして確定することで、第１エンコーダおよび第１デコーダを第３段階に適用する。

図４は、第３段階の概略図である。図４に示すように、第３段階は以下を含む：
サンプリングステップ４００：ラベルなしサンプルデータセット２００における各画像を、基準画像、すなわち第１歩行者画像として順次サンプリングする。続いて、第１歩行者画像と同じクラスタに属していない画像を、第２歩行者画像としてサンプリングする。

特徴符号化ステップ４０１：画像生成モデルにおける第１エンコーダを用いて第１歩行者画像と第２歩行者画像をそれぞれ特徴抽出し、対応する画像特徴を得る。
融合特徴ステップ４０２：ステップ４０１で得られた画像を重み付け融合し、融合特徴を得る。

特徴復号ステップ４０３：画像生成モデルにおける第１デコーダを用いて融合特徴を復号し、第３歩行者画像４０６を得る。
真実度判別ステップ４０４：真実度判別器を利用して、第３歩行者画像４０６の真実度を確定する。

再構成および敵対的損失関数４０５：再構成損失関数を計算することに加えて、該ステップは、また敵対的損失関数を計算する。敵対的損失関数は、第３歩行者画像４０６と第１歩行者画像との類似度が第３歩行者画像４０６とラベルなしサンプルデータセット２００におけるの他の画像との類似度よりも大きくなるように制約する。すなわち、生成された第３歩行者画像は、第１歩行者画像と外見的に一定の類似性を有する。

教師なしトレーニングステップ４０７：該ステップは第３歩行者画像を第１歩行者画像の負のサンプルとし、第１プリセットモデルに教師なしトレーニングを行う。第１段階における教師なしトレーニングステップでの損失関数の制約に加えて、本ステップにおける損失関数は、モデルがハードサンプルを区別する効果を有することができるように、第１歩行者画像および前記負のサンプル画像を特徴空間内においてできるだけプッシュようにさらに制約する。最終的に歩行者再識別モデル４０８に出力する。

本開示の実施例に係る方法によれば、第３歩行者画像は、第１サンプル画像の画像特徴と第２サンプル画像の画像特徴とに基づいて融合されているので、第３歩行者画像は、第１歩行者画像中の情報も含めば、第１歩行者画像とは一定の差異も有する。第１歩行者画像の負のサンプルとして第３歩行者画像を利用することにより、第１歩行者画像とその負のサンプルとの間の区別の難易度を向上させることができ、したがって、区別が困難なサンプルに基づいてトレーニングして歩行者再識別モデルを得て、モデルにより外見が似ているが身分が異なる歩行者を区別する効果を向上させる。

本開示の実施例はまた、上記の歩行者再識別モデルの適用方法を提供する。図５は本開示の一実施例によって提供される歩行者再識別方法を示し、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、目標画像の歩行者特徴および候補歩行者画像の歩行者特徴を得て、ここでは、歩行者再識別モデルは本開示の任意の実施例によって提供されるモデルトレーニング方法によって得られるものであるステップＳ５１と、
目標画像の歩行者特徴と候補歩行者画像の歩行者特徴に基づいて、目標画像と候補歩行者画像との類似度を確定するステップＳ５２と、
類似度が予め設定された条件に合致する場合、候補歩行者画像を目標画像の関連画像として確定するステップＳ５３とを含む。

ここで、プリセット条件とは、例えば、類似度がプリセット閾値未満であるか、類似度が最小であるかなどである。
本開示の実施例が提供するモデルトレーニング方法は区別が困難なサンプルに基づいてトレーニングして歩行者再識別モデルを得るので、歩行者再識別モデルを利用して各画像の歩行者特徴を正確に抽出し、各画像の歩行者特徴に基づいて類似度計算を行い、計算された類似度を利用して候補歩行者画像から目標画像の関連画像を正確に確定することができる。

上記各方法の実現として、本開示はさらにモデルトレーニング装置を提供する。図６に示すように、該装置は、
第１エンコーダを利用してサンプルデータセットにおける第１歩行者画像および第２歩行者画像を特徴抽出し、第１歩行者画像の画像特徴および第２歩行者画像の画像特徴を取得するために用いられる第１符号化モジュール６１０と、
第１歩行者画像の画像特徴と第２歩行者画像の画像特徴を融合し、融合特徴を得るために用いられる融合モジュール６２０と、
第１デコーダを利用して融合特徴を特徴復号し、第３歩行者画像を取得するために用いられる第１復号モジュール６３０と、
第３歩行者画像を第１歩行者画像の負のサンプル画像と確定し、かつ第１歩行者画像および負のサンプル画像を利用して第１プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得るために用いられる第１トレーニングモジュール６４０とを含む。

例示的には、図７に示すように、該装置は、
第１歩行者画像と負のサンプル画像に基づいて、第１類似度を確定するために用いられる第１類似度モジュール７１０と、
サンプル画像セットの第１歩行者画像以外の少なくとも一つの歩行者画像に基づいて、少なくとも一つの歩行者画像にそれぞれ対応する少なくとも一つの第２類似度を確定するために用いられる第２類似度モジュール７２０と、
第１類似度、少なくとも１つの第２類似度、および敵対的損失関数に基づいて第１エンコーダおよび第１デコーダを更新するために用いられる第１更新モジュール７３０とをさらに含む。

例示的には、図７に示すように、該装置は、
第２エンコーダを利用してサンプルデータセットにおける１以上の正の整数であるｉ番目の歩行者画像を特徴抽出し、ｉ番目の歩行者画像の画像特徴を得る第２符号化モジュール７５０と、
第２デコーダを利用してｉ番目の歩行者画像の画像特徴を特徴復号し、生成画像を得るために用いられる第２復号モジュール７６０と、
ｉ番目の歩行者画像と生成画像との類似度および再構成損失関数に基づいて、第２エンコーダおよび第２デコーダを更新するために用いられる第２更新モジュール７７０と、
第２エンコーダおよび第２デコーダが収束条件に合致する場合、第２エンコーダを第１エンコーダとして確定して、第２デコーダを第１デコーダとして確定するために用いられる第１確定モジュール７８０とをさらに含む。

例示的に、第２更新モジュール７７０は、
ｉ番目の歩行者画像と生成画像との類似度および再構成損失関数に基づいて、再構成損失関数の関数値を計算するために用いられる計算ユニット７７１と、
真実度判別器を利用して、生成画像の真実度を確定するために用いられる確定ユニット７７２と、
再構成損失関数の関数値および生成画像の真実度に基づいて、第２エンコーダおよび第２デコーダを更新するために用いられる更新ユニット７７３とを含む。

例示的には、図８に示すように、該装置は、
第２プリセットモデルを利用してサンプルデータセットにおける各歩行者画像を特徴抽出し、各歩行者画像の歩行者特徴を得るために用いられる第１抽出モジュール８１０と、
歩行者特徴に基づいてサンプルデータセットにおける各歩行者画像をクラスタリングし、少なくとも２つのクラスタラベルにそれぞれ対応する少なくとも２つのクラスタを得て、ここでは、少なくとも２つのクラスタの各クラスタはいずれも少なくとも１つの歩行者画像を含むクラスタリングモジュール８２０と、
サンプルデータセットにおける各歩行者画像および各歩行者画像に対応するクラスタラベルに基づいて、第２プリセットモデルを、収束までトレーニングし、第１プリセットモデルを得るために用いられる第２トレーニングモジュール８３０とをさらに含む。

例示的に、第１歩行者画像および第２歩行者画像は、少なくとも２つのクラスタのうちの異なるクラスタにおける歩行者画像である。
本開示の実施例はさらに歩行者再識別装置を提供し、図９に示すように、該装置は、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、目標画像の歩行者特徴および候補歩行者画像の歩行者特徴を得るために用いられ、歩行者再識別モデルは上記のモデルトレーニング方法によって得られる第２抽出モジュール９１０と、
目標画像の歩行者特徴および候補歩行者画像の歩行者特徴に基づいて、目標画像と候補歩行者画像との類似度を確定するために用いられる第３類似度モジュール９２０と、
類似度が予め設定された条件に合致する場合に、候補歩行者画像を目標画像の関連画像として確定するために用いられる第２確定モジュール９３０とを含む。

本開示の実施例の各装置における各ユニット、モジュール、またはサブモジュールの機能は、上記の方法の実施例における対応説明を参照することができ、ここでは説明を省略する。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図１０は本開示の実施例を実施するための例示的な電子機器１０００を示すブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび／又は請求した本開示の実現を制限しない。

図１０に示すように、電子機器１０００は、計算ユニット１００１を含み、それはリードオンリーメモリ（ＲＯＭ）１００２に記憶されるコンピュータプログラムまた記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。ＲＡＭ１００３において、更に電子機器１０００を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット１００１、ＲＯＭ１００２およびＲＡＭ１００３はバス１００４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース１００５もバス１００４に接続される。

電子機器１０００における複数の部品はＩ／Ｏインターフェース１００５に接続され、例えばキーボード、マウスなどの入力ユニット１００６、例えば様々なタイプのディスプレイ、スピーカーなどの出力ユニット１００７、例えば磁気ディスク、光ディスクなどの記憶ユニット１００８、および例えばネットワークカード、変調復調器、無線通信送受信機などの通信ユニット１００９を含む。通信ユニット１００９は、電子機器１０００が例えばインターネットなどのコンピュータネットワークおよび／又は様々な電気通信ネットワークを介して他の装置と情報／データを交換することを可能にする。

計算ユニット１００１は処理およびコンピューティング能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット１００１の例には、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット１００１は、例えばモデルトレーニング方法または歩行者再識別方法などの以上に記載の各方法および処理を実行する。例えば、一部の実施例において、モデルトレーニング方法または歩行者再識別方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット１００８に有形に含まれる。いくつかの実施例において、コンピュータプログラムの部分又は全てはＲＯＭ１００２および／又は通信ユニット１００９を経由して電子機器１０００にロードおよび／又はインストールされてよい。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１によって実行される場合、以上で説明されるモデルトレーニング方法または歩行者再識別方法の１つまたは複数のステップを実行することできる。代替的に、別の実施例において、計算ユニット１００１は他のいかなる適切な方式で（例えば、ファームウェアにより）モデルトレーニング方法または歩行者再識別方法を実行するように構成されてよい。

本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、ロードプログラマブル論理デバイス（ＣＰＬＤ）、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実施され、この１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび／又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

本開示の方法を実施するプログラムコードは１つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行しかつ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示する表示装置（例えば、ＣＲＴ（陰極線管、ＣａｔｈｏｄｅＲａｙＴｕｂｅ）又はＬＣＤ（液晶ディスプレイ、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）監視モニタ）およびキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供してよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインタフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインタフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、例えば、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、インターネットを含む。

コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント－サーバという関係を有するコンピュータプログラムを対応するコンピュータで実行することによってクライアントとサーバの関係を生成する。

理解すべきことは、前述した様々な形態のフローを用いて、改めて順位付け、ことを増加又削除してよいことである。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本明細書はこれに限定されないことである。

上述した具体的な実施形態は、本開示特許請求の範囲を限定するものではない。当業者が理解すべきことは、設計要求と他の要因に基づいて、様々な修正、組み合わせ、一部の組み合わせと置換を行うことができることである。本開示における精神および原則から逸脱することなく行われるいかなる修正、同等物による置換や改良等は、いずれも本開示の保護範囲に含まれるものである。

Claims

モデルトレーニング方法であって、
第１エンコーダを利用してサンプルデータセットにおける第１歩行者画像と第２歩行者画像を特徴抽出し、前記第１歩行者画像の画像特徴と前記第２歩行者画像の画像特徴を得ることと、
前記第１歩行者画像の画像特徴と前記第２歩行者画像の画像特徴を融合し、融合特徴を得ることと、
第１デコーダを利用して前記融合特徴を特徴復号し、第３歩行者画像を得ることと、
前記第３歩行者画像を前記第１歩行者画像の負のサンプル画像として確定し、前記第１歩行者画像および前記負のサンプル画像を用いて第１プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得ることと
を含み、
前記第１エンコーダおよび前記第１デコーダを取得する方法が、
第２エンコーダを利用して前記サンプルデータセットにおけるｉ番目の歩行者画像を特徴抽出し、前記ｉ番目の歩行者画像の画像特徴を得て、ｉは１以上の正の整数であることと、
第２デコーダを利用して前記ｉ番目の歩行者画像の画像特徴を特徴復号し、生成画像を得ることと、
前記ｉ番目の歩行者画像と前記生成画像との類似度および再構成損失関数に基づいて、前記第２エンコーダおよび前記第２デコーダを更新することと、
前記第２エンコーダおよび前記第２デコーダが収束条件に合致する場合、前記第２エンコーダを前記第１エンコーダとして確定して、前記第２デコーダを前記第１デコーダとして確定することとを含む、モデルトレーニング方法。
前記第１歩行者画像と前記負のサンプル画像に基づいて、第１類似度を確定することと、
前記サンプル画像セットの前記第１歩行者画像以外の少なくとも一つの歩行者画像に基づいて、前記少なくとも一つの歩行者画像にそれぞれ対応する少なくとも一つの第２類似度を確定することと、
前記第１類似度、前記少なくとも１つの第２類似度、および敵対的損失関数に基づいて、前記第１エンコーダおよび前記第１デコーダを更新することとをさらに含む請求項１に記載の方法。
前記の前記ｉ番目の歩行者画像と前記生成画像との類似度および再構成損失関数に基づいて、前記第２エンコーダおよび前記第２デコーダを更新することは、
前記ｉ番目の歩行者画像と前記生成画像との類似度および前記再構成損失関数に基づいて、前記再構成損失関数の関数値を計算することと、
真実度判別器を利用して、前記生成画像の真実度を確定することと、
前記再構成損失関数の関数値および前記生成画像の真実度に基づいて、前記第２エンコーダおよび前記第２デコーダを更新することとを含む請求項１に記載の方法。
前記第１プリセットモデルを取得する方法は、
第２プリセットモデルを利用してサンプルデータセットにおける各歩行者画像を特徴抽出し、前記各歩行者画像の歩行者特徴を得ることと、
前記歩行者特徴に基づいて前記サンプルデータセットにおける各歩行者画像をクラスタリングし、少なくとも２つのクラスタラベルにそれぞれ対応する少なくとも２つのクラスタを得て、前記少なくとも２つのクラスタの各クラスタはいずれも少なくとも１つの歩行者画像を含むことと、
前記サンプルデータセットにおける各歩行者画像および前記各歩行者画像に対応するクラスタラベルに基づいて、前記第２プリセットモデルを、収束までトレーニングし、前記第１プリセットモデルを得ることとを含む請求項１～３のいずれか一項に記載の方法。
前記第１歩行者画像および前記第２歩行者画像は、前記少なくとも２つのクラスタのうちの異なるクラスタにおける歩行者画像である請求項４に記載の方法。
歩行者再識別方法であって、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、前記目標画像の歩行者特徴および前記候補歩行者画像の歩行者特徴を得て、前記歩行者再識別モデルは請求項１～５のいずれか一項に記載のモデルトレーニング方法によって得られることと、
前記目標画像の歩行者特徴と前記候補歩行者画像の歩行者特徴に基づいて、前記目標画像と前記候補歩行者画像との類似度を確定することと、
前記類似度が予め設定された条件に合致する場合、前記候補歩行者画像を前記目標画像の関連画像として確定することとを含む歩行者再識別方法。
モデルトレーニング装置であって、
第２エンコーダを利用してサンプルデータセットにおける１以上の正の整数であるｉ番目の歩行者画像を特徴抽出し、前記ｉ番目の歩行者画像の画像特徴を得る第２符号化モジュールと、
第２デコーダを利用して前記ｉ番目の歩行者画像の画像特徴を特徴復号し、生成画像を得るために用いられる第２復号モジュールと、
前記ｉ番目の歩行者画像と前記生成画像との類似度および再構成損失関数に基づいて、前記第２エンコーダおよび前記第２デコーダを更新するために用いられる第２更新モジュールと、
前記第２エンコーダおよび前記第２デコーダが収束条件に合致する場合、前記第２エンコーダを第１エンコーダとして確定して、前記第２デコーダを第１デコーダとして確定するために用いられる第１確定モジュールと、
前記第１エンコーダを利用して前記サンプルデータセットにおける第１歩行者画像および第２歩行者画像を特徴抽出し、前記第１歩行者画像の画像特徴および前記第２歩行者画像の画像特徴を取得するために用いられる第１符号化モジュールと、
前記第１歩行者画像の画像特徴と前記第２歩行者画像の画像特徴を融合し、融合特徴を得るために用いられる融合モジュールと、
前記第１デコーダを利用して前記融合特徴を特徴復号し、第３歩行者画像を取得するために用いられる第１復号モジュールと、
前記第３歩行者画像を前記第１歩行者画像の負のサンプル画像と確定し、かつ前記第１歩行者画像および前記負のサンプル画像を利用して第１プリセットモデルを収束までトレーニングし、歩行者再識別モデルを得るために用いられる第１トレーニングモジュールと
を含むモデルトレーニング装置。
前記第１歩行者画像と前記負のサンプル画像に基づいて、第１類似度を確定するために用いられる第１類似度モジュールと、
前記サンプル画像セットの前記第１歩行者画像以外の少なくとも一つの歩行者画像に基づいて、前記少なくとも一つの歩行者画像にそれぞれ対応する少なくとも一つの第２類似度を確定するために用いられる第２類似度モジュールと、
前記第１類似度、前記少なくとも１つの第２類似度、および敵対的損失関数に基づいて前記第１エンコーダおよび前記第１デコーダを更新するために用いられる第１更新モジュールとをさらに含む請求項７に記載の装置。
前記第２更新モジュールは、
前記ｉ番目の歩行者画像と前記生成画像との類似度および前記再構成損失関数に基づいて、前記再構成損失関数の関数値を計算するために用いられる計算ユニットと、
真実度判別器を利用して、前記生成画像の真実度を確定するために用いられる確定ユニットと、
前記再構成損失関数の関数値および前記生成画像の真実度に基づいて、前記第２エンコーダおよび前記第２デコーダを更新するために用いられる更新ユニットとを含む請求項７に記載の装置。
第２プリセットモデルを利用してサンプルデータセットにおける各歩行者画像を特徴抽出し、前記各歩行者画像の歩行者特徴を得るために用いられる第１抽出モジュールと、
前記歩行者特徴に基づいて前記サンプルデータセットにおける各歩行者画像をクラスタリングし、少なくとも２つのクラスタラベルにそれぞれ対応する少なくとも２つのクラスタを得るために用いられ、前記少なくとも２つのクラスタの各クラスタはいずれも少なくとも１つの歩行者画像を含むクラスタリングモジュールと、
前記サンプルデータセットにおける各歩行者画像および前記各歩行者画像に対応するクラスタラベルに基づいて、前記第２プリセットモデルを、収束までトレーニングし、前記第１プリセットモデルを得るために用いられる第２トレーニングモジュールとをさらに含む請求項７～９のいずれか一項に記載の装置。
前記第１歩行者画像および前記第２歩行者画像は、前記少なくとも２つのクラスタのうちの異なるクラスタにおける歩行者画像である請求項１０に記載の装置。
歩行者再識別装置であって、
歩行者再識別モデルを利用して目標画像および候補歩行者画像をそれぞれ特徴抽出し、前記目標画像の歩行者特徴および前記候補歩行者画像の歩行者特徴を得るために用いられ、前記歩行者再識別モデルは請求項１～５のいずれか一項に記載のモデルトレーニング方法によって得られる第２抽出モジュールと、
前記目標画像の歩行者特徴および前記候補歩行者画像の歩行者特徴に基づいて、前記目標画像と前記候補歩行者画像との類似度を確定するために用いられる第３類似度モジュールと、
前記類似度が予め設定された条件に合致する場合に、前記候補歩行者画像を前記目標画像の関連画像として確定するために用いられる第２確定モジュールとを含む歩行者再識別装置。
電子機器であって、
少なくとも１つのプロセッサ、および
前記少なくとも１つのプロセッサに通信接続されたメモリを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサにより実行され、当該少なくとも１つのプロセッサに請求項１～６のいずれか一項に記載の方法を実行させる、電子機器。
コンピュータに請求項１～６のいずれか一項に記載の方法を実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～６のいずれか一項に記載の方法を実現するコンピュータプログラム。