JP2022552761A

JP2022552761A - 目標再認識方法、装置、機器、記憶媒体及びプログラム製品

Info

Publication number: JP2022552761A
Application number: JP2021574956A
Authority: JP
Inventors: ▲紀▼▲悳▼益; 甘▲偉▼豪
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-12-28
Publication date: 2022-12-20
Also published as: CN112149740A; TW202213185A; WO2022062243A1; TWI769775B; CN112149740B; KR20220042356A

Abstract

本開示の実施例は目標再認識方法、装置、機器、記憶媒体及びプログラム製品に関し、該方法は、目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合について処理される画像集合から候補画像集合を予備的に決定することであって、候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上であること、及び訓練されておいたグラフ関連認識ネットワークに基づいて第１特徴値及び第２特徴値集合を認識し、候補画像集合から目標対象画像中の目標対象に比較的類似した目標画像集合を決定することという、２回の画像絞り込みを含む。

Description

（関連出願の相互参照）
本開示は出願番号が２０２０１１０２２８３４．４であり、出願日が２０２０年０９月２５日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本開示に組み込まれる。

本開示はコンピュータ技術分野に関し、特に目標再認識方法、装置、機器、記憶媒体及びプログラム製品に関する。

目標再認識はコンピュータビジョン及び知的映像監視分野の重要な課題であり、その目的は同一目標が同じ又は異なるカメラに出現した位置を決定することである。都市化プロセスの推進及び市街地カメラの絶え間ない増加に伴い、目標再認識は、例えば歩行者の歩行行為解析、カメラ間の歩行者及び車両追跡、及び歩行者や車両の異常行為の検出等、多数の分野において重要な実際の応用があるようになっている。しかし、実際の応用において、シーンにおける他の目標に妨害され得、及び目標同士間に極めて類似する外観的特徴が存在し得る等の要因は、いずれも目標再認識のプロセスに悪影響を与える。

本開示の実施例は目標再認識に係る技術的解決手段を提供する。

本開示の実施例の一態様によれば、目標再認識方法を提供し、目標対象画像及び処理される画像集合を取得することであって、目標対象画像には目標対象が含まれることと、目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合に基づいて処理される画像集合から候補画像集合を決定することであって、候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上であることと、訓練されておいたグラフ関連認識ネットワークに基づき、第１特徴値及び第２特徴値集合を認識し、候補画像集合から目標画像集合を決定することであって、目標画像集合内の画像に含まれる対象と目標対象との第１類似度値は、非目標画像に含まれる対象と目標対象との第１類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含むことと、を含む。このように、処理される画像集合からより正確なポジティブサンプルを決定し、ネガティブサンプルからの妨害を低減し、目標画像集合を得ることで、後続で目標画像集合内の画像の属性情報に基づいてそれに含まれる対象に対して軌跡行為解析を行った結果の正確性を向上させることができる。

一部の可能な実施形態において、上記グラフ関連認識ネットワークは第１グラフ構造構築サブネットワーク、グラフ関連更新サブネットワーク及び分類器を含み、第１グラフ構造構築サブネットワークと、グラフ関連更新サブネットワークと、分類器とはシリアル接続され、訓練されておいたグラフ関連認識ネットワークに基づき、第１特徴値及び第２特徴値集合を認識し、候補画像集合から目標画像集合を決定することは、第１特徴値及び第２特徴値集合を第１グラフ構造構築サブネットワークに入力して、第１グラフ構造を得ることであって、第１グラフ構造はノード及び２つのノードを結ぶためのリンクを含み、ノードの数は候補画像集合内の画像の数と同じであり、２つのノードを結ぶリンクは結ばれる２つのノード間の類似度及び予め設定された類似度に基づいて決定されることと、第１グラフ構造をグラフ関連更新サブネットワークに入力して、更新して最適化された後の第２グラフ構造を得ることと、分類器によって第２グラフ構造に基づいて候補画像集合内の各候補画像に対応する第１類似度値を決定することと、各候補画像に対応する第１類似度値及び類似度閾値に基づいて目標画像集合を決定することと、を含む。常套の畳み込みニューラルネットワークに比べ、グラフ畳み込みニューラルネットワークにより不規則なグラフデータに対してより効果的に特有のノード分類、リンク予測を行うことができ、用途がより広い。

一部の可能な実施形態において、分類器によって第２グラフ構造に基づいて候補画像集合内の各候補画像に対応する第１類似度値を決定することは、第１グラフ構造と第２グラフ構造を加算して融合して、第３グラフ構造を得ることと、分類器によって第３グラフ構造に基づいて候補画像集合内の各候補画像に対応する第１類似度値を決定することと、を含む。原始の第１グラフ構造と第２グラフ構造を加算して融合することで、最適化プロセスにおいて制御不能で不安定なパラメータにより生じる不利な要因が全体のグラフ構造に与える影響を軽減することができる。

一部の可能な実施形態において、上記グラフ関連更新サブネットワークはアテンションメカニズム層、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含み、アテンションメカニズム層と、複数のグラフ畳み込み層と、複数の活性化層と、複数の完全接続層とはシリアル接続され、第１グラフ構造をグラフ関連更新サブネットワークに入力して、更新して最適化された後の第２グラフ構造を得ることは、第１グラフ構造をアテンションメカニズム層に入力して、第１グラフ構造における各ノードの重みベクトルを得ることと、各ノードの重みベクトル及び第１グラフ構造をアテンションメカニズム層の次の層の入力として決定することと、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層のうちの現在処理しているいずれかの層を現在層として決定することと、現在層の前の層の出力を現在層の入力とし、計算処理を経て現在層の出力を得ることと、いずれかの現在層の対応する出力が存在する場合、グラフ関連更新サブネットワークにおける最終層の出力に基づき、更新して最適化された後の第２グラフ構造を得ることと、を含む。グラフ関連更新サブネットワークの各層の数及び位置関係を調整することで、様々な応用シーンについてネットワークアーキテクチャを柔軟に構築することを実現し、要求により適合する第２グラフ構造を得ることができる。

一部の可能な実施形態において、目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合に基づいて処理される画像集合から候補画像集合を決定することは、特徴コード抽出ネットワークに基づいて目標対象画像に含まれる目標対象の第１特徴値を決定することと、特徴コード抽出ネットワークに基づいて処理される画像集合内の各画像に含まれる対象の第２特徴値を決定することと、第２特徴値及び第１特徴値に基づいて各画像に対応する第２類似度値を決定することと、第２類似度値に基づいて処理される画像集合から候補画像集合を決定することと、を含む。特徴値間の類似度によって、候補画像集合から正確に候補画像集合を予備的に決定し、後続の画像処理ための基盤を築くことができる。

一部の可能な実施形態において、第２類似度値に基づいて処理される画像集合から候補画像集合を決定することは、各処理される画像に対応する第２類似度値を値の大きい順に並べ替えることと、上位Ｎ位の第２類似度値に対応する処理される画像に基づいて候補画像集合を得ることと、を含む。第２類似度値の並べ替えによって、予め設定されたＮ枚の画像を選び出すステップに対応して、解決手段の多様性を高めることができる。

一部の可能な実施形態において、第２類似度値に基づいて処理される画像集合から候補画像集合を決定することは、各処理される画像に対応する第２類似度値を値の大きい順に並べ替えることと、上位Ｎ１位の第２類似度値に対応する処理される画像に基づいて処理される画像集合を第１候補画像集合と非第１候補画像集合に分けることであって、ここで、第１候補画像集合は上位Ｎ１位の第２類似度値に対応する画像を含むことと、第１候補画像集合内の画像の第２特徴値及び非第１候補画像集合内の画像の第２特徴値に基づいて非第１候補画像集合からＮ２枚の画像を決定し、第２候補画像集合を形成することと、第１候補画像集合及び第２候補画像集合に基づいて候補画像集合を決定することと、を含む。１回の選択によって候補画像集合を決定することに比べ、本実施形態は２回の検索によって候補画像集合を段階的に決定することで、より多くの難しいポジティブサンプル画像を候補画像集合に進入させ、後続の画像認識の正確性の向上の基盤を築くとともに、解決手段の多様性を高めることができる。

一部の可能な実施形態において、第１候補画像集合内の画像の第２特徴値及び非第１候補画像集合内の画像の第２特徴値に基づいて非第１候補画像集合からＮ２枚の画像を決定し、第２候補画像集合を形成することは、第１候補画像集合内の現在使用しているいずれかの画像を現在画像として確認することと、現在画像の第２特徴値及び非第１候補画像集合内の画像の第２特徴値に基づいて非第１候補画像集合内の各画像に対応する第３類似度値を決定することと、各画像に対応する第３類似度値に基づいて非第１候補画像集合から現在画像に対応する第３候補画像集合を決定することと、各現在画像いずれも対応する第３候補画像集合が存在する場合、各現在画像に対応する第３候補画像集合に基づいてＮ２枚の画像を決定し、第２候補画像集合を形成することと、を含む。第１候補画像集合内の画像を基にして２回の検索を行うことで、第１候補画像集合内の画像を遷移画像とし、さらに、候補画像集合を決定するためのより多くのポジティブサンプル画像を得て、後続の画像認識の正確性の向上の基盤を築くことができる。

一部の可能な実施形態において、候補画像集合から目標画像集合を決定した後に、さらに、目標画像集合内の画像の属性情報を決定することと、属性情報に基づいて目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うことと、を含む。属性情報によって、目標画像集合内の画像を実際のシーンに応用することができる。

一部の可能な実施形態において、属性情報は画像取得位置及び画像取得時間を含み、属性情報に基づいて目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うことは、画像取得時間に基づいて目標画像集合内の画像を並べ替えることと、画像取得位置及び並べ替えられた後の画像に基づいて画像に含まれる対象に対して運動軌跡決定及び行為推定を行うことと、を含む。どのように、含まれる属性情報によって対象に対して軌跡行為解析を行うかを限定することで、得られた目標画像集合を特定のシーンに応用可能にし、生活中の実際の問題を解決する。

本開示の実施例の第２態様によれば、目標再認識装置を提供し、目標対象画像及び処理される画像集合を取得するように構成される画像取得モジュールであって、目標対象画像には目標対象が含まれる画像取得モジュールと、目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合に基づいて処理される画像集合から候補画像集合を決定するように構成される候補画像決定モジュールであって、候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上である候補画像決定モジュールと、訓練されておいたグラフ関連認識ネットワークに基づき、第１特徴値及び第２特徴値集合を認識し、候補画像集合から目標画像集合を決定するように構成される目標画像決定モジュールであって、目標画像集合内の画像に含まれる対象と目標対象との第１類似度値は、非目標画像に含まれる対象と目標対象との第１類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含む目標画像決定モジュールと、を含む。

本開示の実施例の第３態様によれば、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサと通信接続されるメモリを含む電子機器を提供し、メモリには少なくとも１つのプロセッサにより実行可能な命令が記憶されており、少なくとも１つのプロセッサはメモリに記憶された命令を実行することで第１態様のいずれか１項に記載の目標再認識方法を実現する。

本開示の実施例の第４態様によれば、プロセッサによりロードされ且つ第１態様のいずれか１項に記載の目標再認識方法を実現するように実行される少なくとも１つの命令又は少なくとも１つのプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。

本開示の実施例の第５態様によれば、命令を含むコンピュータプログラム製品を提供し、それはコンピュータにおいて実行されるとき、コンピュータに本開示の実施例の第１態様のいずれかの目標再認識方法を実行させる。

本開示の実施例において、目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合について処理される画像集合から候補画像集合を予備的に決定することであって、候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上であることと、訓練されておいたグラフ関連認識ネットワークに基づき、第１特徴値及び第２特徴値集合を認識し、候補画像集合から目標対象画像中の目標対象に比較的類似した目標画像集合を決定することと、を含む２回の画像絞り込みによって、処理される画像集合からより正確なポジティブサンプルを決定し、ネガティブサンプルからの妨害を低減し、目標画像集合を得て、それにより、後続で目標画像集合内の画像の属性情報に基づいてそれに含まれる対象に対して軌跡行為解析を行った結果の正確性を向上させることができる。

以上の一般的な説明と以下の詳細な説明は例示的及び解釈的なものに過ぎず、本開示の実施例を制限しないことを理解すべきである。

以下において、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の実施例の他の特徴及び態様は明瞭になる。

本開示の実施例に係る目標再認識方法を示すフローチャートである。本開示の実施例に係る候補画像集合の取得方法を示すフローチャートである。本開示の実施例に係る候補画像集合の取得方法を示すフローチャートである。本開示の実施例に係る第２候補画像集合の取得方法を示すフローチャートである。本開示の実施例に係る候補画像集合を取得する模式図である。本開示の実施例に係るグラフ関連認識ネットワークを示す構造的模式図である。本開示の実施例に係るグラフ関連認識ネットワークに基づいて目標画像集合を決定する方法を示すフローチャートである。本開示の実施例に係る第１グラフ構造を示す模式図である。本開示の実施例に係る残差構造を示す模式図である。本開示の実施例に係るグラフ関連認識ネットワークの訓練方法を示すフローチャートである。本開示の実施例に係る目標再認識方法を示す応用フローチャートである。本開示の実施例に係る歩行者再認識方法を示す論理フローチャートである。本開示の実施例により提供される関連特徴学習フレームワークである。本開示の実施例により提供されるベースライブラリから難しいサンプルを選択する模式図である。本開示の実施例に係る目標再認識装置を示すブロック図である。本開示の実施例に係る電子機器を示すブロック図である。本開示の実施例に係る別の電子機器を示すブロック図である。

本明細書の実施例又は従来技術における技術的解決手段及び利点をより明確に説明するために、以下において、実施例又は従来技術の記述に必要とされる図面について簡単に紹介するが、当然ながら、以下に説明される図面は本明細書の実施例の一部に過ぎず、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることができる。
以下において、本明細書の実施例における図面を参照しながら本明細書の実施例における技術的解決手段を明確且つ完全に説明し、当然ながら、説明される実施例は本明細書の一部の実施例に過ぎず、全ての実施例ではない。本明細書における実施例に基づき、当業者が創造的な労力を要することなく得られた他の全ての実施例は、いずれも本発明の保護範囲に属する。

なお、本発明の明細書及び特許請求の範囲並びに上記図面における「第１」、「第２」等の用語は必ず特定の順序又は先後順序を記述するためのものではなく、類似する対象を区別するためのものである。このように使用されるデータは、ここで説明される本発明の実施例がここで図示又は説明される以外の順序で実施できるように、適当な場合に交換されてもよいことを理解すべきである。また、「含む」及び「備える」という用語及びそれらのいかなる変形も、非排他的に含むことを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又はサーバは、必ず明確に挙げられたステップ又はユニットに限定されるものではなく、さらに挙げられていない又はこれらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを含んでもよい。

以下に図面を参照しながら本開示の実施例の様々な例示的実施例、特徴及び態様を詳細に説明する。図面における同じ符号は同じ又は類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に説明しない限り、比例に従って図面を作る必要がない。

ここの用語「例示的」とは、「例、実施例として用いられること又は説明的なもの」を意味する。ここで「例示的」に説明されたいかなる実施例も他の実施例より好ましい又は有利であると解釈される必要はない。

本明細書の用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３種の関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａが単独して存在し、ＡとＢが同時に存在し、Ｂが単独して存在するという３種の場合を示してもよい。また、本明細書の用語の「少なくとも１種」は多種のうちのいずれか１種又は多種のうちの少なくとも２種の任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１種を含むということは、Ａ、Ｂ及びＣから構成される集合から選択されるいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示の実施例をより効果的に説明するために、以下の具体的な実施形態において様々な実施詳細を示す。当業者であれば、何らかの実施詳細がなくても、本開示の実施例が同様に実施できるということを理解すべきである。一部の実施例では、本開示の実施例の趣旨を明らかにするように、当業者が既知の方法、手段、要素及び回路に対する詳細な説明を省略する。

本開示の実施例により提供される目標再認識の解決手段によれば、目標対象画像及び処理される画像集合を取得し、上記目標対象画像には目標対象が含まれ、目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合に基づいて処理される画像集合から候補画像集合を決定し、候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上であり、そして訓練されておいたグラフ関連認識ネットワークに基づいて第１特徴値及び第２特徴値集合を認識して、候補画像集合から目標画像集合を決定し、目標画像集合内の画像に含まれる対象と目標対象との第１類似度値は非目標画像に含まれる対象と目標対象との第１類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含む。このように、上記２回の画像絞り込みによって、光の照明、複雑な背景等の種々の要因の影響を軽減し、処理される画像集合からより正確なポジティブサンプルを決定し、ネガティブサンプルからの妨害を低減し、目標画像集合を得て、それにより、目標画像集合の画像の属性情報に基づいてそれに含まれる対象に対して軌跡行為解析を行った正確性を向上させることができる。
関連技術の実際の応用において、処理される画像集合内の画像は、光の照明の強度、乱雑な背景又は画像取得機器の画角変化の影響を受けるため、従来のモデリングプロセスにおいて、妨害を生じるネガティブサンプルが比較的多く使用され、又は比較的認識しにくいポジティブサンプルが無視され、それによって、モデリングによって得られたネットワークの精度が低下することにより、応用プロセスにおいて、画像選択の正確度が低下し、さらに、対象軌跡行為解析の正確性に影響が及ぼされる。本開示の実施例により提供される目標再認識方法は、目標対象画像と初期画像の特徴値を比較して、候補画像集合を得て、グラフ関連認識ネットワークに基づいて候補画像集合から目標対象画像の目標対象との類似度がより高い目標画像集合を認識することで、解析される画像の正確度を向上させ、それにより、選び出された目標画像集合において対象に対して十分な軌跡行為解析を行うことができる。

本開示の実施例により提供される技術的解決手段は、画像又はビデオにおける目標再認識、目標認識等の応用シーンの拡張に用いられてもよく、本開示の実施例はこれを限定しない。
本開示の実施例により提供される目標再認識方法は端末機器、サーバ又は他のタイプの電子機器により実行されることができ、ここで、端末機器はユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥと略称）、モバイルデバイス、ユーザ端末、端末、セルラー電話、コードレス電話機、パーソナルデジタアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡと略称）、携帯型デバイス、計算装置、車載装置、ウェアラブル装置等であってもよい。一部の可能な実施形態において、該目標再認識方法はプロセッサによりメモリに記憶されたコンピュータ読み取り可能な命令を呼び出すことで実現されることができる。以下において、電子機器を実行主体としたことを例にし、本開示の実施例の目標再認識方法を説明する。例えば、目標再認識方法はプロセッサによりメモリに記憶されたコンピュータ読み取り可能な命令を呼び出すことで実現されてもよい。

図１は本開示の実施例に係る目標再認識方法を示しフローチャートであり、図１に示すように、該方法は以下のステップを含む。

Ｓ１０において、目標対象画像及び処理される画像集合を取得し、目標対象画像には目標対象が含まれ。

一部の実施形態において、上記の目標対象は乗り物、歩行者又は乗り物と歩行者の組み合わせを含んでもよいが、これらに限定されず、乗り物は自動車、トラック、オートバイ、自転車等であってもよい。

一部の実施形態において、電子機器によって目標対象画像を取得してもよく、又は、電子機器は他の機器から目標対象画像を取得してもよく、例えば、電子機器は撮像機器、監視機器等の機器から目標対象画像を取得してもよい。一部の実施形態において、上記目標対象画像はビデオにおける１つのフレームであってもよい。同様に、処理される画像集合は電子機器によって取得されてもよいし、他の機器によって取得されて電子機器に統合されてもよい。

本開示の実施例は目標対象画像に基づいて処理される画像集合から目標画像を決定し、さらに目標画像に基づいてそれに含まれる対象に対して軌跡行為解析を行うことを可能にすることを旨とするため、電子機器は一部の画像を意図的及び選択的に取得して、処理される画像集合を形成してもよい。一部の実施形態において、目標対象画像がＡカメラによって取得されると仮定すると、電子機器もＡカメラによって画像を取得し、及び／又はＡカメラの近くに設けられた少なくとも１つのカメラによって一部の画像を取得し、処理される画像集合を形成するようにしてもよい。一部の実施形態において、目標対象画像がＡカメラによってある時刻で撮影して得られると仮定すると、電子機器はＡカメラが該時刻前後に撮影して得た画像を取得し、及び／又は他のカメラが該時刻前後に撮影して得た画像を取得し、処理される画像集合を形成するようにしてもよい。一部の実施形態において、目標対象画像がＡカメラによってある時刻で撮影して得られると仮定すると、電子機器はＡカメラが該時刻前後に撮影して得た画像、及び／又はＡカメラの近くに設けられた他のカメラによって該時刻前後に撮影して得られた画像を取得し、処理される画像集合を形成するようにしてもよい。このように、前期で多数の妨害画像を排除したため、電子機器が処理される画像集合に対して操作を行う過程で、計算能力が大量節約され、機器コストが削減される。

Ｓ２０においで、目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合に基づいて処理される画像集合から候補画像集合を決定し、候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上である。

一部の実施形態において、目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合に基づいて処理される画像集合から候補画像集合を決定する前に、本開示の実施例は処理される画像集合内の画像に対して予備絞り込みを行ってもよい。以下において、目標対象が歩行者であるとして説明し、処理される画像集合を取得する過程で、取得経路の問題又は他の問題により、取得された画像に人という対象が含まれていない場合があり、処理される画像集合内の画像に対して直接第２特徴値の抽出を行えば、機器のコストが大幅に増加するため、電子機器内に設けられた対象認識モジュールによって処理される画像集合内の画像に対して予備絞り込みを行い、人を含まない画像を削除し、よりクリーンな画像データを得るようにしてもよい。

本開示の実施例では、処理される画像集合から候補画像集合を決定する方法が様々あり、一部の実施形態において、目標対象画像中の目標対象の性別に基づいて候補画像集合から画像を選び出し、候補画像集合を形成してもよい。ここで、候補画像集合内の画像に含まれる対象の性別は目標対象の性別に一致する。一部の実施形態において、目標対象画像中の目標対象の性別及び体型に基づき、候補画像集合から画像を選び出し、候補画像集合を形成してもよい。ここで、候補画像集合内の画像に含まれる対象の性別及び体型は目標対象の性別及び体型にそれぞれ一致する。

一部の実施形態において、本開示の実施例は画像の特徴値を抽出することで候補画像集合を取得し、目標対象画像に含まれる目標対象の第１特徴値を決定し、処理される画像集合内の画像に含まれる対象の第２特徴値を決定し、第２特徴値及び第１特徴値に基づき、各画像に対応する第２類似度値を決定し、第２類似度値に基づいて処理される画像集合から候補画像集合を決定するようにしてもよい。ただし、このような方法では、候補画像集合内のいずれか２枚の画像間の類似値に対して何らの要求もしておらず、つまり、該方法では、候補画像集合内の各画像は目標対象画像のみと関連してもよい。

上記２つの方法ではいずれも処理される画像集合内の画像と目標対象画像に対して特徴値を直接比較し、第２類似度値を得る。しかし、画像又はビデオ撮影プロセスにおいて、光の照明、撮影背景及び画角変化等の様々な原因により、処理される画像集合に一定数の難しいポジティブサンプル画像及び難しいネガティブサンプル画像が存在し得ることを考慮すると、前期で候補画像集合を決定するプロセスにおいて、これらの難しいサンプル画像を考慮に入れなければ、後続の画像認識プロセスに悪影響が及ぼされる蓋然性が極めて高い。

本開示の実施例において、サンプル画像とは処理される画像集合内の各画像のことであり、ポジティブサンプル画像とは画像に含まれる対象と目標対象が同一対象であるサンプル画像のことであり、ネガティブサンプル画像とは画像に含まれる対象と目標対象が異なる対象であるサンプル画像のことであり。難しいポジティブサンプル画像とは該画像に含まれる対象が目標対象と同一の対象であるが、撮影の光線、対象の姿勢又は他の原因により電子機器がそれを容易に判別できないもののことである。難しいネガティブサンプル画像とは該画像に含まれる対象が目標対象と異なる対象であるが、撮影の光線、対象の姿勢又は他の原因により目標対象と同一の対象であると誤認識されやすいもののことである。

上記難しいポジティブサンプル画像及び難しいネガティブサンプル画像の存在を考慮すると、後続の画像認識の正確度を向上させるために、図２は本開示の実施例に係る候補画像集合の取得方法のフローチャートを示し、図２に示すように、該方法は以下のステップを含む。
Ｓ２０１において、特徴コード抽出ネットワークに基づいて目標対象画像に含まれる目標対象の第１特徴値を決定する。

一部の実施形態において、目標対象画像を上記特徴コード抽出ネットワークに入力し、特徴コード抽出ネットワークは訓練されておいたものであり、まず目標対象画像上の目標対象に枠を付け、次に枠を付けた目標対象に対して特徴抽出を行い、第１特徴値を得るようにしてもよい。
Ｓ２０２において、特徴コード抽出ネットワークに基づいて処理される画像集合内の画像に含まれる対象の第２特徴値を決定する。

一部の実施形態において、電子機器は処理される画像集合内の画像を該特徴コード抽出ネットワークに一括入力し、それによって、該特徴コード抽出ネットワークが画像中の対象に対して特徴抽出を行い、各画像の第２特徴値を得ることを可能にするようにしてもよい。

別の一部の実施形態において、処理される画像集合内の画像の数が非常に多い可能性があることを考慮するため、複数の電子機器に特徴コード抽出ネットワークを内蔵し、処理される画像集合を複数のサブ集合に分割し、各サブ集合内の画像に対して１つの電子機器で特徴を抽出し、その後最初の電子機器に集約するようにしてもよい。

上記の特徴コード抽出ネットワークは教師なし、教師あり又は半教師あり学習方法で訓練して得られてもよい。一部の実施形態では、特徴コード抽出ネットワークの訓練プロセスにおいて、対象を含む各訓練画像をそれぞれ１つのカテゴリとし、多分類学習を行ってもよい。訓練が完了してから、該ネットワークの最終の分類層を除去し、ネットワークの出力を特徴コードとする。実施において、特徴抽出方法は目標対象画像中の目標対象に対する上記特徴抽出方法を参照すればよい。

一部の実施形態において、第１特徴値及び第２特徴値は第１特徴コード及び第２特徴コードと呼ばれてもよく、該第１特徴値及び第２特徴値は様々な形式で出力可能であり、例えばベクトルの形式で出力するか、又は複数桁の２進数の形式で出力してもよく、どの形式で出力するかは実際の要求に応じて決定されてもよく、ここでは説明を省略する。

Ｓ２０３において、第２特徴値及び第１特徴値に基づいて各処理される画像に対応する第２類似度値を決定する。

一部の実施形態において、電子機器は各第２特徴値及び第１特徴値に基づいて目標対象画像に対する各処理される画像の第２類似度値を算出してもよい。例を挙げれば、処理される画像集合に１００００枚の画像があると仮定し、特徴コード抽出ネットワークを通過した後、１００００枚の画像に対応する１００００個の第２特徴値及び目標対象画像に対応する第１特徴値を得ることができる。各第２特徴値及び第１特徴値を予め設定されたルールに従って計算し、１００００個の第２類似度値を得る。

Ｓ２０４において、第２類似度値に基づいて処理される画像集合から候補画像集合を決定する。

一部の実施形態において、電子機器は予め設定された第２類似度閾値を取得し、得られた第２類似度値と第２類似度閾値とを比較し、第２類似度閾値より大きい第２類似度値に対応する、いずれか２枚の画像間の類似値が予め設定された類似値以上である画像を決定し、該候補画像集合を形成する。

別の一部の実施形態において、電子機器は各処理される画像に対応する第２類似度値を値の大きい順に並べ替え、上位Ｎ位の第２類似度値に対応する、いずれか２枚の画像間の類似値が予め設定された類似値以上である画像を候補画像集合内の画像として決定するようにしてもよい。例えば、Ｎが１００である場合、処理される画像集合から１００枚の画像を決定して候補画像集合を形成する。

上記方法において、該候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上であり、一部の実施形態において、いずれか２枚の画像間の類似値はこの２つの画像の第２特徴値によって計算して得られることができる。つまり、該実施形態は第１特徴値及び第２特徴値の計算によって、候補画像集合内の各候補画像と目標対象画像との関連を決定する必要があるだけでなく、候補画像集合内のいずれか２枚の画像の類似値によって、候補画像集合内の画像の関連を確立する必要もあり、このように、候補画像集合内の難しいポジティブサンプル画像の数をできるだけ増加するとともに、難しいネガティブサンプル画像の数を低下させることができる。一部の実施形態において、上記予め設定された類似値は実際の状況に応じて設定されてもよい。

別の一部の実施形態において、電子機器はまず処理される画像集合から第１候補画像集合を決定し、第１候補画像集合のもとに第２候補画像集合を決定し、上記２つの候補画像集合で候補画像集合を形成するようにしてもよい。図３は本開示の実施例に係る候補画像集合の取得方法を示すフローチャートであり、図３に示すように、該方法は以下のステップを含む。

Ｓ３０１において、各処理される画像に対応する第２類似度値を値の大きい順に並べ替える。

Ｓ３０２において、上位Ｎ１位の第２類似度値に対応する処理される画像に基づき、処理される画像集合を第１候補画像集合と非第１候補画像集合に分け、ここで、第１候補画像集合は上位Ｎ１位の第２類似度値に対応する画像を含む。

代替的に、予め設定された第２類似度閾値を取得し、得られた第２類似度値と第２類似度閾値とを比較して、第２類似度閾値より大きい第２類似度値に対応する処理される画像を決定し、上記の第１候補画像集合を形成し、処理される画像集合内の他の画像は非第１候補画像集合を形成するようにしてもよい。一部の実施形態において、第１候補画像集合と非第１候補画像集合は共通部分を有さない。
Ｓ３０３において、第１候補画像集合内の画像の第２特徴値及び非第１候補画像集合内の画像の第２特徴値に基づき、非第１候補画像集合からＮ２枚の画像を決定して、第２候補画像集合を形成する。

図４は本開示の実施例に係る第２候補画像集合の取得方法を示すフローチャートであり、図４に示すように、該方法は以下のステップを含む。

Ｓ４０１において、第１候補画像集合内の現在使用しているいずれかの画像を現在画像とする。

Ｎ１が１０であると仮定すると、１回目の選択プロセスにおいて決定された第１候補画像集合には１０枚の画像がある。この１０枚の画像の各画像はいずれもステップＳ４０１－Ｓ４０３の処理を経る。

Ｓ４０２において、現在画像の第２特徴値及び非第１候補画像集合内の画像の第２特徴値に基づき、非第１候補画像集合内の各画像に対応する第３類似度値を決定する。

仮定される処理される画像集合に合計１００００枚の画像があることに基づいて引き続き説明し、上記例において第１候補画像集合に１０枚の画像が含まれることが説明されたため、非第１候補画像集合はさらに９９９０枚の画像を含み、このステップで、電子機器は現在画像の第２特徴値及び９９９０枚の画像の第２特徴値に基づいて現在画像に対する９９９０枚の画像の第３類似度値を得る。

Ｓ４０３において、各画像に対応する第３類似度値に基づき、非第１候補画像集合から現在画像に対応する第３候補画像集合を決定する。

一部の実施形態において、電子機器は第３類似度閾値を予め設定し、第３類似度閾値より大きい第３類似度値に対応する画像を現在画像に対応する第３候補画像集合内へ決定するようにしてもよい。

一部の実施形態において、電子機器は９９９０個の第３類似度値を並べ替え、上位数位の第３類似度値に対応する画像を現在画像に対応する第３候補画像集合内へ決定する。

Ｓ４０４おいて、各現在画像いずれも対応する第３候補画像集合が存在する場合、各現在画像に対応する第３候補画像集合に基づいてＮ２枚の画像を決定し、第２候補画像集合を形成する。

このように、各現在画像いずれも対応する第３候補画像集合が存在する場合、つまり、第１候補画像集合内の１０枚の画像がそれらとの類似度を満たす画像が存在する場合、各現在画像に対応する第３候補画像集合に基づいてＮ２枚の画像を決定し、第２候補画像集合を形成する。

一部の実施形態において、第１候補画像集合内の異なる画像に対応する第３候補画像集合内に重複する画像が存在する場合がある。このような重複画像が存在する場合について、候補画像集合を形成してから、それを再検出し、重複画像を削除する。一部の実施形態において、候補画像集合を形成してから、それを再検出し、重複画像を削除し、さらに、要件を満たすＮ２枚の画像が決定されるまで、第３類似度値に基づいて第２候補画像集合に対して画像を補充してもよい。一部の実施形態において、Ｎ１とＮ２の和はＮであってもよい。

Ｓ３０４において、第１候補画像集合及び第２候補画像集合に基づいて候補画像集合を決定する。

本開示の実施例において、第１候補画像集合と第２候補画像集合を合併し、候補画像集合を得るようにしてもよく、候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上である。

図５は本開示の実施例に係る候補画像集合を取得する模式図を示し、図５に示すように、目標対象画像に基づき、初期画像集合５１に対して選別し、第１候補集合の画像及び第２候補集合の画像を得て、この２つの部分の画像で候補画像集合５２を形成する。上記の実施例において、第１候補画像集合内の画像は遷移画像と見なされてもよく、例えば、目標対象画像は歩行者の正面画像であり、第１候補画像集合内の画像は該歩行者の側面画像であってもよく、第２候補画像集合内の画像は該歩行者の背面画像であってもよく、正面画像に比べ、背面画像と側面画像中の歩行者の類似点がより多い可能性があるため、側面画像から背面画像が決定される可能性がより高い。従って、このような実施形態において、電子機器は２回の検索によって最大検索数を限定し、画像と目標対象画像との間の関係だけでなく、処理される画像集合内の画像間の類似性関係も利用して、難しいポジティブサンプル画像をできるだけ発掘し、候補画像集合内のポジティブサンプルの確率を向上させ、後続の画像処理の基盤を築く。

Ｓ３０において、訓練されておいたグラフ関連認識ネットワークに基づき、第１特徴値及び第２特徴値集合を認識し、候補画像集合から目標画像集合を決定し、目標画像集合内の画像に含まれる対象と目標対象との第１類似度値は、非目標画像に含まれる対象と目標対象との第１類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含む。

一部の実施形態において、グラフ関連認識ネットワークは畳み込みニューラルネットワーク、リカレントニューラルネットワーク又は再帰ニューラルネットワーク等の深層学習ネットワークを含むことができるが、これらに限定されない。畳み込みニューラルネットワークを例にし、大量の訓練データセットを取得し、各訓練データセットに目標対象画像の第１特徴値及び候補画像の第２特徴値、並びにラベル付けされた目標画像が含まれ、そして、大量の訓練データセットに基づいて畳み込みニューラルネットワークに対して目標画像認識訓練を行い、訓練中に該畳み込みニューラルネットワークのパラメータを、畳み込みニューラルネットワークから出力される目標画像とラベル付けされた目標画像がマッチするまで調整し、グラフ関連認識ネットワークを得るようにしてもよい。

一部の実施形態において、グラフ関連認識ネットワークはグラフ畳み込みニューラルネットワークを含んでもよいが、これに限定されない。その理由は以下のとおりである。現実生活において、実際に不規則なデータ構造が多くあり、典型的なものは第１グラフ構造であり、それはトポロジ構造とも呼ばれ、例えばソーシャルネットワーク、化学分子構造、知識グラフ等であり、たとえ言語でも、実際に内部が複雑なツリー構造であり、第１グラフ構造の１つでもあるが、画像のようなものについて、目標認識を行う際に、実際に二次元画像上の一部のキーポイントのみが着目されており、これらのキーポイントからなるものもグラフ構造の１つである。グラフの構造は一般的に非常に不規則であり、無限次元のデータと認められてもよいので、並進不変性を有さない。各ノードの周囲構造は唯一無二のものであり得、このような構造のデータでは、従来の畳み込みニューラルネットワークの応用効果が低いのに対し、グラフ畳み込みニューラルネットワークではグラフデータから特徴を抽出する方法が巧妙に設計され、それにより、これらの特徴を使用してグラフデータに対してノード分類（ｎｏｄｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）、グラフ分類（ｇｒａｐｈｃｌａｓｓｉｆｉｃａｔｉｏｎ）、リンク予測（ｌｉｎｋｐｒｅｄｉｃｔｉｏｎ）を行うことが可能になり、ついでにグラフ埋め込み（ｇｒａｐｈｅｍｂｅｄｄｉｎｇ）を得ることもでき、その用途が広く且つ適切である。

図６は本開示の実施例に係るグラフ関連認識ネットワークを示す構造的模式図であり、図６に示すように、上記グラフ関連認識ネットワークは第１グラフ構造構築サブネットワーク６１、グラフ関連更新サブネットワーク６２及び分類器６３を含んでもよく、ここで、第１グラフ構造構築サブネットワーク６１と、グラフ関連更新サブネットワーク６２と、分類器６３とはシリアル接続される。まず、第１特徴値及び第２特徴値集合６０１を第１グラフ構造構築サブネットワーク６１に入力して第１グラフ構造６０２を得て、次に第１グラフ構造６０２をグラフ関連更新サブネットワーク６２に入力して第２グラフ構造６０３を得て、最後に第２グラフ構造６０２を分類器６３に入力して目標画像集合を得る。

図７は本開示の実施例に係るグラフ関連認識ネットワークに基づいて目標画像集合を決定する方法を示す模式図であり、図７に示すように、以下のステップを含む。
Ｓ７０１において、上記第１特徴値及び上記第２特徴値集合を上記第１グラフ構造構築サブネットワークに入力して、第１グラフ構造を得て、上記第１グラフ構造はノード及び２つのノードを結ぶためのリンクを含み、上記ノードの数は上記候補画像集合内の画像の数と同じであり、上記２つのノードを結ぶリンクは結ばれる上記２つのノード間の類似度及び予め設定された類似度に基づいて決定される。

一部の実施形態において、上記の候補画像集合内の画像が１００枚である例により引き続き説明し、電子機器は第１特徴値及び第２特徴値集合を第１グラフ構造構築サブネットワークに入力し、第１グラフ構造構築サブネットワークは各第２特徴値と第１特徴値の差を求め、各第２特徴値に対応する関連特徴値を得て、各関連特徴値とはその対応する画像と目標対象画像との関連関係をいう。各関連特徴値は１つのノードとして定義されるため、１００個のノードが決定できる。任意の２つのノードに対応する関連特徴値に基づいてこの２つのノード間の類似度を決定し、順列と組み合わせの公式によれば、２つのノード間の類似度を、１００＊９９／２＝４９５０回求める必要があり、予め設定された類似度より大きい類似度が存在する場合、その対応する２つのノード間でリンクを作ることができる。このように、図８に示す第１グラフ構造を得ることができ、図８に示す第１グラフ構造は一部のノード８１及びノード間のリンク８２を例示するものに過ぎない。
Ｓ７０２において、上記第１グラフ構造を上記グラフ関連更新サブネットワークに入力して、更新して最適化された後の第２グラフ構造を得る。

一部の実施形態において、上記グラフ関連更新サブネットワークは複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含んでもよく、複数のグラフ畳み込み層と、複数の活性化層と、複数の完全接続層とはシリアル接続される。

一部の実施形態において、同じ数のグラフ畳み込み層及び完全接続層が存在してもよく、ここで、各グラフ畳み込み層の後に１つの活性化層が存在する。例えば、グラフ畳み込み層－活性化層－完全接続層－グラフ畳み込み層－活性化層－完全接続層－グラフ畳み込み層－活性化層－完全接続層……完全接続層のような形式を表現してもよい。

一部の実施形態において、異なる数のグラフ畳み込み層及び完全接続層が存在してもよく、各グラフ畳み込み層及び各完全接続層の後に１つの活性化層が存在する。例えば、グラフ畳み込み層－活性化層－グラフ畳み込み層－活性化層－グラフ畳み込み層－活性化層－……完全接続層－活性化層－完全接続層－活性化層……完全接続層－活性化層のような形式を表現してもよい。

関連更新サブネットワークにおけるグラフ畳み込み層、完全接続層及び活性化層の数及び前後位置関係は実際の要求に応じて設定されてもよく、例えば、９層のグラフ畳み込み層を設けてもよい。

一部の実施形態において、グラフ畳み込み層推論の有効性を強化することで、畳み込みプロセスにおいて、２つのポジティブサンプルに対応するノード間の関連を強化し、ポジティブサンプルとネガティブサンプルに対応するノード間の関連を減少させるために、グラフ畳み込み層にアテンションメカニズムを追加してもよい。従って、該グラフ関連更新サブネットワークはアテンションメカニズム層、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含み、ここで、アテンションメカニズム層と、複数のグラフ畳み込み層と、複数の活性化層と、複数の完全接続層とはシリアル接続される。該アテンションメカニズム層の数は実際の状況に応じて設定されてもよい。一部の実施形態において、アテンションメカニズム層が１つのみ存在してもよく、該アテンションメカニズム層は１番目のグラフ畳み込み層の前に設けられてもよい。数の実施形態において、各グラフ畳み込み層の前に１つのアテンションメカニズム層を設けてもよい。

一部の実施形態において、１番目のグラフ畳み込み層の前にのみアテンションメカニズム層を設けると仮定すると、第１グラフ構造をグラフ関連更新サブネットワークに入力して、更新して最適化された後の第２グラフ構造を得ることは以下のように示してもよい。各ノードの重みベクトル及び第１グラフ構造をアテンションメカニズム層の次の層の入力として決定し、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層のうちの現在処理しているいずれかの層を現在層として決定し、現在層の前の層の出力を現在層の入力とし、計算処理を経てから現在層の出力を得て、そしていずれかの現在層の対応する出力が存在する場合、グラフ関連更新サブネットワークにおける最後の層の出力に基づき、更新して最適化された後の第２グラフ構造を得る。各グラフ畳み込み層の前にアテンションメカニズム層を設ける計算プロセスは上記の計算プロセスを参照すればよく、ここでは繰り返し説明しない。

一部の実施形態において、該深層学習ネットワークのネットワーク深度による勾配消失及び勾配爆発という問題が存在する可能性があり、データの初期化（ｎｏｒｍｌｉｚｅｄｉｎｉｔｉａｌｉｚａｔｉｔｏｎ）及び正則化（ｂａｔｃｈｎｏｒｍｌｉｚａｔｉｏｎ）を使用して該勾配の問題を解決できるが、深度の増加により、他の問題が生じ、つまり、ネットワーク性能の劣化問題が生じ、つまり、ネットワーク深度が増加したが、誤り率が上昇するため、残差構造により劣化の問題を解決してもよく、それに伴い、勾配の問題も解決され、ネットワークの性能も向上する。図９に示すように、残差構造はグラフ畳み込み層９１、正則化メカニズム９２及び活性化層９３を含んでもよく、入力された生データが順にグラフ畳み込み層９１及び正則化メカニズム９２を通過して得られた結果を生データと加算してから活性化層内に送り、最終の目標データを得る。

Ｓ７０３において、分類器によって第２グラフ構造に基づいて上記候補画像集合内の各候補画像に対応する第１類似度値を決定する。

一部の実施形態において、第１グラフ構造と第２グラフ構造を加算して融合し、第３グラフ構造を得て、そして分類器によって第３グラフ構造に基づいて候補画像集合内の各候補画像に対応する第１類似度値を決定するようにしてもよい。第１グラフ構造上の第ｉノードに対応する数値と第２グラフ構造上の第ｉノードに対応する数値を加算し、第３グラフ構造の第ｉノードに対応する数値を得て、構造が不変のままで、第３グラフ構造を得るようにしてもよく、又は、第１グラフ構造上の第ｉノードに対応する数値と第２グラフ構造上の第ｉノードに対応する数値を加算して平均値を求め、第３グラフ構造の第ｉノードに対応する数値を得て、構造が不変のままで、第３グラフ構造を得るようにしてもよく、又は、第１グラフ構造上の第ｉノードに対応する数値と第２グラフ構造上の第ｉノードに対応する数値を重み付け加算し、第３グラフ構造の第ｉノードに対応する数値を得て、構造が不変のままで、第３グラフ構造を得るようにしてもよい。上記第１グラフ構造上の第ｉノード、第２グラフ構造上の第ｉノード及び第３グラフ構造上の第ｉノードはいずれも同一の画像に対応するノードである。

Ｓ７０４において、上記各候補画像に対応する第１類似度値及び類似度閾値に基づいて上記目標画像集合を決定する。

該目標画像集合内の画像に含まれる対象と目標対象との第１類似度値は、非目標画像に含まれる対象と目標対象との第１類似度値以上である。

本願の実施例はグラフ関連認識ネットワークの訓練方法をさらに提供し、図１０に示すように、以下のステップを含む。

Ｓ１００１において、電子機器は訓練サンプルデータセットを取得し、訓練サンプルデータセットは複数の参照画像に対応する第１特徴値、及び各第１特徴値に対応する第２特徴値集合及び第２特徴値集合に対応する第１類似度値集合を含む。

Ｓ１００２において、電子機器は予め設定された機械学習ネットワークを構築し、予め設定された機械学習ネットワークを現在機械学習ネットワークとして決定する。

Ｓ１００３において、電子機器は現在機械学習ネットワークに基づき、第１特徴値、及び各第１特徴値に対応する第２特徴値集合に対して関連認識を行い、予測された第１類似度集合を決定する。

Ｓ１００４において、電子機器は第２特徴値集合に対応する第１類似度値集合及び予測された第１類似度集合に基づき、損失値を決定する。

Ｓ１００５において、電子機器は損失値が予め設定された閾値より大きくなるか否かを判断し、そして
損失値が予め設定された閾値より大きいと決定した場合、ステップＳ１００６に進み、損失値が予め設定された閾値以下であると決定した場合、ステップＳ１００７に進む。

Ｓ１００６において、電子機器は損失値に基づいて逆伝播を行い、現在機械学習ネットワークを更新して更新後の機械学習ネットワークを得て、更新後の機械学習ネットワークを現在機械学習ネットワークとして再度決定し、そしてステップＳ１００３に進む。

Ｓ１００７において、電子機器は現在機械学習ネットワークをグラフ関連認識ネットワークとして決定する。

図１１Ａは本開示の実施例に係る目標再認識方法の応用フローチャートを示し、図１１Ａに示すように、上記Ｓ１０からＳ３０を含む以外に、該方法はさらに以下のステップを含む。

Ｓ４０において、目標画像集合内の画像の属性情報を決定する。

電子機器は画像に基づいて該画像の属性情報を決定でき、属性情報は画像取得位置及び画像取得時間を含んでもよく、該取得位置は該画像を撮影する機器の位置情報を含んでもよいがこれに限定されず、画像において表示されるシーンの位置情報を含んでもよい。画像取得時間は画像撮影時間を含むがこれに限定されない。

Ｓ５０において、属性情報に基づいて目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行う。

決定された目標画像集合内の画像中の対象は基本的に目標対象と同一の対象であると認定されるため、画像取得時間に基づいて目標画像集合内の画像を時間的に並べ替え、画像取得位置及び並べ替えられた後の画像に基づいて画像に含まれる対象に対して運動軌跡決定及び行為推定を行う。例えば、どの時間段内に、対象がどの場所を通過して、順に何をしたのか、画像の決定された事に基づいて対象が次にする可能性のある事について推定解析し、解析結果を得る。

当業者であれば、発明を実施するための形態の上記方法において、各ステップの記述順序は厳しい実行順序を意味して実施プロセスのいかなる限定を構成せず、各ステップの実際の実行順序はその機能及び可能な内部論理によって決定されるべきであることを理解できる。

歩行者再認識の課題では目標（ｐｒｏｂｅ）データセット及びベースライブラリ（ｇａｌｌｅｒｙ）データセットがあり、その目的は各目標画像について、全てのベースライブラリから同一歩行者に属する画像を探し出すことである。しかし、実際の応用において、高照射、乱雑な背景及び画角変化等の要因の影響により、目標再認識の課題におけるモデリングが複雑である。従来の多くの方法では、主に目標の外観的特徴情報の学習に限られるが、目標の外観はシーンにおける他の目標及び環境の背景に妨げられる可能性がある。

歩行者再認識の課題におけるモデリングは非常に複雑であり、多くの要因からの影響を受ける可能性がある。歩行者の再認識はシーンにおける他の歩行者に妨害され得、歩行者間には極めて類似する外観的特徴が存在し得るが、従来のモデリングでは２人の歩行者間の類似度関係のみを考慮しており、潜在的な難しいポジティブサンプル及び難しいネガティブサンプルと目標歩行者の関係が無視される。本開示の実施例ではグラフ畳み込みニューラルネットワークを用いてこのような関係をモデリングしようとしており、ベースライブラリ内の全ての歩行者間の類似度情報を十分に考慮することができ、また、高効率なシングルトリガーの再並べ替えアルゴリズムを提案し、単一の目標画像だけで再並べ替えを実現できる。

本開示の実施例は歩行者の再認識予測を例にして説明する。以下の３つのステップに分けて行うことができる。まず、全ての目標及びベースライブラリ画像に対して特徴符号化を行うための特徴ネットワークを訓練する。次に、各目標画像について類似度に従ってベースライブラリから候補目標特徴を探し出し、関連特徴を計算し、グラフ構造を構築する。最後に、グラフ畳み込みニューラルネットワークを使用して関連特徴を最適化し、最適化後の関連特徴に基づき、最終の候補目標順序を予測する。本開示の実施例は候補目標間の類似度情報を十分に利用し、候補目標間の関連特徴をグラフ畳み込みニューラルネットワークによってさらに最適化し、続いて最適化後の特徴に基づいて再並べ替え、より良好な予測シーケンスを得ることができる。より広い意味では、本開示の実施例により提供される解決手段は普遍的な検索タスクに適する。該解決手段を利用すればより良好な検索シーケンスを得ることができ、従来の再並べ替え（ｒｅｒａｎｋｉｎｇ）アルゴリズムに比べ、実際の応用での効率がより高い。また、このアルゴリズムは拡張可能性を有し、従来の再並べ替えアルゴリズムと組み合わせて使用し、より高い検索精度を得ることができる。

本開示の実施例はグラフ畳み込みニューラルネットワークのフレームワークにより目標歩行者の再位置決めの予測課題を解決する。歩行者再認識に影響する多数の要因はグラフ畳み込みニューラルネットワークの強い記述能力でモデリングすることが可能である。グラフ畳み込みの特性により、目標歩行者に類似する候補歩行者の関連特徴を深層学習ネットワークの入力とし、グラフ畳み込み演算を経て関連特徴に対して最適化学習を行う。本開示の実施例により提案される関連特徴のグラフ畳み込み学習モジュールは検索された候補歩行者特徴を再並べ替えし、検索精度の向上という目的を達成することができる。また、グラフ畳み込み学習のフレームワークは前置の特徴ネットワークとデカップリングするか又は協力して学習することができ、実際の応用では迅速に展開可能である。

図１１Ｂは本開示の実施例により提供される歩行者再認識方法の論理フローチャートであり、図１１Ｂに示すように、該フローは以下のステップを含む。

Ｓ１１０１において、目標画像を深層ニューラルネットワークに入力し、特徴コードを得る。

該プロセスでは、シーンにおける全ての歩行者の視覚画像を目標画像の入力とし、全ての歩行者の視覚を記述するための特徴コードを得て、この特徴コードは、関連特徴を計算し、深層ニューラルネットワークの入力とするために用いられる。

実施において以下のステップで実現してもよい。まず、全シーンにおいて目標検出等の手段を使用して各目標歩行者の目標サムネイルを抽出する。次に、各目標サムネイルについて、特徴抽出ネットワークを訓練し、特徴コードを抽出する。この特徴抽出ネットワークは訓練時、各目標歩行者をそれぞれ１つのカテゴリとし、多クラス分類学習を行う。訓練が完了してから、後の分類層を除去し、ネットワークの出力を特徴コードとする。

Ｓ１１０２において、特徴コードに基づいて目標画像とベースライブラリ画像との間の関連特徴を計算し、グラフ構造を構築する。

上記で得られた特徴コード行列によって、各目標歩行者画像の視覚特徴を特徴付ける。ベースライブラリから探し出された候補特徴について、関連特徴に基づいてグラフ構造を構築し、それによって候補歩行者間の豊富な類似度関係情報を記述する。

まず難しいベースライブラリサンプルのサンプリングを行い、その目的は難しいポジティブサンプルをできるだけ発掘することであり、具体的には２回の検索によって最大検索数を限定する方式を採用し及びベースライブラリ間の類似度関係を利用する。次にグラフ構造を構築し、それで目標画像と候補ベースライブラリとの全体的な類似度関係情報を表す。目標画像と候補ベースライブラリとの関連特徴をグラフ構造のノードとし、候補ベースライブラリ間の類似度情報はリンクの結び状態を決定する。計算を簡略化するために、関連特徴の表現形式は目標画像と候補ベースライブラリ特徴コードの補間とする。

図１１Ｃは本開示の実施例により提供される関連特徴学習フレームワークであり、図１１Ｃに示すように、目標画像１１１ａ及びベースライブラリ画像１１１ｂを特徴抽出ネットワーク１１２に入力し、目標画像の目標特徴及びベースライブラリの画像特徴を得て、さらに目標画像からベースライブラリ画像へ（ＰｒｏｂｅｔｏＧａｌｌｅｒｙ：Ｐ２Ｇと略称）の検索プロセスによって、目標画像に類似する関連ベースライブラリ画像１１３を得て、その後関連ベースライブラリ画像１１３をＨＧＳサンプラによってベースライブラリ候補画像１１４を得て、ベースライブラリ候補画像１１４及び目標画像１１１ａを処理してグラフ構造を形成する候補画像１１５を得て、グラフ構造の候補画像１１５から目標特徴グラフ１１１を除去してグラフノード１１６ａを得て、また、ベースライブラリ画像からベースライブラリ画像へ（ＧａｌｌｅｒｙｔｏＧａｌｌｅｒｙ：Ｇ２Ｇと略称）の検索プロセスによって、関連ベースライブラリ画像１１３中の異なるベースライブラリ画像間の特徴行列１１６ｂを得て、その後グラフ推論段階で、特徴行列１１６ｂにより画像エッジを決定し、グラフノード１２６ａと組み合わせてグラフ構造１１７を生成し、その後ＧＣＮ（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎＮｅｔｗｏｒｋ：グラフ畳み込みネットワーク）１１８を通過して最適化されたグラフ構造１１９を得て、最後にグラフ構造１１７及び最適化されたグラフ構造１１９を共に回帰予測ネットワーク１２０に送り込んで予測を行い、各グラフノードの予測確率を得る。

図１１Ｄは本開示の実施例により提供されるベースライブラリから難しいサンプルを選択する模式図であり、図１１Ｄに示すように、目標画像１１１について、関連ベースライブラリ画像１１３中の目標画像と関連する上位４枚のベースライブラリ画像を選別し、次にベースライブラリ画像間の類似度に基づき、上位４枚のベースライブラリ画像に最も類似する上位２枚のベースライブラリ画像を選別し、この６枚のベースライブラリ画像でベースライブラリ候補画像１１４を形成し、ここでベースライブラリ候補画像１１４は目標画像の難しいポジティブサンプルＡを含む。

Ｓ１１０３において、グラフ畳み込みネットワークにより関連特徴に対して推論最適化を行い、最適化後の予測シーケンスを出力する。

グラフ畳み込み推論は深層グラフ畳み込みニューラルネットワークに基づいて行われ、従来の畳み込みネットワークとは異なり、グラフ畳み込み構造はセマンティックな隣接ノードのトポロジ関係をより具現化可能である。本開示の実施例は９層グラフ畳み込みを使用しており、推論の有効性をさらに強化するために、アテンションメカニズムを使用して各関連特徴を最適化し、最適化後の結果によってより優れた検索シーケンスを取得し得る。特に、ネットワークが深くなりすぎて訓練が困難になるという問題を抑制するために、残差に基づく構造を使用する。最適化後の関連特徴については、更なる分類によって最終の検索シーケンスを決定してもよい。

関連技術では、主に何らかの従来の畳み込みニューラルネットワーク又は浅層グラフネットワークに基づいており、主にベースライブラリ内の単一サンプルの類似度情報を考慮する。また、従来の再並べ替えアルゴリズムは大量の目標画像を同時に再並べ替える必要があることが多く、実行効率が低く、実用的価値が低い。それに対して、本開示の実施例は深層グラフ畳み込みニューラルネットワークにより目標の再認識を行い、サンプル間の類似度情報をより十分に利用しており、より効果的に様々な影響要因を総合的に解析できる。本願の実施例はｇａｌｌｅｒｙ（ベースライブラリ）内の全ての歩行者間の類似度情報を十分に考慮し、関連特徴及び２回の検索に基づく難しいサンプル発掘技術により、サンプル間の関連情報の学習を高次元の特徴空間においてより十分にするような学習が得られる。本願の実施例は高効率のシングルトリガの再並べ替えアルゴリズムを提案し、単一の目標画像だけで再並べ替えを実現でき、従来の再認識アルゴリズムに柔軟に適用でき、安定した性能向上をもたらす。

本開示の実施例は映像監視下のシーンに適用され、全ての歩行者の同一又は異なるカメラでの位置を予測することができる。また、予測結果に基づき、目標歩行者の一定時間内のクロスカメラの運動軌跡を解析し、クロスカメラの目標追跡を可能にし、また、シーンに発生する何らかの異常行為を検出することもできる。

本開示の実施例は深層グラフ畳み込みネットワークを使用し、サンプル間の類似度情報をより十分に利用しており、より効果的に様々な影響要因を総合的に解析できる。本開示の実施例は関連特徴及び２回の検索に基づく難しいサンプル発掘技術により、サンプル間の関連情報の学習を高次元の特徴空間においてより十分にするような学習が得られる。本開示の実施例により提案されるアルゴリズムモジュールは従来の再認識アルゴリズムに柔軟に適用でき、安定した性能向上をもたらす。

本開示の実施例で言及した上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組み合わせ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示の実施例では詳細な説明を省略する。

また、本開示の実施例は目標再認識装置、電子機器、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供し、上記はいずれも本開示の実施例により提供されるいずれか一つの目標再認識方法を実現するために用いられることができ、対応する技術的解決手段及び説明は方法部分の対応する記載を参照すればよく、ここでは説明を省略する。

図１２は本開示の実施例に係る目標再認識装置のブロック図を示し、図１２に示すように、前記目標再認識装置は、
目標対象画像及び処理される画像集合を取得するように構成される画像取得モジュール１２０１であって、目標対象画像には目標対象が含まれる画像取得モジュールと、
目標対象画像の第１特徴値及び処理される画像集合に対応する第２特徴値集合に基づいて処理される画像集合から候補画像集合を決定するように構成される候補画像決定モジュール１２０２であって、候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上である候補画像決定モジュールと、
訓練されておいたグラフ関連認識ネットワークに基づき、第１特徴値及び第２特徴値集合を認識し、候補画像集合から目標画像集合を決定するように構成される目標画像決定モジュール１２０３であって、目標画像集合内の画像に含まれる対象と目標対象との第１類似度値は非目標画像に含まれる対象と目標対象との第１類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含む目標画像決定モジュールと、を含む。

一部の可能な実施形態において、上記グラフ関連認識ネットワークは第１グラフ構造構築サブネットワーク、グラフ関連更新サブネットワーク及び分類器を含み、第１グラフ構造構築サブネットワークと、グラフ関連更新サブネットワークと、分類器とはシリアル接続され、目標画像決定モジュールは、第１特徴値及び第２特徴値集合を第１グラフ構造構築サブネットワークに入力し、第１グラフ構造を得て、第１グラフ構造はノード及び２つのノードを結ぶように構成されるリンクを含み、ノードの数は候補画像集合内の画像の数と同じであり、２つのノードを結ぶリンクは結ばれる２つのノード間の類似度及び予め設定された類似度に基づいて決定され、第１グラフ構造をグラフ関連更新サブネットワークに入力し、更新して最適化された後の第２グラフ構造を得て、分類器によって第２グラフ構造に基づいて候補画像集合内の各候補画像に対応する第１類似度値を決定し、そして各候補画像に対応する第１類似度値及び類似度閾値に基づいて目標画像集合を決定するように構成される。

一部の可能な実施形態において、目標画像決定モジュールは、第１グラフ構造と第２グラフ構造を加算して融合し、第３グラフ構造を得て、そして分類器によって第３グラフ構造に基づいて候補画像集合内の各候補画像に対応する第１類似度値を決定するように構成される。

一部の可能な実施形態において、上記グラフ関連更新サブネットワークはアテンションメカニズム層、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含み、アテンションメカニズム層と、複数のグラフ畳み込み層と、複数の活性化層と、複数の完全接続層とはシリアル接続され、目標画像決定モジュールは、第１グラフ構造をアテンションメカニズム層に入力し、第１グラフ構造における各ノードの重みベクトルを得て、各ノードの重みベクトル及び第１グラフ構造をアテンションメカニズム層の次の層の入力として決定し、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層のうちの現在処理しているいずれかの層を現在層として決定し、現在層の前の層の出力を現在層の入力とし、計算処理を経てから現在層の出力を得て、そしていずれかの現在層の対応する出力が存在する場合、グラフ関連更新サブネットワークにおける最終層の出力に基づいて更新して最適化された後の第２グラフ構造を得るように構成される。

一部の可能な実施形態において、候補画像決定モジュールは、特徴コード抽出ネットワークに基づいて目標対象画像に含まれる目標対象の第１特徴値を決定し、特徴コード抽出ネットワークに基づいて処理される画像集合内の各画像に含まれる対象の第２特徴値を決定し、第２特徴値及び第１特徴値に基づいて各画像に対応する第２類似度値を決定し、そして第２類似度値に基づいて処理される画像集合から候補画像集合を決定するように構成される。

一部の可能な実施形態において、上記候補画像決定モジュールは、各処理される画像に対応する第２類似度値を値の大きい順に並べ替え、そして上位Ｎ位の第２類似度値に対応する処理される画像に基づいて候補画像集合を得るように構成される。

一部の可能な実施形態において、上記候補画像決定モジュールは、各処理される画像に対応する第２類似度値を値の大きい順に並べ替え、上位Ｎ１位の第２類似度値に対応する処理される画像に基づいて処理される画像集合を第１候補画像集合と非第１候補画像集合に分け、ここで第１候補画像集合は上位Ｎ１位の第２類似度値に対応する画像を含み、第１候補画像集合内の画像の第２特徴値及び非第１候補画像集合内の画像の第２特徴値に基づいて非第１候補画像集合からＮ２枚の画像を決定し、第２候補画像集合を形成し、そして第１候補画像集合及び第２候補画像集合に基づいて候補画像集合を決定するように構成される。

一部の可能な実施形態において、上記候補画像決定モジュールは、第１候補画像集合内の現在使用しているいずれかの画像を現在画像として決定し、現在画像の第２特徴値及び非第１候補画像集合内の画像の第２特徴値に基づいて非第１候補画像集合内の各画像に対応する第３類似度値を決定し、各画像に対応する第３類似度値に基づいて非第１候補画像集合から現在画像に対応する第３候補画像集合を決定し、そして各現在画像いずれも対応する第３候補画像集合が存在する場合、各現在画像に対応する第３候補画像集合に基づいてＮ２枚の画像を決定し、第２候補画像集合を形成するように構成される。

一部の可能な実施形態において、さらに解析モジュールを含み、該解析モジュールは、目標画像集合内の画像の属性情報を決定し、そして属性情報に基づいて目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うように構成される。

一部の可能な実施形態において、上記属性情報は画像取得位置及び画像取得時間を含み、解析モジュールは、画像取得時間に基づいて目標画像集合内の画像を並べ替え、そして画像取得位置及び並べ替えられた後の画像に基づいて画像に含まれる対象に対して運動軌跡決定及び行為推定を行うように構成される。

一部の実施例において、本開示の実施例により提供される装置が有する機能又は含むモジュールは、上記の方法の実施例に記載の方法を実行するように構成されてもよく、その実際の実施は上記の方法の実施例の記載を参照すればよく、簡潔にするために、ここでは繰り返し説明しない。

本開示の実施例は、プロセッサによりロードされ且つ実行される時、上記方法を実現する少なくとも１つの命令又は少なくとも１つのプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。コンピュータ読み取り可能な記憶媒体は不揮発性コンピュータ読み取り可能な記憶媒体であってもよい。
本開示の実施例は電子機器をさらに提供し、プロセッサ、及びプロセッサにより実行可能な命令を記憶するように構成されるメモリを含み、前記プロセッサは上記方法を実現するように構成される。電子機器は端末、サーバ又は他の形態の機器として提供されてもよい。

本開示の実施例は命令を含むコンピュータプログラム製品を提供し、それはコンピュータにおいて実行されると、コンピュータに本開示の実施例の目標再認識方法を実行させる。

図１３は本開示の実施例に係る電子機器のブロック図を示す。例えば、電子機器１３００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナルディジタルアシスタント等であってもよい。

図１３を参照すると、電子機器１３００は、処理ユニット１３０２、メモリ１３０４、電源ユニット１３０６、マルチメディアユニット１３０８、オーディオユニット１３１０、入力／出力（Ｉ／Ｏ：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース１３１２、センサユニット１３１４、及び通信ユニット１３１６の１つ又は複数を含んでもよい。

処理ユニット１３０２は通常、電子機器１３００の全体的な操作、例えば表示、電話の呼び出し、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット１３０２は、上記方法の全て又は一部のステップを完了するために、１つ又は複数の命令を実行するためのプロセッサ１３２０を含むことができる。また、処理ユニット１３０２は、他のユニットとのインタラクションを容易にするために、１つ又は複数のモジュールを含むことができる。例えば、処理ユニット１３０２は、マルチメディアユニット１３０８とのインタラクションを容易にするために、マルチメディアモジュールを含むことができる。

メモリ１３０４は電子機器１３００での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器１３００において操作されるあらゆるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオ等を含む。メモリ１３０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ：ＳｔａｔｉｃＲａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）、電気的消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスク等の任意のタイプの揮発性又は不揮発性記憶機器又はそれらの組み合わせによって実現されてもよい。

電源ユニット１３０６は電子機器１３００の各ユニットに電力を供給する。電源ユニット１３０６は電源管理システム、１つ又は複数の電源、及び電子機器１３００のための電力生成、管理及び配分に関連する他のユニットを含むことができる。

マルチメディアユニット１３０８は前記電子機器１３００とユーザとの間で出力インタフェースを提供するスクリーンを含む。一部の実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）及びタッチパネル（ＴＰ：ＴｏｕｃｈＰａｎｅｌ）を含むことができる。スクリーンは、タッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スライド及びタッチパネルでのジェスチャをセンシングするために、１つ又は複数のタッチセンサを含む。前記タッチセンサはタッチ又はスライド動きの境界をセンシングするのみならず、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。一部の実施例では、マルチメディアユニット１３０８は１つのフロントカメラ及び／又はリアカメラを含む。電子機器１３００が動作モード、例えば撮影モード又はビデオモードにある場合、フロントカメラ及び／又はリアカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは１つの固定された光学レンズシステムであってもよく、又は焦点距離及び光学ズーム能力を有するものであってもよい。

オーディオユニット１３１０はオーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオユニット１３１０は、電子機器１３００が動作モード、例えば呼び出しモード、記録モード及び音声認識モードにある場合、外部のオーディオ信号を受信するように構成されたマイク（ＭＩＣ：Ｍｉｃｒｏｐｈｏｎｅ）を含む。受信されたオーディオ信号はメモリ１３０４に記憶されるか、又は通信ユニット１３１６によって送信されてもよい。一部の実施例では、オーディオユニット１３１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース１３１２は処理ユニット１３０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタン等であってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されない。

センサユニット１３１４は電子機器１３００に各態様での状態評価を提供するための１つ又は複数のセンサを含む。例えば、センサユニット１３１４は電子機器１３００のオン／オフ状態、及び、例えば電子機器１３００の表示装置やキーパッドであるユニットの相対的な位置決めを検出でき、センサユニット１３１４はさらに、電子機器１３００又は電子機器１３００の一つのユニットの位置の変化、ユーザと電子機器１３００との接触の有無、電子機器１３００の方位又は加減速及び電子機器１３００の温度変化を検出できる。センサユニット１３１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成された近接センサを含むことができる。センサユニット１３１４はさらに、相補型金属酸化物半導体（ＣＭＯＳ：ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ－Ｏｘｉｄｅ－Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）又は電荷結合素子（ＣＣＤ：ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサのような、イメージングアプリケーションにおいて使用されるための光センサを含むことができる。一部の実施例では、該センサユニット１３１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを含むことができる。

通信ユニット１３１６は電子機器１３００と他の機器との間の有線又は無線の通信を容易にするように構成される。電子機器１３００は通信規格に基づく無線ネットワーク、例えばワイヤレスフィデリティ（Ｗｉ－Ｆｉ：ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）、第２世代移動通信技術（２Ｇ：Ｔｈｅ２ｎｄＧｅｎｅｒａｔｉｏｎ）又は第３世代移動通信技術（３Ｇ：Ｔｈｅ３ｎｄＧｅｎｅｒａｔｉｏｎ）又はそれらの組み合わせにアクセスできる。一例示的実施例では、通信ユニット１３１６は放送チャネルによって外部の放送管理システムからの放送信号又は放送関連情報を受信する。一例示的実施例では、前記通信ユニット１３１６はさらに、近距離通信を促進するために、近距離通信（ＮＦＣ：ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）モジュールを含む。例えば、ＮＦＣモジュールでは無線周波数識別（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）技術、赤外線データ協会（ＩｒＤＡ：ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）技術、超広帯域（ＵＷＢ：ＵｌｔｒａＷｉｄｅＢａｎｄ）技術、ブルートゥース（登録商標）（ＢＴ：ＢｌｕｅＴｏｏｔｈ）技術及び他の技術によって実現されてもよい。

例示的な実施例では、電子機器１３００は、上記方法を実行するために１つ又は複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、デジタル信号処理装置（ＤＳＰＤ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅ）、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子によって実現されることができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ１３０４が提供され、上記コンピュータプログラム命令は、上記方法を完了するように、電子機器１３００のプロセッサ１３２０によって実行されることができる。

図１４は本開示の実施例に係る別の電子機器のブロック図を示す。例えば、電子機器１４００はサーバとして提供されてもよい。図１４を参照すると、電子機器１４００は、一部の実施形態において１つ又は複数のプロセッサを含む処理ユニット１４２２、及び、処理ユニット１４２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１４３２によって代表されるメモリ資源を含む。メモリ１４３２に記憶されたアプリケーションプログラムはそれぞれが１グループの命令に対応する１つ又は複数のモジュールを含むことができる。また、処理ユニット１４２２は、上記方法を実行するように、命令を実行するように構成される。

電子機器１４００はさらに、電子機器１４００の電源管理を実行するように構成された電源ユニット１４２６、電子機器１４００をネットワークにアクセスするように構成された有線又は無線ネットワークインタフェース１４５０、及びＩ／Ｏインタフェース１４５８を含むことができる。電子機器１４００はメモリ１４３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭ又は類似するシステムに基づいて動作できる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ１４３２が提供され、上記コンピュータプログラム命令は、上記方法を完了するように、電子機器１４００の処理ユニット１４２２によって実行されてもよい。

本開示の実施例はシステム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の実施例の各態様を実現させるためのコンピュータ読み取り可能なプログラム命令がロードされているコンピュータ読み取り可能な記憶媒体を含むことができる。

コンピュータ読み取り可能な記憶媒体は命令実行機器により使用される命令を保存及び記憶可能な有形機器であってもよい。コンピュータ読み取り可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体は、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、読み取り専用メモリ、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、静的ランダムアクセスメモリ、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、デジタル多用途ディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ）、メモリスティック、フロッピー（登録商標）ディスク、及び機械的符号化装置、例えば命令が記憶されているせん孔カード又はスロット内突起構造、並びに上記の任意の適当な組み合わせを含むことができる。ここで使用されるコンピュータ読み取り可能な記憶媒体は瞬時信号自体、例えば無線電波又は他の自由に伝播する電磁波、導波路又は他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過する光パルス）、又は電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述されたコンピュータ読み取り可能なプログラム命令はコンピュータ読み取り可能な記憶媒体から各計算／処理機器にダウンロードされてもよいし、又はネットワーク、例えばインタネット、ローカルエリアネットワーク、広域ネットワーク及び／又は無線ネットワークによって外部のコンピュータ又は外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含むことができる。各計算／処理機器内のネットワークアダプタカード又はネットワークインタフェースはネットワークからコンピュータ読み取り可能なプログラム命令を受信し、各計算／処理機器内のコンピュータ読み取り可能な記憶媒体に記憶するために、該コンピュータ読み取り可能なプログラム命令を転送する。本開示の実施例の操作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ：ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト向けプログラミング言語、及びＣ言語又は類似するプログラミング言語等の一般的な手続き型プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又は目標コードであってもよい。コンピュータ読み取り可能なプログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、１つの独立したソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいて且つ部分的にリモートコンピュータにおいて実行されてもよく、又は完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）又は広域ネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい（例えばインタネットサービスプロバイダを用いてインタネットを経由して接続される）。一部の実施例では、コンピュータ読み取り可能なプログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ又はプログラマブル論理アレイ等の電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能なプログラム命令を実行し、それにより本開示の実施例の各態様を実現できるようになる。

なお、ここで本開示の実施例に係る方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら本開示の実施例の各態様を説明しが、フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能なプログラム命令によって実現されることができることを理解すべきである。

これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行される場合、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて規定された機能／動作を実現する装置を生じるように、マシンが生じる。また、これらのコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、これらの命令により、コンピュータ、プログラマブルデータ処理装置及び／又は他の機器が決定の方式で動作し、それにより、命令を記憶するコンピュータ読み取り可能な記憶媒体は、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて規定された機能／動作の各態様を実現する命令を含む製品を備える。コンピュータ読み取り可能なプログラムをコンピュータ、他のプログラマブルデータ処理装置、又は他の機器にロードすることにより、コンピュータ実現のプロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置又は他の機器において一連の操作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、又は他の機器において実行される命令によりフローチャート及び／又はブロック図の１つ又は複数のブロックにおいて規定された機能／動作を実現する。

図面におけるフローチャート及びブロック図は本開示の実施例に係る複数の実施形態のシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。この点では、フローチャート又はブロック図における各ブロックは一つのモジュール、プログラムセグメント又は命令の一部分を代表することができ、前記モジュール、プログラムセグメント又は命令の一部分は規定された論理機能を実現するための１つ又は複数の実行可能命令を含む。一部の置換としての実現形態では、ブロックに表記される機能は図面に表記されものと異なる順序で発生してもよい。例えば、２つの連続的なブロックは、実際には基本的に並行して実行されてもよく、また、係る機能によって、それらは逆な順序で実行されてもよい場合がある。なお、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、規定される機能又は動作を実行するハードウェアに基づく専用システムによって実現されてもよいし、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよいことに注意すべきである。

以上、本開示の実施例の各実施形態を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、且つ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲及び精神から逸脱することなく、多くの修正及び変更が自明である。本明細書に用いられる用語の選択は、各実施形態の原理、実際の応用又は市場における技術に対する改善を好適に解釈すること、又は他の当業者に本明細書に披露された各実施例を理解させることを目的とする。

本開示の実施例は、目標対象画像及び処理される画像集合を取得し、前記目標対象画像には目標対象が含まれ、前記目標対象画像の第１特徴値及び前記処理される画像集合に対応する第２特徴値集合に基づき、前記処理される画像集合から候補画像集合を決定し、前記候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上であり、そして訓練されておいたグラフ関連認識ネットワークに基づき、前記第１特徴値及び前記第２特徴値集合を認識し、前記候補画像集合から目標画像集合を決定し、前記目標画像集合内の画像に含まれる対象と前記目標対象との第１類似度値は、非目標画像に含まれる対象と前記目標対象との第１類似度値以上であり、前記候補画像集合は前記目標画像集合及び前記非目標画像を含む。このように、処理される画像集合からより正確なポジティブサンプルを決定し、ネガティブサンプルからの妨害を低減し、目標画像集合を得て、それにより、後続で目標画像集合内の画像の属性情報に基づいてそれに含まれる対象に対して軌跡行為解析を行った結果の正確性を向上させることができる。

Claims

目標対象画像及び処理される画像集合を取得することであって、前記目標対象画像には目標対象が含まれることと、
前記目標対象画像の第１特徴値及び前記処理される画像集合に対応する第２特徴値集合に基づき、前記処理される画像集合から候補画像集合を決定することであって、前記候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上であることと、
訓練されておいたグラフ関連認識ネットワークに基づき、前記第１特徴値及び前記第２特徴値集合を認識し、前記候補画像集合から目標画像集合を決定することであって、前記目標画像集合内の画像に含まれる対象と前記目標対象との第１類似度値は、非目標画像に含まれる対象と前記目標対象との第１類似度値以上であり、前記候補画像集合は前記目標画像集合及び前記非目標画像を含むことと、を含む、目標再認識方法。
前記グラフ関連認識ネットワークは第１グラフ構造構築サブネットワーク、グラフ関連更新サブネットワーク及び分類器を含み、前記第１グラフ構造構築サブネットワークと、前記グラフ関連更新サブネットワークと、前記分類器とはシリアル接続され、
訓練されておいたグラフ関連認識ネットワークに基づき、前記第１特徴値及び前記第２特徴値集合を認識し、前記候補画像集合から目標画像集合を決定することは、
前記第１特徴値及び前記第２特徴値集合を前記第１グラフ構造構築サブネットワークに入力して、第１グラフ構造を得ることであって、前記第１グラフ構造はノード及び２つのノードを結ぶためのリンクを含み、前記ノードの数は前記候補画像集合内の画像の数と同じであり、２つのノードを結ぶ前記リンクは結ばれる前記２つのノード間の類似度及び予め設定された類似度に基づいて決定されることと、
前記第１グラフ構造を前記グラフ関連更新サブネットワークに入力して、更新して最適化された後の第２グラフ構造を得ることと、
前記分類器によって前記第２グラフ構造に基づき、前記候補画像集合内の各候補画像に対応する第１類似度値を決定することと、
前記各候補画像に対応する第１類似度値及び類似度閾値に基づき、前記目標画像集合を決定することと、を含む
請求項１に記載の方法。
前記分類器によって前記第２グラフ構造に基づいて前記候補画像集合内の各候補画像に対応する第１類似度値を決定することは、
前記第１グラフ構造と前記第２グラフ構造を加算して融合して、第３グラフ構造を得ることと、
前記分類器によって前記第３グラフ構造に基づいて前記候補画像集合内の各候補画像に対応する第１類似度値を決定することと、を含む
請求項２に記載の方法。
前記グラフ関連更新サブネットワークはアテンションメカニズム層、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含み、
前記アテンションメカニズム層と、前記複数のグラフ畳み込み層と、前記複数の活性化層と、前記複数の完全接続層とはシリアル接続され、
前記第１グラフ構造を前記グラフ関連更新サブネットワークに入力して、更新して最適化された後の第２グラフ構造を得ることは、
前記第１グラフ構造を前記アテンションメカニズム層に入力して、前記第１グラフ構造における各ノードの重みベクトルを得ることと、
前記各ノードの重みベクトル及び前記第１グラフ構造を前記アテンションメカニズム層の次の層の入力として決定することと、
前記複数のグラフ畳み込み層、前記複数の活性化層及び前記複数の完全接続層のうちの現在処理しているいずれかの層を現在層として決定することと、
前記現在層の前の層の出力を前記現在層の入力とし、計算処理を経てから現在層の出力を得ることと、
いずれかの前記現在層の対応する出力が存在する場合、前記グラフ関連更新サブネットワークにおける最終層の出力に基づき、更新して最適化された後の第２グラフ構造を得ることと、を含む
請求項２に記載の方法。
前記目標対象画像の第１特徴値及び前記処理される画像集合に対応する第２特徴値集合に基づき、前記処理される画像集合から候補画像集合を決定することは、
特徴コード抽出ネットワークに基づいて前記目標対象画像に含まれる前記目標対象の第１特徴値を決定することと、
前記特徴コード抽出ネットワークに基づいて前記処理される画像集合内の各処理される画像に含まれる対象の第２特徴値を決定することと、
前記第２特徴値及び前記第１特徴値に基づき、各前記処理される画像に対応する第２類似度値を決定することと、
前記第２類似度値に基づき、前記処理される画像集合から候補画像集合を決定することと、を含む
請求項１から４のいずれか１項に記載の方法。
前記第２類似度値に基づき、前記処理される画像集合から候補画像集合を決定することは、
各前記処理される画像に対応する第２類似度値を値の大きい順に並べ替えることと、
上位Ｎ位の第２類似度値に対応する処理される画像に基づいて前記候補画像集合を得ることと、を含む
請求項５に記載の方法。
前記第２類似度値に基づき、前記処理される画像集合から候補画像集合を決定することは、
各前記処理される画像に対応する第２類似度値を値の大きい順に並べ替えることと、
上位Ｎ１位の第２類似度値に対応する処理される画像に基づいて前記処理される画像集合を第１候補画像集合と非第１候補画像集合に分けることであって、ここで、前記第１候補画像集合は前記上位Ｎ１位の第２類似度値に対応する処理される画像を含むことと、
前記第１候補画像集合内の画像の第２特徴値及び前記非第１候補画像集合内の画像の第２特徴値に基づき、前記非第１候補画像集合からＮ２枚の画像を決定して、第２候補画像集合を形成することと、
前記第１候補画像集合及び前記第２候補画像集合に基づき、前記候補画像集合を決定することと、を含む
請求項５に記載の方法。
前記第１候補画像集合内の画像の第２特徴値及び前記非第１候補画像集合内の画像の第２特徴値に基づき、前記非第１候補画像集合からＮ２枚の画像を決定して、第２候補画像集合を形成することは、
前記第１候補画像集合内の現在使用されているいずれかの画像を現在画像として確認することと、
前記現在画像の第２特徴値及び前記非第１候補画像集合内の画像の第２特徴値に基づき、前記非第１候補画像集合内の各画像に対応する第３類似度値を決定することと、
各前記画像に対応する第３類似度値に基づき、前記非第１候補画像集合から前記現在画像に対応する第３候補画像集合を決定することと、
各前記現在画像いずれも対応する第３候補画像集合が存在する場合、各前記現在画像に対応する第３候補画像集合に基づいてＮ２枚の画像を決定し、第２候補画像集合を形成することと、を含む
請求項７に記載の方法。
前記候補画像集合から目標画像集合を決定した後に、さらに、
前記目標画像集合内の画像の属性情報を決定することと、
前記属性情報に基づき、前記目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うことと、を含む
請求項１に記載の方法。
前記属性情報は画像取得位置及び画像取得時間を含み、
前記属性情報に基づき、前記目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うことは、
前記画像取得時間に基づいて前記目標画像集合内の画像を並べ替えることと、
前記画像取得位置及び並べ替えられた後の画像に基づき、前記目標画像集合内の画像に含まれる対象に対して運動軌跡決定及び行為推定を行うことと、を含む
請求項９に記載の方法。
目標対象画像及び処理される画像集合を取得するように構成される画像取得モジュールであって、前記目標対象画像には目標対象が含まれる画像取得モジュールと、
前記目標対象画像の第１特徴値及び前記処理される画像集合に対応する第２特徴値集合に基づき、前記処理される画像集合から候補画像集合を決定するように構成される候補画像決定モジュールであって、前記候補画像集合内のいずれか２枚の画像間の類似値は予め設定された類似値以上である候補画像決定モジュールと、
訓練されておいたグラフ関連認識ネットワークに基づき、前記第１特徴値及び前記第２特徴値集合を認識して、前記候補画像集合から目標画像集合を決定するように構成される目標画像決定モジュールであって、前記目標画像集合内の画像に含まれる対象と前記目標対象との第１類似度値は、非目標画像に含まれる対象と前記目標対象との第１類似度値以上であり、前記候補画像集合は前記目標画像集合及び前記非目標画像を含む目標画像決定モジュールと、を含む、目標再認識装置。
プロセッサによりロードされ且つ請求項１から１０のいずれか１項に記載の目標再認識方法を実現するように実行される少なくとも１つの命令又は少なくとも１つのプログラムが記憶されている、コンピュータ読み取り可能な記憶媒体。
少なくとも１つのプロセッサ、及び前記少なくとも１つのプロセッサと通信接続されるメモリを含む電子機器であって、前記メモリには前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記少なくとも１つのプロセッサは前記メモリに記憶された命令を実行することで、請求項１から１０のいずれか１項に記載の目標再認識方法を実現する、前記電子機器。
機器において実行される時、機器内のプロセッサが請求項１から１０のいずれか１項に記載の目標再認識方法を実現するように実行するコンピュータ読み取り可能なコードを含む、コンピュータプログラム製品。