JP7165752B2

JP7165752B2 - 画像処理方法及び装置、プロセッサ、記憶媒体

Info

Publication number: JP7165752B2
Application number: JP2020564418A
Authority: JP
Inventors: 嘉▲ウェイ▼ 任; 海▲ニン▼ ▲趙▼; ▲師▼ 伊
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2019-10-22
Filing date: 2019-12-31
Publication date: 2022-11-04
Anticipated expiration: 2039-12-31
Also published as: US20210117687A1; JP2022510529A

Description

本開示は、２０１９年１０月２２日に中国特許庁に出願された出願番号２０１９１１００７０６９．６、発明の名称「画像処理方法及び装置、プロセッサ、記憶媒体」である中国特許出願に基づく優先権を主張し、その内容の全てが援用によって本開示に組み込まれる。

本開示は画像処理技術の分野に関し、特に画像処理方法及び装置、プロセッサ、記憶媒体に関する。

従来、仕事、生活や社会環境の安全性を高めるために、ビデオストリーム情報に基づくセキュリティ保護が行われるように、撮像監視装置がさまざまな場所に取り付けられている。公共の場所でのカメラの数の急増に伴い、どのように効果的に大量のビデオストリームで対象人物を含む画像を決定して当該画像の情報に基づいて対象人物の行方などの情報を決定するかは、非常に重要である。

従来の方法では、ビデオストリームの画像と、対象人物を含む参照画像とからそれぞれ抽出された特徴をマッチングして、対象人物と同一の身元である人物オブジェクトを含む対象画像を決定し、さらに対象人物の追跡を実現している。例えば、場所Ａで強盗事件が発生した場合、警察が現場の目撃者から提供された容疑者の画像を参照画像として、特徴マッチングの方法によりビデオストリームうちの容疑者を含む対象画像を決定する。

このような方法で参照画像とビデオストリームの画像から抽出された特徴には、衣装属性や外見特徴のみが含まれることが多いが、画像には、人物オブジェクトの姿勢、人物オブジェクトの歩幅、人物オブジェクトが撮像された画角など人物オブジェクトの身元の識別に寄与するような情報も含まれているため、このような方法で特徴マッチングを行うときには、人物オブジェクトの姿勢、人物オブジェクトの歩幅、人物オブジェクトが撮像された画角など人物オブジェクトの身元の識別に寄与するような情報を用いて対象画像を決定することなく、衣装属性や外見特徴のみを用いて対象画像を決定することになる。

本開示は、データベースでの検索によりデータベースから対象人物を含む対象画像を取得することができる画像処理方法及び装置、プロセッサ、記憶媒体を提供する。

第１側面は、被処理画像を取得することと、前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを対象確率分布データとして得ることと、前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得することとを含む画像処理方法を提供する。

この側面では、被処理画像に対して特徴抽出処理を行うことによって、被処理画像における人物オブジェクトの特徴情報が抽出され、第１の特徴データが得られる。さらに、第１の特徴データに基づいて、被処理画像における人物オブジェクトの特徴の対象確率分布データを得ることによって、第１の特徴データのうちの変化特徴に含まれる情報を衣装属性及び外見特徴からデカップリングすることを実現する。このように、変化特徴に含まれる情報は、対象確率分布データとデータベース内の参照確率分布データとの類似度の決定に利用することができるので、当該類似度に基づいて被処理画像における人物オブジェクトと同一の身元である人物オブジェクトを含む画像を決定する確度、即ち被処理画像における人物オブジェクトの身元を識別する確度を向上させることができる。

可能な一実現形態では、前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの特徴の確率分布データを対象確率分布データとして得ることは、前記被処理画像に対して特徴抽出処理を行い、第１の特徴データを得ることと、前記第１の特徴データに対して第１の非線形変換を行い、前記対象確率分布データを得ることとを含む。

この可能な実現形態では、被処理画像に対して特徴抽出処理と第１の非線形変換を順次行って、対象確率分布データを得ることによって、被処理画像に基づいて被処理画像における人物オブジェクトの特徴の確率分布データを得ることを実現する。

別の可能な一実現形態では、前記第１の特徴データに対して第１の非線形変換を行い、前記対象確率分布データを得ることは、前記第１の特徴データに対して第２の非線形変換を行い、第２の特徴データを得ることと、前記第２の特徴データに対して第３の非線形変換を行い、第１の処理結果を平均データとして得ることと、前記第２の特徴データに対して第４の非線形変換を行い、第２の処理結果を分散データとして得ることと、前記平均データと前記分散データとに基づいて前記対象確率分布データを決定することとを含む。

この可能な実現形態では、後続の処理において例えば確率分布データを得るために、第１の特徴データに対して第２の非線形変換を行い、第２の特徴データを得る。そして、第２の特徴データに対して第３の非線形変換と第４の非線形変換をそれぞれ行い、平均データと分散データを得、さらに平均データと分散データとに基づいて対象確率分布データを決定することにより、第１の特徴データに基づいて対象確率分布データを得ることを実現する。

更なる別の可能な一実現形態では、前記第１の特徴データに対して第２の非線形変換を行い、第２の特徴データを得ることは、前記第１の特徴データに対して畳み込み処理とプーリング処理を順次行い、前記第２の特徴データを得ることを含む。

更なる別の可能な一実現形態では、前記方法は、深層畳み込みネットワークと歩行者再識別ネットワークとを含む確率分布データ生成ネットワークに応用され、前記深層畳み込みネットワークは、前記被処理画像に対して特徴抽出処理を行い、前記第１の特徴データを得るためのものであり、前記歩行者再識別ネットワークは、前記特徴データに対して符号化処理を行い、前記対象確率分布データを得るためのものである。

第１側面及び上記の全ての可能な実現形態を参考すると、この可能な実現形態では、確率分布データ生成ネットワークに含まれる深層畳み込みネットワークにより被処理画像に対して特徴抽出処理を行うことにより、第１の特徴データを得ることができ、さらに確率分布データ生成ネットワークに含まれる歩行者再識別ネットワークにより第１の特徴データを処理することにより、対象確率分布データを得ることができる。

更なる別の可能な一実現形態では、前記確率分布データ生成ネットワークは歩行者再識別トレーニングネットワークに属し、前記歩行者再識別トレーニングネットワークはデカップリングネットワークをさらに含み、前記歩行者再識別トレーニングネットワークのトレーニングプロセスは、サンプル画像を前記歩行者再識別トレーニングネットワークに入力し、前記深層畳み込みネットワークの処理により第３の特徴データを得ることと、前記歩行者再識別ネットワークにより前記第３の特徴データを処理し、前記サンプル画像における人物オブジェクトの特徴の確率分布を記述するための第１のサンプル平均データと第１のサンプル分散データを得ることと、前記デカップリングネットワークにより、前記第１のサンプル平均データと前記第１サンプル分散データとに基づいて決定された第１のサンプル確率分布データ内の人物オブジェクトの身元情報を除去し、第２のサンプル確率分布データを得ることと、前記デカップリングネットワークにより前記第２のサンプル確率分布データを処理し、第４の特徴データを得ることと、前記第１のサンプル確率分布データ、前記第３の特徴データ、前記サンプル画像のラベルデータ、前記第４の特徴データ及び前記第２のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記歩行者再識別トレーニングネットワークのパラメータを調整することとを含む。

この可能な実現形態では、第１のサンプル確率分布データ、第３の特徴データ、サンプル画像のラベルデータ、第４の特徴データ及び第２のサンプル確率分布データに基づいて、歩行者再識別トレーニングネットワークのネットワーク損失を決定することができ、さらに当該ネットワーク損失に基づいてデカップリングネットワークのパラメータ及び歩行者再識別ネットワークのパラメータを調整して、歩行者再識別ネットワークのトレーニングを完成させることができる。

更なる別の可能な一実現形態では、前記第１のサンプル確率分布データ、前記第３の特徴データ、前記サンプル画像のラベルデータ、前記第４の特徴データ及び前記第２のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することは、前記第１のサンプル確率分布データで表される人物オブジェクトの身元と、前記第３の特徴データで表される人物オブジェクトの身元との差を分析することによって、第１の損失を決定することと、前記第４の特徴データと前記第１のサンプル確率分布データとの差に基づいて、第２の損失を決定することと、前記第２のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第３の損失を決定することと、前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることとを含む。

更なる別の可能な一実現形態では、前記方法は、前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第１のサンプル確率分布データに基づいて決定された人物オブジェクトの身元と前記サンプル画像のラベルデータとの差に基づいて、第４の損失を決定することをさらに含み、前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることは、前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることを含む。

更なる別の可能な一実現形態では、前記方法は、前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第２のサンプル確率分布データと前記第１の所定確率分布データとの差に基づいて、第５の損失を決定することをさらに含み、前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることは、前記第１の損失、前記第２の損失、前記第３の損失、前記第４の損失及び前記第５の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることを含む。

更なる別の可能な一実現形態では、前記第２のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第３の損失を決定することは、前記第２のサンプル確率分布データから多次元のデータを任意に選択する態様、前記第２のサンプル確率分布データのうちの奇数次元のデータを選択する態様、前記第２のサンプル確率分布データのうち前のｎ（ただし、ｎは正の整数）次元のデータを選択する態様のいずれか一つである所定の態様で、前記第２のサンプル確率分布データから対象データを選択することと、前記対象データで表される人物オブジェクトの身元情報と前記サンプル画像のラベルデータとの差に基づいて、前記第３の損失を決定することとを含む。

更なる別の可能な一実現形態では、前記デカップリングネットワークにより前記第２のサンプル確率分布データを処理し、第４の特徴データを得ることは、前記第２のサンプル確率分布データに前記サンプル画像における人物オブジェクトの身元情報を付加したデータに対して復号化処理を行い、前記第４の特徴データを得ることを含む。

更なる別の可能な一実現形態では、前記デカップリングネットワークにより、前記第１のサンプル確率分布データ内の前記人物オブジェクトの身元情報を除去し、第２のサンプル確率分布データを得ることは、前記ラベルデータに対してワンホット符号化処理を行い、符号化処理したラベルデータを得ることと、前記符号化処理したデータと前記第１のサンプル確率分布データに対してスティッチ処理を行い、スティッチした確率分布データを得ることと、前記スティッチした確率分布データに対して符号化処理を行い、前記第２のサンプル確率分布データを得ることとを含む。

更なる別の可能な一実現形態では、前記第１のサンプル確率分布データは、前記第１のサンプル平均データと前記第１のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして得られたものである。

この可能な実現形態では、第１のサンプル平均データと第１のサンプル分散データをサンプリングすることによって、連続的な第１のサンプル確率分布データを得ることができ、歩行者再識別トレーニングネットワークをトレーニングするときに、歩行者再識別ネットワークに勾配を逆伝播させることができる。

更なる別の可能な一実現形態では、前記第１のサンプル平均データと前記第１のサンプル分散データに基づいて決定された第１のサンプル確率分布データで表される人物オブジェクトの身元と、前記第３の特徴データで表される人物オブジェクトの身元との差を分析することによって、第１の損失を決定することは、前記第１のサンプル確率分布データに対して復号化処理を行い、第６の特徴データを得ることと、前記第３の特徴データと前記第６の特徴データとの差に基づいて、前記第１の損失を決定することとを含む。

更なる別の可能な一実現形態では、前記対象データで表される人物オブジェクトの身元情報と前記ラベルデータとの差に基づいて、第３の損失を決定することは、前記対象データに基づいて前記人物オブジェクトの身元を決定し、身元結果を得ることと、前記身元結果と前記ラベルデータとの差に基づいて、前記第３の損失を決定することとを含む。

更なる別の可能な一実現形態では、前記スティッチした確率分布データに対して符号化処理を行い、前記第２のサンプル確率分布データを得ることは、前記スティッチした確率分布データに対して符号化処理を行い、第２のサンプル平均データと第２のサンプル分散データを得ることと、前記第２のサンプル平均データと前記第２のサンプル分散データをサンプリングし、サンプリングにより得られたデータが前記所定確率分布に従うようにして前記第２のサンプル確率分布データを得ることとを含む。

更なる別の可能な一実現形態では、前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得することは、前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定し、前記類似度が所定類似度閾値以上の画像を前記対象画像として選択することを含む。

この可能な実現形態では、対象確率分布データとデータベース内の画像の確率分布データとの類似度に基づいて、被処理画像における人物オブジェクトとデータベース内の画像における人物オブジェクトとの類似度を決定し、類似度が類似度閾値以上の画像を対象画像として決定することができる。

更なる別の可能な一実現形態では、前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定することは、前記対象確率分布データと前記データベース内の画像の確率分布データとの距離を前記類似度として決定することを含む。

更なる別の可能な一実現形態では、前記方法は、前記被処理画像を取得する前に、被処理ビデオストリームを取得することと、前記被処理ビデオストリームの画像に対して顔検出及び／又は人体検出を行い、前記被処理ビデオストリームの画像における顔領域及び／又は人体領域を決定することと、前記顔領域及び／又は前記人体領域を切り出して前記参照画像を取得し、前記参照画像を前記データベースに記憶することとをさらに含む。

この可能な実現形態では、被処理ビデオストリームは、監視カメラで採集されたビデオストリームであって、被処理ビデオストリームに基づいてデータベース内の参照画像を取得することができる。さらに第１側面及び上記のいずれか１つの可能な実現形態を参考すると、データベースから被処理画像における人物オブジェクトと同一の身元である人物オブジェクトを含む対象画像を検索することができ、即ち人物の行方の追跡を実現することができる。

第２側面は、被処理画像を取得する取得手段と、前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを対象確率分布データとして得る符号化処理手段と、前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得する検索手段とを備える画像処理装置を提供する。

可能な一実現形態では、前記符号化処理手段は、具体的に、前記被処理画像に対して特徴抽出処理を行い、第１の特徴データを得ることと、前記第１の特徴データに対して第１の非線形変換を行い、前記対象確率分布データを得ることに用いられる。

別の可能な一実現形態では、前記符号化処理手段は、具体的に、前記第１の特徴データに対して第２の非線形変換を行い、第２の特徴データを得ることと、前記第２の特徴データに対して第３の非線形変換を行い、第１の処理結果を平均データとして得ることと、前記第２の特徴データに対して第４の非線形変換を行い、第２の処理結果を分散データとして得ることと、前記平均データと前記分散データとに基づいて前記対象確率分布データを決定することに用いられる。

更なる別の可能な一実現形態では、前記符号化処理手段は、具体的に、前記第１の特徴データに対して畳み込み処理とプーリング処理を順次行い、前記第２の特徴データを得ることに用いられる。

更なる別の可能な一実現形態では、前記装置が実行する方法は、深層畳み込みネットワークと歩行者再識別ネットワークとを含む確率分布データ生成ネットワークに応用され、前記深層畳み込みネットワークは、前記被処理画像に対して特徴抽出処理を行い、前記第１の特徴データを得るためのものであり、前記歩行者再識別ネットワークは、前記特徴データに対して符号化処理を行い、前記対象確率分布データを得るためのものである。

更なる別の可能な一実現形態では、前記確率分布データ生成ネットワークは歩行者再識別トレーニングネットワークに属し、前記歩行者再識別トレーニングネットワークはデカップリングネットワークをさらに含み、前記装置は、前記歩行者再識別トレーニングネットワークをトレーニングするトレーニング手段をさらに備え、前記歩行者再識別トレーニングネットワークのトレーニングプロセスは、サンプル画像を前記歩行者再識別トレーニングネットワークに入力し、前記深層畳み込みネットワークの処理により第３の特徴データを得ることと、前記歩行者再識別ネットワークにより前記第３の特徴データを処理し、前記サンプル画像における人物オブジェクトの特徴の確率分布を記述するための第１のサンプル平均データと第１のサンプル分散データを得ることと、前記第１のサンプル平均データと前記第１のサンプル分散データとに基づいて決定された第１のサンプル確率分布データで表される人物オブジェクトの身元と、前記第３の特徴データで表される人物オブジェクトの身元との差を分析することによって、第１の損失を決定することと、前記デカップリングネットワークにより、前記第１のサンプル平均データと前記の第１サンプル分散データとに基づいて決定された第１のサンプル確率分布データ内の人物オブジェクトの身元情報を除去し、第２のサンプル確率分布データを得ることと、前記デカップリングネットワークにより前記第２のサンプル確率分布データを処理し、第４の特徴データを得ることと、前記第１のサンプル確率分布データ、前記第３の特徴データ、前記サンプル画像のラベルデータ、前記第４の特徴データ及び前記第２のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記歩行者再識別トレーニングネットワークのパラメータを調整することとを含む。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第１のサンプル確率分布データで表される人物オブジェクトの身元と、前記第３の特徴データで表される人物オブジェクトの身元との差を分析することによって、第１の損失を決定することと、前記第４の特徴データと前記第１のサンプル確率分布データとの差に基づいて、第２の損失を決定することと、前記第２のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第３の損失を決定することと、前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第１のサンプル確率分布データに基づいて決定された人物オブジェクトの身元と前記サンプル画像のラベルデータとの差に基づいて、第４の損失を決定することにさらに用いられ、前記トレーニング手段は、具体的に、前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることにさらに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第２のサンプル確率分布データと前記第１の所定確率分布データとの差に基づいて、第５の損失を決定することにさらに用いられ、前記トレーニング手段は、具体的に、前記第１の損失、前記第２の損失、前記第３の損失、前記第４の損失及び前記第５の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることにさらに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第２のサンプル確率分布データから多次元のデータを任意に選択する態様、前記第２のサンプル確率分布データのうちの奇数次元のデータを選択する態様、前記第２のサンプル確率分布データのうちの前のｎ（ただし、ｎは正の整数）次元のデータを選択する態様のいずれか一つである所定の態様で、前記第２のサンプル確率分布データから対象データを選択することと、前記対象データで表される人物オブジェクトの身元情報と前記サンプル画像のラベルデータとの差に基づいて、前記第３の損失を決定することに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第２のサンプル確率分布データに前記サンプル画像における人物オブジェクトの身元情報を付加したデータに対して復号化処理を行い、前記第４の特徴データを得ることに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記ラベルデータに対してワンホット符号化処理を行い、符号化処理したラベルデータを得ることと、前記符号化処理したデータと前記第１のサンプル確率分布データに対してスティッチ処理を行い、スティッチした確率分布データを得ることと、前記スティッチした確率分布データに対して符号化処理を行い、前記第２のサンプル確率分布データを得ることに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第１のサンプル平均データと前記第１のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして前記第１のサンプル確率分布データを得ることに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第１のサンプル確率分布データに対して復号化処理を行い、第６の特徴データを得ることと、前記第３の特徴データと前記第６の特徴データとの差に基づいて、前記第１の損失を決定することに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記対象データに基づいて前記人物オブジェクトの身元を決定し、身元結果を得ることと、前記身元結果と前記ラベルデータとの差に基づいて、前記第４の損失を決定することに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記スティッチした確率分布データに対して符号化処理を行い、第２のサンプル平均データと第２のサンプル分散データを得ることと、前記第２のサンプル平均データと前記第２のサンプル分散データをサンプリングし、サンプリングにより得られたデータが前記所定確率分布に従うようにして前記第２のサンプル確率分布データを得ることに用いられる。

更なる別の可能な一実現形態では、前記検索手段は、前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定し、前記類似度が所定類似度閾値以上の画像を前記対象画像として選択することに用いられる。

更なる別の可能な一実現形態では、前記検索手段は、具体的に、前記対象確率分布データと前記データベース内の画像の確率分布データとの距離を前記類似度として決定することに用いられる。

更なる別の可能な一実現形態では、前記装置は、前記被処理画像を取得する前に、被処理ビデオストリームを取得するための前記取得手段と、前記被処理ビデオストリームの画像に対して顔検出及び／又は人体検出を行い、前記被処理ビデオストリームの画像における顔領域及び／又は人体領域を決定するための処理手段と、前記顔領域及び／又は前記人体領域を切り出して前記参照画像を取得し、前記参照画像を前記データベースに記憶するための切出手段とをさらに備える。

第３側面は、上記第１側面及びその可能な実現形態のいずれか１つの方法を実行するプロセッサを提供する。

第４側面は、電子機器であって、プロセッサ、送信装置、入力装置、出力装置及びメモリを備え、前記メモリは、コンピュータ命令を含むコンピュータプログラムコードを記憶し、前記電子機器は、前記コンピュータ命令が前記プロセッサにより実行されると、上記第１側面及びその可能な実現形態のいずれか１つの方法を実行する電子機器を提供する。

第５側面は、プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令が電子機器のプロセッサにより実行されると、上記第１側面及びその可能な実現形態のいずれか１つの方法を前記プロセッサに実行させるコンピュータ読み取り可能な記憶媒体を提供する。

第６側面は、プログラム命令を含むコンピュータプログラム製品であって、前記プログラム命令がプロセッサにより実行されると、上記第１側面及びその可能な実現形態のいずれか１つの方法を前記プロセッサに実行させるコンピュータプログラム製品を提供する。

以上の一般的な説明及び後述の詳細な説明は、例示的・解釈的なものにすぎず、本開示を制限するものではないと理解すべきである。

以下、本願の実施例又は背景技術における発明をより明確に説明するために、本願の実施例又は背景技術に用いられる必要がある図面を説明する。

ここにおいて組み込まれてこの明細書の一部をなすこれらの図面は、本開示に適する実施例を示すものであり、明細書と共に、本開示の技術的手段を説明するために用いられる。

図１は、本願の実施例に係る画像処理装置のハードウェア構成模式図である。図２は、本願の実施例に係る画像処理方法のフローの模式図である。図３は、本願の実施例に係る確率分布データの模式図である。図４は、本願の実施例に係る別の確率分布データの模式図である。図５は、本願の実施例に係る別の画像処理方法のフローの模式図である。図６は、本願の実施例に係る確率分布データの模式図である。図７は、本願の実施例に係る確率分布データ生成ネットワークの構成模式図である。図８は、本願の実施例に係る被処理画像の模式図である。図９は、本願の実施例に係る歩行者再識別トレーニングネットワークの構成模式図である。図１０は、本願の実施例に係るスティッチ処理の模式図である。図１1は、本願の実施例に係る他の画像処理方法のフローの模式図である。図１２は、本願の実施例に係る画像処理装置の構成模式図である。図１３は、本願の実施例に係る他の画像処理装置の構成模式図である。図１４は、本願の実施例に係る画像処理装置のハードウェア構成模式図である。

以下、当業者が本願の発明をよりよく理解できるように、本願の実施例の図面と併せて、本願の実施例に係る発明を明確で完全に説明するが、説明される実施例は、本願の実施例の全てではなくその一部だけであることが明らかである。本願の実施例に基づいて、当業者が創意工夫をせずに得た全ての他の実施例は、本願の技術的範囲に属する。

本願の明細書、特許請求の範囲及び上記図面における「第１」、「第２」などという用語は、特定の順序を説明するためのものではなく、異なるアイテムを区別するためのものである。なお、「含む」、「有する」という用語及びそれら任意の変形は、非排他的な包含をカバーすることを意図している。例えば、一連のステップ又は手段を含むプロセス、方法、システム、製品又は機器は、すでに挙げられたステップ又は手段に限定されるものではなく、挙げられていないステップ又は手段を選択的にさらに含み、あるいはこれらのプロセス、方法、製品又は機器に固有の他のステップ又は手段を選択的にさらに含む。

本願において、「少なくとも１つ（１項）」は１つ又は複数を意味し、「複数」は２つ又は２つ以上を意味し、「少なくとも２つ（２項）」は２つ又は３つ及び３つ以上を意味する。「及び／又は」は、関連物の関連付け関係を説明するためのものとして、３つの関係が存在可能であることを意味し、例えば、Ａ及び／又はＢについて、Ａのみが存在し、Ｂのみが存在し、ＡとＢがともに存在するという３つの場合を表しているが、Ａ、Ｂは単数又は複数であってよい。符号「／」は、その前後の関連アイテムが「又は」という関係にあることを表している。「以下の少なくとも１項（１つ）」又はそのような表現は、これらアイテムのうちの任意な組み合わせを意味し、単項（個）又は複数項（個）の任意な組み合わせを含む。例えば、ａ、ｂ及びｃのうちの少なくとも１項（１つ）は、ａを表すこと、ｂを表すこと、ｃを表すこと、「ａとｂ」を表すこと、「ａとｃ」を表すこと、「ｂとｃ」を表すこと、又は「ａとｂとｃ」を表し、ここで、ａ、ｂ、ｃは単数であってもよく、複数であってもよい。

本明細書に言及される「実施例」とは、実施例に記載された特定の特徴、構成又は特性が本願の少なくとも１つの実施例に含まれてよいことを意味する。明細書の各箇所に記載された当該用語は、必ずしも同じ実施例を意味するものではなく、他の実施例と相互に排他的な独立又は代替の実施例でもない。本明細書に記載された実施例は、他の実施例と組み合わせることが可能であると当業者に明示的又は暗示的に理解される。

本願の実施例に係る発明は、画像処理装置に応用可能である。当該画像処理装置は、サーバであってよく、端末（例えば携帯電話、タブレット、デスクトップコンピュータ）であってもよく、グラフィックスプロセッサ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ，ＧＰＵ）を備える。当該画像処理装置は、歩行者画像ライブラリを含むデータベースが記憶されている。

図１は、本願の実施例に係る画像処理装置のハードウェア構成模式図である。図１に示すように、当該画像処理装置は、プロセッサ２１０と、外部メモリインターフェース２２０と、内部メモリ２２１と、ユニバーサルシリアルバス（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ，ＵＳＢ）インターフェース２３０と、電源管理モジュール２４０と、ネットワーク通信モジュール２５０と、ディスプレー２６０とを備える。

本願の実施例に示される構成は、画像処理装置を限定するものではない。本願の他の実施例において、画像処理装置は、図示よりも多い又は少ない部材、又は一部の部材との組み合わせ、又は一部の部材を分割したもの、又は異なる部材配置を備えてもよい。図示される部材は、ハードウェア、ソフトウェア又はハードウェアとソフトウェアの組み合わせによって実現される。

プロセッサ２１０は、１つ又は複数の処理ユニットを備えてよいが、例えば、プロセッサ２１０は、アプリケーションプロセッサ（ａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ，ＡＰ）、グラフィックスプロセッサ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ，ＧＰＵ）、画像信号プロセッサ（ｉｍａｇｅｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ，ＩＳＰ）、コントローラ、メモリ、ビデオコーデック、デジタルシグナルプロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ，ＤＳＰ）、及び／又はニューラルネットワークプロセッサ（ｎｅｕｒａｌ－ｎｅｔｗｏｒｋｐｒｏｃｅｓｓｉｎｇｕｎｉｔ，ＮＰＵ）などを備えてよい。ここで、異なる処理ユニットは、独立したデバイスであってよく、１つ又は複数のプロセッサに集積されるものであってもよい。

ここで、コントローラは、画像処理装置の神経中枢及び指揮センターであってよい。コントローラは、命令操作コードと時系列信号に応じて操作制御信号を生成し、受取命令と実行命令の制御を完了させることができる。

プロセッサ２１０には、命令及びデータを記憶するためのメモリを設けてもよい。いくつかの実施例において、プロセッサ２１０のメモリはキャッシュメモリである。当該メモリは、プロセッサ２１０により使用直後の又は循環して使用される命令又はデータを記憶することができる。

いくつかの実施例において、プロセッサ２１０は、１つ又は複数のインターフェースを含んでよい。インターフェースは、集積回路（ｉｎｔｅｒ－ｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ，Ｉ２Ｃ）インターフェース、集積回路内蔵音声（ｉｎｔｅｒ－ｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓｏｕｎｄ，Ｉ２Ｓ）インターフェース、パルスコード変調（ｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ，ＰＣＭ）インターフェース、汎用非同期レシーバー／トランスミッター（ｕｎｉｖｅｒｓａｌａｓｙｎｃｈｒｏｎｏｕｓｒｅｃｅｉｖｅｒ／ｔｒａｎｓｍｉｔｔｅｒ，ＵＡＲＴ）インターフェース、モバイル・インダストリー・プロセッサー・インターフェース（ｍｏｂｉｌｅｉｎｄｕｓｔｒｙｐｒｏｃｅｓｓｏｒｉｎｔｅｒｆａｃｅ，ＭＩＰＩ）、汎用入出力（ｇｅｎｅｒａｌ－ｐｕｒｐｏｓｅｉｎｐｕｔ／ｏｕｔｐｕｔ，ＧＰＩＯ）インターフェース、及び／又はユニバーサルシリアルバス（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ，ＵＳＢ）インターフェースなどを含んでよい。

本願の実施例に示される各モジュール同士のインターフェースの接続関係は、模式的な説明だけであるが、画像処理装置の構成を限定するものではない。本願の他の実施例において、画像処理装置は、上記の実施例とは異なるインターフェース接続形態、又は複数種類のインターフェース接続形態の組み合わせを採用してもよい。

電源管理モジュール２４０は、外部電源に接続され、外部電源から入力される電力を受け、プロセッサ２１０、内部メモリ２２１、外部メモリ及びディスプレー２５０などに電力を供給する。

画像処理装置は、ＧＰＵやディスプレー２５０等により表示機能を実現する。ＧＰＵは、画像処理用のマイクロプロセッサであり、ディスプレー２５０に接続されている。プロセッサ２１０は、表示情報を生成又は変更するようにプログラム命令を実行する１つ又は複数のＧＰＵを含んでよい。

ディスプレー２５０は、画像およびビデオ等を表示する。ディスプレー２５０は、表示パネルを備える。表示パネルには、液晶ディスプレイスクリーン（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ，ＬＣＤ）、有機発光ダイオード（ｏｒｇａｎｉｃｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ，ＯＬＥＤ）、アクティブマトリックス有機発光ダイオード（ａｃｔｉｖｅ－ｍａｔｒｉｘｏｒｇａｎｉｃｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ，ＡＭＯＬＥＤ）、フレキシブル発光ダイオード（ｆｌｅｘｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ，ＦＬＥＤ）、Ｍｉｎｉｌｅｄ、ＭｉｃｒｏＬｅｄ、Ｍｉｃｒｏ－ｏＬｅｄ、量子ドット発光ダイオード（ｑｕａｎｔｕｍｄｏｔｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅｓ，ＱＬＥＤ）などを採用してよい。いくつかの実施例において、画像処理装置は、１つ又は複数のディスプレー２５０を備えてよい。例えば、本願の実施例において、ディスプレー２５０は、対象画像のような関連画像又はビデオを表示するために用いられてよい。

デジタル信号プロセッサは、デジタル信号を処理するためのものであり、デジタル画像信号に加えて、他のデジタル信号も処理することができる。例えば、画像処理装置による周波数点の選択のとき、デジタル信号プロセッサは、周波数点エネルギーに対してフーリエ変換などを行う。

ビデオコーデックは、デジタルビデオを圧縮又は伸長するためのものである。画像処理装置は、１種又は複数種のビデオコーデックに対応することができる。このように、画像処理装置は、動画専門家集団（ｍｏｖｉｎｇｐｉｃｔｕｒｅｅｘｐｅｒｔｓｇｒｏｕｐ，ＭＰＥＧ）１、ＭＰＥＧ２、ＭＰＥＧ３、ＭＰＥＧ４など、複数種類の符号化フォーマットのビデオを再生又は録画することができる。

ＮＰＵは、生体ニューラルネットワーク構造、例えば人間の脳のニューロン間の伝達モードを参考にすることで、入力情報を迅速に処理するとともに、継続的な自己学習を行うこともできるニューラルネットワーク（ｎｅｕｒａｌ－ｎｅｔｗｏｒｋ，ＮＮ）演算プロセッサである。例えば画像識別、顔識別、音声識別、テキスト理解など画像処理装置の知的認知などへの応用は、ＮＰＵによって実現することができる。

外部メモリインターフェース２２０は、画像処理装置の記憶機能を実現するために、例えばリムーバブルハードディスクのような外部メモリカードに接続される。外部メモリカードは、外部メモリインターフェース２２０を介してプロセッサ２１０と通信することで、データ記憶機能を実現する。例えば、本願の実施例において、画像又はビデオが外部メモリカードに記憶されて、画像処理装置のプロセッサ２１０が、外部メモリカードに記憶された画像を外部メモリインターフェース２２０を介して取得することができる。

内部メモリ２２１は、命令を含むコンピュータで実行可能なプログラムコードを記憶してよい。プロセッサ２１０は、内部メモリ２２１に記憶されている命令を実行することによって、画像処理装置の種々の機能アプリケーション及びデータ処理を実行する。内部メモリ２２１は、プログラム記憶領域とデータ記憶領域とを含んでよい。ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラム（例えば、画像再生機能）などを記憶することができる。データ記憶領域は、画像処理装置の使用中に作成されたデータ（例えば画像）などを記憶することができる。なお、内部メモリ２２１は、高速ランダムアクセスメモリを含んでもよく、例えば少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、ユニバーサルフラッシュストレージ（ｕｎｉｖｅｒｓａｌｆｌａｓｈｓｔｏｒａｇｅ，ＵＦＳ）などの不揮発性メモリを含んでもよい。例えば、本願の実施例において、内部メモリ２２１は、カメラから送信されネットワーク通信モジュール２５０を介して画像処理装置で受信されたマルチフレームの画像又はビデオを記憶してよい。

本願の実施例に係る発明を応用することにより、被処理画像を使用して歩行者画像ライブラリを検索して、歩行者画像ライブラリ内、被処理画像に含まれる人物オブジェクトにマッチングする人物オブジェクトの画像を決定することができる（以下、互いにマッチングする人物オブジェクトを同一の身元である人物オブジェクトという）。例えば、被処理画像に人物オブジェクトＡが含まれている場合、本願の実施例に係る発明を応用することにより、歩行者画像ライブラリ内の１枚又は複数枚の対象画像に含まれる人物オブジェクトと人物オブジェクトＡが、同一の身元ものであると決定される。

本願の実施例に係る発明は、セキュリティ保護分野に応用できる。セキュリティ保護分野への応用シーンでは、画像処理装置はサーバであってよく、サーバは１つ又は複数のカメラに接続され、各カメラでリアルタイムに収集したビデオストリームを取得することができる。収集したビデオストリームの画像のうち人物オブジェクトを含む画像は、歩行者画像ライブラリを構築するように用いられる。管理者は、被処理画像を使用して歩行者画像ライブラリを検索して、被処理画像に含まれる人物オブジェクト（以下、対象人物オブジェクト）と同一の身元である人物オブジェクトの対象画像を取得し、対象画像によって、対象人物オブジェクトを追跡するという効果を達成できる。例えば、場所Ａで強盗事件が発生し、目撃者の李四は容疑者の画像ａを警察に提供しており、警察は画像ａを使用して歩行者画像ライブラリを検索して、容疑者が含まれる画像をすべて取得することができる。歩行者画像ライブラリ内の、容疑者が含まれる画像をすべて取得した後、警察はこれら画像の情報に基づいて容疑者の追跡・逮捕を行うことができる。

以下、本願の実施例の図面を参照して本願の実施例に係る発明を詳しく説明する。

図２は、本願の第１実施例に係る画像処理方法のフロー模式図である。本実施例は、上記の画像処理装置によって実行されるものである。

２０１では、被処理画像を取得する。

本願の実施例において、被処理画像は、人物オブジェクトを含み、ここでは、被処理画像は、胴体及び手足（以下、胴体及び手足を人体という）を含まず、顔のみを含んでよく、人体のみを含んでもよく、人体を含まなくてもよく、下肢又は上肢のみを含んでもよい。本願では、被処理画像に含まれる人体領域については限定しない。

被処理画像を取得する態様は、ユーザがキーボード、マウス、タッチスクリーン、タッチパッド及び音声入力デバイスなどの入力モジュールで入力した被処理画像を受信する態様であってよい。、携帯電話、コンピュータ、タブレット、サーバなどの端末から送信された被処理画像を受信する態様であってもよい。

２０２では、当該被処理画像に対して符号化処理を行い、当該被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを対象確率分布データとして得る。

本願の実施例において、被処理画像に対する符号化処理は、被処理画像に対して特徴抽出処理と非線形変換を行うことで行われる。選択的には、特徴抽出処理は、畳み込み処理であってもよく、プーリング処理であってもよく、ダウンサンプリング処理であってもよく、畳み込み処理、プーリング処理及びダウンサンプリング処理のうちのいずれか１つ又は複数の組み合わせであってもよい。

被処理画像に対して特徴抽出処理を行うことによって、被処理画像の情報を含む特徴ベクトル、即ち第１の特徴データを得ることができる。

可能な一実現形態では、深層ニューラルネットワークにより被処理画像に対して特徴抽出処理を行うことによって第１の特徴データを得ることができる。当該深層ニューラルネットワークは複数の畳み込み層を含み、被処理画像に含まれる内容の情報を抽出する能力を持つようにトレーニングされている。深層ニューラルネットワークに含まれる複数の畳み込み層により被処理画像に対して畳み込み処理を行うことで、被処理画像に含まれる内容の情報を抽出して第１の特徴データを得ることができる。

本願の実施例において、人物オブジェクトの特徴は、人物オブジェクトの身元を識別するためのものであり、人物オブジェクトの衣装属性、外見特徴及び変化特徴を含む。衣装属性には、人体を飾るための全ての物品の特徴のうち少なくとも１つ（例えば、上着の色、ズボンの色、ズボンの長さ、帽子のスタイル、靴の色、傘をさしているか否か、バッグの種類、マスクつけの有無、マスクの色）が含まれる。外見特徴には、体型、性別、髪型、髪の色、年齢層、眼鏡をかけているか否か、胸の前に何かを抱えているか否かが含まれる。変化特徴には、姿勢、画角、歩幅が含まれる。

例（例１）を挙げると、上着の色又はズボンの色又は靴の色又は髪の色のカテゴリには、黒色、白色、赤色、オレンジ、黄色、緑色、青色、紫色、ブラウンが含まれる。ズボンの長さのカテゴリには、長ズボン、ショートパンツ、ドレスが含まれる。帽子のスタイルのカテゴリには、帽子なし、ベースボールキャップ、ピークキャップ、フラットブリムハット、バケットハット、ベレー帽、シルクハットが含まれる。傘をさしいているか否かのカテゴリには、傘をさしいていること及び傘をさしいていないことが含まれる。髪型のカテゴリには、ショルダーレングスのヘア、ショートヘア、シェイブドヘッド、ハゲが含まれる。姿勢のカテゴリには、ライディング姿勢、立位姿勢、ウォーキング姿勢、ランニング姿勢、寝姿勢、仰臥姿勢が含まれる。画角とは、画像における人物オブジェクトの正面のカメラに対する角度を指す。画角のカテゴリには、正面、側面、および背面が含まれる。歩幅とは、人物オブジェクトのウォーキング時の歩幅の大きさを指し、歩幅の大きさは０．３ｍ、０．４ｍ、０．５ｍ、０．６ｍなどの距離で表される。

第１の特徴データに対して第１の非線形変換を行うことによって、被処理画像における人物オブジェクトの特徴の確率分布データである対象確率分布データを得ることができる。人物オブジェクトの特徴の確率分布データは、当該人物オブジェクトが異なる特徴を持つ確率、又は異なる特徴で現れる確率を表す。

例１に続く例（例２）を挙げると、人物ａは青い上着をよく着用している場合、人物ａの特徴の確率分布データにおいて、上着の色が青色である確率値が大きく（例えば０．７）、上着の色が他の色である確率値が小さい（例えば、上着の色が赤色である確率値は０．１、上着の色が白色である確率値は０．１５である）。人物ｂはよく自転車に乗るが、歩くことが少ない場合、人物ｂの特徴の確率分布データにおいて、ライディング姿勢は他の姿勢よりも確率値が大きい（例えば、ライディング姿勢の確率値は０．６、立位姿勢の確率値は０．１、ウォーキング姿勢の確率値は０．２、寝姿勢の確率値は０．０５である）。カメラで撮像された人物ｃの画像のうち背面の画像が多い場合、人物ｃの特徴の確率分布データにおいて、画角のカテゴリが背面である確率値は、正面である確率値及び側面である確率値よりも大きい（例えば、背面の確率値は０．６、正面の確率値は０．２、側面の確率値は０．２である）。

本願の実施例において、人物オブジェクトの特徴の確率分布データは、多次元のデータを含み、全ての次元のデータは同一の分布に従い、各次元のデータには、すべての特徴情報が含まれ、すなわち、各次元のデータには、人物オブジェクトが上記のいずれか1つの特徴を有する確率および人物オブジェクトが異なる特徴で現れる確率が含まれている。

例２に続く例（例３）を挙げると、人物ｃの特徴の確率分布データには２次元のデータが含まれており、図３には第１の次元のデータを示し、図４には第２の次元のデータを示すとする。第１の次元のデータのａ点は、人物ｃが白い上着を着用している確率が０．４、人物ｃが黒いズボンを着用している確率が０．７、人物ｃが長ズボンを着用している確率が０．７、人物ｃが帽子をかぶっていない確率が０．８、人物ｃの靴の色が黒色である確率が０．７、人物ｃが傘をさしていない確率が０．６、人物ｃがバッグを手持ちしていない確率が０．３、人物ｃがマスクをつけていない確率が０．８、人物ｃが正常な体型である確率が０．６、人物ｃが男性である確率が０．８、人物ｃの髪型がショートヘアである確率が０．７、人物ｃの髪色が黒色である確率が０．８、人物ｃの年齢が３０～４０歳である確率が０．７、人物ｃが眼鏡をかけていない確率０．４、人物ｃが胸の前に何かを抱えている確率が０．２、人物ｃがウォーキング姿勢で現れる確率が０．６、人物ｃが現れる画角が背面である確率が０．５、人物ｃの歩幅が０．５ｍである確率が０．８であることを意味している。図４には第２の次元のデータを示す。第２の次元のデータのｂ点は、人物ｃが黒い上着を着用している確率が０．４、人物ｃが白いズボンを着用している確率が０．１、人物ｃがショートパンツを着用している確率が０．１、人物ｃが帽子をかぶっている確率が０．１、人物ｃの靴の色が白色である確率が０．１、人物ｃが傘をさしている確率が０．２、人物ｃがバッグを手持ちしている確率が０．５、人物ｃがマスクをつけている確率が０．１、人物ｃが痩せ型の体型である確率が０．１、人物ｃが女性である確率が０．１、人物ｃの髪型がロングヘアである確率が０．２、人物ｃの髪色が金色である確率が０．１、人物ｃの年齢が２０～３０歳である確率が０．２、人物ｃが眼鏡をかけている確率が０．５、人物ｃが胸の前に何かを抱えていない確率が０．３、人物ｃがライディング姿勢で現れる確率が０．３、人物ｃが現れる画角が側面である確率が０．２、人物ｃの歩幅が０．６ｍである確率が０．１であることを意味している。

例３から分かるように、各次元のデータには人物オブジェクトの全ての特徴情報が含まれているが、異なる次元のデータに含まれる特徴情報の内容は異なり、これは異なる特徴の確率値が異なるものであると表している。

本願の実施例において、各人物オブジェクトの特徴の確率分布データには多次元のデータが含まれており、かつ各次元のデータには人物オブジェクトのすべての特徴情報が含まれているが、各次元のデータで記述された特徴には重要視される点が異なっている。

例２に続く例（例４）を挙げると、人物ｂの特徴の確率分布データに１００次元のデータが含まれているとして、前の２０次元のデータのそれぞれにおいて、各次元に含まれる情報に占める衣装属性の情報の割合が、外見特徴と変化特徴の割合よりも高いので、前の２０次元のデータは、人物ｂの衣装属性の記述に重点を置くものである。第２１～５０の次元のデータのそれぞれにおいて、各次元に含まれる情報に占める外見特徴の情報の割合が、衣装属性と変化特徴の割合よりも高いので、第２１～５０の次元のデータは、人物ｂの外見特徴の記述に重点を置くものである。第５０～１００の次元のデータのそれぞれにおいて、各次元に含まれる情報に占める変化特徴の情報の割合が、衣装属性と外見特徴の割合よりも高いので、第５０～１００の次元のデータは、人物ｂの外見特徴の記述に重点を置くものである。

可能な一実現形態では、第１の特徴データに対して符号化処理を行うことによって、対象確率分布データを得ることができる。対象確率分布データは、被処理画像における人物オブジェクトが異なる特徴を持つ確率又は異なる特徴で現れる確率を表すことができるとともに、対象確率分布データに含まれる特徴の全ては、被処理画像における人物オブジェクトの身元を識別するために利用できる。上記の符号化処理は非線形処理である。選択的には、全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ，ＦＣＬ）の処理と活性化処理を含んでもよく、畳み込み処理によって実現されてもよく、プーリング処理によって実現されてもよいが、本願では特に限定しない。

２０３では、当該対象確率分布データを用いてデータベースを検索して、データベース内の、当該対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得する。

本願の実施例において、上記のように、データベースには歩行者画像ライブラリが含まれ、歩行者画像ライブラリの各画像（以下、歩行者ライブラリ内の画像を参照画像という）の平均データには１つの人物オブジェクトが含まれている。なお、データベースには、歩行者画像ライブラリ内の各画像における人物オブジェクト（以下、参照人物オブジェクトという）の確率分布データ（以下、参照確率分布データという）がさらに含まれ、つまり、歩行者画像ライブラリ内の各画像は、１つの確率分布データを有している。

上記のように、各人物オブジェクトの特徴の確率分布データは多次元のデータを含み、かつ異なる次元のデータにより記述される特徴には注目点が異なっている。本願の実施例において、参照確率分布データの次元数と対象確率分布データの次元数とは同じであって、かつ同じ次元で記述される特徴は同じである。

例を挙げると、対象確率分布データと参照確率分布データは、いずれも１０２４次元のデータが含まれている。対象確率分布データと参照確率分布データにおいて、第１の次元のデータ、第２の次元のデータ、第３の次元のデータ、・・・、第５００の次元のデータは、いずれも衣装属性の記述に重点を置くものであり、第５０１の次元のデータ、第５０２の次元のデータ、第５０３の次元のデータ、・・・、第９００の次元のデータは、いずれも外見特徴の記述に重点を置くものであり、第９０１の次元のデータ、第９０２の次元のデータ、第９０３の次元のデータ、．．．第１０２４の次元のデータは、いずれも変化特徴の記述に重点を置くものである。

対象確率分布データと参照確率分布データのうち同じ次元に含まれる情報の類似度に基づいて、対象確率分布データと参照確率分布データとの類似度を決定することができる。

可能な一実現形態では、対象確率分布データと参照確率分布データとの間のワッサースタイン距離（ｗａｓｓｅｒｓｔｅｉｎｍｅｔｒｉｃ）を算出することにより、対象確率分布データと参照確率分布データとの類似度を決定することができる。ここで、ｗａｓｓｅｒｓｔｅｉｎｍｅｔｒｉｃが小さいほど、対象確率分布データと参照確率分布データとの類似度が高い。

別の可能な一実現形態では、対象確率分布データと参照確率分布データとの間のユークリッド距離（ｅｕｃｌｉｄｅａｎ）を算出することにより、対象確率分布データと参照確率分布データとの類似度を決定することができる。ここで、ｅｕｃｌｉｄｅａｎが小さいほど、対象確率分布データと参照確率分布データとの類似度が高い。

別の可能な一実現形態では、対象確率分布データと参照確率分布データとのＪＳダイバジェンス（Ｊｅｎｓｅｎ－Ｓｈａｎｎｏｎｄｉｖｅｒｇｅｎｃｅ）を算出することにより、対象確率分布データと参照確率分布データとの類似度を決定することができる。ここで、ＪＳダイバジェンスが小さいほど、対象確率分布データと参照確率分布データとの類似度が高い。

対象確率分布データと参照確率分布データとの類似度が高いほど、対象人物オブジェクトと参照人物オブジェクトが同一の身元である確率が高い。そのため、対象確率分布データと、歩行者画像ライブラリ内の各画像の確率分布データとの類似度に基づいて、対象画像を決定することができる。

選択的には、対象確率分布データと参照確率分布データとの類似度を、対象人物オブジェクトと参照人物オブジェクトとの類似度とし、さらに類似度が類似度閾値以上である参照画像を対象画像とする。

例えば、歩行者画像ライブラリには、ａ、ｂ、ｃ、ｄ、ｅの３枚の参照画像が含まれている。ａの確率分布データと対象確率分布データとの類似度は７８％、ｂの確率分布データと対象確率分布データとの類似度は９２％、ｃの確率分布データと対象確率分布データとの類似度は８７％、ｄの確率分布データと対象確率分布データとの類似度は６７％、ｅの確率分布データと対象確率分布データとの類似度は８１％である。類似度閾値が８０％であるとすれば、類似度閾値以上の類似度は９２％、８７％、８１％であり、類似度９２％の画像はｂ、類似度８７％の画像はｃ、類似度８１％の画像はｅであるため、ｂ、ｃ、ｅが対象画像である。

選択的には、取得した対象画像が複数枚ある場合、ユーザが対象画像の類似度に基づいて対象人物オブジェクトの身元を決定するように、類似度に基づいて対象画像の信頼度を決定し、信頼度の高い順に対象画像をソートすることができる。ここで、対象画像の信頼度は、類似度に正の相関関係がある。対象画像の信頼度は、対象画像における人物オブジェクトと対象人物オブジェクトが同一の身元である信頼度を表す。例を挙げると、対象画像は、ａ，ｂ，ｃの３枚あり、ａの参照人物オブジェクトと対象人物オブジェクトとの類似度は９０％、ｂの参照人物オブジェクトと対象人物オブジェクトとの類似度は９３％、ｃの参照人物オブジェクトと対象人物オブジェクトとの類似度は８８％であるとすると、ａの信頼度を０．９、ｂの信頼度を０．９３、ｃの信頼度を０．８８に設定することができる。信頼度に従って対象画像をソートしたシーケンスは、ｂ→ａ→ｃとなる。

本願の実施例に係る発明によって得られる対象確率分布データには、被処理画像における人物オブジェクトの複数種の特徴情報が含まれている。

例を挙げると、図５を参照して、第１の特徴データにおいて、第１の次元のデータがａであり、第２の次元のデータがｂであり、かつａに含まれる情報が、被処理画像における人物オブジェクトが異なる姿勢で現れる確率を記述するためのものであり、ｂに含まれる情報が、被処理画像における人物オブジェクトが異なる色の上着を着用している確率を記述するためのものであるとする。本実施例に係る方法によって第１の特徴データを符号化処理して、対象確率分布が得られる。結合確率分布データｃは、ａとｂに基づいて得られ、つまり、ａにおける任意の１つのポイントとｂにおける任意の１つのポイントに基づいて、ｃにおける任意の１つのポイントが決定され、さらに、被処理画像における人物オブジェクトが異なる姿勢で現れる確率と異なる色の上着を着用している確率両方とも記述することができる確率分布データは、ｃにおけるポイントに基づいて得られる。

被処理画像の特徴ベクトル（即ち第１の特徴データ）において、変化特徴が衣装属性及び外見特徴に含まれると理解されるべきであり、つまり、第１の特徴データと参照画像の特徴ベクトルとの類似度に基づいて対象人物オブジェクトと参照人物オブジェクトとが同一の身元であるか否かを決定するときには、変化特徴に含まれる情報は利用されていない。

例を挙げると、画像ａにおいて、人物オブジェクトａが青い上着を着用し、ライディング姿勢で現れかつ正面画角であるが、画像ｂにおいて、人物オブジェクトａが青い上着を着用し、立位姿勢で現れかつ背面画角である場合を想定している。画像ａの特徴ベクトルと画像ｂの特徴ベクトルとの一致度合いに基づいて、画像ａにおける人物オブジェクトと画像ｂにおける人物オブジェクトが同一の身元であるか否かを識別する場合、人物オブジェクトの姿勢情報と画角情報を利用せず、衣装属性（即ち青い上着）のみを用いる。あるいは、画像ａにおける人物オブジェクトの姿勢情報及び画角情報と画像ｂにおける姿勢情報及び画角情報とが大きく異なるため、画像ａの特徴ベクトルと画像ｂの特徴ベクトルとの一致度合いに基づいて画像ａにおける人物オブジェクトと画像ｂにおける人物オブジェクトが同一の身元であるか否かを識別するとき、人物オブジェクトの姿勢情報と画角情報を利用すれば、識別確度を低下させる（例えば、画像ａにおける人物オブジェクトと画像ｂにおける人物オブジェクトは、同一の身元ではない人物オブジェクトであると識別される）。

これに対して、本願の実施例に係る発明は、第１の特徴データに対して符号化処理を行い、対象確率分布データを得ることによって、変化特徴は、衣装属性及び外見特徴からデカップリングされることを実現している（例えば、例４に説明されたように、異なる次元のデータで記述される特徴には重要視される点が異なっている）。

対象確率分布データと参照確率分布データ両方に変化特徴が含まれているため、対象確率分布データと参照確率分布データのうち、同じ次元に含まれる情報の類似度に基づいて対象確率分布データと参照確率分布データとの類似度を決定するときに、変化特徴に含まれる情報を利用することになる。つまり、本願の実施例において、対象人物オブジェクトの身元を決定するときに、変化特徴に含まれる情報を利用している。本願の実施例に係る発明は、衣装属性と外見特徴に含まれる情報に加えて、変化特徴に含まれる情報も用いて対象人物オブジェクトの身元を決定することによって、対象人物オブジェクトの身元を識別する確度を向上させることができる。

本実施例は、被処理画像に対して特徴抽出処理を行って、被処理画像における人物オブジェクトの特徴情報が抽出され、第１の特徴データが得られる。さらに第１の特徴データに基づいて、被処理画像における人物オブジェクトの特徴の対象確率分布データを得ることによって、第１の特徴データのうちの変化特徴に含まれる情報が衣装属性及び外見特徴からデカップリングされることを実現している。このように、対象確率分布データとデータベース内の参照確率分布データとの類似度を決定するプロセスでは、変化特徴に含まれる情報を利用することができ、さらに当該類似度に基づいて被処理画像における人物オブジェクトと同一の身元である人物オブジェクトを含む画像を決定する確度、即ち被処理画像における人物オブジェクトの身元を識別する確度を向上させることができる。

上記のように、本願の実施例に係る発明は、第１の特徴データに対して符号化処理を行うことによって対象確率分布データを得るものであり、次には対象確率分布データを得る方法を詳しく説明する。

図６は、本願の第２実施例における、２０２についての可能な一実現形態のフロー模式図である。

６０１では、当該被処理画像に対して特徴抽出処理を行い、第１の特徴データを得る。

２０２を参照してよいが、ここでは詳細な説明を省略する。

６０２では、当該第１の特徴データに対して第１の非線形変換を行い、対象確率分布データを得る。

前述の特徴抽出処理ではデータから複雑なマッピングを学習する能力が低く、つまり特徴抽出処理だけでは例えば確率分布データのような複雑なデータを処理できない。従って、確率分布データなどの複雑なデータを処理するように、第１の特徴データに対して第２の非線形変換を行って、第２の特徴データを得る必要がある。

可能な一実現形態では、ＦＣＬと非線形活性化関数により第１の特徴データを順次処理することにより、第２の特徴データを得ることができる。上記の非線形活性化関数は、正規化線形関数（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ，ＲｅＬＵ）であってよい。

別の可能な一実現形態では、第１の特徴データに対して畳み込み処理とプーリング処理を順次行うことにより、第２の特徴データを得ることができる。畳み込み処理プロセスでは、第１の特徴データに対して畳み込み処理を行い、即ち畳み込みカーネルを第１の特徴データ上でスライドさせるとともに、第１の特徴データの要素の値のそれぞれを畳み込みカーネルのすべての要素の値と乗算し、その後、乗算したすべての積との和を当該要素の値とし、最終的に符号化層の入力データのすべての要素に対してスライド処理を終了して、畳み込み処理後のデータが得られる。プーリング処理は、平均プーリングまたは最大プーリングであってよい。一例では、畳み込み処理で得られたデータのサイズをｈ＊ｗとし、ここで、ｈ及びｗがそれぞれ畳み込み処理で得られたデータの長さと幅を表す。第２の特徴データの目標寸法がＨ＊Ｗ（Ｈは長さ、Ｗは幅）の場合、当該畳み込み処理で得られたデータをＨ＊Ｗ個のグリッドに分割し、各グリッドの寸法は（ｈ／Ｈ）＊（ｗ／Ｗ）となる。そして、各グリッド内の画素の平均値又は最大値を算出して、目標寸法を有する第２の特徴データが得られる。

非線形変換前のデータと非線形変換後のデータは１対１のマッピング関係にあるため、第２の特徴データに対して直接非線形変換を行うと、特徴データしか得られず、確率分布データを得ることができない。このように第２の特徴データに対して非線形変換して得られた特徴データにおいて、変化特徴が衣装属性及び外見特徴に含まれ、衣装属性及び外見特徴からデカップリングすることはできない。

従って、本実施例において、第２の特徴データに対して第３の非線形変換を行い、第１の処理結果を平均データとして得るとともに、第２の特徴データに対して第４の非線形変換を行い、第２の処理結果を分散データとして得る。さらに当該平均データと当該分散データとに基づいて確率分布データ、即ち対象確率分布データを決定することができる。

上記の第３の非線形変換及び第４の非線形変換両方は、全結合層によって実現されてよい。

本実施例において、第１の特徴データに対して非線形変換を行って平均データと分散データが得られ、平均データと分散データにより対象確率分布データが得られる。

第１実施例及び第２実施例では、被処理画像における人物オブジェクトの特徴の確率分布を得る方法について説明しており、本願の実施例は、第１実施例及び第２実施例の方法を実現するための確率分布データ生成ネットワークをさらに提供する。図７は、本願の第３実施例に係る確率分布データ生成ネットワークの構成図である。

図７に示すように、本願の実施例に係る確率分布データ生成ネットワークは、深層畳み込みネットワークと歩行者再識別ネットワークとを含む。深層畳み込みネットワークは、被処理画像に対して特徴抽出処理を行って、被処理画像の特徴ベクトル（即ち第１の特徴データ）を得るものである。第１の特徴データは歩行者再識別ネットワークに入力され、順次に全結合層による処理と活性化層による処理により、第１の特徴データに対して非線形変換を行う。さらに、活性化層の出力データを処理することにより、被処理画像における人物オブジェクトの特徴の確率分布データを得ることができる。上記の深層畳み込みネットワークは複数の畳み込み層を含み、上記の活性化層は例えばｓｉｇｍｏｉｄ、ＲｅＬＵのような非線形活性化関数を含む。

歩行者再識別ネットワークが被処理画像の特徴ベクトル（第１の特徴データ）に基づいて対象確率分布データを得る能力は、トレーニングを通じて習得されたので、活性化層の出力データを直接処理して対象出力データを得る場合、歩行者再識別ネットワークは、活性化層の出力データから対象出力データへの１対１のマッピング関係までトレーニングを通じて習得することしかできない。このように、得られた対象出力データから対象確率分布データを得ることができず、即ち対象出力データから特徴ベクトル（以下、対象特徴ベクトルという）しか得られない。この対象特徴ベクトルにおいても、変化特徴は衣装属性と外見特徴に含まれるものであり、対象特徴ベクトルと参照画像の特徴ベクトルとの類似度に基づいて、対象人物オブジェクトと参照人物オブジェクトが同一の身元であるか否かを決定するときにも、変化特徴に含まれる情報は利用されることはない。

上記を踏まえて、本願の実施例に係る歩行者再識別ネットワークは、平均データと分散データを得るように平均データの全結合層と分散データの全結合層により活性化層の出力データをそれぞれ処理する。このようにして、歩行者再識別ネットワークは、トレーニング中で、活性化層の出力データから平均データへのマッピング関係および活性化層の出力データから分散データへのマッピング関係まで習得して、さらに平均データと分散データに基づいて対象確率分布データを得るようにする。

第１の特徴データに基づいて対象確率分布データを得ることにより、変化特徴が衣装属性及び外見特徴からデカップリングされることを実現しており、さらに対象人物オブジェクトと参照人物オブジェクトが同一の身元であるか否かを決定するとき、変化特徴に含まれる情報により、対象人物オブジェクトの身元を識別する確度を向上させることができる。

歩行者再識別ネットワークで第１の特徴データを処理して対象特徴データを得ることによって、被処理画像の特徴ベクトルに基づいて対象人物オブジェクトの特徴の確率分布データを得ることを実現している。対象確率分布データには対象人物オブジェクトの特徴情報の全てが含まれているが、被処理画像には対象人物オブジェクトの特徴情報の一部しか含まれていないからである。

例（例４）を挙げると、図８に示す被処理画像において、対象人物オブジェクトａは、クエリマシンの前で情報を検索しており、当該被処理画像における対象人物オブジェクトの特徴には、オフホワイトのシルクハット、黒いロングヘア、白いロングドレス、白いハンドバッグを手持ちすること、マスクつけていないこと、オフホワイトの靴、通常の体型、女性、２０～２５歳、眼鏡なし、立位姿勢、および側面画角を含む。本願の実施例に係る歩行者再識別ネットワークにより当該被処理画像の特徴ベクトルを処理することによって、ａの特徴の確率分布データが得られ、ａの特徴の確率分布データには、ａの特徴情報が全て含まれている。ａの特徴情報としては、例えば、ａが帽子をかぶっていない確率、ａが白い帽子をかぶっている確率、ａが灰色のフラットブリムハットをかぶっている確率、ａがピンクの上着を着用している確率、ａが黒いズボンを着用している確率、ａが白い靴を履いている確率、ａが眼鏡をかけている確率、ａがマスクをつけている確率、ａがバッグを手持ちしていない確率、ａが痩せ型の体型である確率、ａが女性である確率、ａの年齢が２５～３０歳である確率、ａがウォーキング姿勢で現れる確率、ａが正面画角で現れる確率、ａの歩幅が０．４ｍである確率などである。

つまり、歩行者再識別ネットワークは、いずれか１枚の被処理画像に基づいて当該被処理画像における対象人物オブジェクトの特徴の確率分布データを得る能力を持ち、「特別」（即ち、対象人物オブジェクトの特徴情報の一部）から「一般」（即ち、対象人物オブジェクトの特徴情報のすべて）への予測を実現しており、対象人物オブジェクトの特徴情報のすべてをわかると、これらの特徴情報を利用して対象人物オブジェクトの身元を正確に識別することができる。

歩行者再識別ネットワークが持つ上記の予測能力は、トレーニングを通じて習得されるものである。以下、歩行者再識別ネットワークのトレーニングプロセスを詳細に説明する。

図９は、本願の第４実施例に係る歩行者再識別トレーニングネットワークを示し、当該トレーニングネットワークは、第４実施例に係る歩行者再識別ネットワークをトレーニングするためのものである。本実施例において、深層畳み込みネットワークは、予めトレーニングされたものであり、後続の歩行者再識別トレーニングネットワークのパラメータの調整のプロセスで、深層畳み込みネットワークのパラメータを更新しないと理解すべきである。

図９に示すように、歩行者再識別ネットワークは、深層畳み込みネットワーク、歩行者再識別ネットワーク及びデカップリングネットワークを含む。トレーニング用のサンプル画像が深層畳み込みネットワークに入力されて、サンプル画像の特徴ベクトル（即ち、第３の特徴ベクトル）が得られ、歩行者再識別ネットワークにより第３の特徴データを処理して第１のサンプル平均データと第１のサンプル分散データが得られ、第１のサンプル平均データと第１のサンプル分散データがデカップリングネットワークの入力として利用される。さらに、デカップリングネットワークにより第１のサンプル平均データと第１のサンプル分散データを処理して、第１の損失、第２の損失、第３の損失、第４の損失、及び第５の損失が得られ、上記の５つの損失に基づいて歩行者再識別トレーニングネットワークのパラメータを調整する、つまり、上記の５つの損失に基づいて歩行者再識別トレーニングネットワークに対して勾配逆伝播を行って歩行者再識別トレーニングネットワークのパラメータを更新することで、歩行者再識別ネットワークのトレーニングを完成させる。

歩行者再識別ネットワークに勾配を円滑に逆伝播するために、まず、歩行者再識別トレーニングネットワーク全体が微分可能性を持つことを確保する必要があるため、デカップリングネットワークは、先に、第１の所定確率分布データに従う第１のサンプル確率分布データを得るように第１のサンプル平均データと第１のサンプル分散データからサンプリングすることであり、ここでは、第１の所定確率分布データが連続的確率分布データであると、第１のサンプル確率分布データが連続的確率分布データとなる。このようにして、歩行者再識別ネットワークに勾配を逆伝播することができる。第１の所定確率分布データは、ガウス分布であってよい。

可能な一実現形態では、パラメータリサンプリング法により第１のサンプル平均データと第１のサンプル分散データからサンプリングして第１の所定確率分布データに従う第１のサンプル確率分布データが得られる。すなわち、第１のサンプル分散データと所定確率分布データとを乗算して第５の特徴データが得られ、第５の特徴データと上記の第１のサンプル平均データとの和が上記の第１のサンプル確率分布データとして求められる。所定確率分布データは、正規分布であってよい。

上記の可能な一実現形態では、第１のサンプル平均データ、第１のサンプル分散データ及び所定確率分布データに含まれるデータの次元数は同じであり、かつ第１のサンプル平均データ、第１のサンプル分散データ及び所定確率分布データのいずれにも多次元のデータが含まれている場合、第１のサンプル分散データに含まれるデータが、所定確率分布データのうちの同じ次元のデータと乗算され、乗算された結果が第１のサンプル平均データのうちの同じ次元のデータと加算され、第１のサンプル確率分布データのうちの１次元のデータが得られることを理解すべきである。

例を挙げると、第１のサンプル平均データ、第１のサンプル分散データ及び所定確率分布データのいずれにも２次元のデータが含まれている場合、第１のサンプル平均データのうちの第１の次元のデータと、所定確率分布データのうちの第１の次元のデータとを乗算して第１の乗算データが得られ、さらに第１の乗算データを第１のサンプル分散データのうちの第１の次元のデータと加算して、第１の次元の結果データが得られる。第１のサンプル平均データのうちの第２の次元のデータと、所定確率分布データのうちの第２の次元のデータとを乗算して第２の乗算データが得られ、さらに第２の乗算データを第１のサンプル分散データのうちの第２の次元のデータと加算して、第２の次元の結果データが得られる。さらに、第１の次元の結果データと第２の次元の結果データとに基づいて、第１のサンプル確率分布データが得られる。第１のサンプル確率分布データのうちの第１の次元のデータは第１の次元の結果データであり、第１の次元のデータは第１の次元の結果データである。

そして、デコーダにより第１のサンプル確率分布データに対して復号化処理を行って、１つの特徴ベクトル（第６の特徴データ）を得る。復号化処理は、逆畳み込み処理、バイリニア補間処理、逆プーリング処理のうちいずれか１つであってよい。

そして、第３の特徴データと第６の特徴データとの差に基づいて、第１の損失を決定する。ここで、第３の特徴データと第６の特徴データとの差は、第１の損失に正の相関関係がある。第３の特徴データと第６の特徴データとの差が小さいほど、第３の特徴データで表される人物オブジェクトの身元と、第６の特徴データで表される人物オブジェクトの身元との差が小さいことを示す。第６の特徴データは、第１のサンプル確率分布データに対して復号化処理を行って得られたものであるため、第６の特徴データと第３の特徴データとの差が小さいほど、第１のサンプル確率分布データで表される人物オブジェクトの身元と、第３の特徴データで表される人物オブジェクトの身元との差が小さいことを示す。第１のサンプル平均データと第１のサンプル分散データからサンプリングした第１のサンプル確率分布データに含まれる特徴情報と、第１のサンプル平均データおよび第１のサンプル分散データに基づいて決定された確率分布データに含まれる特徴情報とが同じであり、つまり、第１のサンプル確率分布データで表される人物オブジェクトの身元と、第１のサンプル平均データおよび第１のサンプル分散データに基づいて決定された確率分布データで表される人物オブジェクトの身元とは同じである。従って、第６の特徴データと第３の特徴データとの差が小さいほど、第１のサンプル平均データおよび第１のサンプル分散データに基づいて決定された確率分布データで表される人物オブジェクトの身元と、第３の特徴データで表される人物オブジェクトの身元との差が小さく、さらに、歩行者再識別ネットワークが平均データの全結合層により活性化層の出力データを処理して得られた第１のサンプル平均データおよび分散データの全結合層により活性化層の出力データを処理して得られた第１のサンプル分散データで表される人物オブジェクトの身元と、第３の特徴データで表される人物オブジェクトの身元との差が小さいことを示す。つまり、歩行者再識別ネットワークによりサンプル画像の第３の特徴データを処理することで、サンプル画像における人物オブジェクトの特徴の確率分布データが得られる。

可能な一実現形態では、第３の特徴データと第６の特徴データとの平均二乗誤差を算出することによって、第１の損失を決定することができる。

上記のように、歩行者再識別ネットワークは、第１の特徴データに基づいて対象人物オブジェクトの特徴の確率分布データを得るように、平均データの全結合層及び分散データの全結合層のそれぞれにより平均データ及び分散データを得て、平均データ及び分散データに基づいて対象確率分布データを決定するようにする。そのため、同一の身元である人物オブジェクトの平均データと分散データに基づいて決定された確率分布データ同士の差が小さいほど、かつ異なる身元である人物オブジェクトの平均データと分散データに基づいて決定された確率分布データ同士の差が大きいほど、対象確率分布データを用いて人物オブジェクトの身元を決定する効果がよい。従って、本実施例において、第４の損失によって、第１のサンプル平均データと第１のサンプル分散データに基づいて決定された人物オブジェクトの身元とサンプル画像のラベルデータとの差を評価し、第４の損失はこの差に正の相関関係がある。

可能な一実現形態では、以下の式によって第４の損失

を算出することができる。

ただし、ｄｐ（ｚ）が、同一の人物オブジェクトを含むサンプル画像の第１のサンプル確率分布データ間の距離、ｄｎ（ｚ）が、異なる人物オブジェクトを含むサンプル画像の第１のサンプル確率分布データ間の距離、αが１未満の正数である。α＝０．３であってよい。

例を挙げると、トレーニングデータには１０枚のサンプル画像が含まれ、これら５枚のサンプル画像のいずれにも１つの人物オブジェクトのみが含まれ、これら５枚のサンプル画像には異なる身元である３つの人物オブジェクトが含まれているとする。ここで、画像ａと画像ｃに含まれる人物オブジェクトがともに張三、画像ｂと画像ｄに含まれる人物オブジェクトがともに李四、画像ｅに含まれる人物オブジェクトが王五である。画像ａにおける張三の特徴の確率分布がＡ、画像ｂにおける李四の特徴の確率分布がＢ、画像ｃにおける張三の特徴の確率分布がＣ、画像ｄにおける李四の特徴の確率分布がＤ、画像ｅにおける王五の特徴の確率分布がＥである。ＡとＢの間の距離を算出し、ＡＢと表記し、ＡとＣの間の距離を算出し、ＡＣと表記し、ＡとＤの間の距離を算出し、ＡＤと表記し、ＡとＥの間の距離を算出し、ＡＥと表記し、ＢとＣの間の距離を算出し、ＢＣと表記し、ＢとＤの間の距離を算出し、ＢＤと表記し、ＢとＥの間の距離を算出し、ＢＥと表記し、ＣとＤの間の距離を算出し、ＣＤと表記し、ＣとＥの間の距離を算出し、ＣＥと表記し、ＤとＥの間の距離を算出し、ＤＥと表記する。すると、ｄｐ（ｚ）＝ＡＣ＋ＢＤ、ｄｎ（ｚ）＝ＡＢ＋ＡＤ＋ＡＥ＋ＢＣ＋ＢＥ＋ＣＤ＋ＣＥ＋ＤＥとなる。さらに、式（１）によって第４の損失を決定することができる。

第１のサンプル確率分布データが得られた後、さらに第１のサンプル確率分布データとサンプル画像のラベルデータに対してスティッチ処理を行い、スティッチしたデータをエンコーダに入力して符号化処理を行うことができ、ここでは、当該エンコーダの可能な構成は、歩行者再識別ネットワークを参照するのがよい。第１のサンプル確率分布データ内の身元情報を除去するようにスティッチしたデータを符号化処理することで、第２のサンプル平均データと第２のサンプル分散データが得られる。

上記のスティッチ処理は、第１のサンプル確率分布データとラベルデータをチャネル次元で重畳させる処理である。例を挙げると、図１０に示すように、第１のサンプル確率分布データに３次元のデータが含まれ、ラベルデータに１次元のデータが含まれ、第１のサンプル確率分布データとラベルデータとをスティッチ処理したスティッチ後のデータには４次元のデータが含まれる。

上記の第１のサンプル確率分布データは、サンプル画像における人物オブジェクト（以下、サンプル人物オブジェクトという）の特徴の確率分布データであり、すなわち、第１のサンプル確率分布データにサンプル人物オブジェクトの身元情報が含まれ、第１のサンプル確率分布データ内のサンプル人物オブジェクトの身元情報は、当該第１のサンプル確率分布データにサンプル人物オブジェクトの身元というラベルが付けられたと理解すれてよい。第１のサンプル確率分布データ内のサンプル人物オブジェクトの身元情報の除去については、例５を参照してよい。例５において、サンプル画像における人物オブジェクトがｂであり、第１のサンプル確率分布データには、例えば、ｂが帽子をかぶっていない確率、ｂが白い帽子をかぶっている確率、ｂが灰色のフラットブリムハットをかぶっている確率、ｂがピンクの上着を着用している確率、ｂが黒いズボンを着用している確率、ｂが白い靴を履いている確率、ｂが眼鏡をかけている確率、ｂがマスクをつけている確率、ｂがバッグを手持ちしていない確率、ｂが痩せ型の体型である確率、ｂが女性である確率、ｂの年齢が２５～３０歳である確率、ｂがウォーキング姿勢で現れる確率、ｂが正面画角で現れる確率、ｂの歩幅が０．４ｍである確率などのｂの特徴情報が全て含まれている。第１のサンプル確率分布データ内のｂの身元情報が除去された第２のサンプル平均データと第２のサンプル分散データに基づいて決定された確率分布データには、例えば、帽子をかぶっていない確率、白い帽子をかぶっている確率、灰色のフラットブリムハットをかぶっている確率、ピンクの上着を着用している確率、黒いズボンを着用している確率、白い靴を履いている確率、眼鏡をかけている確率、マスクをつけている確率、バッグを手持ちしていない確率、痩せ型の体型である確率、人物オブジェクトが女性である確率、年齢が２５～３０歳である確率、ウォーキング姿勢で現れる確率、正面画角で現れる確率、歩幅が０．４ｍである確率などの、ｂの身元情報が除去された特徴情報が全て含まれている。

サンプル画像のラベルデータは人物オブジェクトの身元の区別であってよいが、例えば、人物オブジェクトが張三であるラベルデータは１、人物オブジェクトが李四であるラベルデータは２、人物オブジェクトが王五であるラベルデータは３である。これらのラベルデータの値は連続的なものではなく、離散的でランダムなものであるため、ラベルデータを処理する前に、サンプル画像のラベルデータに対して符号化処理を行う必要があり、即ちラベルデータに対して符号化処理を行ってラベルデータの特徴をデジタル化する必要がある。可能な一実現形態では、ラベルデータに対してワンホット符号化処理（ｏｎｅ－ｈｏｔｅｎｃｏｄｉｎｇ）を行い、符号化処理したデータ即ちワンホット（ｏｎｅ－ｈｏｔ）ベクトルが得られる。符号化処理したラベルデータが得られた後、さらに符号化処理したデータと第１のサンプル確率分布データに対してスティッチ処理を行い、スティッチした確率分布データが得られ、スティッチした確率分布データに対して符号化処理を行い、第２のサンプル確率分布データが得られる。

通常、人のいくつかの特徴には一定の関連性があることが多いであり、例（例６）を挙げると、男性は通常、ピンクの上着を着用する場合が少ないため、人物オブジェクトがピンクの上着を着用している場合、当該人物オブジェクトが男性である確率は低いが、女性である確率は高い。なお、歩行者再識別ネットワークは、トレーニング中ではより深い意味情報の習得ができる。例（例７）を挙げると、トレーニング用のトレーニングセットに、人物オブジェクトｃの正面画角の画像、人物オブジェクトｃの側面画角の画像及び人物オブジェクトｃの背面画角の画像が含まれ、歩行者再識別ネットワークは、３つの異なる画角での人物オブジェクトの関連付けを習得することができる。このように、人物オブジェクトｄが側面画角である画像を取得した場合、習得した関連付けによって、人物オブジェクトｄが正面画角である画像、人物オブジェクトｄが背面画角である画像を取得することができる。更なる例（例８）を挙げると、サンプル画像ａにおける人物オブジェクトｅが立位姿勢で現われ、人物オブジェクトｅが正常の体型であり、サンプル画像ｂにおける人物オブジェクトｆがウォーキング姿勢で現われ、人物オブジェクトｆが正常の体型であり、人物オブジェクトｆの歩幅は０．５ｍである。ｅがウォーキング姿勢で現れるデータもなく、ｅの歩幅のデータもないものの、ａとｂは体型が類似しているため、歩行者再識別ネットワークはｅの歩幅を決定するときにｆの歩幅に基づいてｅの歩幅を決定することができる。例えば、ｅの歩幅が０．５ｍである確率は９０％となる。

例６、例７、例８から分かるように、第１のサンプル確率分布データ内の身元情報を除去することにより、歩行者再識別トレーニングネットワークは異なる特徴の情報を習得するようにすることができ、異なる人物オブジェクトのトレーニングデータを拡張することができる。例８に続く例を挙げると、トレーニングセットにはｅのウォーキング姿勢のデータがないものの、ｄの確率分布データのうちのｆの身元情報を除去することで、ｅと類似する体型の人のウォーキング時の姿勢と歩幅を取得することができ、当該ウォーキング時の姿勢と歩幅をｅに応用することができる。このようにして、ｅのトレーニングデータが拡張されることを実現している。

周知のように、ニューラルネットワークのトレーニング効果の良さは、トレーニングデータの品質と数量に大きく依存する。トレーニングデータの品質とは、トレーニング用の画像における人物オブジェクトが適切な特徴を持つことを意味している。例えば、男性がドレスを着用するのが当然無理であるため、トレーニング画像にはドレスを着用している男性が含まれると、当該トレーニング画像は低品質のトレーニング画像となる。また、人がウォーキング姿勢で自転車に「乗っている」のも当然無理であるため、トレーニング画像にウォーキング姿勢で自転車に「乗っている」人物オブジェクトが含まれると、当該トレーニング画像も低品質のトレーニング画像となる。

しかしながら、トレーニングデータを拡張する従来の方法では、拡張したトレーニング画像には低品質のトレーニング画像が現れやすい。本願の実施例では、歩行者再識別トレーニングネットワークによる異なる人物オブジェクトのトレーニングデータの拡張の方法のおかげで、歩行者再識別トレーニングネットワークにより歩行者再識別ネットワークをトレーニングするときに、多数の高品質のトレーニングデータは得られる。このようにして、歩行者再識別ネットワークのトレーニング効果を大幅に向上させることができるため、トレーニング済みの歩行者再識別ネットワークを用いて対象人物オブジェクトの身元を識別するときに、識別確度を向上させることができる。

理論的には、第２のサンプル平均データと第２のサンプル分散データに人物オブジェクトの身元情報が含まれていない場合、異なるサンプル画像に基づいて得られた第２のサンプル平均データと第２のサンプル分散データとに基づいて決定された確率分布データはいずれも同一の確率分布データに従う。つまり、第２のサンプル平均データと第２のサンプル分散データとに基づいて決定された確率分布データ（以下、身元情報なしのサンプル確率分布データという）と所定確率分布データとの差が小さいほど、第２のサンプル平均データと第２のサンプル分散データとに含まれる人物オブジェクトの身元情報が少ない。従って、本願の実施例において、所定確率分布データと第２のサンプル確率分布データとの差に基づいて第５の損失を決定し、当該差は第５の損失に正の相関関係がある。第５の損失によって歩行者再識別トレーニングネットワークのトレーニングプロセスを監視することで、エンコーダによる第１の確率分布データのうちの人物オブジェクトの身元情報の除去の能力を高め、さらに拡張されたトレーニングデータの品質を向上させる。所定確率分布データは、標準正規分布であってよい。

可能な一実現形態では、以下の式によって、身元情報なしのサンプル確率分布データと所定確率分布データとの差を決定することができる。

ただし、

は第２のサンプル平均データ、

は第２のサンプル分散データ、

は、平均値が

、分散値が

である正規分布、

は、平均値が０、分散値が単位行列である正規分布、

は、

と

の間の距離である。

上述したように、トレーニング中では、歩行者再識別ネットワークに勾配を逆伝播するために、歩行者再識別トレーニングネットワーク全体が微分可能性を持つことを確保する必要があるため、第２のサンプル平均データと第２のサンプル分散データが得られた後、同様に第２のサンプル平均データと第２のサンプル分散データから第１の所定確率分布データに従う第２のサンプル確率分布データをサンプリングする。このサンプリングのプロセスは、第１のサンプル平均データと第１のサンプル分散データから第１のサンプル確率分布データをサンプリングするプロセスを参照してよいが、ここでは詳細な説明を省略する。

歩行者再識別ネットワークが、変化特徴を衣装属性と外見特徴からデカップリングする能力をトレーニングを通じて習得するようにするために、第２のサンプル確率分布データが得られた後、所定の態様で第２のサンプル確率分布データから、サンプル画像における人物オブジェクトの身元情報を表す対象データを選択する。例を挙げると、トレーニングセットに、サンプル画像ａ、サンプル画像ｂ、サンプル画像ｃが含まれ、ここで、ａにおける人物オブジェクトｄ、およびｂにおける人物オブジェクトｅがいずれも立位姿勢であるが、ｃにおける人物オブジェクトｆがライディング姿勢であると、対象データには、ｆがライディング姿勢で現れる情報が含まれている。

当該所定の態様は、上記の第２のサンプル確率分布データから多次元のデータを任意に選択する態様であってよいが、例を挙げると、第２のサンプル確率分布データに１００次元のデータが含まれている場合、当該１００次元のデータから５０次元のデータを対象データとして任意に選択することができる。

当該所定の態様は、上記の第２のサンプル確率分布データのうちの奇数次元のデータを選択する態様であってもよいが、例を挙げると、第２のサンプル確率分布データに１００次元のデータが含まれている場合、当該１００次元のデータから第１の次元のデータ、第３の次元のデータ、・・・、第９９の次元のデータを対象データとして任意に選択することができる。

当該所定の態様は、上記の第２のサンプル確率分布データのうちの前のｎ（ただし、ｎは正整数）次元のデータを選択する態様であってもよいが、例を挙げると、第２のサンプル確率分布データに１００次元のデータが含まれている場合、当該１００次元のデータから前の５０次元のデータを対象データとして任意に選択することができる。

対象データを決定した後、第２のサンプル確率分布データのうち対象データ以外のデータを、身元情報とは無関係のデータとする（図９の「無関係」）。

対象データがサンプル人物オブジェクトの身元を正確に表すように、対象データに基づいて人物オブジェクトの身元を決定した身元結果とラベルデータとの差に基づいて、第３の損失を決定し、ここで、この差は第３の損失に負の相関関係がある。

可能な一実現形態では、以下の式によって第３の損失Ｌ３を決定する。

ただし、

は１未満の正数、Ｎはトレーニングセット内の人物オブジェクトの身元の数、ｉは身元結果、ｙはラベルデータである。

であってよい。

ラベルデータに対してワンホット符号化処理を行い、符号化処理したデータが得られ、符号化処理したデータをｙとして式（３）に代入して第３の損失を算出するようにしてもよい。

例を挙げると、画像トレーニングセットに１０００枚のサンプル画像が含まれ、これら１０００枚のサンプル画像に７００個の異なる人物オブジェクトが含まれ、即ち人物オブジェクトの身元の数が７００となる。

とすれば、サンプル画像ｃを歩行者再識別ネットワークに入力して得られた身元結果が２、サンプル画像ｃのラベルデータが２である場合、

となる。サンプル画像ｃのラベルデータが１である場合、

となる。

第２のサンプル確率分布データが得られた後、第２のサンプル確率分布データとラベルデータとをスティッチしたデータをデコーダに入力し、デコーダにより当該スティッチしたデータを復号化処理して第４の特徴データが得られる。

第２のサンプル確率分布データとラベルデータとをスティッチ処理するプロセスについては、第１のサンプル確率分布データとラベルデータとをスティッチ処理するプロセスを参照してよいが、ここでは詳細な説明を省略する。

デコーダによる第１のサンプル確率分布データ内のサンプル画像における人物オブジェクトの身元情報の除去とは逆に、第２のサンプル確率分布データとラベルデータとをスティッチ処理することで、サンプル画像における人物オブジェクトの身元情報を第２のサンプル確率分布データに付加することを実現すると理解すべきである。このように、さらに第２のサンプル確率分布データを復号化して得られた第４の特徴データと第１のサンプル確率分布データとの差を判断することにより、第２の損失が得られ、デカップリングネットワークが第１のサンプル確率分布データから身元情報を含まない特徴の確率分布データを抽出する効果を決定することができる。すなわち、エンコーダで第１のサンプル確率分布データから抽出された特徴情報が多いほど、第４の特徴データと第１のサンプル確率分布データとの差が小さい。

可能な一実現形態では、第４の特徴データと第１のサンプル確率分布データとの平均二乗誤差を算出することによって、第２の損失を得ることができる。

つまり、先に、第１のサンプル確率分布データ内の人物オブジェクトの身元情報を除去するように第１のサンプル確率分布データとラベルデータとがスティッチされたデータをエンコーダにより符号化処理するのは、トレーニングデータを拡張し、即ち歩行者再識別ネットワークが異なるサンプル画像から異なる特徴情報を習得するようにするためである。第２のサンプル確率分布データとラベルデータとに対してスティッチ処理を行い、サンプル画像における人物オブジェクトの身元情報を第２のサンプル確率分布データに付加するのは、デカップリングネットワークにより第１のサンプル確率分布データから抽出された特徴情報の有効性を判断するためである。

例を挙げると、第１のサンプル確率分布データに５種の特徴情報（例えば上着の色、靴の色、姿勢のカテゴリ、画角のカテゴリ、歩幅）が含まれるとすると、デカップリングネットワークにより第１のサンプル確率分布データから抽出された特徴情報には４種の特徴情報（例えば上着の色、靴の色、姿勢のカテゴリ、画角のカテゴリ）のみが含まれ、即ちデカップリングネットワークが第１のサンプル確率分布データから特徴情報を抽出するときに１種の特徴情報（歩幅）が捨てられた。このように、ラベルデータと第２のサンプル確率分布データとがスティッチされたデータを復号化して得られた第４の特徴データにも４種の特徴情報（上着の色、靴の色、姿勢のカテゴリ、画角のカテゴリ）のみが含まれることになり、即ち第４の特徴データに含まれる特徴情報が第１のサンプル確率分布データに含まれる特徴情報よりも１種の特徴情報（歩幅）だけ少なくなる。逆に、デカップリングネットワークが第１のサンプル確率分布データから５種の特徴情報を抽出すると、ラベルデータと第２のサンプル確率分布データとがスティッチされたデータを復号化して得られた第４の特徴データには５種の特徴情報のみが含まれることになる。このように、第４の特徴データに含まれる特徴情報と第１のサンプル確率分布データに含まれる特徴情報とは同じである。

従って、第１のサンプル確率分布データと第４の特徴データとの差によって、デカップリングネットワークにより第１のサンプル確率分布データから抽出された特徴情報の有効性を判断することができ、当該差は、当該有効性に負の相関関係がある。

第１の損失、第２の損失、第３の損失、第４の損失、および第５の損失が決定された後、これらの５つの損失に基づいて歩行者再識別トレーニングネットワークのネットワーク損失を決定することができ、ネットワーク損失に基づいて歩行者再識別トレーニングネットワークのパラメータを調整することができる。

可能な一実現形態では、第１の損失、第２の損失、第３の損失、第４の損失、および第５の損失に基づいて、以下の式によって歩行者再識別トレーニングネットワークのネットワーク損失を決定することができる。

ただし、ＬＴは歩行者再識別トレーニングネットワークのネットワーク損失、Ｌ１は第１の損失、Ｌ２は第２の損失、Ｌ３は第３の損失、Ｌ４は第４の損失、Ｌ５は第５の損失、λ１、λ２、λ３、λ４、λ５はいずれも０よりも大きい自然数である。λ１＝５００、λ２＝５００、λ３＝１、λ４＝１、λ５＝０．０５であってよい。

歩行者再識別トレーニングネットワークのネットワーク損失に基づいて、歩行者再識別トレーニングネットワークを、収束するまで逆方向に勾配を伝播するようにトレーニングして、歩行者再識別トレーニングネットワークに対するトレーニングを完成させ、即ち歩行者再識別ネットワークに対するトレーニングを完成させる。

選択的には、歩行者再識別ネットワークのパラメータを更新するために必要な勾配はデカップリングネットワークにより逆伝播されたものであるので、デカップリングネットワークのパラメータの調整終了前に、逆伝播される勾配がデカップリングネットワークで遮断され、即ち勾配が歩行者再識別ネットワークに逆伝播されないことによって、トレーニング中に必要なデータ処理量を減少させ、歩行者再識別ネットワークのトレーニング効果を向上させる。

可能な一実現形態では、第２の損失が所定値よりも大きい場合、デカップリングネットワークが収束しておらず、即ちデカップリングネットワークのパラメータが完全に調整されていないことを示すので、逆伝播される勾配をデカップリングネットワークで遮断することができ、歩行者再識別ネットワークのパラメーターを調整することなく、デカップリングネットワークのパラメータのみを調整することができる。第２の損失が所定値以下である場合、デカップリングネットワークが収束していることを示すので、歩行者再識別トレーニングネットワークが収束するまで、逆伝播される勾配を歩行者再識別ネットワークに伝播して歩行者再識別ネットワークのパラメーターを調整し、歩行者再識別トレーニングネットワークに対するトレーニングを完成させる。

本実施例に係る歩行者再識別トレーニングネットワークの使用では、第１のサンプル確率分布データのうちの身元情報を除去することによってトレーニングデータの拡張の効果が達成され、さらに歩行者再識別ネットワークのトレーニング効果が向上される。第３の損失による歩行者再識別トレーニングネットワークへの監視によって、第２のサンプル確率分布データから選択された対象データに含まれる特徴情報を、身元の識別に用いられる情報となるようにして、さらに第２の損失による歩行者再識別トレーニングネットワークへの監視と組み合わせて、歩行者再識別ネットワークが第３の特徴データを処理するときに、対象データに含まれる特徴情報を第２の特徴データに含まれる特徴情報からデカップリングするようにすることができ、即ち変化特徴を衣装属性及び外見特徴からデカップリングすることを実現している。このように、トレーニング済みの歩行者再識別ネットワークを用いて被処理画像の特徴ベクトルを処理するときに、被処理画像における人物オブジェクトの変化特徴を、当該人物オブジェクトの身元を識別するときに利用できるように当該人物オブジェクトの衣服属性及び外観特徴からデカップリングすることができ、識別確度を向上させることができる。

第１実施例と第２実施例に係る画像処理方法に基づいて、本開示の第４実施例は、本願の実施例に係る方法を容疑者の追跡時に応用するシーンを想定している。

１１０１では、画像処理装置は、カメラによって収集されたビデオストリームを取得し、当該ビデオストリームに基づいて第１のデータベースを作成する。

本実施例はサーバにより実行されるものであり、サーバは、それぞれの取付位置が異なる複数のカメラに接続され、かつ各カメラからリアルタイムで収集されたビデオストリームを取得することができる。

サーバに接続されるカメラの数は一定ではないが、カメラのネットワークアドレスをサーバに入力すると、サーバによりカメラから収集されたビデオストリームを取得し、当該ビデオストリームに基づいて第１のデータベースを作成することができると理解すべきである。

例を挙げると、場所Ｂの管理者が場所Ｂのデータベースを作成したい場合、場所Ｂのカメラのネットワークアドレスをサーバに入力するだけでは、サーバにより場所Ｂのカメラで収集されたビデオストリームを取得することができ、場所Ｂのカメラで収集されたビデオストリームに対して後続の処理を行って場所Ｂのデータベースを作成することができる。

可能な一実現形態では、ビデオストリーム内の画像（以下、第１の画像セットという）に対して顔検出及び／又は人体検出を行うことで、第１の画像セットのうちの各画像の顔領域及び／又は人体領域を決定し、第１の画像の顔領域及び／又は人体領域を切り出して第２の画像セットを形成し、第２の画像セットを第１のデータベースに記憶する。さらに、第１実施例と第３実施例に係る方法を用いて、データベース内の各画像における人物オブジェクトの特徴の確率分布データ（以下、第１の参照確率分布データという）を取得し、第１の参照確率分布データを第１のデータベースに記憶する。

第２の画像セット内の画像は、人の顔のみ又は人体のみを含んでよく、人の顔と人体とを含んでもよい。

１１０２では、画像処理装置は、第１の被処理画像を取得する。

本実施例において、当該第１の被処理画像は、容疑者の顔を含み、あるいは人体を含み、あるいは容疑者の顔と人体とを含む。

第１の被処理画像を取得する態様については、２０１で被処理画像を取得する態様を参照してよいが、ここでは詳細な説明を省略する。

１１０３では、第１の被処理画像における容疑者の特徴の確率分布データを第１の確率分布データとして得る。

１１０３の具体的な実現形態については、被処理画像の対象確率分布データを得る態様を参照してよいが、ここでは詳細な説明を省略する。

１１０４では、当該第１の確率分布データを用いて第１のデータベースを検索して、第１のデータベース内の第１の確率分布データにマッチングする確率分布データを有する画像を結果画像として取得する。

１１０４の具体的な実現形態についてはは、２０３で対象画像を取得するプロセスを参照してよいが、ここでは詳細な説明を省略する。

本実施例において、警察は、容疑者の画像を取得した場合に、本願に係る発明を用いて、第１のデータベース内の容疑者の画像のすべて（即ち結果画像）を取得することができ、結果画像の収集時間と収集位置に基づいて容疑者の踪跡をさらに特定して、容疑者の逮捕による警察の負担を軽減することができる。

具体的な実施形態に係る上記方法では、各ステップの作成順序が、実施手順に何らかの限定を与える厳密な実行順序を意味するものではなく、各ステップの具体的な実行順序がその機能及び可能な論理に基づいて決められることは、当業者には理解できる。

以上、本願の実施例に係る方法を詳しく説明したが、以下に本願の実施例に係る装置を提供する。

図１２は、本願の実施例に係る画像処理装置の構成模式図であり、当該装置１は、取得手段１１、符号化処理手段１２及び検索手段１３を備える。

取得手段１１は、被処理画像を取得する。

符号化処理手段１２は、前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを対象確率分布データとして得る。

検索手段１３は、前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得する。

可能な一実現形態では、前記符号化処理手段１２は、具体的に、前記被処理画像に対して特徴抽出処理を行い、第１の特徴データを得ることと、前記第１の特徴データに対して第１の非線形変換を行い、前記対象確率分布データを得ることに用いられる。

別の可能な一実現形態では、前記符号化処理手段１２は、具体的に、前記第１の特徴データに対して第２の非線形変換を行い、第２の特徴データを得ることと、前記第２の特徴データに対して第３の非線形変換を行い、第１の処理結果を平均データとして得ることと、前記第２の特徴データに対して第４の非線形変換を行い、第２の処理結果を分散データとして得ることと、前記平均データと前記分散データとに基づいて前記対象確率分布データを決定することに用いられる。

更なる別の可能な一実現形態では、前記符号化処理手段１２は、具体的に、前記第１の特徴データに対して畳み込み処理とプーリング処理を順次行い、前記第２の特徴データを得ることに用いられる。

更なる別の可能な一実現形態では、前記装置１が実行する方法は、深層畳み込みネットワークと歩行者再識別ネットワークとを含む確率分布データ生成ネットワークに応用され、前記深層畳み込みネットワークは、前記被処理画像に対して特徴抽出処理を行い、前記第１の特徴データを得るためのものであり、前記歩行者再識別ネットワークは、前記特徴データに対して符号化処理を行い、前記対象確率分布データを得るためのものである。

更なる別の可能な一実現形態では、前記確率分布データ生成ネットワークは歩行者再識別トレーニングネットワークに属し、前記歩行者再識別トレーニングネットワークはデカップリングネットワークをさらに含み、前記装置１は、図１３に示すように、前記歩行者再識別トレーニングネットワークをトレーニングするトレーニング手段１４をさらに備え、前記歩行者再識別トレーニングネットワークのトレーニングプロセスは、サンプル画像を前記歩行者再識別トレーニングネットワークに入力し、前記深層畳み込みネットワークの処理により第３の特徴データを得ることと、前記歩行者再識別ネットワークにより前記第３の特徴データを処理し、前記サンプル画像における人物オブジェクトの特徴の確率分布を記述するための第１のサンプル平均データと第１のサンプル分散データを得ることと、前記第１のサンプル平均データと前記第１のサンプル分散データとに基づいて決定された第１のサンプル確率分布データで表される人物オブジェクトの身元と、前記第３の特徴データで表される人物オブジェクトの身元との差を判断することによって、第１の損失を決定することと、前記デカップリングネットワークにより、前記第１のサンプル平均データと前記第１サンプル分散データとに基づいて決定された第１のサンプル確率分布データ内の人物オブジェクトの身元情報を除去し、第２のサンプル確率分布データを得ることと、前記デカップリングネットワークにより前記第２のサンプル確率分布データを処理し、第４の特徴データを得ることと、前記第１のサンプル確率分布データ、前記第３の特徴データ、前記サンプル画像のラベルデータ、前記第４の特徴データ及び前記第２のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記歩行者再識別トレーニングネットワークのパラメータを調整することとを含む。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記第１のサンプル確率分布データで表される人物オブジェクトの身元と、前記第３の特徴データで表される人物オブジェクトの身元との差を分析することによって、第１の損失を決定することと、前記第４の特徴データと前記第１のサンプル確率分布データとの差に基づいて、第２の損失を決定することと、前記第２のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第３の損失を決定することと、前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第１のサンプル確率分布データに基づいて決定された人物オブジェクトの身元と前記サンプル画像のラベルデータとの差に基づいて、第４の損失を決定することにさらに用いられ、前記トレーニング手段は、具体的に、前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることにさらに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第２のサンプル確率分布データと前記第１の所定確率分布データとの差に基づいて、第５の損失を決定することにさらに用いられ、前記トレーニング手段は、具体的に、前記第１の損失、前記第２の損失、前記第３の損失、前記第４の損失及び前記第５の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることにさらに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記第２のサンプル確率分布データから多次元のデータを任意に選択する態様、前記第２のサンプル確率分布データのうちの奇数次元のデータを選択する態様、前記第２のサンプル確率分布データのうちの前のｎ（ただし、ｎは正の整数）次元のデータを選択する態様のいずれか一つである所定の態様で、前記第２のサンプル確率分布データから対象データを選択することと、前記対象データで表される人物オブジェクトの身元情報と前記サンプル画像のラベルデータとの差に基づいて、前記第３の損失を決定することに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記第２のサンプル確率分布データに前記サンプル画像における人物オブジェクトの身元情報を付加したデータに対して復号化処理を行い、前記第４の特徴データを得ることと、前記対象データで表される人物オブジェクトの身元情報と前記サンプル画像のラベルデータとの差に基づいて、前記第３の損失を決定することに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記ラベルデータに対してワンホット符号化処理を行い、符号化処理したラベルデータを得ることと、前記符号化処理したデータと前記第１のサンプル確率分布データに対してスティッチ処理を行い、スティッチ後の確率分布データを得ることと、前記スティッチ後の確率分布データに対して符号化処理を行い、前記第２のサンプル確率分布データを得ることに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記第１のサンプル平均データと前記第１のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして前記第１のサンプル確率分布データを得ることに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記第１のサンプル確率分布データに対して復号化処理を行い、第６の特徴データを得ることと、前記第３の特徴データと前記第６の特徴データとの差に基づいて、前記第１の損失を決定することに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記対象データに基づいて前記人物オブジェクトの身元を決定し、身元結果を得ることと、前記身元結果と前記ラベルデータとの差に基づいて、前記第４の損失を決定することに用いられる。

更なる別の可能な一実現形態では、前記トレーニング手段１４は、具体的に、前記スティッチ後の確率分布データに対して符号化処理を行い、第２のサンプル平均データと第２のサンプル分散データを得ることと、前記第２のサンプル平均データと前記第２のサンプル分散データをサンプリングし、サンプリングにより得られたデータが前記所定確率分布に従うようにして前記第２のサンプル確率分布データを得ることに用いられる。

更なる別の可能な一実現形態では、前記検索手段１３は、前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定し、前記類似度が所定類似度閾値以上の画像を前記対象画像として選択することに用いられる。

更なる別の可能な一実現形態では、前記検索手段１３は、具体的に、前記対象確率分布データと前記データベース内の画像の確率分布データとの距離を前記類似度として決定することに用いられる。

更なる別の可能な一実現形態では、前記装置1は、被処理画像を取得する前に、被処理ビデオストリームを取得するための前記取得手段１１と、前記被処理ビデオストリームの画像に対して顔検出及び／又は人体検出を行い、前記被処理ビデオストリームの画像における顔領域及び／又は人体領域を決定するための処理手段１５と、前記顔領域及び／又は前記人体領域を切り出して前記参照画像を取得し、前記参照画像を前記データベースに記憶するための切出手段１６とをさらに備える。

本実施例は、被処理画像に対して特徴抽出処理を行い、被処理画像における人物オブジェクトの特徴情報を抽出することによって、第１の特徴データが得られる。さらに第１の特徴データに基づいて、被処理画像における人物オブジェクトの特徴の対象確率分布データを得ることによって、第１の特徴データのうちの変化特徴に含まれる情報が衣装属性及び外見特徴からデカップリングされることを実現している。このようにして、対象確率分布データとデータベース内の参照確率分布データとの類似度を決定するプロセスでは、変化特徴に含まれる情報を利用することができ、さらに当該類似度に基づいて被処理画像における人物オブジェクトと同一の身元である人物オブジェクトを含む画像を決定する確度、即ち被処理画像における人物オブジェクトの身元を識別する確度を向上させることができる。

いくつかの実施例において、本開示の実施例に係る装置が有する機能又は備えるモジュールは、以上の方法実施例で説明された方法を実行することに用いられ、その具体的な実現は、以上の方法実施例で説明されたものを参照してよいが、ここでは、簡素化するために、詳細な説明を省略する。

図１４は、本願の実施例に係る他の画像処理装置のハードウェア構成模式図である。当該画像処理装置２は、プロセッサ２１、メモリ２２、入力装置２３及び出力装置２４を備える。このプロセッサ２１、メモリ２２、入力装置２３及び出力装置２４は、コネクタを介して結合される。当該コネクタは、さまざまなインターフェース、伝送ライン又はバスなどを含み、本願の実施例はこれを限定しない。本願の各実施例において、結合とは、特定の態様による相互関連を指し、直接接続、又は他の機器、例えばさまざまなインターフェース、伝送ライン、バスなどを介した間接接続を含む。

プロセッサ２１は、１つ又は複数のＧＰＵであってよいが、プロセッサ２１が１つのＧＰＵである場合、当該ＧＰＵは、シングルコアＧＰＵであってよく、マルチコアＧＰＵであってもよい。プロセッサ２１は、１つ又は複数のバスを介して互いに結合される複数のＧＰＵからなるプロセッサグループであってよい。当該プロセッサは、他のタイプのプロセッサなどであってもよいが、本願の実施例では特に限定しない。

メモリ２２は、本願に係る発明を実行するためのプログラムコードなどの種々のコンピュータプログラムコードを含むコンピュータプログラム命令を記憶するために用いられ、メモリ２２は、不揮発性メモリ、例えば組み込み用マルチメディアカード（ｅｍｂｅｄｄｅｄｍｕｌｔｉｍｅｄｉａｃａｒｄ，ＥＭＭＣ）、ユニバーサル・フラッシュ・ストレージ（ｕｎｉｖｅｒｓａｌｆｌａｓｈｓｔｏｒａｇｅ，ＵＦＳ）や読み出し専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ，ＲＯＭ）、又は静的な情報と命令を記憶可能な他のタイプの静的記憶機器を含んでよいが、これに限定されなく、例えばランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ，ＲＡＭ）や情報と命令を記憶可能な他のタイプの動的記憶機器などの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であってもよく、電気的消去可能プログラマブル読み取り専用メモリ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ，ＥＥＰＲＯＭ）、コンパクトディスク読出し専用メモリー（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ，ＣＤ－ＲＯＭ）又は他のコンパクトディスクメモリ、光ディスクメモリ（圧縮光ディスク、レーザーディスク、光ディスク、デジタル多用途ディスク、ブルーレイディスクなどを含む）、磁気ディスク記憶媒体又は他の磁気記憶機器、又は命令やデータ構造形式を持つプログラムコードを携帯又は記憶可能で且つコンピュータでアクセス可能ないかなる他のコンピュータ読み取り可能な記憶媒体などであってもよく、当該メモリ２２は、関連する命令及びデータを記憶するためのものである。

入力装置２３は、データ及び／又は信号を入力するためのものであり、出力装置２４は、データ及び／又は信号を出力するためのものである。入力装置２３と出力装置２４は、個別のデバイスであってもよく、一体のデバイスであってもよい。

本願の実施例において、メモリ２２は、関連する命令だけでなく、関連する画像及びビデオも記憶できると理解されるべきであり、例えば、メモリ２２は、入力装置２３により取得された被処理画像又は被処理ビデオストリームを記憶することができ、または、プロセッサ２１により探索して取得された対象画像などを記憶することもできる。本願の実施例は、当該メモリには記憶された詳細的なデータを限定しない。

図１４は、画像処理装置の簡素化設計のみを示すと理解されるべきである。実際の応用において、画像処理装置は他の必要な素子をさらに含んでもよく、任意の数の入力／出力装置、プロセッサ、メモリなどを含むが、これらに限定されない。本願の実施例を実現できる画像処理装置はすべて本願の保護範囲内に含まれる。

本明細書で開示した実施例で説明された各例示の手段及びアルゴリズムステップは、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実現可能であることが、当業者には認識できる。これらの機能がハードウェアとソフトウェアのどちらにより実行されるかは、発明の特定の応用及び設計制限条件によるものである。専門技術者は、特定の応用の各々について、説明された機能を異なる方法を用いて実現することができるが、これは本願の範囲を超えているものとみなされるべきではない。

説明の便利化や簡素化のため、上記説明されたシステム、装置及び手段の具体的な作動手順について、上述した方法実施例の対応する手順を参照してよいことは、当業者には明らかであるので、ここでは詳細な説明を省略する。また、本願の各実施例それぞれには重視するポイントが異なっており、説明の便利化や簡素化のため、同じ又は類似する部分について異なる実施例において詳細な説明を省略するかもしれないので、ある実施例では説明しない又は詳細的に説明しない部分は他の実施例の記載を参照してよいことも、当業者には明らかである。

本願のいくつかの実施例では、開示されるシステム、装置及び方法は、他の態様で実現可能であると理解されるべきである。例えば、以上で説明された装置実施例は、模式的なものだけである。例えば、上記手段の区分は、論理的な機能区分だけであり、実際に実現するときに別の区分態様であってよく、例えば、複数の手段又はモジュールは、組み合わせてもよく、別のシステムに集積されてもよく、あるいは、一部の特徴は無視されてもよく、実行されなくてもよい。また、図示又は検討されている互いの結合又は直接結合又は通信接続は、インターフェース、装置又は手段を介する間接結合又は通信接続であってもよく、電気的接続、機械的接続、又は他の態様であってもよい。

上記の分離部材として説明された手段は、物理的に分離するものであってよく、そうではなくてもよく、手段として図示された部材は、物理的手段であってよく、そうではなくてもよく、すなわち、１つの箇所に位置するものであってもよく、複数のネットワークユニットに分散されるものであってもよい。本実施例に係る発明の目的を達成するために、実際の必要に応じて手段の一部又は全てを選択してよい。

また、本願の各実施例における各機能ユニットは、１つの処理ユニットに集積されてもよく、それぞれ単独で物理的に存在してもよく、２つ以上のユニットを１つのユニットに集積されてもよい。

上記の実施例において、その全部又は一部をソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせによって実現することができる。ソフトウェアによって実現される場合、その全部又は一部は、コンピュータプログラム製品の形で実現されてよい。上記コンピュータプログラム製品は、１つ又は複数のコンピュータ命令を含む。上記コンピュータプログラム命令がコンピュータにロード・実行されると、本願の実施例で説明したプロセス又は機能の全部又は一部が生成される。上記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブル装置であってよい。上記コンピュータ命令は、コンピュータ読み取り可能な記憶媒体に記憶されるか、又は上記コンピュータ読み取り可能な記憶媒体を介して伝送されてよい。上記コンピュータ命令は、有線（例えば同軸ケーブル、光ファイバー、デジタル加入者線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ，ＤＳＬ））又は無線（例えば赤外線、ワイヤレス、マイクロ波など）を介して１つのＷｅｂサイト、コンピュータ、サーバ又はデータセンターから別のＷｅｂサイト、コンピュータ、サーバ又はデータセンターへ伝送され得る。上記コンピュータ読み取り可能な記憶媒体は、コンピュータでアクセス可能な任意の利用可能な媒体、又は１つまたは複数の利用可能な媒体で集積されたサーバ、データセンターなどのデータ記憶機器であってよい。上記の利用可能な媒体は、磁気媒体（例えばフロッピーディスク、ハードディスク、磁気テープ）、光媒体（例えばデジタル多用途ディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ，ＤＶＤ））、又は半導体媒体（例えばソリッドステートディスク（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ，ＳＳＤ））などであってよい。

当業者に理解できるように、上記の実施例に係る方法の流れの全て又は一部は、コンピュータプログラムで関連するハードウェアを命令することで実現可能であり、当該プログラムはコンピュータ読み取り可能な記憶媒体に記憶可能であり、当該プログラムの実行時に、上述した各方法の実施例の流れを含み得る。上述した記憶媒体は、読み出し専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ，ＲＯＭ）又はランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ，ＲＡＭ）、磁気ディスク又は光ディスクなど種々のプログラムコード記憶可能な媒体を含む。

Claims

１つ以上のプロセッサによって実行される画像処理方法であって、
被処理画像を取得することと、
前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを、被処理画像における人物オブジェクトが異なる特徴を持つ確率又は異なる特徴で現れる確率を表すための対象確率分布データとして得ることと、
前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得することとを含み、
前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの特徴の確率分布データを対象確率分布データとして得ることは、
前記被処理画像に対して特徴抽出処理を行い、第１の特徴データを得ることと、
前記第１の特徴データに対して第１の非線形変換を行い、前記対象確率分布データを得ることとを含むことを特徴とする画像処理方法。
前記第１の特徴データに対して第１の非線形変換を行い、前記対象確率分布データを得ることは、
前記第１の特徴データに対して畳み込み処理とプーリング処理を順次行うことにより第２の非線形変換を行い、第２の特徴データを得ることと、
前記第２の特徴データに対して第３の非線形変換を行い、第１の処理結果を平均データとして得ることと、
前記第２の特徴データに対して第４の非線形変換を行い、第２の処理結果を分散データとして得ることと、
前記平均データと前記分散データとに基づいて前記対象確率分布データを決定することとを含むことを特徴とする請求項１に記載の方法。
前記方法は、深層畳み込みネットワークと歩行者再識別ネットワークとを含む確率分布データ生成ネットワークに応用され、
前記深層畳み込みネットワークは、前記被処理画像に対して特徴抽出処理を行い、前記第１の特徴データを得るためのものであり、
前記歩行者再識別ネットワークは、前記特徴データに対して符号化処理を行い、前記対象確率分布データを得るためのものであることを特徴とする請求項１または２に記載の方法。
前記確率分布データ生成ネットワークは歩行者再識別トレーニングネットワークに属し、前記歩行者再識別トレーニングネットワークはデカップリングネットワークをさらに含み、
前記歩行者再識別トレーニングネットワークのトレーニングプロセスは、
サンプル画像を前記歩行者再識別トレーニングネットワークに入力し、前記深層畳み込みネットワークの処理により第３の特徴データを得ることと、
前記歩行者再識別ネットワークにより前記第３の特徴データを処理し、前記サンプル画像における人物オブジェクトの特徴の確率分布を記述するための第１のサンプル平均データと第１のサンプル分散データを得ることと、
前記デカップリングネットワークにより、前記第１のサンプル平均データと前記第１サンプル分散データとに基づいて決定された第１のサンプル確率分布データ内の人物オブジェクトの身元情報を除去し、第２のサンプル確率分布データを得ることと、
前記デカップリングネットワークにより前記第２のサンプル確率分布データを処理し、第４の特徴データを得ることと、
前記第１のサンプル確率分布データ、前記第３の特徴データ、前記サンプル画像のラベルデータ、前記第４の特徴データ及び前記第２のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することと、
前記ネットワーク損失に基づいて前記歩行者再識別トレーニングネットワークのパラメータを調整することとを含むことを特徴とする請求項３に記載の方法。
前記第１のサンプル確率分布データ、前記第３の特徴データ、前記サンプル画像のラベルデータ、前記第４の特徴データ及び前記第２のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することは、
前記第１のサンプル確率分布データで表される人物オブジェクトの身元と、前記第３の特徴データで表される人物オブジェクトの身元との差を分析することによって、第１の損失を決定することと、
前記第４の特徴データと前記第１のサンプル確率分布データとの差に基づいて、第２の損失を決定することと、
前記第２のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第３の損失を決定することと、
前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることとを含むことを特徴とする請求項４に記載の方法。
前記方法は、前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、
前記第１のサンプル確率分布データに基づいて決定された人物オブジェクトの身元と前記サンプル画像のラベルデータとの差に基づいて、第４の損失を決定することをさらに含み、
前記第１の損失、前記第２の損失及び前記第３の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることは、
前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることを含むことを特徴とする請求項５に記載の方法。
前記方法は、前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、
前記第２のサンプル確率分布データと第１の所定確率分布データとの差に基づいて、第５の損失を決定することをさらに含み、
前記第１の損失、前記第２の損失、前記第３の損失及び前記第４の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることは、
前記第１の損失、前記第２の損失、前記第３の損失、前記第４の損失及び前記第５の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることを含むことを特徴とする請求項６に記載の方法。
前記第２のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第３の損失を決定することは、
前記第２のサンプル確率分布データから多次元のデータを任意に選択する態様、前記第２のサンプル確率分布データのうちの奇数次元のデータを選択する態様、前記第２のサンプル確率分布データのうちの前のｎ（ただし、ｎは正の整数）次元のデータを選択する態様のいずれか一つである所定の態様で、前記第２のサンプル確率分布データから対象データを選択することと、
前記対象データに基づいて前記人物オブジェクトの身元を決定し、身元結果を得ることと、
前記身元結果と前記ラベルデータとの差に基づいて、前記第３の損失を決定することとを含むことを特徴とする請求項５に記載の方法。
前記デカップリングネットワークにより前記第２のサンプル確率分布データを処理し、第４の特徴データを得ることは、
前記第２のサンプル確率分布データに前記サンプル画像における人物オブジェクトの身元情報を付加したデータに対して復号化処理を行い、前記第４の特徴データを得ることを含むことを特徴とする請求項４に記載の方法。
前記デカップリングネットワークにより、前記第１のサンプル確率分布データ内の前記人物オブジェクトの身元情報を除去し、第２のサンプル確率分布データを得ることは、
前記ラベルデータに対してワンホット符号化処理を行い、符号化処理したラベルデータを得ることと、
前記符号化処理したデータと前記第１のサンプル確率分布データに対してスティッチ処理を行い、スティッチした確率分布データを得ることと、
前記スティッチした確率分布データに対して符号化処理を行い、前記第２のサンプル確率分布データを得ることとを含むことを特徴とする請求項４に記載の方法。
前記第１のサンプル確率分布データは、前記第１のサンプル平均データと前記第１のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして得られたものであることを特徴とする請求項４に記載の方法。
前記第１のサンプル確率分布データで表される人物オブジェクトの身元と、前記第３の特徴データで表される人物オブジェクトの身元との差を分析することによって、第１の損失を決定することは、
前記第１のサンプル確率分布データに対して復号化処理を行い、第６の特徴データを得ることと、
前記第３の特徴データと前記第６の特徴データとの差に基づいて、前記第１の損失を決定することとを含むことを特徴とする請求項５に記載の方法。
前記スティッチした確率分布データに対して符号化処理を行い、前記第２のサンプル確率分布データを得ることは、
前記スティッチした確率分布データに対して符号化処理を行い、第２のサンプル平均データと第２のサンプル分散データを得ることと、
前記第２のサンプル平均データと前記第２のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして前記第２のサンプル確率分布データを得ることとを含むことを特徴とする請求項１０に記載の方法。
前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得することは、
前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定し、前記類似度が所定類似度閾値以上の画像を前記対象画像として選択することを含むことを特徴とする請求項１に記載の方法。
前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定することは、
前記対象確率分布データと前記データベース内の画像の確率分布データとの距離を前記類似度として決定することを含むことを特徴とする請求項１４に記載の方法。
前記方法は、前記被処理画像を取得する前に、
被処理ビデオストリームを取得することと、
前記被処理ビデオストリームの画像に対して顔検出及び／又は人体検出を行い、前記被処理ビデオストリームの画像における顔領域及び／又は人体領域を決定することと、
前記顔領域及び／又は前記人体領域を切り出して参照画像を取得し、前記参照画像を前記データベースに記憶することとをさらに含むことを特徴とする請求項１に記載の方法。
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶される命令を実行して、請求項１～１６のいずれか１項に記載の方法を実現するように構成されることを特徴とする画像処理装置。
プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラム命令が電子機器のプロセッサにより実行されると、請求項１～１６のいずれか１項に記載の方法を前記プロセッサに実行させることを特徴とするコンピュータ読み取り可能な記憶媒体。
プログラム命令を含むコンピュータプログラムであって、
前記プログラム命令がプロセッサにより実行されると、請求項１～１６のいずれか１項に記載の方法を前記プロセッサに実行させるコンピュータプログラム。