JP7165752B2 - 画像処理方法及び装置、プロセッサ、記憶媒体 - Google Patents

画像処理方法及び装置、プロセッサ、記憶媒体 Download PDF

Info

Publication number
JP7165752B2
JP7165752B2 JP2020564418A JP2020564418A JP7165752B2 JP 7165752 B2 JP7165752 B2 JP 7165752B2 JP 2020564418 A JP2020564418 A JP 2020564418A JP 2020564418 A JP2020564418 A JP 2020564418A JP 7165752 B2 JP7165752 B2 JP 7165752B2
Authority
JP
Japan
Prior art keywords
data
probability distribution
sample
distribution data
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020564418A
Other languages
English (en)
Other versions
JP2022510529A (ja
Inventor
嘉▲ウェイ▼ 任
海▲ニン▼ ▲趙▼
▲師▼ 伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime International Pte Ltd
Original Assignee
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201911007069.6A external-priority patent/CN112699265B/zh
Application filed by Sensetime International Pte Ltd filed Critical Sensetime International Pte Ltd
Publication of JP2022510529A publication Critical patent/JP2022510529A/ja
Application granted granted Critical
Publication of JP7165752B2 publication Critical patent/JP7165752B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、2019年10月22日に中国特許庁に出願された出願番号201911007069.6、発明の名称「画像処理方法及び装置、プロセッサ、記憶媒体」である中国特許出願に基づく優先権を主張し、その内容の全てが援用によって本開示に組み込まれる。
本開示は画像処理技術の分野に関し、特に画像処理方法及び装置、プロセッサ、記憶媒体に関する。
従来、仕事、生活や社会環境の安全性を高めるために、ビデオストリーム情報に基づくセキュリティ保護が行われるように、撮像監視装置がさまざまな場所に取り付けられている。公共の場所でのカメラの数の急増に伴い、どのように効果的に大量のビデオストリームで対象人物を含む画像を決定して当該画像の情報に基づいて対象人物の行方などの情報を決定するかは、非常に重要である。
従来の方法では、ビデオストリームの画像と、対象人物を含む参照画像とからそれぞれ抽出された特徴をマッチングして、対象人物と同一の身元である人物オブジェクトを含む対象画像を決定し、さらに対象人物の追跡を実現している。例えば、場所Aで強盗事件が発生した場合、警察が現場の目撃者から提供された容疑者の画像を参照画像として、特徴マッチングの方法によりビデオストリームうちの容疑者を含む対象画像を決定する。
このような方法で参照画像とビデオストリームの画像から抽出された特徴には、衣装属性や外見特徴のみが含まれることが多いが、画像には、人物オブジェクトの姿勢、人物オブジェクトの歩幅、人物オブジェクトが撮像された画角など人物オブジェクトの身元の識別に寄与するような情報も含まれているため、このような方法で特徴マッチングを行うときには、人物オブジェクトの姿勢、人物オブジェクトの歩幅、人物オブジェクトが撮像された画角など人物オブジェクトの身元の識別に寄与するような情報を用いて対象画像を決定することなく、衣装属性や外見特徴のみを用いて対象画像を決定することになる。
本開示は、データベースでの検索によりデータベースから対象人物を含む対象画像を取得することができる画像処理方法及び装置、プロセッサ、記憶媒体を提供する。
第1側面は、被処理画像を取得することと、前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを対象確率分布データとして得ることと、前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得することとを含む画像処理方法を提供する。
この側面では、被処理画像に対して特徴抽出処理を行うことによって、被処理画像における人物オブジェクトの特徴情報が抽出され、第1の特徴データが得られる。さらに、第1の特徴データに基づいて、被処理画像における人物オブジェクトの特徴の対象確率分布データを得ることによって、第1の特徴データのうちの変化特徴に含まれる情報を衣装属性及び外見特徴からデカップリングすることを実現する。このように、変化特徴に含まれる情報は、対象確率分布データとデータベース内の参照確率分布データとの類似度の決定に利用することができるので、当該類似度に基づいて被処理画像における人物オブジェクトと同一の身元である人物オブジェクトを含む画像を決定する確度、即ち被処理画像における人物オブジェクトの身元を識別する確度を向上させることができる。
可能な一実現形態では、前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの特徴の確率分布データを対象確率分布データとして得ることは、前記被処理画像に対して特徴抽出処理を行い、第1の特徴データを得ることと、前記第1の特徴データに対して第1の非線形変換を行い、前記対象確率分布データを得ることとを含む。
この可能な実現形態では、被処理画像に対して特徴抽出処理と第1の非線形変換を順次行って、対象確率分布データを得ることによって、被処理画像に基づいて被処理画像における人物オブジェクトの特徴の確率分布データを得ることを実現する。
別の可能な一実現形態では、前記第1の特徴データに対して第1の非線形変換を行い、前記対象確率分布データを得ることは、前記第1の特徴データに対して第2の非線形変換を行い、第2の特徴データを得ることと、前記第2の特徴データに対して第3の非線形変換を行い、第1の処理結果を平均データとして得ることと、前記第2の特徴データに対して第4の非線形変換を行い、第2の処理結果を分散データとして得ることと、前記平均データと前記分散データとに基づいて前記対象確率分布データを決定することとを含む。
この可能な実現形態では、後続の処理において例えば確率分布データを得るために、第1の特徴データに対して第2の非線形変換を行い、第2の特徴データを得る。そして、第2の特徴データに対して第3の非線形変換と第4の非線形変換をそれぞれ行い、平均データと分散データを得、さらに平均データと分散データとに基づいて対象確率分布データを決定することにより、第1の特徴データに基づいて対象確率分布データを得ることを実現する。
更なる別の可能な一実現形態では、前記第1の特徴データに対して第2の非線形変換を行い、第2の特徴データを得ることは、前記第1の特徴データに対して畳み込み処理とプーリング処理を順次行い、前記第2の特徴データを得ることを含む。
更なる別の可能な一実現形態では、前記方法は、深層畳み込みネットワークと歩行者再識別ネットワークとを含む確率分布データ生成ネットワークに応用され、前記深層畳み込みネットワークは、前記被処理画像に対して特徴抽出処理を行い、前記第1の特徴データを得るためのものであり、前記歩行者再識別ネットワークは、前記特徴データに対して符号化処理を行い、前記対象確率分布データを得るためのものである。
第1側面及び上記の全ての可能な実現形態を参考すると、この可能な実現形態では、確率分布データ生成ネットワークに含まれる深層畳み込みネットワークにより被処理画像に対して特徴抽出処理を行うことにより、第1の特徴データを得ることができ、さらに確率分布データ生成ネットワークに含まれる歩行者再識別ネットワークにより第1の特徴データを処理することにより、対象確率分布データを得ることができる。
更なる別の可能な一実現形態では、前記確率分布データ生成ネットワークは歩行者再識別トレーニングネットワークに属し、前記歩行者再識別トレーニングネットワークはデカップリングネットワークをさらに含み、前記歩行者再識別トレーニングネットワークのトレーニングプロセスは、サンプル画像を前記歩行者再識別トレーニングネットワークに入力し、前記深層畳み込みネットワークの処理により第3の特徴データを得ることと、前記歩行者再識別ネットワークにより前記第3の特徴データを処理し、前記サンプル画像における人物オブジェクトの特徴の確率分布を記述するための第1のサンプル平均データと第1のサンプル分散データを得ることと、前記デカップリングネットワークにより、前記第1のサンプル平均データと前記第1サンプル分散データとに基づいて決定された第1のサンプル確率分布データ内の人物オブジェクトの身元情報を除去し、第2のサンプル確率分布データを得ることと、前記デカップリングネットワークにより前記第2のサンプル確率分布データを処理し、第4の特徴データを得ることと、前記第1のサンプル確率分布データ、前記第3の特徴データ、前記サンプル画像のラベルデータ、前記第4の特徴データ及び前記第2のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記歩行者再識別トレーニングネットワークのパラメータを調整することとを含む。
この可能な実現形態では、第1のサンプル確率分布データ、第3の特徴データ、サンプル画像のラベルデータ、第4の特徴データ及び第2のサンプル確率分布データに基づいて、歩行者再識別トレーニングネットワークのネットワーク損失を決定することができ、さらに当該ネットワーク損失に基づいてデカップリングネットワークのパラメータ及び歩行者再識別ネットワークのパラメータを調整して、歩行者再識別ネットワークのトレーニングを完成させることができる。
更なる別の可能な一実現形態では、前記第1のサンプル確率分布データ、前記第3の特徴データ、前記サンプル画像のラベルデータ、前記第4の特徴データ及び前記第2のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することは、前記第1のサンプル確率分布データで表される人物オブジェクトの身元と、前記第3の特徴データで表される人物オブジェクトの身元との差を分析することによって、第1の損失を決定することと、前記第4の特徴データと前記第1のサンプル確率分布データとの差に基づいて、第2の損失を決定することと、前記第2のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第3の損失を決定することと、前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることとを含む。
更なる別の可能な一実現形態では、前記方法は、前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第1のサンプル確率分布データに基づいて決定された人物オブジェクトの身元と前記サンプル画像のラベルデータとの差に基づいて、第4の損失を決定することをさらに含み、前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることは、前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることを含む。
更なる別の可能な一実現形態では、前記方法は、前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第2のサンプル確率分布データと前記第1の所定確率分布データとの差に基づいて、第5の損失を決定することをさらに含み、前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることは、前記第1の損失、前記第2の損失、前記第3の損失、前記第4の損失及び前記第5の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることを含む。
更なる別の可能な一実現形態では、前記第2のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第3の損失を決定することは、前記第2のサンプル確率分布データから多次元のデータを任意に選択する態様、前記第2のサンプル確率分布データのうちの奇数次元のデータを選択する態様、前記第2のサンプル確率分布データのうち前のn(ただし、nは正の整数)次元のデータを選択する態様のいずれか一つである所定の態様で、前記第2のサンプル確率分布データから対象データを選択することと、前記対象データで表される人物オブジェクトの身元情報と前記サンプル画像のラベルデータとの差に基づいて、前記第3の損失を決定することとを含む。
更なる別の可能な一実現形態では、前記デカップリングネットワークにより前記第2のサンプル確率分布データを処理し、第4の特徴データを得ることは、前記第2のサンプル確率分布データに前記サンプル画像における人物オブジェクトの身元情報を付加したデータに対して復号化処理を行い、前記第4の特徴データを得ることを含む。
更なる別の可能な一実現形態では、前記デカップリングネットワークにより、前記第1のサンプル確率分布データ内の前記人物オブジェクトの身元情報を除去し、第2のサンプル確率分布データを得ることは、前記ラベルデータに対してワンホット符号化処理を行い、符号化処理したラベルデータを得ることと、前記符号化処理したデータと前記第1のサンプル確率分布データに対してスティッチ処理を行い、スティッチした確率分布データを得ることと、前記スティッチした確率分布データに対して符号化処理を行い、前記第2のサンプル確率分布データを得ることとを含む。
更なる別の可能な一実現形態では、前記第1のサンプル確率分布データは、前記第1のサンプル平均データと前記第1のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして得られたものである。
この可能な実現形態では、第1のサンプル平均データと第1のサンプル分散データをサンプリングすることによって、連続的な第1のサンプル確率分布データを得ることができ、歩行者再識別トレーニングネットワークをトレーニングするときに、歩行者再識別ネットワークに勾配を逆伝播させることができる。
更なる別の可能な一実現形態では、前記第1のサンプル平均データと前記第1のサンプル分散データに基づいて決定された第1のサンプル確率分布データで表される人物オブジェクトの身元と、前記第3の特徴データで表される人物オブジェクトの身元との差を分析することによって、第1の損失を決定することは、前記第1のサンプル確率分布データに対して復号化処理を行い、第6の特徴データを得ることと、前記第3の特徴データと前記第6の特徴データとの差に基づいて、前記第1の損失を決定することとを含む。
更なる別の可能な一実現形態では、前記対象データで表される人物オブジェクトの身元情報と前記ラベルデータとの差に基づいて、第3の損失を決定することは、前記対象データに基づいて前記人物オブジェクトの身元を決定し、身元結果を得ることと、前記身元結果と前記ラベルデータとの差に基づいて、前記第3の損失を決定することとを含む。
更なる別の可能な一実現形態では、前記スティッチした確率分布データに対して符号化処理を行い、前記第2のサンプル確率分布データを得ることは、前記スティッチした確率分布データに対して符号化処理を行い、第2のサンプル平均データと第2のサンプル分散データを得ることと、前記第2のサンプル平均データと前記第2のサンプル分散データをサンプリングし、サンプリングにより得られたデータが前記所定確率分布に従うようにして前記第2のサンプル確率分布データを得ることとを含む。
更なる別の可能な一実現形態では、前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得することは、前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定し、前記類似度が所定類似度閾値以上の画像を前記対象画像として選択することを含む。
この可能な実現形態では、対象確率分布データとデータベース内の画像の確率分布データとの類似度に基づいて、被処理画像における人物オブジェクトとデータベース内の画像における人物オブジェクトとの類似度を決定し、類似度が類似度閾値以上の画像を対象画像として決定することができる。
更なる別の可能な一実現形態では、前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定することは、前記対象確率分布データと前記データベース内の画像の確率分布データとの距離を前記類似度として決定することを含む。
更なる別の可能な一実現形態では、前記方法は、前記被処理画像を取得する前に、被処理ビデオストリームを取得することと、前記被処理ビデオストリームの画像に対して顔検出及び/又は人体検出を行い、前記被処理ビデオストリームの画像における顔領域及び/又は人体領域を決定することと、前記顔領域及び/又は前記人体領域を切り出して前記参照画像を取得し、前記参照画像を前記データベースに記憶することとをさらに含む。
この可能な実現形態では、被処理ビデオストリームは、監視カメラで採集されたビデオストリームであって、被処理ビデオストリームに基づいてデータベース内の参照画像を取得することができる。さらに第1側面及び上記のいずれか1つの可能な実現形態を参考すると、データベースから被処理画像における人物オブジェクトと同一の身元である人物オブジェクトを含む対象画像を検索することができ、即ち人物の行方の追跡を実現することができる。
第2側面は、被処理画像を取得する取得手段と、前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを対象確率分布データとして得る符号化処理手段と、前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得する検索手段とを備える画像処理装置を提供する。
可能な一実現形態では、前記符号化処理手段は、具体的に、前記被処理画像に対して特徴抽出処理を行い、第1の特徴データを得ることと、前記第1の特徴データに対して第1の非線形変換を行い、前記対象確率分布データを得ることに用いられる。
別の可能な一実現形態では、前記符号化処理手段は、具体的に、前記第1の特徴データに対して第2の非線形変換を行い、第2の特徴データを得ることと、前記第2の特徴データに対して第3の非線形変換を行い、第1の処理結果を平均データとして得ることと、前記第2の特徴データに対して第4の非線形変換を行い、第2の処理結果を分散データとして得ることと、前記平均データと前記分散データとに基づいて前記対象確率分布データを決定することに用いられる。
更なる別の可能な一実現形態では、前記符号化処理手段は、具体的に、前記第1の特徴データに対して畳み込み処理とプーリング処理を順次行い、前記第2の特徴データを得ることに用いられる。
更なる別の可能な一実現形態では、前記装置が実行する方法は、深層畳み込みネットワークと歩行者再識別ネットワークとを含む確率分布データ生成ネットワークに応用され、前記深層畳み込みネットワークは、前記被処理画像に対して特徴抽出処理を行い、前記第1の特徴データを得るためのものであり、前記歩行者再識別ネットワークは、前記特徴データに対して符号化処理を行い、前記対象確率分布データを得るためのものである。
更なる別の可能な一実現形態では、前記確率分布データ生成ネットワークは歩行者再識別トレーニングネットワークに属し、前記歩行者再識別トレーニングネットワークはデカップリングネットワークをさらに含み、前記装置は、前記歩行者再識別トレーニングネットワークをトレーニングするトレーニング手段をさらに備え、前記歩行者再識別トレーニングネットワークのトレーニングプロセスは、サンプル画像を前記歩行者再識別トレーニングネットワークに入力し、前記深層畳み込みネットワークの処理により第3の特徴データを得ることと、前記歩行者再識別ネットワークにより前記第3の特徴データを処理し、前記サンプル画像における人物オブジェクトの特徴の確率分布を記述するための第1のサンプル平均データと第1のサンプル分散データを得ることと、前記第1のサンプル平均データと前記第1のサンプル分散データとに基づいて決定された第1のサンプル確率分布データで表される人物オブジェクトの身元と、前記第3の特徴データで表される人物オブジェクトの身元との差を分析することによって、第1の損失を決定することと、前記デカップリングネットワークにより、前記第1のサンプル平均データと前記の第1サンプル分散データとに基づいて決定された第1のサンプル確率分布データ内の人物オブジェクトの身元情報を除去し、第2のサンプル確率分布データを得ることと、前記デカップリングネットワークにより前記第2のサンプル確率分布データを処理し、第4の特徴データを得ることと、前記第1のサンプル確率分布データ、前記第3の特徴データ、前記サンプル画像のラベルデータ、前記第4の特徴データ及び前記第2のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記歩行者再識別トレーニングネットワークのパラメータを調整することとを含む。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第1のサンプル確率分布データで表される人物オブジェクトの身元と、前記第3の特徴データで表される人物オブジェクトの身元との差を分析することによって、第1の損失を決定することと、前記第4の特徴データと前記第1のサンプル確率分布データとの差に基づいて、第2の損失を決定することと、前記第2のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第3の損失を決定することと、前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第1のサンプル確率分布データに基づいて決定された人物オブジェクトの身元と前記サンプル画像のラベルデータとの差に基づいて、第4の損失を決定することにさらに用いられ、前記トレーニング手段は、具体的に、前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることにさらに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第2のサンプル確率分布データと前記第1の所定確率分布データとの差に基づいて、第5の損失を決定することにさらに用いられ、前記トレーニング手段は、具体的に、前記第1の損失、前記第2の損失、前記第3の損失、前記第4の損失及び前記第5の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることにさらに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第2のサンプル確率分布データから多次元のデータを任意に選択する態様、前記第2のサンプル確率分布データのうちの奇数次元のデータを選択する態様、前記第2のサンプル確率分布データのうちの前のn(ただし、nは正の整数)次元のデータを選択する態様のいずれか一つである所定の態様で、前記第2のサンプル確率分布データから対象データを選択することと、前記対象データで表される人物オブジェクトの身元情報と前記サンプル画像のラベルデータとの差に基づいて、前記第3の損失を決定することに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第2のサンプル確率分布データに前記サンプル画像における人物オブジェクトの身元情報を付加したデータに対して復号化処理を行い、前記第4の特徴データを得ることに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記ラベルデータに対してワンホット符号化処理を行い、符号化処理したラベルデータを得ることと、前記符号化処理したデータと前記第1のサンプル確率分布データに対してスティッチ処理を行い、スティッチした確率分布データを得ることと、前記スティッチした確率分布データに対して符号化処理を行い、前記第2のサンプル確率分布データを得ることに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第1のサンプル平均データと前記第1のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして前記第1のサンプル確率分布データを得ることに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記第1のサンプル確率分布データに対して復号化処理を行い、第6の特徴データを得ることと、前記第3の特徴データと前記第6の特徴データとの差に基づいて、前記第1の損失を決定することに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記対象データに基づいて前記人物オブジェクトの身元を決定し、身元結果を得ることと、前記身元結果と前記ラベルデータとの差に基づいて、前記第4の損失を決定することに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段は、具体的に、前記スティッチした確率分布データに対して符号化処理を行い、第2のサンプル平均データと第2のサンプル分散データを得ることと、前記第2のサンプル平均データと前記第2のサンプル分散データをサンプリングし、サンプリングにより得られたデータが前記所定確率分布に従うようにして前記第2のサンプル確率分布データを得ることに用いられる。
更なる別の可能な一実現形態では、前記検索手段は、前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定し、前記類似度が所定類似度閾値以上の画像を前記対象画像として選択することに用いられる。
更なる別の可能な一実現形態では、前記検索手段は、具体的に、前記対象確率分布データと前記データベース内の画像の確率分布データとの距離を前記類似度として決定することに用いられる。
更なる別の可能な一実現形態では、前記装置は、前記被処理画像を取得する前に、被処理ビデオストリームを取得するための前記取得手段と、前記被処理ビデオストリームの画像に対して顔検出及び/又は人体検出を行い、前記被処理ビデオストリームの画像における顔領域及び/又は人体領域を決定するための処理手段と、前記顔領域及び/又は前記人体領域を切り出して前記参照画像を取得し、前記参照画像を前記データベースに記憶するための切出手段とをさらに備える。
第3側面は、上記第1側面及びその可能な実現形態のいずれか1つの方法を実行するプロセッサを提供する。
第4側面は、電子機器であって、プロセッサ、送信装置、入力装置、出力装置及びメモリを備え、前記メモリは、コンピュータ命令を含むコンピュータプログラムコードを記憶し、前記電子機器は、前記コンピュータ命令が前記プロセッサにより実行されると、上記第1側面及びその可能な実現形態のいずれか1つの方法を実行する電子機器を提供する。
第5側面は、プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令が電子機器のプロセッサにより実行されると、上記第1側面及びその可能な実現形態のいずれか1つの方法を前記プロセッサに実行させるコンピュータ読み取り可能な記憶媒体を提供する。
第6側面は、プログラム命令を含むコンピュータプログラム製品であって、前記プログラム命令がプロセッサにより実行されると、上記第1側面及びその可能な実現形態のいずれか1つの方法を前記プロセッサに実行させるコンピュータプログラム製品を提供する。
以上の一般的な説明及び後述の詳細な説明は、例示的・解釈的なものにすぎず、本開示を制限するものではないと理解すべきである。
以下、本願の実施例又は背景技術における発明をより明確に説明するために、本願の実施例又は背景技術に用いられる必要がある図面を説明する。
ここにおいて組み込まれてこの明細書の一部をなすこれらの図面は、本開示に適する実施例を示すものであり、明細書と共に、本開示の技術的手段を説明するために用いられる。
図1は、本願の実施例に係る画像処理装置のハードウェア構成模式図である。 図2は、本願の実施例に係る画像処理方法のフローの模式図である。 図3は、本願の実施例に係る確率分布データの模式図である。 図4は、本願の実施例に係る別の確率分布データの模式図である。 図5は、本願の実施例に係る別の画像処理方法のフローの模式図である。 図6は、本願の実施例に係る確率分布データの模式図である。 図7は、本願の実施例に係る確率分布データ生成ネットワークの構成模式図である。 図8は、本願の実施例に係る被処理画像の模式図である。 図9は、本願の実施例に係る歩行者再識別トレーニングネットワークの構成模式図である。 図10は、本願の実施例に係るスティッチ処理の模式図である。 図11は、本願の実施例に係る他の画像処理方法のフローの模式図である。 図12は、本願の実施例に係る画像処理装置の構成模式図である。 図13は、本願の実施例に係る他の画像処理装置の構成模式図である。 図14は、本願の実施例に係る画像処理装置のハードウェア構成模式図である。
以下、当業者が本願の発明をよりよく理解できるように、本願の実施例の図面と併せて、本願の実施例に係る発明を明確で完全に説明するが、説明される実施例は、本願の実施例の全てではなくその一部だけであることが明らかである。本願の実施例に基づいて、当業者が創意工夫をせずに得た全ての他の実施例は、本願の技術的範囲に属する。
本願の明細書、特許請求の範囲及び上記図面における「第1」、「第2」などという用語は、特定の順序を説明するためのものではなく、異なるアイテムを区別するためのものである。なお、「含む」、「有する」という用語及びそれら任意の変形は、非排他的な包含をカバーすることを意図している。例えば、一連のステップ又は手段を含むプロセス、方法、システム、製品又は機器は、すでに挙げられたステップ又は手段に限定されるものではなく、挙げられていないステップ又は手段を選択的にさらに含み、あるいはこれらのプロセス、方法、製品又は機器に固有の他のステップ又は手段を選択的にさらに含む。
本願において、「少なくとも1つ(1項)」は1つ又は複数を意味し、「複数」は2つ又は2つ以上を意味し、「少なくとも2つ(2項)」は2つ又は3つ及び3つ以上を意味する。「及び/又は」は、関連物の関連付け関係を説明するためのものとして、3つの関係が存在可能であることを意味し、例えば、A及び/又はBについて、Aのみが存在し、Bのみが存在し、AとBがともに存在するという3つの場合を表しているが、A、Bは単数又は複数であってよい。符号「/」は、その前後の関連アイテムが「又は」という関係にあることを表している。「以下の少なくとも1項(1つ)」又はそのような表現は、これらアイテムのうちの任意な組み合わせを意味し、単項(個)又は複数項(個)の任意な組み合わせを含む。例えば、a、b及びcのうちの少なくとも1項(1つ)は、aを表すこと、bを表すこと、cを表すこと、「aとb」を表すこと、「aとc」を表すこと、「bとc」を表すこと、又は「aとbとc」を表し、ここで、a、b、cは単数であってもよく、複数であってもよい。
本明細書に言及される「実施例」とは、実施例に記載された特定の特徴、構成又は特性が本願の少なくとも1つの実施例に含まれてよいことを意味する。明細書の各箇所に記載された当該用語は、必ずしも同じ実施例を意味するものではなく、他の実施例と相互に排他的な独立又は代替の実施例でもない。本明細書に記載された実施例は、他の実施例と組み合わせることが可能であると当業者に明示的又は暗示的に理解される。
本願の実施例に係る発明は、画像処理装置に応用可能である。当該画像処理装置は、サーバであってよく、端末(例えば携帯電話、タブレット、デスクトップコンピュータ)であってもよく、グラフィックスプロセッサ(graphics processing unit,GPU)を備える。当該画像処理装置は、歩行者画像ライブラリを含むデータベースが記憶されている。
図1は、本願の実施例に係る画像処理装置のハードウェア構成模式図である。図1に示すように、当該画像処理装置は、プロセッサ210と、外部メモリインターフェース220と、内部メモリ221と、ユニバーサルシリアルバス(universal serial bus,USB)インターフェース230と、電源管理モジュール240と、ネットワーク通信モジュール250と、ディスプレー260とを備える。
本願の実施例に示される構成は、画像処理装置を限定するものではない。本願の他の実施例において、画像処理装置は、図示よりも多い又は少ない部材、又は一部の部材との組み合わせ、又は一部の部材を分割したもの、又は異なる部材配置を備えてもよい。図示される部材は、ハードウェア、ソフトウェア又はハードウェアとソフトウェアの組み合わせによって実現される。
プロセッサ210は、1つ又は複数の処理ユニットを備えてよいが、例えば、プロセッサ210は、アプリケーションプロセッサ(application processor,AP)、グラフィックスプロセッサ(graphics processing unit,GPU)、画像信号プロセッサ(image signal processor,ISP)、コントローラ、メモリ、ビデオコーデック、デジタルシグナルプロセッサ(digital signal processor,DSP)、及び/又はニューラルネットワークプロセッサ(neural-network processing unit,NPU)などを備えてよい。ここで、異なる処理ユニットは、独立したデバイスであってよく、1つ又は複数のプロセッサに集積されるものであってもよい。
ここで、コントローラは、画像処理装置の神経中枢及び指揮センターであってよい。コントローラは、命令操作コードと時系列信号に応じて操作制御信号を生成し、受取命令と実行命令の制御を完了させることができる。
プロセッサ210には、命令及びデータを記憶するためのメモリを設けてもよい。いくつかの実施例において、プロセッサ210のメモリはキャッシュメモリである。当該メモリは、プロセッサ210により使用直後の又は循環して使用される命令又はデータを記憶することができる。
いくつかの実施例において、プロセッサ210は、1つ又は複数のインターフェースを含んでよい。インターフェースは、集積回路(inter-integrated circuit,I2C)インターフェース、集積回路内蔵音声(inter-integrated circuit sound,I2S)インターフェース、パルスコード変調(pulse code modulation,PCM)インターフェース、汎用非同期レシーバー/トランスミッター(universal asynchronous receiver/transmitter,UART)インターフェース、モバイル・インダストリー・プロセッサー・インターフェース(mobile industry processor interface,MIPI)、汎用入出力(general-purpose input/output,GPIO)インターフェース、及び/又はユニバーサルシリアルバス(universal serial bus,USB)インターフェースなどを含んでよい。
本願の実施例に示される各モジュール同士のインターフェースの接続関係は、模式的な説明だけであるが、画像処理装置の構成を限定するものではない。本願の他の実施例において、画像処理装置は、上記の実施例とは異なるインターフェース接続形態、又は複数種類のインターフェース接続形態の組み合わせを採用してもよい。
電源管理モジュール240は、外部電源に接続され、外部電源から入力される電力を受け、プロセッサ210、内部メモリ221、外部メモリ及びディスプレー250などに電力を供給する。
画像処理装置は、GPUやディスプレー250等により表示機能を実現する。GPUは、画像処理用のマイクロプロセッサであり、ディスプレー250に接続されている。プロセッサ210は、表示情報を生成又は変更するようにプログラム命令を実行する1つ又は複数のGPUを含んでよい。
ディスプレー250は、画像およびビデオ等を表示する。ディスプレー250は、表示パネルを備える。表示パネルには、液晶ディスプレイスクリーン(liquid crystal display,LCD)、有機発光ダイオード(organic light-emitting diode,OLED)、アクティブマトリックス有機発光ダイオード(active-matrix organic light emitting diode,AMOLED)、フレキシブル発光ダイオード(flex light-emitting diode,FLED)、Miniled、MicroLed、Micro-oLed、量子ドット発光ダイオード(quantum dot light emitting diodes,QLED)などを採用してよい。いくつかの実施例において、画像処理装置は、1つ又は複数のディスプレー250を備えてよい。例えば、本願の実施例において、ディスプレー250は、対象画像のような関連画像又はビデオを表示するために用いられてよい。
デジタル信号プロセッサは、デジタル信号を処理するためのものであり、デジタル画像信号に加えて、他のデジタル信号も処理することができる。例えば、画像処理装置による周波数点の選択のとき、デジタル信号プロセッサは、周波数点エネルギーに対してフーリエ変換などを行う。
ビデオコーデックは、デジタルビデオを圧縮又は伸長するためのものである。画像処理装置は、1種又は複数種のビデオコーデックに対応することができる。このように、画像処理装置は、動画専門家集団(moving picture experts group,MPEG)1、MPEG2、MPEG3、MPEG4など、複数種類の符号化フォーマットのビデオを再生又は録画することができる。
NPUは、生体ニューラルネットワーク構造、例えば人間の脳のニューロン間の伝達モードを参考にすることで、入力情報を迅速に処理するとともに、継続的な自己学習を行うこともできるニューラルネットワーク(neural-network,NN)演算プロセッサである。例えば画像識別、顔識別、音声識別、テキスト理解など画像処理装置の知的認知などへの応用は、NPUによって実現することができる。
外部メモリインターフェース220は、画像処理装置の記憶機能を実現するために、例えばリムーバブルハードディスクのような外部メモリカードに接続される。外部メモリカードは、外部メモリインターフェース220を介してプロセッサ210と通信することで、データ記憶機能を実現する。例えば、本願の実施例において、画像又はビデオが外部メモリカードに記憶されて、画像処理装置のプロセッサ210が、外部メモリカードに記憶された画像を外部メモリインターフェース220を介して取得することができる。
内部メモリ221は、命令を含むコンピュータで実行可能なプログラムコードを記憶してよい。プロセッサ210は、内部メモリ221に記憶されている命令を実行することによって、画像処理装置の種々の機能アプリケーション及びデータ処理を実行する。内部メモリ221は、プログラム記憶領域とデータ記憶領域とを含んでよい。ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば、画像再生機能)などを記憶することができる。データ記憶領域は、画像処理装置の使用中に作成されたデータ(例えば画像)などを記憶することができる。なお、内部メモリ221は、高速ランダムアクセスメモリを含んでもよく、例えば少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、ユニバーサルフラッシュストレージ(universal flash storage,UFS)などの不揮発性メモリを含んでもよい。例えば、本願の実施例において、内部メモリ221は、カメラから送信されネットワーク通信モジュール250を介して画像処理装置で受信されたマルチフレームの画像又はビデオを記憶してよい。
本願の実施例に係る発明を応用することにより、被処理画像を使用して歩行者画像ライブラリを検索して、歩行者画像ライブラリ内、被処理画像に含まれる人物オブジェクトにマッチングする人物オブジェクトの画像を決定することができる(以下、互いにマッチングする人物オブジェクトを同一の身元である人物オブジェクトという)。例えば、被処理画像に人物オブジェクトAが含まれている場合、本願の実施例に係る発明を応用することにより、歩行者画像ライブラリ内の1枚又は複数枚の対象画像に含まれる人物オブジェクトと人物オブジェクトAが、同一の身元ものであると決定される。
本願の実施例に係る発明は、セキュリティ保護分野に応用できる。セキュリティ保護分野への応用シーンでは、画像処理装置はサーバであってよく、サーバは1つ又は複数のカメラに接続され、各カメラでリアルタイムに収集したビデオストリームを取得することができる。収集したビデオストリームの画像のうち人物オブジェクトを含む画像は、歩行者画像ライブラリを構築するように用いられる。管理者は、被処理画像を使用して歩行者画像ライブラリを検索して、被処理画像に含まれる人物オブジェクト(以下、対象人物オブジェクト)と同一の身元である人物オブジェクトの対象画像を取得し、対象画像によって、対象人物オブジェクトを追跡するという効果を達成できる。例えば、場所Aで強盗事件が発生し、目撃者の李四は容疑者の画像aを警察に提供しており、警察は画像aを使用して歩行者画像ライブラリを検索して、容疑者が含まれる画像をすべて取得することができる。歩行者画像ライブラリ内の、容疑者が含まれる画像をすべて取得した後、警察はこれら画像の情報に基づいて容疑者の追跡・逮捕を行うことができる。
以下、本願の実施例の図面を参照して本願の実施例に係る発明を詳しく説明する。
図2は、本願の第1実施例に係る画像処理方法のフロー模式図である。本実施例は、上記の画像処理装置によって実行されるものである。
201では、被処理画像を取得する。
本願の実施例において、被処理画像は、人物オブジェクトを含み、ここでは、被処理画像は、胴体及び手足(以下、胴体及び手足を人体という)を含まず、顔のみを含んでよく、人体のみを含んでもよく、人体を含まなくてもよく、下肢又は上肢のみを含んでもよい。本願では、被処理画像に含まれる人体領域については限定しない。
被処理画像を取得する態様は、ユーザがキーボード、マウス、タッチスクリーン、タッチパッド及び音声入力デバイスなどの入力モジュールで入力した被処理画像を受信する態様であってよい。、携帯電話、コンピュータ、タブレット、サーバなどの端末から送信された被処理画像を受信する態様であってもよい。
202では、当該被処理画像に対して符号化処理を行い、当該被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを対象確率分布データとして得る。
本願の実施例において、被処理画像に対する符号化処理は、被処理画像に対して特徴抽出処理と非線形変換を行うことで行われる。選択的には、特徴抽出処理は、畳み込み処理であってもよく、プーリング処理であってもよく、ダウンサンプリング処理であってもよく、畳み込み処理、プーリング処理及びダウンサンプリング処理のうちのいずれか1つ又は複数の組み合わせであってもよい。
被処理画像に対して特徴抽出処理を行うことによって、被処理画像の情報を含む特徴ベクトル、即ち第1の特徴データを得ることができる。
可能な一実現形態では、深層ニューラルネットワークにより被処理画像に対して特徴抽出処理を行うことによって第1の特徴データを得ることができる。当該深層ニューラルネットワークは複数の畳み込み層を含み、被処理画像に含まれる内容の情報を抽出する能力を持つようにトレーニングされている。深層ニューラルネットワークに含まれる複数の畳み込み層により被処理画像に対して畳み込み処理を行うことで、被処理画像に含まれる内容の情報を抽出して第1の特徴データを得ることができる。
本願の実施例において、人物オブジェクトの特徴は、人物オブジェクトの身元を識別するためのものであり、人物オブジェクトの衣装属性、外見特徴及び変化特徴を含む。衣装属性には、人体を飾るための全ての物品の特徴のうち少なくとも1つ(例えば、上着の色、ズボンの色、ズボンの長さ、帽子のスタイル、靴の色、傘をさしているか否か、バッグの種類、マスクつけの有無、マスクの色)が含まれる。外見特徴には、体型、性別、髪型、髪の色、年齢層、眼鏡をかけているか否か、胸の前に何かを抱えているか否かが含まれる。変化特徴には、姿勢、画角、歩幅が含まれる。
例(例1)を挙げると、上着の色又はズボンの色又は靴の色又は髪の色のカテゴリには、黒色、白色、赤色、オレンジ、黄色、緑色、青色、紫色、ブラウンが含まれる。ズボンの長さのカテゴリには、長ズボン、ショートパンツ、ドレスが含まれる。帽子のスタイルのカテゴリには、帽子なし、ベースボールキャップ、ピークキャップ、フラットブリムハット、バケットハット、ベレー帽、シルクハットが含まれる。傘をさしいているか否かのカテゴリには、傘をさしいていること及び傘をさしいていないことが含まれる。髪型のカテゴリには、ショルダーレングスのヘア、ショートヘア、シェイブドヘッド、ハゲが含まれる。姿勢のカテゴリには、ライディング姿勢、立位姿勢、ウォーキング姿勢、ランニング姿勢、寝姿勢、仰臥姿勢が含まれる。画角とは、画像における人物オブジェクトの正面のカメラに対する角度を指す。画角のカテゴリには、正面、側面、および背面が含まれる。歩幅とは、人物オブジェクトのウォーキング時の歩幅の大きさを指し、歩幅の大きさは0.3m、0.4m、0.5m、0.6mなどの距離で表される。
第1の特徴データに対して第1の非線形変換を行うことによって、被処理画像における人物オブジェクトの特徴の確率分布データである対象確率分布データを得ることができる。人物オブジェクトの特徴の確率分布データは、当該人物オブジェクトが異なる特徴を持つ確率、又は異なる特徴で現れる確率を表す。
例1に続く例(例2)を挙げると、人物aは青い上着をよく着用している場合、人物aの特徴の確率分布データにおいて、上着の色が青色である確率値が大きく(例えば0.7)、上着の色が他の色である確率値が小さい(例えば、上着の色が赤色である確率値は0.1、上着の色が白色である確率値は0.15である)。人物bはよく自転車に乗るが、歩くことが少ない場合、人物bの特徴の確率分布データにおいて、ライディング姿勢は他の姿勢よりも確率値が大きい(例えば、ライディング姿勢の確率値は0.6、立位姿勢の確率値は0.1、ウォーキング姿勢の確率値は0.2、寝姿勢の確率値は0.05である)。カメラで撮像された人物cの画像のうち背面の画像が多い場合、人物cの特徴の確率分布データにおいて、画角のカテゴリが背面である確率値は、正面である確率値及び側面である確率値よりも大きい(例えば、背面の確率値は0.6、正面の確率値は0.2、側面の確率値は0.2である)。
本願の実施例において、人物オブジェクトの特徴の確率分布データは、多次元のデータを含み、全ての次元のデータは同一の分布に従い、各次元のデータには、すべての特徴情報が含まれ、すなわち、各次元のデータには、人物オブジェクトが上記のいずれか1つの特徴を有する確率および人物オブジェクトが異なる特徴で現れる確率が含まれている。
例2に続く例(例3)を挙げると、人物cの特徴の確率分布データには2次元のデータが含まれており、図3には第1の次元のデータを示し、図4には第2の次元のデータを示すとする。第1の次元のデータのa点は、人物cが白い上着を着用している確率が0.4、人物cが黒いズボンを着用している確率が0.7、人物cが長ズボンを着用している確率が0.7、人物cが帽子をかぶっていない確率が0.8、人物cの靴の色が黒色である確率が0.7、人物cが傘をさしていない確率が0.6、人物cがバッグを手持ちしていない確率が0.3、人物cがマスクをつけていない確率が0.8、人物cが正常な体型である確率が0.6、人物cが男性である確率が0.8、人物cの髪型がショートヘアである確率が0.7、人物cの髪色が黒色である確率が0.8、人物cの年齢が30~40歳である確率が0.7、人物cが眼鏡をかけていない確率0.4、人物cが胸の前に何かを抱えている確率が0.2、人物cがウォーキング姿勢で現れる確率が0.6、人物cが現れる画角が背面である確率が0.5、人物cの歩幅が0.5mである確率が0.8であることを意味している。図4には第2の次元のデータを示す。第2の次元のデータのb点は、人物cが黒い上着を着用している確率が0.4、人物cが白いズボンを着用している確率が0.1、人物cがショートパンツを着用している確率が0.1、人物cが帽子をかぶっている確率が0.1、人物cの靴の色が白色である確率が0.1、人物cが傘をさしている確率が0.2、人物cがバッグを手持ちしている確率が0.5、人物cがマスクをつけている確率が0.1、人物cが痩せ型の体型である確率が0.1、人物cが女性である確率が0.1、人物cの髪型がロングヘアである確率が0.2、人物cの髪色が金色である確率が0.1、人物cの年齢が20~30歳である確率が0.2、人物cが眼鏡をかけている確率が0.5、人物cが胸の前に何かを抱えていない確率が0.3、人物cがライディング姿勢で現れる確率が0.3、人物cが現れる画角が側面である確率が0.2、人物cの歩幅が0.6mである確率が0.1であることを意味している。
例3から分かるように、各次元のデータには人物オブジェクトの全ての特徴情報が含まれているが、異なる次元のデータに含まれる特徴情報の内容は異なり、これは異なる特徴の確率値が異なるものであると表している。
本願の実施例において、各人物オブジェクトの特徴の確率分布データには多次元のデータが含まれており、かつ各次元のデータには人物オブジェクトのすべての特徴情報が含まれているが、各次元のデータで記述された特徴には重要視される点が異なっている。
例2に続く例(例4)を挙げると、人物bの特徴の確率分布データに100次元のデータが含まれているとして、前の20次元のデータのそれぞれにおいて、各次元に含まれる情報に占める衣装属性の情報の割合が、外見特徴と変化特徴の割合よりも高いので、前の20次元のデータは、人物bの衣装属性の記述に重点を置くものである。第21~50の次元のデータのそれぞれにおいて、各次元に含まれる情報に占める外見特徴の情報の割合が、衣装属性と変化特徴の割合よりも高いので、第21~50の次元のデータは、人物bの外見特徴の記述に重点を置くものである。第50~100の次元のデータのそれぞれにおいて、各次元に含まれる情報に占める変化特徴の情報の割合が、衣装属性と外見特徴の割合よりも高いので、第50~100の次元のデータは、人物bの外見特徴の記述に重点を置くものである。
可能な一実現形態では、第1の特徴データに対して符号化処理を行うことによって、対象確率分布データを得ることができる。対象確率分布データは、被処理画像における人物オブジェクトが異なる特徴を持つ確率又は異なる特徴で現れる確率を表すことができるとともに、対象確率分布データに含まれる特徴の全ては、被処理画像における人物オブジェクトの身元を識別するために利用できる。上記の符号化処理は非線形処理である。選択的には、全結合層(fully connected layer,FCL)の処理と活性化処理を含んでもよく、畳み込み処理によって実現されてもよく、プーリング処理によって実現されてもよいが、本願では特に限定しない。
203では、当該対象確率分布データを用いてデータベースを検索して、データベース内の、当該対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得する。
本願の実施例において、上記のように、データベースには歩行者画像ライブラリが含まれ、歩行者画像ライブラリの各画像(以下、歩行者ライブラリ内の画像を参照画像という)の平均データには1つの人物オブジェクトが含まれている。なお、データベースには、歩行者画像ライブラリ内の各画像における人物オブジェクト(以下、参照人物オブジェクトという)の確率分布データ(以下、参照確率分布データという)がさらに含まれ、つまり、歩行者画像ライブラリ内の各画像は、1つの確率分布データを有している。
上記のように、各人物オブジェクトの特徴の確率分布データは多次元のデータを含み、かつ異なる次元のデータにより記述される特徴には注目点が異なっている。本願の実施例において、参照確率分布データの次元数と対象確率分布データの次元数とは同じであって、かつ同じ次元で記述される特徴は同じである。
例を挙げると、対象確率分布データと参照確率分布データは、いずれも1024次元のデータが含まれている。対象確率分布データと参照確率分布データにおいて、第1の次元のデータ、第2の次元のデータ、第3の次元のデータ、・・・、第500の次元のデータは、いずれも衣装属性の記述に重点を置くものであり、第501の次元のデータ、第502の次元のデータ、第503の次元のデータ、・・・、第900の次元のデータは、いずれも外見特徴の記述に重点を置くものであり、第901の次元のデータ、第902の次元のデータ、第903の次元のデータ、...第1024の次元のデータは、いずれも変化特徴の記述に重点を置くものである。
対象確率分布データと参照確率分布データのうち同じ次元に含まれる情報の類似度に基づいて、対象確率分布データと参照確率分布データとの類似度を決定することができる。
可能な一実現形態では、対象確率分布データと参照確率分布データとの間のワッサースタイン距離(wasserstein metric)を算出することにより、対象確率分布データと参照確率分布データとの類似度を決定することができる。ここで、wasserstein metricが小さいほど、対象確率分布データと参照確率分布データとの類似度が高い。
別の可能な一実現形態では、対象確率分布データと参照確率分布データとの間のユークリッド距離(euclidean)を算出することにより、対象確率分布データと参照確率分布データとの類似度を決定することができる。ここで、euclideanが小さいほど、対象確率分布データと参照確率分布データとの類似度が高い。
別の可能な一実現形態では、対象確率分布データと参照確率分布データとのJSダイバジェンス(Jensen-Shannon divergence)を算出することにより、対象確率分布データと参照確率分布データとの類似度を決定することができる。ここで、JSダイバジェンスが小さいほど、対象確率分布データと参照確率分布データとの類似度が高い。
対象確率分布データと参照確率分布データとの類似度が高いほど、対象人物オブジェクトと参照人物オブジェクトが同一の身元である確率が高い。そのため、対象確率分布データと、歩行者画像ライブラリ内の各画像の確率分布データとの類似度に基づいて、対象画像を決定することができる。
選択的には、対象確率分布データと参照確率分布データとの類似度を、対象人物オブジェクトと参照人物オブジェクトとの類似度とし、さらに類似度が類似度閾値以上である参照画像を対象画像とする。
例えば、歩行者画像ライブラリには、a、b、c、d、eの3枚の参照画像が含まれている。aの確率分布データと対象確率分布データとの類似度は78%、bの確率分布データと対象確率分布データとの類似度は92%、cの確率分布データと対象確率分布データとの類似度は87%、dの確率分布データと対象確率分布データとの類似度は67%、eの確率分布データと対象確率分布データとの類似度は81%である。類似度閾値が80%であるとすれば、類似度閾値以上の類似度は92%、87%、81%であり、類似度92%の画像はb、類似度87%の画像はc、類似度81%の画像はeであるため、b、c、eが対象画像である。
選択的には、取得した対象画像が複数枚ある場合、ユーザが対象画像の類似度に基づいて対象人物オブジェクトの身元を決定するように、類似度に基づいて対象画像の信頼度を決定し、信頼度の高い順に対象画像をソートすることができる。ここで、対象画像の信頼度は、類似度に正の相関関係がある。対象画像の信頼度は、対象画像における人物オブジェクトと対象人物オブジェクトが同一の身元である信頼度を表す。例を挙げると、対象画像は、a,b,cの3枚あり、aの参照人物オブジェクトと対象人物オブジェクトとの類似度は90%、bの参照人物オブジェクトと対象人物オブジェクトとの類似度は93%、cの参照人物オブジェクトと対象人物オブジェクトとの類似度は88%であるとすると、aの信頼度を0.9、bの信頼度を0.93、cの信頼度を0.88に設定することができる。信頼度に従って対象画像をソートしたシーケンスは、b→a→cとなる。
本願の実施例に係る発明によって得られる対象確率分布データには、被処理画像における人物オブジェクトの複数種の特徴情報が含まれている。
例を挙げると、図5を参照して、第1の特徴データにおいて、第1の次元のデータがaであり、第2の次元のデータがbであり、かつaに含まれる情報が、被処理画像における人物オブジェクトが異なる姿勢で現れる確率を記述するためのものであり、bに含まれる情報が、被処理画像における人物オブジェクトが異なる色の上着を着用している確率を記述するためのものであるとする。本実施例に係る方法によって第1の特徴データを符号化処理して、対象確率分布が得られる。結合確率分布データcは、aとbに基づいて得られ、つまり、aにおける任意の1つのポイントとbにおける任意の1つのポイントに基づいて、cにおける任意の1つのポイントが決定され、さらに、被処理画像における人物オブジェクトが異なる姿勢で現れる確率と異なる色の上着を着用している確率両方とも記述することができる確率分布データは、cにおけるポイントに基づいて得られる。
被処理画像の特徴ベクトル(即ち第1の特徴データ)において、変化特徴が衣装属性及び外見特徴に含まれると理解されるべきであり、つまり、第1の特徴データと参照画像の特徴ベクトルとの類似度に基づいて対象人物オブジェクトと参照人物オブジェクトとが同一の身元であるか否かを決定するときには、変化特徴に含まれる情報は利用されていない。
例を挙げると、画像aにおいて、人物オブジェクトaが青い上着を着用し、ライディング姿勢で現れかつ正面画角であるが、画像bにおいて、人物オブジェクトaが青い上着を着用し、立位姿勢で現れかつ背面画角である場合を想定している。画像aの特徴ベクトルと画像bの特徴ベクトルとの一致度合いに基づいて、画像aにおける人物オブジェクトと画像bにおける人物オブジェクトが同一の身元であるか否かを識別する場合、人物オブジェクトの姿勢情報と画角情報を利用せず、衣装属性(即ち青い上着)のみを用いる。あるいは、画像aにおける人物オブジェクトの姿勢情報及び画角情報と画像bにおける姿勢情報及び画角情報とが大きく異なるため、画像aの特徴ベクトルと画像bの特徴ベクトルとの一致度合いに基づいて画像aにおける人物オブジェクトと画像bにおける人物オブジェクトが同一の身元であるか否かを識別するとき、人物オブジェクトの姿勢情報と画角情報を利用すれば、識別確度を低下させる(例えば、画像aにおける人物オブジェクトと画像bにおける人物オブジェクトは、同一の身元ではない人物オブジェクトであると識別される)。
これに対して、本願の実施例に係る発明は、第1の特徴データに対して符号化処理を行い、対象確率分布データを得ることによって、変化特徴は、衣装属性及び外見特徴からデカップリングされることを実現している(例えば、例4に説明されたように、異なる次元のデータで記述される特徴には重要視される点が異なっている)。
対象確率分布データと参照確率分布データ両方に変化特徴が含まれているため、対象確率分布データと参照確率分布データのうち、同じ次元に含まれる情報の類似度に基づいて対象確率分布データと参照確率分布データとの類似度を決定するときに、変化特徴に含まれる情報を利用することになる。つまり、本願の実施例において、対象人物オブジェクトの身元を決定するときに、変化特徴に含まれる情報を利用している。本願の実施例に係る発明は、衣装属性と外見特徴に含まれる情報に加えて、変化特徴に含まれる情報も用いて対象人物オブジェクトの身元を決定することによって、対象人物オブジェクトの身元を識別する確度を向上させることができる。
本実施例は、被処理画像に対して特徴抽出処理を行って、被処理画像における人物オブジェクトの特徴情報が抽出され、第1の特徴データが得られる。さらに第1の特徴データに基づいて、被処理画像における人物オブジェクトの特徴の対象確率分布データを得ることによって、第1の特徴データのうちの変化特徴に含まれる情報が衣装属性及び外見特徴からデカップリングされることを実現している。このように、対象確率分布データとデータベース内の参照確率分布データとの類似度を決定するプロセスでは、変化特徴に含まれる情報を利用することができ、さらに当該類似度に基づいて被処理画像における人物オブジェクトと同一の身元である人物オブジェクトを含む画像を決定する確度、即ち被処理画像における人物オブジェクトの身元を識別する確度を向上させることができる。
上記のように、本願の実施例に係る発明は、第1の特徴データに対して符号化処理を行うことによって対象確率分布データを得るものであり、次には対象確率分布データを得る方法を詳しく説明する。
図6は、本願の第2実施例における、202についての可能な一実現形態のフロー模式図である。
601では、当該被処理画像に対して特徴抽出処理を行い、第1の特徴データを得る。
202を参照してよいが、ここでは詳細な説明を省略する。
602では、当該第1の特徴データに対して第1の非線形変換を行い、対象確率分布データを得る。
前述の特徴抽出処理ではデータから複雑なマッピングを学習する能力が低く、つまり特徴抽出処理だけでは例えば確率分布データのような複雑なデータを処理できない。従って、確率分布データなどの複雑なデータを処理するように、第1の特徴データに対して第2の非線形変換を行って、第2の特徴データを得る必要がある。
可能な一実現形態では、FCLと非線形活性化関数により第1の特徴データを順次処理することにより、第2の特徴データを得ることができる。上記の非線形活性化関数は、正規化線形関数(rectified linear unit, ReLU)であってよい。
別の可能な一実現形態では、第1の特徴データに対して畳み込み処理とプーリング処理を順次行うことにより、第2の特徴データを得ることができる。畳み込み処理プロセスでは、第1の特徴データに対して畳み込み処理を行い、即ち畳み込みカーネルを第1の特徴データ上でスライドさせるとともに、第1の特徴データの要素の値のそれぞれを畳み込みカーネルのすべての要素の値と乗算し、その後、乗算したすべての積との和を当該要素の値とし、最終的に符号化層の入力データのすべての要素に対してスライド処理を終了して、畳み込み処理後のデータが得られる。プーリング処理は、平均プーリングまたは最大プーリングであってよい。一例では、畳み込み処理で得られたデータのサイズをh*wとし、ここで、h及びwがそれぞれ畳み込み処理で得られたデータの長さと幅を表す。第2の特徴データの目標寸法がH*W(Hは長さ、Wは幅)の場合、当該畳み込み処理で得られたデータをH*W個のグリッドに分割し、各グリッドの寸法は(h/H)*(w/W)となる。そして、各グリッド内の画素の平均値又は最大値を算出して、目標寸法を有する第2の特徴データが得られる。
非線形変換前のデータと非線形変換後のデータは1対1のマッピング関係にあるため、第2の特徴データに対して直接非線形変換を行うと、特徴データしか得られず、確率分布データを得ることができない。このように第2の特徴データに対して非線形変換して得られた特徴データにおいて、変化特徴が衣装属性及び外見特徴に含まれ、衣装属性及び外見特徴からデカップリングすることはできない。
従って、本実施例において、第2の特徴データに対して第3の非線形変換を行い、第1の処理結果を平均データとして得るとともに、第2の特徴データに対して第4の非線形変換を行い、第2の処理結果を分散データとして得る。さらに当該平均データと当該分散データとに基づいて確率分布データ、即ち対象確率分布データを決定することができる。
上記の第3の非線形変換及び第4の非線形変換両方は、全結合層によって実現されてよい。
本実施例において、第1の特徴データに対して非線形変換を行って平均データと分散データが得られ、平均データと分散データにより対象確率分布データが得られる。
第1実施例及び第2実施例では、被処理画像における人物オブジェクトの特徴の確率分布を得る方法について説明しており、本願の実施例は、第1実施例及び第2実施例の方法を実現するための確率分布データ生成ネットワークをさらに提供する。図7は、本願の第3実施例に係る確率分布データ生成ネットワークの構成図である。
図7に示すように、本願の実施例に係る確率分布データ生成ネットワークは、深層畳み込みネットワークと歩行者再識別ネットワークとを含む。深層畳み込みネットワークは、被処理画像に対して特徴抽出処理を行って、被処理画像の特徴ベクトル(即ち第1の特徴データ)を得るものである。第1の特徴データは歩行者再識別ネットワークに入力され、順次に全結合層による処理と活性化層による処理により、第1の特徴データに対して非線形変換を行う。さらに、活性化層の出力データを処理することにより、被処理画像における人物オブジェクトの特徴の確率分布データを得ることができる。上記の深層畳み込みネットワークは複数の畳み込み層を含み、上記の活性化層は例えばsigmoid、ReLUのような非線形活性化関数を含む。
歩行者再識別ネットワークが被処理画像の特徴ベクトル(第1の特徴データ)に基づいて対象確率分布データを得る能力は、トレーニングを通じて習得されたので、活性化層の出力データを直接処理して対象出力データを得る場合、歩行者再識別ネットワークは、活性化層の出力データから対象出力データへの1対1のマッピング関係までトレーニングを通じて習得することしかできない。このように、得られた対象出力データから対象確率分布データを得ることができず、即ち対象出力データから特徴ベクトル(以下、対象特徴ベクトルという)しか得られない。この対象特徴ベクトルにおいても、変化特徴は衣装属性と外見特徴に含まれるものであり、対象特徴ベクトルと参照画像の特徴ベクトルとの類似度に基づいて、対象人物オブジェクトと参照人物オブジェクトが同一の身元であるか否かを決定するときにも、変化特徴に含まれる情報は利用されることはない。
上記を踏まえて、本願の実施例に係る歩行者再識別ネットワークは、平均データと分散データを得るように平均データの全結合層と分散データの全結合層により活性化層の出力データをそれぞれ処理する。このようにして、歩行者再識別ネットワークは、トレーニング中で、活性化層の出力データから平均データへのマッピング関係および活性化層の出力データから分散データへのマッピング関係まで習得して、さらに平均データと分散データに基づいて対象確率分布データを得るようにする。
第1の特徴データに基づいて対象確率分布データを得ることにより、変化特徴が衣装属性及び外見特徴からデカップリングされることを実現しており、さらに対象人物オブジェクトと参照人物オブジェクトが同一の身元であるか否かを決定するとき、変化特徴に含まれる情報により、対象人物オブジェクトの身元を識別する確度を向上させることができる。
歩行者再識別ネットワークで第1の特徴データを処理して対象特徴データを得ることによって、被処理画像の特徴ベクトルに基づいて対象人物オブジェクトの特徴の確率分布データを得ることを実現している。対象確率分布データには対象人物オブジェクトの特徴情報の全てが含まれているが、被処理画像には対象人物オブジェクトの特徴情報の一部しか含まれていないからである。
例(例4)を挙げると、図8に示す被処理画像において、対象人物オブジェクトaは、クエリマシンの前で情報を検索しており、当該被処理画像における対象人物オブジェクトの特徴には、オフホワイトのシルクハット、黒いロングヘア、白いロングドレス、白いハンドバッグを手持ちすること、マスクつけていないこと、オフホワイトの靴、通常の体型、女性、20~25歳、眼鏡なし、立位姿勢、および側面画角を含む。本願の実施例に係る歩行者再識別ネットワークにより当該被処理画像の特徴ベクトルを処理することによって、aの特徴の確率分布データが得られ、aの特徴の確率分布データには、aの特徴情報が全て含まれている。aの特徴情報としては、例えば、aが帽子をかぶっていない確率、aが白い帽子をかぶっている確率、aが灰色のフラットブリムハットをかぶっている確率、aがピンクの上着を着用している確率、aが黒いズボンを着用している確率、aが白い靴を履いている確率、aが眼鏡をかけている確率、aがマスクをつけている確率、aがバッグを手持ちしていない確率、aが痩せ型の体型である確率、aが女性である確率、aの年齢が25~30歳である確率、aがウォーキング姿勢で現れる確率、aが正面画角で現れる確率、aの歩幅が0.4mである確率などである。
つまり、歩行者再識別ネットワークは、いずれか1枚の被処理画像に基づいて当該被処理画像における対象人物オブジェクトの特徴の確率分布データを得る能力を持ち、「特別」(即ち、対象人物オブジェクトの特徴情報の一部)から「一般」(即ち、対象人物オブジェクトの特徴情報のすべて)への予測を実現しており、対象人物オブジェクトの特徴情報のすべてをわかると、これらの特徴情報を利用して対象人物オブジェクトの身元を正確に識別することができる。
歩行者再識別ネットワークが持つ上記の予測能力は、トレーニングを通じて習得されるものである。以下、歩行者再識別ネットワークのトレーニングプロセスを詳細に説明する。
図9は、本願の第4実施例に係る歩行者再識別トレーニングネットワークを示し、当該トレーニングネットワークは、第4実施例に係る歩行者再識別ネットワークをトレーニングするためのものである。本実施例において、深層畳み込みネットワークは、予めトレーニングされたものであり、後続の歩行者再識別トレーニングネットワークのパラメータの調整のプロセスで、深層畳み込みネットワークのパラメータを更新しないと理解すべきである。
図9に示すように、歩行者再識別ネットワークは、深層畳み込みネットワーク、歩行者再識別ネットワーク及びデカップリングネットワークを含む。トレーニング用のサンプル画像が深層畳み込みネットワークに入力されて、サンプル画像の特徴ベクトル(即ち、第3の特徴ベクトル)が得られ、歩行者再識別ネットワークにより第3の特徴データを処理して第1のサンプル平均データと第1のサンプル分散データが得られ、第1のサンプル平均データと第1のサンプル分散データがデカップリングネットワークの入力として利用される。さらに、デカップリングネットワークにより第1のサンプル平均データと第1のサンプル分散データを処理して、第1の損失、第2の損失、第3の損失、第4の損失、及び第5の損失が得られ、上記の5つの損失に基づいて歩行者再識別トレーニングネットワークのパラメータを調整する、つまり、上記の5つの損失に基づいて歩行者再識別トレーニングネットワークに対して勾配逆伝播を行って歩行者再識別トレーニングネットワークのパラメータを更新することで、歩行者再識別ネットワークのトレーニングを完成させる。
歩行者再識別ネットワークに勾配を円滑に逆伝播するために、まず、歩行者再識別トレーニングネットワーク全体が微分可能性を持つことを確保する必要があるため、デカップリングネットワークは、先に、第1の所定確率分布データに従う第1のサンプル確率分布データを得るように第1のサンプル平均データと第1のサンプル分散データからサンプリングすることであり、ここでは、第1の所定確率分布データが連続的確率分布データであると、第1のサンプル確率分布データが連続的確率分布データとなる。このようにして、歩行者再識別ネットワークに勾配を逆伝播することができる。第1の所定確率分布データは、ガウス分布であってよい。
可能な一実現形態では、パラメータリサンプリング法により第1のサンプル平均データと第1のサンプル分散データからサンプリングして第1の所定確率分布データに従う第1のサンプル確率分布データが得られる。すなわち、第1のサンプル分散データと所定確率分布データとを乗算して第5の特徴データが得られ、第5の特徴データと上記の第1のサンプル平均データとの和が上記の第1のサンプル確率分布データとして求められる。所定確率分布データは、正規分布であってよい。
上記の可能な一実現形態では、第1のサンプル平均データ、第1のサンプル分散データ及び所定確率分布データに含まれるデータの次元数は同じであり、かつ第1のサンプル平均データ、第1のサンプル分散データ及び所定確率分布データのいずれにも多次元のデータが含まれている場合、第1のサンプル分散データに含まれるデータが、所定確率分布データのうちの同じ次元のデータと乗算され、乗算された結果が第1のサンプル平均データのうちの同じ次元のデータと加算され、第1のサンプル確率分布データのうちの1次元のデータが得られることを理解すべきである。
例を挙げると、第1のサンプル平均データ、第1のサンプル分散データ及び所定確率分布データのいずれにも2次元のデータが含まれている場合、第1のサンプル平均データのうちの第1の次元のデータと、所定確率分布データのうちの第1の次元のデータとを乗算して第1の乗算データが得られ、さらに第1の乗算データを第1のサンプル分散データのうちの第1の次元のデータと加算して、第1の次元の結果データが得られる。第1のサンプル平均データのうちの第2の次元のデータと、所定確率分布データのうちの第2の次元のデータとを乗算して第2の乗算データが得られ、さらに第2の乗算データを第1のサンプル分散データのうちの第2の次元のデータと加算して、第2の次元の結果データが得られる。さらに、第1の次元の結果データと第2の次元の結果データとに基づいて、第1のサンプル確率分布データが得られる。第1のサンプル確率分布データのうちの第1の次元のデータは第1の次元の結果データであり、第1の次元のデータは第1の次元の結果データである。
そして、デコーダにより第1のサンプル確率分布データに対して復号化処理を行って、1つの特徴ベクトル(第6の特徴データ)を得る。復号化処理は、逆畳み込み処理、バイリニア補間処理、逆プーリング処理のうちいずれか1つであってよい。
そして、第3の特徴データと第6の特徴データとの差に基づいて、第1の損失を決定する。ここで、第3の特徴データと第6の特徴データとの差は、第1の損失に正の相関関係がある。第3の特徴データと第6の特徴データとの差が小さいほど、第3の特徴データで表される人物オブジェクトの身元と、第6の特徴データで表される人物オブジェクトの身元との差が小さいことを示す。第6の特徴データは、第1のサンプル確率分布データに対して復号化処理を行って得られたものであるため、第6の特徴データと第3の特徴データとの差が小さいほど、第1のサンプル確率分布データで表される人物オブジェクトの身元と、第3の特徴データで表される人物オブジェクトの身元との差が小さいことを示す。第1のサンプル平均データと第1のサンプル分散データからサンプリングした第1のサンプル確率分布データに含まれる特徴情報と、第1のサンプル平均データおよび第1のサンプル分散データに基づいて決定された確率分布データに含まれる特徴情報とが同じであり、つまり、第1のサンプル確率分布データで表される人物オブジェクトの身元と、第1のサンプル平均データおよび第1のサンプル分散データに基づいて決定された確率分布データで表される人物オブジェクトの身元とは同じである。従って、第6の特徴データと第3の特徴データとの差が小さいほど、第1のサンプル平均データおよび第1のサンプル分散データに基づいて決定された確率分布データで表される人物オブジェクトの身元と、第3の特徴データで表される人物オブジェクトの身元との差が小さく、さらに、歩行者再識別ネットワークが平均データの全結合層により活性化層の出力データを処理して得られた第1のサンプル平均データおよび分散データの全結合層により活性化層の出力データを処理して得られた第1のサンプル分散データで表される人物オブジェクトの身元と、第3の特徴データで表される人物オブジェクトの身元との差が小さいことを示す。つまり、歩行者再識別ネットワークによりサンプル画像の第3の特徴データを処理することで、サンプル画像における人物オブジェクトの特徴の確率分布データが得られる。
可能な一実現形態では、第3の特徴データと第6の特徴データとの平均二乗誤差を算出することによって、第1の損失を決定することができる。
上記のように、歩行者再識別ネットワークは、第1の特徴データに基づいて対象人物オブジェクトの特徴の確率分布データを得るように、平均データの全結合層及び分散データの全結合層のそれぞれにより平均データ及び分散データを得て、平均データ及び分散データに基づいて対象確率分布データを決定するようにする。そのため、同一の身元である人物オブジェクトの平均データと分散データに基づいて決定された確率分布データ同士の差が小さいほど、かつ異なる身元である人物オブジェクトの平均データと分散データに基づいて決定された確率分布データ同士の差が大きいほど、対象確率分布データを用いて人物オブジェクトの身元を決定する効果がよい。従って、本実施例において、第4の損失によって、第1のサンプル平均データと第1のサンプル分散データに基づいて決定された人物オブジェクトの身元とサンプル画像のラベルデータとの差を評価し、第4の損失はこの差に正の相関関係がある。
可能な一実現形態では、以下の式によって第4の損失
Figure 0007165752000001
を算出することができる。
Figure 0007165752000002
ただし、dp(z)が、同一の人物オブジェクトを含むサンプル画像の第1のサンプル確率分布データ間の距離、dn(z)が、異なる人物オブジェクトを含むサンプル画像の第1のサンプル確率分布データ間の距離、αが1未満の正数である。α=0.3であってよい。
例を挙げると、トレーニングデータには10枚のサンプル画像が含まれ、これら5枚のサンプル画像のいずれにも1つの人物オブジェクトのみが含まれ、これら5枚のサンプル画像には異なる身元である3つの人物オブジェクトが含まれているとする。ここで、画像aと画像cに含まれる人物オブジェクトがともに張三、画像bと画像dに含まれる人物オブジェクトがともに李四、画像eに含まれる人物オブジェクトが王五である。画像aにおける張三の特徴の確率分布がA、画像bにおける李四の特徴の確率分布がB、画像cにおける張三の特徴の確率分布がC、画像dにおける李四の特徴の確率分布がD、画像eにおける王五の特徴の確率分布がEである。AとBの間の距離を算出し、ABと表記し、AとCの間の距離を算出し、ACと表記し、AとDの間の距離を算出し、ADと表記し、AとEの間の距離を算出し、AEと表記し、BとCの間の距離を算出し、BCと表記し、BとDの間の距離を算出し、BDと表記し、BとEの間の距離を算出し、BEと表記し、CとDの間の距離を算出し、CDと表記し、CとEの間の距離を算出し、CEと表記し、DとEの間の距離を算出し、DEと表記する。すると、dp(z)=AC+BD、dn(z)=AB+AD+AE+BC+BE+CD+CE+DEとなる。さらに、式(1)によって第4の損失を決定することができる。
第1のサンプル確率分布データが得られた後、さらに第1のサンプル確率分布データとサンプル画像のラベルデータに対してスティッチ処理を行い、スティッチしたデータをエンコーダに入力して符号化処理を行うことができ、ここでは、当該エンコーダの可能な構成は、歩行者再識別ネットワークを参照するのがよい。第1のサンプル確率分布データ内の身元情報を除去するようにスティッチしたデータを符号化処理することで、第2のサンプル平均データと第2のサンプル分散データが得られる。
上記のスティッチ処理は、第1のサンプル確率分布データとラベルデータをチャネル次元で重畳させる処理である。例を挙げると、図10に示すように、第1のサンプル確率分布データに3次元のデータが含まれ、ラベルデータに1次元のデータが含まれ、第1のサンプル確率分布データとラベルデータとをスティッチ処理したスティッチ後のデータには4次元のデータが含まれる。
上記の第1のサンプル確率分布データは、サンプル画像における人物オブジェクト(以下、サンプル人物オブジェクトという)の特徴の確率分布データであり、すなわち、第1のサンプル確率分布データにサンプル人物オブジェクトの身元情報が含まれ、第1のサンプル確率分布データ内のサンプル人物オブジェクトの身元情報は、当該第1のサンプル確率分布データにサンプル人物オブジェクトの身元というラベルが付けられたと理解すれてよい。第1のサンプル確率分布データ内のサンプル人物オブジェクトの身元情報の除去については、例5を参照してよい。例5において、サンプル画像における人物オブジェクトがbであり、第1のサンプル確率分布データには、例えば、bが帽子をかぶっていない確率、bが白い帽子をかぶっている確率、bが灰色のフラットブリムハットをかぶっている確率、bがピンクの上着を着用している確率、bが黒いズボンを着用している確率、bが白い靴を履いている確率、bが眼鏡をかけている確率、bがマスクをつけている確率、bがバッグを手持ちしていない確率、bが痩せ型の体型である確率、bが女性である確率、bの年齢が25~30歳である確率、bがウォーキング姿勢で現れる確率、bが正面画角で現れる確率、bの歩幅が0.4mである確率などのbの特徴情報が全て含まれている。第1のサンプル確率分布データ内のbの身元情報が除去された第2のサンプル平均データと第2のサンプル分散データに基づいて決定された確率分布データには、例えば、帽子をかぶっていない確率、白い帽子をかぶっている確率、灰色のフラットブリムハットをかぶっている確率、ピンクの上着を着用している確率、黒いズボンを着用している確率、白い靴を履いている確率、眼鏡をかけている確率、マスクをつけている確率、バッグを手持ちしていない確率、痩せ型の体型である確率、人物オブジェクトが女性である確率、年齢が25~30歳である確率、ウォーキング姿勢で現れる確率、正面画角で現れる確率、歩幅が0.4mである確率などの、bの身元情報が除去された特徴情報が全て含まれている。
サンプル画像のラベルデータは人物オブジェクトの身元の区別であってよいが、例えば、人物オブジェクトが張三であるラベルデータは1、人物オブジェクトが李四であるラベルデータは2、人物オブジェクトが王五であるラベルデータは3である。これらのラベルデータの値は連続的なものではなく、離散的でランダムなものであるため、ラベルデータを処理する前に、サンプル画像のラベルデータに対して符号化処理を行う必要があり、即ちラベルデータに対して符号化処理を行ってラベルデータの特徴をデジタル化する必要がある。可能な一実現形態では、ラベルデータに対してワンホット符号化処理(one-hot encoding)を行い、符号化処理したデータ即ちワンホット(one-hot)ベクトルが得られる。符号化処理したラベルデータが得られた後、さらに符号化処理したデータと第1のサンプル確率分布データに対してスティッチ処理を行い、スティッチした確率分布データが得られ、スティッチした確率分布データに対して符号化処理を行い、第2のサンプル確率分布データが得られる。
通常、人のいくつかの特徴には一定の関連性があることが多いであり、例(例6)を挙げると、男性は通常、ピンクの上着を着用する場合が少ないため、人物オブジェクトがピンクの上着を着用している場合、当該人物オブジェクトが男性である確率は低いが、女性である確率は高い。なお、歩行者再識別ネットワークは、トレーニング中ではより深い意味情報の習得ができる。例(例7)を挙げると、トレーニング用のトレーニングセットに、人物オブジェクトcの正面画角の画像、人物オブジェクトcの側面画角の画像及び人物オブジェクトcの背面画角の画像が含まれ、歩行者再識別ネットワークは、3つの異なる画角での人物オブジェクトの関連付けを習得することができる。このように、人物オブジェクトdが側面画角である画像を取得した場合、習得した関連付けによって、人物オブジェクトdが正面画角である画像、人物オブジェクトdが背面画角である画像を取得することができる。更なる例(例8)を挙げると、サンプル画像aにおける人物オブジェクトeが立位姿勢で現われ、人物オブジェクトeが正常の体型であり、サンプル画像bにおける人物オブジェクトfがウォーキング姿勢で現われ、人物オブジェクトfが正常の体型であり、人物オブジェクトfの歩幅は0.5mである。eがウォーキング姿勢で現れるデータもなく、eの歩幅のデータもないものの、aとbは体型が類似しているため、歩行者再識別ネットワークはeの歩幅を決定するときにfの歩幅に基づいてeの歩幅を決定することができる。例えば、eの歩幅が0.5mである確率は90%となる。
例6、例7、例8から分かるように、第1のサンプル確率分布データ内の身元情報を除去することにより、歩行者再識別トレーニングネットワークは異なる特徴の情報を習得するようにすることができ、異なる人物オブジェクトのトレーニングデータを拡張することができる。例8に続く例を挙げると、トレーニングセットにはeのウォーキング姿勢のデータがないものの、dの確率分布データのうちのfの身元情報を除去することで、eと類似する体型の人のウォーキング時の姿勢と歩幅を取得することができ、当該ウォーキング時の姿勢と歩幅をeに応用することができる。このようにして、eのトレーニングデータが拡張されることを実現している。
周知のように、ニューラルネットワークのトレーニング効果の良さは、トレーニングデータの品質と数量に大きく依存する。トレーニングデータの品質とは、トレーニング用の画像における人物オブジェクトが適切な特徴を持つことを意味している。例えば、男性がドレスを着用するのが当然無理であるため、トレーニング画像にはドレスを着用している男性が含まれると、当該トレーニング画像は低品質のトレーニング画像となる。また、人がウォーキング姿勢で自転車に「乗っている」のも当然無理であるため、トレーニング画像にウォーキング姿勢で自転車に「乗っている」人物オブジェクトが含まれると、当該トレーニング画像も低品質のトレーニング画像となる。
しかしながら、トレーニングデータを拡張する従来の方法では、拡張したトレーニング画像には低品質のトレーニング画像が現れやすい。本願の実施例では、歩行者再識別トレーニングネットワークによる異なる人物オブジェクトのトレーニングデータの拡張の方法のおかげで、歩行者再識別トレーニングネットワークにより歩行者再識別ネットワークをトレーニングするときに、多数の高品質のトレーニングデータは得られる。このようにして、歩行者再識別ネットワークのトレーニング効果を大幅に向上させることができるため、トレーニング済みの歩行者再識別ネットワークを用いて対象人物オブジェクトの身元を識別するときに、識別確度を向上させることができる。
理論的には、第2のサンプル平均データと第2のサンプル分散データに人物オブジェクトの身元情報が含まれていない場合、異なるサンプル画像に基づいて得られた第2のサンプル平均データと第2のサンプル分散データとに基づいて決定された確率分布データはいずれも同一の確率分布データに従う。つまり、第2のサンプル平均データと第2のサンプル分散データとに基づいて決定された確率分布データ(以下、身元情報なしのサンプル確率分布データという)と所定確率分布データとの差が小さいほど、第2のサンプル平均データと第2のサンプル分散データとに含まれる人物オブジェクトの身元情報が少ない。従って、本願の実施例において、所定確率分布データと第2のサンプル確率分布データとの差に基づいて第5の損失を決定し、当該差は第5の損失に正の相関関係がある。第5の損失によって歩行者再識別トレーニングネットワークのトレーニングプロセスを監視することで、エンコーダによる第1の確率分布データのうちの人物オブジェクトの身元情報の除去の能力を高め、さらに拡張されたトレーニングデータの品質を向上させる。所定確率分布データは、標準正規分布であってよい。
可能な一実現形態では、以下の式によって、身元情報なしのサンプル確率分布データと所定確率分布データとの差を決定することができる。
Figure 0007165752000003
ただし、
Figure 0007165752000004
は第2のサンプル平均データ、
Figure 0007165752000005
は第2のサンプル分散データ、
Figure 0007165752000006
は、平均値が
Figure 0007165752000007
、分散値が
Figure 0007165752000008
である正規分布、
Figure 0007165752000009
は、平均値が0、分散値が単位行列である正規分布、
Figure 0007165752000010
は、
Figure 0007165752000011

Figure 0007165752000012
の間の距離である。
上述したように、トレーニング中では、歩行者再識別ネットワークに勾配を逆伝播するために、歩行者再識別トレーニングネットワーク全体が微分可能性を持つことを確保する必要があるため、第2のサンプル平均データと第2のサンプル分散データが得られた後、同様に第2のサンプル平均データと第2のサンプル分散データから第1の所定確率分布データに従う第2のサンプル確率分布データをサンプリングする。このサンプリングのプロセスは、第1のサンプル平均データと第1のサンプル分散データから第1のサンプル確率分布データをサンプリングするプロセスを参照してよいが、ここでは詳細な説明を省略する。
歩行者再識別ネットワークが、変化特徴を衣装属性と外見特徴からデカップリングする能力をトレーニングを通じて習得するようにするために、第2のサンプル確率分布データが得られた後、所定の態様で第2のサンプル確率分布データから、サンプル画像における人物オブジェクトの身元情報を表す対象データを選択する。例を挙げると、トレーニングセットに、サンプル画像a、サンプル画像b、サンプル画像cが含まれ、ここで、aにおける人物オブジェクトd、およびbにおける人物オブジェクトeがいずれも立位姿勢であるが、cにおける人物オブジェクトfがライディング姿勢であると、対象データには、fがライディング姿勢で現れる情報が含まれている。
当該所定の態様は、上記の第2のサンプル確率分布データから多次元のデータを任意に選択する態様であってよいが、例を挙げると、第2のサンプル確率分布データに100次元のデータが含まれている場合、当該100次元のデータから50次元のデータを対象データとして任意に選択することができる。
当該所定の態様は、上記の第2のサンプル確率分布データのうちの奇数次元のデータを選択する態様であってもよいが、例を挙げると、第2のサンプル確率分布データに100次元のデータが含まれている場合、当該100次元のデータから第1の次元のデータ、第3の次元のデータ、・・・、第99の次元のデータを対象データとして任意に選択することができる。
当該所定の態様は、上記の第2のサンプル確率分布データのうちの前のn(ただし、nは正整数)次元のデータを選択する態様であってもよいが、例を挙げると、第2のサンプル確率分布データに100次元のデータが含まれている場合、当該100次元のデータから前の50次元のデータを対象データとして任意に選択することができる。
対象データを決定した後、第2のサンプル確率分布データのうち対象データ以外のデータを、身元情報とは無関係のデータとする(図9の「無関係」)。
対象データがサンプル人物オブジェクトの身元を正確に表すように、対象データに基づいて人物オブジェクトの身元を決定した身元結果とラベルデータとの差に基づいて、第3の損失を決定し、ここで、この差は第3の損失に負の相関関係がある。
可能な一実現形態では、以下の式によって第3の損失L3を決定する。
Figure 0007165752000013
ただし、
Figure 0007165752000014
は1未満の正数、Nはトレーニングセット内の人物オブジェクトの身元の数、iは身元結果、yはラベルデータである。
Figure 0007165752000015
であってよい。
ラベルデータに対してワンホット符号化処理を行い、符号化処理したデータが得られ、符号化処理したデータをyとして式(3)に代入して第3の損失を算出するようにしてもよい。
例を挙げると、画像トレーニングセットに1000枚のサンプル画像が含まれ、これら1000枚のサンプル画像に700個の異なる人物オブジェクトが含まれ、即ち人物オブジェクトの身元の数が700となる。
Figure 0007165752000016
とすれば、サンプル画像cを歩行者再識別ネットワークに入力して得られた身元結果が2、サンプル画像cのラベルデータが2である場合、
Figure 0007165752000017
となる。サンプル画像cのラベルデータが1である場合、
Figure 0007165752000018
となる。
第2のサンプル確率分布データが得られた後、第2のサンプル確率分布データとラベルデータとをスティッチしたデータをデコーダに入力し、デコーダにより当該スティッチしたデータを復号化処理して第4の特徴データが得られる。
第2のサンプル確率分布データとラベルデータとをスティッチ処理するプロセスについては、第1のサンプル確率分布データとラベルデータとをスティッチ処理するプロセスを参照してよいが、ここでは詳細な説明を省略する。
デコーダによる第1のサンプル確率分布データ内のサンプル画像における人物オブジェクトの身元情報の除去とは逆に、第2のサンプル確率分布データとラベルデータとをスティッチ処理することで、サンプル画像における人物オブジェクトの身元情報を第2のサンプル確率分布データに付加することを実現すると理解すべきである。このように、さらに第2のサンプル確率分布データを復号化して得られた第4の特徴データと第1のサンプル確率分布データとの差を判断することにより、第2の損失が得られ、デカップリングネットワークが第1のサンプル確率分布データから身元情報を含まない特徴の確率分布データを抽出する効果を決定することができる。すなわち、エンコーダで第1のサンプル確率分布データから抽出された特徴情報が多いほど、第4の特徴データと第1のサンプル確率分布データとの差が小さい。
可能な一実現形態では、第4の特徴データと第1のサンプル確率分布データとの平均二乗誤差を算出することによって、第2の損失を得ることができる。
つまり、先に、第1のサンプル確率分布データ内の人物オブジェクトの身元情報を除去するように第1のサンプル確率分布データとラベルデータとがスティッチされたデータをエンコーダにより符号化処理するのは、トレーニングデータを拡張し、即ち歩行者再識別ネットワークが異なるサンプル画像から異なる特徴情報を習得するようにするためである。第2のサンプル確率分布データとラベルデータとに対してスティッチ処理を行い、サンプル画像における人物オブジェクトの身元情報を第2のサンプル確率分布データに付加するのは、デカップリングネットワークにより第1のサンプル確率分布データから抽出された特徴情報の有効性を判断するためである。
例を挙げると、第1のサンプル確率分布データに5種の特徴情報(例えば上着の色、靴の色、姿勢のカテゴリ、画角のカテゴリ、歩幅)が含まれるとすると、デカップリングネットワークにより第1のサンプル確率分布データから抽出された特徴情報には4種の特徴情報(例えば上着の色、靴の色、姿勢のカテゴリ、画角のカテゴリ)のみが含まれ、即ちデカップリングネットワークが第1のサンプル確率分布データから特徴情報を抽出するときに1種の特徴情報(歩幅)が捨てられた。このように、ラベルデータと第2のサンプル確率分布データとがスティッチされたデータを復号化して得られた第4の特徴データにも4種の特徴情報(上着の色、靴の色、姿勢のカテゴリ、画角のカテゴリ)のみが含まれることになり、即ち第4の特徴データに含まれる特徴情報が第1のサンプル確率分布データに含まれる特徴情報よりも1種の特徴情報(歩幅)だけ少なくなる。逆に、デカップリングネットワークが第1のサンプル確率分布データから5種の特徴情報を抽出すると、ラベルデータと第2のサンプル確率分布データとがスティッチされたデータを復号化して得られた第4の特徴データには5種の特徴情報のみが含まれることになる。このように、第4の特徴データに含まれる特徴情報と第1のサンプル確率分布データに含まれる特徴情報とは同じである。
従って、第1のサンプル確率分布データと第4の特徴データとの差によって、デカップリングネットワークにより第1のサンプル確率分布データから抽出された特徴情報の有効性を判断することができ、当該差は、当該有効性に負の相関関係がある。
可能な一実現形態では、第3の特徴データと第6の特徴データとの平均二乗誤差を算出することによって、第1の損失を決定することができる。
第1の損失、第2の損失、第3の損失、第4の損失、および第5の損失が決定された後、これらの5つの損失に基づいて歩行者再識別トレーニングネットワークのネットワーク損失を決定することができ、ネットワーク損失に基づいて歩行者再識別トレーニングネットワークのパラメータを調整することができる。
可能な一実現形態では、第1の損失、第2の損失、第3の損失、第4の損失、および第5の損失に基づいて、以下の式によって歩行者再識別トレーニングネットワークのネットワーク損失を決定することができる。
Figure 0007165752000019
ただし、LTは歩行者再識別トレーニングネットワークのネットワーク損失、L1は第1の損失、L2は第2の損失、L3は第3の損失、L4は第4の損失、L5は第5の損失、λ1、λ2、λ3、λ4、λ5はいずれも0よりも大きい自然数である。λ1=500、λ2=500、λ3=1、λ4=1、λ5=0.05であってよい。
歩行者再識別トレーニングネットワークのネットワーク損失に基づいて、歩行者再識別トレーニングネットワークを、収束するまで逆方向に勾配を伝播するようにトレーニングして、歩行者再識別トレーニングネットワークに対するトレーニングを完成させ、即ち歩行者再識別ネットワークに対するトレーニングを完成させる。
選択的には、歩行者再識別ネットワークのパラメータを更新するために必要な勾配はデカップリングネットワークにより逆伝播されたものであるので、デカップリングネットワークのパラメータの調整終了前に、逆伝播される勾配がデカップリングネットワークで遮断され、即ち勾配が歩行者再識別ネットワークに逆伝播されないことによって、トレーニング中に必要なデータ処理量を減少させ、歩行者再識別ネットワークのトレーニング効果を向上させる。
可能な一実現形態では、第2の損失が所定値よりも大きい場合、デカップリングネットワークが収束しておらず、即ちデカップリングネットワークのパラメータが完全に調整されていないことを示すので、逆伝播される勾配をデカップリングネットワークで遮断することができ、歩行者再識別ネットワークのパラメーターを調整することなく、デカップリングネットワークのパラメータのみを調整することができる。第2の損失が所定値以下である場合、デカップリングネットワークが収束していることを示すので、歩行者再識別トレーニングネットワークが収束するまで、逆伝播される勾配を歩行者再識別ネットワークに伝播して歩行者再識別ネットワークのパラメーターを調整し、歩行者再識別トレーニングネットワークに対するトレーニングを完成させる。
本実施例に係る歩行者再識別トレーニングネットワークの使用では、第1のサンプル確率分布データのうちの身元情報を除去することによってトレーニングデータの拡張の効果が達成され、さらに歩行者再識別ネットワークのトレーニング効果が向上される。第3の損失による歩行者再識別トレーニングネットワークへの監視によって、第2のサンプル確率分布データから選択された対象データに含まれる特徴情報を、身元の識別に用いられる情報となるようにして、さらに第2の損失による歩行者再識別トレーニングネットワークへの監視と組み合わせて、歩行者再識別ネットワークが第3の特徴データを処理するときに、対象データに含まれる特徴情報を第2の特徴データに含まれる特徴情報からデカップリングするようにすることができ、即ち変化特徴を衣装属性及び外見特徴からデカップリングすることを実現している。このように、トレーニング済みの歩行者再識別ネットワークを用いて被処理画像の特徴ベクトルを処理するときに、被処理画像における人物オブジェクトの変化特徴を、当該人物オブジェクトの身元を識別するときに利用できるように当該人物オブジェクトの衣服属性及び外観特徴からデカップリングすることができ、識別確度を向上させることができる。
第1実施例と第2実施例に係る画像処理方法に基づいて、本開示の第4実施例は、本願の実施例に係る方法を容疑者の追跡時に応用するシーンを想定している。
1101では、画像処理装置は、カメラによって収集されたビデオストリームを取得し、当該ビデオストリームに基づいて第1のデータベースを作成する。
本実施例はサーバにより実行されるものであり、サーバは、それぞれの取付位置が異なる複数のカメラに接続され、かつ各カメラからリアルタイムで収集されたビデオストリームを取得することができる。
サーバに接続されるカメラの数は一定ではないが、カメラのネットワークアドレスをサーバに入力すると、サーバによりカメラから収集されたビデオストリームを取得し、当該ビデオストリームに基づいて第1のデータベースを作成することができると理解すべきである。
例を挙げると、場所Bの管理者が場所Bのデータベースを作成したい場合、場所Bのカメラのネットワークアドレスをサーバに入力するだけでは、サーバにより場所Bのカメラで収集されたビデオストリームを取得することができ、場所Bのカメラで収集されたビデオストリームに対して後続の処理を行って場所Bのデータベースを作成することができる。
可能な一実現形態では、ビデオストリーム内の画像(以下、第1の画像セットという)に対して顔検出及び/又は人体検出を行うことで、第1の画像セットのうちの各画像の顔領域及び/又は人体領域を決定し、第1の画像の顔領域及び/又は人体領域を切り出して第2の画像セットを形成し、第2の画像セットを第1のデータベースに記憶する。さらに、第1実施例と第3実施例に係る方法を用いて、データベース内の各画像における人物オブジェクトの特徴の確率分布データ(以下、第1の参照確率分布データという)を取得し、第1の参照確率分布データを第1のデータベースに記憶する。
第2の画像セット内の画像は、人の顔のみ又は人体のみを含んでよく、人の顔と人体とを含んでもよい。
1102では、画像処理装置は、第1の被処理画像を取得する。
本実施例において、当該第1の被処理画像は、容疑者の顔を含み、あるいは人体を含み、あるいは容疑者の顔と人体とを含む。
第1の被処理画像を取得する態様については、201で被処理画像を取得する態様を参照してよいが、ここでは詳細な説明を省略する。
1103では、第1の被処理画像における容疑者の特徴の確率分布データを第1の確率分布データとして得る。
1103の具体的な実現形態については、被処理画像の対象確率分布データを得る態様を参照してよいが、ここでは詳細な説明を省略する。
1104では、当該第1の確率分布データを用いて第1のデータベースを検索して、第1のデータベース内の第1の確率分布データにマッチングする確率分布データを有する画像を結果画像として取得する。
1104の具体的な実現形態についてはは、203で対象画像を取得するプロセスを参照してよいが、ここでは詳細な説明を省略する。
本実施例において、警察は、容疑者の画像を取得した場合に、本願に係る発明を用いて、第1のデータベース内の容疑者の画像のすべて(即ち結果画像)を取得することができ、結果画像の収集時間と収集位置に基づいて容疑者の踪跡をさらに特定して、容疑者の逮捕による警察の負担を軽減することができる。
具体的な実施形態に係る上記方法では、各ステップの作成順序が、実施手順に何らかの限定を与える厳密な実行順序を意味するものではなく、各ステップの具体的な実行順序がその機能及び可能な論理に基づいて決められることは、当業者には理解できる。
以上、本願の実施例に係る方法を詳しく説明したが、以下に本願の実施例に係る装置を提供する。
図12は、本願の実施例に係る画像処理装置の構成模式図であり、当該装置1は、取得手段11、符号化処理手段12及び検索手段13を備える。
取得手段11は、被処理画像を取得する。
符号化処理手段12は、前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを対象確率分布データとして得る。
検索手段13は、前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得する。
可能な一実現形態では、前記符号化処理手段12は、具体的に、前記被処理画像に対して特徴抽出処理を行い、第1の特徴データを得ることと、前記第1の特徴データに対して第1の非線形変換を行い、前記対象確率分布データを得ることに用いられる。
別の可能な一実現形態では、前記符号化処理手段12は、具体的に、前記第1の特徴データに対して第2の非線形変換を行い、第2の特徴データを得ることと、前記第2の特徴データに対して第3の非線形変換を行い、第1の処理結果を平均データとして得ることと、前記第2の特徴データに対して第4の非線形変換を行い、第2の処理結果を分散データとして得ることと、前記平均データと前記分散データとに基づいて前記対象確率分布データを決定することに用いられる。
更なる別の可能な一実現形態では、前記符号化処理手段12は、具体的に、前記第1の特徴データに対して畳み込み処理とプーリング処理を順次行い、前記第2の特徴データを得ることに用いられる。
更なる別の可能な一実現形態では、前記装置1が実行する方法は、深層畳み込みネットワークと歩行者再識別ネットワークとを含む確率分布データ生成ネットワークに応用され、前記深層畳み込みネットワークは、前記被処理画像に対して特徴抽出処理を行い、前記第1の特徴データを得るためのものであり、前記歩行者再識別ネットワークは、前記特徴データに対して符号化処理を行い、前記対象確率分布データを得るためのものである。
更なる別の可能な一実現形態では、前記確率分布データ生成ネットワークは歩行者再識別トレーニングネットワークに属し、前記歩行者再識別トレーニングネットワークはデカップリングネットワークをさらに含み、前記装置1は、図13に示すように、前記歩行者再識別トレーニングネットワークをトレーニングするトレーニング手段14をさらに備え、前記歩行者再識別トレーニングネットワークのトレーニングプロセスは、サンプル画像を前記歩行者再識別トレーニングネットワークに入力し、前記深層畳み込みネットワークの処理により第3の特徴データを得ることと、前記歩行者再識別ネットワークにより前記第3の特徴データを処理し、前記サンプル画像における人物オブジェクトの特徴の確率分布を記述するための第1のサンプル平均データと第1のサンプル分散データを得ることと、前記第1のサンプル平均データと前記第1のサンプル分散データとに基づいて決定された第1のサンプル確率分布データで表される人物オブジェクトの身元と、前記第3の特徴データで表される人物オブジェクトの身元との差を判断することによって、第1の損失を決定することと、前記デカップリングネットワークにより、前記第1のサンプル平均データと前記第1サンプル分散データとに基づいて決定された第1のサンプル確率分布データ内の人物オブジェクトの身元情報を除去し、第2のサンプル確率分布データを得ることと、前記デカップリングネットワークにより前記第2のサンプル確率分布データを処理し、第4の特徴データを得ることと、前記第1のサンプル確率分布データ、前記第3の特徴データ、前記サンプル画像のラベルデータ、前記第4の特徴データ及び前記第2のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することと、前記ネットワーク損失に基づいて前記歩行者再識別トレーニングネットワークのパラメータを調整することとを含む。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記第1のサンプル確率分布データで表される人物オブジェクトの身元と、前記第3の特徴データで表される人物オブジェクトの身元との差を分析することによって、第1の損失を決定することと、前記第4の特徴データと前記第1のサンプル確率分布データとの差に基づいて、第2の損失を決定することと、前記第2のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第3の損失を決定することと、前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第1のサンプル確率分布データに基づいて決定された人物オブジェクトの身元と前記サンプル画像のラベルデータとの差に基づいて、第4の損失を決定することにさらに用いられ、前記トレーニング手段は、具体的に、前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることにさらに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、前記第2のサンプル確率分布データと前記第1の所定確率分布データとの差に基づいて、第5の損失を決定することにさらに用いられ、前記トレーニング手段は、具体的に、前記第1の損失、前記第2の損失、前記第3の損失、前記第4の損失及び前記第5の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることにさらに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記第2のサンプル確率分布データから多次元のデータを任意に選択する態様、前記第2のサンプル確率分布データのうちの奇数次元のデータを選択する態様、前記第2のサンプル確率分布データのうちの前のn(ただし、nは正の整数)次元のデータを選択する態様のいずれか一つである所定の態様で、前記第2のサンプル確率分布データから対象データを選択することと、前記対象データで表される人物オブジェクトの身元情報と前記サンプル画像のラベルデータとの差に基づいて、前記第3の損失を決定することに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記第2のサンプル確率分布データに前記サンプル画像における人物オブジェクトの身元情報を付加したデータに対して復号化処理を行い、前記第4の特徴データを得ることと、前記対象データで表される人物オブジェクトの身元情報と前記サンプル画像のラベルデータとの差に基づいて、前記第3の損失を決定することに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記ラベルデータに対してワンホット符号化処理を行い、符号化処理したラベルデータを得ることと、前記符号化処理したデータと前記第1のサンプル確率分布データに対してスティッチ処理を行い、スティッチ後の確率分布データを得ることと、前記スティッチ後の確率分布データに対して符号化処理を行い、前記第2のサンプル確率分布データを得ることに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記第1のサンプル平均データと前記第1のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして前記第1のサンプル確率分布データを得ることに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記第1のサンプル確率分布データに対して復号化処理を行い、第6の特徴データを得ることと、前記第3の特徴データと前記第6の特徴データとの差に基づいて、前記第1の損失を決定することに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記対象データに基づいて前記人物オブジェクトの身元を決定し、身元結果を得ることと、前記身元結果と前記ラベルデータとの差に基づいて、前記第4の損失を決定することに用いられる。
更なる別の可能な一実現形態では、前記トレーニング手段14は、具体的に、前記スティッチ後の確率分布データに対して符号化処理を行い、第2のサンプル平均データと第2のサンプル分散データを得ることと、前記第2のサンプル平均データと前記第2のサンプル分散データをサンプリングし、サンプリングにより得られたデータが前記所定確率分布に従うようにして前記第2のサンプル確率分布データを得ることに用いられる。
更なる別の可能な一実現形態では、前記検索手段13は、前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定し、前記類似度が所定類似度閾値以上の画像を前記対象画像として選択することに用いられる。
更なる別の可能な一実現形態では、前記検索手段13は、具体的に、前記対象確率分布データと前記データベース内の画像の確率分布データとの距離を前記類似度として決定することに用いられる。
更なる別の可能な一実現形態では、前記装置1は、被処理画像を取得する前に、被処理ビデオストリームを取得するための前記取得手段11と、前記被処理ビデオストリームの画像に対して顔検出及び/又は人体検出を行い、前記被処理ビデオストリームの画像における顔領域及び/又は人体領域を決定するための処理手段15と、前記顔領域及び/又は前記人体領域を切り出して前記参照画像を取得し、前記参照画像を前記データベースに記憶するための切出手段16とをさらに備える。
本実施例は、被処理画像に対して特徴抽出処理を行い、被処理画像における人物オブジェクトの特徴情報を抽出することによって、第1の特徴データが得られる。さらに第1の特徴データに基づいて、被処理画像における人物オブジェクトの特徴の対象確率分布データを得ることによって、第1の特徴データのうちの変化特徴に含まれる情報が衣装属性及び外見特徴からデカップリングされることを実現している。このようにして、対象確率分布データとデータベース内の参照確率分布データとの類似度を決定するプロセスでは、変化特徴に含まれる情報を利用することができ、さらに当該類似度に基づいて被処理画像における人物オブジェクトと同一の身元である人物オブジェクトを含む画像を決定する確度、即ち被処理画像における人物オブジェクトの身元を識別する確度を向上させることができる。
いくつかの実施例において、本開示の実施例に係る装置が有する機能又は備えるモジュールは、以上の方法実施例で説明された方法を実行することに用いられ、その具体的な実現は、以上の方法実施例で説明されたものを参照してよいが、ここでは、簡素化するために、詳細な説明を省略する。
図14は、本願の実施例に係る他の画像処理装置のハードウェア構成模式図である。当該画像処理装置2は、プロセッサ21、メモリ22、入力装置23及び出力装置24を備える。このプロセッサ21、メモリ22、入力装置23及び出力装置24は、コネクタを介して結合される。当該コネクタは、さまざまなインターフェース、伝送ライン又はバスなどを含み、本願の実施例はこれを限定しない。本願の各実施例において、結合とは、特定の態様による相互関連を指し、直接接続、又は他の機器、例えばさまざまなインターフェース、伝送ライン、バスなどを介した間接接続を含む。
プロセッサ21は、1つ又は複数のGPUであってよいが、プロセッサ21が1つのGPUである場合、当該GPUは、シングルコアGPUであってよく、マルチコアGPUであってもよい。プロセッサ21は、1つ又は複数のバスを介して互いに結合される複数のGPUからなるプロセッサグループであってよい。当該プロセッサは、他のタイプのプロセッサなどであってもよいが、本願の実施例では特に限定しない。
メモリ22は、本願に係る発明を実行するためのプログラムコードなどの種々のコンピュータプログラムコードを含むコンピュータプログラム命令を記憶するために用いられ、メモリ22は、不揮発性メモリ、例えば組み込み用マルチメディアカード(embedded multi media card,EMMC)、ユニバーサル・フラッシュ・ ストレージ(universal flash storage,UFS)や読み出し専用メモリ(read-only memory,ROM)、又は静的な情報と命令を記憶可能な他のタイプの静的記憶機器を含んでよいが、これに限定されなく、例えばランダムアクセスメモリ(random access memory,RAM)や情報と命令を記憶可能な他のタイプの動的記憶機器などの揮発性メモリ(volatile memory)であってもよく、電気的消去可能プログラマブル読み取り専用メモリ(electrically erasable programmable read-only memory,EEPROM)、コンパクトディスク読出し専用メモリー(compact disc read-only memory,CD-ROM)又は他のコンパクトディスクメモリ、光ディスクメモリ(圧縮光ディスク、レーザーディスク、光ディスク、 デジタル多用途ディスク、ブルーレイディスクなどを含む)、磁気ディスク記憶媒体又は他の磁気記憶機器、又は命令やデータ構造形式を持つプログラムコードを携帯又は記憶可能で且つコンピュータでアクセス可能ないかなる他のコンピュータ読み取り可能な記憶媒体などであってもよく、当該メモリ22は、関連する命令及びデータを記憶するためのものである。
入力装置23は、データ及び/又は信号を入力するためのものであり、出力装置24は、データ及び/又は信号を出力するためのものである。入力装置23と出力装置24は、個別のデバイスであってもよく、一体のデバイスであってもよい。
本願の実施例において、メモリ22は、関連する命令だけでなく、関連する画像及びビデオも記憶できると理解されるべきであり、例えば、メモリ22は、入力装置23により取得された被処理画像又は被処理ビデオストリームを記憶することができ、または、プロセッサ21により探索して取得された対象画像などを記憶することもできる。本願の実施例は、当該メモリには記憶された詳細的なデータを限定しない。
図14は、画像処理装置の簡素化設計のみを示すと理解されるべきである。実際の応用において、画像処理装置は他の必要な素子をさらに含んでもよく、任意の数の入力/出力装置、プロセッサ、メモリなどを含むが、これらに限定されない。本願の実施例を実現できる画像処理装置はすべて本願の保護範囲内に含まれる。
本明細書で開示した実施例で説明された各例示の手段及びアルゴリズムステップは、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実現可能であることが、当業者には認識できる。これらの機能がハードウェアとソフトウェアのどちらにより実行されるかは、発明の特定の応用及び設計制限条件によるものである。専門技術者は、特定の応用の各々について、説明された機能を異なる方法を用いて実現することができるが、これは本願の範囲を超えているものとみなされるべきではない。
説明の便利化や簡素化のため、上記説明されたシステム、装置及び手段の具体的な作動手順について、上述した方法実施例の対応する手順を参照してよいことは、当業者には明らかであるので、ここでは詳細な説明を省略する。また、本願の各実施例それぞれには重視するポイントが異なっており、説明の便利化や簡素化のため、同じ又は類似する部分について異なる実施例において詳細な説明を省略するかもしれないので、ある実施例では説明しない又は詳細的に説明しない部分は他の実施例の記載を参照してよいことも、当業者には明らかである。
本願のいくつかの実施例では、開示されるシステム、装置及び方法は、他の態様で実現可能であると理解されるべきである。例えば、以上で説明された装置実施例は、模式的なものだけである。例えば、上記手段の区分は、論理的な機能区分だけであり、実際に実現するときに別の区分態様であってよく、例えば、複数の手段又はモジュールは、組み合わせてもよく、別のシステムに集積されてもよく、あるいは、一部の特徴は無視されてもよく、実行されなくてもよい。また、図示又は検討されている互いの結合又は直接結合又は通信接続は、インターフェース、装置又は手段を介する間接結合又は通信接続であってもよく、電気的接続、機械的接続、又は他の態様であってもよい。
上記の分離部材として説明された手段は、物理的に分離するものであってよく、そうではなくてもよく、手段として図示された部材は、物理的手段であってよく、そうではなくてもよく、すなわち、1つの箇所に位置するものであってもよく、複数のネットワークユニットに分散されるものであってもよい。本実施例に係る発明の目的を達成するために、実際の必要に応じて手段の一部又は全てを選択してよい。
また、本願の各実施例における各機能ユニットは、1つの処理ユニットに集積されてもよく、それぞれ単独で物理的に存在してもよく、2つ以上のユニットを1つのユニットに集積されてもよい。
上記の実施例において、その全部又は一部をソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせによって実現することができる。ソフトウェアによって実現される場合、その全部又は一部は、コンピュータプログラム製品の形で実現されてよい。上記コンピュータプログラム製品は、1つ又は複数のコンピュータ命令を含む。上記コンピュータプログラム命令がコンピュータにロード・実行されると、本願の実施例で説明したプロセス又は機能の全部又は一部が生成される。上記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブル装置であってよい。上記コンピュータ命令は、コンピュータ読み取り可能な記憶媒体に記憶されるか、又は上記コンピュータ読み取り可能な記憶媒体を介して伝送されてよい。上記コンピュータ命令は、有線(例えば同軸ケーブル、光ファイバー、デジタル加入者線(digital subscriber line,DSL))又は無線(例えば赤外線、ワイヤレス、マイクロ波など)を介して1つのWebサイト、コンピュータ、サーバ又はデータセンターから別のWebサイト、コンピュータ、サーバ又はデータセンターへ伝送され得る。上記コンピュータ読み取り可能な記憶媒体は、コンピュータでアクセス可能な任意の利用可能な媒体、又は1つまたは複数の利用可能な媒体で集積されたサーバ、データセンターなどのデータ記憶機器であってよい。上記の利用可能な媒体は、磁気媒体(例えばフロッピーディスク、ハードディスク、磁気テープ)、光媒体(例えばデジタル多用途ディスク(digital versatile disc,DVD))、又は半導体媒体(例えばソリッドステートディスク(solid state disk ,SSD))などであってよい。
当業者に理解できるように、上記の実施例に係る方法の流れの全て又は一部は、コンピュータプログラムで関連するハードウェアを命令することで実現可能であり、当該プログラムはコンピュータ読み取り可能な記憶媒体に記憶可能であり、当該プログラムの実行時に、上述した各方法の実施例の流れを含み得る。上述した記憶媒体は、読み出し専用メモリ(read-only memory,ROM)又はランダムアクセスメモリ(random access memory,RAM)、磁気ディスク又は光ディスクなど種々のプログラムコード記憶可能な媒体を含む。

Claims (19)

  1. 1つ以上のプロセッサによって実行される画像処理方法であって、
    被処理画像を取得することと、
    前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの、人物オブジェクトの身元を識別するための特徴の確率分布データを、被処理画像における人物オブジェクトが異なる特徴を持つ確率又は異なる特徴で現れる確率を表すための対象確率分布データとして得ることと、
    前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得することとを含み、
    前記被処理画像に対して符号化処理を行い、前記被処理画像における人物オブジェクトの特徴の確率分布データを対象確率分布データとして得ることは、
    前記被処理画像に対して特徴抽出処理を行い、第1の特徴データを得ることと、
    前記第1の特徴データに対して第1の非線形変換を行い、前記対象確率分布データを得ることとを含むことを特徴とする画像処理方法。
  2. 前記第1の特徴データに対して第1の非線形変換を行い、前記対象確率分布データを得ることは、
    前記第1の特徴データに対して畳み込み処理とプーリング処理を順次行うことにより第2の非線形変換を行い、第2の特徴データを得ることと、
    前記第2の特徴データに対して第3の非線形変換を行い、第1の処理結果を平均データとして得ることと、
    前記第2の特徴データに対して第4の非線形変換を行い、第2の処理結果を分散データとして得ることと、
    前記平均データと前記分散データとに基づいて前記対象確率分布データを決定することとを含むことを特徴とする請求項に記載の方法。
  3. 前記方法は、深層畳み込みネットワークと歩行者再識別ネットワークとを含む確率分布データ生成ネットワークに応用され、
    前記深層畳み込みネットワークは、前記被処理画像に対して特徴抽出処理を行い、前記第1の特徴データを得るためのものであり、
    前記歩行者再識別ネットワークは、前記特徴データに対して符号化処理を行い、前記対象確率分布データを得るためのものであることを特徴とする請求項1または2に記載の方法。
  4. 前記確率分布データ生成ネットワークは歩行者再識別トレーニングネットワークに属し、前記歩行者再識別トレーニングネットワークはデカップリングネットワークをさらに含み、
    前記歩行者再識別トレーニングネットワークのトレーニングプロセスは、
    サンプル画像を前記歩行者再識別トレーニングネットワークに入力し、前記深層畳み込みネットワークの処理により第3の特徴データを得ることと、
    前記歩行者再識別ネットワークにより前記第3の特徴データを処理し、前記サンプル画像における人物オブジェクトの特徴の確率分布を記述するための第1のサンプル平均データと第1のサンプル分散データを得ることと、
    前記デカップリングネットワークにより、前記第1のサンプル平均データと前記第1サンプル分散データとに基づいて決定された第1のサンプル確率分布データ内の人物オブジェクトの身元情報を除去し、第2のサンプル確率分布データを得ることと、
    前記デカップリングネットワークにより前記第2のサンプル確率分布データを処理し、第4の特徴データを得ることと、
    前記第1のサンプル確率分布データ、前記第3の特徴データ、前記サンプル画像のラベルデータ、前記第4の特徴データ及び前記第2のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することと、
    前記ネットワーク損失に基づいて前記歩行者再識別トレーニングネットワークのパラメータを調整することとを含むことを特徴とする請求項に記載の方法。
  5. 前記第1のサンプル確率分布データ、前記第3の特徴データ、前記サンプル画像のラベルデータ、前記第4の特徴データ及び前記第2のサンプル確率分布データに基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を決定することは、
    前記第1のサンプル確率分布データで表される人物オブジェクトの身元と、前記第3の特徴データで表される人物オブジェクトの身元との差を分析することによって、第1の損失を決定することと、
    前記第4の特徴データと前記第1のサンプル確率分布データとの差に基づいて、第2の損失を決定することと、
    前記第2のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第3の損失を決定することと、
    前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることとを含むことを特徴とする請求項に記載の方法。
  6. 前記方法は、前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、
    前記第1のサンプル確率分布データに基づいて決定された人物オブジェクトの身元と前記サンプル画像のラベルデータとの差に基づいて、第4の損失を決定することをさらに含み、
    前記第1の損失、前記第2の損失及び前記第3の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることは、
    前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることを含むことを特徴とする請求項に記載の方法。
  7. 前記方法は、前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得る前に、
    前記第2のサンプル確率分布データと第1の所定確率分布データとの差に基づいて、第5の損失を決定することをさらに含み、
    前記第1の損失、前記第2の損失、前記第3の損失及び前記第4の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることは、
    前記第1の損失、前記第2の損失、前記第3の損失、前記第4の損失及び前記第5の損失に基づいて、前記歩行者再識別トレーニングネットワークのネットワーク損失を得ることを含むことを特徴とする請求項に記載の方法。
  8. 前記第2のサンプル確率分布データと前記サンプル画像のラベルデータとに基づいて、第3の損失を決定することは、
    前記第2のサンプル確率分布データから多次元のデータを任意に選択する態様、前記第2のサンプル確率分布データのうちの奇数次元のデータを選択する態様、前記第2のサンプル確率分布データのうちの前のn(ただし、nは正の整数)次元のデータを選択する態様のいずれか一つである所定の態様で、前記第2のサンプル確率分布データから対象データを選択することと、
    前記対象データに基づいて前記人物オブジェクトの身元を決定し、身元結果を得ることと、
    前記身元結果と前記ラベルデータとの差に基づいて、前記第3の損失を決定することとを含むことを特徴とする請求項に記載の方法。
  9. 前記デカップリングネットワークにより前記第2のサンプル確率分布データを処理し、第4の特徴データを得ることは、
    前記第2のサンプル確率分布データに前記サンプル画像における人物オブジェクトの身元情報を付加したデータに対して復号化処理を行い、前記第4の特徴データを得ることを含むことを特徴とする請求項に記載の方法。
  10. 前記デカップリングネットワークにより、前記第1のサンプル確率分布データ内の前記人物オブジェクトの身元情報を除去し、第2のサンプル確率分布データを得ることは、
    前記ラベルデータに対してワンホット符号化処理を行い、符号化処理したラベルデータを得ることと、
    前記符号化処理したデータと前記第1のサンプル確率分布データに対してスティッチ処理を行い、スティッチした確率分布データを得ることと、
    前記スティッチした確率分布データに対して符号化処理を行い、前記第2のサンプル確率分布データを得ることとを含むことを特徴とする請求項に記載の方法。
  11. 前記第1のサンプル確率分布データは、前記第1のサンプル平均データと前記第1のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして得られたものであることを特徴とする請求項に記載の方法。
  12. 前記第1のサンプル確率分布データで表される人物オブジェクトの身元と、前記第3の特徴データで表される人物オブジェクトの身元との差を分析することによって、第1の損失を決定することは、
    前記第1のサンプル確率分布データに対して復号化処理を行い、第6の特徴データを得ることと、
    前記第3の特徴データと前記第6の特徴データとの差に基づいて、前記第1の損失を決定することとを含むことを特徴とする請求項に記載の方法。
  13. 前記スティッチした確率分布データに対して符号化処理を行い、前記第2のサンプル確率分布データを得ることは、
    前記スティッチした確率分布データに対して符号化処理を行い、第2のサンプル平均データと第2のサンプル分散データを得ることと、
    前記第2のサンプル平均データと前記第2のサンプル分散データをサンプリングし、サンプリングにより得られたデータが所定確率分布に従うようにして前記第2のサンプル確率分布データを得ることとを含むことを特徴とする請求項10に記載の方法。
  14. 前記対象確率分布データを用いてデータベースを検索して、前記データベース内の、前記対象確率分布データにマッチングする確率分布データを有する画像を対象画像として取得することは、
    前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定し、前記類似度が所定類似度閾値以上の画像を前記対象画像として選択することを含むことを特徴とする請求項1に記載の方法。
  15. 前記対象確率分布データと前記データベース内の画像の確率分布データとの類似度を決定することは、
    前記対象確率分布データと前記データベース内の画像の確率分布データとの距離を前記類似度として決定することを含むことを特徴とする請求項14に記載の方法。
  16. 前記方法は、前記被処理画像を取得する前に、
    被処理ビデオストリームを取得することと、
    前記被処理ビデオストリームの画像に対して顔検出及び/又は人体検出を行い、前記被処理ビデオストリームの画像における顔領域及び/又は人体領域を決定することと、
    前記顔領域及び/又は前記人体領域を切り出して参照画像を取得し、前記参照画像を前記データベースに記憶することとをさらに含むことを特徴とする請求項1に記載の方法。
  17. プロセッサと、
    プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
    前記プロセッサは、前記メモリに記憶される命令を実行して、請求項1~16のいずれか1項に記載の方法を実現するように構成されることを特徴とする画像処理装置。
  18. プログラム命令を含むコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記プログラム命令が電子機器のプロセッサにより実行されると、請求項1~16のいずれか1項に記載の方法を前記プロセッサに実行させることを特徴とするコンピュータ読み取り可能な記憶媒体。
  19. プログラム命令を含むコンピュータプログラムであって、
    前記プログラム命令がプロセッサにより実行されると、請求項1~16のいずれか1項に記載の方法を前記プロセッサに実行させるコンピュータプログラム。
JP2020564418A 2019-10-22 2019-12-31 画像処理方法及び装置、プロセッサ、記憶媒体 Active JP7165752B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911007069.6 2019-10-22
CN201911007069.6A CN112699265B (zh) 2019-10-22 2019-10-22 图像处理方法及装置、处理器、存储介质
PCT/CN2019/130420 WO2021077620A1 (zh) 2019-10-22 2019-12-31 图像处理方法及装置、处理器、存储介质

Publications (2)

Publication Number Publication Date
JP2022510529A JP2022510529A (ja) 2022-01-27
JP7165752B2 true JP7165752B2 (ja) 2022-11-04

Family

ID=75491204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020564418A Active JP7165752B2 (ja) 2019-10-22 2019-12-31 画像処理方法及び装置、プロセッサ、記憶媒体

Country Status (2)

Country Link
US (1) US20210117687A1 (ja)
JP (1) JP7165752B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220262263A1 (en) * 2021-02-16 2022-08-18 Flir Unmanned Aerial Systems Ulc Unmanned aerial vehicle search and rescue systems and methods
CN113393265B (zh) * 2021-05-25 2023-04-25 浙江大华技术股份有限公司 过路对象的特征库建库方法、电子装置和存储介质
CN113255766B (zh) * 2021-05-25 2023-12-22 平安科技(深圳)有限公司 一种图像分类方法、装置、设备和存储介质
TWI792693B (zh) * 2021-11-18 2023-02-11 瑞昱半導體股份有限公司 用於進行人物重辨識的方法與裝置
CN114861236A (zh) * 2022-03-08 2022-08-05 银保信科技(北京)有限公司 图像数据的处理方法及装置、存储介质、终端
CN114998665B (zh) * 2022-08-04 2022-11-01 创新奇智(广州)科技有限公司 一种图像类别识别方法、装置、电子设备及存储介质
CN116310406B (zh) * 2023-05-22 2023-08-11 浙江之科云创数字科技有限公司 一种图像检测的方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065126A (zh) 2012-12-30 2013-04-24 信帧电子技术(北京)有限公司 不同场景对人体图像再识别的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628708B2 (en) * 2018-05-18 2020-04-21 Adobe Inc. Utilizing a deep neural network-based model to identify visually similar digital images based on user-selected visual attributes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065126A (zh) 2012-12-30 2013-04-24 信帧电子技术(北京)有限公司 不同场景对人体图像再识别的方法

Also Published As

Publication number Publication date
US20210117687A1 (en) 2021-04-22
JP2022510529A (ja) 2022-01-27

Similar Documents

Publication Publication Date Title
JP7165752B2 (ja) 画像処理方法及び装置、プロセッサ、記憶媒体
Seow et al. A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities
TWI761803B (zh) 影像處理方法及影像處理裝置、處理器和電腦可讀儲存媒介
Iosifidis et al. Discriminant bag of words based representation for human action recognition
IL267116A (en) A system and method for sharing a cnn neural network layer
IL267115A (en) Method and system for frontal search
Yilmaz et al. A novel action recognition framework based on deep-learning and genetic algorithms
Núñez-Marcos et al. Egocentric vision-based action recognition: A survey
Nasir et al. HAREDNet: A deep learning based architecture for autonomous video surveillance by recognizing human actions
Wang et al. A comprehensive survey of rgb-based and skeleton-based human action recognition
Liu et al. Salient pairwise spatio-temporal interest points for real-time activity recognition
Singh et al. Recent trends in human activity recognition–A comparative study
Prabhu et al. Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism.
Happy et al. Expression recognition with deep features extracted from holistic and part-based models
Munsif et al. Attention-based deep learning framework for action recognition in a dark environment
Islam et al. Representation for action recognition with motion vector termed as: SDQIO
Liu et al. Video classification via weakly supervised sequence modeling
CN115862120A (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
Dimiccoli et al. Activity recognition from visual lifelogs: State of the art and future challenges
Zhao et al. Context-aware and part alignment for visible-infrared person re-identification
Karim et al. Human action recognition systems: A review of the trends and state-of-the-art
Sabha et al. Domain adaptation assisted automatic real-time human-based video summarization
Periyanayaki et al. An Efficient way of Emotion and Gesture Recognition using Deep Learning Algorithms
Gharahdaghi et al. A non-linear mapping representing human action recognition under missing modality problem in video data
Ge et al. Attention-Enhanced Controllable Disentanglement for Cloth-Changing Person Re-identification

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201223

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221024

R150 Certificate of patent or registration of utility model

Ref document number: 7165752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150