JP2021517998A - 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体 - Google Patents

画像のクラスタリング方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2021517998A
JP2021517998A JP2020533140A JP2020533140A JP2021517998A JP 2021517998 A JP2021517998 A JP 2021517998A JP 2020533140 A JP2020533140 A JP 2020533140A JP 2020533140 A JP2020533140 A JP 2020533140A JP 2021517998 A JP2021517998 A JP 2021517998A
Authority
JP
Japan
Prior art keywords
class
image
group
similarity
class group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020533140A
Other languages
English (en)
Other versions
JP6926339B2 (ja
Inventor
ジン シュー
ジン シュー
ルイ ジャオ
ルイ ジャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021517998A publication Critical patent/JP2021517998A/ja
Application granted granted Critical
Publication of JP6926339B2 publication Critical patent/JP6926339B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、画像集合内の各画像に対応する顔特徴及び属性特徴を取得するステップと、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得るステップであって、各前記第1類グループに含まれる画像が、予測された、同じ対象を含む画像であるステップと、各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定するステップと、各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得るステップであって、第2類グループ内の画像が、最適化予測された、同じ対象を含む画像であるステップと、を含む画像のクラスタリング方法及び装置、電子機器並びに記憶媒体に関する。

Description

(関連出願の相互参照)
本願は、出願番号が201910204426.1であり、出願日が2019年3月18日である中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本開示は、コンピュータビジョンに関し、特に、画像のクラスタリング方法及び装置、電子機器並びに記憶媒体に関する。
顔のクラスタリングは、コンピュータビジョンにおける重要な課題となっており、大量の顔データを身元毎に振り分けして、同一人物に属する顔写真を纏めることを目的としている。顔のクラスタリングは、多くの分野に用いられて非常に重要な価値を作り出している。例えば、携帯電話等の端末分野において、顔のクラスタリングは、ユーザが容易に確認するように、人物の写真を身元毎に分類して整理することができ、セキュリティ分野にも重要な用途を有し、例えば、1人1ファイルの人口管理等を実現可能である。しかしながら、実際に適用する際に、顔写真において、姿勢、照明、表情、遮蔽、鮮明度等の要素に違いがあり、これらの問題は、顔のクラスタリングに対して非常に高く要求している。
本開示の実施例は、画像のクラスタリング精度を高めることができる画像のクラスタリング方法及び装置、電子機器並びに記憶媒体を提供する。
本開示の第1態様によれば、
画像集合内の各画像に対応する顔特徴及び属性特徴を取得するステップと、
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得るステップであって、各前記第1類グループに含まれる画像が、予測された、同じ対象を含む画像であるステップと、
各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定するステップであって、前記類似度行列内の要素が、対応する第1類グループ内の各画像の間の類似度を示すステップと、
各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得るステップであって、第2類グループ内の画像が、最適化予測された、同じ対象を含む画像であるステップと、を含む画像のクラスタリング方法を提供する。
ある可能な実施例では、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得る前記ステップは、
前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
前記顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いK個の画像を決定するステップであって、Kが1以上の整数であるステップと、
前記各画像の顔特徴との類似度が最も高いK個の画像から、顔特徴の類似度が第1閾値を超えた第1画像を選択するステップと、
前記各画像及びそれに対応する前記第1画像に基づいて、第1類グループを形成するステップと、を含む。
ある可能な実施例では、複数の第1閾値を含み、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得る前記ステップは、
異なる第1閾値毎に対して、各前記第1閾値に対応する第1類グループを形成するステップを更に含む。
ある可能な実施例では、各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定する前記ステップは、
各前記第1類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第1類グループに関する顔特徴類似度行列を決定し、各前記第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定するステップであって、前記顔特徴類似度行列内の要素が、前記第1類グループ内の各画像の顔特徴の間の類似度を示し、前記属性特徴類似度行列内の要素が、前記第1類グループ内の各画像の属性特徴の間の類似度を示すステップと、
各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各前記第1類グループに対応する前記類似度行列を得るステップと、を含む。
ある可能な実施例では、各第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定する前記ステップは、
前記第1類グループ内の各画像の属性特徴と前記第1類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定するステップと、
前記第1類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第1類グループに関する属性特徴類似度行列を決定するステップと、を含む。
ある可能な実施例では、前記顔特徴類似度行列の第i行の要素は、前記第1類グループ内のi番目の画像の顔特徴と前記第1類グループ内の各画像の顔特徴との間の類似度を示し、
前記属性特徴類似度行列の第i行の要素は、第1類グループ内のi番目の画像の属性特徴と前記第1類グループ内の各画像の属性特徴との間の類似度を示し、
iは1以上且つN以下の整数であり、Nは第1類グループ内の画像の個数を示す。
ある可能な実施例では、前記顔特徴の間の類似度及び/又は前記属性特徴の間の類似度は、コサイン類似度である。
ある可能な実施例では、各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各前記第1類グループに対応する前記類似度行列を得る前記ステップは、
各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも1層の畳み込み処理を実行して、前記の各前記第1類グループに対応する類似度行列を得るステップを含む。
ある可能な実施例では、各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得る前記ステップは、
各前記第1類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るステップと、
各前記第1類グループに対応する前処理後の類似度行列及び対応する前記第1類グループ内の各画像の顔特徴に対して、少なくとも1層のグラフ畳み込み処理を実行して、各前記第1類グループに関する信頼度行列を取得するステップであって、前記信頼度行列内の要素が、対応する前記第1類グループ内の各画像が前記第1類グループに割り当てられる信頼度を示すステップと、
前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得するステップと、を含む。
ある可能な実施例では、前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する前記ステップは、
前記第1類グループから、信頼度が第2閾値より低い画像を削除して、改めてクラスタリングされた第2類グループを取得するステップを含む。
ある可能な実施例では、各前記第1類グループに対応する前処理後の類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得る前記ステップは、
前記グラフ畳み込み処理に基づいて、各前記第1類グループに関する類別信頼度を更に取得するステップであって、前記類別信頼度が、対応する第1類グループの分類信頼度を示すステップを更に含み、
また、前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する前記ステップの前に、前記方法は、
前記第1類グループの前記類別信頼度が第3閾値より低いことに応じて、前記第1類グループを削除するステップを更に含む。
ある可能な実施例では、前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する前記ステップは、
類別信頼度の高い順に前記第1類グループに対して順序付けるステップと、
j番目の第1類グループ内の信頼度が第2閾値を超えた画像に、第jのラベルを割り当て、当該j番目の第1類グループ内の信頼度が前記第2閾値より低い画像を削除して、当該j番目の第1類グループに対応する第2類グループを形成するステップと、を含み、jは1以上且つM以下の正整数であり、Mは第1類グループの数量を示す。
ある可能な実施例では、前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する前記ステップは、
M番目の前記第1類グループに対応する第2類グループが得られた後、前記画像集合は、いずれの第2類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第2類グループにもクラスタリングされていない各画像に基づいて、第2類グループをそれぞれ形成するステップを更に含む。
ある可能な実施例では、各第1類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得る前記ステップは、
前記第1類グループに対応する類似度行列と単位行列とを加算するステップを含む。
ある可能な実施例では、画像集合内の各画像に対応する顔特徴及び属性特徴を取得する前記ステップは、
第1ニューラルネットワークを用いて前記画像集合内の各画像の顔特徴を取得し、
第2ニューラルネットワークを用いて前記画像集合内の各画像の属性特徴を取得するステップを含む。
本開示の実施例の第2態様によれば、
画像集合内の各画像に対応する顔特徴及び属性特徴を取得するように構成される取得モジュールと、
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得るように構成される第1クラスタリングモジュールであって、各前記第1類グループに含まれる画像が、予測された、同じ対象を含む画像である第1クラスタリングモジュールと、
各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定するように構成される決定モジュールであって、前記類似度行列内の要素が、対応する第1類グループ内の各画像の間の類似度を示す決定モジュールと、
各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得るように構成される第2クラスタリングモジュールであって、第2類グループ内の画像が、最適化予測された、同じ対象を含む画像である第2クラスタリングモジュールと、を含む画像クラスタリング装置を提供する。
ある可能な実施例では、前記第1クラスタリングモジュールは、更に、
前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
前記各顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いK個の画像を決定するステップであって、Kが1以上の整数であるステップと、
前記各画像の顔特徴との類似度が最も高いK個の画像から、顔特徴の類似度が第1閾値を超えた第1画像を選択するステップと、
前記各画像及びそれに対応する前記第1画像に基づいて、第1類グループを形成するステップと、を実行するように構成される。
ある可能な実施例では、複数の第1閾値を含み、前記第1クラスタリングモジュールは、更に、異なる第1閾値毎に対して、各前記第1閾値に対応する第1類グループを形成するために用いられる。
ある可能な実施例では、前記決定モジュールは、
各前記第1類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第1類グループに関する顔特徴類似度行列を決定するように構成される第1決定ユニットであって、前記顔特徴類似度行列内の要素が、前記第1類グループ内の各画像の顔特徴の間の類似度を示す第1決定ユニットと、
各前記第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定するように構成される第2決定ユニットであって、前記属性特徴類似度行列内の要素が、前記第1類グループ内の各画像の属性特徴の間の類似度を示す第2決定ユニットと、
各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各第1類グループに対応する前記類似度行列を得るように構成される第3決定ユニットと、を含む。
ある可能な実施例では、前記第2決定ユニットは、更に、前記第1類グループ内の各画像の属性特徴と前記この第1類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定し、
前記第1類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第1類グループに関する属性特徴類似度行列を決定するように構成される。
ある可能な実施例では、前記顔特徴類似度行列の第i行の要素は、前記第1類グループ内のi番目の画像の顔特徴と前記第1類グループ内の各画像の顔特徴との間の類似度を示し、
前記属性特徴類似度行列の第i行の要素は、第1類グループ内のi番目の画像の属性特徴と前記第1類グループ内の各画像の属性特徴との間の類似度を示し、
iは1以上且つN以下の整数であり、Nは第1類グループ内の画像の個数を示す。
ある可能な実施例では、前記顔特徴の間の類似度及び/又は前記属性特徴の間の類似度は、コサイン類似度である。
ある可能な実施例では、前記第3決定ユニットは、更に、各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも1層の畳み込み処理を実行して、前記の各前記第1類グループに対応する類似度行列を得るように構成される。
ある可能な実施例では、前記第2クラスタリングモジュールは、
各前記第1類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るように構成される前処理ユニットと、
各前記第1類グループに対応する前処理後の類似度行列及び対応する前記第1類グループ内の各画像の顔特徴に対して、少なくとも1層のグラフ畳み込み処理を実行して、各前記第1類グループに関する信頼度行列を取得するように構成されるグラフ畳み込みユニットであって、前記信頼度行列内の要素が、対応する前記第1類グループ内の各画像が前記第1類グループに割り当てられる信頼度を示すグラフ畳み込みユニットと、
前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得するように構成されるクラスタリングユニットと、を含む。
ある可能な実施例では、前記クラスタリングユニットは、更に、前記第1類グループから、信頼度が第2閾値より低い画像を削除して、改めてクラスタリングされた第2類グループを取得するように構成される。
ある可能な実施例では、前記グラフ畳み込みユニットは、前記グラフ畳み込み処理に基づいて、各前記第1類グループに関する類別信頼度を取得するようにさらに構成され、前記類別信頼度が、対応する第1類グループの分類信頼度を示し、
前記クラスタリングユニットは、更に、前記第1類グループの前記類別信頼度が第3閾値より低いことに応じて、前記第1類グループを削除するように構成される。
ある可能な実施例では、前記クラスタリングユニットは、更に、類別信頼度の高い順に前記各第1類グループに対して順序付けるステップと、
j番目の第1類グループ内の信頼度が第2閾値を超えた画像に、第jのラベルを割り当て、当該j番目の第1類グループ内の信頼度が前記第2閾値より低い画像を削除して、当該j番目の第1類グループに対応する第2類グループを形成するステップと、を実行するように構成され、jは1以上且つM以下の正整数であり、Mは第1類グループの数量を示す。
ある可能な実施例では、前記クラスタリングユニットは、更に、M番目の第1類グループに対応する第2類グループが得られた後、前記画像集合に、いずれの第2類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第2類グループにもクラスタリングされていない各画像に基づいて、第2類グループをそれぞれ形成するように構成される。
ある可能な実施例では、前記前処理ユニットは、更に、前記第1類グループに対応する類似度行列と単位行列とを加算して、前記前処理を実行するように構成される。
ある可能な実施例では、前記取得モジュールは、
前記画像集合内の各画像の顔特徴を取得するように構成される第1ニューラルネットワークと、
前記画像集合内の各画像の属性特徴を取得するように構成される第2ニューラルネットワークと、を含む。
本開示の第3態様によれば、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが第1態様のいずれか一項に記載の方法を実行するように構成される電子機器を提供する。
本開示の第4態様によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に第1態様のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体を提供する。
本開示の第5態様によれば、プロセッサにより実行される時に、請求項1−15のいずれか一項に記載の方法を実現可能であるコンピュータプログラム製品を提供する。
本開示の実施例は、まず、画像内の顔特徴によって画像を初期的にクラスタリングし、次に、画像に対応する顔特徴と属性特徴とを共に用いて、初期的にクラスタリングされた結果を最適化クラスタリングすることによって、同一類内の画像の間の類似度を増強し、異なる類の間の画像の間の類似度を下げて、クラスタリング精度を高めることができる。
以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。
本開示の実施例に係る画像のクラスタリング方法のフローチャートを示す。 本開示の実施例に係る第1ニューラルネットワークの構造模式図を示す。 本開示の実施例に係る第2ニューラルネットワークの構造模式図を示す。 本開示に係る画像のクラスタリング方法におけるステップS20のフローチャートを示す。 本開示の実施例に係る画像のクラスタリング方法におけるステップS30のフローチャートを示す。 本開示の実施例に係る画像のクラスタリング方法におけるステップS31のフローチャートを示す。 本開示の実施例に係る画像のクラスタリング方法におけるステップS31の別のフローチャートを示す。 本開示の実施例に係る第3ニューラルネットワークの構造模式図を示す。 本開示の実施例に係るグラフ畳み込みネットワークの構造模式図を示す。 本開示の実施例に係る画像のクラスタリング方法におけるステップS40のフローチャートを示す。 本開示の実施例に係る画像のクラスタリング方法におけるステップS43のフローチャートを示す。 本開示の実施例に係る画像クラスタリング装置のブロック図を示す。 本開示の実施例に係る電子機器800のブロック図を示す。 本開示の実施例に係る電子機器1900のブロック図を示す。
ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。
本明細書の用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3種の関係が存在可能であることを示し、例えば、A及び/又はBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという3種の場合を示してもよい。また、本明細書の用語の「少なくとも1種」は多種のうちのいずれか1種又は多種のうちの少なくとも2種の任意の組合を示し、例えば、A、B、Cのうちの少なくとも1種を含むということは、A、B及びCから構成される集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
本開示の実施例は、複数の画像をクラスタリング分析することに利用可能な画像のクラスタリング方法を提供し、ここで、属性特徴を取り入れてクラスタリング結果を最適化して、クラスタリングの精度を高めるようにしてもよい。本開示の実施例の画像のクラスタリング方法は、ユーザ側装置(UE、User Equipment)、携帯機器、セル方式の携帯無線電話、無線電話、携帯情報端末(PDA、Personal Digital Assistant)、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等を含むいかなる電子機器、又はローカルサーバやクラウドサーバのようないかなるサーバにも利用可能であり、以上は例示的な説明に過ぎず、本開示を具体的に限定するものではない。
図1は本開示の実施例に係る画像のクラスタリング方法のフローチャートを示し、ここで、前記画像のクラスタリング方法は、以下のステップを含んでもよい。
S10において、画像集合内の各画像に対応する顔特徴及び属性特徴を取得する。
S20において、各画像の顔特徴の類似度によって前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得、各前記第1類グループに含まれる画像が、予測された、同じ対象を含む画像であるものであって、例えば、前記S20は、具体的には、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得るステップであって、各前記第1類グループに含まれる画像が、予測された、同じ対象を含む画像であるステップを含んでもよく、ここで、予測された、同じ対象を含む画像は、初期的に予測された、同じ対象を含む画像であってもよい。
S30において、各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定し、前記類似度行列内の要素が、対応する第1類グループ内の各画像の間の類似度を示す。
S40において、各第1類グループに対応する類似度行列及び各第1類グループ内の各画像の顔特徴に基づいて、各第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得、第2類グループ内の画像が、最適化予測された、同じ対象を含む画像である。ここで、最適化予測された、同じ対象を含む画像は、初期的な予測の上で、同じ対象を有する画像を更に精確に予測し、初期的予測中の不正確な結果又は不精確な結果を除外したのである。S20における予測を一次予測としてもよく、S40における予測を一次予測に基づく二次予測としてもよい。
本開示の実施例の画像のクラスタリング方法は、画像集合内の画像を精確にクラスタリングすることを主旨とする。前記画像のクラスタリング方法を実行する時に、まず、画像集合を取得する必要がある。本開示の実施例の画像集合は、複数枚の画像を含んでもよく、各画像に含まれる対象は同じであっても、異なっていてもよい。本開示の実施例は、画像内の各対象の認識結果に基づいて画像集合内の画像のクラスタリング分析を実現するためのものであり、クラスタリングによって、同じ対象の画像を1つの種類に纏めることができ、それによって、対応する対象の移動軌跡、行動、生活リズム等を容易に分析したり、分類保存処理に用いたりすることができ、本開示はこれについて具体的に限定するものではない。本開示の実施例における画像集合内の各画像に含まれる対象は、人物であってもよく、それに対応するように、対象が人物である画像のクラスタリングが実現可能であり、別の実施例では、本開示の実施例の方法は、他の種類の対象のクラスタリング分析にも利用可能であり、具体的に限定されない。
また、本開示の実施例で取得された画像集合内の画像は、画像装置によって取得されてもよく、例えば、携帯電話等の撮影機能を有する端末装置で撮影して得られたものであってもよく、監視領域内に取り付けられた撮影装置で取得されたものであってもよく、他の実施例では他の手段によって取得されたものであってもよく、本開示はここで一つずつ例を挙げて説明しない。画像集合が取得された後、本開示の実施例は取得された画像集合内の各画像を分析して、画像をクラスタリングしてもよい。
まず、ステップS10で画像集合内の各画像の顔特徴及び属性特徴を取得してもよい。顔特徴は、例えば、目、眉、鼻、口、耳、あご、額等の顔キーポイントの位置情報を含んでもよく、又は他のキーポイントの位置情報を含んでもよい。以上は例示的な説明に過ぎず、本開示の実施例は顔キーポイントの数量及び種類を制限するものでない。また、取得された属性特徴は、画像内の対象の外部特徴を示すものであってもよく、例えば、画像内の対象の身に着けているアクセサリー(眼鏡、帽子、マスク等)、肌色、性別、年齢及び服飾等の情報を含んでもよく、他の実施例では、他の情報を含んでもよく、ここで一つずつ例を挙げて説明しない。
本開示の実施例で顔特徴を取得する方式は、顔認識アルゴリズムによって顔の顔特徴を抽出する方式、又は顔特徴抽出機能を有するニューラルネットワークによって画像内の対象の顔特徴の抽出を実現する方式を含んでもよい。例えば、本開示の実施例は、第1ニューラルネットワークによって画像集合内の各画像の顔特徴の抽出を実現してもよい。図2は本開示の実施例に係る第1ニューラルネットワークの構造模式図を示す。ある可能な実施形態では、第1ニューラルネットワークは、畳み込みニューラルネットワークであってもよい。第1ニューラルネットワークの訓練過程は、第1ニューラルネットワークに訓練画像及び画像内の各対象のラベルとなる対応する真実なラベルを入力し、第1ニューラルネットワークの畳み込み等の処理操作によって画像の特徴抽出を実現し、抽出された特徴を分類器によって分類し、予測された分類結果を得、分類結果と真実なラベルとの間の損失値が訓練要求を満たすようになると、訓練を終了するステップを含んでもよい。この時に得られた第1ニューラルネットワークは、画像内の人物対象の顔特徴を精確に抽出できるものになり、本開示の実施例は、画像集合内の各画像を第1ニューラルネットワークに入力して、最後の1層で抽出された特徴を後処理の顔特徴としてもよい。
本開示の実施例では、属性特徴を取得する方式は、対応する特徴抽出アルゴリズムによって属性を認識する方式を含んでもよく、例えば、顔特徴抽出アルゴリズムで抽出した顔特徴によって年齢や性別、アクセサリー等の情報を認識してもよく、更に人体特徴を抽出することによって着用服飾、性別等の情報を認識してもよい。又は、別の実施例では、属性特徴抽出機能を有するニューラルネットワークによって画像内の対象の属性特徴を抽出してもよい。例えば、本開示の実施例は、第2ニューラルネットワークによって画像集合内の各画像の属性特徴を抽出してもよい。図3は本開示の実施例に係る第2ニューラルネットワークの構造模式図を示す。ある可能な実施形態では、第2ニューラルネットワークは畳み込みニューラルネットワークであってもよい。第2ニューラルネットワークの訓練過程は、第2ニューラルネットワークに訓練画像及び対応する属性特徴を入力し、第2ニューラルネットワークの畳み込み等の処理操作によって画像の特徴を抽出し、異なる分類器によって属性を予測し、予測された分類結果を得、分類結果と真実な属性特徴との間の損失値が訓練要求を満たすようになると、訓練を終了するステップを含んでもよい。この時に得られた第2ニューラルネットワークは、画像内の人物対象の属性特徴を精確に抽出できるものになり、本開示の実施例は、画像集合内の各画像を第2ニューラルネットワークに入力して、最後の1層で抽出された特徴を後処理の属性特徴としてもよい。
上記実施例によれば、画像集合内の各画像の顔特徴及び属性特徴を抽出することができ、上記形態によれば、得られた顔特徴及び属性特徴の精度が高く、後続の分類処理に寄与する。
各画像の属性特徴及び顔特徴が得られた後、得られた顔特徴によって画像集合内の各画像を初期的にクラスタリング処理してもよく、即ち、ステップS20を実行してもよい。抽出された顔特徴が対象の認識に用いられることができるため、本開示の実施例は、顔特徴に基づいて画像内の対象が同じ対象であるか否かを判断し、同じ対象であると判断された画像を1つの種類に纏めて、各画像を分類するようにしてもよい。
ある可能な実施形態では、各画像の顔特徴の間の類似度を取得し、画像集合内の1つの画像Aの顔特徴との類似度が類似度閾値を超えた全ての画像Bを1つの種類に纏めるようにしてもよく、そのように画像集合内の画像を初期的に分類し、少なくとも1つの第1類グループを得ることができる。本開示の実施例で得られた顔特徴及び属性特徴はいずれもベクトル又は行列の形式であってもよいので、顔特徴の間の類似度を取得する計算方式は2つの画像の顔特徴の間のユークリッド距離を計算してもよく、又は、両者のコサイン類似度を得てもよく、本開示はこれについて具体的に限定するものではない。
ある他の可能な実施形態では、クラスタリング効率を高めるために、各画像のK個の近似画像を先に決定し、次にK個の近似画像から同じ対象を含む画像を選択するようにしてもよい。図4は本開示に係る画像のクラスタリング方法におけるステップS20のフローチャートを示し、ここで、各画像の顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して少なくとも1つの第1類グループを得る前記ステップ(ステップS20)は、前記画像集合内の各画像に対応する顔特徴の間の類似度を決定し、即ち、前記画像集合内のそれぞれの画像に対応する顔特徴の間の類似度を決定するS21と、各顔特徴の間の類似度に基づいて、各画像の顔特徴との類似度が最も高いK個の画像を決定し、即ち、前記各顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いK個の画像を決定するステップであって、Kが1以上の整数であるS22と、各画像の顔特徴との類似度が最も高いK個の画像から、顔特徴の類似度が第1閾値を超えた第1画像を選択するS22と、各画像及びそれに対応する第1画像に基づいて第1類グループを形成し、即ち、前記各画像及びそれに対応する前記第1画像に基づいて、第1類グループを形成するS23と、を含んでもよい。
以上の通り、顔特徴に基づいて画像の顔特徴の間の類似度を決定してもよい。本開示の実施例は、まず画像集合から各画像qの顔特徴との類似度が最も高いK個の画像、即ち、画像qの顔特徴との類似度が最も高いK個の顔特徴に対応する画像を選択してもよい。本開示の実施例は、faiss(Facebook AI Similarity Search、フェイスブック類似検索)を用いて検索して画像集合内のK個の近似画像、即ち各画像の顔特徴に最も近似するK個の画像を得てもよい。K個の近似画像の抽出は、最類似を高速に抽出する方法を実現可能なfaiss検索によって実現される。別の実施例では、各画像との類似度が最も高いK個の近似画像を他の方式によって高速に検索してもよく、本開示はこれについて具体的に限定するものではない。
各画像のK個の近似画像、即ち顔特徴類似度が最も高いK個の画像が得られた後、ステップS23を実行することによってこのK個の画像から特定要求を満たした画像を選択してもよい。例えば、顔特徴の類似度が第1閾値を超えた画像を選択してもよい。ここで、第1閾値の値は必要に応じて設定可能であり、例えば0.9にしてもよく、又は他の数値にしてもよく、本開示はこれについて具体的に限定するものではない。
本開示の実施例は、各画像とそれに対応するK個の画像との間の類似度、即ち顔特徴類似度を得ることができ、この顔特徴類似度が所定の第1閾値を超えた時に、この2つの対応画像を同一の種類に纏めてもよい。ここで、いずれか2つの画像の顔特徴の間の類似度を得る方式は、ユークリッド距離を計算するようになってもよく、又はコサイン類似度を計算するようになってもよい。コサイン類似度は以下の式で示す。
Figure 2021517998
式(1)
ただし、S1は顔特徴類似度を示し、AとBは2つの画像の顔特徴を別々に示し、iは顔特徴中の要素を示し、nは顔特徴中の要素の個数を示す。
上記形態によれば、得られた画像集合内の各画像qのK個の近似画像から、画像qの顔特徴との類似度が第1閾値より大きい画像を選択することができ、この時に、選択された画像を第1画像と称しても良い。また、画像qとそれに対応する各第1画像を1つの種類(第1類グループ)に纏めてもよい。画像qのK個の近似画像には、類似度が第1閾値より大きい画像が存在しなければ、画像qを単独して第1類グループとして纏めてもよい。
本開示の実施例において、まず、各画像のK個の近似画像を検索し、次に、更に第1閾値に基づいて第1画像を選び出すようにしてもよいので、この過程によって、顔特徴類似度の計算量が減少され、クラスタリングの時間が節約される。
また、本開示のある実施例では、複数の第1閾値を設定してもよく、ステップS23を実行する時に、各第1閾値に基づいて複数グループの第1画像を得ることができ、例えば、第1閾値v1を用いて画像qの顔特徴との類似度が第1閾値v1より大きい複数の第1画像p1及びp2を得、第1閾値v2を用いて画像qの顔特徴との類似度が第1閾値v2より大きい複数の第1画像p1を得るが、第1閾値v3を用いて画像qの顔特徴との類似度が第1閾値v3より大きい第1画像が得ることができなくなり、ここで、v3がv2より大きく、且つv2がv1より大きい。
それに対応するように、各第1閾値に対して、対応して得られた第1画像に基づいて異なる第1類グループを形成してもよく、例えば、第1閾値v1に対して、第1類グループ{q、p1、p2}が得られ、第1閾値v2に対して、第1類グループ{q、p1}が得られ、第1閾値v3に対して、第1類グループ{q}が得られる。つまり、本開示の実施例は、各第1閾値に基づいて対応する第1類グループを得ることができ、異なる閾値を設定することによって、後続の最適化クラスタリング処理の時に、分類されていなく、又は対応する類グループに精確にクラスタリングされていない画像が残されるケースを回避し、クラスタリング精度を高めることができる。
上記実施例によれば、顔特徴による画像集合内の画像の初期的なクラスタリングを実現することができ、更に、本開示の実施例は、取得された属性特徴と顔特徴とに基づいて、初期的なクラスタリングで得られた第1類グループを最適化して、クラスタリング精度を高めることができる。ここで、まず、各第1類グループ内の画像の顔特徴に基づいてこの第1類グループの顔特徴類似度行列を得、各第1類グループ内の画像の属性特徴に基づいてこの第1類グループの属性特徴類似度行列を得、更に、得られた顔特徴類似度行列及び属性特徴類似度行列を用いて第1類グループを最適化クラスタリングするようにしてもよい。
図5は本開示の実施例に係る画像のクラスタリング方法におけるステップS30のフローチャートを示し、ここで、各前記第1類グループ内の画像の顔特徴及び属性特徴を用いて各第1類グループに対する類似度行列を決定する前記ステップ(ステップS30)は、
各第1類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第1類グループに関する顔特徴類似度行列を決定し、各第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定するS31であって、前記顔特徴類似度行列内の要素が、第1類グループ内の各画像の顔特徴の間の類似度を示し、前記属性特徴類似度行列内の要素が、第1類グループ内の各画像の属性特徴の間の類似度を示すS31と、
各第1類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各第1類グループに対応する前記類似度行列を得るS32と、を含んでもよい。
本開示の実施例は、各第1類グループ内の各画像の顔特徴類似度を決定してもよく、例えば、ステップS20において各第1類グループ内の各画像の間の顔特徴類似度がすでに得られたものとなり、この時に、得られた各画像の顔特徴の間の類似度を読み取ってもよく、又は各第1類グループ内の各画像の顔特徴の間の類似度を改めて計算してもよく、本開示はこれについて具体的に限定するものではなく、また、計算方式は、同様にユークリッド距離計算方式又はコサイン類似度計算方式であってもよい。
各第1類グループ内のいずれか2つの画像の顔特徴の間の類似度が得られた後、各顔特徴類似度に基づいてこの第1類グループに対応する顔特徴類似度行列を作成してもよい。ここで、顔特徴類似度行列の第i行の要素は第1類グループ内のi番目の画像の顔特徴とこの第1類グループ内の各画像の顔特徴との間の類似度を示す。
図6は本開示の実施例に係る画像のクラスタリング方法におけるステップS31のフローチャートを示し、ここで、各第1類グループ内の各画像の顔特徴に基づいて対応する第1類グループに関する顔特徴類似度行列を決定する前記ステップは、以下のステップを含む。
S3101において、第1類グループ内の各画像の顔特徴と当該第1類グループ内の全ての画像の顔特徴との間の顔特徴類似度を決定する。
以上の通り、ステップS20で得られた第1類グループ内のいずれか2つの画像の間の顔特徴類似度を読み取ってもよく、各画像の間の顔特徴類似度を改めて計算してもよく、本開示はこれについて具体的に限定するものではない。
S3102において、第1類グループ内のi番目の画像に関する各顔特徴類似度を前記顔特徴類似度行列の第i行の要素として、前記顔特徴類似度行列を形成し、iは1以上且つN以下の整数であり、Nは第1類グループ内の画像の個数を示す。
第1類グループ内の2つずつの画像の間の顔類似度が得られた後、各画像の順序に応じて顔特徴類似度行列を得てもよい。ここで、顔特徴類似度行列の次元は、第1類グループ内の画像の数量に基づいて決定してもよく、例えば、N個の画像を含む場合に、N*N次元となる。ただし、Dijはi番目の画像とj番目の画像との間の顔特徴類似度を示す。第1類グループ内に画像c、d、e及びfが含まれるとすれば、得られた顔特徴類似度行列は以下の式で示してもよい。
Figure 2021517998
式(2)
ただし、Diiはi番目の画像とi番目の画像との類似度、即ち、1を示してもよく、iはc、d、e及びfの番号である。
以上のことによって、第1類グループ内のいずれか2つの画像の間の顔特徴類似度に基づいて顔類似度特徴行列を得ることができる。
同様に、本開示の実施例は、更に、各第1類グループ内の各画像属性特徴の間の類似度を決定し、第1類グループに対応する属性特徴類似度行列を対応して取得することができ、前記属性特徴類似度行列の第i行の要素は、第1類グループ内のi番目の画像の属性特徴とこの第1類グループ内の各画像の属性特徴との間の類似度を示し、即ち、前記属性特徴類似度行列の第i行の要素は、第1類グループ内のi番目の画像の属性特徴と前記第1類グループ内の各画像の属性特徴との間の類似度を示す。図7は本開示の実施例に係る画像のクラスタリング方法におけるステップS31の別のフローチャートを示し、各第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定する前記ステップは、
第1類グループ内の各画像の属性特徴と当該第1類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定し、即ち、前記第1類グループ内の各画像の属性特徴と当該第1類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定するS3111と、
第1類グループ内のi番目の画像に関する属性特徴類似度を前記属性特徴類似度行列の第i行の要素として、前記属性特徴類似度行列を形成するS3112と、を含んでもよく、iは1以上且つN以下の整数であり、Nは第1類グループ内の画像の個数を示す。
ある可能な実施形態では、各画像の属性特徴に基づいて2つの画像の間の属性特徴類似度を決定してもよく、ここで、2つの属性特徴の間のユークリッド距離又はコサイン類似度を計算して、いずれか2つの画像の間の属性特徴類似度を得るようにしてもよい。ここで、属性特徴のコサイン類似度の計算方式は以下の式で示してもよい。
Figure 2021517998
式(3)
ただし、S2は属性特徴類似度を示し、CとDは2つの画像の属性特徴を別々に示し、iは属性特徴中の要素を表し、nは属性特徴中の要素の個数を表す。上記形態によれば、いずれか2つの画像の属性特徴類似度を得ることができる。
第1類グループ内の2つずつの画像の間の属性特徴類似度が得られた後、各画像の順序に従って属性特徴類似度行列を得ることができる。ここで、属性特徴類似度行列の次元は、第1類グループ内の画像の数量に基づいて決定してもよく、例えば、N個の画像を含む場合に、N*N次元となる。ここで、Eijは、i番目の画像とj番目の画像との間の属性特徴類似度を示す。第1類グループ内に画像c、d、e及びfが含まれるとすれば、得られた属性特徴類似度行列は以下の式で示してもよい。
Figure 2021517998
式(4)
ただし、Eiiは、i番目の画像とi番目の画像の属性特徴類似度、即ち1を示し、iはc、d、e及びfの番号である。
以上のことで、各第1類グループに対応する顔特徴類似度行列及び属性特徴類似度行列をそれぞれ取得することができ、次に、これらの2つの特徴類似度行列を用いて第1類グループ内の各画像の類似度行列を取得してもよく、即ち、ステップS32を実行してもよい。本開示の実施例では、第1類グループに対応する顔特徴類似度行列と属性特徴類似度行列を結合し、結合特徴行列を取得し、この結合特徴行列に対して畳み込み処理を実行し、最終的な第1類グループ内の各画像に対応する類似度行列を得るようにしてもよい。ここで、第1類グループに対応する類似度行列中の要素は第1類グループ内の各画像の間の画像類似度(顔類似度)であってもよい。
ある可能な実施形態では、第3ニューラルネットワークによって第1類グループに対応する類似度行列を取得してもよい。第3ニューラルネットワークは、入力された顔特徴類似度行列及び属性特徴類似度行列に基づいて、対応して最適化された画像の類似度行列を得ることができる訓練済みのニューラルネットワークであってもよく、第3ニューラルネットワークは、畳み込みニューラルネットワークであってもよい。図8は本開示の実施例に係る第3ニューラルネットワークの構造模式図を示す。図8に示すように、第1類グループに対応するN行N列の顔特徴類似度行列と属性特徴類似度行列を第3ニューラルネットワークCNNに入力してもよく、第3ニューラルネットワークの畳み込み処理によって最終的な第1類グループに対応する類似度行列を得ることができる。得られた類似度行列中の各要素には顔特徴及び属性特徴が含まれるので、得られる画像の間の類似度精度を高めることができる。
各第1類グループに対応する類似度行列が得られた後、ステップS40を実行してもよい。第1類グループに対応する類似度行列及び第1類グループ内の各画像に対応する顔特徴によって第1類グループのクラスタリング結果について更に最適化クラスタリングし、即ち、改めてクラスタリングしてもよい。ここで、本開示の実施例は、グラフ畳み込みの方式でこの改めてクラスタリングする過程を実行してもよい。図9は本開示の実施例に係るグラフ畳み込みネットワークの構造模式図を示す。図10は本開示の実施例に係る画像のクラスタリング方法におけるステップS40のフローチャートを示し、ここで、第1類グループに対応する類似度行列及び各第1類グループ内の各画像の顔特徴に基づいて、各第1類グループ内の各画像を改めてクラスタリングし、即ち、各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得る前記各ステップ(ステップS40)は、以下のステップを含んでもよい。
S41において、各第1類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得る。
本開示の実施例は、第1類グループを改めてクラスタリングする過程で、第1類グループに対応する類似度行列を前処理してもよく、この前処理は、相違する2つの画像の間の類似度と区別するように、類似度行列中の各画像の間のそもそもの類似度を強化することができる。ここで、本開示の実施例は、各第1類グループの類似度行列と単位行列とを加算することによって前記前処理を実行してもよい。例えば、類似度行列をAとすれば、前処理された類似度行列は
Figure 2021517998
式(5)で示してもよい。ここで、
Figure 2021517998
は前処理された類似度行列を示し、
Figure 2021517998
は単位行列、即ち対角線の要素値が1で、他の要素が0である行列を示す。ここで、単位行列の次元は類似度行列の次元と同じである。
S42において、各第1類グループに対応する前処理後の類似度行列及び第1類グループ内の各画像の顔特徴に対して、少なくとも1層のグラフ畳み込み処理を実行して、各第1類グループに関する信頼度行列を取得し、前記信頼度行列内の要素が、第1類グループ内の各画像が当該第1類グループに割り当てられる信頼度を示す。
本開示の実施例では、グラフ畳み込み処理はx層を含むとすれば、各層の処理は以下の式で示してもよい。
Figure 2021517998
式(6)
ここで、
Figure 2021517998
は1つの類グループ内の画像に対して第x層のグラフ畳み込みを実行するのに入力される特徴を示し、
Figure 2021517998
は第1類グループ内の画像に対して第x層のグラフ畳み込みを実行した結果、即ち、第1類グループ内の画像の分類信頼度を示す。
Figure 2021517998
は前処理された類似度行列を示し、Dで示される要素は、
Figure 2021517998
内の各行の要素和を示し、即ち、
Figure 2021517998
式(7)であり、iは行の数を示し、jは列の数を示し、
Figure 2021517998
は画像の顔特徴を示し、
Figure 2021517998
は第x層のグラフ畳み込み処理の畳み込みパラメータを示す。
上記形態によれば、第x層のグラフ畳み込み処理で得られた
Figure 2021517998
を取得することができ、当該
Figure 2021517998
は各画像のその所在する第1類グループでの信頼度を示してもよく、各画像に基づいて得られた信頼度は、各第1類グループの信頼度行列を形成してもよい。
S43において、第1類グループ内の各画像に対応する信頼度に基づいて第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得し、即ち、前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する。
ある可能な実施形態では、ステップS42で、予測された、各画像がその所在する第1類グループに割り当てられるべきである信頼度が得られたので、この信頼度が低い場合に、この画像内の対象がその所在する第1類グループの対応する対象とマッチングしないことを示し、この時に第1類グループからこの画像を削除してもよい。
具体的には、本開示の実施例は、信頼度が第2閾値より低い画像を第1類グループから削除してもよく、それによって第1類グループ内の各画像のクラスタリング精度が保証される。ここで、第2閾値の値は、必要に応じて設定可能であり、例えば、0.95にしてもよく、又は他の値にしてもよく、本開示はこれを具体的に限定するものではない。
上記形態によれば、第1類グループを改めてクラスタリング処理し、その中の信頼度が低い画像を削除して、第1類グループに対応する第2類グループを取得することができ、更に、第1類グループ中の信頼度が第2閾値より低い画像が全て削除されて第2類グループが形成された後、いずれの第2類グループにもクラスタリングされていない画像が存在すれば、いずれの第2類グループにもクラスタリングされていない画像で第2類グループをそれぞれ形成してもよい。又は、いずれの第2類グループにもクラスタリングされていない画像の間の顔特徴類似度に基づいてこれらの画像を更にクラスタリングしてもよく、例えば、類似度が第2閾値より大きい画像を1つの第2類グループ内にクラスタリングしてもよく、この過程は画像クラスタリング精度を高めることができる。
ある他の可能な実施形態では、上記グラフ畳み込み処理を実行する過程で、各第1類グループに対応する類別信頼度を同時に取得してもよく、この類別信頼度は、第1類グループの分類信頼度、即ち第1類グループ内の画像の全体的なクラスタリング信頼度を示すためのものとなってもよく、当該類別信頼度が低い場合、対応する第1類グループ内の画像が1つの対象に対応していない可能性があり、又は、同時に複数の対象に対応しており、即ち、クラスタリング精度が低い可能性があることを示す。本開示の実施例は、ステップS42で得られた第1類グループ内の各画像の信頼度のうちの最も高い信頼度を第1類グループの類別信頼度としてもよく、又は、各画像の信頼度の平均値をこの第1類グループの類別信頼度としてもよく、他の実施例ではこの類別信頼度を他の方式によって取得してもよく、本開示は具体的に限定するものではなく、第1類グループの全体的なクラスタリング精度を示すことに用いられるものであれば、本開示の実施例としてもよい。
改めてクラスタリングされてから得られる各第2類グループの精度を高めるために、本開示の実施例は、第1類グループ内の各画像に対応する信頼度に基づいて第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する(前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する)前記ステップの前に、類別信頼度が第3閾値より低い第1類グループを削除してもよく、即ち類別信頼度が第3閾値より低い第1類グループを保留しない。以上と同様に、本開示の実施例でも第3閾値の選択を具体的に限定しなく、例えば、第3閾値を0.6にしてもよく、他の閾値にしてもよく、本開示はこれについて具体的に限定するものではない。
ステップS20においてクラスタリング処理を実行する時に、異なる閾値に基づいて第1類グループのクラスタリングを実行してもよいので、第1類グループ中のサンプルの多様性を保証することができ、即ち、1つの画像が異なる類グループにクラスタリングされる可能性があり、画像が第1類グループから削除されるか、第1類グループ全体が削除されるとしても、画像が精確にその対応する類グループに割り当てられる確率を高めることができる。以下、類別信頼度をも基づいて改めてクラスタリングする過程を詳細に説明する。
図11は本開示の実施例に係る画像のクラスタリング方法におけるステップS43のフローチャートを示す。ここで、第1類グループ内の各画像に対応する信頼度に基づいて第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する(即ち、前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する)前記ステップは、以下のステップ含んでもよい。
S431において、類別信頼度の高い順に各第1類グループに対して順序付け、即ち、類別信頼度の高い順に前記各第1類グループに対して順序付ける。
上記実施例の通り、各第1類グループ内の各画像の顔特徴のグラフ畳み込み処理を実行することによって第1類グループの類別信頼度を同時に取得でき、各第1類グループの類別信頼度が得られた後、類別信頼度に基づいて順序付けてもよく、本開示の実施例は、類別信頼度の高い順に第1類グループに対して順序付けてもよい。
S432において、j番目の第1類グループ内の信頼度が第2閾値を超えた画像に、第jのラベルを割り当て、当該j番目の第1類グループ内の信頼度が前記第2閾値より低い画像を削除して、当該j番目の第1類グループに対応する第2類グループを形成し、ここで、jは1以上且つM以下の正整数であり、Mは第1類グループの数量を示す。
類別信頼度の高い順に第1類グループに対して順序付けた後、各第1類グループに対してそれぞれ最適化クラスタリング処理を実行してもよい。ここで、信頼度が最も高い第1類グループから、この第1類グループ内の画像信頼度が第2閾値より高い画像に第1ラベルを割り当ててもよい。ここで、信頼度が第2閾値以上の画像は、第1類グループに対応する対象と同じ対象の画像として決定されることができ、この時に、画像をラベリングするために、これらの画像にラベルを割り当ててもよい。信頼度が第2閾値より小さい画像にラベルを割り当てなくてもよく、これらの第2閾値より小さい画像をこの信頼度が最も高い第1類グループから削除するようにしてもよく、この過程によって信頼度が最も高い第1類グループの最適化クラスタリングを実施し、それに対応する第2類グループが得られる。この過程で、信頼度が第2閾値より高い画像が第1ラベルをすでに割り当てられているため、この時に他の第1類グループ内の同じ画像を削除してもよく、つまり、1つの画像がラベルを割り当てられた場合に、そのクラスタリングが完了していることを示し、この時に、繰り返してクラスタリングせず、その第1類グループ内の同じ画像を削除してもよい。
類別信頼度が最も高い第1類グループに対して最適化クラスタリングを実行した後、類別信頼度が第2位となっている第1類グループを改めてクラスタリングしてもよく、その過程は上記過程と同様である。この第2位の第1類グループ内の信頼度が第2閾値以上の画像に画像をラベリング可能な第2ラベルを割り当ててもよく、これらの第2ラベルが割り当てられた画像は、第1類グループに対応する対象と同じ対象の画像として決定されてもよい。信頼度が第2閾値より小さい画像にラベルを割り当てておらず、これらの第2閾値より小さい画像をこの類別信頼度が第2位となる第1類グループから削除してもよく、この過程によって類別信頼度が第2位となる第1類グループの最適化クラスタリングを実施し、それに対応する第2類グループが得られる。この過程で、信頼度が第2閾値より高い画像が第2ラベルを割り当てられているため、この時に他の第1類グループ内の同じ画像を削除してもよく、つまり、1つの画像がラベルを割り当てられた場合に、そのクラスタリングが完了していることを示し、この時に、繰り返してクラスタリングせず、その第1類グループ内の同じ画像を削除してもよい。
以上の通り、上記過程によって類別信頼度の高い順に各第1類グループを改めてクラスタリングしてもよく、即ち、j番目の第1類グループ内の信頼度が第2閾値を超えた画像に、第jのラベルを割り当て、当該j番目の第1類グループ内の信頼度が前記第2閾値より低い画像を削除して、当該j番目の第1類グループに対応する第2類グループを形成するようにしてもよく、ここで、jは1以上且つM以下の正整数であり、Mは第1類グループの数量を示す。また、第1類グループ内の画像がラベルを割り当てられた後、他の第1類グループからこの画像を削除し、同一画像の重複クラスタリングを減少する。
上記形態によれば、各第1類グループを改めてクラスタリングして、取得される第2類グループのクラスタリング精度を高めることができる。更に、本開示の実施例において、第1類グループを全て改めてクラスタリングした後、ラベルが割り当てられていない画像が削除され、即ち、画像がいずれの第2類グループにもクラスタリングされないことがあり、この時にこれらの画像で第2類グループをそれぞれ形成してもよい。又は、これらのクラスタリングされていない画像の顔特徴類似度をそれぞれ認識してもよく、この類似度が第1閾値より高ければ、類似度が第1閾値より高い画像をクラスタリングして第2類グループを形成してもよい。それによってクラスタリング精度を更に高めることができる。
以上をまとめれば、本開示の実施例は、まず、画像内の顔特徴によって画像を初期的にクラスタリングし、次に、画像に対応する顔特徴と属性特徴とを共に用いて、初期的にクラスタリングされた結果を最適化クラスタリングするようにしてもよく、同一類内の画像の間の類似度を増加し、異なる類の間の画像の間の類似度を下げて、クラスタリング精度を高めることができる。
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。
また、本開示は画像クラスタリング装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか1種の画像のクラスタリング方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。
図12は本開示の実施例に係る画像クラスタリング装置のブロック図を示し、図12に示すように、前記画像クラスタリング装置は、
画像集合内の各画像に対応する顔特徴及び属性特徴を取得するように構成される取得モジュール10と、
前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得るように構成される第1クラスタリングモジュール20であって、各前記第1類グループに含まれる画像が、予測された、同じ対象を含む画像である第1クラスタリングモジュール20と、
各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定するように構成される決定モジュール30であって、前記類似度行列内の要素が、対応する第1類グループ内の各画像の間の類似度を示す決定モジュール30と、
各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得るように構成される第2クラスタリングモジュール40であって、第2類グループ内の画像が、最適化予測された、同じ対象を含む画像である第2クラスタリングモジュール40と、を含む。
ある可能な実施形態では、前記第1クラスタリングモジュールは、更に、
前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
前記各顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いK個の画像を決定するステップであって、Kが1以上の整数であるステップと、
前記各画像の顔特徴との類似度が最も高いK個の画像から、顔特徴の類似度が第1閾値を超えた第1画像を選択するステップと、
前記各画像及びそれに対応する前記第1画像に基づいて、第1類グループを形成するステップと、を実行するように構成される。
ある可能な実施形態では、複数の第1閾値を含み、前記第1クラスタリングモジュールは、更に、異なる第1閾値毎に対して、各前記第1閾値に対応する第1類グループを形成するために用いられる。
ある可能な実施形態では、前記決定モジュールは、
各第1類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第1類グループに関する顔特徴類似度行列を決定するように構成される第1決定ユニットであって、前記顔特徴類似度行列内の要素が、第1類グループ内の各画像の顔特徴の間の類似度を示す第1決定ユニットと、
各第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定するように構成される第2決定ユニットであって、前記属性特徴類似度行列内の要素が、第1類グループ内の各画像の属性特徴の間の類似度を示す第2決定ユニットと、
各第1類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各第1類グループに対応する前記類似度行列を得るように構成される第3決定ユニットと、を含む。
ある可能な実施形態では、前記第2決定ユニットは、更に、前記第1類グループ内の各画像の属性特徴と前記この第1類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定するステップと、
前記第1類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第1類グループに関する属性特徴類似度行列を決定するステップと、を実行するように構成される。
ある可能な実施形態では、前記顔特徴類似度行列の第i行の要素は、前記第1類グループ内のi番目の画像の顔特徴と前記第1類グループ内の各画像の顔特徴との間の類似度を示し、
前記属性特徴類似度行列の第i行の要素は、第1類グループ内のi番目の画像の属性特徴と前記第1類グループ内の各画像の属性特徴との間の類似度を示し、
iは1以上且つN以下の整数であり、Nは第1類グループ内の画像の個数を示す。
ある可能な実施形態では、前記顔特徴の間の類似度及び/又は前記属性特徴の間の類似度は、コサイン類似度である。
ある可能な実施形態では、前記第3決定ユニットは、更に、各第1類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも1層の畳み込み処理を実行して、前記の各第1類グループに対応する類似度行列を得るために用いられる。
ある可能な実施形態では、前記第2クラスタリングモジュールは、
各第1類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るように構成される前処理ユニットと、
各第1類グループに対応する前処理後の類似度行列及び第1類グループ内の各画像の顔特徴に対して、少なくとも1層のグラフ畳み込み処理を実行して、各第1類グループに関する信頼度行列を取得するように構成されるグラフ畳み込みユニットであって、前記信頼度行列内の要素が、第1類グループ内の各画像が当該第1類グループに割り当てられる信頼度を示すグラフ畳み込みユニットと、
前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得するように構成されるクラスタリングユニットと、を含む。
ある可能な実施形態では、前記クラスタリングユニットは、更に、前記第1類グループから、信頼度が第2閾値より低い画像を削除して、改めてクラスタリングされた第2類グループを取得するために用いられる。
ある可能な実施形態では、前記グラフ畳み込みユニットは、更に、前記グラフ畳み込み処理に基づいて、対応する第1類グループの分類信頼度を示す、各第1類グループに関する類別信頼度を取得するために用いられ、
前記クラスタリングユニットは、更に、第1類グループの前記類別信頼度が第3閾値より低いことに応じて、この第1類グループを削除するために用いられる。
ある可能な実施形態では、前記クラスタリングユニットは、更に、類別信頼度の高い順に前記各第1類グループに対して順序付けるステップと、
j番目の第1類グループ内の信頼度が第2閾値を超えた画像に、第jのラベルを割り当て、当該j番目の第1類グループ内の信頼度が前記第2閾値より低い画像を削除して、当該j番目の第1類グループに対応する第2類グループを形成するステップと、を実行するように構成され、jは1以上且つM以下の正整数であり、Mは第1類グループの数量を示す。
ある可能な実施形態では、前記クラスタリングユニットは、更に、M番目の第1類グループに対応する第2類グループが得られた後、前記画像集合に、いずれの第2類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第2類グループにもクラスタリングされていない各画像に基づいて、第2類グループをそれぞれ形成するために用いられる。
ある可能な実施形態では、前記前処理ユニットは、更に、前記第1類グループに対応する類似度行列と単位行列とを加算して、前記前処理を実行するために用いられる。
ある可能な実施形態では、前記取得モジュールは、
前記画像集合内の各画像の顔特徴を取得するように構成される第1ニューラルネットワークと、
前記画像集合内の各画像の属性特徴を取得するように構成される第2ニューラルネットワークと、を含む。
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。
本開示の実施例は、更に、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。コンピュータ読取可能記憶媒体は、不揮発性コンピュータ読取可能記憶媒体であってもよい。
本開示の実施例は、プロセッサにより実行される時に、上記方法を実現可能であるコンピュータプログラム製品を更に提供する。本開示の実施例は、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を更に提供する。
電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてもよい。
図13は本開示の実施例に基づいて示した電子機器800のブロック図である。例えば、装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってもよい。
図13を参照すると、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、および通信コンポーネント816の一つ以上を含むことができる。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ820を含んで命令を実行することができる。また、処理コンポーネント802は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808との対話のために、マルチメディアモジュールを含むことができる。
メモリ804は電子機器800での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器800において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ(LCD)およびタッチパネル(TP)を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク(MIC)を含む。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。
センサコンポーネント814は電子機器800に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器800の表示装置およびキーパッドであることを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行して上記方法を完了することができる。
図14は本開示の実施例に基づいて示した電子機器1900のブロック図である。例えば、電子機器1900はサーバとして提供できる。図14を参照すると、電子機器1900は、さらに一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント1922は命令を実行し、それによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークにアクセスするように構成された有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含むことができる。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は電子機器1900の処理コンポーネント1922によって実行して上記方法を完了することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。
コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を備える。
コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims (33)

  1. 画像集合内の各画像に対応する顔特徴及び属性特徴を取得するステップと、
    前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得るステップであって、各前記第1類グループに含まれる画像が、予測された、同じ対象を含む画像であるステップと、
    各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定するステップであって、前記類似度行列内の要素が、対応する第1類グループ内の各画像の間の類似度を示すステップと、
    各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得るステップであって、第2類グループ内の画像が、最適化予測された、同じ対象を含む画像であるステップと、を含む画像のクラスタリング方法。
  2. 前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得る前記ステップは、
    前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
    前記顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いK個の画像を決定するステップであって、Kが1以上の整数であるステップと、
    前記各画像の顔特徴との類似度が最も高いK個の画像から、顔特徴の類似度が第1閾値を超えた第1画像を選択するステップと、
    前記各画像及びそれに対応する前記第1画像に基づいて、第1類グループを形成するステップと、を含む請求項1に記載の方法。
  3. 複数の第1閾値を含み、前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得る前記ステップは、
    異なる第1閾値毎に対して、各前記第1閾値に対応する第1類グループを形成するステップを更に含む請求項2に記載の方法。
  4. 各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定する前記ステップは、
    各前記第1類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第1類グループに関する顔特徴類似度行列を決定し、各前記第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定するステップであって、前記顔特徴類似度行列内の要素が、前記第1類グループ内の各画像の顔特徴の間の類似度を示し、前記属性特徴類似度行列内の要素が、前記第1類グループ内の各画像の属性特徴の間の類似度を示すステップと、
    各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各前記第1類グループに対応する前記類似度行列を得るステップと、を含む請求項1−3のいずれか一項に記載の方法。
  5. 各第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定する前記ステップは、
    前記第1類グループ内の各画像の属性特徴と前記第1類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定するステップと、
    前記第1類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第1類グループに関する属性特徴類似度行列を決定するステップと、を含む請求項4に記載の方法。
  6. 前記顔特徴類似度行列の第i行の要素は、前記第1類グループ内のi番目の画像の顔特徴と前記第1類グループ内の各画像の顔特徴との間の類似度を示し、
    前記属性特徴類似度行列の第i行の要素は、第1類グループ内のi番目の画像の属性特徴と前記第1類グループ内の各画像の属性特徴との間の類似度を示し、
    iは1以上且つN以下の整数であり、Nは第1類グループ内の画像の個数を示す請求項4又は5に記載の方法。
  7. 前記顔特徴の間の類似度及び/又は前記属性特徴の間の類似度は、コサイン類似度である請求項4−6のいずれか一項に記載の方法。
  8. 各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各前記第1類グループに対応する前記類似度行列を得る前記ステップは、
    各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも1層の畳み込み処理を実行して、前記の各前記第1類グループに対応する類似度行列を得るステップを含む請求項4−7のいずれか一項に記載の方法。
  9. 各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得る前記ステップは、
    各前記第1類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るステップと、
    各前記第1類グループに対応する前処理後の類似度行列及び対応する前記第1類グループ内の各画像の顔特徴に対して、少なくとも1層のグラフ畳み込み処理を実行して、各前記第1類グループに関する信頼度行列を取得するステップであって、前記信頼度行列内の要素が、対応する前記第1類グループ内の各画像が前記第1類グループに割り当てられる信頼度を示すステップと、
    前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得するステップと、を含む請求項1−8のいずれか一項に記載の方法。
  10. 前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する前記ステップは、
    前記第1類グループから、信頼度が第2閾値より低い画像を削除して、改めてクラスタリングされた第2類グループを取得するステップを含む請求項9に記載の方法。
  11. 各前記第1類グループに対応する前処理後の類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得る前記ステップは、
    前記グラフ畳み込み処理に基づいて、各前記第1類グループに関する類別信頼度を更に取得するステップであって、前記類別信頼度が、対応する第1類グループの分類信頼度を示すステップを更に含み、
    前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する前記ステップの前に、
    前記第1類グループの前記類別信頼度が第3閾値より低いことに応じて、前記第1類グループを削除するステップを更に含む請求項9に記載の方法。
  12. 前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する前記ステップは、
    類別信頼度の高い順に前記第1類グループに対して順序付けるステップと、
    j番目の第1類グループ内の信頼度が第2閾値を超えた画像に、第jのラベルを割り当て、当該j番目の第1類グループ内の信頼度が前記第2閾値より低い画像を削除して、当該j番目の第1類グループに対応する第2類グループを形成するステップと、を含み、jは1以上且つM以下の正整数であり、Mは第1類グループの数量を示す請求項11に記載の方法。
  13. 前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得する前記ステップは、
    M番目の前記第1類グループに対応する第2類グループが得られた後、前記画像集合に、いずれの第2類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第2類グループにもクラスタリングされていない各画像に基づいて、第2類グループをそれぞれ形成するステップを更に含む請求項12に記載の方法。
  14. 各第1類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得る前記ステップは、
    前記第1類グループに対応する類似度行列と単位行列とを加算するステップを含む請求項9−13のいずれか一項に記載の方法。
  15. 画像集合内の各画像に対応する顔特徴及び属性特徴を取得する前記ステップは、
    第1ニューラルネットワークを用いて前記画像集合内の各画像の顔特徴を取得し、
    第2ニューラルネットワークを用いて前記画像集合内の各画像の属性特徴を取得するステップを含む請求項1−14のいずれか一項に記載の方法。
  16. 画像集合内の各画像に対応する顔特徴及び属性特徴を取得するように構成される取得モジュールと、
    前記画像集合内の各画像に対応する顔特徴の類似度を用いて、前記画像集合に対してクラスタリング処理を実行して、少なくとも1つの第1類グループを得るように構成される第1クラスタリングモジュールであって、各前記第1類グループに含まれる画像が、予測された、同じ対象を含む画像である第1クラスタリングモジュールと、
    各前記第1類グループ内の各画像の顔特徴及び属性特徴を用いて、各第1類グループに対する類似度行列を決定するように構成される決定モジュールであって、前記類似度行列内の要素が、対応する第1類グループ内の各画像の間の類似度を示す決定モジュールと、
    各前記第1類グループに対応する類似度行列及び各前記第1類グループ内の各画像の顔特徴に基づいて、各前記第1類グループ内の各画像を改めてクラスタリングして、少なくとも1つの第2類グループを得るように構成される第2クラスタリングモジュールであって、第2類グループ内の画像が、最適化予測された、同じ対象を含む画像である第2クラスタリングモジュールと、を含む画像クラスタリング装置。
  17. 前記第1クラスタリングモジュールは、更に、
    前記画像集合内の各画像に対応する顔特徴の間の類似度を決定するステップと、
    前記各顔特徴の間の類似度に基づいて、前記各画像の顔特徴との類似度が最も高いK個の画像を決定するステップであって、Kが1以上の整数であるステップと、
    前記各画像の顔特徴との類似度が最も高いK個の画像から、顔特徴の類似度が第1閾値を超えた第1画像を選択するステップと、
    前記各画像及びそれに対応する前記第1画像に基づいて、第1類グループを形成するステップと、を実行するように構成される請求項16に記載の装置。
  18. 複数の第1閾値を含み、前記第1クラスタリングモジュールは、更に、異なる第1閾値毎に対して、各前記第1閾値に対応する第1類グループを形成するために用いられる請求項17に記載の装置。
  19. 前記決定モジュールは、
    各前記第1類グループ内の各画像の顔特徴の間の類似度に基づいて、対応する第1類グループに関する顔特徴類似度行列を決定するように構成される第1決定ユニットであって、前記顔特徴類似度行列内の要素が、前記第1類グループ内の各画像の顔特徴の間の類似度を示す第1決定ユニットと、
    各前記第1類グループ内の各画像の属性特徴に基づいて、対応する第1類グループに関する属性特徴類似度行列を決定するように構成される第2決定ユニットであって、前記属性特徴類似度行列内の要素が、前記第1類グループ内の各画像の属性特徴の間の類似度を示す第2決定ユニットと、
    各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に基づいて、各第1類グループに対応する前記類似度行列を得るように構成される第3決定ユニットと、を含む請求項16−18のいずれか一項に記載の装置。
  20. 前記第2決定ユニットは、更に、前記第1類グループ内の各画像の属性特徴と前記この第1類グループ内の全ての画像の属性特徴との間の属性特徴類似度を決定し、
    前記第1類グループ内の全ての画像の属性特徴の間の類似度に基づいて、前記第1類グループに関する属性特徴類似度行列を決定するように構成される請求項19に記載の装置。
  21. 前記顔特徴類似度行列の第i行の要素は、前記第1類グループ内のi番目の画像の顔特徴と前記第1類グループ内の各画像の顔特徴との間の類似度を示し、
    前記属性特徴類似度行列の第i行の要素は、第1類グループ内のi番目の画像の属性特徴と前記第1類グループ内の各画像の属性特徴との間の類似度を示し、
    iは1以上且つN以下の整数であり、Nは第1類グループ内の画像の個数を示す請求項19又は20に記載の装置。
  22. 前記顔特徴の間の類似度及び/又は前記属性特徴の間の類似度は、コサイン類似度である請求項19−21のいずれか一項に記載の装置。
  23. 前記第3決定ユニットは、更に、各前記第1類グループの顔特徴類似度行列及び属性特徴類似度行列に対して、少なくとも1層の畳み込み処理を実行して、前記の各前記第1類グループに対応する類似度行列を得るように構成される請求項19−22のいずれか一項に記載の装置。
  24. 前記第2クラスタリングモジュールは、
    各前記第1類グループに対応する類似度行列を前処理して、前処理後の類似度行列を得るように構成される前処理ユニットと、
    各前記第1類グループに対応する前処理後の類似度行列及び対応する前記第1類グループ内の各画像の顔特徴に対して、少なくとも1層のグラフ畳み込み処理を実行して、各前記第1類グループに関する信頼度行列を取得するように構成されるグラフ畳み込みユニットであって、前記信頼度行列内の要素が、対応する前記第1類グループ内の各画像が前記第1類グループに割り当てられる信頼度を示すグラフ畳み込みユニットと、
    前記第1類グループ内の各画像に対応する信頼度に基づいて、前記第1類グループを改めてクラスタリングして、改めてクラスタリングされた第2類グループを取得するように構成されるクラスタリングユニットと、を含む請求項16−23のいずれか一項に記載の装置。
  25. 前記クラスタリングユニットは、更に、前記第1類グループから、信頼度が第2閾値より低い画像を削除して、改めてクラスタリングされた第2類グループを取得するように構成される請求項24に記載の装置。
  26. 前記グラフ畳み込みユニットは、前記グラフ畳み込み処理に基づいて、各前記第1類グループに関する類別信頼度を取得するようにさらに構成され、前記類別信頼度が、対応する第1類グループの分類信頼度を示し、
    前記クラスタリングユニットは、更に、前記第1類グループの前記類別信頼度が第3閾値より低いことに応じて、前記第1類グループを削除するように構成される請求項24に記載の装置。
  27. 前記クラスタリングユニットは、更に、類別信頼度の高い順に前記各第1類グループに対して順序付けるステップと、
    j番目の第1類グループ内の信頼度が第2閾値を超えた画像に、第jのラベルを割り当て、当該j番目の第1類グループ内の信頼度が前記第2閾値より低い画像を削除して、当該j番目の第1類グループに対応する第2類グループを形成するステップと、を実行するように構成され、jは1以上且つM以下の正整数であり、Mは第1類グループの数量を示す請求項26に記載の装置。
  28. 前記クラスタリングユニットは、更に、M番目の第1類グループに対応する第2類グループが得られた後、前記画像集合に、いずれの第2類グループにもクラスタリングされていない画像が存在することに応じて、いずれの第2類グループにもクラスタリングされていない各画像に基づいて、第2類グループをそれぞれ形成するように構成される請求項27に記載の装置。
  29. 前記前処理ユニットは、更に、前記第1類グループに対応する類似度行列と単位行列とを加算して、前記前処理を実行するように構成される請求項24−28のいずれか一項に記載の装置。
  30. 前記取得モジュールは、
    前記画像集合内の各画像の顔特徴を取得するように構成される第1ニューラルネットワークと、
    前記画像集合内の各画像の属性特徴を取得するように構成される第2ニューラルネットワークと、を含む請求項16−29のいずれか一項に記載の装置。
  31. プロセッサと、
    プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
    前記プロセッサが請求項1−15のいずれか一項に記載の方法を実行するように構成される電子機器。
  32. コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項1−15のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体。
  33. プロセッサにより実行される時に、請求項1−15のいずれか一項に記載の方法を実現可能であるコンピュータプログラム。
JP2020533140A 2019-03-18 2019-08-21 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体 Active JP6926339B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910204426.1 2019-03-18
CN201910204426.1A CN109800744B (zh) 2019-03-18 2019-03-18 图像聚类方法及装置、电子设备和存储介质
PCT/CN2019/101858 WO2020186689A1 (zh) 2019-03-18 2019-08-21 图像聚类方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021517998A true JP2021517998A (ja) 2021-07-29
JP6926339B2 JP6926339B2 (ja) 2021-08-25

Family

ID=66563593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533140A Active JP6926339B2 (ja) 2019-03-18 2019-08-21 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体

Country Status (7)

Country Link
US (1) US11232288B2 (ja)
JP (1) JP6926339B2 (ja)
KR (1) KR20200113195A (ja)
CN (1) CN109800744B (ja)
SG (1) SG11202006328YA (ja)
TW (1) TWI710964B (ja)
WO (1) WO2020186689A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800744B (zh) * 2019-03-18 2021-08-20 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质
CN110414429A (zh) * 2019-07-29 2019-11-05 佳都新太科技股份有限公司 人脸聚类方法、装置、设备和存储介质
CN110458078B (zh) * 2019-08-05 2022-05-06 高新兴科技集团股份有限公司 一种人脸图像数据聚类方法、系统及设备
CN110502651B (zh) * 2019-08-15 2022-08-02 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110781247B (zh) * 2019-09-23 2021-11-26 华为技术有限公司 向量聚类方法、装置及存储介质
CN110705475B (zh) * 2019-09-30 2022-05-17 北京地平线机器人技术研发有限公司 用于目标对象识别的方法、装置、介质以及设备
CN111062407B (zh) * 2019-10-15 2023-12-19 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
US11763433B2 (en) * 2019-11-14 2023-09-19 Samsung Electronics Co., Ltd. Depth image generation method and device
CN111062431A (zh) * 2019-12-12 2020-04-24 Oppo广东移动通信有限公司 图像聚类方法、图像聚类装置、电子设备及存储介质
US11676018B2 (en) * 2020-01-30 2023-06-13 Mediatek Inc. Feature extraction with keypoint resampling and fusion (KRF)
CN111291827B (zh) * 2020-02-28 2023-12-22 北京市商汤科技开发有限公司 图像聚类方法、装置、设备及存储介质
CN111767909B (zh) * 2020-05-12 2022-02-01 合肥联宝信息技术有限公司 一种字符识别方法、设备及计算机可读存储介质
CN111695531B (zh) * 2020-06-16 2023-05-23 天津师范大学 一种基于异构卷积网络的跨域行人再识别方法
CN111898704B (zh) * 2020-08-17 2024-05-10 腾讯科技(深圳)有限公司 对内容样本进行聚类的方法和装置
CN112101238A (zh) * 2020-09-17 2020-12-18 浙江商汤科技开发有限公司 聚类方法及装置、电子设备和存储介质
KR20220053426A (ko) * 2020-10-22 2022-04-29 삼성에스디에스 주식회사 이미지 클러스터링 장치 및 방법
CN112307938B (zh) * 2020-10-28 2022-11-11 深圳市商汤科技有限公司 数据聚类方法及其装置、电子设备、存储介质
JP7085605B2 (ja) * 2020-10-30 2022-06-16 みずほリサーチ&テクノロジーズ株式会社 モデル評価システム、モデル評価方法及びモデル評価プログラム
CN112560963A (zh) * 2020-12-17 2021-03-26 北京赢识科技有限公司 大规模人脸图像聚类方法、装置、电子设备及介质
CN113052245B (zh) * 2021-03-30 2023-08-25 重庆紫光华山智安科技有限公司 图像聚类方法和装置、电子设备及存储介质
CN113111934B (zh) * 2021-04-07 2023-08-08 杭州海康威视数字技术股份有限公司 一种图像分组方法、装置、电子设备及存储介质
CN113361334B (zh) * 2021-05-18 2022-07-22 山东师范大学 基于关键点优化和多跳注意图卷积行人重识别方法及系统
KR102414823B1 (ko) * 2021-11-02 2022-06-30 주식회사 에이젠글로벌 금융 서비스를 위한 금융 세그먼트 분화 방법 및 이러한 방법을 수행하는 장치
CN114492678A (zh) * 2022-04-13 2022-05-13 深圳前海中电慧安科技有限公司 一种人像聚类建档方法、装置、设备及存储介质
CN115273170A (zh) * 2022-06-14 2022-11-01 青岛云天励飞科技有限公司 图像聚类方法、装置、设备及计算机可读存储介质
CN115439676A (zh) * 2022-11-04 2022-12-06 浙江莲荷科技有限公司 图像聚类方法、装置以及电子设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783135B2 (en) * 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
CN101414348A (zh) * 2007-10-19 2009-04-22 三星电子株式会社 多角度人脸识别方法和系统
JP2010250634A (ja) * 2009-04-17 2010-11-04 Seiko Epson Corp 画像サーバー、画像検索システム、画像検索方法およびインデックス作成方法
JP6127214B2 (ja) * 2013-11-30 2017-05-10 ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 顔画像認識のための方法とシステム
CN103902689B (zh) * 2014-03-26 2016-07-20 小米科技有限责任公司 聚类方法、增量聚类方法及相关装置
US20170132457A1 (en) * 2014-06-27 2017-05-11 Beijing Qihoo Technology Company Limited Human face similarity recognition method and system
CN105574512A (zh) * 2015-12-21 2016-05-11 小米科技有限责任公司 图像处理的方法和装置
CN105654039B (zh) * 2015-12-24 2019-09-17 小米科技有限责任公司 图像处理的方法和装置
CN105868309B (zh) * 2016-03-24 2019-05-24 广东微模式软件股份有限公司 一种基于人脸图像聚类和识别技术的图像快速查找和自助打印方法
CN106250821A (zh) * 2016-07-20 2016-12-21 南京邮电大学 一种聚类再分类的人脸识别方法
CN106355170B (zh) * 2016-11-22 2020-03-20 Tcl集团股份有限公司 照片分类方法及装置
CN106815566B (zh) * 2016-12-29 2021-04-16 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
TWI731919B (zh) * 2017-01-19 2021-07-01 香港商斑馬智行網絡(香港)有限公司 圖像識別方法與裝置及度量學習方法與裝置
CN107609466A (zh) * 2017-07-26 2018-01-19 百度在线网络技术(北京)有限公司 人脸聚类方法、装置、设备及存储介质
WO2019051801A1 (zh) * 2017-09-15 2019-03-21 广东欧珀移动通信有限公司 图像处理方法、装置、计算机设备及非易失性可读存储介质
CN108154092B (zh) * 2017-12-13 2022-02-22 北京小米移动软件有限公司 人脸特征预测方法及装置
CN108875522B (zh) * 2017-12-21 2022-06-10 北京旷视科技有限公司 人脸聚类方法、装置和系统及存储介质
CN108171191B (zh) * 2018-01-05 2019-06-28 百度在线网络技术(北京)有限公司 用于检测人脸的方法和装置
CN108280477B (zh) * 2018-01-22 2021-12-10 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108229419B (zh) * 2018-01-22 2022-03-04 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108491872B (zh) * 2018-03-16 2020-10-30 深圳市商汤科技有限公司 目标再识别方法和装置、电子设备、程序和存储介质
CN108960043A (zh) * 2018-05-21 2018-12-07 东南大学 一种用于电子相册管理的人物家庭关系构建方法
CN109063737A (zh) * 2018-07-03 2018-12-21 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及移动终端
CN109117803B (zh) * 2018-08-21 2021-08-24 腾讯科技(深圳)有限公司 人脸图像的聚类方法、装置、服务器及存储介质
CN109117808B (zh) * 2018-08-24 2020-11-03 深圳前海达闼云端智能科技有限公司 面部识别方法、装置、电子设备及计算机可读介质
CN109800744B (zh) * 2019-03-18 2021-08-20 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
JP6926339B2 (ja) 2021-08-25
TWI710964B (zh) 2020-11-21
KR20200113195A (ko) 2020-10-06
US20200327311A1 (en) 2020-10-15
SG11202006328YA (en) 2020-10-29
CN109800744B (zh) 2021-08-20
CN109800744A (zh) 2019-05-24
TW202036365A (zh) 2020-10-01
US11232288B2 (en) 2022-01-25
WO2020186689A1 (zh) 2020-09-24

Similar Documents

Publication Publication Date Title
JP6926339B2 (ja) 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体
WO2020224457A1 (zh) 图像处理方法及装置、电子设备和存储介质
US20210232847A1 (en) Method and apparatus for recognizing text sequence, and storage medium
CN109089133B (zh) 视频处理方法及装置、电子设备和存储介质
US11394675B2 (en) Method and device for commenting on multimedia resource
US11455491B2 (en) Method and device for training image recognition model, and storage medium
CN110502651B (zh) 图像处理方法及装置、电子设备和存储介质
CN111583907B (zh) 信息处理方法、装置及存储介质
CN110602527A (zh) 视频处理方法、装置及存储介质
CN111583919B (zh) 信息处理方法、装置及存储介质
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN111582383B (zh) 属性识别方法及装置、电子设备和存储介质
CN107220614B (zh) 图像识别方法、装置及计算机可读存储介质
KR20210048272A (ko) 음성 및 영상 자동 포커싱 방법 및 장치
CN109101542B (zh) 图像识别结果输出方法及装置、电子设备和存储介质
CN111783517B (zh) 图像识别方法、装置、电子设备及存储介质
CN111652107B (zh) 对象计数方法及装置、电子设备和存储介质
TW202044107A (zh) 影像處理方法及裝置、電子設備和儲存介質
CN111242205B (zh) 图像清晰度检测方法、装置及存储介质
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN110781975A (zh) 图像处理方法及装置、电子设备和存储介质
CN112801116B (zh) 图像的特征提取方法及装置、电子设备和存储介质
CN114302231A (zh) 视频处理方法及装置、电子设备和存储介质
CN110795178B (zh) 应用签到方法、装置及电子设备
CN110362686B (zh) 一种词库的生成方法、装置、终端设备和服务器

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210727

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210804

R150 Certificate of patent or registration of utility model

Ref document number: 6926339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250