JP6101399B2 - クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体 - Google Patents

クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体 Download PDF

Info

Publication number
JP6101399B2
JP6101399B2 JP2016506778A JP2016506778A JP6101399B2 JP 6101399 B2 JP6101399 B2 JP 6101399B2 JP 2016506778 A JP2016506778 A JP 2016506778A JP 2016506778 A JP2016506778 A JP 2016506778A JP 6101399 B2 JP6101399 B2 JP 6101399B2
Authority
JP
Japan
Prior art keywords
cluster
distance
clusters
rank
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016506778A
Other languages
English (en)
Other versions
JP2016516251A (ja
Inventor
ジージュイン チェン
ジージュイン チェン
タオ ジャーン
タオ ジャーン
ボー ジャーン
ボー ジャーン
リン ワーン
リン ワーン
Original Assignee
シャオミ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャオミ・インコーポレイテッド filed Critical シャオミ・インコーポレイテッド
Publication of JP2016516251A publication Critical patent/JP2016516251A/ja
Application granted granted Critical
Publication of JP6101399B2 publication Critical patent/JP6101399B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンピューター技術分野に関し、特に、クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体に関する。
クラスタリングは、物理的対象又は抽象的対象の集合を、類似な対象からなる複数のクラスタに分ける過程、即ち対象を異なるクラスタに分類する過程であり、同一のクラスタに属する対象は高い類似性を持ち、異なるクラスタに属する対象は高い相違性を持つ。以下、使用された「クラスタ」の概念は、明細書に記載の「クラスタ」と「クラス」の意味と同じである。
例えば、クラスタリング方法が人の顔画像の分類に用いられる場合、同一人物に属する画像を1つのクラスタに分類するために、関連するクラスタリング方法は、Rank−Order距離を用いて2人の顔の間の類似性を評価し、同一人物の画像を集合する。しかしながら、多数の画像に含まれた人の顔の数が多く、且つ各人の画像が少ない場合、このようなクラスタリング方法のクラスタリング結果の適合率が非常に低い。
本発明は、従来技術に存在する問題を解決するために、クラスタリング結果の適合率を向上させるクラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体を提供する。
上記の技術問題を解決するために、本発明の実施例は、以下の技術方案を公開した。
本発明の実施例の第1の局面において、クラスタリング方法を提供し、前記クラスタリング方法は、クラスタ間のRank−Order距離に基づいてクラスタを繰り返して併合するステップと、クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップと、繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新するステップと、更新後のクラスタの数が更新前のクラスタの数より少ない場合、クラスタ間のRank−Order距離に基づいてクラスタを繰り返して併合するステップに戻して実行し、更新前後のクラスタの数が変わらなくなるとき、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得するステップとを含む。
第1の局面を合わせて、第1の局面の第1の実施形態において、クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップは、クラスタ内の各対象間の距離を取得するステップと、前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離の距離平均値を算出し、前記クラスタのクラスタ内集中度を取得するステップとを含む。
第1の局面を合わせて、第1の局面の第2の実施形態において、クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップは、クラスタ内の各対象間の距離を取得するステップと、前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離の距離平均値を算出するステップと、前記距離平均値を正規化することにより、前記クラスタのクラスタ内集中度を取得するステップとを含む。
第1の局面の第実施形態又は第1の局面の第2の実施形態を合わせて、第1の局面の第3の実施形態において、繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新するステップは、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象に関連マークを付けるステップと、前記関連マークに基づいて、前記クラスタ内の関連集合を決定するステップと、前記関連集合に基づいて、前記クラスタを分割して新たなクラスタを形成し、クラスタの数を更新するステップとを含む。
第1の局面を合わせて、第1の局面の第4の実施形態において、クラスタ間のRank−Order距離に基づいてクラスタを繰り返して併合するステップは、クラスタ間のRank−Order距離、及びクラスタ間のRank−Order正規化距離を取得するステップと、クラスタ間のRank−Order距離が距離閾値より小さく、且つ前記クラスタ間のRank−Order正規化距離が1より小さい場合、前記クラスタを併合するステップと、併合後のクラスタの数が併合前のクラスタの数より小さいとき、併合後のクラスタ間Rank−Order距離及びクラスタ間Rank−Order正規化距離を取得するステップとを含む。
本発明の実施例の第2の局面において、クラスタリング装置を提供し、前記クラスタリング装置は、
クラスタ間のRank−Order距離に基づいてクラスタを繰り返して併合するための反復併合ユニットと、クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するための取得ユニットと、
繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新するための区画ユニットと、更新後のクラスタの数が更新前のクラスタの数より少ない場合、前記反復併合ユニットが、クラスタ間のRank−Order距離に基づいてクラスタを繰り返して併合するように制御し、更新前後のクラスタの数が変わらなくなるとき、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得するための判断ユニットとを備える。
第2の局面を合わせて、第2の局面の第1の実施形態において、前記取得ユニットは、クラスタ内の各対象間の距離を取得するための第1の取得サブユニットと、前記クラスタの各対象間の距離の距離平均値を計算し、前記クラスタ内集中度を取得するための第1の計算サブユニットとを備える。
第2の局面を合わせて、第2の局面の第2の実施形態において、前記取得ユニットは、クラスタ内の各対象間の距離を取得するための第2の取得サブユニットと、前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離の距離平均値を算出するための第2の計算サブユニットと、前記距離平均値を正規化することにより、前記クラスタのクラスタ内集中度を取得するための正規化サブユニットとを備える。
第2の局面の第1の実施形態又は第2の局面の第2の実施形態を合わせて、第2の局面の第3の実施形態において、前記区画ユニットは、前記クラスタ内の対象間の距離が前記クラスタ内集中度より小さいか否かを判断するための第1の判断サブユニットと、前記クラスタ内の対象間の距離が前記クラスタ内集中度より小さい場合、前記クラスタ内の対象間の距離に対応する対象に関連マークを付けるためのマークサブユニットと、前記関連マークに基づいて、前記クラスタ内の関連集合を決定するための決定サブユニットと、前記関連集合に基づいて、前記クラスタを分割して新たなクラスタを形成し、クラスタの数を更新するための区画サブユニットとを備える。
第2の局面を合わせて、第2の局面の第4の実施形態において、前記反復併合ユニットは、クラスタ間のRank−Order距離、及びクラスタ間のRank−Order正規化距離を取得するための第3の取得サブユニットと、クラスタ間のRank−Order距離が距離閾値より小さく、且つ前記クラスタ間のRank−Order正規化距離が1より小さい場合、前記クラスタを併合するための併合サブユニットと、併合後のクラスタの数が併合前のクラスタの数より小さいとき、前記第3の取得サブユニットで、更新後のクラスタ間Rank−Order距離及びクラスタ間Rank−Order正規化距離を取得するステップ実行する第2の判断サブユニットとを備える。
本発明の実施例の第3の局面において、端末装置を提供し、前記端末装置は、プロセッサと、前記プロセッサが実行可能な指令を記憶するメモリとを備え、前記プロセッサは、クラスタ間のRank−Order距離に基づいてクラスタの反復併合を行い、クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得し、繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新し、更新後のクラスタの数が更新前のクラスタの数より少ない場合、更新前後のクラスタの数が変わらなくなるまで、クラスタ間のRank−Order距離に基づいてクラスタを繰り返して併合するステップに戻して実行し、更新前後のクラスタの数が変わらなくなるとき、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得するように構成される。
本発明の実施例の第4局面において、プログラムを提供し、前記プログラムは、プロセッサに実行されることにより、前記クラスタリング方法を実現する。
本発明の実施例の第5局面において、前記プログラムが記録された記録媒体を提供する。
本発明の実施例の技術方案は、以下の有益な効果を有する。前記クラスタリング方法は、クラスタ間のRank−Order距離に基づいて、併合条件に満足するクラスタを併合し、クラスタの数を減少し、また、クラスタ内の各対象間の距離に基づいて、クラスタ内集中度を計算し、そして、すべてのクラスタの分割が完了するまで、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し新たなクラスタを形成する。さらに、各クラスタを分割できなくなるまで、分割後のクラスタに対して改めて繰り返して併合し、また分割し、複数の対象を有するクラスタ及び単一の対象を有するクラスタを取得する。これにより、クラスタリングの過程において、相違性が比較的大きい対象を分離し、クラスタリング結果の適合率を向上させることを実現できる。特に、データ集合における対象が比較的多く、同一のクラスタに属する対象が比較的少ない場合、クラスタリング結果の適合率が比較的高くなる。
上記の概略的な説明と下記の詳細な説明は、例示的なものであり、本発明の範囲を限定するためのものではないと理解すべきである。
ここでの図面は、本明細書の一部として、本発明に相応しい実施例を示し、明細書と合わせて本発明の原理を解釈する。
複数の対象の序列順位を模式的に示す図である。 例示的な実施例に係るクラスタリング方法のフローチャートである。 図2におけるステップS110の例示的な実施例のフローチャートである。 図2におけるステップS110の他の例示的な実施例のフローチャートである。 図2におけるステップS120の例示的な実施例のフローチャートである。 図2におけるステップS130の例示的な実施例のフローチャートである。 例示的な実施例に係るクラスタリング装置のブロック図である。 例示的な実施例に係る端末装置のブロック図である。 例示的な実施例に係るサーバのブロック図である。
本発明について、上記図面で明確の実施例を示し、後述でより詳細に説明する。これらの図面は、何らかの方法で本発明の思想の範囲を制限するのではなく、特定な実施例を参照することで当業者に本発明のコンセプトを説明するためのものである。
ここで、図面を参照しながら、例示的な実施例を詳細に説明する。以下の説明が図面に言及する場合には、特に説明しない限り、異なる図面における同じ符号が同一又は相当な要素を表す。以下、例示的な実施例に開示された実施形態は、本発明と一致するすべての実施形態ではない。これらは、ただ添付の特許請求の範囲に記載の本発明のある局面と一致する装置と方法の例である。
本発明の例示的な実施例を説明する前に、まず、Rank−Order距離に関する知識を紹介する。対象間の距離(例えば、コサイン類似度、ユークリッド距離等)を計算し、距離の大きさに基づいて、各対象に対して改めて順番を付け、1つの序列を取得する。例えば、i、i、i、i、i、i…iのn個の対象を有する場合、対象iを基準対象として、他の各対象と対象iとの間の距離を計算し、距離の大きさに基づいて順番を付け、図1に示した序列Oを取得する。また、対象iを基準対象として、他の各対象と基準対象iとの間の距離を計算し、図1に示した序列Oを取得する。
序列Oにおける対象iとiとの間にある近隣対象が序列Oに位置する順位に基づいて、対象iとiとの間の非対称的なRank−Order距離D(i、i)を計算する。具体的には、図1の例に示すように、対象i、i、i、iがOに位置する順位がそれぞれ5、2、4、0であり、式(1)を用いて、D(i、i)を計算する。
Figure 0006101399

式(1)において、O(i)が対象iの序列Oにおける順番を表し、O(i)が対象iの序列Oにおける順番を表し、O(i)が対象iの序列Oにおける順番を表し、O(i)が対象iの序列Oにおける順番を表す。
同様に、対象iとiとの間の非対称的なRank−Order距離D(i、i)を算出し、そして、式(2)に基づいて、対象iとiとの間の正規化された後のRank−Order距離D(i、i)を算出する。
Figure 0006101399

前記D(i、i)は正規化された後の対象間のRank−Order距離を表す。クラスタ間のRank−Order距離と対象間のRank−Order距離の計算方法とは同じであり、1つのクラスタを基準クラスタとし、そして、クラスタ間の距離に基づいて、各クラスタに対して改めて順番を付ける。クラスタ間の距離が式(3)に示される。
Figure 0006101399

式(3)において、C及びCは、クラスタを表す。
クラスタ間のRank−Order距離の計算式は、式(4)に示される。
Figure 0006101399

式(4)において、D(C,C)がクラスタCとクラスタCとの間の非対称的なRank−Order距離を表し、D(C,C)がクラスタCとクラスタCとの間の非対称的なRank−Order距離を表し、Oci(C)がクラスタCのCを基準クラスタとする序列における順番を表し、Ocj(C)がクラスタCのクラスタCを基準クラスタとする序列における順番を表す。
クラスタ間の距離D(C、C)に基づいて、クラスタ間のRank−Order正規化距離D(C、C)を算出する。クラスタ間の正規化距離の計算式は、式(5)に示される。
Figure 0006101399

式(5)において、d(C、C)がクラスタCとクラスタCとの間の距離を表し、|C|及び|C|がクラスタ内の対象の数を表し、Kが常数であり、f(k)が対象aの第kの近隣対象を表し、φ(C、C)が2つのクラスタC,Cの中、それぞれに最も近いK個の対象間の平均距離を表す。
例えば、対象が人の顔画像である場合、本発明の前記クラスタリング方法は、同一人物に属する画像を集合し、1つのクラスタを形成する。人の顔画像における特徴を1組のベクトルへ変換し、そのため、対象間の距離がベクトル間の距離になる。勿論、本発明のクラスタリング方法は、他のデータに適用することもできる。
図2は、例示的な実施例に係るクラスタリング方法のフローチャートである。図2に示すように、クラスタリング方法は、端末に適用され、以下のステップを含む。
ステップS110:クラスタ間のRank−Order距離に基づいて、クラスタの併合を繰り返して行う。
2つのクラスタ間のRank−Order距離を算出し、Rank−Order距離が第1の距離閾値より小さいクラスタを併合する。前記第1の距離閾値はデータ種に基づいて決められ、或いは、実験結果から決められる。
図3に示すように、ステップS110は、以下のステップを含む。
ステップS111:クラスタ間のRank−Order距離及びクラスタ間のRank−Order正規化距離を取得する。
例えば、初期の人の顔画像の数がNである場合、各人の顔画像を1つの単独のクラスタとすると、初期のクラスタの数がNになり、また、距離閾値t及び常数Kを設定する。任意のクラスタCとCについて、上記の式(1)〜(5)を用いて、クラスタ間のRank−Order距離D(C、C)及びクラスタ間のRank−Order正規化距離D(C、C)を算出する。初期のクラスタの数がNであるため、最終的に、1つのN×NのD(C、C)マトリックス及び1つのN×NのD(C、C)マトリックスを得る。D(C、C)マトリックスにおける各ベクトルは、対応するクラスタの間のRank−Order距離を示す。例えば、D(C、C)マトリックスにおけるCijがクラスタCとC間のRank−Order距離を示し、D(C、C)マトリックスにおけるベクトルCijがクラスタCとC間のRank−Order正規化距離を示す。
ステップS112:クラスタ間のRank−Order距離が距離閾値より小さく、且つ前記クラスタ間のRank−Order正規化距離が1より小さい場合、前記クラスタを併合する。
(C、C)マトリックスから距離閾値tより小さいD(C、C)を抽出し、D(C、C)マトリックスから1より小さいD(C、C)を抽出する。D(C、C)<t、且つD(C、C)<1の場合、クラスタCとCとの類似性が高いことを確認し、クラスタC及びCを候補併合クラスタとし、そして、全ての候補併合クラスタを併合する。D(C、C)≧tの場合、クラスタCとCの類似性が低いことを確認し、D(C、C)≧1の場合、クラスタ間の離散度が高いことを表明する。
ステップS120:クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタのクラスタ内集中度を算出する。
本発明の一実施例において、図4に示すように、ステップS120は、以下のステップを含む。
ステップS121:クラスタ内の各対象間の距離を取得する。前記対象間の距離は、コサイン類似度、ユークリッド距離又はJaccard距離等であってもよい。
本発明は、コサイン類似度cosθを使用して対象間の距離を計算する場合、対象間の距離が1−cosθに定義され、即ち、対象間の距離が小さいほど対象の類似性が高くなることを説明すべきである。
ステップS122:前記クラスタ内の各対象間の距離平均値を計算することにより、前記クラスタのクラスタ内集中度を取得する。
例えば、クラスタ内の対象がnであると、算出されたクラスタ内の任意の2つの対象間の距離に基づいて、n×nの距離マトリックスdを取得する。マトリックスにおける各点は、対応する2つの対象間の距離を示し、例えば、マトリックスdにおけるベクトルdijがクラスタ内の第i対象と第j対象との間の距離を示す。このステップにおいて、マトリックスdにおける各ベクトルの平均値d_averを計算する。
本発明の他の実施例において、図5に示すように、ステップS120は、以下のステップを含む。
ステップS123:クラスタ内の各対象間の距離を取得する。
ステップS124:前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離平均値を算出する。
ステップS125:前記距離平均値を正規化することにより、前記クラスタのクラスタ内集中度を取得する。
距離平均値d_averを正規化することは、d_averを範囲内[dleft,dright]に納めることであり、dleft及びdrightが閾値であり、例えば、dleftを0.6とし、drightを0.75とする。例えば、正規化式は、式(6)に示される。
Figure 0006101399

例えば、算出された距離平均値が0.5であると、正規化を行って得られたクラスタ内集中度が0.6になり、距離平均値が0.65であると、正規化を行って得られたクラスタ内集中度が0.65になり、距離平均値が0.78であると、正規化を行って得られたクラスタ内集中度が0.75になる。
本発明の実施例において、(1−コサイン類似度)を用いてクラスタ内集中度を評価するため、クラスタ内集中度が小さいほど、クラスタ内の対象が集中し、類似性が高い。このため、クラスタ内集中度を正規化し1つの区間内に納め、例えば、[0.6,0.75]に納める。クラスタ内集中度が正規化の区間内にある場合、クラスタ内集中度に基づいて、クラスタ内の対象を区画し、クラスタ内集中度が正規化の区間内に存在しない場合、当該区間の閾値に基づいて、クラスタ内の対象を区画する。このように、クラスタ内集中度の値が大きいクラスタ(即ち、クラスタ内の離散度が大きいクラスタ)を複数のクラスタに適切に分けることを実現できるため、クラスタ内集中度が小さいクラスタを複数のクラスタに分けることを回避できる。
ステップS130:繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を、1つの新たなクラスタとして決定し、クラスタの数を更新する。
Rank−Order距離に基づいて繰り返して併合された後の各クラスタに対して、クラスタ内の対象間の距離及びクラスタ内集中度に基づいて、各クラスタを区画して新たなクラスタを取得する。ここまで、1回の繰り返し動作を完成し、そして、ステップS140を実行する。
本発明の一実施例において、図6に示すように、ステップS130は、以下のステップを含む。
ステップS131:クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象に対して関連マークを付ける。
クラスタ内の任意の対象について、前記クラスタ内対象距離マトリックスにおける当該対象とクラスタ内の他の対象との間の距離が前記クラスタ内集中度より小さいか否かを判定し、クラスタ内の対象間の距離が前記クラスタ内集中度より小さいと、対象間の類似性が高く、同一のクラスタに分ける。このとき、前記距離に対応する2つの対象に関連マークを付け、例えば、2つの人の顔画像の間の距離dijがクラスタ内集中度より小さいと、第i対象と第j対象とを関連つける。
前記クラスタ内の対象間の距離が前記クラスタ内集中度より大きいと、対象間の類似性が低く、同一のクラスタに分けることが妥当ではないと判定し、マークをつけない。
ステップS132:前記関連マークに基づいて、前記クラスタ内の関連集合を決定する。
関連付け可能な対象を1つの関連集合とし、クラスタ内の全ての対象がいくつの関連集合に分けられるかを判断する。
ステップS133:前記関連集合に基づいて、前記クラスタを分割し新たなクラスタを形成し、クラスタの数を更新する。
各関連集合に対応する対象を、1つの新たなクラスタに割り当てる。即ち、大きなクラスタは、当該クラスタに含まれる関連集合の数と同じ数の新たなクラスタに分けられる。関連集合を区画することにより、クラスタから、当該クラスタに属しない対象を分離することができ、即ち、クラスタから除外対象を分離することができる。
ステップS140:更新後のクラスタの数が更新前のクラスタの数より少ないか否かを判断する。YESの場合、ステップS110に戻して実行し、NOの場合、ステップS150へ進む。
更新後のクラスタの数が更新前のクラスタの数より少ない場合、更新前後のクラスタの数が変わらなくなるまで、クラスタ間のRank−Order距離に基づいて、クラスタの併合を繰り返して行うステップS110に戻して実行する。
Rank−Order距離に基づいてクラスタを併合し、そして、新たなクラスタを分割する過程を、1つの繰り返し対象とする。例えば、併合前のクラスタの数が6個であり、Rank−Order距離に基づいて併合された後のクラスタの数が4個になり、さらに、併合後の4個のクラスタを分割して、最後的に、5個のクラスタになり、この場合、更新後のクラスタの数が5個であり、更新前のクラスタの数が6個であるため、更新後の数が更新前の数より少ないと判断し、繰返しを実行し続ける。
更新後のクラスタの数が更新前のクラスタの数より少ない場合、クラスタ内の離散度が大きいことを示し、即ち、クラスタ内の対象の集中度が低く、除外対象が存在する可能性がある。このとき、更新後のクラスタの数が更新前のクラスタの数より大きくならない程度にまで、分割後のクラスタに対して併合を繰り返して行い、且つ新たなクラスタを分割する必要がある。
更新前後のクラスタの数が等しくなる場合、ステップS150において、複数の対象を有するクラスタと1つの対象を有するクラスタとを含むクラスタリング結果を取得する。
更新後のクラスタの数が更新前のクラスタの数と等しくなる場合、クラスタ内から分離すべき除外点が存在しないことを示す。最終的に得られたクラスタリング結果は、複数の対象を有するクラスタ及び1つの対象を有するクラスタを含む。複数の対象を有するクラスタ内の複数の対象は、同一人物の顔の画像である。1つの対象を有するクラスタは、Rank−Order距離を利用して繰り返して併合された後のクラスタから分離した除外対象である。
本実施例のクラスタリング方法によれば、Rank−Order距離を利用してクラスタを併合した後、クラスタ内の対象間の距離(例えば、1−コサイン類似度、ユークリッド距離等)を利用して、2つの対象の類似性を判断し、類似性が低い(相違性が高い)対象を前記クラスタから分離し(新たなクラスタとし)、即ちクラスタにおけるノイズを分離する。これにより、クラスタリングの適合率を向上させた。特に、データ集合における対象が比較的多いが、同一のクラスタに属する対象が比較的少ない場合、クラスタリング結果の適合率が比較的高い。
以下、表1に示すように、具体的な実験データに基づいて、本発明のクラスタリング方法の顕著な効果を説明する。
Figure 0006101399
表1において、Pがクラスタリング結果の適合率を表し、Rがクラスタリング結果における再現率を表し、CRがクラスタリング結果において、各クラスタに属する人の顔画像の平均数を表す。
表1における結果から分かるように、ケース1において、すべての画像に含まれた人の顔の数は2291であり、すべての画像に562人が含まれるので、一人当たりに4.07個の人の顔画像が対応され、即ち、すべての画像において、平均で4.07個の人の顔画像が同一人物に属する。関連のRank−Order距離を利用してクラスタリングする方法のクラスタリング結果は、その適合率が86.1%である。これに対して、本発明のクラスタリング方法を採用する場合のクラスタリングの適合率が99.1%であるため、Rank−Order距離を利用してクラスタリングする方法の適合率より遥かに高い。ケース2とケース3において、本発明のクラスタリング方法を採用する場合、その適合率もRank−Order距離を利用してクラスタリングする方法の適合率より高い。
本発明は、上記のクラスタリング方法の実施例に対応するクラスタリング装置を提供する。
図7は、例示的な実施例に係るクラスタリング装置を模式的に示す図である。図7を参照し、当該装置は、反復併合ユニット100と、取得ユニット200と、区画ユニット300と、判断ユニット400とを有する。
反復併合ユニット100は、クラスタ間のRank−Order距離に基づいて、クラスタを繰り返して併合するように構成される。
本発明の一実施例において、反復併合ユニット100は、第3の取得サブユニット、及び併合サブユニットを有する。
前記第3の取得サブユニットは、クラスタ間のRank−Order距離及びクラスタ間のRank−Order正規化距離を取得するように構成される。
前記併合サブユニットは、クラスタ間のRank−Order距離が距離閾値より小さく、且つ前記クラスタ間のRank−Order正規化距離が1より小さい場合、併合条件に満足するクラスタを併合するように構成される。
取得ユニット200は、クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するように構成される。
本発明の一実施例において、前記取得ユニット200は、第1の取得サブユニット、及び第1の計算サブユニットを有する。
前記第1の取得サブユニットは、クラスタ内の各対象間の距離を取得するように構成される。
前記第1の計算サブユニットは、前記クラスタの各対象間の距離平均値を計算することにより、前記クラスタ内集中度を取得するように構成される。
本発明の他の実施例において、前記取得ユニット200は、第2の取得サブユニットと、第2の計算サブユニットと、正規化サブユニットとを有する。
前記第2の取得サブユニットは、クラスタ内の各対象間の距離を取得するように構成される。前記第2の取得サブユニットと前記第1の取得サブユニットとの機能及び実施形態は同じである。
前記第2の計算サブユニットは、前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離平均値を算出するように構成される。
正規化サブユニットは、前記距離平均値を正規化することにより、前記クラスタのクラスタ内集中度を取得するように構成される。
区画ユニット300は、繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し、1つの新たなクラスタを形成し、クラスタの数を更新するように構成される。
本発明の一実施例において、前記区画ユニットは、第1の判断サブユニットと、マークサブユニットと、決定サブユニットと、区画サブユニットとを有する。
前記第1の判断サブユニットは、前記クラスタ内の対象間の距離が前記クラスタ内集中度より小さいか否かを判断するように構成される。
前記マークサブユニットは、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象に関連マークを付けるように構成される。
前記決定サブユニットは、前記関連マークに基づいて、前記クラスタ内の関連集合を決定するように構成される。
前記区画サブユニットは、前記関連集合に基づいて、前記クラスタを分割し新たなクラスタを形成し、そしてクラスタの数を更新するように構成される。
判断ユニット400は、更新後のクラスタの数が更新前のクラスタの数より少ないか否かを判断し、更新後のクラスタの数が更新前のクラスタの数より少ない場合、前記反復併合ユニットがクラスタ間のRank−Order距離に基づいてクラスタを繰り返して併合し、更新前後クラスタの数が変わらなくなった時、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得するように構成される。
本実施例のクラスタリング装置は、反復併合ユニットにより、クラスタ間のRank−Order距離に基づいて、併合条件に満足するクラスタを併合し、クラスタの数を減少し、また、取得ユニットにより、クラスタ内の各対象間の距離に基づいて、クラスタ内集中度を計算し、そして、区画ユニットにより、すべてのクラスタの分割が完了するまで、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し新たなクラスタを形成する。さらに、判断ユニットにより、各クラスタを分割できなくなるまで、分割後のクラスタに対して改めて繰り返して併合し、また分割し、複数の対象を有するクラスタ及び単一の対象を有するクラスタを取得する。これにより、クラスタリングの過程において、相違性が比較的大きい対象を分離し、クラスタリング結果の適合率を向上させることを実現できる。特に、データ集合における対象が比較的多く、同一のクラスタに属する対象が比較的少ない場合、クラスタリング結果の適合率が比較的高くなる。
上記実施例における装置について、各ユニットで実行する操作の具体的な形態は、該当する方法の実施例においてすでに詳しく説明したので、ここで、詳しく説明しない。
図8は、例示的な実施例に係るクラスタリング方法を使用する端末装置800のブロック図である。例えば、端末800は、携帯電話、コンピューター、デジタル放送端末、メッセージ送受信デバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタント等であってもよい。
図8を参照して、端末800は、プロセスアセンブリ802、メモリ804、電源アセンブリ806、マルチメディアアセンブリ808、オーディオアセンブリ810、入出力(I/O)インターフェイス812、センサアセンブリ814、及び通信アセンブリ816のような一つ以上のアセンブリを含んでよい。
プロセスアセンブリ802は、一般的には端末800の全体の操作を制御するものであり、例えば、表示、電話呼び出し、データ通信、カメラ操作、及び記録操作と関連する操作を制御する。プロセスアセンブリ802は、一つ以上のプロセッサ520を含み、これらによって命令を実行することにより、上記の方法の全部、或は一部のステップを実現するようにしてもよい。なお、プロセスアセンブリ802は、一つ以上のモジュールを含み、これらによってプロセスアセンブリ802と他のアセンブリの間のインタラクションを容易にするようにしてもよい。例えば、プロセスアセンブリ802は、マルチメディアモジュールを含み、これらによってマルチメディアアセンブリ808とプロセスアセンブリ802の間のインタラクションを容易にするようにしてもよい。
メモリ804は、各種類のデータを記憶することにより端末800の操作を支援するように構成される。これらのデータの例は、端末800において操作されるいずれのアプリケーションプログラム又は方法の命令、連絡対象データ、電話帳データ、メッセージ、画像、ビデオ等を含む。メモリ804は、任意の種類の揮発性又は不揮発性メモリ記憶デバイス、または、それらの組み合わせによって実現されてもよく、例えば、SRAM(Static Random Access Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、EPROM(Erasable Programmable Read Only Memory)、PROM(Programmable ROM)、ROM(Read Only Member)、磁気メモリ、フラッシュメモリ、磁気ディスク、或いは光ディスクである。
電源アセンブリ806は、端末800の多様なアセンブリに電力を供給する。電源アセンブリ806は、電源管理システム、一つ以上の電源、及び端末800のための電力の生成、管理及び割り当てに関連する他のアセンブリを含んでもよい。
マルチメディアアセンブリ808は、前記端末800とユーザの間に一つの出力インターフェイスを提供するスクリーンを含む。上記の実施例において、スクリーンは液晶モニター(LCD)とタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含むことにより、スクリーンはタッチスクリーンを実現することができ、ユーザからの入力信号を受信することができる。タッチパネルは一つ以上のタッチセンサを含んでおり、タッチ、スライド、及びタッチパネル上のジェスチャを検出することができる。前記タッチセンサは、タッチ、或はスライドの動作の境界だけでなく、前記のタッチ、或はスライド操作に係る継続時間及び圧力も検出できる。上記の実施例において、マルチメディアアセンブリ808は、一つのフロントカメラ及びリアカメラの何れかを含む。端末800が、例えば撮影モード、或はビデオモード等の操作モードにある場合、フロントカメラ及びリアカメラの何れかは外部からマルチメディアデータを受信できる。フロントカメラとリアカメラのそれぞれは、一つの固定型の光レンズ系、或はフォーカス機能と光学ズーム機能を有するものであってもよい。
オーディオアセンブリ810は、オーディオ信号を入出力するように構成されてもよい。例えば、オーディオアセンブリ810は、一つのマイク(MIC)を含み、端末800が、例えば呼出しモード、記録モード、及び音声認識モード等の操作モードにある場合、マイクは外部のオーディオ信号を受信することができる。受信されたオーディオ信号は、さらにメモリ804に記憶されたり、通信アセンブリ816を介して送信されたりされる。上記の実施例において、オーディオアセンブリ810は、オーディオ信号を出力するための一つのスピーカーをさらに含む。
I/Oインターフェイス812は、プロセスアセンブリ802と周辺インターフェイスモジュールの間にインターフェイスを提供するものであり、上記周辺インターフェイスモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボタン、ボリュームボタン、起動ボタン、ロッキングボタンを含んでもよいが、これらに限定されない。
センサアセンブリ814は、端末800に各方面の状態に対する評価を提供するための一つ以上のセンサを含む。例えば、センサアセンブリ814は、端末800のON/OFF状態、端末800のディスプレイとキーパッドのようなアセンブリの相対的な位置決めを検出できる。また、例えば、センサアセンブリ814は、端末800、或は端末800の一つのアセンブリの位置変更、ユーザと端末800とが接触しているか否か、端末800の方位、又は加速/減速、端末800の温度の変化を検出できる。センサアセンブリ814は、何れの物理的接触がない状態にて付近の物体の存在を検出するための近接センサを含んでもよい。センサアセンブリ814は、撮影アプリケーションに適用するため、CMOS、又はCCD図像センサのような光センサを含んでもよい。上記の実施例において、当該センサアセンブリ814は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、及び温度センサをさらに含んでもよい。
通信アセンブリ816は、端末800と他の機器の間に有線、又は無線の通信を提供する。端末800は、例えばWiFi、2G、3G、或はこれらの組み合わせのような、通信規格に基づいた無線ネットワークに接続されてもよい。一つの例示的な実施例において、通信アセンブリ816は、放送チャンネルを介して外部の放送管理システムからの放送信号、又は放送に関連する情報を受信する。一つの例示的な実施例において、前記通信アセンブリ816は、近距離無線通信(NFC)モジュールをさらに含むことにより、近距離通信を推進するようにする。例えば、NFCモジュールは、RFID(Radio Frequency IDentification)技術、IrDA(Infrared Data Association)技術、UWB(Ultra Wide Band)技術、BT(Bluetooth(登録商標))技術、他の技術に基づいて実現できる。
例示的な実施例において、端末800は、一つ以上のASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、DSPD(Digital Signal Processing Device)、PLD(Programmable Logic Device)、FPGA(Field−Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子部品によって実現されるものであり、上記方法を実行する。
例示的な実施例において、さらに、命令を含む非一時的なコンピュータで読み取り可能な記憶媒体、例えば命令を含むメモリ804を提供しており、端末800のプロセッサ520により上記命令を実行して上記方法を実現する。例えば、前記非一時的なコンピュータで読み取り可能な記憶媒体は、ROM、RAM(Random−Access Memory)、CD−ROM(Compact Disc ROM)、磁気テープ、フロッピーディスク(登録商標)、光データ記憶デバイス等である。
非一時的なコンピュータで読み取り可能な記憶媒体は、前記記憶媒体における指令がモバイル端末のプロセッサで実行されると、モバイル端末にクラスタリング方法を実施させる。
前記クラスタリング方法は、
クラスタ間のRank−Order距離に基づいて、クラスタを繰り返して併合するステップと、
クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップと、
繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新するステップと、
更新後のクラスタの数が更新前のクラスタの数より少ないと、クラスタ間のRank−Order距離に基づいて、クラスタを繰り返して併合するステップに戻して実行し、更新前後のクラスタの数が変わらなくなるとき、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得するステップとを含む。
選択的に、前記クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップは、
クラスタ内の各対象間の距離を取得するステップと、
前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離平均値を算出し、前記クラスタのクラスタ内集中度を取得するステップとを含む。
選択的に、前記クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップは、
クラスタ内の各対象間の距離を取得するステップと、
前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離平均値を算出するステップと、
前記距離平均値を正規化することにより、前記クラスタのクラスタ内集中度を取得するステップとを含む。
選択的に、前記繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成して、クラスタの数を更新するステップは、
クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象に関連マークを付けるステップと、
前記関連マークに基づいて、前記クラスタ内の関連集合を決定するステップと、
前記関連集合に基づいて、前記クラスタを分割し新たなクラスタを形成し、クラスタの数を更新するステップと、を含む。
選択的に、前記クラスタ間のRank−Order距離に基づいて、クラスタを繰り返して併合するステップは、
クラスタ間のRank−Order距離、及びクラスタ間のRank−Order正規化距離を取得するステップと、
クラスタ間のRank−Order距離が距離閾値より小さく、且つ前記クラスタ間のRank−Order正規化距離が1より小さい場合、前記クラスタを併合するステップとを含む。
図9は、本発明の実施例に係るサーバの構成を模式的に示す図である。例えば、当該サーバ1900は、スペック又は性能に応じて大きく相違する可能性があり、1つ又は1つ以上のCPU(central processing units)1922(例えば、1つ又は1つ以上のプロセッサ)、メモリ1932、及び1つ又は1つ以上のアプリケーション1942或いはデータ1944の記憶媒体1930(例えば、1つ又は1つ以上の大容量記憶装置)を含んでもよい。なお、メモリ1932及び記憶媒体1930は一時的な記憶装置又は長期記憶装置であってもよい。記憶媒体1930に記憶されたブログラムは、端末装置に対して一連の指令操作を実行することができる1つ又は1つ以上のモジュール(図示せず)を含んでもよい。さらに、CPU1922は、記憶媒体1930と通信し、サーバ1900において、記憶媒体1930における一連の指令操作を実行することもできる。
サーバ1900は、さらに、1つ又は1つ以上の電源1926、1つ又は1つ以上の有線又は無線ネットワークインターフェース1950、1つ又は1つ以上の入出力インターフェース1958、1つ又は1つ以上のキーボード1956、及び、1つ又は1つ以上の、例えばWindows ServerTM(登録商標)、Mac OS XTM、UnixTM(登録商標)、LinuxTM(登録商標)、FreeBSDTM等のOS(Operating System)1941の少なくとも何れかを含むことができる。
例示的な実施例において、さらに、端末装置のプロセッサ1922で実行されることで上記方法を実現する指令を含む非一時的なコンピュータで読み取り可能な記憶媒体を提供し、例えば、メモリ1932又は記憶媒体1930を提供する。例えば、前記非一時的なコンピュータで読み取り可能な記憶媒体は、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ記憶装置等であってもよい。
非一時的なコンピュータで読み取り可能な記憶媒体は、前記記憶媒体における指令が端末装置のプロセッサで実行されると、モバイル端末にクラスタリング方法を実施させる。
前記クラスタリング方法は、
クラスタ間のRank−Order距離に基づいて、クラスタを繰り返して併合するステップと、
クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップと、
繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新するステップと、
更新後のクラスタの数が更新前のクラスタの数より少ないと、クラスタ間のRank−Order距離に基づいて、クラスタを繰り返して併合するステップに戻して実行し、更新前後のクラスタの数が変わらなくなるとき、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得するステップとを含む。
選択的に、前記クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップは、
クラスタ内の各対象間の距離を取得するステップと、
前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離平均値を算出し、前記クラスタのクラスタ内集中度を取得するステップとを含む。
選択的に、前記クラスタ内の各対象間の距離を利用して、繰り返して併合された後のクラスタに対応するクラスタ内集中度を取得するステップは、
クラスタ内の各対象間の距離を取得するステップと、
前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離平均値を算出するステップと、
前記距離平均値を正規化することにより、前記クラスタのクラスタ内集中度を取得するステップとを含む。
選択的に、前記繰り返して併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成して、クラスタの数を更新するステップは、
クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象に関連マークを付けるステップと、
前記関連マークに基づいて、前記クラスタ内の関連集合を決定するステップと、
前記関連集合に基づいて、前記クラスタを分割し新たなクラスタを形成し、クラスタの数を更新するステップと、を含む。
選択的に、前記クラスタ間のRank−Order距離に基づいて、クラスタを繰り返して併合するステップは、
クラスタ間のRank−Order距離、及びクラスタ間のRank−Order正規化距離を取得するステップと、
クラスタ間のRank−Order距離が距離閾値より小さく、且つ前記クラスタ間のRank−Order正規化距離が1より小さい場合、前記クラスタを併合するステップとを含む。
本発明は、上記説明また図面に示した具体的な構成に限らず、本発明の範囲を逸脱しない限り、様々な変更及び修正を行うことができると理解すべきである。本発明の範囲は、添付の特許請求の範囲により限定される。
本明細書において、「第1の」と「第2の」等の関係用語は、単なる1つの部品又は操作と、別の部品又は操作とを区別するためのものであり、これらの部品又は操作の間に、実際に、このような関係又は順位が存在することを要求又は暗示するものではない。また、「含む」、「有する」などの用語又はその他の何らかの変形は、排他的な意味ではないので、一連の要素である過程、方法、物品又は機器を含むことは、これらの要素だけを含むことを意味するではなく、明示されていない他の要素、又はこのような過程、方法、物品又は機器が固有する要素も含むことを意味する。更なる限定がない場合、「1つの…を含む」により限定された要素というは、前記要素の過程、方法、物品又は機器の以外に、他の同一の要素が存在することが排除するわけではない。
本願は、出願番号がCN201410097422.5であって、出願日が2014年3月14日である中国特許出願に基づき優先権を主張し、当該中国特許出願のすべての内容を本願に援用する。

Claims (13)

  1. 反復併合ユニットと、
    取得ユニットと、
    区画ユニットと、
    判断ユニットと、
    を備えるクラスタリング装置におけるクラスタリング方法であって、
    前記反復併合ユニットは、クラスタ間のRank−Order距離に基づいてクラスタを
    前記取得ユニットは、クラスタ内の各対象間の距離を利用して、合された後のクラスタに対応するクラスタ内集中度を取得
    前記区画ユニットは、併合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新
    前記判断ユニットは、更新後のクラスタの数が更新前のクラスタの数より少ない場合、前記反復併合ユニットが、クラスタ間のRank−Order距離に基づいてクラスタを合するように制御し、更新前後のクラスタの数が変わらなくなるとき、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得する
    とを特徴とするクラスタリング方法。
  2. 前記取得ユニットは
    クラスタ内の各対象間の距離を取得
    前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離の距離平均値を算出し、前記クラスタのクラスタ内集中度を取得する
    とを特徴とする請求項1に記載のクラスタリング方法。
  3. 前記取得ユニットは
    クラスタ内の各対象間の距離を取得
    前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離の距離平均値を算出
    前記距離平均値を正規化することにより、前記クラスタのクラスタ内集中度を取得する
    とを特徴とする請求項1に記載のクラスタリング方法。
  4. 前記区画ユニットは
    クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象に関連マークを付け
    前記関連マークに基づいて、前記クラスタ内の関連集合を決定
    前記関連集合に基づいて、前記クラスタを分割して新たなクラスタを形成し、クラスタの数を更新する
    とを特徴とする請求項2又は3に記載のクラスタリング方法。
  5. 前記反復併合ユニットは
    クラスタ間のRank−Order距離、及びクラスタ間のRank−Order正規化距離を取得
    クラスタ間のRank−Order距離が距離閾値より小さく、且つ前記クラスタ間のRank−Order正規化距離が1より小さい場合、前記クラスタを併合する
    とを特徴とする請求項1に記載のクラスタリング方法。
  6. クラスタ間のRank−Order距離に基づいてクラスタを合するための反復併合ユニットと、
    クラスタ内の各対象間の距離を利用して、合された後のクラスタに対応するクラスタ内集中度を取得するための取得ユニットと、
    合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新するための区画ユニットと、
    更新後のクラスタの数が更新前のクラスタの数より少ない場合、前記反復併合ユニットが、クラスタ間のRank−Order距離に基づいてクラスタを合するように制御し、更新前後のクラスタの数が変わらなくなるとき、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得するための判断ユニットと
    を備えることを特徴とするクラスタリング装置。
  7. 前記取得ユニットは、
    クラスタ内の各対象間の距離を取得するための第1の取得サブユニットと、
    前記クラスタの各対象間の距離の距離平均値を計算し、前記クラスタ内集中度を取得するための第1の計算サブユニットと
    を備えることを特徴とする請求項6に記載のクラスタリング装置。
  8. 前記取得ユニットは、
    クラスタ内の各対象間の距離を取得するための第2の取得サブユニットと、
    前記クラスタ内の対象間の距離に基づいて、前記クラスタ内の各対象間の距離の距離平均値を算出するための第2の計算サブユニットと、
    前記距離平均値を正規化することにより、前記クラスタのクラスタ内集中度を取得するための正規化サブユニットと
    を備えることを特徴とする請求項6に記載のクラスタリング装置。
  9. 前記区画ユニットは、
    前記クラスタ内の対象間の距離が前記クラスタ内集中度より小さいか否かを判断するための第1の判断サブユニットと、
    前記クラスタ内の対象間の距離が前記クラスタ内集中度より小さい場合、前記クラスタ内の対象間の距離に対応する対象に関連マークを付けるためのマークサブユニットと、
    前記関連マークに基づいて、前記クラスタ内の関連集合を決定するための決定サブユニットと、
    前記関連集合に基づいて、前記クラスタを分割して新たなクラスタを形成し、クラスタの数を更新するための区画サブユニットと
    を備えることを特徴とする請求項7又は8に記載のクラスタリング装置。
  10. 前記反復併合ユニットは、
    クラスタ間のRank−Order距離、及びクラスタ間のRank−Order正規化距離を取得するための第3の取得サブユニットと、
    クラスタ間のRank−Order距離が距離閾値より小さく、且つ前記クラスタ間のRank−Order正規化距離が1より小さい場合、前記クラスタを併合するための併合サブユニットと
    を備えることを特徴とする請求項6に記載のクラスタリング装置。
  11. プロセッサと、
    前記プロセッサが実行可能な指令を記憶するメモリとを備え、
    前記プロセッサは、
    クラスタ間のRank−Order距離に基づいてクラスタの反復併合を行い、
    クラスタ内の各対象間の距離を利用して、合された後のクラスタに対応するクラスタ内集中度を取得し、
    合された各クラスタについて、クラスタ内の対象間の距離が前記クラスタ内集中度より小さい対象を抽出し1つの新たなクラスタを形成し、クラスタの数を更新し、
    更新後のクラスタの数が更新前のクラスタの数より少ない場合、更新前後のクラスタの数が変わらなくなるまで、クラスタ間のRank−Order距離に基づいてクラスタを合するステップに戻して実行し、
    更新前後のクラスタの数が変わらなくなるとき、複数の対象を有するクラスタと単一の対象を有するクラスタとを含むクラスタリング結果を取得するように構成されることを特徴とする端末装置。
  12. プロセッサに実行されることにより、請求項1乃至5のいずれか1項に記載のクラスタリング方法を実現することを特徴とするプログラム。
  13. 請求項12に記載のプログラムが記録された記録媒体。
JP2016506778A 2014-03-14 2014-07-24 クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体 Active JP6101399B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410097422.5A CN103914518B (zh) 2014-03-14 2014-03-14 聚类方法及相关装置
CN201410097422.5 2014-03-14
PCT/CN2014/082876 WO2015135276A1 (zh) 2014-03-14 2014-07-24 聚类方法及相关装置

Publications (2)

Publication Number Publication Date
JP2016516251A JP2016516251A (ja) 2016-06-02
JP6101399B2 true JP6101399B2 (ja) 2017-03-29

Family

ID=51040198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016506778A Active JP6101399B2 (ja) 2014-03-14 2014-07-24 クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体

Country Status (7)

Country Link
EP (1) EP2919165B1 (ja)
JP (1) JP6101399B2 (ja)
KR (1) KR20150117202A (ja)
CN (1) CN103914518B (ja)
MX (1) MX358804B (ja)
RU (1) RU2628167C2 (ja)
WO (1) WO2015135276A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914518B (zh) * 2014-03-14 2017-05-17 小米科技有限责任公司 聚类方法及相关装置
US10037345B2 (en) 2014-03-14 2018-07-31 Xiaomi Inc. Clustering method and device
CN104268149A (zh) * 2014-08-28 2015-01-07 小米科技有限责任公司 聚类方法及装置
CN104408130B (zh) * 2014-11-26 2018-04-27 小米科技有限责任公司 图片整理的方法及装置
CN104598544A (zh) * 2014-12-31 2015-05-06 小米科技有限责任公司 聚类分析方法、装置及设备
KR101811962B1 (ko) * 2016-12-07 2017-12-22 울산대학교 산학협력단 비선형 데이터의 클래스 변별성 평가 방법 및 장치
CN109063737A (zh) * 2018-07-03 2018-12-21 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及移动终端
CN109815788B (zh) * 2018-12-11 2024-05-31 平安科技(深圳)有限公司 一种图片聚类方法、装置、存储介质及终端设备
CN110363382A (zh) * 2019-06-03 2019-10-22 华东电力试验研究院有限公司 全能型乡镇供电所一体化业务融合技术
CN110730270B (zh) * 2019-09-09 2021-09-14 上海斑马来拉物流科技有限公司 一种短信分组方法、装置及计算机存储介质、电子设备
CN110826338B (zh) * 2019-10-28 2022-06-17 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
CN110826616B (zh) * 2019-10-31 2023-06-30 Oppo广东移动通信有限公司 信息处理方法及装置、电子设备、存储介质
TWI756597B (zh) * 2019-12-10 2022-03-01 晶睿通訊股份有限公司 隊列分析方法與影像監控設備
CN111860700B (zh) * 2020-09-22 2020-12-15 深圳须弥云图空间科技有限公司 一种能耗分类方法、装置、存储介质及设备
CN113255841B (zh) * 2021-07-02 2021-11-16 浙江大华技术股份有限公司 一种聚类方法、聚类装置和计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171823A (ja) * 1996-12-09 1998-06-26 Mitsubishi Electric Corp 文書の自動分類方法およびその装置
RU2345414C1 (ru) * 2007-08-10 2009-01-27 Общество с ограниченной ответственностью "Рекогмишн" Способ построения системы индексирования для поиска объектов на цифровых изображениях
US9171071B2 (en) * 2010-03-26 2015-10-27 Nec Corporation Meaning extraction system, meaning extraction method, and recording medium
US20120294540A1 (en) * 2011-05-17 2012-11-22 Microsoft Corporation Rank order-based image clustering
TWI465949B (zh) * 2012-08-15 2014-12-21 Acer Inc 資料分群裝置和方法
CN103473255A (zh) * 2013-06-06 2013-12-25 中国科学院深圳先进技术研究院 一种数据聚类方法、系统及数据处理设备
CN103914518B (zh) * 2014-03-14 2017-05-17 小米科技有限责任公司 聚类方法及相关装置

Also Published As

Publication number Publication date
MX358804B (es) 2018-08-29
WO2015135276A1 (zh) 2015-09-17
KR20150117202A (ko) 2015-10-19
RU2628167C2 (ru) 2017-08-15
EP2919165A2 (en) 2015-09-16
JP2016516251A (ja) 2016-06-02
EP2919165A3 (en) 2015-12-23
EP2919165B1 (en) 2018-02-07
CN103914518B (zh) 2017-05-17
CN103914518A (zh) 2014-07-09
MX2014010879A (es) 2016-08-30
RU2015129676A (ru) 2017-04-24

Similar Documents

Publication Publication Date Title
JP6101399B2 (ja) クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体
CN108701495B (zh) 用于整合和提供从多个设备收集的数据的方法以及用于实现该方法的电子设备
EP3188094A1 (en) Method and device for classification model training
TW202029055A (zh) 一種行人識別方法、裝置、電子設備及非臨時性電腦可讀儲存介質
WO2021027344A1 (zh) 图像处理方法及装置、电子设备和存储介质
US20190129520A1 (en) Screen output method and electronic device supporting same
WO2021036382A1 (zh) 图像处理方法及装置、电子设备和存储介质
JP6051336B2 (ja) クラスタリング方法、クラスタリング装置、端末装置、プログラム及び記録媒体
US10769743B2 (en) Method, device and non-transitory storage medium for processing clothes information
CN103944804A (zh) 推荐联系人的方法及装置
US20170371506A1 (en) Method, device, and computer-readable medium for message generation
CN110162956B (zh) 确定关联账户的方法和装置
RU2656978C2 (ru) Способ и устройство для рекомендации облачной карты
JP2016517110A5 (ja)
WO2020192113A1 (zh) 图像处理方法及装置、电子设备和存储介质
CN109325479B (zh) 步伐检测方法及装置
TW202044107A (zh) 影像處理方法及裝置、電子設備和儲存介質
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
CN107133361B (zh) 手势识别方法、装置和终端设备
US10037345B2 (en) Clustering method and device
CN104268149A (zh) 聚类方法及装置
CN112768064A (zh) 疾病预测装置及设备、症状信息处理方法、装置及设备
CN111062407B (zh) 图像处理方法及装置、电子设备和存储介质
CN113673603B (zh) 一种要素点匹配的方法及相关装置
EP3200127B1 (en) Method and device for fingerprint recognition

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170224

R150 Certificate of patent or registration of utility model

Ref document number: 6101399

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250