JP2019028984A - 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法 - Google Patents

非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法 Download PDF

Info

Publication number
JP2019028984A
JP2019028984A JP2018030578A JP2018030578A JP2019028984A JP 2019028984 A JP2019028984 A JP 2019028984A JP 2018030578 A JP2018030578 A JP 2018030578A JP 2018030578 A JP2018030578 A JP 2018030578A JP 2019028984 A JP2019028984 A JP 2019028984A
Authority
JP
Japan
Prior art keywords
images
image
visual
clustering
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018030578A
Other languages
English (en)
Other versions
JP7020170B2 (ja
Inventor
ガーゲンソン アンドレアス
Andreas Girgensohn
ガーゲンソン アンドレアス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2019028984A publication Critical patent/JP2019028984A/ja
Application granted granted Critical
Publication of JP7020170B2 publication Critical patent/JP7020170B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7625Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】著作権で保護された素材の再利用を検出するには、近似重複画像の検出が重要である。アプリケーションによっては、原本との比較の代わりに、近似重複したものをクラスタ化する必要がある。【解決手段】Bag of Visual Wordsとして画像を表現することは、このクラスタリング手法の第一歩である。逆索引は、視覚的単語からその視覚的単語を含むすべての画像を指し示す。次の工程では、視覚的単語の大部分を共有する画像の対の一致を幾何学的に検証する。幾何検証は、アフィン変換、透視変換、又は他の変換を使用してもよい。検証工程によって、一致する画像点の割合と比較された画像におけるそれらの分布とに基づいて類似性尺度が得られる。結果の距離行列は、集合内のほとんどの画像が互いに比較されないため、非常に疎である。この距離行列は、疎距離行列を扱うことができる修正された凝集階層クラスタリング手法の入力として使用される。【選択図】図1

Description

開示された実施形態は、全般に、コンピュータ化された画像の解析、処理、及び照合のための技術に関し、より詳細には、非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法に関する。
書籍や雑誌などの物理的な著作物をコピーする場合、コピーされた画像は原本に幾分近いが、複写機の有限な解像度、画像の回転、及び汚れにより軽微な不完全性を有することがある。本の場合、2ページが同時にコピーされることがあり、背が曲がると、結果として得られる画像が歪むことがある。原本と直接的に比較することは、著作権で保護された資料を識別する上で重要な部分だが、後で検討するために、同じ資料の異なるコピーをクラスタ化する必要もある。クラスタ化は、画像マッチング手法の有効性を実証することにも役立つ。
当技術分野で知られている画像クラスタリング手法は、k平均法などのトップダウン分割手法、又は凝集階層クラスタリングなどのボトムアップ階層手法の2つの広いカテゴリに分類される。前述のトップダウン手法は、ベクトル空間内の重心を使用して空間を分割する傾向がある。一方、画像特徴を単語として扱うことによって、当業者にはよく知られているBag of Visual Words手法が画像分類に使用される。前述のBag of Visual Words手法によれば、局所画像特徴の語彙(例えば、集合)の発生回数のベクトル(例えば、画像特徴の集合に対する疎ヒストグラム)を構築し、続いて画像分類に使用する。残念なことに、大語彙(例えば、10万語を超える単語)を使用するBag of Visual Words手法は、前述のトップダウン分割手法にはあまり適していない。
一方、ボトムアップ手法は、距離行列及び場合によって他のデータ構造に対するO(n^2)の空間計算量、並びに少なくともO(n^2)の時間計算量を有する。何百万ものドキュメント(10^6)がクラスタ化されることになると、空間及び時間の両方の計算量は数十桁(10^12)となる。例えば、1,000個のドキュメントが1秒間にクラスタ化される場合、約300時間で100万個のドキュメントがクラスタ化される。たとえ1バイトの距離でも、1兆組に対して1テラバイトのランダム・アクセス・メモリ(Random Access Memory:RAM)が必要となるため、空間計算量さえも現在のコンピュータシステムの限界を押し上げる。一方、距離は複数のバイトで表現されるため、さらに高いメモリ要件が発生する。
従来の画像クラスタリング技術の前述の欠点に鑑みて、当技術分野では、数百万画像を含む画像集合を効率的にクラスタ化する、画像クラスタリング問題に対する解決法が強く求められている。
JUN JIE FOO, JUSTIN ZOBEL, RANJAN SINHA. Clustering near-duplicate images in large collections. Proceedings of the international workshop on multimedia information retrieval, pp. 21 -30, 2007. STEPHANIE PANCOAST, MURAT AKBACAK. Bag-of-Audio-Words Approach for Multimedia Event Classification. https://www.researchgate_net/profile/Stephanie_Pancoast/publication/266057170_Bag-of-Audio-Words_Approach_for_Multimedia_Event Classification/links/551953740cf2d241f3563352.pdf STEPHANIE PANCOAST, MURAT AKBACAK. SOFTENING QUANTIZATION IN BAG-OF-AUDIO-WORDS_ 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (lCASSP), 4-9 May 2014, Florence, Italy. JEAN-JULIEN AUCOUTURIER, BORIS DEFREVILLE. FRANCOIS PACHET. The Bag-of-frames Approach to Audio Pattern Recognition: A Sufficient Model for Urban Soundscapes But Not For Polyphonic Music. The Journal of the Acoustical Society of America 122, 881 (2007)/.
本開示の技術は、画像集合を効率的にクラスタ化することを目的とする。
本明細書に記載の実施形態は、1又は複数の上記問題及び従来の画像クラスタリング技術に関する他の問題を、実質的に取り除く方法及びシステムを対象とする。
本明細書に記載される本発明の概念の1つの態様によれば、複数の画像をクラスタ化するためのコンピュータで実施される方法であって、前記コンピュータで実施される方法は、少なくとも中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに関連して実行され、前記複数の画像内の視覚的単語の語彙を生成することと、前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、前記共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することとを含む、コンピュータで実施される方法が提供される。
1又は複数の実施形態では、前記視覚的単語の語彙は、代表画像の集合から抽出された一組の画像特徴から生成される。
1又は複数の実施形態では、代表画像の集合は少なくとも100万の画像を含む。
1又は複数の実施形態では、前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、その視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む。
1又は複数の実施形態では、スケール不変特徴変換(Scale−Invariant Feature Transform:SIFT)を使用して、複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する。
1又は複数の実施形態では、語彙内の視覚的単語から、複数の画像のなかの画像を指し示す索引が逆索引である。
1又は複数の実施形態では、前記方法は、共有視覚的単語の数に基づいて、少なくとも1つの視覚的単語を選択された画像と共有する、複数の画像の収集された他の画像をソートすることをさらに含む。
1又は複数の実施形態では、前記方法は、共有視覚的単語数の最上位の数字を有する所定の数の収集された他の画像を選択することをさらに含む。
1又は複数の実施形態では、幾何検証を実行することは、選択された画像の少なくとも一部を複数の画像の別の画像にマッピングするアフィン変換を決定することを含む。
1又は複数の実施形態では、幾何検証を実行することは、選択された画像の少なくとも一部を複数の画像の別の画像にマッピングする透視変換を決定することを含む。
1又は複数の実施形態では、前記方法は、他の画像に対して共有視覚的単語の分布の均一性を検証し、所定の閾値に満たない共有視覚的単語の分布の均一性を有する他の画像を排除することをさらに含む。
1又は複数の実施形態では、他の画像に対して前記共有視覚的単語の分布の均一性を検証することは、他の画像を複数のセルを有する粗い2次元格子に分割することと、各グリッドセルについて、セル内の全視覚的単語に対して一致する視覚的単語の割合を決定することと、グリッドセル間の前記共有視覚的単語の分布の十分な均一性の統計的検定を行うこととを含む。
1又は複数の実施形態では、前記複数の画像をクラスタ化することは、修正された完全連結凝集階層クラスタリングアルゴリズムを使用して行われる。
1又は複数の実施形態では、前記複数の画像をクラスタ化することは、前記類似性尺度に基づいて計算された疎距離行列を使用して行われる。
本明細書に記載される本発明の概念の別の態様によれば、複数の画像をクラスタ化するためのコンピュータ化されたシステムであって、前記コンピュータ化されたシステムは、中央処理装置と、一組のコンピュータ実行可能命令を格納するメモリとを含み、前記一組のコンピュータ実行可能命令は、前記複数の画像内の視覚的単語の語彙を生成することと、前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、前記共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することとを含む、コンピュータ化されたシステムが提供される。
1又は複数の実施形態では、前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される。
1又は複数の実施形態では、前記代表画像の集合は、少なくとも100万個の画像を含む。
1又は複数の実施形態では、前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む。
1又は複数の実施形態では、スケール不変特徴変換(Scale−Invariant Feature Transform:SIFT)を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する。
本明細書に記載される本発明の概念のさらに別の態様によれば、中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに複数の画像をクラスタ化する方法を実行させるプログラムであって、前記方法は、前記複数の画像内の視覚的単語の語彙を生成することと、前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、前記共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することとを含む、プログラムが提供される。
本明細書に記載される本発明の概念のさらに別の態様によれば、複数の内容項目をクラスタ化するためのコンピュータで実施される方法であって、前記コンピュータで実施される方法は、中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに関連して実行され、前記複数の内容項目内の単語の語彙を生成することと、前記複数の内容項目の特徴を抽出することと、前記抽出された特徴に基づいて、前記語彙の前記単語から、前記複数の内容項目のなかの前記単語を含む内容項目を指し示す索引を生成することと、前記生成された索引を使用して、少なくとも1つの単語を選択された内容項目と共有する、前記複数の内容項目の他のすべての内容項目を収集し、前記共有された単語の数を決定することと、前記共有された単語が、前記選択された内容項目と前記複数の内容項目のなかの前記他の内容項目との同じ位置に位置するかどうかを検証するための内容検証を実行し、すべての共有単語に対して、検証された共有単語の割合を類似性尺度とすることと、前記類似性尺度に基づいて前記複数の内容項目を階層的にクラスタ化することとを含む、コンピュータで実施される方法が提供される。
1又は複数の実施形態では、前記複数の内容項目の前記内容項目はテキストである。
1又は複数の実施形態では、前記複数の内容項目の前記内容項目は音声記録である。
1又は複数の実施形態では、前記複数の内容項目の前記内容項目は映像である。
本発明に関する更なる態様は、以降に続く記述において一部は明記され、一部は本記述から明らかになり、又は本発明の実施により学ぶことができる。 本発明の態様は、特に以下の詳細な記述及び添付の請求項に示す要素及び種々の要素の組み合わせ、並びに態様によって実施し、達成することができる。
前述及び後述の両記述は例示的で説明的なものにすぎず、請求項に係る発明又はその用途をいかなる形によっても限定するものではないことを理解すべきである。
本明細書に組み込まれ本明細書の一部を構成する添付図面は、本発明の実施形態を例示し、説明と共に本発明の概念の原理を説明し例示する役割を果たす。具体的には、以下の通りである。
図1は、記載されたコンピュータ化された画像クラスタリング方法の実施形態の例示的なフローチャート100を示す。 図2は、記載された技術の例示的な実施形態による2つの例示的なページの照合を示す。 図3は、Bag of Visual Words表現及び逆索引を使用して、数百万の分析文書であっても画像クラスタリングを実現可能にする、画像クラスタリングのためのコンピュータ化されたシステムの例示的な実施形態を示す。
以下の詳細な説明では添付図面への参照がなされ、同一の機能的要素は同様の参照符号で示している。上述の添付図面は、制限するものではなく例示的なものとして、本発明の原理に一致する特定の実施形態及び実施態様を示す。これらの実施態様は、当業者が本発明を実践できるように十分に詳細に記述され、他の実施態様を利用することもでき、本発明の趣旨及び範囲から逸脱することなく構造的変更及び/又は種々の要素の置換が行われてもよいことを理解すべきである。したがって、以下の詳細な記述は、限定的な意味で解釈されるものではない。また、記載された本発明の種々の実施形態は、汎用コンピュータ上で動作するソフトウェアの形態、専用のハードウェアの形態、又はソフトウェアとハードウェアとの組み合わせで実施されてもよい。
本明細書に記載された実施形態の1つの態様によれば、Bag of Visual Words表現及び逆索引を使用して、数百万の分析文書であっても画像クラスタリングを実現可能にする、画像クラスタリングのためのコンピュータ化されたシステム及びコンピュータで実施される方法が提供される。上述したように、本明細書で使用される前述の「視覚的単語(Visual Words)」という用語は、テキスト文書に現れる単語と同様に扱われる様々な画像特徴を意味する。
1又は複数の実施形態では、記載されたシステムは、各文書のBag of Visual Wordsを並行して確認する。記載されたシステムは、Bag of Visual Wordsの各視覚的単語について、同じ視覚的単語を含む他のすべての文書を決定し、任意に確立された順序の上位の文書のみを考慮する。他の文書を収集する際、前記システムは、収集された各文書とソース文書とが共有する視覚的単語の数を表すカウンタを増加させる。一致する単語数と文書識別子との対のリストは、減少カウントによってソートされ、最初のN個の対(Nは自然数)が、Nがクラスタメンバの最大カウントを表すパラメータであるように維持される。システムは、残りの文書のそれぞれに対してソース文書の幾何検証を実行する。すべての特徴点に対する検証された特徴点の割合を、類似性尺度とする。類似性尺度の閾値によって、一致が不十分なすべての文書が除外される。低品質のコピーを処理するためには、文書を照合するための閾値が低くなければならないため、追加の工程によって、高品質のコピーが照合閾値を超えていながら文書の一部しか一致しないことを防止する。得られた類似性尺度は、前述の類似性尺度に基づいて文書集合内の画像のクラスタ化を実行する、疎距離行列を扱うことが可能な修正された凝集階層クラスタリング手法の入力として使用される。
図1は、記載されたコンピュータ化された画像クラスタリング方法の実施形態の例示的なフローチャート100を示す。1又は複数の実施形態では、文書画像内の特徴点は、当技術分野でよく知られているスケール不変特徴変換(Scale−Invariant Feature Transform:SIFT)アルゴリズムを使用して検出及び記述される局所画像特徴などのよく知られた画像特徴を使用して表され、例えば、米国特許第6711293号明細書に記載されている。1又は複数の実施形態では、その後、十分に大きな代表画像の集合から抽出された一組の画像特徴から、視覚的単語の語彙を学習する(図1の工程101を参照)。1又は複数の実施形態では、語彙生成で使用される代表画像の集合は、少なくとも100万の画像を含む。
従来技術によれば、視覚的単語の語彙生成は、類似の特徴ベクトルをクラスタ化し、クラスタ重心に類似するすべての特徴ベクトルを、クラスタ識別子、すなわち視覚的単語によって表現するクラスタリング手法を使用して行う。
1又は複数の実施形態では、クラスタ化する文書画像集合内のすべての画像に対して、例えば前述のSIFTアルゴリズムを使用して、特徴を有する特徴点を画像から抽出する(図1の工程102を参照)。1又は複数の実施形態では、前述の画像特徴点は、例えば回転、縮尺、及び歪みに対して不変である入力画像内の特有の特徴点である。この工程102において、抽出された各画像特徴点は、前述の以前の学習工程101によって決定された語彙からの視覚的単語によって表現される。
続いて、図1の工程103において、生成された視覚的単語語彙の各視覚的単語から、この視覚的単語を含むすべての画像を1又は複数回指し示す逆索引を生成する。
後続の工程は、集合内のすべての画像に対して繰り返し実行され、工程104及び109によって、前述の画像の繰返しを実施する。工程105において、現在の画像と同じ視覚的単語を含む画像を、前述の逆索引を介して配置し、共有視覚的単語の数をカウントする。工程106において、現在の画像と同じ視覚的単語を共有する配置された画像を、一致する視覚的単語の減少カウントによってソートする。その後、所定数の上位の一致画像を選択し、残りの画像を切り捨てる。
次の工程107において、アフィン変換、透視変換、又は他の適切な変換などの変換が可能な状態で、一致する視覚的単語が比較された画像内の同じ位置に配置されているかどうかを検証する幾何検証プロセスを実行する。当業者には理解されるように、本発明は、幾何検証プロセスで使用される任意の特定のタイプの変換に限定されない。一実施形態では、この目的のために、例えば米国特許第8805117号明細書に記載されている手法を使用してもよい。すべての特徴点に対する検証された特徴点の割合を、画像間の類似性尺度とする。1又は複数の実施形態では、次に、類似性尺度の閾値を使用して、一致が不十分なすべての文書画像を排除する。
1又は複数の実施形態では、工程108において、文書画像を、粗い2次元格子に分割する。各グリッドセルについて、そのセル内の全特徴点に対して一致する特徴点の割合を決定する。十分な均一性のための統計的検定を行い、一致する特徴点の分布が不均一な文書を排除する。この追加の工程108が必要とされるのは、品質の低いコピーが懸念され、低い照合閾値を必要とする場合のみである。
最後に、工程110において、記載された実施形態は、上述の工程の結果を使用して画像をクラスタ化する。一実施形態では、システムは、クラスタメンバの最大数、例えば200を表すパラメータを受け付ける。当業者には理解されるように、数がより大きくなると、計算を実行するのに必要な時間が増加する。さらに当業者によって理解されるように、本発明は、クラスタメンバの特定の最大数に限定されず、任意の適切な数のそのようなメンバを使用してもよい。
具体的には、1又は複数の実施形態では、文書対の間の類似性が一旦決定されると、修正された完全連結凝集階層クラスタリングアルゴリズムが適用される。修正は、幾何検証がすべての可能な文書対のごく一部にしか適用されず、一致する特徴点の分布が不均一性であるために一致が排除される場合もあるため、疎距離行列を扱う。また、先に述べたように、完全な距離行列は空間計算量がO(n)であるため、クラスタリングすべき文書の数が大きくなりすぎる。
当技術分野でよく知られている完全凝集階層クラスタリングアルゴリズムと同様に、1又は複数の実施形態では、前記アルゴリズムは、対の距離によって順序付けられた文書対のキューから開始する。ただし、一致する対のみがキューに含まれるため、完全なクラスタリングアルゴリズムのキューよりもはるかに小さくなる。クラスタリングアルゴリズムでは、類似性が未決定であるすべての文書対は、無限遠の距離を持つとみなされる。いずれかの対のメンバが無限遠の距離を持つクラスタはマージすることができない。
完全なクラスタツリーが単一のルートしか持たず、クラスタを選択する際にツリーが切断される従来の階層クラスタとは異なり、記載された手法では、すべてのツリーがクラスタを表し、リーフノードがクラスタメンバであるクラスタツリーのフォレストが作成される。すべての不一致が無限遠の距離として表現されるため、フォレスト内のクラスタツリーをさらに細分する必要がない。
図2は、記載された技術の例示的な実施形態による2つの例示的なページ201及び202の照合を示す。図2において、点203は、検出された特徴点を表す。実線204は類似する特徴点を接続し、破線205は幾何検証を示す。格子206は、一致する特徴点の割合の均一性を確認するために使用される。
記載された技術は、視覚的単語によって表現される画像の比較を目的としているが、当業者には理解されるように、追加の検証工程を必要とする他のBag of Words領域にも適用可能である。例えば、共有する文の数に基づいてテキスト文書をクラスタ化する場合、各文書のBag of Wordsが最初の工程で使用される。多くの単語を共有する文書では、文が比較される。
1又は複数の例示的な実施形態では、記載されたシステムは、C++及びJava(登録商標)で実装され、両方とも当技術分野でよく知られている。例示的な実施形態は、多数のCPUコアを最大限に活用する。28個のCPUコアを搭載したシステムでは、特徴点の決定及び逆索引を作成する時間をカウントしないで、約15分で135万の画像をクラスタリングできる。
1又は複数の実施形態では、単連結クラスタリングは、実験において満足のいく結果をもたらさない。例えば、BがCに類似している場合、すなわちAのみがBに類似し、BがCに類似し、CがDに類似する場合、クラスタAとBとをマージし、CとDとをマージすることがある。そのため、低品質のコピーに対応するために必要となる緩和された照合では、AとDとが互いにあまり似ていないクラスタが生成される可能性がある。一方、完全連結クラスタリングでは、Dと似ていないAはマージされない大きなクラスタ直径を生じるように、マージされたクラスタの要素の最大距離をマージされたクラスタの直径として使用する。
上述の技術は、画像のクラスタ化だけでなく、テキスト、映像、及び音声を含むがこれに限定されない他の内容項目のクラスタ化にも適用可能であることにさらに留意すべきである。このような他の内容項目については、上述したBag Of Wordsが、それぞれの特徴に基づいて特定の種類の内容項目に適した技術を使用して生成される。例えば、テキストコンテンツをクラスタ化する場合、Bag Of Wordsはテキスト内の単語を含み、検証工程ではテキスト文書内の文の比較を行う。同様に、音声コンテンツの場合のBag Of Wordsには、音声記録からの個別の音声が含まれる。したがって、当業者には理解されるように、記載された技術は画像のクラスタ化に限定されず、様々な他のタイプのコンテンツにも適用可能である。
図3は、Bag of Visual Words表現及び逆索引を使用して、数百万の分析文書であっても画像クラスタリングを実現可能にする、画像クラスタリングのためのコンピュータ化されたシステム300の例示的な実施形態を示す。1又は複数の実施形態では、コンピュータ化されたシステム300は、当業者に周知のデスクトップコンピュータのフォームファクタの範囲で実装されてもよい。代替の実施形態では、コンピュータ化されたシステム300は、ラップトップ若しくはノートブックコンピュータ、又はスマートフォン若しくはタブレットコンピュータなどの他の携帯型コンピュータ装置に基づいて実装してもよい。
コンピュータ化されたシステム300は、コンピュータ化されたシステム300の種々のハードウェアコンポーネント間において、また種々のハードウェアコンポーネントにわたって情報を通信するためのデータバス304又は他の相互連結機構若しくは通信機構と、データバス304に電気的に結合されて情報を処理し、他の計算タスク及び制御タスクを行う中央処理装置(Central processing unit:CPU、又は単に処理装置)301を備えてもよい。コンピュータ化されたシステム300は、さらに、データバス304に接続され、種々の情報及び処理装置301が実行する命令を記憶するランダム・アクセス・メモリ(Random Access Memory:RAM)又は他の動的記憶装置などのメモリ312を備える。メモリ312は、さらに、磁気ディスク、光ディスク、ソリッド・ステート・フラッシュ・メモリ装置、又は他の不揮発性ソリッドステート記憶装置などの永続的記憶装置を含んでもよい。
1又は複数の実施形態では、メモリ312を使用して、テンポラリ変数又は処理装置301によって命令を実行する際の他の中間情報を記憶してもよい。コンピュータ化されたシステム300は、さらに任意で、データバス304に接続され、コンピュータ化されたシステム300の動作に必要となるファームウェア、基本入出力システム(Basic Input−Output System:BIOS)、及びコンピュータ化されたシステム300の種々の設定パラメータなどの静的情報及び処理装置301への命令を記憶する読出し専用メモリ(Read only memory:ROM又はEPROM)302、又は他の静的記憶装置を備えてもよい。
1又は複数の実施形態では、コンピュータ化されたシステム300が表示装置(ディスプレイ)311を組み込んでもよく、本明細書に記載されるクラスタ化された文書画像を示すユーザインタフェースなどの様々な情報をコンピュータシステム300のユーザに表示するために、データバス304にさらに電気的に結合されてもよい。代替の実施形態では、表示装置311は、グラフィックスコントローラ及び/又はグラフィックス処理装置(図示せず)に関連付けられてもよい。表示装置311は、例えば、いずれも当業者によく知られている薄膜トランジスタ(Thin−Film Transistor:TFT)技術又は有機発光ダイオード(Organic Light Emitting Diode:OLED)技術を使用して製造された、液晶ディスプレイ(Liquid Crystal Display:LCD)として実装してもよい。様々な実施形態では、表示装置311は、コンピュータ化されたシステム300の残りの構成要素と同じ一般的な筐体に組み込まれてもよい。代替の実施形態では、表示装置311を、テーブル又はデスクの表面上など、そのような筐体の外側に配置してもよい。1又は複数の実施形態では、コンピュータ化されたシステム300は、マイクロフォンなどの音声記録(キャプチャ)装置303をさらに組み込んでもよい。
1又は複数の実施形態では、コンピュータ化されたシステム300は、データバス304に電気的に結合され、当業者にはよく知られている、MPEG−3ファイルなどの様々な音声ファイル、又はMPEG−4ファイルなどの様々な映像ファイルの音声トラックを再生するように構成された音声再生装置325をさらに組み込んでもよい。このために、コンピュータ化されたシステム300は、電波処理装置若しくは音声処理装置、又は同様の装置(図示せず)を組み込んでもよい。
1又は複数の実施形態では、コンピュータ化されたシステム300は、方向情報及びコマンド選択を処理装置301と通信し、ディスプレイ311上のカーソル移動を制御するための、マウス、トラックボール、タッチパッド、又はカーソル方向キーなどのマウス/ポインティング装置310などの1又は複数の入力装置を組み込んでもよい。この入力装置は、典型的には、第1の軸(例えば、x)及び第2の軸(例えば、y)の2つの軸の2つの自由度を有し、これによって装置が平面内の位置を指定できる。
コンピュータ化されたシステム300はさらに、本明細書に記載の文書画像を含む様々なオブジェクトの静止画像及び映像を取得するためのカメラ326と、キーボード306とを組み込んでもよく、これらはすべて情報及びユーザコマンド(ジェスチャを含む)を処理装置301に通信するためにデータバス304に接続されてよく、その情報には画像及び映像が含まれるが、これに限定されない。
1又は複数の実施形態では、コンピュータ化されたシステム300は、さらに、データバス304に接続されたネットワークインタフェース305などの通信インタフェースを備えてもよい。ネットワークインタフェース305は、Wi−Fiアダプタ307、セルラーネットワーク(GSM(登録商標)又はCDMA)アダプタ308、及び/又はローカル・エリア・ネットワーク(Local Area Network:LAN)アダプタ309の少なくとも1つを使用して、コンピュータ化されたシステム300とインターネット324との間の接続を確立するように構成してもよい。ネットワークインタフェース305は、コンピュータ化されたシステム300とインターネット324との間で双方向データ通信できるように構成してもよい。Wi−Fiアダプタ307は、当業者にとってよく知られている802.11aプロトコル、802.11bプロトコル、802.11gプロトコル、及び/又は802.11nプロトコル、並びにBluetooth(登録商標)プロトコルに従って動作してもよい。コンピュータ化されたシステム300のLANアダプタ309は、例えば、インターネットサービスプロバイダのハードウェア(図示せず)を使用してインターネット324に接続され、対応するタイプの電話回線にデータ通信接続を提供する、サービス総合デジタル網(Integrated Services Digital Network:ISDN)カード又はモデムを使用して実装してもよい。別の例として、LANアダプタ309は、互換性のあるLAN及びインターネット324へのデータ通信接続を提供するローカル・エリア・ネットワーク・インタフェース・カード(Local Area Network Interface Card:LAN NIC)であってもよい。1つの例示的な実施態様では、Wi−Fiアダプタ307、セルラーネットワーク(GSM(登録商標)又はCDMA)アダプタ308、及び/又はLANアダプタ309が、様々な種類の情報を表すデジタル・データ・ストリームを伝達する電気信号又は電磁信号を送受信する。
1又は複数の実施形態では、典型的に、インターネット324が1又は複数のサブネットワーク介して、データ通信を他のネットワークリソースに提供する。そのため、コンピュータ化されたシステム300は、リモート・メディア・サーバ、Webサーバ、他のコンテンツサーバ、及び他のネットワーク・データ・ストレージ・リソースなどの、インターネット324上のあらゆる場所に存在する様々なネットワークリソースにアクセスすることができる。1又は複数の実施形態では、コンピュータ化されたシステム300は、ネットワークインタフェース305によって、インターネット324を含む様々なネットワークを介して、メッセージ、メディア、及びアプリケーションプログラムコードを含む他のデータを送受信するように構成される。インターネットの例では、コンピュータ化されたシステム300がネットワーククライアントとして作用する場合、コンピュータ化されたシステム300で実行するアプリケーションプログラムのためのコード又はデータを要求してもよい。同様に、コンピュータ化されたシステム300は、種々のデータ又はコンピュータコードを、他のネットワークリソースに送信してもよい。
1又は複数の実施形態では、メモリ312に格納される1又は複数の命令の1又は複数のシーケンスを処理装置(CPU)301が実行するのに応答して、本明細書に記載の機能がコンピュータ化されたシステム300によって実現される。このような命令は、他のコンピュータ読取り可能媒体からメモリ312に読み込まれてもよい。メモリ312に格納される命令のシーケンスを実行することによって、処理装置301が、本明細書に記載の種々の処理工程を行う。代替の実施形態では、ソフトウェア命令の代わりに、又はソフトウェア命令と共にハードワイヤード回路を使用して、本発明の実施形態を実施してもよい。したがって、記載された本発明の実施形態はハードウェア回路及び/又はソフトウェアのいかなる特定の組み合わせに限定されるものではない。
本明細書で使用される「コンピュータ読取り可能媒体」という用語は、実行のための命令を処理装置301に提供することに関連する、あらゆる媒体を意味する。コンピュータ読取り可能媒体は、本明細書に記載の任意の方法及び/又は技術を実現するための命令を伝達できる、機械読取り可能媒体の一例にすぎない。このような媒体は、不揮発性媒体及び揮発性媒体などの多くの形態を取ることができるが、これらに限定されない。
一般的な非一過性コンピュータ読取り可能媒体としては、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、若しくは他の磁気媒体、CD−ROM、他の任意の光学媒体、パンチカード、紙テープ、せん孔パターンを有する他の任意の物理媒体、RAM、PROM、EPROM、FLASH−EPROM、フラッシュドライブ、メモリカード、他の任意のメモリチップ若しくはカートリッジ、又はコンピュータによって読み出すことができる他の任意の媒体が挙げられる。コンピュータ読取り可能媒体の種々の形態では、実行のための1又は複数の命令の1又は複数のシーケンスを、処理装置301に伝達してもよい。例えば、初めに、リモートコンピュータから磁気ディスクによって命令を伝達してもよい。又は、リモートコンピュータが自身の動的メモリに命令を読み込んで、インターネット324を介してその命令を送信してもよい。具体的には、当技術分野でよく知られている様々なネットワークデータ通信プロトコルを使用し、インターネット324を介して、コンピュータ命令を上述のリモートコンピュータからコンピュータ化されたシステム300のメモリ312にダウンロードしてもよい。
1又は複数の実施形態では、コンピュータ化されたシステム300のメモリ312が、以下の任意のソフトウェアプログラム、アプリケーション、又はモジュールを記憶してもよい。メモリ312には、CPU301とメモリ312とを備えたコンピュータ化されたシステムに、図1に示す、複数の画像をクラスタ化する方法を実行させるプログラムが記憶されている。
1.基本システムサービスを実行し、コンピュータ化されたシステム300の様々なハードウェアコンポーネントを管理するオペレーティングシステム(Operating System:OS)313。オペレーティングシステム313の例示的な実施形態は、当業者にはよく知られており、現在知られている、又は今後開発されるモバイル・オペレーティング・システムを含んでもよい。
2.アプリケーション314は、例えば、コンピュータ化されたシステム300の処理装置301によって実行され、コンピュータ化されたシステム300に、表示装置311上にグラフィカル・ユーザ・インタフェースを表示する、又はカメラ326を使用して文書画像をキャプチャするなどの特定の所定の機能を実行させる、一組のソフトウェアアプリケーションを含んでもよい。1又は複数の実施形態では、アプリケーション314は、本明細書に記載された近似重複画像をクラスタ化するための本発明のアプリケーション315を含んでもよい。
3.データ記憶領域321は、例えば、画像クラスタリングで使用される様々なデータ構造322を格納してもよい。さらに、データ記憶領域321は、クラスタ化される文書の画像ファイル323及び索引データ327を含んでもよい。
1又は複数の実施形態では、本発明の画像クラスタリングアプリケーション315は、画像特徴点を検出し、画像特徴を使用してそれらを記述するように構成された画像特徴検出モジュール316を組み込む。さらに、上述した視覚的単語語彙を生成する視覚的単語語彙生成モジュール317を設けてもよい。さらに追加で、上述した逆索引を生成するための逆索引生成モジュール318を設け、画像間で共有される視覚的単語をカウントし、共有視覚的単語の減少カウントに基づいて画像をソートしてもよい。さらに、幾何検証を実行し、画像間の類似性尺度を決定するための幾何検証モジュール319を設けてもよい。最後に、クラスタリングモジュール320を設け、類似性尺度に基づいて画像のクラスタ化を促進してもよい。
最後に、本明細書に記載の工程及び技術は、いかなる特定の装置に本質的に関係するものではなく、構成要素の任意の適切な組み合わせによって実行できることを理解すべきである。また、本明細書に記載の教示に従って、各種汎用機器を使用してもよい。さらに、専用の装置を構築し、本明細書に記載の方法工程を実行することが有効であるともいえる。特定の例に関連して本発明が説明されたが、あらゆる点で例示的なものであって、限定的ではない。ハードウェア、ソフトウェア、及びファームウェアの多くの異なる組み合わせが、本発明の実施に適していることが、当業者には明らかになるであろう。例えば記述されたソフトウェアを、Assembler、C/C++、Objective−C、perl、shell、PHP、Java(登録商標)、及び現在知られている、又は今後開発されるプログラム言語又はスクリプト言語などの多種多様なプログラム言語又はスクリプト言語によって実装してもよい。
また、本明細書に開示の本発明の明細書及び実施を考慮すると、本発明の他の実施態様が当業者には明らかであろう。説明された実施形態の様々な態様及び/又は構成要素は、画像クラスタリングのためのシステム及び方法において、単独で、又は任意の組み合わせで使用され得る。明細書及び実施例は例示を意図したものにすぎず、本発明の真の範囲及び趣旨は、以下の特許請求の範囲によって示される。

Claims (24)

  1. 複数の画像をクラスタ化するためのコンピュータで実施される方法であって、中央処理装置とメモリとを備えたコンピュータ化されたシステムに関連して実行され、
    a.前記複数の画像内の視覚的単語の語彙を生成することと、
    b.前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
    c.前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
    d.前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
    e.共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
    f.前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
    を含む、コンピュータで実施される方法。
  2. 前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される、請求項1に記載のコンピュータで実施される方法。
  3. 前記代表画像の集合は、少なくとも100万個の画像を含む、請求項2に記載のコンピュータで実施される方法。
  4. 前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む、請求項1に記載のコンピュータで実施される方法。
  5. スケール不変特徴変換(Scale−Invariant Feature Transform:SIFT)を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する、請求項1に記載のコンピュータで実施される方法。
  6. 前記語彙内の前記視覚的単語から、前記複数の画像のなかの画像を指し示す索引が逆索引である、請求項1に記載のコンピュータで実施される方法。
  7. 前記共有視覚的単語の数に基づいて、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の前記収集された他の画像をソートすることをさらに含む、請求項1に記載のコンピュータで実施される方法。
  8. 共有視覚的単語数の最上位の数字を有する所定の数の前記収集された他の画像を選択することをさらに含む、請求項7に記載のコンピュータで実施される方法。
  9. 前記幾何検証を実行することは、前記選択された画像の少なくとも一部を前記複数の画像の別の画像にマッピングするアフィン変換を決定することを含む、請求項1に記載のコンピュータで実施される方法。
  10. 前記幾何検証を実行することは、前記選択された画像の少なくとも一部を前記複数の画像の別の画像にマッピングする透視変換を決定することを含む、請求項1に記載のコンピュータで実施される方法。
  11. 前記他の画像に対して前記共有視覚的単語の分布の均一性を検証することと、所定の閾値に満たない前記共有視覚的単語の分布の均一性を有する他の画像を排除することとをさらに含む、請求項1に記載のコンピュータで実施される方法。
  12. 前記他の画像に対して前記共有視覚的単語の前記分布の均一性を検証することは、前記他の画像を複数のセルを有する粗い2次元格子に分割することと、各グリッドセルについて、前記セル内の全視覚的単語に対して一致する視覚的単語の割合を決定することと、グリッドセル間の前記共有視覚的単語の分布の十分な均一性の統計的検定を行うこととを含む、請求項11に記載のコンピュータで実施される方法。
  13. 前記複数の画像をクラスタ化することは、修正された完全連結凝集階層クラスタリングアルゴリズムを使用して行われる、請求項1に記載のコンピュータで実施される方法。
  14. 前記複数の画像をクラスタ化することは、前記類似性尺度に基づいて計算された疎距離行列を使用して行われる、請求項1に記載のコンピュータで実施される方法。
  15. 複数の画像をクラスタ化するためのコンピュータ化されたシステムであって、中央処理装置と、一組のコンピュータ実行可能命令を格納するメモリとを備え、前記一組のコンピュータ実行可能命令は、
    a.前記複数の画像内の視覚的単語の語彙を生成することと、
    b.前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
    c.前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
    d.前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
    e.共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
    f.前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
    を含む、コンピュータ化されたシステム。
  16. 前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される、請求項15に記載のコンピュータ化されたシステム。
  17. 代表画像の集合は、少なくとも100万個の画像を含む、請求項15に記載のコンピュータ化されたシステム。
  18. 前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む、請求項15に記載のコンピュータ化されたシステム。
  19. スケール不変特徴変換(Scale−Invariant Feature Transform:SIFT)を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する、請求項15に記載のコンピュータ化されたシステム。
  20. 中央処理装置とメモリとを備えたコンピュータ化されたシステムに複数の画像をクラスタ化する方法を実行させるプログラムであって、
    前記方法は、
    a.前記複数の画像内の視覚的単語の語彙を生成することと、
    b.前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
    c.前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
    d.前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
    e.共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
    f.前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
    を含む、プログラム。
  21. 複数の内容項目をクラスタ化するためのコンピュータで実施される方法であって、中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに関連して実行され、
    a.前記複数の内容項目内の単語の語彙を生成することと、
    b.前記複数の内容項目の特徴を抽出することと、
    c.前記抽出された特徴に基づいて、前記語彙の前記単語から、前記複数の内容項目のなかの前記単語を含む内容項目を指し示す索引を生成することと、
    d.前記生成された索引を使用して、少なくとも1つの単語を選択された内容項目と共有する、前記複数の内容項目の他のすべての内容項目を収集し、前記共有された単語の数を決定することと、
    e.前記共有された単語が、前記選択された内容項目と前記複数の内容項目のなかの前記他の内容項目との同じ位置に位置するかどうかを検証するための内容検証を実行し、すべての共有単語に対して、検証された共有単語の割合を類似性尺度とすることと、
    f.前記類似性尺度に基づいて前記複数の内容項目を階層的にクラスタ化することと
    を含む、コンピュータで実施される方法。
  22. 前記複数の内容項目における前記内容項目がテキストである、請求項21に記載のコンピュータで実施される方法。
  23. 前記複数の内容項目における前記内容項目が音声記録である、請求項21に記載のコンピュータで実施される方法。
  24. 前記複数の内容項目における前記内容項目が映像である、請求項21に記載のコンピュータで実施される方法。
JP2018030578A 2017-07-30 2018-02-23 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法 Active JP7020170B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/663,815 US10504002B2 (en) 2017-07-30 2017-07-30 Systems and methods for clustering of near-duplicate images in very large image collections
US15/663815 2017-07-30

Publications (2)

Publication Number Publication Date
JP2019028984A true JP2019028984A (ja) 2019-02-21
JP7020170B2 JP7020170B2 (ja) 2022-02-16

Family

ID=65038663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018030578A Active JP7020170B2 (ja) 2017-07-30 2018-02-23 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法

Country Status (2)

Country Link
US (1) US10504002B2 (ja)
JP (1) JP7020170B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582306A (zh) * 2020-03-30 2020-08-25 南昌大学 一种基于关键点图表示的近重复图像匹配方法
CN111898544B (zh) * 2020-07-31 2023-08-08 腾讯科技(深圳)有限公司 文字图像匹配方法、装置和设备及计算机存储介质
CN112182279B (zh) * 2020-12-03 2021-03-19 武大吉奥信息技术有限公司 一种基于离散网格与影像匹配的室内自定位方法及设备
US11635878B2 (en) * 2021-01-31 2023-04-25 Walmart Apollo, Llc Systems and methods for altering a graphical user interface

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001160057A (ja) * 1999-12-03 2001-06-12 Nippon Telegr & Teleph Corp <Ntt> 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体
JP2005122690A (ja) * 2003-07-02 2005-05-12 Sony United Kingdom Ltd 情報処理
JP2012079187A (ja) * 2010-10-05 2012-04-19 Yahoo Japan Corp 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム
JP2013206436A (ja) * 2012-03-29 2013-10-07 Rakuten Inc 画像検索装置、画像検索方法、プログラムおよびコンピュータ読取り可能な記憶媒体
JP2014197386A (ja) * 2013-03-08 2014-10-16 キヤノン株式会社 画像処理装置および画像処理方法
JP2017111553A (ja) * 2015-12-15 2017-06-22 ヤフー株式会社 画像認識装置及び画像認識装置の動作方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
US8385971B2 (en) * 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US8805117B2 (en) 2011-07-19 2014-08-12 Fuji Xerox Co., Ltd. Methods for improving image search in large-scale databases
US9740963B2 (en) * 2014-08-05 2017-08-22 Sri International Multi-dimensional realization of visual content of an image collection
US9697233B2 (en) * 2014-08-12 2017-07-04 Paypal, Inc. Image processing and matching

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001160057A (ja) * 1999-12-03 2001-06-12 Nippon Telegr & Teleph Corp <Ntt> 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体
JP2005122690A (ja) * 2003-07-02 2005-05-12 Sony United Kingdom Ltd 情報処理
JP2012079187A (ja) * 2010-10-05 2012-04-19 Yahoo Japan Corp 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム
JP2013206436A (ja) * 2012-03-29 2013-10-07 Rakuten Inc 画像検索装置、画像検索方法、プログラムおよびコンピュータ読取り可能な記憶媒体
JP2014197386A (ja) * 2013-03-08 2014-10-16 キヤノン株式会社 画像処理装置および画像処理方法
JP2017111553A (ja) * 2015-12-15 2017-06-22 ヤフー株式会社 画像認識装置及び画像認識装置の動作方法

Also Published As

Publication number Publication date
US20190034758A1 (en) 2019-01-31
JP7020170B2 (ja) 2022-02-16
US10504002B2 (en) 2019-12-10

Similar Documents

Publication Publication Date Title
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
US11023682B2 (en) Vector representation based on context
Thyagharajan et al. A review on near-duplicate detection of images using computer vision techniques
Sun et al. LSTM for dynamic emotion and group emotion recognition in the wild
US11263223B2 (en) Using machine learning to determine electronic document similarity
JP7020170B2 (ja) 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法
US10713306B2 (en) Content pattern based automatic document classification
US20160328384A1 (en) Exploiting multi-modal affect and semantics to assess the persuasiveness of a video
CN104484671B (zh) 应用于移动平台的目标检索系统
US20220230648A1 (en) Method, system, and non-transitory computer readable record medium for speaker diarization combined with speaker identification
US20200175332A1 (en) Out-of-sample generating few-shot classification networks
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
CN110647832A (zh) 获取证件中信息的方法和装置、电子设备和存储介质
US20220044105A1 (en) Training multimodal representation learning model on unnanotated multimodal data
CN106663123B (zh) 以评论为中心的新闻阅读器
Zhang et al. Large‐scale video retrieval via deep local convolutional features
US11227231B2 (en) Computational efficiency in symbolic sequence analytics using random sequence embeddings
Amato et al. Aggregating binary local descriptors for image retrieval
Mironica et al. Fisher kernel based relevance feedback for multimodal video retrieval
CN115544257B (zh) 网盘文档快速分类方法、装置、网盘及存储介质
CN103870476A (zh) 检索方法及设备
Wang et al. Random angular projection for fast nearest subspace search
US20230186072A1 (en) Extracting explanations from attention-based models
US20220343073A1 (en) Quantitative comment summarization
Liu et al. Joint learning of lstms-cnn and prototype for micro-video venue classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220117

R150 Certificate of patent or registration of utility model

Ref document number: 7020170

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150