JP2019028984A

JP2019028984A - 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法

Info

Publication number: JP2019028984A
Application number: JP2018030578A
Authority: JP
Inventors: ガーゲンソンアンドレアス; Andreas Girgensohn
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-07-30
Filing date: 2018-02-23
Publication date: 2019-02-21
Anticipated expiration: 2038-02-23
Also published as: US10504002B2; JP7020170B2; US20190034758A1

Abstract

【課題】著作権で保護された素材の再利用を検出するには、近似重複画像の検出が重要である。アプリケーションによっては、原本との比較の代わりに、近似重複したものをクラスタ化する必要がある。【解決手段】ＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓとして画像を表現することは、このクラスタリング手法の第一歩である。逆索引は、視覚的単語からその視覚的単語を含むすべての画像を指し示す。次の工程では、視覚的単語の大部分を共有する画像の対の一致を幾何学的に検証する。幾何検証は、アフィン変換、透視変換、又は他の変換を使用してもよい。検証工程によって、一致する画像点の割合と比較された画像におけるそれらの分布とに基づいて類似性尺度が得られる。結果の距離行列は、集合内のほとんどの画像が互いに比較されないため、非常に疎である。この距離行列は、疎距離行列を扱うことができる修正された凝集階層クラスタリング手法の入力として使用される。【選択図】図１

Description

開示された実施形態は、全般に、コンピュータ化された画像の解析、処理、及び照合のための技術に関し、より詳細には、非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法に関する。

書籍や雑誌などの物理的な著作物をコピーする場合、コピーされた画像は原本に幾分近いが、複写機の有限な解像度、画像の回転、及び汚れにより軽微な不完全性を有することがある。本の場合、２ページが同時にコピーされることがあり、背が曲がると、結果として得られる画像が歪むことがある。原本と直接的に比較することは、著作権で保護された資料を識別する上で重要な部分だが、後で検討するために、同じ資料の異なるコピーをクラスタ化する必要もある。クラスタ化は、画像マッチング手法の有効性を実証することにも役立つ。

当技術分野で知られている画像クラスタリング手法は、ｋ平均法などのトップダウン分割手法、又は凝集階層クラスタリングなどのボトムアップ階層手法の２つの広いカテゴリに分類される。前述のトップダウン手法は、ベクトル空間内の重心を使用して空間を分割する傾向がある。一方、画像特徴を単語として扱うことによって、当業者にはよく知られているＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓ手法が画像分類に使用される。前述のＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓ手法によれば、局所画像特徴の語彙（例えば、集合）の発生回数のベクトル（例えば、画像特徴の集合に対する疎ヒストグラム）を構築し、続いて画像分類に使用する。残念なことに、大語彙（例えば、１０万語を超える単語）を使用するＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓ手法は、前述のトップダウン分割手法にはあまり適していない。

一方、ボトムアップ手法は、距離行列及び場合によって他のデータ構造に対するＯ（ｎ＾２）の空間計算量、並びに少なくともＯ（ｎ＾２）の時間計算量を有する。何百万ものドキュメント（１０＾６）がクラスタ化されることになると、空間及び時間の両方の計算量は数十桁（１０＾１２）となる。例えば、１，０００個のドキュメントが１秒間にクラスタ化される場合、約３００時間で１００万個のドキュメントがクラスタ化される。たとえ１バイトの距離でも、１兆組に対して１テラバイトのランダム・アクセス・メモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）が必要となるため、空間計算量さえも現在のコンピュータシステムの限界を押し上げる。一方、距離は複数のバイトで表現されるため、さらに高いメモリ要件が発生する。

従来の画像クラスタリング技術の前述の欠点に鑑みて、当技術分野では、数百万画像を含む画像集合を効率的にクラスタ化する、画像クラスタリング問題に対する解決法が強く求められている。

JUN JIE FOO, JUSTIN ZOBEL, RANJAN SINHA. Clustering near-duplicate images in large collections. Proceedings of the international workshop on multimedia information retrieval, pp. 21 -30, 2007. STEPHANIE PANCOAST, MURAT AKBACAK. Bag-of-Audio-Words Approach for Multimedia Event Classification. https://www.researchgate_net/profile/Stephanie_Pancoast/publication/266057170_Bag-of-Audio-Words_Approach_for_Multimedia_Event Classification/links/551953740cf2d241f3563352.pdf STEPHANIE PANCOAST, MURAT AKBACAK. SOFTENING QUANTIZATION IN BAG-OF-AUDIO-WORDS_ 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (lCASSP), 4-9 May 2014, Florence, Italy. JEAN-JULIEN AUCOUTURIER, BORIS DEFREVILLE. FRANCOIS PACHET. The Bag-of-frames Approach to Audio Pattern Recognition: A Sufficient Model for Urban Soundscapes But Not For Polyphonic Music. The Journal of the Acoustical Society of America 122, 881 (2007)/.

本開示の技術は、画像集合を効率的にクラスタ化することを目的とする。

本明細書に記載の実施形態は、１又は複数の上記問題及び従来の画像クラスタリング技術に関する他の問題を、実質的に取り除く方法及びシステムを対象とする。

本明細書に記載される本発明の概念の１つの態様によれば、複数の画像をクラスタ化するためのコンピュータで実施される方法であって、前記コンピュータで実施される方法は、少なくとも中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに関連して実行され、前記複数の画像内の視覚的単語の語彙を生成することと、前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、前記生成された索引を使用して、少なくとも１つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、前記共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することとを含む、コンピュータで実施される方法が提供される。

１又は複数の実施形態では、前記視覚的単語の語彙は、代表画像の集合から抽出された一組の画像特徴から生成される。

１又は複数の実施形態では、代表画像の集合は少なくとも１００万の画像を含む。

１又は複数の実施形態では、前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、その視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む。

１又は複数の実施形態では、スケール不変特徴変換（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ：ＳＩＦＴ）を使用して、複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する。

１又は複数の実施形態では、語彙内の視覚的単語から、複数の画像のなかの画像を指し示す索引が逆索引である。

１又は複数の実施形態では、前記方法は、共有視覚的単語の数に基づいて、少なくとも１つの視覚的単語を選択された画像と共有する、複数の画像の収集された他の画像をソートすることをさらに含む。

１又は複数の実施形態では、前記方法は、共有視覚的単語数の最上位の数字を有する所定の数の収集された他の画像を選択することをさらに含む。

１又は複数の実施形態では、幾何検証を実行することは、選択された画像の少なくとも一部を複数の画像の別の画像にマッピングするアフィン変換を決定することを含む。

１又は複数の実施形態では、幾何検証を実行することは、選択された画像の少なくとも一部を複数の画像の別の画像にマッピングする透視変換を決定することを含む。

１又は複数の実施形態では、前記方法は、他の画像に対して共有視覚的単語の分布の均一性を検証し、所定の閾値に満たない共有視覚的単語の分布の均一性を有する他の画像を排除することをさらに含む。

１又は複数の実施形態では、他の画像に対して前記共有視覚的単語の分布の均一性を検証することは、他の画像を複数のセルを有する粗い２次元格子に分割することと、各グリッドセルについて、セル内の全視覚的単語に対して一致する視覚的単語の割合を決定することと、グリッドセル間の前記共有視覚的単語の分布の十分な均一性の統計的検定を行うこととを含む。

１又は複数の実施形態では、前記複数の画像をクラスタ化することは、修正された完全連結凝集階層クラスタリングアルゴリズムを使用して行われる。

１又は複数の実施形態では、前記複数の画像をクラスタ化することは、前記類似性尺度に基づいて計算された疎距離行列を使用して行われる。

本明細書に記載される本発明の概念の別の態様によれば、複数の画像をクラスタ化するためのコンピュータ化されたシステムであって、前記コンピュータ化されたシステムは、中央処理装置と、一組のコンピュータ実行可能命令を格納するメモリとを含み、前記一組のコンピュータ実行可能命令は、前記複数の画像内の視覚的単語の語彙を生成することと、前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、前記生成された索引を使用して、少なくとも１つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、前記共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することとを含む、コンピュータ化されたシステムが提供される。
１又は複数の実施形態では、前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される。
１又は複数の実施形態では、前記代表画像の集合は、少なくとも１００万個の画像を含む。
１又は複数の実施形態では、前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む。
１又は複数の実施形態では、スケール不変特徴変換（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ：ＳＩＦＴ）を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する。

本明細書に記載される本発明の概念のさらに別の態様によれば、中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに複数の画像をクラスタ化する方法を実行させるプログラムであって、前記方法は、前記複数の画像内の視覚的単語の語彙を生成することと、前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、前記生成された索引を使用して、少なくとも１つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、前記共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することとを含む、プログラムが提供される。

本明細書に記載される本発明の概念のさらに別の態様によれば、複数の内容項目をクラスタ化するためのコンピュータで実施される方法であって、前記コンピュータで実施される方法は、中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに関連して実行され、前記複数の内容項目内の単語の語彙を生成することと、前記複数の内容項目の特徴を抽出することと、前記抽出された特徴に基づいて、前記語彙の前記単語から、前記複数の内容項目のなかの前記単語を含む内容項目を指し示す索引を生成することと、前記生成された索引を使用して、少なくとも１つの単語を選択された内容項目と共有する、前記複数の内容項目の他のすべての内容項目を収集し、前記共有された単語の数を決定することと、前記共有された単語が、前記選択された内容項目と前記複数の内容項目のなかの前記他の内容項目との同じ位置に位置するかどうかを検証するための内容検証を実行し、すべての共有単語に対して、検証された共有単語の割合を類似性尺度とすることと、前記類似性尺度に基づいて前記複数の内容項目を階層的にクラスタ化することとを含む、コンピュータで実施される方法が提供される。

１又は複数の実施形態では、前記複数の内容項目の前記内容項目はテキストである。

１又は複数の実施形態では、前記複数の内容項目の前記内容項目は音声記録である。

１又は複数の実施形態では、前記複数の内容項目の前記内容項目は映像である。

本発明に関する更なる態様は、以降に続く記述において一部は明記され、一部は本記述から明らかになり、又は本発明の実施により学ぶことができる。本発明の態様は、特に以下の詳細な記述及び添付の請求項に示す要素及び種々の要素の組み合わせ、並びに態様によって実施し、達成することができる。

前述及び後述の両記述は例示的で説明的なものにすぎず、請求項に係る発明又はその用途をいかなる形によっても限定するものではないことを理解すべきである。

本明細書に組み込まれ本明細書の一部を構成する添付図面は、本発明の実施形態を例示し、説明と共に本発明の概念の原理を説明し例示する役割を果たす。具体的には、以下の通りである。

図１は、記載されたコンピュータ化された画像クラスタリング方法の実施形態の例示的なフローチャート１００を示す。図２は、記載された技術の例示的な実施形態による２つの例示的なページの照合を示す。図３は、ＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓ表現及び逆索引を使用して、数百万の分析文書であっても画像クラスタリングを実現可能にする、画像クラスタリングのためのコンピュータ化されたシステムの例示的な実施形態を示す。

以下の詳細な説明では添付図面への参照がなされ、同一の機能的要素は同様の参照符号で示している。上述の添付図面は、制限するものではなく例示的なものとして、本発明の原理に一致する特定の実施形態及び実施態様を示す。これらの実施態様は、当業者が本発明を実践できるように十分に詳細に記述され、他の実施態様を利用することもでき、本発明の趣旨及び範囲から逸脱することなく構造的変更及び／又は種々の要素の置換が行われてもよいことを理解すべきである。したがって、以下の詳細な記述は、限定的な意味で解釈されるものではない。また、記載された本発明の種々の実施形態は、汎用コンピュータ上で動作するソフトウェアの形態、専用のハードウェアの形態、又はソフトウェアとハードウェアとの組み合わせで実施されてもよい。

本明細書に記載された実施形態の１つの態様によれば、ＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓ表現及び逆索引を使用して、数百万の分析文書であっても画像クラスタリングを実現可能にする、画像クラスタリングのためのコンピュータ化されたシステム及びコンピュータで実施される方法が提供される。上述したように、本明細書で使用される前述の「視覚的単語（ＶｉｓｕａｌＷｏｒｄｓ）」という用語は、テキスト文書に現れる単語と同様に扱われる様々な画像特徴を意味する。

１又は複数の実施形態では、記載されたシステムは、各文書のＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓを並行して確認する。記載されたシステムは、ＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓの各視覚的単語について、同じ視覚的単語を含む他のすべての文書を決定し、任意に確立された順序の上位の文書のみを考慮する。他の文書を収集する際、前記システムは、収集された各文書とソース文書とが共有する視覚的単語の数を表すカウンタを増加させる。一致する単語数と文書識別子との対のリストは、減少カウントによってソートされ、最初のＮ個の対（Ｎは自然数）が、Ｎがクラスタメンバの最大カウントを表すパラメータであるように維持される。システムは、残りの文書のそれぞれに対してソース文書の幾何検証を実行する。すべての特徴点に対する検証された特徴点の割合を、類似性尺度とする。類似性尺度の閾値によって、一致が不十分なすべての文書が除外される。低品質のコピーを処理するためには、文書を照合するための閾値が低くなければならないため、追加の工程によって、高品質のコピーが照合閾値を超えていながら文書の一部しか一致しないことを防止する。得られた類似性尺度は、前述の類似性尺度に基づいて文書集合内の画像のクラスタ化を実行する、疎距離行列を扱うことが可能な修正された凝集階層クラスタリング手法の入力として使用される。

図１は、記載されたコンピュータ化された画像クラスタリング方法の実施形態の例示的なフローチャート１００を示す。１又は複数の実施形態では、文書画像内の特徴点は、当技術分野でよく知られているスケール不変特徴変換（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ：ＳＩＦＴ）アルゴリズムを使用して検出及び記述される局所画像特徴などのよく知られた画像特徴を使用して表され、例えば、米国特許第６７１１２９３号明細書に記載されている。１又は複数の実施形態では、その後、十分に大きな代表画像の集合から抽出された一組の画像特徴から、視覚的単語の語彙を学習する（図１の工程１０１を参照）。１又は複数の実施形態では、語彙生成で使用される代表画像の集合は、少なくとも１００万の画像を含む。

従来技術によれば、視覚的単語の語彙生成は、類似の特徴ベクトルをクラスタ化し、クラスタ重心に類似するすべての特徴ベクトルを、クラスタ識別子、すなわち視覚的単語によって表現するクラスタリング手法を使用して行う。

１又は複数の実施形態では、クラスタ化する文書画像集合内のすべての画像に対して、例えば前述のＳＩＦＴアルゴリズムを使用して、特徴を有する特徴点を画像から抽出する（図１の工程１０２を参照）。１又は複数の実施形態では、前述の画像特徴点は、例えば回転、縮尺、及び歪みに対して不変である入力画像内の特有の特徴点である。この工程１０２において、抽出された各画像特徴点は、前述の以前の学習工程１０１によって決定された語彙からの視覚的単語によって表現される。

続いて、図１の工程１０３において、生成された視覚的単語語彙の各視覚的単語から、この視覚的単語を含むすべての画像を１又は複数回指し示す逆索引を生成する。

後続の工程は、集合内のすべての画像に対して繰り返し実行され、工程１０４及び１０９によって、前述の画像の繰返しを実施する。工程１０５において、現在の画像と同じ視覚的単語を含む画像を、前述の逆索引を介して配置し、共有視覚的単語の数をカウントする。工程１０６において、現在の画像と同じ視覚的単語を共有する配置された画像を、一致する視覚的単語の減少カウントによってソートする。その後、所定数の上位の一致画像を選択し、残りの画像を切り捨てる。

次の工程１０７において、アフィン変換、透視変換、又は他の適切な変換などの変換が可能な状態で、一致する視覚的単語が比較された画像内の同じ位置に配置されているかどうかを検証する幾何検証プロセスを実行する。当業者には理解されるように、本発明は、幾何検証プロセスで使用される任意の特定のタイプの変換に限定されない。一実施形態では、この目的のために、例えば米国特許第８８０５１１７号明細書に記載されている手法を使用してもよい。すべての特徴点に対する検証された特徴点の割合を、画像間の類似性尺度とする。１又は複数の実施形態では、次に、類似性尺度の閾値を使用して、一致が不十分なすべての文書画像を排除する。

１又は複数の実施形態では、工程１０８において、文書画像を、粗い２次元格子に分割する。各グリッドセルについて、そのセル内の全特徴点に対して一致する特徴点の割合を決定する。十分な均一性のための統計的検定を行い、一致する特徴点の分布が不均一な文書を排除する。この追加の工程１０８が必要とされるのは、品質の低いコピーが懸念され、低い照合閾値を必要とする場合のみである。

最後に、工程１１０において、記載された実施形態は、上述の工程の結果を使用して画像をクラスタ化する。一実施形態では、システムは、クラスタメンバの最大数、例えば２００を表すパラメータを受け付ける。当業者には理解されるように、数がより大きくなると、計算を実行するのに必要な時間が増加する。さらに当業者によって理解されるように、本発明は、クラスタメンバの特定の最大数に限定されず、任意の適切な数のそのようなメンバを使用してもよい。

具体的には、１又は複数の実施形態では、文書対の間の類似性が一旦決定されると、修正された完全連結凝集階層クラスタリングアルゴリズムが適用される。修正は、幾何検証がすべての可能な文書対のごく一部にしか適用されず、一致する特徴点の分布が不均一性であるために一致が排除される場合もあるため、疎距離行列を扱う。また、先に述べたように、完全な距離行列は空間計算量がＯ（ｎ^２）であるため、クラスタリングすべき文書の数が大きくなりすぎる。

当技術分野でよく知られている完全凝集階層クラスタリングアルゴリズムと同様に、１又は複数の実施形態では、前記アルゴリズムは、対の距離によって順序付けられた文書対のキューから開始する。ただし、一致する対のみがキューに含まれるため、完全なクラスタリングアルゴリズムのキューよりもはるかに小さくなる。クラスタリングアルゴリズムでは、類似性が未決定であるすべての文書対は、無限遠の距離を持つとみなされる。いずれかの対のメンバが無限遠の距離を持つクラスタはマージすることができない。

完全なクラスタツリーが単一のルートしか持たず、クラスタを選択する際にツリーが切断される従来の階層クラスタとは異なり、記載された手法では、すべてのツリーがクラスタを表し、リーフノードがクラスタメンバであるクラスタツリーのフォレストが作成される。すべての不一致が無限遠の距離として表現されるため、フォレスト内のクラスタツリーをさらに細分する必要がない。

図２は、記載された技術の例示的な実施形態による２つの例示的なページ２０１及び２０２の照合を示す。図２において、点２０３は、検出された特徴点を表す。実線２０４は類似する特徴点を接続し、破線２０５は幾何検証を示す。格子２０６は、一致する特徴点の割合の均一性を確認するために使用される。

記載された技術は、視覚的単語によって表現される画像の比較を目的としているが、当業者には理解されるように、追加の検証工程を必要とする他のＢａｇｏｆＷｏｒｄｓ領域にも適用可能である。例えば、共有する文の数に基づいてテキスト文書をクラスタ化する場合、各文書のＢａｇｏｆＷｏｒｄｓが最初の工程で使用される。多くの単語を共有する文書では、文が比較される。

１又は複数の例示的な実施形態では、記載されたシステムは、Ｃ＋＋及びＪａｖａ（登録商標）で実装され、両方とも当技術分野でよく知られている。例示的な実施形態は、多数のＣＰＵコアを最大限に活用する。２８個のＣＰＵコアを搭載したシステムでは、特徴点の決定及び逆索引を作成する時間をカウントしないで、約１５分で１３５万の画像をクラスタリングできる。

１又は複数の実施形態では、単連結クラスタリングは、実験において満足のいく結果をもたらさない。例えば、ＢがＣに類似している場合、すなわちＡのみがＢに類似し、ＢがＣに類似し、ＣがＤに類似する場合、クラスタＡとＢとをマージし、ＣとＤとをマージすることがある。そのため、低品質のコピーに対応するために必要となる緩和された照合では、ＡとＤとが互いにあまり似ていないクラスタが生成される可能性がある。一方、完全連結クラスタリングでは、Ｄと似ていないＡはマージされない大きなクラスタ直径を生じるように、マージされたクラスタの要素の最大距離をマージされたクラスタの直径として使用する。

上述の技術は、画像のクラスタ化だけでなく、テキスト、映像、及び音声を含むがこれに限定されない他の内容項目のクラスタ化にも適用可能であることにさらに留意すべきである。このような他の内容項目については、上述したＢａｇＯｆＷｏｒｄｓが、それぞれの特徴に基づいて特定の種類の内容項目に適した技術を使用して生成される。例えば、テキストコンテンツをクラスタ化する場合、ＢａｇＯｆＷｏｒｄｓはテキスト内の単語を含み、検証工程ではテキスト文書内の文の比較を行う。同様に、音声コンテンツの場合のＢａｇＯｆＷｏｒｄｓには、音声記録からの個別の音声が含まれる。したがって、当業者には理解されるように、記載された技術は画像のクラスタ化に限定されず、様々な他のタイプのコンテンツにも適用可能である。

図３は、ＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓ表現及び逆索引を使用して、数百万の分析文書であっても画像クラスタリングを実現可能にする、画像クラスタリングのためのコンピュータ化されたシステム３００の例示的な実施形態を示す。１又は複数の実施形態では、コンピュータ化されたシステム３００は、当業者に周知のデスクトップコンピュータのフォームファクタの範囲で実装されてもよい。代替の実施形態では、コンピュータ化されたシステム３００は、ラップトップ若しくはノートブックコンピュータ、又はスマートフォン若しくはタブレットコンピュータなどの他の携帯型コンピュータ装置に基づいて実装してもよい。

コンピュータ化されたシステム３００は、コンピュータ化されたシステム３００の種々のハードウェアコンポーネント間において、また種々のハードウェアコンポーネントにわたって情報を通信するためのデータバス３０４又は他の相互連結機構若しくは通信機構と、データバス３０４に電気的に結合されて情報を処理し、他の計算タスク及び制御タスクを行う中央処理装置（Ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵ、又は単に処理装置）３０１を備えてもよい。コンピュータ化されたシステム３００は、さらに、データバス３０４に接続され、種々の情報及び処理装置３０１が実行する命令を記憶するランダム・アクセス・メモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）又は他の動的記憶装置などのメモリ３１２を備える。メモリ３１２は、さらに、磁気ディスク、光ディスク、ソリッド・ステート・フラッシュ・メモリ装置、又は他の不揮発性ソリッドステート記憶装置などの永続的記憶装置を含んでもよい。

１又は複数の実施形態では、メモリ３１２を使用して、テンポラリ変数又は処理装置３０１によって命令を実行する際の他の中間情報を記憶してもよい。コンピュータ化されたシステム３００は、さらに任意で、データバス３０４に接続され、コンピュータ化されたシステム３００の動作に必要となるファームウェア、基本入出力システム（ＢａｓｉｃＩｎｐｕｔ−ＯｕｔｐｕｔＳｙｓｔｅｍ：ＢＩＯＳ）、及びコンピュータ化されたシステム３００の種々の設定パラメータなどの静的情報及び処理装置３０１への命令を記憶する読出し専用メモリ（Ｒｅａｄｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ又はＥＰＲＯＭ）３０２、又は他の静的記憶装置を備えてもよい。

１又は複数の実施形態では、コンピュータ化されたシステム３００が表示装置（ディスプレイ）３１１を組み込んでもよく、本明細書に記載されるクラスタ化された文書画像を示すユーザインタフェースなどの様々な情報をコンピュータシステム３００のユーザに表示するために、データバス３０４にさらに電気的に結合されてもよい。代替の実施形態では、表示装置３１１は、グラフィックスコントローラ及び／又はグラフィックス処理装置（図示せず）に関連付けられてもよい。表示装置３１１は、例えば、いずれも当業者によく知られている薄膜トランジスタ（Ｔｈｉｎ−ＦｉｌｍＴｒａｎｓｉｓｔｏｒ：ＴＦＴ）技術又は有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ：ＯＬＥＤ）技術を使用して製造された、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：ＬＣＤ）として実装してもよい。様々な実施形態では、表示装置３１１は、コンピュータ化されたシステム３００の残りの構成要素と同じ一般的な筐体に組み込まれてもよい。代替の実施形態では、表示装置３１１を、テーブル又はデスクの表面上など、そのような筐体の外側に配置してもよい。１又は複数の実施形態では、コンピュータ化されたシステム３００は、マイクロフォンなどの音声記録（キャプチャ）装置３０３をさらに組み込んでもよい。

１又は複数の実施形態では、コンピュータ化されたシステム３００は、データバス３０４に電気的に結合され、当業者にはよく知られている、ＭＰＥＧ−３ファイルなどの様々な音声ファイル、又はＭＰＥＧ−４ファイルなどの様々な映像ファイルの音声トラックを再生するように構成された音声再生装置３２５をさらに組み込んでもよい。このために、コンピュータ化されたシステム３００は、電波処理装置若しくは音声処理装置、又は同様の装置（図示せず）を組み込んでもよい。

１又は複数の実施形態では、コンピュータ化されたシステム３００は、方向情報及びコマンド選択を処理装置３０１と通信し、ディスプレイ３１１上のカーソル移動を制御するための、マウス、トラックボール、タッチパッド、又はカーソル方向キーなどのマウス／ポインティング装置３１０などの１又は複数の入力装置を組み込んでもよい。この入力装置は、典型的には、第１の軸（例えば、ｘ）及び第２の軸（例えば、ｙ）の２つの軸の２つの自由度を有し、これによって装置が平面内の位置を指定できる。

コンピュータ化されたシステム３００はさらに、本明細書に記載の文書画像を含む様々なオブジェクトの静止画像及び映像を取得するためのカメラ３２６と、キーボード３０６とを組み込んでもよく、これらはすべて情報及びユーザコマンド（ジェスチャを含む）を処理装置３０１に通信するためにデータバス３０４に接続されてよく、その情報には画像及び映像が含まれるが、これに限定されない。

１又は複数の実施形態では、コンピュータ化されたシステム３００は、さらに、データバス３０４に接続されたネットワークインタフェース３０５などの通信インタフェースを備えてもよい。ネットワークインタフェース３０５は、Ｗｉ−Ｆｉアダプタ３０７、セルラーネットワーク（ＧＳＭ（登録商標）又はＣＤＭＡ）アダプタ３０８、及び／又はローカル・エリア・ネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ＬＡＮ）アダプタ３０９の少なくとも１つを使用して、コンピュータ化されたシステム３００とインターネット３２４との間の接続を確立するように構成してもよい。ネットワークインタフェース３０５は、コンピュータ化されたシステム３００とインターネット３２４との間で双方向データ通信できるように構成してもよい。Ｗｉ−Ｆｉアダプタ３０７は、当業者にとってよく知られている８０２．１１ａプロトコル、８０２．１１ｂプロトコル、８０２．１１ｇプロトコル、及び／又は８０２．１１ｎプロトコル、並びにＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルに従って動作してもよい。コンピュータ化されたシステム３００のＬＡＮアダプタ３０９は、例えば、インターネットサービスプロバイダのハードウェア（図示せず）を使用してインターネット３２４に接続され、対応するタイプの電話回線にデータ通信接続を提供する、サービス総合デジタル網（ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅｓＤｉｇｉｔａｌＮｅｔｗｏｒｋ：ＩＳＤＮ）カード又はモデムを使用して実装してもよい。別の例として、ＬＡＮアダプタ３０９は、互換性のあるＬＡＮ及びインターネット３２４へのデータ通信接続を提供するローカル・エリア・ネットワーク・インタフェース・カード（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ：ＬＡＮＮＩＣ）であってもよい。１つの例示的な実施態様では、Ｗｉ−Ｆｉアダプタ３０７、セルラーネットワーク（ＧＳＭ（登録商標）又はＣＤＭＡ）アダプタ３０８、及び／又はＬＡＮアダプタ３０９が、様々な種類の情報を表すデジタル・データ・ストリームを伝達する電気信号又は電磁信号を送受信する。

１又は複数の実施形態では、典型的に、インターネット３２４が１又は複数のサブネットワーク介して、データ通信を他のネットワークリソースに提供する。そのため、コンピュータ化されたシステム３００は、リモート・メディア・サーバ、Ｗｅｂサーバ、他のコンテンツサーバ、及び他のネットワーク・データ・ストレージ・リソースなどの、インターネット３２４上のあらゆる場所に存在する様々なネットワークリソースにアクセスすることができる。１又は複数の実施形態では、コンピュータ化されたシステム３００は、ネットワークインタフェース３０５によって、インターネット３２４を含む様々なネットワークを介して、メッセージ、メディア、及びアプリケーションプログラムコードを含む他のデータを送受信するように構成される。インターネットの例では、コンピュータ化されたシステム３００がネットワーククライアントとして作用する場合、コンピュータ化されたシステム３００で実行するアプリケーションプログラムのためのコード又はデータを要求してもよい。同様に、コンピュータ化されたシステム３００は、種々のデータ又はコンピュータコードを、他のネットワークリソースに送信してもよい。

１又は複数の実施形態では、メモリ３１２に格納される１又は複数の命令の１又は複数のシーケンスを処理装置（ＣＰＵ）３０１が実行するのに応答して、本明細書に記載の機能がコンピュータ化されたシステム３００によって実現される。このような命令は、他のコンピュータ読取り可能媒体からメモリ３１２に読み込まれてもよい。メモリ３１２に格納される命令のシーケンスを実行することによって、処理装置３０１が、本明細書に記載の種々の処理工程を行う。代替の実施形態では、ソフトウェア命令の代わりに、又はソフトウェア命令と共にハードワイヤード回路を使用して、本発明の実施形態を実施してもよい。したがって、記載された本発明の実施形態はハードウェア回路及び／又はソフトウェアのいかなる特定の組み合わせに限定されるものではない。

本明細書で使用される「コンピュータ読取り可能媒体」という用語は、実行のための命令を処理装置３０１に提供することに関連する、あらゆる媒体を意味する。コンピュータ読取り可能媒体は、本明細書に記載の任意の方法及び／又は技術を実現するための命令を伝達できる、機械読取り可能媒体の一例にすぎない。このような媒体は、不揮発性媒体及び揮発性媒体などの多くの形態を取ることができるが、これらに限定されない。

一般的な非一過性コンピュータ読取り可能媒体としては、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、若しくは他の磁気媒体、ＣＤ−ＲＯＭ、他の任意の光学媒体、パンチカード、紙テープ、せん孔パターンを有する他の任意の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、フラッシュドライブ、メモリカード、他の任意のメモリチップ若しくはカートリッジ、又はコンピュータによって読み出すことができる他の任意の媒体が挙げられる。コンピュータ読取り可能媒体の種々の形態では、実行のための１又は複数の命令の１又は複数のシーケンスを、処理装置３０１に伝達してもよい。例えば、初めに、リモートコンピュータから磁気ディスクによって命令を伝達してもよい。又は、リモートコンピュータが自身の動的メモリに命令を読み込んで、インターネット３２４を介してその命令を送信してもよい。具体的には、当技術分野でよく知られている様々なネットワークデータ通信プロトコルを使用し、インターネット３２４を介して、コンピュータ命令を上述のリモートコンピュータからコンピュータ化されたシステム３００のメモリ３１２にダウンロードしてもよい。

１又は複数の実施形態では、コンピュータ化されたシステム３００のメモリ３１２が、以下の任意のソフトウェアプログラム、アプリケーション、又はモジュールを記憶してもよい。メモリ３１２には、ＣＰＵ３０１とメモリ３１２とを備えたコンピュータ化されたシステムに、図１に示す、複数の画像をクラスタ化する方法を実行させるプログラムが記憶されている。

１．基本システムサービスを実行し、コンピュータ化されたシステム３００の様々なハードウェアコンポーネントを管理するオペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ：ＯＳ）３１３。オペレーティングシステム３１３の例示的な実施形態は、当業者にはよく知られており、現在知られている、又は今後開発されるモバイル・オペレーティング・システムを含んでもよい。

２．アプリケーション３１４は、例えば、コンピュータ化されたシステム３００の処理装置３０１によって実行され、コンピュータ化されたシステム３００に、表示装置３１１上にグラフィカル・ユーザ・インタフェースを表示する、又はカメラ３２６を使用して文書画像をキャプチャするなどの特定の所定の機能を実行させる、一組のソフトウェアアプリケーションを含んでもよい。１又は複数の実施形態では、アプリケーション３１４は、本明細書に記載された近似重複画像をクラスタ化するための本発明のアプリケーション３１５を含んでもよい。

３．データ記憶領域３２１は、例えば、画像クラスタリングで使用される様々なデータ構造３２２を格納してもよい。さらに、データ記憶領域３２１は、クラスタ化される文書の画像ファイル３２３及び索引データ３２７を含んでもよい。

１又は複数の実施形態では、本発明の画像クラスタリングアプリケーション３１５は、画像特徴点を検出し、画像特徴を使用してそれらを記述するように構成された画像特徴検出モジュール３１６を組み込む。さらに、上述した視覚的単語語彙を生成する視覚的単語語彙生成モジュール３１７を設けてもよい。さらに追加で、上述した逆索引を生成するための逆索引生成モジュール３１８を設け、画像間で共有される視覚的単語をカウントし、共有視覚的単語の減少カウントに基づいて画像をソートしてもよい。さらに、幾何検証を実行し、画像間の類似性尺度を決定するための幾何検証モジュール３１９を設けてもよい。最後に、クラスタリングモジュール３２０を設け、類似性尺度に基づいて画像のクラスタ化を促進してもよい。

最後に、本明細書に記載の工程及び技術は、いかなる特定の装置に本質的に関係するものではなく、構成要素の任意の適切な組み合わせによって実行できることを理解すべきである。また、本明細書に記載の教示に従って、各種汎用機器を使用してもよい。さらに、専用の装置を構築し、本明細書に記載の方法工程を実行することが有効であるともいえる。特定の例に関連して本発明が説明されたが、あらゆる点で例示的なものであって、限定的ではない。ハードウェア、ソフトウェア、及びファームウェアの多くの異なる組み合わせが、本発明の実施に適していることが、当業者には明らかになるであろう。例えば記述されたソフトウェアを、Ａｓｓｅｍｂｌｅｒ、Ｃ／Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ−Ｃ、ｐｅｒｌ、ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）、及び現在知られている、又は今後開発されるプログラム言語又はスクリプト言語などの多種多様なプログラム言語又はスクリプト言語によって実装してもよい。

また、本明細書に開示の本発明の明細書及び実施を考慮すると、本発明の他の実施態様が当業者には明らかであろう。説明された実施形態の様々な態様及び／又は構成要素は、画像クラスタリングのためのシステム及び方法において、単独で、又は任意の組み合わせで使用され得る。明細書及び実施例は例示を意図したものにすぎず、本発明の真の範囲及び趣旨は、以下の特許請求の範囲によって示される。

Claims

複数の画像をクラスタ化するためのコンピュータで実施される方法であって、中央処理装置とメモリとを備えたコンピュータ化されたシステムに関連して実行され、
ａ．前記複数の画像内の視覚的単語の語彙を生成することと、
ｂ．前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
ｃ．前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
ｄ．前記生成された索引を使用して、少なくとも１つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
ｅ．共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
ｆ．前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
を含む、コンピュータで実施される方法。
前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される、請求項１に記載のコンピュータで実施される方法。
前記代表画像の集合は、少なくとも１００万個の画像を含む、請求項２に記載のコンピュータで実施される方法。
前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む、請求項１に記載のコンピュータで実施される方法。
スケール不変特徴変換（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ：ＳＩＦＴ）を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する、請求項１に記載のコンピュータで実施される方法。
前記語彙内の前記視覚的単語から、前記複数の画像のなかの画像を指し示す索引が逆索引である、請求項１に記載のコンピュータで実施される方法。
前記共有視覚的単語の数に基づいて、少なくとも１つの視覚的単語を選択された画像と共有する、前記複数の画像の前記収集された他の画像をソートすることをさらに含む、請求項１に記載のコンピュータで実施される方法。
共有視覚的単語数の最上位の数字を有する所定の数の前記収集された他の画像を選択することをさらに含む、請求項７に記載のコンピュータで実施される方法。
前記幾何検証を実行することは、前記選択された画像の少なくとも一部を前記複数の画像の別の画像にマッピングするアフィン変換を決定することを含む、請求項１に記載のコンピュータで実施される方法。
前記幾何検証を実行することは、前記選択された画像の少なくとも一部を前記複数の画像の別の画像にマッピングする透視変換を決定することを含む、請求項１に記載のコンピュータで実施される方法。
前記他の画像に対して前記共有視覚的単語の分布の均一性を検証することと、所定の閾値に満たない前記共有視覚的単語の分布の均一性を有する他の画像を排除することとをさらに含む、請求項１に記載のコンピュータで実施される方法。
前記他の画像に対して前記共有視覚的単語の前記分布の均一性を検証することは、前記他の画像を複数のセルを有する粗い２次元格子に分割することと、各グリッドセルについて、前記セル内の全視覚的単語に対して一致する視覚的単語の割合を決定することと、グリッドセル間の前記共有視覚的単語の分布の十分な均一性の統計的検定を行うこととを含む、請求項１１に記載のコンピュータで実施される方法。
前記複数の画像をクラスタ化することは、修正された完全連結凝集階層クラスタリングアルゴリズムを使用して行われる、請求項１に記載のコンピュータで実施される方法。
前記複数の画像をクラスタ化することは、前記類似性尺度に基づいて計算された疎距離行列を使用して行われる、請求項１に記載のコンピュータで実施される方法。
複数の画像をクラスタ化するためのコンピュータ化されたシステムであって、中央処理装置と、一組のコンピュータ実行可能命令を格納するメモリとを備え、前記一組のコンピュータ実行可能命令は、
ａ．前記複数の画像内の視覚的単語の語彙を生成することと、
ｂ．前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
ｃ．前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
ｄ．前記生成された索引を使用して、少なくとも１つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
ｅ．共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
ｆ．前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
を含む、コンピュータ化されたシステム。
前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される、請求項１５に記載のコンピュータ化されたシステム。
代表画像の集合は、少なくとも１００万個の画像を含む、請求項１５に記載のコンピュータ化されたシステム。
前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む、請求項１５に記載のコンピュータ化されたシステム。
スケール不変特徴変換（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ：ＳＩＦＴ）を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する、請求項１５に記載のコンピュータ化されたシステム。
中央処理装置とメモリとを備えたコンピュータ化されたシステムに複数の画像をクラスタ化する方法を実行させるプログラムであって、
前記方法は、
ａ．前記複数の画像内の視覚的単語の語彙を生成することと、
ｂ．前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
ｃ．前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
ｄ．前記生成された索引を使用して、少なくとも１つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
ｅ．共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
ｆ．前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
を含む、プログラム。
複数の内容項目をクラスタ化するためのコンピュータで実施される方法であって、中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに関連して実行され、
ａ．前記複数の内容項目内の単語の語彙を生成することと、
ｂ．前記複数の内容項目の特徴を抽出することと、
ｃ．前記抽出された特徴に基づいて、前記語彙の前記単語から、前記複数の内容項目のなかの前記単語を含む内容項目を指し示す索引を生成することと、
ｄ．前記生成された索引を使用して、少なくとも１つの単語を選択された内容項目と共有する、前記複数の内容項目の他のすべての内容項目を収集し、前記共有された単語の数を決定することと、
ｅ．前記共有された単語が、前記選択された内容項目と前記複数の内容項目のなかの前記他の内容項目との同じ位置に位置するかどうかを検証するための内容検証を実行し、すべての共有単語に対して、検証された共有単語の割合を類似性尺度とすることと、
ｆ．前記類似性尺度に基づいて前記複数の内容項目を階層的にクラスタ化することと
を含む、コンピュータで実施される方法。
前記複数の内容項目における前記内容項目がテキストである、請求項２１に記載のコンピュータで実施される方法。
前記複数の内容項目における前記内容項目が音声記録である、請求項２１に記載のコンピュータで実施される方法。
前記複数の内容項目における前記内容項目が映像である、請求項２１に記載のコンピュータで実施される方法。