JP5615931B2

JP5615931B2 - クラスタ化方法およびシステム

Info

Publication number: JP5615931B2
Application number: JP2012538818A
Authority: JP
Inventors: タオツァン; ジアチングオ
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2009-11-10
Filing date: 2010-10-01
Publication date: 2014-10-29
Anticipated expiration: 2030-10-01
Also published as: JP2013511084A; CN102053992B; WO2011059588A1; EP2499569B1; HK1152120A1; CN102053992A; EP2499569A4; US20110231399A1; EP2499569A1

Description

本願は、参照することによりその全体が本明細書に組み込まれる、「CLUSTERING METHOD AND SYSTEM」と題する２００９年１１月１０日に出願された中国特許出願第２００９１０２１１７１４．６号に基づく優先権を主張する。

本開示はデータ処理分野に関し、特にクラスタ化方法およびシステムに関する。

データ処理では、一般に、クラスタ化は、類似するオブジェクトから構成されるいくつかのクラスに物理オブジェクトまたは抽象オブジェクトの組を分類することを指す。クラスタ化によって生成されるクラスタは、データオブジェクトの組である。これらのオブジェクトは、同じクラスタ内では互いに類似しているが、他のクラスタ内のオブジェクトとは異なっている。大量の可読ファイルの識別のため、クラスタ化の計算は、例えば、同じクラスの可読ファイルを判定し、類似ファイルのクラスタ化を実現するために異なる閾値に従って異なる可読ファイルを異なるクラスに分類すること等を、しばしば要求した。

現在の技術の下では、大量ファイルのクラスタ化のプロセスは、一般に以下の通りである。第１に、可読ファイルは異なる方法に基づき、クラスタ化のための根拠として異なるベクトルの類似度について比較結果を使用して一定方向に向けられる。ベクトル化は、（ワード文書等の）可読ファイルを、各数字がそれぞれの特性に対応する特性値を表す、一連の数字から構成されるベクトルに変換することを指す。異なる可読ファイルは、異なる対応するベクトルを有する。次に、ベクトル類似度に応じてクラスタ化するとき、現在の技術では、一般に、ファイルを１つずつ比較する。例えば、クラスタ化する１００の可読ファイルがあるとき、ベクトル類似度に応じてクラスタ化を実行できるように、他の９９のファイルに対する各可読ファイルのベクタ類似度が計算される必要がある。

上記プロセスを考慮すると、現在の技術のクラスタ化方法は、各可読ファイルのベクトル類似度を計算する必要がある。クラスタ化分析は、かかるベクトル類似度に基づいている。可読ファイルの膨大な量のデータがあるとき、繰り返されるかかる計算は、しばしば計算時間の増加につながり、ひいては性能を著しく低下させる。言い換えると、クラスタ化の前に計算によって占有されるシステムリソースの量は、クラスタ化プロセス自体の量をほぼ超えてしまう。

一般に、当業者の前にある、緊急な技術的な課題は、したがって、各可読ファイルが、クラスタ化のために他のファイルに関してベクトル類似度の計算を必要とし、その結果クラスタ化に要する計算時間の増加およびクラスタ計算の低い性能が生じるという現在の問題を解決するためのクラスタ化の方法を、どのように創造的に提出するかという点である。

本開示の目標は、各可読ファイルが、クラスタ化のために他のファイルに関してそれぞれのベクトル類似度の計算を必要とし、それによってクラスタ化に要する計算時間の増加およびクラスタ計算の低い性能が生じるという問題を解決するための問題を解決するためのクラスタ化方法を提供することである。本開示は、かかる目標を達成するためのクラスタ化システムを提供する。加えて、本開示は、クラスタ化方法も提供する。

一態様では、クラスタ化方法は、複数の可読ファイルをベクトル化して、それぞれが可読ファイルの内のそれぞれ１つに対応する複数のファイルベクトルを取得することと、ファイルベクトルに基づいて総特性ベクトルを取得することと、総特性ベクトルとファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて可読ファイルをクラスタ化することとを含んでもよい。

ファイルベクトルに基づいて総特性ベクトルを取得することは、総特性ベクトルの対応する特性値を取得するためにファイルベクトルの共通特性のそれぞれの値を合計することを含んでもよい。

総特性ベクトルとファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて可読ファイルをクラスタ化することは、ファイルベクトルのそれぞれと総特性ベクトルとの間のそれぞれの第１の類似度を計算することと、第１の類似度に従ってファイルベクトルの第１の順位付けを実行することと、ファイルベクトルのそれぞれと第１の順位付けの後の最後のファイルベクトルの間のそれぞれの第２の類似度を計算することと、第２の類似度に従って、第１の順位付けの後に順序付けされたファイルベクトルの第２の順位付けを実行することと、第２の順位付けの後に順位付けされたファイルベクトルに従って可読ファイルをクラスタ化することと、を含んでもよい。

第２の順位付けの後に順位付けされたファイルベクトルに従って可読ファイルをクラスタ化することは、第２の順位付けの後の第２のファイルベクトルから開始する順位付けされたファイルベクトルのそれぞれについて、現在のファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供することと、比較結果がクラスタ化条件を満たしているときに、現在のファイルベクトルおよびその先行するファイルベクトルを同じクラスとしてクラスタ化することと、比較結果がクラスタ化条件を満たしていないときに、新しいクラスを生成することと、を含んでもよい。少なくとも１つのそれぞれの第１の類似度または第２の類似度が、ベクトル角余弦公式を使用して計算されてもよい。

総特性ベクトルとファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて可読ファイルをクラスタ化することは、可読ファイルのクラスタ化に従って複数のクラスの可読ファイルの各クラスの代表ベクトルを取得することと、事前設定条件を満たす新しい特性ベクトルを構築することと、各クラスの代表ベクトルと新しい特性ベクトルとの間のそれぞれの第３の類似度を計算することと、第３の類似度に従って各クラスの可読ファイルの第１の順位付けを実行することと、各クラスの代表ベクトルと第１の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第４の類似度を計算することと、第４の類似度に従って第１の順位付けの後の代表ベクトルの第２の順位付けを実行することと、第２の順位付けの後の代表ベクトルに従って可読ファイルのクラスを再クラスタ化することと、を含んでもよい。

第２の順位付けの後の代表ベクトルに従って可読ファイルのクラスを再クラスタ化することは、繰り返し終了条件が満たされているかどうかを判定することと、繰り返し終了条件が満たされている場合、クラスタ化方法を終了することと、繰り返し終了条件が満たされていない場合、可読ファイルのクラスタ化に従って各クラスの代表ベクトルを取得するために以前のステップを反復することと、を含んでもよい。

別の態様では、クラスタ化のためのシステムは、複数の可読ファイルをベクトル化して、それぞれが可読ファイルのそれぞれ１つに対応する複数のファイルベクトルを取得するベクトル化ユニットと、ファイルベクトルに基づいて総特性ベクトルを取得する抽出ユニットと、総特性ベクトルとファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて、複数のクラスの可読ファイルに可読ファイルをクラスタ化するクラスタ化ユニットと、を含んでもよい。

抽出ユニットは、総特性ベクトルに対応する特性値を取得するためにファイルベクトルの共通の特性のそれぞれの値を合計してもよい。

クラスタ化ユニットは、ファイルベクトルのそれぞれと総特性ベクトルとの間のそれぞれの第１の類似度を計算する第１の計算ユニットと、第１の類似度に従ってファイルベクトルの第１の順位付けを実行する第１の順位付けユニットと、ファイルベクトルのそれぞれと第１の順位付けの後の最後のファイルベクトルとの間のそれぞれの第２の類似度を計算する第２の計算ユニットと、第１の順位付けの後の順位付けされたファイルベクトルの第２の順位付けを実行する第２の順位付けユニットと、第２の順位付けの後に順位付けされるファイルベクトルに従って可読ファイルをクラスタ化する第２のクラスタ化ユニットと、を含んでもよい。

第２のクラスタ化ユニットは、第２の順位付けの後の第２のファイルベクトルから開始する順位付けされたファイルベクトルのそれぞれについて、現在のファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供する比較サブユニットと、比較結果がクラスタ化条件を満たしているときに、現在のファイルベクトルおよびその先行するファイルベクトルを、クラスとしてクラスタ化するクラスタ化サブユニットと、比較結果がクラスタ化の条件を満たしていないときに新しいクラスを生成する生成サブユニットとを含んでもよい。

システムは、複数のクラスの可読ファイルの各クラスの代表ベクトルを取り出す取り出しユニットと、事前設定条件を満たす新しい特性ベクトルを提供する構築ユニットと、各クラスの代表ベクトルと新しい特性ベクトルとの間のそれぞれの第３の類似度を計算する第３の計算ユニットと、第３の類似度に従って可読ファイルの各クラスの第１の順位付けを実行する第３の順位付けユニットと、各クラスの代表ベクトルと第１の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第４の類似度を計算する第４の計算ユニットと、第１の順位付けの後の順位付けされた代表ベクトルの第２の順位付けを実行する第４の順位付けユニットと、第２の順位付け後の代表ベクトルに従って可読ファイルのクラスを再クラスタ化する第３のクラスタ化ユニットと、をさらに含んでもよい。

代わりに、システムは、繰り返し終了条件が満たされているかどうかを判定し、反復終了条件が満たされているとクラスタ化プロセスを終了し、繰り返し終了条件が満たされていないと、各クラスのそれぞれの代表ベクトルを取得するためにクラスタ化プロセスの繰り返しを引き起こす判定ユニットをさらに含んでもよい。

さらに別の態様では、ウェブページをクラスタ化する方法は、複数のウェブページを取り出すことと、それぞれがウェブページのそれぞれ１つに対応する複数のウェブページベクトルを取得するウェブページをベクトル化することと、ウェブページベクトルに従ってウェブページの総ウェブページ特性ベクトルを取得することと、総ウェブページ特性ベクトルとウェブページベクトルのそれぞれとの間のそれぞれの類似度に従ってウェブページをクラスタ化することと、を含んでもよい。

方法は、ウェブページのクラスタ化に従ってカテゴリインデックスを確立することをさらに含んでもよく、このカテゴリインデックスは、１つまたは複数のクラスのウェブページを識別する。さらに、方法は、ユーザからクエリーワードを受け取ることに応えてカテゴリインデックスに従ってそれぞれのクラスのウェブページで検索することをさらに含んでもよい。

代わりに、方法は、各クラスのウェブページからそれぞれの中心ウェブページを選択することと、それぞれの中心ウェブページと、各クラスのそれぞれの中心ウェブページ以外のウェブページとの間に接続を確立することとをさらに含んでもよい。さらに、方法は、ユーザからクエリーワードを受け取ることに応えて、各クラスの代表ウェブページをユーザに返すことをさらに含んでもよい。

さらに別の態様では、ウェブページをクラスタ化するシステムは、クラスタ化される複数のウェブページを取り出す、取り出しユニットと、ウェブページをベクトル化し、それぞれがウェブページのそれぞれ１つに対応する複数のウェブページベクトルを取得し、ウェブページベクトルに従って総ウェブページ特性ベクトルを取得し、総ウェブページ特性ベクトルとウェブページベクトルのそれぞれとの間でそれぞれの類似度に従ってウェブページをクラスタ化するウェブページクラスタ化装置と、を含んでもよい。

システムは、ウェブページのクラスタ化に従ってカテゴリインデックスを確立するインデックス確立ユニットをさらに含んでもよく、カテゴリインデックスは１つまたは複数のクラスのウェブページを識別する。さらに、システムは、ユーザからクエリーワードを受け取るときに、カテゴリインデックスに従ってそれぞれのクラスのウェブページを検索する検索ユニットをさらに含んでもよい。

代わりに、システムは、各クラスのウェブページから代表ウェブページを選択し、代表ウェブページと、各クラスのそれぞれの中心ウェブページ以外のウェブページとの間に接続を確立する選択ユニットをさらに含んでもよい。

さらに代わりに、システムは、ユーザからクエリーワードを受け取ることに応えて各クラスの代表ウェブページをユーザに返す返却ユニットをさらに含んでもよい。

本開示に提供される技法は、複数の可読ファイルをベクトル化し、複数の可読ファイルに対応する複数のファイルベクトルを取得し、複数のファイルベクトルに基づいて総特性ベクトルを抽出し、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度の順序付け結果に基づいて複数のファイルをクラスタ化する。本開示の実施形態では、各ファイルベクトルと総特性ベクトルの間の類似度は、可読ファイルの一対ごとの比較のために類似度を計算する必要なく、クラスタ化の根拠として使用され、それによってファイルベクトル間の類似度を比較する回数を削減し、さらにＣＰＵおよびメモリの使用等のシステムリソースの重荷を削減し、クラスタ化の実行時間をさらに短縮し、クラスタ化の性能を改善する。本開示を実現する製品は、上記の利点のすべてを達成する必要はない。

以下は、開示されている実施形態または既存の技術の説明で使用される図の簡単な紹介である。以下の図は、本開示のいくつかの実施形態だけに関係する。当業者は、創作的な活動をしなくても以下の図に従って他の図を取得できる。かかる全ての実施形態は、本開示の保護範囲内にある。

本開示によるクラスタ化方法の実施形態１のフローチャートである。本開示によるクラスタ化方法の実施形態２のフローチャートである。本開示によるクラスタ化方法の実施形態３のフローチャートである。本開示によるクラスタ化システムの実施形態１の図である。本開示によるクラスタ化システムの実施形態２の図である。本開示によるクラスタ化システムの実施形態３の図である。本開示によるウェブページをクラスタ化するための方法の実施形態のフローチャートである。本開示によるウェブページをクラスタ化するための方法の別の実施形態のフローチャートである。本開示に従ってウェブページをクラスタ化するためのシステムの実施形態の図である。本開示に従ってウェブページをクラスタ化するためのシステムの別の実施形態の図である。

本開示は、汎用コンピュータシステムまたは特殊コンピュータシステムの環境で、または構成で使用されてもよい。例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたは携帯デバイス、タブレットデバイス、マルチプロセッサシステム、および上記の任意のシステムまたはデバイスを含む分散コンピューティング環境を含む。

本開示は、プログラムモジュール等、コンピュータによって実行されるコンピュータ実行可能命令の一般的状況内で説明されてもよい。一般に、プログラムモジュールは、特定のタスクを実行するため、または特定の抽象データタイプを実施するためのルーチン、プログラム、オブジェクト、モジュール、およびデータ構造等を含む。また、本開示は、分散コンピューティング環境でも実施されてもよい。分散コンピューティング環境では、タスクは、通信ネットワークを通して接続される遠隔処理装置によって実行される。分散コンピューティング環境では、プログラムモジュールは、１台または複数のローカルコンピュータおよび遠隔コンピュータの１つまたは複数の（ストレージデバイスを含むことがある）コンピュータ可読記憶媒体の中に配置されてもよい。

本開示の技法は、まず、複数の可読ファイルをベクトル化し、複数の可読ファイルの内のそれぞれ１つにそれぞれが対応する複数のファイルベクトルを取得し、複数のファイルベクトルの共通の特性に基づいて特性ベクトルを形成してから、特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度に基づいて複数のファイルをクラスタ化し、それによって可読ファイルの一対ごとの比較のための類似度を計算することを回避する。本開示は、形成された特性ベクトルに基づいて可読ファイルのクラスタ化を実施し、それによって類似度比較の削減された回数に基づいてクラスタ化の性能を改善する。

図１は、後述されるクラスタ化方法の実施形態１のフローチャートを示す。

１０１で、方法は、それぞれが複数の可読ファイルの内のそれぞれ１つに対応する複数のファイルベクトルを取得するために複数の可読ファイルをベクトル化する。

この実施形態では、可読ファイルは、ワード文書、エクセルスプレッドシート等の、ベクトルに変換可能な任意の形式のファイルとすることができる。本開示は、最初に、複数の可読ファイルのそれぞれを対応する複数のファイルベクトルに変換するために、複数の可読ファイルをベクトル化する。一実施形態では、ベクトル化は、所与の可読ファイルを一連の数字から構成されるベクトルに変換することを指し、各数字は、それぞれの特性に対応する値を表す。可読ファイルの特性をそれによって選ぶことができる多くの方法がある。１つの典型的な方法は、可読ファイルの特性値を取得するための単語出現頻度−逆文書頻度（ＴＦ−ＩＤＦ）方法を使用することである。また、情報利得（ＩＧ）、相互情報量（ＭＩ）、およびエントロピー方法等の他の方法も使用されてもよい。最後に、取得された特性値は、一連の数字から成るベクトルに構成される。異なる可読ファイルは、異なる対応するベクトルを有する。本開示のファイルベクトルは、ベクトルを指す。それがファイルベクトルと呼ばれる理由は、以下の特性ベクトルと区別するためである。

ステップ１０２で、方法は、複数のファイルベクトルに基づいて総特性ベクトルを取得する。

本開示は、複数のファイルの複数のファイルベクトルを取得後、複数のファイルベクトルに基づいて総特性ベクトルを取得する。総特性ベクトルは、可読ファイルの全ての特性を含む特性ベクトルである。実践的な応用では、総特性ベクトルを構築するとき、可読ファイルの全ての特性が抽出され、次に可読ファイルの全ての特性を含むベクトルが特性値として生成される。それは、全ての可読ファイルの特性値を合計し、その合計を総特性ベクトルの特性値として使用することによって生成できる。所与の可読ファイルの特性はワードまたは数字等の、可読ファイルでの最小受け入れ可能単位として理解できる。詳細な特性は、特性選択アルゴリズムによっては異なることがある。このステップで構築される特性ベクトルは、ファイルベクトルおよび特性ベクトルを比較するときに、類似度の値が０とはならないことを保証でき、それによって類似するファイルベクトルを順番に順位付けることができることを保証する。

１０３で、方法は、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて複数の可読ファイルをクラスタ化する。

一実施形態では、このステップは、総特性ベクトルと、複数のファイルベクトルのそれぞれとの間のそれぞれの類似度を計算することと、複数の可読ファイルをクラスタ化することとを含む。具体的には、可読ファイルは、計算された複数の類似度に従って順位付けすることができ、隣接する可読ファイルは実際の状況または要件に従ってクラスタ化される。本実施形態では、例えば、あらゆるファイルベクトルが、それぞれの比較結果を提供するためにその先行するベクトルとの類似度について比較しさえすればよい、連続比較方法を使用することができる。例えば２つのファイルの間の類似度が０．９９以上であるときにその２つのファイルが同じクラスでクラスタ化され、それ以外の場合新しいクラスが生成される等、閾値を事前設定するとき、このステップは、閾値を０．９９としてセットアップすることができる。最後に、全ての可読ファイルに対応する全てのベクトルがクラスタ化される。ベクトル類似度の比較は、数学での異なるベクトル類似度計算式に基づくことができる。異なる式が類似度の異なる計算方法を導き出すことができる。

本実施形態でのクラスタ化方法の適用は、Ｋ手段クラスタ化アルゴリズム、または投射追跡方法、自動組織化マップアルゴリズム等の高次元から低次元への方法等の中心繰り返し状の計算方法の計算を使用できることが理解される。この２つの方法の内のどれかが、本開示の実施形態のクラスタ化問題を解決できる。

本実施形態では、クラスタ化前に、全ての可読ファイルの全てのファイルベクトルが結合され、総特性ベクトルを生成する。かかる総特性ベクトルは、全てのベクトルの全ての特性を含むことができるベクトルである。したがって、各ファイルベクトルと総特性ベクトルとの間のそれぞれの類似度の計算後に、複数の可読ファイルが、類似度に従って順位付けされる。その後、連続比較の原理に従って、クラスタ化が、２つの隣接ファイルベクトル間の類似度に従って実行される。このようにして、各ファイルベクトルは、その隣接ファイルベクトルと比較されるにすぎず、それによってファイルベクトル間の類似度の比較の回数を削減する。有利なことに、これは、ＣＰＵおよびメモリの使用量の削減、実行時間の短縮、および計算性能の改善を生じさせる。

図２は、本開示にかかるクラスタ化方法の実施形態２のフローチャートを示す。本実施形態は、本開示のクラスタ化方法を実践に適応する特定の例として理解できる。方法は、以下に説明される。

ステップ２０１で、方法は、複数の可読ファイルをベクトル化し、それぞれが複数の可読ファイルのそれぞれのファイルに対応する複数のファイルベクトルを取得する。

本実施形態は、実践されている特定の例を参照することによって示される。１０の可読ファイルがあり、各可読ファイルが合計４つの特性を有すると仮定すると、ベクトル化の結果は以下の通りになる場合がある。つまり、第１の可読ファイルのファイルベクトル１は（０．２、０、１、１）であり、第２の可読ファイルのファイルベクトル２は（０．３、０．２、０、１）であり、第３の可読ファイルのファイルベクトル３は（０．１、０．１、０．１、０．２）であり、第４の可読ファイルのファイルベクトル４は（０、０、０．６、０．７）であり、第５の可読ファイルのファイルベクトル５は（１、２、３、４）であり、第６の可読ファイルのファイルベクトル６は（０．３、０、０．９、０．９）であり、第７の可読ファイルのファイルベクトル７は（０．４、０．１、０、０．９）であり、第８の可読ファイルのファイルベクトル８は（０．２、０．１、０．２、０．１）であり、第９の可読ファイルのファイルベクトル９は（０、０、０．５、０．６）であり、第１０の可読ファイルのファイルベクトル１０は（０．３、０、０．９、１）である。

２０２で、方法は、複数のファイルベクトルの共通特性のそれぞれの値を１つずつ、加算、または合計し、総特性ベクトルの対応する特性値を取得する。

１０個の可読ファイルの１０個のファイルベクトルの各特性に関して、１０個の可読ファイルに対応する１０個のファイルベクトルが合計される。言い換えると、１０個のファイルベクトルの第１の特性の特性値の合計が、総特性ベクトルの第１の特性値として見なされる等である。本実施形態では、取得される総特性ベクトルは（２．８、２．５、７．２、１０．４）である。

２０３で、方法は、複数のファイルベクトルのそれぞれと総特性ベクトルとの間それぞれのそれぞれの第１の類似度を計算する。

実際の応用では、第１の類似度を計算するために角余弦公式が使用できる。角余弦方法は、各ベクトルと総特性ベクトルとの間のそれぞれの類似度を計算するために使用される。例えば、類似度を計算する際に、以下が取得されてもよい。第１の可読ファイルのファイルベクトル１と総特性ベクトルとの間の第１の類似度は０．９６３６３８であり、第２の可読ファイルのファイルベクトル２と総特性ベクトルとの間の第１の類似度は０．８３７０３２であり、第３の可読ファイルのファイルベクトル３と総特性ベクトルとの間の第１の類似度は０．９５３９１２であり、第１の可読ファイルのファイルベクトル４と総特性ベクトルとの間の第１の類似度は０．９５３５９であり、第５の可読ファイルのファイルベクトル５と総特性ベクトルとの間の第１の類似度は０．９８２４５１であり、第６の可読ファイルのファイルベクトル６と総特性ベクトルとの間の第１の類似度は０．９６６７４３であり、第７の可読ファイルのファイルベクトル７と総特性ベクトルとの間の第１の類似度は０．８２１４８５であり、第８の可読ファイルのファイルベクトル８と総特性ベクトルとの間の第１の類似度は０．７８８５１３であり、第９の可読ファイルのファイルベクトル９と総特性ベクトルの間の第１の類似度は０．９５４８６８であり、第１０の可読ファイルのファイルベクトル１０と総特性ベクトルとの間の第１の類似度は０．９７４３１６である。

２０４で、方法は、それぞれの第１の類似度に従って複数のファイルベクトルの第１の順位付けを実行する。

本実施形態の１０個のファイルベクトルは、第１の類似度値に従って高から低に順位付けされる。高から低の順位付けの結果は以下の通りである。つまり、ファイルベクトル５、ファイルベクトル１０、ファイルベクトル６、ファイルベクトル１、ファイルベクトル９、ファイルベクトル３、ファイルベクトル４、ファイルベクトル２、ファイルベクトル７、およびファイルベクトル８である。対応するファイルベクトルは以下の通りである。つまり、（１、２、３、４）、（０．３、０、０．９、１）、（０．３、０、０．９、０．９）、（０．２、０、１、１）、（０、０、０．５、０．６）、（０．１、０．１、０．２、０．２）、（０、０、０．６、０．７）、（０．３、０．２、０、１）、（０．４、０．１、０、０．９）、（０．２、０．１、０．１、０．２）である。他の実施形態では、ファイルベクトルは、第１の類似度値に従って低から高に順位付けされてもよい。

連続して接続しないファイルベクトル（０、０、０．５、０．６）、（０．１，０．１、０．１、０．２）および（０、０、０．６、０．７）を除き、他のファイルベクトルは類似する連続接続を実現している。例えば、ベクトル（０．３、０、０．９、１）と（０．３、０、０．９、０．９）との間の類似度は０．９９８６１４である。ベクトル（０．３、０、０．９、０．９）と（０．２、０、１、１）との間の類似度は０．９９５８６３である。しかしながら、ベクトル（０、０、０．５、０．６）と（０、０、０．６、０．７）との間の類似度は０．９９９９０４である。一方、これらの２つのベクトルは互いに隣接して順序付けされない。したがって、より正確な計算結果を取得するために、本実施形態では、後続の順序付けの手順が存在するであろう。

２０５で、方法は、複数のファイルベクトルのそれぞれと、それぞれ第１の順位付けの後の最後のファイルベクトルとの間で、それぞれの第２の類似度ベクトルを計算する。

実際の応用では、第２の類似度の計算の前に、小数第二位に対する精度を達成するために、第１の類似度の値に関して精密処理を実施することができる。取得される結果は以下の通りであってもよい。第１の可読ファイルのファイルベクトル１と総特性ベクトルとの間の第１の類似度は０．９６であり、第２の可読ファイルのファイルベクトル２と総特性ベクトルとの間の第１の類似度は０．８３であり、第３の可読ファイルのファイルベクトル３と総特性ベクトルとの間の第１の類似度は０．９５であり、第１の可読ファイルファイルベクトル４と総特性ベクトルとの間の第１の類似度は０．９５であり、第５の可読ファイルのファイルベクトル５と総特性ベクトルの第１の類似度は０．９８であり、第６の可読ファイルのファイルベクトル６と総特性ベクトルとの間の第１の類似度は０．９６であり、第７の可読ファイルのファイルベクトル７と総特性ベクトルとの間の第１の類似度は０．８２であり、第８の可読ファイルのファイルベクトル８と総特性ベクトルとの間の第１の類似度は０．７８であり、第９可読ファイルのファイルベクトル９と総特性ベクトルとの間の第１の類似度は０．９５であり、第１０の可読ファイルのファイルベクトル１０と総特性ベクトルとの間の第１の類似度は０．９７である。

したがって、第１の順序付けの最後の部分はファイルベクトル８である。他のファイルベクトルのそれぞれが、それぞれの第２の類似度を計算するためにファイルベクトル８と比較される。ファイルベクトル９、３、および４の第１の類似度は同じであり、すなわち０．９５である。３つの対応するファイルベクトルは、それぞれ（０、０、０．５、０．６）、（０．１、０．１、０．１、０．２）、および（０、０、０．６、０．７）である。計算後、上記３つのベクトルに対する第２の類似度の値は、それぞれ０．６４７８２１、０．８３６６、および０．６５１６９５である。

２０６で、第１のの順位付けに基づいて、方法が、第２の類似度に従った第１のの順位付けの後に順位付けされるファイルベクトルの第２の順位付けを実行する。

精密処理の後の第１の類似度の値が等しいという前提条件に基づき、このステップは、高から低へ第２の類似度の値に従って対応するファイルベクトルを順位付けする。例えば、ファイルベクトル９、３、および４の第１類似度値は同じである。第２の順位付けの後、高から低への第２の類似度の値に従って、取得された順位付け順序はファイルベクトル３、ファイルベクトル９、およびファイルベクトル４、つまり（０．１、０．１、０．１、０．２）、（０、０、０．５、０．６）、および（０、０、０．６、０．７）である。これは、ファイルベクトル９および４が連続的に接続される結果を達成する。したがって、第２の類似度の値による総順位付け結果は、５、１０、６、１、３、９、４、２、７および８である。

２０７で、第２の順位付け後の第２のファイルベクトルから開始する順位付けされたファイルベクトルのそれぞれについて、方法は先行するファイルベクトルを現在のファイルベクトルに比較し、それぞれの比較結果を提供する。

実際の応用では、異なる閾値に従って、比較結果が異なる可能性がある。実際の応用では、閾値は０と１の間である。閾値が１に近づくにつれ、クラスタ化結果はより正確になる。例えば、本実施形態では、閾値は０．９８に設定される。

２０８で、比較結果がクラスタ化条件を満たしているとき、方法は現在のファイルベクトル、およびその先行するファイルベクトルを同じクラスにクラスタ化する。

例では、（０３、０、０．９、１）、（０．３、０、０．９、０．９）および（０．２、０、１、１）が１つのクラスとして分類される。

２０９で、比較結果がクラスタ化条件を満たしていないと、方法は、新しいクラスを生成する。

ファイルベクトル（０、０、０．５、０．６）を比較するとき、例えば、比較結果が事前設定閾値以上ではない等、比較結果はクラスタ化条件を満たしていないので、新しいクラスが生成される。言い換えると、ファイルベクトル（０、０、０５、０．６）は、新しいクラスに属する。本実施形態で画定される閾値０．９９に従って、クラスタ化結果は、以下の通りである６つのクラスを含む。
クラス１：（１、２、３、４）
クラス２：（０．３、０、０．９、１）、（０．３、０、０．９、０．９）、（０．２、０、１、１）
クラス３：（０、０、０．５、０．６）、（０、０、０．６、０．７）
クラス４：（０．１、０．１、０．２、０．２）
クラス５：(０．３、０．２、０, １)、（０．４、０．１、０、０．９）
クラス６：（０．２、０．１、０．２、０．１）

本実施形態では、総特性ベクトルを構築するための方法が、類似度の類似値を用いてファイルベクトルの連続接続を実施するために使用される。かかる方法は、ファイルベクトル間により少ない比較時間が必要とされ、したがって可読ファイルをクラスタ化するときにクラスタ化の結果の品質が保証されるクラスタ化性能の改善を生じさせることを保証する。

図３は、本開示によるクラスタ化方法の実施形態３のフローチャートを示す。方法は、以下の通りに説明される。

３０１で、方法は、それぞれが複数の可読ファイルのそれぞれ１つに対応する複数のファイルベクトルを取得するために複数の可読ファイルをベクトル化する。

３０２で、方法は、総特性ベクトルに対応する特性値を取得するために複数のファイルベクトルの共通特性のそれぞれの値を、１つずつ追加する、つまり合計する。

３０３で、方法は、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度に従って、複数の可読ファイルをクラスタ化する。

ステップ３０３は、以下のステップによって実現することができる。

Ａ１で、複数のファイルベクトルのそれぞれと、総特性ベクトルとの間のそれぞれの第１の類似度が、それぞれ計算される。

第１の類似度を計算するための方法は、ベクトル角余弦公式を計算できる。

Ａ２で、複数のファイルベクトルの第１の順位付けが、第１の類似度に従って実行される。

Ａ３で、複数のファイルベクトルと第１の順位付けの最後のファイルベクトルとの間のそれぞれの第２の類似度が、それぞれ計算される。

Ａ４で、第１の順位付けの後に順位付けられたファイルベクトルの第２の順位付けは、第１の順位付けに基づいて実行される。

Ａ５で、複数の可読ファイルは、第２の順位付けの後のファイルベクトルに従ってクラスタ化される。

ステップＡ５は、以下のサブステップによって実現することができる。

ａ１で、第２の順位付けの後の順位付けされたファイルベクトルの第２のファイルベクトルから開始するファイルベクトルのそれぞれについて、現在のファイルベクトルが、１つずつ、現在のファイルベクトルに先行するファイルベクトルと比較され、それぞれの比較結果を提供する。

ａ２で、比較結果がクラスタ化条件を満たしているとき、現在のファイルベクトルおよび先行するファイルベクトルはクラスに分類される。

ａ３で、比較結果がクラスタ化条件を満たしていないとき、新しいクラスが生成される。

３０４で、方法は、複数の可読ファイルのクラスタ化結果に従って各クラスの代表ベクトルを取得する。

実際の応用では、実施形態２で取得される結果は、より高い精度を要求する状況には適さないことが時々ある。次に、クラスタ化結果が、実施形態２に説明される方法に従って取得された後、クラスごとの代表ファイルベクトルが取得される。代表ファイルベクトルは、各クラスの全てのファイルベクトルの中心ベクトルとすることができる。ファイルベクトルの数は、ステップ３０４で取得されるクラスの数と同じである。

３０５で、方法は、事前設定された条件を満たす新しい特性ベクトルを構築する。

新しい特性ベクトルは、総特性ベクトルとは異なる。新しい特性ベクトルのための構築方法は、多様な応用状況に応じて異なる可能性がある。しかしながら、新しい特性ベクトルは以下の基準、つまり類似度の値に従って高から低に順位付けされるファイルベクトルでは、類似するまたは近いファイルベクトルが互いに連続して接続されるように、代表ベクトルのそれぞれと新しい特性ベクトルとの間の類似度を取得することに従う必要がある。

３０６で、方法は、各クラスの代表ベクトルと新しい特性ベクトルとの間のそれぞれの第３の類似度を計算する。

本実施形態では、このステップは各クラスの代表ベクトルと新しい特性ベクトルとの間のそれぞれの第３の類似度値を計算する。

３０７で、方法は、第３の類似度に従って各クラスの複数の可読ファイルの第１の順位付けを実行する。

本実施形態では、ステップ３０４でクラスタ化された各クラスは、第３の類似度に従って順位付けされる。

３０８で、方法は各クラスの代表ベクトルと第１の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第４の類似度を計算する。

実施形態２と同様に、本実施形態の後、各クラスの代表ベクトルと、順位付け後の最後のクラスの代表ベクトルとの間のそれぞれの第４の類似度が計算される。

３０９で、第１の順位付けに基づいて、方法は、第４の類似度に従って第１の順位付け後に代表ベクトルの第２の順位付けを実行する。

かかる順位付け動作は反復することができる。例えば、同じ第３の類似度の代表ベクトルに関して、代表ベクトルは第１の順位付けの後に互いに連続して接続されているべきであるが、連続で接続されていない。次に、第４の類似度に従って、同じ第３の類似度のかかる代表ベクトルは、第２の順位付けを有する。

３１０で、方法は、第２の順位付け後の代表ベクトルに従って複数の可読ファイルのクラスを再クラスタ化する。

任意選択で、３１１で、方法は、繰り返し終了条件が満たされているかどうかをさらに判定する。肯定的な場合、プロセスは終了する。それ以外の場合、プロセスは、可読ファイルのクラスタ化結果に従って各クラスの代表ベクトルを取得するためにステップを再実行する。

繰り返し終了条件は、一般に、特定数の繰り返しまたはクラスタ化結果から生じる特定数のクラスを達成することとしてセットアップすることができる。

方法の実施形態に従ってクラスタ化するときには、異なる実装プロセスでの各実施形態で構築される特性ベクトルは、特性ベクトルを構築するための基準が満たされている場合にだけ異なる可能性があり、異なる特性ベクトルは異なる要件に従って異なる状況で構築できることが理解される。本実施形態では、特性ベクトルを構築するための基準は依然として満たされているが、第２の繰り返しクラスタ化の選択された特性ベクトルの数が多様な要件に従って異なる場合がある。実施形態２および３では、総特性ベクトルおよび新しい特性ベクトルのための異なる構築基準がある。本実施形態は、クラスタ化品質を改善する繰り返し方法を使用する。

説明の便宜上、上述の実施形態が行為の組み合わせとして説明される。しかしながら、本開示に従って、いくつかのステップは他の順序でまたは同時に実行できるので、当業者は、本開示がかかる説明される行為の順序によって制限されないことを理解するだろう。さらに、当業者は、本開示で開示される実施形態が好ましい実施形態であること、および説明される行為およびモジュールのいくつかが本開示には必要ではない場合があることも理解するだろう。

上述されたクラスタ化方法の実施形態１に対応して、図４を参照することによって、本開示はクラスタ化システムの実施形態１も提供する。この実施形態では、システムは、ベクトル化ユニット４０１と、抽出ユニット４０２と、クラスタ化ユニット４０３とを含んでもよい。

ベクトル化ユニット４０１は、複数の可読ファイルをベクトル化し、それぞれが複数の可読ファイルのそれぞれの１つに対応する複数のファイルベクトルを取得するように構成される。

この実施形態では、可読ファイルは、ワード文書、エクセルスプレッドシート等のベクトルに変換可能な任意の形式のファイルとすることができる。ベクトル化ユニット４０１は、対応する複数のファイルベクトルに複数の可読ファイルを変換することによってクラスタ化される複数の可読ファイルをベクトル化する。ベクトル化は、一連の数字から構成されるベクトルに可読ファイルを変換することを指し、各数字はそれぞれの特性に対応する値を表す。異なる可読ファイルは、異なる対応するベクトルを有してもよい。本開示のファイルベクトルは、ベクトルを指す。ファイルベクトルがファイルベクトルと呼ばれる理由は、それを特性ベクトルと区別するためである。

抽出ユニット４０２は、複数のファイルベクトルに基づいた総特性ベクトルを取得するように構成される。

複数のファイルの複数のファイルベクトルから、抽出ユニット４０２は、複数のファイルベクトルに基づいて総特性ベクトルを取得する。実際の応用では、抽出ユニット４０２は、総特性ベクトルを取得するとき、可読ファイルの全ての特性を抽出し、総特性ベクトルとして可読ファイルの全ての特性を含むベクトルを生成する。一実施形態では、総特性ベクトルは、全ての可読ファイルの特性値を合計し、総特性ベクトルの特性値として合計を使用することによって生成することができる。可読ファイルの特性は、例えば単語または数字等の、可読ファイル内の最小受け入れ可能単位とすることができる。詳細な特性は、特性選択アルゴリズムに応じて異なることがある。抽出ユニット４０２によって取得される総特性ベクトルは、ファイルベクトルと総特性ベクトルとを比較するときに類似度の値が０にはならないことを保証することができ、それによって類似するファイルベクトルを順番に順序付けることが可能になる。

クラスタ化ユニット４０３は、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて複数のファイルをクラスタ化するように構成される。

クラスタ化ユニット４０３は、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度を計算し、類似度に従って複数の可読ファイルをクラスタ化する。本実施形態では、例えば、あらゆるファイルベクトルがその先行するベクトルと類似性について比較される、連続比較方法を使用することができる。閾値を事前設定するとき、クラスタ化ユニット４０３は閾値を０．９９としてセットアップすることができる。例えば、２つのファイルの類似度が０．９９以上であるとき、この２つのファイルは同じクラスとしてクラスタ化される。それ以外の場合、新しいクラスが生成される。最終的に、全ての可読ファイルに対応する全てのファイルベクトルがクラスタ化される。ベクトル類似度の比較は、数学の異なるベクトル類似性計算に基づくことができる。異なる公式は、類似度について異なる計算方法を導き出すことができる。

本実施形態では、クラスタ化の前に、抽出ユニット４０２は全ての可読ファイルの全てのファイルベクトルを結合し、総特性ベクトルを生成することができる。かかる総特性ベクトルは、全てのベクトルの全ての特性を含むことができるベクトルである。したがって、各ファイルベクトルと総特性ベクトルとの間のそれぞれの類似度の計算後、複数の可読ファイルがそれらの類似度に従って順序付けされる。次に、連続比較の原理に従って、クラスタ化は２つごとの隣接ファイルベクトル間の類似度に従って実行される。したがって、各ファイルベクトルはその隣接ファイルベクトルとだけ比較され、それによってファイルベクトル間の類似度の比較の回数を削減する。有利なことに、これによってＣＰＵおよびメモリの使用量の削減、実行時間の短縮、および計算性能の改善がもたらされる。

本開示によって上述されたクラスタ化方法の実施形態２に対応して、図５を参照することによって、本開示は、クラスタ化システムの好ましい実施形態２も提供する。本実施形態では、システムは、ベクトル化ユニット４０１と、抽出ユニット４０２と、第１の計算ユニット５０１と、第１の順位付けユニット５０２と、第２の計算ユニット５０３と、第２の順位付けユニット５０４と、比較サブユニット５０５と、クラスタ化サブユニット５０６と、生成サブユニット５０７とを含んでもよい。

抽出ユニット４０２は、総特性ベクトルに対応する特性値を取得するために複数のファイルベクトルの共通特性のそれぞれの値を合計するように構成される。

第１の特性ユニット５０１は、複数のファイルベクトルのそれぞれと総特性ベクトルとの間のそれぞれの第１の類似度を計算するように構成される。

第１の順位付けユニット５０２は、第１の類似度に従って複数のファイルベクトルの第１の順位付けを実行するように構成される。

第２の計算ユニット５０３は、複数のファイルベクトルのそれぞれと、第１の順位付けの最後のファイルベクトルとの間のそれぞれの第２の類似度を計算するように構成される。

第２の順位付けユニット５０４は、第１の順位付けに基づいて、第１の順位付けの後に順位付けされたファイルベクトルの第２の順位付けを実行するように構成される。

本実施形態では、第２のクラスタ化ユニットは、第２の順位付け後に順位付けされたファイルベクトルに従って複数の可読ファイルをクラスタ化するように構成することができる。第２のクラスタ化ユニットは、比較サブユニット５０５と、クラスタ化サブユニット５０６と、生成サブユニット５０７とを含むことができる。

比較サブユニット５０５は、第２の順位付け後の第２のファイルベクトルから開始する順位付けされたファイルベクトルのそれぞれについて、１つずつ各ファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供するように構成される。

クラスタ化サブユニット５０６は、比較結果がクラスタ化条件を満たしていると、現在のファイルベクトルとその先行するファイルベクトルをクラスとしてクラスタ化するように構成される。

生成サブユニット５０７は、比較結果がクラスタ化条件を満たしていないときに、新しいクラスを生成するように構成される。

本実施形態では、総特性ベクトルを構築するための構成は、類似する類似度の値を用いてファイルベクトルの連続接続を実施するために使用される。かかる構成は、ファイルベクトル間で必要とする比較時間がより少なく、したがって可読ファイルクラスタ化時に、クラスタ化結果の品質を保証するクラスタ化性能の改善をもたらす。

本開示によって上述されたクラスタ化方法の実施形態３に対応して、図６を参照することによって、本開示は、クラスタ化システムの好ましい実施形態３も提供する。本実施形態では、システムは、ベクトル化ユニット４０１と、抽出ユニット４０２と、第１の計算ユニット５０１と、第１の順位付けユニット５０２と、第２の計算ユニット５０３と、第２の順位付けユニット５０４と、第２のクラスタ化ユニット６０１と、取り出しユニット６０２と、構築ユニット６０３と、第３の計算ユニット６０４と、第３の順位付けユニット６０５と、第４の計算ユニット６０６と、第４の順位付けユニット６０７と、第３のクラスタ化ユニット６０８と、判定ユニット６０９とを含んでもよい。

ベクトル化ユニット４０１は、複数の可読ファイルをベクトル化し、それぞれが複数の可読ファイルのそれぞれ１つに対応する複数のファイルベクトルを取得するように構成される。

抽出ユニット４０２は、総特性ベクトルに対応する特性値を取得するために、複数のファイルベクトルの共通特性のそれぞれの値を合計するように構成される。

第１の計算ユニット５０１は、複数のファイルベクトルのそれぞれと総特性ベクトルとの間のそれぞれの第１の類似度を計算するように構成される。

第２の計算ユニット５０３は、複数のファイルベクトルのそれぞれと第１の順位付けの中の最後のファイルベクトルとの間のそれぞれの第２の類似度を計算するように構成される。

第２の順位付けユニット５０４は、第１の順位付けに基づく第１の順位付けの後の順位付けされたファイルベクトルの第２の順位付けを実行するように構成される。

取り出しユニット６０２は、複数の可読ファイルのクラスタ化結果に従って各クラスタの代表ベクトルを取り出すように構成される。

構築ユニット６０３は、事前設定条件を満たす新しい特性ベクトルを構築するように構成される。

第３の計算ユニット６０４は、各代表ベクトルと新しい特性ベクトルの間のそれぞれの第３の類似度をそれぞれ計算するように構成される。

第３の順位付けユニット６０５は、第３の類似度に従って各クラスの複数の可読ファイルの第１の順位付けを実行するように構成される。

第４の計算ユニット６０６は、各クラスの代表ベクトルと、第１の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第４の類似度をそれぞれ計算するように構成される。

第４の順位付けユニット６０７は、第１の順位付けに基づく第１の順位付けの後の順位付けされた代表ベクトルの第２の順位付けを実行するように構成される。

第３のクラスタ化ユニット６０８は、第２の順位付け後の代表ベクトルに従って複数の可読ファイルのクラスを再クラスタ化するように構成される。

判定ユニット６０９は、繰り返し終了条件が満たされているかどうかを判定するように構成される。肯定の場合、プロセスが終了される。それ以外の場合、プロセスは終了されず、可読ファイルのクラスタ化結果に従って各クラスの代表ベクトルを取得するためのステップに続行する。

図７を参照することによって、本開示は、ウェブページをクラスタ化するための方法の実施形態も提供する。方法は以下に説明される。

７０１で、方法は、インターネットまたはネットワークから、クラスタ化される複数のウェブページを取り出す。

上述されたクラスタ化方法は、ポータルウェブサイトのカテゴリ版等のインターネットフィールド、またはサーチエンジンサーバのネットワークスパイダーによって取り出されたウェブページのクラスタ化にも適用可能である。インターネットサーチエンジンシステムのネットワークスパイダーの一例として、ネットワークスパイダーは、最初にインターネットから特定数のウェブページを取り出す。かかるウェブページは、実際の状況に応じて数およびコンテントの点で異なっていてもよい。かかるウェブページは、クラスタ化されるウェブページである。

７０２で、方法は、それぞれがクラスタ化される複数のウェブページのそれぞれ１つに対応する複数のウェブページベクトルを取得するために、クラスタ化されるウェブページをベクトル化する。

クラスタ化されるウェブページは、上述の可読ファイルと同等である。ウェブページは、テキスト分析によってベクトルモードに変換される。好ましくは、ＴＦ−ＩＤＦ方法を変換のために使用することができる。

７０３で、方法は、複数のウェブページベクトルに従ってクラスタ化される複数のウェブページの総ウェブページ特性ベクトルを取得する。

７０４で、方法は、総ウェブページ特性ベクトルと、ウェブページベクトルのそれぞれとの間のそれぞれの類似度に従ってクラスタ化される複数のウェブページをクラスタ化する。

ステップ７０３および７０４は、上述された実施形態の可読ファイルをクラスタ化するための実装プロセスである。本実施形態では、ターゲットオブジェクトは、クラスタ化されるウェブページである。本実施形態では、クラスタ化の精度の程度は、閾値の選択に依存している。適切かつ対応する閾値は、異なる応用状況でセットアップまたは計算することができる。

７０５で、方法は、クラスタ化される複数のウェブページのクラスタ結果に従ってカテゴリインデックスを確立する。カテゴリインデックスは、それぞれのクラスのウェブページを識別するために使用される。

７０４での複数のウェブページのクラスタ化の後、クラスタ化される各クラスのウェブページに対応するウェブページベクトルの中心ベクトルがある。中心ベクトルに対応するウェブページは、かかるクラスのウェブページの中心ウェブページである。中心ウェブページの特性は、中心ウェブページを分析することによって取得することができる。さらに、かかるクラスのウェブページが属する特定のカテゴリは、特性によって定めることができる。カテゴリインデックスは、異なるカテゴリに従って確立することができる。カテゴリインデックスは、各クラスのウェブページを一意に識別することができる。

７０６で、ユーザによって入力されたクエリーワードを受け取ると、方法は、カテゴリインデックスに従ってそれぞれのクラス内のウェブページで検索する。

サーチエンジンは、ユーザによって入力されたクエリーワードを受け取ると、そのクエリーワードが属するカテゴリおよびカテゴリインデックスに従って、そのクエリーを関連するカテゴリに適合させることができ、次いで関連カテゴリの下だけでサーチを実施する。したがって、サーチエンジンサーバ側でサーチエンジンに要求される計算はより少ない。この方法は検索速度を加速し、サーチエンジンサーバの性能を最適化する。さらに、この方法はサーチエンジンのユーザ経験も改善することができる。

本開示の別の実施形態では、図８を参照することによって、ステップ７０４の後、本開示にかかる方法は、さらに以下のステップを提供する。

８０１で、方法は各クラスのウェブページから中心ウェブページを選択し、中心ウェブページと、各クラスの中心ウェブページ以外のウェブページとの間の接続を確立する。

本実施形態では、中心ウェブページは、クラスタ化結果に従って各クラスのクラスタ化されたウェブページから選択される。クラスタ化される各クラスのウェブページのウェブページベクトルが中心ベクトルを有することを考えると、中心ベクトルに対応するウェブページはかかるクラスのウェブページの中心ウェブページである。したがって、中心ウェブページの選択後、各クラスのウェブページで、中心ウェブページ以外のウェブページのそれぞれが中心ウェブページとの接続を確立することができる。かかる接続は、中心ウェブページのクリックおよび中心ウェブページのオープンがあるときに、中心ウェブページのクラスでの他のウェブページ情報のデフォルトの関係性を示すことができるので理解することができる。ユーザ要件および応用状況に従ったクラスでの他のウェブページ情報の接続方法および表示をセットアップすることができる。本開示は、この態様ではいかなる制約も課さない。ウェブページを表示するとき、類似するウェブページは削除されるのではなく、マージされ、中心ウェブページである場合もあれば、ない場合もある、そのクラスのそれぞれのウェブページにリンクされる。特定のウェブページの情報を見直す必要があるときには、ユーザがブラウザするための類似するウェブページのインタフェースを入力するためにリンクインタフェースを使用することができる。

８０２で、方法は、ユーザによって入力されたクエリーワードを受け取ることに応えて、各クラスの代表ウェブページをユーザに返す。サーチエンジンサーバで、ユーザによって入力されたクエリーワードが受け取られると、サーチエンジンは、クエリーワードが属するカテゴリに従ってユーザに対応する中心ウェブページを返すだけである。さらに、各中心ウェブページは、同じクラスの他のウェブページに対するリンクを有することができる。本実施形態では、ステップ７０４でクラスタ化するための閾値の選択は、実際の応用によって判定することができる。異なる応用には異なる閾値が使用されてもよい。例えば、高閾値は、ウェブページをクラスタ化し、類似性を判定するために使用されてもよい。ウェブページの多くのフォーマットの変形があるため、いくつかの重要な属性は、多くの場合、ウェブページが類似するかどうかを判定するために選択される。しかしながら、重要な属性は、時々ウェブページの全ての特性を表していないことがあり、０．９に近いまたは０．９より高い閾値が検討されるべきである。

図９は、本開示に従ってウェブページをクラスタ化するためのシステムの実施形態の図を示す。システムは、取り出しユニット９０１と、ウェブページクラスタ化装置９０２と、インデックス確立ユニット９０３と、サーチユニット９０とを含んでもよい。

取り出しユニット９０１は、インターネットまたはネットワークから、クラスタ化される複数のウェブページを取り出すように構成される。

ウェブページクラスタ化装置９０２は、それぞれが、クラスタ化される複数のウェブページのそれぞれの１つに対応する複数のウェブページベクトルを取得するため、複数のウェブページベクトルに従って総ウェブページ特性ベクトルを取得するため、および総ウェブページ特性ベクトルとウェブページベクトルのそれぞれとの間の類似度に従って、クラスタ化される複数のウェブページをクラスタ化するために、クラスタ化されるウェブページをベクトル化するように構成される。

インデックス確立ユニット９０３は、クラスタ化される複数のウェブページのクラスタ化結果に従ってカテゴリインデックスを確立するように構成される。カテゴリインデックスは、１つまたは複数のクラスのウェブページを識別する。

検索ユニット９０４は、ユーザによって入力されたクエリーワードを受け取ると、カテゴリインデックス従ってそれぞれのクラスのウェブページを検索するように構成される。

図１０を参照すると、本開示は、本開示に従ってウェブページをクラスタ化するためのシステムの実施形態をさらに提供する。システムは、取り出しユニット９０１と、ウェブページクラスタ化装置９０２と、選択ユニット１００１と、返却ユニット１００２と、を含んでもよい。

取り出しユニット９０１は、インターネットまたネットワークから、クラスタ化される複数のウェブページを取り出すように構成される。

ウェブページクラスタ化装置９０２は、それぞれが、クラスタ化される複数のウェブページのそれぞれの１つに対応する複数のウェブページベクトルを取得するために、複数のウェブページベクトルに従って総ウェブページ特性ベクトルを取得するために、および総ウェブページ特性ベクトルとウェブページベクトルのそれぞれとの間の類似度に従ってクラスタ化される複数のウェブページをクラスタ化するために、クラスタ化されるウェブページをベクトル化するように構成される。

選択ユニット１００１は、各クラスのウェブページから代表ウェブページを選択し、それぞれのウェブページと、各クラスの中心ウェブページ以外の他のウェブページとの間の接続を確立するように構成される。

返却ユニット１００２は、ユーザによって入力されるクエリーワードを受け取ることに応えて、各クラスの代表ウェブページをユーザに返すように構成される。

多様な例示的な実施形態が本開示で徐々に説明される。例示的な実施形態のうちの同一の部分または類似する部分は相互に参照することができる。それぞれの例示的な実施形態は、他の例示的な実施形態とは異なった焦点を有する。特に、例示的なシステムの実施形態は、例示的な方法実施形態とのその基本的な一致のため、相対的に簡単に説明される。その詳細は、例示的な方法実施形態の関連する部分を参照することができる。

最後に、本開示での「第１の」および「第２の」等の任意の関係語は、あるエンティティを別のエンティティから、またはある動作を別の動作から区別することを意味するのみであり、必ずしもこれらのエンティティまたは動作の任意の現実世界の関係性または順序付けの存在を要求または暗示しないことが留意される。さらに、「含む（ｉｎｃｌｕｄｅ）」、「有する（ｈａｖｅ）」、または他の変形等の用語は、非排他的に「備える（ｃｏｍｐｒｉｓｉｎｇ）」を意味することが意図される。したがって、特徴の集合体を個々に含むプロセス、方法、物品、またはデバイスは、それらの特徴を含んでもよいだけではなく、一覧にされていない他の特徴、つまりこれらのプロセス、方法、物品またはデバイスの任意の固有の特徴もまた含んでもよい。いかなる追加の制限無しに、句「・・・を含む」の中で定められる特徴は、その特徴を列挙するプロセス、方法、物品、またはデバイスが他の同等な特徴を有することがある可能性を排除しない。

本開示によって提供されるクラスタ化の方法およびシステムは、上記に詳細に説明されてきた。上記の例示的な実施形態は、本開示の概念および実装を示すために利用される。例示的な実施形態は、方法および本開示のそれぞれの中心概念の理解を容易にするために提供される。本開示の概念に基づいて、当業者は、実際的な実装および適用の範囲に修正を加えてもよい。要するに、本開示の内容は、本開示の制限として解釈されないものとする。

Claims

クラスタ化のためのコンピュータによって実行される方法であって、
複数の可読ファイルをベクトル化し、それぞれが前記可読ファイルの内のそれぞれの１つに対応する複数のファイルベクトルを取得するステップと、
前記ファイルベクトルに基づいて、総特性ベクトルを取得するステップと、
前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて、前記可読ファイルをクラスタ化するステップであって、
前記ファイルベクトルのそれぞれと前記総特性ベクトルとの間のそれぞれの第１の類似度を計算するステップと、
前記第１の類似度に従って、前記ファイルベクトルの第１の順位付けを実行するステップと、
前記ファイルベクトルのそれぞれと前記第１の順位付けの後の最後のファイルベクトルとの間のそれぞれの第２の類似度を計算するステップと、
前記第２の類似度に従って、前記第１の順位付けの後に順位付けされた前記ファイルベクトルの第２の順位付けを実行するステップと、
前記第２の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化するステップと
を含んでいる、ステップと
を備えていることを特徴とする方法。
前記ファイルベクトルに基づいて、前記総特性ベクトルを取得するステップは、
前記ファイルベクトルの共通特性のそれぞれの値を合計して、総特性ベクトルの対応する特性値を取得するステップ
を含んでいることを特徴とする請求項１に記載の方法。
前記第２の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化するステップは、
前記第２の順位付けの後の第２のファイルベクトルから開始して、前記順位付けされたファイルベクトルのそれぞれに対して、現在のファイルベクトルをその先行するファイルベクトルと比較して、それぞれの比較結果を提供するステップと、
前記比較結果がクラスタ条件を満たしているときに、前記現在のファイルベクトルおよびその先行するファイルベクトルを同じクラスとしてクラスタ化するステップと、
前記比較結果が前記クラスタ条件を満たしていないときに、新しいクラスを生成するステップと
を含んでいることを特徴とする請求項１に記載の方法。
少なくとも１つのそれぞれの第１の類似度または第２の類似度が、ベクトル角余弦公式を使用して計算されることを特徴とする請求項１に記載の方法。
前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間の前記それぞれの類似度の前記順位付け結果に基づいて、前記可読ファイルをクラスタ化するステップは、
前記可読ファイルの前記クラスタ化に従って、複数のクラスの前記可読ファイルの各クラスに代表ベクトルを取得するステップと、
事前設定条件を満たす新しい特性ベクトルを構築するステップと、
各クラスの前記代表ベクトルと、前記新しい特性ベクトルとの間のそれぞれの第３の類似度を計算するステップと、
前記第３の類似度に従って前記可読ファイルの各クラスの第１の順位付けを実行するステップと、
各クラスの前記代表ベクトルと、前記第１の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第４の類似度を計算するステップと、
前記第４の類似度に従って、前記第１の順位付けの後の前記代表ベクトルに第２の順位付けを実行するステップと、
前記第２の順位付けの後の前記代表ベクトルに従って前記可読ファイルの前記クラスを再クラスタ化するステップと
を含んでいることを特徴とする請求項１に記載の方法。
前記第２の順位付けの後の前記代表ベクトルに従って、前記可読ファイルの前記クラスを再クラスタ化するステップは、
繰り返し終了条件が満たされているかどうかを判定するステップと、
前記繰り返し終了条件が満たされている場合、前記クラスタ化方法を終了するステップと、
前記繰り返し終了条件が満たされていない場合、前記可読ファイルの前記クラスタ化に従って、各クラスの前記代表ベクトルを取得するために前のステップを繰り返すステップと
を含んでいることを特徴とする請求項５に記載の方法。
クラスタ化のためのシステムであって、
複数の可読ファイルをベクトル化して、それぞれが前記可読ファイルのそれぞれの１つに対応する複数のファイルベクトルを取得するベクトル化ユニットと、
前記ファイルベクトルに基づいて、総特性ベクトルを取得する抽出ユニットと、
前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間でそれぞれの類似度の順位付け結果に基づいて、複数のクラスの前記可読ファイルに前記可読ファイルをクラスタ化する、クラスタ化ユニットであって、
前記ファイルベクトルのそれぞれと前記総特性ベクトルとの間のそれぞれの第１の類似度を計算する第１の計算ユニットと、
前記第１の類似度に従って、前記ファイルベクトルの第１の順位付けを実行する第１の順位付けユニットと、
前記ファイルベクトルのそれぞれと前記第１の順位付けの後の最後のファイルベクトルとの間のそれぞれの第２の類似度を計算する第２の計算ユニットと、
前記第１の順位付けの後に順位付けされた前記ファイルベクトルの第２の順位付けを実行する第２の順位付けユニットと、
前記第２の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化する第２のクラスタユニットと
を含んでいる、クラスタ化ユニットと
を備えていることを特徴とするシステム。
前記抽出ユニットは、前記ファイルベクトルの共通特性のそれぞれの値を合計し、前記総特性ベクトルに対応する特性値を取得することを特徴とする請求項７に記載のシステム。
前記第２のクラスタユニットは、
前記第２の順位付けの後の第２のファイルベクトルから開始する前記順位付けされたファイルベクトルのそれぞれのために、現在のファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供する比較サブユニットと、
前記比較結果がクラスタ化条件を満たしているときに、前記現在のファイルベクトルおよびその先行するファイルベクトルをクラスとしてクラスタ化するクラスタ化サブユニットと、
前記比較結果が前記クラスタ化条件を満たしていないときに新しいクラスを生成する生成サブユニットと
を含んでいることを特徴とする請求項７に記載のシステム。
前記複数のクラスの前記可読ファイルの各クラスの代表ベクトルを取り出す取り出しユニットと、
事前設定条件を満たす新しい特性ベクトルを提供する構築ユニットと、
各クラスの前記代表ベクトルと前記新しい特性ベクトルとの間のそれぞれの第３の類似度を計算する第３の計算ユニットと、
前記第３の類似度に従って前記可読ファイルの各クラスの第１の順位付けを実行する第３の順位付けユニットと、
各クラスの前記代表ベクトルと、前記第１の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第４の類似度を計算する第４の計算ユニットと、
前記第１の順位付けの後に前記順位を付けられた代表ベクトルの第２のランク付けを実行する第４の順位付けユニットと、
前記第２の順位付けの後の前記代表ベクトルに従って、前記可読ファイルの前記クラスを再クラスタ化する第３のクラスタ化ユニットと、
をさらに備えていることを特徴とする請求項７に記載のシステム。
繰り返し終了条件が満たされているかどうかを判定し、前記繰り返し終了条件が満たされているとクラスタ化プロセスを終了し、前記繰り返し終了条件が満たされていない場合に、前記クラスタ化プロセスの繰り返しに、クラスごとにそれぞれの代表ベクトルを取得させる判定ユニットをさらに備えていることを特徴とする請求項１０に記載のシステム。
ウェブページをクラスタ化するためのコンピュータによって実行される方法であって、
複数のウェブページを取り出すステップと、
それぞれが前記ウェブページのそれぞれ１つに対応する複数のウェブページベクトルを取得する前記ウェブページをベクトル化するステップと、
前記ウェブページベクトルに従って前記ウェブページの総ウェブページ特性ベクトルを取得するステップと、
前記ウェブページベクトルのそれぞれと前記総ウェブページ特性ベクトルとの間のそれぞれの第１の類似度を計算するステップと、
前記第１の類似度に従って前記ウェブページベクトルの第１の順位付けを実行するステップと、
前記ウェブページベクトルのそれぞれと前記第１の順位付けの後の最後のウェブページベクトルとの間のそれぞれの第２の類似度を計算するステップと、
前記第２の類似度に従って、前記第１の順位付けの後に順位付けされた前記ウェブページベクトルの第２の順位付けを実行するステップと、
前記第２の順位付けの後に順位付けされた前記ウェブページベクトルに従って、前記ウェブページをクラスタ化するステップと
を備えていることを特徴とする方法。
前記ウェブページの前記クラスタ化に従って、カテゴリインデックスを確立するステップであって、前記カテゴリインデックスは１つまたは複数のクラスのウェブページを識別する、ステップをさらに備えていることを特徴とする請求項１２に記載の方法。
ユーザからクエリーワードを受け取ることに応えて前記カテゴリインデックスに従って、それぞれのクラスのウェブページを検索するステップをさらに備えていることを特徴とする請求項１３に記載の方法。
各クラスのウェブページからそれぞれの中心ウェブページを選択するステップと、
前記それぞれの中心ウェブページと、各それぞれのクラスの前記それぞれの中心ウェブページ以外のウェブページとの間の接続を確立するステップと
をさらに備えていることを特徴とする請求項１２に記載の方法。
前記ユーザからのクエリーワードを受け取ることに応えて、前記ユーザに各クラスの代表ウェブページを返すステップをさらに備えていることを特徴とする請求項１５に記載の方法。
ウェブページをクラスタ化するためのシステムであって、
クラスタ化される複数のウェブページを取り出す取り出しユニットと、
前記ウェブページをベクトル化するウェブページクラスタ化装置であって、
それぞれが前記ウェブページの内のそれぞれ１つに対応する複数のウェブページベクトルを取得し、
前記ウェブページベクトルに従って、総ウェブページ特性ベクトルを取得し、
前記ウェブページベクトルのそれぞれと前記総ウェブページ特性ベクトルとの間のそれぞれの第１の類似度を計算し、
前記第１の類似度に従って、前記ウェブページベクトルの第１の順位付けを実行し、
前記ウェブページベクトルのそれぞれと前記第１の順位付けの後の最後のウェブページベクトルとの間のそれぞれの第２の類似度を計算し、
前記第２の類似度に従って、前記第１の順位付けの後に順位付けされた前記ウェブページベクトルの第２の順位付けを実行し、および、
前記第２の順位付けの後に順位付けされた前記ウェブページベクトルに従って、前記ウェブページをクラスタ化する、ウェブページクラスタ化装置と
を備えていることを特徴とするシステム。
前記ウェブページの前記クラスタ化に従って、カテゴリインデックスを確立するインデックス確立ユニットであって、前記カテゴリインデックスが、１つまたは複数のクラスのウェブページを識別する、インデックス確立ユニットをさらに備えていることを特徴とする請求項１７に記載のシステム。
ユーザからクエリーワードを受け取ると、前記カテゴリインデックスに従って、各クラスのウェブページを検索する検索ユニットをさらに備えていることを特徴とする請求項１８に記載のシステム。
ウェブページの各クラスから代表ウェブページを選択し、前記代表ウェブページと、各クラスのそれぞれの中心ウェブページ以外のウェブページとの間に接続を確立する選択ユニットをさらに備えていることを特徴とする請求項１７に記載のシステム。
前記ユーザからクエリーワードを受け取ることに応えて、前記ユーザに各クラスの代表ウェブページを返す返却ユニットをさらに備えていることを特徴とする請求項１７に記載のシステム。