JP5615931B2 - クラスタ化方法およびシステム - Google Patents

クラスタ化方法およびシステム Download PDF

Info

Publication number
JP5615931B2
JP5615931B2 JP2012538818A JP2012538818A JP5615931B2 JP 5615931 B2 JP5615931 B2 JP 5615931B2 JP 2012538818 A JP2012538818 A JP 2012538818A JP 2012538818 A JP2012538818 A JP 2012538818A JP 5615931 B2 JP5615931 B2 JP 5615931B2
Authority
JP
Japan
Prior art keywords
vector
file
ranking
web page
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012538818A
Other languages
English (en)
Other versions
JP2013511084A (ja
Inventor
タオ ツァン
タオ ツァン
ジアチン グオ
ジアチン グオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013511084A publication Critical patent/JP2013511084A/ja
Application granted granted Critical
Publication of JP5615931B2 publication Critical patent/JP5615931B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters

Description

本願は、参照することによりその全体が本明細書に組み込まれる、「CLUSTERING METHOD AND SYSTEM」と題する2009年11月10日に出願された中国特許出願第200910211714.6号に基づく優先権を主張する。
本開示はデータ処理分野に関し、特にクラスタ化方法およびシステムに関する。
データ処理では、一般に、クラスタ化は、類似するオブジェクトから構成されるいくつかのクラスに物理オブジェクトまたは抽象オブジェクトの組を分類することを指す。クラスタ化によって生成されるクラスタは、データオブジェクトの組である。これらのオブジェクトは、同じクラスタ内では互いに類似しているが、他のクラスタ内のオブジェクトとは異なっている。大量の可読ファイルの識別のため、クラスタ化の計算は、例えば、同じクラスの可読ファイルを判定し、類似ファイルのクラスタ化を実現するために異なる閾値に従って異なる可読ファイルを異なるクラスに分類すること等を、しばしば要求した。
現在の技術の下では、大量ファイルのクラスタ化のプロセスは、一般に以下の通りである。第1に、可読ファイルは異なる方法に基づき、クラスタ化のための根拠として異なるベクトルの類似度について比較結果を使用して一定方向に向けられる。ベクトル化は、(ワード文書等の)可読ファイルを、各数字がそれぞれの特性に対応する特性値を表す、一連の数字から構成されるベクトルに変換することを指す。異なる可読ファイルは、異なる対応するベクトルを有する。次に、ベクトル類似度に応じてクラスタ化するとき、現在の技術では、一般に、ファイルを1つずつ比較する。例えば、クラスタ化する100の可読ファイルがあるとき、ベクトル類似度に応じてクラスタ化を実行できるように、他の99のファイルに対する各可読ファイルのベクタ類似度が計算される必要がある。
上記プロセスを考慮すると、現在の技術のクラスタ化方法は、各可読ファイルのベクトル類似度を計算する必要がある。クラスタ化分析は、かかるベクトル類似度に基づいている。可読ファイルの膨大な量のデータがあるとき、繰り返されるかかる計算は、しばしば計算時間の増加につながり、ひいては性能を著しく低下させる。言い換えると、クラスタ化の前に計算によって占有されるシステムリソースの量は、クラスタ化プロセス自体の量をほぼ超えてしまう。
一般に、当業者の前にある、緊急な技術的な課題は、したがって、各可読ファイルが、クラスタ化のために他のファイルに関してベクトル類似度の計算を必要とし、その結果クラスタ化に要する計算時間の増加およびクラスタ計算の低い性能が生じるという現在の問題を解決するためのクラスタ化の方法を、どのように創造的に提出するかという点である。
本開示の目標は、各可読ファイルが、クラスタ化のために他のファイルに関してそれぞれのベクトル類似度の計算を必要とし、それによってクラスタ化に要する計算時間の増加およびクラスタ計算の低い性能が生じるという問題を解決するための問題を解決するためのクラスタ化方法を提供することである。本開示は、かかる目標を達成するためのクラスタ化システムを提供する。加えて、本開示は、クラスタ化方法も提供する。
一態様では、クラスタ化方法は、複数の可読ファイルをベクトル化して、それぞれが可読ファイルの内のそれぞれ1つに対応する複数のファイルベクトルを取得することと、ファイルベクトルに基づいて総特性ベクトルを取得することと、総特性ベクトルとファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて可読ファイルをクラスタ化することとを含んでもよい。
ファイルベクトルに基づいて総特性ベクトルを取得することは、総特性ベクトルの対応する特性値を取得するためにファイルベクトルの共通特性のそれぞれの値を合計することを含んでもよい。
総特性ベクトルとファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて可読ファイルをクラスタ化することは、ファイルベクトルのそれぞれと総特性ベクトルとの間のそれぞれの第1の類似度を計算することと、第1の類似度に従ってファイルベクトルの第1の順位付けを実行することと、ファイルベクトルのそれぞれと第1の順位付けの後の最後のファイルベクトルの間のそれぞれの第2の類似度を計算することと、第2の類似度に従って、第1の順位付けの後に順序付けされたファイルベクトルの第2の順位付けを実行することと、第2の順位付けの後に順位付けされたファイルベクトルに従って可読ファイルをクラスタ化することと、を含んでもよい。
第2の順位付けの後に順位付けされたファイルベクトルに従って可読ファイルをクラスタ化することは、第2の順位付けの後の第2のファイルベクトルから開始する順位付けされたファイルベクトルのそれぞれについて、現在のファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供することと、比較結果がクラスタ化条件を満たしているときに、現在のファイルベクトルおよびその先行するファイルベクトルを同じクラスとしてクラスタ化することと、比較結果がクラスタ化条件を満たしていないときに、新しいクラスを生成することと、を含んでもよい。少なくとも1つのそれぞれの第1の類似度または第2の類似度が、ベクトル角余弦公式を使用して計算されてもよい。
総特性ベクトルとファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて可読ファイルをクラスタ化することは、可読ファイルのクラスタ化に従って複数のクラスの可読ファイルの各クラスの代表ベクトルを取得することと、事前設定条件を満たす新しい特性ベクトルを構築することと、各クラスの代表ベクトルと新しい特性ベクトルとの間のそれぞれの第3の類似度を計算することと、第3の類似度に従って各クラスの可読ファイルの第1の順位付けを実行することと、各クラスの代表ベクトルと第1の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度を計算することと、第4の類似度に従って第1の順位付けの後の代表ベクトルの第2の順位付けを実行することと、第2の順位付けの後の代表ベクトルに従って可読ファイルのクラスを再クラスタ化することと、を含んでもよい。
第2の順位付けの後の代表ベクトルに従って可読ファイルのクラスを再クラスタ化することは、繰り返し終了条件が満たされているかどうかを判定することと、繰り返し終了条件が満たされている場合、クラスタ化方法を終了することと、繰り返し終了条件が満たされていない場合、可読ファイルのクラスタ化に従って各クラスの代表ベクトルを取得するために以前のステップを反復することと、を含んでもよい。
別の態様では、クラスタ化のためのシステムは、複数の可読ファイルをベクトル化して、それぞれが可読ファイルのそれぞれ1つに対応する複数のファイルベクトルを取得するベクトル化ユニットと、ファイルベクトルに基づいて総特性ベクトルを取得する抽出ユニットと、総特性ベクトルとファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて、複数のクラスの可読ファイルに可読ファイルをクラスタ化するクラスタ化ユニットと、を含んでもよい。
抽出ユニットは、総特性ベクトルに対応する特性値を取得するためにファイルベクトルの共通の特性のそれぞれの値を合計してもよい。
クラスタ化ユニットは、ファイルベクトルのそれぞれと総特性ベクトルとの間のそれぞれの第1の類似度を計算する第1の計算ユニットと、第1の類似度に従ってファイルベクトルの第1の順位付けを実行する第1の順位付けユニットと、ファイルベクトルのそれぞれと第1の順位付けの後の最後のファイルベクトルとの間のそれぞれの第2の類似度を計算する第2の計算ユニットと、第1の順位付けの後の順位付けされたファイルベクトルの第2の順位付けを実行する第2の順位付けユニットと、第2の順位付けの後に順位付けされるファイルベクトルに従って可読ファイルをクラスタ化する第2のクラスタ化ユニットと、を含んでもよい。
第2のクラスタ化ユニットは、第2の順位付けの後の第2のファイルベクトルから開始する順位付けされたファイルベクトルのそれぞれについて、現在のファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供する比較サブユニットと、比較結果がクラスタ化条件を満たしているときに、現在のファイルベクトルおよびその先行するファイルベクトルを、クラスとしてクラスタ化するクラスタ化サブユニットと、比較結果がクラスタ化の条件を満たしていないときに新しいクラスを生成する生成サブユニットとを含んでもよい。
システムは、複数のクラスの可読ファイルの各クラスの代表ベクトルを取り出す取り出しユニットと、事前設定条件を満たす新しい特性ベクトルを提供する構築ユニットと、各クラスの代表ベクトルと新しい特性ベクトルとの間のそれぞれの第3の類似度を計算する第3の計算ユニットと、第3の類似度に従って可読ファイルの各クラスの第1の順位付けを実行する第3の順位付けユニットと、各クラスの代表ベクトルと第1の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度を計算する第4の計算ユニットと、第1の順位付けの後の順位付けされた代表ベクトルの第2の順位付けを実行する第4の順位付けユニットと、第2の順位付け後の代表ベクトルに従って可読ファイルのクラスを再クラスタ化する第3のクラスタ化ユニットと、をさらに含んでもよい。
代わりに、システムは、繰り返し終了条件が満たされているかどうかを判定し、反復終了条件が満たされているとクラスタ化プロセスを終了し、繰り返し終了条件が満たされていないと、各クラスのそれぞれの代表ベクトルを取得するためにクラスタ化プロセスの繰り返しを引き起こす判定ユニットをさらに含んでもよい。
さらに別の態様では、ウェブページをクラスタ化する方法は、複数のウェブページを取り出すことと、それぞれがウェブページのそれぞれ1つに対応する複数のウェブページベクトルを取得するウェブページをベクトル化することと、ウェブページベクトルに従ってウェブページの総ウェブページ特性ベクトルを取得することと、総ウェブページ特性ベクトルとウェブページベクトルのそれぞれとの間のそれぞれの類似度に従ってウェブページをクラスタ化することと、を含んでもよい。
方法は、ウェブページのクラスタ化に従ってカテゴリインデックスを確立することをさらに含んでもよく、このカテゴリインデックスは、1つまたは複数のクラスのウェブページを識別する。さらに、方法は、ユーザからクエリーワードを受け取ることに応えてカテゴリインデックスに従ってそれぞれのクラスのウェブページで検索することをさらに含んでもよい。
代わりに、方法は、各クラスのウェブページからそれぞれの中心ウェブページを選択することと、それぞれの中心ウェブページと、各クラスのそれぞれの中心ウェブページ以外のウェブページとの間に接続を確立することとをさらに含んでもよい。さらに、方法は、ユーザからクエリーワードを受け取ることに応えて、各クラスの代表ウェブページをユーザに返すことをさらに含んでもよい。
さらに別の態様では、ウェブページをクラスタ化するシステムは、クラスタ化される複数のウェブページを取り出す、取り出しユニットと、ウェブページをベクトル化し、それぞれがウェブページのそれぞれ1つに対応する複数のウェブページベクトルを取得し、ウェブページベクトルに従って総ウェブページ特性ベクトルを取得し、総ウェブページ特性ベクトルとウェブページベクトルのそれぞれとの間でそれぞれの類似度に従ってウェブページをクラスタ化するウェブページクラスタ化装置と、を含んでもよい。
システムは、ウェブページのクラスタ化に従ってカテゴリインデックスを確立するインデックス確立ユニットをさらに含んでもよく、カテゴリインデックスは1つまたは複数のクラスのウェブページを識別する。さらに、システムは、ユーザからクエリーワードを受け取るときに、カテゴリインデックスに従ってそれぞれのクラスのウェブページを検索する検索ユニットをさらに含んでもよい。
代わりに、システムは、各クラスのウェブページから代表ウェブページを選択し、代表ウェブページと、各クラスのそれぞれの中心ウェブページ以外のウェブページとの間に接続を確立する選択ユニットをさらに含んでもよい。
さらに代わりに、システムは、ユーザからクエリーワードを受け取ることに応えて各クラスの代表ウェブページをユーザに返す返却ユニットをさらに含んでもよい。
本開示に提供される技法は、複数の可読ファイルをベクトル化し、複数の可読ファイルに対応する複数のファイルベクトルを取得し、複数のファイルベクトルに基づいて総特性ベクトルを抽出し、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度の順序付け結果に基づいて複数のファイルをクラスタ化する。本開示の実施形態では、各ファイルベクトルと総特性ベクトルの間の類似度は、可読ファイルの一対ごとの比較のために類似度を計算する必要なく、クラスタ化の根拠として使用され、それによってファイルベクトル間の類似度を比較する回数を削減し、さらにCPUおよびメモリの使用等のシステムリソースの重荷を削減し、クラスタ化の実行時間をさらに短縮し、クラスタ化の性能を改善する。本開示を実現する製品は、上記の利点のすべてを達成する必要はない。
以下は、開示されている実施形態または既存の技術の説明で使用される図の簡単な紹介である。以下の図は、本開示のいくつかの実施形態だけに関係する。当業者は、創作的な活動をしなくても以下の図に従って他の図を取得できる。かかる全ての実施形態は、本開示の保護範囲内にある。
本開示によるクラスタ化方法の実施形態1のフローチャートである。 本開示によるクラスタ化方法の実施形態2のフローチャートである。 本開示によるクラスタ化方法の実施形態3のフローチャートである。 本開示によるクラスタ化システムの実施形態1の図である。 本開示によるクラスタ化システムの実施形態2の図である。 本開示によるクラスタ化システムの実施形態3の図である。 本開示によるウェブページをクラスタ化するための方法の実施形態のフローチャートである。 本開示によるウェブページをクラスタ化するための方法の別の実施形態のフローチャートである。 本開示に従ってウェブページをクラスタ化するためのシステムの実施形態の図である。 本開示に従ってウェブページをクラスタ化するためのシステムの別の実施形態の図である。
本開示は、汎用コンピュータシステムまたは特殊コンピュータシステムの環境で、または構成で使用されてもよい。例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたは携帯デバイス、タブレットデバイス、マルチプロセッサシステム、および上記の任意のシステムまたはデバイスを含む分散コンピューティング環境を含む。
本開示は、プログラムモジュール等、コンピュータによって実行されるコンピュータ実行可能命令の一般的状況内で説明されてもよい。一般に、プログラムモジュールは、特定のタスクを実行するため、または特定の抽象データタイプを実施するためのルーチン、プログラム、オブジェクト、モジュール、およびデータ構造等を含む。また、本開示は、分散コンピューティング環境でも実施されてもよい。分散コンピューティング環境では、タスクは、通信ネットワークを通して接続される遠隔処理装置によって実行される。分散コンピューティング環境では、プログラムモジュールは、1台または複数のローカルコンピュータおよび遠隔コンピュータの1つまたは複数の(ストレージデバイスを含むことがある)コンピュータ可読記憶媒体の中に配置されてもよい。
本開示の技法は、まず、複数の可読ファイルをベクトル化し、複数の可読ファイルの内のそれぞれ1つにそれぞれが対応する複数のファイルベクトルを取得し、複数のファイルベクトルの共通の特性に基づいて特性ベクトルを形成してから、特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度に基づいて複数のファイルをクラスタ化し、それによって可読ファイルの一対ごとの比較のための類似度を計算することを回避する。本開示は、形成された特性ベクトルに基づいて可読ファイルのクラスタ化を実施し、それによって類似度比較の削減された回数に基づいてクラスタ化の性能を改善する。
図1は、後述されるクラスタ化方法の実施形態1のフローチャートを示す。
101で、方法は、それぞれが複数の可読ファイルの内のそれぞれ1つに対応する複数のファイルベクトルを取得するために複数の可読ファイルをベクトル化する。
この実施形態では、可読ファイルは、ワード文書、エクセルスプレッドシート等の、ベクトルに変換可能な任意の形式のファイルとすることができる。本開示は、最初に、複数の可読ファイルのそれぞれを対応する複数のファイルベクトルに変換するために、複数の可読ファイルをベクトル化する。一実施形態では、ベクトル化は、所与の可読ファイルを一連の数字から構成されるベクトルに変換することを指し、各数字は、それぞれの特性に対応する値を表す。可読ファイルの特性をそれによって選ぶことができる多くの方法がある。1つの典型的な方法は、可読ファイルの特性値を取得するための単語出現頻度−逆文書頻度(TF−IDF)方法を使用することである。また、情報利得(IG)、相互情報量(MI)、およびエントロピー方法等の他の方法も使用されてもよい。最後に、取得された特性値は、一連の数字から成るベクトルに構成される。異なる可読ファイルは、異なる対応するベクトルを有する。本開示のファイルベクトルは、ベクトルを指す。それがファイルベクトルと呼ばれる理由は、以下の特性ベクトルと区別するためである。
ステップ102で、方法は、複数のファイルベクトルに基づいて総特性ベクトルを取得する。
本開示は、複数のファイルの複数のファイルベクトルを取得後、複数のファイルベクトルに基づいて総特性ベクトルを取得する。総特性ベクトルは、可読ファイルの全ての特性を含む特性ベクトルである。実践的な応用では、総特性ベクトルを構築するとき、可読ファイルの全ての特性が抽出され、次に可読ファイルの全ての特性を含むベクトルが特性値として生成される。それは、全ての可読ファイルの特性値を合計し、その合計を総特性ベクトルの特性値として使用することによって生成できる。所与の可読ファイルの特性はワードまたは数字等の、可読ファイルでの最小受け入れ可能単位として理解できる。詳細な特性は、特性選択アルゴリズムによっては異なることがある。このステップで構築される特性ベクトルは、ファイルベクトルおよび特性ベクトルを比較するときに、類似度の値が0とはならないことを保証でき、それによって類似するファイルベクトルを順番に順位付けることができることを保証する。
103で、方法は、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて複数の可読ファイルをクラスタ化する。
一実施形態では、このステップは、総特性ベクトルと、複数のファイルベクトルのそれぞれとの間のそれぞれの類似度を計算することと、複数の可読ファイルをクラスタ化することとを含む。具体的には、可読ファイルは、計算された複数の類似度に従って順位付けすることができ、隣接する可読ファイルは実際の状況または要件に従ってクラスタ化される。本実施形態では、例えば、あらゆるファイルベクトルが、それぞれの比較結果を提供するためにその先行するベクトルとの類似度について比較しさえすればよい、連続比較方法を使用することができる。例えば2つのファイルの間の類似度が0.99以上であるときにその2つのファイルが同じクラスでクラスタ化され、それ以外の場合新しいクラスが生成される等、閾値を事前設定するとき、このステップは、閾値を0.99としてセットアップすることができる。最後に、全ての可読ファイルに対応する全てのベクトルがクラスタ化される。ベクトル類似度の比較は、数学での異なるベクトル類似度計算式に基づくことができる。異なる式が類似度の異なる計算方法を導き出すことができる。
本実施形態でのクラスタ化方法の適用は、K手段クラスタ化アルゴリズム、または投射追跡方法、自動組織化マップアルゴリズム等の高次元から低次元への方法等の中心繰り返し状の計算方法の計算を使用できることが理解される。この2つの方法の内のどれかが、本開示の実施形態のクラスタ化問題を解決できる。
本実施形態では、クラスタ化前に、全ての可読ファイルの全てのファイルベクトルが結合され、総特性ベクトルを生成する。かかる総特性ベクトルは、全てのベクトルの全ての特性を含むことができるベクトルである。したがって、各ファイルベクトルと総特性ベクトルとの間のそれぞれの類似度の計算後に、複数の可読ファイルが、類似度に従って順位付けされる。その後、連続比較の原理に従って、クラスタ化が、2つの隣接ファイルベクトル間の類似度に従って実行される。このようにして、各ファイルベクトルは、その隣接ファイルベクトルと比較されるにすぎず、それによってファイルベクトル間の類似度の比較の回数を削減する。有利なことに、これは、CPUおよびメモリの使用量の削減、実行時間の短縮、および計算性能の改善を生じさせる。
図2は、本開示にかかるクラスタ化方法の実施形態2のフローチャートを示す。本実施形態は、本開示のクラスタ化方法を実践に適応する特定の例として理解できる。方法は、以下に説明される。
ステップ201で、方法は、複数の可読ファイルをベクトル化し、それぞれが複数の可読ファイルのそれぞれのファイルに対応する複数のファイルベクトルを取得する。
本実施形態は、実践されている特定の例を参照することによって示される。10の可読ファイルがあり、各可読ファイルが合計4つの特性を有すると仮定すると、ベクトル化の結果は以下の通りになる場合がある。つまり、第1の可読ファイルのファイルベクトル1は(0.2、0、1、1)であり、第2の可読ファイルのファイルベクトル2は(0.3、0.2、0、1)であり、第3の可読ファイルのファイルベクトル3は(0.1、0.1、0.1、0.2)であり、第4の可読ファイルのファイルベクトル4は(0、0、0.6、0.7)であり、第5の可読ファイルのファイルベクトル5は(1、2、3、4)であり、第6の可読ファイルのファイルベクトル6は(0.3、0、0.9、0.9)であり、第7の可読ファイルのファイルベクトル7は(0.4、0.1、0、0.9)であり、第8の可読ファイルのファイルベクトル8は(0.2、0.1、0.2、0.1)であり、第9の可読ファイルのファイルベクトル9は(0、0、0.5、0.6)であり、第10の可読ファイルのファイルベクトル10は(0.3、0、0.9、1)である。
202で、方法は、複数のファイルベクトルの共通特性のそれぞれの値を1つずつ、加算、または合計し、総特性ベクトルの対応する特性値を取得する。
10個の可読ファイルの10個のファイルベクトルの各特性に関して、10個の可読ファイルに対応する10個のファイルベクトルが合計される。言い換えると、10個のファイルベクトルの第1の特性の特性値の合計が、総特性ベクトルの第1の特性値として見なされる等である。本実施形態では、取得される総特性ベクトルは(2.8、2.5、7.2、10.4)である。
203で、方法は、複数のファイルベクトルのそれぞれと総特性ベクトルとの間それぞれのそれぞれの第1の類似度を計算する。
実際の応用では、第1の類似度を計算するために角余弦公式が使用できる。角余弦方法は、各ベクトルと総特性ベクトルとの間のそれぞれの類似度を計算するために使用される。例えば、類似度を計算する際に、以下が取得されてもよい。第1の可読ファイルのファイルベクトル1と総特性ベクトルとの間の第1の類似度は0.963638であり、第2の可読ファイルのファイルベクトル2と総特性ベクトルとの間の第1の類似度は0.837032であり、第3の可読ファイルのファイルベクトル3と総特性ベクトルとの間の第1の類似度は0.953912であり、第1の可読ファイルのファイルベクトル4と総特性ベクトルとの間の第1の類似度は0.95359であり、第5の可読ファイルのファイルベクトル5と総特性ベクトルとの間の第1の類似度は0.982451であり、第6の可読ファイルのファイルベクトル6と総特性ベクトルとの間の第1の類似度は0.966743であり、第7の可読ファイルのファイルベクトル7と総特性ベクトルとの間の第1の類似度は0.821485であり、第8の可読ファイルのファイルベクトル8と総特性ベクトルとの間の第1の類似度は0.788513であり、第9の可読ファイルのファイルベクトル9と総特性ベクトルの間の第1の類似度は0.954868であり、第10の可読ファイルのファイルベクトル10と総特性ベクトルとの間の第1の類似度は0.974316である。
204で、方法は、それぞれの第1の類似度に従って複数のファイルベクトルの第1の順位付けを実行する。
本実施形態の10個のファイルベクトルは、第1の類似度値に従って高から低に順位付けされる。高から低の順位付けの結果は以下の通りである。つまり、ファイルベクトル5、ファイルベクトル10、ファイルベクトル6、ファイルベクトル1、ファイルベクトル9、ファイルベクトル3、ファイルベクトル4、ファイルベクトル2、ファイルベクトル7、およびファイルベクトル8である。対応するファイルベクトルは以下の通りである。つまり、(1、2、3、4)、(0.3、0、0.9、1)、(0.3、0、0.9、0.9)、(0.2、0、1、1)、(0、0、0.5、0.6)、(0.1、0.1、0.2、0.2)、(0、0、0.6、0.7)、(0.3、0.2、0、1)、(0.4、0.1、0、0.9)、(0.2、0.1、0.1、0.2)である。他の実施形態では、ファイルベクトルは、第1の類似度値に従って低から高に順位付けされてもよい。
連続して接続しないファイルベクトル(0、0、0.5、0.6)、(0.1,0.1、0.1、0.2)および(0、0、0.6、0.7)を除き、他のファイルベクトルは類似する連続接続を実現している。例えば、ベクトル(0.3、0、0.9、1)と(0.3、0、0.9、0.9)との間の類似度は0.998614である。ベクトル(0.3、0、0.9、0.9)と(0.2、0、1、1)との間の類似度は0.995863である。しかしながら、ベクトル(0、0、0.5、0.6)と(0、0、0.6、0.7)との間の類似度は0.999904である。一方、これらの2つのベクトルは互いに隣接して順序付けされない。したがって、より正確な計算結果を取得するために、本実施形態では、後続の順序付けの手順が存在するであろう。
205で、方法は、複数のファイルベクトルのそれぞれと、それぞれ第1の順位付けの後の最後のファイルベクトルとの間で、それぞれの第2の類似度ベクトルを計算する。
実際の応用では、第2の類似度の計算の前に、小数第二位に対する精度を達成するために、第1の類似度の値に関して精密処理を実施することができる。取得される結果は以下の通りであってもよい。第1の可読ファイルのファイルベクトル1と総特性ベクトルとの間の第1の類似度は0.96であり、第2の可読ファイルのファイルベクトル2と総特性ベクトルとの間の第1の類似度は0.83であり、第3の可読ファイルのファイルベクトル3と総特性ベクトルとの間の第1の類似度は0.95であり、第1の可読ファイルファイルベクトル4と総特性ベクトルとの間の第1の類似度は0.95であり、第5の可読ファイルのファイルベクトル5と総特性ベクトルの第1の類似度は0.98であり、第6の可読ファイルのファイルベクトル6と総特性ベクトルとの間の第1の類似度は0.96であり、第7の可読ファイルのファイルベクトル7と総特性ベクトルとの間の第1の類似度は0.82であり、第8の可読ファイルのファイルベクトル8と総特性ベクトルとの間の第1の類似度は0.78であり、第9可読ファイルのファイルベクトル9と総特性ベクトルとの間の第1の類似度は0.95であり、第10の可読ファイルのファイルベクトル10と総特性ベクトルとの間の第1の類似度は0.97である。
したがって、第1の順序付けの最後の部分はファイルベクトル8である。他のファイルベクトルのそれぞれが、それぞれの第2の類似度を計算するためにファイルベクトル8と比較される。ファイルベクトル9、3、および4の第1の類似度は同じであり、すなわち0.95である。3つの対応するファイルベクトルは、それぞれ(0、0、0.5、0.6)、(0.1、0.1、0.1、0.2)、および(0、0、0.6、0.7)である。計算後、上記3つのベクトルに対する第2の類似度の値は、それぞれ0.647821、0.8366、および0.651695である。
206で、第1のの順位付けに基づいて、方法が、第2の類似度に従った第1のの順位付けの後に順位付けされるファイルベクトルの第2の順位付けを実行する。
精密処理の後の第1の類似度の値が等しいという前提条件に基づき、このステップは、高から低へ第2の類似度の値に従って対応するファイルベクトルを順位付けする。例えば、ファイルベクトル9、3、および4の第1類似度値は同じである。第2の順位付けの後、高から低への第2の類似度の値に従って、取得された順位付け順序はファイルベクトル3、ファイルベクトル9、およびファイルベクトル4、つまり(0.1、0.1、0.1、0.2)、(0、0、0.5、0.6)、および(0、0、0.6、0.7)である。これは、ファイルベクトル9および4が連続的に接続される結果を達成する。したがって、第2の類似度の値による総順位付け結果は、5、10、6、1、3、9、4、2、7および8である。
207で、第2の順位付け後の第2のファイルベクトルから開始する順位付けされたファイルベクトルのそれぞれについて、方法は先行するファイルベクトルを現在のファイルベクトルに比較し、それぞれの比較結果を提供する。
実際の応用では、異なる閾値に従って、比較結果が異なる可能性がある。実際の応用では、閾値は0と1の間である。閾値が1に近づくにつれ、クラスタ化結果はより正確になる。例えば、本実施形態では、閾値は0.98に設定される。
208で、比較結果がクラスタ化条件を満たしているとき、方法は現在のファイルベクトル、およびその先行するファイルベクトルを同じクラスにクラスタ化する。
例では、(03、0、0.9、1)、(0.3、0、0.9、0.9)および(0.2、0、1、1)が1つのクラスとして分類される。
209で、比較結果がクラスタ化条件を満たしていないと、方法は、新しいクラスを生成する。
ファイルベクトル(0、0、0.5、0.6)を比較するとき、例えば、比較結果が事前設定閾値以上ではない等、比較結果はクラスタ化条件を満たしていないので、新しいクラスが生成される。言い換えると、ファイルベクトル(0、0、05、0.6)は、新しいクラスに属する。本実施形態で画定される閾値0.99に従って、クラスタ化結果は、以下の通りである6つのクラスを含む。
クラス1:(1、2、3、4)
クラス2:(0.3、0、0.9、1)、(0.3、0、0.9、0.9)、(0.2、0、1、1)
クラス3:(0、0、0.5、0.6)、(0、0、0.6、0.7)
クラス4:(0.1、 0.1、0.2、0.2)
クラス5:(0.3、 0.2、 0, 1)、(0.4、0.1、0、0.9)
クラス6:(0.2、0.1、0.2、0.1)
本実施形態では、総特性ベクトルを構築するための方法が、類似度の類似値を用いてファイルベクトルの連続接続を実施するために使用される。かかる方法は、ファイルベクトル間により少ない比較時間が必要とされ、したがって可読ファイルをクラスタ化するときにクラスタ化の結果の品質が保証されるクラスタ化性能の改善を生じさせることを保証する。
図3は、本開示によるクラスタ化方法の実施形態3のフローチャートを示す。方法は、以下の通りに説明される。
301で、方法は、それぞれが複数の可読ファイルのそれぞれ1つに対応する複数のファイルベクトルを取得するために複数の可読ファイルをベクトル化する。
302で、方法は、総特性ベクトルに対応する特性値を取得するために複数のファイルベクトルの共通特性のそれぞれの値を、1つずつ追加する、つまり合計する。
303で、方法は、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度に従って、複数の可読ファイルをクラスタ化する。
ステップ303は、以下のステップによって実現することができる。
A1で、複数のファイルベクトルのそれぞれと、総特性ベクトルとの間のそれぞれの第1の類似度が、それぞれ計算される。
第1の類似度を計算するための方法は、ベクトル角余弦公式を計算できる。
A2で、複数のファイルベクトルの第1の順位付けが、第1の類似度に従って実行される。
A3で、複数のファイルベクトルと第1の順位付けの最後のファイルベクトルとの間のそれぞれの第2の類似度が、それぞれ計算される。
A4で、第1の順位付けの後に順位付けられたファイルベクトルの第2の順位付けは、第1の順位付けに基づいて実行される。
A5で、複数の可読ファイルは、第2の順位付けの後のファイルベクトルに従ってクラスタ化される。
ステップA5は、以下のサブステップによって実現することができる。
a1で、第2の順位付けの後の順位付けされたファイルベクトルの第2のファイルベクトルから開始するファイルベクトルのそれぞれについて、現在のファイルベクトルが、1つずつ、現在のファイルベクトルに先行するファイルベクトルと比較され、それぞれの比較結果を提供する。
a2で、比較結果がクラスタ化条件を満たしているとき、現在のファイルベクトルおよび先行するファイルベクトルはクラスに分類される。
a3で、比較結果がクラスタ化条件を満たしていないとき、新しいクラスが生成される。
304で、方法は、複数の可読ファイルのクラスタ化結果に従って各クラスの代表ベクトルを取得する。
実際の応用では、実施形態2で取得される結果は、より高い精度を要求する状況には適さないことが時々ある。次に、クラスタ化結果が、実施形態2に説明される方法に従って取得された後、クラスごとの代表ファイルベクトルが取得される。代表ファイルベクトルは、各クラスの全てのファイルベクトルの中心ベクトルとすることができる。ファイルベクトルの数は、ステップ304で取得されるクラスの数と同じである。
305で、方法は、事前設定された条件を満たす新しい特性ベクトルを構築する。
新しい特性ベクトルは、総特性ベクトルとは異なる。新しい特性ベクトルのための構築方法は、多様な応用状況に応じて異なる可能性がある。しかしながら、新しい特性ベクトルは以下の基準、つまり類似度の値に従って高から低に順位付けされるファイルベクトルでは、類似するまたは近いファイルベクトルが互いに連続して接続されるように、代表ベクトルのそれぞれと新しい特性ベクトルとの間の類似度を取得することに従う必要がある。
306で、方法は、各クラスの代表ベクトルと新しい特性ベクトルとの間のそれぞれの第3の類似度を計算する。
本実施形態では、このステップは各クラスの代表ベクトルと新しい特性ベクトルとの間のそれぞれの第3の類似度値を計算する。
307で、方法は、第3の類似度に従って各クラスの複数の可読ファイルの第1の順位付けを実行する。
本実施形態では、ステップ304でクラスタ化された各クラスは、第3の類似度に従って順位付けされる。
308で、方法は各クラスの代表ベクトルと第1の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度を計算する。
実施形態2と同様に、本実施形態の後、各クラスの代表ベクトルと、順位付け後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度が計算される。
309で、第1の順位付けに基づいて、方法は、第4の類似度に従って第1の順位付け後に代表ベクトルの第2の順位付けを実行する。
かかる順位付け動作は反復することができる。例えば、同じ第3の類似度の代表ベクトルに関して、代表ベクトルは第1の順位付けの後に互いに連続して接続されているべきであるが、連続で接続されていない。次に、第4の類似度に従って、同じ第3の類似度のかかる代表ベクトルは、第2の順位付けを有する。
310で、方法は、第2の順位付け後の代表ベクトルに従って複数の可読ファイルのクラスを再クラスタ化する。
任意選択で、311で、方法は、繰り返し終了条件が満たされているかどうかをさらに判定する。肯定的な場合、プロセスは終了する。それ以外の場合、プロセスは、可読ファイルのクラスタ化結果に従って各クラスの代表ベクトルを取得するためにステップを再実行する。
繰り返し終了条件は、一般に、特定数の繰り返しまたはクラスタ化結果から生じる特定数のクラスを達成することとしてセットアップすることができる。
方法の実施形態に従ってクラスタ化するときには、異なる実装プロセスでの各実施形態で構築される特性ベクトルは、特性ベクトルを構築するための基準が満たされている場合にだけ異なる可能性があり、異なる特性ベクトルは異なる要件に従って異なる状況で構築できることが理解される。本実施形態では、特性ベクトルを構築するための基準は依然として満たされているが、第2の繰り返しクラスタ化の選択された特性ベクトルの数が多様な要件に従って異なる場合がある。実施形態2および3では、総特性ベクトルおよび新しい特性ベクトルのための異なる構築基準がある。本実施形態は、クラスタ化品質を改善する繰り返し方法を使用する。
説明の便宜上、上述の実施形態が行為の組み合わせとして説明される。しかしながら、本開示に従って、いくつかのステップは他の順序でまたは同時に実行できるので、当業者は、本開示がかかる説明される行為の順序によって制限されないことを理解するだろう。さらに、当業者は、本開示で開示される実施形態が好ましい実施形態であること、および説明される行為およびモジュールのいくつかが本開示には必要ではない場合があることも理解するだろう。
上述されたクラスタ化方法の実施形態1に対応して、図4を参照することによって、本開示はクラスタ化システムの実施形態1も提供する。この実施形態では、システムは、ベクトル化ユニット401と、抽出ユニット402と、クラスタ化ユニット403とを含んでもよい。
ベクトル化ユニット401は、複数の可読ファイルをベクトル化し、それぞれが複数の可読ファイルのそれぞれの1つに対応する複数のファイルベクトルを取得するように構成される。
この実施形態では、可読ファイルは、ワード文書、エクセルスプレッドシート等のベクトルに変換可能な任意の形式のファイルとすることができる。ベクトル化ユニット401は、対応する複数のファイルベクトルに複数の可読ファイルを変換することによってクラスタ化される複数の可読ファイルをベクトル化する。ベクトル化は、一連の数字から構成されるベクトルに可読ファイルを変換することを指し、各数字はそれぞれの特性に対応する値を表す。異なる可読ファイルは、異なる対応するベクトルを有してもよい。本開示のファイルベクトルは、ベクトルを指す。ファイルベクトルがファイルベクトルと呼ばれる理由は、それを特性ベクトルと区別するためである。
抽出ユニット402は、複数のファイルベクトルに基づいた総特性ベクトルを取得するように構成される。
複数のファイルの複数のファイルベクトルから、抽出ユニット402は、複数のファイルベクトルに基づいて総特性ベクトルを取得する。実際の応用では、抽出ユニット402は、総特性ベクトルを取得するとき、可読ファイルの全ての特性を抽出し、総特性ベクトルとして可読ファイルの全ての特性を含むベクトルを生成する。一実施形態では、総特性ベクトルは、全ての可読ファイルの特性値を合計し、総特性ベクトルの特性値として合計を使用することによって生成することができる。可読ファイルの特性は、例えば単語または数字等の、可読ファイル内の最小受け入れ可能単位とすることができる。詳細な特性は、特性選択アルゴリズムに応じて異なることがある。抽出ユニット402によって取得される総特性ベクトルは、ファイルベクトルと総特性ベクトルとを比較するときに類似度の値が0にはならないことを保証することができ、それによって類似するファイルベクトルを順番に順序付けることが可能になる。
クラスタ化ユニット403は、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて複数のファイルをクラスタ化するように構成される。
クラスタ化ユニット403は、総特性ベクトルと複数のファイルベクトルのそれぞれとの間のそれぞれの類似度を計算し、類似度に従って複数の可読ファイルをクラスタ化する。本実施形態では、例えば、あらゆるファイルベクトルがその先行するベクトルと類似性について比較される、連続比較方法を使用することができる。閾値を事前設定するとき、クラスタ化ユニット403は閾値を0.99としてセットアップすることができる。例えば、2つのファイルの類似度が0.99以上であるとき、この2つのファイルは同じクラスとしてクラスタ化される。それ以外の場合、新しいクラスが生成される。最終的に、全ての可読ファイルに対応する全てのファイルベクトルがクラスタ化される。ベクトル類似度の比較は、数学の異なるベクトル類似性計算に基づくことができる。異なる公式は、類似度について異なる計算方法を導き出すことができる。
本実施形態では、クラスタ化の前に、抽出ユニット402は全ての可読ファイルの全てのファイルベクトルを結合し、総特性ベクトルを生成することができる。かかる総特性ベクトルは、全てのベクトルの全ての特性を含むことができるベクトルである。したがって、各ファイルベクトルと総特性ベクトルとの間のそれぞれの類似度の計算後、複数の可読ファイルがそれらの類似度に従って順序付けされる。次に、連続比較の原理に従って、クラスタ化は2つごとの隣接ファイルベクトル間の類似度に従って実行される。したがって、各ファイルベクトルはその隣接ファイルベクトルとだけ比較され、それによってファイルベクトル間の類似度の比較の回数を削減する。有利なことに、これによってCPUおよびメモリの使用量の削減、実行時間の短縮、および計算性能の改善がもたらされる。
本開示によって上述されたクラスタ化方法の実施形態2に対応して、図5を参照することによって、本開示は、クラスタ化システムの好ましい実施形態2も提供する。本実施形態では、システムは、ベクトル化ユニット401と、抽出ユニット402と、第1の計算ユニット501と、第1の順位付けユニット502と、第2の計算ユニット503と、第2の順位付けユニット504と、比較サブユニット505と、クラスタ化サブユニット506と、生成サブユニット507とを含んでもよい。
ベクトル化ユニット401は、複数の可読ファイルをベクトル化し、それぞれが複数の可読ファイルのそれぞれの1つに対応する複数のファイルベクトルを取得するように構成される。
抽出ユニット402は、総特性ベクトルに対応する特性値を取得するために複数のファイルベクトルの共通特性のそれぞれの値を合計するように構成される。
第1の特性ユニット501は、複数のファイルベクトルのそれぞれと総特性ベクトルとの間のそれぞれの第1の類似度を計算するように構成される。
第1の順位付けユニット502は、第1の類似度に従って複数のファイルベクトルの第1の順位付けを実行するように構成される。
第2の計算ユニット503は、複数のファイルベクトルのそれぞれと、第1の順位付けの最後のファイルベクトルとの間のそれぞれの第2の類似度を計算するように構成される。
第2の順位付けユニット504は、第1の順位付けに基づいて、第1の順位付けの後に順位付けされたファイルベクトルの第2の順位付けを実行するように構成される。
本実施形態では、第2のクラスタ化ユニットは、第2の順位付け後に順位付けされたファイルベクトルに従って複数の可読ファイルをクラスタ化するように構成することができる。第2のクラスタ化ユニットは、比較サブユニット505と、クラスタ化サブユニット506と、生成サブユニット507とを含むことができる。
比較サブユニット505は、第2の順位付け後の第2のファイルベクトルから開始する順位付けされたファイルベクトルのそれぞれについて、1つずつ各ファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供するように構成される。
クラスタ化サブユニット506は、比較結果がクラスタ化条件を満たしていると、現在のファイルベクトルとその先行するファイルベクトルをクラスとしてクラスタ化するように構成される。
生成サブユニット507は、比較結果がクラスタ化条件を満たしていないときに、新しいクラスを生成するように構成される。
本実施形態では、総特性ベクトルを構築するための構成は、類似する類似度の値を用いてファイルベクトルの連続接続を実施するために使用される。かかる構成は、ファイルベクトル間で必要とする比較時間がより少なく、したがって可読ファイルクラスタ化時に、クラスタ化結果の品質を保証するクラスタ化性能の改善をもたらす。
本開示によって上述されたクラスタ化方法の実施形態3に対応して、図6を参照することによって、本開示は、クラスタ化システムの好ましい実施形態3も提供する。本実施形態では、システムは、ベクトル化ユニット401と、抽出ユニット402と、第1の計算ユニット501と、第1の順位付けユニット502と、第2の計算ユニット503と、第2の順位付けユニット504と、第2のクラスタ化ユニット601と、取り出しユニット602と、構築ユニット603と、第3の計算ユニット604と、第3の順位付けユニット605と、第4の計算ユニット606と、第4の順位付けユニット607と、第3のクラスタ化ユニット608と、判定ユニット609とを含んでもよい。
ベクトル化ユニット401は、複数の可読ファイルをベクトル化し、それぞれが複数の可読ファイルのそれぞれ1つに対応する複数のファイルベクトルを取得するように構成される。
抽出ユニット402は、総特性ベクトルに対応する特性値を取得するために、複数のファイルベクトルの共通特性のそれぞれの値を合計するように構成される。
第1の計算ユニット501は、複数のファイルベクトルのそれぞれと総特性ベクトルとの間のそれぞれの第1の類似度を計算するように構成される。
第1の順位付けユニット502は、第1の類似度に従って複数のファイルベクトルの第1の順位付けを実行するように構成される。
第2の計算ユニット503は、複数のファイルベクトルのそれぞれと第1の順位付けの中の最後のファイルベクトルとの間のそれぞれの第2の類似度を計算するように構成される。
第2の順位付けユニット504は、第1の順位付けに基づく第1の順位付けの後の順位付けされたファイルベクトルの第2の順位付けを実行するように構成される。
取り出しユニット602は、複数の可読ファイルのクラスタ化結果に従って各クラスタの代表ベクトルを取り出すように構成される。
構築ユニット603は、事前設定条件を満たす新しい特性ベクトルを構築するように構成される。
第3の計算ユニット604は、各代表ベクトルと新しい特性ベクトルの間のそれぞれの第3の類似度をそれぞれ計算するように構成される。
第3の順位付けユニット605は、第3の類似度に従って各クラスの複数の可読ファイルの第1の順位付けを実行するように構成される。
第4の計算ユニット606は、各クラスの代表ベクトルと、第1の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度をそれぞれ計算するように構成される。
第4の順位付けユニット607は、第1の順位付けに基づく第1の順位付けの後の順位付けされた代表ベクトルの第2の順位付けを実行するように構成される。
第3のクラスタ化ユニット608は、第2の順位付け後の代表ベクトルに従って複数の可読ファイルのクラスを再クラスタ化するように構成される。
判定ユニット609は、繰り返し終了条件が満たされているかどうかを判定するように構成される。肯定の場合、プロセスが終了される。それ以外の場合、プロセスは終了されず、可読ファイルのクラスタ化結果に従って各クラスの代表ベクトルを取得するためのステップに続行する。
図7を参照することによって、本開示は、ウェブページをクラスタ化するための方法の実施形態も提供する。方法は以下に説明される。
701で、方法は、インターネットまたはネットワークから、クラスタ化される複数のウェブページを取り出す。
上述されたクラスタ化方法は、ポータルウェブサイトのカテゴリ版等のインターネットフィールド、またはサーチエンジンサーバのネットワークスパイダーによって取り出されたウェブページのクラスタ化にも適用可能である。インターネットサーチエンジンシステムのネットワークスパイダーの一例として、ネットワークスパイダーは、最初にインターネットから特定数のウェブページを取り出す。かかるウェブページは、実際の状況に応じて数およびコンテントの点で異なっていてもよい。かかるウェブページは、クラスタ化されるウェブページである。
702で、方法は、それぞれがクラスタ化される複数のウェブページのそれぞれ1つに対応する複数のウェブページベクトルを取得するために、クラスタ化されるウェブページをベクトル化する。
クラスタ化されるウェブページは、上述の可読ファイルと同等である。ウェブページは、テキスト分析によってベクトルモードに変換される。好ましくは、TF−IDF方法を変換のために使用することができる。
703で、方法は、複数のウェブページベクトルに従ってクラスタ化される複数のウェブページの総ウェブページ特性ベクトルを取得する。
704で、方法は、総ウェブページ特性ベクトルと、ウェブページベクトルのそれぞれとの間のそれぞれの類似度に従ってクラスタ化される複数のウェブページをクラスタ化する。
ステップ703および704は、上述された実施形態の可読ファイルをクラスタ化するための実装プロセスである。本実施形態では、ターゲットオブジェクトは、クラスタ化されるウェブページである。本実施形態では、クラスタ化の精度の程度は、閾値の選択に依存している。適切かつ対応する閾値は、異なる応用状況でセットアップまたは計算することができる。
705で、方法は、クラスタ化される複数のウェブページのクラスタ結果に従ってカテゴリインデックスを確立する。カテゴリインデックスは、それぞれのクラスのウェブページを識別するために使用される。
704での複数のウェブページのクラスタ化の後、クラスタ化される各クラスのウェブページに対応するウェブページベクトルの中心ベクトルがある。中心ベクトルに対応するウェブページは、かかるクラスのウェブページの中心ウェブページである。中心ウェブページの特性は、中心ウェブページを分析することによって取得することができる。さらに、かかるクラスのウェブページが属する特定のカテゴリは、特性によって定めることができる。カテゴリインデックスは、異なるカテゴリに従って確立することができる。カテゴリインデックスは、各クラスのウェブページを一意に識別することができる。
706で、ユーザによって入力されたクエリーワードを受け取ると、方法は、カテゴリインデックスに従ってそれぞれのクラス内のウェブページで検索する。
サーチエンジンは、ユーザによって入力されたクエリーワードを受け取ると、そのクエリーワードが属するカテゴリおよびカテゴリインデックスに従って、そのクエリーを関連するカテゴリに適合させることができ、次いで関連カテゴリの下だけでサーチを実施する。したがって、サーチエンジンサーバ側でサーチエンジンに要求される計算はより少ない。この方法は検索速度を加速し、サーチエンジンサーバの性能を最適化する。さらに、この方法はサーチエンジンのユーザ経験も改善することができる。
本開示の別の実施形態では、図8を参照することによって、ステップ704の後、本開示にかかる方法は、さらに以下のステップを提供する。
801で、方法は各クラスのウェブページから中心ウェブページを選択し、中心ウェブページと、各クラスの中心ウェブページ以外のウェブページとの間の接続を確立する。
本実施形態では、中心ウェブページは、クラスタ化結果に従って各クラスのクラスタ化されたウェブページから選択される。クラスタ化される各クラスのウェブページのウェブページベクトルが中心ベクトルを有することを考えると、中心ベクトルに対応するウェブページはかかるクラスのウェブページの中心ウェブページである。したがって、中心ウェブページの選択後、各クラスのウェブページで、中心ウェブページ以外のウェブページのそれぞれが中心ウェブページとの接続を確立することができる。かかる接続は、中心ウェブページのクリックおよび中心ウェブページのオープンがあるときに、中心ウェブページのクラスでの他のウェブページ情報のデフォルトの関係性を示すことができるので理解することができる。ユーザ要件および応用状況に従ったクラスでの他のウェブページ情報の接続方法および表示をセットアップすることができる。本開示は、この態様ではいかなる制約も課さない。ウェブページを表示するとき、類似するウェブページは削除されるのではなく、マージされ、中心ウェブページである場合もあれば、ない場合もある、そのクラスのそれぞれのウェブページにリンクされる。特定のウェブページの情報を見直す必要があるときには、ユーザがブラウザするための類似するウェブページのインタフェースを入力するためにリンクインタフェースを使用することができる。
802で、方法は、ユーザによって入力されたクエリーワードを受け取ることに応えて、各クラスの代表ウェブページをユーザに返す。サーチエンジンサーバで、ユーザによって入力されたクエリーワードが受け取られると、サーチエンジンは、クエリーワードが属するカテゴリに従ってユーザに対応する中心ウェブページを返すだけである。さらに、各中心ウェブページは、同じクラスの他のウェブページに対するリンクを有することができる。本実施形態では、ステップ704でクラスタ化するための閾値の選択は、実際の応用によって判定することができる。異なる応用には異なる閾値が使用されてもよい。例えば、高閾値は、ウェブページをクラスタ化し、類似性を判定するために使用されてもよい。ウェブページの多くのフォーマットの変形があるため、いくつかの重要な属性は、多くの場合、ウェブページが類似するかどうかを判定するために選択される。しかしながら、重要な属性は、時々ウェブページの全ての特性を表していないことがあり、0.9に近いまたは0.9より高い閾値が検討されるべきである。
図9は、本開示に従ってウェブページをクラスタ化するためのシステムの実施形態の図を示す。システムは、取り出しユニット901と、ウェブページクラスタ化装置902と、インデックス確立ユニット903と、サーチユニット90とを含んでもよい。
取り出しユニット901は、インターネットまたはネットワークから、クラスタ化される複数のウェブページを取り出すように構成される。
ウェブページクラスタ化装置902は、それぞれが、クラスタ化される複数のウェブページのそれぞれの1つに対応する複数のウェブページベクトルを取得するため、複数のウェブページベクトルに従って総ウェブページ特性ベクトルを取得するため、および総ウェブページ特性ベクトルとウェブページベクトルのそれぞれとの間の類似度に従って、クラスタ化される複数のウェブページをクラスタ化するために、クラスタ化されるウェブページをベクトル化するように構成される。
インデックス確立ユニット903は、クラスタ化される複数のウェブページのクラスタ化結果に従ってカテゴリインデックスを確立するように構成される。カテゴリインデックスは、1つまたは複数のクラスのウェブページを識別する。
検索ユニット904は、ユーザによって入力されたクエリーワードを受け取ると、カテゴリインデックス従ってそれぞれのクラスのウェブページを検索するように構成される。
図10を参照すると、本開示は、本開示に従ってウェブページをクラスタ化するためのシステムの実施形態をさらに提供する。システムは、取り出しユニット901と、ウェブページクラスタ化装置902と、選択ユニット1001と、返却ユニット1002と、を含んでもよい。
取り出しユニット901は、インターネットまたネットワークから、クラスタ化される複数のウェブページを取り出すように構成される。
ウェブページクラスタ化装置902は、それぞれが、クラスタ化される複数のウェブページのそれぞれの1つに対応する複数のウェブページベクトルを取得するために、複数のウェブページベクトルに従って総ウェブページ特性ベクトルを取得するために、および総ウェブページ特性ベクトルとウェブページベクトルのそれぞれとの間の類似度に従ってクラスタ化される複数のウェブページをクラスタ化するために、クラスタ化されるウェブページをベクトル化するように構成される。
選択ユニット1001は、各クラスのウェブページから代表ウェブページを選択し、それぞれのウェブページと、各クラスの中心ウェブページ以外の他のウェブページとの間の接続を確立するように構成される。
返却ユニット1002は、ユーザによって入力されるクエリーワードを受け取ることに応えて、各クラスの代表ウェブページをユーザに返すように構成される。
多様な例示的な実施形態が本開示で徐々に説明される。例示的な実施形態のうちの同一の部分または類似する部分は相互に参照することができる。それぞれの例示的な実施形態は、他の例示的な実施形態とは異なった焦点を有する。特に、例示的なシステムの実施形態は、例示的な方法実施形態とのその基本的な一致のため、相対的に簡単に説明される。その詳細は、例示的な方法実施形態の関連する部分を参照することができる。
最後に、本開示での「第1の」および「第2の」等の任意の関係語は、あるエンティティを別のエンティティから、またはある動作を別の動作から区別することを意味するのみであり、必ずしもこれらのエンティティまたは動作の任意の現実世界の関係性または順序付けの存在を要求または暗示しないことが留意される。さらに、「含む(include)」、「有する(have)」、または他の変形等の用語は、非排他的に「備える(comprising)」を意味することが意図される。したがって、特徴の集合体を個々に含むプロセス、方法、物品、またはデバイスは、それらの特徴を含んでもよいだけではなく、一覧にされていない他の特徴、つまりこれらのプロセス、方法、物品またはデバイスの任意の固有の特徴もまた含んでもよい。いかなる追加の制限無しに、句「・・・を含む」の中で定められる特徴は、その特徴を列挙するプロセス、方法、物品、またはデバイスが他の同等な特徴を有することがある可能性を排除しない。
本開示によって提供されるクラスタ化の方法およびシステムは、上記に詳細に説明されてきた。上記の例示的な実施形態は、本開示の概念および実装を示すために利用される。例示的な実施形態は、方法および本開示のそれぞれの中心概念の理解を容易にするために提供される。本開示の概念に基づいて、当業者は、実際的な実装および適用の範囲に修正を加えてもよい。要するに、本開示の内容は、本開示の制限として解釈されないものとする。

Claims (21)

  1. クラスタ化のためのコンピュータによって実行される方法であって、
    複数の可読ファイルをベクトル化し、それぞれが前記可読ファイルの内のそれぞれの1つに対応する複数のファイルベクトルを取得するステップと、
    前記ファイルベクトルに基づいて総特性ベクトルを取得するステップと、
    前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて前記可読ファイルをクラスタ化するステップであって
    前記ファイルベクトルのそれぞれと前記総特性ベクトルとの間のそれぞれの第1の類似度を計算するステップと、
    前記第1の類似度に従って、前記ファイルベクトルの第1の順位付けを実行するステップと、
    前記ファイルベクトルのそれぞれと前記第1の順位付けの後の最後のファイルベクトルとの間のそれぞれの第2の類似度を計算するステップと、
    前記第2の類似度に従って、前記第1の順位付けの後に順位付けされた前記ファイルベクトルの第2の順位付けを実行するステップと、
    前記第2の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化するステップと
    を含んでいる、ステップと
    備えていることを特徴とする方法。
  2. 前記ファイルベクトルに基づいて前記総特性ベクトルを取得するステップは
    前記ファイルベクトルの共通特性のそれぞれの値を合計し、総特性ベクトルの対応する特性値を取得するステップ
    を含んでいることを特徴とする請求項1に記載の方法。
  3. 前記第2の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化するステップは
    前記第2の順位付けの後の第2のファイルベクトルから開始して、前記順位付けされたファイルベクトルのそれぞれに対して、現在のファイルベクトルをその先行するファイルベクトルと比較して、それぞれの比較結果を提供するステップと、
    前記比較結果がクラスタ条件を満たしているときに、前記現在のファイルベクトルおよびその先行するファイルベクトルを同じクラスとしてクラスタ化するステップと、
    前記比較結果が前記クラスタ条件を満たしていないときに、新しいクラスを生成するステップ
    を含んでいることを特徴とする請求項に記載の方法。
  4. 少なくとも1つのそれぞれの第1の類似度または第2の類似度が、ベクトル角余弦公式を使用して計算されることを特徴とする請求項に記載の方法。
  5. 前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間の前記それぞれの類似度の前記順位付け結果に基づいて前記可読ファイルをクラスタ化するステップは
    前記可読ファイルの前記クラスタ化に従って、複数のクラスの前記可読ファイルの各クラスに代表ベクトルを取得するステップと、
    事前設定条件を満たす新しい特性ベクトルを構築するステップと、
    各クラスの前記代表ベクトルと、前記新しい特性ベクトルとの間のそれぞれの第3の類似度を計算するステップと、
    前記第3の類似度に従って前記可読ファイルの各クラスの第1の順位付けを実行するステップと、
    各クラスの前記代表ベクトルと、前記第1の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度を計算するステップと、
    前記第4の類似度に従って、前記第1の順位付けの後の前記代表ベクトルに第2の順位付けを実行するステップと、
    前記第2の順位付けの後の前記代表ベクトルに従って前記可読ファイルの前記クラスを再クラスタ化するステップ
    を含んでいることを特徴とする請求項1に記載の方法。
  6. 前記第2の順位付けの後の前記代表ベクトルに従って前記可読ファイルの前記クラスを再クラスタ化するステップは
    繰り返し終了条件が満たされているかどうかを判定するステップと、
    前記繰り返し終了条件が満たされている場合、前記クラスタ化方法を終了するステップと、
    前記繰り返し終了条件が満たされていない場合、前記可読ファイルの前記クラスタ化に従って各クラスの前記代表ベクトルを取得するために前のステップを繰り返すステップ
    を含んでいることを特徴とする請求項に記載の方法。
  7. クラスタ化のためのシステムであって、
    複数の可読ファイルをベクトル化し、それぞれが前記可読ファイルのそれぞれの1つに対応する複数のファイルベクトルを取得するベクトル化ユニットと、
    前記ファイルベクトルに基づいて総特性ベクトルを取得する抽出ユニットと、
    前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間でそれぞれの類似度の順位付け結果に基づいて、複数のクラスの前記可読ファイルに前記可読ファイルをクラスタ化する、クラスタ化ユニットであって、
    前記ファイルベクトルのそれぞれと前記総特性ベクトルとの間のそれぞれの第1の類似度を計算する第1の計算ユニットと、
    前記第1の類似度に従って、前記ファイルベクトルの第1の順位付けを実行する第1の順位付けユニットと、
    前記ファイルベクトルのそれぞれと前記第1の順位付けの後の最後のファイルベクトルとの間のそれぞれの第2の類似度を計算する第2の計算ユニットと、
    前記第1の順位付けの後に順位付けされた前記ファイルベクトルの第2の順位付けを実行する第2の順位付けユニットと、
    前記第2の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化する第2のクラスタユニットと
    を含んでいる、クラスタ化ユニットと
    を備えていることを特徴とするシステム。
  8. 前記抽出ユニット、前記ファイルベクトルの共通特性のそれぞれの値を合計し、前記総特性ベクトルに対応する特性値を取得することを特徴とする請求項に記載のシステム。
  9. 前記第2のクラスタユニット
    前記第2の順位付けの後の第2のファイルベクトルから開始する前記順位付けされたファイルベクトルのそれぞれのために、現在のファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供する比較サブユニットと、
    前記比較結果がクラスタ化条件を満たしているときに、前記現在のファイルベクトルおよびその先行するファイルベクトルをクラスとしてクラスタ化するクラスタ化サブユニットと、
    前記比較結果が前記クラスタ化条件を満たしていないときに新しいクラスを生成する生成サブユニットと
    含んでいることを特徴とする請求項に記載のシステム。
  10. 前記複数のクラスの前記可読ファイルの各クラスの代表ベクトルを取り出す取り出しユニットと、
    事前設定条件を満たす新しい特性ベクトルを提供する構築ユニットと、
    各クラスの前記代表ベクトルと前記新しい特性ベクトルとの間のそれぞれの第3の類似度を計算する第3の計算ユニットと、
    前記第3の類似度に従って前記可読ファイルの各クラスの第1の順位付けを実行する第3の順位付けユニットと、
    各クラスの前記代表ベクトルと、前記第1の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度を計算する第4の計算ユニットと、
    前記第1の順位付けの後に前記順位を付けられた代表ベクトルの第2のランク付けを実行する第4の順位付けユニットと、
    前記第2の順位付けの後の前記代表ベクトルに従って、前記可読ファイルの前記クラスを再クラスタ化する第3のクラスタ化ユニットと、
    をさらに備えていることを特徴とする請求項に記載のシステム。
  11. 繰り返し終了条件が満たされているかどうかを判定し、前記繰り返し終了条件が満たされているとクラスタ化プロセスを終了し、前記繰り返し終了条件が満たされていない場合に、前記クラスタ化プロセスの繰り返しに、クラスごとにそれぞれの代表ベクトルを取得させる判定ユニットをさらに備えていることを特徴とする請求項10に記載のシステム。
  12. ウェブページをクラスタ化するためのコンピュータによって実行される方法であって、
    複数のウェブページを取り出すステップと、
    それぞれが前記ウェブページのそれぞれ1つに対応する複数のウェブページベクトルを取得する前記ウェブページをベクトル化するステップと、
    前記ウェブページベクトルに従って前記ウェブページの総ウェブページ特性ベクトルを取得するステップと、
    前記ウェブページベクトルのそれぞれと前記総ウェブページ特性ベクトルとの間のそれぞれの第1の類似度を計算するステップと、
    前記第1の類似度に従って前記ウェブページベクトルの第1の順位付けを実行するステップと、
    前記ウェブページベクトルのそれぞれと前記第1の順位付けの後の最後のウェブページベクトルとの間のそれぞれの第2の類似度を計算するステップと、
    前記第2の類似度に従って、前記第1の順位付けの後に順位付けされた前記ウェブページベクトルの第2の順位付けを実行するステップと、
    前記第2の順位付けの後に順位付けされた前記ウェブページベクトルに従って、前記ウェブページをクラスタ化するステップと
    備えていることを特徴とする方法。
  13. 前記ウェブページの前記クラスタ化に従ってカテゴリインデックスを確立するステップであって、前記カテゴリインデックスは1つまたは複数のクラスのウェブページを識別する、ステップをさらに備えていることを特徴とする請求項12に記載の方法。
  14. ユーザからクエリーワードを受け取ることに応えて前記カテゴリインデックスに従ってそれぞれのクラスのウェブページを検索するステップをさらに備えていることを特徴とする請求項13に記載の方法。
  15. 各クラスのウェブページからそれぞれの中心ウェブページを選択するステップと、
    前記それぞれの中心ウェブページと、各それぞれのクラスの前記それぞれの中心ウェブページ以外のウェブページとの間の接続を確立するステップ
    をさらに備えていることを特徴とする請求項12に記載の方法。
  16. 前記ユーザからのクエリーワードを受け取ることに応えて、前記ユーザに各クラスの代表ウェブページを返すステップをさらに備えていることを特徴とする請求項15に記載の方法。
  17. ウェブページをクラスタ化するためのシステムであって、
    クラスタ化される複数のウェブページを取り出す取り出しユニットと、
    前記ウェブページをベクトル化するウェブページクラスタ化装置であって、
    それぞれが前記ウェブページの内のそれぞれ1つに対応する複数のウェブページベクトルを取得し、
    前記ウェブページベクトルに従って総ウェブページ特性ベクトルを取得し、
    前記ウェブページベクトルのそれぞれと前記総ウェブページ特性ベクトルとの間のそれぞれの第1の類似度を計算し、
    前記第1の類似度に従って、前記ウェブページベクトルの第1の順位付けを実行し、
    前記ウェブページベクトルのそれぞれと前記第1の順位付けの後の最後のウェブページベクトルとの間のそれぞれの第2の類似度を計算し、
    前記第2の類似度に従って、前記第1の順位付けの後に順位付けされた前記ウェブページベクトルの第2の順位付けを実行し、および、
    前記第2の順位付けの後に順位付けされた前記ウェブページベクトルに従って、前記ウェブページをクラスタ化する、ウェブページクラスタ化装置と
    を備えていることを特徴とするシステム。
  18. 前記ウェブページの前記クラスタ化に従ってカテゴリインデックスを確立するインデックス確立ユニットであって、前記カテゴリインデックスが、1つまたは複数のクラスのウェブページを識別するインデックス確立ユニットをさらに備えていることを特徴とする請求項17に記載のシステム。
  19. ユーザからクエリーワードを受け取ると、前記カテゴリインデックスに従って各クラスのウェブページを検索する検索ユニットをさらに備えていることを特徴とする請求項18に記載のシステム。
  20. ウェブページの各クラスから代表ウェブページを選択し、前記代表ウェブページと、各クラスのそれぞれの中心ウェブページ以外のウェブページとの間に接続を確立する選択ユニットをさらに備えていることを特徴とする請求項17に記載のシステム。
  21. 前記ユーザからクエリーワードを受け取ることに応えて前記ユーザに各クラスの代表ウェブページを返す返却ユニットをさらに備えていることを特徴とする請求項17に記載のシステム。
JP2012538818A 2009-11-10 2010-10-01 クラスタ化方法およびシステム Expired - Fee Related JP5615931B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910211714.6 2009-11-10
CN200910211714.6A CN102053992B (zh) 2009-11-10 2009-11-10 聚类方法和系统
PCT/US2010/051069 WO2011059588A1 (en) 2009-11-10 2010-10-01 Clustering method and system

Publications (2)

Publication Number Publication Date
JP2013511084A JP2013511084A (ja) 2013-03-28
JP5615931B2 true JP5615931B2 (ja) 2014-10-29

Family

ID=43958326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012538818A Expired - Fee Related JP5615931B2 (ja) 2009-11-10 2010-10-01 クラスタ化方法およびシステム

Country Status (6)

Country Link
US (1) US20110231399A1 (ja)
EP (1) EP2499569B1 (ja)
JP (1) JP5615931B2 (ja)
CN (1) CN102053992B (ja)
HK (1) HK1152120A1 (ja)
WO (1) WO2011059588A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867006B (zh) * 2011-07-07 2016-04-13 富士通株式会社 一种分批聚类方法和系统
CN102929889B (zh) * 2011-08-11 2017-08-25 中兴通讯股份有限公司 一种完善社区网络的方法和系统
US10007734B2 (en) 2011-11-01 2018-06-26 Microsoft Technology Licensing, Llc Real time document presentation data synchronization through generic service
US8949237B2 (en) * 2012-01-06 2015-02-03 Microsoft Corporation Detecting overlapping clusters
CN103729381A (zh) * 2012-10-16 2014-04-16 佳能株式会社 用于识别系列文档中的语义信息的方法和设备
CN103064887B (zh) * 2012-12-10 2016-01-20 华为技术有限公司 一种推荐信息的方法和设备
CN105264520B (zh) * 2013-06-04 2019-07-16 瓦欧尼斯系统有限公司 委送一机构的相似数据至一连结装置的方法
US8831969B1 (en) * 2013-10-02 2014-09-09 Linkedin Corporation System and method for determining users working for the same employers in a social network
CN103646106B (zh) * 2013-12-23 2016-05-25 山东大学 一种基于内容相似性的Web主题排序方法
CN105095209B (zh) * 2014-04-21 2019-05-10 珠海豹好玩科技有限公司 文档聚类方法及装置、网络设备
JP6344984B2 (ja) * 2014-06-09 2018-06-20 キヤノン株式会社 人物推定装置、人物推定方法及びプログラム
CN104217020A (zh) * 2014-09-25 2014-12-17 浪潮(北京)电子信息产业有限公司 一种基于MapReduce框架的网页聚类方法和系统
CN104283737B (zh) * 2014-09-30 2018-01-12 杭州华为数字技术有限公司 数据流的处理方法和装置
CN105574005A (zh) * 2014-10-10 2016-05-11 富士通株式会社 对包含多个文档的源数据进行聚类的装置和方法
CN105095909A (zh) * 2015-07-13 2015-11-25 中国联合网络通信集团有限公司 一种应用于移动网络的用户相似性评估方法及装置
US10872103B2 (en) * 2015-11-03 2020-12-22 Hewlett Packard Enterprise Development Lp Relevance optimized representative content associated with a data storage system
CN106777193B (zh) * 2016-12-23 2020-04-10 李鹏 一种自动撰写特定稿件的方法
US11270185B1 (en) 2017-01-27 2022-03-08 Intuit Inc. Methods, systems, and computer program product for generating a personalized flow for a software delivery model
US10592995B1 (en) 2017-01-27 2020-03-17 Intuit Inc. Methods, systems, and computer program product for providing expense information for an electronic tax return preparation and filing software delivery model
CN107358251B (zh) * 2017-06-09 2020-11-24 创新先进技术有限公司 一种对象筛选方法和装置
CN108090032B (zh) * 2018-01-03 2021-03-23 第四范式(北京)技术有限公司 逻辑回归模型的可视化解释方法及装置
CN109522410B (zh) * 2018-11-09 2021-02-09 北京百度网讯科技有限公司 文档聚类方法及平台、服务器和计算机可读介质
CN111291177A (zh) * 2018-12-06 2020-06-16 中兴通讯股份有限公司 一种信息处理方法、装置和计算机存储介质
CN110196974B (zh) * 2019-06-11 2023-07-07 吉林大学 一种用于大数据清洗的快速数据聚合方法
CN110597719B (zh) * 2019-09-05 2021-06-15 腾讯科技(深圳)有限公司 一种用于适配测试的图像聚类方法、装置及介质
CN111259154B (zh) * 2020-02-07 2021-04-13 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
US11816695B2 (en) * 2020-09-21 2023-11-14 Target Brands, Inc. Directed information performance enhancement
US11256609B1 (en) * 2021-05-03 2022-02-22 Intec Billing, Inc. Systems and methods to optimize testing using machine learning
US11776068B1 (en) * 2022-07-29 2023-10-03 Intuit, Inc. Voice enabled content tracker
CN117251749B (zh) * 2023-11-17 2024-02-27 陕西通信规划设计研究院有限公司 一种基于增量分析的物联网数据处理方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0481988A (ja) * 1990-07-24 1992-03-16 Sharp Corp クラスタリング方式
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US6442329B1 (en) * 1998-02-28 2002-08-27 Michael L. Gough Method and apparatus for traversing a multiplexed data packet stream
US6922699B2 (en) * 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
JP2000305950A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書分類装置および文書分類方法
US6895552B1 (en) * 2000-05-31 2005-05-17 Ricoh Co., Ltd. Method and an apparatus for visual summarization of documents
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6606620B1 (en) * 2000-07-24 2003-08-12 International Business Machines Corporation Method and system for classifying semi-structured documents
AU2002220172A1 (en) * 2000-11-15 2002-05-27 David M. Holbrook Apparatus and method for organizing and/or presenting data
WO2002048962A1 (es) * 2000-12-12 2002-06-20 Consejo Superior De Investigaciones Cientificas Sistema para el mapeo no lineal de datos y reduccion de dimensionalidad
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
JP2002215674A (ja) * 2001-01-22 2002-08-02 Kddi Corp Webページ閲覧支援システム、方法及びプログラム
US6910037B2 (en) * 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
US7007069B2 (en) * 2002-12-16 2006-02-28 Palo Alto Research Center Inc. Method and apparatus for clustering hierarchically related information
US7043475B2 (en) * 2002-12-19 2006-05-09 Xerox Corporation Systems and methods for clustering user sessions using multi-modal information including proximal cue information
US20050044487A1 (en) * 2003-08-21 2005-02-24 Apple Computer, Inc. Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US7777125B2 (en) * 2004-11-19 2010-08-17 Microsoft Corporation Constructing a table of music similarity vectors from a music similarity graph
JP4772378B2 (ja) * 2005-05-26 2011-09-14 株式会社東芝 Webページから時系列データを生成する方法及び装置
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
US8046363B2 (en) * 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
CA2554951A1 (en) * 2006-08-01 2008-02-01 Ibm Canada Limited - Ibm Canada Limitee Systems and methods for clustering data objects
US8745055B2 (en) * 2006-09-28 2014-06-03 Symantec Operating Corporation Clustering system and method
US8156056B2 (en) * 2007-04-03 2012-04-10 Fernando Luege Mateos Method and system of classifying, ranking and relating information based on weights of network links
CN100555287C (zh) * 2007-09-06 2009-10-28 腾讯科技(深圳)有限公司 互联网音乐文件排序方法、系统和搜索方法及搜索引擎
EP2188743A1 (en) * 2007-09-12 2010-05-26 ReputationDefender, Inc. Identifying information related to a particular entity from electronic sources
CN101159704A (zh) * 2007-10-23 2008-04-09 浙江大学 基于微内容相似度的反垃圾方法
WO2009097459A1 (en) * 2008-01-29 2009-08-06 Educational Testing Service System and method for disambiguating the effect of text document length on vector-based similarit scores

Also Published As

Publication number Publication date
JP2013511084A (ja) 2013-03-28
CN102053992B (zh) 2014-12-10
WO2011059588A1 (en) 2011-05-19
EP2499569B1 (en) 2019-05-01
HK1152120A1 (en) 2012-02-17
CN102053992A (zh) 2011-05-11
EP2499569A4 (en) 2017-01-18
US20110231399A1 (en) 2011-09-22
EP2499569A1 (en) 2012-09-19

Similar Documents

Publication Publication Date Title
JP5615931B2 (ja) クラスタ化方法およびシステム
JP7141180B2 (ja) ナレッジグラフに基づく事件検索方法、装置、機器及び記憶媒体
US9792304B1 (en) Query by image
US9110922B2 (en) Joint embedding for item association
Kang et al. Cloudle: an ontology-enhanced cloud service search engine
JP5698222B2 (ja) 検索方法、装置およびシステム
US20110282861A1 (en) Extracting higher-order knowledge from structured data
WO2022126901A1 (zh) 一种商品推荐方法及其相关设备
JP2014059754A (ja) 情報処理システム、及び、情報処理方法
CN110162711A (zh) 一种基于网络嵌入法的资源智能推荐方法及系统
CN111611452A (zh) 搜索文本的歧义识别方法、系统、设备及存储介质
JP2019125124A (ja) 抽出装置、抽出方法、及び抽出プログラム
CN111985217B (zh) 一种关键词提取方法、计算设备及可读存储介质
CN113901278A (zh) 一种基于全局多探测和适应性终止的数据搜索方法和装置
CN113033205A (zh) 实体链接的方法、装置、设备以及存储介质
Zhao et al. MapReduce-based clustering for near-duplicate image identification
CN114066278B (zh) 物品召回的评估方法、装置、介质及程序产品
TWI490711B (zh) Clustering methods and systems
CN107463615A (zh) 开放网络中基于上下文和用户兴趣的实时去处推荐方法
Qian Research on complex attribute big data classification based on iterative fuzzy clustering algorithm
Cai et al. Non-structured data integration access policy using hadoop
CN113254605A (zh) 一种建立文档推荐模型的方法及装置
Yan et al. A Multimodal Retrieval and Ranking Method for Scientific Documents Based on HFS and XLNet
CN113641884A (zh) 基于语义的电力计量数据处理方法、装置和计算机设备
CN115796175A (zh) 企业业务数据分词权重优化方法、智能匹配方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140812

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140910

R150 Certificate of patent or registration of utility model

Ref document number: 5615931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees