JP2019536171A

JP2019536171A - ウェブページのクラスタリング方法及び装置

Info

Publication number: JP2019536171A
Application number: JP2019528069A
Authority: JP
Inventors: グゥオ，ヤンヤン; リウ，シャオピン; リ，フェイ; リ，フー; リウ，リジン
Original assignee: NSFOCUS Information Technology Co Ltd; Nsfocus Technologies Inc
Current assignee: NSFOCUS Information Technology Co Ltd; Nsfocus Technologies Inc
Priority date: 2016-11-25
Filing date: 2017-11-24
Publication date: 2019-12-12
Anticipated expiration: 2037-11-24
Also published as: US20190377765A1; CN106708952B; CN106708952A; WO2018095411A1; JP6827116B2; US11023540B2

Abstract

本発明はウェブページのフレームワークによりウェブページに対するクラスタリングを実現することに用いるウェブページのクラスタリング方法及び装置を開示した。前記方法は、複数のクラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）取得することと、各クラスタリング待ちページのＵＲＬに対し、前記ＵＲＬの書き替え規則を確定し且つ前記ＵＲＬの書き替え規則に従ってＵＲＬ分類を行うことと、各ＵＲＬを分類し、前記ＵＲＬ分類中の各ＵＲＬに対応するページのページフレームワークを確定し、且つ各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬのクラスタリングが可能か否かを確定することと、もし各ＵＲＬのクラスタリングが可能であれば、前記ＵＲＬの分類が保留されることとを、を含む。上記方法により、同じページフレームワーク構造を有するウェブページを分類にクラスタリングすることができ、既存のクラスタリング方法がウェブページフレームワークによってクラスタリングできないという問題点を克服し、ページフレームワークのクラスタリング方法を提供した。

Description

本発明は、出願番号２０１６１１０６８２３３．０であり、出願日２０１６年１１月２５日であり、発明の名称が「ウェブページのクラスタリング方法及び装置」の中国特許出願を基礎とする優先権を主張し、その開示の総てをここに取り込む。

本発明はインターネット技術分野に関し、特にウェブページのクラスタリング方法及び装置に関する。

従来のウェブページのクラスタリング方法は主にウェブページのテキスト特徴に基づくクラスタリングによるもので、つまり、キーコンテンツ又は出現頻度の高い語彙を抽出してそれを特徴値としてクラスタリングすることにより、類似したコンテンツを有するページを１つに分類する。このクラスタリング方法はテキスト検索などのテキスト処理にのみ適用し、処理効率を大幅に向上させることができる。

しかし、ウェブページはテキスト特徴を有する以外に、さらにコンテンツ半構造化、膨大な規模、異種フォーマットなどの特徴を持っている。同じウェブページフレームワークを有する同じ種類のウェブページには、そのテキスト特徴に違いが存在する可能性があり、つまりウェブページテキスト特徴に基づいてクラスタリングする方法は、同じフレームワークのウェブページを１種類に分類することができない。従って、ウェブページテキスト特徴に基づいてクラスタリングする方法は、ウェブページフレームワークに関連する処理に適用されるものではない。同じフレームワークのページには、同じビジネスプロセス又はデータ処理フローを有し、同じフレームワークのページを１種類に分類できれば、其の中の１つのページはこの種類のページを代表できる。ウェブページをクラスタリングするこの技術を用いると、大規模なフレームワークベースのウェブサイト、フレームワーク、例えば、クローラ、サイトマップ、バグ検査などにおいて、結果の全面性を確保する前提で、効率を大幅に向上させることができる。現在は依然としてウェブページフレームワークに基づいてウェブページをクラスタリングできる方法は欠けている。

本発明はウェブページのクラスタリング方法及びその装置を提供し、従来技術に存在するウェブページフレームワークに基づいてウェブページをクラスタリングできない問題を解決する。

本発明が提供するウェブページのクラスタリング方法は、複数のクラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を取得することと、各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類することと、各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定し、もし各ＵＲＬがクラスタリングできれば、前記ＵＲＬの分類を保留することと、を含む。

好ましくは、各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類することは、複数のクラスタリング待ちページのＵＲＬをＵＲＬ集合とすることと、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、２つの異なるＵＲＬの書き替え規則を抽出することと、２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、ＵＲＬ集合から信頼できる書き替え規則に合致したＵＲＬを検索して同一ＵＲＬ分類とすることと、ＵＲＬ集合から同一ＵＲＬ分類中のＵＲＬを削除し、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、２つの異なるＵＲＬの書き替え規則を抽出するステップに戻ることと、を含む。

好ましくは、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、２つの異なるＵＲＬの書き替え規則を抽出することは、ＵＲＬ集合から第１ＵＲＬと第２ＵＲＬを抽出し、第１ＵＲＬと第２ＵＲＬの書き替え規則を確定することを含む。

その方法はさらに、もし第１ＵＲＬと第２ＵＲＬの書き替え規則が信頼できない書き替え規則であれば、ＵＲＬ集合から第３ＵＲＬと第４ＵＲＬを抽出し、第３ＵＲＬと第４ＵＲＬの書き替え規則を確定し、２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるかを確定するステップに戻り、第３ＵＲＬと第４ＵＲＬ中にはＵＲＬ集合中の第１ＵＲＬと第２ＵＲＬ以外の其の他のＵＲＬが少なくとも１つあることを含む。

好ましくは、以下の方法により書き替え規則が信頼できるか否かの判断は、書き換え規則の表現形式は文字のみ又は数字のみであり、且つその文字又は数字のビット数が確定されなければ、書き換え規則が信用できないこと、を含む。

好ましくは、各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定することは、各ＵＲＬ分類中における各ＵＲＬに対して、前記ＵＲＬに対応するページのハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルを取得し、ＨＴＭＬファイルに含まれるタグ情報に従って、ＨＴＭＬファイルの指紋特徴値を取得することと、各ＵＲＬの指紋特徴値間の差分値が所定閾値を下回るか否かを比較することと、もし所定閾値を下回ると各ＵＲＬがクラスタリングできると判断することと、を含む。

好ましくは、ＨＴＭＬファイルに含まれるタグ情報に従って、ＨＴＭＬファイルの指紋特徴値を取得することは、ＨＴＭＬファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応することと、各タグのＨＴＭＬファイル中における位置の異なりにより、各タグの位置重み値を確定することと、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、ＨＴＭＬファイルの指紋特徴値を得ることと、を含む。

好ましくは、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、ＨＴＭＬファイルの指紋特徴値を得ることは、ＨＴＭＬファイル中の位置を先端、中部、末端に分割することを含み、先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高いことと、タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、アイデンティティ属性の属性重み値は非代表属性の属性重み値より高く、カテゴリ属性の属性重み値は非代表属性の属性重み値より高い。

本発明の実施例に係るウェブページのクラスタリング装置は、複数のクラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を取得するのに用いるクロールモジュールと、各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類するのに用いる分類モジュールと、各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定し、もし各ＵＲＬをクラスタリングできれば、前記ＵＲＬ分類を保留するのに用いる判断モジュールと、を備える
好ましくは、分類モジュールは、複数のクラスタリング待ちページのＵＲＬをＵＲＬ集合とすること、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、２つの異なるＵＲＬの書き替え規則を抽出し、２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、ＵＲＬ集合から信頼できる書き替え規則に合致したＵＲＬを検索して同一ＵＲＬ分類とし、ＵＲＬ集合から同一ＵＲＬ分類中のＵＲＬを削除し、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、２つの異なるＵＲＬの書き替え規則を抽出するステップに戻るのに用いる。

好ましくは、分類モジュールは、ＵＲＬ集合から第１ＵＲＬと第２ＵＲＬを抽出し、第１ＵＲＬと第２ＵＲＬの書き替え規則を確定するさらに用い、分類モジュールはさらに、第１ＵＲＬと第２ＵＲＬの書き替え規則が信頼できない書き替え規則である際、ＵＲＬ集合から第３ＵＲＬと第４ＵＲＬを抽出し、第３ＵＲＬと第４ＵＲＬの書き替え規則を確定し、２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるか否かを確定するステップに戻るのに用い、第３ＵＲＬと第４ＵＲＬのうちの少なくとも１つはｎＵＲＬ集合中の第１ＵＲＬと第２ＵＲＬ以外の其の他のＵＲＬである。

好ましくは、分類モジュールは以下の方法により書き替え規則が信頼できるか否かの判断は、もし書き換え規則の表現形式は文字のみ又は数字のみであり、且つその文字又は数字のビット数が確定されなければ、書き換え規則が信用できないことを含む。

好ましくは、判断モジュールは、各ＵＲＬ分類中における各ＵＲＬに対して、前記ＵＲＬに対応するページのハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルを取得し、ＨＴＭＬファイルに含まれるタグ情報に従って、ＨＴＭＬファイルの指紋特徴値を取得すること、各ＵＲＬの指紋特徴値間の差分値が所定閾値を下回るか否かを比較すること、もし所定閾値を下回ると各ＵＲＬがクラスタリングできると判断すること、に用いる。

好ましくは、判断モジュールは、ＨＴＭＬファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応すること、各タグのＨＴＭＬファイル中における位置の異なりにより、各タグの位置重み値を確定すること、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、ＨＴＭＬファイルの指紋特徴値を得ること、に用いる。

好ましくは、判断モジュールは、ＨＴＭＬファイル中の位置を先端、中部、末端に分割し、先端位置のタグの位置重みを中部位置のタグの位置重みより高くし、末端位置のタグの位置重みを中部位置のタグの位置重みより高くし、タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、そのなか、アイデンティティ属性の属性重み値は非代表属性の属性重み値より高く、カテゴリ属性の属性重み値は非代表属性の属性重み値より高い。

本発明の実施例がコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体はコンピュータで実行可能な指令を記憶しており、前記コンピュータの実行可能な指令は前記コンピュータに上記いずれか１つの方法を実行させるのに用いる。

本発明の実施例がコンピュータ装置を提供し、プログラム指令を記憶するメモリと、前記メモリに記憶されたプログラム指令を呼び出し、取得したプログラムに基づいて、上記いずれか１つ前記方法を実行するプロセッサと、を備える。

本発明の実施例がコンピュータプログラム製品を提供し、該当コンピュータプログラム製品がコンピュータ上において運行される際、コンピュータに上記いずれか１つの前記方法を実行させる。

以上説明したように、本発明の実施例はウェブページのクラスタリング方法及び装置を提供し、複数のクラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を取得すること、各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類すること、各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定し、もし各ＵＲＬがクラスタリングできれば、前記ＵＲＬの分類を保留すること、を含む。

本発明の実施例におけるＵＲＬ書き替え規則を分類することによって、クラスタリング待ちの各ページに対してＵＲＬの予備的分類を取得し、その後、ページフレームワークを抽出し、且つページフレームワークに基づいてＵＲＬの分類に対して検証を行う。

このように分類してから検証するという処理することによって、同じページフレームワークの構造を有するウェブページを１種類に分類することができ、従来のクラスタリング方法でウェブページフレームワークに従ってクラスタリングできない問題を克服でき、ページフレームワークの処理過程におけるより適したクラスタリング方法が提供される。

本発明の実施例における技術解決方式をより明確に説明するために、実施例の説明で使用される図面を以下に簡単に説明する。

明らかに、以下の説明の中にある図面は本発明の実施例であり、本分野の技術者にとっては、創造性労働を払わないことを前提に、これらの図面に基づいて他の図面を得ることができる。

本発明の実施例に係るウェブページのクラスタリング方法を示すフローチャートである。本発明の実施例に係るサイトツリーの模式図である。本発明の実施例に係るウェブページクラスタリングを使用してバグをスキャンするプロセスを示すフローチャートである。本発明の実施例に係るウェブページのクラスタリング装置の構造図である。本発明の実施例に係るコンピュータ装置の構造図である。

本発明に係る実施形態の目的や技術解決方式及び利点をさらに明確化するため、以下、本発明に係る実施形態の図面を参考にしながら本発明に係る実施形態の技術解決方式を明確かつ詳細に説明し、もちろん、説明された実施形態は、本発明の一部実施形態であり、すべての実施形態ではない。

本発明における実施形態に基づいて、本分野の技術者が創造性労働を払わない前提で得た他の実施形態は、すべて本発明の保護範囲に含まれている。

図１は本発明の実施例に係るウェブページのクラスタリング方法を示すフローチャートであり、図１に示された通り、以下のステップを含む。

Ｓ１０１では、複数のクラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を取得する。

Ｓ１０２では、各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類する。

Ｓ１０３では、各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定し、もし各ＵＲＬがクラスタリングできれば、前記ＵＲＬの分類を保留する。

具体的な実施過程において、本発明が開示した分類方法はウェブページのバグスキャンに適用するだけでなく、ウェブページの検索解析、サイトデータの集計などの複数処理手順にも適用する。

ステップＳ１０１の具体的な実施過程において、クラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）は、クローラアルゴリズムによって取得することができる。

ＵＲＬはインターネット上から得られたリソースの位置とアクセス方法を簡潔に示すものであり、インターネット上の標準リソースのアドレスでもある。

インターネット上の各ファイルは、唯一のＵＲＬを持っており、それにはファイルの位置とブラウザでの処理方法を示す情報が含まれている。

クラスタリング待ちページは、各ページの独自のＵＲＬがある。

一般的に、これらのクラスタリング待ちページは同一のルートＵＲＬに由来し、ウェブサイトのトップページであることが多く、クローラアルゴリズムを使用してウェブページのコンテンツを読み取り、ウェブページ内の他のリンクアドレスを見つけ出してから、これらのリンクアドレスを介して次のウェブページを探す。

このように、このサイトのすべてのウェブページがクロールされるまで繰り返していく。

好ましくは、ウェブページがクロールされた後、クロールされたウェブページの排除と再配列（ｗｅｂｐａｇｅｓｒｅｄｕｐｌｉｃｔｉｏｎｒｅｍｏｖｉｎｇ）を行い、排除と再配列された後のウェブページはクラスタリング待ちウェブページとして使用される。

好ましくは、サイトツリーの形式でクラスタリング待ちのウェブページＵＲＬを記憶しておく。

クラスタリング待ちウェブページのＵＲＬレベルはサイトツリーのレベルに対応し、１つのＵＲＬはサイトツリー上の１つのリーフノードである。

図２は本発明の実施例に係るサイトツリーの模式図である。

図２に示すように、サイトツリーは３つのレベルを含み、第１レベルはルートＵＲＬ０であり、第２レベルはＵＲＬ１、ＵＲＬ２、及びＵＲＬ３を含み、第３レベルはＵＲＬ４、ＵＲＬ５、ＵＲＬ６、及びＵＲＬ７を含む。

ここで、ＵＲＬ４、ＵＲＬ５、及びＵＲＬ６はＵＲＬ１のサブレベルであり、ＵＲＬ７はＵＲＬ３のサブレベルである。

サイトトップページhttp://aを例として、上記８つのＵＲＬに対してそれぞれ例を挙げて説明すると、http://aはＵＲＬ０であり、http://a/bはＵＲＬ１であり、http://a/cはＵＲＬ２であり、http://a/dはＵＲＬ３であり、http://a/b/eはＵＲＬ４であり、http://a/b/fはＵＲＬ５であり、http://a/b/gはＵＲＬ６であり、http://a/b/hはＵＲＬ７である。

ステップＳ１０２の具体的な実施過程において、書き替え規則はリダイレクション処理後の同じレベルのＵＲＬ、且つ同じディレクトリ特性を持つＵＲＬの特徴付け規則を指し、同じディレクトリ特性を持つＵＲＬを１種類に分類する。

例えば、図２中における第３レベルの同じレベルＵＲＬを、ＵＲＬ４ http://a/b/e、ＵＲＬ５ http://a/b/g、ＵＲＬ７ http://a/b/hとする。

ここで、ＵＲＬ４、ＵＲＬ５、及びＵＲＬ６はＵＲＬ１ http://a/bのサブＵＲＬとし、これらは同じディレクトリ特性を持つＵＲＬであるため、ＵＲＬ４、ＵＲＬ５、及びＵＲＬ６の中から書き替え規則を抽出する必要がある。

ここでの書き替え規則は具体的にＵＲＬの記述規則を指し、例えば、ＵＲＬ http://ent.163.com/photoview/615398.htmlとhttp://ent.163.com/photoview/615409.htmlに対して、この２つのＵＲＬに基づいて抽出した書き替え規則はhttp://ent.163.com/photoview/%6d.htmlであり、ここで、%6dはＵＲＬのhtmlファイル名が６ビット数であることを示し、http://ent.163.com/photoviewはこの２つＵＲＬのディレクトリ特性を示す。

好ましくは、本発明の実施例に係る書き替え規則による分類する方法は、複数のクラスタリング待ちページのＵＲＬをＵＲＬ集合とすること、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づいて２つの異なるＵＲＬの書き替え規則を抽出すること、２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、ＵＲＬ集合から信頼できる書き替え規則に合致したＵＲＬを検索して同一ＵＲＬ分類とすること、ＵＲＬ集合から前記同一ＵＲＬ分類中のＵＲＬを削除し、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づいて、２つの異なるＵＲＬの書き替え規則を抽出するステップに戻ること、を含む。

具体的な実施過程において、ＵＲＬ集合Ａ、Ａ＝｛ＵＲＬａ、ＵＲＬｂ、ＵＲＬｃ、ＵＲＬｄ、ＵＲＬｅ｝を例とし、集合Ａの中から任意の２つのＵＲＬ、例えばＵＲＬａとＵＲＬｄを抽出し、この２つＵＲＬの表現形式に基づいてその書き替え規則とし、それから、この書き替え規則が信頼できるものであるか否かを判断し、信頼できるものであれば、この書き替え規則に基づいて、集合Ａの中から、この書き替え規則に合致したＵＲＬを検索して、これらのＵＲＬを同一ＵＲＬ分類とする。

例えば、ＵＲＬｅもこの書き替え規則に合致しており、即ち、ＵＲＬａ、ＵＲＬｄ、及びＵＲＬｅは同一ＵＲＬの分類である。

次に、集合Ａの中のＵＲＬａ、ＵＲＬｄ、及びＵＲＬｅを削除した後、集合Ａの中に残ったＵＲＬに対して、すべてのＵＲＬの分類が完成するまで上記の操作を継続する。

好ましくは、ＵＲＬａとＵＲＬｄに従って抽出された書き替え規則は信頼できないものであれば、ＵＲＬｃ、ＵＲＬｂ、及びＵＲＬｅの中から再び２つＵＲＬを抽出して上記処理を繰り返すか、又はＵＲＬａを保留して、ＵＲＬｃ、ＵＲＬｂ、及びＵＲＬｅの中から再び１つＵＲＬとＵＲＬａを抽出して規則抽出を行う。

本発明の実施例に係る書き替え規則が信頼できるか否かを判断する方法は、もし前記書き替え規則の表現形式は文字のみ又は数字のみであり、かつ前記文字のみ又は数字のみのビット数が確定されなければ、書き換え規則が信用できないことを含む。

例えば、Ewafoij.htmlと2323232.htmlが生成した規則である｛%d｝は、ビット数を確定する規則が得られないため、信頼できるものではない。

好ましくは、さらに不正当ではないＵＲＬを信頼できるＵＲＬと部分的信頼できるＵＲＬに分け、例えば111.htmlと222.htmlが生成した規則%3d.htmlについては、%3dは３ビット数によって形成され、この規則は即ち信頼できる規則である。

一方、例えばabcd_cdf001とabcd_wxyzmが生成した規則abcd_.｛%d｝については、正確な英文字が含まれているが、｛%d｝に示されたビット数文字が確定されないため、部分的信頼できるＵＲＬである。

好ましくは、部分的信頼できるＵＲＬと信頼できないＵＲＬを特徴庫に格納し、すべてのクラスタリング待ちＵＲＬをエルゴディックにしても信頼できるＵＲＬが得られない場合、特徴庫の中から部分的信頼できるＵＲＬ又は信頼できないＵＲＬを取り出してクラスタリングを行う。

表１は本発明の実施例に係る書き替え規則に基づいて分類する分類規則であり、表１に示すように、番号１は第１種の規則であり、最低級ＵＲＬの書き替え規則に基づいて分類し、番号２は第２種の規則であり、最低級ＵＲＬと準最低級ＵＲＬの書き替え規則に基づいて分類し、番号３は番号２より更にレベルアップされた。

好ましくは、ステップＳ１０３の具体的な実施過程において、各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定する。

もし各ＵＲＬをクラスタリングできれば、前記ＵＲＬ分類を保留する。

具体的には、各ＵＲＬ分類中における各ＵＲＬに対して、前記ＵＲＬに対応するページのハイパーテキストマークアップ言語（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ、ＨＴＭＬ）ファイルを取得する。

ＨＴＭＬファイルに含まれるタグ情報に従って、ＨＴＭＬファイルの指紋特徴値を取得する。

各ＵＲＬの指紋特徴値間の差分値が所定閾値を下回るか否かを比較する。

もし所定閾値を下回ると各ＵＲＬがクラスタリングできると判断する。

ＨＴＭＬファイル中には、リンクや画像、音楽やプログラムなどのテキスト以外の要素が含まれている。

ＨＴＭＬファイル中からタグ情報を抽出することによってさらに得られた指紋特徴値はウェブページのフレームワーク構造をよりよく特徴づけることができる。

好ましくは、ＨＴＭＬファイルに含まれるタグ情報に従って、ＨＴＭＬファイルの指紋特徴値を取得することは、具体的には、ＨＴＭＬファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応する。

各タグのＨＴＭＬファイル中における位置の異なりにより、各タグの位置重み値を確定する。

各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、ＨＴＭＬファイルの指紋特徴値を得る。

ＨＴＭＬファイル中に複数のタグが含まれており、各タグには複数の属性が含まれている。

これらの属性の属性値が抽出された後、指紋特徴値の計算に使用される。

好ましくは、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、ＨＴＭＬファイルの指紋特徴値を得ることは、具体的には、ＨＴＭＬファイル中の位置は先端、中部、末端の各部分を含み、そのなか、先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高いこと、タグの属性はアイデンティティ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ、ＩＤ）属性、カテゴリ（Ｃｌａｓｓ）属性と非代表属性を含み、非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、前記アイデンティティ属性の属性重み値は非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は非代表属性の属性重み値より高いこと。

これらの抽出されたタグの属性値は、ＨＴＭＬファイル中のタグの位置によって重みづけされ、重みは指紋特徴値への影響の程度を表している。

例えば、ＨＴＭＬファイルを先端、中部、末端の３つの部分に分け、ビッグデータ解析を行った結果、先端と末端はＴＭＬファイルの指紋特徴値への影響が大きいことが分かったため、先端と末端のタグの属性値の重みづけが大きくする。

好ましくは、ハッシュアルゴリズムを用いてＨＴＭＬファイルの指紋特徴値を算出し、算出処理において、単一のタグの各属性値に重みづけを行い、タグ中のｉｄ属性とｃｌａｓｓ属性の属性値はウェブページフレームワークに敏感であるため、ｉｄ属性とｃｌａｓｓ属性の属性値は同一タグ下の他の属性値より重みが高い。

各ＵＲＬの指紋特徴値を取得した後、同一ＵＲＬ分類中における各ＵＲＬの指紋特徴値間の差分値が所定閾値を下回るか否かを比較し、もし所定閾値を下回ると各ＵＲＬがクラスタリングできると判断する。

好ましくは、同一ＵＲＬ分類中の各ＵＲＬを所定閾値と比較する際、任意の２つのＵＲＬの指紋特徴値の差分値はどちらも所定閾値より小さくする必要がなく、実際の応用状況に従って信頼度の基準を設定することができる。

所定閾値に満たした２ＵＲＬずつからなる組み合わせが総組み合わせにおける比例が信頼度基準より低くない場合、このＵＲＬ分類はクラスタリングできると見なされる。

例えば、ＵＲＬ分類｛ＵＲＬ１、ＵＲＬ２、ＵＲＬ３、ＵＲＬ４、ＵＲＬ５｝に対して、予め設定された信頼度基準は８０％であるとする。この５つのＵＲＬには全部で１０種類の２ＵＲＬずつからなる組み合わせがある。もし、その中に８種類のＵＲＬの２ＵＲＬずつからなる組み合わせが、所定閾値を満たした場合、この分類の信頼度は８０％であり、信頼度基準に満たしており、このＵＲＬ分類はクラスタリングできる。

もし、その中に６種類のＵＲＬの２ＵＲＬずつからなる組み合わせが、所定閾値を満たした場合、この分類の信頼度は６０％であり、信頼度基準が満たされず、このＵＲＬ分類にはクラスタリングできない。

好ましくは、所定閾値とウェブページパーティション及び各パーティションの重みの割り当ての間に動的なバランスがあり、つまり、所定閾値を取得する際に、一定数量の既知の同じウェブページフレームワークのウェブページパーティション比率とパーティション重みの割り当てを調整することで、所定閾値を所望の値に制御する。

指摘する必要があるのは、上記取得された指紋特徴値は同じフレームワーク構造を持つとは完全に考えられないが、ＵＲＬ分類が正しいか否かの検証に用いることができる。

つまりリダイレクション規則とウェブページフレームワークの比較の両方を同時に満たすＵＲＬが同じ分類のＵＲＬと見なすことができる。

図３は、本発明の実施例に係るウェブページのクラスタリングを使用してバグをスキャンするプロセスを示すフローチャートであり、図に示すように、以下のステップを含む。

Ｓ３０１では、クローラはサイトすべてのＵＲＬをクロールし、サイトツリーの形式で保存する。

Ｓ３０２では、まず、最初のステップでクロールしたＵＲＬの結果を書き替え規則によってクラスタリングする。

Ｓ３０３では、１分類にクラスタリングされたＵＲＬ集合がそれらのページフレームワークに従ってクラスタリングできるか否かを判定し、できると判定されれば、ステップＳ３０４に進み、できないと判定されれば、ステップＳ３０５に進む。

Ｓ３０４では、そのなかの１つのＵＲＬを抽出してウェブページをスキャンし、前記種類ＵＲＬ中の其の他のＵＲＬのバグはこのＵＲＬのスキャン結果を基準とする。

Ｓ３０５は、このＵＲＬ分類中のＵＲＬのウェブページすべてをスキャンする。

ステップＳ３０２においてウェブページをクラスタリング及び分析したことにより、ステップＳ３０４において１つのウェブページをスキャンしただけでこのウェブページ前記分類中の其の他のウェブページのバグを知ることができ、よって、ウェブページバグスキャナープラグインのネットワークリソースの消耗を効果的に減らし、ウェブページスキャナーの走査効率を向上させた。

要約すると、本発明の実施例に係るウェブページのクラスタリングの方法は、複数のクラスタリング待ちページのＵＲＬを取得すること、各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類すること、各ＵＲＬを分類し、前記ＵＲＬ分類中の各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定し、もし各ＵＲＬがクラスタリングできれば、前記ＵＲＬの分類を保留すること、とを含む。

本発明の実施例におけるＵＲＬ書き替え規則を分類することによってクラスタリング待ちの各ページに対してＵＲＬの予備的分類を取得し、その後、ページフレームワークを抽出し、且つページフレームワークに基づいてＵＲＬの分類に対して検証を行う。

同じ技術思想に基づいて、本発明の実施例は上記方法の実施例を実装するウェブページのクラスタリング装置をさらに提供する。

図４は、本発明の実施例に係るウェブページのクラスタリング装置の構造式図であり、図４に示すように、ウェブページのクラスタリング装置４００は、クロールモジュール４０１と、分類モジュール４０２と、判断モジュール４０３と、を備える。

前記クロールモジュール４０１は、複数のクラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を取得するのに用いる。

前記分類モジュール４０２は、各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類するのに用いる。

前記判断モジュール４０３は、各ＵＲＬを分類し、前記ＵＲＬ分類中の各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定し、もし各ＵＲＬをクラスタリングできれば、前記ＵＲＬ分類を保留するのに用いる。

好ましくは、分類モジュール４０２は具体的には、複数のクラスタリング待ちページのＵＲＬをＵＲＬ集合とし、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、２つの異なるＵＲＬの書き替え規則を抽出し、２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、ＵＲＬ集合から信頼できる書き替え規則に合致したＵＲＬを検索して同一ＵＲＬ分類とし、ＵＲＬ集合から同一ＵＲＬ分類中のＵＲＬを削除し、ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、２つの異なるＵＲＬの書き替え規則を抽出するステップに戻るのに用いる。

好ましくは、分類モジュール４０２は具体的に、ＵＲＬ集合から第１ＵＲＬと第２ＵＲＬを抽出し、第１ＵＲＬと第２ＵＲＬの書き替え規則を確定するのに用いる。

分類モジュール４０２は具体的に、第１ＵＲＬと第２ＵＲＬの書き替え規則が信頼できない書き替え規則である場合、ＵＲＬ集合から第３ＵＲＬと第４ＵＲＬを抽出し、第３ＵＲＬと第４ＵＲＬの書き替え規則を確定し、且つ２つの異なるＵＲＬの書き替えが信頼できる書き替え規則であるか否かを確定するのステップに戻るのに用いる。

第３ＵＲＬと第４ＵＲＬのうちの少なくとも１つは、ＵＲＬ集合中の第１ＵＲＬと第２ＵＲＬ以外の其の他のＵＲＬである。

好ましくは、書き換え規則の表現形式は文字のみ又は数字のみであり、且つその文字又は数字のビット数が確定されなければ、書き換え規則が信用できない。

好ましくは、判断モジュール４０３は具体的に、各ＵＲＬ分類中における各ＵＲＬに対して、前記ＵＲＬに対応するページのハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルを取得し、ＨＴＭＬファイルに含まれるタグ情報に従って、ＨＴＭＬファイルの指紋特徴値を取得し、各ＵＲＬの指紋特徴値間の差分値が所定閾値を下回るか否かを比較し、もし所定閾値を下回ると各ＵＲＬがクラスタリングできると判断するのに用いる。

好ましくは、判断モジュール４０３は具体的に、ＨＴＭＬファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応し、各タグのＨＴＭＬファイル中における位置の異なりにより、各タグの位置重み値を確定し、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、ＨＴＭＬファイルの指紋特徴値を得るのに用いる。

好ましくは、判断モジュール４０３は具体的に、ＨＴＭＬファイル中の位置を先端、中部、末端に分割し、先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高くする。

タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、そのなか、アイデンティティ属性の属性重み値は前記非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は前記非代表属性の属性重み値より高い。

要約すると、本発明の実施例に係るウェブページのクラスタリングの方法及び装置は、複数のクラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）取得すること、各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類すること、各ＵＲＬを分類し、前記ＵＲＬ分類中の各ＵＲＬに対応するページのページフレームワークを確定し、各ＵＲＬに対応するページのページフレームワークに従って各ＵＲＬをクラスタリングできるか否かを確定すること、もし各ＵＲＬがクラスタリングできれば、前記ＵＲＬの分類を保留すること、を含む。

本発明の実施例におけるＵＲＬ書き替え規則を分類することによってクラスタリング待ちの各ページに対してＵＲＬの予備的分類を取得し、その後、ページフレームワークを抽出し、且つページフレームワークに基づいてＵＲＬの分類を検証する。

このように分類してから検証するという処理することによって、同じページフレームワークの構造を有するウェブページを１分類にクラスタリングすることができ、従来のクラスタリング方法でウェブページフレームワークに従ってクラスタリングできない問題を克服でき、ページフレームワークの処理過程におけるより適したクラスタリング方法が提供される。

同じ技術思想に基づいて、本発明の実施例はコンピュータ装置をさらに提供する。

前記コンピュータ装置は具体的にデスクトップコンピュータ、ポータブルコンピュータ、スマトフォン、タブレットコンピュータ、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）などであってもよい。

図５に示すように、本発明の実施例に係るコンピュータ装置の構造図である。

前記コンピュータ装置は中央プロセッサ５０１（ＣｅｎｔｅｒＰｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）、メモリ５０２、入力装置５０３、出力装置５０４などを含む。

入力装置５０３はキーボード、マウス、タッチスクリーンなどを含む。

出力装置５０４は液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ＣＲＴ）などを含む。

メモリ５０２は、読み取り専用メモリ（ＲＯＭ）及びランダムアクセスメモリ（ＲＡＭ）を含むことができ、メモリに格納されたプログラム指令とデータをプロセッサに提供する。

本発明の実施例において、メモリは本発明の任意の実施例によって提供される方法のプログラムを格納に使用し、プロセッサはメモリに格納されたプログラム指令を呼び出すことによって、上記任意の実施例によって公開された方法は、取得されたプログラム指令に従って実行される。

同じ技術思想に基づいて、本発明の実施例は、上記コンピュータ装置に使用されるプログラム指令を格納するためのコンピュータ読み取り可能な記憶媒体をさらに提供する。

それは、上記任意の実施例によって公開された方法を実施するためのプログラムを含む。

前記コンピュータ読み取り可能な記憶媒体はコンピュータのアクセス可能な任意の媒体又はデータ記憶装置とすることができ、磁気メモリ（例えば、フレキシブルディスク、ハードディスク、磁気テープ、光磁気ディスク（ＭＯ）など）、光記憶装置（例えばＣＤ、ＤＶＤ、ＢＤ、ＨＶＤなど）、及び半導体記憶装置（例えばＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、不揮発性記憶装置（ＮＡＮＤＦＬＡＳＨ）、ハードディスク（ＳＳＤ））など、を含むがこれに限定しない。

同じ技術思想に基づいて、本発明の実施例は、コンピュータ上で運行される際、上記任意の実施例によって公開された方法を実行させるコンピュータプログラム製品をさらに提供する。

本発明の好ましい実施例を説明してきたが、本分野の技術者は基本的な発明概念を知ることによってこれらの実施例に追加の変更や修正を加えることができる。

従って、添付の特許請求の範囲は、好ましい実施例及び本発明範囲内のすべての変更と修正を含むと解釈される。

本分野の技術者は本発明の精神や範囲から逸脱することなく本発明に対して様々な変更及び変形を行うことができることは明らかであろう。

従って、これらの変更と変形が本発明の特許請求の範囲及び均等の技術範囲内に属すれば、本発明はこれらの変更と変形を含むものと了解される。

Claims

複数のクラスタリング待ちの各ページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を取得するステップと、
各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類するステップと、
各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、前記各ＵＲＬに対応するページのページフレームワークに従って前記各ＵＲＬをクラスタリングできるか否かを確定するステップと、
もし前記各ＵＲＬがクラスタリングできれば、前記ＵＲＬ分類を保留するステップとを含むことを特徴とするウェブページのクラスタリング方法。
各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類するステップは、
前記複数のクラスタリング待ちページのＵＲＬをＵＲＬ集合とするステップと、
前記ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、前記２つの異なるＵＲＬの書き替え規則を抽出するステップと、
前記２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、前記ＵＲＬ集合から前記信頼できる書き替え規則に合致したＵＲＬを検索して同一ＵＲＬ分類とするステップと、
前記ＵＲＬ集合から前記同一ＵＲＬ分類中のＵＲＬを削除し、前記ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、前記２つの異なるＵＲＬの書き替え規則を抽出するステップに戻るステップとを含むことを特徴とする請求項１に記載のウェブページのクラスタリング方法。
前記ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、前記２つの異なるＵＲＬの書き替え規則を抽出するステップは、
前記ＵＲＬ集合から第１ＵＲＬと第２ＵＲＬを抽出し、前記第１ＵＲＬと前記第２ＵＲＬの書き替え規則を確定するステップを含み、
前記方法はさらに、
もし前記第１ＵＲＬと前記第２ＵＲＬの書き替え規則が信頼できない書き替え規則であれば、前記ＵＲＬ集合から第３ＵＲＬと第４ＵＲＬを抽出し、前記第３ＵＲＬと前記第４ＵＲＬの書き替え規則を確定し、前記２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるかを確定するステップに戻り、前記第３ＵＲＬと前記第４ＵＲＬのうちの少なくとも１つは、前記ＵＲＬ集合中の前記第１ＵＲＬと前記第２ＵＲＬ以外の其の他のＵＲＬであることを含むことを特徴とする請求項２に記載のウェブページのクラスタリング方法。
各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、前記各ＵＲＬに対応するページのページフレームワークに従って前記各ＵＲＬをクラスタリングできるか否かを確定するステップは、
前記各ＵＲＬ分類中における各ＵＲＬに対して、前記ＵＲＬに対応するページのハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルを取得し、前記ＨＴＭＬファイルに含まれるタグ情報に従って、前記ＨＴＭＬファイルの指紋特徴値を取得するステップと、
前記各ＵＲＬの指紋特徴値間の差分値が所定閾値を下回るか否かを比較するステップと、
もし前記所定閾値を下回ると前記各ＵＲＬがクラスタリングできると判断するステップとを含むことを特徴とする請求項１ないし請求項３のいずれかに記載のウェブページのクラスタリング方法。
前記ＨＴＭＬファイルに含まれるタグ情報に従って、前記ＨＴＭＬファイルの指紋特徴値を取得するステップは、
前記ＨＴＭＬファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応するステップと、
各タグの前記ＨＴＭＬファイル中における位置の異なりにより、各タグの位置重み値を確定するステップと、
各タグの位置重み値、各タグ中の異なる属性の指令属性値及び属性重み値に従って、前記ＨＴＭＬファイルの指紋特徴値を得るステップとを含むことを特徴とする請求項４に記載のウェブページのクラスタリング方法。
各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、前記ＨＴＭＬファイルの指紋特徴値を得る場合、
前記ＨＴＭＬファイル中の位置は先端、中部、末端の各部分を含み、前記先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高く、
タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、前記非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、前記アイデンティティ属性の属性重み値は前記非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は前記非代表属性の属性重み値より高いことを特徴とする請求項５に記載のウェブページのクラスタリング方法。
複数のクラスタリング待ちページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を取得するのに用いるクロールモジュールと、
各クラスタリング待ちページのＵＲＬに対して、前記ＵＲＬの書き替え規則を確定してから前記ＵＲＬの書き替え規則に従ってＵＲＬを分類するのに用いる分類モジュールと、
各ＵＲＬ分類に対し、前記ＵＲＬ分類中における各ＵＲＬに対応するページのページフレームワークを確定し、前記各ＵＲＬに対応するページのページフレームワークに従って前記各ＵＲＬをクラスタリングできるか否かを確定し、もし前記各ＵＲＬをクラスタリングできれば、前記ＵＲＬ分類を保留するのに用いる判断モジュールと、を備えることを特徴とするウェブページのクラスタリング装置。
前記分類モジュールは、
前記複数のクラスタリング待ちページのＵＲＬをＵＲＬ集合とし、
前記ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、前記２つの異なるＵＲＬの書き替え規則を抽出し、
前記２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、前記ＵＲＬ集合から前記信頼できる書き替え規則に合致したＵＲＬを検索して同一ＵＲＬ分類とし、
前記ＵＲＬ集合から前記同一ＵＲＬ分類中のＵＲＬを削除し、前記ＵＲＬ集合中の任意の２つの異なるＵＲＬに基づき、前記２つの異なるＵＲＬの書き替え規則を抽出するステップに戻るのに用いることを特徴とする請求項７に記載のウェブページのクラスタリング装置。
前記分類モジュールはさらに、
前記ＵＲＬ集合から第１ＵＲＬと第２ＵＲＬを抽出し、前記第１ＵＲＬと前記第２ＵＲＬの書き替え規則を確定し、
前記分類モジュールはさらに、
前記第１ＵＲＬと前記第２ＵＲＬの書き替え規則が信頼できない書き替え規則である場合、前記ＵＲＬ集合から第３ＵＲＬと第４ＵＲＬを抽出し、前記第３ＵＲＬと前記第４ＵＲＬの書き替え規則を確定し、前記２つの異なるＵＲＬの書き替え規則が信頼できる書き替え規則であるか否かを確定するステップに戻ることに用い、
前記第３ＵＲＬと前記第４ＵＲＬのうちの少なくとも１つは、前記ＵＲＬ集合中の前記第１ＵＲＬと前記第２ＵＲＬ以外の其の他のＵＲＬであることを特徴とする請求項８に記載のウェブページのクラスタリング装置。
前記判断モジュールは、
前記各ＵＲＬ分類中における各ＵＲＬに対して、前記ＵＲＬに対応するページのハイパーテキストマークアップ言語（ＨＴＭＬ）ファイルを取得し、前記ＨＴＭＬファイルに含まれるタグ情報に従って、前記ＨＴＭＬファイルの指紋特徴値を取得し、
前記各ＵＲＬの指紋特徴値間の差分値が所定閾値を下回るか否かを比較し、
もし前記所定閾値を下回ると前記各ＵＲＬがクラスタリングできると判断するのに用いることを特徴とする請求項７ないし請求項９のいずれかに記載のウェブページのクラスタリング装置。
前記判断モジュールは、
前記ＨＴＭＬファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応し、
各タグの前記ＨＴＭＬファイル中における位置の異なりにより、各タグの位置重み値を確定し、
各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、前記ＨＴＭＬファイルの指紋特徴値を得るのに用いることを特徴とする請求項１０に記載のウェブページのクラスタリング装置。
前記判断モジュールは、前記ＨＴＭＬファイル中の位置を先端、中部、末端に分割し、
先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高く、
タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、前記非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、前記アイデンティティ属性の属性重み値は前記非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は前記非代表属性の属性重み値より高いことを特徴とする請求項１１に記載のウェブページのクラスタリング装置。
コンピュータ読み取り可能な記憶媒体であって、コンピュータで実行可能な命令を記憶しており、前記コンピュータで実行可能な指令は前記コンピュータに請求項１ないし請求項６のいずれか１項に記載の方法を実行させるのに用いることを特徴とするコンピュータ読み取り可能な記憶媒体。
プログラム指令を記憶するメモリと、
前記メモリに記憶されたプログラム指令を呼び出し、取得したプログラムに基づいて、請求項１ないし請求項６のいずれか１項に記載の方法を実行するプロセッサとを備えることを特徴とするコンピュータ装置。
コンピュータプログラム製品であって、コンピュータにおいて運行される際、コンピュータに請求項１ないし請求項６のいずれか１項に記載の方法を実行させることを特徴とするコンピュータプログラム製品。