JP2006215735A

JP2006215735A - 重複Ｗｅｂサイト検出装置

Info

Publication number: JP2006215735A
Application number: JP2005026743A
Authority: JP
Inventors: Takayuki Tamura; 孝之田村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-02-02
Filing date: 2005-02-02
Publication date: 2006-08-17
Anticipated expiration: 2025-02-02
Also published as: JP4610360B2

Abstract

【課題】多数のサイトに対する重複性判定の精度を高め、Ｗｅｂ情報の正確な把握と活用を可能にする重複Ｗｅｂサイト検出装置を提供する。
【解決手段】Ｗｅｂページ情報から、それぞれのサイトのＵＲＬに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段１と、生成されたそれぞれのサイト情報に基づいて、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出する重複サイト集合検出手段１０とを備える。
【選択図】図１

Description

本発明は、Ｗｅｂ情報の収集効率の向上を図るために、重複しているＷｅｂサイトを検出する目的で使用される重複Ｗｅｂサイト検出装置に関する。

重複Ｗｅｂサイトとは、ＵＲＬ（Uniform Resource Locator）のサイト名（ホスト名）部分だけが異なり、同一内容からなるＷｅｂサイトの集合であり、負荷分散やバックアップを目的とした物理的なコピーによるものから、検索エンジンでのランキングを操作するためにＤＮＳ（Domain Name System）へのホスト名の多重登録を行って論理的に多数のサイトに見せかけたものなどが存在している。

重複サイトを検出することで、検索エンジンの結果の重複を減らし、Ｗｅｂクローリングによる情報収集の効率およびプロキシサーバやブラウザにおけるキャッシュヒット率を向上することが期待される。

従来の重複サイト（ミラーサイト）検出装置は、名前が異なる２つのＷｅｂサイトについて、
１）当該Ｗｅｂサイトに属するＷｅｂページＵＲＬの文字列の類似性
２）当該ＷｅｂサイトのＩＰアドレスの類似性
３）当該Ｗｅｂサイトに属するＷｅｂページからリンクされているＵＲＬの共通性
４）当該Ｗｅｂサイトに属するＷｅｂページからリンクされているＵＲＬのサイト名部分の共通性
のうち、１つ以上の指標を数値的に評価し、類似性や共通性が基準値より高い場合に、内容が互いに等価な重複サイトであると判定していた（例えば、特許文献１および特許文献２参照）。

また、従来の方法では、３つ以上の名前を持つ重複サイトは、Ｗｅｂサイトを２つずつの組に分けて判定を繰り返すことにより処理する。例えば、サイトＡとサイトＢが重複サイトであり、サイトＡとサイトＣが重複サイトであるならば、サイトＢとサイトＣも重複サイトであると判定し、サイトＡ、Ｂ、Ｃを一つの重複サイト集合として検出していた。

特開２００２−７３６０７号公報（第１頁、図１）米国特許第６、４８７、５５５号明細書Ｂ１Ｆｉｇ．４

しかしながら、従来技術には次のような課題がある。従来の重複Ｗｅｂサイト検出装置は、２つのサイトの組に対する判定結果に推移律を適用して、３つ以上のサイトの場合に一般化しているため、数十から数百といった多数のサイトについて判定を行うと誤りを生じ易いという問題点があった。すなわち、重複サイトは、完全に等価である必要はなく、情報収集中のＷｅｂサイトの変化に対応できるように、ある程度の誤差を含むものとしており、推移律は、厳密には成立しない。

多くの重複サイトを検出できるように許容誤差を大きめに与えると、多数のサイトに適用した場合の累積誤差は、さらに大きくなり、重複サイトでないものも重複とみなしてしまうことになる。一方、この問題を避けるために、許容誤差を小さく設定すると、一部が変化した重複サイトを検出できなくなるという問題が起こる。ホスト名の多重登録による大規模な重複サイトが存在する一方で、共通のデザインで多数のユーザに個別のＷｅｂスペースを提供するサービス（非重複サイト）も普及しており、多数のサイトに対する判定は、ごく一般的な問題となっている。

本発明は上述のような課題を解決するためになされたもので、多数のサイトに対する重複性判定の精度を高め、Ｗｅｂ情報の正確な把握と活用を可能にする重複Ｗｅｂサイト検出装置を提供することを目的とする。

本発明に係る重複Ｗｅｂサイト検出装置は、Ｗｅｂページ情報から、それぞれのサイトのＵＲＬに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段と、生成されたそれぞれのサイト情報に基づいて、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出する重複サイト集合検出手段とを備えたものである。

本発明によれば、それぞれのサイトのＵＲＬに対して、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出することにより、多数のサイトに対する重複性判定の精度を高め、Ｗｅｂ情報の正確な把握と活用を可能にすることができる重複Ｗｅｂサイト検出装置を得ることができる。

以下、本発明の重複Ｗｅｂサイト検出装置の好適な実施の形態につき図面を用いて説明する。本発明の重複Ｗｅｂサイト検出装置は、多数のサイトに対応するそれぞれのコンテンツハッシュ値に基づいて重複サイト集合の検出を一度で行うことにより、多数のサイトに対する重複性判定の精度を高めることが可能となる点を特徴としている。

実施の形態１．
図１は、本発明の実施の形態１における重複Ｗｅｂサイト検出装置の構成図である。図１において、前処理手段１は、入力したＷｅｂページコンテンツ７のデータ形式を、後続手段の処理に必要な形式に変換する手段である。第１のソート手段２は、前処理手段１の結果の並べ替えを行う。タグ付与手段３は、第１のソート手段２の結果に基づいて各Ｗｅｂページに対応するデータにタグを付与する。

第２のソート手段４は、タグを付与されたデータのソートを行う。計数手段５は、同一タグのデータに関する集計処理を行う。さらに、判定手段６は、計数手段５の結果に基づいて判定を行い、重複サイト名リスト８を出力する。ここで、第１のソート手段２、タグ付与手段３、第２のソート手段４、計数手段５および判定手段６は、重複サイト集合検出手段１０を構成する各手段に相当する。

これらの各手段は、それぞれ独立の演算器と記憶装置を備えたハードウェアで実現することができ、また単一の演算器と記憶装置を備えたコンピュータで逐次に実行することもできる。

次に、これらの各手段の動作について詳細に説明する。まず前処理手段１は、ＷｅｂページのＵＲＬ文字列とそのコンテンツを示す文字列の組を受け取り、ＵＲＬ文字列からサイト名とサイト内パスを切り出すとともに、Ｗｅｂページのコンテンツを示す文字列全体にハッシュ関数を適用してハッシュ値に変換し、Ｗｅｂページ毎にサイト名、サイト内パス、コンテンツハッシュ値を出力する。

図２は、本発明の実施の形態１における前処理手段１によるＵＲＬ文字列の処理を示す概念図である。図２において、ＵＲＬ文字列２０の内、サイト名２１は、サイトのホスト名を表す部分、サイト内パス２２は、「／」で始まる残りの文字列である。

また、ハッシュ値を求めるハッシュ関数は、異なるコンテンツ文字列に対して同一のハッシュ値が対応する確率が低いものが適しており、公知のＭＤ５やＳＨＡ−１などを用いることができる。

図３は、本発明の実施の形態１における前処理手段１の出力情報を示す図である。図３において、前処理手段出力情報３０は、Ｗｅｂページ毎に１つの行が対応しており、それぞれの行は、サイト名３１、サイト内パス３２、コンテンツハッシュ値３３の３つの列（カラム）のそれぞれの要素からなるサイト情報を構成している。

次に、第１のソート手段２は、前処理手段出力情報３０の各行に対して、サイト名、サイト内パスの昇順にソートする。図４は、本発明の実施の形態１における第１のソート手段２の出力情報を示す図である。図４において、第１のソート手段出力情報４０は、前処理手段出力情報３０と同じ形式をしているが、サイト名４１、サイト内パス４２の順に各行が配置されている点が異なる。前処理手段出力情報３０にサイト名およびサイト内パスがともに同一である行が複数存在する場合は、いずれか１行を残し、他は除去する。

次に、タグ付与手段３は、第１のソート手段出力情報４０に基づいて、各Ｗｅｂページに対応するデータにタグを付与する。図５は、本発明の実施の形態１におけるタグ付与手段３の動作の詳細を示すフローチャートである。図５において、始めにステップＳ５０１で、現在サイト名および現在タグの値を空文字列に初期化する。次に、ステップＳ５０２で、第１のソート手段出力情報４０から１行を入力する。次に、ステップＳ５０３で、入力した行のサイト名カラムと現在サイト名の値とを比較し、一致する場合は、ステップＳ５０６に進む。

一方、これらの値が一致しない場合は、ステップＳ５０４に進み、現在タグを入力行のコンテンツハッシュ値カラムとサイト名カラムとを文字列として連結した値に設定する。次いで、ステップＳ５０５で、現在サイト名をサイト名カラムの値に設定する。

ステップＳ５０６で、現在タグ、サイト内パスカラム、コンテンツハッシュ値カラム、およびサイト名カラムを、入力行にタグ付与した結果として出力する。最後に、ステップＳ５０７で、第１のソート手段出力情報４０の全ての行を処理したか判定し、処理すべき行が残っていれば、ステップＳ５０２に戻り、残りの行に対する一連の処理を行い、残っていなければ一連の処理を終了する。

図６は、本発明の実施の形態１におけるタグ付与手段３の出力情報を示す図であり、タグ付与手段３が図５の一連の処理を実行することにより出力するタグ付与手段出力情報６０を示したものである。図６において、タグ付与手段出力情報６０は、Ｗｅｂページ毎に１つの行が対応しており、各行は、タグ６１、サイト内パス６２、コンテンツハッシュ値６３、およびサイト名６４の４つのカラムからなるサイト情報となっている。

タグ付与手段３の処理の意味は、各サイトについて文字列順で先頭となるサイト内パスとコンテンツハッシュ値の組をタグとして付与することであり、このタグを用いて重複サイト名の候補集合を作ることが可能になる。例えば、図６における５行目と６行目に対応するサイト名６４は、ともにxxx.yyy.zzzであるため、それぞれの行のタグ６１は、５行目のコンテンツハッシュ値６３とサイト内パス６２との組として、同一のタグが付与されている。また、図６においては、タグ６１の値の一例として、コンテンツハッシュ値６３とサイト内パス６２とを「−」を挟んで連結した文字列を示している。

次に、第２のソート手段４は、タグ付与手段出力情報６０の各行に対して、タグ、サイト内パス、コンテンツハッシュ値の昇順にソートする。図７は、本発明の実施の形態１における第２のソート手段４の出力情報を示す図である。図７において、第２のソート手段出力情報７０は、タグ付与手段出力情報６０と同じ形式をしており、各行の配置順のみが異なる。

次に、計数手段５は、第２のソート手段出力情報７０に基づいて、同一タグのデータに関する集計処理を行う。図８は、本発明の実施の形態１における計数手段５の動作の概要を示すフローチャートである。図８において、始めにステップＳ８０１で、第２のソート手段出力情報７０から同一タグが続く限り行を入力する。次に、ステップＳ８０２において、入力した複数行に対して後述する方法でヒット数、ミス率を計数し、タグおよびサイト名リストとともに出力する。

次いで、ステップＳ８０３で、全ての入力を処理したか判断し、未処理の入力があればステップＳ８０１に戻り、未処理の入力に対して一連の処理を行い、全て処理済であれば一連の処理を終了する。

図９は、本発明の実施の形態１における計数手段５の図８のステップＳ８０２の動作を詳細に示したフローチャートである。図９において、ステップＳ９０１で、同一タグに対応するサイト名が何種類存在するかを数える。次いで、ステップＳ９０２で、同一タグに対応するサイト内パスが何種類存在するかを数える。さらに、ステップＳ９０３で、サイト内パス毎にコンテンツハッシュ値の種類とその出現頻度を数える。

次いで、ステップＳ９０４で、サイト内パスの内、２種類以上のコンテンツハッシュ値が対応しているものの割合をミス率として求める。次に、ステップＳ９０５で、１種類のコンテンツハッシュ値が対応するサイト内パスについて、コンテンツハッシュ値の出現頻度が２以上かつサイト名種類の一定割合以上となっているものを数え、ヒット数として求める。最後に、ステップＳ９０６で、タグ、ヒット数、ミス率、サイト名リストを出力して終了する。

図１０は、本発明の実施の形態１における計数手段５の動作の意味を示す概念図である。この図１０は、タグが12349876-/であるグループについて、行方向にサイト名１０１を取り、列方向にサイト内パス１０２を取り、対応するコンテンツハッシュ値１０３を並べた行列を示している。

コンテンツハッシュ値がＮ／Ａとなっている部分は、サイト名とサイト内パスに対応するＵＲＬが入力のＷｅｂページコンテンツ７に存在しなかったことを示している。大規模なＷｅｂ情報の収集は、Ｗｅｂページ間のリンクを辿りながら行なうのが一般的であるため、実際に存在するＵＲＬであってもアクセスしていないために情報が欠落することは有り得る。

図９に示した動作は、図１０に示す行列において、列毎にヒットおよびミスの判定を行なって、それぞれの列の数を数えることと等価である。具体的には、図１０の例では、サイト内パス「／」に対しては、全てのコンテンツハッシュ値が等しく、種類＝１、出現頻度＝３となることから、この列はヒットとなる。

また、サイト内パス「/links.html」に対しては、サイトaaa.bbb.cccおよびzzz.www.aaaに対応するコンテンツハッシュ値が存在しないため種類＝１、出現頻度＝１となり、種類は１であるが出現頻度が２以上でないため、この列はヒットでもミスでもないと見なされる。さらに、サイト内パス「/news.html」に対しては、コンテンツハッシュ値の種類＝２となるため、この列はミスとなる。

このような場合、計数手段５は、タグとして12349876-/、ヒット数として１、ミス率として１／３、サイト名リストとしてaaa.bbb.ccc、xxx.yyy.zzz、zzz.www.aaaの３つをそれぞれ出力することとなる。ここで求めたヒット数は、図１０における一致列の数に相当し、ミス率は、図１０における不一致列の数に相当する。

次に、判定手段６は、計数手段５によって出力されたタグ、ヒット数、ミス率、サイト名リストの結果に基づいて判定を行い、重複サイト名リスト８を出力する。図１１は、本発明の実施の形態１における判定手段６の動作を示すフローチャートである。図１１において、ステップＳ１１０１で、タグ毎にヒット数、ミス率、サイト名リストを受け取る。

次に、ステップＳ１１０２で、ヒット数が一定値以上かつミス率が一定割合未満であれば、当該タグに対応するサイトは、全て重複と判定し、サイト名リストを重複サイト名リスト８に出力する。次いで、ステップＳ１１０３で、全てのタグについて判定を行なったか判断し、未処理のタグがあれば、ステップＳ１１０１に戻って未処理のタグに対して一連の処理を行い、未処理のタグがない場合は、一連の処理を終了する。

実施の形態１によれば、１つ以上の任意の数のサイトに対して、サイト内パスとコンテンツハッシュ値との比較を行なう計数手段を備えているので、大規模な重複サイトの判定を誤差を累積することなく行なうことができる。特に、判定対象の一定割合以上に共通するサイト内パスのみを一致（ヒット）と見なし、また、多数のサイトの一部でも不一致があればミスと見なすので、サイト数の増加に応じて判定基準も厳しくなり、閾値設定におけるトレードオフの問題を避けることができる。さらに、タグ付与手段を備えているので、タグに基づいて一部のパスの内容が一致する全てのサイトを重複候補として効率的に抽出することができる。

実施の形態２．
実施の形態１では、同一タグ内でのサイト内パスのヒット／ミスの計数に基づいて、重複性を判定するようにしたものであるが、次に、サイト名の類似性を考慮して類似サイト名からなる重複サイト候補集合に対しては不一致の許容度を大きくする実施の形態を示す。

図１２は、本発明の実施の形態２における重複Ｗｅｂサイト検出装置の構成図である。図１２において、番号が図１と共通するものは同じ動作をする手段である。実施の形態１における図１と比較して、図１２は、第２のソート手段出力情報をサイト名に基づいて計数するドメイン計数手段５ａが新たに加わり、判定手段６が計数手段５とドメイン計数手段５ａの出力情報に基づいて重複サイトの判定を行なう判定手段６ａに置き換わった点が異なっている。

図１３は、本発明の実施の形態２におけるドメイン計数手段５ａの動作を示すフローチャートである。図１３において、ステップＳ１３０１で、サイト名毎に「．」で区切られた構成要素の数を数え、その最小値を求める。例えば、サイト名がxxx.yyy.zzzの場合の構成要素の数は、３である。

次に、ステップＳ１３０２で、サイト名の構成要素（例えば、「xxx」、「yyy」、「zzz」のそれぞれ）毎に出現頻度を求め、入力のサイト数の一定割合以上の出現頻度となるものを数えて頻出ドメインレベルとする。最後に、ステップＳ１３０３で、最小ドメインレベル数および頻出ドメインレベル数を出力して終了する。

図１４は、本発明の実施の形態２における判定手段６ａの動作を示すフローチャートである。図１４において、始めにステップＳ１４０１で、タグ、サイト名リストとともに、ヒット数、ミス率を計数手段５から受け取り、同じタグに対する最小ドメインレベル数、頻出ドメインレベル数をドメイン計数手段５ａから受け取る。

次に、ステップＳ１４０２で、頻出ドメインレベル数と最小ドメインレベル数とを比較し、頻出ドメインレベル数が最小ドメインレベル数より大きい場合は、ステップＳ１４０４に進む。頻出ドメインレベル数が最小ドメインレベル数以下の場合は、ステップＳ１４０３に進み、サイト数の対数に比例する係数をヒット数に乗じ、当該係数の逆数をミス率に乗じる。係数としては、例えば、ｌｏｇ（サイト数）×４．５などを用いる。

ステップＳ１４０４では、ヒット数が一定値以上かつミス率が一定割合未満の場合に、サイト名リストを重複サイト名リスト８に出力する。次いで、ステップＳ１４０５で、全てのタグについて処理を行なったか判断し、未処理のタグがあれば、ステップＳ１４０１に戻って未処理のタグに対して一連の処理を行い、未処理のタグがない場合は、一連の処理を終了する。

このようにして、判定手段６ａは、計数手段５で計数されたヒット数およびミス率を、ドメイン計数手段５ａで計数されたドメイン出現頻度に基づいて補正することにより、サイト名の類似性に関する情報も重複サイト情報の検出に利用できる。

実施の形態２によれば、ドメイン係数手段を備えているので、サイト名の類似性に関する情報も判定に利用することができる。特に、重複サイト候補集合内のサイト名が高い類似性を持つ場合に、サイト内パスの計数結果にバイアスを加え、重複と判定し易い条件を整えることで大規模な重複サイトの検出漏れを防ぐことができる。

なお、図１２の構成においては、計数手段５とドメイン計数手段５ａを併用したが、計数手段５を用いずにドメイン計数手段５ａのみを用いて重複サイトの検出を簡易的に行うことも可能である。

実施の形態３．
実施の形態１では、各サイトに対して先頭サイト内パスに対応する単一のタグを付与したものであるが、次に各サイトに対して複数のタグを付与する実施の形態を示す。

図１５は、本発明の実施の形態３における重複Ｗｅｂサイト検出装置の構成図である。図１５において、番号が図１と共通するものは同じ動作をする手段である。実施の形態１における図１と比較して、図１５は、タグ付与手段３が複数タグ付与手段３ａに置き換わり、判定手段６の後にマージ手段９が新たに加わった点が異なっている。

図１６は、本発明の実施の形態３における複数タグ付与手段３ａの動作を示すフローチャートである。図１６において、ステップＳ１６０１で、第１のソート手段出力情報３０からＮ行を上限として同一サイト名が続く限り複数行を入力し、その行数をＭとする。次に、ステップＳ１６０２で、入力の各Ｍ行についてコンテンツハッシュ値カラムとサイト内パスとの文字列連結値を求め、それぞれ現在タグ１、２、・・・、Ｍとする。

次いで、ステップＳ１６０３で、同一サイト名に対応する各行を第１のソート手段出力情報３０から入力し、各行について現在タグ１〜Ｍとサイト内パスカラム、コンテンツハッシュ値カラム、サイト名カラムの組み合わせＭ行を出力する。これにより、各サイト毎に複数のサイト内パスに対応するタグが付与される。なお、先頭Ｎ個ではなく、別の基準を用いて複数のサイト内パスを選択してもよい。

最後に、ステップＳ１６０４で、全ての行について処理を行なったか判断し、未処理の行があれば、ステップＳ１６０１に戻って未処理の行に対して一連の処理を行い、未処理の行がない場合は、一連の処理を終了する。

引き続く計数手段５や判定手段６では、タグ毎に実施の形態１で説明した動作と同一の処理を行なうため、判定手段６の出力には、同一サイトが複数回現れる可能性が生じる。そこで、マージ手段９は、同じサイトを含む重複サイトを１つの重複サイトに併合する処理を行い、サイト名が高々１回現れるようにして重複サイトリストを出力する。

実施の形態３によれば、複数タグ付与手段を備えているので、先頭サイト内パスが全ての重複サイトで共通していない場合でも重複サイトを検出することができ、検出漏れを低減することができる。

実施の形態４．
実施の形態１では、Ｗｅｂページコンテンツ７の全てのＷｅｂページを処理対象としたが、次に、コンテンツが重複している可能性の高いＷｅｂページのみを予め選択する手段を設けた実施の形態を示す。

図１７は、本発明の実施の形態４における重複Ｗｅｂサイト検出装置の構成図である。図１７において、番号が図１と共通するものは同じ動作をする手段である。実施の形態１における図１と比較して、図１７は、前処理手段１の前にＷｅｂページ選択手段１ａが加わった点が異なっている。Ｗｅｂページ選択手段１ａは、各Ｗｅｂページについて、サイト内パス名とコンテンツ長の出現頻度を調べ、１回しか現れないものを除去し、複数回現れるもののみを前処理手段１に渡す。

実施の形態４によれば、Ｗｅｂページ選択手段を設けることにより、計算負荷の高いハッシュ処理に先立って非重複コンテンツを除去することができ、処理効率を高めることができる。

なお、図１７では、Ｗｅｂページ選択手段１ａと前処理手段１とを別々の構成として記載したが、前処理手段１にＷｅｂページ選択手段１ａの機能を付加することも可能である。

実施の形態５．
実施の形態１では、サイト内パスを全て考慮に入れたが、判定を誤る可能性の高いサイト内パスを取り除く手段を設けた実施の形態を示す。

図１８は、本発明の実施の形態５における重複Ｗｅｂサイト検出装置の構成図である。図１８において、第１の重複Ｗｅｂサイト検出装置１８１は、以上の実施の形態１〜４のいずれかに相当するが、重複でないと判定したサイトのリストを非重複サイト集合として出力する点が上記の実施の形態１〜４と異なっている。除外パス抽出手段１８２は、非重複サイト集合内でヒットしているサイト内パスの内、出現頻度が所定値よりも高いものを抽出し、除外パスリスト１８３として出力する。

第２の重複Ｗｅｂサイト検出装置１８４は、以上の実施の形態１〜４のいずれかに相当するが、Ｗｅｂページコンテンツ７を再度処理する際に、除外パスリスト１８３に格納されたサイト内パスについては無視する点が上記の実施の形態１〜４と異なっている。

図１８の構成においては、第１の重複Ｗｅｂサイト検出装置１８１と第２の重複Ｗｅｂサイト検出装置１８４とを別々の装置として記載したが、これに限定されない。除外パスリスト１８３の出力を第１の重複Ｗｅｂサイト検出装置１８１にフィードバックすることにより、１台の重複Ｗｅｂサイト検出装置により同等の効果を得ることができる。さらに、除外パスリスト１８３による抽出処理を、出現頻度が所定値よりも高いものがなくなるまで繰り返し処理することも可能である。

実施の形態５によれば、除外パス抽出手段と第２の重複サイト検出手段を設けたので、全く関連性のないサイトであっても共通することのあるパス（例えばＷｅｂサーバソフトウェアのマニュアルページなど）の影響を排除し、誤って重複サイトと判定するのを防ぐことができる。

なお、実施の形態１〜５に示した重複Ｗｅｂサイト検出装置は、次のような応用が可能である。各重複サイト集合について、サイト名の代表を一つ選択し、重複サイト名を代表サイト名に変換するデータベースを備えたシステムに適用できる。

また、代表サイト名に変換するデータベースを参照して、ネットワーク経由で取得したＷｅｂ文書に含まれるリンクのＵＲＬを変換しつつ、Ｗｅｂ文書の取得を繰り返すＷｅｂクローラからなるシステム、およびＷｅｂ文書収集方法に適用できる。

さらに、代表サイト名に変換するデータベースを参照して、ネットワーク経由で取得したＷｅｂ文書に含まれるリンクのＵＲＬを変換しつつ、Ｗｅｂ文書の取得を繰り返すＷｅｂクローラと、取得したＷｅｂ文書から重複サイト検出を行い、代表サイト名に変換するデータベースを更新する手段を有するシステム、およびＷｅｂ文書収集方法にも適用できる。

本発明の実施の形態１における重複Ｗｅｂサイト検出装置の構成図である。本発明の実施の形態１における前処理手段によるＵＲＬ文字列の処理を示す概念図である。本発明の実施の形態１における前処理手段の出力情報を示す図である。本発明の実施の形態１における第１のソート手段の出力情報を示す図である。本発明の実施の形態１におけるタグ付与手段の動作の詳細を示すフローチャートである。本発明の実施の形態１におけるタグ付与手段の出力情報を示す図である。本発明の実施の形態１における第２のソート手段の出力情報を示す図である。本発明の実施の形態１における計数手段の動作の概要を示すフローチャートである。本発明の実施の形態１における計数手段の図８のステップＳ８０２の動作を詳細に示したフローチャートである。本発明の実施の形態１における計数手段の動作の意味を示す概念図である。本発明の実施の形態１における判定手段の動作を示すフローチャートである。本発明の実施の形態２における重複Ｗｅｂサイト検出装置の構成図である。本発明の実施の形態２におけるドメイン計数手段の動作を示すフローチャートである。本発明の実施の形態２における判定手段の動作を示すフローチャートである。本発明の実施の形態３における重複Ｗｅｂサイト検出装置の構成図である。本発明の実施の形態３における複数タグ付与手段の動作を示すフローチャートである。本発明の実施の形態４における重複Ｗｅｂサイト検出装置の構成図である。本発明の実施の形態５における重複Ｗｅｂサイト検出装置の構成図である。

符号の説明

１前処理手段、１ａＷｅｂページ選択手段、２第１のソート手段、３タグ付与手段、３ａ複数タグ付与手段、４第２のソート手段、５計数手段、５ａドメイン計数手段、６、６ａ判定手段、９マージ手段、１０重複サイト集合検出手段、１８１第１の重複Ｗｅｂサイト検出装置、１８２除外パス抽出手段、１８４第２の重複Ｗｅｂサイト検出装置。

Claims

Ｗｅｂページ情報から、それぞれのサイトのＵＲＬに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段と、
生成されたそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出する重複サイト集合検出手段と
を備えたことを特徴とする重複Ｗｅｂサイト検出装置。
請求項１に記載の重複Ｗｅｂサイト検出装置において、
前記重複サイト集合検出手段は、前記サイト情報の中の前記コンテンツハッシュ値または前記サイト名の少なくとも１つが重複するＵＲＬに対して同一のタグを生成し、前記同一のタグに含まれているサイト名を重複サイト候補集合とし、前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて所定値よりも高い一致度を有する重複サイト候補集合を重複サイト集合として検出することを特徴とする重複Ｗｅｂサイト検出装置。
請求項２に記載の重複Ｗｅｂサイト検出装置において、
前記重複サイト集合検出手段は、
前記前処理手段で取り出されたそれぞれの前記サイト情報を前記サイト名および前記サイト内パスの文字列順に並び替える第１のソート手段と、
並び替えられたそれぞれの前記サイト情報に対して、前記サイト内パスと前記コンテンツハッシュ値との組からなるタグを生成するとともに、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられた先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成し、生成したタグをサイト情報に付与するタグ付与手段と、
前記タグが付与されたサイト情報を前記タグの文字列順に並び替えることにより、同一のタグが付されたサイト情報に含まれているサイト名を重複サイト候補集合として抽出する第２のソート手段と
抽出されたそれぞれの前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、それぞれの列毎に、対応するコンテンツハッシュ値の種類および同一種類の出現頻度を計数し、前記種類が１であり前記出現頻度が２以上かつ前記重複サイト候補集合に含まれるサイト名の種類に対する所定の割合以上である列を一致列として計数し、前記種類が２以上である列を不一致列として計数する計数手段と、
前記計数手段で計数された前記一致列および前記不一致列の数に基づいて、前記一致列の数が所定値以上であり前記不一致列の数が所定値未満である場合に前記重複サイト候補集合を重複サイト集合として検出する判定手段と
を備えたことを特徴とする重複Ｗｅｂサイト検出装置。
請求項３に記載の重複Ｗｅｂサイト検出装置において、
前記重複サイト集合検出手段は、
抽出されたそれぞれの前記重複サイト候補集合に含まれるサイト名に対して、それぞれのサイト名の「．」で区切られたドメイン名部分ごとにドメイン出現頻度を計数するドメイン計数手段をさらに備え、
前記判定手段は、前記計数手段で計数された前記一致列および前記不一致列の数を、前記ドメイン計数手段で計数されたドメイン出現頻度に基づいて補正し、補正後の一致列の数が所定値以上であり補正後の不一致列の数が所定値未満である場合に前記重複サイト候補集合に含まれているサイト名を重複サイト集合として検出する
ことを特徴とする重複Ｗｅｂサイト検出装置。
請求項３または４に記載の重複Ｗｅｂサイト検出装置において、
前記タグ付与手段は、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられたサイト情報を複数のグループに分け、各グループの先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成することにより複数のタグを生成し、
前記判定手段で検出された重複サイト集合の中から同一のサイト名が含まれている重複サイト集合同士を１つの重複サイト集合に併合するマージ手段をさらに備えたことを特徴とする重複Ｗｅｂサイト検出装置。
請求項１ないし５のいずれか１項に記載の重複Ｗｅｂサイト検出装置において、
前記前処理手段は、それぞれのサイトのＵＲＬに対応するサイト内パスおよびコンテンツ長の出現頻度を計数し、出現頻度が１回であるＵＲＬを削除した後に、前記サイト情報を生成することを特徴とする重複Ｗｅｂサイト検出装置。
請求項１ないし６のいずれか１項に記載の重複Ｗｅｂサイト検出装置において、
前記重複サイト集合検出手段から、重複サイト集合として検出されなかった集合を非重複サイト集合として抽出し、前記非重複サイト集合内に含まれているサイト内パスの中から所定値以上の出現頻度を有するサイト内パスを除外パスリストとして抽出する除外パス抽出手段をさらに備え、
前記前処理手段は、前記除外パス抽出手段で前記除外パスリストが抽出された場合には、前記除外パスリストを読み込み、前記除外パスリストのサイト内パスを含むＵＲＬを削除した後に前記サイト情報を生成し、
前記重複サイト集合検出手段は、前記除外パスリストのサイト内パスを含むＵＲＬを削除した後に生成された前記サイト情報に基づいて重複サイト集合を検出する
ことを特徴とする重複Ｗｅｂサイト検出装置。
請求項７に記載の重複Ｗｅｂサイト検出装置において、
前記除外パス抽出手段は、所定値以上の出現頻度を有するサイト内パスが抽出されなくなるまで前記除外パスリストを抽出する処理を繰り返し行うことを特徴とする重複Ｗｅｂサイト検出装置。