JP2006215735A - 重複Webサイト検出装置 - Google Patents

重複Webサイト検出装置 Download PDF

Info

Publication number
JP2006215735A
JP2006215735A JP2005026743A JP2005026743A JP2006215735A JP 2006215735 A JP2006215735 A JP 2006215735A JP 2005026743 A JP2005026743 A JP 2005026743A JP 2005026743 A JP2005026743 A JP 2005026743A JP 2006215735 A JP2006215735 A JP 2006215735A
Authority
JP
Japan
Prior art keywords
site
duplicate
path
information
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005026743A
Other languages
English (en)
Other versions
JP4610360B2 (ja
Inventor
Takayuki Tamura
孝之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005026743A priority Critical patent/JP4610360B2/ja
Publication of JP2006215735A publication Critical patent/JP2006215735A/ja
Application granted granted Critical
Publication of JP4610360B2 publication Critical patent/JP4610360B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】多数のサイトに対する重複性判定の精度を高め、Web情報の正確な把握と活用を可能にする重複Webサイト検出装置を提供する。
【解決手段】Webページ情報から、それぞれのサイトのURLに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段1と、生成されたそれぞれのサイト情報に基づいて、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出する重複サイト集合検出手段10とを備える。
【選択図】図1

Description

本発明は、Web情報の収集効率の向上を図るために、重複しているWebサイトを検出する目的で使用される重複Webサイト検出装置に関する。
重複Webサイトとは、URL(Uniform Resource Locator)のサイト名(ホスト名)部分だけが異なり、同一内容からなるWebサイトの集合であり、負荷分散やバックアップを目的とした物理的なコピーによるものから、検索エンジンでのランキングを操作するためにDNS(Domain Name System)へのホスト名の多重登録を行って論理的に多数のサイトに見せかけたものなどが存在している。
重複サイトを検出することで、検索エンジンの結果の重複を減らし、Webクローリングによる情報収集の効率およびプロキシサーバやブラウザにおけるキャッシュヒット率を向上することが期待される。
従来の重複サイト(ミラーサイト)検出装置は、名前が異なる2つのWebサイトについて、
1)当該Webサイトに属するWebページURLの文字列の類似性
2)当該WebサイトのIPアドレスの類似性
3)当該Webサイトに属するWebページからリンクされているURLの共通性
4)当該Webサイトに属するWebページからリンクされているURLのサイト名部分の共通性
のうち、1つ以上の指標を数値的に評価し、類似性や共通性が基準値より高い場合に、内容が互いに等価な重複サイトであると判定していた(例えば、特許文献1および特許文献2参照)。
また、従来の方法では、3つ以上の名前を持つ重複サイトは、Webサイトを2つずつの組に分けて判定を繰り返すことにより処理する。例えば、サイトAとサイトBが重複サイトであり、サイトAとサイトCが重複サイトであるならば、サイトBとサイトCも重複サイトであると判定し、サイトA、B、Cを一つの重複サイト集合として検出していた。
特開2002−73607号公報(第1頁、図1) 米国特許第6、487、555号明細書 B1 Fig.4
しかしながら、従来技術には次のような課題がある。従来の重複Webサイト検出装置は、2つのサイトの組に対する判定結果に推移律を適用して、3つ以上のサイトの場合に一般化しているため、数十から数百といった多数のサイトについて判定を行うと誤りを生じ易いという問題点があった。すなわち、重複サイトは、完全に等価である必要はなく、情報収集中のWebサイトの変化に対応できるように、ある程度の誤差を含むものとしており、推移律は、厳密には成立しない。
多くの重複サイトを検出できるように許容誤差を大きめに与えると、多数のサイトに適用した場合の累積誤差は、さらに大きくなり、重複サイトでないものも重複とみなしてしまうことになる。一方、この問題を避けるために、許容誤差を小さく設定すると、一部が変化した重複サイトを検出できなくなるという問題が起こる。ホスト名の多重登録による大規模な重複サイトが存在する一方で、共通のデザインで多数のユーザに個別のWebスペースを提供するサービス(非重複サイト)も普及しており、多数のサイトに対する判定は、ごく一般的な問題となっている。
本発明は上述のような課題を解決するためになされたもので、多数のサイトに対する重複性判定の精度を高め、Web情報の正確な把握と活用を可能にする重複Webサイト検出装置を提供することを目的とする。
本発明に係る重複Webサイト検出装置は、Webページ情報から、それぞれのサイトのURLに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段と、生成されたそれぞれのサイト情報に基づいて、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出する重複サイト集合検出手段とを備えたものである。
本発明によれば、それぞれのサイトのURLに対して、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出することにより、多数のサイトに対する重複性判定の精度を高め、Web情報の正確な把握と活用を可能にすることができる重複Webサイト検出装置を得ることができる。
以下、本発明の重複Webサイト検出装置の好適な実施の形態につき図面を用いて説明する。本発明の重複Webサイト検出装置は、多数のサイトに対応するそれぞれのコンテンツハッシュ値に基づいて重複サイト集合の検出を一度で行うことにより、多数のサイトに対する重複性判定の精度を高めることが可能となる点を特徴としている。
実施の形態1.
図1は、本発明の実施の形態1における重複Webサイト検出装置の構成図である。図1において、前処理手段1は、入力したWebページコンテンツ7のデータ形式を、後続手段の処理に必要な形式に変換する手段である。第1のソート手段2は、前処理手段1の結果の並べ替えを行う。タグ付与手段3は、第1のソート手段2の結果に基づいて各Webページに対応するデータにタグを付与する。
第2のソート手段4は、タグを付与されたデータのソートを行う。計数手段5は、同一タグのデータに関する集計処理を行う。さらに、判定手段6は、計数手段5の結果に基づいて判定を行い、重複サイト名リスト8を出力する。ここで、第1のソート手段2、タグ付与手段3、第2のソート手段4、計数手段5および判定手段6は、重複サイト集合検出手段10を構成する各手段に相当する。
これらの各手段は、それぞれ独立の演算器と記憶装置を備えたハードウェアで実現することができ、また単一の演算器と記憶装置を備えたコンピュータで逐次に実行することもできる。
次に、これらの各手段の動作について詳細に説明する。まず前処理手段1は、WebページのURL文字列とそのコンテンツを示す文字列の組を受け取り、URL文字列からサイト名とサイト内パスを切り出すとともに、Webページのコンテンツを示す文字列全体にハッシュ関数を適用してハッシュ値に変換し、Webページ毎にサイト名、サイト内パス、コンテンツハッシュ値を出力する。
図2は、本発明の実施の形態1における前処理手段1によるURL文字列の処理を示す概念図である。図2において、URL文字列20の内、サイト名21は、サイトのホスト名を表す部分、サイト内パス22は、「/」で始まる残りの文字列である。
また、ハッシュ値を求めるハッシュ関数は、異なるコンテンツ文字列に対して同一のハッシュ値が対応する確率が低いものが適しており、公知のMD5やSHA−1などを用いることができる。
図3は、本発明の実施の形態1における前処理手段1の出力情報を示す図である。図3において、前処理手段出力情報30は、Webページ毎に1つの行が対応しており、それぞれの行は、サイト名31、サイト内パス32、コンテンツハッシュ値33の3つの列(カラム)のそれぞれの要素からなるサイト情報を構成している。
次に、第1のソート手段2は、前処理手段出力情報30の各行に対して、サイト名、サイト内パスの昇順にソートする。図4は、本発明の実施の形態1における第1のソート手段2の出力情報を示す図である。図4において、第1のソート手段出力情報40は、前処理手段出力情報30と同じ形式をしているが、サイト名41、サイト内パス42の順に各行が配置されている点が異なる。前処理手段出力情報30にサイト名およびサイト内パスがともに同一である行が複数存在する場合は、いずれか1行を残し、他は除去する。
次に、タグ付与手段3は、第1のソート手段出力情報40に基づいて、各Webページに対応するデータにタグを付与する。図5は、本発明の実施の形態1におけるタグ付与手段3の動作の詳細を示すフローチャートである。図5において、始めにステップS501で、現在サイト名および現在タグの値を空文字列に初期化する。次に、ステップS502で、第1のソート手段出力情報40から1行を入力する。次に、ステップS503で、入力した行のサイト名カラムと現在サイト名の値とを比較し、一致する場合は、ステップS506に進む。
一方、これらの値が一致しない場合は、ステップS504に進み、現在タグを入力行のコンテンツハッシュ値カラムとサイト名カラムとを文字列として連結した値に設定する。次いで、ステップS505で、現在サイト名をサイト名カラムの値に設定する。
ステップS506で、現在タグ、サイト内パスカラム、コンテンツハッシュ値カラム、およびサイト名カラムを、入力行にタグ付与した結果として出力する。最後に、ステップS507で、第1のソート手段出力情報40の全ての行を処理したか判定し、処理すべき行が残っていれば、ステップS502に戻り、残りの行に対する一連の処理を行い、残っていなければ一連の処理を終了する。
図6は、本発明の実施の形態1におけるタグ付与手段3の出力情報を示す図であり、タグ付与手段3が図5の一連の処理を実行することにより出力するタグ付与手段出力情報60を示したものである。図6において、タグ付与手段出力情報60は、Webページ毎に1つの行が対応しており、各行は、タグ61、サイト内パス62、コンテンツハッシュ値63、およびサイト名64の4つのカラムからなるサイト情報となっている。
タグ付与手段3の処理の意味は、各サイトについて文字列順で先頭となるサイト内パスとコンテンツハッシュ値の組をタグとして付与することであり、このタグを用いて重複サイト名の候補集合を作ることが可能になる。例えば、図6における5行目と6行目に対応するサイト名64は、ともにxxx.yyy.zzzであるため、それぞれの行のタグ61は、5行目のコンテンツハッシュ値63とサイト内パス62との組として、同一のタグが付与されている。また、図6においては、タグ61の値の一例として、コンテンツハッシュ値63とサイト内パス62とを「−」を挟んで連結した文字列を示している。
次に、第2のソート手段4は、タグ付与手段出力情報60の各行に対して、タグ、サイト内パス、コンテンツハッシュ値の昇順にソートする。図7は、本発明の実施の形態1における第2のソート手段4の出力情報を示す図である。図7において、第2のソート手段出力情報70は、タグ付与手段出力情報60と同じ形式をしており、各行の配置順のみが異なる。
次に、計数手段5は、第2のソート手段出力情報70に基づいて、同一タグのデータに関する集計処理を行う。図8は、本発明の実施の形態1における計数手段5の動作の概要を示すフローチャートである。図8において、始めにステップS801で、第2のソート手段出力情報70から同一タグが続く限り行を入力する。次に、ステップS802において、入力した複数行に対して後述する方法でヒット数、ミス率を計数し、タグおよびサイト名リストとともに出力する。
次いで、ステップS803で、全ての入力を処理したか判断し、未処理の入力があればステップS801に戻り、未処理の入力に対して一連の処理を行い、全て処理済であれば一連の処理を終了する。
図9は、本発明の実施の形態1における計数手段5の図8のステップS802の動作を詳細に示したフローチャートである。図9において、ステップS901で、同一タグに対応するサイト名が何種類存在するかを数える。次いで、ステップS902で、同一タグに対応するサイト内パスが何種類存在するかを数える。さらに、ステップS903で、サイト内パス毎にコンテンツハッシュ値の種類とその出現頻度を数える。
次いで、ステップS904で、サイト内パスの内、2種類以上のコンテンツハッシュ値が対応しているものの割合をミス率として求める。次に、ステップS905で、1種類のコンテンツハッシュ値が対応するサイト内パスについて、コンテンツハッシュ値の出現頻度が2以上かつサイト名種類の一定割合以上となっているものを数え、ヒット数として求める。最後に、ステップS906で、タグ、ヒット数、ミス率、サイト名リストを出力して終了する。
図10は、本発明の実施の形態1における計数手段5の動作の意味を示す概念図である。この図10は、タグが12349876-/であるグループについて、行方向にサイト名101を取り、列方向にサイト内パス102を取り、対応するコンテンツハッシュ値103を並べた行列を示している。
コンテンツハッシュ値がN/Aとなっている部分は、サイト名とサイト内パスに対応するURLが入力のWebページコンテンツ7に存在しなかったことを示している。大規模なWeb情報の収集は、Webページ間のリンクを辿りながら行なうのが一般的であるため、実際に存在するURLであってもアクセスしていないために情報が欠落することは有り得る。
図9に示した動作は、図10に示す行列において、列毎にヒットおよびミスの判定を行なって、それぞれの列の数を数えることと等価である。具体的には、図10の例では、サイト内パス「/」に対しては、全てのコンテンツハッシュ値が等しく、種類=1、出現頻度=3となることから、この列はヒットとなる。
また、サイト内パス「/links.html」に対しては、サイトaaa.bbb.cccおよびzzz.www.aaaに対応するコンテンツハッシュ値が存在しないため種類=1、出現頻度=1となり、種類は1であるが出現頻度が2以上でないため、この列はヒットでもミスでもないと見なされる。さらに、サイト内パス「/news.html」に対しては、コンテンツハッシュ値の種類=2となるため、この列はミスとなる。
このような場合、計数手段5は、タグとして12349876-/、ヒット数として1、ミス率として1/3、サイト名リストとしてaaa.bbb.ccc、xxx.yyy.zzz、zzz.www.aaaの3つをそれぞれ出力することとなる。ここで求めたヒット数は、図10における一致列の数に相当し、ミス率は、図10における不一致列の数に相当する。
次に、判定手段6は、計数手段5によって出力されたタグ、ヒット数、ミス率、サイト名リストの結果に基づいて判定を行い、重複サイト名リスト8を出力する。図11は、本発明の実施の形態1における判定手段6の動作を示すフローチャートである。図11において、ステップS1101で、タグ毎にヒット数、ミス率、サイト名リストを受け取る。
次に、ステップS1102で、ヒット数が一定値以上かつミス率が一定割合未満であれば、当該タグに対応するサイトは、全て重複と判定し、サイト名リストを重複サイト名リスト8に出力する。次いで、ステップS1103で、全てのタグについて判定を行なったか判断し、未処理のタグがあれば、ステップS1101に戻って未処理のタグに対して一連の処理を行い、未処理のタグがない場合は、一連の処理を終了する。
実施の形態1によれば、1つ以上の任意の数のサイトに対して、サイト内パスとコンテンツハッシュ値との比較を行なう計数手段を備えているので、大規模な重複サイトの判定を誤差を累積することなく行なうことができる。特に、判定対象の一定割合以上に共通するサイト内パスのみを一致(ヒット)と見なし、また、多数のサイトの一部でも不一致があればミスと見なすので、サイト数の増加に応じて判定基準も厳しくなり、閾値設定におけるトレードオフの問題を避けることができる。さらに、タグ付与手段を備えているので、タグに基づいて一部のパスの内容が一致する全てのサイトを重複候補として効率的に抽出することができる。
実施の形態2.
実施の形態1では、同一タグ内でのサイト内パスのヒット/ミスの計数に基づいて、重複性を判定するようにしたものであるが、次に、サイト名の類似性を考慮して類似サイト名からなる重複サイト候補集合に対しては不一致の許容度を大きくする実施の形態を示す。
図12は、本発明の実施の形態2における重複Webサイト検出装置の構成図である。図12において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図12は、第2のソート手段出力情報をサイト名に基づいて計数するドメイン計数手段5aが新たに加わり、判定手段6が計数手段5とドメイン計数手段5aの出力情報に基づいて重複サイトの判定を行なう判定手段6aに置き換わった点が異なっている。
図13は、本発明の実施の形態2におけるドメイン計数手段5aの動作を示すフローチャートである。図13において、ステップS1301で、サイト名毎に「.」で区切られた構成要素の数を数え、その最小値を求める。例えば、サイト名がxxx.yyy.zzzの場合の構成要素の数は、3である。
次に、ステップS1302で、サイト名の構成要素(例えば、「xxx」、「yyy」、「zzz」のそれぞれ)毎に出現頻度を求め、入力のサイト数の一定割合以上の出現頻度となるものを数えて頻出ドメインレベルとする。最後に、ステップS1303で、最小ドメインレベル数および頻出ドメインレベル数を出力して終了する。
図14は、本発明の実施の形態2における判定手段6aの動作を示すフローチャートである。図14において、始めにステップS1401で、タグ、サイト名リストとともに、ヒット数、ミス率を計数手段5から受け取り、同じタグに対する最小ドメインレベル数、頻出ドメインレベル数をドメイン計数手段5aから受け取る。
次に、ステップS1402で、頻出ドメインレベル数と最小ドメインレベル数とを比較し、頻出ドメインレベル数が最小ドメインレベル数より大きい場合は、ステップS1404に進む。頻出ドメインレベル数が最小ドメインレベル数以下の場合は、ステップS1403に進み、サイト数の対数に比例する係数をヒット数に乗じ、当該係数の逆数をミス率に乗じる。係数としては、例えば、log(サイト数)×4.5などを用いる。
ステップS1404では、ヒット数が一定値以上かつミス率が一定割合未満の場合に、サイト名リストを重複サイト名リスト8に出力する。次いで、ステップS1405で、全てのタグについて処理を行なったか判断し、未処理のタグがあれば、ステップS1401に戻って未処理のタグに対して一連の処理を行い、未処理のタグがない場合は、一連の処理を終了する。
このようにして、判定手段6aは、計数手段5で計数されたヒット数およびミス率を、ドメイン計数手段5aで計数されたドメイン出現頻度に基づいて補正することにより、サイト名の類似性に関する情報も重複サイト情報の検出に利用できる。
実施の形態2によれば、ドメイン係数手段を備えているので、サイト名の類似性に関する情報も判定に利用することができる。特に、重複サイト候補集合内のサイト名が高い類似性を持つ場合に、サイト内パスの計数結果にバイアスを加え、重複と判定し易い条件を整えることで大規模な重複サイトの検出漏れを防ぐことができる。
なお、図12の構成においては、計数手段5とドメイン計数手段5aを併用したが、計数手段5を用いずにドメイン計数手段5aのみを用いて重複サイトの検出を簡易的に行うことも可能である。
実施の形態3.
実施の形態1では、各サイトに対して先頭サイト内パスに対応する単一のタグを付与したものであるが、次に各サイトに対して複数のタグを付与する実施の形態を示す。
図15は、本発明の実施の形態3における重複Webサイト検出装置の構成図である。図15において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図15は、タグ付与手段3が複数タグ付与手段3aに置き換わり、判定手段6の後にマージ手段9が新たに加わった点が異なっている。
図16は、本発明の実施の形態3における複数タグ付与手段3aの動作を示すフローチャートである。図16において、ステップS1601で、第1のソート手段出力情報30からN行を上限として同一サイト名が続く限り複数行を入力し、その行数をMとする。次に、ステップS1602で、入力の各M行についてコンテンツハッシュ値カラムとサイト内パスとの文字列連結値を求め、それぞれ現在タグ1、2、・・・、Mとする。
次いで、ステップS1603で、同一サイト名に対応する各行を第1のソート手段出力情報30から入力し、各行について現在タグ1〜Mとサイト内パスカラム、コンテンツハッシュ値カラム、サイト名カラムの組み合わせM行を出力する。これにより、各サイト毎に複数のサイト内パスに対応するタグが付与される。なお、先頭N個ではなく、別の基準を用いて複数のサイト内パスを選択してもよい。
最後に、ステップS1604で、全ての行について処理を行なったか判断し、未処理の行があれば、ステップS1601に戻って未処理の行に対して一連の処理を行い、未処理の行がない場合は、一連の処理を終了する。
引き続く計数手段5や判定手段6では、タグ毎に実施の形態1で説明した動作と同一の処理を行なうため、判定手段6の出力には、同一サイトが複数回現れる可能性が生じる。そこで、マージ手段9は、同じサイトを含む重複サイトを1つの重複サイトに併合する処理を行い、サイト名が高々1回現れるようにして重複サイトリストを出力する。
実施の形態3によれば、複数タグ付与手段を備えているので、先頭サイト内パスが全ての重複サイトで共通していない場合でも重複サイトを検出することができ、検出漏れを低減することができる。
実施の形態4.
実施の形態1では、Webページコンテンツ7の全てのWebページを処理対象としたが、次に、コンテンツが重複している可能性の高いWebページのみを予め選択する手段を設けた実施の形態を示す。
図17は、本発明の実施の形態4における重複Webサイト検出装置の構成図である。図17において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図17は、前処理手段1の前にWebページ選択手段1aが加わった点が異なっている。Webページ選択手段1aは、各Webページについて、サイト内パス名とコンテンツ長の出現頻度を調べ、1回しか現れないものを除去し、複数回現れるもののみを前処理手段1に渡す。
実施の形態4によれば、Webページ選択手段を設けることにより、計算負荷の高いハッシュ処理に先立って非重複コンテンツを除去することができ、処理効率を高めることができる。
なお、図17では、Webページ選択手段1aと前処理手段1とを別々の構成として記載したが、前処理手段1にWebページ選択手段1aの機能を付加することも可能である。
実施の形態5.
実施の形態1では、サイト内パスを全て考慮に入れたが、判定を誤る可能性の高いサイト内パスを取り除く手段を設けた実施の形態を示す。
図18は、本発明の実施の形態5における重複Webサイト検出装置の構成図である。図18において、第1の重複Webサイト検出装置181は、以上の実施の形態1〜4のいずれかに相当するが、重複でないと判定したサイトのリストを非重複サイト集合として出力する点が上記の実施の形態1〜4と異なっている。除外パス抽出手段182は、非重複サイト集合内でヒットしているサイト内パスの内、出現頻度が所定値よりも高いものを抽出し、除外パスリスト183として出力する。
第2の重複Webサイト検出装置184は、以上の実施の形態1〜4のいずれかに相当するが、Webページコンテンツ7を再度処理する際に、除外パスリスト183に格納されたサイト内パスについては無視する点が上記の実施の形態1〜4と異なっている。
図18の構成においては、第1の重複Webサイト検出装置181と第2の重複Webサイト検出装置184とを別々の装置として記載したが、これに限定されない。除外パスリスト183の出力を第1の重複Webサイト検出装置181にフィードバックすることにより、1台の重複Webサイト検出装置により同等の効果を得ることができる。さらに、除外パスリスト183による抽出処理を、出現頻度が所定値よりも高いものがなくなるまで繰り返し処理することも可能である。
実施の形態5によれば、除外パス抽出手段と第2の重複サイト検出手段を設けたので、全く関連性のないサイトであっても共通することのあるパス(例えばWebサーバソフトウェアのマニュアルページなど)の影響を排除し、誤って重複サイトと判定するのを防ぐことができる。
なお、実施の形態1〜5に示した重複Webサイト検出装置は、次のような応用が可能である。各重複サイト集合について、サイト名の代表を一つ選択し、重複サイト名を代表サイト名に変換するデータベースを備えたシステムに適用できる。
また、代表サイト名に変換するデータベースを参照して、ネットワーク経由で取得したWeb文書に含まれるリンクのURLを変換しつつ、Web文書の取得を繰り返すWebクローラからなるシステム、およびWeb文書収集方法に適用できる。
さらに、代表サイト名に変換するデータベースを参照して、ネットワーク経由で取得したWeb文書に含まれるリンクのURLを変換しつつ、Web文書の取得を繰り返すWebクローラと、取得したWeb文書から重複サイト検出を行い、代表サイト名に変換するデータベースを更新する手段を有するシステム、およびWeb文書収集方法にも適用できる。
本発明の実施の形態1における重複Webサイト検出装置の構成図である。 本発明の実施の形態1における前処理手段によるURL文字列の処理を示す概念図である。 本発明の実施の形態1における前処理手段の出力情報を示す図である。 本発明の実施の形態1における第1のソート手段の出力情報を示す図である。 本発明の実施の形態1におけるタグ付与手段の動作の詳細を示すフローチャートである。 本発明の実施の形態1におけるタグ付与手段の出力情報を示す図である。 本発明の実施の形態1における第2のソート手段の出力情報を示す図である。 本発明の実施の形態1における計数手段の動作の概要を示すフローチャートである。 本発明の実施の形態1における計数手段の図8のステップS802の動作を詳細に示したフローチャートである。 本発明の実施の形態1における計数手段の動作の意味を示す概念図である。 本発明の実施の形態1における判定手段の動作を示すフローチャートである。 本発明の実施の形態2における重複Webサイト検出装置の構成図である。 本発明の実施の形態2におけるドメイン計数手段の動作を示すフローチャートである。 本発明の実施の形態2における判定手段の動作を示すフローチャートである。 本発明の実施の形態3における重複Webサイト検出装置の構成図である。 本発明の実施の形態3における複数タグ付与手段の動作を示すフローチャートである。 本発明の実施の形態4における重複Webサイト検出装置の構成図である。 本発明の実施の形態5における重複Webサイト検出装置の構成図である。
符号の説明
1 前処理手段、1a Webページ選択手段、2 第1のソート手段、3 タグ付与手段、3a 複数タグ付与手段、4 第2のソート手段、5 計数手段、5a ドメイン計数手段、6、6a 判定手段、9 マージ手段、10 重複サイト集合検出手段、181 第1の重複Webサイト検出装置、182 除外パス抽出手段、184 第2の重複Webサイト検出装置。

Claims (8)

  1. Webページ情報から、それぞれのサイトのURLに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段と、
    生成されたそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出する重複サイト集合検出手段と
    を備えたことを特徴とする重複Webサイト検出装置。
  2. 請求項1に記載の重複Webサイト検出装置において、
    前記重複サイト集合検出手段は、前記サイト情報の中の前記コンテンツハッシュ値または前記サイト名の少なくとも1つが重複するURLに対して同一のタグを生成し、前記同一のタグに含まれているサイト名を重複サイト候補集合とし、前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて所定値よりも高い一致度を有する重複サイト候補集合を重複サイト集合として検出することを特徴とする重複Webサイト検出装置。
  3. 請求項2に記載の重複Webサイト検出装置において、
    前記重複サイト集合検出手段は、
    前記前処理手段で取り出されたそれぞれの前記サイト情報を前記サイト名および前記サイト内パスの文字列順に並び替える第1のソート手段と、
    並び替えられたそれぞれの前記サイト情報に対して、前記サイト内パスと前記コンテンツハッシュ値との組からなるタグを生成するとともに、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられた先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成し、生成したタグをサイト情報に付与するタグ付与手段と、
    前記タグが付与されたサイト情報を前記タグの文字列順に並び替えることにより、同一のタグが付されたサイト情報に含まれているサイト名を重複サイト候補集合として抽出する第2のソート手段と
    抽出されたそれぞれの前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、それぞれの列毎に、対応するコンテンツハッシュ値の種類および同一種類の出現頻度を計数し、前記種類が1であり前記出現頻度が2以上かつ前記重複サイト候補集合に含まれるサイト名の種類に対する所定の割合以上である列を一致列として計数し、前記種類が2以上である列を不一致列として計数する計数手段と、
    前記計数手段で計数された前記一致列および前記不一致列の数に基づいて、前記一致列の数が所定値以上であり前記不一致列の数が所定値未満である場合に前記重複サイト候補集合を重複サイト集合として検出する判定手段と
    を備えたことを特徴とする重複Webサイト検出装置。
  4. 請求項3に記載の重複Webサイト検出装置において、
    前記重複サイト集合検出手段は、
    抽出されたそれぞれの前記重複サイト候補集合に含まれるサイト名に対して、それぞれのサイト名の「.」で区切られたドメイン名部分ごとにドメイン出現頻度を計数するドメイン計数手段をさらに備え、
    前記判定手段は、前記計数手段で計数された前記一致列および前記不一致列の数を、前記ドメイン計数手段で計数されたドメイン出現頻度に基づいて補正し、補正後の一致列の数が所定値以上であり補正後の不一致列の数が所定値未満である場合に前記重複サイト候補集合に含まれているサイト名を重複サイト集合として検出する
    ことを特徴とする重複Webサイト検出装置。
  5. 請求項3または4に記載の重複Webサイト検出装置において、
    前記タグ付与手段は、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられたサイト情報を複数のグループに分け、各グループの先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成することにより複数のタグを生成し、
    前記判定手段で検出された重複サイト集合の中から同一のサイト名が含まれている重複サイト集合同士を1つの重複サイト集合に併合するマージ手段をさらに備えたことを特徴とする重複Webサイト検出装置。
  6. 請求項1ないし5のいずれか1項に記載の重複Webサイト検出装置において、
    前記前処理手段は、それぞれのサイトのURLに対応するサイト内パスおよびコンテンツ長の出現頻度を計数し、出現頻度が1回であるURLを削除した後に、前記サイト情報を生成することを特徴とする重複Webサイト検出装置。
  7. 請求項1ないし6のいずれか1項に記載の重複Webサイト検出装置において、
    前記重複サイト集合検出手段から、重複サイト集合として検出されなかった集合を非重複サイト集合として抽出し、前記非重複サイト集合内に含まれているサイト内パスの中から所定値以上の出現頻度を有するサイト内パスを除外パスリストとして抽出する除外パス抽出手段をさらに備え、
    前記前処理手段は、前記除外パス抽出手段で前記除外パスリストが抽出された場合には、前記除外パスリストを読み込み、前記除外パスリストのサイト内パスを含むURLを削除した後に前記サイト情報を生成し、
    前記重複サイト集合検出手段は、前記除外パスリストのサイト内パスを含むURLを削除した後に生成された前記サイト情報に基づいて重複サイト集合を検出する
    ことを特徴とする重複Webサイト検出装置。
  8. 請求項7に記載の重複Webサイト検出装置において、
    前記除外パス抽出手段は、所定値以上の出現頻度を有するサイト内パスが抽出されなくなるまで前記除外パスリストを抽出する処理を繰り返し行うことを特徴とする重複Webサイト検出装置。
JP2005026743A 2005-02-02 2005-02-02 重複Webサイト検出装置 Active JP4610360B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005026743A JP4610360B2 (ja) 2005-02-02 2005-02-02 重複Webサイト検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005026743A JP4610360B2 (ja) 2005-02-02 2005-02-02 重複Webサイト検出装置

Publications (2)

Publication Number Publication Date
JP2006215735A true JP2006215735A (ja) 2006-08-17
JP4610360B2 JP4610360B2 (ja) 2011-01-12

Family

ID=36978939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005026743A Active JP4610360B2 (ja) 2005-02-02 2005-02-02 重複Webサイト検出装置

Country Status (1)

Country Link
JP (1) JP4610360B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015636A (ja) * 2007-07-05 2009-01-22 Mitsubishi Electric Corp 重複Webサイト動的検出装置
US7827166B2 (en) * 2006-10-13 2010-11-02 Yahoo! Inc. Handling dynamic URLs in crawl for better coverage of unique content
JP2010286973A (ja) * 2009-06-10 2010-12-24 Hitachi Ltd フィルタリング装置
US20120047121A1 (en) * 2010-08-23 2012-02-23 Microsoft Corporation Content signature notification
CN102467572A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 支持重复数据删除程序的数据区块查询方法
US9503373B2 (en) 2014-02-14 2016-11-22 Fujitsu Limited Control method by receiving device, receiving device, and communication system
KR20200114484A (ko) * 2019-03-28 2020-10-07 네이버비즈니스플랫폼 주식회사 취약점 중복판단방법 및 이를 이용하는 진단장치
CN111898013A (zh) * 2020-07-27 2020-11-06 绿盟科技集团股份有限公司 一种网站监测的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264926A (ja) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Www上のミラーサイト群発見装置、ミラーサイト群発見方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264926A (ja) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Www上のミラーサイト群発見装置、ミラーサイト群発見方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827166B2 (en) * 2006-10-13 2010-11-02 Yahoo! Inc. Handling dynamic URLs in crawl for better coverage of unique content
JP2009015636A (ja) * 2007-07-05 2009-01-22 Mitsubishi Electric Corp 重複Webサイト動的検出装置
JP2010286973A (ja) * 2009-06-10 2010-12-24 Hitachi Ltd フィルタリング装置
US20120047121A1 (en) * 2010-08-23 2012-02-23 Microsoft Corporation Content signature notification
US9043306B2 (en) * 2010-08-23 2015-05-26 Microsoft Technology Licensing, Llc Content signature notification
CN102467572A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 支持重复数据删除程序的数据区块查询方法
US9503373B2 (en) 2014-02-14 2016-11-22 Fujitsu Limited Control method by receiving device, receiving device, and communication system
KR20200114484A (ko) * 2019-03-28 2020-10-07 네이버비즈니스플랫폼 주식회사 취약점 중복판단방법 및 이를 이용하는 진단장치
KR102231722B1 (ko) * 2019-03-28 2021-03-25 네이버클라우드 주식회사 취약점 중복판단방법 및 이를 이용하는 진단장치
US11570196B2 (en) 2019-03-28 2023-01-31 Naver Cloud Corporation Method for determining duplication of security vulnerability and analysis apparatus using same
CN111898013A (zh) * 2020-07-27 2020-11-06 绿盟科技集团股份有限公司 一种网站监测的方法及装置
CN111898013B (zh) * 2020-07-27 2024-03-19 绿盟科技集团股份有限公司 一种网站监测的方法及装置

Also Published As

Publication number Publication date
JP4610360B2 (ja) 2011-01-12

Similar Documents

Publication Publication Date Title
JP4610360B2 (ja) 重複Webサイト検出装置
US9558241B2 (en) System and method for performing longest common prefix strings searches
Bar-Yossef et al. Do not crawl in the DUST: Different URLs with similar text
Zafarani et al. Connecting corresponding identities across communities
US7818303B2 (en) Web graph compression through scalable pattern mining
JP4708436B2 (ja) 信頼性のある文書の識別
US5941944A (en) Method for providing a substitute for a requested inaccessible object by identifying substantially similar objects using weights corresponding to object features
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
CN108228710B (zh) 一种针对url的分词方法及装置
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
CN106909609B (zh) 确定相似字符串的方法、文件查重的方法及系统
AU3366799A (en) System and method for searching electronic documents created with optical character recognition
JP4114600B2 (ja) 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム
CN110889023A (zh) 一种elasticsearch的分布式多功能搜索引擎
US7836108B1 (en) Clustering by previous representative
US8661069B1 (en) Predictive-based clustering with representative redirect targets
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
CN103617225A (zh) 一种关联网页搜索方法和系统
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
CN115391568A (zh) 基于知识图谱的实体分类方法、系统、终端及存储介质
CN110147506B (zh) Url的去重方法与装置
US20200380048A1 (en) Architecture and functional model of a generic data excavation engine
WO2020152845A1 (ja) セキュリティ情報分析装置、システム、方法およびプログラム
CN102722527B (zh) 一种支持含有缺失符号的查询请求的全文检索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131022

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S801 Written request for registration of abandonment of right

Free format text: JAPANESE INTERMEDIATE CODE: R311801

ABAN Cancellation due to abandonment
R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350