JP4610360B2 - Duplicate website detection device - Google Patents

Duplicate website detection device Download PDF

Info

Publication number
JP4610360B2
JP4610360B2 JP2005026743A JP2005026743A JP4610360B2 JP 4610360 B2 JP4610360 B2 JP 4610360B2 JP 2005026743 A JP2005026743 A JP 2005026743A JP 2005026743 A JP2005026743 A JP 2005026743A JP 4610360 B2 JP4610360 B2 JP 4610360B2
Authority
JP
Japan
Prior art keywords
site
duplicate
path
columns
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005026743A
Other languages
Japanese (ja)
Other versions
JP2006215735A (en
Inventor
孝之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005026743A priority Critical patent/JP4610360B2/en
Publication of JP2006215735A publication Critical patent/JP2006215735A/en
Application granted granted Critical
Publication of JP4610360B2 publication Critical patent/JP4610360B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、Web情報の収集効率の向上を図るために、重複しているWebサイトを検出する目的で使用される重複Webサイト検出装置に関する。   The present invention relates to a duplicate website detection apparatus used for the purpose of detecting duplicate websites in order to improve the collection efficiency of web information.

重複Webサイトとは、URL(Uniform Resource Locator)のサイト名(ホスト名)部分だけが異なり、同一内容からなるWebサイトの集合であり、負荷分散やバックアップを目的とした物理的なコピーによるものから、検索エンジンでのランキングを操作するためにDNS(Domain Name System)へのホスト名の多重登録を行って論理的に多数のサイトに見せかけたものなどが存在している。   A duplicate Web site is a set of Web sites that differ only in the site name (host name) portion of a URL (Uniform Resource Locator) and have the same contents, and are based on physical copies for the purpose of load distribution and backup. In order to manipulate rankings in search engines, there are those that logically appear to many sites by performing multiple registration of host names to DNS (Domain Name System).

重複サイトを検出することで、検索エンジンの結果の重複を減らし、Webクローリングによる情報収集の効率およびプロキシサーバやブラウザにおけるキャッシュヒット率を向上することが期待される。   By detecting duplicate sites, it is expected to reduce duplication of search engine results, improve the efficiency of information collection by Web crawling, and improve the cache hit rate in proxy servers and browsers.

従来の重複サイト(ミラーサイト)検出装置は、名前が異なる2つのWebサイトについて、
1)当該Webサイトに属するWebページURLの文字列の類似性
2)当該WebサイトのIPアドレスの類似性
3)当該Webサイトに属するWebページからリンクされているURLの共通性
4)当該Webサイトに属するWebページからリンクされているURLのサイト名部分の共通性
のうち、1つ以上の指標を数値的に評価し、類似性や共通性が基準値より高い場合に、内容が互いに等価な重複サイトであると判定していた(例えば、特許文献1および特許文献2参照)。
The conventional duplicate site (mirror site) detection device has two websites with different names.
1) Similarity of character strings of Web page URLs belonging to the Web site 2) Similarity of IP addresses of the Web sites 3) Commonality of URLs linked from Web pages belonging to the Web site 4) The Web site Among the commonality of the site name part of the URL linked from the Web page belonging to, one or more indicators are evaluated numerically, and the contents are equivalent to each other when the similarity or commonality is higher than the reference value It was determined to be an overlapping site (see, for example, Patent Document 1 and Patent Document 2).

また、従来の方法では、3つ以上の名前を持つ重複サイトは、Webサイトを2つずつの組に分けて判定を繰り返すことにより処理する。例えば、サイトAとサイトBが重複サイトであり、サイトAとサイトCが重複サイトであるならば、サイトBとサイトCも重複サイトであると判定し、サイトA、B、Cを一つの重複サイト集合として検出していた。   In the conventional method, duplicate sites having three or more names are processed by dividing the website into two groups and repeating the determination. For example, if site A and site B are duplicate sites, and site A and site C are duplicate sites, it is determined that site B and site C are also duplicate sites, and sites A, B, and C are duplicated one by one. It was detected as a site set.

特開2002−73607号公報(第1頁、図1)JP 2002-73607 A (first page, FIG. 1) 米国特許第6、487、555号明細書 B1 Fig.4US Pat. No. 6,487,555 B1 FIG. 4

しかしながら、従来技術には次のような課題がある。従来の重複Webサイト検出装置は、2つのサイトの組に対する判定結果に推移律を適用して、3つ以上のサイトの場合に一般化しているため、数十から数百といった多数のサイトについて判定を行うと誤りを生じ易いという問題点があった。すなわち、重複サイトは、完全に等価である必要はなく、情報収集中のWebサイトの変化に対応できるように、ある程度の誤差を含むものとしており、推移律は、厳密には成立しない。   However, the prior art has the following problems. The conventional duplicate Web site detection device applies a transition rule to the determination result for a set of two sites and is generalized in the case of three or more sites. Therefore, the determination is made for many sites such as tens to hundreds. However, there is a problem that an error is likely to occur. That is, the duplicate sites do not need to be completely equivalent, and include a certain amount of error so that changes in the Web site during information collection can be accommodated, and the transition rule is not strictly established.

多くの重複サイトを検出できるように許容誤差を大きめに与えると、多数のサイトに適用した場合の累積誤差は、さらに大きくなり、重複サイトでないものも重複とみなしてしまうことになる。一方、この問題を避けるために、許容誤差を小さく設定すると、一部が変化した重複サイトを検出できなくなるという問題が起こる。ホスト名の多重登録による大規模な重複サイトが存在する一方で、共通のデザインで多数のユーザに個別のWebスペースを提供するサービス(非重複サイト)も普及しており、多数のサイトに対する判定は、ごく一般的な問題となっている。   If a large tolerance is provided so that many duplicate sites can be detected, the cumulative error when applied to a large number of sites is further increased, and those that are not duplicate sites are also regarded as duplicates. On the other hand, in order to avoid this problem, if the allowable error is set to be small, there arises a problem that it becomes impossible to detect a duplicate site whose part has changed. While there are large-scale overlapping sites due to multiple registrations of host names, services that provide individual web spaces to a large number of users with a common design (non-overlapping sites) are also widespread. It has become a very common problem.

本発明は上述のような課題を解決するためになされたもので、多数のサイトに対する重複性判定の精度を高め、Web情報の正確な把握と活用を可能にする重複Webサイト検出装置を提供することを目的とする。   The present invention has been made to solve the above-described problems, and provides a duplicate Web site detection apparatus that improves the accuracy of duplication determination for a large number of sites and enables accurate grasp and utilization of Web information. For the purpose.

本発明に係る重複Webサイト検出装置は、Webページ情報から、それぞれのサイトのURLに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段と、生成されたそれぞれのサイト情報に基づいて、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、コンテンツハッシュ値が一致する列の数が第1所定値以上であり、かつコンテンツハッシュ値が一致しない列の数が第2所定値未満である複数行を重複サイト集合として検出する重複サイト集合検出手段とを備えたものである。 The duplicate Web site detection apparatus according to the present invention is generated by preprocessing means for generating site information by extracting content hash values, site names, and intra-site paths corresponding to URLs of respective sites from Web page information. Based on the respective site information, a matrix having a content hash value as an element is constructed using the site name as a row, the intra-site path as a column index, and the number of columns with matching content hash values is equal to or greater than a first predetermined value. And a duplicate site set detection means for detecting a plurality of rows in which the number of columns having no matching content hash value is less than a second predetermined value as a duplicate site set.

本発明によれば、それぞれのサイトのURLに対して、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出することにより、多数のサイトに対する重複性判定の精度を高め、Web情報の正確な把握と活用を可能にすることができる重複Webサイト検出装置を得ることができる。   According to the present invention, for each URL of the site, a matrix having a site name as a row, a site hash as a column index, and a content hash value as an element is constructed, and matches based on the content hash value in the column direction. Duplicate web site detection that can detect multiple rows with a degree higher than a predetermined value as a duplicate site set, thereby improving the accuracy of duplication judgment for a large number of sites and enabling accurate grasp and utilization of web information A device can be obtained.

以下、本発明の重複Webサイト検出装置の好適な実施の形態につき図面を用いて説明する。本発明の重複Webサイト検出装置は、多数のサイトに対応するそれぞれのコンテンツハッシュ値に基づいて重複サイト集合の検出を一度で行うことにより、多数のサイトに対する重複性判定の精度を高めることが可能となる点を特徴としている。   Hereinafter, preferred embodiments of the duplicate Web site detection apparatus of the present invention will be described with reference to the drawings. The duplicate Web site detection apparatus of the present invention can improve the accuracy of duplication determination for a large number of sites by detecting a set of duplicate sites at a time based on the respective content hash values corresponding to a large number of sites. It is characterized by the point.

実施の形態1.
図1は、本発明の実施の形態1における重複Webサイト検出装置の構成図である。図1において、前処理手段1は、入力したWebページコンテンツ7のデータ形式を、後続手段の処理に必要な形式に変換する手段である。第1のソート手段2は、前処理手段1の結果の並べ替えを行う。タグ付与手段3は、第1のソート手段2の結果に基づいて各Webページに対応するデータにタグを付与する。
Embodiment 1 FIG.
FIG. 1 is a configuration diagram of a duplicate Web site detection apparatus according to Embodiment 1 of the present invention. In FIG. 1, preprocessing means 1 is means for converting the data format of the input web page content 7 into a format necessary for processing by subsequent means. The first sorting unit 2 rearranges the results of the preprocessing unit 1. The tag assigning means 3 assigns a tag to data corresponding to each Web page based on the result of the first sorting means 2.

第2のソート手段4は、タグを付与されたデータのソートを行う。計数手段5は、同一タグのデータに関する集計処理を行う。さらに、判定手段6は、計数手段5の結果に基づいて判定を行い、重複サイト名リスト8を出力する。ここで、第1のソート手段2、タグ付与手段3、第2のソート手段4、計数手段5および判定手段6は、重複サイト集合検出手段10を構成する各手段に相当する。   The second sorting means 4 sorts the data to which the tags are attached. The counting means 5 performs a counting process on the data of the same tag. Further, the determination unit 6 performs determination based on the result of the counting unit 5 and outputs the duplicate site name list 8. Here, the first sorting unit 2, the tag assigning unit 3, the second sorting unit 4, the counting unit 5, and the determination unit 6 correspond to each unit constituting the duplicate site set detection unit 10.

これらの各手段は、それぞれ独立の演算器と記憶装置を備えたハードウェアで実現することができ、また単一の演算器と記憶装置を備えたコンピュータで逐次に実行することもできる。   Each of these means can be realized by hardware including an independent arithmetic unit and a storage device, or can be sequentially executed by a computer including a single arithmetic unit and a storage device.

次に、これらの各手段の動作について詳細に説明する。まず前処理手段1は、WebページのURL文字列とそのコンテンツを示す文字列の組を受け取り、URL文字列からサイト名とサイト内パスを切り出すとともに、Webページのコンテンツを示す文字列全体にハッシュ関数を適用してハッシュ値に変換し、Webページ毎にサイト名、サイト内パス、コンテンツハッシュ値を出力する。   Next, the operation of each means will be described in detail. First, the preprocessing unit 1 receives a set of a URL character string of a Web page and a character string indicating its content, extracts a site name and a site path from the URL character string, and hashes the entire character string indicating the Web page content. A function is applied to convert it into a hash value, and a site name, a site path, and a content hash value are output for each Web page.

図2は、本発明の実施の形態1における前処理手段1によるURL文字列の処理を示す概念図である。図2において、URL文字列20の内、サイト名21は、サイトのホスト名を表す部分、サイト内パス22は、「/」で始まる残りの文字列である。   FIG. 2 is a conceptual diagram showing URL character string processing by the preprocessing means 1 in Embodiment 1 of the present invention. In FIG. 2, in the URL character string 20, the site name 21 is a part representing the host name of the site, and the intra-site path 22 is the remaining character string starting with “/”.

また、ハッシュ値を求めるハッシュ関数は、異なるコンテンツ文字列に対して同一のハッシュ値が対応する確率が低いものが適しており、公知のMD5やSHA−1などを用いることができる。   In addition, a hash function for obtaining a hash value is suitable that has a low probability that the same hash value corresponds to different content character strings, and known MD5, SHA-1, or the like can be used.

図3は、本発明の実施の形態1における前処理手段1の出力情報を示す図である。図3において、前処理手段出力情報30は、Webページ毎に1つの行が対応しており、それぞれの行は、サイト名31、サイト内パス32、コンテンツハッシュ値33の3つの列(カラム)のそれぞれの要素からなるサイト情報を構成している。   FIG. 3 is a diagram showing output information of the preprocessing unit 1 according to the first embodiment of the present invention. In FIG. 3, the preprocessing means output information 30 corresponds to one row for each Web page, and each row has three columns (columns) of a site name 31, a site path 32, and a content hash value 33. The site information which consists of each element of is comprised.

次に、第1のソート手段2は、前処理手段出力情報30の各行に対して、サイト名、サイト内パスの昇順にソートする。図4は、本発明の実施の形態1における第1のソート手段2の出力情報を示す図である。図4において、第1のソート手段出力情報40は、前処理手段出力情報30と同じ形式をしているが、サイト名41、サイト内パス42の順に各行が配置されている点が異なる。前処理手段出力情報30にサイト名およびサイト内パスがともに同一である行が複数存在する場合は、いずれか1行を残し、他は除去する。   Next, the first sorting unit 2 sorts each row of the preprocessing unit output information 30 in ascending order of the site name and the intra-site path. FIG. 4 is a diagram showing output information of the first sorting means 2 in Embodiment 1 of the present invention. In FIG. 4, the first sorting means output information 40 has the same format as the preprocessing means output information 30, except that each line is arranged in the order of the site name 41 and the intra-site path 42. If there are multiple lines in the preprocessing means output information 30 that have the same site name and intra-site path, leave one line and remove the others.

次に、タグ付与手段3は、第1のソート手段出力情報40に基づいて、各Webページに対応するデータにタグを付与する。図5は、本発明の実施の形態1におけるタグ付与手段3の動作の詳細を示すフローチャートである。図5において、始めにステップS501で、現在サイト名および現在タグの値を空文字列に初期化する。次に、ステップS502で、第1のソート手段出力情報40から1行を入力する。次に、ステップS503で、入力した行のサイト名カラムと現在サイト名の値とを比較し、一致する場合は、ステップS506に進む。   Next, the tag assigning means 3 assigns a tag to data corresponding to each Web page based on the first sort means output information 40. FIG. 5 is a flowchart showing details of the operation of the tag assigning means 3 in Embodiment 1 of the present invention. In FIG. 5, first, in step S501, the current site name and the current tag value are initialized to an empty character string. Next, one line is input from the first sort means output information 40 in step S502. Next, in step S503, the site name column of the input row is compared with the value of the current site name. If they match, the process proceeds to step S506.

一方、これらの値が一致しない場合は、ステップS504に進み、現在タグを入力行のコンテンツハッシュ値カラムとサイト名カラムとを文字列として連結した値に設定する。次いで、ステップS505で、現在サイト名をサイト名カラムの値に設定する。   On the other hand, if these values do not match, the process proceeds to step S504, where the current tag is set to a value obtained by concatenating the content hash value column and the site name column of the input row as a character string. In step S505, the current site name is set to the value of the site name column.

ステップS506で、現在タグ、サイト内パスカラム、コンテンツハッシュ値カラム、およびサイト名カラムを、入力行にタグ付与した結果として出力する。最後に、ステップS507で、第1のソート手段出力情報40の全ての行を処理したか判定し、処理すべき行が残っていれば、ステップS502に戻り、残りの行に対する一連の処理を行い、残っていなければ一連の処理を終了する。   In step S506, the current tag, intra-site path column, content hash value column, and site name column are output as a result of tagging the input row. Finally, in step S507, it is determined whether all the rows of the first sorting means output information 40 have been processed. If there are any more rows to be processed, the process returns to step S502, and a series of processing is performed on the remaining rows. If not, the series of processing is terminated.

図6は、本発明の実施の形態1におけるタグ付与手段3の出力情報を示す図であり、タグ付与手段3が図5の一連の処理を実行することにより出力するタグ付与手段出力情報60を示したものである。図6において、タグ付与手段出力情報60は、Webページ毎に1つの行が対応しており、各行は、タグ61、サイト内パス62、コンテンツハッシュ値63、およびサイト名64の4つのカラムからなるサイト情報となっている。   FIG. 6 is a diagram showing the output information of the tag assigning means 3 according to the first embodiment of the present invention. The tag assigning means output information 60 output when the tag assigning means 3 executes the series of processes of FIG. It is shown. In FIG. 6, the tag granting unit output information 60 corresponds to one line for each Web page, and each line includes four columns of a tag 61, a site path 62, a content hash value 63, and a site name 64. It has become site information.

タグ付与手段3の処理の意味は、各サイトについて文字列順で先頭となるサイト内パスとコンテンツハッシュ値の組をタグとして付与することであり、このタグを用いて重複サイト名の候補集合を作ることが可能になる。例えば、図6における5行目と6行目に対応するサイト名64は、ともにxxx.yyy.zzzであるため、それぞれの行のタグ61は、5行目のコンテンツハッシュ値63とサイト内パス62との組として、同一のタグが付与されている。また、図6においては、タグ61の値の一例として、コンテンツハッシュ値63とサイト内パス62とを「−」を挟んで連結した文字列を示している。   The meaning of the processing of the tag assigning means 3 is to assign, as a tag, a set of the in-site path and the content hash value that is the head in the character string order for each site. Using this tag, a candidate set of duplicate site names can be obtained. It becomes possible to make. For example, since the site names 64 corresponding to the fifth and sixth lines in FIG. 6 are both xxx.yyy.zzz, the tag 61 of each line has the content hash value 63 and the intra-site path in the fifth line. As a pair with 62, the same tag is given. In FIG. 6, as an example of the value of the tag 61, a character string in which the content hash value 63 and the intra-site path 62 are concatenated with “−” interposed therebetween is shown.

次に、第2のソート手段4は、タグ付与手段出力情報60の各行に対して、タグ、サイト内パス、コンテンツハッシュ値の昇順にソートする。図7は、本発明の実施の形態1における第2のソート手段4の出力情報を示す図である。図7において、第2のソート手段出力情報70は、タグ付与手段出力情報60と同じ形式をしており、各行の配置順のみが異なる。   Next, the second sorting unit 4 sorts each row of the tag providing unit output information 60 in ascending order of the tag, the site path, and the content hash value. FIG. 7 is a diagram showing output information of the second sorting means 4 in the first embodiment of the present invention. In FIG. 7, the second sort means output information 70 has the same format as the tag assignment means output information 60, and only the arrangement order of each row is different.

次に、計数手段5は、第2のソート手段出力情報70に基づいて、同一タグのデータに関する集計処理を行う。図8は、本発明の実施の形態1における計数手段5の動作の概要を示すフローチャートである。図8において、始めにステップS801で、第2のソート手段出力情報70から同一タグが続く限り行を入力する。次に、ステップS802において、入力した複数行に対して後述する方法でヒット数、ミス率を計数し、タグおよびサイト名リストとともに出力する。   Next, the counting unit 5 performs a counting process on the data of the same tag based on the second sort unit output information 70. FIG. 8 is a flowchart showing an outline of the operation of the counting means 5 in the first embodiment of the present invention. In FIG. 8, first, in step S801, as long as the same tag continues from the second sort means output information 70, rows are input. Next, in step S802, the number of hits and the miss rate are counted for a plurality of input lines by a method described later, and output together with the tag and site name list.

次いで、ステップS803で、全ての入力を処理したか判断し、未処理の入力があればステップS801に戻り、未処理の入力に対して一連の処理を行い、全て処理済であれば一連の処理を終了する。   Next, in step S803, it is determined whether all inputs have been processed. If there are unprocessed inputs, the process returns to step S801, and a series of processes are performed on the unprocessed inputs. Exit.

図9は、本発明の実施の形態1における計数手段5の図8のステップS802の動作を詳細に示したフローチャートである。図9において、ステップS901で、同一タグに対応するサイト名が何種類存在するかを数える。次いで、ステップS902で、同一タグに対応するサイト内パスが何種類存在するかを数える。さらに、ステップS903で、サイト内パス毎にコンテンツハッシュ値の種類とその出現頻度を数える。   FIG. 9 is a flowchart showing in detail the operation of step S802 in FIG. 8 of the counting means 5 according to the first embodiment of the present invention. In FIG. 9, in step S901, the number of types of site names corresponding to the same tag is counted. In step S902, the number of intra-site paths corresponding to the same tag is counted. In step S903, the type of content hash value and its appearance frequency are counted for each intra-site path.

次いで、ステップS904で、サイト内パスの内、2種類以上のコンテンツハッシュ値が対応しているものの割合をミス率として求める。次に、ステップS905で、1種類のコンテンツハッシュ値が対応するサイト内パスについて、コンテンツハッシュ値の出現頻度が2以上かつサイト名種類の一定割合以上となっているものを数え、ヒット数として求める。最後に、ステップS906で、タグ、ヒット数、ミス率、サイト名リストを出力して終了する。   Next, in step S904, the ratio of those corresponding to two or more types of content hash values in the intra-site path is obtained as a miss rate. Next, in step S905, for the intra-site path to which one type of content hash value corresponds, the number of occurrences of the content hash value that is 2 or more and the site name type is a certain ratio or more is counted and obtained as the number of hits. . Finally, in step S906, the tag, hit count, miss rate, and site name list are output and the process ends.

図10は、本発明の実施の形態1における計数手段5の動作の意味を示す概念図である。この図10は、タグが12349876-/であるグループについて、行方向にサイト名101を取り、列方向にサイト内パス102を取り、対応するコンテンツハッシュ値103を並べた行列を示している。   FIG. 10 is a conceptual diagram showing the meaning of the operation of the counting means 5 in Embodiment 1 of the present invention. FIG. 10 shows a matrix in which the site name 101 is taken in the row direction, the intra-site path 102 is taken in the column direction, and the corresponding content hash values 103 are arranged for the group whose tag is 12349876- /.

コンテンツハッシュ値がN/Aとなっている部分は、サイト名とサイト内パスに対応するURLが入力のWebページコンテンツ7に存在しなかったことを示している。大規模なWeb情報の収集は、Webページ間のリンクを辿りながら行なうのが一般的であるため、実際に存在するURLであってもアクセスしていないために情報が欠落することは有り得る。   The portion where the content hash value is N / A indicates that the URL corresponding to the site name and the site path does not exist in the input Web page content 7. Large-scale collection of Web information is generally performed while following links between Web pages. Therefore, even URLs that actually exist may not be accessed and information may be lost.

図9に示した動作は、図10に示す行列において、列毎にヒットおよびミスの判定を行なって、それぞれの列の数を数えることと等価である。具体的には、図10の例では、サイト内パス「/」に対しては、全てのコンテンツハッシュ値が等しく、種類=1、出現頻度=3となることから、この列はヒットとなる。   The operation shown in FIG. 9 is equivalent to performing hit / miss determination for each column in the matrix shown in FIG. 10 and counting the number of each column. Specifically, in the example of FIG. 10, since all the content hash values are equal for the intra-site path “/” and the type = 1 and the appearance frequency = 3, this column is a hit.

また、サイト内パス「/links.html」に対しては、サイトaaa.bbb.cccおよびzzz.www.aaaに対応するコンテンツハッシュ値が存在しないため種類=1、出現頻度=1となり、種類は1であるが出現頻度が2以上でないため、この列はヒットでもミスでもないと見なされる。さらに、サイト内パス「/news.html」に対しては、コンテンツハッシュ値の種類=2となるため、この列はミスとなる。   For the intra-site path “/links.html”, there is no content hash value corresponding to the sites aaa.bbb.ccc and zzz.www.aaa, so type = 1, appearance frequency = 1, and type is Since it is 1 but the frequency of occurrence is not 2 or greater, this column is considered neither a hit nor a miss. Furthermore, for the in-site path “/news.html”, the type of content hash value = 2, so this column is missed.

このような場合、計数手段5は、タグとして12349876-/、ヒット数として1、ミス率として1/3、サイト名リストとしてaaa.bbb.ccc、xxx.yyy.zzz、zzz.www.aaaの3つをそれぞれ出力することとなる。ここで求めたヒット数は、図10における一致列の数に相当し、ミス率は、図10における不一致列の数に相当する。   In such a case, the counting means 5 uses 12349876- / as the tag, 1 as the number of hits, 1/3 as the miss rate, aaa.bbb.ccc, xxx.yyy.zzz, zzz.www.aaa as the site name list. Each of the three will be output. The number of hits obtained here corresponds to the number of matched columns in FIG. 10, and the miss rate corresponds to the number of mismatched columns in FIG.

次に、判定手段6は、計数手段5によって出力されたタグ、ヒット数、ミス率、サイト名リストの結果に基づいて判定を行い、重複サイト名リスト8を出力する。図11は、本発明の実施の形態1における判定手段6の動作を示すフローチャートである。図11において、ステップS1101で、タグ毎にヒット数、ミス率、サイト名リストを受け取る。   Next, the determination means 6 makes a determination based on the tag, hit count, miss rate, and site name list results output by the counting means 5 and outputs the duplicate site name list 8. FIG. 11 is a flowchart showing the operation of the determination unit 6 according to Embodiment 1 of the present invention. In FIG. 11, in step S1101, the number of hits, the miss rate, and the site name list are received for each tag.

次に、ステップS1102で、ヒット数が一定値以上かつミス率が一定割合未満であれば、当該タグに対応するサイトは、全て重複と判定し、サイト名リストを重複サイト名リスト8に出力する。次いで、ステップS1103で、全てのタグについて判定を行なったか判断し、未処理のタグがあれば、ステップS1101に戻って未処理のタグに対して一連の処理を行い、未処理のタグがない場合は、一連の処理を終了する。   Next, in step S1102, if the number of hits is equal to or greater than a certain value and the miss rate is less than a certain ratio, it is determined that all the sites corresponding to the tag are duplicates, and the site name list is output to the duplicate site name list 8. . Next, in step S1103, it is determined whether all tags have been determined. If there is an unprocessed tag, the process returns to step S1101 to perform a series of processing on the unprocessed tag, and there is no unprocessed tag. Ends a series of processing.

実施の形態1によれば、1つ以上の任意の数のサイトに対して、サイト内パスとコンテンツハッシュ値との比較を行なう計数手段を備えているので、大規模な重複サイトの判定を誤差を累積することなく行なうことができる。特に、判定対象の一定割合以上に共通するサイト内パスのみを一致(ヒット)と見なし、また、多数のサイトの一部でも不一致があればミスと見なすので、サイト数の増加に応じて判定基準も厳しくなり、閾値設定におけるトレードオフの問題を避けることができる。さらに、タグ付与手段を備えているので、タグに基づいて一部のパスの内容が一致する全てのサイトを重複候補として効率的に抽出することができる。   According to the first embodiment, since the counting means for comparing the intra-site path and the content hash value is provided for one or more arbitrary numbers of sites, it is possible to make an error in determining a large-scale duplicate site. Can be performed without accumulating. In particular, only intra-site paths that are common to a certain percentage or more of the judgment targets are regarded as matches (hits), and even if some of the sites do not match, they are regarded as mistakes. And the trade-off problem in threshold setting can be avoided. Furthermore, since the tag providing means is provided, all the sites whose contents of some paths match based on the tag can be efficiently extracted as duplication candidates.

実施の形態2.
実施の形態1では、同一タグ内でのサイト内パスのヒット/ミスの計数に基づいて、重複性を判定するようにしたものであるが、次に、サイト名の類似性を考慮して類似サイト名からなる重複サイト候補集合に対しては不一致の許容度を大きくする実施の形態を示す。
Embodiment 2. FIG.
In the first embodiment, the redundancy is determined based on the hit / miss count of the intra-site path within the same tag. Next, the similarity is considered in consideration of the similarity of the site names. An embodiment will be described in which the tolerance of mismatch is increased for a duplicate site candidate set made up of site names.

図12は、本発明の実施の形態2における重複Webサイト検出装置の構成図である。図12において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図12は、第2のソート手段出力情報をサイト名に基づいて計数するドメイン計数手段5aが新たに加わり、判定手段6が計数手段5とドメイン計数手段5aの出力情報に基づいて重複サイトの判定を行なう判定手段6aに置き換わった点が異なっている。   FIG. 12 is a configuration diagram of the duplicate Web site detection apparatus according to the second embodiment of the present invention. In FIG. 12, the same reference numerals as those in FIG. 1 are means for performing the same operation. Compared with FIG. 1 in the first embodiment, FIG. 12 shows the addition of the domain counting means 5a for counting the second sort means output information based on the site name. The difference lies in that it is replaced with determination means 6a for determining duplicate sites based on the output information of means 5a.

図13は、本発明の実施の形態2におけるドメイン計数手段5aの動作を示すフローチャートである。図13において、ステップS1301で、サイト名毎に「.」で区切られた構成要素の数を数え、その最小値を求める。例えば、サイト名がxxx.yyy.zzzの場合の構成要素の数は、3である。   FIG. 13 is a flowchart showing the operation of the domain counting means 5a in the second embodiment of the present invention. In FIG. 13, in step S1301, the number of components separated by “.” Is counted for each site name, and the minimum value is obtained. For example, when the site name is xxx.yyy.zzz, the number of components is three.

次に、ステップS1302で、サイト名の構成要素(例えば、「xxx」、「yyy」、「zzz」のそれぞれ)毎に出現頻度を求め、入力のサイト数の一定割合以上の出現頻度となるものを数えて頻出ドメインレベルとする。最後に、ステップS1303で、最小ドメインレベル数および頻出ドメインレベル数を出力して終了する。   Next, in step S1302, the appearance frequency is obtained for each component of the site name (for example, “xxx”, “yyy”, and “zzz”), and the appearance frequency is equal to or higher than a certain ratio of the number of input sites. To the frequent domain level. Finally, in step S1303, the minimum number of domain levels and the number of frequent domain levels are output and the process ends.

図14は、本発明の実施の形態2における判定手段6aの動作を示すフローチャートである。図14において、始めにステップS1401で、タグ、サイト名リストとともに、ヒット数、ミス率を計数手段5から受け取り、同じタグに対する最小ドメインレベル数、頻出ドメインレベル数をドメイン計数手段5aから受け取る。   FIG. 14 is a flowchart showing the operation of the determination means 6a in Embodiment 2 of the present invention. In FIG. 14, first, in step S1401, the number of hits and the miss rate are received from the counting means 5 together with the tag and site name list, and the minimum number of domain levels and the number of frequent domain levels for the same tag are received from the domain counting means 5a.

次に、ステップS1402で、頻出ドメインレベル数と最小ドメインレベル数とを比較し、頻出ドメインレベル数が最小ドメインレベル数より小さい場合は、ステップS1404に進む。頻出ドメインレベル数が最小ドメインレベル数以上の場合は、ステップS1403に進み、サイト数の対数に比例する係数をヒット数に乗じ、当該係数の逆数をミス率に乗じる。係数としては、例えば、log(サイト数)×4.5などを用いる。

In step S1402, the frequent domain level number is compared with the minimum domain level number. If the frequent domain level number is smaller than the minimum domain level number, the process proceeds to step S1404. If the frequent domain level number is greater than or equal to the minimum domain level number, the process proceeds to step S1403, where the hit number is multiplied by a coefficient proportional to the logarithm of the number of sites, and the miss rate is multiplied by the reciprocal of the coefficient. For example, log (number of sites) × 4.5 is used as the coefficient.

ステップS1404では、ヒット数が一定値以上かつミス率が一定割合未満の場合に、サイト名リストを重複サイト名リスト8に出力する。次いで、ステップS1405で、全てのタグについて処理を行なったか判断し、未処理のタグがあれば、ステップS1401に戻って未処理のタグに対して一連の処理を行い、未処理のタグがない場合は、一連の処理を終了する。   In step S1404, the site name list is output to the duplicate site name list 8 when the number of hits is equal to or greater than a certain value and the miss rate is less than a certain rate. Next, in step S1405, it is determined whether all tags have been processed. If there is an unprocessed tag, the process returns to step S1401 to perform a series of processes on the unprocessed tag, and there is no unprocessed tag. Ends a series of processing.

このようにして、判定手段6aは、計数手段5で計数されたヒット数およびミス率を、ドメイン計数手段5aで計数されたドメイン出現頻度に基づいて補正することにより、サイト名の類似性に関する情報も重複サイト情報の検出に利用できる。   In this way, the determination unit 6a corrects the hit count and the miss rate counted by the counting unit 5 based on the domain appearance frequency counted by the domain counting unit 5a, thereby obtaining information on the similarity of the site names. Can also be used to detect duplicate site information.

実施の形態2によれば、ドメイン係数手段を備えているので、サイト名の類似性に関する情報も判定に利用することができる。特に、重複サイト候補集合内のサイト名が高い類似性を持つ場合に、サイト内パスの計数結果にバイアスを加え、重複と判定し易い条件を整えることで大規模な重複サイトの検出漏れを防ぐことができる。   According to the second embodiment, since the domain coefficient means is provided, information on the similarity of site names can also be used for the determination. In particular, when the site names in the duplicate site candidate set have high similarity, a bias is added to the count results of the intra-site paths, and conditions that make it easy to determine duplicates are prepared to prevent detection of large-scale duplicate sites. be able to.

なお、図12の構成においては、計数手段5とドメイン計数手段5aを併用したが、計数手段5を用いずにドメイン計数手段5aのみを用いて重複サイトの検出を簡易的に行うことも可能である。   In the configuration of FIG. 12, the counting means 5 and the domain counting means 5a are used in combination, but it is also possible to easily detect duplicate sites using only the domain counting means 5a without using the counting means 5. is there.

実施の形態3.
実施の形態1では、各サイトに対して先頭サイト内パスに対応する単一のタグを付与したものであるが、次に各サイトに対して複数のタグを付与する実施の形態を示す。
Embodiment 3 FIG.
In Embodiment 1, a single tag corresponding to the first site path is assigned to each site. Next, an embodiment in which a plurality of tags is assigned to each site will be described.

図15は、本発明の実施の形態3における重複Webサイト検出装置の構成図である。図15において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図15は、タグ付与手段3が複数タグ付与手段3aに置き換わり、判定手段6の後にマージ手段9が新たに加わった点が異なっている。   FIG. 15 is a configuration diagram of the duplicate Web site detection apparatus according to the third embodiment of the present invention. In FIG. 15, the same numbers as those in FIG. 1 are means for performing the same operation. Compared to FIG. 1 in the first embodiment, FIG. 15 is different from FIG. 15 in that the tag assigning means 3 is replaced with a plurality of tag assigning means 3a and a merging means 9 is newly added after the determining means 6.

図16は、本発明の実施の形態3における複数タグ付与手段3aの動作を示すフローチャートである。図16において、ステップS1601で、第1のソート手段出力情報30からN行を上限として同一サイト名が続く限り複数行を入力し、その行数をMとする。次に、ステップS1602で、入力の各M行についてコンテンツハッシュ値カラムとサイト内パスとの文字列連結値を求め、それぞれ現在タグ1、2、・・・、Mとする。   FIG. 16 is a flowchart showing the operation of the multiple tag assigning means 3a in Embodiment 3 of the present invention. In FIG. 16, in step S1601, a plurality of lines are input from the first sorting means output information 30 as long as the same site name continues up to N lines, and the number of lines is M. Next, in step S1602, a character string concatenation value between the content hash value column and the site path is obtained for each input M row, and the current tags 1, 2,...

次いで、ステップS1603で、同一サイト名に対応する各行を第1のソート手段出力情報30から入力し、各行について現在タグ1〜Mとサイト内パスカラム、コンテンツハッシュ値カラム、サイト名カラムの組み合わせM行を出力する。これにより、各サイト毎に複数のサイト内パスに対応するタグが付与される。なお、先頭N個ではなく、別の基準を用いて複数のサイト内パスを選択してもよい。   Next, in step S1603, each row corresponding to the same site name is input from the first sort means output information 30, and for each row, a combination M rows of the current tags 1 to M, the intra-site path column, the content hash value column, and the site name column. Is output. Thereby, tags corresponding to a plurality of intra-site paths are assigned to each site. Note that a plurality of intra-site paths may be selected using another criterion instead of the top N.

最後に、ステップS1604で、全ての行について処理を行なったか判断し、未処理の行があれば、ステップS1601に戻って未処理の行に対して一連の処理を行い、未処理の行がない場合は、一連の処理を終了する。   Finally, in step S1604, it is determined whether all rows have been processed. If there are unprocessed rows, the process returns to step S1601 to perform a series of processing on the unprocessed rows, and there is no unprocessed row. In the case, the series of processing ends.

引き続く計数手段5や判定手段6では、タグ毎に実施の形態1で説明した動作と同一の処理を行なうため、判定手段6の出力には、同一サイトが複数回現れる可能性が生じる。そこで、マージ手段9は、同じサイトを含む重複サイトを1つの重複サイトに併合する処理を行い、サイト名が高々1回現れるようにして重複サイトリストを出力する。   The subsequent counting unit 5 and determination unit 6 perform the same processing as the operation described in the first embodiment for each tag, so that the same site may appear multiple times in the output of the determination unit 6. Therefore, the merging means 9 performs a process of merging duplicate sites including the same site into one duplicate site, and outputs a duplicate site list so that the site name appears at most once.

実施の形態3によれば、複数タグ付与手段を備えているので、先頭サイト内パスが全ての重複サイトで共通していない場合でも重複サイトを検出することができ、検出漏れを低減することができる。   According to the third embodiment, since a plurality of tag addition means are provided, it is possible to detect a duplicate site even when the path within the first site is not common to all duplicate sites, and to reduce detection omissions. it can.

実施の形態4.
実施の形態1では、Webページコンテンツ7の全てのWebページを処理対象としたが、次に、コンテンツが重複している可能性の高いWebページのみを予め選択する手段を設けた実施の形態を示す。
Embodiment 4 FIG.
In the first embodiment, all Web pages of the Web page content 7 are targeted for processing. Next, an embodiment in which means for selecting only Web pages that are highly likely to have duplicate contents is provided. Show.

図17は、本発明の実施の形態4における重複Webサイト検出装置の構成図である。図17において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図17は、前処理手段1の前にWebページ選択手段1aが加わった点が異なっている。Webページ選択手段1aは、各Webページについて、サイト内パス名とコンテンツ長の出現頻度を調べ、1回しか現れないものを除去し、複数回現れるもののみを前処理手段1に渡す。   FIG. 17 is a configuration diagram of the duplicate Web site detection apparatus according to the fourth embodiment of the present invention. In FIG. 17, the same reference numerals as those in FIG. 1 are means for performing the same operation. Compared with FIG. 1 in the first embodiment, FIG. 17 is different in that a web page selection unit 1 a is added before the preprocessing unit 1. The Web page selection unit 1a checks the appearance frequency of the in-site path name and the content length for each Web page, removes those that appear only once, and passes only those that appear multiple times to the preprocessing unit 1.

実施の形態4によれば、Webページ選択手段を設けることにより、計算負荷の高いハッシュ処理に先立って非重複コンテンツを除去することができ、処理効率を高めることができる。   According to the fourth embodiment, by providing the Web page selection unit, it is possible to remove non-overlapping content prior to hash processing with a high calculation load, and it is possible to improve processing efficiency.

なお、図17では、Webページ選択手段1aと前処理手段1とを別々の構成として記載したが、前処理手段1にWebページ選択手段1aの機能を付加することも可能である。   In FIG. 17, the Web page selection unit 1 a and the preprocessing unit 1 are described as separate configurations. However, the function of the Web page selection unit 1 a can be added to the preprocessing unit 1.

実施の形態5.
実施の形態1では、サイト内パスを全て考慮に入れたが、判定を誤る可能性の高いサイト内パスを取り除く手段を設けた実施の形態を示す。
Embodiment 5 FIG.
In the first embodiment, all the intra-site paths are taken into consideration, but an embodiment is provided in which means for removing intra-site paths that are likely to be erroneously determined is provided.

図18は、本発明の実施の形態5における重複Webサイト検出装置の構成図である。図18において、第1の重複Webサイト検出装置181は、以上の実施の形態1〜4のいずれかに相当するが、重複でないと判定したサイトのリストを非重複サイト集合として出力する点が上記の実施の形態1〜4と異なっている。除外パス抽出手段182は、非重複サイト集合内でヒットしているサイト内パスの内、出現頻度が所定値よりも高いものを抽出し、除外パスリスト183として出力する。   FIG. 18 is a configuration diagram of the duplicate Web site detection apparatus according to the fifth embodiment of the present invention. In FIG. 18, the first duplicate Web site detection apparatus 181 corresponds to any one of the first to fourth embodiments described above, but the point that the list of sites determined not to be duplicated is output as a non-duplicate site set is described above. This is different from the first to fourth embodiments. The excluded path extracting unit 182 extracts a path having an appearance frequency higher than a predetermined value from the intra-site paths hit in the non-overlapping site set, and outputs the extracted path as an excluded path list 183.

第2の重複Webサイト検出装置184は、以上の実施の形態1〜4のいずれかに相当するが、Webページコンテンツ7を再度処理する際に、除外パスリスト183に格納されたサイト内パスについては無視する点が上記の実施の形態1〜4と異なっている。   The second duplicate Web site detection apparatus 184 corresponds to any one of the above-described first to fourth embodiments, but the intra-site path stored in the excluded path list 183 when the Web page content 7 is processed again. Is different from the first to fourth embodiments described above.

図18の構成においては、第1の重複Webサイト検出装置181と第2の重複Webサイト検出装置184とを別々の装置として記載したが、これに限定されない。除外パスリスト183の出力を第1の重複Webサイト検出装置181にフィードバックすることにより、1台の重複Webサイト検出装置により同等の効果を得ることができる。さらに、除外パスリスト183による抽出処理を、出現頻度が所定値よりも高いものがなくなるまで繰り返し処理することも可能である。   In the configuration of FIG. 18, the first duplicate website detection device 181 and the second duplicate website detection device 184 are described as separate devices, but the present invention is not limited to this. By feeding back the output of the excluded path list 183 to the first duplicate website detection device 181, the same effect can be obtained by one duplicate website detection device. Furthermore, the extraction process using the exclusion path list 183 can be repeatedly performed until there is no longer an appearance frequency higher than a predetermined value.

実施の形態5によれば、除外パス抽出手段と第2の重複サイト検出手段を設けたので、全く関連性のないサイトであっても共通することのあるパス(例えばWebサーバソフトウェアのマニュアルページなど)の影響を排除し、誤って重複サイトと判定するのを防ぐことができる。   According to the fifth embodiment, since the excluded path extracting unit and the second duplicate site detecting unit are provided, a path that may be common even if the site is completely unrelated (for example, a manual page of Web server software) ) Can be eliminated, and it can be prevented that a duplicate site is erroneously determined.

なお、実施の形態1〜5に示した重複Webサイト検出装置は、次のような応用が可能である。各重複サイト集合について、サイト名の代表を一つ選択し、重複サイト名を代表サイト名に変換するデータベースを備えたシステムに適用できる。   The duplicate Web site detection apparatus shown in the first to fifth embodiments can be applied as follows. For each duplicate site set, one representative site name can be selected and applied to a system having a database that converts the duplicate site name into the representative site name.

また、代表サイト名に変換するデータベースを参照して、ネットワーク経由で取得したWeb文書に含まれるリンクのURLを変換しつつ、Web文書の取得を繰り返すWebクローラからなるシステム、およびWeb文書収集方法に適用できる。   In addition, a system including a Web crawler that repeatedly acquires a Web document while converting a URL of a link included in the Web document acquired via the network with reference to a database to be converted into a representative site name, and a Web document collection method Applicable.

さらに、代表サイト名に変換するデータベースを参照して、ネットワーク経由で取得したWeb文書に含まれるリンクのURLを変換しつつ、Web文書の取得を繰り返すWebクローラと、取得したWeb文書から重複サイト検出を行い、代表サイト名に変換するデータベースを更新する手段を有するシステム、およびWeb文書収集方法にも適用できる。   Furthermore, referring to a database to be converted into a representative site name, a Web crawler that repeatedly acquires a Web document while converting a URL of a link included in the Web document acquired via the network, and a duplicate site detection from the acquired Web document And a system having means for updating a database to be converted into a representative site name, and a Web document collection method.

本発明の実施の形態1における重複Webサイト検出装置の構成図である。It is a block diagram of the duplication Web site detection apparatus in Embodiment 1 of this invention. 本発明の実施の形態1における前処理手段によるURL文字列の処理を示す概念図である。It is a conceptual diagram which shows the process of the URL character string by the pre-processing means in Embodiment 1 of this invention. 本発明の実施の形態1における前処理手段の出力情報を示す図である。It is a figure which shows the output information of the pre-processing means in Embodiment 1 of this invention. 本発明の実施の形態1における第1のソート手段の出力情報を示す図である。It is a figure which shows the output information of the 1st sort means in Embodiment 1 of this invention. 本発明の実施の形態1におけるタグ付与手段の動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of operation | movement of the tag provision means in Embodiment 1 of this invention. 本発明の実施の形態1におけるタグ付与手段の出力情報を示す図である。It is a figure which shows the output information of the tag provision means in Embodiment 1 of this invention. 本発明の実施の形態1における第2のソート手段の出力情報を示す図である。It is a figure which shows the output information of the 2nd sort means in Embodiment 1 of this invention. 本発明の実施の形態1における計数手段の動作の概要を示すフローチャートである。It is a flowchart which shows the outline | summary of operation | movement of the counting means in Embodiment 1 of this invention. 本発明の実施の形態1における計数手段の図8のステップS802の動作を詳細に示したフローチャートである。It is the flowchart which showed in detail the operation | movement of FIG.8 step S802 of the counting means in Embodiment 1 of this invention. 本発明の実施の形態1における計数手段の動作の意味を示す概念図である。It is a conceptual diagram which shows the meaning of operation | movement of the counting means in Embodiment 1 of this invention. 本発明の実施の形態1における判定手段の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the determination means in Embodiment 1 of this invention. 本発明の実施の形態2における重複Webサイト検出装置の構成図である。It is a block diagram of the duplication Web site detection apparatus in Embodiment 2 of this invention. 本発明の実施の形態2におけるドメイン計数手段の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the domain counting means in Embodiment 2 of this invention. 本発明の実施の形態2における判定手段の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the determination means in Embodiment 2 of this invention. 本発明の実施の形態3における重複Webサイト検出装置の構成図である。It is a block diagram of the duplication Web site detection apparatus in Embodiment 3 of this invention. 本発明の実施の形態3における複数タグ付与手段の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the several tag provision part in Embodiment 3 of this invention. 本発明の実施の形態4における重複Webサイト検出装置の構成図である。It is a block diagram of the duplication Web site detection apparatus in Embodiment 4 of this invention. 本発明の実施の形態5における重複Webサイト検出装置の構成図である。It is a block diagram of the duplication Web site detection apparatus in Embodiment 5 of this invention.

符号の説明Explanation of symbols

1 前処理手段、1a Webページ選択手段、2 第1のソート手段、3 タグ付与手段、3a 複数タグ付与手段、4 第2のソート手段、5 計数手段、5a ドメイン計数手段、6、6a 判定手段、9 マージ手段、10 重複サイト集合検出手段、181 第1の重複Webサイト検出装置、182 除外パス抽出手段、184 第2の重複Webサイト検出装置。   DESCRIPTION OF SYMBOLS 1 Pre-processing means, 1a Web page selection means, 2 1st sort means, 3 Tag assignment means, 3a Multiple tag assignment means, 4 Second sort means, 5 Count means, 5a Domain count means, 6, 6a Determination means , 9 Merge means, 10 Duplicate site set detection means, 181 First duplicate website detection device, 182 Excluded path extraction means, 184 Second duplicate website detection device.

Claims (8)

Webページ情報から、それぞれのサイトのURLに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段と、
生成されたそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、コンテンツハッシュ値が一致する列の数が第1所定値以上であり、かつコンテンツハッシュ値が一致しない列の数が第2所定値未満である複数行を重複サイト集合として検出する重複サイト集合検出手段と
を備えたことを特徴とする重複Webサイト検出装置。
Preprocessing means for generating site information by extracting content hash values, site names, and intra-site paths corresponding to URLs of respective sites from Web page information;
Based on each of the generated site information, a matrix having a content hash value as an element is formed using the site name as a row, the intra-site path as a column index, and the number of columns with the matching content hash value is the first. 1. A duplicate Web set comprising: a duplicate site set detection means for detecting, as a duplicate site set , a plurality of rows in which the number of columns that are equal to or greater than one predetermined value and whose content hash values do not match is less than a second predetermined value. Site detection device.
請求項1に記載の重複Webサイト検出装置において、
前記重複サイト集合検出手段は、前記サイト情報の中の前記コンテンツハッシュ値または前記サイト名の少なくとも1つが重複するURLに対して同一のタグを生成し、前記同一のタグに含まれているサイト名を重複サイト候補集合とし、前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、コンテンツハッシュ値が一致する列の数が第1所定値以上であり、かつコンテンツハッシュ値が一致しない列の数が第2所定値未満である重複サイト候補集合を重複サイト集合として検出することを特徴とする重複Webサイト検出装置。
The duplicate website detection device according to claim 1,
The duplicate site set detection means generates the same tag for a URL where at least one of the content hash value or the site name in the site information is duplicated, and the site name included in the same tag Is a duplication site candidate set, and based on the respective site information corresponding to the duplication site candidate set, a matrix having a content hash value as an element with the site name as a row and the intra-site path as a column index is constructed. Detecting a duplicate site candidate set in which the number of columns with matching content hash values is equal to or greater than a first predetermined value and the number of columns with mismatching content hash values is less than a second predetermined value as a duplicate site set. A duplicate Web site detection device as a feature.
請求項2に記載の重複Webサイト検出装置において、
前記重複サイト集合検出手段は、
前記前処理手段で取り出されたそれぞれの前記サイト情報を前記サイト名および前記サイト内パスの文字列順に並び替える第1のソート手段と、
並び替えられたそれぞれの前記サイト情報に対して、前記サイト内パスと前記コンテンツハッシュ値との組からなるタグを生成するとともに、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられた先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成し、生成したタグをサイト情報に付与するタグ付与手段と、
前記タグが付与されたサイト情報を前記タグの文字列順に並び替えることにより、同一のタグが付されたサイト情報に含まれているサイト名を重複サイト候補集合として抽出する第2のソート手段と
抽出されたそれぞれの前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、それぞれの列毎に、対応するコンテンツハッシュ値の種類および同一種類の出現頻度を計数し、前記種類が1であり前記出現頻度が2以上かつ前記重複サイト候補集合に含まれるサイト名の種類に対する所定の割合以上である列を一致列として計数し、前記種類が2以上である列を不一致列として計数する計数手段と、
前記計数手段で計数された前記一致列および前記不一致列の数に基づいて、前記一致列の数が第1所定値以上であり前記不一致列の数が第2所定値未満である場合に前記重複サイト候補集合を重複サイト集合として検出する判定手段と
を備えたことを特徴とする重複Webサイト検出装置。
The duplicate Web site detection apparatus according to claim 2,
The duplicate site set detection means includes:
First sorting means for rearranging each of the site information retrieved by the preprocessing means in order of character strings of the site name and the path within the site;
For each of the rearranged site information, a tag including a set of the intra-site path and the content hash value is generated, and a plurality of site information having the same site name is ordered in a character string order. A tag adding means for generating the same tag composed of a set of an in-site path and a content hash value corresponding to the sorted first site information, and adding the generated tag to the site information;
Second sorting means for extracting the site names included in the site information with the same tag as a duplicate site candidate set by rearranging the site information with the tag attached in the order of the character strings of the tags; Based on each of the site information corresponding to each of the extracted duplicate site candidate set, configure a matrix having the site name as a row, the intra-site path as a column index, and a content hash value as an element, For each column, the type of the corresponding content hash value and the appearance frequency of the same type are counted, and a predetermined value for the type of site name included in the duplicate site candidate set, the type being 1 and the appearance frequency being 2 or more. Counting means for counting columns that are equal to or greater than the percentage as matching columns, and counting columns that are two or more of the types as mismatching columns;
Based on the number of matched columns and mismatched columns counted by the counting means, the number of matched columns is equal to or greater than a first predetermined value and the number of mismatched columns is less than a second predetermined value. A duplicate Web site detection apparatus comprising: a determination unit that detects a site candidate set as a duplicate site set.
請求項3に記載の重複Webサイト検出装置において、
前記重複サイト集合検出手段は、
抽出されたそれぞれの前記重複サイト候補集合に含まれるサイト名に対して、それぞれのサイト名の「.」で区切られたドメイン名部分ごとにドメイン出現頻度を計数するドメイン計数手段をさらに備え、
前記判定手段は、前記計数手段で計数された前記一致列および前記不一致列の数を、前記ドメイン計数手段で計数されたドメイン出現頻度が前記重複サイト候補集合に含まれるサイト数の所定割合以上となるドメイン名部分が所定値以上か否かに基づいて補正し、補正後の一致列の数が第1所定値以上であり補正後の不一致列の数が第2所定値未満である場合に前記重複サイト候補集合に含まれているサイト名を重複サイト集合として検出する
ことを特徴とする重複Webサイト検出装置。
The duplicate Web site detection apparatus according to claim 3,
The duplicate site set detection means includes:
Domain count means for counting the domain appearance frequency for each domain name portion delimited by “.” Of each site name for the site names included in each of the extracted duplicate site candidate sets,
The determination means includes the number of the matched columns and the mismatched columns counted by the counting unit, and the domain appearance frequency counted by the domain counting unit is not less than a predetermined ratio of the number of sites included in the duplicate site candidate set. When the number of matched columns after correction is equal to or greater than the first predetermined value and the number of mismatched columns after correction is less than the second predetermined value. A duplicate Web site detection apparatus that detects a site name included in a duplicate site candidate set as a duplicate site set.
請求項3または4に記載の重複Webサイト検出装置において、
前記タグ付与手段は、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられたサイト情報を複数のグループに分け、各グループの先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成することにより複数のタグを生成し、
前記判定手段で検出された重複サイト集合の中から同一のサイト名が含まれている重複サイト同士を1つの重複サイトに併合するマージ手段をさらに備えたことを特徴とする重複Webサイト検出装置。
In the duplication Web site detection device according to claim 3 or 4,
For the plurality of site information having the same site name, the tag assigning means divides the site information rearranged in the character string order into a plurality of groups, and an intra-site path corresponding to the head site information of each group Generate multiple tags by generating the same tag consisting of a pair with the content hash value,
Wherein characterized in that it further comprises a merging unit for merging into a single overlapping sites overlapping sites together contain the same site name from the duplicate set of sites that have been detected by the determination means duplicate Web site detecting apparatus.
請求項1ないし5のいずれか1項に記載の重複Webサイト検出装置において、
前記前処理手段は、それぞれのサイトのURLに対応するサイト内パスおよびコンテンツ長の出現頻度を計数し、出現頻度が1回であるURLを削除した後に、前記サイト情報を生成することを特徴とする重複Webサイト検出装置。
The duplicate Web site detection device according to any one of claims 1 to 5,
The pre-processing means counts the frequency of appearance of the intra-site path and content length corresponding to the URL of each site, and generates the site information after deleting the URL with the appearance frequency of once. Duplicate Web site detection device.
請求項1ないし6のいずれか1項に記載の重複Webサイト検出装置において、
前記重複サイト集合検出手段から、重複サイト集合として検出されなかった集合を非重複サイト集合として抽出し、前記非重複サイト集合内に含まれているサイト内パスの中から所定値以上の出現頻度を有するサイト内パスを除外パスリストとして抽出する除外パス抽出手段をさらに備え、
前記前処理手段、前記重複サイト集合検出手段、および前記除外パス抽出手段による前回の重複Webサイト検出処理において、前記除外パス抽出手段で前記除外パスリストが抽出されていた場合には、
前記前処理手段は、前記除外パスリストをフィードバックして読み込み、前記除外パスリストのサイト内パスを含むURLを削除した後に前記サイト情報を再度生成し、
前記重複サイト集合検出手段は、前記除外パスリストのサイト内パスを含むURLを削除した後に再度生成された前記サイト情報に基づいて重複サイト集合を再度検出する
ことを特徴とする重複Webサイト検出装置。
The duplicate Web site detection apparatus according to any one of claims 1 to 6,
From the duplicate site set detection means, a set that is not detected as a duplicate site set is extracted as a non-duplicate site set, and an appearance frequency equal to or higher than a predetermined value is selected from the intra-site paths included in the non-duplicate site set. The system further comprises an exclusion path extraction means for extracting the in-site path as an exclusion path list,
The preprocessing means, the overlapping set of sites detection means, and in the last duplicated Web site detection process by the exclusion path extraction means, when the exclusion path list was Tei extracted by the exclusion path extraction means,
The preprocessing means feeds back the excluded path list, reads the URL including the site path in the excluded path list, and then generates the site information again .
The overlapping set of sites detection means, duplicate Web site detecting apparatus characterized by detecting a duplicate set of sites again based on the site information generated again after deleting a URL that contains the site path of the exclusion path list .
請求項7に記載の重複Webサイト検出装置において、
前記除外パス抽出手段により所定値以上の出現頻度を有するサイト内パスである前記除外パスリストが抽出されなくなるまで、前記除外パスリストに基づく前記前処理手段および前記重複サイト集合検出手段による一連の処理を繰り返し行う
ことを特徴とする重複Webサイト検出装置。
The duplicate Web site detection apparatus according to claim 7,
A series of processing by site path until said exclusion path list is no longer extracted is, the pre-processing means and the overlapping set of sites detection means based on the exclusion path list having a frequency higher than a predetermined value by the exclusion path extraction means The duplicate Web site detection apparatus characterized by repeating.
JP2005026743A 2005-02-02 2005-02-02 Duplicate website detection device Active JP4610360B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005026743A JP4610360B2 (en) 2005-02-02 2005-02-02 Duplicate website detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005026743A JP4610360B2 (en) 2005-02-02 2005-02-02 Duplicate website detection device

Publications (2)

Publication Number Publication Date
JP2006215735A JP2006215735A (en) 2006-08-17
JP4610360B2 true JP4610360B2 (en) 2011-01-12

Family

ID=36978939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005026743A Active JP4610360B2 (en) 2005-02-02 2005-02-02 Duplicate website detection device

Country Status (1)

Country Link
JP (1) JP4610360B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827166B2 (en) * 2006-10-13 2010-11-02 Yahoo! Inc. Handling dynamic URLs in crawl for better coverage of unique content
JP5174385B2 (en) * 2007-07-05 2013-04-03 三菱電機株式会社 Duplicate Web site dynamic detection device
JP5127779B2 (en) * 2009-06-10 2013-01-23 株式会社日立製作所 Filtering device
US9043306B2 (en) * 2010-08-23 2015-05-26 Microsoft Technology Licensing, Llc Content signature notification
CN102467572B (en) * 2010-11-17 2013-10-02 英业达股份有限公司 Data block inquiring method for supporting data de-duplication program
JP6252223B2 (en) 2014-02-14 2017-12-27 富士通株式会社 Control method, receiving apparatus, and communication system
KR102231722B1 (en) 2019-03-28 2021-03-25 네이버클라우드 주식회사 Apparatus and method for determining duplication of vulnerability
CN111898013B (en) * 2020-07-27 2024-03-19 绿盟科技集团股份有限公司 Website monitoring method and device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264926A (en) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Device for finding out mirror site group on www, method for finding out mirror site, program for the method, and storage medium recording the program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264926A (en) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Device for finding out mirror site group on www, method for finding out mirror site, program for the method, and storage medium recording the program

Also Published As

Publication number Publication date
JP2006215735A (en) 2006-08-17

Similar Documents

Publication Publication Date Title
JP4610360B2 (en) Duplicate website detection device
US9558241B2 (en) System and method for performing longest common prefix strings searches
Bar-Yossef et al. Do not crawl in the DUST: Different URLs with similar text
US7818303B2 (en) Web graph compression through scalable pattern mining
US7627613B1 (en) Duplicate document detection in a web crawler system
JP4708436B2 (en) Reliable document identification
CN108228710B (en) Word segmentation method and device for URL
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US6480838B1 (en) System and method for searching electronic documents created with optical character recognition
CN106909609B (en) Method for determining similar character strings, method and system for searching duplicate files
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
JP4114600B2 (en) Variable length character string search device, variable length character string search method and program
CN104537107A (en) URL storage matching method and device
US12118302B2 (en) Regular expression searching
CN110889023A (en) Distributed multifunctional search engine of elastic search
US8661069B1 (en) Predictive-based clustering with representative redirect targets
CN110008419A (en) Removing duplicate webpages method, device and equipment
CN103618742A (en) Method and system for acquiring sub domain names and webmaster permission verification method
CN103617225A (en) Associated webpage searching method and system
KR101556714B1 (en) Method, system and computer readable recording medium for providing search results
JP2010272006A (en) Relation extraction apparatus, relation extraction method and program
CN115391568A (en) Entity classification method, system, terminal and storage medium based on knowledge graph
CN110147506B (en) URL duplication eliminating method and device
US20200380048A1 (en) Architecture and functional model of a generic data excavation engine
CN110543622A (en) Text similarity detection method and device, electronic equipment and readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131022

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S801 Written request for registration of abandonment of right

Free format text: JAPANESE INTERMEDIATE CODE: R311801

ABAN Cancellation due to abandonment
R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350