JP4610360B2 - Duplicate website detection device - Google Patents
Duplicate website detection device Download PDFInfo
- Publication number
- JP4610360B2 JP4610360B2 JP2005026743A JP2005026743A JP4610360B2 JP 4610360 B2 JP4610360 B2 JP 4610360B2 JP 2005026743 A JP2005026743 A JP 2005026743A JP 2005026743 A JP2005026743 A JP 2005026743A JP 4610360 B2 JP4610360 B2 JP 4610360B2
- Authority
- JP
- Japan
- Prior art keywords
- site
- duplicate
- path
- columns
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、Web情報の収集効率の向上を図るために、重複しているWebサイトを検出する目的で使用される重複Webサイト検出装置に関する。 The present invention relates to a duplicate website detection apparatus used for the purpose of detecting duplicate websites in order to improve the collection efficiency of web information.
重複Webサイトとは、URL(Uniform Resource Locator)のサイト名(ホスト名)部分だけが異なり、同一内容からなるWebサイトの集合であり、負荷分散やバックアップを目的とした物理的なコピーによるものから、検索エンジンでのランキングを操作するためにDNS(Domain Name System)へのホスト名の多重登録を行って論理的に多数のサイトに見せかけたものなどが存在している。 A duplicate Web site is a set of Web sites that differ only in the site name (host name) portion of a URL (Uniform Resource Locator) and have the same contents, and are based on physical copies for the purpose of load distribution and backup. In order to manipulate rankings in search engines, there are those that logically appear to many sites by performing multiple registration of host names to DNS (Domain Name System).
重複サイトを検出することで、検索エンジンの結果の重複を減らし、Webクローリングによる情報収集の効率およびプロキシサーバやブラウザにおけるキャッシュヒット率を向上することが期待される。 By detecting duplicate sites, it is expected to reduce duplication of search engine results, improve the efficiency of information collection by Web crawling, and improve the cache hit rate in proxy servers and browsers.
従来の重複サイト(ミラーサイト)検出装置は、名前が異なる2つのWebサイトについて、
1)当該Webサイトに属するWebページURLの文字列の類似性
2)当該WebサイトのIPアドレスの類似性
3)当該Webサイトに属するWebページからリンクされているURLの共通性
4)当該Webサイトに属するWebページからリンクされているURLのサイト名部分の共通性
のうち、1つ以上の指標を数値的に評価し、類似性や共通性が基準値より高い場合に、内容が互いに等価な重複サイトであると判定していた(例えば、特許文献1および特許文献2参照)。
The conventional duplicate site (mirror site) detection device has two websites with different names.
1) Similarity of character strings of Web page URLs belonging to the Web site 2) Similarity of IP addresses of the Web sites 3) Commonality of URLs linked from Web pages belonging to the Web site 4) The Web site Among the commonality of the site name part of the URL linked from the Web page belonging to, one or more indicators are evaluated numerically, and the contents are equivalent to each other when the similarity or commonality is higher than the reference value It was determined to be an overlapping site (see, for example,
また、従来の方法では、3つ以上の名前を持つ重複サイトは、Webサイトを2つずつの組に分けて判定を繰り返すことにより処理する。例えば、サイトAとサイトBが重複サイトであり、サイトAとサイトCが重複サイトであるならば、サイトBとサイトCも重複サイトであると判定し、サイトA、B、Cを一つの重複サイト集合として検出していた。 In the conventional method, duplicate sites having three or more names are processed by dividing the website into two groups and repeating the determination. For example, if site A and site B are duplicate sites, and site A and site C are duplicate sites, it is determined that site B and site C are also duplicate sites, and sites A, B, and C are duplicated one by one. It was detected as a site set.
しかしながら、従来技術には次のような課題がある。従来の重複Webサイト検出装置は、2つのサイトの組に対する判定結果に推移律を適用して、3つ以上のサイトの場合に一般化しているため、数十から数百といった多数のサイトについて判定を行うと誤りを生じ易いという問題点があった。すなわち、重複サイトは、完全に等価である必要はなく、情報収集中のWebサイトの変化に対応できるように、ある程度の誤差を含むものとしており、推移律は、厳密には成立しない。 However, the prior art has the following problems. The conventional duplicate Web site detection device applies a transition rule to the determination result for a set of two sites and is generalized in the case of three or more sites. Therefore, the determination is made for many sites such as tens to hundreds. However, there is a problem that an error is likely to occur. That is, the duplicate sites do not need to be completely equivalent, and include a certain amount of error so that changes in the Web site during information collection can be accommodated, and the transition rule is not strictly established.
多くの重複サイトを検出できるように許容誤差を大きめに与えると、多数のサイトに適用した場合の累積誤差は、さらに大きくなり、重複サイトでないものも重複とみなしてしまうことになる。一方、この問題を避けるために、許容誤差を小さく設定すると、一部が変化した重複サイトを検出できなくなるという問題が起こる。ホスト名の多重登録による大規模な重複サイトが存在する一方で、共通のデザインで多数のユーザに個別のWebスペースを提供するサービス(非重複サイト)も普及しており、多数のサイトに対する判定は、ごく一般的な問題となっている。 If a large tolerance is provided so that many duplicate sites can be detected, the cumulative error when applied to a large number of sites is further increased, and those that are not duplicate sites are also regarded as duplicates. On the other hand, in order to avoid this problem, if the allowable error is set to be small, there arises a problem that it becomes impossible to detect a duplicate site whose part has changed. While there are large-scale overlapping sites due to multiple registrations of host names, services that provide individual web spaces to a large number of users with a common design (non-overlapping sites) are also widespread. It has become a very common problem.
本発明は上述のような課題を解決するためになされたもので、多数のサイトに対する重複性判定の精度を高め、Web情報の正確な把握と活用を可能にする重複Webサイト検出装置を提供することを目的とする。 The present invention has been made to solve the above-described problems, and provides a duplicate Web site detection apparatus that improves the accuracy of duplication determination for a large number of sites and enables accurate grasp and utilization of Web information. For the purpose.
本発明に係る重複Webサイト検出装置は、Webページ情報から、それぞれのサイトのURLに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段と、生成されたそれぞれのサイト情報に基づいて、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、コンテンツハッシュ値が一致する列の数が第1所定値以上であり、かつコンテンツハッシュ値が一致しない列の数が第2所定値未満である複数行を重複サイト集合として検出する重複サイト集合検出手段とを備えたものである。 The duplicate Web site detection apparatus according to the present invention is generated by preprocessing means for generating site information by extracting content hash values, site names, and intra-site paths corresponding to URLs of respective sites from Web page information. Based on the respective site information, a matrix having a content hash value as an element is constructed using the site name as a row, the intra-site path as a column index, and the number of columns with matching content hash values is equal to or greater than a first predetermined value. And a duplicate site set detection means for detecting a plurality of rows in which the number of columns having no matching content hash value is less than a second predetermined value as a duplicate site set.
本発明によれば、それぞれのサイトのURLに対して、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出することにより、多数のサイトに対する重複性判定の精度を高め、Web情報の正確な把握と活用を可能にすることができる重複Webサイト検出装置を得ることができる。 According to the present invention, for each URL of the site, a matrix having a site name as a row, a site hash as a column index, and a content hash value as an element is constructed, and matches based on the content hash value in the column direction. Duplicate web site detection that can detect multiple rows with a degree higher than a predetermined value as a duplicate site set, thereby improving the accuracy of duplication judgment for a large number of sites and enabling accurate grasp and utilization of web information A device can be obtained.
以下、本発明の重複Webサイト検出装置の好適な実施の形態につき図面を用いて説明する。本発明の重複Webサイト検出装置は、多数のサイトに対応するそれぞれのコンテンツハッシュ値に基づいて重複サイト集合の検出を一度で行うことにより、多数のサイトに対する重複性判定の精度を高めることが可能となる点を特徴としている。 Hereinafter, preferred embodiments of the duplicate Web site detection apparatus of the present invention will be described with reference to the drawings. The duplicate Web site detection apparatus of the present invention can improve the accuracy of duplication determination for a large number of sites by detecting a set of duplicate sites at a time based on the respective content hash values corresponding to a large number of sites. It is characterized by the point.
実施の形態1.
図1は、本発明の実施の形態1における重複Webサイト検出装置の構成図である。図1において、前処理手段1は、入力したWebページコンテンツ7のデータ形式を、後続手段の処理に必要な形式に変換する手段である。第1のソート手段2は、前処理手段1の結果の並べ替えを行う。タグ付与手段3は、第1のソート手段2の結果に基づいて各Webページに対応するデータにタグを付与する。
FIG. 1 is a configuration diagram of a duplicate Web site detection apparatus according to
第2のソート手段4は、タグを付与されたデータのソートを行う。計数手段5は、同一タグのデータに関する集計処理を行う。さらに、判定手段6は、計数手段5の結果に基づいて判定を行い、重複サイト名リスト8を出力する。ここで、第1のソート手段2、タグ付与手段3、第2のソート手段4、計数手段5および判定手段6は、重複サイト集合検出手段10を構成する各手段に相当する。
The second sorting means 4 sorts the data to which the tags are attached. The counting means 5 performs a counting process on the data of the same tag. Further, the
これらの各手段は、それぞれ独立の演算器と記憶装置を備えたハードウェアで実現することができ、また単一の演算器と記憶装置を備えたコンピュータで逐次に実行することもできる。 Each of these means can be realized by hardware including an independent arithmetic unit and a storage device, or can be sequentially executed by a computer including a single arithmetic unit and a storage device.
次に、これらの各手段の動作について詳細に説明する。まず前処理手段1は、WebページのURL文字列とそのコンテンツを示す文字列の組を受け取り、URL文字列からサイト名とサイト内パスを切り出すとともに、Webページのコンテンツを示す文字列全体にハッシュ関数を適用してハッシュ値に変換し、Webページ毎にサイト名、サイト内パス、コンテンツハッシュ値を出力する。
Next, the operation of each means will be described in detail. First, the preprocessing
図2は、本発明の実施の形態1における前処理手段1によるURL文字列の処理を示す概念図である。図2において、URL文字列20の内、サイト名21は、サイトのホスト名を表す部分、サイト内パス22は、「/」で始まる残りの文字列である。
FIG. 2 is a conceptual diagram showing URL character string processing by the preprocessing means 1 in
また、ハッシュ値を求めるハッシュ関数は、異なるコンテンツ文字列に対して同一のハッシュ値が対応する確率が低いものが適しており、公知のMD5やSHA−1などを用いることができる。 In addition, a hash function for obtaining a hash value is suitable that has a low probability that the same hash value corresponds to different content character strings, and known MD5, SHA-1, or the like can be used.
図3は、本発明の実施の形態1における前処理手段1の出力情報を示す図である。図3において、前処理手段出力情報30は、Webページ毎に1つの行が対応しており、それぞれの行は、サイト名31、サイト内パス32、コンテンツハッシュ値33の3つの列(カラム)のそれぞれの要素からなるサイト情報を構成している。
FIG. 3 is a diagram showing output information of the preprocessing
次に、第1のソート手段2は、前処理手段出力情報30の各行に対して、サイト名、サイト内パスの昇順にソートする。図4は、本発明の実施の形態1における第1のソート手段2の出力情報を示す図である。図4において、第1のソート手段出力情報40は、前処理手段出力情報30と同じ形式をしているが、サイト名41、サイト内パス42の順に各行が配置されている点が異なる。前処理手段出力情報30にサイト名およびサイト内パスがともに同一である行が複数存在する場合は、いずれか1行を残し、他は除去する。
Next, the
次に、タグ付与手段3は、第1のソート手段出力情報40に基づいて、各Webページに対応するデータにタグを付与する。図5は、本発明の実施の形態1におけるタグ付与手段3の動作の詳細を示すフローチャートである。図5において、始めにステップS501で、現在サイト名および現在タグの値を空文字列に初期化する。次に、ステップS502で、第1のソート手段出力情報40から1行を入力する。次に、ステップS503で、入力した行のサイト名カラムと現在サイト名の値とを比較し、一致する場合は、ステップS506に進む。
Next, the tag assigning means 3 assigns a tag to data corresponding to each Web page based on the first sort means
一方、これらの値が一致しない場合は、ステップS504に進み、現在タグを入力行のコンテンツハッシュ値カラムとサイト名カラムとを文字列として連結した値に設定する。次いで、ステップS505で、現在サイト名をサイト名カラムの値に設定する。 On the other hand, if these values do not match, the process proceeds to step S504, where the current tag is set to a value obtained by concatenating the content hash value column and the site name column of the input row as a character string. In step S505, the current site name is set to the value of the site name column.
ステップS506で、現在タグ、サイト内パスカラム、コンテンツハッシュ値カラム、およびサイト名カラムを、入力行にタグ付与した結果として出力する。最後に、ステップS507で、第1のソート手段出力情報40の全ての行を処理したか判定し、処理すべき行が残っていれば、ステップS502に戻り、残りの行に対する一連の処理を行い、残っていなければ一連の処理を終了する。
In step S506, the current tag, intra-site path column, content hash value column, and site name column are output as a result of tagging the input row. Finally, in step S507, it is determined whether all the rows of the first sorting means
図6は、本発明の実施の形態1におけるタグ付与手段3の出力情報を示す図であり、タグ付与手段3が図5の一連の処理を実行することにより出力するタグ付与手段出力情報60を示したものである。図6において、タグ付与手段出力情報60は、Webページ毎に1つの行が対応しており、各行は、タグ61、サイト内パス62、コンテンツハッシュ値63、およびサイト名64の4つのカラムからなるサイト情報となっている。 FIG. 6 is a diagram showing the output information of the tag assigning means 3 according to the first embodiment of the present invention. The tag assigning means output information 60 output when the tag assigning means 3 executes the series of processes of FIG. It is shown. In FIG. 6, the tag granting unit output information 60 corresponds to one line for each Web page, and each line includes four columns of a tag 61, a site path 62, a content hash value 63, and a site name 64. It has become site information.
タグ付与手段3の処理の意味は、各サイトについて文字列順で先頭となるサイト内パスとコンテンツハッシュ値の組をタグとして付与することであり、このタグを用いて重複サイト名の候補集合を作ることが可能になる。例えば、図6における5行目と6行目に対応するサイト名64は、ともにxxx.yyy.zzzであるため、それぞれの行のタグ61は、5行目のコンテンツハッシュ値63とサイト内パス62との組として、同一のタグが付与されている。また、図6においては、タグ61の値の一例として、コンテンツハッシュ値63とサイト内パス62とを「−」を挟んで連結した文字列を示している。 The meaning of the processing of the tag assigning means 3 is to assign, as a tag, a set of the in-site path and the content hash value that is the head in the character string order for each site. Using this tag, a candidate set of duplicate site names can be obtained. It becomes possible to make. For example, since the site names 64 corresponding to the fifth and sixth lines in FIG. 6 are both xxx.yyy.zzz, the tag 61 of each line has the content hash value 63 and the intra-site path in the fifth line. As a pair with 62, the same tag is given. In FIG. 6, as an example of the value of the tag 61, a character string in which the content hash value 63 and the intra-site path 62 are concatenated with “−” interposed therebetween is shown.
次に、第2のソート手段4は、タグ付与手段出力情報60の各行に対して、タグ、サイト内パス、コンテンツハッシュ値の昇順にソートする。図7は、本発明の実施の形態1における第2のソート手段4の出力情報を示す図である。図7において、第2のソート手段出力情報70は、タグ付与手段出力情報60と同じ形式をしており、各行の配置順のみが異なる。
Next, the
次に、計数手段5は、第2のソート手段出力情報70に基づいて、同一タグのデータに関する集計処理を行う。図8は、本発明の実施の形態1における計数手段5の動作の概要を示すフローチャートである。図8において、始めにステップS801で、第2のソート手段出力情報70から同一タグが続く限り行を入力する。次に、ステップS802において、入力した複数行に対して後述する方法でヒット数、ミス率を計数し、タグおよびサイト名リストとともに出力する。
Next, the
次いで、ステップS803で、全ての入力を処理したか判断し、未処理の入力があればステップS801に戻り、未処理の入力に対して一連の処理を行い、全て処理済であれば一連の処理を終了する。 Next, in step S803, it is determined whether all inputs have been processed. If there are unprocessed inputs, the process returns to step S801, and a series of processes are performed on the unprocessed inputs. Exit.
図9は、本発明の実施の形態1における計数手段5の図8のステップS802の動作を詳細に示したフローチャートである。図9において、ステップS901で、同一タグに対応するサイト名が何種類存在するかを数える。次いで、ステップS902で、同一タグに対応するサイト内パスが何種類存在するかを数える。さらに、ステップS903で、サイト内パス毎にコンテンツハッシュ値の種類とその出現頻度を数える。 FIG. 9 is a flowchart showing in detail the operation of step S802 in FIG. 8 of the counting means 5 according to the first embodiment of the present invention. In FIG. 9, in step S901, the number of types of site names corresponding to the same tag is counted. In step S902, the number of intra-site paths corresponding to the same tag is counted. In step S903, the type of content hash value and its appearance frequency are counted for each intra-site path.
次いで、ステップS904で、サイト内パスの内、2種類以上のコンテンツハッシュ値が対応しているものの割合をミス率として求める。次に、ステップS905で、1種類のコンテンツハッシュ値が対応するサイト内パスについて、コンテンツハッシュ値の出現頻度が2以上かつサイト名種類の一定割合以上となっているものを数え、ヒット数として求める。最後に、ステップS906で、タグ、ヒット数、ミス率、サイト名リストを出力して終了する。 Next, in step S904, the ratio of those corresponding to two or more types of content hash values in the intra-site path is obtained as a miss rate. Next, in step S905, for the intra-site path to which one type of content hash value corresponds, the number of occurrences of the content hash value that is 2 or more and the site name type is a certain ratio or more is counted and obtained as the number of hits. . Finally, in step S906, the tag, hit count, miss rate, and site name list are output and the process ends.
図10は、本発明の実施の形態1における計数手段5の動作の意味を示す概念図である。この図10は、タグが12349876-/であるグループについて、行方向にサイト名101を取り、列方向にサイト内パス102を取り、対応するコンテンツハッシュ値103を並べた行列を示している。
FIG. 10 is a conceptual diagram showing the meaning of the operation of the counting means 5 in
コンテンツハッシュ値がN/Aとなっている部分は、サイト名とサイト内パスに対応するURLが入力のWebページコンテンツ7に存在しなかったことを示している。大規模なWeb情報の収集は、Webページ間のリンクを辿りながら行なうのが一般的であるため、実際に存在するURLであってもアクセスしていないために情報が欠落することは有り得る。
The portion where the content hash value is N / A indicates that the URL corresponding to the site name and the site path does not exist in the input
図9に示した動作は、図10に示す行列において、列毎にヒットおよびミスの判定を行なって、それぞれの列の数を数えることと等価である。具体的には、図10の例では、サイト内パス「/」に対しては、全てのコンテンツハッシュ値が等しく、種類=1、出現頻度=3となることから、この列はヒットとなる。 The operation shown in FIG. 9 is equivalent to performing hit / miss determination for each column in the matrix shown in FIG. 10 and counting the number of each column. Specifically, in the example of FIG. 10, since all the content hash values are equal for the intra-site path “/” and the type = 1 and the appearance frequency = 3, this column is a hit.
また、サイト内パス「/links.html」に対しては、サイトaaa.bbb.cccおよびzzz.www.aaaに対応するコンテンツハッシュ値が存在しないため種類=1、出現頻度=1となり、種類は1であるが出現頻度が2以上でないため、この列はヒットでもミスでもないと見なされる。さらに、サイト内パス「/news.html」に対しては、コンテンツハッシュ値の種類=2となるため、この列はミスとなる。 For the intra-site path “/links.html”, there is no content hash value corresponding to the sites aaa.bbb.ccc and zzz.www.aaa, so type = 1, appearance frequency = 1, and type is Since it is 1 but the frequency of occurrence is not 2 or greater, this column is considered neither a hit nor a miss. Furthermore, for the in-site path “/news.html”, the type of content hash value = 2, so this column is missed.
このような場合、計数手段5は、タグとして12349876-/、ヒット数として1、ミス率として1/3、サイト名リストとしてaaa.bbb.ccc、xxx.yyy.zzz、zzz.www.aaaの3つをそれぞれ出力することとなる。ここで求めたヒット数は、図10における一致列の数に相当し、ミス率は、図10における不一致列の数に相当する。 In such a case, the counting means 5 uses 12349876- / as the tag, 1 as the number of hits, 1/3 as the miss rate, aaa.bbb.ccc, xxx.yyy.zzz, zzz.www.aaa as the site name list. Each of the three will be output. The number of hits obtained here corresponds to the number of matched columns in FIG. 10, and the miss rate corresponds to the number of mismatched columns in FIG.
次に、判定手段6は、計数手段5によって出力されたタグ、ヒット数、ミス率、サイト名リストの結果に基づいて判定を行い、重複サイト名リスト8を出力する。図11は、本発明の実施の形態1における判定手段6の動作を示すフローチャートである。図11において、ステップS1101で、タグ毎にヒット数、ミス率、サイト名リストを受け取る。
Next, the determination means 6 makes a determination based on the tag, hit count, miss rate, and site name list results output by the counting means 5 and outputs the duplicate
次に、ステップS1102で、ヒット数が一定値以上かつミス率が一定割合未満であれば、当該タグに対応するサイトは、全て重複と判定し、サイト名リストを重複サイト名リスト8に出力する。次いで、ステップS1103で、全てのタグについて判定を行なったか判断し、未処理のタグがあれば、ステップS1101に戻って未処理のタグに対して一連の処理を行い、未処理のタグがない場合は、一連の処理を終了する。
Next, in step S1102, if the number of hits is equal to or greater than a certain value and the miss rate is less than a certain ratio, it is determined that all the sites corresponding to the tag are duplicates, and the site name list is output to the duplicate
実施の形態1によれば、1つ以上の任意の数のサイトに対して、サイト内パスとコンテンツハッシュ値との比較を行なう計数手段を備えているので、大規模な重複サイトの判定を誤差を累積することなく行なうことができる。特に、判定対象の一定割合以上に共通するサイト内パスのみを一致(ヒット)と見なし、また、多数のサイトの一部でも不一致があればミスと見なすので、サイト数の増加に応じて判定基準も厳しくなり、閾値設定におけるトレードオフの問題を避けることができる。さらに、タグ付与手段を備えているので、タグに基づいて一部のパスの内容が一致する全てのサイトを重複候補として効率的に抽出することができる。 According to the first embodiment, since the counting means for comparing the intra-site path and the content hash value is provided for one or more arbitrary numbers of sites, it is possible to make an error in determining a large-scale duplicate site. Can be performed without accumulating. In particular, only intra-site paths that are common to a certain percentage or more of the judgment targets are regarded as matches (hits), and even if some of the sites do not match, they are regarded as mistakes. And the trade-off problem in threshold setting can be avoided. Furthermore, since the tag providing means is provided, all the sites whose contents of some paths match based on the tag can be efficiently extracted as duplication candidates.
実施の形態2.
実施の形態1では、同一タグ内でのサイト内パスのヒット/ミスの計数に基づいて、重複性を判定するようにしたものであるが、次に、サイト名の類似性を考慮して類似サイト名からなる重複サイト候補集合に対しては不一致の許容度を大きくする実施の形態を示す。
In the first embodiment, the redundancy is determined based on the hit / miss count of the intra-site path within the same tag. Next, the similarity is considered in consideration of the similarity of the site names. An embodiment will be described in which the tolerance of mismatch is increased for a duplicate site candidate set made up of site names.
図12は、本発明の実施の形態2における重複Webサイト検出装置の構成図である。図12において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図12は、第2のソート手段出力情報をサイト名に基づいて計数するドメイン計数手段5aが新たに加わり、判定手段6が計数手段5とドメイン計数手段5aの出力情報に基づいて重複サイトの判定を行なう判定手段6aに置き換わった点が異なっている。 FIG. 12 is a configuration diagram of the duplicate Web site detection apparatus according to the second embodiment of the present invention. In FIG. 12, the same reference numerals as those in FIG. 1 are means for performing the same operation. Compared with FIG. 1 in the first embodiment, FIG. 12 shows the addition of the domain counting means 5a for counting the second sort means output information based on the site name. The difference lies in that it is replaced with determination means 6a for determining duplicate sites based on the output information of means 5a.
図13は、本発明の実施の形態2におけるドメイン計数手段5aの動作を示すフローチャートである。図13において、ステップS1301で、サイト名毎に「.」で区切られた構成要素の数を数え、その最小値を求める。例えば、サイト名がxxx.yyy.zzzの場合の構成要素の数は、3である。 FIG. 13 is a flowchart showing the operation of the domain counting means 5a in the second embodiment of the present invention. In FIG. 13, in step S1301, the number of components separated by “.” Is counted for each site name, and the minimum value is obtained. For example, when the site name is xxx.yyy.zzz, the number of components is three.
次に、ステップS1302で、サイト名の構成要素(例えば、「xxx」、「yyy」、「zzz」のそれぞれ)毎に出現頻度を求め、入力のサイト数の一定割合以上の出現頻度となるものを数えて頻出ドメインレベルとする。最後に、ステップS1303で、最小ドメインレベル数および頻出ドメインレベル数を出力して終了する。 Next, in step S1302, the appearance frequency is obtained for each component of the site name (for example, “xxx”, “yyy”, and “zzz”), and the appearance frequency is equal to or higher than a certain ratio of the number of input sites. To the frequent domain level. Finally, in step S1303, the minimum number of domain levels and the number of frequent domain levels are output and the process ends.
図14は、本発明の実施の形態2における判定手段6aの動作を示すフローチャートである。図14において、始めにステップS1401で、タグ、サイト名リストとともに、ヒット数、ミス率を計数手段5から受け取り、同じタグに対する最小ドメインレベル数、頻出ドメインレベル数をドメイン計数手段5aから受け取る。
FIG. 14 is a flowchart showing the operation of the determination means 6a in
次に、ステップS1402で、頻出ドメインレベル数と最小ドメインレベル数とを比較し、頻出ドメインレベル数が最小ドメインレベル数より小さい場合は、ステップS1404に進む。頻出ドメインレベル数が最小ドメインレベル数以上の場合は、ステップS1403に進み、サイト数の対数に比例する係数をヒット数に乗じ、当該係数の逆数をミス率に乗じる。係数としては、例えば、log(サイト数)×4.5などを用いる。
In step S1402, the frequent domain level number is compared with the minimum domain level number. If the frequent domain level number is smaller than the minimum domain level number, the process proceeds to step S1404. If the frequent domain level number is greater than or equal to the minimum domain level number, the process proceeds to step S1403, where the hit number is multiplied by a coefficient proportional to the logarithm of the number of sites, and the miss rate is multiplied by the reciprocal of the coefficient. For example, log (number of sites) × 4.5 is used as the coefficient.
ステップS1404では、ヒット数が一定値以上かつミス率が一定割合未満の場合に、サイト名リストを重複サイト名リスト8に出力する。次いで、ステップS1405で、全てのタグについて処理を行なったか判断し、未処理のタグがあれば、ステップS1401に戻って未処理のタグに対して一連の処理を行い、未処理のタグがない場合は、一連の処理を終了する。
In step S1404, the site name list is output to the duplicate
このようにして、判定手段6aは、計数手段5で計数されたヒット数およびミス率を、ドメイン計数手段5aで計数されたドメイン出現頻度に基づいて補正することにより、サイト名の類似性に関する情報も重複サイト情報の検出に利用できる。
In this way, the determination unit 6a corrects the hit count and the miss rate counted by the
実施の形態2によれば、ドメイン係数手段を備えているので、サイト名の類似性に関する情報も判定に利用することができる。特に、重複サイト候補集合内のサイト名が高い類似性を持つ場合に、サイト内パスの計数結果にバイアスを加え、重複と判定し易い条件を整えることで大規模な重複サイトの検出漏れを防ぐことができる。 According to the second embodiment, since the domain coefficient means is provided, information on the similarity of site names can also be used for the determination. In particular, when the site names in the duplicate site candidate set have high similarity, a bias is added to the count results of the intra-site paths, and conditions that make it easy to determine duplicates are prepared to prevent detection of large-scale duplicate sites. be able to.
なお、図12の構成においては、計数手段5とドメイン計数手段5aを併用したが、計数手段5を用いずにドメイン計数手段5aのみを用いて重複サイトの検出を簡易的に行うことも可能である。 In the configuration of FIG. 12, the counting means 5 and the domain counting means 5a are used in combination, but it is also possible to easily detect duplicate sites using only the domain counting means 5a without using the counting means 5. is there.
実施の形態3.
実施の形態1では、各サイトに対して先頭サイト内パスに対応する単一のタグを付与したものであるが、次に各サイトに対して複数のタグを付与する実施の形態を示す。
Embodiment 3 FIG.
In
図15は、本発明の実施の形態3における重複Webサイト検出装置の構成図である。図15において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図15は、タグ付与手段3が複数タグ付与手段3aに置き換わり、判定手段6の後にマージ手段9が新たに加わった点が異なっている。
FIG. 15 is a configuration diagram of the duplicate Web site detection apparatus according to the third embodiment of the present invention. In FIG. 15, the same numbers as those in FIG. 1 are means for performing the same operation. Compared to FIG. 1 in the first embodiment, FIG. 15 is different from FIG. 15 in that the tag assigning means 3 is replaced with a plurality of
図16は、本発明の実施の形態3における複数タグ付与手段3aの動作を示すフローチャートである。図16において、ステップS1601で、第1のソート手段出力情報30からN行を上限として同一サイト名が続く限り複数行を入力し、その行数をMとする。次に、ステップS1602で、入力の各M行についてコンテンツハッシュ値カラムとサイト内パスとの文字列連結値を求め、それぞれ現在タグ1、2、・・・、Mとする。
FIG. 16 is a flowchart showing the operation of the multiple
次いで、ステップS1603で、同一サイト名に対応する各行を第1のソート手段出力情報30から入力し、各行について現在タグ1〜Mとサイト内パスカラム、コンテンツハッシュ値カラム、サイト名カラムの組み合わせM行を出力する。これにより、各サイト毎に複数のサイト内パスに対応するタグが付与される。なお、先頭N個ではなく、別の基準を用いて複数のサイト内パスを選択してもよい。
Next, in step S1603, each row corresponding to the same site name is input from the first sort means output information 30, and for each row, a combination M rows of the
最後に、ステップS1604で、全ての行について処理を行なったか判断し、未処理の行があれば、ステップS1601に戻って未処理の行に対して一連の処理を行い、未処理の行がない場合は、一連の処理を終了する。 Finally, in step S1604, it is determined whether all rows have been processed. If there are unprocessed rows, the process returns to step S1601 to perform a series of processing on the unprocessed rows, and there is no unprocessed row. In the case, the series of processing ends.
引き続く計数手段5や判定手段6では、タグ毎に実施の形態1で説明した動作と同一の処理を行なうため、判定手段6の出力には、同一サイトが複数回現れる可能性が生じる。そこで、マージ手段9は、同じサイトを含む重複サイトを1つの重複サイトに併合する処理を行い、サイト名が高々1回現れるようにして重複サイトリストを出力する。
The
実施の形態3によれば、複数タグ付与手段を備えているので、先頭サイト内パスが全ての重複サイトで共通していない場合でも重複サイトを検出することができ、検出漏れを低減することができる。 According to the third embodiment, since a plurality of tag addition means are provided, it is possible to detect a duplicate site even when the path within the first site is not common to all duplicate sites, and to reduce detection omissions. it can.
実施の形態4.
実施の形態1では、Webページコンテンツ7の全てのWebページを処理対象としたが、次に、コンテンツが重複している可能性の高いWebページのみを予め選択する手段を設けた実施の形態を示す。
In the first embodiment, all Web pages of the
図17は、本発明の実施の形態4における重複Webサイト検出装置の構成図である。図17において、番号が図1と共通するものは同じ動作をする手段である。実施の形態1における図1と比較して、図17は、前処理手段1の前にWebページ選択手段1aが加わった点が異なっている。Webページ選択手段1aは、各Webページについて、サイト内パス名とコンテンツ長の出現頻度を調べ、1回しか現れないものを除去し、複数回現れるもののみを前処理手段1に渡す。
FIG. 17 is a configuration diagram of the duplicate Web site detection apparatus according to the fourth embodiment of the present invention. In FIG. 17, the same reference numerals as those in FIG. 1 are means for performing the same operation. Compared with FIG. 1 in the first embodiment, FIG. 17 is different in that a web page selection unit 1 a is added before the
実施の形態4によれば、Webページ選択手段を設けることにより、計算負荷の高いハッシュ処理に先立って非重複コンテンツを除去することができ、処理効率を高めることができる。 According to the fourth embodiment, by providing the Web page selection unit, it is possible to remove non-overlapping content prior to hash processing with a high calculation load, and it is possible to improve processing efficiency.
なお、図17では、Webページ選択手段1aと前処理手段1とを別々の構成として記載したが、前処理手段1にWebページ選択手段1aの機能を付加することも可能である。
In FIG. 17, the Web page selection unit 1 a and the
実施の形態5.
実施の形態1では、サイト内パスを全て考慮に入れたが、判定を誤る可能性の高いサイト内パスを取り除く手段を設けた実施の形態を示す。
In the first embodiment, all the intra-site paths are taken into consideration, but an embodiment is provided in which means for removing intra-site paths that are likely to be erroneously determined is provided.
図18は、本発明の実施の形態5における重複Webサイト検出装置の構成図である。図18において、第1の重複Webサイト検出装置181は、以上の実施の形態1〜4のいずれかに相当するが、重複でないと判定したサイトのリストを非重複サイト集合として出力する点が上記の実施の形態1〜4と異なっている。除外パス抽出手段182は、非重複サイト集合内でヒットしているサイト内パスの内、出現頻度が所定値よりも高いものを抽出し、除外パスリスト183として出力する。
FIG. 18 is a configuration diagram of the duplicate Web site detection apparatus according to the fifth embodiment of the present invention. In FIG. 18, the first duplicate Web site detection apparatus 181 corresponds to any one of the first to fourth embodiments described above, but the point that the list of sites determined not to be duplicated is output as a non-duplicate site set is described above. This is different from the first to fourth embodiments. The excluded path extracting unit 182 extracts a path having an appearance frequency higher than a predetermined value from the intra-site paths hit in the non-overlapping site set, and outputs the extracted path as an excluded
第2の重複Webサイト検出装置184は、以上の実施の形態1〜4のいずれかに相当するが、Webページコンテンツ7を再度処理する際に、除外パスリスト183に格納されたサイト内パスについては無視する点が上記の実施の形態1〜4と異なっている。
The second duplicate Web site detection apparatus 184 corresponds to any one of the above-described first to fourth embodiments, but the intra-site path stored in the excluded
図18の構成においては、第1の重複Webサイト検出装置181と第2の重複Webサイト検出装置184とを別々の装置として記載したが、これに限定されない。除外パスリスト183の出力を第1の重複Webサイト検出装置181にフィードバックすることにより、1台の重複Webサイト検出装置により同等の効果を得ることができる。さらに、除外パスリスト183による抽出処理を、出現頻度が所定値よりも高いものがなくなるまで繰り返し処理することも可能である。
In the configuration of FIG. 18, the first duplicate website detection device 181 and the second duplicate website detection device 184 are described as separate devices, but the present invention is not limited to this. By feeding back the output of the excluded
実施の形態5によれば、除外パス抽出手段と第2の重複サイト検出手段を設けたので、全く関連性のないサイトであっても共通することのあるパス(例えばWebサーバソフトウェアのマニュアルページなど)の影響を排除し、誤って重複サイトと判定するのを防ぐことができる。 According to the fifth embodiment, since the excluded path extracting unit and the second duplicate site detecting unit are provided, a path that may be common even if the site is completely unrelated (for example, a manual page of Web server software) ) Can be eliminated, and it can be prevented that a duplicate site is erroneously determined.
なお、実施の形態1〜5に示した重複Webサイト検出装置は、次のような応用が可能である。各重複サイト集合について、サイト名の代表を一つ選択し、重複サイト名を代表サイト名に変換するデータベースを備えたシステムに適用できる。 The duplicate Web site detection apparatus shown in the first to fifth embodiments can be applied as follows. For each duplicate site set, one representative site name can be selected and applied to a system having a database that converts the duplicate site name into the representative site name.
また、代表サイト名に変換するデータベースを参照して、ネットワーク経由で取得したWeb文書に含まれるリンクのURLを変換しつつ、Web文書の取得を繰り返すWebクローラからなるシステム、およびWeb文書収集方法に適用できる。 In addition, a system including a Web crawler that repeatedly acquires a Web document while converting a URL of a link included in the Web document acquired via the network with reference to a database to be converted into a representative site name, and a Web document collection method Applicable.
さらに、代表サイト名に変換するデータベースを参照して、ネットワーク経由で取得したWeb文書に含まれるリンクのURLを変換しつつ、Web文書の取得を繰り返すWebクローラと、取得したWeb文書から重複サイト検出を行い、代表サイト名に変換するデータベースを更新する手段を有するシステム、およびWeb文書収集方法にも適用できる。 Furthermore, referring to a database to be converted into a representative site name, a Web crawler that repeatedly acquires a Web document while converting a URL of a link included in the Web document acquired via the network, and a duplicate site detection from the acquired Web document And a system having means for updating a database to be converted into a representative site name, and a Web document collection method.
1 前処理手段、1a Webページ選択手段、2 第1のソート手段、3 タグ付与手段、3a 複数タグ付与手段、4 第2のソート手段、5 計数手段、5a ドメイン計数手段、6、6a 判定手段、9 マージ手段、10 重複サイト集合検出手段、181 第1の重複Webサイト検出装置、182 除外パス抽出手段、184 第2の重複Webサイト検出装置。
DESCRIPTION OF
Claims (8)
生成されたそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、コンテンツハッシュ値が一致する列の数が第1所定値以上であり、かつコンテンツハッシュ値が一致しない列の数が第2所定値未満である複数行を重複サイト集合として検出する重複サイト集合検出手段と
を備えたことを特徴とする重複Webサイト検出装置。 Preprocessing means for generating site information by extracting content hash values, site names, and intra-site paths corresponding to URLs of respective sites from Web page information;
Based on each of the generated site information, a matrix having a content hash value as an element is formed using the site name as a row, the intra-site path as a column index, and the number of columns with the matching content hash value is the first. 1. A duplicate Web set comprising: a duplicate site set detection means for detecting, as a duplicate site set , a plurality of rows in which the number of columns that are equal to or greater than one predetermined value and whose content hash values do not match is less than a second predetermined value. Site detection device.
前記重複サイト集合検出手段は、前記サイト情報の中の前記コンテンツハッシュ値または前記サイト名の少なくとも1つが重複するURLに対して同一のタグを生成し、前記同一のタグに含まれているサイト名を重複サイト候補集合とし、前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、コンテンツハッシュ値が一致する列の数が第1所定値以上であり、かつコンテンツハッシュ値が一致しない列の数が第2所定値未満である重複サイト候補集合を重複サイト集合として検出することを特徴とする重複Webサイト検出装置。 The duplicate website detection device according to claim 1,
The duplicate site set detection means generates the same tag for a URL where at least one of the content hash value or the site name in the site information is duplicated, and the site name included in the same tag Is a duplication site candidate set, and based on the respective site information corresponding to the duplication site candidate set, a matrix having a content hash value as an element with the site name as a row and the intra-site path as a column index is constructed. Detecting a duplicate site candidate set in which the number of columns with matching content hash values is equal to or greater than a first predetermined value and the number of columns with mismatching content hash values is less than a second predetermined value as a duplicate site set. A duplicate Web site detection device as a feature.
前記重複サイト集合検出手段は、
前記前処理手段で取り出されたそれぞれの前記サイト情報を前記サイト名および前記サイト内パスの文字列順に並び替える第1のソート手段と、
並び替えられたそれぞれの前記サイト情報に対して、前記サイト内パスと前記コンテンツハッシュ値との組からなるタグを生成するとともに、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられた先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成し、生成したタグをサイト情報に付与するタグ付与手段と、
前記タグが付与されたサイト情報を前記タグの文字列順に並び替えることにより、同一のタグが付されたサイト情報に含まれているサイト名を重複サイト候補集合として抽出する第2のソート手段と
抽出されたそれぞれの前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、それぞれの列毎に、対応するコンテンツハッシュ値の種類および同一種類の出現頻度を計数し、前記種類が1であり前記出現頻度が2以上かつ前記重複サイト候補集合に含まれるサイト名の種類に対する所定の割合以上である列を一致列として計数し、前記種類が2以上である列を不一致列として計数する計数手段と、
前記計数手段で計数された前記一致列および前記不一致列の数に基づいて、前記一致列の数が第1所定値以上であり前記不一致列の数が第2所定値未満である場合に前記重複サイト候補集合を重複サイト集合として検出する判定手段と
を備えたことを特徴とする重複Webサイト検出装置。 The duplicate Web site detection apparatus according to claim 2,
The duplicate site set detection means includes:
First sorting means for rearranging each of the site information retrieved by the preprocessing means in order of character strings of the site name and the path within the site;
For each of the rearranged site information, a tag including a set of the intra-site path and the content hash value is generated, and a plurality of site information having the same site name is ordered in a character string order. A tag adding means for generating the same tag composed of a set of an in-site path and a content hash value corresponding to the sorted first site information, and adding the generated tag to the site information;
Second sorting means for extracting the site names included in the site information with the same tag as a duplicate site candidate set by rearranging the site information with the tag attached in the order of the character strings of the tags; Based on each of the site information corresponding to each of the extracted duplicate site candidate set, configure a matrix having the site name as a row, the intra-site path as a column index, and a content hash value as an element, For each column, the type of the corresponding content hash value and the appearance frequency of the same type are counted, and a predetermined value for the type of site name included in the duplicate site candidate set, the type being 1 and the appearance frequency being 2 or more. Counting means for counting columns that are equal to or greater than the percentage as matching columns, and counting columns that are two or more of the types as mismatching columns;
Based on the number of matched columns and mismatched columns counted by the counting means, the number of matched columns is equal to or greater than a first predetermined value and the number of mismatched columns is less than a second predetermined value. A duplicate Web site detection apparatus comprising: a determination unit that detects a site candidate set as a duplicate site set.
前記重複サイト集合検出手段は、
抽出されたそれぞれの前記重複サイト候補集合に含まれるサイト名に対して、それぞれのサイト名の「.」で区切られたドメイン名部分ごとにドメイン出現頻度を計数するドメイン計数手段をさらに備え、
前記判定手段は、前記計数手段で計数された前記一致列および前記不一致列の数を、前記ドメイン計数手段で計数されたドメイン出現頻度が前記重複サイト候補集合に含まれるサイト数の所定割合以上となるドメイン名部分が所定値以上か否かに基づいて補正し、補正後の一致列の数が第1所定値以上であり補正後の不一致列の数が第2所定値未満である場合に前記重複サイト候補集合に含まれているサイト名を重複サイト集合として検出する
ことを特徴とする重複Webサイト検出装置。 The duplicate Web site detection apparatus according to claim 3,
The duplicate site set detection means includes:
Domain count means for counting the domain appearance frequency for each domain name portion delimited by “.” Of each site name for the site names included in each of the extracted duplicate site candidate sets,
The determination means includes the number of the matched columns and the mismatched columns counted by the counting unit, and the domain appearance frequency counted by the domain counting unit is not less than a predetermined ratio of the number of sites included in the duplicate site candidate set. When the number of matched columns after correction is equal to or greater than the first predetermined value and the number of mismatched columns after correction is less than the second predetermined value. A duplicate Web site detection apparatus that detects a site name included in a duplicate site candidate set as a duplicate site set.
前記タグ付与手段は、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられたサイト情報を複数のグループに分け、各グループの先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成することにより複数のタグを生成し、
前記判定手段で検出された重複サイト集合の中から同一のサイト名が含まれている重複サイト同士を1つの重複サイトに併合するマージ手段をさらに備えたことを特徴とする重複Webサイト検出装置。 In the duplication Web site detection device according to claim 3 or 4,
For the plurality of site information having the same site name, the tag assigning means divides the site information rearranged in the character string order into a plurality of groups, and an intra-site path corresponding to the head site information of each group Generate multiple tags by generating the same tag consisting of a pair with the content hash value,
Wherein characterized in that it further comprises a merging unit for merging into a single overlapping sites overlapping sites together contain the same site name from the duplicate set of sites that have been detected by the determination means duplicate Web site detecting apparatus.
前記前処理手段は、それぞれのサイトのURLに対応するサイト内パスおよびコンテンツ長の出現頻度を計数し、出現頻度が1回であるURLを削除した後に、前記サイト情報を生成することを特徴とする重複Webサイト検出装置。 The duplicate Web site detection device according to any one of claims 1 to 5,
The pre-processing means counts the frequency of appearance of the intra-site path and content length corresponding to the URL of each site, and generates the site information after deleting the URL with the appearance frequency of once. Duplicate Web site detection device.
前記重複サイト集合検出手段から、重複サイト集合として検出されなかった集合を非重複サイト集合として抽出し、前記非重複サイト集合内に含まれているサイト内パスの中から所定値以上の出現頻度を有するサイト内パスを除外パスリストとして抽出する除外パス抽出手段をさらに備え、
前記前処理手段、前記重複サイト集合検出手段、および前記除外パス抽出手段による前回の重複Webサイト検出処理において、前記除外パス抽出手段で前記除外パスリストが抽出されていた場合には、
前記前処理手段は、前記除外パスリストをフィードバックして読み込み、前記除外パスリストのサイト内パスを含むURLを削除した後に前記サイト情報を再度生成し、
前記重複サイト集合検出手段は、前記除外パスリストのサイト内パスを含むURLを削除した後に再度生成された前記サイト情報に基づいて重複サイト集合を再度検出する
ことを特徴とする重複Webサイト検出装置。 The duplicate Web site detection apparatus according to any one of claims 1 to 6,
From the duplicate site set detection means, a set that is not detected as a duplicate site set is extracted as a non-duplicate site set, and an appearance frequency equal to or higher than a predetermined value is selected from the intra-site paths included in the non-duplicate site set. The system further comprises an exclusion path extraction means for extracting the in-site path as an exclusion path list,
The preprocessing means, the overlapping set of sites detection means, and in the last duplicated Web site detection process by the exclusion path extraction means, when the exclusion path list was Tei extracted by the exclusion path extraction means,
The preprocessing means feeds back the excluded path list, reads the URL including the site path in the excluded path list, and then generates the site information again .
The overlapping set of sites detection means, duplicate Web site detecting apparatus characterized by detecting a duplicate set of sites again based on the site information generated again after deleting a URL that contains the site path of the exclusion path list .
前記除外パス抽出手段により所定値以上の出現頻度を有するサイト内パスである前記除外パスリストが抽出されなくなるまで、前記除外パスリストに基づく前記前処理手段および前記重複サイト集合検出手段による一連の処理を繰り返し行う
ことを特徴とする重複Webサイト検出装置。 The duplicate Web site detection apparatus according to claim 7,
A series of processing by site path until said exclusion path list is no longer extracted is, the pre-processing means and the overlapping set of sites detection means based on the exclusion path list having a frequency higher than a predetermined value by the exclusion path extraction means The duplicate Web site detection apparatus characterized by repeating.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005026743A JP4610360B2 (en) | 2005-02-02 | 2005-02-02 | Duplicate website detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005026743A JP4610360B2 (en) | 2005-02-02 | 2005-02-02 | Duplicate website detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006215735A JP2006215735A (en) | 2006-08-17 |
JP4610360B2 true JP4610360B2 (en) | 2011-01-12 |
Family
ID=36978939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005026743A Active JP4610360B2 (en) | 2005-02-02 | 2005-02-02 | Duplicate website detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4610360B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7827166B2 (en) * | 2006-10-13 | 2010-11-02 | Yahoo! Inc. | Handling dynamic URLs in crawl for better coverage of unique content |
JP5174385B2 (en) * | 2007-07-05 | 2013-04-03 | 三菱電機株式会社 | Duplicate Web site dynamic detection device |
JP5127779B2 (en) * | 2009-06-10 | 2013-01-23 | 株式会社日立製作所 | Filtering device |
US9043306B2 (en) * | 2010-08-23 | 2015-05-26 | Microsoft Technology Licensing, Llc | Content signature notification |
CN102467572B (en) * | 2010-11-17 | 2013-10-02 | 英业达股份有限公司 | Data block inquiring method for supporting data de-duplication program |
JP6252223B2 (en) | 2014-02-14 | 2017-12-27 | 富士通株式会社 | Control method, receiving apparatus, and communication system |
KR102231722B1 (en) | 2019-03-28 | 2021-03-25 | 네이버클라우드 주식회사 | Apparatus and method for determining duplication of vulnerability |
CN111898013B (en) * | 2020-07-27 | 2024-03-19 | 绿盟科技集团股份有限公司 | Website monitoring method and device |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004264926A (en) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Device for finding out mirror site group on www, method for finding out mirror site, program for the method, and storage medium recording the program |
-
2005
- 2005-02-02 JP JP2005026743A patent/JP4610360B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004264926A (en) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Device for finding out mirror site group on www, method for finding out mirror site, program for the method, and storage medium recording the program |
Also Published As
Publication number | Publication date |
---|---|
JP2006215735A (en) | 2006-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4610360B2 (en) | Duplicate website detection device | |
US9558241B2 (en) | System and method for performing longest common prefix strings searches | |
Bar-Yossef et al. | Do not crawl in the DUST: Different URLs with similar text | |
US7818303B2 (en) | Web graph compression through scalable pattern mining | |
US7627613B1 (en) | Duplicate document detection in a web crawler system | |
JP4708436B2 (en) | Reliable document identification | |
CN108228710B (en) | Word segmentation method and device for URL | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
US6480838B1 (en) | System and method for searching electronic documents created with optical character recognition | |
CN106909609B (en) | Method for determining similar character strings, method and system for searching duplicate files | |
US8423885B1 (en) | Updating search engine document index based on calculated age of changed portions in a document | |
JP4114600B2 (en) | Variable length character string search device, variable length character string search method and program | |
CN104537107A (en) | URL storage matching method and device | |
US12118302B2 (en) | Regular expression searching | |
CN110889023A (en) | Distributed multifunctional search engine of elastic search | |
US8661069B1 (en) | Predictive-based clustering with representative redirect targets | |
CN110008419A (en) | Removing duplicate webpages method, device and equipment | |
CN103618742A (en) | Method and system for acquiring sub domain names and webmaster permission verification method | |
CN103617225A (en) | Associated webpage searching method and system | |
KR101556714B1 (en) | Method, system and computer readable recording medium for providing search results | |
JP2010272006A (en) | Relation extraction apparatus, relation extraction method and program | |
CN115391568A (en) | Entity classification method, system, terminal and storage medium based on knowledge graph | |
CN110147506B (en) | URL duplication eliminating method and device | |
US20200380048A1 (en) | Architecture and functional model of a generic data excavation engine | |
CN110543622A (en) | Text similarity detection method and device, electronic equipment and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100601 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101012 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101012 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131022 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S801 | Written request for registration of abandonment of right |
Free format text: JAPANESE INTERMEDIATE CODE: R311801 |
|
ABAN | Cancellation due to abandonment | ||
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |