JP5174385B2 - Duplicate Web site dynamic detection device - Google Patents

Duplicate Web site dynamic detection device Download PDF

Info

Publication number
JP5174385B2
JP5174385B2 JP2007177285A JP2007177285A JP5174385B2 JP 5174385 B2 JP5174385 B2 JP 5174385B2 JP 2007177285 A JP2007177285 A JP 2007177285A JP 2007177285 A JP2007177285 A JP 2007177285A JP 5174385 B2 JP5174385 B2 JP 5174385B2
Authority
JP
Japan
Prior art keywords
site
name
duplicate
path
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007177285A
Other languages
Japanese (ja)
Other versions
JP2009015636A (en
Inventor
孝之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007177285A priority Critical patent/JP5174385B2/en
Publication of JP2009015636A publication Critical patent/JP2009015636A/en
Application granted granted Critical
Publication of JP5174385B2 publication Critical patent/JP5174385B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、Webサイトの重複性判定をWebクローリングに追随して動的に行う重複Webサイト動的検出装置に関する。   The present invention relates to a duplicate web site dynamic detection apparatus that dynamically performs web site duplication determination following web crawling.

重複Webサイト(ミラーサイト)とは、URL(Uniform Resource Locator)のサイト名(ホスト名)部分だけが異なり、同一内容を持つWebページを提供するWebサイトの集合である。重複Webサイトが生じる原因は、負荷分散やバックアップを目的とした物理的なコピー、あるいは検索エンジンでのランキングを向上させるためにDNS(Domain Name System)へのホスト名の多重登録を行って論理的に多数のサイトに見せかける行為など、様々である。   A duplicate Web site (mirror site) is a set of Web sites that provide Web pages that have the same content but differ only in the site name (host name) portion of a URL (Uniform Resource Locator). The reason for the occurrence of the duplicate Web site is logical by copying multiple host names to DNS (Domain Name System) in order to improve the ranking of physical copies for the purpose of load distribution and backup, or search engines. The act of making it appear to many sites is various.

重複Webサイトを検出することで、検索エンジンの結果から重複を減らし、Webクローリングによる情報収集の効率、およびプロキシサーバやブラウザにおけるキャッシュヒット率を向上させることが期待される。   By detecting duplicate Web sites, it is expected to reduce duplication from the search engine results, improve the efficiency of information collection by Web crawling, and improve the cache hit rate in proxy servers and browsers.

従来の重複Webサイト検出装置では、Webクローリングにより収集されたWebページの集合を一括して分析し、URL文字列のパス名部分とWebページコンテンツのハッシュ値の共通性とに基づいて、2つ以上の複数サイトが重複Webサイトか否かを判定しているものがある(例えば、特許文献1参照)。   In the conventional duplicate Web site detection apparatus, a set of Web pages collected by Web crawling is collectively analyzed, and based on the commonality of the path name portion of the URL character string and the hash value of the Web page content, There is one that determines whether or not the above plural sites are duplicate Web sites (for example, see Patent Document 1).

また、URL文字列の類似性、IPアドレスの類似性、およびリンク先URLの共通性などを一括して分析し、それらの指標が基準値より高い場合には、2つのサイトが重複Webサイトであると判定するものがある(例えば、特許文献2参照)。   Also, URL character string similarity, IP address similarity, link URL commonality, etc. are collectively analyzed, and if these indices are higher than the reference value, the two sites are duplicate Web sites. There are some which are determined to be present (see, for example, Patent Document 2).

特開2006−215735号公報JP 2006-215735 A 特開2004−264926号公報JP 2004-264926 A

しかしながら、従来技術には次のような課題がある。
従来の重複Webサイト検出方法は、各Webページの情報が一括して与えられることを前提としており、Webクローリング中に発見した未知のWebサイトが重複Webサイトであるか否かを即座に判断できない。そのため、当該サイトが重複Webサイトであった場合には、他のWebサイトと同一内容のWebページを多数取得することになり、Webクローリングの効率低下を招くとともに、収集結果の統計的性質が現実から乖離してしまう。
However, the prior art has the following problems.
The conventional duplicate website detection method is based on the premise that information of each web page is given at once, and it is impossible to immediately determine whether an unknown website discovered during web crawling is a duplicate website. . Therefore, if the site is a duplicate website, a large number of web pages having the same content as other websites will be acquired, resulting in a decrease in the efficiency of web crawling and the statistical nature of the collected results. Will deviate from.

これに対して、新たに発見したWebサイトからのWebページ取得を少数に留めておき、Webクローリングを一度打ち切って重複Webサイト検出を実行する方法も考えられる。しかし、重複Webサイト検出は、Webページ情報全体の分析を必要とするため、実行時間(すなわち、Webクローリングの停止時間)が長くなり、急速に変化するWeb情報をタイムリに捉えることが困難になってしまう。   On the other hand, a method is also conceivable in which only a small number of web pages are acquired from newly discovered websites, and the crawling is terminated once to detect duplicate websites. However, since duplicate Web site detection requires analysis of the entire Web page information, the execution time (that is, Web crawling stop time) increases, making it difficult to capture rapidly changing Web information in a timely manner. End up.

本発明は上述のような課題を解決するためになされたもので、Webサイトの重複性判定をWebクローリングに追随して動的に行い、Web情報の効率的な収集と不要情報の除去を可能にする重複Webサイト動的検出装置を得ることを目的とする。   The present invention has been made to solve the above-described problems, and it is possible to dynamically determine the duplication of websites following web crawling, and to efficiently collect web information and remove unnecessary information. An object is to obtain a duplicate Web site dynamic detection apparatus.

本発明に係る重複Webサイト動的検出装置は、Webクローリング中に発見されたWebページのURLとコンテンツを受け取り、URLから取り出したサイト名およびパス名と、コンテンツから算出したコンテンツ特徴量とを対応付けてWebページ状態情報として記憶部に記憶させるとともに、コンテンツ特徴量とパス名の組が一致するサイト名の集合をコンテンツ特徴量およびパス名と対応付けて重複Webサイト候補情報として記憶部に記憶させる受付手段と、サイト名の集合に含まれるそれぞれのサイト名について、各サイト名に対応する全てのパス名とコンテンツ特徴量から、複数のサイト名に対して1つのコンテンツ特徴量のみを有するパス名の数(ヒット数)と、複数のサイト名に対して複数のコンテンツ特徴量を有するパス名の数(ミス数)を求め、ヒット数およびミス数が所定範囲にある場合にサイト名の集合を重複Webサイト集合として検出する判定手段とを備え、受付手段は、サイト名と、同一のサイト名を有する異なるパス名の数に相当するパス数と、パス数としてカウントされたパス名の中で、パス名とコンテンツ特徴量との組と同一の組合せが、異なるサイト名に存在するパス名の数に相当する重複パス数とを対応づけてWebサイト状態情報として記憶部にさらに記憶させ、判定手段は、サイト名の集合に含まれるそれぞれのサイト名に対応するパス数と、重複パス数に対するパス数の比とがともに所定範囲にある場合に重複Webサイト集合の検出を行うものである。

The duplicate Web site dynamic detection apparatus according to the present invention receives the URL and content of a Web page discovered during Web crawling, and associates the site name and path name extracted from the URL with the content feature amount calculated from the content At the same time, it is stored in the storage unit as Web page state information, and a set of site names in which the set of content feature values and path names match is associated with the content feature values and path names and stored as duplicate Web site candidate information in the storage unit. And a path having only one content feature amount for a plurality of site names from all path names and content feature amounts corresponding to each site name for each site name included in the set of site names. Number of names (number of hits) and multiple content features for multiple site names Path name determined number (misses) of hits and misses is a determining means for detecting a duplicate Web site set a set of site name when in the predetermined range, accepting means, and the site name, the same Among the number of paths corresponding to the number of different path names having the same site name and the path name counted as the number of paths, the same combination of the path name and the content feature amount exists in different site names. The number of duplicate paths corresponding to the number of path names is associated and further stored in the storage unit as Web site status information, and the determination means duplicates the number of paths corresponding to each site name included in the set of site names. When the ratio of the number of paths to the number of paths is within a predetermined range, a duplicate Web site set is detected .

本発明によれば、コンテンツ特徴量とパス名の組が一致するサイト名の集合をコンテンツ特徴量およびパス名と対応付けた重複Webサイト候補情報を維持して重複Webサイトの可能性があるサイト集合を随時把握できるようにするとともに、コンテンツ特徴量とパス名との対応関係に基づいて重複判定を行うことにより、Webサイトの重複性判定をWebクローリングに追随して動的に行い、Web情報の効率的な収集と不要情報の除去を可能にする重複Webサイト動的検出装置を得ることができる。   According to the present invention, a site having a possibility of a duplicate website by maintaining duplicate website candidate information in which a set of site names in which a set of content feature quantity and path name match is associated with the content feature quantity and path name. By making it possible to grasp a set at any time and performing duplication determination based on the correspondence between content feature quantities and path names, web site duplication determination is performed dynamically following web crawling, and Web information It is possible to obtain a duplicate Web site dynamic detection device that enables efficient collection and removal of unnecessary information.

以下、本発明の重複Webサイト動的検出装置の好適な実施の形態につき図面を用いて説明する。   Hereinafter, a preferred embodiment of a duplicate Web site dynamic detection apparatus according to the present invention will be described with reference to the drawings.

実施の形態1.
図1は、本発明の実施の形態1における重複Webサイト動的検出装置の構成図である。本実施の形態1における重複Webサイト動的検出装置は、受付手段1、記憶部2、判定手段6、および問合せ手段7で構成される。
Embodiment 1 FIG.
FIG. 1 is a configuration diagram of a duplicate Web site dynamic detection apparatus according to Embodiment 1 of the present invention. The duplicate Web site dynamic detection apparatus according to the first embodiment includes an accepting unit 1, a storage unit 2, a determining unit 6, and an inquiry unit 7.

さらに、記憶部2は、Webページ状態情報3、重複Webサイト候補情報4、およびWebサイト状態情報5が格納されている。また、このように構成された重複Webサイト動的検出装置は、Webクローラ8と接続される。   Further, the storage unit 2 stores Web page status information 3, duplicate Web site candidate information 4, and Web site status information 5. Further, the duplicate Web site dynamic detection apparatus configured as described above is connected to the Web crawler 8.

まず始めに、各構成要素の機能について説明する。
受付手段1は、Webクローラ8からWebページのURLとコンテンツを受け取り、記憶部2に格納されたWebページ状態情報3、重複Webサイト候補情報4、およびWebサイト状態情報5を更新する。また、受付手段1は、Webサイト状態情報5が一定の条件を満たす場合には、Webサイト名の集合を渡すことにより、判定手段6の動作を起動する。
First, the function of each component will be described.
The accepting unit 1 receives the URL and content of the Web page from the Web crawler 8, and updates the Web page state information 3, the duplicate Web site candidate information 4, and the Web site state information 5 stored in the storage unit 2. In addition, when the website state information 5 satisfies a certain condition, the reception unit 1 starts the operation of the determination unit 6 by passing a set of website names.

判定手段6は、受付手段1からWebサイト名の集合を受け取り、記憶部2に格納されたWebページ状態情報3を参照して、当該Webサイト集合が重複Webサイトであるか否かを判定する。そして、判定手段6は、当該Webサイト集合が重複Webサイトであると判定した場合には、記憶部2に格納されたWebサイト状態情報5を更新する。   The determination unit 6 receives a set of website names from the reception unit 1 and refers to the Web page state information 3 stored in the storage unit 2 to determine whether the website set is a duplicate website. . When the determination unit 6 determines that the Web site set is a duplicate Web site, the determination unit 6 updates the Web site state information 5 stored in the storage unit 2.

問合せ手段7は、Webクローラ8からWebサイト名を受け取り、記憶部2に格納されたWebサイト状態情報5を参照して、当該Webサイト名が重複Webサイトの別名(非正規名)である場合には、正規名に変換し、変換後の正規のWebサイト名をWebクローラ8に返す。   The inquiry means 7 receives the website name from the web crawler 8, refers to the website status information 5 stored in the storage unit 2, and the website name is an alias (non-canonical name) of the duplicate website. Is converted to a canonical name, and the converted canonical Web site name is returned to the Web crawler 8.

次に、図2〜図4を用いて、記憶部2内に格納されている各種情報について説明する。
図2は、本発明の実施の形態1における記憶部2に格納されたWebページ状態情報3の詳細を示した図である。Webページ状態情報3は、サイト名31、パス名32、およびコンテンツハッシュ値33で構成される。サイト名31およびパス名32は、URL文字列のサイト名(ホスト名)部分およびパス名部分をそれぞれ表す。
Next, various types of information stored in the storage unit 2 will be described with reference to FIGS.
FIG. 2 is a diagram showing details of the Web page state information 3 stored in the storage unit 2 according to Embodiment 1 of the present invention. The web page state information 3 includes a site name 31, a path name 32, and a content hash value 33. The site name 31 and the path name 32 represent the site name (host name) part and path name part of the URL character string, respectively.

Webページ状態情報3の各エントリは、Webページと1対1に対応しており、WebページのURLに対応するサイト名31およびパス名32の組で一意に識別される。Webクローラ8から同一URLのWebページを複数回受け取った際には、同一エントリがこのWebページ状態情報3に上書きされる。   Each entry of the Web page status information 3 has a one-to-one correspondence with the Web page, and is uniquely identified by a set of a site name 31 and a path name 32 corresponding to the URL of the Web page. When a Web page with the same URL is received a plurality of times from the Web crawler 8, the same entry is overwritten on the Web page status information 3.

また、Webページ状態情報3は、サイト名31が指定した値を持つ複数エントリを効率的に検索できるように構成されているものとする。このためには、例えば、公知のB−treeを用いて、各エントリをサイト名31とパス名32の組に基づいて整列された状態で維持すればよい。   Further, it is assumed that the Web page state information 3 is configured so that a plurality of entries having values designated by the site name 31 can be efficiently searched. For this purpose, for example, a known B-tree may be used to maintain each entry in an aligned state based on the set of the site name 31 and the path name 32.

コンテンツハッシュ値33は、Webページのコンテンツデータ全体にハッシュ関数を適用した結果の値である。ここで用いるハッシュ関数には、異なるコンテンツデータに対して同一のハッシュ値が対応する確率が実用上無視できるほど低いものが適しており、例えば、公知のMD5やSHA−1などを用いることができる。   The content hash value 33 is a value obtained by applying a hash function to the entire content data of the Web page. As the hash function used here, one having a probability that the same hash value corresponds to different content data is so low as to be practically negligible is suitable. For example, known MD5 or SHA-1 can be used. .

次に、図3は、本発明の実施の形態1における記憶部2に格納された重複Webサイト候補情報4の詳細を示した図である。重複Webサイト候補情報4は、コンテンツハッシュ値41、パス名42、および候補サイト集合43で構成される。重複Webサイト候補情報4の各エントリは、コンテンツハッシュ値41およびパス名42の組で一意に識別される。   Next, FIG. 3 is a diagram showing details of the duplicate Web site candidate information 4 stored in the storage unit 2 according to Embodiment 1 of the present invention. The duplicate Web site candidate information 4 includes a content hash value 41, a path name 42, and a candidate site set 43. Each entry of the duplicate Web site candidate information 4 is uniquely identified by a set of a content hash value 41 and a path name 42.

図3に示した重複Webサイト候補情報4は、先の図2に示したコンテンツハッシュ値33とパス名32の組に基づいてWebページ状態情報3のエントリを並べ替え、それぞれコンテンツハッシュ値41およびパス名42とする。さらに、図3に示した重複Webサイト候補情報4は、先の図2において同一のコンテンツハッシュ値33とパス名32の組を持つ複数エントリのサイト名31をまとめて、候補サイト集合43に格納している。   The duplicate Web site candidate information 4 shown in FIG. 3 rearranges the entries of the Web page state information 3 based on the set of the content hash value 33 and the path name 32 shown in FIG. The path name is 42. Further, the duplicate Web site candidate information 4 shown in FIG. 3 stores a plurality of entry site names 31 having the same content hash value 33 and path name 32 combination in FIG. doing.

次に、図4は、本発明の実施の形態1における記憶部2に格納されたWebサイト状態情報5の詳細を示した図である。Webサイト状態情報5は、サイト名51、パス数52、重複パス数53、および正規名54で構成される。Webサイト状態情報5の各エントリは、サイト名51で一意に識別される。パス数52は、先の図2におけるWebページ状態情報3のエントリの中のサイト名31が、図4におけるサイト名51と一致するものの数であり、当該Webサイトから取得したWebページ数を表す。   Next, FIG. 4 is a diagram showing details of the Web site state information 5 stored in the storage unit 2 according to Embodiment 1 of the present invention. The website status information 5 includes a site name 51, a path number 52, a duplicate path number 53, and a canonical name 54. Each entry of the Web site status information 5 is uniquely identified by a site name 51. The number of paths 52 is the number of the site names 31 in the entry of the Web page status information 3 in FIG. 2 that matches the site name 51 in FIG. 4, and represents the number of Web pages acquired from the Web site. .

また、重複パス数53は、先の図2におけるWebページ状態情報3のエントリの中のサイト名31が、図4におけるサイト名51と一致し、かつ、先の図2におけるパス名32とコンテンツハッシュ値33の組が、Webページ状態情報3全体で一意でないものの数である。すなわち、この重複パス数53は、パス数としてカウントされたパス名の中で、パス名とコンテンツハッシュ値との組と同一の組合せが、異なるサイト名に存在するパス名の数に相当し、重複Webサイト候補情報4のエントリの内、候補サイト集合43がサイト名51を含み、かつサイト名51と異なるサイト名を1つ以上含むものの数と等しい。   Further, the number 53 of duplicate paths indicates that the site name 31 in the entry of the Web page status information 3 in FIG. 2 matches the site name 51 in FIG. 4 and the path name 32 and content in the previous FIG. The set of hash values 33 is the number of items that are not unique in the entire Web page state information 3. That is, the number 53 of duplicate paths corresponds to the number of path names in which the same combination as the combination of the path name and the content hash value exists in different site names among the path names counted as the number of paths. Of the duplicate Web site candidate information 4 entries, the number of candidate site sets 43 includes the site name 51 and includes one or more site names different from the site name 51.

正規名54には、重複Webサイト集合に属するWebサイトにおいて、重複Webサイト集合の代表元のサイト名が設定される。代表元Webサイト自体、あるいは重複Webサイト集合に属さないWebサイトにおいては、正規名54は空文字列である。   The canonical name 54 is set to the name of the representative site of the duplicate website set in the duplicate website set. In the representative source website itself or a website that does not belong to the duplicate website set, the canonical name 54 is an empty string.

なお、符号1〜7で示された各手段および各情報は、CPU、メモリ、磁気ディスク装置、および通信インタフェースを備えた一般的なコンピュータで実現することができる。この場合、受付手段1、判定手段6、および問合せ手段7は、CPUに実行させるプログラムとして実現し、記憶部2は、磁気ディスク装置として実現する。   Each means and each information indicated by reference numerals 1 to 7 can be realized by a general computer having a CPU, a memory, a magnetic disk device, and a communication interface. In this case, the reception unit 1, the determination unit 6, and the inquiry unit 7 are realized as programs to be executed by the CPU, and the storage unit 2 is realized as a magnetic disk device.

次に、フローチャートを用いて、各手段の一連の動作について説明する。
まず始めに、受付手段1の動作を説明する。図5は、本発明の実施の形態1における受付手段1の動作の詳細を示すフローチャートである。まず、ステップS51において、受付手段1は、Webクローラ8からWebページのURL文字列とコンテンツデータを受け取り、URL文字列からサイト名とパス名を切り出して、それぞれ入力サイト名および入力パス名とする。さらに、受付手段1は、コンテンツデータ全体にハッシュ関数を適用してハッシュ値に変換し、入力コンテンツハッシュ値を生成する。
Next, a series of operations of each means will be described using a flowchart.
First, the operation of the accepting unit 1 will be described. FIG. 5 is a flowchart showing details of the operation of the accepting unit 1 according to Embodiment 1 of the present invention. First, in step S51, the accepting unit 1 receives a URL character string and content data of a Web page from the Web crawler 8, cuts out a site name and a path name from the URL character string, and sets them as an input site name and an input path name, respectively. . Further, the accepting unit 1 applies a hash function to the entire content data to convert it into a hash value, and generates an input content hash value.

次に、ステップS52において、受付手段1は、入力サイト名に対応するWebサイト状態情報5のエントリが存在するか否かを調べる。そして、存在しない場合には、受付手段1は、Webサイト状態情報5に新たなエントリを挿入し、サイト名51を入力サイト名に、パス数52および重複パス数53を0に、正規名54を空文字列にそれぞれ設定する。   Next, in step S52, the accepting unit 1 checks whether there is an entry of the website state information 5 corresponding to the input site name. If not, the accepting unit 1 inserts a new entry into the Web site status information 5, sets the site name 51 as the input site name, sets the number of paths 52 and the number of duplicate paths 53 to 0, and creates the canonical name 54. Is set to an empty string.

次に、ステップS53において、受付手段1は、入力サイト名および入力パス名に対応するWebページ状態情報3のエントリが存在するか否かを調べる。そして、存在する場合には、ステップS54に進み、存在しない場合には、ステップS55に進む。   Next, in step S53, the accepting unit 1 checks whether there is an entry of the Web page state information 3 corresponding to the input site name and the input path name. And when it exists, it progresses to step S54, and when it does not exist, it progresses to step S55.

ステップS54に進んだ場合には、受付手段1は、入力サイト名および入力パス名に対応するWebページ状態情報3のエントリにおけるコンテンツハッシュ値33の値を入力コンテンツハッシュ値と比較する。そして、両者が一致する場合には、動作を終了し、一致しない場合には、ステップS56に進む。   When the process proceeds to step S54, the accepting unit 1 compares the value of the content hash value 33 in the entry of the Web page state information 3 corresponding to the input site name and the input path name with the input content hash value. If the two match, the operation ends. If not, the process proceeds to step S56.

一方、先のステップS53の判断によりステップS55に進んだ場合には、受付手段1は、Webページ状態情報3に新たなエントリを挿入し、サイト名31、パス名32、およびコンテンツハッシュ値33をそれぞれ入力サイト名、入力パス名、および入力コンテンツハッシュ値に設定する。さらに、受付手段1は、入力サイト名に対応するWebサイト状態情報5のエントリにおいて、パス数52の値に1を加え、その後、ステップS58に進む。   On the other hand, when the process proceeds to step S55 based on the determination at the previous step S53, the accepting unit 1 inserts a new entry into the web page state information 3, and stores the site name 31, the path name 32, and the content hash value 33. Set the input site name, input path name, and input content hash value respectively. Further, the accepting unit 1 adds 1 to the value of the number of paths 52 in the entry of the website state information 5 corresponding to the input site name, and then proceeds to step S58.

先のステップS54の判断によりステップS56に進んだ場合には、受付手段1は、Webページ状態情報3の既存エントリのコンテンツハッシュ値33に対して、後述するコンテンツハッシュ値削除処理を実行する。さらに、続くステップS57において、受付手段1は、当該エントリのコンテンツハッシュ値33に入力コンテンツハッシュ値を設定することにより更新した後、ステップS58に進む。   When the process proceeds to step S56 as a result of the determination in the previous step S54, the accepting unit 1 executes a content hash value deletion process to be described later on the content hash value 33 of the existing entry of the Web page state information 3. Further, in the subsequent step S57, the accepting unit 1 updates the content hash value 33 of the entry by setting the input content hash value, and then proceeds to step S58.

次に、ステップS58において、受付手段1は、入力サイト名、入力パス名、および入力コンテンツハッシュ値に対して、後述するコンテンツハッシュ値挿入処理を実行し、動作を終了する。   Next, in step S58, the accepting unit 1 executes content hash value insertion processing described later on the input site name, input path name, and input content hash value, and ends the operation.

次に、先の図5のステップS56におけるコンテンツハッシュ値削除処理の詳細な動作を説明する。図6は、本発明の実施の形態1におけるコンテンツハッシュ値削除処理の動作の詳細を示すフローチャートである。   Next, the detailed operation of the content hash value deletion process in step S56 of FIG. 5 will be described. FIG. 6 is a flowchart showing details of the content hash value deletion processing in Embodiment 1 of the present invention.

まず、ステップS61において、受付手段1は、削除対象コンテンツハッシュ値および削除対象パス名(入力パス名に等しい)に対応する重複Webサイト候補情報4のエントリを検索し、当該エントリの候補サイト集合43に含まれる要素サイト数に応じて条件分岐する。要素サイト数が1に等しければ、ステップS62に、要素サイト数が2に等しければステップS63に、それ以外の場合にはステップS64にそれぞれ進む。   First, in step S61, the accepting unit 1 searches the duplicate Web site candidate information 4 entry corresponding to the deletion target content hash value and the deletion target path name (equal to the input path name), and the candidate site set 43 of the entry. Branches according to the number of element sites included in. If the number of element sites is equal to 1, the process proceeds to step S62. If the number of element sites is equal to 2, the process proceeds to step S63. Otherwise, the process proceeds to step S64.

先のステップS61の判断によりステップS62に進んだ場合には、受付手段1は、ステップS61で検索したエントリを重複Webサイト候補情報4から削除し、終了する。   If the process proceeds to step S62 based on the determination in step S61, the accepting unit 1 deletes the entry searched in step S61 from the duplicate Web site candidate information 4, and the process ends.

また、先のステップS61の判断によりステップS63に進んだ場合には、受付手段1は、ステップS61で検索したエントリの候補サイト集合43に格納された2つのサイト名に対し、それぞれに対応するWebサイト状態情報5のエントリの重複パス数53を1減少させ、ステップS65に進む。   If the process proceeds to step S63 by the determination in step S61, the accepting unit 1 performs Web corresponding to each of the two site names stored in the candidate site set 43 of the entry searched in step S61. The number 53 of duplicate paths in the entry of the site status information 5 is decreased by 1, and the process proceeds to step S65.

また、先のステップS61の判断によりステップS64に進んだ場合には、受付手段1は、削除対象サイト名(入力サイト名に等しい)に対応するWebサイト状態情報5のエントリの重複パス数53を1減少させ、ステップS65に進む。   If the process proceeds to step S64 based on the determination in step S61, the accepting unit 1 sets the number of duplicate paths 53 of the entry in the website state information 5 corresponding to the deletion target site name (equal to the input site name). Decrease by 1 and proceed to Step S65.

そして、ステップS65において、受付手段1は、先のステップS61で検索したエントリの候補サイト集合43から削除対象サイト名を取り除き、終了する。   In step S65, the accepting unit 1 removes the deletion target site name from the candidate site set 43 of the entry searched in the previous step S61, and the process ends.

上述のステップS61〜S65の動作により、重複Webサイト候補情報4およびWebサイト状態情報5は、削除対象コンテンツハッシュ値が挿入される前の状態に設定され、コンテンツハッシュ値の削除処理が完了する。   Through the operations in steps S61 to S65 described above, the duplicate website candidate information 4 and the website state information 5 are set to the state before the deletion target content hash value is inserted, and the content hash value deletion process is completed.

次に、先の図5のステップS58におけるコンテンツハッシュ値挿入処理の詳細な動作を説明する。図7は、本発明の実施の形態1におけるコンテンツハッシュ値挿入処理の動作の詳細を示すフローチャートである。   Next, the detailed operation of the content hash value insertion process in step S58 of FIG. 5 will be described. FIG. 7 is a flowchart showing details of the operation of the content hash value insertion process according to Embodiment 1 of the present invention.

まず、ステップS71において、受付手段1は、挿入対象コンテンツハッシュ値(入力コンテンツハッシュ値に等しい)および挿入対象パス名(入力パス名に等しい)に対応する重複Webサイト候補情報4のエントリを検索し、その結果に応じて条件分岐する。エントリが存在しなければステップS72に、エントリが存在し候補サイト集合43の要素サイト数が1に等しければステップS73に、それ以外の場合にはステップS74にそれぞれ進む。   First, in step S71, the accepting unit 1 searches for an entry of the duplicate Web site candidate information 4 corresponding to the insertion target content hash value (equal to the input content hash value) and the insertion target path name (equal to the input path name). And conditional branching according to the result. If there is no entry, the process proceeds to step S72. If there is an entry and the number of element sites in the candidate site set 43 is equal to 1, the process proceeds to step S73. Otherwise, the process proceeds to step S74.

先のステップS71の判断によりステップS72に進んだ場合には、受付手段1は、重複Webサイト候補情報4に新たなエントリを挿入し、コンテンツハッシュ値41に挿入対象コンテンツハッシュ値を、パス名42に挿入対象パス名を、候補サイト集合43に挿入対象サイト名(入力サイト名に等しい)をそれぞれ設定し、終了する。   When the process proceeds to step S72 based on the determination at the previous step S71, the accepting unit 1 inserts a new entry into the duplicate Web site candidate information 4, sets the content hash value to be inserted into the content hash value 41, and the path name 42. Is set to the insertion target path name, and the candidate site set 43 is set to the insertion target site name (equal to the input site name).

また、先のステップS71の判断によりステップS73に進んだ場合には、受付手段1は、ステップS71で検索した重複Webサイト候補情報4のエントリの候補サイト集合43の単一要素サイト名に対応するWebサイト状態情報5のエントリを検索し、当該エントリの重複パス数53に1を加え、ステップS74に進む。   If the process proceeds to step S73 based on the determination in step S71, the accepting unit 1 corresponds to the single element site name of the candidate site set 43 of the duplicate Web site candidate information 4 entry searched in step S71. The entry of the Web site status information 5 is searched, 1 is added to the number 53 of duplicate paths of the entry, and the process proceeds to step S74.

次に、ステップS74において、受付手段1は、挿入対象サイト名に対応するWebサイト状態情報5のエントリを検索し、当該エントリの重複パス数53に1を加えるとともに、ステップS71で検索した重複Webサイト候補情報4のエントリの候補サイト集合43に挿入対象サイト名を追加する。   Next, in step S74, the accepting unit 1 searches for an entry of the website status information 5 corresponding to the insertion target site name, adds 1 to the duplicate path number 53 of the entry, and duplicate web searched in step S71. The insertion target site name is added to the candidate site set 43 of the entry of the site candidate information 4.

さらに、ステップS75において、受付手段1は、候補サイト集合43の各要素サイト名に対応するWebサイト状態情報5のエントリを検索し、各エントリにおける重複パス数53の値と、重複パス数53のパス数52に対する比を求め、それぞれに対する閾値と比較する。全てのエントリにおいて2つの値が閾値以上の場合には、ステップS76に進み、そうでない場合には、終了する。ただし、このステップS75の判断において、正規名54が空文字列でないエントリは無視し、正規名54が空文字列のエントリが1つ以下であれば終了する。   Further, in step S75, the accepting unit 1 searches for an entry of the Web site state information 5 corresponding to each element site name in the candidate site set 43, and the value of the number of duplicate paths 53 in each entry and the number of duplicate paths 53. A ratio for the number of passes 52 is obtained and compared with a threshold value for each. If the two values are equal to or larger than the threshold value in all entries, the process proceeds to step S76, and if not, the process ends. However, in the determination of step S75, the entry whose canonical name 54 is not an empty character string is ignored, and the process ends if the canonical name 54 has one or less entries of the empty character string.

先のステップS75の判断によりステップS76に進んだ場合には、受付手段1は、候補サイト集合43の複数サイト名の内、対応するWebサイト状態情報5の正規名54が空文字列のものを渡して判定手段6の動作を起動し、終了する。   When the process proceeds to step S76 as a result of the previous determination in step S75, the accepting means 1 passes the name of the canonical site 54 of the corresponding website status information 5 among the plurality of site names in the candidate site set 43. Then, the operation of the judging means 6 is started and finished.

ここで、ステップS75における閾値としては、例えば、重複パス数53については3、重複パス数53のパス数52に対する比については0.4とする。ステップS75の目的は、判定手段6により重複Webサイトでないと判定されることが明らかな候補サイト集合に対する判定を回避することである。   Here, for example, the threshold value in step S75 is 3 for the number 53 of overlapping paths and 0.4 for the ratio of the number 53 of overlapping paths to the number 52 of paths. The purpose of step S75 is to avoid determination on a candidate site set that is clearly determined not to be a duplicate Web site by the determination means 6.

次に、判定手段6の動作を説明する。図8は、本発明の実施の形態1における判定手段6の動作の詳細を示すフローチャートである。このフローチャートは、先の図7のステップS76で起動される。そして、ステップS81において、判定手段6は、Webページ状態情報3のエントリの内、サイト名31が受け取った候補サイト集合に属する各サイト名のいずれかと一致するものについて、パス名32とコンテンツハッシュ値33の値の組毎に出現頻度を数える。   Next, the operation of the determination unit 6 will be described. FIG. 8 is a flowchart showing details of the operation of the determination means 6 in Embodiment 1 of the present invention. This flowchart is started in step S76 of FIG. Then, in step S81, the determination means 6 uses the path name 32 and the content hash value for the entry of the Web page status information 3 that matches any of the site names belonging to the candidate site set received by the site name 31. The appearance frequency is counted for each set of 33 values.

続くステップS82において、判定手段6は、パス名の種類と、2種類以上のコンテンツハッシュ値が対応しているパス名の種類(ミス)とを数え、後者の前者に対する割合をミス率として算出する。そして、ミス率がある第1の所定閾値以上である場合には、判定手段6は、判定結果は偽であるとし、処理を終了する。一方、ミス率が第1の所定閾値未満である場合には、ステップS83に進む。   In subsequent step S82, the determination means 6 counts the path name type and the path name type (miss) corresponding to two or more content hash values, and calculates the ratio of the latter as the miss rate. . If the miss rate is greater than or equal to the first predetermined threshold, the determination unit 6 determines that the determination result is false and ends the process. On the other hand, if the miss rate is less than the first predetermined threshold, the process proceeds to step S83.

次に、ステップS83において、判定手段6は、1種類のコンテンツハッシュ値が対応するパス名について、出現頻度(サイト数)が2以上であり、かつ候補サイト集合要素数の一定割合以上となっているもの(ヒット)を数え、ヒット数として算出する。そして、判定手段6は、ヒット数がある第2の所定閾値未満である場合には、判定結果は偽であるとし、処理を終了する。   Next, in step S83, the determination means 6 has an appearance frequency (number of sites) of 2 or more and a certain ratio or more of the number of candidate site set elements for a path name corresponding to one type of content hash value. Count the number of hits (hits) and calculate the number of hits. Then, when the number of hits is less than the second predetermined threshold, the determination unit 6 determines that the determination result is false and ends the process.

なお、ステップS83の判断において、判定手段6は、1種類のコンテンツハッシュ値が対応するパス名について、出現頻度(サイト数)が所定数以上であることのみを条件としてヒットとすることもできる。   In the determination in step S83, the determination unit 6 can also use the path name corresponding to one type of content hash value as a hit only on condition that the appearance frequency (the number of sites) is a predetermined number or more.

一方、ヒット数のパス名の種類に対する割合(ヒット率)が第3の所定閾値未満である場合にも、判定手段6は、判定結果は偽であるとし、処理を終了する。ヒット数が第2の所定閾値以上であり、かつヒット率が第3の所定閾値以上である場合には、判定手段6は、判定結果は真であるとして、ステップS84に進む。   On the other hand, even when the ratio of the number of hits to the type of path name (hit rate) is less than the third predetermined threshold, the determination unit 6 determines that the determination result is false and ends the process. If the number of hits is equal to or greater than the second predetermined threshold and the hit rate is equal to or greater than the third predetermined threshold, the determination unit 6 determines that the determination result is true and proceeds to step S84.

ここで、ヒット数に対する第2の所定閾値およびヒット率に対する第3の所定閾値は、先の図7のステップS75における重複パス数に対する閾値および重複パス数のパス数に対する比に対する閾値と対応しており、それぞれ同じ値を用いる(例えば、ステップS75での説明と同様に、3と0.4を用いることができる)。   Here, the second predetermined threshold for the number of hits and the third predetermined threshold for the hit rate correspond to the threshold for the number of overlapping paths and the threshold for the ratio of the number of overlapping paths to the number of paths in step S75 of FIG. And the same value is used (for example, 3 and 0.4 can be used similarly to the description in step S75).

次に、ステップS84において、判定手段6は、候補サイト集合から代表元のサイト名を1つ選択し、代表元以外のサイト名に対応するWebサイト状態情報5のエントリの正規名54に代表元のサイト名を設定し、終了する。   Next, in step S84, the determination unit 6 selects one representative site name from the candidate site set, and displays the representative name in the canonical name 54 of the entry of the website state information 5 corresponding to the site name other than the representative source. Set the site name of and exit.

ここで、候補サイト集合から代表元を選択する際には、各要素のサイト名にスコアを付与し、その順位が最も高いもの(値が最も小さいもの)を選択するものとする。図9は、本発明の実施の形態1におけるサイト名に対するスコアの例を示した図である。図9に示すように、サイト名の文字列パターンに応じて、サイト名文字列長およびドメインレベル数によりあらかじめ規定されるサイト名スコアを計算式として用意しておき、このスコア計算式を正規サイト名の選択に用いる。   Here, when selecting a representative from the candidate site set, a score is assigned to the site name of each element, and the one with the highest rank (the one with the smallest value) is selected. FIG. 9 is a diagram showing an example of scores for site names in Embodiment 1 of the present invention. As shown in FIG. 9, a site name score defined in advance by the site name character string length and the number of domain levels is prepared as a calculation formula according to the character string pattern of the site name, and this score calculation formula is used as a regular site. Used for name selection.

より具体的には、適用優先度順にサイト名全体の文字列パターンを照合し、最初に適合した行のサイト名スコア計算式を用いる。ただし、ドメインレベル数は“.”で区切られたドメイン名要素の数とする。なお、スコアが同一のサイト名は、文字列順で先頭に来るものを優先する。   More specifically, the character string pattern of the entire site name is collated in order of application priority, and the site name score calculation formula of the first matching row is used. However, the number of domain levels is the number of domain name elements separated by “.”. For site names with the same score, the one that comes first in the order of character strings is given priority.

図10は、本発明の実施の形態1における判定手段6の動作の意味を示す概念図である。先の図8のフローチャートによる一連の動作は、図10に示すように、サイト名31を各行に、パス名32を各列に対応させてコンテンツハッシュ値33を並べた行列において、列毎にヒットおよびミスの判定を行なって、それぞれの数を数えることに等しい。   FIG. 10 is a conceptual diagram showing the meaning of the operation of the determination means 6 in Embodiment 1 of the present invention. As shown in FIG. 10, a series of operations according to the flowchart of FIG. 8 is performed by hitting each column in a matrix in which the site name 31 is associated with each row and the path name 32 is associated with each column and the content hash value 33 is arranged. It is equivalent to making a mistake determination and counting each number.

コンテンツハッシュ値がN/Aとなっている部分は、サイト名とパス名に対応するWebページをWebクローラ8から受け取っていないことを表している。Webクローラ8は、一般に、Webページ間のリンクを辿りながらWebページを収集するため、存在するWebページであってもアクセスしないことがあり得る。   The portion where the content hash value is N / A indicates that the Web page corresponding to the site name and the path name has not been received from the Web crawler 8. Since the Web crawler 8 generally collects Web pages while following links between Web pages, even an existing Web page may not be accessed.

図10の例では、パス名“/”に対しては、全てのコンテンツハッシュ値が等しく、種類=1、出現頻度=3となることからヒットとなる。また、パス名“/links.html”に対しては、サイトaaa.bbb.cccおよびzzz.www.aaaに対応する値が存在しないため、種類=1、出現頻度=1となってヒットでもミスでもないと見なされる。さらに、パス名“/news.html”に対しては、コンテンツハッシュ値の種類=2となるため、ミスとなる。   In the example of FIG. 10, the path name “/” is a hit because all content hash values are equal, type = 1, and appearance frequency = 3. For the path name “/links.html”, the site aaa. bbb. ccc and zzz. www. Since there is no value corresponding to aaa, the type = 1 and the appearance frequency = 1 are regarded as neither a hit nor a miss. Furthermore, for the path name “/news.html”, the type of content hash value = 2, which is a mistake.

次に、問合せ手段7の動作を説明する。図11は、本発明の実施の形態1における問合せ手段7の動作の詳細を示すフローチャートである。まず、ステップS111において、問合せ手段7は、Webクローラ8から問合せを受け付け、問合せ対象のサイト名を結果サイト名に設定する。   Next, the operation of the inquiry means 7 will be described. FIG. 11 is a flowchart showing details of the operation of the inquiry means 7 in the first embodiment of the present invention. First, in step S111, the inquiry unit 7 receives an inquiry from the Web crawler 8, and sets the site name to be inquired as a result site name.

次に、ステップS112において、問合せ手段7は、結果サイト名に対応するWebサイト状態情報5のエントリを検索し、エントリが存在しないか、または当該エントリの正規名54が空文字列である場合には、ステップS114に進む。一方、当該エントリの正規名54が空文字列でなくエントリが存在する場合には、問合せ手段7は、結果サイト名は重複Webサイトにおける非代表元であり、サイト名を変換する必要があると判断し、ステップS113に進む。   Next, in step S112, the inquiry unit 7 searches for an entry of the website state information 5 corresponding to the result site name, and if there is no entry or the canonical name 54 of the entry is an empty character string, The process proceeds to step S114. On the other hand, if the canonical name 54 of the entry is not an empty character string but an entry exists, the inquiry means 7 determines that the result site name is a non-representative source in a duplicate Web site and the site name needs to be converted. Then, the process proceeds to step S113.

そして、ステップS113において、問合せ手段7は、エントリの正規名54を結果サイト名に設定し、ステップS112に戻る。ここで、ステップS112の処理を繰り返すのは、ある重複Webサイトの代表元が、後に別の重複Webサイトに非代表元として含まれると判定される可能性があるためである。   In step S113, the inquiry unit 7 sets the canonical name 54 of the entry as the result site name, and returns to step S112. Here, the process of step S112 is repeated because there is a possibility that a representative source of a certain duplicate website is later included as a non-representative source in another duplicate website.

一方、先のステップS112の判断によりステップS114に進んだ場合には、問合せ手段7は、結果サイト名の値をWebクローラ8に返し、終了する。   On the other hand, when the process proceeds to step S114 based on the determination at the previous step S112, the inquiry unit 7 returns the value of the result site name to the web crawler 8 and ends.

Webクローラ8は、Webページからリンクを抽出したとき、あるいはWebページのダウンロードを開始する前に、それらのURLからサイト名を取り出し、問合せ手段7に渡して得られる結果で元のサイト名を置き換えることにより、重複Webサイトの非代表元へのアクセスを回避することができる。   When the web crawler 8 extracts a link from the web page or before starting the download of the web page, the web crawler 8 extracts the site name from the URL and replaces the original site name with the result obtained by passing to the inquiry means 7. As a result, it is possible to avoid access to non-representative sources of duplicate Web sites.

以上のように、実施の形態1によれば、WebクローラからWebページを順次受け付ける受付手段を備え、重複Webサイト候補情報を維持して重複Webサイトの可能性があるサイト集合を随時把握できるようにするとともに、Webサイト状態情報を維持して判定手段による重複判定の実施タイミングを制御することができる。この結果、Webクローリングに追随した動的な重複Webサイト検出を実現することができる。   As described above, according to the first embodiment, the reception unit that sequentially receives Web pages from the Web crawler is provided, so that it is possible to keep track of a set of sites that may be duplicate Web sites while maintaining the duplicate Web site candidate information. In addition, it is possible to control the execution timing of the overlap determination by the determination means while maintaining the website state information. As a result, it is possible to realize dynamic duplicate Web site detection following Web crawling.

さらに、重複Webサイト検出結果を問い合わせる問合せ手段を備えている。この結果、Webクローラに対して重複Webサイトの代表元以外からのWebページ収集を回避する手段を提供することができる。   Further, inquiry means for inquiring the duplicate Web site detection result is provided. As a result, it is possible to provide the Web crawler with a means for avoiding Web page collection from other than the representative of the duplicate Web site.

なお、上述の実施の形態1においては、コンテンツ特徴量の一例であるコンテンツハッシュ値を、コンテンツデータ全体に一方向性ハッシュ関数を適用した値としたが、別の算出法を用いることもできる。例えば、コンテンツがHTMLで記述されている場合に、HTMLのタグ、コメント、スクリプト、およびスタイルを取り除いた残りのテキストデータに対して一方向性ハッシュ関数を適用した値を、コンテンツ特徴量であるコンテンツハッシュ値としても、全体の構成や動作には影響しない。このようなコンテンツハッシュ値を適用することにより、Webページに含まれる広告などの可変要素を無視することが可能となり、より多くの重複Webサイトが検出可能になる効果がある。   In the first embodiment described above, the content hash value, which is an example of the content feature amount, is a value obtained by applying the one-way hash function to the entire content data. However, another calculation method may be used. For example, when the content is described in HTML, a value obtained by applying a one-way hash function to the remaining text data from which HTML tags, comments, scripts, and styles are removed is the content that is the content feature amount. The hash value does not affect the overall configuration or operation. By applying such a content hash value, it is possible to ignore variable elements such as advertisements included in the Web page, and there is an effect that more duplicate Web sites can be detected.

また、上述の実施の形態1では、サイト名の正規名を、パス数や重複パス数の情報とともに、Webサイト状態情報として記憶、管理する場合を説明した。しかしながら、パス数や重複パス数の管理とは別に、正規サイト名と残りのサイト名とを対応づけてWebサイト名関連情報として管理することによっても、問合せ手段を用いた正規サイト名の抽出が可能となる。   In the first embodiment described above, the case where the regular name of the site name is stored and managed as the website state information together with the information on the number of paths and the number of duplicate paths has been described. However, apart from managing the number of paths and the number of duplicate paths, it is also possible to extract the legitimate site name using the inquiry means by managing the website name related information by associating the legitimate site name with the remaining site name. It becomes possible.

実施の形態2.
先の実施の形態1では、全ての入力パス名に対して重複Webサイト候補情報4の候補サイト集合43を維持するため、Webサイト毎に収集範囲の偏りがあっても重複Webサイトの検出漏れを防ぐようにしていた。しかしながら、その一方で、重複Webサイト候補情報4のデータ量が大きくなり、更新負荷が高くなる問題がある。
Embodiment 2. FIG.
In the first embodiment, since the candidate site set 43 of the duplicate website candidate information 4 is maintained for all input path names, even if there is a bias in the collection range for each website, the duplicate website is not detected. I was trying to prevent. However, on the other hand, there is a problem that the data amount of the duplicate Web site candidate information 4 becomes large and the update load becomes high.

そこで、本実施の形態2では、入力パス名の全てではなく、一部だけを重複Webサイト候補情報4およびWebサイト状態情報5に反映する場合について説明する。より具体的には、入力パス名が特定パターンに合致しない場合には、受付手段1が図5のステップS55の後半の処理、ステップS56およびステップS58の処理を実行しないものとする。   Therefore, in the second embodiment, a case will be described in which only a part of the input path name is reflected in the duplicate website candidate information 4 and the website state information 5. More specifically, if the input path name does not match the specific pattern, it is assumed that the accepting unit 1 does not execute the latter half of step S55 in FIG. 5, the steps S56 and S58.

入力パス名の特定パターンとしては、例えば、部分文字列として“index”を含むものに合致するようにする。これにより、Webサイトの入り口として一般的なURLのみについて候補サイト集合43を維持し、重複Webサイト候補情報4のデータ量を大幅に削減することができる。なお、Webページ状態情報3は、全てのパス名に関する情報を含むので、判定手段6の動作には影響しない。   As the specific pattern of the input path name, for example, the input path name is matched with a pattern including “index” as a partial character string. Thereby, the candidate site set 43 can be maintained only for the general URL as the entrance of the Web site, and the data amount of the duplicate Web site candidate information 4 can be greatly reduced. Note that the Web page state information 3 includes information on all path names, and thus does not affect the operation of the determination unit 6.

また、入力パス名の特定パターンの別の例として、“/”を1つだけ含むものに合致するようにしてもよい。これにより、ディレクトリ最上位のパス名だけを反映することになる。一般に、Webページのリンクは、ディレクトリ上位のパス名を指し易い傾向にあるので、特定文字列を仮定することによる候補サイト集合の見逃しを防ぐことができる。   Further, as another example of the specific pattern of the input path name, it may be matched with one including only one “/”. As a result, only the top-level path name of the directory is reflected. In general, a link of a Web page tends to indicate a path name in the upper directory, so that it is possible to prevent a candidate site set from being overlooked by assuming a specific character string.

なお、更新負荷の削減策としては、入力パス名を特定パターンに限定する以外に、Webサイト状態情報5のパス数52の値に基づく実現も可能である。すなわち、パス数52が一定値に達した後は、入力パス名によらずステップS55の後半の処理、ステップS56およびステップS58の処理を実行しない。これは、入力パス名を値ではなく、先着順で制限することに相当し、パターンに基づく方式では避けられない見逃しの問題を解決することができる。   Note that the update load can be reduced based on the value of the number 52 of paths in the website status information 5 in addition to limiting the input path name to a specific pattern. That is, after the number of paths 52 reaches a certain value, the latter half of step S55, step S56 and step S58 are not executed regardless of the input path name. This is equivalent to restricting the input path name not in terms of value but in first-come-first-served basis, and can solve the problem of oversight that cannot be avoided in the pattern-based method.

以上のように、実施の形態2によれば、特定パターンを有する入力パス名に限定して、その入力パス名を重複Webサイト候補情報4およびWebサイト状態情報5に反映することができる。この結果、一般的なURLのみについて候補サイト集合を維持し、重複Webサイト候補情報のデータ量を大幅に削減することができる。   As described above, according to the second embodiment, the input path name can be reflected in the duplicate Web site candidate information 4 and the Web site state information 5 only for the input path name having the specific pattern. As a result, the candidate site set can be maintained only for general URLs, and the data amount of the duplicate Web site candidate information can be greatly reduced.

さらに、入力パス名の特定パターンではなく、入力パス名に対応するパス数が一定値に達する前に限定して、その入力パス名を重複Webサイト候補情報4およびWebサイト状態情報5に反映することができる。この結果、入力パス名を値ではなく、先着順で制限することができ、特定パターンに基づく方式では避けられない見逃しの問題を解決することができる。   Further, the input path name is reflected in the duplicate website candidate information 4 and the website status information 5 only before the number of paths corresponding to the input path name reaches a certain value, not the specific pattern of the input path name. be able to. As a result, the input path name can be limited not in terms of value but in the order of arrival, and the overlooked problem that cannot be avoided by the method based on the specific pattern can be solved.

実施の形態3.
本実施の形態3では、先の実施の形態1に加えて、候補サイト集合におけるサイト名の類似性を考慮し、類似サイト名からなる候補サイト集合に対してはコンテンツハッシュ値の不一致の許容範囲を広くし、重複Webサイトとして検出しやすくする場合について説明する。
Embodiment 3 FIG.
In the third embodiment, in addition to the first embodiment, considering the similarity of the site names in the candidate site set, the allowable range of content hash value mismatches for the candidate site set consisting of similar site names A case will be described in which it is easy to detect a duplicate Web site.

図12は、本発明の実施の形態3における判定手段6の動作の詳細を示すフローチャートである。本実施の形態3において、判定手段6は、先の実施の形態1で説明した図8のステップS81に先立ち、図12のフローチャートに示す動作を行う。   FIG. 12 is a flowchart showing details of the operation of the determination means 6 in Embodiment 3 of the present invention. In the third embodiment, the determination unit 6 performs the operation shown in the flowchart of FIG. 12 prior to step S81 of FIG. 8 described in the first embodiment.

まず、ステップS121において、判定手段6は、候補サイト集合の各サイト名についてドメインレベル数(“.”で区切られた構成要素数に相当)を求め、その最小値を最小ドメインレベル数とする。例えば、サイト名がxxx.yyy.zzzのとき、ドメインレベル数は、3である。   First, in step S121, the determination unit 6 obtains the number of domain levels (corresponding to the number of components delimited by “.”) For each site name of the candidate site set, and sets the minimum value as the minimum domain level number. For example, when the site name is xxx.yyy.zzz, the number of domain levels is 3.

次に、ステップS122において、判定手段6は、各サイト名の構成要素(例えば”xxx”、“yyy”、“zzz”のそれぞれ)毎にいくつのサイト名に含まれるかを求め、候補サイト集合の一定割合以上のサイト名に含まれるものを数えて頻出ドメインレベル数とする。   Next, in step S122, the determination unit 6 obtains how many site names are included in each site name component (for example, “xxx”, “yyy”, and “zzz”), and sets candidate site sets. Count the number of sites included in site names above a certain percentage of the number of frequent domain levels.

次に、ステップS123において、判定手段6は、頻出ドメインレベル数と最小ドメインレベル数とを比較し、頻出ドメインレベル数が最小ドメインレベル数より小さい場合には、終了する。一方、頻出ドメインレベル数が最小ドメインレベル数以上の場合には、ステップS124に進む。そして、ステップS124において、判定手段6は、候補サイト集合の要素数の対数に比例する係数をミス率の閾値に乗じ、当該係数の逆数をヒット数およびヒット率の閾値に乗じる。係数としては例えば、log(サイト数)×4.5などを用いる。   Next, in step S123, the determination means 6 compares the number of frequent domain levels with the minimum number of domain levels, and ends if the number of frequent domain levels is smaller than the minimum number of domain levels. On the other hand, if the frequent domain level number is greater than or equal to the minimum domain level number, the process proceeds to step S124. In step S124, the determination unit 6 multiplies the threshold of the miss rate by a coefficient proportional to the logarithm of the number of elements of the candidate site set, and multiplies the threshold of the hit number and hit rate by the reciprocal of the coefficient. For example, log (number of sites) × 4.5 is used as the coefficient.

このように、図12に示した一連の前処理を施すことにより、判定手段6は、サイト名の類似性に関する情報も利用して重複判定を行うことができる。特に、候補サイト集合内のサイト名が高い類似性を持つ場合に、閾値の範囲を広げ、重複と判定し易い条件を整えることで、大規模な重複サイトの検出漏れを防ぐことができる。   In this way, by performing the series of pre-processing shown in FIG. 12, the determination means 6 can perform duplication determination using information on the similarity of site names. In particular, when the site names in the candidate site set have high similarity, it is possible to prevent the detection of a large-scale duplicate site from being missed by expanding the threshold range and preparing conditions that make it easy to determine that there is a duplicate.

以上のように、実施の形態3によれば、サイト名の類似性に関する情報も利用し、類似性に応じて重複判定に用いる閾値を変更することができる。この結果、特に、高い類似性を持つ大規模な重複サイトの検出漏れを防ぐことができる。   As described above, according to the third embodiment, it is possible to change the threshold used for the duplication determination according to the similarity by using the information related to the similarity between the site names. As a result, it is possible to prevent omission of detection of a large-scale duplicate site having high similarity.

実施の形態4.
本実施の形態4では、先の実施の形態1に加えて、Webサイトがディレクトリ単位で重複しているときにも検出を可能にする場合について説明する。
Embodiment 4 FIG.
In the fourth embodiment, in addition to the first embodiment, a case will be described in which detection is possible even when Web sites are duplicated in directory units.

本実施の形態4において、受付手段1は、先の実施の形態1で説明した図5のステップS51において、受け取ったURLから入力サイト名および入力パス名を生成する際に、本来のサイト名とパス名だけでなく、サイト名にパス名の上位ディレクトリ名を連結した擬似的なサイト名と、上位ディレクトリ名が連結されていない残りのパス名の部分からなる擬似的なパス名とを生成する。   In the fourth embodiment, the accepting unit 1 generates the input site name and the input path name from the received URL in step S51 of FIG. In addition to the path name, generate a pseudo site name that concatenates the upper directory name of the path name to the site name, and a pseudo path name that consists of the remaining path name parts that are not concatenated with the upper directory name. .

すなわち、URL“http://aaa.bbb.ccc/〜user1/diary.html”に対し、サイト名“aaa.bbb.ccc”およびパス名“/〜user1/diary.html”だけでなく、擬似的なサイト名“aaa.bbb.ccc/〜user1”および擬似的なパス名“/diary.html”を生成する。これ以外の動作は、先の実施の形態1と同様である。   That is, for the URL “http: //aaa.bbb.ccc/˜user1/diary.html”, not only the site name “aaa.bbb.ccc” and path name “/˜user1/diary.html” but also pseudo A typical site name “aaa.bbb.ccc / ˜user1” and a pseudo path name “/diary.html” are generated. Other operations are the same as those in the first embodiment.

このように、擬似的なサイト名、擬似的なパス名をも考慮して重複判定を行うことにより、Webサイトの一部が重複している場合であっても検出することができ、Webクローリングの効率低下を防ぐことができる。   In this way, by performing duplication determination in consideration of a pseudo site name and a pseudo path name, even if a part of the web site is duplicated, it is possible to detect the web crawling. It is possible to prevent a decrease in efficiency.

以上のように、実施の形態4によれば、受け取ったURLから入力サイト名および入力パス名を生成する際に、擬似的なサイト名、擬似的なパス名も合わせて生成し、重複判定に利用している。この結果、Webサイトの一部が重複している場合にも確実に検出することができる。   As described above, according to the fourth embodiment, when the input site name and the input path name are generated from the received URL, the pseudo site name and the pseudo path name are also generated and used for duplication determination. We are using. As a result, even when a part of the website overlaps, it can be reliably detected.

実施の形態5.
本実施の形態5では、判定を誤る可能性の高いパス名を重複判定に使用しないようにする場合について説明する。
Embodiment 5 FIG.
In the fifth embodiment, a case will be described in which path names that are likely to be erroneously determined are not used for duplicate determination.

図13は、本発明の実施の形態5において、記憶部2に新たに格納される除外パス名情報9を示した図である。この除外パス名情報9は、除外パス名91の集合である。   FIG. 13 is a diagram showing excluded path name information 9 newly stored in the storage unit 2 in Embodiment 5 of the present invention. This excluded path name information 9 is a set of excluded path names 91.

判定手段6は、先の実施の形態1で説明した図8のステップS81において、Webページ状態情報3のエントリを検索する際に、パス名32が除外パス名91と一致するものを無視するようにする。   The determination unit 6 ignores the case where the path name 32 matches the excluded path name 91 when searching for the entry of the Web page state information 3 in step S81 of FIG. 8 described in the first embodiment. To.

また、判定手段6は、先の図8のステップS82やステップS83で判定結果が偽となった際に、ヒットしたパス名の内、出現するサイト名がある閾値以上(第2の所定範囲に相当)のものを見付け、除外パス名情報9に追加する。   In addition, when the determination result in step S82 or step S83 in FIG. 8 is false, the determination unit 6 has a site name that appears among the hit path names that is equal to or greater than a certain threshold (within a second predetermined range). Equivalent) and add it to the excluded path name information 9.

このように、除外パス名情報9を設けることにより、全く関連性のないWebサイトであっても共通することのあるパス名(例えば、Webサーバソフトウェアのマニュアルページなど)の影響を排除し、誤って重複サイトと判定することを防ぐことができる。   In this manner, by providing the excluded path name information 9, the influence of a path name (for example, a manual page of the Web server software) that may be common even if the website is completely unrelated is eliminated, and an error is caused. Therefore, it can be determined that the site is a duplicate site.

以上のように、実施の形態5によれば、除外パス名を考慮して重複判定処理を行うことができる。この結果、全く関連性のないWebサイトであるがパス名が共通するものを、重複サイトと誤判定することを防止することができ、判定精度の向上を図ることができる。   As described above, according to the fifth embodiment, duplication determination processing can be performed in consideration of an excluded path name. As a result, it is possible to prevent a web site that is completely unrelated but has a common path name from being erroneously determined as a duplicate site, and to improve the determination accuracy.

本発明の実施の形態1における重複Webサイト動的検出装置の構成図である。It is a block diagram of the duplicate Web site dynamic detection apparatus in Embodiment 1 of this invention. 本発明の実施の形態1における記憶部に格納されたWebページ状態情報の詳細を示した図である。It is the figure which showed the detail of the web page state information stored in the memory | storage part in Embodiment 1 of this invention. 本発明の実施の形態1における記憶部に格納された重複Webサイト候補情報の詳細を示した図である。It is the figure which showed the detail of the duplication Web site candidate information stored in the memory | storage part in Embodiment 1 of this invention. 本発明の実施の形態1における記憶部に格納されたWebサイト状態情報の詳細を示した図である。It is the figure which showed the detail of the website status information stored in the memory | storage part in Embodiment 1 of this invention. 本発明の実施の形態1における受付手段の動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of operation | movement of the reception means in Embodiment 1 of this invention. 本発明の実施の形態1におけるコンテンツハッシュ値削除処理の動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of operation | movement of the content hash value deletion process in Embodiment 1 of this invention. 本発明の実施の形態1におけるコンテンツハッシュ値挿入処理の動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of operation | movement of the content hash value insertion process in Embodiment 1 of this invention. 本発明の実施の形態1における判定手段の動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of operation | movement of the determination means in Embodiment 1 of this invention. 本発明の実施の形態1におけるサイト名に対するスコアの例を示した図である。It is the figure which showed the example of the score with respect to the site name in Embodiment 1 of this invention. 本発明の実施の形態1における判定手段の動作の意味を示す概念図である。It is a conceptual diagram which shows the meaning of operation | movement of the determination means in Embodiment 1 of this invention. 本発明の実施の形態1における問合せ手段の動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of operation | movement of the inquiry means in Embodiment 1 of this invention. 本発明の実施の形態3における判定手段の動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of operation | movement of the determination means in Embodiment 3 of this invention. 本発明の実施の形態5において、記憶部に新たに格納される除外パス名情報を示した図である。In Embodiment 5 of this invention, it is the figure which showed the exclusion path name information newly stored in a memory | storage part.

符号の説明Explanation of symbols

1 受付手段、2 記憶部、3 Webページ状態情報、31 サイト名、32 パス名、33 コンテンツハッシュ値(コンテンツ特徴量)、4 重複Webサイト候補情報、41 コンテンツハッシュ値、42 パス名、43 候補サイト集合、5 Webサイト状態情報、51 サイト名、52 パス数、53 重複パス数、54 正規名、6 判定手段、7 問合せ手段、8 Webクローラ、9 除外パス名情報、91 除外パス名。   DESCRIPTION OF SYMBOLS 1 Accepting means, 2 Storage unit, 3 Web page state information, 31 Site name, 32 Path name, 33 Content hash value (content feature amount), 4 Duplicate website candidate information, 41 Content hash value, 42 Path name, 43 candidate Site set, 5 Web site status information, 51 Site name, 52 Path count, 53 Duplicate path count, 54 Regular name, 6 Judgment means, 7 Inquiry means, 8 Web crawler, 9 Excluded path name information, 91 Excluded path name.

Claims (12)

Webクローリング中に発見されたWebページのURLとコンテンツを受け取り、前記URLから取り出したサイト名およびパス名と、前記コンテンツから算出したコンテンツ特徴量とを対応付けてWebページ状態情報として記憶部に記憶させるとともに、前記コンテンツ特徴量と前記パス名の組が一致するサイト名の集合を前記コンテンツ特徴量および前記パス名と対応付けて重複Webサイト候補情報として前記記憶部に記憶させる受付手段と、
前記サイト名の集合に含まれるそれぞれのサイト名について、各サイト名に対応する全てのパス名とコンテンツ特徴量から、複数のサイト名に対して1つのコンテンツ特徴量のみを有するパス名の数(ヒット数)と、複数のサイト名に対して複数のコンテンツ特徴量を有するパス名の数(ミス数)を求め、前記ヒット数および前記ミス数が所定範囲にある場合に前記サイト名の集合を重複Webサイト集合として検出する判定手段と
を備え
前記受付手段は、サイト名と、同一のサイト名を有する異なるパス名の数に相当するパス数と、前記パス数としてカウントされたパス名の中で、パス名とコンテンツ特徴量との組と同一の組合せが、異なるサイト名に存在するパス名の数に相当する重複パス数とを対応づけてWebサイト状態情報として前記記憶部にさらに記憶させ、
前記判定手段は、前記サイト名の集合に含まれるそれぞれのサイト名に対応する前記パス数と、前記重複パス数に対する前記パス数の比とがともに所定範囲にある場合に前記重複Webサイト集合の検出を行う
ことを特徴とする重複Webサイト動的検出装置。
The URL and content of the Web page discovered during Web crawling are received, and the site name and path name extracted from the URL are associated with the content feature amount calculated from the content and stored in the storage unit as Web page state information And a receiving unit that stores a set of site names in which the set of the content feature quantity and the path name match with each other in association with the content feature quantity and the path name, and stores it as duplicate Web site candidate information in the storage unit;
For each site name included in the set of site names, the number of path names having only one content feature amount for a plurality of site names from all path names and content feature amounts corresponding to each site name ( Number of path names having a plurality of content feature quantities for a plurality of site names (number of misses), and when the number of hits and the number of misses are within a predetermined range, Determination means for detecting as a duplicate Web site set ,
The reception means includes a site name, a path number corresponding to the number of different path names having the same site name, and a set of a path name and a content feature amount among the path names counted as the path number. The same combination is further stored in the storage unit as Web site state information in association with the number of duplicate paths corresponding to the number of path names existing in different site names,
The determination means determines the number of duplicate Web site sets when both the number of paths corresponding to each site name included in the set of site names and the ratio of the number of paths to the number of duplicate paths are within a predetermined range. A duplicate Web site dynamic detection apparatus that performs detection.
請求項1に記載の重複Webサイト動的検出装置において、
前記判定手段は、検出した前記重複Webサイト集合に含まれる1つのサイト名を正規サイト名として選択し、残りのサイト名と前記正規サイト名とを対応付けてWebサイト名関連情報として前記記憶部にさらに記憶させ、
Webクローリング中に発見されたWebページのサイト名を受け取り、前記サイト名に対応付けられた正規サイト名が前記記憶部内の前記Webサイト名関連情報に記憶されている場合には、前記サイト名に対応する前記正規サイト名を出力する問合せ手段をさらに備える
ことを特徴とする重複Webサイト動的検出装置。
In the duplicate Web site dynamic detection device according to claim 1,
The determination means selects one site name included in the detected duplicate Web site set as a normal site name, associates the remaining site name with the normal site name, and stores the storage unit as Web site name related information. To remember further,
When a site name of a web page discovered during web crawling is received, and a regular site name associated with the site name is stored in the website name related information in the storage unit, the site name A duplicate Web site dynamic detection apparatus further comprising inquiry means for outputting the corresponding regular site name.
請求項2に記載の重複Webサイト動的検出装置において、
前記判定手段は、前記重複Webサイト集合を検出する前処理として、前記サイト名の集合に含まれるそれぞれのサイト名に対応する正規サイト名が前記記憶部内の前記Webサイト名関連情報に記憶されている場合には、前記正規サイト名に対応するサイト名を前記サイト名の集合の中から取り除くことを特徴とする重複Webサイト動的検出装置。
In the duplicate Web site dynamic detection device according to claim 2,
As a pre-processing for detecting the duplicate Web site set, the determination means stores a regular site name corresponding to each site name included in the site name set in the Web site name related information in the storage unit. If there is, the duplicate Web site dynamic detection apparatus, wherein a site name corresponding to the regular site name is removed from the set of site names.
請求項2または3に記載の重複Webサイト動的検出装置において、
前記判定手段は、サイト名の文字列パターンおよびドメインレベル数によりあらかじめ規定されたスコア計算式に応じて、前記重複Webサイト集合に含まれるサイト名の中から最もスコアの高いサイト名を正規サイト名として選択することを特徴とする重複Webサイト動的検出装置。
In the duplicate Web site dynamic detection device according to claim 2 or 3,
The determination means selects the site name with the highest score from the site names included in the duplicate Web site set according to a score calculation formula defined in advance by the character string pattern of the site name and the number of domain levels. A duplicate Web site dynamic detection apparatus characterized by being selected as:
請求項1ないし4のいずれか1項に記載の重複Webサイト動的検出装置において、
前記判定手段は、全てのサイト名の数の所定割合以上である複数のサイト名に対して1つのコンテンツ特徴量のみを有するパス名の数をヒット数として数えることを特徴とする重複Webサイト動的検出装置。
The duplicate Web site dynamic detection device according to any one of claims 1 to 4,
The determination unit counts the number of path names having only one content feature amount as a hit number for a plurality of site names that are equal to or greater than a predetermined ratio of the number of all site names. Detection device.
請求項1ないし5のいずれか1項に記載の重複Webサイト動的検出装置において、
前記受付手段は、受け取ったコンテンツデータに一方向性ハッシュ関数を適用することにより前記コンテンツ特徴量を算出することを特徴とする重複Webサイト動的検出装置。
In the duplicate Web site dynamic detection device according to any one of claims 1 to 5,
The duplicate Web site dynamic detection apparatus, wherein the reception unit calculates the content feature amount by applying a one-way hash function to the received content data.
請求項1ないし5のいずれか1項に記載の重複Webサイト動的検出装置において、
前記受付手段は、受け取ったコンテンツデータからHTMLタグ、HTMLコメント、スクリプト、およびスタイルを取り除いた残りのデータに一方向性ハッシュ関数を適用することにより前記コンテンツ特徴量を算出することを特徴とする重複Webサイト動的検出装置。
In the duplicate Web site dynamic detection device according to any one of claims 1 to 5,
The receiving means calculates the content feature amount by applying a one-way hash function to the remaining data obtained by removing HTML tags, HTML comments, scripts, and styles from the received content data. Web site dynamic detection device.
請求項に記載の重複Webサイト動的検出装置において、
前記受付手段は、パス名が所定の文字列パターンに合致しない場合には、前記重複Webサイト候補情報として前記記憶部に記憶させず、前記パス名を前記パス数および前記重複パス数のカウント対象から除外することを特徴とする重複Webサイト動的検出装置。
In the duplicate Web site dynamic detection device according to claim 1 ,
If the path name does not match a predetermined character string pattern, the accepting unit does not store the path name as the duplicate Web site candidate information in the storage unit, and counts the path name and the number of duplicate paths. A duplicate Web site dynamic detection device characterized in that it is excluded from the above.
請求項に記載の重複Webサイト動的検出装置において、
前記受付手段は、Webクローリング中に発見されたWebページのサイト名が、パス数が所定の値に達している特定のサイト名と一致する場合には、前記重複Webサイト候補情報に含まれる前記サイト名の集合の要素として前記特定のサイト名と一致する前記サイト名を記憶させず、前記Webクローリング中に発見されたWebページのサイト名に対応するパス名を前記パス数および前記重複パス数のカウント対象から除外することを特徴とする重複Webサイト動的検出装置。
In the duplicate Web site dynamic detection device according to claim 1 ,
When the site name of a web page discovered during web crawling matches a specific site name whose number of passes has reached a predetermined value, the accepting unit includes the duplicate web site candidate information. The path name corresponding to the site name of the Web page discovered during the Web crawling is not stored as the element of the set of site names, and the path number corresponding to the site name of the Web page discovered during the Web crawling and the number of duplicate paths A duplicate Web site dynamic detection device, characterized in that it is excluded from the counting target.
請求項1ないしのいずれか1項に記載の重複Webサイト動的検出装置において、
前記判定手段は、前記サイト名の集合に含まれるそれぞれのサイト名について、各サイト名を構成要素に分割することによりそれぞれのサイト名の類似度を判定し、前記サイト名の集合の中に前記類似度が所定値以上となるサイト名が含まれていると判定した場合には、前記重複Webサイト集合を検出する際の前記ヒット数および前記ミス数に対する所定範囲を変更し、前記類似度の高いサイト名を重複Webサイトとして検出しやすくすることを特徴とする重複Webサイト動的検出装置。
In the duplicate Web site dynamic detection device according to any one of claims 1 to 9 ,
The determination means determines the similarity of each site name by dividing each site name into components for each site name included in the set of site names, and If it is determined that a site name having a similarity equal to or greater than a predetermined value is included, the predetermined range for the number of hits and the number of misses when detecting the duplicate Web site set is changed, and the similarity A duplicate Web site dynamic detection apparatus characterized by facilitating detection of a high site name as a duplicate Web site.
請求項1ないし10のいずれか1項に記載の重複Webサイト動的検出装置において、
前記受付手段は、受け取ったURLからサイト名およびパス名を取り出した際に、前記サイト名に前記パス名の上位ディレクトリ名を連結した擬似的なサイト名と、前記パス名において前記上位ディレクトリ名が連結されていない残りの部分からなる擬似的なパス名とを生成し、前記擬似的なサイト名および前記擬似的なパス名をそれぞれサイト名およびパス名に含めて扱うことを特徴とする重複Webサイト動的検出装置。
The duplicate Web site dynamic detection device according to any one of claims 1 to 10 ,
When the receiving unit extracts a site name and a path name from the received URL, a pseudo site name obtained by concatenating the site name with an upper directory name of the path name and the upper directory name in the path name are A duplicate Web characterized in that a pseudo path name consisting of the remaining parts that are not connected is generated, and the pseudo site name and the pseudo path name are included in the site name and path name, respectively. Site dynamic detection device.
請求項1ないし11のいずれか1項に記載の重複Webサイト動的検出装置において、
前記判定手段は、重複Webサイト集合として検出されなかったサイト名の集合について求めたヒット数が、第2の所定範囲内にある場合には、前記サイト名の集合に含まれるパス名を除外パス名として前記記憶部に記憶させ、Webクローリング中に発見されたWebページのパス名が前記除外パス名として記憶されているパス名と一致する場合には、前記パス名を重複Webサイト検出の際に参照しないことを特徴とする重複Webサイト動的検出装置。
The duplicate Web site dynamic detection device according to any one of claims 1 to 11 ,
The determination means excludes a path name included in the set of site names if the number of hits obtained for the set of site names not detected as a duplicate Web site set is within the second predetermined range. If the path name of the Web page discovered during Web crawling matches the path name stored as the excluded path name, the path name is detected when a duplicate Web site is detected. A duplicate Web site dynamic detection apparatus characterized by not being referred to.
JP2007177285A 2007-07-05 2007-07-05 Duplicate Web site dynamic detection device Expired - Fee Related JP5174385B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007177285A JP5174385B2 (en) 2007-07-05 2007-07-05 Duplicate Web site dynamic detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007177285A JP5174385B2 (en) 2007-07-05 2007-07-05 Duplicate Web site dynamic detection device

Publications (2)

Publication Number Publication Date
JP2009015636A JP2009015636A (en) 2009-01-22
JP5174385B2 true JP5174385B2 (en) 2013-04-03

Family

ID=40356460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007177285A Expired - Fee Related JP5174385B2 (en) 2007-07-05 2007-07-05 Duplicate Web site dynamic detection device

Country Status (1)

Country Link
JP (1) JP5174385B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898012A (en) * 2020-07-23 2020-11-06 昆山领创信息科技有限公司 Automatic packet grabbing method for WEB application

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3678985B2 (en) * 2000-08-25 2005-08-03 日本電信電話株式会社 Method and apparatus for automatically determining similarity between web pages, and medium storing the program
JP2003085202A (en) * 2001-09-13 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> Method and device for retrieving similar web page, its program and information recording medium with the same recorded
JP2004264926A (en) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Device for finding out mirror site group on www, method for finding out mirror site, program for the method, and storage medium recording the program
JP4610360B2 (en) * 2005-02-02 2011-01-12 三菱電機株式会社 Duplicate website detection device

Also Published As

Publication number Publication date
JP2009015636A (en) 2009-01-22

Similar Documents

Publication Publication Date Title
US8554759B1 (en) Selection of documents to place in search index
US8201081B2 (en) Systems and methods for processing inoperative document links
US9015214B2 (en) Process of generating a list of files added, changed, or deleted of a file server
US9292612B2 (en) Internet profile service
KR100619178B1 (en) Method and apparatus for detecting invalid clicks on the internet search engine
US7827166B2 (en) Handling dynamic URLs in crawl for better coverage of unique content
US7447684B2 (en) Determining searchable criteria of network resources based on a commonality of content
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US20090210369A1 (en) Systems and methods of predicting resource usefulness using universal resource locators
JP2015133151A (en) Federated community search
US20120233096A1 (en) Optimizing an index of web documents
CN110855636B (en) DNS hijacking detection method and device
US20120047153A1 (en) Method of and Apparatus for Identifying Machine-Generated Textual Identifiers
CN108900554B (en) HTTP asset detection method, system, device and computer medium
EP4088171A1 (en) System and method to dynamically generate a set of api endpoints
CN109547294B (en) Networking equipment model detection method and device based on firmware analysis
CN110889023A (en) Distributed multifunctional search engine of elastic search
JP4610360B2 (en) Duplicate website detection device
WO2024031884A1 (en) Method and apparatus for determining domain name homology, electronic device, and storage medium
CN103399872A (en) Method and device for optimizing webpage capture
CN111061972B (en) AC searching optimization method and device for URL path matching
AU2013206427A1 (en) System and method of analyzing web addresses
JP5174385B2 (en) Duplicate Web site dynamic detection device
US7886217B1 (en) Identification of web sites that contain session identifiers
EP2417536A1 (en) Domain status, purpose and categories

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121228

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees