JP5174385B2 - Duplicate Web site dynamic detection device - Google Patents
Duplicate Web site dynamic detection device Download PDFInfo
- Publication number
- JP5174385B2 JP5174385B2 JP2007177285A JP2007177285A JP5174385B2 JP 5174385 B2 JP5174385 B2 JP 5174385B2 JP 2007177285 A JP2007177285 A JP 2007177285A JP 2007177285 A JP2007177285 A JP 2007177285A JP 5174385 B2 JP5174385 B2 JP 5174385B2
- Authority
- JP
- Japan
- Prior art keywords
- site
- name
- duplicate
- path
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、Webサイトの重複性判定をWebクローリングに追随して動的に行う重複Webサイト動的検出装置に関する。 The present invention relates to a duplicate web site dynamic detection apparatus that dynamically performs web site duplication determination following web crawling.
重複Webサイト(ミラーサイト)とは、URL(Uniform Resource Locator)のサイト名(ホスト名)部分だけが異なり、同一内容を持つWebページを提供するWebサイトの集合である。重複Webサイトが生じる原因は、負荷分散やバックアップを目的とした物理的なコピー、あるいは検索エンジンでのランキングを向上させるためにDNS(Domain Name System)へのホスト名の多重登録を行って論理的に多数のサイトに見せかける行為など、様々である。 A duplicate Web site (mirror site) is a set of Web sites that provide Web pages that have the same content but differ only in the site name (host name) portion of a URL (Uniform Resource Locator). The reason for the occurrence of the duplicate Web site is logical by copying multiple host names to DNS (Domain Name System) in order to improve the ranking of physical copies for the purpose of load distribution and backup, or search engines. The act of making it appear to many sites is various.
重複Webサイトを検出することで、検索エンジンの結果から重複を減らし、Webクローリングによる情報収集の効率、およびプロキシサーバやブラウザにおけるキャッシュヒット率を向上させることが期待される。 By detecting duplicate Web sites, it is expected to reduce duplication from the search engine results, improve the efficiency of information collection by Web crawling, and improve the cache hit rate in proxy servers and browsers.
従来の重複Webサイト検出装置では、Webクローリングにより収集されたWebページの集合を一括して分析し、URL文字列のパス名部分とWebページコンテンツのハッシュ値の共通性とに基づいて、2つ以上の複数サイトが重複Webサイトか否かを判定しているものがある(例えば、特許文献1参照)。 In the conventional duplicate Web site detection apparatus, a set of Web pages collected by Web crawling is collectively analyzed, and based on the commonality of the path name portion of the URL character string and the hash value of the Web page content, There is one that determines whether or not the above plural sites are duplicate Web sites (for example, see Patent Document 1).
また、URL文字列の類似性、IPアドレスの類似性、およびリンク先URLの共通性などを一括して分析し、それらの指標が基準値より高い場合には、2つのサイトが重複Webサイトであると判定するものがある(例えば、特許文献2参照)。 Also, URL character string similarity, IP address similarity, link URL commonality, etc. are collectively analyzed, and if these indices are higher than the reference value, the two sites are duplicate Web sites. There are some which are determined to be present (see, for example, Patent Document 2).
しかしながら、従来技術には次のような課題がある。
従来の重複Webサイト検出方法は、各Webページの情報が一括して与えられることを前提としており、Webクローリング中に発見した未知のWebサイトが重複Webサイトであるか否かを即座に判断できない。そのため、当該サイトが重複Webサイトであった場合には、他のWebサイトと同一内容のWebページを多数取得することになり、Webクローリングの効率低下を招くとともに、収集結果の統計的性質が現実から乖離してしまう。
However, the prior art has the following problems.
The conventional duplicate website detection method is based on the premise that information of each web page is given at once, and it is impossible to immediately determine whether an unknown website discovered during web crawling is a duplicate website. . Therefore, if the site is a duplicate website, a large number of web pages having the same content as other websites will be acquired, resulting in a decrease in the efficiency of web crawling and the statistical nature of the collected results. Will deviate from.
これに対して、新たに発見したWebサイトからのWebページ取得を少数に留めておき、Webクローリングを一度打ち切って重複Webサイト検出を実行する方法も考えられる。しかし、重複Webサイト検出は、Webページ情報全体の分析を必要とするため、実行時間(すなわち、Webクローリングの停止時間)が長くなり、急速に変化するWeb情報をタイムリに捉えることが困難になってしまう。 On the other hand, a method is also conceivable in which only a small number of web pages are acquired from newly discovered websites, and the crawling is terminated once to detect duplicate websites. However, since duplicate Web site detection requires analysis of the entire Web page information, the execution time (that is, Web crawling stop time) increases, making it difficult to capture rapidly changing Web information in a timely manner. End up.
本発明は上述のような課題を解決するためになされたもので、Webサイトの重複性判定をWebクローリングに追随して動的に行い、Web情報の効率的な収集と不要情報の除去を可能にする重複Webサイト動的検出装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and it is possible to dynamically determine the duplication of websites following web crawling, and to efficiently collect web information and remove unnecessary information. An object is to obtain a duplicate Web site dynamic detection apparatus.
本発明に係る重複Webサイト動的検出装置は、Webクローリング中に発見されたWebページのURLとコンテンツを受け取り、URLから取り出したサイト名およびパス名と、コンテンツから算出したコンテンツ特徴量とを対応付けてWebページ状態情報として記憶部に記憶させるとともに、コンテンツ特徴量とパス名の組が一致するサイト名の集合をコンテンツ特徴量およびパス名と対応付けて重複Webサイト候補情報として記憶部に記憶させる受付手段と、サイト名の集合に含まれるそれぞれのサイト名について、各サイト名に対応する全てのパス名とコンテンツ特徴量から、複数のサイト名に対して1つのコンテンツ特徴量のみを有するパス名の数(ヒット数)と、複数のサイト名に対して複数のコンテンツ特徴量を有するパス名の数(ミス数)を求め、ヒット数およびミス数が所定範囲にある場合にサイト名の集合を重複Webサイト集合として検出する判定手段とを備え、受付手段は、サイト名と、同一のサイト名を有する異なるパス名の数に相当するパス数と、パス数としてカウントされたパス名の中で、パス名とコンテンツ特徴量との組と同一の組合せが、異なるサイト名に存在するパス名の数に相当する重複パス数とを対応づけてWebサイト状態情報として記憶部にさらに記憶させ、判定手段は、サイト名の集合に含まれるそれぞれのサイト名に対応するパス数と、重複パス数に対するパス数の比とがともに所定範囲にある場合に重複Webサイト集合の検出を行うものである。
The duplicate Web site dynamic detection apparatus according to the present invention receives the URL and content of a Web page discovered during Web crawling, and associates the site name and path name extracted from the URL with the content feature amount calculated from the content At the same time, it is stored in the storage unit as Web page state information, and a set of site names in which the set of content feature values and path names match is associated with the content feature values and path names and stored as duplicate Web site candidate information in the storage unit. And a path having only one content feature amount for a plurality of site names from all path names and content feature amounts corresponding to each site name for each site name included in the set of site names. Number of names (number of hits) and multiple content features for multiple site names Path name determined number (misses) of hits and misses is a determining means for detecting a duplicate Web site set a set of site name when in the predetermined range, accepting means, and the site name, the same Among the number of paths corresponding to the number of different path names having the same site name and the path name counted as the number of paths, the same combination of the path name and the content feature amount exists in different site names. The number of duplicate paths corresponding to the number of path names is associated and further stored in the storage unit as Web site status information, and the determination means duplicates the number of paths corresponding to each site name included in the set of site names. When the ratio of the number of paths to the number of paths is within a predetermined range, a duplicate Web site set is detected .
本発明によれば、コンテンツ特徴量とパス名の組が一致するサイト名の集合をコンテンツ特徴量およびパス名と対応付けた重複Webサイト候補情報を維持して重複Webサイトの可能性があるサイト集合を随時把握できるようにするとともに、コンテンツ特徴量とパス名との対応関係に基づいて重複判定を行うことにより、Webサイトの重複性判定をWebクローリングに追随して動的に行い、Web情報の効率的な収集と不要情報の除去を可能にする重複Webサイト動的検出装置を得ることができる。 According to the present invention, a site having a possibility of a duplicate website by maintaining duplicate website candidate information in which a set of site names in which a set of content feature quantity and path name match is associated with the content feature quantity and path name. By making it possible to grasp a set at any time and performing duplication determination based on the correspondence between content feature quantities and path names, web site duplication determination is performed dynamically following web crawling, and Web information It is possible to obtain a duplicate Web site dynamic detection device that enables efficient collection and removal of unnecessary information.
以下、本発明の重複Webサイト動的検出装置の好適な実施の形態につき図面を用いて説明する。 Hereinafter, a preferred embodiment of a duplicate Web site dynamic detection apparatus according to the present invention will be described with reference to the drawings.
実施の形態1.
図1は、本発明の実施の形態1における重複Webサイト動的検出装置の構成図である。本実施の形態1における重複Webサイト動的検出装置は、受付手段1、記憶部2、判定手段6、および問合せ手段7で構成される。
FIG. 1 is a configuration diagram of a duplicate Web site dynamic detection apparatus according to
さらに、記憶部2は、Webページ状態情報3、重複Webサイト候補情報4、およびWebサイト状態情報5が格納されている。また、このように構成された重複Webサイト動的検出装置は、Webクローラ8と接続される。
Further, the
まず始めに、各構成要素の機能について説明する。
受付手段1は、Webクローラ8からWebページのURLとコンテンツを受け取り、記憶部2に格納されたWebページ状態情報3、重複Webサイト候補情報4、およびWebサイト状態情報5を更新する。また、受付手段1は、Webサイト状態情報5が一定の条件を満たす場合には、Webサイト名の集合を渡すことにより、判定手段6の動作を起動する。
First, the function of each component will be described.
The accepting
判定手段6は、受付手段1からWebサイト名の集合を受け取り、記憶部2に格納されたWebページ状態情報3を参照して、当該Webサイト集合が重複Webサイトであるか否かを判定する。そして、判定手段6は、当該Webサイト集合が重複Webサイトであると判定した場合には、記憶部2に格納されたWebサイト状態情報5を更新する。
The
問合せ手段7は、Webクローラ8からWebサイト名を受け取り、記憶部2に格納されたWebサイト状態情報5を参照して、当該Webサイト名が重複Webサイトの別名(非正規名)である場合には、正規名に変換し、変換後の正規のWebサイト名をWebクローラ8に返す。
The inquiry means 7 receives the website name from the
次に、図2〜図4を用いて、記憶部2内に格納されている各種情報について説明する。
図2は、本発明の実施の形態1における記憶部2に格納されたWebページ状態情報3の詳細を示した図である。Webページ状態情報3は、サイト名31、パス名32、およびコンテンツハッシュ値33で構成される。サイト名31およびパス名32は、URL文字列のサイト名(ホスト名)部分およびパス名部分をそれぞれ表す。
Next, various types of information stored in the
FIG. 2 is a diagram showing details of the Web
Webページ状態情報3の各エントリは、Webページと1対1に対応しており、WebページのURLに対応するサイト名31およびパス名32の組で一意に識別される。Webクローラ8から同一URLのWebページを複数回受け取った際には、同一エントリがこのWebページ状態情報3に上書きされる。
Each entry of the Web
また、Webページ状態情報3は、サイト名31が指定した値を持つ複数エントリを効率的に検索できるように構成されているものとする。このためには、例えば、公知のB−treeを用いて、各エントリをサイト名31とパス名32の組に基づいて整列された状態で維持すればよい。
Further, it is assumed that the Web
コンテンツハッシュ値33は、Webページのコンテンツデータ全体にハッシュ関数を適用した結果の値である。ここで用いるハッシュ関数には、異なるコンテンツデータに対して同一のハッシュ値が対応する確率が実用上無視できるほど低いものが適しており、例えば、公知のMD5やSHA−1などを用いることができる。 The content hash value 33 is a value obtained by applying a hash function to the entire content data of the Web page. As the hash function used here, one having a probability that the same hash value corresponds to different content data is so low as to be practically negligible is suitable. For example, known MD5 or SHA-1 can be used. .
次に、図3は、本発明の実施の形態1における記憶部2に格納された重複Webサイト候補情報4の詳細を示した図である。重複Webサイト候補情報4は、コンテンツハッシュ値41、パス名42、および候補サイト集合43で構成される。重複Webサイト候補情報4の各エントリは、コンテンツハッシュ値41およびパス名42の組で一意に識別される。
Next, FIG. 3 is a diagram showing details of the duplicate Web
図3に示した重複Webサイト候補情報4は、先の図2に示したコンテンツハッシュ値33とパス名32の組に基づいてWebページ状態情報3のエントリを並べ替え、それぞれコンテンツハッシュ値41およびパス名42とする。さらに、図3に示した重複Webサイト候補情報4は、先の図2において同一のコンテンツハッシュ値33とパス名32の組を持つ複数エントリのサイト名31をまとめて、候補サイト集合43に格納している。
The duplicate Web
次に、図4は、本発明の実施の形態1における記憶部2に格納されたWebサイト状態情報5の詳細を示した図である。Webサイト状態情報5は、サイト名51、パス数52、重複パス数53、および正規名54で構成される。Webサイト状態情報5の各エントリは、サイト名51で一意に識別される。パス数52は、先の図2におけるWebページ状態情報3のエントリの中のサイト名31が、図4におけるサイト名51と一致するものの数であり、当該Webサイトから取得したWebページ数を表す。
Next, FIG. 4 is a diagram showing details of the Web
また、重複パス数53は、先の図2におけるWebページ状態情報3のエントリの中のサイト名31が、図4におけるサイト名51と一致し、かつ、先の図2におけるパス名32とコンテンツハッシュ値33の組が、Webページ状態情報3全体で一意でないものの数である。すなわち、この重複パス数53は、パス数としてカウントされたパス名の中で、パス名とコンテンツハッシュ値との組と同一の組合せが、異なるサイト名に存在するパス名の数に相当し、重複Webサイト候補情報4のエントリの内、候補サイト集合43がサイト名51を含み、かつサイト名51と異なるサイト名を1つ以上含むものの数と等しい。
Further, the
正規名54には、重複Webサイト集合に属するWebサイトにおいて、重複Webサイト集合の代表元のサイト名が設定される。代表元Webサイト自体、あるいは重複Webサイト集合に属さないWebサイトにおいては、正規名54は空文字列である。 The canonical name 54 is set to the name of the representative site of the duplicate website set in the duplicate website set. In the representative source website itself or a website that does not belong to the duplicate website set, the canonical name 54 is an empty string.
なお、符号1〜7で示された各手段および各情報は、CPU、メモリ、磁気ディスク装置、および通信インタフェースを備えた一般的なコンピュータで実現することができる。この場合、受付手段1、判定手段6、および問合せ手段7は、CPUに実行させるプログラムとして実現し、記憶部2は、磁気ディスク装置として実現する。
Each means and each information indicated by
次に、フローチャートを用いて、各手段の一連の動作について説明する。
まず始めに、受付手段1の動作を説明する。図5は、本発明の実施の形態1における受付手段1の動作の詳細を示すフローチャートである。まず、ステップS51において、受付手段1は、Webクローラ8からWebページのURL文字列とコンテンツデータを受け取り、URL文字列からサイト名とパス名を切り出して、それぞれ入力サイト名および入力パス名とする。さらに、受付手段1は、コンテンツデータ全体にハッシュ関数を適用してハッシュ値に変換し、入力コンテンツハッシュ値を生成する。
Next, a series of operations of each means will be described using a flowchart.
First, the operation of the accepting
次に、ステップS52において、受付手段1は、入力サイト名に対応するWebサイト状態情報5のエントリが存在するか否かを調べる。そして、存在しない場合には、受付手段1は、Webサイト状態情報5に新たなエントリを挿入し、サイト名51を入力サイト名に、パス数52および重複パス数53を0に、正規名54を空文字列にそれぞれ設定する。
Next, in step S52, the accepting
次に、ステップS53において、受付手段1は、入力サイト名および入力パス名に対応するWebページ状態情報3のエントリが存在するか否かを調べる。そして、存在する場合には、ステップS54に進み、存在しない場合には、ステップS55に進む。
Next, in step S53, the accepting
ステップS54に進んだ場合には、受付手段1は、入力サイト名および入力パス名に対応するWebページ状態情報3のエントリにおけるコンテンツハッシュ値33の値を入力コンテンツハッシュ値と比較する。そして、両者が一致する場合には、動作を終了し、一致しない場合には、ステップS56に進む。
When the process proceeds to step S54, the accepting
一方、先のステップS53の判断によりステップS55に進んだ場合には、受付手段1は、Webページ状態情報3に新たなエントリを挿入し、サイト名31、パス名32、およびコンテンツハッシュ値33をそれぞれ入力サイト名、入力パス名、および入力コンテンツハッシュ値に設定する。さらに、受付手段1は、入力サイト名に対応するWebサイト状態情報5のエントリにおいて、パス数52の値に1を加え、その後、ステップS58に進む。
On the other hand, when the process proceeds to step S55 based on the determination at the previous step S53, the accepting
先のステップS54の判断によりステップS56に進んだ場合には、受付手段1は、Webページ状態情報3の既存エントリのコンテンツハッシュ値33に対して、後述するコンテンツハッシュ値削除処理を実行する。さらに、続くステップS57において、受付手段1は、当該エントリのコンテンツハッシュ値33に入力コンテンツハッシュ値を設定することにより更新した後、ステップS58に進む。
When the process proceeds to step S56 as a result of the determination in the previous step S54, the accepting
次に、ステップS58において、受付手段1は、入力サイト名、入力パス名、および入力コンテンツハッシュ値に対して、後述するコンテンツハッシュ値挿入処理を実行し、動作を終了する。
Next, in step S58, the accepting
次に、先の図5のステップS56におけるコンテンツハッシュ値削除処理の詳細な動作を説明する。図6は、本発明の実施の形態1におけるコンテンツハッシュ値削除処理の動作の詳細を示すフローチャートである。
Next, the detailed operation of the content hash value deletion process in step S56 of FIG. 5 will be described. FIG. 6 is a flowchart showing details of the content hash value deletion processing in
まず、ステップS61において、受付手段1は、削除対象コンテンツハッシュ値および削除対象パス名(入力パス名に等しい)に対応する重複Webサイト候補情報4のエントリを検索し、当該エントリの候補サイト集合43に含まれる要素サイト数に応じて条件分岐する。要素サイト数が1に等しければ、ステップS62に、要素サイト数が2に等しければステップS63に、それ以外の場合にはステップS64にそれぞれ進む。
First, in step S61, the accepting
先のステップS61の判断によりステップS62に進んだ場合には、受付手段1は、ステップS61で検索したエントリを重複Webサイト候補情報4から削除し、終了する。
If the process proceeds to step S62 based on the determination in step S61, the accepting
また、先のステップS61の判断によりステップS63に進んだ場合には、受付手段1は、ステップS61で検索したエントリの候補サイト集合43に格納された2つのサイト名に対し、それぞれに対応するWebサイト状態情報5のエントリの重複パス数53を1減少させ、ステップS65に進む。
If the process proceeds to step S63 by the determination in step S61, the accepting
また、先のステップS61の判断によりステップS64に進んだ場合には、受付手段1は、削除対象サイト名(入力サイト名に等しい)に対応するWebサイト状態情報5のエントリの重複パス数53を1減少させ、ステップS65に進む。
If the process proceeds to step S64 based on the determination in step S61, the accepting
そして、ステップS65において、受付手段1は、先のステップS61で検索したエントリの候補サイト集合43から削除対象サイト名を取り除き、終了する。
In step S65, the accepting
上述のステップS61〜S65の動作により、重複Webサイト候補情報4およびWebサイト状態情報5は、削除対象コンテンツハッシュ値が挿入される前の状態に設定され、コンテンツハッシュ値の削除処理が完了する。
Through the operations in steps S61 to S65 described above, the duplicate
次に、先の図5のステップS58におけるコンテンツハッシュ値挿入処理の詳細な動作を説明する。図7は、本発明の実施の形態1におけるコンテンツハッシュ値挿入処理の動作の詳細を示すフローチャートである。
Next, the detailed operation of the content hash value insertion process in step S58 of FIG. 5 will be described. FIG. 7 is a flowchart showing details of the operation of the content hash value insertion process according to
まず、ステップS71において、受付手段1は、挿入対象コンテンツハッシュ値(入力コンテンツハッシュ値に等しい)および挿入対象パス名(入力パス名に等しい)に対応する重複Webサイト候補情報4のエントリを検索し、その結果に応じて条件分岐する。エントリが存在しなければステップS72に、エントリが存在し候補サイト集合43の要素サイト数が1に等しければステップS73に、それ以外の場合にはステップS74にそれぞれ進む。
First, in step S71, the accepting
先のステップS71の判断によりステップS72に進んだ場合には、受付手段1は、重複Webサイト候補情報4に新たなエントリを挿入し、コンテンツハッシュ値41に挿入対象コンテンツハッシュ値を、パス名42に挿入対象パス名を、候補サイト集合43に挿入対象サイト名(入力サイト名に等しい)をそれぞれ設定し、終了する。
When the process proceeds to step S72 based on the determination at the previous step S71, the accepting
また、先のステップS71の判断によりステップS73に進んだ場合には、受付手段1は、ステップS71で検索した重複Webサイト候補情報4のエントリの候補サイト集合43の単一要素サイト名に対応するWebサイト状態情報5のエントリを検索し、当該エントリの重複パス数53に1を加え、ステップS74に進む。
If the process proceeds to step S73 based on the determination in step S71, the accepting
次に、ステップS74において、受付手段1は、挿入対象サイト名に対応するWebサイト状態情報5のエントリを検索し、当該エントリの重複パス数53に1を加えるとともに、ステップS71で検索した重複Webサイト候補情報4のエントリの候補サイト集合43に挿入対象サイト名を追加する。
Next, in step S74, the accepting
さらに、ステップS75において、受付手段1は、候補サイト集合43の各要素サイト名に対応するWebサイト状態情報5のエントリを検索し、各エントリにおける重複パス数53の値と、重複パス数53のパス数52に対する比を求め、それぞれに対する閾値と比較する。全てのエントリにおいて2つの値が閾値以上の場合には、ステップS76に進み、そうでない場合には、終了する。ただし、このステップS75の判断において、正規名54が空文字列でないエントリは無視し、正規名54が空文字列のエントリが1つ以下であれば終了する。
Further, in step S75, the accepting
先のステップS75の判断によりステップS76に進んだ場合には、受付手段1は、候補サイト集合43の複数サイト名の内、対応するWebサイト状態情報5の正規名54が空文字列のものを渡して判定手段6の動作を起動し、終了する。
When the process proceeds to step S76 as a result of the previous determination in step S75, the accepting means 1 passes the name of the canonical site 54 of the corresponding
ここで、ステップS75における閾値としては、例えば、重複パス数53については3、重複パス数53のパス数52に対する比については0.4とする。ステップS75の目的は、判定手段6により重複Webサイトでないと判定されることが明らかな候補サイト集合に対する判定を回避することである。
Here, for example, the threshold value in step S75 is 3 for the
次に、判定手段6の動作を説明する。図8は、本発明の実施の形態1における判定手段6の動作の詳細を示すフローチャートである。このフローチャートは、先の図7のステップS76で起動される。そして、ステップS81において、判定手段6は、Webページ状態情報3のエントリの内、サイト名31が受け取った候補サイト集合に属する各サイト名のいずれかと一致するものについて、パス名32とコンテンツハッシュ値33の値の組毎に出現頻度を数える。
Next, the operation of the
続くステップS82において、判定手段6は、パス名の種類と、2種類以上のコンテンツハッシュ値が対応しているパス名の種類(ミス)とを数え、後者の前者に対する割合をミス率として算出する。そして、ミス率がある第1の所定閾値以上である場合には、判定手段6は、判定結果は偽であるとし、処理を終了する。一方、ミス率が第1の所定閾値未満である場合には、ステップS83に進む。
In subsequent step S82, the determination means 6 counts the path name type and the path name type (miss) corresponding to two or more content hash values, and calculates the ratio of the latter as the miss rate. . If the miss rate is greater than or equal to the first predetermined threshold, the
次に、ステップS83において、判定手段6は、1種類のコンテンツハッシュ値が対応するパス名について、出現頻度(サイト数)が2以上であり、かつ候補サイト集合要素数の一定割合以上となっているもの(ヒット)を数え、ヒット数として算出する。そして、判定手段6は、ヒット数がある第2の所定閾値未満である場合には、判定結果は偽であるとし、処理を終了する。
Next, in step S83, the determination means 6 has an appearance frequency (number of sites) of 2 or more and a certain ratio or more of the number of candidate site set elements for a path name corresponding to one type of content hash value. Count the number of hits (hits) and calculate the number of hits. Then, when the number of hits is less than the second predetermined threshold, the
なお、ステップS83の判断において、判定手段6は、1種類のコンテンツハッシュ値が対応するパス名について、出現頻度(サイト数)が所定数以上であることのみを条件としてヒットとすることもできる。
In the determination in step S83, the
一方、ヒット数のパス名の種類に対する割合(ヒット率)が第3の所定閾値未満である場合にも、判定手段6は、判定結果は偽であるとし、処理を終了する。ヒット数が第2の所定閾値以上であり、かつヒット率が第3の所定閾値以上である場合には、判定手段6は、判定結果は真であるとして、ステップS84に進む。
On the other hand, even when the ratio of the number of hits to the type of path name (hit rate) is less than the third predetermined threshold, the
ここで、ヒット数に対する第2の所定閾値およびヒット率に対する第3の所定閾値は、先の図7のステップS75における重複パス数に対する閾値および重複パス数のパス数に対する比に対する閾値と対応しており、それぞれ同じ値を用いる(例えば、ステップS75での説明と同様に、3と0.4を用いることができる)。 Here, the second predetermined threshold for the number of hits and the third predetermined threshold for the hit rate correspond to the threshold for the number of overlapping paths and the threshold for the ratio of the number of overlapping paths to the number of paths in step S75 of FIG. And the same value is used (for example, 3 and 0.4 can be used similarly to the description in step S75).
次に、ステップS84において、判定手段6は、候補サイト集合から代表元のサイト名を1つ選択し、代表元以外のサイト名に対応するWebサイト状態情報5のエントリの正規名54に代表元のサイト名を設定し、終了する。
Next, in step S84, the
ここで、候補サイト集合から代表元を選択する際には、各要素のサイト名にスコアを付与し、その順位が最も高いもの(値が最も小さいもの)を選択するものとする。図9は、本発明の実施の形態1におけるサイト名に対するスコアの例を示した図である。図9に示すように、サイト名の文字列パターンに応じて、サイト名文字列長およびドメインレベル数によりあらかじめ規定されるサイト名スコアを計算式として用意しておき、このスコア計算式を正規サイト名の選択に用いる。
Here, when selecting a representative from the candidate site set, a score is assigned to the site name of each element, and the one with the highest rank (the one with the smallest value) is selected. FIG. 9 is a diagram showing an example of scores for site names in
より具体的には、適用優先度順にサイト名全体の文字列パターンを照合し、最初に適合した行のサイト名スコア計算式を用いる。ただし、ドメインレベル数は“.”で区切られたドメイン名要素の数とする。なお、スコアが同一のサイト名は、文字列順で先頭に来るものを優先する。 More specifically, the character string pattern of the entire site name is collated in order of application priority, and the site name score calculation formula of the first matching row is used. However, the number of domain levels is the number of domain name elements separated by “.”. For site names with the same score, the one that comes first in the order of character strings is given priority.
図10は、本発明の実施の形態1における判定手段6の動作の意味を示す概念図である。先の図8のフローチャートによる一連の動作は、図10に示すように、サイト名31を各行に、パス名32を各列に対応させてコンテンツハッシュ値33を並べた行列において、列毎にヒットおよびミスの判定を行なって、それぞれの数を数えることに等しい。
FIG. 10 is a conceptual diagram showing the meaning of the operation of the determination means 6 in
コンテンツハッシュ値がN/Aとなっている部分は、サイト名とパス名に対応するWebページをWebクローラ8から受け取っていないことを表している。Webクローラ8は、一般に、Webページ間のリンクを辿りながらWebページを収集するため、存在するWebページであってもアクセスしないことがあり得る。
The portion where the content hash value is N / A indicates that the Web page corresponding to the site name and the path name has not been received from the
図10の例では、パス名“/”に対しては、全てのコンテンツハッシュ値が等しく、種類=1、出現頻度=3となることからヒットとなる。また、パス名“/links.html”に対しては、サイトaaa.bbb.cccおよびzzz.www.aaaに対応する値が存在しないため、種類=1、出現頻度=1となってヒットでもミスでもないと見なされる。さらに、パス名“/news.html”に対しては、コンテンツハッシュ値の種類=2となるため、ミスとなる。 In the example of FIG. 10, the path name “/” is a hit because all content hash values are equal, type = 1, and appearance frequency = 3. For the path name “/links.html”, the site aaa. bbb. ccc and zzz. www. Since there is no value corresponding to aaa, the type = 1 and the appearance frequency = 1 are regarded as neither a hit nor a miss. Furthermore, for the path name “/news.html”, the type of content hash value = 2, which is a mistake.
次に、問合せ手段7の動作を説明する。図11は、本発明の実施の形態1における問合せ手段7の動作の詳細を示すフローチャートである。まず、ステップS111において、問合せ手段7は、Webクローラ8から問合せを受け付け、問合せ対象のサイト名を結果サイト名に設定する。
Next, the operation of the inquiry means 7 will be described. FIG. 11 is a flowchart showing details of the operation of the inquiry means 7 in the first embodiment of the present invention. First, in step S111, the
次に、ステップS112において、問合せ手段7は、結果サイト名に対応するWebサイト状態情報5のエントリを検索し、エントリが存在しないか、または当該エントリの正規名54が空文字列である場合には、ステップS114に進む。一方、当該エントリの正規名54が空文字列でなくエントリが存在する場合には、問合せ手段7は、結果サイト名は重複Webサイトにおける非代表元であり、サイト名を変換する必要があると判断し、ステップS113に進む。
Next, in step S112, the
そして、ステップS113において、問合せ手段7は、エントリの正規名54を結果サイト名に設定し、ステップS112に戻る。ここで、ステップS112の処理を繰り返すのは、ある重複Webサイトの代表元が、後に別の重複Webサイトに非代表元として含まれると判定される可能性があるためである。
In step S113, the
一方、先のステップS112の判断によりステップS114に進んだ場合には、問合せ手段7は、結果サイト名の値をWebクローラ8に返し、終了する。
On the other hand, when the process proceeds to step S114 based on the determination at the previous step S112, the
Webクローラ8は、Webページからリンクを抽出したとき、あるいはWebページのダウンロードを開始する前に、それらのURLからサイト名を取り出し、問合せ手段7に渡して得られる結果で元のサイト名を置き換えることにより、重複Webサイトの非代表元へのアクセスを回避することができる。
When the
以上のように、実施の形態1によれば、WebクローラからWebページを順次受け付ける受付手段を備え、重複Webサイト候補情報を維持して重複Webサイトの可能性があるサイト集合を随時把握できるようにするとともに、Webサイト状態情報を維持して判定手段による重複判定の実施タイミングを制御することができる。この結果、Webクローリングに追随した動的な重複Webサイト検出を実現することができる。 As described above, according to the first embodiment, the reception unit that sequentially receives Web pages from the Web crawler is provided, so that it is possible to keep track of a set of sites that may be duplicate Web sites while maintaining the duplicate Web site candidate information. In addition, it is possible to control the execution timing of the overlap determination by the determination means while maintaining the website state information. As a result, it is possible to realize dynamic duplicate Web site detection following Web crawling.
さらに、重複Webサイト検出結果を問い合わせる問合せ手段を備えている。この結果、Webクローラに対して重複Webサイトの代表元以外からのWebページ収集を回避する手段を提供することができる。 Further, inquiry means for inquiring the duplicate Web site detection result is provided. As a result, it is possible to provide the Web crawler with a means for avoiding Web page collection from other than the representative of the duplicate Web site.
なお、上述の実施の形態1においては、コンテンツ特徴量の一例であるコンテンツハッシュ値を、コンテンツデータ全体に一方向性ハッシュ関数を適用した値としたが、別の算出法を用いることもできる。例えば、コンテンツがHTMLで記述されている場合に、HTMLのタグ、コメント、スクリプト、およびスタイルを取り除いた残りのテキストデータに対して一方向性ハッシュ関数を適用した値を、コンテンツ特徴量であるコンテンツハッシュ値としても、全体の構成や動作には影響しない。このようなコンテンツハッシュ値を適用することにより、Webページに含まれる広告などの可変要素を無視することが可能となり、より多くの重複Webサイトが検出可能になる効果がある。 In the first embodiment described above, the content hash value, which is an example of the content feature amount, is a value obtained by applying the one-way hash function to the entire content data. However, another calculation method may be used. For example, when the content is described in HTML, a value obtained by applying a one-way hash function to the remaining text data from which HTML tags, comments, scripts, and styles are removed is the content that is the content feature amount. The hash value does not affect the overall configuration or operation. By applying such a content hash value, it is possible to ignore variable elements such as advertisements included in the Web page, and there is an effect that more duplicate Web sites can be detected.
また、上述の実施の形態1では、サイト名の正規名を、パス数や重複パス数の情報とともに、Webサイト状態情報として記憶、管理する場合を説明した。しかしながら、パス数や重複パス数の管理とは別に、正規サイト名と残りのサイト名とを対応づけてWebサイト名関連情報として管理することによっても、問合せ手段を用いた正規サイト名の抽出が可能となる。 In the first embodiment described above, the case where the regular name of the site name is stored and managed as the website state information together with the information on the number of paths and the number of duplicate paths has been described. However, apart from managing the number of paths and the number of duplicate paths, it is also possible to extract the legitimate site name using the inquiry means by managing the website name related information by associating the legitimate site name with the remaining site name. It becomes possible.
実施の形態2.
先の実施の形態1では、全ての入力パス名に対して重複Webサイト候補情報4の候補サイト集合43を維持するため、Webサイト毎に収集範囲の偏りがあっても重複Webサイトの検出漏れを防ぐようにしていた。しかしながら、その一方で、重複Webサイト候補情報4のデータ量が大きくなり、更新負荷が高くなる問題がある。
In the first embodiment, since the candidate site set 43 of the duplicate
そこで、本実施の形態2では、入力パス名の全てではなく、一部だけを重複Webサイト候補情報4およびWebサイト状態情報5に反映する場合について説明する。より具体的には、入力パス名が特定パターンに合致しない場合には、受付手段1が図5のステップS55の後半の処理、ステップS56およびステップS58の処理を実行しないものとする。
Therefore, in the second embodiment, a case will be described in which only a part of the input path name is reflected in the duplicate
入力パス名の特定パターンとしては、例えば、部分文字列として“index”を含むものに合致するようにする。これにより、Webサイトの入り口として一般的なURLのみについて候補サイト集合43を維持し、重複Webサイト候補情報4のデータ量を大幅に削減することができる。なお、Webページ状態情報3は、全てのパス名に関する情報を含むので、判定手段6の動作には影響しない。
As the specific pattern of the input path name, for example, the input path name is matched with a pattern including “index” as a partial character string. Thereby, the candidate site set 43 can be maintained only for the general URL as the entrance of the Web site, and the data amount of the duplicate Web
また、入力パス名の特定パターンの別の例として、“/”を1つだけ含むものに合致するようにしてもよい。これにより、ディレクトリ最上位のパス名だけを反映することになる。一般に、Webページのリンクは、ディレクトリ上位のパス名を指し易い傾向にあるので、特定文字列を仮定することによる候補サイト集合の見逃しを防ぐことができる。 Further, as another example of the specific pattern of the input path name, it may be matched with one including only one “/”. As a result, only the top-level path name of the directory is reflected. In general, a link of a Web page tends to indicate a path name in the upper directory, so that it is possible to prevent a candidate site set from being overlooked by assuming a specific character string.
なお、更新負荷の削減策としては、入力パス名を特定パターンに限定する以外に、Webサイト状態情報5のパス数52の値に基づく実現も可能である。すなわち、パス数52が一定値に達した後は、入力パス名によらずステップS55の後半の処理、ステップS56およびステップS58の処理を実行しない。これは、入力パス名を値ではなく、先着順で制限することに相当し、パターンに基づく方式では避けられない見逃しの問題を解決することができる。
Note that the update load can be reduced based on the value of the
以上のように、実施の形態2によれば、特定パターンを有する入力パス名に限定して、その入力パス名を重複Webサイト候補情報4およびWebサイト状態情報5に反映することができる。この結果、一般的なURLのみについて候補サイト集合を維持し、重複Webサイト候補情報のデータ量を大幅に削減することができる。
As described above, according to the second embodiment, the input path name can be reflected in the duplicate Web
さらに、入力パス名の特定パターンではなく、入力パス名に対応するパス数が一定値に達する前に限定して、その入力パス名を重複Webサイト候補情報4およびWebサイト状態情報5に反映することができる。この結果、入力パス名を値ではなく、先着順で制限することができ、特定パターンに基づく方式では避けられない見逃しの問題を解決することができる。
Further, the input path name is reflected in the duplicate
実施の形態3.
本実施の形態3では、先の実施の形態1に加えて、候補サイト集合におけるサイト名の類似性を考慮し、類似サイト名からなる候補サイト集合に対してはコンテンツハッシュ値の不一致の許容範囲を広くし、重複Webサイトとして検出しやすくする場合について説明する。
In the third embodiment, in addition to the first embodiment, considering the similarity of the site names in the candidate site set, the allowable range of content hash value mismatches for the candidate site set consisting of similar site names A case will be described in which it is easy to detect a duplicate Web site.
図12は、本発明の実施の形態3における判定手段6の動作の詳細を示すフローチャートである。本実施の形態3において、判定手段6は、先の実施の形態1で説明した図8のステップS81に先立ち、図12のフローチャートに示す動作を行う。
FIG. 12 is a flowchart showing details of the operation of the determination means 6 in
まず、ステップS121において、判定手段6は、候補サイト集合の各サイト名についてドメインレベル数(“.”で区切られた構成要素数に相当)を求め、その最小値を最小ドメインレベル数とする。例えば、サイト名がxxx.yyy.zzzのとき、ドメインレベル数は、3である。
First, in step S121, the
次に、ステップS122において、判定手段6は、各サイト名の構成要素(例えば”xxx”、“yyy”、“zzz”のそれぞれ)毎にいくつのサイト名に含まれるかを求め、候補サイト集合の一定割合以上のサイト名に含まれるものを数えて頻出ドメインレベル数とする。
Next, in step S122, the
次に、ステップS123において、判定手段6は、頻出ドメインレベル数と最小ドメインレベル数とを比較し、頻出ドメインレベル数が最小ドメインレベル数より小さい場合には、終了する。一方、頻出ドメインレベル数が最小ドメインレベル数以上の場合には、ステップS124に進む。そして、ステップS124において、判定手段6は、候補サイト集合の要素数の対数に比例する係数をミス率の閾値に乗じ、当該係数の逆数をヒット数およびヒット率の閾値に乗じる。係数としては例えば、log(サイト数)×4.5などを用いる。
Next, in step S123, the determination means 6 compares the number of frequent domain levels with the minimum number of domain levels, and ends if the number of frequent domain levels is smaller than the minimum number of domain levels. On the other hand, if the frequent domain level number is greater than or equal to the minimum domain level number, the process proceeds to step S124. In step S124, the
このように、図12に示した一連の前処理を施すことにより、判定手段6は、サイト名の類似性に関する情報も利用して重複判定を行うことができる。特に、候補サイト集合内のサイト名が高い類似性を持つ場合に、閾値の範囲を広げ、重複と判定し易い条件を整えることで、大規模な重複サイトの検出漏れを防ぐことができる。 In this way, by performing the series of pre-processing shown in FIG. 12, the determination means 6 can perform duplication determination using information on the similarity of site names. In particular, when the site names in the candidate site set have high similarity, it is possible to prevent the detection of a large-scale duplicate site from being missed by expanding the threshold range and preparing conditions that make it easy to determine that there is a duplicate.
以上のように、実施の形態3によれば、サイト名の類似性に関する情報も利用し、類似性に応じて重複判定に用いる閾値を変更することができる。この結果、特に、高い類似性を持つ大規模な重複サイトの検出漏れを防ぐことができる。 As described above, according to the third embodiment, it is possible to change the threshold used for the duplication determination according to the similarity by using the information related to the similarity between the site names. As a result, it is possible to prevent omission of detection of a large-scale duplicate site having high similarity.
実施の形態4.
本実施の形態4では、先の実施の形態1に加えて、Webサイトがディレクトリ単位で重複しているときにも検出を可能にする場合について説明する。
In the fourth embodiment, in addition to the first embodiment, a case will be described in which detection is possible even when Web sites are duplicated in directory units.
本実施の形態4において、受付手段1は、先の実施の形態1で説明した図5のステップS51において、受け取ったURLから入力サイト名および入力パス名を生成する際に、本来のサイト名とパス名だけでなく、サイト名にパス名の上位ディレクトリ名を連結した擬似的なサイト名と、上位ディレクトリ名が連結されていない残りのパス名の部分からなる擬似的なパス名とを生成する。
In the fourth embodiment, the accepting
すなわち、URL“http://aaa.bbb.ccc/〜user1/diary.html”に対し、サイト名“aaa.bbb.ccc”およびパス名“/〜user1/diary.html”だけでなく、擬似的なサイト名“aaa.bbb.ccc/〜user1”および擬似的なパス名“/diary.html”を生成する。これ以外の動作は、先の実施の形態1と同様である。 That is, for the URL “http: //aaa.bbb.ccc/˜user1/diary.html”, not only the site name “aaa.bbb.ccc” and path name “/˜user1/diary.html” but also pseudo A typical site name “aaa.bbb.ccc / ˜user1” and a pseudo path name “/diary.html” are generated. Other operations are the same as those in the first embodiment.
このように、擬似的なサイト名、擬似的なパス名をも考慮して重複判定を行うことにより、Webサイトの一部が重複している場合であっても検出することができ、Webクローリングの効率低下を防ぐことができる。 In this way, by performing duplication determination in consideration of a pseudo site name and a pseudo path name, even if a part of the web site is duplicated, it is possible to detect the web crawling. It is possible to prevent a decrease in efficiency.
以上のように、実施の形態4によれば、受け取ったURLから入力サイト名および入力パス名を生成する際に、擬似的なサイト名、擬似的なパス名も合わせて生成し、重複判定に利用している。この結果、Webサイトの一部が重複している場合にも確実に検出することができる。 As described above, according to the fourth embodiment, when the input site name and the input path name are generated from the received URL, the pseudo site name and the pseudo path name are also generated and used for duplication determination. We are using. As a result, even when a part of the website overlaps, it can be reliably detected.
実施の形態5.
本実施の形態5では、判定を誤る可能性の高いパス名を重複判定に使用しないようにする場合について説明する。
In the fifth embodiment, a case will be described in which path names that are likely to be erroneously determined are not used for duplicate determination.
図13は、本発明の実施の形態5において、記憶部2に新たに格納される除外パス名情報9を示した図である。この除外パス名情報9は、除外パス名91の集合である。
FIG. 13 is a diagram showing excluded path name information 9 newly stored in the
判定手段6は、先の実施の形態1で説明した図8のステップS81において、Webページ状態情報3のエントリを検索する際に、パス名32が除外パス名91と一致するものを無視するようにする。
The
また、判定手段6は、先の図8のステップS82やステップS83で判定結果が偽となった際に、ヒットしたパス名の内、出現するサイト名がある閾値以上(第2の所定範囲に相当)のものを見付け、除外パス名情報9に追加する。
In addition, when the determination result in step S82 or step S83 in FIG. 8 is false, the
このように、除外パス名情報9を設けることにより、全く関連性のないWebサイトであっても共通することのあるパス名(例えば、Webサーバソフトウェアのマニュアルページなど)の影響を排除し、誤って重複サイトと判定することを防ぐことができる。 In this manner, by providing the excluded path name information 9, the influence of a path name (for example, a manual page of the Web server software) that may be common even if the website is completely unrelated is eliminated, and an error is caused. Therefore, it can be determined that the site is a duplicate site.
以上のように、実施の形態5によれば、除外パス名を考慮して重複判定処理を行うことができる。この結果、全く関連性のないWebサイトであるがパス名が共通するものを、重複サイトと誤判定することを防止することができ、判定精度の向上を図ることができる。 As described above, according to the fifth embodiment, duplication determination processing can be performed in consideration of an excluded path name. As a result, it is possible to prevent a web site that is completely unrelated but has a common path name from being erroneously determined as a duplicate site, and to improve the determination accuracy.
1 受付手段、2 記憶部、3 Webページ状態情報、31 サイト名、32 パス名、33 コンテンツハッシュ値(コンテンツ特徴量)、4 重複Webサイト候補情報、41 コンテンツハッシュ値、42 パス名、43 候補サイト集合、5 Webサイト状態情報、51 サイト名、52 パス数、53 重複パス数、54 正規名、6 判定手段、7 問合せ手段、8 Webクローラ、9 除外パス名情報、91 除外パス名。
DESCRIPTION OF
Claims (12)
前記サイト名の集合に含まれるそれぞれのサイト名について、各サイト名に対応する全てのパス名とコンテンツ特徴量から、複数のサイト名に対して1つのコンテンツ特徴量のみを有するパス名の数(ヒット数)と、複数のサイト名に対して複数のコンテンツ特徴量を有するパス名の数(ミス数)を求め、前記ヒット数および前記ミス数が所定範囲にある場合に前記サイト名の集合を重複Webサイト集合として検出する判定手段と
を備え、
前記受付手段は、サイト名と、同一のサイト名を有する異なるパス名の数に相当するパス数と、前記パス数としてカウントされたパス名の中で、パス名とコンテンツ特徴量との組と同一の組合せが、異なるサイト名に存在するパス名の数に相当する重複パス数とを対応づけてWebサイト状態情報として前記記憶部にさらに記憶させ、
前記判定手段は、前記サイト名の集合に含まれるそれぞれのサイト名に対応する前記パス数と、前記重複パス数に対する前記パス数の比とがともに所定範囲にある場合に前記重複Webサイト集合の検出を行う
ことを特徴とする重複Webサイト動的検出装置。 The URL and content of the Web page discovered during Web crawling are received, and the site name and path name extracted from the URL are associated with the content feature amount calculated from the content and stored in the storage unit as Web page state information And a receiving unit that stores a set of site names in which the set of the content feature quantity and the path name match with each other in association with the content feature quantity and the path name, and stores it as duplicate Web site candidate information in the storage unit;
For each site name included in the set of site names, the number of path names having only one content feature amount for a plurality of site names from all path names and content feature amounts corresponding to each site name ( Number of path names having a plurality of content feature quantities for a plurality of site names (number of misses), and when the number of hits and the number of misses are within a predetermined range, Determination means for detecting as a duplicate Web site set ,
The reception means includes a site name, a path number corresponding to the number of different path names having the same site name, and a set of a path name and a content feature amount among the path names counted as the path number. The same combination is further stored in the storage unit as Web site state information in association with the number of duplicate paths corresponding to the number of path names existing in different site names,
The determination means determines the number of duplicate Web site sets when both the number of paths corresponding to each site name included in the set of site names and the ratio of the number of paths to the number of duplicate paths are within a predetermined range. A duplicate Web site dynamic detection apparatus that performs detection.
前記判定手段は、検出した前記重複Webサイト集合に含まれる1つのサイト名を正規サイト名として選択し、残りのサイト名と前記正規サイト名とを対応付けてWebサイト名関連情報として前記記憶部にさらに記憶させ、
Webクローリング中に発見されたWebページのサイト名を受け取り、前記サイト名に対応付けられた正規サイト名が前記記憶部内の前記Webサイト名関連情報に記憶されている場合には、前記サイト名に対応する前記正規サイト名を出力する問合せ手段をさらに備える
ことを特徴とする重複Webサイト動的検出装置。 In the duplicate Web site dynamic detection device according to claim 1,
The determination means selects one site name included in the detected duplicate Web site set as a normal site name, associates the remaining site name with the normal site name, and stores the storage unit as Web site name related information. To remember further,
When a site name of a web page discovered during web crawling is received, and a regular site name associated with the site name is stored in the website name related information in the storage unit, the site name A duplicate Web site dynamic detection apparatus further comprising inquiry means for outputting the corresponding regular site name.
前記判定手段は、前記重複Webサイト集合を検出する前処理として、前記サイト名の集合に含まれるそれぞれのサイト名に対応する正規サイト名が前記記憶部内の前記Webサイト名関連情報に記憶されている場合には、前記正規サイト名に対応するサイト名を前記サイト名の集合の中から取り除くことを特徴とする重複Webサイト動的検出装置。 In the duplicate Web site dynamic detection device according to claim 2,
As a pre-processing for detecting the duplicate Web site set, the determination means stores a regular site name corresponding to each site name included in the site name set in the Web site name related information in the storage unit. If there is, the duplicate Web site dynamic detection apparatus, wherein a site name corresponding to the regular site name is removed from the set of site names.
前記判定手段は、サイト名の文字列パターンおよびドメインレベル数によりあらかじめ規定されたスコア計算式に応じて、前記重複Webサイト集合に含まれるサイト名の中から最もスコアの高いサイト名を正規サイト名として選択することを特徴とする重複Webサイト動的検出装置。 In the duplicate Web site dynamic detection device according to claim 2 or 3,
The determination means selects the site name with the highest score from the site names included in the duplicate Web site set according to a score calculation formula defined in advance by the character string pattern of the site name and the number of domain levels. A duplicate Web site dynamic detection apparatus characterized by being selected as:
前記判定手段は、全てのサイト名の数の所定割合以上である複数のサイト名に対して1つのコンテンツ特徴量のみを有するパス名の数をヒット数として数えることを特徴とする重複Webサイト動的検出装置。 The duplicate Web site dynamic detection device according to any one of claims 1 to 4,
The determination unit counts the number of path names having only one content feature amount as a hit number for a plurality of site names that are equal to or greater than a predetermined ratio of the number of all site names. Detection device.
前記受付手段は、受け取ったコンテンツデータに一方向性ハッシュ関数を適用することにより前記コンテンツ特徴量を算出することを特徴とする重複Webサイト動的検出装置。 In the duplicate Web site dynamic detection device according to any one of claims 1 to 5,
The duplicate Web site dynamic detection apparatus, wherein the reception unit calculates the content feature amount by applying a one-way hash function to the received content data.
前記受付手段は、受け取ったコンテンツデータからHTMLタグ、HTMLコメント、スクリプト、およびスタイルを取り除いた残りのデータに一方向性ハッシュ関数を適用することにより前記コンテンツ特徴量を算出することを特徴とする重複Webサイト動的検出装置。 In the duplicate Web site dynamic detection device according to any one of claims 1 to 5,
The receiving means calculates the content feature amount by applying a one-way hash function to the remaining data obtained by removing HTML tags, HTML comments, scripts, and styles from the received content data. Web site dynamic detection device.
前記受付手段は、パス名が所定の文字列パターンに合致しない場合には、前記重複Webサイト候補情報として前記記憶部に記憶させず、前記パス名を前記パス数および前記重複パス数のカウント対象から除外することを特徴とする重複Webサイト動的検出装置。 In the duplicate Web site dynamic detection device according to claim 1 ,
If the path name does not match a predetermined character string pattern, the accepting unit does not store the path name as the duplicate Web site candidate information in the storage unit, and counts the path name and the number of duplicate paths. A duplicate Web site dynamic detection device characterized in that it is excluded from the above.
前記受付手段は、Webクローリング中に発見されたWebページのサイト名が、パス数が所定の値に達している特定のサイト名と一致する場合には、前記重複Webサイト候補情報に含まれる前記サイト名の集合の要素として前記特定のサイト名と一致する前記サイト名を記憶させず、前記Webクローリング中に発見されたWebページのサイト名に対応するパス名を前記パス数および前記重複パス数のカウント対象から除外することを特徴とする重複Webサイト動的検出装置。 In the duplicate Web site dynamic detection device according to claim 1 ,
When the site name of a web page discovered during web crawling matches a specific site name whose number of passes has reached a predetermined value, the accepting unit includes the duplicate web site candidate information. The path name corresponding to the site name of the Web page discovered during the Web crawling is not stored as the element of the set of site names, and the path number corresponding to the site name of the Web page discovered during the Web crawling and the number of duplicate paths A duplicate Web site dynamic detection device, characterized in that it is excluded from the counting target.
前記判定手段は、前記サイト名の集合に含まれるそれぞれのサイト名について、各サイト名を構成要素に分割することによりそれぞれのサイト名の類似度を判定し、前記サイト名の集合の中に前記類似度が所定値以上となるサイト名が含まれていると判定した場合には、前記重複Webサイト集合を検出する際の前記ヒット数および前記ミス数に対する所定範囲を変更し、前記類似度の高いサイト名を重複Webサイトとして検出しやすくすることを特徴とする重複Webサイト動的検出装置。 In the duplicate Web site dynamic detection device according to any one of claims 1 to 9 ,
The determination means determines the similarity of each site name by dividing each site name into components for each site name included in the set of site names, and If it is determined that a site name having a similarity equal to or greater than a predetermined value is included, the predetermined range for the number of hits and the number of misses when detecting the duplicate Web site set is changed, and the similarity A duplicate Web site dynamic detection apparatus characterized by facilitating detection of a high site name as a duplicate Web site.
前記受付手段は、受け取ったURLからサイト名およびパス名を取り出した際に、前記サイト名に前記パス名の上位ディレクトリ名を連結した擬似的なサイト名と、前記パス名において前記上位ディレクトリ名が連結されていない残りの部分からなる擬似的なパス名とを生成し、前記擬似的なサイト名および前記擬似的なパス名をそれぞれサイト名およびパス名に含めて扱うことを特徴とする重複Webサイト動的検出装置。 The duplicate Web site dynamic detection device according to any one of claims 1 to 10 ,
When the receiving unit extracts a site name and a path name from the received URL, a pseudo site name obtained by concatenating the site name with an upper directory name of the path name and the upper directory name in the path name are A duplicate Web characterized in that a pseudo path name consisting of the remaining parts that are not connected is generated, and the pseudo site name and the pseudo path name are included in the site name and path name, respectively. Site dynamic detection device.
前記判定手段は、重複Webサイト集合として検出されなかったサイト名の集合について求めたヒット数が、第2の所定範囲内にある場合には、前記サイト名の集合に含まれるパス名を除外パス名として前記記憶部に記憶させ、Webクローリング中に発見されたWebページのパス名が前記除外パス名として記憶されているパス名と一致する場合には、前記パス名を重複Webサイト検出の際に参照しないことを特徴とする重複Webサイト動的検出装置。 The duplicate Web site dynamic detection device according to any one of claims 1 to 11 ,
The determination means excludes a path name included in the set of site names if the number of hits obtained for the set of site names not detected as a duplicate Web site set is within the second predetermined range. If the path name of the Web page discovered during Web crawling matches the path name stored as the excluded path name, the path name is detected when a duplicate Web site is detected. A duplicate Web site dynamic detection apparatus characterized by not being referred to.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007177285A JP5174385B2 (en) | 2007-07-05 | 2007-07-05 | Duplicate Web site dynamic detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007177285A JP5174385B2 (en) | 2007-07-05 | 2007-07-05 | Duplicate Web site dynamic detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009015636A JP2009015636A (en) | 2009-01-22 |
JP5174385B2 true JP5174385B2 (en) | 2013-04-03 |
Family
ID=40356460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007177285A Expired - Fee Related JP5174385B2 (en) | 2007-07-05 | 2007-07-05 | Duplicate Web site dynamic detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5174385B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898012A (en) * | 2020-07-23 | 2020-11-06 | 昆山领创信息科技有限公司 | Automatic packet grabbing method for WEB application |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3678985B2 (en) * | 2000-08-25 | 2005-08-03 | 日本電信電話株式会社 | Method and apparatus for automatically determining similarity between web pages, and medium storing the program |
JP2003085202A (en) * | 2001-09-13 | 2003-03-20 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for retrieving similar web page, its program and information recording medium with the same recorded |
JP2004264926A (en) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Device for finding out mirror site group on www, method for finding out mirror site, program for the method, and storage medium recording the program |
JP4610360B2 (en) * | 2005-02-02 | 2011-01-12 | 三菱電機株式会社 | Duplicate website detection device |
-
2007
- 2007-07-05 JP JP2007177285A patent/JP5174385B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009015636A (en) | 2009-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8554759B1 (en) | Selection of documents to place in search index | |
US8201081B2 (en) | Systems and methods for processing inoperative document links | |
US9015214B2 (en) | Process of generating a list of files added, changed, or deleted of a file server | |
US9292612B2 (en) | Internet profile service | |
KR100619178B1 (en) | Method and apparatus for detecting invalid clicks on the internet search engine | |
US7827166B2 (en) | Handling dynamic URLs in crawl for better coverage of unique content | |
US7447684B2 (en) | Determining searchable criteria of network resources based on a commonality of content | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
US20090210369A1 (en) | Systems and methods of predicting resource usefulness using universal resource locators | |
JP2015133151A (en) | Federated community search | |
US20120233096A1 (en) | Optimizing an index of web documents | |
CN110855636B (en) | DNS hijacking detection method and device | |
US20120047153A1 (en) | Method of and Apparatus for Identifying Machine-Generated Textual Identifiers | |
CN108900554B (en) | HTTP asset detection method, system, device and computer medium | |
EP4088171A1 (en) | System and method to dynamically generate a set of api endpoints | |
CN109547294B (en) | Networking equipment model detection method and device based on firmware analysis | |
CN110889023A (en) | Distributed multifunctional search engine of elastic search | |
JP4610360B2 (en) | Duplicate website detection device | |
WO2024031884A1 (en) | Method and apparatus for determining domain name homology, electronic device, and storage medium | |
CN103399872A (en) | Method and device for optimizing webpage capture | |
CN111061972B (en) | AC searching optimization method and device for URL path matching | |
AU2013206427A1 (en) | System and method of analyzing web addresses | |
JP5174385B2 (en) | Duplicate Web site dynamic detection device | |
US7886217B1 (en) | Identification of web sites that contain session identifiers | |
EP2417536A1 (en) | Domain status, purpose and categories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120918 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121228 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |