JP2006215735A - 重複Webサイト検出装置 - Google Patents
重複Webサイト検出装置 Download PDFInfo
- Publication number
- JP2006215735A JP2006215735A JP2005026743A JP2005026743A JP2006215735A JP 2006215735 A JP2006215735 A JP 2006215735A JP 2005026743 A JP2005026743 A JP 2005026743A JP 2005026743 A JP2005026743 A JP 2005026743A JP 2006215735 A JP2006215735 A JP 2006215735A
- Authority
- JP
- Japan
- Prior art keywords
- site
- duplicate
- path
- information
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】Webページ情報から、それぞれのサイトのURLに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段1と、生成されたそれぞれのサイト情報に基づいて、サイト名を行、サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出する重複サイト集合検出手段10とを備える。
【選択図】図1
Description
1)当該Webサイトに属するWebページURLの文字列の類似性
2)当該WebサイトのIPアドレスの類似性
3)当該Webサイトに属するWebページからリンクされているURLの共通性
4)当該Webサイトに属するWebページからリンクされているURLのサイト名部分の共通性
のうち、1つ以上の指標を数値的に評価し、類似性や共通性が基準値より高い場合に、内容が互いに等価な重複サイトであると判定していた(例えば、特許文献1および特許文献2参照)。
図1は、本発明の実施の形態1における重複Webサイト検出装置の構成図である。図1において、前処理手段1は、入力したWebページコンテンツ7のデータ形式を、後続手段の処理に必要な形式に変換する手段である。第1のソート手段2は、前処理手段1の結果の並べ替えを行う。タグ付与手段3は、第1のソート手段2の結果に基づいて各Webページに対応するデータにタグを付与する。
実施の形態1では、同一タグ内でのサイト内パスのヒット/ミスの計数に基づいて、重複性を判定するようにしたものであるが、次に、サイト名の類似性を考慮して類似サイト名からなる重複サイト候補集合に対しては不一致の許容度を大きくする実施の形態を示す。
実施の形態1では、各サイトに対して先頭サイト内パスに対応する単一のタグを付与したものであるが、次に各サイトに対して複数のタグを付与する実施の形態を示す。
実施の形態1では、Webページコンテンツ7の全てのWebページを処理対象としたが、次に、コンテンツが重複している可能性の高いWebページのみを予め選択する手段を設けた実施の形態を示す。
実施の形態1では、サイト内パスを全て考慮に入れたが、判定を誤る可能性の高いサイト内パスを取り除く手段を設けた実施の形態を示す。
Claims (8)
- Webページ情報から、それぞれのサイトのURLに対応するコンテンツハッシュ値、サイト名、およびサイト内パスを取り出してサイト情報を生成する前処理手段と、
生成されたそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて一致度が所定値よりも高い複数行を重複サイト集合として検出する重複サイト集合検出手段と
を備えたことを特徴とする重複Webサイト検出装置。 - 請求項1に記載の重複Webサイト検出装置において、
前記重複サイト集合検出手段は、前記サイト情報の中の前記コンテンツハッシュ値または前記サイト名の少なくとも1つが重複するURLに対して同一のタグを生成し、前記同一のタグに含まれているサイト名を重複サイト候補集合とし、前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、列方向のコンテンツハッシュ値に基づいて所定値よりも高い一致度を有する重複サイト候補集合を重複サイト集合として検出することを特徴とする重複Webサイト検出装置。 - 請求項2に記載の重複Webサイト検出装置において、
前記重複サイト集合検出手段は、
前記前処理手段で取り出されたそれぞれの前記サイト情報を前記サイト名および前記サイト内パスの文字列順に並び替える第1のソート手段と、
並び替えられたそれぞれの前記サイト情報に対して、前記サイト内パスと前記コンテンツハッシュ値との組からなるタグを生成するとともに、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられた先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成し、生成したタグをサイト情報に付与するタグ付与手段と、
前記タグが付与されたサイト情報を前記タグの文字列順に並び替えることにより、同一のタグが付されたサイト情報に含まれているサイト名を重複サイト候補集合として抽出する第2のソート手段と
抽出されたそれぞれの前記重複サイト候補集合に対応するそれぞれの前記サイト情報に基づいて、前記サイト名を行、前記サイト内パスを列の指標としてコンテンツハッシュ値を要素とする行列を構成し、それぞれの列毎に、対応するコンテンツハッシュ値の種類および同一種類の出現頻度を計数し、前記種類が1であり前記出現頻度が2以上かつ前記重複サイト候補集合に含まれるサイト名の種類に対する所定の割合以上である列を一致列として計数し、前記種類が2以上である列を不一致列として計数する計数手段と、
前記計数手段で計数された前記一致列および前記不一致列の数に基づいて、前記一致列の数が所定値以上であり前記不一致列の数が所定値未満である場合に前記重複サイト候補集合を重複サイト集合として検出する判定手段と
を備えたことを特徴とする重複Webサイト検出装置。 - 請求項3に記載の重複Webサイト検出装置において、
前記重複サイト集合検出手段は、
抽出されたそれぞれの前記重複サイト候補集合に含まれるサイト名に対して、それぞれのサイト名の「.」で区切られたドメイン名部分ごとにドメイン出現頻度を計数するドメイン計数手段をさらに備え、
前記判定手段は、前記計数手段で計数された前記一致列および前記不一致列の数を、前記ドメイン計数手段で計数されたドメイン出現頻度に基づいて補正し、補正後の一致列の数が所定値以上であり補正後の不一致列の数が所定値未満である場合に前記重複サイト候補集合に含まれているサイト名を重複サイト集合として検出する
ことを特徴とする重複Webサイト検出装置。 - 請求項3または4に記載の重複Webサイト検出装置において、
前記タグ付与手段は、同一のサイト名を有する複数のサイト情報については、文字列順で並び替えられたサイト情報を複数のグループに分け、各グループの先頭のサイト情報に対応するサイト内パスとコンテンツハッシュ値との組からなる同一のタグを生成することにより複数のタグを生成し、
前記判定手段で検出された重複サイト集合の中から同一のサイト名が含まれている重複サイト集合同士を1つの重複サイト集合に併合するマージ手段をさらに備えたことを特徴とする重複Webサイト検出装置。 - 請求項1ないし5のいずれか1項に記載の重複Webサイト検出装置において、
前記前処理手段は、それぞれのサイトのURLに対応するサイト内パスおよびコンテンツ長の出現頻度を計数し、出現頻度が1回であるURLを削除した後に、前記サイト情報を生成することを特徴とする重複Webサイト検出装置。 - 請求項1ないし6のいずれか1項に記載の重複Webサイト検出装置において、
前記重複サイト集合検出手段から、重複サイト集合として検出されなかった集合を非重複サイト集合として抽出し、前記非重複サイト集合内に含まれているサイト内パスの中から所定値以上の出現頻度を有するサイト内パスを除外パスリストとして抽出する除外パス抽出手段をさらに備え、
前記前処理手段は、前記除外パス抽出手段で前記除外パスリストが抽出された場合には、前記除外パスリストを読み込み、前記除外パスリストのサイト内パスを含むURLを削除した後に前記サイト情報を生成し、
前記重複サイト集合検出手段は、前記除外パスリストのサイト内パスを含むURLを削除した後に生成された前記サイト情報に基づいて重複サイト集合を検出する
ことを特徴とする重複Webサイト検出装置。 - 請求項7に記載の重複Webサイト検出装置において、
前記除外パス抽出手段は、所定値以上の出現頻度を有するサイト内パスが抽出されなくなるまで前記除外パスリストを抽出する処理を繰り返し行うことを特徴とする重複Webサイト検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005026743A JP4610360B2 (ja) | 2005-02-02 | 2005-02-02 | 重複Webサイト検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005026743A JP4610360B2 (ja) | 2005-02-02 | 2005-02-02 | 重複Webサイト検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006215735A true JP2006215735A (ja) | 2006-08-17 |
JP4610360B2 JP4610360B2 (ja) | 2011-01-12 |
Family
ID=36978939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005026743A Active JP4610360B2 (ja) | 2005-02-02 | 2005-02-02 | 重複Webサイト検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4610360B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015636A (ja) * | 2007-07-05 | 2009-01-22 | Mitsubishi Electric Corp | 重複Webサイト動的検出装置 |
US7827166B2 (en) * | 2006-10-13 | 2010-11-02 | Yahoo! Inc. | Handling dynamic URLs in crawl for better coverage of unique content |
JP2010286973A (ja) * | 2009-06-10 | 2010-12-24 | Hitachi Ltd | フィルタリング装置 |
US20120047121A1 (en) * | 2010-08-23 | 2012-02-23 | Microsoft Corporation | Content signature notification |
CN102467572A (zh) * | 2010-11-17 | 2012-05-23 | 英业达股份有限公司 | 支持重复数据删除程序的数据区块查询方法 |
US9503373B2 (en) | 2014-02-14 | 2016-11-22 | Fujitsu Limited | Control method by receiving device, receiving device, and communication system |
KR20200114484A (ko) * | 2019-03-28 | 2020-10-07 | 네이버비즈니스플랫폼 주식회사 | 취약점 중복판단방법 및 이를 이용하는 진단장치 |
CN111898013A (zh) * | 2020-07-27 | 2020-11-06 | 绿盟科技集团股份有限公司 | 一种网站监测的方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004264926A (ja) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Www上のミラーサイト群発見装置、ミラーサイト群発見方法、この方法のプログラムおよびこのプログラムを記録した記録媒体 |
-
2005
- 2005-02-02 JP JP2005026743A patent/JP4610360B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004264926A (ja) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | Www上のミラーサイト群発見装置、ミラーサイト群発見方法、この方法のプログラムおよびこのプログラムを記録した記録媒体 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7827166B2 (en) * | 2006-10-13 | 2010-11-02 | Yahoo! Inc. | Handling dynamic URLs in crawl for better coverage of unique content |
JP2009015636A (ja) * | 2007-07-05 | 2009-01-22 | Mitsubishi Electric Corp | 重複Webサイト動的検出装置 |
JP2010286973A (ja) * | 2009-06-10 | 2010-12-24 | Hitachi Ltd | フィルタリング装置 |
US20120047121A1 (en) * | 2010-08-23 | 2012-02-23 | Microsoft Corporation | Content signature notification |
US9043306B2 (en) * | 2010-08-23 | 2015-05-26 | Microsoft Technology Licensing, Llc | Content signature notification |
CN102467572A (zh) * | 2010-11-17 | 2012-05-23 | 英业达股份有限公司 | 支持重复数据删除程序的数据区块查询方法 |
US9503373B2 (en) | 2014-02-14 | 2016-11-22 | Fujitsu Limited | Control method by receiving device, receiving device, and communication system |
KR20200114484A (ko) * | 2019-03-28 | 2020-10-07 | 네이버비즈니스플랫폼 주식회사 | 취약점 중복판단방법 및 이를 이용하는 진단장치 |
KR102231722B1 (ko) * | 2019-03-28 | 2021-03-25 | 네이버클라우드 주식회사 | 취약점 중복판단방법 및 이를 이용하는 진단장치 |
US11570196B2 (en) | 2019-03-28 | 2023-01-31 | Naver Cloud Corporation | Method for determining duplication of security vulnerability and analysis apparatus using same |
CN111898013A (zh) * | 2020-07-27 | 2020-11-06 | 绿盟科技集团股份有限公司 | 一种网站监测的方法及装置 |
CN111898013B (zh) * | 2020-07-27 | 2024-03-19 | 绿盟科技集团股份有限公司 | 一种网站监测的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4610360B2 (ja) | 2011-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4610360B2 (ja) | 重複Webサイト検出装置 | |
US9558241B2 (en) | System and method for performing longest common prefix strings searches | |
Bar-Yossef et al. | Do not crawl in the DUST: Different URLs with similar text | |
Zafarani et al. | Connecting corresponding identities across communities | |
US7818303B2 (en) | Web graph compression through scalable pattern mining | |
JP4708436B2 (ja) | 信頼性のある文書の識別 | |
US5941944A (en) | Method for providing a substitute for a requested inaccessible object by identifying substantially similar objects using weights corresponding to object features | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
CN108228710B (zh) | 一种针对url的分词方法及装置 | |
US8423885B1 (en) | Updating search engine document index based on calculated age of changed portions in a document | |
CN106909609B (zh) | 确定相似字符串的方法、文件查重的方法及系统 | |
AU3366799A (en) | System and method for searching electronic documents created with optical character recognition | |
JP4114600B2 (ja) | 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム | |
CN110889023A (zh) | 一种elasticsearch的分布式多功能搜索引擎 | |
US7836108B1 (en) | Clustering by previous representative | |
US8661069B1 (en) | Predictive-based clustering with representative redirect targets | |
CN103618742A (zh) | 获取子域名的方法和系统以及网站管理员权限验证方法 | |
CN103617225A (zh) | 一种关联网页搜索方法和系统 | |
KR101556714B1 (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
CN115391568A (zh) | 基于知识图谱的实体分类方法、系统、终端及存储介质 | |
CN110147506B (zh) | Url的去重方法与装置 | |
US20200380048A1 (en) | Architecture and functional model of a generic data excavation engine | |
WO2020152845A1 (ja) | セキュリティ情報分析装置、システム、方法およびプログラム | |
CN102722527B (zh) | 一种支持含有缺失符号的查询请求的全文检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100601 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101012 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101012 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131022 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S801 | Written request for registration of abandonment of right |
Free format text: JAPANESE INTERMEDIATE CODE: R311801 |
|
ABAN | Cancellation due to abandonment | ||
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |