JP6672292B2 - 重複ウェブページを除去する方法および装置 - Google Patents
重複ウェブページを除去する方法および装置 Download PDFInfo
- Publication number
- JP6672292B2 JP6672292B2 JP2017522605A JP2017522605A JP6672292B2 JP 6672292 B2 JP6672292 B2 JP 6672292B2 JP 2017522605 A JP2017522605 A JP 2017522605A JP 2017522605 A JP2017522605 A JP 2017522605A JP 6672292 B2 JP6672292 B2 JP 6672292B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- text characters
- feature code
- data table
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 102
- 238000012545 processing Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Description
本出願は、インターネット技術に関し、具体的には重複ウェブページを除去する方法および装置に関する。
インターネット技術の発展と共に、インターネットは人々が様々な情報を取得するための重要なソースとなった。しかし、インターネット上の多くの情報は重複している。何十億または数百億のウェブページの中には、重複情報を有する大量のウェブページが存在し、情報処理を困難にする。したがって、重複ウェブページを除去することは極めて重要である。
本出願は、関連技術における上記技術的問題の少なくとも1つをある程度解決することに向けられる。
本出願の実施形態について以下に詳細に説明する。これらの実施形態の例は添付図面に示される。同じまたは同様の参照番号により指定される同じまたは同様の要素は、同じまたは同様の機能を有し得る。添付図面を参照して説明されるこれらの実施形態は、単に例示的であり、本出願を説明するように意図されている。これらの実施形態は本出願を限定するものと解釈されてならない。
Claims (18)
- 重複ウェブページを除去するための装置によって実行される方法であって、
前記装置が、所定タイプの複数のウェブページを取得することと、
前記装置が、現在のウェブページの特徴コードと前記現在のウェブページ内に含まれるテキスト文字の数とを抽出することと、
前記装置が、前記特徴コードがデータ表内に含まれるかどうかを判断するために前記データ表を参照することと、
前記装置が、前記特徴コードが前記データ表内に含まれることに応じて、前記特徴コードに対応する前記データ表内で参照される前記ウェブページのテキスト文字の数を読み出し、かつ前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差がある範囲内であるときに、前記現在のウェブページを廃棄することと
を含む方法。 - 前記装置が、前記特徴コードが前記データ表内に含まれるかどうかを判断するために前記データ表を参照した後、前記特徴コードが前記データ表内に含まれていないことに応じて、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むことをさらに含む、請求項1に記載の方法。
- 前記装置が、前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差が前記範囲内にないときに、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むことをさらに含む、請求項1に記載の方法。
- 前記装置が、前記現在のウェブページの前記特徴コードを抽出することは、
前記装置が、前記現在のウェブページの前記テキスト内に含まれる段落を取得することと、
前記装置が、段落毎に、現在の段落の位置における第1の数のテキスト文字を選択することと、
前記装置が、前記段落のすべての前記選択されたテキスト文字を合成する文字ストリングに基づく計算により、前記特徴コードを生成することと
を含む、請求項1に記載の方法。 - 前記装置が、前記現在の段落の前記位置における前記第1の数のテキスト文字を選択することは、前記装置が、前記現在の段落の中心位置の左側および右側の第2の数のテキスト文字を選択することを含み、前記第2の数は前記第1の数の半分であり、および前記第2の数は3〜8である、請求項4に記載の方法。
- 前記第2の数は5である、請求項5に記載の方法。
- 重複ウェブページを除去する装置であって、
所定タイプの複数のウェブページを取得するように構成される取得モジュールと、
第1の処理モジュールであって、
現在のウェブページの特徴コードと前記現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することと、
前記特徴コードがデータ表内に含まれるかどうかを判断するために前記データ表を参照することと、
前記特徴コードが前記データ表内に含まれることに応じて、前記特徴コードに対応する前記データ表内で参照される前記ウェブページのテキスト文字の数を読み出し、かつ前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差がある範囲内であるときに、前記現在のウェブページを廃棄することと
を行うように構成される第1の処理モジュールと
を含む装置。 - 前記特徴コードが前記データ表内に含まれるかどうかを判断するために前記データ表を参照した後、前記特徴コードが前記データ表内に含まれていないことに応じて、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むように構成される第2の処理モジュールをさらに含む、請求項7に記載の装置。
- 前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差が前記範囲内にないときに、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むように構成される第3の処理モジュールをさらに含む、請求項7に記載の装置。
- 前記第1の処理モジュールは、
前記現在のウェブページの前記テキスト内に含まれる段落を取得することと、
段落毎に、現在の段落の位置における第1の数のテキスト文字を選択することと、
前記段落のすべての前記選択されたテキスト文字を合成する文字ストリングに基づく計算により、前記特徴コードを生成することと
を行うように構成される、請求項7に記載の装置。 - 前記第1の処理モジュールは、前記現在の段落の中心位置の左側および右側の第2の数のテキスト文字を選択するように構成され、前記第2の数は前記第1の数の半分であり、および前記第2の数は3〜8である、請求項10に記載の装置。
- 前記第2の数は5である、請求項11に記載の装置。
- 命令のセットを格納する非一時的コンピュータ可読媒体であって、前記命令のセットは、装置に重複ウェブページを除去する方法を行わせるように、前記装置の少なくとも一つのプロセッサによって実行可能であり、前記方法が、
所定タイプの複数のウェブページを取得することと、
現在のウェブページの特徴コードと前記現在のウェブページ内に含まれるテキスト文字の数とを抽出することと、
前記特徴コードがデータ表内に含まれるかどうかを判断するために前記データ表を参照することと、
前記特徴コードが前記データ表内に含まれることに応じて、前記特徴コードに対応する前記データ表内で参照される前記ウェブページのテキスト文字の数を読み出し、かつ前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差がある範囲内であるときに、前記現在のウェブページを廃棄することと
を含む、非一時的コンピュータ可読媒体。 - 前記方法が、前記特徴コードが前記データ表内に含まれるかどうかを判断するために前記データ表を参照した後、前記特徴コードが前記データ表内に含まれていないことに応じて、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むことをさらに含む、請求項13に記載の非一時的コンピュータ可読媒体。
- 前記方法が、前記読み出されたテキスト文字の数と前記抽出されたテキスト文字の数との差が前記範囲内にないときに、前記現在のウェブページの前記抽出された特徴コードと前記抽出されたテキスト文字の数との対応関係を前記データ表内に書き込むことをさらに含む、請求項13に記載の非一時的コンピュータ可読媒体。
- 前記現在のウェブページの前記特徴コードを抽出することは、
前記現在のウェブページの前記テキスト内に含まれる段落を取得することと、
段落毎に、現在の段落の位置における第1の数のテキスト文字を選択することと、
前記段落のすべての前記選択されたテキスト文字を合成する文字ストリングに基づく計算により、前記特徴コードを生成することと
を含む、請求項13に記載の非一時的コンピュータ可読媒体。 - 前記現在の段落の前記位置における前記第1の数のテキスト文字を選択することは、前記現在の段落の中心位置の左側および右側の第2の数のテキスト文字を選択することを含み、前記第2の数は前記第1の数の半分であり、および前記第2の数は3〜8である、請求項16に記載の非一時的コンピュータ可読媒体。
- 前記第2の数は5である、請求項17に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410599140.5A CN105630802A (zh) | 2014-10-30 | 2014-10-30 | 网页去重方法及装置 |
CN201410599140.5 | 2014-10-30 | ||
PCT/CN2015/092510 WO2016066043A1 (zh) | 2014-10-30 | 2015-10-22 | 网页去重方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017532690A JP2017532690A (ja) | 2017-11-02 |
JP6672292B2 true JP6672292B2 (ja) | 2020-03-25 |
Family
ID=55856595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017522605A Active JP6672292B2 (ja) | 2014-10-30 | 2015-10-22 | 重複ウェブページを除去する方法および装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10691769B2 (ja) |
EP (1) | EP3214557B1 (ja) |
JP (1) | JP6672292B2 (ja) |
KR (1) | KR102179855B1 (ja) |
CN (1) | CN105630802A (ja) |
SG (1) | SG11201703563SA (ja) |
WO (1) | WO2016066043A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630802A (zh) | 2014-10-30 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 网页去重方法及装置 |
US20180107580A1 (en) * | 2016-10-14 | 2018-04-19 | Microsoft Technology Licensing, Llc | Metadata enabled comparison of user interfaces |
CN106527876A (zh) * | 2016-11-10 | 2017-03-22 | 广东工业大学 | 一种统计网页字数的方法及系统 |
CN108205810B (zh) * | 2016-12-16 | 2021-08-10 | 富士通株式会社 | 图像比较装置及方法、电子设备 |
CN107729343A (zh) * | 2017-07-24 | 2018-02-23 | 上海壹账通金融科技有限公司 | 资源提取方法、计算机可读存储介质及电子设备 |
CN109033385B (zh) * | 2018-07-27 | 2021-08-27 | 百度在线网络技术(北京)有限公司 | 图片检索方法、装置、服务器及存储介质 |
CN109103953B (zh) * | 2018-08-23 | 2021-07-20 | 广州市香港科大霍英东研究院 | 一种电池组主动均衡控制方法、系统及装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6421675B1 (en) * | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
KR100406671B1 (ko) * | 2000-07-24 | 2003-11-21 | 주식회사 유니마이다스 | 문장 표절 및 도용 검색 방법 |
US6778986B1 (en) * | 2000-07-31 | 2004-08-17 | Eliyon Technologies Corporation | Computer method and apparatus for determining site type of a web site |
US6658423B1 (en) * | 2001-01-24 | 2003-12-02 | Google, Inc. | Detecting duplicate and near-duplicate files |
US7698317B2 (en) * | 2007-04-20 | 2010-04-13 | Yahoo! Inc. | Techniques for detecting duplicate web pages |
CN101102316A (zh) * | 2007-06-22 | 2008-01-09 | 腾讯科技(深圳)有限公司 | 一种网页去重的方法及系统 |
CN101499098B (zh) * | 2009-03-04 | 2012-07-11 | 阿里巴巴集团控股有限公司 | 一种网页评估值的确定及运用的方法、系统 |
KR20100115048A (ko) * | 2009-04-17 | 2010-10-27 | 정원석 | 복사 문서 판별 시스템 및 그 방법 |
CN101645082B (zh) * | 2009-04-17 | 2011-04-20 | 华中科技大学 | 基于并行编程模式的相似网页去重系统 |
KR20120124581A (ko) * | 2011-05-04 | 2012-11-14 | 엔에이치엔(주) | 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
CN102799647B (zh) * | 2012-06-30 | 2015-01-21 | 华为技术有限公司 | 网页去重方法和设备 |
CN103559259A (zh) * | 2013-11-04 | 2014-02-05 | 同济大学 | 基于云平台的消除近似重复网页方法 |
CN103646078B (zh) * | 2013-12-11 | 2017-01-25 | 北京启明星辰信息安全技术有限公司 | 一种实现互联网宣传监测目标评估的方法及装置 |
CN105630802A (zh) | 2014-10-30 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 网页去重方法及装置 |
US11843679B2 (en) * | 2015-07-27 | 2023-12-12 | Wp Company Llc | Automated dependency management based on page components |
-
2014
- 2014-10-30 CN CN201410599140.5A patent/CN105630802A/zh active Pending
-
2015
- 2015-10-22 SG SG11201703563SA patent/SG11201703563SA/en unknown
- 2015-10-22 WO PCT/CN2015/092510 patent/WO2016066043A1/zh active Application Filing
- 2015-10-22 KR KR1020177014662A patent/KR102179855B1/ko active IP Right Grant
- 2015-10-22 EP EP15853793.6A patent/EP3214557B1/en active Active
- 2015-10-22 JP JP2017522605A patent/JP6672292B2/ja active Active
-
2017
- 2017-04-28 US US15/582,322 patent/US10691769B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170235746A1 (en) | 2017-08-17 |
KR20170078777A (ko) | 2017-07-07 |
SG11201703563SA (en) | 2017-06-29 |
CN105630802A (zh) | 2016-06-01 |
KR102179855B1 (ko) | 2020-11-18 |
US10691769B2 (en) | 2020-06-23 |
EP3214557A1 (en) | 2017-09-06 |
EP3214557A4 (en) | 2017-09-06 |
JP2017532690A (ja) | 2017-11-02 |
WO2016066043A1 (zh) | 2016-05-06 |
EP3214557B1 (en) | 2019-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6672292B2 (ja) | 重複ウェブページを除去する方法および装置 | |
US10831793B2 (en) | Learning thematic similarity metric from article text units | |
US9645979B2 (en) | Device, method and program for generating accurate corpus data for presentation target for searching | |
JP2016522524A (ja) | 同義表現の探知及び関連コンテンツを検索する方法及び装置 | |
US11222053B2 (en) | Searching multilingual documents based on document structure extraction | |
CN107273883B (zh) | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 | |
US20150169676A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP2007164453A5 (ja) | ||
JP2003288334A (ja) | 文書処理装置及び文書処理方法 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN110059214B (zh) | 一种图像资源处理方法及装置 | |
CN113722472A (zh) | 一种技术文献信息提取方法、系统及存储介质 | |
CN103902578B (zh) | 一种网页信息抽取方法和装置 | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
US20140309985A1 (en) | Optimizing generation of a regular expression | |
CN113743432A (zh) | 一种图像实体信息获取方法、设备、电子设备和存储介质 | |
CN112699642B (zh) | 复杂医疗文书的索引提取方法及装置、介质及电子设备 | |
KR101698280B1 (ko) | 태그에 대한 웹 페이지 검색 장치 및 방법 | |
CN105095276B (zh) | 一种挖掘最大重复序列的方法及装置 | |
CN113434748A (zh) | 基于模板标注的分布式爬虫方法、装置、计算机装置及计算机可读存储介质 | |
CN110543622A (zh) | 文本相似度检测方法、装置、电子设备及可读存储介质 | |
JP6753190B2 (ja) | 文書検索装置及びプログラム | |
BR112012013256B1 (pt) | método para gerar o resultado de uma pesquisa executada utilizando uma máquina de pesquisa | |
KR20150134645A (ko) | 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체 | |
CN118503454B (zh) | 一种数据查询方法、设备、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170627 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190814 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6672292 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |