JP6827116B2 - ウェブページのクラスタリング方法及び装置 - Google Patents
ウェブページのクラスタリング方法及び装置 Download PDFInfo
- Publication number
- JP6827116B2 JP6827116B2 JP2019528069A JP2019528069A JP6827116B2 JP 6827116 B2 JP6827116 B2 JP 6827116B2 JP 2019528069 A JP2019528069 A JP 2019528069A JP 2019528069 A JP2019528069 A JP 2019528069A JP 6827116 B2 JP6827116 B2 JP 6827116B2
- Authority
- JP
- Japan
- Prior art keywords
- url
- attribute
- tag
- clustering
- urls
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000004590 computer program Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 description 11
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000005192 partition Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Description
好ましくは、分類モジュールは、複数のクラスタリング待ちページのURLをURL集合とすること、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出し、2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、URL集合から信頼できる書き替え規則に合致したURLを検索して同一URL分類とし、URL集合から同一URL分類中のURLを削除し、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出するステップに戻るのに用いる。
Claims (13)
- ウェブページのクラスタリング装置は、複数のクラスタリング待ちの各ページのURL(Uniform Resource Locator)を取得するステップと、
ウェブページのクラスタリング装置は、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類するステップと、
ウェブページのクラスタリング装置は、各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、前記各URLに対応するページのページフレームワークに従って前記各URLをクラスタリングできるか否かを確定するステップと、
もし前記各URLがクラスタリングできれば、ウェブページのクラスタリング装置は、前記URL分類を保留するステップとを含み、
各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類するステップは、
前記複数のクラスタリング待ちページのURLをURL集合とするステップと、
前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出するステップと、
前記2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、前記URL集合から前記信頼できる書き替え規則に合致したURLを検索して同一URL分類とするステップと、
前記URL集合から前記同一URL分類中のURLを削除し、前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出するステップに戻るステップとを含むことを特徴とするウェブページのクラスタリング方法。 - 前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出するステップは、
前記URL集合から第1URLと第2URLを抽出し、前記第1URLと前記第2URLの書き替え規則を確定するステップを含み、
前記方法はさらに、
もし前記第1URLと前記第2URLの書き替え規則が信頼できない書き替え規則であれば、前記URL集合から第3URLと第4URLを抽出し、前記第3URLと前記第4URLの書き替え規則を確定し、前記2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定するステップに戻り、前記第3URLと前記第4URLのうちの少なくとも1つは、前記URL集合中の前記第1URLと前記第2URL以外の其の他のURLであることを含むことを特徴とする請求項1に記載のウェブページのクラスタリング方法。 - 各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、前記各URLに対応するページのページフレームワークに従って前記各URLをクラスタリングできるか否かを確定するステップは、
前記各URL分類中における各URLに対して、前記URLに対応するページのハイパーテキストマークアップ言語(HTML)ファイルを取得し、前記HTMLファイルに含まれるタグ情報に従って、前記HTMLファイルの指紋特徴値を取得するステップと、
前記各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較するステップと、
もし前記所定閾値を下回ると前記各URLがクラスタリングできると判断するステップとを含むことを特徴とする請求項1または請求項2に記載のウェブページのクラスタリング方法。 - 前記HTMLファイルに含まれるタグ情報に従って、前記HTMLファイルの指紋特徴値を取得するステップは、
前記HTMLファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応するステップと、
各タグの前記HTMLファイル中における位置の異なりにより、各タグの位置重み値を確定するステップと、
各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、前記HTMLファイルの指紋特徴値を得るステップとを含むことを特徴とする請求項3に記載のウェブページのクラスタリング方法。 - 各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、前記HTMLファイルの指紋特徴値を得る場合、
前記HTMLファイル中の位置は先端、中部、末端の各部分を含み、前記先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高く、
タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、前記非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、前記アイデンティティ属性の属性重み値は前記非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は前記非代表属性の属性重み値より高いことを特徴とする請求項4に記載のウェブページのクラスタリング方法。 - 複数のクラスタリング待ちページのURL(Uniform Resource Locator)取得するのに用いるクロールモジュールと、
各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類するのに用いる分類モジュールと、
各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、前記各URLに対応するページのページフレームワークに従って前記各URLをクラスタリングできるか否かを確定し、もし前記各URLをクラスタリングできれば、前記URL分類を保留するのに用いる判断モジュールと、を備え、
前記分類モジュールは、
前記複数のクラスタリング待ちページのURLをURL集合とし、
前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出し、
前記2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、前記URL集合から前記信頼できる書き替え規則に合致したURLを検索して同一URL分類とし、
前記URL集合から前記同一URL分類中のURLを削除し、前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出するステップに戻るのに用いることを特徴とするウェブページのクラスタリング装置。 - 前記分類モジュールはさらに、
前記URL集合から第1URLと第2URLを抽出し、前記第1URLと前記第2URLの書き替え規則を確定し、
前記分類モジュールはさらに、
前記第1URLと前記第2URLの書き替え規則が信頼できない書き替え規則である場合、前記URL集合から第3URLと第4URLを抽出し、前記第3URLと前記第4URLの書き替え規則を確定し、前記2つの異なるURLの書き替え規則が信頼できる書き替え規則であるか否かを確定するステップに戻ることに用い、
前記第3URLと前記第4URLのうちの少なくとも1つは、前記URL集合中の前記第1URLと前記第2URL以外の其の他のURLであることを特徴とする請求項6に記載のウェブページのクラスタリング装置。 - 前記判断モジュールは、
前記各URL分類中における各URLに対して、前記URLに対応するページのハイパーテキストマークアップ言語(HTML)ファイルを取得し、前記HTMLファイルに含まれるタグ情報に従って、前記HTMLファイルの指紋特徴値を取得し、
前記各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較し、
もし前記所定閾値を下回ると前記各URLがクラスタリングできると判断するのに用いることを特徴とする請求項6または請求項7に記載のウェブページのクラスタリング装置。 - 前記判断モジュールは、
前記HTMLファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応し、
各タグの前記HTMLファイル中における位置の異なりにより、各タグの位置重み値を確定し、
各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、前記HTMLファイルの指紋特徴値を得るのに用いることを特徴とする請求項8に記載のウェブページのクラスタリング装置。 - 前記判断モジュールは、前記HTMLファイル中の位置を先端、中部、末端に分割し、
先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高く、
タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、前記非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、前記アイデンティティ属性の属性重み値は前記非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は前記非代表属性の属性重み値より高いことを特徴とする請求項9に記載のウェブページのクラスタリング装置。 - コンピュータ読み取り可能な記憶媒体であって、コンピュータで実行可能な指令を記憶しており、前記コンピュータで実行可能な指令は前記コンピュータに請求項1ないし請求項5のいずれか1項に記載の方法を実行させるのに用いることを特徴とするコンピュータ読み取り可能な記憶媒体。
- プログラム指令を記憶するメモリと、
前記メモリに記憶されたプログラム指令を呼び出し、取得したプログラムに基づいて、請求項1ないし請求項5のいずれか1項に記載の方法を実行するプロセッサとを備えることを特徴とするコンピュータ装置。 - コンピュータプログラム製品であって、コンピュータにおいて運行される際、コンピュータに請求項1ないし請求項5のいずれか1項に記載の方法を実行させることを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611068233.0 | 2016-11-25 | ||
CN201611068233.0A CN106708952B (zh) | 2016-11-25 | 2016-11-25 | 一种网页聚类方法及装置 |
PCT/CN2017/112883 WO2018095411A1 (zh) | 2016-11-25 | 2017-11-24 | 一种网页聚类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019536171A JP2019536171A (ja) | 2019-12-12 |
JP6827116B2 true JP6827116B2 (ja) | 2021-02-10 |
Family
ID=58935063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019528069A Active JP6827116B2 (ja) | 2016-11-25 | 2017-11-24 | ウェブページのクラスタリング方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11023540B2 (ja) |
JP (1) | JP6827116B2 (ja) |
CN (1) | CN106708952B (ja) |
WO (1) | WO2018095411A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708952B (zh) | 2016-11-25 | 2019-11-19 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页聚类方法及装置 |
CN107317892B (zh) * | 2017-06-30 | 2020-08-07 | 北京知道创宇信息技术股份有限公司 | 一种网络地址的处理方法、计算设备及可读存储介质 |
CN109561163B (zh) * | 2017-09-27 | 2022-03-15 | 阿里巴巴集团控股有限公司 | 统一资源定位符重写规则的生成方法及装置 |
US11570238B2 (en) * | 2017-12-22 | 2023-01-31 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for predicting the state changes of network nodes |
CN110717036B (zh) * | 2018-07-11 | 2023-11-10 | 阿里巴巴集团控股有限公司 | 一种统一资源定位符的去重方法、装置及电子设备 |
CN109213912A (zh) * | 2018-08-16 | 2019-01-15 | 北京神州泰岳软件股份有限公司 | 一种抓取网络数据的方法及网络数据抓取调度装置 |
CN109583211B (zh) * | 2018-10-11 | 2023-03-07 | 创新先进技术有限公司 | 网站聚类及漏洞扫描方法、装置、电子设备及存储介质 |
CN110059272B (zh) * | 2018-11-02 | 2023-08-15 | 创新先进技术有限公司 | 一种页面特征识别方法和装置 |
CN111611503B (zh) * | 2020-05-27 | 2023-07-14 | 百度在线网络技术(北京)有限公司 | 页面的处理方法、装置、电子设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061490A1 (en) * | 2001-09-26 | 2003-03-27 | Abajian Aram Christian | Method for identifying copyright infringement violations by fingerprint detection |
US7680785B2 (en) * | 2005-03-25 | 2010-03-16 | Microsoft Corporation | Systems and methods for inferring uniform resource locator (URL) normalization rules |
US7565350B2 (en) * | 2006-06-19 | 2009-07-21 | Microsoft Corporation | Identifying a web page as belonging to a blog |
US7962523B2 (en) * | 2008-04-11 | 2011-06-14 | Yahoo! Inc. | System and method for detecting templates of a website using hyperlink analysis |
US8429110B2 (en) * | 2010-06-10 | 2013-04-23 | Microsoft Corporation | Pattern tree-based rule learning |
CN103136212B (zh) * | 2011-11-23 | 2016-09-07 | 北京百度网讯科技有限公司 | 一种类别新词的挖掘方法及装置 |
CN103631787B (zh) * | 2012-08-22 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 网页类型识别方法以及网页类型识别装置 |
CN102902790B (zh) * | 2012-09-29 | 2017-06-06 | 北京奇虎科技有限公司 | 网页分类系统及方法 |
CN102902794B (zh) * | 2012-09-29 | 2016-08-03 | 北京奇虎科技有限公司 | 网页分类系统及方法 |
CN104699835B (zh) * | 2015-03-31 | 2016-09-28 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
WO2017049045A1 (en) * | 2015-09-16 | 2017-03-23 | RiskIQ, Inc. | Using hash signatures of dom objects to identify website similarity |
CN106095979B (zh) * | 2016-06-20 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | Url合并处理方法和装置 |
CN106708952B (zh) * | 2016-11-25 | 2019-11-19 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页聚类方法及装置 |
-
2016
- 2016-11-25 CN CN201611068233.0A patent/CN106708952B/zh active Active
-
2017
- 2017-11-24 US US16/463,084 patent/US11023540B2/en active Active
- 2017-11-24 WO PCT/CN2017/112883 patent/WO2018095411A1/zh active Application Filing
- 2017-11-24 JP JP2019528069A patent/JP6827116B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US11023540B2 (en) | 2021-06-01 |
JP2019536171A (ja) | 2019-12-12 |
US20190377765A1 (en) | 2019-12-12 |
CN106708952A (zh) | 2017-05-24 |
WO2018095411A1 (zh) | 2018-05-31 |
CN106708952B (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6827116B2 (ja) | ウェブページのクラスタリング方法及び装置 | |
US11244203B2 (en) | Automated generation of structured training data from unstructured documents | |
US10452691B2 (en) | Method and apparatus for generating search results using inverted index | |
US9342583B2 (en) | Book content item search | |
US11256912B2 (en) | Electronic form identification using spatial information | |
US9043338B1 (en) | Book content item search | |
US8631097B1 (en) | Methods and systems for finding a mobile and non-mobile page pair | |
CN108536745B (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN105095441A (zh) | 一种信息获取方法及装置 | |
WO2021068681A1 (zh) | 标签分析方法、装置及计算机可读存储介质 | |
US20200159780A1 (en) | Categorically filtering search results | |
US20160203222A1 (en) | Search method, search system, and search engine | |
US9336316B2 (en) | Image URL-based junk detection | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
US20120284224A1 (en) | Build of website knowledge tables | |
CN113656737A (zh) | 网页内容展示方法、装置、电子设备以及存储介质 | |
CN112579947A (zh) | 网页元素图的截取方法、装置及电子设备 | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及系统 | |
EP4449276A1 (en) | Methods and apparatus for matching media with a job host provider independent of the media format and job host platform | |
CN113722572B (zh) | 一种分布式深度爬取的方法、装置及介质 | |
US10296566B2 (en) | Apparatus and method for outputting web content that is rendered based on device information | |
JP2016045552A (ja) | 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置 | |
CN113343137A (zh) | 优化seo页面生成方法、装置、电子设备及存储介质 | |
US20230282013A1 (en) | Automated key-value pair extraction | |
WO2014146445A1 (en) | Method and system for managing webpage links in a browser |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190524 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200923 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6827116 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |