CN109062876B - 一种基于dom网页剪枝的相似网页查找方法及系统 - Google Patents

一种基于dom网页剪枝的相似网页查找方法及系统 Download PDF

Info

Publication number
CN109062876B
CN109062876B CN201810801006.7A CN201810801006A CN109062876B CN 109062876 B CN109062876 B CN 109062876B CN 201810801006 A CN201810801006 A CN 201810801006A CN 109062876 B CN109062876 B CN 109062876B
Authority
CN
China
Prior art keywords
webpage
digital representation
dom tree
web page
dom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810801006.7A
Other languages
English (en)
Other versions
CN109062876A (zh
Inventor
汪敏
刘鹏飞
刘轩山
李绪祥
尹娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cape Cloud Information Technology Co Ltd
Beijing Puyun Mdt Infotech Ltd
Original Assignee
Cape Cloud Information Technology Co Ltd
Beijing Puyun Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cape Cloud Information Technology Co Ltd, Beijing Puyun Mdt Infotech Ltd filed Critical Cape Cloud Information Technology Co Ltd
Priority to CN201810801006.7A priority Critical patent/CN109062876B/zh
Publication of CN109062876A publication Critical patent/CN109062876A/zh
Application granted granted Critical
Publication of CN109062876B publication Critical patent/CN109062876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Abstract

本发明提供了一种基于DOM网页剪枝的相似网页查找方法及系统,其包括步骤:输入数据格式化:获取网页的数字化标识;相似网页查找:在存储网页数字化标识的数据库中查找相似网页。其中,所述获取网页的数据化标识具体包括以下步骤:网页数据格式化:获取输入网页的HTML源代码;网页净化:去除网页中的冗余信息;生成网页的DOM树:对网页进行DOM解析,生成DOM树;精炼的DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。本发明方法能够提高海量网页中相似网页的查找效率。

Description

一种基于DOM网页剪枝的相似网页查找方法及系统
技术领域
本发明涉及互联网信息采集的技术领域,尤其涉及一种基于DOM网页剪枝的相似网页查找方法及系统。
背景技术
随着Web信息资源的爆炸式增长,如何从海量数据中筛选出人们想要的数据就成为了一个富有挑战性的课题。传统的网页信息提取工具大都基于文本信息的匹配,并不能对复杂的结构化网页信息进行准确地比较和取舍。目前对Web网页进行比较主要是通过对网页的结构特性,也就是DOM树结构,来衡量目标信息和样本信息之间的相似度,但是由于网页的DOM结构复杂,内容较多,在进行相似度比较时,耗费极大,效率极低。
发明内容
为了在海量的网页中快速的获取找到相似网页,本发明提出了一种基于DOM网页剪枝的相似网页查找方法,该方法包括以下步骤:
S1、输入数据格式化:获取网页的数字化标识;
S2、相似网页查找:在存储网页数字化标识的数据库中查找相似网页;
其中,所述获取网页的数据化标识具体包括以下步骤:
S1.1、网页数据格式化:获取输入网页的HTML源代码;
S1.2、网页净化:去除网页中的冗余信息;
S1.4、生成网页的DOM树:对网页进行DOM解析,生成DOM树;
S1.5、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;
S1.6、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S1.7、数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。
其中,所述存储网页数字化标识的数据库为存储有网页的数字化标识以及该网页URL的对应关系记录的数据库。
其中,所述格式节点是网页中确定网页结构布局的节点,如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点,如FONT、SPAN、A、IMG等;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点,只可能出现样式节点、文本、注释等。
其中,所述网页的数字化标识为一个128位的simhash值,并且其在数据库中分4段保存在数据库中,每段32位,标记为hash1,hash2,hash3,hash4的四个整型整数,并且数据库记录了这四个数字和对应的网页url的映射关系。
其中,所述相似网页,是指所述网页的数字化标识与数据库中的网页的数字化标识之间的海明距离小于等于n时的数据库中的网页,n为小于3的整数。
另外,本发明还提供了一种基于DOM网页剪枝的相似网页查找系统,该系统包括以下模块:
数据格式化模块:获取网页的数字化标识;
相似网页查找模块:在存储网页数字化标识的数据库中查找相似网页。
其中,所述获取网页的数据化标识具体包括以下子模块:
网页数据格式化子模块:获取输入网页的HTML源代码;
网页净化子模块:去除网页中的冗余信息;
DOM树生成子模块:对网页进行DOM解析,生成DOM树。
DOM树精炼子模块:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;
文本序列转换子模块:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
数字标识生成子模块:利用simhash算法计算所述文本序列,得到该网页的数字化标识;
本发明通过对网页DOM树进行合理的剪枝,找到所有的最小格式节点,对网页DOM树从根节点开始遍历,终止于最小格式节点,得到一段HTML标签构成的文本;对这段文本进行simhash计算,将网页的结构信息存储在一个128位的数字中,使得将原来的文档结构对比转化为数字查询,大大提升相似网页的查找效率,与现有网页数字化标识的具有更好的兼容性和实用性。比如在海量网页中查找相似网页,假设所有网页平均有k个节点,有N个网页,那么如果采用现有的相似网页查找方法,则需要将对海量网页进行逐个遍历比较,效率为k*O(N),而本发明的相似网页查找方法,将海量网页中进行相似网页的查找,变为计算网页的simhash值,查找海明距离<=n(一般n取3)的数值查询,此时相似网页的查找效率提升到O(1),大大提高相似网页查找以及按照网页结构分类的效率。
附图说明
图1为本发明一种基于DOM网页剪枝的相似网页查找方法的流程图。
图2为本发明一种基于DOM网页剪枝的相似网页查找系统的示意图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。
图1为本发明一种基于DOM网页剪枝的相似网页查找方法的流程图,该方法包括以下步骤:
S1、网页数据格式化:获取网页的HTML源代码;
S2、网页净化:去除网页的HTML源代码中的冗余信息,比如css、script、meta、注释信息等;
S3、生成网页的DOM树:对净化后的网页基于jsoup进行DOM树解析,生成净化后的DOM树;
S4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,所述格式节点是网页中确定网页结构布局的节点,如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点,如FONT、SPAN、A、IMG等;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点,只可能出现样式节点、文本、注释等;
S5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S6、数字标识生成:利用simhash算法计算所述文本序列,得到一个128位的simhash值即为该网页的数字化标识;
S7、网页信息存储:将该simhash值分4段保存在数据库中,每段32位,标记位hash1,hash2,hash3,hash4的四个整型整数,记录了这四个数字和对应的网页url的映射关系;
S8、获取待查找网页的数字化标识:对待查找网页利用上述步骤S1-S6获取该待查找网页的simhash值;
S9、相似网页查找:利用待查找网页的数字化标识在数据库中检索simhash值和当前计算值海明距离不超过3的记录,这些记录对应的网页即为与待查找网页相似的网页。
图2为本发明提供的一种基于DOM网页剪枝的相似网页查找系统示意图,该系统包括以下模块:
数据格式化模块:获取网页的数字化标识;
相似网页查找模块:在存储网页数字化标识的数据库中查找相似网页。
其中,所述获取网页的数据化标识具体包括以下子模块:
网页数据格式化子模块:获取输入网页的HTML源代码;
网页净化子模块:去除网页中的冗余信息;
DOM树生成子模块:对网页进行DOM解析,生成DOM树。
DOM树精炼子模块:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;
文本序列转换子模块:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
数字标识生成子模块:利用simhash算法计算所述文本序列,得到该网页的数字化标识。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (2)

1.一种基于DOM网页剪枝的相似网页查找方法,其特征在于:该方法包括以下步骤:
S1、输入数据格式化:获取网页的数字化标识;
S2、相似网页查找:在存储网页数字化标识的数据库中查找相似网页;
其中,所述获取网页的数字化标识具体包括以下步骤:
S1.1、网页数据格式化:获取输入网页的HTML源代码;
S1.2、网页净化:去除网页中的冗余信息;
S1.3、生成网页的DOM树:对网页进行DOM解析,生成DOM树;
S1.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树,其中,所述最小格式节点是指DOM树中该节点下的子孙节点中不会再出现格式节点;所述格式节点是网页中确定网页结构布局的节点;
S1.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S1.6、数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识;
所述存储网页数字化标识的数据库为存储有网页的数字化标识以及该网页URL的对应关系记录的数据库;
所述网页的数字化标识为一个128位的simhash值,并且其在数据库中分4段保存在数据库中,每段32位,标记为hash1,hash2,hash3,hash4的四个整型整数,并且数据库记录了这四个整数和对应的网页URL的映射关系;
所述相似网页,是指所述网页的数字化标识与数据库中的网页的数字化标识之间的海明距离小于等于n时的数据库中的网页,n为小于3的整数。
2.一种基于DOM网页剪枝的相似网页查找系统,该系统包括以下模块:
数据格式化模块:获取网页的数字化标识;
相似网页查找模块:在存储网页数字化标识的数据库中查找相似网页;
其中,所述获取网页的数字化标识具体包括以下子模块:
网页数据格式化子模块:获取输入网页的HTML源代码;
网页净化子模块:去除网页中的冗余信息;
DOM树生成子模块:对网页进行DOM解析,生成DOM树;
DOM树精炼子模块:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树,其中,所述最小格式节点是指DOM树中该节点下的子孙节点中不会再出现格式节点;所述格式节点是网页中确定网页结构布局的节点;
文本序列转换子模块:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
数字标识生成子模块:利用simhash算法计算所述文本序列,得到该网页的数字化标识;
所述存储网页数字化标识的数据库为存储有网页的数字化标识以及该网页URL的对应关系记录的数据库;
所述网页的数字化标识为一个128位的simhash值,并且其在数据库中分4段保存在数据库中,每段32位,标记为hash1,hash2,hash3,hash4的四个整型整数,并且数据库记录了这四个整数和对应的网页URL的映射关系;
所述相似网页,是指所述网页的数字化标识与数据库中的网页的数字化标识之间的海明距离小于等于n时的数据库中的网页,n为小于3的整数。
CN201810801006.7A 2018-07-20 2018-07-20 一种基于dom网页剪枝的相似网页查找方法及系统 Active CN109062876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810801006.7A CN109062876B (zh) 2018-07-20 2018-07-20 一种基于dom网页剪枝的相似网页查找方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810801006.7A CN109062876B (zh) 2018-07-20 2018-07-20 一种基于dom网页剪枝的相似网页查找方法及系统

Publications (2)

Publication Number Publication Date
CN109062876A CN109062876A (zh) 2018-12-21
CN109062876B true CN109062876B (zh) 2019-07-12

Family

ID=64817574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810801006.7A Active CN109062876B (zh) 2018-07-20 2018-07-20 一种基于dom网页剪枝的相似网页查找方法及系统

Country Status (1)

Country Link
CN (1) CN109062876B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949916B (zh) * 2020-08-20 2024-04-09 深信服科技股份有限公司 一种网页分析方法、装置、设备及存储介质
CN112328928A (zh) * 2020-11-27 2021-02-05 山东省计算中心(国家超级计算济南中心) 一种基于结构序列的文本脉络抽取方法及系统
CN112887381B (zh) * 2021-01-15 2022-07-19 中国地质大学(武汉) 用于面向特定网络入口的新内容检测和汇聚方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630772A (zh) * 2016-01-26 2016-06-01 广东工业大学 一种网页评论内容的抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727486A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种Web论坛信息抽取系统
CN104598462B (zh) * 2013-10-30 2018-08-07 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN107204960B (zh) * 2016-03-16 2020-11-24 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630772A (zh) * 2016-01-26 2016-06-01 广东工业大学 一种网页评论内容的抽取方法

Also Published As

Publication number Publication date
CN109062876A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
Constantin et al. PDFX: fully-automated PDF-to-XML conversion of scientific literature
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
US9208185B2 (en) Indexing and search query processing
US20020021838A1 (en) Adaptively weighted, partitioned context edit distance string matching
US7606816B2 (en) Record boundary identification and extraction through pattern mining
CN109062876B (zh) 一种基于dom网页剪枝的相似网页查找方法及系统
US8140267B2 (en) System and method for identifying similar molecules
US20080263032A1 (en) Unstructured and semistructured document processing and searching
US20110145229A1 (en) Indexing and searching product identifiers
CN109902142B (zh) 一种基于编辑距离的字符串模糊匹配和查询方法
CN105677638B (zh) Web信息抽取方法
CN106502991B (zh) 出版物处理方法和装置
CN104268148A (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
Azir et al. Wrapper approaches for web data extraction: A review
CN109657114B (zh) 一种抽取网页半结构化数据的方法
CN105550359A (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN107145947B (zh) 一种信息处理方法、装置及电子设备
JP5225021B2 (ja) 全文検索方法及び装置及びプログラム
CN112685549B (zh) 融入篇章语义的涉案新闻要素实体识别方法及系统
Sīle et al. level matching of Web of Science to a local database in a comparative context
EP1072986A2 (en) System and method for extracting data from semi-structured text
Aung et al. Semantic based text block segmentation using wordnet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing

Applicant after: Beijing Puyun Mdt InfoTech Ltd

Applicant after: Cape Cloud Information Technology Co., Ltd.

Address before: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing

Applicant before: Beijing Puyun Mdt InfoTech Ltd

Applicant before: Guangdong Puyun information Polytron Technologies Inc

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant