CN109062876B - 一种基于dom网页剪枝的相似网页查找方法及系统 - Google Patents
一种基于dom网页剪枝的相似网页查找方法及系统 Download PDFInfo
- Publication number
- CN109062876B CN109062876B CN201810801006.7A CN201810801006A CN109062876B CN 109062876 B CN109062876 B CN 109062876B CN 201810801006 A CN201810801006 A CN 201810801006A CN 109062876 B CN109062876 B CN 109062876B
- Authority
- CN
- China
- Prior art keywords
- webpage
- digital representation
- dom tree
- web page
- dom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
Abstract
本发明提供了一种基于DOM网页剪枝的相似网页查找方法及系统,其包括步骤:输入数据格式化:获取网页的数字化标识;相似网页查找:在存储网页数字化标识的数据库中查找相似网页。其中,所述获取网页的数据化标识具体包括以下步骤:网页数据格式化:获取输入网页的HTML源代码;网页净化:去除网页中的冗余信息;生成网页的DOM树:对网页进行DOM解析,生成DOM树;精炼的DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。本发明方法能够提高海量网页中相似网页的查找效率。
Description
技术领域
本发明涉及互联网信息采集的技术领域,尤其涉及一种基于DOM网页剪枝的相似网页查找方法及系统。
背景技术
随着Web信息资源的爆炸式增长,如何从海量数据中筛选出人们想要的数据就成为了一个富有挑战性的课题。传统的网页信息提取工具大都基于文本信息的匹配,并不能对复杂的结构化网页信息进行准确地比较和取舍。目前对Web网页进行比较主要是通过对网页的结构特性,也就是DOM树结构,来衡量目标信息和样本信息之间的相似度,但是由于网页的DOM结构复杂,内容较多,在进行相似度比较时,耗费极大,效率极低。
发明内容
为了在海量的网页中快速的获取找到相似网页,本发明提出了一种基于DOM网页剪枝的相似网页查找方法,该方法包括以下步骤:
S1、输入数据格式化:获取网页的数字化标识;
S2、相似网页查找:在存储网页数字化标识的数据库中查找相似网页;
其中,所述获取网页的数据化标识具体包括以下步骤:
S1.1、网页数据格式化:获取输入网页的HTML源代码;
S1.2、网页净化:去除网页中的冗余信息;
S1.4、生成网页的DOM树:对网页进行DOM解析,生成DOM树;
S1.5、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;
S1.6、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S1.7、数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。
其中,所述存储网页数字化标识的数据库为存储有网页的数字化标识以及该网页URL的对应关系记录的数据库。
其中,所述格式节点是网页中确定网页结构布局的节点,如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点,如FONT、SPAN、A、IMG等;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点,只可能出现样式节点、文本、注释等。
其中,所述网页的数字化标识为一个128位的simhash值,并且其在数据库中分4段保存在数据库中,每段32位,标记为hash1,hash2,hash3,hash4的四个整型整数,并且数据库记录了这四个数字和对应的网页url的映射关系。
其中,所述相似网页,是指所述网页的数字化标识与数据库中的网页的数字化标识之间的海明距离小于等于n时的数据库中的网页,n为小于3的整数。
另外,本发明还提供了一种基于DOM网页剪枝的相似网页查找系统,该系统包括以下模块:
数据格式化模块:获取网页的数字化标识;
相似网页查找模块:在存储网页数字化标识的数据库中查找相似网页。
其中,所述获取网页的数据化标识具体包括以下子模块:
网页数据格式化子模块:获取输入网页的HTML源代码;
网页净化子模块:去除网页中的冗余信息;
DOM树生成子模块:对网页进行DOM解析,生成DOM树。
DOM树精炼子模块:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;
文本序列转换子模块:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
数字标识生成子模块:利用simhash算法计算所述文本序列,得到该网页的数字化标识;
本发明通过对网页DOM树进行合理的剪枝,找到所有的最小格式节点,对网页DOM树从根节点开始遍历,终止于最小格式节点,得到一段HTML标签构成的文本;对这段文本进行simhash计算,将网页的结构信息存储在一个128位的数字中,使得将原来的文档结构对比转化为数字查询,大大提升相似网页的查找效率,与现有网页数字化标识的具有更好的兼容性和实用性。比如在海量网页中查找相似网页,假设所有网页平均有k个节点,有N个网页,那么如果采用现有的相似网页查找方法,则需要将对海量网页进行逐个遍历比较,效率为k*O(N),而本发明的相似网页查找方法,将海量网页中进行相似网页的查找,变为计算网页的simhash值,查找海明距离<=n(一般n取3)的数值查询,此时相似网页的查找效率提升到O(1),大大提高相似网页查找以及按照网页结构分类的效率。
附图说明
图1为本发明一种基于DOM网页剪枝的相似网页查找方法的流程图。
图2为本发明一种基于DOM网页剪枝的相似网页查找系统的示意图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。
图1为本发明一种基于DOM网页剪枝的相似网页查找方法的流程图,该方法包括以下步骤:
S1、网页数据格式化:获取网页的HTML源代码;
S2、网页净化:去除网页的HTML源代码中的冗余信息,比如css、script、meta、注释信息等;
S3、生成网页的DOM树:对净化后的网页基于jsoup进行DOM树解析,生成净化后的DOM树;
S4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,所述格式节点是网页中确定网页结构布局的节点,如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点,如FONT、SPAN、A、IMG等;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点,只可能出现样式节点、文本、注释等;
S5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S6、数字标识生成:利用simhash算法计算所述文本序列,得到一个128位的simhash值即为该网页的数字化标识;
S7、网页信息存储:将该simhash值分4段保存在数据库中,每段32位,标记位hash1,hash2,hash3,hash4的四个整型整数,记录了这四个数字和对应的网页url的映射关系;
S8、获取待查找网页的数字化标识:对待查找网页利用上述步骤S1-S6获取该待查找网页的simhash值;
S9、相似网页查找:利用待查找网页的数字化标识在数据库中检索simhash值和当前计算值海明距离不超过3的记录,这些记录对应的网页即为与待查找网页相似的网页。
图2为本发明提供的一种基于DOM网页剪枝的相似网页查找系统示意图,该系统包括以下模块:
数据格式化模块:获取网页的数字化标识;
相似网页查找模块:在存储网页数字化标识的数据库中查找相似网页。
其中,所述获取网页的数据化标识具体包括以下子模块:
网页数据格式化子模块:获取输入网页的HTML源代码;
网页净化子模块:去除网页中的冗余信息;
DOM树生成子模块:对网页进行DOM解析,生成DOM树。
DOM树精炼子模块:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;
文本序列转换子模块:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
数字标识生成子模块:利用simhash算法计算所述文本序列,得到该网页的数字化标识。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (2)
1.一种基于DOM网页剪枝的相似网页查找方法,其特征在于:该方法包括以下步骤:
S1、输入数据格式化:获取网页的数字化标识;
S2、相似网页查找:在存储网页数字化标识的数据库中查找相似网页;
其中,所述获取网页的数字化标识具体包括以下步骤:
S1.1、网页数据格式化:获取输入网页的HTML源代码;
S1.2、网页净化:去除网页中的冗余信息;
S1.3、生成网页的DOM树:对网页进行DOM解析,生成DOM树;
S1.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树,其中,所述最小格式节点是指DOM树中该节点下的子孙节点中不会再出现格式节点;所述格式节点是网页中确定网页结构布局的节点;
S1.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S1.6、数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识;
所述存储网页数字化标识的数据库为存储有网页的数字化标识以及该网页URL的对应关系记录的数据库;
所述网页的数字化标识为一个128位的simhash值,并且其在数据库中分4段保存在数据库中,每段32位,标记为hash1,hash2,hash3,hash4的四个整型整数,并且数据库记录了这四个整数和对应的网页URL的映射关系;
所述相似网页,是指所述网页的数字化标识与数据库中的网页的数字化标识之间的海明距离小于等于n时的数据库中的网页,n为小于3的整数。
2.一种基于DOM网页剪枝的相似网页查找系统,该系统包括以下模块:
数据格式化模块:获取网页的数字化标识;
相似网页查找模块:在存储网页数字化标识的数据库中查找相似网页;
其中,所述获取网页的数字化标识具体包括以下子模块:
网页数据格式化子模块:获取输入网页的HTML源代码;
网页净化子模块:去除网页中的冗余信息;
DOM树生成子模块:对网页进行DOM解析,生成DOM树;
DOM树精炼子模块:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树,其中,所述最小格式节点是指DOM树中该节点下的子孙节点中不会再出现格式节点;所述格式节点是网页中确定网页结构布局的节点;
文本序列转换子模块:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
数字标识生成子模块:利用simhash算法计算所述文本序列,得到该网页的数字化标识;
所述存储网页数字化标识的数据库为存储有网页的数字化标识以及该网页URL的对应关系记录的数据库;
所述网页的数字化标识为一个128位的simhash值,并且其在数据库中分4段保存在数据库中,每段32位,标记为hash1,hash2,hash3,hash4的四个整型整数,并且数据库记录了这四个整数和对应的网页URL的映射关系;
所述相似网页,是指所述网页的数字化标识与数据库中的网页的数字化标识之间的海明距离小于等于n时的数据库中的网页,n为小于3的整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810801006.7A CN109062876B (zh) | 2018-07-20 | 2018-07-20 | 一种基于dom网页剪枝的相似网页查找方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810801006.7A CN109062876B (zh) | 2018-07-20 | 2018-07-20 | 一种基于dom网页剪枝的相似网页查找方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109062876A CN109062876A (zh) | 2018-12-21 |
CN109062876B true CN109062876B (zh) | 2019-07-12 |
Family
ID=64817574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810801006.7A Active CN109062876B (zh) | 2018-07-20 | 2018-07-20 | 一种基于dom网页剪枝的相似网页查找方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109062876B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949916B (zh) * | 2020-08-20 | 2024-04-09 | 深信服科技股份有限公司 | 一种网页分析方法、装置、设备及存储介质 |
CN112328928A (zh) * | 2020-11-27 | 2021-02-05 | 山东省计算中心(国家超级计算济南中心) | 一种基于结构序列的文本脉络抽取方法及系统 |
CN112887381B (zh) * | 2021-01-15 | 2022-07-19 | 中国地质大学(武汉) | 用于面向特定网络入口的新内容检测和汇聚方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630772A (zh) * | 2016-01-26 | 2016-06-01 | 广东工业大学 | 一种网页评论内容的抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727486A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种Web论坛信息抽取系统 |
CN104598462B (zh) * | 2013-10-30 | 2018-08-07 | 深圳市国信互联科技有限公司 | 提取结构化数据的方法及装置 |
CN107204960B (zh) * | 2016-03-16 | 2020-11-24 | 阿里巴巴集团控股有限公司 | 网页识别方法及装置、服务器 |
-
2018
- 2018-07-20 CN CN201810801006.7A patent/CN109062876B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630772A (zh) * | 2016-01-26 | 2016-06-01 | 广东工业大学 | 一种网页评论内容的抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109062876A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
Constantin et al. | PDFX: fully-automated PDF-to-XML conversion of scientific literature | |
US8868621B2 (en) | Data extraction from HTML documents into tables for user comparison | |
US9208185B2 (en) | Indexing and search query processing | |
US20020021838A1 (en) | Adaptively weighted, partitioned context edit distance string matching | |
US7606816B2 (en) | Record boundary identification and extraction through pattern mining | |
CN109062876B (zh) | 一种基于dom网页剪枝的相似网页查找方法及系统 | |
US8140267B2 (en) | System and method for identifying similar molecules | |
US20080263032A1 (en) | Unstructured and semistructured document processing and searching | |
US20110145229A1 (en) | Indexing and searching product identifiers | |
CN109902142B (zh) | 一种基于编辑距离的字符串模糊匹配和查询方法 | |
CN105677638B (zh) | Web信息抽取方法 | |
CN106502991B (zh) | 出版物处理方法和装置 | |
CN104268148A (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
Azir et al. | Wrapper approaches for web data extraction: A review | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
CN105550359A (zh) | 一种基于垂直搜索的网页排序方法、装置及服务器 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
CN107145947B (zh) | 一种信息处理方法、装置及电子设备 | |
JP5225021B2 (ja) | 全文検索方法及び装置及びプログラム | |
CN112685549B (zh) | 融入篇章语义的涉案新闻要素实体识别方法及系统 | |
Sīle et al. | level matching of Web of Science to a local database in a comparative context | |
EP1072986A2 (en) | System and method for extracting data from semi-structured text | |
Aung et al. | Semantic based text block segmentation using wordnet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing Applicant after: Beijing Puyun Mdt InfoTech Ltd Applicant after: Cape Cloud Information Technology Co., Ltd. Address before: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing Applicant before: Beijing Puyun Mdt InfoTech Ltd Applicant before: Guangdong Puyun information Polytron Technologies Inc |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |