CN111651694A - 应用于网页中dom树处理方法 - Google Patents
应用于网页中dom树处理方法 Download PDFInfo
- Publication number
- CN111651694A CN111651694A CN202010436191.1A CN202010436191A CN111651694A CN 111651694 A CN111651694 A CN 111651694A CN 202010436191 A CN202010436191 A CN 202010436191A CN 111651694 A CN111651694 A CN 111651694A
- Authority
- CN
- China
- Prior art keywords
- dom tree
- link
- text
- density
- target webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种应用于网页中DOM树处理方法,包括以下步骤:步骤S10,获取目标网页所对应的DOM树,删除DOM树中无效信息;步骤S20,计算目标网页中子节点的文本密度和链接密度;步骤S30,根据文本密度和链接密度计算第一权重,判断第一权重是否大于第一预设阈值,若第一权重大于第一预设阈值,则确定对应的子节点为正文标签;步骤S40,在DOM树中根据正文标签确定标题和作者;步骤S50,在DOM树中对内容节点进行降噪处理;步骤S60,根据目标网页的网站域名保留DOM树模型。本发明,能够建立与目标网页匹配度高的DOM树,以便于用户在后续过程中的信息检索,适应不同类型的网站。
Description
技术领域
本发明属于浏览器模型处理领域,尤其涉及一种应用于网页中DOM树处理方法。
背景技术
目前,随着互联网快速发展,海量信息在互联网中传递,如何高效地从杂乱无章的网页内容中发现有用的信息显得越来越重要。对于许多新闻网页,有效信息分布不均匀,主体内容也存在广告之类无关的内容。急需一种与网页相匹配程度高的DOM树,以便于客户快速检索到相关信息。
因此,现有技术有待于改善。
发明内容
本发明的主要目的在于提出一种应用于网页中DOM树处理方法,以解决背景技术中所提及的技术问题,能够建立与目标网页匹配度高的DOM树,以便于用户在后续过程中的信息检索。
本发明的一种应用于网页中DOM树处理方法,包括以下步骤:
步骤S10,获取目标网页所对应的DOM树,删除DOM树中无效信息;
步骤S20,计算目标网页中子节点的文本密度和链接密度;
步骤S30,根据文本密度和链接密度计算第一权重,判断第一权重是否大于第一预设阈值,若第一权重大于第一预设阈值,则确定对应的子节点为正文标签;
步骤S40,在DOM树中根据正文标签确定标题和作者;
步骤S50,在DOM树中对内容节点进行降噪处理;
步骤S60,根据目标网页的网站域名保留DOM树模型。
优选地,无效信息包括meta定义标签、link链接标签、JavaScript脚本标签和注释标签。
优选地,在步骤S60之后,还包括步骤:
步骤S70,当用户浏览目标网页时,基于DOM树对目标网页进行正文抽取。
优选地,在步骤S20中,文本密度∈[0,1]。
优选地,步骤S50具体包括:
步骤S51,获取中文字符数、标点符号数、链接字符数和链接数;
步骤S52,计算第一计算值和第二计算值,其中,第一计算值为链接字符数与中文字符数和标点符号数之和的比值,第二计算值为链接数与内容节点的链接总数的比值;
步骤S53,判断第一计算值和第二计算值是否均大于第二预设阈值,若是,删除子节点。
本发明的应用于网页中DOM树处理方法,能够建立与目标网页匹配度高的DOM树,以便于用户在后续过程中的信息检索,且能够适用于不同类型的网站。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明应用于网页中DOM树处理方法的第一实施例的流程示意图;
图2为本发明应用于网页中DOM树处理方法中步骤S50的细化流程示意图;
图3为本发明应用于网页中DOM树处理方法中无效信息位于目标网页中的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要注意的是,相关术语如“第一”、“第二”等可以用于描述各种组件,但是这些术语并不限制该组件。这些术语仅用于区分一个组件和另一组件。例如,不脱离本发明的范围,第一组件可以被称为第二组件,并且第二组件类似地也可以被称为第一组件。术语“和/或”是指相关项和描述项的任何一个或多个的组合。
如图1所示,图1为本发明应用于网页中DOM树处理方法的第一实施例的流程示意图。
本发明的一种应用于网页中DOM树处理方法,包括以下步骤:
步骤S10,获取目标网页所对应的DOM树,删除DOM树中无效信息;
在步骤S10中,进入一个目标网页,获取对应的DOM树;删除DOM树中无效信息;无效信息包括meta定义标签、link链接标签、JavaScript脚本标签和注释标签;如图3所示,meta定义标签表示<meta>内容;link链接标签表示<link>内容;JavaScript脚本标签表示<script>内容;注释标签表示<!----->内容;无效信息还包括front标签和frame标签。
步骤S20,计算目标网页中子节点的文本密度和链接密度;在步骤S20中,利用以下公式计算:文本密度∈[0,1](公式1-1);链接密度∈[0,1](公式1-2);即文本密度计算是取当前结点内文本长度与DOM树内所有文本长度的比值,链接密度是取当前结点内链接数与DOM树内所有链接数的比值。
步骤S30,根据文本密度和链接密度计算第一权重,判断第一权重是否大于第一预设阈值,若第一权重大于第一预设阈值,则确定对应的子节点为正文标签;
在步骤S30中,第一权重为文本密度与链接密度的比值;其中,则确定对应的子节点为正文标签,这里的“对应的子节点”表示“当前节点”(公式1-1、公式1-2中)。
步骤S40,在DOM树中根据正文标签确定标题和作者;
在步骤S40中,具体地,在DOM树中,根据正文标签所在位置的上下五个子节点内确定标题,利用正则定位时间,在各个已经确定的标签之间确定作者;
基于新闻内容在发布之后必须拥有标题、作者、发布时间、正文等信息。标题在正文之前的5个标签位置中寻找,通过对比改标签内文本长度与网页的标题长度,如果差值在8以内,则可认为该标签的内容为标题。本系统通过正则表达式来匹配发布时间。在获取到标题以及发布时间后,可以利用这两个已经定位的标签确定作者,而有些新闻内容作者可能会与正文融合,这时可通过自然语言处理,对比各个关键点(标题与发布时间之间的节点、发布时间之后的第一个文本节点、新闻内容最后一个文本节点)出现的人名,其中它们权重依次降低,直至确定出作者。
步骤S50,在DOM树中对内容节点进行降噪处理;
在步骤S50中,具体包括:步骤S51,确定内容节点,获取中文字符数、标点符号数、链接字符数和链接数;在步骤S51中,具体地,计算文链比,α∈[0,1],b∈[-1,1],基于子节点的文链比小于本节点的节点以确定为内容节点;
步骤S52,计算第一计算值和第二计算值,其中,第一计算值为链接字符数与中文字符数和标点符号数之和的比值,第二计算值为链接数与内容节点的链接总数的比值;步骤S53,判断第一计算值和第二计算值是否均大于第二预设阈值,若是,删除子节点;
在步骤S52中,若第一计算值和第二计算值是否均大于第二预设阈值,可以认为该子节点为噪声结点,可以将之剔除。
例如:内容节点中也是有噪声的,比如例子里的新闻正文内容出现<ahref="//www.sohu.com/?strategyid=00001"target="_blank"title="点击进入搜狐首页"id="backsohucom"style="white-space:nowrap;">;<spanclass="backword">;<iclass="backsohu"></i>;返回搜狐,查看更多;</span>;</a>;这些是在同一类型的网页中会出现多次的无关新闻正文的标签,是必须去除的噪声,所以步骤S52也针对这种正文无关内容进行降噪处理。
步骤S60,根据目标网页的网站域名保留DOM树模型。
本发明的应用于网页中DOM树处理方法,能够建立与目标网页匹配度高的DOM树,以便于用户在后续过程中的信息检索,且能够适用于不同类型的网站。
如图1所示,优选地,优选地,在步骤S60之后,还包括步骤:
步骤S70,当用户浏览目标网页时,基于DOM树对目标网页进行正文抽取。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种应用于网页中DOM树处理方法,其特征在于,包括以下步骤:
步骤S10,获取目标网页所对应的DOM树,删除DOM树中无效信息;
步骤S20,计算目标网页中子节点的文本密度和链接密度;
步骤S30,根据文本密度和链接密度计算第一权重,判断第一权重是否大于第一预设阈值,若第一权重大于第一预设阈值,则确定对应的子节点为正文标签;
步骤S40,在DOM树中根据正文标签确定标题和作者;
步骤S50,在DOM树中对内容节点进行降噪处理;
步骤S60,根据目标网页的网站域名保留DOM树模型。
2.如权利要求1所述应用于网页中DOM树处理方法,其特征在于,无效信息包括meta定义标签、link链接标签、JavaScript脚本标签和注释标签。
3.如权利要求1所述应用于网页中DOM树处理方法,其特征在于,在步骤S60之后,还包括步骤:
步骤S70,当用户浏览目标网页时,基于DOM树对目标网页进行正文抽取。
6.如权利要求1所述应用于网页中DOM树处理方法,其特征在于,步骤S50具体包括:
步骤S51,获取中文字符数、标点符号数、链接字符数和链接数;
步骤S52,计算第一计算值和第二计算值,其中,第一计算值为链接字符数与中文字符数和标点符号数之和的比值,第二计算值为链接数与内容节点的链接总数的比值;
步骤S53,判断第一计算值和第二计算值是否均大于第二预设阈值,若是,删除子节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436191.1A CN111651694B (zh) | 2020-05-21 | 2020-05-21 | 应用于网页中dom树处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436191.1A CN111651694B (zh) | 2020-05-21 | 2020-05-21 | 应用于网页中dom树处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651694A true CN111651694A (zh) | 2020-09-11 |
CN111651694B CN111651694B (zh) | 2023-09-29 |
Family
ID=72342877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010436191.1A Active CN111651694B (zh) | 2020-05-21 | 2020-05-21 | 应用于网页中dom树处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651694B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663023A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种提取网页内容的实现方法 |
CN103064827A (zh) * | 2013-01-16 | 2013-04-24 | 盘古文化传播有限公司 | 一种网页内容抽取的方法及装置 |
CN103714176A (zh) * | 2014-01-08 | 2014-04-09 | 同济大学 | 基于最大文本密度的网页正文抽取方法 |
CN105653668A (zh) * | 2015-12-29 | 2016-06-08 | 武汉理工大学 | 云环境中基于DOMTree的网页内容分析提取优化方法 |
CN106951451A (zh) * | 2017-02-22 | 2017-07-14 | 北京麒麟合盛网络技术有限公司 | 一种网页内容提取方法、装置及计算设备 |
CN107423391A (zh) * | 2017-07-24 | 2017-12-01 | 福州大学 | 网页结构化数据的信息提取方法 |
CN108132919A (zh) * | 2017-12-14 | 2018-06-08 | 宁波升维信息技术有限公司 | 一种网页内容抽取的方法 |
CN108733813A (zh) * | 2018-05-21 | 2018-11-02 | 山东管理学院 | 面向bbs论坛网页内容的信息提取方法、系统及介质 |
CN109086361A (zh) * | 2018-07-20 | 2018-12-25 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN110020312A (zh) * | 2017-12-11 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 提取网页正文的方法和装置 |
CN110390037A (zh) * | 2019-07-25 | 2019-10-29 | 中南民族大学 | 基于dom树的信息分类方法、装置、设备及存储介质 |
-
2020
- 2020-05-21 CN CN202010436191.1A patent/CN111651694B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663023A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种提取网页内容的实现方法 |
CN103064827A (zh) * | 2013-01-16 | 2013-04-24 | 盘古文化传播有限公司 | 一种网页内容抽取的方法及装置 |
CN103714176A (zh) * | 2014-01-08 | 2014-04-09 | 同济大学 | 基于最大文本密度的网页正文抽取方法 |
CN105653668A (zh) * | 2015-12-29 | 2016-06-08 | 武汉理工大学 | 云环境中基于DOMTree的网页内容分析提取优化方法 |
CN106951451A (zh) * | 2017-02-22 | 2017-07-14 | 北京麒麟合盛网络技术有限公司 | 一种网页内容提取方法、装置及计算设备 |
CN107423391A (zh) * | 2017-07-24 | 2017-12-01 | 福州大学 | 网页结构化数据的信息提取方法 |
CN110020312A (zh) * | 2017-12-11 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 提取网页正文的方法和装置 |
CN108132919A (zh) * | 2017-12-14 | 2018-06-08 | 宁波升维信息技术有限公司 | 一种网页内容抽取的方法 |
CN108733813A (zh) * | 2018-05-21 | 2018-11-02 | 山东管理学院 | 面向bbs论坛网页内容的信息提取方法、系统及介质 |
CN109086361A (zh) * | 2018-07-20 | 2018-12-25 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN110390037A (zh) * | 2019-07-25 | 2019-10-29 | 中南民族大学 | 基于dom树的信息分类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111651694B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Dom based content extraction via text density | |
CN109033358B (zh) | 新闻聚合与智能实体关联的方法 | |
US8554800B2 (en) | System, methods and applications for structured document indexing | |
US8381095B1 (en) | Automated document revision markup and change control | |
JP3703080B2 (ja) | ウェブコンテンツを簡略化するための方法、システムおよび媒体 | |
US7627571B2 (en) | Extraction of anchor explanatory text by mining repeated patterns | |
US8812435B1 (en) | Learning objects and facts from documents | |
US8898296B2 (en) | Detection of boilerplate content | |
CN107590219A (zh) | 网页人物主题相关信息提取方法 | |
WO2005066834A1 (en) | Generating hyperlinks and anchor text in html and non-html documents | |
CN109597972B (zh) | 一种基于网页框架的网页动态变化和篡改检测方法 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN102915361B (zh) | 一种基于文字分布特征的网页正文提取方法 | |
CN107577788B (zh) | 一种自动结构化数据的电商网站主题爬虫方法 | |
CN104572934B (zh) | 一种基于dom的网页关键内容抽取方法 | |
Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
JP4231298B2 (ja) | 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム | |
CN111381809B (zh) | 一种焦点页面的查找方法及装置 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
Yu et al. | Web content information extraction based on DOM tree and statistical information | |
CN106897287B (zh) | 网页发布时间抽取方法和用于网页发布时间抽取的装置 | |
CN103729354B (zh) | 网页信息处理方法及装置 | |
CN111651694B (zh) | 应用于网页中dom树处理方法 | |
Wang et al. | A novel web page text information extraction method | |
CN113806667B (zh) | 一种支持网页分类的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |