CN111651694A

CN111651694A - 应用于网页中dom树处理方法

Info

Publication number: CN111651694A
Application number: CN202010436191.1A
Authority: CN
Inventors: 詹锦州; 杜卫红; 谢立欧
Original assignee: Shenzhen Beyebe Network Technology Co ltd
Current assignee: Shenzhen Beyebe Network Technology Co ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-11
Anticipated expiration: 2040-05-21
Also published as: CN111651694B

Abstract

本发明公开了一种应用于网页中DOM树处理方法，包括以下步骤：步骤S10，获取目标网页所对应的DOM树，删除DOM树中无效信息；步骤S20，计算目标网页中子节点的文本密度和链接密度；步骤S30，根据文本密度和链接密度计算第一权重，判断第一权重是否大于第一预设阈值，若第一权重大于第一预设阈值，则确定对应的子节点为正文标签；步骤S40，在DOM树中根据正文标签确定标题和作者；步骤S50，在DOM树中对内容节点进行降噪处理；步骤S60，根据目标网页的网站域名保留DOM树模型。本发明，能够建立与目标网页匹配度高的DOM树，以便于用户在后续过程中的信息检索，适应不同类型的网站。

Description

应用于网页中DOM树处理方法

技术领域

本发明属于浏览器模型处理领域，尤其涉及一种应用于网页中DOM树处理方法。

背景技术

目前，随着互联网快速发展，海量信息在互联网中传递，如何高效地从杂乱无章的网页内容中发现有用的信息显得越来越重要。对于许多新闻网页，有效信息分布不均匀，主体内容也存在广告之类无关的内容。急需一种与网页相匹配程度高的DOM树，以便于客户快速检索到相关信息。

因此，现有技术有待于改善。

发明内容

本发明的主要目的在于提出一种应用于网页中DOM树处理方法，以解决背景技术中所提及的技术问题，能够建立与目标网页匹配度高的DOM树，以便于用户在后续过程中的信息检索。

本发明的一种应用于网页中DOM树处理方法，包括以下步骤：

步骤S10，获取目标网页所对应的DOM树，删除DOM树中无效信息；

步骤S20，计算目标网页中子节点的文本密度和链接密度；

步骤S30，根据文本密度和链接密度计算第一权重，判断第一权重是否大于第一预设阈值，若第一权重大于第一预设阈值，则确定对应的子节点为正文标签；

步骤S40，在DOM树中根据正文标签确定标题和作者；

步骤S50，在DOM树中对内容节点进行降噪处理；

步骤S60，根据目标网页的网站域名保留DOM树模型。

优选地，无效信息包括meta定义标签、link链接标签、JavaScript脚本标签和注释标签。

优选地，在步骤S60之后，还包括步骤：

步骤S70，当用户浏览目标网页时，基于DOM树对目标网页进行正文抽取。

优选地，在步骤S20中，文本密度∈[0，1]。

优选地，在步骤S20中，

链接密度∈[0，1]。

优选地，步骤S50具体包括：

步骤S51，获取中文字符数、标点符号数、链接字符数和链接数；

步骤S52，计算第一计算值和第二计算值，其中，第一计算值为链接字符数与中文字符数和标点符号数之和的比值，第二计算值为链接数与内容节点的链接总数的比值；

步骤S53，判断第一计算值和第二计算值是否均大于第二预设阈值，若是，删除子节点。

本发明的应用于网页中DOM树处理方法，能够建立与目标网页匹配度高的DOM树，以便于用户在后续过程中的信息检索，且能够适用于不同类型的网站。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明应用于网页中DOM树处理方法的第一实施例的流程示意图；

图2为本发明应用于网页中DOM树处理方法中步骤S50的细化流程示意图；

图3为本发明应用于网页中DOM树处理方法中无效信息位于目标网页中的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要注意的是，相关术语如“第一”、“第二”等可以用于描述各种组件，但是这些术语并不限制该组件。这些术语仅用于区分一个组件和另一组件。例如，不脱离本发明的范围，第一组件可以被称为第二组件，并且第二组件类似地也可以被称为第一组件。术语“和/或”是指相关项和描述项的任何一个或多个的组合。

如图1所示，图1为本发明应用于网页中DOM树处理方法的第一实施例的流程示意图。

本发明的一种应用于网页中DOM树处理方法，包括以下步骤：

在步骤S10中，进入一个目标网页，获取对应的DOM树；删除DOM树中无效信息；无效信息包括meta定义标签、link链接标签、JavaScript脚本标签和注释标签；如图3所示，meta定义标签表示<meta>内容；link链接标签表示<link>内容；JavaScript脚本标签表示<script>内容；注释标签表示<！----->内容；无效信息还包括front标签和frame标签。

步骤S20，计算目标网页中子节点的文本密度和链接密度；在步骤S20中，利用以下公式计算：

文本密度∈[0，1](公式1-1)；

链接密度∈[0，1](公式1-2)；即文本密度计算是取当前结点内文本长度与DOM树内所有文本长度的比值，链接密度是取当前结点内链接数与DOM树内所有链接数的比值。

在步骤S30中，第一权重为文本密度与链接密度的比值；其中，则确定对应的子节点为正文标签，这里的“对应的子节点”表示“当前节点”(公式1-1、公式1-2中)。

步骤S40，在DOM树中根据正文标签确定标题和作者；

在步骤S40中，具体地，在DOM树中，根据正文标签所在位置的上下五个子节点内确定标题，利用正则定位时间，在各个已经确定的标签之间确定作者；

基于新闻内容在发布之后必须拥有标题、作者、发布时间、正文等信息。标题在正文之前的5个标签位置中寻找，通过对比改标签内文本长度与网页的标题长度，如果差值在8以内，则可认为该标签的内容为标题。本系统通过正则表达式来匹配发布时间。在获取到标题以及发布时间后，可以利用这两个已经定位的标签确定作者，而有些新闻内容作者可能会与正文融合，这时可通过自然语言处理，对比各个关键点(标题与发布时间之间的节点、发布时间之后的第一个文本节点、新闻内容最后一个文本节点)出现的人名，其中它们权重依次降低，直至确定出作者。

步骤S50，在DOM树中对内容节点进行降噪处理；

在步骤S50中，具体包括：步骤S51，确定内容节点，获取中文字符数、标点符号数、链接字符数和链接数；在步骤S51中，具体地，计算文链比，

α∈[0，1]，b∈[-1，1]，基于子节点的文链比小于本节点的节点以确定为内容节点；

步骤S52，计算第一计算值和第二计算值，其中，第一计算值为链接字符数与中文字符数和标点符号数之和的比值，第二计算值为链接数与内容节点的链接总数的比值；步骤S53，判断第一计算值和第二计算值是否均大于第二预设阈值，若是，删除子节点；

在步骤S52中，若第一计算值和第二计算值是否均大于第二预设阈值，可以认为该子节点为噪声结点，可以将之剔除。

例如：内容节点中也是有噪声的，比如例子里的新闻正文内容出现<ahref＝"//www.sohu.com/？strategyid＝00001"target＝"_blank"title＝"点击进入搜狐首页"id＝"backsohucom"style＝"white-space:nowrap；">；<spanclass＝"backword">；<iclass＝"backsohu"></i>；返回搜狐，查看更多；</span>；</a>；这些是在同一类型的网页中会出现多次的无关新闻正文的标签，是必须去除的噪声，所以步骤S52也针对这种正文无关内容进行降噪处理。

步骤S60，根据目标网页的网站域名保留DOM树模型。

如图1所示，优选地，优选地，在步骤S60之后，还包括步骤：

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种应用于网页中DOM树处理方法，其特征在于，包括以下步骤：

步骤S20，计算目标网页中子节点的文本密度和链接密度；

步骤S40，在DOM树中根据正文标签确定标题和作者；

步骤S50，在DOM树中对内容节点进行降噪处理；

步骤S60，根据目标网页的网站域名保留DOM树模型。

2.如权利要求1所述应用于网页中DOM树处理方法，其特征在于，无效信息包括meta定义标签、link链接标签、JavaScript脚本标签和注释标签。

3.如权利要求1所述应用于网页中DOM树处理方法，其特征在于，在步骤S60之后，还包括步骤：

4.如权利要求1所述应用于网页中DOM树处理方法，其特征在于，在步骤S20中，

文本密度∈[0，1]。

5.如权利要求1所述应用于网页中DOM树处理方法，其特征在于，在步骤S20中，

链接密度∈[0，1]。

6.如权利要求1所述应用于网页中DOM树处理方法，其特征在于，步骤S50具体包括：