CN106960057A

CN106960057A - 一种基于信息密度提取网页正文的方法

Info

Publication number: CN106960057A
Application number: CN201710216774.1A
Authority: CN
Inventors: 张欢
Original assignee: Shanghai Wei Gu Information Technology Co Ltd
Current assignee: Shanghai Wei Gu Information Technology Co Ltd
Priority date: 2017-04-05
Filing date: 2017-04-05
Publication date: 2017-07-18

Abstract

本发明主要是提供一种基于信息密度提取网页正文的方法，利用该方法能够过滤网页中与主题无关的信息，并将网页中真实主题的正文提取。该方法基于对网页html标签及内容的统计分析，统计出网页html标签的数量以及每一个html标签包含子标签的数量，网页中每一个html标签包含字符的数量，网页中每一个html标签包含标点符号的数量，网页中每一个html标签包含链接的数量，网页中每一个html标签包含图片的数量；进一步计算出网页标签密度，字符密度，标点密度，链接密度，图片密度五个计算分量，将五个计算分量的乘积作为每一个html标签的信息密度；筛选出网页中信息密度值最大的标签作为网页正文输出。该方法利用网页信息密度的分布规律区分网页中的有效信息和无关的信息，具有很强的通用性，无需预先设定网页的提取规则，不需要人为设置提取的阈值，对各类网页正文提取准确高效。

Description

一种基于信息密度提取网页正文的方法

技术领域

本发明涉及计算机网络技术领域，具体而言，本发明涉及一种基于信息密度提取网页正文的方法。

背景技术

随着网络技术的不断发展，互联网已成为信息的主要来源，但是，目前互联网中的重复内容、广告内容及无意义内容等无效信息越来越多，而有效信息在网页中所占比重越来越少，使得人们通过互联网如搜索引擎获取其所需的有效信息的效率大幅降低

网页正文提取是实现搜索引擎、舆情监控等系统的技术基础之一，通过网页正文提取，可以将网页中广告、推荐等等与主题无关的信息滤除，利用正文提取的功能，可以提高搜索引擎的搜索精确度，减小舆情监控系统的错报、误报率。

现有的正文提取装置主要采用模式匹配的方法，通过预设网页正文的提取规则，通过模式匹配在网页中寻找正文所在的位置。这种方式具有很大的局限性，首先是需要人工的介入，系统无法自动获取网页正文提取规则，需要事先由操作者对网页进行分析总结后将提取规则输入系统；其次是适应性差，当网页的排版发生改变后，系统即部分或完全失效，无法自适应的对新的网页结构进行提取。

发明内容

本发明主要解决的技术问题是提供一种基于信息密度提取网页正文的方法，利用该方法能够过滤网页中与主题无关的信息，并将网页中真实主题的正文提取。该方法基于对网页html标签及内容的统计分析提出了一种网页信息密度的计算方法，利用网页信息密度的分布规律区分网页中的有效信息和无关的信息。该方法有很强的通用性，无需预先设定网页的提取规则，不需要人为设置提取的阈值，对各类网页正文提取准确高效。

为解决上述技术问题，本发明采用的技术方案是：

1.通过网络或其他途径获取网页html文件；

将其中与网页展示内容不相关的标签删除，例如<script><code>等标签；

统计出网页html标签的数量以及每一个html标签包含子标签的数量，网页中每一个html标签包含字符的数量，网页中每一个html标签包含标点符号的数量，网页中每一个html标签包含链接的数量，网页中每一个html标签包含图片的数量；

计算网页中的每一个html标签的信息密度；

筛选出网页中信息密度值最大的标签作为正文输出，也即选择具有最大信息密度的标签，将其内容输出，该输出即为采用本方法提取出的网页正文。

2.所述的将其中与网页展示内容不相关的标签删除，其中，与网页展示内容不相关的标签，主要包括以下4种标签：

①.代表注释的标签，如<！-->；

②.与网页前端执行脚本相关的标签，如<script>,<var>,<link>,<code>；

③.与css格式相关的标签，如<style>；

④.对网页展示的内容和格式完全无影响的标签，如<！DOCTYPE>。

其中，至少需要删除4种标签中的一种，特别是1,2,3中的一种，全部删除4种与网页展示内容不相关的标签，得到的速度和效果最佳。

3.所述统计出网页html标签的数量以及每一个html标签包含子标签的数量，网页中每一个html标签包含字符的数量，网页中每一个html标签包含标点符号的数量，网页中每一个html标签包含链接的数量，网页中每一个html标签包含图片的数量。计算网页信息密度所需的统计项包括：

①网页html标签的数量以及每一个html标签包含子标签的数量；

②网页中每一个html标签包含字符的数量；

③网页中每一个html标签包含标点符号的数量；

④网页中每一个html标签包含链接的数量；

⑤网页中每一个html标签包含图片的数量。

具体为：

由于网页标题及正文必定存在于body标签中，查找到<body>标签,将其作为根标签输入递归调用模块；

递归统计根标签及其所有下级子标签的子标签数量、字符数量、标点符号数量、链接数量、图片数量。

具体递归统计过程，在具体实施方式和附图中进行了详细的说明。

4.所述的计算网页中的每一个html标签的信息密度，包括：

计算出网页标签密度，字符密度，标点密度，链接密度，图片密度五个计算分量；

将五个计算分量标签密度，字符密度，标点密度，链接密度，图片密度的乘积作为每一个html标签的信息密度。

5.所述的计算出标签密度，字符密度，标点密度，链接密度，图片密度五个计算分量，具体计算方法为：

标签密度，计算方法为本标签内部包含所有子标签的数量除以网页标签的总数；

字符密度，计算方法为本标签内部包含所有字符的数量除以网页字符的总数；

标点密度，计算方法为本标签内部包含所有标点的数量除以网页标点的总数；

链接密度，计算方法为本标签以外包含的所有链接的数量除以网页链接的总数；

图片密度，计算方法为本标签以外包含的所有图片的数量除以网页图片的总数。

6.所述计算网页信息密度的方法，也就是本发明所提出的一种网页信息密度的计算方法，具体为：

1)对网页中的所有标签计算各自的信息密度，每一个html标签的信息密度为五个计算分量的乘积，该五个计算分量分别为：

①标签密度，计算方法为本标签内部包含所有子标签的数量除以网页标签的总数

D_tagA＝Num(tag A)/Num(root)

上式中，D_tagA为标签A的标签密度，Num(tagA)为标签A内包含所有标签及其子标签的数量，Num(root)为根标签包含的所有标签数量，即该网页的标签总数。

②字符密度，计算方法为本标签内部包含所有字符的数量除以网页字符的总数

D_wordA＝Word(A)/Word(root)

上式中，D_wordA为标签A的字符密度，对于英文或其他拉丁文字来说，每一个单词称为一个字符，对于汉字来说，每一个字称为一个字符。Word(A)为标签A及其所有子标签中包含的字符数量，Word(root)为根标签包含的所有字符数量，即该网页的字符总数。

③标点密度，计算方法为本标签内部包含所有标点的数量除以网页标点的总数

D_intA＝Interpunction(A)/Interpunction(root)

上式中，D_intA为标签A的标点密度。，Interpunction(A)为标签A及其所有子标签中包含的标点数量，Interpunction(root)为根标签包含的所有标点数量，即该网页的标点总数。

④链接密度，计算方法为本标签以外包含的所有链接的数量除以网页链接的总数

上式中，D_linkA为标签A的标点密度，Link(A)为标签A及其所有子标签中包含的链接数量，Link(root)为根标签包含的所有链接数量，即该网页的链接总数。

⑤图片密度，计算方法为本标签以外包含的所有图片的数量除以网页图片的总数

上式中，D_imageA为标签A的图片密度，Image(A)为标签A及其所有子标签中包含的图片数量，Image(root)为根标签包含的所有图片数量，即该网页的图片总数。

2)每一个标签的信息密度为标签密度、字符密度、标点密度、链接密度、图片密度五个分量的乘积。即如下公式：

D_A＝D_tagA*D_wordA*D_intA*D_linkA*D_imageA

附图说明

图1为本发明中的一种基于信息密度提取网页正文的方法的一个实施例的流程图。

图2为一个三级标签结构的网页递归过程示意图。

具体实施方式

图1为本发明中的一种基于信息密度提取网页正文的方法的一个实施例的流程图，结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明采用的技术方案和保护范围做出更为清楚明确的理解。

获取网页html文件后，以body标签为根标签，以递归的方式遍历所有下级标签页，并统计每一个标签内包含的下级标签、字符、标点符号、链接和图片的数量。

步骤S1：通过网络或其他途径获取html文件；

步骤S2：将其中与网页html内容展示不相关的标签删除，主要包括以下4种标签：

1.代表注释的标签，如<！-->；

2.与网页前端执行脚本相关的标签，如<script>,<var>,<link>,<code>；

3.与css格式相关的标签，如<style>；

4.对网页展示的内容和格式完全无影响的标签，如<！DOCTYPE>。

步骤S3：查找到body标签，由于标题及正文必定存在于body标签中，将其作为根标签输入递归调用模块。

步骤S4：执行递归调用，其运行目的为统计标签及其所有下级子标签的：子标签数量、字符数量、标点符号数量、链接数量、图片数量。

步骤S5：基于信息密度计算公式计算所有标签的信息密度，其具体方法如前述“5.所述计算网页信息密度的方法，也就是本发明所提出的一种网页信息密度的计算方法”所具体描述的计算方法和计算公式。

步骤S6：选择具有最大信息密度的标签，将其内容输出，该输出即为采用本方法提取出的网页正文。

下面以图2的一个三级标签结构的网页递归为例，具体说明步骤S4的递归统计过程：

1.父标签发现其自身存在子标签A，将统计命令发送给子标签A；

2.一级子标签A收到统计命令，发现其自身存在子标签C，D，E，并将统计命令发给子标签C；

3.二级子标签C收到统计命令，发现其自身不存在子标签，则在其内部进行字符，标点，链接和图片数量的计数统计，并将结果返回一级子标签A；

4.一级子标签A将统计命令发给子标签D；

5.二级子标签D收到统计命令，发现其自身不存在子标签，则在其内部进行字符，标点，链接和图片数量的计数统计，并将结果返回一级子标签A；

6.一级子标签A将统计命令发给子标签E；

7.二级子标签E收到统计命令，发现其自身不存在子标签，则在其内部进行字符，标点，链接和图片数量的计数统计，并将结果返回一级子标签A；

8.一级子标签将3，5，7步骤中收到的返回结果与自身内部的统计结果相加，连同子标签的数量(C，D，E共3个子标签)返回父标签；

9.父标签将统计命令发给子标签B；

10.一级子标签B收到统计命令，发现其自身不存在子标签，则在其内部进行字符，标点，链接和图片数量的计数统计，并将结果返回父标签；

11.父标签将8，10步骤中收到的返回结果相加，连同自身内部的统计结果，输出。

在上述递归计算过程中，所有标签都计算出了自身包含的子标签数量、字符数量、标点符号数量、链接数量、图片数量

步骤5基于步骤4统计出的信息，结合上述网页信息密度计算公式计算所有标签的信息密度

步骤6选择具有最大信息密度的标签，将其内容输出,该输出即为采用本方法提取出的网页正文。

Claims

1.一种基于信息密度提取网页正文的方法，其特征在于，包括：

获取网页html文件；

将其中与网页展示内容不相关的标签删除；

计算网页中的每一个html标签的信息密度；

筛选出网页中信息密度值最大的标签作为正文输出。

2.根据权利要求1所述的一种基于信息密度提取网页正文的方法，其特征在于，所述的将其中与网页展示内容不相关的标签删除，其中与网页展示内容不相关的标签包括：

代表注释的标签，与网页前端执行脚本相关的标签，与css格式相关的标签，对网页展示的内容和格式完全无影响的标签；

删除的标签至少包括与网页展示内容不相关的标签中的一种。

3.根据权利要求2所述的一种基于信息密度提取网页正文的方法，其特征在于，所述的计算网页中的每一个html标签的信息密度，包括：

4.根据权利要求3所述的一种基于信息密度提取网页正文的方法，其特征在于，所述的计算出标签密度，字符密度，标点密度，链接密度，图片密度五个计算分量，具体计算方法为：

5.根据权利要求4所述的一种基于信息密度提取网页正文的方法，其特征在于，所述的具体计算方法的计算公式为：

标签密度，计算方法为本标签内部包含所有子标签的数量除以网页标签的总数，如下公式：

D_{ta gA}＝Num(tagA)/Num(root)

上式中，D_{ta gA}为标签A的标签密度，Num(tagA)为标签A内包含所有标签及其子标签的数量，Num(root)为根标签包含的所有标签数量，即该网页的标签总数；

字符密度，计算方法为本标签内部包含所有字符的数量除以网页字符的总数，如下公式：

D_wordA＝Word(A)/Word(root)

上式中，D_wordA为标签A的字符密度，对于英文或其他拉丁文字来说，每一个单词称为一个字符，对于汉字来说，每一个字称为一个字符。Word(A)为标签A及其所有子标签中包含的字符数量，Word(root)为根标签包含的所有字符数量，即该网页的字符总数；

标点密度，计算方法为本标签内部包含所有标点的数量除以网页标点的总数，如下公式：

D_intA＝Interpunction(A)/Interpunction(root)

上式中，D_intA为标签A的标点密度，Interpunction(A)为标签A及其所有子标签中包含的标点数量，Interpunction(root)为根标签包含的所有标点数量，即该网页的标点总数；

链接密度，计算方法为本标签以外包含的所有链接的数量除以网页链接的总数，如下公式：

D_{l i n k A} = 1 - (\frac{L i n k (A)}{L i n k (r o o t)})

上式中，D_linkA为标签A的链接密度，Link(A)为标签A及其所有子标签中包含的链接数量，Link(root)为根标签包含的所有链接数量，即该网页的链接总数；

图片密度，计算方法为本标签以外包含的所有图片的数量除以网页图片的总数，如下公式：

D_{i m a g e A} = 1 - (\frac{Im a g e (A)}{Im a g e (r o o t)})

上式中，D_imageA为标签A的图片密度，Image(A)为标签A及其所有子标签中包含的图片数量，Image(root)为根标签包含的所有图片数量，即该网页的图片总数；

每一个标签的信息密度为标签密度、字符密度、标点密度、链接密度、图片密度五个分量的乘积，如下公式：

D_A＝D_tagA*D_wordA*D_intA*D_linkA*D_imageA

上式中，D_A为标签A的信息密度，D_{ta gA}为标签A的标签密度，D_wordA为标签A的字符密度，D_intA为标签A的标点密度，D_linkA为标签A的链接密度，D_imageA为标签A的图片密度。

6.根据权利要求1-5中任一项所述的一种基于信息密度提取网页正文的方法，其特征在于，所述统计出网页html标签的数量以及每一个html标签包含子标签的数量，网页中每一个html标签包含字符的数量，网页中每一个html标签包含标点符号的数量，网页中每一个html标签包含链接的数量，网页中每一个html标签包含图片的数量，具体为：

查找<body>标签,将其作为根标签输入递归调用模块；

7.一种网页信息密度的计算方法，其特征在于，包括：

将五个计算分量标签密度，字符密度，标点密度，链接密度，图片密度的乘积作为每一个网页标签的信息密度。

8.根据权利要求7所述的一种网页信息密度的计算方法，其特征在于，所述的计算出标签密度，字符密度，标点密度，链接密度，图片密度五个计算分量，具体计算方法为：

9.根据权利要求8所述的一种网页信息密度的计算方法，其特征在于，所述的具体计算方法的计算公式为：

D_{ta gA}＝Num(tagA)/Num(root)

D_wordA＝Word(A)/Word(root)

D_intA＝Interpunction(A)/Interpunction(root)

上式中，D_intA为标签A的标点密度。，Interpunction(A)为标签A及其所有子标签中包含的标点数量，Interpunction(root)为根标签包含的所有标点数量，即该网页的标点总数；

D_{l i n k A} = 1 - (\frac{L i n k (A)}{L i n k (r o o t)})

上式中，D_linkA为标签A的标点密度，Link(A)为标签A及其所有子标签中包含的链接数量，Link(root)为根标签包含的所有链接数量，即该网页的链接总数；

D_{i m a g e A} = 1 - (\frac{Im a g e (A)}{Im a g e (r o o t)})

D_A＝D_{ta gA}*D_wordA*D_intA*D_linkA*D_imageA