CN102750392A

CN102750392A - Web主题信息提取方法及系统

Info

Publication number: CN102750392A
Application number: CN201210235115XA
Authority: CN
Inventors: 沈丽倩; 韦海强; 唐浩; 叶小卫; 卢会春; 徐益光
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2012-07-09
Filing date: 2012-07-09
Publication date: 2012-10-24
Anticipated expiration: 2032-07-09
Also published as: CN102750392B

Abstract

本发明公开一种Web主题信息提取方法及系统。其中在Web主题信息提取方法中，通过根据指定Web页面的编码格式获得Web页面的分页链接格式，根据分页链接格式获得指定分页中的全部内容链接信息，其中内容链接信息包括内容链接地址；对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式；根据链接页面的编码格式，提取链接页面的Web主题信息，并生成页面快照。由于可获得指定分页中全部内容链接信息相关联的Web主题信息，从而便于用户对Web信息的灵活定制，并有效避免访问时间的耗费和通信流量的损失。

Description

Web主题信息提取方法及系统

技术领域

本发明涉及通信领域，特别是涉及一种Web主题信息提取方法及系统。

背景技术

随着互联网的飞速发展，网络信息呈爆炸式增长，网页已经成为互联网上最重要的信息资源。然而网页上的信息包含了大量与网页主题信息无关的内容，使得页面的主要信息经常被隐藏在无关的内容和结构中，限制了Web信息的可利用性。

目前对网页进行噪声过滤与信息自动抽取的方法主要有两大类：1、针对单一页面进行处理。根据所处理页面的内容特征、可视信息等应用一些启发性规则去除页面的噪音，抽取出页面内容。这类方法对每一个待处理的网页进行同样的处理，对于抽取通过模板产生的网页集效率较低；2、针对同一站点中页面的一般模式进行处理。这种方法是基于一个或多个网站中的页面集进行模板检测的，但局限于由同一个模板生成的网页集，直接影响清洗的自适应性。例如，Web页面往往是一个列表页面，例如新闻列表、论坛板块列表等，这样的页面往往包括多个分页链接，现有技术无法从指定分页中提取出相关的主题信息。

另一方面，对于移动终端来说，常规方式渲染的浏览器访问普通网站页面时载入大量非主题信息，存在载入网页数据量大、载入时间长、主题信息不直观等缺点，导致访问时间的耗费和通信流量的损失。并且，常规方式渲染的移动终端Web浏览器不能满足用户对Web信息的浏览的灵活定制的需求；目前现有的移动终端RSS（Really SimpleSyndication，简称：简易信息聚合）定制应用系统，存在必须目标网站提供RSS源支持，依赖于RSS协议的缺点。

发明内容

本发明要解决的技术问题是提供一种Web主题信息提取方法及系统。通过Web页面的分页链接格式来获得指定分页中的全部内容链接信息，并根据每个内容链接信息的内容链接地址指向链接页面的Html（Hypertext Markup Language，超文本标记语言）源代码，分析链接页面的编码格式，以提取出链接页面的Web主题信息，从而实现对网页Web主题信息的有效提取。

根据本发明的一个方面，提供一种Web主题信息提取方法，包括：

获得指定Web页面的Html源代码，分析Web页面的编码格式；

根据Web页面的编码格式获得Web页面的分页链接格式；

根据分页链接格式获得指定分页中的全部内容链接信息，其中内容链接信息包括内容链接地址；

对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式；

根据链接页面的编码格式，提取链接页面的Web主题信息，并生成页面快照。

根据本发明的另一方面，提供一种Web主题信息提取系统，包括：

第一获取单元，用于获得指定Web页面的Html源代码，并分析Web页面的编码格式；

第二获取单元，用于根据Web页面的编码格式获得Web页面的分页链接格式；

第三获取单元，用于根据分页链接格式获得指定分页中的全部内容链接信息，其中内容链接信息包括内容链接地址；

第四获取单元，用于对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，并分析链接页面的编码格式；

信息提取单元，用于根据链接页面的编码格式，提取链接页面的Web主题信息，并生成页面快照。

本发明通过根据指定Web页面的编码格式获得Web页面的分页链接格式，根据分页链接格式获得指定分页中的全部内容链接信息，其中内容链接信息包括内容链接地址；对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式；根据链接页面的编码格式，提取链接页面的Web主题信息，并生成页面快照。由于可获得指定分页中全部内容链接信息相关联的Web主题信息，从而便于用户对Web信息的灵活定制，并有效避免访问时间的耗费和通信流量的损失。

附图说明

图1为本发明Web主题信息提取方法一个实施例的示意图。

图2为本发明Web主题信息提取方法另一实施例的示意图。

图3为本发明Web主题信息提取系统一个实施例的示意图。

图4为本发明Web主题信息提取系统另一实施例的示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

图1为本发明Web主题信息提取方法一个实施例的示意图。如图1所示，Web主题信息提取方法步骤如下：

步骤101，获得指定Web页面的Html源代码，分析Web页面的编码格式。

步骤102，根据Web页面的编码格式获得Web页面的分页链接格式。

步骤103，根据分页链接格式获得指定分页中的全部内容链接信息，其中内容链接信息包括内容链接地址。

步骤104，对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式。

步骤105，根据链接页面的编码格式，提取链接页面的Web主题信息，并生成页面快照。

基于本发明上述实施例的Web主题信息提取方法，通过根据指定Web页面的编码格式获得Web页面的分页链接格式，根据分页链接格式获得指定分页中的全部内容链接信息，其中内容链接信息包括内容链接地址；对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式；根据链接页面的编码格式，提取链接页面的Web主题信息，并生成页面快照。由于可获得指定分页中全部内容链接信息相关联的Web主题信息，从而便于用户对Web信息的灵活定制，并有效避免访问时间的耗费和通信流量的损失。

优选的，在步骤103和步骤104之间，还执行以下步骤：

去除全部内容链接地址中重复的内容链接地址。

通过去除重复的内容链接地址，可以有效避免Web主题信息的重复提取，从而进一步避免访问时间的耗费和通信流量的损失。

图2为本发明Web主题信息提取方法另一实施例的示意图。在图2所示实施例中，与上述实施例相比，在步骤104后具体包括：

步骤201，根据链接页面的编码格式，提取链接页面的标题字段中的链接页面标题，将链接页面标题作为链接页面的Web标题信息。

步骤202，提取链接页面的正文内容字段中的正文内容信息，将正文内容信息作为链接页面的Web正文内容信息。

步骤203，将Web标题信息和Web正文内容信息结合以生成Web主题信息。

通过从链接页面的标题字段和正文内容字段中提取相应的信息以生成Web主题信息，从而有效避免了页面噪声的干扰。

优选的，在步骤201中进一步包括：

将链接页面标题与链接页面相关联的内容链接地址的内容链接标题进行文本相似度比较。其中内容链接标题为相应内容链接地址的名称。

如果链接页面标题与内容链接标题的相似度大于预定阈值，将链接页面标题作为链接页面的Web标题信息。

如果链接页面标题与内容链接标题的相似度不大于预定阈值，在由链接页面的正文内容字段中的正文内容信息生成的节点树中，将节点文本信息与链接页面相关联的内容链接地址的内容链接标题进行文本相似度比较。如果存在文本相似度大于预定阈值的节点文本信息，则将该节点文本信息作为链接页面的Web标题信息。

如果不存在文本相似度大于预定阈值的节点文本信息，将与链接页面相关联的内容链接地址的内容链接标题作为链接页面的Web标题信息。

由于字数限制等原因，内容链接标题所显示的内容往往受到限制，不能完全体现出Web主题信息。为了准确地提取出Web主题信息，需要将从链接页面的标题字段中的链接页面标题与相应的内容链接标题进行文本相似度比较，若相似度大于预定阈值，则表明链接页面标题与内容链接标题基本上是一致的，可以将链接页面标题作为链接页面的Web标题信息。

若相似度不大于预定阈值，则表明链接页面标题与内容链接标题之间有明显的偏差，此时需要进一步在由正文内容信息生成的节点树中查找文本相似度满足条件的节点文本信息，若存在这样的节点文本信息，则将该节点文本信息作为链接页面的Web标题信息，若不存在这样的节点文本信息，则将与链接页面相关联的内容链接标题作为链接页面的Web标题信息。

通过上述步骤，可以更为准确地获得链接页面的Web标题信息。

由于进行文本相似度和将内容信息生成节点树，这是本领域技术人员所了解的，因此这里不再展开描述。

优选的，在步骤202中进一步包括：

将正文内容信息转换为节点树。

利用正文节点判定公式对节点树中的节点进行遍历，将符合正文节点判定公式的节点作为参考节点。

对各参考节点的区间覆盖特征进行比对，去除各参考节点重复覆盖的区间，并利用修正后区间的子树生成过滤内容信息，将过滤内容信息作为链接页面的Web正文内容信息。

其中正文节点判定公式为

(cn_char_num/char_num>α&&link_charnum/char_num<δ)&&cn_symbol_num/cn_char_num>β&&cn_char_num>γ。

其中cn_char_num为节点内部文本的中文字数，char_num为节点内部文本的字符数，link char num为节点内部文本的链接字符数，cn_symbol_num为节点内部文本的中文标点数，α、β、γ、δ分别为中文字数占比阈值、中文标点占比阈值、中文字符数阈值、带链接文本占比阈值，&&是与运算符号。

通过对正文内容信息转换的节点树进行过滤处理，可进一步去除页面上的噪声。

优选的，利用修正后区间的子树生成过滤内容信息的步骤具体包括：利用修正后区间的子树生成过滤内容信息，将过滤内容信息中链接的相对路径转换为绝对路径。

通过将相对路径转换为绝对路径，可以实现正文内容的自动提取。

图3为本发明Web主题信息提取系统一个实施例的示意图。如图3所示，Web主题信息提取系统包括第一获取单元301、第二获取单元302、第三获取单元303、第四获取单元304和信息提取单元305。其中：

第一获取单元301，用于获得指定Web页面的Html源代码，并分析Web页面的编码格式。

第二获取单元302，用于根据Web页面的编码格式获得Web页面的分页链接格式。

第三获取单元303，用于根据分页链接格式获得指定分页中的全部内容链接信息，其中内容链接信息包括内容链接地址。

第四获取单元304，用于对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，并分析链接页面的编码格式。

信息提取单元305，用于根据链接页面的编码格式，提取链接页面的Web主题信息，并生成页面快照。

基于本发明上述实施例的Web主题信息提取系统，通过根据指定Web页面的编码格式获得Web页面的分页链接格式，根据分页链接格式获得指定分页中的全部内容链接信息，其中内容链接信息包括内容链接地址；对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式；根据链接页面的编码格式，提取链接页面的Web主题信息，并生成页面快照。由于可获得指定分页中全部内容链接信息相关联的Web主题信息，从而便于用户对Web信息的灵活定制，并有效避免访问时间的耗费和通信流量的损失。

图4为本发明Web主题信息提取系统另一实施例的示意图。与图3所示实施例相比，在图4所示实施例中，系统还包括去重单元401，用于在第三获取单元303根据分页链接格式获得指定分页中的全部内容链接信息后，去除全部内容链接地址中重复的内容链接地址，然后指示第四获取单元304执行对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式的操作。

优选的，在上述各实施例中，信息提取单元305可包括第一提取单元、第二提取单元和信息生成单元，其中：

第一提取单元，用于根据链接页面的编码格式，提取链接页面的标题字段中的链接页面标题，将链接页面标题作为链接页面的Web标题信息。

第二提取单元，用于提取链接页面的正文内容字段中的正文内容信息，将正文内容信息作为链接页面的Web正文内容信息。

信息生成单元，用于将Web标题信息和Web正文内容信息结合以生成Web主题信息。

优选的，第一提取单元可将链接页面标题与链接页面相关联的内容链接地址的内容链接标题进行文本相似度比较，如果链接页面标题与内容链接标题的相似度大于预定阈值，则将链接页面标题作为链接页面的Web标题信息。

而在链接页面标题与内容链接地址的内容链接标题的相似度不大于预定阈值时，在由链接页面的正文内容字段中的正文内容信息生成的节点树中，第一提取单元将节点文本信息与链接页面相关联的内容链接地址的内容链接标题进行文本相似度比较；如果存在文本相似度大于预定阈值的节点文本信息，则将该节点文本信息作为链接页面的Web标题信息；如果不存在文本相似度大于预定阈值的节点文本信息，则将与链接页面相关联的内容链接地址的内容链接标题作为链接页面的Web标题信息。

由此，可以更为准确地提取出Web标题信息。

优选的，第二提取单元可包括转换单元、遍历单元、过滤单元。其中：

转换单元，用于将正文内容信息转换为节点树。

遍历单元，用于利用正文节点判定公式对节点树中的节点进行遍历，将符合正文节点判定公式的节点作为参考节点。

过滤单元，用于对各参考节点的区间覆盖特征进行比对，去除各参考节点重复覆盖的区间，并利用修正后区间的子树生成过滤内容信息，将过滤内容信息作为链接页面的Web正文内容信息。

其中正文节点判定公式为

其中cn_char_num为节点内部文本的中文字数，char_num为节点内部文本的字符数，link_char_num为节点内部文本的链接字符数，cn_symbol_num为节点内部文本的中文标点数，α、β、γ、δ分别为中文字数占比阈值、中文标点占比阈值、中文字符数阈值、带链接文本占比阈值，&&是与运算符号。

优选的，过滤单元可利用修正后区间的子树生成过滤内容信息，将过滤内容信息中链接的相对路径转换为绝对路径。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种Web主题信息提取方法，其特征在于，包括：

获得指定Web页面的Html源代码，分析Web页面的编码格式；

根据Web页面的编码格式获得Web页面的分页链接格式；

2.根据权利要求1所述的方法，其特征在于，

在根据分页链接格式获得指定分页中的全部内容链接信息之后，还包括：

去除全部内容链接地址中重复的内容链接地址；

然后执行对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式的步骤。

3.根据权利要求1或2所述的方法，其特征在于，

根据链接页面的编码格式，提取链接页面的Web主题信息的步骤包括：

根据链接页面的编码格式，提取链接页面的标题字段中的链接页面标题，将链接页面标题作为链接页面的Web标题信息；

提取链接页面的正文内容字段中的正文内容信息，将正文内容信息作为链接页面的Web正文内容信息；

将Web标题信息和Web正文内容信息结合以生成Web主题信息。

4.根据权利要求3所述的方法，其特征在于，

将链接页面标题作为链接页面的Web标题信息的步骤包括：

将链接页面标题与链接页面相关联的内容链接地址的内容链接标题进行文本相似度比较，如果链接页面标题与所述内容链接标题的相似度大于预定阈值，则将链接页面标题作为链接页面的Web标题信息。

5.根据权利要求4所述的方法，其特征在于，

如果链接页面标题与所述内容链接标题的相似度不大于预定阈值，则在由链接页面的正文内容字段中的正文内容信息生成的节点树中，将节点文本信息与所述内容链接标题进行文本相似度比较；

如果存在文本相似度大于预定阈值的节点文本信息，则将该节点文本信息作为链接页面的Web标题信息；

如果不存在文本相似度大于预定阈值的节点文本信息，则将所述内容链接标题作为链接页面的Web标题信息。

6.根据权利要求3所述的方法，其特征在于，

将正文内容信息作为链接页面的Web正文内容信息的步骤包括：

将正文内容信息转换为节点树；

利用正文节点判定公式对节点树中的节点进行遍历，将符合正文节点判定公式的节点作为参考节点；

对各参考节点的区间覆盖特征进行比对，去除各参考节点重复覆盖的区间，并利用修正后区间的子树生成过滤内容信息，将过滤内容信息作为链接页面的Web正文内容信息；

其中正文节点判定公式为

(cn_char_num/char_num>α&&link_charnum/char_num<δ)&&cn_symbol_num/cn_char_num>β&&cn_char_num>γ，

7.根据权利要求6所述的方法，其特征在于，

利用修正后区间的子树生成过滤内容信息的步骤包括：

利用修正后区间的子树生成过滤内容信息；

将过滤内容信息中链接的相对路径转换为绝对路径。

8.一种Web主题信息提取系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，系统还包括去重单元，用于在第三获取单元根据分页链接格式获得指定分页中的全部内容链接信息后，去除全部内容链接地址中重复的内容链接地址，然后指示第四获取单元执行对于每个内容链接信息，获取内容链接地址指向的链接页面的Html源代码，分析链接页面的编码格式的操作。

10.根据权利要求8或9所述的系统，其特征在于，信息提取单元包括第一提取单元、第二提取单元和信息生成单元，其中：

第一提取单元，用于根据链接页面的编码格式，提取链接页面的标题字段中的链接页面标题，将链接页面标题作为链接页面的Web标题信息；

第二提取单元，用于提取链接页面的正文内容字段中的正文内容信息，将正文内容信息作为链接页面的Web正文内容信息；

11.根据权利要求10所述的系统，其特征在于，

第一提取单元具体将链接页面标题与链接页面相关联的内容链接地址的内容链接标题进行文本相似度比较，如果链接页面标题与所述内容链接标题的相似度大于预定阈值，则将链接页面标题作为链接页面的Web标题信息。

12.根据权利要求11所述的系统，其特征在于，

第一提取单元具体在链接页面标题与所述内容链接标题的相似度不大于预定阈值时，在由链接页面的正文内容字段中的正文内容信息生成的节点树中，将节点文本信息与所述内容链接标题进行文本相似度比较；如果存在文本相似度大于预定阈值的节点文本信息，则将该节点文本信息作为链接页面的Web标题信息；如果不存在文本相似度大于预定阈值的节点文本信息，则将所述内容链接标题作为链接页面的Web标题信息。

13.根据权利要求10所述的系统，其特征在于，第二提取单元具体包括转换单元、遍历单元、过滤单元，其中：

转换单元，用于将正文内容信息转换为节点树；

遍历单元，用于利用正文节点判定公式对节点树中的节点进行遍历，将符合正文节点判定公式的节点作为参考节点；

过滤单元，用于对各参考节点的区间覆盖特征进行比对，去除各参考节点重复覆盖的区间，并利用修正后区间的子树生成过滤内容信息，将过滤内容信息作为链接页面的Web正文内容信息；

其中正文节点判定公式为

其中cn char num为节点内部文本的中文字数，char num为节点内部文本的字符数，link char num为节点内部文本的链接字符数，cn_symbol_num为节点内部文本的中文标点数，α、β、γ、δ分别为中文字数占比阈值、中文标点占比阈值、中文字符数阈值、带链接文本占比阈值，&&是与运算符号。

14.根据权利要求13所述的系统，其特征在于，

过滤单元具体利用修正后区间的子树生成过滤内容信息，将过滤内容信息中链接的相对路径转换为绝对路径。