CN103389972A

CN103389972A - 一种基于简易信息聚合获取正文的方法及装置

Info

Publication number: CN103389972A
Application number: CN2013103202161A
Authority: CN
Inventors: 范杰; 刘莫闲; 郑巧玲; 史淼泓
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2013-07-26
Filing date: 2013-07-26
Publication date: 2013-11-13
Anticipated expiration: 2033-07-26
Also published as: CN103389972B

Abstract

本发明适用于互联网信息技术领域，提供了一种基于简易信息聚合RSS获取正文的方法，包括：通过RSS的feed中统一资源定位符URL抓取网页的源代码；根据所述网页的源代码生成文件对象模型DOM，确定所述DOM中的DIV标签；根据第一预设规则统计每个所述DIV标签的特征值；将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。本发明抓取feed中URL的网页代码，根据网页的源代码生成DOM，然后统计DOM中所有DIV标签的特征值，提取特征值最大的DIV标签中的文本节点作为正文，获取正文时不需要打开正文所在页面，也不需要针对其做适配，提高了基于RSS获取正文的效率。

Description

一种基于简易信息聚合获取正文的方法及装置

技术领域

本发明属于互联网信息技术领域，尤其涉及一种基于简易信息聚合获取正文的方法及装置。

背景技术

简易信息聚合（Really Simple Syndication，RSS），也称为聚合内容，是一种描述和同步网站内容的形式，目前广泛应用于网上新闻频道和博客等。其应用形式如：新闻网站作为发布源将时效性较强的新闻内容以RSS的标准信息出口feed的形式推送给订阅者，而在订阅者一端，通过RSS订阅器将新闻内容以摘要的形式显示出来，若订阅者在阅读完摘要后希望阅读更为详细的新闻内容，则点击该摘要对应的链接即可查看详细的新闻内容，当新闻网站的内容更新时，RSS订阅器的相应摘要也会同步更新。上述RSS技术有利于用户有针对性地简单快捷地获取网站的内容，并且可以应用在各种终端设备中。

目前，在RSS订阅系统上只能看到网站的内容摘要，如果希望查看摘要对应的全文则必须点击该摘要的链接，进入对应的统一资源定位符（UniformResource Locator，URL）页面中查看，在终端设备上即是需要依赖浏览器等技术来显示全文。通过浏览器显示的页面中除了用户需要的全文之外，还有许多冗余的信息，如图片、广告等，而且该页面的内容样式也不一定适合该终端设备，因此大大地限制了RSS技术的广泛应用。

针对上述情况，现有的基于RSS获取全文的方法专门针对URL做适配，但是，若URL更新了其内容样式、文件对象模型（Document Object Model，DOM）层次或者布局等，则RSS订阅系统将无法正常运行。RSS订阅系统与URL的内容样式、DOM层次和布局耦合性太强，限制了可适配的URL数量。

发明内容

本发明的目的在于提供一种基于简易信息聚合获取正文的方法，旨在提高基于RSS获取正文的效率。

本发明是这样实现的，一种基于简易信息聚合获取正文的方法，包括：

通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码；

根据所述网页的源代码生成文件对象模型DOM，确定所述DOM中的DIV标签；

根据第一预设规则统计每个所述DIV标签的特征值；

将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。

本发明的另一目的在于提供一种基于简易信息聚合获取正文的装置，包括：

抓取单元，用于通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码；

生成及确定单元，用于根据所述网页的源代码生成文件对象模型DOM，确定所述DOM中的DIV标签；

统计单元，用于根据第一预设规则统计每个所述DIV标签的特征值；

提取单元，用于将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。

在本发明中，抓取feed中URL的网页代码，根据网页的源代码生成DOM，然后统计DOM中所有DIV标签的特征值，提取特征值最大的DIV标签中的文本节点作为正文，获取正文时不需要打开正文所在页面，也不需要针对其做适配，提高了基于RSS获取正文的效率。

附图说明

图1是本发明实施例提供的基于简易信息聚合获取正文的方法的实现流程图；

图2是本发明实施例提供的基于简易信息聚合获取正文的方法中通过feed中的URL抓取网页源代码的实现流程；

图3是本发明实施例提供的基于简易信息聚合获取正文的方法中的特征值计算规则库示意图；

图4是本发明实施例提供的基于简易信息聚合获取正文的方法中智能分词的实现流程；

图5本发明实施例提供的基于简易信息聚合获取正文的方法步骤S104的具体实现流程；

图6是本发明实施例提供的基于简易信息聚合获取正文的装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

RSS是一种描述和同步网站内容的形式，能够集合多个网站的内容，将网站的每一条内容以其标准信息出口feed（以下简称为feed）的形式推送给订阅者。feed中的信息包含该条内容的主题、URL、摘要、语言、授权信息、发布时间、更新时间、作者等，用户通过feed可以查看到摘要，并且当网站内容更新时，RSS能够以一定周期及时更新相应feed中的信息。

在本发明实施例中，抓取RSS的feed中URL的网页代码，根据网页的源代码生成DOM，然后统计DOM中所有DIV标签的特征值，提取特征值最大的DIV标签中的文本节点作为正文，获取正文时不需要打开正文所在页面，也不需要针对其做适配，提高了基于RSS获取正文的效率。

需要说明的是，在本发明实施例中，以新闻网站为例阐述上述基于RSS获取正文的方法，所述方法也可以应用于新闻门户网站、招聘网站、音乐网站、读书网站和游戏网站等，在此不做一一限定。

图1示出了本发明实施例提供的一种基于简易信息聚合RSS获取正文的方法的实现流程，详述如下：

在步骤S101中，通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码。

在本发明实施例中，通过RSS订阅新闻网站的新闻，以feed的形式向用户推送。通过feed中的URL抓取网页源代码的过程如图2所示，提取feed中的链接，即新闻内容所在网页的URL，通过超文本传输协议(Hypertext transferprotocol，HTTP)请求该URL，获取到该网页的HTTP应答报文后，通过合适的编码方式，如8比特统一字符编码标准（8-bit Unicode Transformation Format，UTF-8）解码该HTTP应答报文，抓取到该网页的源代码，代码使用的语言包括但不限于超文本标记语言（Hypertext Markup Language，HTML）、可扩展超文本标记语言（Extensible Hypertext Markup Language，XHTML）和（ExtensibleMarkup Language，XML）等。为了提高请求URL的成功率，在HTTP请求过程可以采用异常重试机制。

RSS的一大特点是能够在网页内容更新的同时更新相应的feed，使用户接收到最新的资讯。在本发明实施例中，启动RSS定时服务，以固定周期来更新RSS订阅的新闻内容，如每隔10分钟对feed进行一次更新，对feed更新后，重新抓取feed中URL对应的网页源代码。

在步骤S102中，根据所述网页的源代码生成文件对象模型DOM，确定所述DOM中的DIV标签。

DOM是一种面向对象方式描述的文档模型，能够以独立于平台和语言的方式访问和修改一个网页文档的内容和结构，例如能够重构HTML文档、XHTML文档和XML文档等，可以添加、移除、改变或者重排页面上的内容。

DIV标签能够为网页文档中大块的内容提供结构和背景元素，把网页文档分割为不同的部分。通常，新闻网页包含新闻的正文、其他新闻简介及链接、广告等区域，DIV标签能够根据各区域的差异，以划分网页的源代码的形式将网页的不同区域划分出来。

将DOM和DIV标签运用于RSS中获取正文，可以克服需要针对每个网站的内容样式和布局做适配的缺陷，并且能够将网页的不同区域有效地划分出来。

在本发明实施例中，将抓取到的网页源代码生成DOM，并在DOM中以DIV标签划分出上述新闻网页的几个区域，DIV标签中包含文本的节点称为文本节点。为了进一步统一不同网站的内容样式和布局，可以以一定的规则对上述DOM进行预处理，预处理规则可扩展：

根据第二预设规则将每个所述DIV标签中的内容处理为统一的段落格式。

每个网站采用的语言和编程风格不尽相同，例如有的网站以\n表示换行，而有的网站以\s表示换行，为了后续步骤能更高效地执行，对抓取到的网页源代码进行必要的预处理。在本发明实施例中，将<br/>、\n、\s等表示换行的标签替换为<p>和</p>表示的段落节点，使每个DIV标签中的内容变换为统一的段落格式，然后提取<title>节点的内容作为正文的标题。

在步骤S103中，根据第一预设规则统计每个所述DIV标签的特征值。

通过计算每个DIV标签的特征值，辨别出最有可能包含正文的DIV标签。这里需要定义一个计算特征值的规则库，计算DIV标签特征值的规则主要是依据新闻正文在该网页上的特点来制定。通常，新闻网站中，新闻正文的文本较长，出现非连续逗号较多，而广告则是对应一些链接和嵌入的标签，同一网页上其他的新闻虽然也有文本，但是都比较简洁，通常是一句话，出现非连续逗号较少。在本发明实施例中，特征值计算规则库如图3所示，根据DIV标签的类名classname/id和其中的文本节点统计每一个DIV标签的特征值。

根据DIV标签的classname/id计算特征值的规则可以为：如果DIV标签的classname/id为comment、meta、footer和footnote等非内容类型，特征值减50分，如果classname/id为URL指定的内容类型，特征值加25分。当然还可以根据情况调整计算特征值的规则。

根据DIV标签的文本节点计算特征值的规则可以为：根据所述DIV标签中的文本节点的长度，给所述DIV标签的特征值增加相应的预设分值；根据所述DIV标签中的文本节点包含的不连续逗号个数，给所述DIV标签的特征值增加相应的预设分值。例如，文本节点中的文本长度大于10时加1分；文本节点中出现了非连续逗号，按非连续逗号的个数加分。

作为本发明的另一实施例，由于在feed中已有该新闻正文的主题和摘要等信息，因此可以提取其中的关键词，与文本节点中的文本进行对比，按照其中包含的关键词个数进行加分。

在所述根据第一预设规则统计每个所述DIV标签的特征值之前，对feed中的所述网页的摘要进行智能分词，获取所述摘要中的关键词。

如图4所示，从feed中提取关键词的具体过程可以为：提取feed的主题和摘要，根据预设的中英文分词库对feed主题和摘要进行智能分词，过滤常用的人称、时态等词，最后得到多个关键词。该中英文分词库可扩展，也可以加入个性化的词库，使得关键词的提取更准确。计算文本节点中出现的关键词个数，关键词出现得越多，表明该文本节点为正文的概率越大，按照其中包含的关键词增加该DIV标签的特征值。

减少特征值分值的规则可以为：文本节点中的内容是链接或者嵌入的标签时减1分。

计算DIV标签特征值的规则可以是上述规则的任意组合，也可以加入其他规则，在此不作一一限定。

在步骤S104中，将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。

统计每个DIV标签的特征值后，对其进行对比和排序，判定特征值最大的DIV标签中包含了正文。作为本发明的一个实施例，如图5所示，步骤S104具体为：

在S501中，过滤所述特征值最大的所述DIV标签中的预设类型节点，提取出所述DIV标签中的文本节点。

特征值最大的DIV标签中，除了新闻正文外，还包含有非文本类型的节点，需要进行必要的后处理。在本发明实施例中，提取出特征值最大的DIV标签中的文本节点，清除其中所有节点的style属性，过滤<form>、<object>、<table>、<iframe>、<script>、<h1>等节点，过滤可能为广告区的节点<img>、<a>、<li>、<embed>，过滤与显示样式相关的节点<font>、<b>、<h1>、<h2>等，将多个换行符、空格符替换为一个换行符。

在S502中，将提取到的所述DIV标签中的文本节点确定为所述网页的正文。

在本发明实施例中，将提取出的文本节点作为新闻正文放入数据库，并与相应的feed关联，供用户需要时调用。当用户阅读完feed的摘要后希望阅读更为详细的内容时，可以点击查看正文的按钮，得到该条新闻的正文。

在本发明实施例中，抓取feed中URL的网页代码，根据网页的源代码生成DOM，然后统计DOM中所有DIV标签的特征值，提取特征值最大的DIV标签中的文本节点作为正文，获取正文时不需要打开正文所在页面，也不需要针对其做适配，提高了基于RSS获取正文的效率。

图6示出了本发明实施例提供的基于简易信息聚合获取正文的装置的结构框图，该装置可以位于RSS服务器，随着硬件性能的提升，也可以位于电视、手机、平板电脑和台式电脑等终端设备的RSS客户端中，用于执行本发明实施例图1至图5所述的基于简易信息聚合获取正文的方法。为了便于说明，仅示出了与本实施例相关的部分。如图6所示，该装置包括：

抓取单元61，通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码。

生成及确定单元62，根据所述网页的源代码生成文件对象模型DOM，确定所述DOM中的DIV标签。

统计单元63，根据第一预设规则统计每个所述DIV标签的特征值。

提取单元64，将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。

可选地，所述第一预设规则包括：

根据所述DIV标签中的文本节点的长度，给所述DIV标签的特征值增加相应的预设分值。

可选地，所述第一预设规则包括：

根据所述DIV标签中的文本节点包含的不连续逗号个数，给所述DIV标签的特征值增加相应的预设分值。

优选地，所述装置还包括：

智能分词单元，对feed中的所述网页的摘要进行智能分词，获取所述摘要中的关键词，则所述第一预设规则包括：对feed的主题和概述进行智能分词，得到多个关键词，根据文本节点中关键词出现的次数给该DIV标签的特征值增加相应的分值。

可选地，所述提取单元64包括：

过滤子单元，过滤所述特征值最大的所述DIV标签中的预设类型节点，提取出所述DIV标签中的文本节点。

提取子单元，将提取到的所述DIV标签中的文本节点确定为所述网页的正文。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于简易信息聚合获取正文的方法，其特征在于，包括：

通过基于简易信息聚合RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码；

根据第一预设规则统计每个所述DIV标签的特征值；

2.如权利要求1所述的方法，其特征在于，所述第一预设规则包括：

3.如权利要求1所述的方法，其特征在于，所述第一预设规则包括：

4.如权利要求1所述的方法，其特征在于，在所述根据第一预设规则统计每个所述DIV标签的特征值之前，所述方法还包括：

对feed中的所述网页的摘要进行智能分词，获取所述摘要中的关键词；

所述第一预设规则包括：

根据所述DIV标签中的文本节点包含的所述关键词个数，给所述DIV标签的特征值增加相应的预设分值。

5.如权利要求1～4任一项所述的方法，其特征在于，在所述确定所述DOM中的DIV标签之后，所述根据第一预设规则统计每个所述DIV标签的特征值之前，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文包括：

过滤所述特征值最大的所述DIV标签中的预设类型节点，提取出所述DIV标签中的文本节点；

将提取到的所述DIV标签中的文本节点确定为所述网页的正文。

7.一种基于简易信息聚合获取正文的装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述第一预设规则包括:

9.如权利要求7所述的装置，其特征在于，所述第一预设规则包括:

10.如权利要求7所述的装置，其特征在于，所述装置还包括：

智能分词单元，用于对feed中的所述网页的摘要进行智能分词，获取所述摘要中的关键词；

所述第一预设规则包括：

11.如权利要求7～10任一项所述的装置，其特征在于，所述装置还包括：

段落格式处理单元，用于根据第二预设规则将每个所述DIV标签中的内容处理为统一的段落格式。

12.如权利要求7所述的装置，其特征在于，所述提取单元包括：

过滤子单元，用于过滤所述特征值最大的所述DIV标签中的预设类型节点，提取出所述DIV标签中的文本节点；

提取子单元，用于将提取到的所述DIV标签中的文本节点确定为所述网页的正文。