CN101408898B

CN101408898B - 一种提取网页正文的方法和装置

Info

Publication number: CN101408898B
Application number: CN2008102257202A
Authority: CN
Inventors: 张海涛
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Beijing Founder Electronics Co Ltd
Priority date: 2008-11-07
Filing date: 2008-11-07
Publication date: 2010-08-11
Anticipated expiration: 2028-11-07
Also published as: CN101408898A

Abstract

本发明公开一种提取网页正文的方法和装置，涉及网络技术领域，以快速、准确地提取网页中的正文。该方法包括：获取页面段的开始标签和结束标签；根据开始标签和结束标签确定页面段的开始位置和结束位置；计算页面段的权值；将网页中权值最大的页面段提取为网页正文。该装置包括：获取模块，用于获取页面段的开始标签和结束标签；分段模块，用于根据获取模块获取的开始标签和结束标签确定页面段的开始位置和结束位置；计算模块，用于计算分段模块确定的页面段的权值；提取模块，用于将计算模块计算得出的网页中权值最大的页面段提取为网页正文。本发明提供的技术方案可以广泛应用于进行内容转载的网络系统和设备中。

Description

一种提取网页正文的方法和装置

技术领域

本发明涉及网络技术领域，尤其涉及一种提取网页正文的方法和装置。

背景技术

随着市场竞争的日趋激烈，各大网站的网页内容如果只靠本站网页内容，显得内容单调，无法提高点击率，也无法提高本站的知名度。为提高点击率，则必须使网页内容多样化，增加更多的热门话题等，网页内容转载由此而产生。人工转载，更新速度慢，效率低，还要耗费很大的人力和财力，由此爬虫软件就成为网页内容转载的主导软件，以快速、准确提取网页正文。

目前，爬虫软件提取网页正文的方法都是正则提取法，包括：根据每个网页的模板预先设定一些规则；然后，根据这些规则提取网页正文。

发明人发现现有技术中存在如下问题：

正则提取法需要花费大量精力去维护各大网站网页的模板提取规则，由于互联网上的网站网页模板太多，网页模板更新比较频繁，所以用户无法及时、准确地维护这些模板规则，也就无法及时、准确地提取这些网页正文。

发明内容

本发明提供一种提取网页正文的方法和装置，以快速、准确地提取网页中的正文。

为达到上述目的，本发明采用如下技术方案：

一种提取网页正文的方法，包括：

获取页面段的开始标签和结束标签；

根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置；

根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值；

将网页中权值最大的页面段提取为网页正文。

一种提取网页正文的装置，包括：

获取模块，用于获取页面段的开始标签和结束标签；

分段模块，用于根据所述获取模块获取的开始标签和结束标签确定所述页面段的开始位置和结束位置；

计算模块，用于根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值；

提取模块，用于将所述计算模块计算得出的所述网页中权值最大的页面段提取为网页正文。

本发明提供的提取网页正文的方法和装置，通过计算所述页面段的权值，将权值最大的页面段提取为网页正文，而页面段的权值反映了该页面段内容的热门度，因此，根据权值提取网页正文，可以快速、准确地转载热门的内容，且满足内容多样化的要求，从而提高网站的点击率和知名度。

附图说明

图1为本发明提取网页正文的方法流程图；

图2为本发明提取网页正文的装置结构图。

具体实施方式

本发明提供一种提取网页正文的方法：将网页划分成若干页面段，根据页面段中的无链接字符、链接字符、图片、附件、广告等内容计算各个页面段的权值，该页面段内容的热门度越高，则权值越大；然后，将权值最大的页面段提取为网页正文；从而转载该网页内容后，用户的点击率越高，有利于提高本网站的知名度。采用本发明提供的提取网页正文的方法，即使网页的模板发生变化，也能快速、准确地提取热门的网页正文、维护网页内容的多样性。

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为快速、准确地提取网页中的正文，本发明提供一种提取网页正文的方法。下面结合附图对本发明提取网页正文的方法进行详细描述。

在提取网页正文之前，可以预先设置用户点击率高和/或内容更新频率快的网页，优先从该网页中提取网页正文。如图1所示，本发明提供的提取网页正文的方法包括：

S101，获取页面段的开始标签和结束标签。

一个网页包括一个或多个页面段，根据页面段的开始标签和结束标签可以确定网页相应的的页面段。获取页面段的开始标签和结束标签包括：查找标签，判断所述标签是否是开始标签或结束标签；如果是，则进一步判断所述开始标签或结束标签是否是所述页面段的开始标签或结束标签；获取所述页面段的开始标签和结束标签。

其中，标签可以是HTML(Hypertext Markup Language，超文本标示语言)标签或XHTML(The Extensible HyperText Markup Language，可扩展超文本标示语言)标签。

打开一个通过HTML文本创建的网页的源文件，该源文件即HTML文本，其中，HTML文本由一系列标签组成。标签则就如同乐队的指挥，告诉乐手们哪里需要停顿，哪里需要激昂。HTML的结构包括头部(Head)、主体(Body)两大部分，其中头部描述浏览器所需的信息，而主体则包含所要说明的具体内容。HTML是网络的通用语言，允许网页制作人建立文本与图片相结合的复杂页面，这些页面可以被网上任何其他人浏览到，无论使用的是什么类型的电脑或浏览器。

HTML标签通常是英文词汇的全称(如块引用：blockquote)或缩略语(如“p”代表Paragragh)，但它们的与一般文本有区别，因为它们放在单书名号里。故Paragragh标签是<p>，块引用标签是<blockquote>。有些标签说明页面如何被格式化(例如，<p>开始一个新段落)，其他则说明这些词如何显示(<b>使文字变粗)还有一些其他标签提供在页面上不显示的信息——例如标题。

而且，标签通常是成双出现的。每当使用一个标签——如<blockquote>，则必须以另一个标签</blockquote>将它关闭。注意“blockquote”前的斜杠，那就是关闭标签与打开标签的区别。基本HTML页面以<html>标签开始，以</html>结束。在它们之间，整个页面有两部分——标题和正文。

遍历网页中的所有页面段，判断该标签是开始标签还是结束标签，如果是，则进一步判断该标签是不是页面段的开始标签或结束标签。

S102，根据开始标签和结束标签确定页面段的开始位置和结束位置。

在该步骤中，根据所述开始标签确定所述页面段的开始位置时即可分配页面对象(所谓对象，就是存放一组数据结构的内存区)。即：保存所述页面段的开始位置，处理所述开始位置后的页面段的内容，所述内容包括无链接字符、链接字符、图片、附件和广告中的一种或多种，当根据所述结束标签确定所述页面段的结束位置时，保存所述页面段的结束位置、以及处理后的所述开始位置和结束位置之间的页面段的内容；或者

在根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置后，再处理所述开始位置和结束位置之间的页面段的内容，保存所述页面段的开始位置和结束位置、以及处理后的所述页面段的内容。

S103，计算页面段的权值。

即根据该页面段的开始位置和结束位置之间的内容(综合考虑页面段中的无链接字符、链接字符、图片、附件和广告)计算该页面段的权值。

例如：采用如下公式进行计算：

Vaule(权值)＝Num(无链接字符数)+Num(图片链接的个数)*C1(图片常数值，一般取80)-Num(链接的个数)*C2(链接常数值，一般取6)；

其中，权值的计算与步骤S102中对页面段内容的处理有关，可以对处理后的页面段内容进行权值计算，也可以直接对未经处理的页面段内容进行权值计算，后者在计算的过程中可以自动过滤/跳过一些与权值无关的内容。因此，与步骤S102对应的，当步骤S102保存有处理后的页面段的内容后，该步骤中计算页面段的权值为：计算保存的处理后的页面段的内容的权值。其中，对页面段的处理可以是处理一些与计算该页面段的权值无关的内容；而且，处理后的内容更便于转载。

解析完一个页面段后继续解析下一个标签和页面段，遍历网页的所有页面段，计算出各页面段的权值，直到网页解析结束。页面段的权值越大，该页面段的热门度越高。

S104，将网页中权值最大的页面段提取为网页正文。

本实施例提供的提取网页正文的方法，通过计算所述页面段的权值，将权值最大的页面段提取为网页正文，而页面段的权值反映了该页面段内容的热门度，因此，根据权值提取网页正文，可以快速、准确地转载热门的内容，且满足内容多样化的要求，从而提高网站的点击率和知名度。

本发明提供的技术方案可以广泛应用于进行内容转载的网络系统和设备中，为快速、准确地提取网页中的正文，本发明提供一种提取网页正文的装置。

如图2所示，该网页正文提取装置包括：

获取模块1，用于获取页面段的开始标签和结束标签；

分段模块2，用于根据获取模块1获取的开始标签和结束标签确定页面段的开始位置和结束位置；

计算模块3，用于根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值；

提取模块4，用于将计算模块3计算得出的网页中权值最大的页面段提取为网页正文。

如图2所示，获取模块1还可以进一步包括：

第一判断子模块11，用于查找标签，判断标签是否是开始标签或结束标签；

第二判断子模块13，用于在第一判断子模块11判断标签是开始标签或结束标签后，进一步判断开始标签或结束标签是否是页面段的开始标签或结束标签；

获取子模块15，用于获取页面段的开始标签或结束标签。

如图2所示，该网页正文提取装置还可以进一步包括：

处理模块5，用于处理分段模块2确定的页面段的内容；

保存模块6，用于保存分段模块2确定的页面段的开始位置和结束位置、以及处理模块5处理后的页面段的内容；

计算模块3根据保存模块6保存的内容计算页面段的权值。

如图2所示，进一步的，该网页正文提取装置还可以包括：

预置模块7，用于设置用户点击率高和/或内容更新频率快的网页；

获取模块1优先从预置模块7设置的网页中获取页面段的开始标签和结束标签，供提取模块4提取网页正文。

本实施例提供的提取网页正文的装置，通过计算模块3计算分段模块1确定的网页中所有页面段的权值，然后，提取模块4将权值最大的页面段提取为网页正文，由于页面段的权值反映了页面段内容的热门度，因此，根据权值提取网页正文，可以快速、准确地转载热门的内容，且满足内容多样化的要求，从而提高网站的点击率和知名度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种提取网页正文的方法，其特征在于，包括以下步骤：

获取页面段的开始标签和结束标签；

将网页中权值最大的页面段提取为网页正文。

2.根据权利要求1所述提取网页正文的方法，其特征在于，所述获取页面段的开始标签和结束标签包括：

查找标签，判断所述标签是否是开始标签或结束标签；

如果是，则进一步判断所述开始标签或结束标签是否是所述页面段的开始标签或结束标签；

获取所述页面段的开始标签和结束标签。

3.根据权利要求1所述提取网页正文的方法，其特征在于，

所述根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置时还包括：根据所述开始标签确定所述页面段的开始位置时，保存所述页面段的开始位置，处理所述开始位置后的页面段的内容；根据所述结束标签确定所述页面段的结束位置时，保存所述页面段的结束位置、以及处理后的所述开始位置和结束位置之间的页面段的内容；以及

所述计算所述页面段的权值的步骤为：

计算保存的处理后的所述页面段的内容的权值。

4.根据权利要求1所述提取网页正文的方法，其特征在于，

所述根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置后还包括：处理所述开始位置和结束位置之间的页面段的内容；保存所述页面段的开始位置和结束位置、以及处理后的所述页面段的内容；以及

所述计算所述页面段的权值的步骤为：

计算保存的处理后的所述页面段的内容的权值。

5.根据权利要求3或4所述提取网页正文的方法，其特征在于，所述页面段的内容包括无链接字符、链接字符、图片、附件和广告中的一种或多种。

6.根据权利要求1所述提取网页正文的方法，其特征在于，所述获取页面段的开始标签和结束标签之前还包括：

设置用户点击率高和/或内容更新频率快的网页，优先从所述用户点击率高和/或内容更新频率快的网页中提取网页正文。

7.一种提取网页正文的装置，其特征在于，包括：

获取模块，用于获取页面段的开始标签和结束标签；

8.根据权利要求7所述提取网页正文的装置，其特征在于，所述获取模块包括：

第一判断子模块，用于查找标签，判断所述标签是否是开始标签或结束标签；

第二判断子模块，用于在所述第一判断子模块判断所述标签是开始标签或结束标签后，进一步判断所述开始标签或结束标签是否是所述页面段的开始标签或结束标签；

获取子模块，用于获取所述页面段的开始标签或结束标签。

9.根据权利要求7或8所述提取网页正文的装置，其特征在于，还包括：

处理模块，用于处理所述分段模块确定的页面段的内容；

保存模块，用于保存所述分段模块确定的页面段的开始位置和结束位置、以及所述处理模块处理后的所述页面段的内容；

所述计算模块根据所述保存模块保存的所述内容计算所述页面段的权值。

10.根据权利要求9所述提取网页正文的装置，其特征在于，还包括：

预置模块，用于设置用户点击率高和/或内容更新频率快的网页；

所述获取模块优先从所述预置模块设置的所述用户点击率高和/或内容更新频率快的网页中获取页面段的开始标签和结束标签，供所述提取模块提取网页正文。