CN101408898B - 一种提取网页正文的方法和装置 - Google Patents

一种提取网页正文的方法和装置 Download PDF

Info

Publication number
CN101408898B
CN101408898B CN2008102257202A CN200810225720A CN101408898B CN 101408898 B CN101408898 B CN 101408898B CN 2008102257202 A CN2008102257202 A CN 2008102257202A CN 200810225720 A CN200810225720 A CN 200810225720A CN 101408898 B CN101408898 B CN 101408898B
Authority
CN
China
Prior art keywords
page section
tag
page
web page
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008102257202A
Other languages
English (en)
Other versions
CN101408898A (zh
Inventor
张海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN2008102257202A priority Critical patent/CN101408898B/zh
Publication of CN101408898A publication Critical patent/CN101408898A/zh
Application granted granted Critical
Publication of CN101408898B publication Critical patent/CN101408898B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种提取网页正文的方法和装置,涉及网络技术领域,以快速、准确地提取网页中的正文。该方法包括:获取页面段的开始标签和结束标签;根据开始标签和结束标签确定页面段的开始位置和结束位置;计算页面段的权值;将网页中权值最大的页面段提取为网页正文。该装置包括:获取模块,用于获取页面段的开始标签和结束标签;分段模块,用于根据获取模块获取的开始标签和结束标签确定页面段的开始位置和结束位置;计算模块,用于计算分段模块确定的页面段的权值;提取模块,用于将计算模块计算得出的网页中权值最大的页面段提取为网页正文。本发明提供的技术方案可以广泛应用于进行内容转载的网络系统和设备中。

Description

一种提取网页正文的方法和装置
技术领域
本发明涉及网络技术领域,尤其涉及一种提取网页正文的方法和装置。
背景技术
随着市场竞争的日趋激烈,各大网站的网页内容如果只靠本站网页内容,显得内容单调,无法提高点击率,也无法提高本站的知名度。为提高点击率,则必须使网页内容多样化,增加更多的热门话题等,网页内容转载由此而产生。人工转载,更新速度慢,效率低,还要耗费很大的人力和财力,由此爬虫软件就成为网页内容转载的主导软件,以快速、准确提取网页正文。
目前,爬虫软件提取网页正文的方法都是正则提取法,包括:根据每个网页的模板预先设定一些规则;然后,根据这些规则提取网页正文。
发明人发现现有技术中存在如下问题:
正则提取法需要花费大量精力去维护各大网站网页的模板提取规则,由于互联网上的网站网页模板太多,网页模板更新比较频繁,所以用户无法及时、准确地维护这些模板规则,也就无法及时、准确地提取这些网页正文。
发明内容
本发明提供一种提取网页正文的方法和装置,以快速、准确地提取网页中的正文。
为达到上述目的,本发明采用如下技术方案:
一种提取网页正文的方法,包括:
获取页面段的开始标签和结束标签;
根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置;
根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值;
将网页中权值最大的页面段提取为网页正文。
一种提取网页正文的装置,包括:
获取模块,用于获取页面段的开始标签和结束标签;
分段模块,用于根据所述获取模块获取的开始标签和结束标签确定所述页面段的开始位置和结束位置;
计算模块,用于根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值;
提取模块,用于将所述计算模块计算得出的所述网页中权值最大的页面段提取为网页正文。
本发明提供的提取网页正文的方法和装置,通过计算所述页面段的权值,将权值最大的页面段提取为网页正文,而页面段的权值反映了该页面段内容的热门度,因此,根据权值提取网页正文,可以快速、准确地转载热门的内容,且满足内容多样化的要求,从而提高网站的点击率和知名度。
附图说明
图1为本发明提取网页正文的方法流程图;
图2为本发明提取网页正文的装置结构图。
具体实施方式
本发明提供一种提取网页正文的方法:将网页划分成若干页面段,根据页面段中的无链接字符、链接字符、图片、附件、广告等内容计算各个页面段的权值,该页面段内容的热门度越高,则权值越大;然后,将权值最大的页面段提取为网页正文;从而转载该网页内容后,用户的点击率越高,有利于提高本网站的知名度。采用本发明提供的提取网页正文的方法,即使网页的模板发生变化,也能快速、准确地提取热门的网页正文、维护网页内容的多样性。
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为快速、准确地提取网页中的正文,本发明提供一种提取网页正文的方法。下面结合附图对本发明提取网页正文的方法进行详细描述。
在提取网页正文之前,可以预先设置用户点击率高和/或内容更新频率快的网页,优先从该网页中提取网页正文。如图1所示,本发明提供的提取网页正文的方法包括:
S101,获取页面段的开始标签和结束标签。
一个网页包括一个或多个页面段,根据页面段的开始标签和结束标签可以确定网页相应的的页面段。获取页面段的开始标签和结束标签包括:查找标签,判断所述标签是否是开始标签或结束标签;如果是,则进一步判断所述开始标签或结束标签是否是所述页面段的开始标签或结束标签;获取所述页面段的开始标签和结束标签。
其中,标签可以是HTML(Hypertext Markup Language,超文本标示语言)标签或XHTML(The Extensible HyperText Markup Language,可扩展超文本标示语言)标签。
打开一个通过HTML文本创建的网页的源文件,该源文件即HTML文本,其中,HTML文本由一系列标签组成。标签则就如同乐队的指挥,告诉乐手们哪里需要停顿,哪里需要激昂。HTML的结构包括头部(Head)、主体(Body)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。HTML是网络的通用语言,允许网页制作人建立文本与图片相结合的复杂页面,这些页面可以被网上任何其他人浏览到,无论使用的是什么类型的电脑或浏览器。
HTML标签通常是英文词汇的全称(如块引用:blockquote)或缩略语(如“p”代表Paragragh),但它们的与一般文本有区别,因为它们放在单书名号里。故Paragragh标签是<p>,块引用标签是<blockquote>。有些标签说明页面如何被格式化(例如,<p>开始一个新段落),其他则说明这些词如何显示(<b>使文字变粗)还有一些其他标签提供在页面上不显示的信息——例如标题。
而且,标签通常是成双出现的。每当使用一个标签——如<blockquote>,则必须以另一个标签</blockquote>将它关闭。注意“blockquote”前的斜杠,那就是关闭标签与打开标签的区别。基本HTML页面以<html>标签开始,以</html>结束。在它们之间,整个页面有两部分——标题和正文。
遍历网页中的所有页面段,判断该标签是开始标签还是结束标签,如果是,则进一步判断该标签是不是页面段的开始标签或结束标签。
S102,根据开始标签和结束标签确定页面段的开始位置和结束位置。
在该步骤中,根据所述开始标签确定所述页面段的开始位置时即可分配页面对象(所谓对象,就是存放一组数据结构的内存区)。即:保存所述页面段的开始位置,处理所述开始位置后的页面段的内容,所述内容包括无链接字符、链接字符、图片、附件和广告中的一种或多种,当根据所述结束标签确定所述页面段的结束位置时,保存所述页面段的结束位置、以及处理后的所述开始位置和结束位置之间的页面段的内容;或者
在根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置后,再处理所述开始位置和结束位置之间的页面段的内容,保存所述页面段的开始位置和结束位置、以及处理后的所述页面段的内容。
S103,计算页面段的权值。
即根据该页面段的开始位置和结束位置之间的内容(综合考虑页面段中的无链接字符、链接字符、图片、附件和广告)计算该页面段的权值。
例如:采用如下公式进行计算:
Vaule(权值)=Num(无链接字符数)+Num(图片链接的个数)*C1(图片常数值,一般取80)-Num(链接的个数)*C2(链接常数值,一般取6);
其中,权值的计算与步骤S102中对页面段内容的处理有关,可以对处理后的页面段内容进行权值计算,也可以直接对未经处理的页面段内容进行权值计算,后者在计算的过程中可以自动过滤/跳过一些与权值无关的内容。因此,与步骤S102对应的,当步骤S102保存有处理后的页面段的内容后,该步骤中计算页面段的权值为:计算保存的处理后的页面段的内容的权值。其中,对页面段的处理可以是处理一些与计算该页面段的权值无关的内容;而且,处理后的内容更便于转载。
解析完一个页面段后继续解析下一个标签和页面段,遍历网页的所有页面段,计算出各页面段的权值,直到网页解析结束。页面段的权值越大,该页面段的热门度越高。
S104,将网页中权值最大的页面段提取为网页正文。
本实施例提供的提取网页正文的方法,通过计算所述页面段的权值,将权值最大的页面段提取为网页正文,而页面段的权值反映了该页面段内容的热门度,因此,根据权值提取网页正文,可以快速、准确地转载热门的内容,且满足内容多样化的要求,从而提高网站的点击率和知名度。
本发明提供的技术方案可以广泛应用于进行内容转载的网络系统和设备中,为快速、准确地提取网页中的正文,本发明提供一种提取网页正文的装置。
如图2所示,该网页正文提取装置包括:
获取模块1,用于获取页面段的开始标签和结束标签;
分段模块2,用于根据获取模块1获取的开始标签和结束标签确定页面段的开始位置和结束位置;
计算模块3,用于根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值;
提取模块4,用于将计算模块3计算得出的网页中权值最大的页面段提取为网页正文。
如图2所示,获取模块1还可以进一步包括:
第一判断子模块11,用于查找标签,判断标签是否是开始标签或结束标签;
第二判断子模块13,用于在第一判断子模块11判断标签是开始标签或结束标签后,进一步判断开始标签或结束标签是否是页面段的开始标签或结束标签;
获取子模块15,用于获取页面段的开始标签或结束标签。
如图2所示,该网页正文提取装置还可以进一步包括:
处理模块5,用于处理分段模块2确定的页面段的内容;
保存模块6,用于保存分段模块2确定的页面段的开始位置和结束位置、以及处理模块5处理后的页面段的内容;
计算模块3根据保存模块6保存的内容计算页面段的权值。
如图2所示,进一步的,该网页正文提取装置还可以包括:
预置模块7,用于设置用户点击率高和/或内容更新频率快的网页;
获取模块1优先从预置模块7设置的网页中获取页面段的开始标签和结束标签,供提取模块4提取网页正文。
本实施例提供的提取网页正文的装置,通过计算模块3计算分段模块1确定的网页中所有页面段的权值,然后,提取模块4将权值最大的页面段提取为网页正文,由于页面段的权值反映了页面段内容的热门度,因此,根据权值提取网页正文,可以快速、准确地转载热门的内容,且满足内容多样化的要求,从而提高网站的点击率和知名度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种提取网页正文的方法,其特征在于,包括以下步骤:
获取页面段的开始标签和结束标签;
根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置;
根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值;
将网页中权值最大的页面段提取为网页正文。
2.根据权利要求1所述提取网页正文的方法,其特征在于,所述获取页面段的开始标签和结束标签包括:
查找标签,判断所述标签是否是开始标签或结束标签;
如果是,则进一步判断所述开始标签或结束标签是否是所述页面段的开始标签或结束标签;
获取所述页面段的开始标签和结束标签。
3.根据权利要求1所述提取网页正文的方法,其特征在于,
所述根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置时还包括:根据所述开始标签确定所述页面段的开始位置时,保存所述页面段的开始位置,处理所述开始位置后的页面段的内容;根据所述结束标签确定所述页面段的结束位置时,保存所述页面段的结束位置、以及处理后的所述开始位置和结束位置之间的页面段的内容;以及
所述计算所述页面段的权值的步骤为:
计算保存的处理后的所述页面段的内容的权值。
4.根据权利要求1所述提取网页正文的方法,其特征在于,
所述根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置后还包括:处理所述开始位置和结束位置之间的页面段的内容;保存所述页面段的开始位置和结束位置、以及处理后的所述页面段的内容;以及
所述计算所述页面段的权值的步骤为:
计算保存的处理后的所述页面段的内容的权值。
5.根据权利要求3或4所述提取网页正文的方法,其特征在于,所述页面段的内容包括无链接字符、链接字符、图片、附件和广告中的一种或多种。
6.根据权利要求1所述提取网页正文的方法,其特征在于,所述获取页面段的开始标签和结束标签之前还包括:
设置用户点击率高和/或内容更新频率快的网页,优先从所述用户点击率高和/或内容更新频率快的网页中提取网页正文。
7.一种提取网页正文的装置,其特征在于,包括:
获取模块,用于获取页面段的开始标签和结束标签;
分段模块,用于根据所述获取模块获取的开始标签和结束标签确定所述页面段的开始位置和结束位置;
计算模块,用于根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值;
提取模块,用于将所述计算模块计算得出的所述网页中权值最大的页面段提取为网页正文。
8.根据权利要求7所述提取网页正文的装置,其特征在于,所述获取模块包括:
第一判断子模块,用于查找标签,判断所述标签是否是开始标签或结束标签;
第二判断子模块,用于在所述第一判断子模块判断所述标签是开始标签或结束标签后,进一步判断所述开始标签或结束标签是否是所述页面段的开始标签或结束标签;
获取子模块,用于获取所述页面段的开始标签或结束标签。
9.根据权利要求7或8所述提取网页正文的装置,其特征在于,还包括:
处理模块,用于处理所述分段模块确定的页面段的内容;
保存模块,用于保存所述分段模块确定的页面段的开始位置和结束位置、以及所述处理模块处理后的所述页面段的内容;
所述计算模块根据所述保存模块保存的所述内容计算所述页面段的权值。
10.根据权利要求9所述提取网页正文的装置,其特征在于,还包括:
预置模块,用于设置用户点击率高和/或内容更新频率快的网页;
所述获取模块优先从所述预置模块设置的所述用户点击率高和/或内容更新频率快的网页中获取页面段的开始标签和结束标签,供所述提取模块提取网页正文。
CN2008102257202A 2008-11-07 2008-11-07 一种提取网页正文的方法和装置 Expired - Fee Related CN101408898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102257202A CN101408898B (zh) 2008-11-07 2008-11-07 一种提取网页正文的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102257202A CN101408898B (zh) 2008-11-07 2008-11-07 一种提取网页正文的方法和装置

Publications (2)

Publication Number Publication Date
CN101408898A CN101408898A (zh) 2009-04-15
CN101408898B true CN101408898B (zh) 2010-08-11

Family

ID=40571910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102257202A Expired - Fee Related CN101408898B (zh) 2008-11-07 2008-11-07 一种提取网页正文的方法和装置

Country Status (1)

Country Link
CN (1) CN101408898B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347930B (zh) * 2010-07-26 2015-09-09 中国电信股份有限公司 网页内容获取方法和系统
CN102479181B (zh) * 2010-11-22 2015-10-07 中国电信股份有限公司 基于div位置的网页正文抽取方法和装置
CN102779169A (zh) * 2012-06-27 2012-11-14 江苏新瑞峰信息科技有限公司 一种基于html标签的网页正文提取方法及装置
CN103577171B (zh) * 2012-07-30 2018-11-13 腾讯科技(深圳)有限公司 一种显示网页内容的方法和移动终端
CN102880707B (zh) * 2012-09-27 2016-03-16 广州市动景计算机科技有限公司 网页主体内容识别方法和装置
CN103177090B (zh) * 2013-03-08 2016-11-23 亿赞普(北京)科技有限公司 一种基于大数据的话题检测方法及装置
CN104077273A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 一种对网页内容抽取的方法及装置
CN103309961B (zh) * 2013-05-30 2015-07-15 北京智海创讯信息技术有限公司 基于马尔可夫随机场的网页正文提取方法
CN105320734B (zh) * 2015-07-14 2019-02-22 中国互联网络信息中心 一种网页核心内容提取方法
CN106708861A (zh) * 2015-11-13 2017-05-24 北京国双科技有限公司 一种文章关键实体获取方法及装置
CN105718584B (zh) * 2016-01-26 2019-01-29 中国人民解放军国防科学技术大学 网页正文提取的方法及装置
CN107203527B (zh) * 2016-03-16 2019-06-28 北大方正集团有限公司 新闻网页的正文抽取方法和系统
CN106599297A (zh) * 2016-12-28 2017-04-26 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
CN106960057A (zh) * 2017-04-05 2017-07-18 上海威固信息技术有限公司 一种基于信息密度提取网页正文的方法
CN107562799A (zh) * 2017-08-04 2018-01-09 海南智媒云图科技股份有限公司 一种内容转载分享的方法及装置
CN107943869A (zh) * 2017-11-10 2018-04-20 深圳市华阅文化传媒有限公司 阅读第三方网页的方法和装置
CN108763591B (zh) * 2018-06-21 2021-01-08 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN101408898A (zh) 2009-04-15

Similar Documents

Publication Publication Date Title
CN101408898B (zh) 一种提取网页正文的方法和装置
CN102135967B (zh) 网页关键词提取方法、装置及系统
CN109582704B (zh) 招聘信息和求职简历匹配的方法
EP3508992A1 (en) Error correction method and device for search term
CN100437582C (zh) 图像内容语义标注方法
CN103473217B (zh) 从文本中抽取关键词的方法和装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN109977361A (zh) 一种基于相似词的汉语拼音标注方法、装置及存储介质
CN101404036B (zh) PowerPoint电子演示文稿的关键词抽取方法
CN105630772B (zh) 一种网页评论内容的抽取方法
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN110222654A (zh) 文本分割方法、装置、设备及存储介质
CN101887443A (zh) 一种文本的分类方法及装置
CN102411564A (zh) 一种电子作业抄袭检测方法
CN108319724A (zh) 一种带公式文件的网页发布方法及装置
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN107894974A (zh) 基于标签路径和文本标点比特征融合的网页正文提取方法
CN102999533A (zh) 一种火星文识别方法和系统
CN110516048A (zh) pdf文档中表格数据的提取方法、设备和存储介质
CN107436931B (zh) 网页正文抽取方法及装置
CN106446139A (zh) 一种提取网页内容的方法及装置
CN102999511A (zh) 一种页面快速转换方法、装置和系统
CN105183730B (zh) 网页信息的处理方法和装置
CN111737961A (zh) 一种故事生成的方法、装置、计算机设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220615

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100811

CF01 Termination of patent right due to non-payment of annual fee