CN110020296A - 一种提取新闻网页正文的方法及装置 - Google Patents

一种提取新闻网页正文的方法及装置 Download PDF

Info

Publication number
CN110020296A
CN110020296A CN201711045477.1A CN201711045477A CN110020296A CN 110020296 A CN110020296 A CN 110020296A CN 201711045477 A CN201711045477 A CN 201711045477A CN 110020296 A CN110020296 A CN 110020296A
Authority
CN
China
Prior art keywords
text
web page
webpage
page template
distribution rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711045477.1A
Other languages
English (en)
Inventor
马庆丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201711045477.1A priority Critical patent/CN110020296A/zh
Publication of CN110020296A publication Critical patent/CN110020296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Abstract

本发明一种提取新闻网页正文的方法及装置,所述方法包括:确定待提取网页的二级域名;获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。由于同一个二级域名的各个网页对应同一个网页模板,因此,对于具有同一个二级域名的各个新闻网页,无论是常规网页还是非常规网页,均可以利用该二级域名的网页模板对应的正文分布规则提取正文。

Description

一种提取新闻网页正文的方法及装置
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种提取新闻网页正文的方法及装置。
背景技术
网页内容提取技术被广泛应用在互联网服务和应用中,例如:信息检索、文本自动分类、话题跟踪、机器翻译及自动摘要等。从网页中提取出高质量的正文对以上应用非常关键。
新闻网页正文提取属于网页内容提取中重要的一类。新闻网页正文的提取是指将网页中新闻的正文部分准确提取出来,不能将正文下方的评论信息、广告内容、侧边栏的推荐文章及广告等提取出来。
比较常规的新闻网页内容是正文文本量比较多,文字较为集中。现有对于正文抽取的方法也都普遍适用于这些文本量较大的新闻网页。
但随着网络的迅猛发展及其应用的日益丰富,涌现出大量非常规的网页。例如,新闻网页中存在大量的图片等非文本信息,称这种非常规新闻网页为“短正文网页”,他们的共同点是正文文本较短。
针对非常规网页的正文提取比较困难,因为这些网页的正文内容太短,导致常规网页的正文抽取方法无法适用于这些非常规网页,因此,本领域技术人员需要提供一种提取新闻网页正文的方法,具有通用性,可以提取文本量较大的新闻网页也可以提取文本量较小的新闻网页。
发明内容
为了解决现有技术中存在的以上技术问题,本发明提供一种提取新闻网页正文的方法及装置,具有通用性,可以提取文本量较大的新闻网页也可以提取文本量较小的新闻网页。
本发明提供一种提取新闻网页正文的方法,包括:
确定待提取网页的二级域名;
获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;
由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。
优选地,所述通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,具体包括:
获得具有该网页模板的一个网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
获得所述文本密度最大区间对应该网页文档对象模型DOM树的节点;
由所述网页DOM树的节点确定该网页正文起始的Xpath;
将所述网页正文起始的Xpath作为该网页对应网页模板的正文分布规则。
优选地,所述通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,具体包括:
分别获得具有该网页模板的多个待训练网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
分别获得所述多个待训练网页中各个网页的所述文本密度最大区间对应的网页DOM树的节点;
由所述各个网页的DOM树的节点分别确定各个网页正文起始的Xpath;
当相同Xpath对应的网页数目超过预设数目时,将该Xpath作为所述多个待训练网页对应网页模板的正文分布规则。
优选地,所述相同Xpath对应的网页数目超过预设数目,具体为:
相同Xpath对应的网页数目超过所述待训练网页数目的50%。
优选地,所述获得所述文本密度最大区间,具体为:
利用标签密度算法获得所述文本密度最大区间。
本发明还提供一种提取新闻网页正文的装置,包括:
域名获得单元,用于确定待提取网页的二级域名;
模板获得单元,用于获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;
正文提取单元,用于由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文;所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。
优选地,所述正文提取单元,具体包括:
第一文本密度最大区间获得子单元,用于获得具有该网页模板的一个网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
第一DOM树的节点获得子单元,用于获得所述文本密度最大区间对应该网页文档对象模型DOM树的节点;
第一Xpath确定子单元,用于由所述网页DOM树的节点确定该网页正文起始的Xpath;
第一正文分布规则确定子单元,用于将所述网页正文起始的Xpath作为该网页对应网页模板的正文分布规则。
优选地,所述正文提取单元,具体包括:
第二文本密度最大区间获得子单元,用于分别获得具有该网页模板的多个待训练网页的文本密度最大区间,用于所述文本密度最大区间内的文本数目超过预设文本阈值;
第二DOM树的节点获得子单元,用于分别获得所述多个待训练网页中各个网页的所述文本密度最大区间对应的网页DOM树的节点;
第二Xpath确定子单元,用于由所述各个网页的DOM树的节点分别确定各个网页正文起始的Xpath;
第二正文分布规则确定子单元,用于当相同Xpath对应的网页数目超过预设数目时,将该Xpath作为所述多个待训练网页对应网页模板的正文分布规则。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的提取新闻网页正文的方法。
本发明还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述的提取新闻网页正文的方法。
与现有技术相比,本发明至少具有以下优点:
本发明实施例提供的方法提取新闻网页正文时,首先确定待提取网页的二级域名,然后获得该二级域名的网页模板,由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文;其中,所述二级域名的网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。由于同一个二级域名的各个网页对应同一个网页模板,因此,对于具有同一个二级域名的各个新闻网页,无论是常规网页还是非常规网页,均可以利用该二级域名的网页模板对应的正文分布规则提取正文。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的提取新闻网页正文的方法流程图;
图2为本发明提供的一个新闻网页的示意图;
图3为本发明提供的一个列表的示意图;
图4为本发明提供的一个通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则的流程图;
图5为本发明提供的利用标签算法获得网页的文本密度最大区间的示意图;
图6为本发明提供的一个网页的HTML源码示意图;
图7为本发明提供的一个网页的DOM树结构示意图;
图8为本发明提供的又一个网页的HTML源码示意图;
图9为本发明提供的又一个通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则的流程图;
图10为本发明提供的提取新闻网页正文的方法流程图;
图11为本发明提供的提取新闻网页正文的装置结构图;
图12为本发明提供的正文分布规则获得单元的结构示意图;
图13为本发明提供的正文分布规则获得单元的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一方面,发明人经过研究发现,对于网站而言,网页的增加只是内容的增加,网页的框架是预先确定好的,预先确定的网页框架也叫做网页模板。一般而言,网站的各个模块有各自的网页模板,网页设计者若需要增加网页的内容,只需要在网页模板中对应位置添加内容即可。
另一方面,发明人通过数据统计发现,二级域名相同的各个网页具有同一个网页模板。网页设计者增加网页内容时,在网页模板的各个位置添加相应内容;例如,在网页模板的第一位置添加网页标题,在网页模板的第二位置添加正文,在网页模板的第三位置添加图片等等。
因此,获得二级域名的网页模板对应的正文分布规则,则可以利用该正文分布规则提取具有该二级域名的所有新闻网页的正文。
实施例一
参见图1,该图为本实施例提供的提取新闻网页正文的方法流程图。
本实施例提供的提取新闻网页正文的方法,包括如下步骤:
S101:确定待提取网页的二级域名。
本实施例中提及的待提取网页,主要包括有明显标题和正文的新闻网页;不包括列表网页、论坛网页、登录网页以及视频网页等。
例如,参见图2,该图为本实施例提供的一个新闻网页的示意图。图2所示的新闻网页可以作为本实施例的待提取网页。
参加图3,该图为本实施例提供的一个列表网页的示意图,图3所示的列表网页不可以作为本实施例的待提取网页。
本实施例不具体限定待提取网页的正文文本数目。无论是常规的正文文本数目较多的网页,还是非常规的正文文本数目较少的网页,均可以使用本实施例提供的提取新闻网页正文的方法提取网页正文。
我国在国际互联网络信息中心正式注册并运行的顶级域名是CN,CN是我国的一级域名;二级域名是指顶级域名的下一级域名。
例如:www.baidu.com、bbs.baidu.com以及tieba.baidu.com均为二级域名。
S102:获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板。
可以理解的是,同一个二级域名可以对应多个网页,为了降低网页开发成本以及降低网页维护难度,往往一个二级域名对应的各个网页具有同一个网页模板。
例如,二级域名www.baidu.com对应的各个网页具有同一个网页模板。
S103:由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。
本实施例中提及的正文分布规则指的是,网页中正文的起始位置和终止位置在网页模板中的分布位置。
本实施例中提及的正文分布规则用于确定该网页模板对应的正文起始位置。也就是说,利用该二级域名的网页模板对应的正文分布规则,则可以确定所述待提取网页的正文起始位置,从而提取该待提取网页的正文。S103在实际应用时,可以预先保存二级域名、该二级域名对应的网页模板以及正文分布规则的对应关系。根据待提取网页的二级域名从该对应关系中找到该二级域名的网页模板,根据该网页模板找到与该网页模板对应的正文分布规则。
本实施例中预先保存的二级域名和该二级域名对应的网页模板之间的对应关系可以通过训练该二级域名对应的网页获得,也可以通过其他方式获得,本实施例不做具有限定。
作为一种示例,该对应关系的表现形式可以为如表1的列表形式,表1示出了二级域名、网页模板和正文分布规则之间的对应关系。
表1
二级域名 网页模板 正文分布规则
xueshu.baidu.com 模板a 规则1
news.baidu.com 模板b 规则2
sports.baidu.com 模板c 规则3
本实施例提供的提取新闻网页正文的方法,提取新闻网页正文时,首先确定待提取网页的二级域名,然后获得该二级域名的网页模板,由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文;其中,所述二级域名的网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。由于同一个二级域名的网页对应同一个网页模板,因此,对于具有同一个二级域名的各个新闻网页,无论是常规网页还是非常规网页,均可以利用该二级域名的网页模板对应的正文分布规则提取正文。
实施例一中提到,网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的。以下的实施例二和实施例三将结合附图介绍通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则的具体方法。
实施例二
参见图4,该图为本实施例提供的一个通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则的流程图。本实施例提供的通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,包括如下步骤:
S401:获得具有该网页模板的一个网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值。
需要说明的是,由于同一个二级域名对应的各个网页具有同一个网页模板,故而本实施例中提及的具有该网页模板的网页即为具有与该模板对应的二级域名的网页。
例如,结合表1,若要预先获得模板a对应的正文分布规则,则具有模板a的网页即为具有二级域名xueshu.baidu.com的网页。
可以理解的是,网页中除了正文内容部分包含文本之外,有可能其他部分也包含文本。文本密度最大区间可以认为是该网页中正文所在的区间。
在本实施例中,可以利用标签密度算法获得具有该网页模板的网页的文本密度最大区间。
需要说明的是,网页对应的超文本标记语言(HyperText Markup Language,HTML)源码,除了文本之外,还包含许多标签。
标签密度算法具体实现时,根据网页对应的HTML源码,按行计算每行的标签率,标签率即为每行的文本数目与标签数目的比值。标签率越大,表明该行的文本密度越大。获得每一行的标签率之后,利用K-means进行聚类,一般来讲,参数K取值为3,即当标签率大于3时,认为该行对应的文本密度较大,该行对应的文本为正文的可能性也较大。
例如,参见图5,该图为本实施例提供的利用标签算法获得网页的文本密度最大区间的示意图。其中,TR表示标签率,从图5中可以看出,第3行到第5行的标签率均大于3,因此,经过标签密度算法得到的结果是第3行到第5行为该网页的文本密度最大区间,也就是说,第3行到第5行为正文的可能性比较大。
预设文本阈值是一个预先设置的数值,当文本数目大于预设文本阈值时,可以认为该网页为常规网页。可以理解的是,若网页为非常规网页,则网页中每一行的标签率可能均比较小,那么利用标签密度算法就不能得到该网页的文本密度最大区间,也就不能确定该网页中正文所在的区间。
S402:获得所述文本密度最大区间对应该网页文档对象模型(Document ObjectModel,DOM)树的节点。
需要说明的是,可以根据网页对应的HTML源码构建对应的DOM树,DOM树中的节点对应HTML源码中的标签。
例如,由图6所示的HTML源码可以构建出如图7所示的DOM树。
在确定该常规网页的文本密度最大区间之后,可以根据该常规网页对应的HTML源码和DOM树的对应关系确定所述文本密度最大区间对应的DOM树节点。
S403:由所述网页DOM树的节点确定该网页正文起始的Xpath。
S404:将所述网页正文起始的Xpath作为该网页对应的网页模板的正文分布规则。
关于S403和S404,需要说明的是,若文本密度最大区间的文本均位于某一节点下,则可以将该节点作为该网页正文起始的Xpath,即将该节点作为该网页对应的网页模板的正文分布规则。
以下结合图8进行说明,图8为本实施例提供的一个网页HTML源码示意图。图中方框中的部分为正文部分,从图8可知,每一行文本对应的节点为<div class="article-content">的子节点p,也就是说,该区间内的正文均位于节点<div class="article-content">下,那么,该网页正文的起始Xpath为<div class="article-content">,因此该网页对应的网页模板的正文分布规则为div[class=’article-content’]。
本实施例提供的通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则的方法,通过获得具有网页模板的一个常规网页的文本密度最大区间,根据该文本密度最大区间获得对应的DOM树节点,由所述DOM树的节点确定该网页对应的Xpath,并将该Xpath作为该网页对应网页模板的正文分布规则。利用该网页的网页模板对应的正文分布规则,就可以提取具有该网页模板的新闻网页正文。
实施例三
由于网页设计者增加网页的内容时,在网页模板的各个位置所添加的具体内容可能不同,从而导致具有同一个网页模板的各个网页中,有些网页的正文分布规则和大多数网页的正文分布规则不一样。因此,为了使得训练获得的网页模板对应的正文分布规则能够更加准确,在通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则时,可以选择多个具有该网页模板的网页训练获得该网页模板对应的正文分布规则。
参见图9,该图为本实施例提供的又一个通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则的流程图。本实施例提供的通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,包括如下步骤:
S901:分别获得具有该网页模板的多个待训练网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值。
S902:分别获得所述多个待训练网页中各个网页的所述文本密度最大区间对应的网页DOM树的节点。
S903:由所述各个网页的DOM树的节点分别确定各个网页正文起始的Xpath。
S901-S903中所述的对各个网页的处理方式可以参考S401-S403的描述,在此不再赘述。
S904:当相同Xpath对应的网页数目超过预设数目时,将该Xpath作为所述多个待训练网页对应网页模板的正文分布规则。
可以理解的是,当获取的具有该网页模板的网页数目达到一定数目时,这些网页对应的Xpath会呈现一定的规律。例如,其中一部分网页对应一个Xpath,其他的网页对应另外一个Xpath。
预设数目是一个预先设置的数值,当相同Xpath对应的网页数目超过该预设数目时,表示具有该网页模板的大部分网页的正文分布与该Xpath相同,因此,可以将该Xpath作为该网页模板对应的正文分布规则。作为一种示例,预设数目可以为获取的待训练网页数目的50%。
以下结合表2进行举例说明:一共获取了具有模板a的3000个常规网页作为待训练网页,其中,有2500个待训练网页的Xpath为第一Xpath,490个待训练网页的Xpath为第二Xpath,其他10个待训练网页的Xpath为第三Xpath。由于第一Xpath的对应的网页数目超过了1500,故而将第一网页的Xpath为作为模板a对应的正文分布规则。
表2
Xpath 对应的网页数目
第一Xpath 2500
第二Xpath 490
第三Xpath 10
本实施例提供的通过具有该网页模板的网页训练获得网页模板对应的正文分布规则的方法,在通过具有该网页模板的网页训练获得网页模板对应的正文分布规则时,选择多个具有该网页模板的常规网页训练获得该网页模板对应的正文分布规则。利用该网页的网页模板对应的正文分布规则,可以更加准确的提取具有该网页模板的新闻网页正文。
实施例四
以下结合具体场景,介绍一种提取新闻网页正文的方法。在该场景中,待提取网页的二级域名的网页模板对应的正文分布规则没有预先训练,因此,在获得该待提取网页的网页模板之后,采用了实施例三中提供的获得网页模板对应的正文分布规则的方法,获得了该网页模板对应的正文分布规则,并利用该正文分布规则提取待提取网页的正文。
参见图10,该图为本实施例提供的提取新闻网页正文的方法流程图。
S1001:确定待提取网页的二级域名。
S1002:根据待提取网页的二级域名获得所述二级域名对应的网页模板。
S1003:在预先保存的二级域名、网页模板和正文分布规则的对应关系中未查找到该网页模板对应的正文分布规则。
S1004:获得具有该二级域名的3000个常规网页。
S1005:获得各个常规网页的Xpath。
S1006:当相同Xpath对应的网页数目超过1500时,将该Xpath作为所述二级域名对应的网页模板的正文分布规则。
S1007:由所述二级域名对应的网页模板的正文分布规则提取所述待提取网页的正文。
本实施例提供的提取新闻网页正文的方法,提取新闻网页正文时,首先确定待提取网页的二级域名,然后获得该二级域名的网页模板;当该模板对应的正文分布规则没有预先训练时,选择多个具有该网页模板的常规网页训练获得该网页模板对应的正文分布规则。利用该网页对应网页模板的正文分布规则,可以更加准确的提取具有该网页模板的其他新闻网页正文。
基于实施例一到实施例四提供的提取新闻网页正文的方法,本申请还提供一种提取新闻网页正文的装置,以下结合附图进行介绍。
实施例五
参见图11,该图为本实施例提供的提取新闻网页正文的装置结构示意图。本实施例提供的提取新闻网页正文的装置,包括:域名获得单元1110、模板获得单元1120和正文提取单元1130。
所述域名获得单元1110:用于确定待提取网页的二级域名;
所述模板获得单元1120:用于获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;
所述正文提取单元1130:用于由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。可选的,如图12所示,该图为本实施例提供的正文提取单元的结构示意图。
所述正文提取单元1130,具体包括:第一文本密度最大区间获得子单元1131、第一DOM树的节点获得子单元1132、第一Xpath确定子单元1133和第一正文分布规则确定子单元1134。
所述第一文本密度最大区间获得子单元1131:用于获得具有该网页模板的一个网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
所述第一DOM树的节点获得子单元1132:用于获得所述文本密度最大区间对应该网页文档对象模型DOM树的节点;
所述第一Xpath确定子单元1133:用于由所述网页DOM树的节点确定该网页正文起始的Xpath;
所述第一正文分布规则确定子单元1134:用于将所述网页正文起始的Xpath作为该网页对应网页模板的正文分布规则。
可选的,如图13所示,该图为本实施例提供的正文提取单元的另一种结构示意图。
所述正文提取单元1130,具体包括:第二文本密度最大区间获得子单元1135、第二DOM树的节点获得子单元1136、第二Xpath确定子单元1137和第二正文分布规则确定子单元1138。
所述第二文本密度最大区间获得子单元1135:用于分别获得具有该网页模板的多个待训练网页的文本密度最大区间,用于所述文本密度最大区间内的文本数目超过预设文本阈值;
所述第二DOM树的节点获得子单元1136:用于分别获得所述多个待训练网页中各个网页的所述文本密度最大区间对应的网页DOM树的节点;
所述第二Xpath确定子单元1137:用于由所述各个网页的DOM树的节点分别确定各个网页正文起始的Xpath;
所述第二正文分布规则确定子单元1138:用于当相同Xpath对应的网页数目超过预设数目时,将该Xpath作为所述多个待训练网页对应网页模板的正文分布规则。
本实施例提供的提取新闻网页正文的装置,提取新闻网页正文时,首先由域名获得单元确定待提取网页的二级域名,然后由模板获得单元获得该二级域名的网页模板,最后正文提取单元由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文;其中,所述二级域名的网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。由于同一个二级域名的网页对应同一个网页模板,因此,对于具有同一个二级域名的各个新闻网页,无论是常规网页还是非常规网页,均可以利用该二级域名的网页模板对应的正文分布规则提取正文。
所述提取新闻网页正文的装置包括处理器和存储器,上述域名获得单元1110、模板获得单元1120和正文提取单元1130等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现提取新闻网页正文。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
确定待提取网页的二级域名;
获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;
由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述提取新闻网页正文的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
确定待提取网页的二级域名;
获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;
由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。
可选的,所述通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,具体包括:
获得具有该网页模板的一个网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
获得所述文本密度最大区间对应该网页文档对象模型DOM树的节点;
由所述网页DOM树的节点确定该网页正文起始的Xpath;
将所述网页正文起始的Xpath作为该网页对应网页模板的正文分布规则。
可选的,所述通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,具体包括:
分别获得具有该网页模板的多个待训练网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
分别获得所述多个待训练网页中各个网页的所述文本密度最大区间对应的网页DOM树的节点;
由所述各个网页的DOM树的节点分别确定各个网页正文起始的Xpath;
当相同Xpath对应的网页数目超过预设数目时,将该Xpath作为所述多个待训练网页对应网页模板的正文分布规则。
可选的,所述相同Xpath对应的网页数目超过预设数目,具体为:相同Xpath对应的网页数目超过所述待训练网页数目的50%。
可选的,获得所述文本密度最大区间,具体为:利用标签密度算法获得所述文本密度最大区间。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
确定待提取网页的二级域名;
获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;
由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。
可选的,所述通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,具体包括:
获得具有该网页模板的一个网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
获得所述文本密度最大区间对应该网页文档对象模型DOM树的节点;
由所述网页DOM树的节点确定该网页正文起始的Xpath;
将所述网页正文起始的Xpath作为该网页对应网页模板的正文分布规则。
可选的,所述通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,具体包括:
分别获得具有该网页模板的多个待训练网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
分别获得所述多个待训练网页中各个网页的所述文本密度最大区间对应的网页DOM树的节点;
由所述各个网页的DOM树的节点分别确定各个网页正文起始的Xpath;
当相同Xpath对应的网页数目超过预设数目时,将该Xpath作为所述多个待训练网页对应网页模板的正文分布规则。
可选的,所述相同Xpath对应的网页数目超过预设数目,具体为:相同Xpath对应的网页数目超过所述待训练网页数目的50%。
可选的,获得所述文本密度最大区间,具体为:利用标签密度算法获得所述文本密度最大区间。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种提取新闻网页正文的方法,其特征在于,包括:
确定待提取网页的二级域名;
获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;
由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文,所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。
2.根据权利要求1所述的提取新闻网页正文的方法,其特征在于,所述通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,具体包括:
获得具有该网页模板的一个网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
获得所述文本密度最大区间对应该网页文档对象模型DOM树的节点;
由所述网页DOM树的节点确定该网页正文起始的Xpath;
将所述网页正文起始的Xpath作为该网页对应网页模板的正文分布规则。
3.根据权利要求1所述的提取新闻网页正文的方法,其特征在于,所述通过具有该网页模板的网页训练获得该网页模板对应的正文分布规则,具体包括:
分别获得具有该网页模板的多个待训练网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
分别获得所述多个待训练网页中各个网页的所述文本密度最大区间对应的网页DOM树的节点;
由所述各个网页的DOM树的节点分别确定各个网页正文起始的Xpath;
当相同Xpath对应的网页数目超过预设数目时,将该Xpath作为所述多个待训练网页对应网页模板的正文分布规则。
4.根据权利要求3所述的提取新闻网页正文的方法,其特征在于,所述相同Xpath对应的网页数目超过预设数目,具体为:
相同Xpath对应的网页数目超过所述待训练网页数目的50%。
5.根据权利要求2或3所述的提取新闻网页正文的方法,其特征在于,所述获得所述文本密度最大区间,具体为:
利用标签密度算法获得所述文本密度最大区间。
6.一种提取新闻网页正文的装置,其特征在于,包括:
域名获得单元,用于确定待提取网页的二级域名;
模板获得单元,用于获得所述二级域名的网页模板,同一个二级域名的各个网页对应同一个网页模板;
正文提取单元,用于由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文;所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的,所述正文分布规则用于确定该网页模板对应的正文起始位置。
7.根据权利要求6所述的提取新闻网页正文的装置,其特征在于,所述正文提取单元,具体包括:
第一文本密度最大区间获得子单元,用于获得具有该网页模板的一个网页的文本密度最大区间,所述文本密度最大区间内的文本数目超过预设文本阈值;
第一DOM树的节点获得子单元,用于获得所述文本密度最大区间对应该网页文档对象模型DOM树的节点;
第一Xpath确定子单元,用于由所述网页DOM树的节点确定该网页正文起始的Xpath;
第一正文分布规则确定子单元,用于将所述网页正文起始的Xpath作为该网页对应网页模板的正文分布规则。
8.根据权利要求6所述的提取新闻网页正文的装置,其特征在于,所述正文提取单元,具体包括:
第二文本密度最大区间获得子单元,用于分别获得具有该网页模板的多个待训练网页的文本密度最大区间,用于所述文本密度最大区间内的文本数目超过预设文本阈值;
第二DOM树的节点获得子单元,用于分别获得所述多个待训练网页中各个网页的所述文本密度最大区间对应的网页DOM树的节点;
第二Xpath确定子单元,用于由所述各个网页的DOM树的节点分别确定各个网页正文起始的Xpath;
第二正文分布规则确定子单元,用于当相同Xpath对应的网页数目超过预设数目时,将该Xpath作为所述多个待训练网页对应网页模板的正文分布规则。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1至5中任一项所述的提取新闻网页正文的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任一项所述的提取新闻网页正文的方法。
CN201711045477.1A 2017-10-31 2017-10-31 一种提取新闻网页正文的方法及装置 Pending CN110020296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711045477.1A CN110020296A (zh) 2017-10-31 2017-10-31 一种提取新闻网页正文的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711045477.1A CN110020296A (zh) 2017-10-31 2017-10-31 一种提取新闻网页正文的方法及装置

Publications (1)

Publication Number Publication Date
CN110020296A true CN110020296A (zh) 2019-07-16

Family

ID=67186713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711045477.1A Pending CN110020296A (zh) 2017-10-31 2017-10-31 一种提取新闻网页正文的方法及装置

Country Status (1)

Country Link
CN (1) CN110020296A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990738A (zh) * 2019-12-09 2020-04-10 名创优品(横琴)企业管理有限公司 一种网页正文及要素提取的方法和系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089286A1 (en) * 2007-09-28 2009-04-02 Microsoft Coporation Domain-aware snippets for search results
CN102622445A (zh) * 2012-03-15 2012-08-01 华南理工大学 一种基于用户兴趣感知的网页推送系统及方法
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN103678511A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置
CN103714176A (zh) * 2014-01-08 2014-04-09 同济大学 基于最大文本密度的网页正文抽取方法
CN103838823A (zh) * 2014-01-22 2014-06-04 浙江大学 一种基于网页模板的网站内容无障碍检测方法
CN104376061A (zh) * 2014-11-10 2015-02-25 武汉传神信息技术有限公司 一种提取网页正文的方法
CN105808644A (zh) * 2016-02-25 2016-07-27 浪潮软件集团有限公司 一种确定正文节点的方法及装置
CN106776640A (zh) * 2015-11-24 2017-05-31 北京奇虎科技有限公司 一种股票资讯信息展示方法和装置
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN106960057A (zh) * 2017-04-05 2017-07-18 上海威固信息技术有限公司 一种基于信息密度提取网页正文的方法
CN107153716A (zh) * 2017-06-06 2017-09-12 百度在线网络技术(北京)有限公司 网页内容提取方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089286A1 (en) * 2007-09-28 2009-04-02 Microsoft Coporation Domain-aware snippets for search results
CN102622445A (zh) * 2012-03-15 2012-08-01 华南理工大学 一种基于用户兴趣感知的网页推送系统及方法
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN103678511A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置
CN103714176A (zh) * 2014-01-08 2014-04-09 同济大学 基于最大文本密度的网页正文抽取方法
CN103838823A (zh) * 2014-01-22 2014-06-04 浙江大学 一种基于网页模板的网站内容无障碍检测方法
CN104376061A (zh) * 2014-11-10 2015-02-25 武汉传神信息技术有限公司 一种提取网页正文的方法
CN106776640A (zh) * 2015-11-24 2017-05-31 北京奇虎科技有限公司 一种股票资讯信息展示方法和装置
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN105808644A (zh) * 2016-02-25 2016-07-27 浪潮软件集团有限公司 一种确定正文节点的方法及装置
CN106960057A (zh) * 2017-04-05 2017-07-18 上海威固信息技术有限公司 一种基于信息密度提取网页正文的方法
CN107153716A (zh) * 2017-06-06 2017-09-12 百度在线网络技术(北京)有限公司 网页内容提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林子熠 等: ""基于统计的自动化Web新闻正文抽取"", 《计算机应用与软件》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990738A (zh) * 2019-12-09 2020-04-10 名创优品(横琴)企业管理有限公司 一种网页正文及要素提取的方法和系统

Similar Documents

Publication Publication Date Title
CN106649316B (zh) 一种视频推送方法及装置
CN102541874B (zh) 网页正文内容提取方法及装置
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
US20200210707A1 (en) Sample extraction method and device targeting video classification problem
US20150169511A1 (en) System and method for identifying floor of main body of webpage
CN102135967A (zh) 网页关键词提取方法、装置及系统
CN106446072B (zh) 网页内容的处理方法和装置
CN107045507B (zh) 网页爬取方法及装置
CN102591612A (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
CN109597983A (zh) 一种拼写纠错方法及装置
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN105320734A (zh) 一种网页核心内容提取方法
Fauzi et al. Webpage segmentation for extracting images and their surrounding contextual information
CN106446139A (zh) 一种提取网页内容的方法及装置
CN106886398A (zh) 一种层叠样式表的提取方法和设备
CN101625695B (zh) Web视频页面的复杂命名实体的抽取方法及其系统
CN102929932A (zh) 一种实时新闻的展现装置及其方法
CN102622333B (zh) 提取文本以转换成音频的方法和系统
CN106227770A (zh) 一种智能化的新闻网页信息抽取方法
CN105183730B (zh) 网页信息的处理方法和装置
CN110020296A (zh) 一种提取新闻网页正文的方法及装置
CN111061870B (zh) 文章的质量评价方法及装置
CN103942224A (zh) 一种获取网页分块的标注规则的方法及装置
CN113392354B (zh) 一种网页正文解析方法、系统、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716