CN101727461B - 一种网页的正文抽取方法 - Google Patents

一种网页的正文抽取方法 Download PDF

Info

Publication number
CN101727461B
CN101727461B CN2008102237919A CN200810223791A CN101727461B CN 101727461 B CN101727461 B CN 101727461B CN 2008102237919 A CN2008102237919 A CN 2008102237919A CN 200810223791 A CN200810223791 A CN 200810223791A CN 101727461 B CN101727461 B CN 101727461B
Authority
CN
China
Prior art keywords
node
paragraph
increment
text
subtree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102237919A
Other languages
English (en)
Other versions
CN101727461A (zh
Inventor
郭岩
丁国栋
张刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2008102237919A priority Critical patent/CN101727461B/zh
Publication of CN101727461A publication Critical patent/CN101727461A/zh
Application granted granted Critical
Publication of CN101727461B publication Critical patent/CN101727461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子树与该节点及其子树承载的文本的标点符号的数量的差值,顺序构成增量序列;3)在所述增量序列中查找第一个0值的增量,或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量;4)如果查找到所述增量,则确定该增量的对应节点及其子树所承载的文本是网页的正文;5)如果未查找到所述增量,则确定根节点及其子树所承载的文本是网页的正文。本发明抽取精度高,实现速度快,维护代价低且适应性好。

Description

一种网页的正文抽取方法
技术领域
本发明涉及网络信息抽取技术领域,特别是一种网页的正文抽取方法。
背景技术
网络的飞速发展带来了海量的网络信息,如何抽取所需要的网络信息越来越被人们所关注。网络信息抽取是指从网页这样的半结构化文档中抽取出结构化信息。这些网页往往由服务器端的应用程序自动生成。网络信息抽取而生成的结构化信息为网络挖掘、网络检索等重要网络应用提供了最基础的分析数据。因此,网络信息抽取方法的研究具有非常重要的现实意义。
网络信息抽取的对象可以分为两大类:一类是抽取网页中的特定知识,即特定领域、特定网站、或特定格式的信息,如商品信息等;另一类是抽取网页中的内容,即主题内容或兴趣区域等。本发明的一种网页的正文抽取方法属于后一类。
互联网上的很多网页主要由这几类信息组成:导航信息、网页标题、网页正文、广告信息、版权信息和相关链接等。其中,网页要表达的信息主要集中在网页标题和网页正文中,尤其是网页正文中。因此,信息检索、自动分类、话题跟踪、机器翻译和文本摘要等重要的网络信息处理应用主要关注网页中的标题和正文,尤其是正文。然而,导航信息、广告信息、版权信息和相关链接等噪音信息在很大程度上干扰了网页信息的利用效果。例如,这些噪音信息会影响信息检索的效率、导致信息检索准确率的下降等。因此,如何快速准确地从网页中抽取出正文,去除噪音信息,提高网页的信息质量,已经成为信息检索等重要网络信息处理系统的必不可少的基础工作。
现有网页正文的抽取方法从使用的技术角度可以分为以下几类:
基于包装器的网页正文抽取方法:包装器是一段程序,它根据一定的信息模式识别规则,从特定的信息源中抽取相关内容。由于网页结构的复杂性及不规范性,一个包装器的实现一般只能针对一个信息源。而要处理的网页往往来自大量的不同信息源,如果采用这类方法,包装器的生成和维护代价是巨大的。因此,这类方法对于网页的正文抽取是不合适的。
基于数据挖掘的网页正文抽取方法:这类方法把数据挖掘的一些技术(如决策树、聚类、分类等技术)应用到对网页的正文抽取中。这类方法往往能够获得较高的抽取准确率,但普遍存在着需要人工标注、算法复杂度高的缺点。要处理的网页往往是大规模的,如果采用这类方法,在抽取效率方面往往不能满足需求。
基于统计的网页正文抽取方法:这类方法不需要针对不同的数据源构造不同的包装器,适应性比较好。现有的基于统计的网页正文抽取方法往往采用以下两种思路:
一种思路是:首先将网页中的内容按照一定标准分成若干内容块;然后根据一些启发式信息从所有内容块中识别出真正包含正文的信息块,剔除噪音块。
另一种思路是:首先将网页表达成一棵树,如文档对象模型(documentobject model,DOM)树、标签树、语义DOM树等。然后根据一些启发式信息对树中的噪音节点进行过滤或剪枝,具体的,遍历树中的所有节点,对每个节点用事先预定好的启发式规则(或标准)来衡量,看该节点是否承载正文的节点;如果是,则保留该节点;如果不是,则将该节点标识为噪音节点(表示废除该节点,称为过滤)或从树中砍掉以该节点为根的子树(称为剪枝)。最后树中保留的节点所承载的文本就是要抽取的正文。
采用以上两种思路的基于统计的网页正文抽取方法普遍存在以下不足:
方法中通常需要使用阈值来帮助剔除噪音信息,这就大大削弱了方法的适应性。大多数方法都采用单一阈值,但是,因为要处理的网页往往来自不同的信息源,且这些信息源往往是异构的,所以要想对每个信息源都能获得最好的抽取结果,用单一的阈值显然是不合理的,会影响抽取的精确度。有的方法提供了阈值学习机制,从而能够动态调整阈值,但这显然又增加了整个抽取方法的复杂度,降低了抽取速度。
有的方法为了剔除噪音信息,使用了一些视觉特征,例如字体大小、背景颜色、区域的坐标、位置等。但网页设计的复杂性,加上要处理的网页往往来自不同的信息源,且这些信息源往往是异构的,导致需要人工不断总结调整可利用的具有共性的视觉特征,这就增加了整个抽取方法的复杂度,并且在一定程度上影响了抽取的精度。
大多数方法为了剔除噪音信息,使用了一些网页布局特征(如超文本标记语言(Hypertext Markup Language,HTML)标签等)和内容特征(如文字长度、链接数量、图片数量等)。这些方法未能充分利用网页在结构和内容上的特征。例如有些方法在从树中查找承载正文的节点时,采用对树中的节点进行过滤或剪枝的方案。这样的操作往往没有考虑树中节点之间的组织关系,尤其是承载正文的节点之间的组织关系。由于没有充分利用网页本质上的特征,导致这些方法在对大量不同信息源的大规模数据进行抽取时,无法在抽取精度、抽取速度、方法的适应性、灵活度等方面同时满足实际需求。
发明内容
本发明要解决的技术问题是提供一种网页的正文抽取方法,能够满足处理来自大量不同信息源的大规模数据的实际需求,其抽取精度高、抽取速度快、维护代价极低,方法的适应性、灵活度高。
为实现上述目的,根据本发明的一个方面,提供了一种网页的正文抽取方法,包括下列步骤:
1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;
2)从承载最长段落的节点集合中任选一个节点n1,从所选节点n1回溯至所述DOM树的根节点nm,计算所述所选节点的父节点n2及其子树与所述所选节点n1及其子树承载的文本的标点符号的数量的差值d2,依此类推,直到计算所述根节点及其子树与所述根节点的子节点及其子树承载的文本的标点符号的数量的增量dm,顺序构成增量序列;
3)在所述增量序列中查找第一个0值的增量dp,或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量dq
4)如果查找到所述增量dp或所述增量dq,则确定所述增量dp的对应节点np-1及其子树或所述增量dq的对应节点nq-1及其各自的子树所承载的文本是网页的正文;
5)如果未查找到所述增量dp或所述增量dq,则确定所述根节点nm及其子树所承载的文本是网页的正文。
其中,所述步骤1)包括:
11)对于每个特征节点,由所述特征节点及其子树承载的文本作为当前段落;
12)顺次判断所述特征节点前面的兄弟节点,如果所述前面的兄弟节点是特征节点,将所述前面的兄弟节点及其子树承载的文本合并到当前段落,直到所述前面的兄弟节点不是特征节点;顺次判断所述特征节点后面的兄弟节点,如果所述后面的兄弟节点是特征节点,将所述后面的兄弟节点及其子树承载的文本合并到当前段落,直到所述后面的兄弟节点不是特征节点;
13)统计所述合并后的段落的长度。
其中,所述步骤13)可以包括:
131)判断所述合并后的段落是否包含关键词:“版权所有”或“copyright”;
133)对于不包含所述关键词“版权所有”或“copyright”的所述合并后的段落,统计所述合并后的段落的长度。
其中,所述步骤13)可以包括:
132)判断所述合并后的段落的标点符号数量是否为0;
134)对于标点符号数量不为0的所述合并后的段落,统计所述合并后的段落的长度。
其中,所述步骤13)可以包括:
131)判断所述合并后的段落是否包含关键词:“版权所有”或“copyright”;
132)判断所述合并后的段落的标点符号数量是否为0;
135)对于不包含所述关键词“版权所有”或“copyright”且标点符号数量不为0的所述合并后的段落,统计所述合并后的段落的长度。
其中,所述DOM树的节点具有“已处理”属性,用于标识所述节点是否进行了所述合并段落操作。
其中,所述特征节点是标签名不为“script”和“style”的父节点或标签名为p,br,h1,h2,h3,h4,h5,h6,strong,em,br,b,i,tt,font的节点。
其中,所述标点符号包括:逗号和句号。
其中,所述标点符号是全角格式或半角格式。
本发明充分利用了网页在结构和内容方面的本质特征,抽取精度高;
该特征简单直观,实现速度快;抽取过程无需人工干预,维护代价低;而且适应性好。
附图说明
图1是根据本发明一个具体实施例的网页的正文抽取方法的流程图;
图2是根据本发明一个具体实施例的合并段落步骤的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种网页的正文抽取方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
要抽取的网页承载了很多信息,包括正文标题、正文来源、正文发布时间、正文、作者等信息,以及其他一些噪音信息,如导航信息、广告信息、版权信息和相关链接等。优选的,网页中的诸如导航信息等的噪音信息中标点符号(尤其是逗号和句号)较少甚至没有,而正文信息中的标点符号(尤其是逗号和句号)则较多。例如,新闻网页,包括新闻标题、新闻来源、新闻分布时间、新闻正文和撰写新闻的作者等信息,且在新闻正文中标点符号较多,其它信息部分标点符号则较少。
文档对象模型(DOM)是W3C制定的标准接口规范。可以用DOM模型将一个网页的组织结构描述成一棵树,通常称为DOM树。树中的每个节点是一个对象。DOM树不仅描述了网页的结构,还定义了节点对象的行为。即可以利用对象的方法和属性,方便地对树中的节点和内容作动态操作,如访问、修改、添加和删除等。根据本发明一个具体实施例,基于DOM树对网页进行正文抽取。将一个网页转化成DOM树后,诸如正文的网页中的内容,就包含在树中的一些节点中。当然,诸如导航信息等噪音信息的网页中的其他内容,也包含在一些节点中。
在对根据本发明一个具体实施例的方法做详细说明前,首先对所涉及的相关概念进行说明。
“特征节点”:文本节点的标签名不为“script”和“style”的父节点;或标签名为p,br,h1,h2,h3,h4,h5,h6,strong,em,br,b,i,tt,font的节点。本领域技术人员可以理解上述标签名是标准的HTML标签。
“段落”:若干相邻的互为兄弟的特征节点共同承载的文本。对于任意一个特征节点,可以实行“合并段落”操作,从而获得该特征节点及其子树所承载的文本所属的最大段落。在下文中,将这个最大段落称为“该特征节点相应的段落”。
“正文总节点”:DOM树中存在一个具有如下特征节点,该节点及其子树承载且只承载了正文的所有部分。即除了正文,没有承载其他任何内容(如广告信息等噪音信息等);且该节点的任何子节点及其子树都不能够承载正文的所有部分。
“文本节点集合”:DOM树中存在多个具有如下特征的节点集合:集合中的所有节点为特征节点,且在DOM树中位于同一层,且相邻;即集合中的节点为相邻的兄弟节点;集合中的所有节点共同承载的文本集合是网页内容的一个段落,其可能是正文的一部分,也可能是导航信息等噪音信息的一部分。
“正文初节点集”:在所有的“文本节点集合”中存在一个具有如下特征节点集合,该集合中的所有节点共同承载的段落是正文的一部分;在所有“文本节点集合”各自承载的段落中,“正文初节点集”承载的段落的文本长度最长,也即文本字符数最多。
基于以上概念,根据本发明的一个具体实施例从DOM树中首先找到“正文初节点集”,然后从“正文初节点集”开始回溯,根据启发式规则找到“正文总节点”,继而获得正文。如图1所示,该具体实施例包括如下步骤:
为输入页面建立DOM树,并将DOM树中的所有节点的“已处理”属性置为0。
遍历树中所有节点,当遇到“已处理”属性为0的特征节点时,进行合并段落的操作,获得所有段落。
其中,对一个特征节点实行合并段落的操作具体包括如下13个步骤:
SS1.将该特征节点及其子树承载的文本作为当前段落,将该节点的“已处理”属性置为1;
SS2.考察DOM树中,位于该特征节点前面的兄弟节点是否为特征节点;如果是,则转步骤SS3;否则,转步骤SS4;
SS3.将该兄弟节点及其子树承载的所有文本和当前段落合并,构成一个新的段落,作为当前段落,将该兄弟节点的“已处理”属性置为1,转SS5;
SS4.考察DOM树中,位于该特征节点后面的兄弟节点是否为特征节点,如果是,则转步骤SS6;否则,转步骤SS8;
SS5.继续考察DOM树中,位于该兄弟节点前面的兄弟节点是否为特征节点;如果是,则转步骤SS3;否则,转步骤SS4;
SS6.将该兄弟节点及其子树承载的所有文本和当前的段落合并,构成一个新的段落,作为当前段落,将该兄弟节点的“已处理”属性置为1;
SS7.继续考察DOM树中,位于该兄弟节点后面的兄弟节点是否为特征节点;如果是,则转步骤SS6;否则,转步骤SS8;
SS8.将当前段落作为合并后的段落;
SS9.考察合并后的段落中是否包含关键词:“版权所有”、“Copyright”;若包含,转步骤SS10;否则,转步骤SS11;
SS10.忽略此合并后的段落;转步骤SS13;
SS11.统计合并后的段落中的标点符号数量,其中标点符号包括全角格式或半角格式的逗号和句号,考察统计结果是否为0;如果是,转步骤SS10;否则转步骤SS12;
SS12.统计合并后的段落的文本长度(即字符数);
SS13.合并段落的操作结束。
从所有段落中选择具有最长文本的段落,该段落中的标点符号的数量记为t1;共同承载该段落的所有节点(必定是若干相邻的、且互为兄弟的特征节点)构成“正文初节点集”,从集合中任选一个节点,记为n1
从节点n1开始回溯直至根节点,假设依次找到的祖先节点记为ni,其中i=2,3,...;即nj为nj-1的父节点,其中j=2,3,...;回溯过程中,统计ni及其子树承载的文本中的标点符号的数量,记为ti,其中i=2,3,...;回溯过程中,计算从节点nj-1到nj所承载的文本中标点符号的数量的增量,记为dj=tj-tj-1,其中i=2,3,...;这里设d1=-1;构成增量序列d1d2d3...;
在增量序列d1d2d3...中,找满足以下任一条件的K值:
A)dK为序列中出现的第1个0值;
B)dK为序列中出现的第1个低谷值,即满足以下条件:
d1≤d2≤...≤dK-1,dK-1>dK,且dK≤dK+1
如果找到K值,则将节点nK-1作为“正文总节点”,该节点及其子树所承载的文本即为网页中的正文;否则,将根节点作为“正文总节点”,该根节点及其子树所承载的文本即为网页中的正文。
通过上面对本发明具体实施方式的描述,可见本发明产生的有益技术效果是:
1)本发明充分利用了网页在结构和内容方面的本质特征(如DOM树中“正文总节点”、“正文初节点集”的存在,正文中标点符号多的特点,承载正文的节点之间的组织结构等),从而能够准确地定位到正文,使得抽取的召回率可高达100%,平均准确率可高达95%。从而使本发明在抽取精度方面满足了处理来自大量不同信息源的大规模数据的实际需求。
2)本发明思路直观、简单,抽取过程中使用的都是网页在结构和内容方面最简单、最容易获得的特征,使得抽取的平均速度可高达10页/秒。从而在抽取速度方面满足了处理来自大量不同信息源的大规模数据的实际需求。
3)本发明是全自动的抽取方法,抽取过程中无需人工任何干预,维护代价几乎为零。因此在维护代价方面满足了处理来自大量不同信息源的大规模数据的实际需求。
4)本发明具有良好的适应性,表现如下:
本发明是一种基于统计的网页正文抽取方法,不需要针对不同的数据源构造不同的包装器;
本发明在抽取过程中,使用的网页在结构和内容方面的特征大多与语言无关,这使得本发明的方法能够适应于多种语言,例如中文、英文、德文、法文、俄文等;
本发明的方法没有通过使用阈值来帮助剔除噪音信息,使得本发明的方法有足够的灵活性来处理各种异构信息源的情况;
有些正文中掺杂了过多的图片、链接,使得正文被打碎成片段,不容易被完整地抽取出来。很多正文抽取方法都处理不好这样的情况,本发明的方法采用了合并段落、回溯查找承载正文的节点等策略,从而可以快速而准取地抽取到完整的正文;
很多正文抽取方法都只能处理这样的情况:所有正文都由DOM树中的一个标签为table的节点及其子树所承载。而本发明的方法则没有这样的限制;
有些正文由于过短,不容易从噪音信息中被识别并抽取出来。很多正文抽取方法都处理不好这样的情况,本发明的方法采用了合并段落、利用正文中标点符号的特点过滤噪音信息等策略,可以快速且准确地识别并抽取正文。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (9)

1.一种网页的正文抽取方法,包括下列步骤:
1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;
2)从承载最长段落的节点集合中任选一个节点n1,从所选节点n1回溯至所述DOM树的根节点nm,计算所述所选节点的父节点n2及其子树与所述所选节点n1及其子树承载的文本的标点符号的数量的差值d2,依此类推,直到计算所述根节点及其子树与所述根节点的子节点及其子树承载的文本的标点符号的数量的增量dm,顺序构成增量序列;
3)在所述增量序列中查找第一个0值的增量dp,或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量dq
4)如果查找到所述增量dp或所述增量dq,则确定所述增量dp的对应节点np-1及其子树或所述增量dq的对应节点nq-1及其各自的子树所承载的文本是网页的正文;
5)如果未查找到所述增量dp或所述增量dq,则确定所述根节点nm及其子树所承载的文本是网页的正文。
2.根据权利要求1所述的方法,其特征在于,所述步骤1)包括:
11)对于每个特征节点,由所述特征节点及其子树承载的文本作为当前段落;
12)顺次判断所述特征节点前面的兄弟节点,如果所述前面的兄弟节点是特征节点,将所述前面的兄弟节点及其子树承载的文本合并到当前段落,直到所述前面的兄弟节点不是特征节点;顺次判断所述特征节点后面的兄弟节点,如果所述后面的兄弟节点是特征节点,将所述后面的兄弟节点及其子树承载的文本合并到当前段落,直到所述后面的兄弟节点不是特征节点;
13)统计所述合并后的段落的长度。
3.根据权利要求2所述的方法,其特征在于,所述步骤13)包括:
131)判断所述合并后的段落是否包含指定关键词;
133)对于不包含所述指定关键词的所述合并后的段落,统计所述合并后的段落的长度。
4.根据权利要求2所述的方法,其特征在于,所述步骤13)包括:
132)判断所述合并后的段落的标点符号数量是否为0;
134)对于标点符号数量不为0的所述合并后的段落,统计所述合并后的段落的长度。
5.根据权利要求2所述的方法,其特征在于,所述步骤13)包括:
131)判断所述合并后的段落是否包含指定关键词;
132)判断所述合并后的段落的标点符号数量是否为0;
135)对于不包含所述指定关键词且标点符号数量不为0的所述合并后的段落,统计所述合并后的段落的长度。
6.根据权利要求1所述的方法,其特征在于,所述DOM树的节点具有用于标识所述节点是否进行了所述合并段落操作的属性。
7.根据权利要求1所述的方法,其特征在于,所述特征节点是用于承载文本的节点。
8.根据权利要求1至7任一所述的方法,其特征在于,所述标点符号包括:逗号和句号。
9.根据权利要求8所述的方法,其特征在于,所述标点符号是全角格式或半角格式。
CN2008102237919A 2008-10-13 2008-10-13 一种网页的正文抽取方法 Active CN101727461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102237919A CN101727461B (zh) 2008-10-13 2008-10-13 一种网页的正文抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102237919A CN101727461B (zh) 2008-10-13 2008-10-13 一种网页的正文抽取方法

Publications (2)

Publication Number Publication Date
CN101727461A CN101727461A (zh) 2010-06-09
CN101727461B true CN101727461B (zh) 2012-11-21

Family

ID=42448361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102237919A Active CN101727461B (zh) 2008-10-13 2008-10-13 一种网页的正文抽取方法

Country Status (1)

Country Link
CN (1) CN101727461B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130155463A1 (en) * 2010-07-30 2013-06-20 Jian-Ming Jin Method for selecting user desirable content from web pages
US20130204867A1 (en) * 2010-07-30 2013-08-08 Hewlett-Packard Development Company, Lp. Selection of Main Content in Web Pages
CN102591881B (zh) * 2011-01-17 2017-10-27 腾讯科技(深圳)有限公司 生成标签的方法和装置
CN102890681B (zh) * 2011-07-20 2016-03-09 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN102955796B (zh) * 2011-08-16 2017-06-27 微软技术许可有限责任公司 基于频繁子树来导出记录模板的方法
CN102314520A (zh) * 2011-10-24 2012-01-11 莫雅静 基于统计回溯定位的网页正文提取方法和装置
CN103150307B (zh) * 2011-12-06 2016-02-10 株式会社理光 从网络中查找与主题词相关的名称的方法和设备
CN102591612B (zh) * 2011-12-27 2014-12-03 厦门市美亚柏科信息股份有限公司 一种基于标点连续性的通用网页正文提取方法及其系统
CN103136312B (zh) * 2011-12-27 2016-08-31 北京麦克斯泰科技有限公司 一种新闻网页内容的抽取方法
CN103116592A (zh) * 2012-01-13 2013-05-22 昆山麦克斯泰科技有限公司 一种网页内容的格式化输出方法
CN103853760B (zh) * 2012-12-03 2017-05-03 中国移动通信集团公司 一种网页正文内容提取方法和装置
CN103198118B (zh) * 2013-04-01 2017-06-16 清华大学 一种商品网页回溯方法及系统
CN103530429B (zh) * 2013-11-04 2017-01-18 北京中搜网络技术股份有限公司 一种网页正文抽取的方法
CN103778200B (zh) * 2014-01-09 2017-08-08 中国科学院计算技术研究所 一种报文信息源抽取方法及其系统
CN104951302A (zh) * 2015-06-11 2015-09-30 广州神马移动信息科技有限公司 网页渲染方法及装置
CN105022803B (zh) * 2015-07-01 2018-05-15 广州市万隆证券咨询顾问有限公司 一种提取网页正文内容的方法及系统
CN105354292A (zh) * 2015-10-30 2016-02-24 东莞酷派软件技术有限公司 一种页面输出方法及装置
CN107203527B (zh) * 2016-03-16 2019-06-28 北大方正集团有限公司 新闻网页的正文抽取方法和系统
CN108228676B (zh) 2016-12-22 2021-08-13 腾讯科技(深圳)有限公司 信息抽取方法和系统
CN107229668B (zh) * 2017-03-07 2020-04-21 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置
CN106960057A (zh) * 2017-04-05 2017-07-18 上海威固信息技术有限公司 一种基于信息密度提取网页正文的方法
CN108509469A (zh) * 2017-05-17 2018-09-07 苏州纯青智能科技有限公司 一种基于分块的网页正文信息提取方法
CN109766524B (zh) * 2018-12-28 2022-11-25 重庆邮电大学 一种并购重组类公告信息抽取方法及系统
CN112667874A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 网页的数据抽取方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100442278C (zh) * 2003-09-18 2008-12-10 富士通株式会社 网页信息块提取方法和装置
CN101035128B (zh) * 2007-04-18 2010-04-21 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN101197849B (zh) * 2007-12-21 2012-10-03 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法

Also Published As

Publication number Publication date
CN101727461A (zh) 2010-06-09

Similar Documents

Publication Publication Date Title
CN101727461B (zh) 一种网页的正文抽取方法
CN101361063B (zh) 支持基于规则的文档内容挖掘的系统与方法
US8255793B2 (en) Automatic visual segmentation of webpages
US20150067476A1 (en) Title and body extraction from web page
WO2017113645A1 (zh) 信息提取方法和装置
CN104598577B (zh) 一种网页正文的提取方法
CN109543126B (zh) 基于块文字占比的网页正文信息提取方法
US20090248707A1 (en) Site-specific information-type detection methods and systems
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN103544210A (zh) 一种识别网页类型的系统和方法
CN101251855A (zh) 一种互联网网页清洗方法、系统及设备
CN102663023A (zh) 一种提取网页内容的实现方法
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN103714176A (zh) 基于最大文本密度的网页正文抽取方法
CN110390038A (zh) 基于dom树的页面分块方法、装置、设备及存储介质
CN101246494A (zh) 一种互联网网页转换方法、系统及设备
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN104317786A (zh) 一种文本段落切片方法及系统
CN104217036A (zh) 一种网页内容提取方法和设备
CN102117289A (zh) 一种从网页中抽取评论内容的方法和装置
CN103049536A (zh) 提取网页正文内容的方法和系统
CN106777259A (zh) 自适应抽取HTML Table标签中结构化信息的方法及装置
CN115270723A (zh) Pdf文档拆分方法、装置、设备及存储介质
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN101996190B (zh) 一种从网页中抽取信息的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Guo Yan

Inventor after: Ding Guodong

Inventor after: Zhang Gang

Inventor after: Cheng Xueqi

Inventor before: Guo Yan

Inventor before: Ding Guodong

Inventor before: Zhang Gang

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: GUO YAN DING GUODONG ZHANG GANG TO: GUO YAN DING GUODONG ZHANG GANG CHENG XUEQI

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20100609

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Method for extracting content of web page

Granted publication date: 20121121

License type: Common License

Record date: 20180807