CN103714176A - 基于最大文本密度的网页正文抽取方法 - Google Patents

基于最大文本密度的网页正文抽取方法 Download PDF

Info

Publication number
CN103714176A
CN103714176A CN201410007832.6A CN201410007832A CN103714176A CN 103714176 A CN103714176 A CN 103714176A CN 201410007832 A CN201410007832 A CN 201410007832A CN 103714176 A CN103714176 A CN 103714176A
Authority
CN
China
Prior art keywords
text
label
webpage
piece
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410007832.6A
Other languages
English (en)
Inventor
蒋昌俊
陈闳中
闫春钢
丁志军
王鹏伟
何源
夏琳娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201410007832.6A priority Critical patent/CN103714176A/zh
Publication of CN103714176A publication Critical patent/CN103714176A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于最大文本密度的网页正文提取方法,其具体步骤如下:步骤一、网页预处理:处理字符编码、网页规范化;步骤二、将网页解析成一棵DOM树,并根据特定标签,将网页中的“标签文本块”抽取出来;步骤三,计算最大文本密度;步骤四,抽取正文;待所有标签文本块都处理完毕后,按照计算出的文本密度进行排序,选取文本密度值最大的标签,此标签及其嵌套的子标签的内容即是正文文本块,去标签之后得到正文文本。本发明是基于统计的使用最大文本密度的网页正文提取算法,其算法复杂度低,具有普适性,而且对于结构复杂的网页也有不错的效果。

Description

基于最大文本密度的网页正文抽取方法
技术领域
本发明涉及基于互联网的信息处理, 为网络信息抽取及应用。
背景技术
随着时代的发展,万维网已经成为人们获取信息的一个重要来源。用户通常使用浏览器直接查看网页,此外,还有许多基于互联网的信息处理工作(如信息搜索、数据挖掘、机器翻译等),也是以网页的信息内容为基础数据来进行开展的。但是,现在互联网上的网页的正文信息经常被广告链接、导航条、版权信息等“网页噪音”所包围。如何准确、高效地提取网页的正文信息已经成为当前网络信息抽取及应用的一个重要课题,具有很高的应用价值和实践意义。
目前,关于网页正文提取的方法主要可以分为基于统计、基于DOM结构、基于网页分块以及基于模版等方法。
基于统计的网页正文抽取方法,通过寻找包含中文字符数量最大的节点,来提取网页正文,实现简单,而且不需要样本学习,能大大提高正文抽取的速度。基于DOM的Web抽取技术,是将网页中某些具有意义的特定标签提取出来,将HTML文档表示成一个DOM树的结构,再根据这些特定标签来提取出树中有效的节点数据。基于网页分块的方法是将呈现给用户的Web页面划分成几个语义块,分析每个块在这个页面的重要程度,来找出网页的正文内容。基于模版的方法是一种传统的网页抽取方法,这种方法使用包装器或网页模版规则将符合规则的信息从网页信息源中提取出来。
针对搜索引擎需要自动生成网页摘要的功能要求,面对互联网中多样化、复杂化、非规范化的网页构成形式,需要一个具有通用性的网页正文提取算法。而已有的上述方法不能够很好的适应这种环境要求。基于统计的方法具有一定的普遍性,但现有的方法准确率有限。基于DOM结构和基于网页分块的方法主要是对HTML标签进行分析,而现在网页趋于复杂化和非规范化,简单地通过HTML语义来解读网页内容在很多情况下不适用。基于模版的方法只能针对某一类特定格式信息源,而构建它所需的信息模式识别知识的获取是一个费时费力的工作,目前互联网网页越来越多样化和可定制化,这种方法不具备通用性。
发明内容
网页是由各式各样的文本构成的,按网页标记划分,有内容文本、脚本文本、锚文本、标签文本等;而内容文本中,从作用上来看, 网页上的文字主要有两种: 正文内容、无关内容。正文内容: 用户浏览一个页面所要获取的主要信息。无关内容: 经常用于标识网站功能的词语,与网页正文内容无关,如“版权”、“声明”、“搜索”、“首页”、“帮助”等。一般我们认为导航条上的文字、相关链接上的文字都属于无关文字。这些不同类型的文本组合在一起,构成了内容丰富的网页,而将这些文字区别开来,分析它们在标签文本块中的比例,就形成了文本密度值。发现,文本密度值对网页正文的提取具有重要意义,利用它们,可以有效地消除网页噪音,精确地识别出正文文本。
本发明的目的在于克服现有技术的不足,更加精准的提取网页正文。通过对大量的网页代码的观察发现,正文文本中往往只包含少量的HTML代码,而噪声文本往往包含大量的超链接,或者是被各种HTML标签分割。根据这种特性,本文提出一种根据文本密度来提取网页正文段的思想。
本发明技术方案表征为:
一种基于最大文本密度的网页正文提取方法,其具体步骤如下:
步骤一、网页预处理:
(1)  处理字符编码
设定编码方式GBK(包含简体中文和繁体中文)、BG2312(简体中文)、BIG-5(繁体中文)、UTF-8,UTF-16、UNICODE。在HTML文档里,编码方式是这样定义的: 
<html> 
   <head>
<meta content=’text/html’; charset=’GBK’>
</head> 
</html> 
 charset属性定义了网页的编码方式。为了防止网页出现乱码, 在网页预处理阶段,将获取的网页文件的默认编码转为UTF-8字符编码,如果不能从网页中获取相关编码信息,就对其进行强制转换为UTF-8字符编码。 
(2)网页规范化
根据HTML文档的基本语法要求,确保关闭打开的标签、所有的属性值必须用双引号括起来、完成特殊字符的转义三种情况。
步骤二、将网页解析成一棵DOM树,并根据特定标签,将网页中的“标签文本块”抽取出来。
(1)定义1(标签文本块)在网页的DOM树中,容器标签如<div>、<table>、<tr>、<td>、<th>、<ul>、<li>、<dl>、<dt>、<dd>、<p>等之间的文本内容(不包含标签本身)成为一个“标签文本块”,标签文本块之间可嵌套,即一个标签文本块内可包含若干个子标签文本块。把含有正文内容的标签文本块称为正文文本块,将不含有正文内容的标签文本块称为噪音文本块。
(2)删除网页中与正文抽取不相关的信息
经过对大量网页的分析后,发现网页的正文部分往往位于<div>、<table>或者<tbody>、<p>等此类标记中,因此,删除网页中与正文抽取不相关的信息如:注释、JavaScript代码等等,以便下一步的提取工作。
(3)对每个标签文本块进行分析,判断其是否属于正文内容文本块。
定义2(文本密度值):在一个标签文本块中,其中的文本在整个标签文本块的长度(包括标签)所占的比值。判断正文文本块的算法中涉及到的文本密度Density,对于一个标签文本块A 来说,它的计算公式可表示为:
Figure 2014100078326100002DEST_PATH_IMAGE002
当遇到正文内容较短情况时,给PlainTextLength赋予更大的权重,得到衍生公式:
Figure 2014100078326100002DEST_PATH_IMAGE004
步骤三,计算最大文本密度:
以递归方式遍历所有标签文本块,对于一个标签文本块来说,只有当它的子文本块全部处理完毕后,才处理本标签文本块。
步骤四,抽取正文:
待所有标签文本块都处理完毕后,按照计算出的文本密度进行排序,选取文本密度值最大的标签,此标签及其嵌套的子标签的内容即是正文文本块,去标签之后得到正文文本。
本发明是基于统计的使用最大文本密度的网页正文提取算法,其算法复杂度低,具有普适性,而且对于结构复杂的网页也有不错的效果。与现有技术相比,本发明技术方案的创新点及其有益效果:
1.在正文抽取中对最大文本密度方法提出新的定义。
2.提出了一个更准确的最大文本密度定义,提高了准确率。
3.能更好的为数据挖掘和摘要生成提供服务。
4.为相关网络信息服务系统实现奠定基础。
附图说明
图1基于最大文本密度的网页正文提取流程示意图。
具体实施方式
如图1所示,基于最大文本密度的网页正文提取方法的具体步骤如下:
1、网页预处理
(1)  字符编码问题
常见的编码方式有GBK(包含简体中文和繁体中文)、BG2312(简体中文)、BIG-5(繁体中文)、UTF-8,UTF-16、UNICODE。在HTML文档里,编码方式是这样定义的: 
<html> 
   <head><meta content=‘text/html’; charset=’GBK’></head> 
</html> 
 charset属性定义了网页的编码方式。为了防止网页出现乱码, 在网页预处理阶段,将获取的网页文件的默认编码转为UTF-8字符编码,如果不能从网页中获取相关编码信息,就尝试对其进行强制转换为UTF-8字符编码。 
(2)网页规范化 
现在有些Web站点上的HTML代码格式是不规范的,这样不利于网页DOM树的形成,所以首先必须进行网页规范化处理。
根据HTML文档的基本语法要求,HTML代码不符合语法及修正常见情况有以下几种: 
第一种:标签没有关闭 
打开的标签必须关闭,例如<p>we are champion<p>,当然还有另一种关闭方式,适用于没有标签体的情况,如:<br/>。 
第二种:属性值没有使用单引号或双引号包含 
例如:<img height=’80’ />,所有的属性值必须用双引号括起来。 
第三种:特殊字符没有转义 
如“<”用“&lt"表示,“>”用“&gt”表示。 
一般我们可以采用过滤软件修复被破坏的结构,并产生一个结构良好的 HTML文档。
2、将网页解析成一棵DOM树,并根据特定标签,将网页中的“标签文本块”抽取出来。
(1)定义1(标签文本块)在网页的DOM树中,容器标签如<div>、<table>、<tr>、<td>、<th>、<ul>、<li>、<dl>、<dt>、<dd>、<p>等之间的文本内容(不包含标签本身)成为一个“标签文本块”,标签文本块之间可嵌套,即一个标签文本块内可包含若干个子标签文本块。把含有正文内容的标签文本块称为正文文本块,将不含有正文内容的标签文本块称为噪音文本块。
(2)删除网页中与正文抽取不相关的信息
经过对大量网页的分析后,发现网页的正文部分往往位于<div>、<table>或者<tbody>、<p>等此类标记中,因此,删除网页中与正文抽取不相关的信息如:注释、JavaScript代码等等,以便下一步的提取工作。
(3)对每个标签文本块进行分析,判断其是否属于正文内容文本块。
基于对各类网页的观察和分析,有如下结论:
定义2(文本密度值):在一个标签文本块中,其中的文本在整个标签文本块的长度(包括标签)所占的比值。
a)      广告、友情链接、目录以及导航等的“网页噪音”往往以“超级链接
(Hyperlinks)”的形式存在,且与正文内容分属不同的标签文本块;而正文内容中则很少出现大段连续的超级链接,即使在信息互相引用较多的维基百科(Wikipedia)上,正文内容中的超级链接也不会占到很大比例。可以认为,在一个标签文本块的文字内容中,标签文本块中文字内容所占的比例越大,则该标签文本块中的文字内容属于正文文本块的几率就越大。
b)      在一个网页上,无关文本用来表示功能或提示,无关文本通常字数较少,,且与正文文本分属不同的标签文本块,且无关文本的长度在包含它的标签文本块的总长度中所占的比例也比较小。可以认为,在一个文本块中,文本密度值越大,该文本块属于正文文本块的几率就越大。
根据以上结论,判断正文文本块的算法中涉及到的文本密度Density,对于一个标签文本块A 来说,它的计算公式可表示为:
Figure DEST_PATH_IMAGE002A
在实验中发现,公式(1)大部分情况下对正文的描述能力较好,但是当遇到正文内容较短情况时,标签长度对Density有较大干扰,因此尝试给PlainTextLength赋予更大的权重,得到衍生公式:
Figure DEST_PATH_IMAGE004A
通过实验发现,
Figure 2014100078326100002DEST_PATH_IMAGE006
对网页正文能较好描述。
计算最大文本密度的方法:以递归方式遍历所有标签文本块,对于一个标签文本块来说,只有当它的子文本块全部处理完毕后,才处理本标签文本块。

Claims (1)

1.一种基于最大文本密度的网页正文提取方法,其具体步骤如下:
步骤一、网页预处理:
处理字符编码
设定编码方式GBK、BG2312、BIG-5、UTF-8、UTF-16、UNICODE;在HTML文档里,编码方式是这样定义的: 
<html> 
   <head>
<meta content=’text/html’; charset=’GBK’>
</head> 
</html> 
 charset属性定义了网页的编码方式; 在网页预处理阶段,将获取的网页文件的默认编码转为UTF-8字符编码; 
(2)网页规范化
根据HTML文档的基本语法要求,确保关闭打开的标签、所有的属性值用双引号括起来、完成特殊字符的转义三种情况;
步骤二、将网页解析成一棵DOM树,并根据特定标签,将网页中的“标签文本块”抽取出来;
(1)定义1成为一个“标签文本块”,标签文本块之间可嵌套,即一个标签文本块内可包含若干个子标签文本块;把含有正文内容的标签文本块称为正文文本块,将不含有正文内容的标签文本块称为噪音文本块;
(2)删除网页中与正文抽取不相关的信息
(3)对每个标签文本块进行分析,判断其是否属于正文内容文本块;
定义2文本密度值:在一个标签文本块中,其中的文本在整个标签文本块的长度(包括标签)所占的比值;判断正文文本块的算法中涉及到的文本密度Density,对于一个标签文本块A 来说,它的计算公式表示为:
Figure 2014100078326100001DEST_PATH_IMAGE002
当遇到正文内容较短情况时,给PlainTextLength赋予更大的权重,得到衍生公式:
Figure 2014100078326100001DEST_PATH_IMAGE004
步骤三,计算最大文本密度:
以递归方式遍历所有标签文本块,对于一个标签文本块来说,只有当它的子文本块全部处理完毕后,才处理本标签文本块;
步骤四,抽取正文:
待所有标签文本块都处理完毕后,按照计算出的文本密度进行排序,选取文本密度值最大的标签,此标签及其嵌套的子标签的内容即是正文文本块,去标签之后得到正文文本。
CN201410007832.6A 2014-01-08 2014-01-08 基于最大文本密度的网页正文抽取方法 Pending CN103714176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410007832.6A CN103714176A (zh) 2014-01-08 2014-01-08 基于最大文本密度的网页正文抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410007832.6A CN103714176A (zh) 2014-01-08 2014-01-08 基于最大文本密度的网页正文抽取方法

Publications (1)

Publication Number Publication Date
CN103714176A true CN103714176A (zh) 2014-04-09

Family

ID=50407151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410007832.6A Pending CN103714176A (zh) 2014-01-08 2014-01-08 基于最大文本密度的网页正文抽取方法

Country Status (1)

Country Link
CN (1) CN103714176A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268192A (zh) * 2014-09-20 2015-01-07 广州金山网络科技有限公司 一种网页信息提取方法、装置及终端
CN105095466A (zh) * 2015-07-31 2015-11-25 山东大学 一种web文本信息抽取方法
CN106407291A (zh) * 2016-08-29 2017-02-15 达而观信息科技(上海)有限公司 基于超链文本密度算法的一种页面类型识别方法
CN106951401A (zh) * 2017-03-14 2017-07-14 深圳市茁壮网络股份有限公司 一种文档正文识别方法及装置
CN107203527A (zh) * 2016-03-16 2017-09-26 北大方正集团有限公司 新闻网页的正文抽取方法和系统
CN107391559A (zh) * 2017-06-08 2017-11-24 广东工业大学 基于块、模式识别及行文本的通用论坛正文提取算法
CN108897883A (zh) * 2018-07-06 2018-11-27 龙马智芯(珠海横琴)科技有限公司 网站的页面主体的确定方法及装置
CN108959372A (zh) * 2018-05-23 2018-12-07 中译语通科技股份有限公司 面向新闻网页的正文抽取方法及系统、信息数据处理终端
CN109543126A (zh) * 2018-11-19 2019-03-29 四川长虹电器股份有限公司 基于块文字占比的网页正文信息提取方法
CN110020296A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种提取新闻网页正文的方法及装置
CN110390038A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质
CN110390037A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN110968807A (zh) * 2018-09-27 2020-04-07 北京国双科技有限公司 网页正文的提取方法及装置
CN111651694A (zh) * 2020-05-21 2020-09-11 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN111831948A (zh) * 2019-04-18 2020-10-27 阿里巴巴集团控股有限公司 网页类型的检测方法、装置及计算机设备
CN111966901A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN113537091A (zh) * 2021-07-20 2021-10-22 东莞市盟大塑化科技有限公司 网页正文的识别方法、装置、电子设备及存储介质
CN114201700A (zh) * 2021-12-10 2022-03-18 北京金堤科技有限公司 网页正文获取方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810097A (zh) * 2011-06-02 2012-12-05 高德软件有限公司 网页正文内容提取方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810097A (zh) * 2011-06-02 2012-12-05 高德软件有限公司 网页正文内容提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔胜等: "一种基于正文特征的新闻网页抽取方法", 《情报杂志》 *
王少康等: "使用特征文本密度的网页正文提取", 《计算机工程与应用》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268192B (zh) * 2014-09-20 2018-08-07 广州猎豹网络科技有限公司 一种网页信息提取方法、装置及终端
CN104268192A (zh) * 2014-09-20 2015-01-07 广州金山网络科技有限公司 一种网页信息提取方法、装置及终端
CN105095466A (zh) * 2015-07-31 2015-11-25 山东大学 一种web文本信息抽取方法
CN107203527A (zh) * 2016-03-16 2017-09-26 北大方正集团有限公司 新闻网页的正文抽取方法和系统
CN107203527B (zh) * 2016-03-16 2019-06-28 北大方正集团有限公司 新闻网页的正文抽取方法和系统
CN106407291A (zh) * 2016-08-29 2017-02-15 达而观信息科技(上海)有限公司 基于超链文本密度算法的一种页面类型识别方法
CN106951401A (zh) * 2017-03-14 2017-07-14 深圳市茁壮网络股份有限公司 一种文档正文识别方法及装置
CN107391559A (zh) * 2017-06-08 2017-11-24 广东工业大学 基于块、模式识别及行文本的通用论坛正文提取算法
CN107391559B (zh) * 2017-06-08 2020-06-02 广东工业大学 基于块、模式识别及行文本的通用论坛正文提取算法
CN110020296A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种提取新闻网页正文的方法及装置
CN108959372A (zh) * 2018-05-23 2018-12-07 中译语通科技股份有限公司 面向新闻网页的正文抽取方法及系统、信息数据处理终端
CN108897883A (zh) * 2018-07-06 2018-11-27 龙马智芯(珠海横琴)科技有限公司 网站的页面主体的确定方法及装置
CN110968807A (zh) * 2018-09-27 2020-04-07 北京国双科技有限公司 网页正文的提取方法及装置
CN109543126A (zh) * 2018-11-19 2019-03-29 四川长虹电器股份有限公司 基于块文字占比的网页正文信息提取方法
CN109543126B (zh) * 2018-11-19 2022-04-29 四川长虹电器股份有限公司 基于块文字占比的网页正文信息提取方法
CN111831948A (zh) * 2019-04-18 2020-10-27 阿里巴巴集团控股有限公司 网页类型的检测方法、装置及计算机设备
CN110390038A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质
CN110390038B (zh) * 2019-07-25 2021-10-15 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质
CN110390037B (zh) * 2019-07-25 2021-12-03 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN110390037A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN111651694A (zh) * 2020-05-21 2020-09-11 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN111651694B (zh) * 2020-05-21 2023-09-29 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN111966901A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN111966901B (zh) * 2020-08-17 2021-04-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN113537091A (zh) * 2021-07-20 2021-10-22 东莞市盟大塑化科技有限公司 网页正文的识别方法、装置、电子设备及存储介质
CN113537091B (zh) * 2021-07-20 2024-05-03 东莞盟大集团有限公司 网页正文的识别方法、装置、电子设备及存储介质
CN114201700A (zh) * 2021-12-10 2022-03-18 北京金堤科技有限公司 网页正文获取方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN103714176A (zh) 基于最大文本密度的网页正文抽取方法
CN104598577B (zh) 一种网页正文的提取方法
CN102253979B (zh) 基于视觉的web页面萃取方法
CN102541874B (zh) 网页正文内容提取方法及装置
CN103927397B (zh) 一种基于区块树的Web页面链接块的识别方法
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN105630941A (zh) 基于统计和网页结构的Web正文内容抽取方法
US20070094232A1 (en) System and method for automatically extracting by-line information
CN101727461A (zh) 一种网页的正文抽取方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN103064827A (zh) 一种网页内容抽取的方法及装置
CN105022803A (zh) 一种提取网页正文内容的方法及系统
CN103064845B (zh) 网页信息处理装置和网页信息处理方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN103838796A (zh) 一种网页结构化信息抽取方法
CN103810251A (zh) 一种文本提取方法及装置
CN106339455A (zh) 基于文本标签特征挖掘的网页正文提取方法
CN104268283A (zh) 一种自动解析互联网网页的方法
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN104317845A (zh) 一种深度网络数据自动抽取方法及系统
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN103942211A (zh) 一种正文页的识别方法及装置
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
CN105740355A (zh) 基于聚集文本密度的网页正文提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140409

RJ01 Rejection of invention patent application after publication