CN109543126A - 基于块文字占比的网页正文信息提取方法 - Google Patents

基于块文字占比的网页正文信息提取方法 Download PDF

Info

Publication number
CN109543126A
CN109543126A CN201811377444.1A CN201811377444A CN109543126A CN 109543126 A CN109543126 A CN 109543126A CN 201811377444 A CN201811377444 A CN 201811377444A CN 109543126 A CN109543126 A CN 109543126A
Authority
CN
China
Prior art keywords
text
web page
block
label
accounting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811377444.1A
Other languages
English (en)
Other versions
CN109543126B (zh
Inventor
刘婵
唐军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201811377444.1A priority Critical patent/CN109543126B/zh
Publication of CN109543126A publication Critical patent/CN109543126A/zh
Application granted granted Critical
Publication of CN109543126B publication Critical patent/CN109543126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息提取技术,其公开了一种基于块文字占比的网页正文信息提取方法,解决传统技术中的提取方案容易受到HTML是否良构、网页正文和广告文字占比等的影响以及不能兼顾提取准确性和提取效率的问题。该方法包括以下步骤:步骤1、将网页文件读入字符串中,遍历字符串,对其中的字符进行大小写统一处理;步骤2、删除与主题信息无关的标签内容;步骤3、根据标签配对从字符串中取出head和body两部分;步骤4、在head部分中查找并提取网页正文标题字符串;步骤5、进行网页分块;步骤6、清洗无关的内容块;步骤7、计算每个内容块在全文中的占比,并排序;步骤8、进行标题匹配,确定正文块位置;步骤9、从正文块中提取网页正文。

Description

基于块文字占比的网页正文信息提取方法
技术领域
本发明涉及信息提取技术,具体涉及一种基于块文字占比的网页正文信息提取方法。
背景技术
互联网中有大量以HTML形式存储的网页,准确识别与有效提取包含在网页中的正文内容是Web数据挖掘的重要基础工作之一。这些HTML网页中往往包含很多噪音数据,如广告、网站信息、图片、超链接等。用户浏览的网页是经过浏览器处理后的网页,且用户可以通过视觉分块,准确地找到网页正文所在位置。然而,在程序自动处理过程中,网页文档中的噪音数据会严重影响处理效果。因此,研究和探索各种高效、实用的Web网页正文数据提取技术对于Web数据挖掘具有非常重要的意义。
目前有多种网页信息提取技术。文献[1][2]中使用的基于Dom树的网页正文提取技术首先利用开源包处理HTML,更正其中错误或者不规范的地方,根据处理后的较为规范的HTML建立Dom树,然后递归遍历Dom树,在Dom解析树上应用算法来抽取网页正文。这种方法实现简单,准确性较高,但对HTML是否良构要求较高,且树的建立和遍历时空复杂度高。
文献[3]中公开的基于网页聚类的正文信息提取方法中,认为网站内部的网页大多都是由一套相同内容模板生成的。首先基于网页的结构特征对网页进行聚类,然后面向相似网页集合的正文位置特征生成。该方法受到网页结构限制,且聚类算法处理复杂度高,算法参数配置也容易影响提取结果。
文献[4][5]公开的基于视觉的网页正文提取算法中,充分利用网页的框架信息和视觉信息,从用户的观察角度来分析网页的结构,模拟人的眼睛识别语义内容的过程并结合Dom树进行分析。这种方法对于结构较为复杂,正文内容分散的网页可以提高提取的准确性,但算法需要多次迭代,且依赖于浏览器的内核代码,在通用性和可扩展性方面稍有不足。
综上,现有技术中的网页正文信息提取方法,容易受到HTML是否良构、网页正文和广告文字占比等的影响,一些复杂算法在提取准确性提高的同时牺牲了一定的提取效率,及无法兼顾提取准确性和提取效率。
参考文献
[1]周建;汤进;罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化2013(10):229-232.
[2]常红要,朱征宇,陈烨,等.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24).
[3]基于网页聚类的正文信息提取方法王一洲;陈星;戴远飞小型微型计算机系统2018(1):111-115.
[4]沈怡涛.基于视觉特征和文本结构分析的中文网页自动摘要技术研究[D].华东师范大学,2014.
[5]安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010(3):38-41.
发明内容
本发明所要解决的技术问题是:提出一种基于块文字占比的网页正文信息提取方法,解决传统技术中的提取方案容易受到HTML是否良构、网页正文和广告文字占比等的影响以及不能兼顾提取准确性和提取效率的问题。
本发明解决上述技术问题所采用的技术方案是:
基于块文字占比的网页正文信息提取方法,包括以下步骤:
步骤1、将网页文件读入字符串中,遍历字符串,对其中的字符进行大小写统一处理;
步骤2、删除与主题信息无关的标签内容;
步骤3、根据标签配对从字符串中取出head和body两部分;
步骤4、在head部分中查找并提取网页正文标题字符串;
步骤5、进行网页分块;
步骤6、清洗无关的内容块;
步骤7、计算每个内容块在全文中的占比,并排序;
步骤8、进行标题匹配,确定正文块位置;
步骤9、从正文块中提取网页正文。
作为进一步优化,步骤1中,所述对其中的字符进行大小写统一处理,具体为:
对字符串进行遍历,将其中的大写英文字符统一转换为小写英文字符。
作为进一步优化,步骤2中,所述与主题信息无关的标签内容,具体包括:
定义客户端脚本的<script>标签、用于定义HTML文档样式信息的<style>标签、定义文档与外部资源关系的<link>标签和用于注释的<!-->标签等。
作为进一步优化,步骤3中,所述根据标签配对从字符串中取出head和body部分,具体包括:
取标签“<head”和“</head>”之间的所有内容,作为网页的head部分;取标签“<body”和“</body>”之间的所有内容作为网页的body部分。
作为进一步优化,步骤4中,所述在head部分中查找并提取网页正文标题字符串,具体包括:
提取网页标题时,定义常用分隔符号集合R,首先提取<title>标签中的内容,使用常用分隔符号集合对这部分文本进行分割,分割后得到一个字符串数组S,取S中的第一个字符串作为当前网页文档的网页正文标题并存储。
作为进一步优化,步骤5中,所述网页分块的具体方式包括:
将网页文档中每个<div>标签和<table>标签内部的内容作为一个内容块,对各个内容块分别进行存储。
作为进一步优化,步骤6中,所述清洗无关的内容块,具体包括:
将包含常见非正文内容关键词的块从结果集中剔除;计算出各个内容块中中文文本字符数、超链接文本字符数和字符总数,将超链接文本字符数占比大于阈值的块从结果集中剔除。
作为进一步优化,步骤7中,所述计算每个正文块在全文中的占比并排序,具体包括:
对网页文档总的字符数量进行统计,并计算每个内容块中中文文本字符数在整个网页文档字符数中所占比例pn(n=1,2,3...),按比例从高到低对所有内容块进行排序。
作为进一步优化,步骤8中,所述进行标题匹配,确定正文块位置,具体包括:
标题匹配:在对内容块排序后,取内容块列表里中文字符数占比居于前5的内容块,将其内容依次与获取到的网页正文标题字符串进行匹配:假设网页正文标题字符串长度为h1,在网页内容块中查找与网页正文标题匹配的最大公共字符串,此字符串长度为h2,定义网页正文标题相似率为:p=h2/h1;
确定正文块位置:取p的阈值为70%,在中文字符数占比居于前5的内容块中,若只存在一个p>70%的内容块,则取该块作为网页正文内容块;若存在多个p>70%的内容块,说明在网页布局时,使用了多个块级元素嵌套的格式,因此在判定时,取其中pn值较小的一块作为网页正文内容块。
作为进一步优化,步骤9中,所述从正文块中提取网页正文,具体包括:
在确定正文块位置后,对正文块中内容进行分析处理:
使用正则表达式匹配各类型标签,并对不同标签内容按照以下规则进行处理:
对于块级元素标签,以换行符替代;
对于超链接a标签,取其上一级标签,若上一级标签所含所有超链接文本在普通文本中占比不超过50%,则保留超链接标签中的文本,只删除标签,否则将标签及其链接文字均删除;
对于图片img标签,删除标签中所有内容;
对于其它标签,删除标签本身;
完成节点的遍历后,使用正则表达式将取出的正文文本中所有非常规的符号删除,并对换行符进行去重,最终输出网页正文内容,存储于txt格式的文档中。
本发明的有益效果是:
该方法首先对网页文档进行分块,并按网页块文字占比进行排序,结合主题信息确定网页正文内容块,然后根据正文内容块中HTML标记提取正文文字并添加格式控制,对一些广告文字占比大于正文文字占比的情况也能做到精确提取,从而避免受到网页正文和广告文字占比等的影响,对HTML是否良构要求也低;并且,本发明对正文中超链接文本添加判定条件,尽可能减少对超链接的误判,保证正文提取的准确性,具有较强的实用性;此外,由于本发明是基于块文字占比实现正文信息提取,相比基于结构树解析的正文提取方法需要在Dom树的建立和遍历花费较多时间而言,能够极大提高提取效率。
附图说明
图1为本发明的网页正文信息提取方法的具体实现流程图。
具体实施方式
HTML元素中的元素通常可以分为块级元素和内联元素,其中,块级元素通常位于一个独立的行中。在网页布局中,通常使用<div>标签和<table>标签对网页进行分块。
大多数网页的布局方式是将网页分为几个块,各块中集中放置同一类信息,如正文块中放置网页正文信息,导航块中放置链接到网站各功能模块的导航,扩展阅读模块中放置与当前网页相关的网页链接,广告块中放置广告内容等。
在主题型网页中,正文信息是成堆出现的,从视觉上看是处在一个内容块中,称为网页正文内容块。
在网页正文内容块中,正文部分的一大特征为包含网页标题,而正文文字数量在整个网页中的文字数量占比普遍占优。
由此,本发明提出一种基于块文字占比的网页正文信息提取方法,该方法的主要思想是:将网页主体部分划分为多个内容块,对每个内容块中的文字占比进行计算与排序,依据排序结果和从网页头部取得的网页标题信息,获取文字数量占比较大的几个网页块,根据块文字与网页正文标题联合生成标题相似率指标,根据指标确认网页正文所在位置并进行提取。最后根据块中HTML标记提取正文文字并添加格式控制,最终输出一个完整的、纯文本形式的网页正文内容,存储于txt格式的文档中。
在网页正文信息提取时的主要过程包括以下几个部分:
1.网页文档预处理:
首先,是删除其中与主题信息无关的元素,如用于定义客户端脚本的<script>标签、用于定义HTML文档样式信息的<style>标签、定义文档与外部资源关系的<link>标签、用于注释的<!-->标签等。分析HTML文档时,可以使用XML解析包将HTML文档解析为HTMLDom后依次分析其节点,但这种方法对HTML的结构要求较高,且效率较低。为提高分析效率,HTML文档标签的匹配使用正则表达式进行。
然后,将网页划分为head和body两部分,以便后续分别进行分析。
2.获取网页标题:
网页文档的头部描述了文档的各种属性和信息,包括文档的标题、在Web中的位置以及和其他文档的关系等。绝大多数文档头部包含的数据都不会真正作为内容显示给读者。
<title>标签定义文档的标题,它是head部分中唯一必需的元素。除了<title>标签外,其他标签的内容对网页标题的判断均无价值,分析过程中直接忽略。
网页标题是对一个网页的高度概括,一般来说,为了在搜索引擎检索结果中获得排名优势,网页的标题包括网页正文标题、栏目名称和网站信息,它们之间用连接符号相连,如“<title>欧盟将加大埃博拉疫情防控力度--国际--人民网</title>”。也有一些网站直接使用网页正文标题作为网页标题。不论网页标题采用何种格式,大部分情况下网页正文标题部分都是必不可少的,且位于网页标题的开头部分。
提取网页标题时,定义常用分隔符号集合R。首先提取<title>标签中的内容,使用常用分隔符号集合对这部分文本进行分割。分割后得到一个字符串数组S。取S中的第一个字符串作为当前网页文档的网页标题并存储。
3.确定网页正文块:
通过以下几个步骤对网页正文块位置进行确定:
①分块:
将网页文档中每个<div>标签和<table>标签内部的内容作为一个内容块,各个内容块分别进行存储。
②清洗:
将包含常见非正文内容关键词如“版权声明”“相关新闻”“推荐阅读”等的块从结果集中剔除。计算出各个内容块中中文文本字符数、超链接文本字符数和字符总数。将超链接文本字符数占比大于阈值的块从结果集中剔除。
③排序:
对网页文档总的字符数量进行统计,并计算每个内容块中中文文本字符数在整个网页文档字符数中所占比例pn(n=1,2,3...),按比例从高到低对所有内容块进行排序。
④标题匹配:
排序后,取内容块列表里中文字符数占比居于前5的内容块,将其内容依次与获取到的网页正文标题字符串进行匹配。假设网页正文标题字符串长度为h1。在网页内容块中查找与网页正文标题匹配的最大公共字符串,此字符串长度为h2。定义网页正文标题相似率为:p=h2/h1。
⑤确定正文块位置:
取p的阈值为70%,在中文字符数占比居于前5的内容块中,若只存在一个p>70%的内容块,则取该块作为网页正文内容块;若存在多个p>70%的内容块,说明在网页布局时,使用了多个块级元素嵌套的格式,因此在判定时,取其中pn值较小的一块作为网页正文内容块。
4.提取网页正文:
找到网页正文内容块后,对块中内容进行分析处理。使用正则表达式匹配各类型标签,并对不同标签内容按照以下规则进行处理:
①块级元素标签,在网页中,块级元素标签的展示方式为:每个块级元素默认换行,因此,将所有块级元素标签以换行符替代。
②超链接a标签,取其上一级标签,若上一级标签所含所有超链接文本在普通文本中占比不超过50%,则保留超链接标签中的文本,只删除标签,否则将标签及其链接文字均删除。
③图片img标签,本发明的目的是提取网页中的正文文字,因此删除img标签中的所有内容。
④其它标签,删除标签本身。
完成节点的遍历后,使用正则表达式将取出的正文文本中所有非常规的符号删除,并对换行符进行去重,以清除处理块级元素标签时引入的重复换行。最终输出一个完整的、纯文本形式的网页正文内容,存储于txt格式的文档中。
在具体实现上,如图1所示,本发明中的网页正文信息提取方法采用以下步骤:
步骤1、将网页文件读入字符串中,遍历字符串,对其中的字符进行大小写统一处理:
将网页文件web_page.html读入字符串web_page_string中。由于html大小写不敏感,为保证后续处理的一致性,对web_page_string字符串进行遍历,将其中的大写英文字符统一转换为小写英文字符。
步骤2、删除与主题信息无关的标签内容:
与主题信息无关的标签内容主要包含<script>标签、<style>标签、<link>标签、<!-->标签等。例如,删除<script>标签内容时,遍历web_page_string字符串,找到开始标签字符串“<script”和结束标签字符串“</script>”在整个字符串中出现的位置,并在完成遍历后,将所有相邻的开始标签和结束标签,及其中的所有内容删除。循环执行相邻开始和结束标签的删除,直到整个字符串web_page_string中不再包含“<script”和“</script>”字符串为止。
步骤3、根据标签配对从字符串中取出head和body两部分:
网页的head部分,被标签“<head”和“</head>”包围起来,所以取这两个标签之间的所有内容,存储到字符串web_head_string中;同理,网页的body部分,被标签“<body”和“</body>”包围起来,所以取这两个标签之间的所有内容,存储到字符串web_body_string中。
步骤4、在head部分中查找并提取网页正文标题字符串:
字符串web_head_string中,网页正文标题存储在标签“<title”和“</title>”之间。将这部分内容提取出来,存储到字符串web_title_string中。定义常用分隔符号集合R,其中包含常用的标题分割字符串,例如“-”“_”“”等。使用R对字符串web_title_string进行分割。分割后得到一个字符串数组S。取S中的第一个字符串S[0]作为当前网页文档的网页标题并存到web_title_string。
步骤5、进行网页分块:
在web_body_string字符串中从左到右查找字符串“<div”、“</div>”和字符串“<table”、“</table>”所在位置的索引值,并将查到的所有索引值按顺序分别存储到两个二维数组div[2][i]和table[2][j]中,其中,数组第一行存储标签类型,开始标签存储为1,结束标签存储为0;数组第二行存储标签所在位置的索引值。
所有标签匹配完毕后,取二维数组第一行中相邻的1和0所对应的索引值,在body字符串中根据索引值截取字符串,将字符串追加到字符串数组B中。成功得到一个内容块后,删除其在二维数组中对应的列。循环操作直至二维数据为空。此时每个网页的每个块都作为一个元素存储于字符串数组B中。
步骤6、清洗无关的内容块:
本步骤根据两个规则进行清洗:
规则一,建立一个正则表达式匹配规则regexp_keywords,其中包含常见非正文内容关键词如“版权声明”等。遍历网页块字符串数组B,对其中的每个字符串元素,匹配规则regexp_keywords,可以匹配上的网页块从字符串数据B中删除。
规则二,在规则一过滤之后,统计数组B中所有字符总数body_char_num、数组B中每个元素的字符总数block_char_num[n]、数组B中超链接文本字符总数body_a_num、数组B中每个元素的超链接文本字符总数block_a_num[n]、数组B中中文字符总数body_chn_num、数组B中每个元素的中文字符总数block_chn_num[n]。其中,超链接文本的判断规则regexp_a为“<a(.*?)</a>”。定义超链接文本字符数占比a_percent[n]=block_a_num[n]/block_char_num[n]。设定一个超链接文字占比的阈值,假设将阈值设置为80%,将每个a_percent[n]与阈值80%进行对比,若a_percent[n]>80%,将其从字符串数据B中删除。
步骤7、计算每个内容块在全文中的占比,并排序:
由于在第6步中统计了全文中文字符数和每个块的中文字符数,据此计算每个块的中文字符,在全文所占比例chn_percent[n],按比例从高到低对所有内容块进行排序。chn_percent[n]的计算方式如下:
chn_percent[n]=block_chn_num[n]/body_chn_num
步骤8、进行标题匹配,确定正文块位置:
排序后,取p[n]比居于前5的内容块,存到字符串数组C[5],将其内容依次与获取到的网页正文标题字符串web_title_string进行匹配。假设web_title_string长度为h1。在C[n]中查找与web_title_string匹配的最大公共字符串public_title_string,此字符串长度为h2。定义网页正文标题相似率为:title_pub_percent=h2/h1。取title_pub_percent的阈值为70%,在C[5]中,若只存在一个title_pub_percent>70%的元素,则取该块作为网页正文内容块;若存在多个p>70%的内容块,取其中title_pub_percent值较小的一块作为网页正文内容块。将确认出来的正文块C[n]存到字符串main_string中。
步骤9、从正文块中提取网页正文:
使用正则表达式regexp_tag匹配main_string中各类型标签,对不同标签内容按照以下规则进行处理:块级元素标签,如p、h1、div、table等,以换行符替代。超链接a标签,取其上一级标签,若上一级标签所含所有超链接文本在普通文本中占比不超过50%,则保留超链接标签中的文本,只删除标签,否则将标签及其链接文字均删除。删除img标签中的所有内容。其他标签,删除标签本身。完成节点的遍历后,使用正则表达式将取出的正文文本中所有非常规的符号删除,并对换行符进行去重。最终输出一个完整的、纯文本形式的网页正文内容,将处理后的main_string字符串内容存储于txt格式的文档中。
实施例:
分别采用本发明中提出的基于块文字占比的网页正文信息提取方法、基于标记窗的方法、基于结构树解析的正文提取方法三种方案,以百度新闻(http://news.baidu.com/)、新浪新闻(http://news.sina.com.cn/)、搜狐新闻(http://news.sohu.com/)三个网页为起始页,爬取起始页中所有新闻链接指向的新闻网页,经去重等整理工作后作为实验数据集。实验数据集共包含1000个网页,内容涉及新闻、科技、军事、娱乐等多个领域,网页来源包括人民网、法制网、新华网、海外网等几十个网站。多领域和多来源的网页保证了实验数据集中网页的布局和网页细节描述方式的多样化。
三种方案的效果比对:准确率方面,本文提出的基于文字占比的方法提取准确率在97%左右,高于基于标记窗的方法的94%,与基于结构树解析的正文提取方法持平。从提取所需平均时间来看,基于结构树解析的正文提取方法在Dom树的建立和遍历上较为复杂,所需时间较长(平均所需时间260ms),而基于文字占比的方法平均仅需40ms,在提取效率上更具优势。

Claims (10)

1.基于块文字占比的网页正文信息提取方法,其特征在于,包括以下步骤:
步骤1、将网页文件读入字符串中,遍历字符串,对其中的字符进行大小写统一处理;
步骤2、删除与主题信息无关的标签内容;
步骤3、根据标签配对从字符串中取出head和body两部分;
步骤4、在head部分中查找并提取网页正文标题字符串;
步骤5、进行网页分块;
步骤6、清洗无关的内容块;
步骤7、计算每个内容块在全文中的占比,并排序;
步骤8、进行标题匹配,确定正文块位置;
步骤9、从正文块中提取网页正文。
2.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤1中,所述对其中的字符进行大小写统一处理,具体为:
对字符串进行遍历,将其中的大写英文字符统一转换为小写英文字符。
3.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤2中,所述与主题信息无关的标签内容,具体包括:
定义客户端脚本的<script>标签、用于定义HTML文档样式信息的<style>标签、定义文档与外部资源关系的<link>标签和用于注释的<!-->标签等。
4.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤3中,所述根据标签配对从字符串中取出head和body部分,具体包括:
取标签“<head”和“</head>”之间的所有内容,作为网页的head部分;取标签“<body”和“</body>”之间的所有内容作为网页的body部分。
5.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤4中,所述在head部分中查找并提取网页正文标题字符串,具体包括:
提取网页标题时,定义常用分隔符号集合R,首先提取<title>标签中的内容,使用常用分隔符号集合对这部分文本进行分割,分割后得到一个字符串数组S,取S中的第一个字符串作为当前网页文档的网页正文标题并存储。
6.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤5中,所述网页分块的具体方式包括:
将网页文档中每个<div>标签和<table>标签内部的内容作为一个内容块,对各个内容块分别进行存储。
7.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤6中,所述清洗无关的内容块,具体包括:
将包含常见非正文内容关键词的块从结果集中剔除;计算出各个内容块中中文文本字符数、超链接文本字符数和字符总数,将超链接文本字符数占比大于阈值的块从结果集中剔除。
8.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤7中,所述计算每个正文块在全文中的占比并排序,具体包括:
对网页文档总的字符数量进行统计,并计算每个内容块中中文文本字符数在整个网页文档字符数中所占比例pn(n=1,2,3...),按比例从高到低对所有内容块进行排序。
9.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤8中,所述进行标题匹配,确定正文块位置,具体包括:
标题匹配:在对内容块排序后,取内容块列表里中文字符数占比居于前5的内容块,将其内容依次与获取到的网页正文标题字符串进行匹配:假设网页正文标题字符串长度为h1,在网页内容块中查找与网页正文标题匹配的最大公共字符串,此字符串长度为h2,定义网页正文标题相似率为:p=h2/h1;
确定正文块位置:取p的阈值为70%,在中文字符数占比居于前5的内容块中,若只存在一个p>70%的内容块,则取该块作为网页正文内容块;若存在多个p>70%的内容块,说明在网页布局时,使用了多个块级元素嵌套的格式,因此在判定时,取其中pn值较小的一块作为网页正文内容块。
10.如权利要求1所述的基于块文字占比的网页正文信息提取方法,其特征在于,步骤9中,所述从正文块中提取网页正文,具体包括:
在确定正文块位置后,对正文块中内容进行分析处理:
使用正则表达式匹配各类型标签,并对不同标签内容按照以下规则进行处理:
对于块级元素标签,以换行符替代;
对于超链接a标签,取其上一级标签,若上一级标签所含所有超链接文本在普通文本中占比不超过50%,则保留超链接标签中的文本,只删除标签,否则将标签及其链接文字均删除;
对于图片img标签,删除标签中所有内容;
对于其它标签,删除标签本身;
完成节点的遍历后,使用正则表达式将取出的正文文本中所有非常规的符号删除,并对换行符进行去重,最终输出网页正文内容,存储于txt格式的文档中。
CN201811377444.1A 2018-11-19 2018-11-19 基于块文字占比的网页正文信息提取方法 Active CN109543126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811377444.1A CN109543126B (zh) 2018-11-19 2018-11-19 基于块文字占比的网页正文信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811377444.1A CN109543126B (zh) 2018-11-19 2018-11-19 基于块文字占比的网页正文信息提取方法

Publications (2)

Publication Number Publication Date
CN109543126A true CN109543126A (zh) 2019-03-29
CN109543126B CN109543126B (zh) 2022-04-29

Family

ID=65848435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811377444.1A Active CN109543126B (zh) 2018-11-19 2018-11-19 基于块文字占比的网页正文信息提取方法

Country Status (1)

Country Link
CN (1) CN109543126B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688552A (zh) * 2019-06-27 2020-01-14 平安科技(深圳)有限公司 网页正文内容获取方法、装置、计算机设备及存储介质
CN110795933A (zh) * 2019-09-30 2020-02-14 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN111126050A (zh) * 2019-12-25 2020-05-08 杭州安恒信息技术股份有限公司 一种网站标题提取方法、系统及相关设备
CN111428444A (zh) * 2020-03-27 2020-07-17 新华智云科技有限公司 网页信息自动抽取方法
CN111931113A (zh) * 2020-09-16 2020-11-13 深圳壹账通智能科技有限公司 一种数据清洗方法及相关设备
CN111966901A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN114462383A (zh) * 2022-04-12 2022-05-10 江西少科智能建造科技有限公司 建筑图纸设计说明书获取方法、系统、存储介质及设备
CN115238208A (zh) * 2022-06-28 2022-10-25 北京关键科技股份有限公司 一种基于符号特征的数据检索方法及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066269A1 (en) * 2003-09-18 2005-03-24 Fujitsu Limited Information block extraction apparatus and method for Web pages
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
CN102779169A (zh) * 2012-06-27 2012-11-14 江苏新瑞峰信息科技有限公司 一种基于html标签的网页正文提取方法及装置
CN103714176A (zh) * 2014-01-08 2014-04-09 同济大学 基于最大文本密度的网页正文抽取方法
CN105320734A (zh) * 2015-07-14 2016-02-10 中国互联网络信息中心 一种网页核心内容提取方法
CN105574066A (zh) * 2015-10-23 2016-05-11 青岛恒波仪器有限公司 网页正文提取比对方法及其系统
CN106528583A (zh) * 2015-11-14 2017-03-22 孙燕群 一种网页正文提取比对方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066269A1 (en) * 2003-09-18 2005-03-24 Fujitsu Limited Information block extraction apparatus and method for Web pages
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
CN102779169A (zh) * 2012-06-27 2012-11-14 江苏新瑞峰信息科技有限公司 一种基于html标签的网页正文提取方法及装置
CN103714176A (zh) * 2014-01-08 2014-04-09 同济大学 基于最大文本密度的网页正文抽取方法
CN105320734A (zh) * 2015-07-14 2016-02-10 中国互联网络信息中心 一种网页核心内容提取方法
CN105574066A (zh) * 2015-10-23 2016-05-11 青岛恒波仪器有限公司 网页正文提取比对方法及其系统
CN106528583A (zh) * 2015-11-14 2017-03-22 孙燕群 一种网页正文提取比对方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HU MINGSHENG等: "An approach for text extraction from web news page", 《2012 IEEE SYMPOSIUM ON ROBOTICS AND APPLICATIONS》 *
熊子奇等: "基于相似度的中文网页正文提取算法", 《西南科技大学学报》 *
王利等: "基于内容相似度的网页正文提取", 《计算机工程》 *
王少康等: "使用特征文本密度的网页正文提取", 《计算机工程与应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688552A (zh) * 2019-06-27 2020-01-14 平安科技(深圳)有限公司 网页正文内容获取方法、装置、计算机设备及存储介质
CN110795933A (zh) * 2019-09-30 2020-02-14 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN110795933B (zh) * 2019-09-30 2023-10-31 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN111126050B (zh) * 2019-12-25 2023-05-05 杭州安恒信息技术股份有限公司 一种网站标题提取方法、系统及相关设备
CN111126050A (zh) * 2019-12-25 2020-05-08 杭州安恒信息技术股份有限公司 一种网站标题提取方法、系统及相关设备
CN111428444A (zh) * 2020-03-27 2020-07-17 新华智云科技有限公司 网页信息自动抽取方法
CN111428444B (zh) * 2020-03-27 2023-10-20 新华智云科技有限公司 网页信息自动抽取方法
CN111966901A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN111966901B (zh) * 2020-08-17 2021-04-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN111931113A (zh) * 2020-09-16 2020-11-13 深圳壹账通智能科技有限公司 一种数据清洗方法及相关设备
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN112528205B (zh) * 2020-12-22 2021-10-29 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN114462383A (zh) * 2022-04-12 2022-05-10 江西少科智能建造科技有限公司 建筑图纸设计说明书获取方法、系统、存储介质及设备
CN115238208A (zh) * 2022-06-28 2022-10-25 北京关键科技股份有限公司 一种基于符号特征的数据检索方法及设备

Also Published As

Publication number Publication date
CN109543126B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN109543126A (zh) 基于块文字占比的网页正文信息提取方法
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
CN104598577B (zh) 一种网页正文的提取方法
US20050066269A1 (en) Information block extraction apparatus and method for Web pages
US20050267915A1 (en) Method and apparatus for recognizing specific type of information files
CN103544210A (zh) 一种识别网页类型的系统和方法
WO2009026193A2 (en) System and method for search
JPH07325827A (ja) ハイパーテキスト自動生成装置
CN109657114B (zh) 一种抽取网页半结构化数据的方法
CN110970112B (zh) 一种面向营养健康的知识图谱构建方法和系统
CN102567337B (zh) 一种通过链接快速识别网页类型的方法及系统
Doucet et al. Enhancing table of contents extraction by system aggregation
CN109165373B (zh) 一种数据处理方法及装置
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN104346382A (zh) 使用语言查询的文本分析系统和方法
CN101599075B (zh) 汉语缩略语处理方法和装置
JP3594701B2 (ja) キーセンテンス抽出装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
Mohammadzadeh et al. TitleFinder: extracting the headline of news web pages based on cosine similarity and overlap scoring similarity
CN106649767B (zh) 一种网页信息抽取方法及装置
Zhang et al. A Webpage Segmentation Method Based on Node Information Entropy of DOM Tree
CN113434797A (zh) 一种网页信息提取方法及装置
CN113157857A (zh) 面向新闻的热点话题检测方法、装置及设备
Bauer et al. Fiasco: Filtering the internet by automatic subtree classification, osnabruck
Keller et al. GRABEX: A graph-based method for web site block classification and its application on mining breadcrumb trails

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant