CN105022803B - 一种提取网页正文内容的方法及系统 - Google Patents

一种提取网页正文内容的方法及系统 Download PDF

Info

Publication number
CN105022803B
CN105022803B CN201510381617.7A CN201510381617A CN105022803B CN 105022803 B CN105022803 B CN 105022803B CN 201510381617 A CN201510381617 A CN 201510381617A CN 105022803 B CN105022803 B CN 105022803B
Authority
CN
China
Prior art keywords
webpage
analyzed
source code
html source
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510381617.7A
Other languages
English (en)
Other versions
CN105022803A (zh
Inventor
吴远辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Original Assignee
Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wanlong Securities Advisory Consultants Co Ltd filed Critical Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Priority to CN201510381617.7A priority Critical patent/CN105022803B/zh
Publication of CN105022803A publication Critical patent/CN105022803A/zh
Application granted granted Critical
Publication of CN105022803B publication Critical patent/CN105022803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种提取网页正文内容的方法及系统,该方法包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;S4、对待分析网页的HTML源码进行正文内容抽取。本发明通过对HTML源码逐行比较相同性,从而确定网页的噪音信息行和正文信息行,最后抽取获得网页正文内容,实现方式简单、快速,而且可以取得较高的准确率和完整性,能有效地抽取网页正文信息,可广泛应用于网页正文内容抽取领域中。

Description

一种提取网页正文内容的方法及系统
技术领域
本发明涉及计算机应用和信息抽取领域,特别是一种提取网页正文内容的方法及系统。
背景技术
名词解释:
HTML:Hyper Text Markup Language,超文本标记语言;
PHP:Hypertext Preprocessor,超文本预处理语言;
SSI:Server Side Include,服务器端嵌入;
SHTML:使用SSI的HTML文件扩展名;
JS脚本:全称为javascript,是一种由Netscape的LiveScript发展而来的脚本语言,主要目的是为了解决服务器终端语言遗留的速度问题;
CSS样式:层叠样式表,一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言;
meta标签:在网页的HTML源代码中,位于头部,用来描述一个HTML网页文档的属性,例如作者、日期、关键词、网页描述等。
UL/LI:UL、LI是使用CSS布局页面时常用的元素。
随着互联网及其技术的迅猛发展,网络上的信息呈爆炸式增长。网络已经成为人类有史以来最为庞大的数据库,而网页已经成为Internet上最重要的信息资源。很多基于互联网的信息处理工作例如信息搜索、数据挖掘、机器翻译等,是以纯文本格式的信息内容为基础数据开展的而一般做舆情分析、文本挖掘,都会涉及到网页正文内容提取。对于分析、挖掘而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相关的部分剔除。但是,在目前的互联网环境下,HTML是当前WEB上数据存在的主要格式,而HTML着重于数据的表现,HTML标签不带有语义,缺乏对数据的描述。将一个HTML形式的信息转换成有利用价值的文本格式信息,方便后续的信息处理,是极为关键的技术问题。一个web网页中的内容除了包括与主题有关的正文信息以外,还存在一些与主题无关的导航链接、广告链接和版权声明等噪音信息,这些噪音增加了正文内容的自动抽取难度。
目前,关于网页正文提取从大方向上主要可分为基于包装器的方法、网页视觉特征分块的方法两类。一、基于包装器的方法:利用包装器提取网页正文是一种提出较早,也较为流行的方法,例如网页模板抽取方法。它的原理是通过构建包装器或网页模板规则,将符合规则的信息从网页信息源中提取出来。但是该方法只能针对某一类特定格式信息源,而构建它所需的信息模式识别知识的获取是一个费时费力的工作,在目前的互联网网页越来越多样化和可定制化的趋势下,使用模板解析网页正文往往不能适应新网页的正文抽取,需要人工干预,工作量大,代价很高,这种方法不通用。二、网页视觉特征分块方法:在视觉上,一个HTML网页的页面可以划分为若干个区域,同一个区域内包含相近的内容,我们把一个区域称为一个内容块,然后对内容块进行取舍抽取正文内容。这些内容块中,有的包含了正文内容,而有的则包含着噪音内容,例如广告等。但是这种方法,由于视觉特征的复杂性,很难有一个通用的规则集。除此之外,该算法还需要保存大量的视觉信息,其处理性能随着页面的复杂度急剧下降,面对日益复杂的页面,处理效果往往不能令人满意。
总的来说,现有的方法要么算法流程过于简单,只能针对特定标签的网页风格进行内容提取,工作量大,效率不高;要么算法复杂度过高,对复杂多变的网页,处理效果不理想。
发明内容
为了解决上述的技术问题,本发明的目的是提供一种提取网页正文内容的方法,本发明的目的是提供一种提取网页正文内容的系统。
本发明解决其技术问题所采用的技术方案是:
一种提取网页正文内容的方法,包括:
S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;
S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;
S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;
S4、对待分析网页的HTML源码进行正文内容抽取。
进一步,所述步骤S2,包括:
S21、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
S22、依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
S23、根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。
进一步,所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。
进一步,所述步骤S23,其具体为:
以待分析网页的HTML源码的行数为基准,根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,先遍历每一个不同行,再遍历每一个相同行,进而形成包含对比结果属性的数组。
进一步,所述步骤S3所述根据相同性对比结果,判断待分析网页是否为列表导航网页类型的步骤,其具体为:
获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签后,判断剩余内容中的中文字数是否大于预设的最大中文字数阈值,若是,则判断待分析网页为内容类型页面,反之,判断待分析网页为列表导航网页类型。
进一步,所述步骤S4,包括:
S41、根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
S42、分别对每个文本信息块进行分析并抽取内容信息块;
S43、依序合并内容信息块,并添加段落标记,形成正文内容。
进一步,所述步骤S42,其具体为:
对每个文本信息块,判断是否存在某一行的标点符号的数量大于1,或者含有段落标签、表格标签或图像标签,且该行与其下一行的标点符号的总数量大于3、中文总字数大于10或其下一行含有段落标签或图像标签,则将该行到文本信息块的尾部的内容作为内容信息块。
本发明解决其技术问题所采用的另一技术方案是:
一种提取网页正文内容的系统,包括:
加载模块,用于加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;
行对比模块,用于按行比较待分析网页和预设对比网页的HTML源码的相同性;
判断模块,用于根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行抽取模块;
抽取模块,用于对待分析网页的HTML源码进行正文内容抽取。
进一步,所述行对比模块,包括:
第一子模块,用于分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
第二子模块,用于依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
第三子模块,用于根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。
进一步,所述抽取模块,包括:
第四子模块,用于根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
第五子模块,用于分别对每个文本信息块进行分析并抽取内容信息块;
第六子模块,用于依序合并内容信息块,并添加段落标记,形成正文内容。
本发明的有益效果是:本发明的一种提取网页正文内容的方法,包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;S4、对待分析网页的HTML源码进行正文内容抽取。本方法通过对HTML源码逐行比较相同性,从而确定网页的噪音信息行和正文信息行,最后抽取获得网页正文内容,实现方式简单、快速,而且可以取得较高的准确率和完整性,能有效地抽取网页正文信息。
本发明的另一有益效果是:一种提取网页正文内容的系统,包括:加载模块,用于加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;行对比模块,用于按行比较待分析网页和预设对比网页的HTML源码的相同性;判断模块,用于根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行抽取模块;抽取模块,用于对待分析网页的HTML源码进行正文内容抽取。本系统通过对HTML源码逐行比较相同性,从而确定网页的噪音信息行和正文信息行,最后抽取获得网页正文内容,实现方式简单、快速,而且可以取得较高的准确率和完整性,能有效地抽取网页正文信息。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明的一种提取网页正文内容的方法的流程图;
图2是本发明的一种提取网页正文内容的方法的步骤S2的详细流程图;
图3是本发明的一种提取网页正文内容的方法的步骤S4的详细流程图。
具体实施方式
参照图1,本发明提供了一种提取网页正文内容的方法,包括:
S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;
S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;
S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;
S4、对待分析网页的HTML源码进行正文内容抽取。
进一步作为优选的实施方式,参照图2,所述步骤S2,包括:
S21、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
S22、依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
S23、根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。
进一步作为优选的实施方式,所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。
进一步作为优选的实施方式,所述步骤S23,其具体为:
以待分析网页的HTML源码的行数为基准,根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,先遍历每一个不同行,再遍历每一个相同行,进而形成包含对比结果属性的数组。
进一步作为优选的实施方式,所述步骤S3所述根据相同性对比结果,判断待分析网页是否为列表导航网页类型的步骤,其具体为:
获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签后,判断剩余内容中的中文字数是否大于预设的最大中文字数阈值,若是,则判断待分析网页为内容类型页面,反之,判断待分析网页为列表导航网页类型。
进一步作为优选的实施方式,参照图3,所述步骤S4,包括:
S41、根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
S42、分别对每个文本信息块进行分析并抽取内容信息块;
S43、依序合并内容信息块,并添加段落标记,形成正文内容。
进一步作为优选的实施方式,所述步骤S42,其具体为:
对每个文本信息块,判断是否存在某一行的标点符号的数量大于1,或者含有段落标签、表格标签或图像标签,且该行与其下一行的标点符号的总数量大于3、中文总字数大于10或其下一行含有段落标签或图像标签,则将该行到文本信息块的尾部的内容作为内容信息块。
本发明还提供了一种提取网页正文内容的系统,包括:
加载模块,用于加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;
行对比模块,用于按行比较待分析网页和预设对比网页的HTML源码的相同性;
判断模块,用于根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行抽取模块;
抽取模块,用于对待分析网页的HTML源码进行正文内容抽取。
进一步作为优选的实施方式,所述行对比模块,包括:
第一子模块,用于分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
第二子模块,用于依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
第三子模块,用于根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。
进一步作为优选的实施方式,所述抽取模块,包括:
第四子模块,用于根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
第五子模块,用于分别对每个文本信息块进行分析并抽取内容信息块;
第六子模块,用于依序合并内容信息块,并添加段落标记,形成正文内容。
以下结合具体实施例对本发明做详细说明。
实施例一
参照图1,一种提取网页正文内容的方法,包括:
S1、加载待分析网页的HTML源码,记为HTML_1,同时加载预设对比网页的HTML源码,记为HTML_0。
其中,一个包含有HTML源码的HTML文件,也可以是PHP、SHTML文件等,例如,打开任意一个网页,右键点击“查看网页源代码”,则显示该网页的页面的HTML源码。HTML源码一般是由外部爬虫功能提供的。
S2、按行比较待分析网页和预设对比网页的HTML源码的相同性,即按行比较HTML_1和HTML_0的相同性,参照图2,本步骤包括步骤S21~S23:
S21、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;即分别对HTML_0、HTML_1的源码去除掉与正文无关的噪音信息,正文无关的噪音信息包括JS脚本、CSS样式、meta标签、注释以及UL/LI等列表型标签;
S22、依次对比待分析网页和预设对比网页的HTML源码的每一行,标志出它们的相同内容的行以及不同内容的行,并标记每行的对比结果属性为相同或不同;例如标志不同之处在HTML_1中的起始行、在HTML_0中的起始行等;
S23、根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组;提供给后续操作步骤使用。本步骤具体为:
以待分析网页的HTML源码的行数为基准,根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,先遍历每一个不同行,再遍历余下的每一个相同行,进而形成包含对比结果属性的数组。
S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;
根据相同性对比结果,判断待分析网页是否为列表导航网页类型的步骤,其具体为:
获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签(即<A>标签)后,判断剩余内容中的中文字数是否大于预设的最大中文字数阈值,若是,则判断待分析网页为内容类型页面,反之,判断待分析网页为列表导航网页类型。
S4、对待分析网页的HTML源码进行正文内容抽取,参照图3,本步骤包括步骤S41~S43:
S41、根据相同性对比结果,依序分别将待分析网页的HTML源码HTML_1中的连续不同行生成文本信息块,获得文本信息块数组;例如HTML_1中第4、5、6行的对比结果属性都被标记为不同,则将这三行生成文本信息块。
S42、分别对每个文本信息块进行分析并抽取内容信息块,具体为:对每个文本信息块,判断是否存在某一行的标点符号的数量大于阈值1,或者含有段落标签、表格标签或图像标签(<p>、</p>、<td>、</td>、<img>等标签),且该行与其下一行的标点符号的总数量大于阈值3、中文总字数大于10或其下一行含有段落标签(p标签)或图像标签(img标签),则将该行到文本信息块的尾部的内容作为内容信息块;
S43、依序合并内容信息块,并添加段落标记,形成正文内容。
本方法通过对HTML源码逐行比较相同性,从而确定网页的噪音信息行和正文信息行,最后抽取获得网页正文内容,实现方式简单、快速,而且可以取得较高的准确率和完整性,能有效地抽取网页正文信息。不需要针对目标网页群进行配置抽取模板,节省维护成本。
实施例二
本实施例是与实施例一一一对应的软系统:
一种提取网页正文内容的系统,包括:
加载模块,用于加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;
行对比模块,用于按行比较待分析网页和预设对比网页的HTML源码的相同性;
判断模块,用于根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行抽取模块;
抽取模块,用于对待分析网页的HTML源码进行正文内容抽取。
行对比模块,包括:
第一子模块,用于分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
第二子模块,用于依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
第三子模块,用于根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。
抽取模块,包括:
第四子模块,用于根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
第五子模块,用于分别对每个文本信息块进行分析并抽取内容信息块;
第六子模块,用于依序合并内容信息块,并添加段落标记,形成正文内容。
本系统通过对HTML源码逐行比较相同性,从而确定网页的噪音信息行和正文信息行,最后抽取获得网页正文内容,实现方式简单、快速,而且可以取得较高的准确率和完整性,能有效地抽取网页正文信息。不需要针对目标网页群进行配置抽取模板,节省维护成本。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (6)

1.一种提取网页正文内容的方法,其特征在于,包括:
S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;
S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;
S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;
S4、对待分析网页的HTML源码进行正文内容抽取;
所述步骤S2,包括S21~S23:
S21、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
S22、依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
S23、根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组;
所述步骤S4,包括:
S41、根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
S42、分别对每个文本信息块进行分析并抽取内容信息块;
S43、依序合并内容信息块,并添加段落标记,形成正文内容。
2.根据权利要求1所述的一种提取网页正文内容的方法,其特征在于,所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。
3.根据权利要求1所述的一种提取网页正文内容的方法,其特征在于,所述步骤S23,其具体为:
以待分析网页的HTML源码的行数为基准,根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,先遍历每一个不同行,再遍历每一个相同行,进而形成包含对比结果属性的数组。
4.根据权利要求1所述的一种提取网页正文内容的方法,其特征在于,所述步骤S3所述根据相同性对比结果,判断待分析网页是否为列表导航网页类型的步骤,其具体为:
获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签后,判断剩余内容中的中文字数是否大于预设的最大中文字数阈值,若是,则判断待分析网页为内容类型页面,反之,判断待分析网页为列表导航网页类型。
5.根据权利要求1所述的一种提取网页正文内容的方法,其特征在于,所述步骤S42,其具体为:
对每个文本信息块,判断是否存在某一行的标点符号的数量大于1,或者含有段落标签、表格标签或图像标签,且该行与其下一行的标点符号的总数量大于3、中文总字数大于10或其下一行含有段落标签或图像标签,则将该行到文本信息块的尾部的内容作为内容信息块。
6.一种提取网页正文内容的系统,其特征在于,包括:
加载模块,用于加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;
行对比模块,用于按行比较待分析网页和预设对比网页的HTML源码的相同性;
判断模块,用于根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行抽取模块;
抽取模块,用于对待分析网页的HTML源码进行正文内容抽取; 所述行对比模块,包括:
第一子模块,用于分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
第二子模块,用于依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
第三子模块,用于根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组;
所述抽取模块,包括:
第四子模块,用于根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
第五子模块,用于分别对每个文本信息块进行分析并抽取内容信息块;
第六子模块,用于依序合并内容信息块,并添加段落标记,形成正文内容。
CN201510381617.7A 2015-07-01 2015-07-01 一种提取网页正文内容的方法及系统 Active CN105022803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510381617.7A CN105022803B (zh) 2015-07-01 2015-07-01 一种提取网页正文内容的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510381617.7A CN105022803B (zh) 2015-07-01 2015-07-01 一种提取网页正文内容的方法及系统

Publications (2)

Publication Number Publication Date
CN105022803A CN105022803A (zh) 2015-11-04
CN105022803B true CN105022803B (zh) 2018-05-15

Family

ID=54412773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510381617.7A Active CN105022803B (zh) 2015-07-01 2015-07-01 一种提取网页正文内容的方法及系统

Country Status (1)

Country Link
CN (1) CN105022803B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309392A (zh) * 2019-03-21 2019-10-08 广州国音智能科技有限公司 一种获取网页正文内容的方法和相关装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106855859B (zh) * 2015-12-08 2020-11-10 北京搜狗科技发展有限公司 一种网页正文提取方法及装置
CN105868363B (zh) * 2016-03-29 2018-12-14 中国农业银行股份有限公司 一种基于模糊逻辑的网页页面正文抽取方法及系统
CN106503211B (zh) * 2016-11-03 2019-12-17 福州大学 面向信息发布类网站的移动版自动生成的方法
CN110020042B (zh) * 2017-08-25 2021-09-10 杭州海康威视数字技术股份有限公司 一种基于网页的图像获取方法及装置
CN110020283A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 一种文本显示方法及装置
CN108090123A (zh) * 2017-11-10 2018-05-29 深圳市华阅文化传媒有限公司 净化网络小说页面的方法与装置
CN108021952A (zh) * 2017-12-29 2018-05-11 广州品唯软件有限公司 一种多格式文本对比方法及装置
CN109409091B (zh) * 2018-09-28 2021-11-19 深信服科技股份有限公司 检测Web页面的方法、装置、设备以及计算机存储介质
CN110795933B (zh) * 2019-09-30 2023-10-31 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN110837614A (zh) * 2019-11-05 2020-02-25 上海嘉道信息技术有限公司 一种高效地生成网页信息抽取规则的方法及系统
CN114462393A (zh) * 2022-04-12 2022-05-10 安徽数智建造研究院有限公司 网页文本信息提取方法及装置、终端设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1786965A (zh) * 2005-12-21 2006-06-14 北大方正集团有限公司 一种新闻网页正文信息的提取方法
CN101727461A (zh) * 2008-10-13 2010-06-09 中国科学院计算技术研究所 一种网页的正文抽取方法
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统
CN103699591A (zh) * 2013-12-11 2014-04-02 湖南大学 一种基于示例页面的网页正文提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094194B (zh) * 2006-06-19 2010-06-23 腾讯科技(深圳)有限公司 一种提取Web页面中用户所需Web信息的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1786965A (zh) * 2005-12-21 2006-06-14 北大方正集团有限公司 一种新闻网页正文信息的提取方法
CN101727461A (zh) * 2008-10-13 2010-06-09 中国科学院计算技术研究所 一种网页的正文抽取方法
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统
CN103699591A (zh) * 2013-12-11 2014-04-02 湖南大学 一种基于示例页面的网页正文提取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309392A (zh) * 2019-03-21 2019-10-08 广州国音智能科技有限公司 一种获取网页正文内容的方法和相关装置

Also Published As

Publication number Publication date
CN105022803A (zh) 2015-11-04

Similar Documents

Publication Publication Date Title
CN105022803B (zh) 一种提取网页正文内容的方法及系统
Wang et al. Bootstrapping both product features and opinion words from chinese customer reviews with cross-inducing
Sidorov et al. Syntactic dependency-based n-grams as classification features
Sun et al. Dom based content extraction via text density
CN102663023B (zh) 一种提取网页内容的实现方法
US7958444B2 (en) Visualizing document annotations in the context of the source document
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN109543126B (zh) 基于块文字占比的网页正文信息提取方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN110991171B (zh) 敏感词检测方法及装置
US20200004792A1 (en) Automated website data collection method
CN102609427A (zh) 舆情垂直搜索分析系统及方法
US9449114B2 (en) Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection
CN104199871A (zh) 一种用于智慧教学的高速化试题导入方法
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
US20240126827A1 (en) Transferable Neural Architecture for Structured Data Extraction From Web Documents
Luo et al. Web article extraction for web printing: a dom+ visual based approach
KR20210098813A (ko) 텍스트 데이터 수집과 분석 장치 및 방법
Munot et al. Conceptual framework for abstractive text summarization
CN108132919A (zh) 一种网页内容抽取的方法
Rae et al. Main Content Detection in HTML Journal Articles
Jiang et al. Noise reduction of web pages via feature analysis
Zhou et al. Efficient web page main text extraction towards online news analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant