CN111046302A - 一种网页内容提取的方法及装置 - Google Patents
一种网页内容提取的方法及装置 Download PDFInfo
- Publication number
- CN111046302A CN111046302A CN201911388946.9A CN201911388946A CN111046302A CN 111046302 A CN111046302 A CN 111046302A CN 201911388946 A CN201911388946 A CN 201911388946A CN 111046302 A CN111046302 A CN 111046302A
- Authority
- CN
- China
- Prior art keywords
- content
- text
- webpage
- extracting
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种网页内容提取的方法及装置,涉及网页内容提取技术领域,尤其涉及网页内容提取的方法及装置,包括如下步骤,获取网页HTML源代码;将HTML源代码进行过滤;对过滤后的内容进行重构;生成正文,完成网页内容的提取。优选地,所述对过滤后的内容进行重构之后,还包括:聚类正文内容。通过本发明,对于简单网页,能够快速提取网页相关内容,增加效率。对于复杂网页,能够提高网页内容提取准确性,从而达到高效,准确地提取网页内容。
Description
技术领域
本发明涉及网页内容提取技术领域,尤其涉及网页内容提取的方法及装置。
背景技术
随着互联网的普及,越来越多的用户选择电脑、手机、平板等介质获取信息,但是由于网页的多样性,用户在查看相关信息的同时,网页会自动带出很多无关的内容,其中还充斥着很多恶意弹窗以及病毒,大大地减弱了用户的体验度以及使用方便度,如何使用户聚焦于其关心的内容上,将核心内容抓取出来进行显示,成为了本发明研究的关键问题。
目前,网页内容提取的方法有基于规则算法进行网页内容提取,通过规则算法,匹配对应内容进行提取,由于每个网站的结构、内容都不相同,所以规则算法的设计也较为复杂,同时降低了使用效率,在复杂的网页中也容易产生提取错误的情况。
因此,需要一种通用的、简单的网页内容提取方法。
发明内容
本发明的目的在于提供一种网页内容提取的方法及装置,以解决现有技术中存在的前述问题。本发明的目的由以下技术方案实现:
一种网页内容提取方法,方法包括如下步骤,
获取网页HTML源代码;
将HTML源代码进行过滤;
对过滤后的内容进行重构;
生成正文,完成网页内容的提取。
其中,所述将HTML源代码进行过滤,具体为:提取HTML代码中<body>标签内容;解析提取后的内容,在内容中查找非文本标签并输出为标签列表,遍历标签列表,针对标签执行删除操作,删除标签。
其中,所述非文本标签为<img>标签。
优选地,所述对过滤后的内容进行重构之后,还包括:聚类正文内容。
其中,所述聚类正文内容,具体为:利用HTML语言中常用<div>、<form>等标签对网页的各个板块进行分隔,将文本划分成若干个段落集合,对所述段落集合进行聚类分析,将段落中文字最多的段落当做聚类中心,获取该所述聚类中心的标签以及标签的属性作为段落的特征,根据所述特征,分别向所述聚类中心的前后聚类含有所述特征的段落,形成正文内容,提取所述正文内容。
一种包含网页内容提取方法的装置,包括存储器、控制中心、网络模块,所述存储器存储权利要求上述的一种网页内容提取方法的指令,所述控制中心调取所述存储器内指令执行。
通过本发明,对于简单网页,能够快速提取网页相关内容,增加效率。对于复杂网页,能够提高网页内容提取准确性,从而达到高效,准确地提取网页内容。
附图说明
图1为本发明一种网页内容提取的方法的流程图。
图2为本发明一种实施例中将HTML源代码进行过滤的流程图。
图3为本发明一种实施例中对过滤后的内容进行重构的流程图。
图4为本发明一种实施例中聚类正文内容的流程图。
图5为本发明一种包含网页内容提取方法的装置的结构示意图。
具体实施方式
下面结合附图对本发明进行详细阐述。
参考图1,本发明提供了一种网页内容提取的方法,包括以下步骤:
S1、获取网页HTML源代码;
浏览网页的时候,由浏览器向后台服务器发出请求,服务器接收请求后,将页面内容进行处理后返回至浏览器,浏览器将返回的内容进行显示,而浏览器进行显示的内容的编码方式为HTML代码方式,在本实施例中,通过程序语言获取服务器所返回的HTML代码,如何通过程序语言获取HTML代码,对于本领域技术人员是公知的。
S2、将HTML源代码进行过滤;
对上述的HTML代码进行解析,过滤插件及图片、按钮等与内容无关的标签控件。
参考图2,网页HTML源代码初始状态如图2中的第一个框图,将HTML源代码进行过滤的具体步骤为:
S201、提取HTML代码中<body>标签的内容;
网页分为三个部分,分别使用<header>标签、<body>标签以及<footer>标签进行区分,网页主体内容设置于<body>标签中,内容以<body>开头,以</body>结尾,寻找<body>位置设定为起始位置,在紧靠着起始位置寻找</body>设定为结束为止,提取开始位置和结束位置之间的内容,视为<body>标签的内容,提取后的内容如图2中的第二个框图,接下来的步骤只对提取后的内容进行操作。
S202、解析提取后的内容,在内容中查找非文本标签并输出为标签列表,在本实施例中,非文本标签为<img>。根据网页的开发规范,<img>标签用于定义网页的图片,不属于用于文字显示的标签。遍历标签列表,针对标签执行删除操作,删除标签。通过遍历删除非文本标签,留下文本标签内容即为所要提取的网页内容,如图2中的第三个框图。
S3、对过滤后的内容进行重构;
参考图3,由于上一步骤对部分标签进行了删除,可能存在删除后存在标签内容为空的情况,解析过滤后的内容,获取网页标签并输出为标签列表,遍历标签列表,判断标签内是否存在内容,若存在内容,则保留,若不存在内容,则将标签删除,如<div></div>视为不存在内容,则执行方法将此<div>标签进行删除。关于获取标签并输出为标签列表、遍历标签、删除标签,对于本领域技术人员是公知的。
S4、聚类正文内容;
在本实施例中,广告信息、菜单、网友评论等不属于正文内容的文本,都可以定义为噪声,需要进行去除。
首先,利用HTML语言中常用标签对网页的各个板块进行分隔,在本实施例中,使用<div>、<form>标签对网页的各个板块进行分割,将文本划分成若干个段落集合,对段落集合进行聚类分析,将段落中文字最多的段落当做聚类中心,获取该聚类中心的标签以及标签的属性作为段落的特征。
例如,中心段落的标签为<div>和属性为<divclass=”content”style=”float:left”>,那么,根据该特征,分别向聚类中心的前后聚类含有该特征的段落,形成正文内容,提取该正文内容,如图4所示。
S5、生成正文,完成网页内容的提取;
通过本实施例的方法,针对简单网页,通过过滤的方式,将非文本标签,例如<img>等与内容无关的标签进行删除,能够迅速定位网页主要内容。针对复杂网页,在聚类文本之前先对HTML源代码进行过滤,简化HTML源代码的代码结构,能够使聚类方法更加高效,准确。
本发明还提出一种包含网页内容提取方法的装置。
作为本发明优选的实施方式,参考图5,一种包含网页内容提取方法的装置100,包括存储器101、控制中心102、网络模块103。
存储器存储指令,在本实施例中,存储器存储以下指令:
S1、获取网页HTML源代码;
S2、将HTML源代码进行过滤;
S3、对过滤后的内容进行重构;
S4、聚类正文内容;
S5、生成正文,完成网页内容的提取;
网络模块与控制中心相连,控制中心与存储器相连。控制中心调取存储器内指令执行,其中获取网页HTML源代码为通过网络模块对网络服务器进行请求获取。
在本实施例中,控制中心由相同功能或不同功能封装的集成电路所组成,包含至少一个中央处理器,显示装置及各种控制芯片的组合等。
以上实施例仅为本发明较佳实施例而已,不能以此来限定本发明的权利范围,凡是依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (6)
1.一种网页内容提取方法,其特征在于,所述方法包括如下步骤,
获取网页HTML源代码;
将HTML源代码进行过滤;
对过滤后的内容进行重构;
生成正文,完成网页内容的提取。
2.如权利要求1所述的一种网页内容提取方法,其特征在于,所述将HTML源代码进行过滤,具体为:提取HTML代码中<body>标签内容;解析提取后的内容,在内容中查找非文本标签并输出为标签列表,遍历标签列表,针对标签执行删除操作,删除标签。
3.如权利要求2所述的一种网页内容提取方法,其特征在于,所述非文本标签为<img>标签。
4.如权利要求1所述的一种网页内容提取方法,其特征在于,所述对过滤后的内容进行重构之后,还包括:
聚类正文内容。
5.如权利要求4所述的一种网页内容提取方法,其特征在于,所述聚类正文内容,具体为:
利用HTML语言中的常用标签对网页的各个板块进行分隔,将文本划分成若干个段落集合,对所述段落集合进行聚类分析,将段落中文字最多的段落当做聚类中心,获取该所述聚类中心的标签以及标签的属性作为段落的特征,根据所述特征,分别向所述聚类中心的前后聚类含有所述特征的段落,形成正文内容,提取所述正文内容。
6.一种包含网页内容提取方法的装置,其特征在于,包括存储器、控制中心、网络模块,所述存储器存储权利要求1到5中任一项所述的一种网页内容提取方法的指令,所述控制中心调取所述存储器内指令执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388946.9A CN111046302A (zh) | 2019-12-30 | 2019-12-30 | 一种网页内容提取的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388946.9A CN111046302A (zh) | 2019-12-30 | 2019-12-30 | 一种网页内容提取的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111046302A true CN111046302A (zh) | 2020-04-21 |
Family
ID=70241323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911388946.9A Pending CN111046302A (zh) | 2019-12-30 | 2019-12-30 | 一种网页内容提取的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046302A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530429A (zh) * | 2013-11-04 | 2014-01-22 | 北京中搜网络技术股份有限公司 | 一种网页正文抽取的方法 |
WO2017008448A1 (zh) * | 2015-07-14 | 2017-01-19 | 中国互联网络信息中心 | 一种网页核心内容提取方法 |
CN109271598A (zh) * | 2018-08-01 | 2019-01-25 | 数据地平线(广州)科技有限公司 | 一种抽取新闻网页内容的方法、装置及存储介质 |
-
2019
- 2019-12-30 CN CN201911388946.9A patent/CN111046302A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530429A (zh) * | 2013-11-04 | 2014-01-22 | 北京中搜网络技术股份有限公司 | 一种网页正文抽取的方法 |
WO2017008448A1 (zh) * | 2015-07-14 | 2017-01-19 | 中国互联网络信息中心 | 一种网页核心内容提取方法 |
CN109271598A (zh) * | 2018-08-01 | 2019-01-25 | 数据地平线(广州)科技有限公司 | 一种抽取新闻网页内容的方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
赵文等: "基于统计的中文网页正文抽取的研究", 《电脑知识与技术》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150067476A1 (en) | Title and body extraction from web page | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
KR101393794B1 (ko) | 입력기의 종류를 결정하는 단말기 및 방법 | |
US20130339840A1 (en) | System and method for logical chunking and restructuring websites | |
CN109033282B (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
EP2162833A1 (en) | A method, system and computer program for intelligent text annotation | |
CN109271598B (zh) | 一种抽取新闻网页内容的方法、装置及存储介质 | |
CN111625748A (zh) | 网站的导航栏信息提取方法、装置、电子设备及存储介质 | |
CN113050808A (zh) | 在输入框中突出显示目标文本的方法及装置 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN113419721B (zh) | 基于web的表达式编辑方法、装置、设备和存储介质 | |
CN114021042A (zh) | 网页内容的提取方法、装置、计算机设备和存储介质 | |
CN113901169A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
CN110489032B (zh) | 用于电子书的词典查询方法及电子设备 | |
CN107783983B (zh) | 信息展示方法及装置 | |
JP2008077634A (ja) | モバイル機器におけるフォーム自動記入方法および装置 | |
CN112232075A (zh) | 基于时间格式和网页元素特征的文章发布时间识别方法 | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
US20120150899A1 (en) | System and method for selectively generating tabular data from semi-structured content | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN110489528B (zh) | 基于电子书内容的电子词典重构方法及计算设备 | |
CN111046302A (zh) | 一种网页内容提取的方法及装置 | |
CN111259259B (zh) | 大学生新闻推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200421 |
|
RJ01 | Rejection of invention patent application after publication |