CN111046302A

CN111046302A - 一种网页内容提取的方法及装置

Info

Publication number: CN111046302A
Application number: CN201911388946.9A
Authority: CN
Inventors: 孙瑞娟
Original assignee: Zhuhai Seal Interest Technology Co Ltd
Current assignee: Zhuhai Seal Interest Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-04-21

Abstract

本发明提供一种网页内容提取的方法及装置，涉及网页内容提取技术领域，尤其涉及网页内容提取的方法及装置，包括如下步骤，获取网页HTML源代码；将HTML源代码进行过滤；对过滤后的内容进行重构；生成正文，完成网页内容的提取。优选地，所述对过滤后的内容进行重构之后，还包括：聚类正文内容。通过本发明，对于简单网页，能够快速提取网页相关内容，增加效率。对于复杂网页，能够提高网页内容提取准确性，从而达到高效，准确地提取网页内容。

Description

一种网页内容提取的方法及装置

技术领域

本发明涉及网页内容提取技术领域，尤其涉及网页内容提取的方法及装置。

背景技术

随着互联网的普及，越来越多的用户选择电脑、手机、平板等介质获取信息，但是由于网页的多样性，用户在查看相关信息的同时，网页会自动带出很多无关的内容，其中还充斥着很多恶意弹窗以及病毒，大大地减弱了用户的体验度以及使用方便度，如何使用户聚焦于其关心的内容上，将核心内容抓取出来进行显示，成为了本发明研究的关键问题。

目前，网页内容提取的方法有基于规则算法进行网页内容提取，通过规则算法，匹配对应内容进行提取，由于每个网站的结构、内容都不相同，所以规则算法的设计也较为复杂，同时降低了使用效率，在复杂的网页中也容易产生提取错误的情况。

因此，需要一种通用的、简单的网页内容提取方法。

发明内容

本发明的目的在于提供一种网页内容提取的方法及装置，以解决现有技术中存在的前述问题。本发明的目的由以下技术方案实现：

一种网页内容提取方法，方法包括如下步骤，

获取网页HTML源代码；

将HTML源代码进行过滤；

对过滤后的内容进行重构；

生成正文，完成网页内容的提取。

其中，所述将HTML源代码进行过滤，具体为：提取HTML代码中<body>标签内容；解析提取后的内容，在内容中查找非文本标签并输出为标签列表，遍历标签列表，针对标签执行删除操作，删除标签。

其中，所述非文本标签为<img>标签。

优选地，所述对过滤后的内容进行重构之后，还包括：聚类正文内容。

其中，所述聚类正文内容，具体为：利用HTML语言中常用<div>、<form>等标签对网页的各个板块进行分隔，将文本划分成若干个段落集合，对所述段落集合进行聚类分析，将段落中文字最多的段落当做聚类中心，获取该所述聚类中心的标签以及标签的属性作为段落的特征，根据所述特征，分别向所述聚类中心的前后聚类含有所述特征的段落，形成正文内容，提取所述正文内容。

一种包含网页内容提取方法的装置，包括存储器、控制中心、网络模块，所述存储器存储权利要求上述的一种网页内容提取方法的指令，所述控制中心调取所述存储器内指令执行。

通过本发明，对于简单网页，能够快速提取网页相关内容，增加效率。对于复杂网页，能够提高网页内容提取准确性，从而达到高效，准确地提取网页内容。

附图说明

图1为本发明一种网页内容提取的方法的流程图。

图2为本发明一种实施例中将HTML源代码进行过滤的流程图。

图3为本发明一种实施例中对过滤后的内容进行重构的流程图。

图4为本发明一种实施例中聚类正文内容的流程图。

图5为本发明一种包含网页内容提取方法的装置的结构示意图。

具体实施方式

下面结合附图对本发明进行详细阐述。

参考图1，本发明提供了一种网页内容提取的方法，包括以下步骤：

S1、获取网页HTML源代码；

浏览网页的时候，由浏览器向后台服务器发出请求，服务器接收请求后，将页面内容进行处理后返回至浏览器，浏览器将返回的内容进行显示，而浏览器进行显示的内容的编码方式为HTML代码方式，在本实施例中，通过程序语言获取服务器所返回的HTML代码，如何通过程序语言获取HTML代码，对于本领域技术人员是公知的。

S2、将HTML源代码进行过滤；

对上述的HTML代码进行解析，过滤插件及图片、按钮等与内容无关的标签控件。

参考图2，网页HTML源代码初始状态如图2中的第一个框图，将HTML源代码进行过滤的具体步骤为：

S201、提取HTML代码中<body>标签的内容；

网页分为三个部分，分别使用<header>标签、<body>标签以及<footer>标签进行区分，网页主体内容设置于<body>标签中，内容以<body>开头，以</body>结尾，寻找<body>位置设定为起始位置，在紧靠着起始位置寻找</body>设定为结束为止，提取开始位置和结束位置之间的内容，视为<body>标签的内容，提取后的内容如图2中的第二个框图，接下来的步骤只对提取后的内容进行操作。

S202、解析提取后的内容，在内容中查找非文本标签并输出为标签列表，在本实施例中，非文本标签为<img>。根据网页的开发规范，<img>标签用于定义网页的图片，不属于用于文字显示的标签。遍历标签列表，针对标签执行删除操作，删除标签。通过遍历删除非文本标签，留下文本标签内容即为所要提取的网页内容，如图2中的第三个框图。

S3、对过滤后的内容进行重构；

参考图3，由于上一步骤对部分标签进行了删除，可能存在删除后存在标签内容为空的情况，解析过滤后的内容，获取网页标签并输出为标签列表，遍历标签列表，判断标签内是否存在内容，若存在内容，则保留，若不存在内容，则将标签删除，如<div></div>视为不存在内容，则执行方法将此<div>标签进行删除。关于获取标签并输出为标签列表、遍历标签、删除标签，对于本领域技术人员是公知的。

S4、聚类正文内容；

在本实施例中，广告信息、菜单、网友评论等不属于正文内容的文本，都可以定义为噪声，需要进行去除。

首先，利用HTML语言中常用标签对网页的各个板块进行分隔,在本实施例中，使用<div>、<form>标签对网页的各个板块进行分割，将文本划分成若干个段落集合，对段落集合进行聚类分析，将段落中文字最多的段落当做聚类中心，获取该聚类中心的标签以及标签的属性作为段落的特征。

例如，中心段落的标签为<div>和属性为<divclass＝”content”style＝”float:left”>，那么，根据该特征，分别向聚类中心的前后聚类含有该特征的段落，形成正文内容，提取该正文内容，如图4所示。

S5、生成正文，完成网页内容的提取；

通过本实施例的方法，针对简单网页，通过过滤的方式，将非文本标签，例如<img>等与内容无关的标签进行删除，能够迅速定位网页主要内容。针对复杂网页，在聚类文本之前先对HTML源代码进行过滤，简化HTML源代码的代码结构，能够使聚类方法更加高效，准确。

本发明还提出一种包含网页内容提取方法的装置。

作为本发明优选的实施方式，参考图5，一种包含网页内容提取方法的装置100，包括存储器101、控制中心102、网络模块103。

存储器存储指令，在本实施例中，存储器存储以下指令：

S1、获取网页HTML源代码；

S2、将HTML源代码进行过滤；

S3、对过滤后的内容进行重构；

S4、聚类正文内容；

S5、生成正文，完成网页内容的提取；

网络模块与控制中心相连，控制中心与存储器相连。控制中心调取存储器内指令执行，其中获取网页HTML源代码为通过网络模块对网络服务器进行请求获取。

在本实施例中，控制中心由相同功能或不同功能封装的集成电路所组成，包含至少一个中央处理器，显示装置及各种控制芯片的组合等。

以上实施例仅为本发明较佳实施例而已，不能以此来限定本发明的权利范围，凡是依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种网页内容提取方法，其特征在于，所述方法包括如下步骤，

获取网页HTML源代码；

将HTML源代码进行过滤；

对过滤后的内容进行重构；

生成正文，完成网页内容的提取。

2.如权利要求1所述的一种网页内容提取方法，其特征在于，所述将HTML源代码进行过滤，具体为：提取HTML代码中<body>标签内容；解析提取后的内容，在内容中查找非文本标签并输出为标签列表，遍历标签列表，针对标签执行删除操作，删除标签。

3.如权利要求2所述的一种网页内容提取方法，其特征在于，所述非文本标签为<img>标签。

4.如权利要求1所述的一种网页内容提取方法，其特征在于，所述对过滤后的内容进行重构之后，还包括：

聚类正文内容。

5.如权利要求4所述的一种网页内容提取方法，其特征在于，所述聚类正文内容，具体为：

利用HTML语言中的常用标签对网页的各个板块进行分隔，将文本划分成若干个段落集合，对所述段落集合进行聚类分析，将段落中文字最多的段落当做聚类中心，获取该所述聚类中心的标签以及标签的属性作为段落的特征，根据所述特征，分别向所述聚类中心的前后聚类含有所述特征的段落，形成正文内容，提取所述正文内容。

6.一种包含网页内容提取方法的装置，其特征在于，包括存储器、控制中心、网络模块，所述存储器存储权利要求1到5中任一项所述的一种网页内容提取方法的指令，所述控制中心调取所述存储器内指令执行。