CN108829729A

CN108829729A - 一种网页解析并采集新闻的方法

Info

Publication number: CN108829729A
Application number: CN201810444006.6A
Authority: CN
Inventors: 梁莎莎; 童晶; 李天群; 朱红强
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-11-16

Abstract

本发明公开了一种网页解析并采集新闻的方法，抓取多个涵盖新闻条目和新闻数据的目标网页信息；解析抓取的包含统一资源定位符URL地址的网页信息，获得多个网页解析信息；获取用户输入的关键字判断筛选上述URL信息是否符合预设标准以及用户需求；使用通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获限制；提取筛选后的新闻列表取新闻内容，并对新闻数据进行多层筛选。本发明一方面可以获取页面上所有可以解析的新闻条目，另一方面使用用户定义的信息挖掘条件作为限制提高了信息准确度，增强了目的性，具有高度的灵活性，扩大了发布者的获取网络新闻的渠道。

Description

一种网页解析并采集新闻的方法

技术领域

本发明涉及一种网页解析并采集新闻的方法，属于网页分析处理领域。

背景技术

随着计算机网络技术的不断发展和互联网的普及，人们可以通过高速的网络实时获取需要的新闻消息。但同时，人们对于信息的及时性、准确性的需求量也在日益增长。随之产生的众多新闻媒体网站也应运而生。传统的新闻发布网站需要新闻发布人员独立完成新闻的撰写和审核工作，最后发送并将内容呈现给最终用户。对于一些面向中小型企业和学校等相对规模较小群体的新闻发布网站，日常独立编写和审核新闻时间开销大，代价和成本较高，因此相比而言适应度不高。本方法拟提供一套面向中小型企业和学校组织的新闻采集方案。其基本目标在于利用互联网现有的新闻资源，结合WEB挖掘，为用户提供一整套方便快捷的数据获取、发布的解决方案，从而简化新闻采集、审核者的工作。同时，当前的一些新闻采集及网页解析的方法有时会出现信息获取太杂，无法根据用户自定义信息获得想要的新闻，或不支持对关键字搜索的解析等问题。由于网页与网页之间的结构千差万别，信息更新快且含有大量广告等对于新闻发布端无用的信息，因此很难通过某一套完善的算法来自动过滤广告并获取所有有效的信息。

发明内容

为了解决上述现有技术存在的问题，本发明提出一种网页解析并采集新闻的方法，采用解析网页源文件的方式来获取新闻信息，使用通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获取新闻内容。

为达到上述目的，本发明的技术方案是这样实现的：

一种网页解析并采集新闻的方法，包括：

A1.抓取多个涵盖新闻条目和新闻数据的目标网页信息，所抓取的目标网页信息包含统一资源定位符URL地址；

A2.解析步骤A1中所抓取的包含统一资源定位符URL地址的网页信息，获得多个网页解析信息，其中包涵标题、摘要、新闻图片和新闻链接信息；

A3.获取用户输入的关键字判断A2中获得的网页解析信息是否符合预设标准以及用户需求；

A4.使用半智能化的方式，即通过通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获限制，自定义的信息挖掘条件主要包括缺省设置，关键字查询；

A5.提取步骤A3中符合要求的且符合步骤A4中限制条件的新闻列表并获取新闻内容，并对新闻数据进行多层筛选，包括语言筛选，条目显示在主界面中，呈现给用户。

优选地，在步骤A1和步骤A2间还包括步骤A11，判断所述的目标网页信息的URL地址是否可以解析或是否已被解析过，若可以解析且未被解析过，则进入步骤A2，若不可解析或已被解析过，则丢弃此URL地址。

优选地，所述步骤A2中为了从目标网页信息中解析获取新闻内容，采用解析网页源文件的方式来获取新闻内容。

优选地，所述网页解析并采集新闻的方法支持根据发布者自定义的URL，将对应的页面作为数据源，并采用步骤A3和A4中所述方法自定义筛选，获取该页面所有符合条件的新闻条目。

优选地，在步骤A2中，对于解析后不可用的新闻源，选择以通用的链接挖掘算法获取所有链接数据，当页面包含的数据编码与当前编码不同而产生中文乱码时，改变当前字符集编码来解析包含的中文。

优选地，所述步骤A1中，在抓取目标网页信息时，采用通用的链接挖掘算法采集页面上包含的信息，包含URL地址，标题，摘要，图片，类型，编辑时间和来源。

有益效果：本发明提供一种网页解析并采集新闻的方法，利用互联网现有的新闻资源，结合WEB挖掘，为用户提供一整套方便快捷的数据获取、发布的解决方案，一方面可以获取页面上所有可以解析的新闻条目，另一方面使用用户定义的信息挖掘条件作为限制提高了信息准确度，增强了目的性，具有高度的灵活性，扩大了发布者的获取网络新闻的渠道。

附图说明

图1是本发明所提供的方法中网页解析内容图；

图2是本发明所提供的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

如图1所示，一种网页解析并采集新闻的方法，包括：

实施例1：

如图2所示， A，B，C三个新闻网站，按照步骤A1和A2的方法提取这三个网站中包涵标题、摘要等的目标网页信息并进行解析。

同时获取用户输入的关键字，使用半智能化的方式和通用的链接挖掘算法，配合用户自定义的信息挖掘条件来对获取新闻内容进行判断筛选，判断上述三个网站中的各新闻条目的目标网页信息是否符合预设标准以及用户需求；并对所选的新闻数据进行多层筛选，包括语言筛选，条目限制，缺省设置，关键字查询等等。

至此，由上述三个新闻网站提取筛选后的新闻列表将显示在主界面中，呈现给用户。

本发明采用通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获取新闻内容，而非通过某一套完善的算法获取所有有效信息。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的两种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种网页解析并采集新闻的方法，其特征在于，包括：

2.根据权利要求1 所述的一种网页解析并采集新闻的方法，其特征在于，在步骤A1和步骤A2间还包括步骤A11，判断所述的目标网页信息的URL地址是否可以解析或是否已被解析过，若可以解析且未被解析过，则进入步骤A2，若不可解析或已被解析过，则丢弃此URL地址。

3.根据权利要求1所述的一种网页解析并采集新闻的方法，其特征在于，所述步骤A2中为了从目标网页信息中解析获取新闻内容，采用解析网页源文件的方式来获取新闻内容。

4.根据权利要求1 所述的一种网页解析并采集新闻的方法，其特征在于，所述网页解析并采集新闻的方法支持根据发布者自定义的URL，将对应的页面作为数据源，并采用步骤A3和A4中所述方法自定义筛选，获取该页面所有符合条件的新闻条目。

5. 根据权利要求1 所述的一种网页解析及新闻采集方法，其特征在于，在步骤A2中，对于解析后不可用的新闻源，选择以通用的链接挖掘算法获取所有链接数据，当页面包含的数据编码与当前编码不同而产生中文乱码时，改变当前字符集编码来解析包含的中文。

6. 根据权利要求1 所述的一种网页解析并采集新闻的方法，其特征在于，所述步骤A1中，在抓取目标网页信息时，采用通用的链接挖掘算法采集页面上包含的信息，包含URL地址，标题，摘要，图片，类型，编辑时间和来源。