CN108829729A - 一种网页解析并采集新闻的方法 - Google Patents

一种网页解析并采集新闻的方法 Download PDF

Info

Publication number
CN108829729A
CN108829729A CN201810444006.6A CN201810444006A CN108829729A CN 108829729 A CN108829729 A CN 108829729A CN 201810444006 A CN201810444006 A CN 201810444006A CN 108829729 A CN108829729 A CN 108829729A
Authority
CN
China
Prior art keywords
news
information
web analysis
user
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810444006.6A
Other languages
English (en)
Inventor
梁莎莎
童晶
李天群
朱红强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201810444006.6A priority Critical patent/CN108829729A/zh
Publication of CN108829729A publication Critical patent/CN108829729A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页解析并采集新闻的方法,抓取多个涵盖新闻条目和新闻数据的目标网页信息;解析抓取的包含统一资源定位符URL地址的网页信息,获得多个网页解析信息;获取用户输入的关键字判断筛选上述URL信息是否符合预设标准以及用户需求;使用通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获限制;提取筛选后的新闻列表取新闻内容,并对新闻数据进行多层筛选。本发明一方面可以获取页面上所有可以解析的新闻条目,另一方面使用用户定义的信息挖掘条件作为限制提高了信息准确度,增强了目的性,具有高度的灵活性,扩大了发布者的获取网络新闻的渠道。

Description

一种网页解析并采集新闻的方法
技术领域
本发明涉及一种网页解析并采集新闻的方法,属于网页分析处理领域。
背景技术
随着计算机网络技术的不断发展和互联网的普及,人们可以通过高速的网络实时获取需要的新闻消息。但同时,人们对于信息的及时性、准确性的需求量也在日益增长。随之产生的众多新闻媒体网站也应运而生。传统的新闻发布网站需要新闻发布人员独立完成新闻的撰写和审核工作,最后发送并将内容呈现给最终用户。对于一些面向中小型企业和学校等相对规模较小群体的新闻发布网站,日常独立编写和审核新闻时间开销大,代价和成本较高,因此相比而言适应度不高。本方法拟提供一套面向中小型企业和学校组织的新闻采集方案。其基本目标在于利用互联网现有的新闻资源,结合WEB挖掘,为用户提供一整套方便快捷的数据获取、发布的解决方案,从而简化新闻采集、审核者的工作。同时,当前的一些新闻采集及网页解析的方法有时会出现信息获取太杂,无法根据用户自定义信息获得想要的新闻,或不支持对关键字搜索的解析等问题。由于网页与网页之间的结构千差万别,信息更新快且含有大量广告等对于新闻发布端无用的信息,因此很难通过某一套完善的算法来自动过滤广告并获取所有有效的信息。
发明内容
为了解决上述现有技术存在的问题,本发明提出一种网页解析并采集新闻的方法,采用解析网页源文件的方式来获取新闻信息,使用通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获取新闻内容。
为达到上述目的,本发明的技术方案是这样实现的:
一种网页解析并采集新闻的方法,包括:
A1.抓取多个涵盖新闻条目和新闻数据的目标网页信息,所抓取的目标网页信息包含统一资源定位符URL地址;
A2.解析步骤A1中所抓取的包含统一资源定位符URL地址的网页信息,获得多个网页解析信息,其中包涵标题、摘要、新闻图片和新闻链接信息;
A3.获取用户输入的关键字判断A2中获得的网页解析信息是否符合预设标准以及用户需求;
A4.使用半智能化的方式,即通过通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获限制,自定义的信息挖掘条件主要包括缺省设置,关键字查询;
A5.提取步骤A3中符合要求的且符合步骤A4中限制条件的新闻列表并获取新闻内容,并对新闻数据进行多层筛选,包括语言筛选,条目显示在主界面中,呈现给用户。
优选地,在步骤A1和步骤A2间还包括步骤A11,判断所述的目标网页信息的URL地址是否可以解析或是否已被解析过,若可以解析且未被解析过,则进入步骤A2,若不可解析或已被解析过,则丢弃此URL地址。
优选地,所述步骤A2中为了从目标网页信息中解析获取新闻内容,采用解析网页源文件的方式来获取新闻内容。
优选地,所述网页解析并采集新闻的方法支持根据发布者自定义的URL,将对应的页面作为数据源,并采用步骤A3和A4中所述方法自定义筛选,获取该页面所有符合条件的新闻条目。
优选地,在步骤A2中,对于解析后不可用的新闻源,选择以通用的链接挖掘算法获取所有链接数据,当页面包含的数据编码与当前编码不同而产生中文乱码时,改变当前字符集编码来解析包含的中文。
优选地,所述步骤A1中,在抓取目标网页信息时,采用通用的链接挖掘算法采集页面上包含的信息,包含URL地址,标题,摘要,图片,类型,编辑时间和来源。
有益效果:本发明提供一种网页解析并采集新闻的方法,利用互联网现有的新闻资源,结合WEB挖掘,为用户提供一整套方便快捷的数据获取、发布的解决方案,一方面可以获取页面上所有可以解析的新闻条目,另一方面使用用户定义的信息挖掘条件作为限制提高了信息准确度,增强了目的性,具有高度的灵活性,扩大了发布者的获取网络新闻的渠道。
附图说明
图1是本发明所提供的方法中网页解析内容图;
图2是本发明所提供的方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
如图1所示,一种网页解析并采集新闻的方法,包括:
A1.抓取多个涵盖新闻条目和新闻数据的目标网页信息,所抓取的目标网页信息包含统一资源定位符URL地址;
A2.解析步骤A1中所抓取的包含统一资源定位符URL地址的网页信息,获得多个网页解析信息,其中包涵标题、摘要、新闻图片和新闻链接信息;
A3.获取用户输入的关键字判断A2中获得的网页解析信息是否符合预设标准以及用户需求;
A4.使用半智能化的方式,即通过通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获限制,自定义的信息挖掘条件主要包括缺省设置,关键字查询;
A5.提取步骤A3中符合要求的且符合步骤A4中限制条件的新闻列表并获取新闻内容,并对新闻数据进行多层筛选,包括语言筛选,条目显示在主界面中,呈现给用户。
优选地,在步骤A1和步骤A2间还包括步骤A11,判断所述的目标网页信息的URL地址是否可以解析或是否已被解析过,若可以解析且未被解析过,则进入步骤A2,若不可解析或已被解析过,则丢弃此URL地址。
优选地,所述步骤A2中为了从目标网页信息中解析获取新闻内容,采用解析网页源文件的方式来获取新闻内容。
优选地,所述网页解析并采集新闻的方法支持根据发布者自定义的URL,将对应的页面作为数据源,并采用步骤A3和A4中所述方法自定义筛选,获取该页面所有符合条件的新闻条目。
优选地,在步骤A2中,对于解析后不可用的新闻源,选择以通用的链接挖掘算法获取所有链接数据,当页面包含的数据编码与当前编码不同而产生中文乱码时,改变当前字符集编码来解析包含的中文。
优选地,所述步骤A1中,在抓取目标网页信息时,采用通用的链接挖掘算法采集页面上包含的信息,包含URL地址,标题,摘要,图片,类型,编辑时间和来源。
实施例1:
如图2所示, A,B,C三个新闻网站,按照步骤A1和A2的方法提取这三个网站中包涵标题、摘要等的目标网页信息并进行解析。
同时获取用户输入的关键字,使用半智能化的方式和通用的链接挖掘算法,配合用户自定义的信息挖掘条件来对获取新闻内容进行判断筛选,判断上述三个网站中的各新闻条目的目标网页信息是否符合预设标准以及用户需求;并对所选的新闻数据进行多层筛选,包括语言筛选,条目限制,缺省设置,关键字查询等等。
至此,由上述三个新闻网站提取筛选后的新闻列表将显示在主界面中,呈现给用户。
本发明采用通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获取新闻内容,而非通过某一套完善的算法获取所有有效信息。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的两种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围 。

Claims (6)

1.一种网页解析并采集新闻的方法,其特征在于,包括:
A1.抓取多个涵盖新闻条目和新闻数据的目标网页信息,所抓取的目标网页信息包含统一资源定位符URL地址;
A2.解析步骤A1中所抓取的包含统一资源定位符URL地址的网页信息,获得多个网页解析信息,其中包涵标题、摘要、新闻图片和新闻链接信息;
A3.获取用户输入的关键字判断A2中获得的网页解析信息是否符合预设标准以及用户需求;
A4.使用半智能化的方式,即通过通用的链接挖掘算法并配合用户自定义的信息挖掘条件来获限制,自定义的信息挖掘条件主要包括缺省设置,关键字查询;
A5.提取步骤A3中符合要求的且符合步骤A4中限制条件的新闻列表并获取新闻内容,并对新闻数据进行多层筛选,包括语言筛选,条目显示在主界面中,呈现给用户。
2.根据权利要求1 所述的一种网页解析并采集新闻的方法,其特征在于,在步骤A1和步骤A2间还包括步骤A11,判断所述的目标网页信息的URL地址是否可以解析或是否已被解析过,若可以解析且未被解析过,则进入步骤A2,若不可解析或已被解析过,则丢弃此URL地址。
3.根据权利要求1所述的一种网页解析并采集新闻的方法,其特征在于,所述步骤A2中为了从目标网页信息中解析获取新闻内容,采用解析网页源文件的方式来获取新闻内容。
4.根据权利要求1 所述的一种网页解析并采集新闻的方法,其特征在于,所述网页解析并采集新闻的方法支持根据发布者自定义的URL,将对应的页面作为数据源,并采用步骤A3和A4中所述方法自定义筛选,获取该页面所有符合条件的新闻条目。
5. 根据权利要求1 所述的一种网页解析及新闻采集方法,其特征在于,在步骤A2中,对于解析后不可用的新闻源,选择以通用的链接挖掘算法获取所有链接数据,当页面包含的数据编码与当前编码不同而产生中文乱码时,改变当前字符集编码来解析包含的中文。
6. 根据权利要求1 所述的一种网页解析并采集新闻的方法,其特征在于,所述步骤A1中,在抓取目标网页信息时,采用通用的链接挖掘算法采集页面上包含的信息,包含URL地址,标题,摘要,图片,类型,编辑时间和来源。
CN201810444006.6A 2018-05-10 2018-05-10 一种网页解析并采集新闻的方法 Pending CN108829729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444006.6A CN108829729A (zh) 2018-05-10 2018-05-10 一种网页解析并采集新闻的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444006.6A CN108829729A (zh) 2018-05-10 2018-05-10 一种网页解析并采集新闻的方法

Publications (1)

Publication Number Publication Date
CN108829729A true CN108829729A (zh) 2018-11-16

Family

ID=64147761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444006.6A Pending CN108829729A (zh) 2018-05-10 2018-05-10 一种网页解析并采集新闻的方法

Country Status (1)

Country Link
CN (1) CN108829729A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094382A (zh) * 2021-04-02 2021-07-09 南开大学 一种面向多来源数据管理的半自动化数据采集更新方法
CN113505320A (zh) * 2021-07-14 2021-10-15 杭州隆埠科技有限公司 新闻内容的显示方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327039A (zh) * 2015-06-25 2017-01-11 中兴通讯股份有限公司 周报信息处理方法及装置
CN106649498A (zh) * 2016-10-10 2017-05-10 合肥红珊瑚软件服务有限公司 一种基于爬虫和文本聚类分析的网络舆情分析系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327039A (zh) * 2015-06-25 2017-01-11 中兴通讯股份有限公司 周报信息处理方法及装置
CN106649498A (zh) * 2016-10-10 2017-05-10 合肥红珊瑚软件服务有限公司 一种基于爬虫和文本聚类分析的网络舆情分析系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王星: "新闻网页抽取技术的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094382A (zh) * 2021-04-02 2021-07-09 南开大学 一种面向多来源数据管理的半自动化数据采集更新方法
CN113505320A (zh) * 2021-07-14 2021-10-15 杭州隆埠科技有限公司 新闻内容的显示方法及装置

Similar Documents

Publication Publication Date Title
CN100476830C (zh) 一种网络资源检索方法及系统
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN103399883B (zh) 根据用户兴趣点/关注点进行个性化推荐的方法和系统
CN101154231B (zh) 一种应用网页语义的方法和系统
CN103186524B (zh) 一种地名识别方法和装置
CN104111941B (zh) 信息展示的方法及设备
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN102253979A (zh) 基于视觉的web页面萃取方法
CN106846061A (zh) 潜在用户挖掘方法以及装置
CN106446195A (zh) 基于人工智能的新闻推荐方法及装置
CN103390044B (zh) 一种连锁类兴趣点数据识别方法及装置
CN102663023A (zh) 一种提取网页内容的实现方法
CN105069087A (zh) 基于Web日志数据挖掘的网站优化方法
CN106250550A (zh) 一种实时关联新闻推荐内容的方法和装置
CN101364979A (zh) 下载资料解析及处理系统及方法
CN103810251B (zh) 一种文本提取方法及装置
CN101853300A (zh) 一种视频下载服务网站的识别、评估方法及系统
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
JP4231298B2 (ja) 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN102207974B (zh) 一种上下文web页面合并方法
CN108829729A (zh) 一种网页解析并采集新闻的方法
CN102955825B (zh) 一种更新输入法词库的方法及系统
CN102053974A (zh) 一种汉字输入方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116

RJ01 Rejection of invention patent application after publication