CN104951512A - 一种基于互联网的舆情数据采集方法及系统 - Google Patents

一种基于互联网的舆情数据采集方法及系统 Download PDF

Info

Publication number
CN104951512A
CN104951512A CN201510280104.7A CN201510280104A CN104951512A CN 104951512 A CN104951512 A CN 104951512A CN 201510280104 A CN201510280104 A CN 201510280104A CN 104951512 A CN104951512 A CN 104951512A
Authority
CN
China
Prior art keywords
public sentiment
website
web
address
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510280104.7A
Other languages
English (en)
Inventor
冯志杰
陈彦舟
李彬
邓明
崔苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201510280104.7A priority Critical patent/CN104951512A/zh
Publication of CN104951512A publication Critical patent/CN104951512A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供了一种基于互联网的舆情数据采集方法及系统,该方法包括:监视网络爬虫的状态,根据网络爬虫的状态调度每个网络爬虫,对预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址,对互联网中其他网站内容的屏蔽;将网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;采用网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取,下载网页内容;为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并存入预设的索引数据库。本发明通过对舆情数据的重点网站进行定向采集、完成对舆情信息的智能搜索,避免爬虫资源的无端浪费,增强舆情数据获取能力。

Description

一种基于互联网的舆情数据采集方法及系统
技术领域
本发明涉及互联网数据采集技术领域,尤其涉及一种基于互联网的舆情数据采集方法及系统。
背景技术
网络舆情是通过互联网传播的,公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的情感、态度、意见、言论或观点,其主要通过论坛BBS上的发帖评论及跟贴、博客Blog等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。而且,互联网成为反映社会舆情的主要载体之一。
目前,大部分部门和企业的舆情监测和管理工作主要依靠人工来完成,人工进行舆情监测面临着舆情信息收集不全、舆情信息发现不及时、舆情信息发现不准确、舆情信息利用不便利等诸多问题。因此,完全靠人工进行舆情信息的收集和上报,消耗大量的时间和精力,而且效果并不理想。
在新的互联网形势下,面对这样的困扰,需要借助互联网舆情监测工具,快速开展大规模舆情监测机制建设,来提高互联网上舆情数据的采集能力和实战部门的情报指导能力。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的基于互联网的舆情数据采集方法及系统。
根据本发明的一个方面,提供了一种基于互联网的舆情数据采集方法,该方法包括:
实时监视各个网络爬虫的状态,根据所述各个网络爬虫的状态调度每个网络爬虫,以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽;
采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址;
将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;
采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取;
为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。
可选的,所述实时监视多个网络爬虫的状态,根据所述网络爬虫的状态调度各个网络爬虫,包括:
根据用户输入的网站网址,预先设置互联网中需要进行网页内容抓取的舆情网站,以及互联网中不需要进行网页内容抓取的网站;
根据用户输入的爬虫设置参数,进行网络爬虫的设置;
实时感知各个网络爬虫的工作状态;
根据各个网络爬虫的工作状态,产生爬虫分类信息,将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来,并分配负担小于第二预设值的爬虫执行所述数据抓取任务;
对所述不需要进行网页内容抓取的网站的地址进行过滤。
可选的,所述采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址,包括:
根据预设条件对所述各预设舆情网站的网页内容进行抓取;
计算抓取到的网页信息与所述预设条件的相似度;
根据相似度大于第三预设值的网页信息生成相应的网站地址。
可选的,所述将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类,包括:
对所述网站地址进行地址类型判断,根据判断结果选择合适的地址解析器进行地址解析,并对解析成功的网站地址进行去重、去噪处理;
对去重、去噪处理后的网站地址进行分类。
可选的,所述采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取,并下载该网页的全文信息,包括:
采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取;
根据所述分类成功的网站地址的地址类型进行下载器选择,利用选出的下载器对所述网页内容进行下载。
可选的,为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库,包括:
为抓取到的对应网站的网页内容建立舆情数据全文索引信息;
将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库;
对所述索引数据库中存储的数据进行统计分析。
根据本发明的另一个方面,提供了一种基于互联网的舆情数据采集系统,所述系统包括数据采集单元和检索分析单元,所述数据采集单元包括爬虫调度子系统和网络爬虫子系统;
爬虫调度子系统,用于实时监视各个网络爬虫的状态,根据所述各个网络爬虫的状态调度每个网络爬虫,以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽;
网络爬虫子系统,用于根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址;将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;所述网络爬虫子系统还用于对分类成功的网站地址对应网站的网页内容进行抓取;
检索分析单元,用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库、该网页的全文索引信息存入预设的索引数据库。
可选的,所述爬虫调度子系统包括:
分类配置模块,用于根据用户输入的网站网址,预先设置互联网中需要进行网页内容抓取的舆情网站,以及互联网中不需要进行网页内容抓取的网站;
爬虫配置模块,用于根据用户输入的爬虫设置参数,进行网络爬虫系统的设置;
状态监视模块,用于实时感知各个网络爬虫的工作状态;
爬虫分配模块,用于根据各个网络爬虫的工作状态,产生爬虫分类信息,将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来,并分配负担小于第二预设值的爬虫执行所述数据抓取任务;
站点过滤模块,用于对所述不需要进行网页内容抓取的网站的地址进行过滤。
可选的,所述网络爬虫子系统,包括:
抓取模块,用于根据预设条件对所述各预设舆情网站的网页内容进行抓取;
计算模块,用于计算抓取到的网页信息与所述预设条件的相似度;
生成模块,用于根据相似度大于第三预设值的网页信息生成相应的网站地址;
地址解析模块,用于对所述网站地址进行地址类型判断,根据判断结果选择合适的地址解析器进行地址解析,并对解析成功的网站地址进行去重、去噪处理;
URL管理模块,用于对去重、去噪处理后的网站地址进行分类和聚类;
所述抓取模块,还用于对分类成功的网站地址对应网站的网页内容进行抓取;
地址下载模块,用于根据所述分类成功的网站地址的地址类型进行下载器选择,利用选出的下载器对所述网页内容进行下载。
可选的,所述检索分析单元,包括:
索引建立模块,用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息。
存储模块,用于将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库;
统计分析模块,用于对所述索引数据库中存储的数据进行统计分析。
本发明的有益效果为:
1、本发明提供的基于互联网的舆情数据采集方法及系统,通过实时感知多个网络爬虫系统的工作状态,指定网络爬虫系统对舆情数据的重点网站进行定向采集,或是让网络爬虫系统屏蔽抓取某网站上的内容,完成对舆情数据的抓取,使得爬虫任务负载均衡,以避免爬虫资源的无端浪费。
2、本发明提供的基于互联网的舆情数据采集方法及系统,对抓取的网站地址信息进行地址解析,对解析成功的地址,进行去重,去噪处理等清洗,对清洗完成的网站地址进行分类,保证舆情数据来源的精准可靠。
3、本发明提供的基于互联网的舆情数据采集方法及系统,通过ETL流程(数据抽取、数据转换、数据装载)将所有采集到的舆情信息进行搜集和存储,以便舆情数据的监控与管理,增强舆情突发事件和情报的获取能力。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提出的一种基于互联网的舆情数据采集方法的流程图;
图2为本发明实施例提出的一种基于互联网的舆情数据采集系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
基于互联网的舆情数据采集技术,是一种采用网络爬虫技术的互联网基础数据采集机制。它是通过一系列程序规则、文本、信息,在不同执行者之间进行传递的方式加以执行,用户可以应用此系统,进行舆情信息的实时监控、逐级上报、内容审批等操作。从而保证了舆情信息监控范围的全面性,舆情数据更新的及时性、以及舆情监控工作的高效性。为此,本发明实施例提出一种基于互联网的舆情数据采集方法及系统。
图1示出了本发明实施例的一种基于互联网的舆情数据采集方法的流程图。
参照图1,本发明实施例提出的基于互联网的舆情数据采集方法包括:
S11、实时监视各个网络爬虫的状态,根据所述各个网络爬虫的状态调度每个网络爬虫,以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽;
本步骤中,通过实时监视各个网络爬虫的状态,分配空闲爬虫系统抓取任务,屏蔽对互联网中其他网站内容抓取,如果某个爬虫系统负担过重,爬虫调度系统会分配其它网络爬虫系统,进行网站内容的抓取;而且通过对预设舆情网站内容进行抓取或是让爬虫系统屏蔽抓取某网站上的内容,以避免爬虫资源的无端浪费。
S12、采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址;
本步骤中,采用网络爬虫对互联网舆情数据进行数据采集,这些数据可以包括新闻、论坛、博客、贴吧等舆情网站地址信息,工作原理是:抓取在一定链接距离内与初始URL主题相关性概率最大的网页,从而获取系统所需要的信息。网络爬虫将采集上来的舆情网站数据,提取成为相应的网站地址信息。
S13、将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;
S14、采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取;
S15、为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。
本步骤中,为网站内容信息建立舆情数据的索引信息,这些信息是全文索引信息。将建立好的索引信息存入指定的索引数据库。用户可以根据需求从索引数据库中读取对应的网站舆情数据。
在本发明实施例中,所述步骤S11实时监视多个网络爬虫的状态,根据所述网络爬虫的状态调度各个网络爬虫,包括:
根据用户输入的网站网址,预先设置互联网中需要进行网页内容抓取的舆情网站,以及互联网中不需要进行网页内容抓取的网站;
根据用户输入的爬虫设置参数,进行网络爬虫的设置;
实时感知各个网络爬虫的工作状态;
根据各个网络爬虫的工作状态,产生爬虫分类信息,将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来,并分配负担小于第二预设值的爬虫执行所述数据抓取任务;
对所述不需要进行网页内容抓取的网站的地址进行过滤。
本发明实施例中通过感应器,实时感知多个网络爬虫系统的工作状态,将负担过重的爬虫从数据抓取任务中解放出来,并通过爬虫分配模块安排其它空闲爬虫进行抓取任务,产生爬虫分类信息。接收用户输入的所要获取信息的具体网站信息,通过提供输入网站网址的接口,用户可以输入具体的URL网址。接收用户输入的设定具体的爬虫参数,爬虫调用系统根据具体用户参数为用户分配符合用户需求的爬虫系统,对指定的网站进行信息抓取。保存用户指定网站的网址信息。用户可以通过输入需要屏蔽抓取的具体网站,当用户认为该网站并不是其要抓取的舆情信息的对象,可以通过该模块告知爬虫调用系统。
在本发明实施例中,所述步骤S12采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址,包括:
根据预设条件对所述各预设舆情网站的网页内容进行抓取;
计算抓取到的网页信息与所述预设条件的相似度;
根据相似度大于第三预设值的网页信息生成相应的网站地址。
本发明实施例,根据预设条件从新闻、微博、云平台网站采集相关网站地址内容,将采集成功的地址信息,通过计算与用户指定网站地址的相似度,判断是否与用户指定网站地址匹配,过滤、删除与用户指定网站地址不符的网页信息,保留与用户指定网站地址匹配的网站信息,利用这些网站信息生成真实地址,进一步包括:首先,生成一级地址;再按照入口地址生成规则生成相关插件,由插件将一级地址生成网页真实地址。
进一步地,所述步骤S13将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类,包括:
对所述网站地址进行地址类型判断,根据判断结果选择合适的地址解析器进行地址解析,并对解析成功的网站地址进行去重、去噪处理;
对去重、去噪处理后的网站地址进行分类。
本发明实施例中,通过对上一步骤中生成的真实地址进行地址解析:地址解析模块由若干地址解析器组成,这些解析器包括:Dom树解析器、样式表解析器、JS解析器。网站地址进行地址类型判断,选择合适的地址解析器进行地址解析。对解析成功的地址进行分类管理,具体利用贝叶斯分类算法进行分类,将生成的真实地址进行去重、去噪处理。
进一步地,所述步骤S14采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取,包括:
采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取;
根据所述分类成功的网站地址的地址类型进行下载器选择,利用选出的下载器对所述网页的内容(全文信息)进行下载。
本发明实施例中,所述分类成功的网站地址的地址类型进行下载器选择,从自带的下载器中选择出合适的下载器,通过http模拟线程,从清洗完成的网站地址上,下载相关的舆情网站内容。
进一步地,所述步骤S15为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库,舆情数据全文索引信息存入预设的索引数据库,包括:
为抓取到的对应网站的网页内容建立的舆情数据全文索引信息;
将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库;
对所述索引数据库中存储的数据进行统计分析。
本发明实施例中,首先,对文章内容进行切分,提取关键词。采用倒排索引的方式建立索引,生成索引信息,该信息为全文索引信息,并将所述抓取到的对应网站的网页内容以及舆情数据全文索引信息存放于索引数据库中。对索引数据库中的数据进行统计分析,统计关键词出现的个数,将出现频率较高的词,建立映射。排列在列表前,以方便用户检索。
本发明实施例提供的基于互联网的舆情数据采集方法,通过实时感知多个网络爬虫系统的工作状态,指定网络爬虫系统对舆情数据的重点网站进行定向采集,或是让网络爬虫系统屏蔽抓取某网站上的内容,完成对舆情数据的抓取,使得爬虫任务负载均衡,以避免爬虫资源的无端浪费,并通过ETL流程(数据抽取、数据转换、数据装载)将所有采集到的舆情信息进行搜集和存储,以便舆情数据的监控与管理,增强舆情突发事件和情报的获取能力。
图2示出了本发明实施例的一种基于互联网的舆情数据采集系统的结构框图。
参照图2,本发明实施例提出的基于互联网的舆情数据采集系统包括数据采集单元100和检索分析单元200,所述数据采集单元100包括爬虫调度子系统110和网络爬虫子系统120;
所述的爬虫调度子系统110,用于实时监视各个网络爬虫的状态,根据所述各个网络爬虫的状态调度每个网络爬虫,以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽;
所述的网络爬虫子系统120,用于根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址;将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;所述网络爬虫子系统还用于对分类成功的网站地址对应网站的网页内容进行抓取,并下载该网页的全文信息;
所述的检索分析单元200,用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库,舆情数据全文索引信息存入预设的索引数据库。
本发明实施例中,数据采集单元的主要功能是对互联网的舆情信息进行采集和抓取,舆情信息包括:新闻、论坛、博客、贴吧等固定互联网网站的舆情信息。抓取的方式是网络爬虫数据采集方式,它的工作原理是:抓取在一定链接距离内与初始URL主题相关性概率最大的网页,从而获取系统所需要的信息。数据采集单元包括多个网络爬虫子系统和1个网络爬虫调度系统。
本发明实施例中,所述爬虫调度子系统110包括:
分类配置模块,用于根据用户输入的网站网址,预先设置互联网中需要进行网页内容抓取的舆情网站,以及互联网中不需要进行网页内容抓取的网站;实现与用户之间的人机交互,该模块提供用户输入网站网址的接口,用于根据用户输入的网站网址,预先设置互联网中需要进行网页内容抓取的舆情网站,以及互联网中不需要进行网页内容抓取的网站。
爬虫配置模块,用于根据用户输入的爬虫设置参数,进行网络爬虫系统的设置;用户通过爬虫配置模块,设定具体的爬虫参数,该模块会根据具体的参数值自动为用户分配合理数量的爬虫系统,生成相应的爬虫配置信息。
状态监视模块,用于实时感知各个网络爬虫的工作状态;状态监视模块监视该爬虫的运行状态,该爬虫负载过大,该状态模块会及时通知爬虫调度系统,重新分配爬虫系统,使得爬虫任务负载均衡。
爬虫分配模块,用于根据各个网络爬虫的工作状态,产生爬虫分类信息,将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来,并分配负担小于第二预设值的爬虫执行所述数据抓取任务;实现爬虫系统之间抓取任务分配,接收到状态控制模块任务过载的爬虫子系统编号,分配其他空闲爬虫系统进行网页抓取。
站点过滤模块,用于对所述不需要进行网页内容抓取的网站的地址进行过滤。过滤掉用户指定需要屏蔽的网站内容,避免爬虫程序无端浪费网络资源等情况的发生。
进一步地,所述爬虫调度子系统110还包括:站点历史浏览模块:用来保存用户输入的网址信息、保存历史抓取网站浏览记录。
本发明实施例中,所述网络爬虫子系统120,包括:
抓取模块,用于根据预设条件对所述各预设舆情网站的网页内容进行抓取;抓取模块对外部网站进行舆情数据的采集,该模块包含网址搜索引擎、网络爬虫抓取程序。
计算模块,用于计算抓取到的网页信息与所述预设条件的相似度;对用户指定信息与抓取到的网页信息进行内容相似度的计算,从而过滤、删除与主题无关(用户指定信息不符)的网页信息,保留与主题有关的网页信息,这些网页信息生成被称为过滤后的网页站点配置信息。
生成模块,用于根据相似度大于第三预设值的网页信息生成相应的网站地址;具体包括:生成网页一级地址,按照入口地址生成规则生成相关插架,由插件将网页一级地址生成网页真实地址。
地址解析模块,用于对所述网站地址进行地址类型判断,根据判断结果选择合适的地址解析器进行地址解析,并对解析成功的网站地址进行去重、去噪处理;
URL管理模块,用于对去重、去噪处理后的网站地址进行分类和聚类;
所述抓取模块,还用于对分类成功的网站地址对应网站的网页内容进行抓取;
地址下载模块,用于根据所述分类成功的网站地址的地址类型进行下载器选择,利用选出的下载器对所述网页的内容进行下载。通过对分类成功的真实网页地址的地址类型进行分析,选择合适的下载器,对每个网页中的舆情内容信息进行下载。
本发明实施例中,检索分析单元的主要功能是对抓取后的舆情数据提供数据管理与分析功能。用户可以按照预设的关键词对数据进行分类管理,并对某个分类数据或是某个关键词数据进行统计分析,对采集进来的数据进行数据存储、数据预处理、建立数据索引库、进行数据统计与分析等任务操作。所述检索分析单元200,包括:
索引建立模块,用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息,实现数据和全文信息建立索引功能,以方便用户对所需的舆情信息进行检索查询。
存储模块,用于将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。
统计分析模块,用于对所述索引数据库中存储的数据进行统计分析。
综上所述,本发明实施例提供的基于互联网的舆情数据采集方法及系统,通过实时感知多个网络爬虫系统的工作状态,指定网络爬虫系统对舆情数据的重点网站进行定向采集,或是让网络爬虫系统屏蔽抓取某网站上的内容,完成对舆情数据的抓取,使得爬虫任务负载均衡,以避免爬虫资源的无端浪费;对抓取的网站地址信息进行地址解析,对解析成功的地址,进行去重,去噪处理等清洗,对清洗完成的网站地址进行分类,保证舆情数据来源的精准可靠;并通过ETL流程(数据抽取、数据转换、数据装载)将所有采集到的舆情信息进行搜集和存储,以便舆情数据的监控与管理,增强舆情突发事件和情报的获取能力。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的基站中的模块可以按照实施例描述进行分布于实施例的基站中,也可以进行相应变化位于不同于本实施例的一个或多个基站中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于互联网的舆情数据采集方法,其特征在于,所述方法包括:
实时监视各个网络爬虫的状态,根据所述各个网络爬虫的状态调度每个网络爬虫,以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽;
采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址;
将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;
采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取;
为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。
2.根据权利要求1所述的方法,其特征在于,所述实时监视多个网络爬虫的状态,根据所述网络爬虫的状态调度各个网络爬虫,包括:
根据用户输入的网站网址,预先设置互联网中需要进行网页内容抓取的舆情网站,以及互联网中不需要进行网页内容抓取的网站;
根据用户输入的爬虫设置参数,进行网络爬虫的设置;
实时感知各个网络爬虫的工作状态;
根据各个网络爬虫的工作状态,产生爬虫分类信息,将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来,并分配负担小于第二预设值的爬虫执行所述数据抓取任务;
对所述不需要进行网页内容抓取的网站的地址进行过滤。
3.根据权利要求1或2所述的方法,其特征在于,所述采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址,包括:
根据预设条件对所述各预设舆情网站的网页内容进行抓取;
计算抓取到的网页信息与所述预设条件的相似度;
根据相似度大于第三预设值的网页信息生成相应的网站地址。
4.根据权利要求1或2所述的方法,其特征在于,所述将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类,包括:
对所述网站地址进行地址类型判断,根据判断结果选择合适的地址解析器进行地址解析,并对解析成功的网站地址进行去重、去噪处理;
对去重、去噪处理后的网站地址进行分类。
5.根据权利要求4所述的方法,其特征在于,所述采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取,包括:
采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取;
根据所述分类成功的网站地址的地址类型进行下载器选择,利用选出的下载器对所述网页的内容进行下载。
6.根据权利要求1所述的方法,其特征在于,所述为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库,包括:
为抓取到的对应网站的网页内容建立舆情数据全文索引信息;
将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库;
对所述索引数据库中存储的数据进行统计分析。
7.一种基于互联网的舆情数据采集系统,其特征在于,所述系统包括数据采集单元和检索分析单元,所述数据采集单元包括爬虫调度子系统和网络爬虫子系统;
爬虫调度子系统,用于实时监视各个网络爬虫的状态,根据所述各个网络爬虫的状态调度每个网络爬虫,以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽;
网络爬虫子系统,用于根据预设条件对所述各预设舆情网站的网页内容进行抓取,并从抓取到的数据中提取相应的网站地址;将所述网站地址进行地址解析,对解析成功的网站地址去重、去噪处理后进行分类;所述网络爬虫子系统还用于对分类成功的网站地址对应网站的网页内容进行抓取;
检索分析单元,用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息,并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。
8.根据权利要求7所述的系统,其特征在于,所述爬虫调度子系统包括:
分类配置模块,用于根据用户输入的网站网址,预先设置互联网中需要进行网页内容抓取的舆情网站,以及互联网中不需要进行网页内容抓取的网站;
爬虫配置模块,用于根据用户输入的爬虫设置参数,进行网络爬虫系统的设置;
状态监视模块,用于实时感知各个网络爬虫的工作状态;
爬虫分配模块,用于根据各个网络爬虫的工作状态,产生爬虫分类信息,将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来,并分配负担小于第二预设值的爬虫执行所述数据抓取任务;
站点过滤模块,用于对所述不需要进行网页内容抓取的网站的地址进行过滤。
9.根据权利要求7或8所述的系统,其特征在于,所述网络爬虫子系统,包括:
抓取模块,用于根据预设条件对所述各预设舆情网站的网页内容进行抓取;
计算模块,用于计算抓取到的网页信息与所述预设条件的相似度;
生成模块,用于根据相似度大于第三预设值的网页信息生成相应的网站地址;
地址解析模块,用于对所述网站地址进行地址类型判断,根据判断结果选择合适的地址解析器进行地址解析,并对解析成功的网站地址进行去重、去噪处理;
URL管理模块,用于对去重、去噪处理后的网站地址进行分类;
所述抓取模块,还用于对分类成功的网站地址对应网站的网页内容进行抓取;
地址下载模块,用于根据所述分类成功的网站地址的地址类型进行下载器选择,利用选出的下载器对所述网页内容进行下载。
10.根据权利要求7所述的系统,其特征在于,所述检索分析单元,包括:
索引建立模块,用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息;
存储模块,用于将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库;
统计分析模块,用于对所述索引数据库中存储的数据进行统计分析。
CN201510280104.7A 2015-05-27 2015-05-27 一种基于互联网的舆情数据采集方法及系统 Pending CN104951512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510280104.7A CN104951512A (zh) 2015-05-27 2015-05-27 一种基于互联网的舆情数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510280104.7A CN104951512A (zh) 2015-05-27 2015-05-27 一种基于互联网的舆情数据采集方法及系统

Publications (1)

Publication Number Publication Date
CN104951512A true CN104951512A (zh) 2015-09-30

Family

ID=54166170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510280104.7A Pending CN104951512A (zh) 2015-05-27 2015-05-27 一种基于互联网的舆情数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN104951512A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956069A (zh) * 2016-04-28 2016-09-21 优品财富管理有限公司 一种网络资讯的采集和分析方法及系统
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN106326447A (zh) * 2016-08-26 2017-01-11 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
CN106528510A (zh) * 2016-11-18 2017-03-22 山东浪潮云服务信息科技有限公司 一种数据处理的方法及装置
CN107220297A (zh) * 2017-05-02 2017-09-29 北京大学 面向软件项目的多源异构数据自动收集方法及系统
CN107239563A (zh) * 2017-06-13 2017-10-10 成都布林特信息技术有限公司 舆情信息动态监控方法
WO2017177872A1 (zh) * 2016-04-11 2017-10-19 中兴通讯股份有限公司 数据的收集方法及装置、存储介质
CN107329970A (zh) * 2017-05-23 2017-11-07 成都联宇云安科技有限公司 一种针对手机管控系统舆情大数据进行分析处理的方法
CN108153741A (zh) * 2018-01-12 2018-06-12 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN108549707A (zh) * 2018-04-18 2018-09-18 安徽智网信息科技有限公司 一种基于行为感知的大数据提取系统及方法
CN108874925A (zh) * 2018-05-31 2018-11-23 深圳市酷达通讯有限公司 一种分布式垂直爬虫方法及终端设备
CN109325161A (zh) * 2018-09-11 2019-02-12 五八有限公司 舆情数据抓取方法、装置、设备及存储介质
CN109543103A (zh) * 2018-11-14 2019-03-29 深圳市中易科技有限责任公司 一种基于分布式数据收集的方法
CN109766403A (zh) * 2019-01-18 2019-05-17 郑州轻工业学院 一种互联网位置图片数据的获取方法与装置
CN109885744A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统、计算机设备及存储介质
CN110110156A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 行业舆情监控方法、装置、计算机设备及存储介质
CN110134844A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 细分领域舆情监控方法、装置、计算机设备及存储介质
CN110147362A (zh) * 2019-04-04 2019-08-20 中电科大数据研究院有限公司 一种基于事件驱动的公文数据采集和处理系统及其方法
CN110321916A (zh) * 2018-03-30 2019-10-11 松下电器(美国)知识产权公司 学习数据制作方法、学习方法、危险预测方法及装置、程序存储介质
CN110765121A (zh) * 2019-10-31 2020-02-07 太原蓝知科技有限公司 一种大数据智能采集处理方法和系统
CN110795664A (zh) * 2019-10-12 2020-02-14 广州番禺职业技术学院 一种高校舆情监控招生决策方法、装置、设备及存储介质
CN110874434A (zh) * 2018-08-31 2020-03-10 珠海格力电器股份有限公司 网页数据采集方法、装置、存储介质及电子设备
CN111797297A (zh) * 2020-09-09 2020-10-20 平安国际智慧城市科技股份有限公司 页面数据处理方法、装置、计算机设备及存储介质
CN111966879A (zh) * 2020-08-17 2020-11-20 华南师范大学 一种疫情新闻信息提取方法及系统
CN112632356A (zh) * 2020-12-25 2021-04-09 深圳市高德信通信股份有限公司 一种网络信息数据分类采集方法
CN113312343A (zh) * 2021-06-11 2021-08-27 北京思特奇信息技术股份有限公司 一种基于网络爬虫工具的商机管理方法和系统
CN113554538A (zh) * 2021-05-28 2021-10-26 四川社智雲科技有限公司 一种用于城乡社区治理的数字信息一体化系统
CN115329179A (zh) * 2022-10-14 2022-11-11 卡奥斯工业智能研究院(青岛)有限公司 数据采集资源量控制方法、装置、设备及存储介质
CN116861058A (zh) * 2023-09-04 2023-10-10 浪潮软件股份有限公司 应用于政务领域的舆情监测系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫系统
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫系统
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017177872A1 (zh) * 2016-04-11 2017-10-19 中兴通讯股份有限公司 数据的收集方法及装置、存储介质
CN105956069A (zh) * 2016-04-28 2016-09-21 优品财富管理有限公司 一种网络资讯的采集和分析方法及系统
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN106096056B (zh) * 2016-06-30 2019-11-26 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN106326447A (zh) * 2016-08-26 2017-01-11 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
CN106528510A (zh) * 2016-11-18 2017-03-22 山东浪潮云服务信息科技有限公司 一种数据处理的方法及装置
CN107220297A (zh) * 2017-05-02 2017-09-29 北京大学 面向软件项目的多源异构数据自动收集方法及系统
CN107220297B (zh) * 2017-05-02 2020-11-20 北京大学 面向软件项目的多源异构数据自动收集方法及系统
CN107329970A (zh) * 2017-05-23 2017-11-07 成都联宇云安科技有限公司 一种针对手机管控系统舆情大数据进行分析处理的方法
CN107239563A (zh) * 2017-06-13 2017-10-10 成都布林特信息技术有限公司 舆情信息动态监控方法
CN108153741A (zh) * 2018-01-12 2018-06-12 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN108153741B (zh) * 2018-01-12 2021-10-15 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN110321916A (zh) * 2018-03-30 2019-10-11 松下电器(美国)知识产权公司 学习数据制作方法、学习方法、危险预测方法及装置、程序存储介质
CN110321916B (zh) * 2018-03-30 2024-04-09 松下电器(美国)知识产权公司 学习数据制作方法、学习方法、危险预测方法及装置、程序存储介质
CN108549707A (zh) * 2018-04-18 2018-09-18 安徽智网信息科技有限公司 一种基于行为感知的大数据提取系统及方法
CN108874925A (zh) * 2018-05-31 2018-11-23 深圳市酷达通讯有限公司 一种分布式垂直爬虫方法及终端设备
CN110874434A (zh) * 2018-08-31 2020-03-10 珠海格力电器股份有限公司 网页数据采集方法、装置、存储介质及电子设备
CN109325161A (zh) * 2018-09-11 2019-02-12 五八有限公司 舆情数据抓取方法、装置、设备及存储介质
CN109543103A (zh) * 2018-11-14 2019-03-29 深圳市中易科技有限责任公司 一种基于分布式数据收集的方法
CN109885744A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统、计算机设备及存储介质
CN109766403A (zh) * 2019-01-18 2019-05-17 郑州轻工业学院 一种互联网位置图片数据的获取方法与装置
CN110134844A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 细分领域舆情监控方法、装置、计算机设备及存储介质
CN110147362A (zh) * 2019-04-04 2019-08-20 中电科大数据研究院有限公司 一种基于事件驱动的公文数据采集和处理系统及其方法
CN110110156A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 行业舆情监控方法、装置、计算机设备及存储介质
CN110795664A (zh) * 2019-10-12 2020-02-14 广州番禺职业技术学院 一种高校舆情监控招生决策方法、装置、设备及存储介质
CN110765121A (zh) * 2019-10-31 2020-02-07 太原蓝知科技有限公司 一种大数据智能采集处理方法和系统
CN110765121B (zh) * 2019-10-31 2022-09-20 上海意臣信息科技有限公司 一种大数据智能采集处理方法和系统
CN111966879A (zh) * 2020-08-17 2020-11-20 华南师范大学 一种疫情新闻信息提取方法及系统
CN111966879B (zh) * 2020-08-17 2023-08-08 华南师范大学 一种疫情新闻信息提取方法及系统
CN111797297A (zh) * 2020-09-09 2020-10-20 平安国际智慧城市科技股份有限公司 页面数据处理方法、装置、计算机设备及存储介质
CN112632356A (zh) * 2020-12-25 2021-04-09 深圳市高德信通信股份有限公司 一种网络信息数据分类采集方法
CN113554538A (zh) * 2021-05-28 2021-10-26 四川社智雲科技有限公司 一种用于城乡社区治理的数字信息一体化系统
CN113312343A (zh) * 2021-06-11 2021-08-27 北京思特奇信息技术股份有限公司 一种基于网络爬虫工具的商机管理方法和系统
CN115329179A (zh) * 2022-10-14 2022-11-11 卡奥斯工业智能研究院(青岛)有限公司 数据采集资源量控制方法、装置、设备及存储介质
CN115329179B (zh) * 2022-10-14 2023-04-28 卡奥斯工业智能研究院(青岛)有限公司 数据采集资源量控制方法、装置、设备及存储介质
CN116861058A (zh) * 2023-09-04 2023-10-10 浪潮软件股份有限公司 应用于政务领域的舆情监测系统及方法
CN116861058B (zh) * 2023-09-04 2024-04-12 浪潮软件股份有限公司 应用于政务领域的舆情监测系统及方法

Similar Documents

Publication Publication Date Title
CN104951512A (zh) 一种基于互联网的舆情数据采集方法及系统
US20180150562A1 (en) System and Method for Automatically Extracting and Analyzing Data
CN103778148B (zh) Hadoop分布式文件系统数据文件的生命周期管理方法和设备
US20110087644A1 (en) Enterprise node rank engine
US9996588B2 (en) Managing a search
KR20160075971A (ko) 공공민원 데이터 서비스를 위한 빅 데이터 관리시스템
CN105468744B (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN102902775B (zh) 互联网实时计算的方法和系统
CN101963965B (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN104077402A (zh) 数据处理方法和数据处理系统
CN103838867A (zh) 日志处理方法和装置
CN104504150A (zh) 新闻舆情监测系统
CN103139256B (zh) 一种多租户网络舆情监控方法及系统
CN102542061B (zh) 一种产品的智能分类方法
CN104899199A (zh) 一种数据仓库数据处理方法和系统
CN108039959A (zh) 一种数据的态势感知方法、系统及相关装置
WO2014031616A1 (en) Enterprise data processing
CN103942210A (zh) 海量日志信息的处理方法、装置与系统
US10095775B1 (en) Gap identification in corpora
CN104063390A (zh) 一种微博数据处理方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN104182465A (zh) 一种基于网络的大数据处理方法
CN103177022A (zh) 一种恶意文件搜索方法及装置
CN106055546A (zh) 基于Lucene的光盘库全文检索系统
CN103164491B (zh) 一种数据处理和检索的方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150930