CN104951512A

CN104951512A - 一种基于互联网的舆情数据采集方法及系统

Info

Publication number: CN104951512A
Application number: CN201510280104.7A
Authority: CN
Inventors: 冯志杰; 陈彦舟; 李彬; 邓明; 崔苏
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2015-09-30

Abstract

本发明提供了一种基于互联网的舆情数据采集方法及系统，该方法包括：监视网络爬虫的状态，根据网络爬虫的状态调度每个网络爬虫，对预设舆情网站的网页内容进行抓取，并从抓取到的数据中提取相应的网站地址，对互联网中其他网站内容的屏蔽；将网站地址进行地址解析，对解析成功的网站地址去重、去噪处理后进行分类；采用网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取，下载网页内容；为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并存入预设的索引数据库。本发明通过对舆情数据的重点网站进行定向采集、完成对舆情信息的智能搜索，避免爬虫资源的无端浪费，增强舆情数据获取能力。

Description

一种基于互联网的舆情数据采集方法及系统

技术领域

本发明涉及互联网数据采集技术领域，尤其涉及一种基于互联网的舆情数据采集方法及系统。

背景技术

网络舆情是通过互联网传播的，公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的情感、态度、意见、言论或观点，其主要通过论坛BBS上的发帖评论及跟贴、博客Blog等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点，越来越多的网民乐意通过这种渠道来表达观点、传播思想。而且，互联网成为反映社会舆情的主要载体之一。

目前，大部分部门和企业的舆情监测和管理工作主要依靠人工来完成，人工进行舆情监测面临着舆情信息收集不全、舆情信息发现不及时、舆情信息发现不准确、舆情信息利用不便利等诸多问题。因此，完全靠人工进行舆情信息的收集和上报，消耗大量的时间和精力，而且效果并不理想。

在新的互联网形势下，面对这样的困扰，需要借助互联网舆情监测工具，快速开展大规模舆情监测机制建设，来提高互联网上舆情数据的采集能力和实战部门的情报指导能力。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的基于互联网的舆情数据采集方法及系统。

根据本发明的一个方面，提供了一种基于互联网的舆情数据采集方法，该方法包括：

实时监视各个网络爬虫的状态，根据所述各个网络爬虫的状态调度每个网络爬虫，以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽；

采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取，并从抓取到的数据中提取相应的网站地址；

将所述网站地址进行地址解析，对解析成功的网站地址去重、去噪处理后进行分类；

采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取；

为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。

可选的，所述实时监视多个网络爬虫的状态，根据所述网络爬虫的状态调度各个网络爬虫，包括：

根据用户输入的网站网址，预先设置互联网中需要进行网页内容抓取的舆情网站，以及互联网中不需要进行网页内容抓取的网站；

根据用户输入的爬虫设置参数，进行网络爬虫的设置；

实时感知各个网络爬虫的工作状态；

根据各个网络爬虫的工作状态，产生爬虫分类信息，将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来，并分配负担小于第二预设值的爬虫执行所述数据抓取任务；

对所述不需要进行网页内容抓取的网站的地址进行过滤。

可选的，所述采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取，并从抓取到的数据中提取相应的网站地址，包括：

根据预设条件对所述各预设舆情网站的网页内容进行抓取；

计算抓取到的网页信息与所述预设条件的相似度；

根据相似度大于第三预设值的网页信息生成相应的网站地址。

可选的，所述将所述网站地址进行地址解析，对解析成功的网站地址去重、去噪处理后进行分类，包括：

对所述网站地址进行地址类型判断，根据判断结果选择合适的地址解析器进行地址解析，并对解析成功的网站地址进行去重、去噪处理；

对去重、去噪处理后的网站地址进行分类。

可选的，所述采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取，并下载该网页的全文信息，包括：

根据所述分类成功的网站地址的地址类型进行下载器选择，利用选出的下载器对所述网页内容进行下载。

可选的，为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库，包括：

为抓取到的对应网站的网页内容建立舆情数据全文索引信息；

将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库；

对所述索引数据库中存储的数据进行统计分析。

根据本发明的另一个方面，提供了一种基于互联网的舆情数据采集系统，所述系统包括数据采集单元和检索分析单元，所述数据采集单元包括爬虫调度子系统和网络爬虫子系统；

爬虫调度子系统，用于实时监视各个网络爬虫的状态，根据所述各个网络爬虫的状态调度每个网络爬虫，以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽；

网络爬虫子系统，用于根据预设条件对所述各预设舆情网站的网页内容进行抓取，并从抓取到的数据中提取相应的网站地址；将所述网站地址进行地址解析，对解析成功的网站地址去重、去噪处理后进行分类；所述网络爬虫子系统还用于对分类成功的网站地址对应网站的网页内容进行抓取；

检索分析单元，用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并将所述网页内容存入预设的内容数据库、该网页的全文索引信息存入预设的索引数据库。

可选的，所述爬虫调度子系统包括：

分类配置模块，用于根据用户输入的网站网址，预先设置互联网中需要进行网页内容抓取的舆情网站，以及互联网中不需要进行网页内容抓取的网站；

爬虫配置模块，用于根据用户输入的爬虫设置参数，进行网络爬虫系统的设置；

状态监视模块，用于实时感知各个网络爬虫的工作状态；

爬虫分配模块，用于根据各个网络爬虫的工作状态，产生爬虫分类信息，将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来，并分配负担小于第二预设值的爬虫执行所述数据抓取任务；

站点过滤模块，用于对所述不需要进行网页内容抓取的网站的地址进行过滤。

可选的，所述网络爬虫子系统，包括：

抓取模块，用于根据预设条件对所述各预设舆情网站的网页内容进行抓取；

计算模块，用于计算抓取到的网页信息与所述预设条件的相似度；

生成模块，用于根据相似度大于第三预设值的网页信息生成相应的网站地址；

地址解析模块，用于对所述网站地址进行地址类型判断，根据判断结果选择合适的地址解析器进行地址解析，并对解析成功的网站地址进行去重、去噪处理；

URL管理模块，用于对去重、去噪处理后的网站地址进行分类和聚类；

所述抓取模块，还用于对分类成功的网站地址对应网站的网页内容进行抓取；

地址下载模块，用于根据所述分类成功的网站地址的地址类型进行下载器选择，利用选出的下载器对所述网页内容进行下载。

可选的，所述检索分析单元，包括：

索引建立模块，用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息。

存储模块，用于将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库；

统计分析模块，用于对所述索引数据库中存储的数据进行统计分析。

本发明的有益效果为：

1、本发明提供的基于互联网的舆情数据采集方法及系统，通过实时感知多个网络爬虫系统的工作状态，指定网络爬虫系统对舆情数据的重点网站进行定向采集，或是让网络爬虫系统屏蔽抓取某网站上的内容，完成对舆情数据的抓取，使得爬虫任务负载均衡，以避免爬虫资源的无端浪费。

2、本发明提供的基于互联网的舆情数据采集方法及系统，对抓取的网站地址信息进行地址解析，对解析成功的地址，进行去重，去噪处理等清洗，对清洗完成的网站地址进行分类，保证舆情数据来源的精准可靠。

3、本发明提供的基于互联网的舆情数据采集方法及系统，通过ETL流程(数据抽取、数据转换、数据装载)将所有采集到的舆情信息进行搜集和存储，以便舆情数据的监控与管理，增强舆情突发事件和情报的获取能力。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提出的一种基于互联网的舆情数据采集方法的流程图；

图2为本发明实施例提出的一种基于互联网的舆情数据采集系统的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

基于互联网的舆情数据采集技术，是一种采用网络爬虫技术的互联网基础数据采集机制。它是通过一系列程序规则、文本、信息，在不同执行者之间进行传递的方式加以执行，用户可以应用此系统，进行舆情信息的实时监控、逐级上报、内容审批等操作。从而保证了舆情信息监控范围的全面性，舆情数据更新的及时性、以及舆情监控工作的高效性。为此，本发明实施例提出一种基于互联网的舆情数据采集方法及系统。

图1示出了本发明实施例的一种基于互联网的舆情数据采集方法的流程图。

参照图1，本发明实施例提出的基于互联网的舆情数据采集方法包括：

S11、实时监视各个网络爬虫的状态，根据所述各个网络爬虫的状态调度每个网络爬虫，以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽；

本步骤中，通过实时监视各个网络爬虫的状态，分配空闲爬虫系统抓取任务，屏蔽对互联网中其他网站内容抓取，如果某个爬虫系统负担过重，爬虫调度系统会分配其它网络爬虫系统，进行网站内容的抓取；而且通过对预设舆情网站内容进行抓取或是让爬虫系统屏蔽抓取某网站上的内容，以避免爬虫资源的无端浪费。

S12、采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取，并从抓取到的数据中提取相应的网站地址；

本步骤中，采用网络爬虫对互联网舆情数据进行数据采集，这些数据可以包括新闻、论坛、博客、贴吧等舆情网站地址信息，工作原理是：抓取在一定链接距离内与初始URL主题相关性概率最大的网页，从而获取系统所需要的信息。网络爬虫将采集上来的舆情网站数据，提取成为相应的网站地址信息。

S13、将所述网站地址进行地址解析，对解析成功的网站地址去重、去噪处理后进行分类；

S14、采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取；

S15、为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。

本步骤中，为网站内容信息建立舆情数据的索引信息，这些信息是全文索引信息。将建立好的索引信息存入指定的索引数据库。用户可以根据需求从索引数据库中读取对应的网站舆情数据。

在本发明实施例中，所述步骤S11实时监视多个网络爬虫的状态，根据所述网络爬虫的状态调度各个网络爬虫，包括：

根据用户输入的爬虫设置参数，进行网络爬虫的设置；

实时感知各个网络爬虫的工作状态；

对所述不需要进行网页内容抓取的网站的地址进行过滤。

本发明实施例中通过感应器，实时感知多个网络爬虫系统的工作状态，将负担过重的爬虫从数据抓取任务中解放出来，并通过爬虫分配模块安排其它空闲爬虫进行抓取任务，产生爬虫分类信息。接收用户输入的所要获取信息的具体网站信息，通过提供输入网站网址的接口，用户可以输入具体的URL网址。接收用户输入的设定具体的爬虫参数，爬虫调用系统根据具体用户参数为用户分配符合用户需求的爬虫系统，对指定的网站进行信息抓取。保存用户指定网站的网址信息。用户可以通过输入需要屏蔽抓取的具体网站，当用户认为该网站并不是其要抓取的舆情信息的对象，可以通过该模块告知爬虫调用系统。

在本发明实施例中，所述步骤S12采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取，并从抓取到的数据中提取相应的网站地址，包括：

根据预设条件对所述各预设舆情网站的网页内容进行抓取；

计算抓取到的网页信息与所述预设条件的相似度；

本发明实施例，根据预设条件从新闻、微博、云平台网站采集相关网站地址内容，将采集成功的地址信息，通过计算与用户指定网站地址的相似度，判断是否与用户指定网站地址匹配，过滤、删除与用户指定网站地址不符的网页信息，保留与用户指定网站地址匹配的网站信息，利用这些网站信息生成真实地址，进一步包括：首先，生成一级地址；再按照入口地址生成规则生成相关插件，由插件将一级地址生成网页真实地址。

进一步地，所述步骤S13将所述网站地址进行地址解析，对解析成功的网站地址去重、去噪处理后进行分类，包括：

对去重、去噪处理后的网站地址进行分类。

本发明实施例中，通过对上一步骤中生成的真实地址进行地址解析：地址解析模块由若干地址解析器组成，这些解析器包括：Dom树解析器、样式表解析器、JS解析器。网站地址进行地址类型判断，选择合适的地址解析器进行地址解析。对解析成功的地址进行分类管理，具体利用贝叶斯分类算法进行分类，将生成的真实地址进行去重、去噪处理。

进一步地，所述步骤S14采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取，包括：

根据所述分类成功的网站地址的地址类型进行下载器选择，利用选出的下载器对所述网页的内容(全文信息)进行下载。

本发明实施例中，所述分类成功的网站地址的地址类型进行下载器选择，从自带的下载器中选择出合适的下载器，通过http模拟线程，从清洗完成的网站地址上，下载相关的舆情网站内容。

进一步地，所述步骤S15为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并将所述网页内容存入预设的内容数据库，舆情数据全文索引信息存入预设的索引数据库，包括：

为抓取到的对应网站的网页内容建立的舆情数据全文索引信息；

对所述索引数据库中存储的数据进行统计分析。

本发明实施例中，首先，对文章内容进行切分，提取关键词。采用倒排索引的方式建立索引，生成索引信息，该信息为全文索引信息，并将所述抓取到的对应网站的网页内容以及舆情数据全文索引信息存放于索引数据库中。对索引数据库中的数据进行统计分析，统计关键词出现的个数，将出现频率较高的词，建立映射。排列在列表前，以方便用户检索。

本发明实施例提供的基于互联网的舆情数据采集方法，通过实时感知多个网络爬虫系统的工作状态，指定网络爬虫系统对舆情数据的重点网站进行定向采集，或是让网络爬虫系统屏蔽抓取某网站上的内容，完成对舆情数据的抓取，使得爬虫任务负载均衡，以避免爬虫资源的无端浪费，并通过ETL流程(数据抽取、数据转换、数据装载)将所有采集到的舆情信息进行搜集和存储，以便舆情数据的监控与管理，增强舆情突发事件和情报的获取能力。

图2示出了本发明实施例的一种基于互联网的舆情数据采集系统的结构框图。

参照图2，本发明实施例提出的基于互联网的舆情数据采集系统包括数据采集单元100和检索分析单元200，所述数据采集单元100包括爬虫调度子系统110和网络爬虫子系统120；

所述的爬虫调度子系统110，用于实时监视各个网络爬虫的状态，根据所述各个网络爬虫的状态调度每个网络爬虫，以实现对互联网中各预设舆情网站内容的抓取和/或对互联网中其他网站内容的屏蔽；

所述的网络爬虫子系统120，用于根据预设条件对所述各预设舆情网站的网页内容进行抓取，并从抓取到的数据中提取相应的网站地址；将所述网站地址进行地址解析，对解析成功的网站地址去重、去噪处理后进行分类；所述网络爬虫子系统还用于对分类成功的网站地址对应网站的网页内容进行抓取，并下载该网页的全文信息；

所述的检索分析单元200，用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并将所述网页内容存入预设的内容数据库，舆情数据全文索引信息存入预设的索引数据库。

本发明实施例中，数据采集单元的主要功能是对互联网的舆情信息进行采集和抓取，舆情信息包括：新闻、论坛、博客、贴吧等固定互联网网站的舆情信息。抓取的方式是网络爬虫数据采集方式，它的工作原理是：抓取在一定链接距离内与初始URL主题相关性概率最大的网页，从而获取系统所需要的信息。数据采集单元包括多个网络爬虫子系统和1个网络爬虫调度系统。

本发明实施例中，所述爬虫调度子系统110包括：

分类配置模块，用于根据用户输入的网站网址，预先设置互联网中需要进行网页内容抓取的舆情网站，以及互联网中不需要进行网页内容抓取的网站；实现与用户之间的人机交互，该模块提供用户输入网站网址的接口，用于根据用户输入的网站网址，预先设置互联网中需要进行网页内容抓取的舆情网站，以及互联网中不需要进行网页内容抓取的网站。

爬虫配置模块，用于根据用户输入的爬虫设置参数，进行网络爬虫系统的设置；用户通过爬虫配置模块，设定具体的爬虫参数，该模块会根据具体的参数值自动为用户分配合理数量的爬虫系统，生成相应的爬虫配置信息。

状态监视模块，用于实时感知各个网络爬虫的工作状态；状态监视模块监视该爬虫的运行状态，该爬虫负载过大，该状态模块会及时通知爬虫调度系统，重新分配爬虫系统，使得爬虫任务负载均衡。

爬虫分配模块，用于根据各个网络爬虫的工作状态，产生爬虫分类信息，将负担大于第一预设值的爬虫从当前数据抓取任务中解放出来，并分配负担小于第二预设值的爬虫执行所述数据抓取任务；实现爬虫系统之间抓取任务分配，接收到状态控制模块任务过载的爬虫子系统编号，分配其他空闲爬虫系统进行网页抓取。

站点过滤模块，用于对所述不需要进行网页内容抓取的网站的地址进行过滤。过滤掉用户指定需要屏蔽的网站内容，避免爬虫程序无端浪费网络资源等情况的发生。

进一步地，所述爬虫调度子系统110还包括：站点历史浏览模块：用来保存用户输入的网址信息、保存历史抓取网站浏览记录。

本发明实施例中，所述网络爬虫子系统120，包括：

抓取模块，用于根据预设条件对所述各预设舆情网站的网页内容进行抓取；抓取模块对外部网站进行舆情数据的采集，该模块包含网址搜索引擎、网络爬虫抓取程序。

计算模块，用于计算抓取到的网页信息与所述预设条件的相似度；对用户指定信息与抓取到的网页信息进行内容相似度的计算，从而过滤、删除与主题无关(用户指定信息不符)的网页信息，保留与主题有关的网页信息，这些网页信息生成被称为过滤后的网页站点配置信息。

生成模块，用于根据相似度大于第三预设值的网页信息生成相应的网站地址；具体包括：生成网页一级地址，按照入口地址生成规则生成相关插架，由插件将网页一级地址生成网页真实地址。

地址下载模块，用于根据所述分类成功的网站地址的地址类型进行下载器选择，利用选出的下载器对所述网页的内容进行下载。通过对分类成功的真实网页地址的地址类型进行分析，选择合适的下载器，对每个网页中的舆情内容信息进行下载。

本发明实施例中，检索分析单元的主要功能是对抓取后的舆情数据提供数据管理与分析功能。用户可以按照预设的关键词对数据进行分类管理，并对某个分类数据或是某个关键词数据进行统计分析，对采集进来的数据进行数据存储、数据预处理、建立数据索引库、进行数据统计与分析等任务操作。所述检索分析单元200，包括：

索引建立模块，用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息，实现数据和全文信息建立索引功能，以方便用户对所需的舆情信息进行检索查询。

存储模块，用于将所述抓取到的对应网站的网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。

综上所述，本发明实施例提供的基于互联网的舆情数据采集方法及系统，通过实时感知多个网络爬虫系统的工作状态，指定网络爬虫系统对舆情数据的重点网站进行定向采集，或是让网络爬虫系统屏蔽抓取某网站上的内容，完成对舆情数据的抓取，使得爬虫任务负载均衡，以避免爬虫资源的无端浪费；对抓取的网站地址信息进行地址解析，对解析成功的地址，进行去重，去噪处理等清洗，对清洗完成的网站地址进行分类，保证舆情数据来源的精准可靠；并通过ETL流程(数据抽取、数据转换、数据装载)将所有采集到的舆情信息进行搜集和存储，以便舆情数据的监控与管理，增强舆情突发事件和情报的获取能力。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的基站中的模块可以按照实施例描述进行分布于实施例的基站中，也可以进行相应变化位于不同于本实施例的一个或多个基站中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于互联网的舆情数据采集方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述实时监视多个网络爬虫的状态，根据所述网络爬虫的状态调度各个网络爬虫，包括：

根据用户输入的爬虫设置参数，进行网络爬虫的设置；

实时感知各个网络爬虫的工作状态；

对所述不需要进行网页内容抓取的网站的地址进行过滤。

3.根据权利要求1或2所述的方法，其特征在于，所述采用所述网络爬虫根据预设条件对所述各预设舆情网站的网页内容进行抓取，并从抓取到的数据中提取相应的网站地址，包括：

根据预设条件对所述各预设舆情网站的网页内容进行抓取；

计算抓取到的网页信息与所述预设条件的相似度；

4.根据权利要求1或2所述的方法，其特征在于，所述将所述网站地址进行地址解析，对解析成功的网站地址去重、去噪处理后进行分类，包括：

对去重、去噪处理后的网站地址进行分类。

5.根据权利要求4所述的方法，其特征在于，所述采用所述网络爬虫对分类成功的网站地址对应网站的网页内容进行抓取，包括：

根据所述分类成功的网站地址的地址类型进行下载器选择，利用选出的下载器对所述网页的内容进行下载。

6.根据权利要求1所述的方法，其特征在于，所述为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库，包括：

对所述索引数据库中存储的数据进行统计分析。

7.一种基于互联网的舆情数据采集系统，其特征在于，所述系统包括数据采集单元和检索分析单元，所述数据采集单元包括爬虫调度子系统和网络爬虫子系统；

检索分析单元，用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息，并将所述网页内容存入预设的内容数据库、舆情数据全文索引信息存入预设的索引数据库。

8.根据权利要求7所述的系统，其特征在于，所述爬虫调度子系统包括：

状态监视模块，用于实时感知各个网络爬虫的工作状态；

9.根据权利要求7或8所述的系统，其特征在于，所述网络爬虫子系统，包括：

URL管理模块，用于对去重、去噪处理后的网站地址进行分类；

10.根据权利要求7所述的系统，其特征在于，所述检索分析单元，包括：

索引建立模块，用于为抓取到的对应网站的网页内容建立舆情数据全文索引信息；