CN109800271A

CN109800271A - 一种基于大数据的信息采集方法

Info

Publication number: CN109800271A
Application number: CN201910134543.5A
Authority: CN
Inventors: 许四平
Original assignee: Hubei Polytechnic University
Current assignee: Hubei Polytechnic University
Priority date: 2019-02-23
Filing date: 2019-02-23
Publication date: 2019-05-24

Abstract

本发明属于信息采集技术领域，公开了一种基于大数据的信息采集方法，所述基于大数据的信息采集系统包括：数据源模块、数据传输模块、中央控制模块、检索模块、信息集成模块、信息管理模块、大数据分析模块、平衡模块、云存储模块、显示模块。本发明通过大数据分析模块得到分析结果存储在分布式数据库的分析结果表中，不需要到分布式数据库中海量的大数据中获取大数据，所以耗时短且易于实现；同时，通过平衡模块根据数据平衡策略和大数据集群负载和性能数据动态调整数据平衡的网络带宽，重新启动数据平衡程序，能够在保障集群正常数据生产的同时，提高集群数据平衡的效率和弹性。

Description

一种基于大数据的信息采集方法

技术领域

本发明属于信息采集技术领域，尤其涉及一种基于大数据的信息采集方法。

背景技术

大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临，大数据(Big data)也吸引了越来越多的关注。分析师团队认为，大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。然而，现有大数据分析耗费时间；同时，在实际集群数据平衡处理中，如果使用默认值或更小网络带宽进行集群数据平衡，则需要较长的时间才能达到数据平衡；可用于集群数据处理任务的网络带宽变小，导致数据处理任务用时延长，进而影响企业的正常数据生产。

综上所述，现有技术存在的问题是：现有大数据分析耗费时间；同时，在实际集群数据平衡处理中，如果使用默认值或更小网络带宽进行集群数据平衡，则需要较长的时间才能达到数据平衡；可用于集群数据处理任务的网络带宽变小，导致数据处理任务用时延长，进而影响企业的正常数据生产。现有的大数据在进行传输、处理时因数据的多样化导致数据处理、传输效率慢，还有可能在过程中导致数据的损坏或丢失。

发明内容

针对现有技术存在的问题，本发明提供了一种基于大数据的信息采集方法。

本发明是这样实现的，一种基于大数据的信息采集系统包括：

数据源模块、数据传输模块、中央控制模块、检索模块、信息集成模块、信息管理模块、大数据分析模块、平衡模块、云存储模块、显示模块；

数据源模块，与数据传输模块连接，用于通过大数量终端设备获取数据源；

数据传输模块，与数据源模块、中央控制模块连接，用于通过网线或无线发射器将获取的数据源发送到中央控制模块；

中央控制模块，与数据传输模块、检索模块、信息集成模块、信息管理模块、大数据分析模块、平衡模块、云存储模块、显示模块连接，用于通过单片机控制各个模块正常工作；

检索模块，与中央控制模块连接，用于通过检索程序对数据源有价值的信息进行检索；

信息集成模块，与中央控制模块连接，用于通过集成软件对检索的信息进集成处理；

信息管理模块，与中央控制模块连接，用于通过信息管理软件对集成的信息进行管理操作；

大数据分析模块，与中央控制模块连接，用于通过分析程序对大数据进行分析操作；

平衡模块，与中央控制模块连接，用于通过平衡策略程序调整大数据集群的数据平衡；

云存储模块，与中央控制模块连接，用于通过云服务器存储大数据信息；

显示模块，与中央控制模块连接，用于通过显示器显示采集的信息数据。

一种基于大数据的信息采集方法包括以下步骤：

步骤一，通过数据源模块利用大数量终端设备获取数据源；通过数据传输模块利用网线或无线发射器将获取的数据源发送到中央控制模块；

步骤二，中央控制模块通过检索模块利用检索程序对数据源有价值的信息进行检索；

步骤三，通过信息集成模块利用集成软件对检索的信息进集成处理；通过信息管理模块利用信息管理软件对集成的信息进行管理操作；

步骤四，通过大数据分析模块利用分析程序对大数据进行分析操作；通过平衡模块利用平衡策略程序调整大数据集群的数据平衡；

步骤五，通过云存储模块利用云服务器存储大数据信息；并通过显示模块利用显示器显示采集的信息数据。

进一步，所述大数据分析模块分析方法如下：

(1)构建分布式数据库，设置存储参数；

(2)将大数据按时间分片存储在分布式数据库；

(3)在分布式数据库设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息；

(4)在进行大数据分析时，根据服务器中的索引表中存储的对应大数据在原始数据临时表中的位置信息，从原始数据临时表调用大数据进行分析，得到分析结果，存储在分布式数据库中。

进一步，所述分布式数据库为Hbase数据库；在所述大数据存储到分布式数据库之前，还包括对大数据的完整性验证及合法性验证，其中，完整性验证是由网络系统中的redis完成的，通过后，将大数据发送给服务器本地完成合法性验证。

进一步，所述缓存大数据的原始数据临时表缓存大数据的方式为：

行键rowkey采用远程过程调用追溯标识traceID、入口方法名entrace及时间设置，列名设置为任意值，键值对中的键值采用spanID和大数据值roleID拼接而成；

所述索引表中设置了对应大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息；所述索引表中设置了对应大数据在原始数据临时表中的位置信息的过程为：将入口方法名及时间作为rowkey，列名设置为任意值，键值对中的键值采用原始数据表中的rowkey。

进一步，所述平衡模块平衡方法如下：

1)获取数据平衡策略信息；

2)获取大数据集群负载和性能数据；

3)根据数据平衡策略和所述大数据集群负载和性能数据动态调整数据平衡的网络带宽，重新启动数据平衡程序。

进一步，所述根据数据平衡策略和所述大数据集群负载和性能数据动态调整数据平衡的网络带宽包括：

根据数据平衡策略和所述大数据集群负载和性能数据确定用于数据平衡的网络带宽；

若所述用于数据平衡的网络带宽与当前运行数据平衡程序所配置的网络带宽的差值大于阈值，则动态调整当前运行数据平衡程序的网络带宽。

进一步，所述获取大数据集群负载和性能数据包括：

获取所述大数据集群的CPU占用率、内存使用情况、网络带宽使用率和/或磁盘IO；

所述获取大数据集群负载和性能数据包括：通过监控所述大数据集群主机和/或所述大数据集群的API接口调用所述大数据集群负载和性能数据。

本发明的优点及积极效果为：本发明通过大数据分析模块将大数据按时间分片存储在分布式数据库的同时，在服务器本地缓存中设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息，在进行大数据分析时，直接根据服务器中的索引表从原始数据临时表调用大数据即可，由于在分析大数据时，采用的是二级索引方式，得到分析结果存储在分布式数据库的分析结果表中，不需要到分布式数据库中海量的大数据中获取大数据，所以耗时短且易于实现。更进一步地，大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息，是唯一标识且反映了大数据被调用的过程；同时，通过平衡模块根据数据平衡策略和大数据集群负载和性能数据动态调整数据平衡的网络带宽，重新启动数据平衡程序，能够在保障集群正常数据生产的同时，提高集群数据平衡的效率和弹性。

本发明通过MapReduce提高数据的处理速度；同时对数据一致性要求不高，具有扩展性和可用性，能够适用于海量的结构化、半结构化及非结构化数据的混合处理。MapReduce将传统的查询、分解及数据分析进行分布式处理，将处理任务分配到不同的处理节点，具有更强的并行处理能力。本发明利用哈夫曼对获取的数据源进行无损压缩，能够在不丢失信息的前提下，缩减数据量以减少存储空间，提高传输、存储和处理效率。

附图说明

图1是本发明实施例提供的基于大数据的信息采集方法流程图。

图2是本发明实施例提供的基于大数据的信息采集系统结构框图。

图2中：1、数据源模块；2、数据传输模块；3、中央控制模块；4、检索模块；5、信息集成模块；6、信息管理模块；7、大数据分析模块；8、平衡模块；9、云存储模块；10、显示模块。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

如图1所示，本发明实施例提供的基于大数据的信息采集方法包括以下步骤：

S101，利用大数量终端设备获取数据源；利用网线或无线发射器将基于哈夫曼压缩方法压缩后的数据源发送到中央控制模块；

S102，利用检索程序对数据源有价值的信息进行检索；

S103，利用添加并行处理器MapReduce的集成软件对检索的信息进集成处理；利用信息管理软件对集成的信息进行管理操作；

S104，利用分析程序对大数据进行分析操作；利用平衡策略程序调整大数据集群的数据平衡；

S105，利用云服务器存储大数据信息；利用显示器显示采集的信息数据。

步骤S101中，本发明实施例提供的数据源获取方法包括：

通过网络爬虫等方式从网站上获取数据，将非结构化数据和半结构化数据的网页数据从网页中提取出来；

具体步骤包括：

(1)将需要抓取数据网站的URL信息写入URL队列；

(2)爬虫从URL队列中获取需要抓取数据网站的site URL；

(3)爬虫从Internet抓取对应网页内容，并抽取其特定属性的内容值；

(4)爬虫将从网页中抽取出的数据写入数据库；

(5)DP读取SpiderData(数据)，并进行处理；

(6)Dp将处理后的数据写入数据库。

步骤S101中，本发明实施例提供的基于哈夫曼的压缩方法包括：

使用预先二进制描述来替换每个符号，长度由特殊符号出现的频率决定；常见的符号需要很少的位来表示，而不常见的符号需要很多位来表示；

利用数据出现的次数从小到大，从上到下，依次排开、逐步构造Huffman二叉树，并且出现次数较多的数据在树的上层，出现次数较少的数据在树的下层；从构建的Huffman二叉树的根节点到每个数据的路径来按照左0右1的规则进行编码并实现压缩。

步骤S103中，本发明实施例提供的并行处理器MapReduce包括：

MapReduce是一套软件框架，包括Map(映射)和Reduce(化简)两个阶段，可以进行海量数据分割、任务分解与结果汇总，从而完成海量数据的并行处理；

其工作原理为：先分后合的数据处理方式；Map即“分解”，把海量数据分割成了若干部分，分给多台处理器并行处理；Reduce即“合并”，把各台处理器处理后的结果进行汇总操作以得到最终结果。

如图2所示，本发明实施例提供的基于大数据的信息采集系统包括：数据源模块1、数据传输模块2、中央控制模块3、检索模块4、信息集成模块5、信息管理模块6、大数据分析模块7、平衡模块8、云存储模块9、显示模块10。

数据源模块1，与数据传输模块2连接，用于通过大数量终端设备获取数据源；

数据传输模块2，与数据源模块1、中央控制模块3连接，用于通过网线或无线发射器将获取的数据源发送到中央控制模块；

中央控制模块3，与数据传输模块2、检索模块4、信息集成模块5、信息管理模块6、大数据分析模块7、平衡模块8、云存储模块9、显示模块10连接，用于通过单片机控制各个模块正常工作；

检索模块4，与中央控制模块3连接，用于通过检索程序对数据源有价值的信息进行检索；

信息集成模块5，与中央控制模块3连接，用于通过集成软件对检索的信息进集成处理；

信息管理模块6，与中央控制模块3连接，用于通过信息管理软件对集成的信息进行管理操作；

大数据分析模块7，与中央控制模块3连接，用于通过分析程序对大数据进行分析操作；

平衡模块8，与中央控制模块3连接，用于通过平衡策略程序调整大数据集群的数据平衡；

云存储模块9，与中央控制模块3连接，用于通过云服务器存储大数据信息；

显示模块10，与中央控制模块3连接，用于通过显示器显示采集的信息数据。

本发明实施例提供的大数据分析模块7分析方法如下：

(1)构建分布式数据库，设置存储参数；

(2)将大数据按时间分片存储在分布式数据库；

步骤(1)中，本发明实施例提供的分布式数据库为Hbase数据库；在大数据存储到分布式数据库之前，还包括对大数据的完整性验证及合法性验证，其中，完整性验证是由网络系统中的redis完成的，通过后，将大数据发送给服务器本地完成合法性验证。

步骤(3)中，本发明实施例提供的缓存大数据的原始数据临时表缓存大数据的方式为：

索引表中设置了对应大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息；所述索引表中设置了对应大数据在原始数据临时表中的位置信息的过程为：将入口方法名及时间作为rowkey，列名设置为任意值，键值对中的键值采用原始数据表中的rowkey。

本发明实施例提供的平衡模块8平衡方法如下：

1)获取数据平衡策略信息；

2)获取所述大数据集群的CPU占用率、内存使用情况、网络带宽使用率和/或磁盘IO；获取大数据集群负载和性能数据包括：通过监控所述大数据集群主机和/或所述大数据集群的API接口调用所述大数据集群负载和性能数据。

3)根据数据平衡策略和所述大数据集群负载和性能数据确定用于数据平衡的网络带宽；若所述用于数据平衡的网络带宽与当前运行数据平衡程序所配置的网络带宽的差值大于阈值，则动态调整当前运行数据平衡程序的网络带宽。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于大数据的信息采集系统，其特征在于，所述基于大数据的信息采集系统包括：

2.一种如权利要求1所述的基于大数据的信息采集方法，其特征在于，所述基于大数据的信息采集方法包括以下步骤：

3.如权利要求1所述基于大数据的信息采集系统，其特征在于，所述大数据分析模块分析方法如下：

(1)构建分布式数据库，设置存储参数；

(2)将大数据按时间分片存储在分布式数据库；

4.如权利要求3所述基于大数据的信息采集系统，其特征在于，所述分布式数据库为Hbase数据库；在所述大数据存储到分布式数据库之前，还包括对大数据的完整性验证及合法性验证，其中，完整性验证是由网络系统中的redis完成的，通过后，将大数据发送给服务器本地完成合法性验证。

5.如权利要求3所述基于大数据的信息采集系统，其特征在于，所述缓存大数据的原始数据临时表缓存大数据的方式为：

6.如权利要求1所述基于大数据的信息采集系统，其特征在于，所述平衡模块平衡方法如下：

1)获取数据平衡策略信息；

2)获取大数据集群负载和性能数据；

7.如权利要求6所述基于大数据的信息采集系统，其特征在于，所述根据数据平衡策略和所述大数据集群负载和性能数据动态调整数据平衡的网络带宽包括：

8.如权利要求6所述基于大数据的信息采集系统，其特征在于，所述获取大数据集群负载和性能数据包括：