CN109542946A

CN109542946A - 一种实时计算大数据系统和方法

Info

Publication number: CN109542946A
Application number: CN201811257717.9A
Authority: CN
Inventors: 张辉
Original assignee: Guizhou Simante Information Technology Development Co Ltd
Current assignee: Guizhou Simante Information Technology Development Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-29

Abstract

本发明属于大数据计算技术领域，公开了一种实时计算大数据系统和方法，所述实时计算大数据系统包括：数据采集模块、数据解析模块、主控模块、分配模块、并行处理模块、合并模块、日志处理模块、数据存储模块、显示模块。本发明通过数据解析模块可以快速地实现业务逻辑的开发及替换；同时，通过日志处理模块运用大数据存储和计算实现将日志数据进行时间序列化，形成数据流，并且整个服务器集群的数据采集和数据流都用相同的时间序列；整个集群采用相同的时间序列，实现集群数量庞大的服务器，可以通过时间序列进行时间维度的数据快速汇聚，快速访问某个时间的服务器性能，并通过大数据分析集群的实时数据流。

Description

一种实时计算大数据系统和方法

技术领域

本发明属于大数据计算技术领域，尤其涉及一种实时计算大数据系统和方法。

背景技术

大数据(bigdata)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临，大数据(Bigdata)也吸引了越来越多的关注。分析师团队认为，大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。然而，现有大数据流计算的业务逻辑开发比较复杂，无法像传统的数据处理应用Query进行业务逻辑开发，如果遇到复杂的多次迭代的业务逻辑开发起来就更加吃力；同时，现有的服务器运维日志数据分析监控的方法无法实现数据实时采集形成数据流，分析只能对静态一段时间的运维日志进行分析，这就导致无法及时有效的对当前的服务器性能进行有效的监控和分析，特别是大规模集群服务器的数量多的时候，数据的分析更是无法实现展开。

综上所述，现有技术存在的问题是：现有大数据流计算的业务逻辑开发比较复杂，无法像传统的数据处理应用Query进行业务逻辑开发，如果遇到复杂的多次迭代的业务逻辑开发起来就更加吃力；同时，现有的服务器运维日志数据分析监控的方法无法实现数据实时采集形成数据流，分析只能对静态一段时间的运维日志进行分析，这就导致无法及时有效的对当前的服务器性能进行有效的监控和分析，特别是大规模集群服务器的数量多的时候，数据的分析更是无法实现展开。现有的并行算法不能充分的利用并行系统计算资源，算法数据并行化效果不理想，无法保证算法的收敛速度和算法最优分类的特性，导致并行效率降低。

发明内容

针对现有技术存在的问题，本发明提供了一种实时计算大数据系统和方法。

本发明是这样实现的，一种实时计算大数据方法，所述实时计算大数据方法包括：

步骤一，网络采集客户数据资源，解析算法对大数据的实时流数据进行结构化解析；

步骤二，数据分配程序将采集的数据资源分配进行并行处理；

步骤三，利用多粒度并行算法处理采集的数据，生成并行结果；通过合并算法将并行结果进行合并，生成处理结果；

步骤四，日志处理软件对将日志数据进行时间序列化，形成数据流进行处理；

步骤五，将采集的数据资源进行存储，并通过显示器显示采集的数据信息。

进一步，所述解析算法包括：

(1)读出原数据并获得副本，利用文件擦走函数fopen打开保存的大数据的文本文档，将大数据读出到自定义的字符数组中，其中，全局函数GetModuleFileName()，用于获取当前的目录，在使用哪个保存由数据的字符数组前，先利用memcpy()函数获得原数据的一个拷贝，原数据的最终不被修改的原则，进行数据拷贝前先将自定义的拷贝数组的内存进行清零操作；

(2)解析数据，利用一个大的while循环和堆栈进行，循环条件是判断一个指向待解析数据的字符指针是否为空，字符指针不为空，则循环继续，在整个while循环里再利用一个if…else选择结构具体判断指针所指向的字符为哪种类型，在else语句块中，若所指向的字符不为“,”或“}”，则将字符数据存入栈中，直至遇到“,”或“}”字符；

数据项值的解析，通过另一个while循环逐个从栈中取出进行判断，只要栈非空，取出的字符非“”’”并且非“：”，则将此字符存入一个字符数组中，循环结束后完成一个数据项值的解析；

数据项名的解析：经过最初的while大循环，代表数据项名的原始数据被保存在栈中，通过另外一个while循环逐个从栈中取出进行判断，只要栈非空，取出的字符非“”’”并且非“：”，则将此字符存入一个字符数组中，循环结束后完成数据项值的解析；

数据项名的解析：经过最初while大循环，代表数据项名的原始数据已被保存在栈中，通过另外一个while循环继续从栈中取出数据进行判断，只要栈非空并且取出的字符非“”’”，则将此字符存入一个字符数组中，循环结束后完成数据项名的解析；对数据项的解析完成后，将一个子元素保存在一个BEACON类型的结构中，采用了另一个if...else...结构，以strcmp()函数的返回值作为判断条件，与指定的数据项名匹配的数据项值保存在BEACON结构对应的成员中，完成某个数据项值的保存后继续利用其他if语句判断指向原数据的字符指针的内容是否为“}”，将BEACON结构保存的数据写入到数据库中，大户数据的解析循环结束。

进一步，采集数据的并行算法包括：

(1)初始化格网划分参数，确定格网划分的坐标框架及格网大小；

(2)从HDFS上读取P和Q，将数据转换成RDD对象RDD和RDD<q>；

(3)在RDD上执行flatMapToPair方法，将RDD和RDD<q>中的每一间实体转换成键值形式的对，其中键代表格网的行列号，值为当前的对象，RDD是根据格网划分参数转换的，当一间实体的MBR跨越多个格网是，生成多个键值对，每个键分贝对应跨越网，RDD<q>是根据网的领域区域转换的；转换完成后利用groupByKey将拥有相同键的pair组织在一起，形成PairRDD<p_id，List>和PairRDD<p_id，List<q>>；

(4)在PairRDD<p_id，List>上以PairRDD<p_id，List<q>>为参数执行join方法，将P和Q中属于同一子域内的空间实体连接在一起，生成PairRDD<p_id，<List，List<q>>>；

(5)按照Hash映射的方式将PairRDD<p_id，<List，List<q>>>聚云映射到特定数目的子任务中，每一个子任务负责完成分子域中的本地空间范围连接；

(6)在每一个子任务中执行In-memory的plane-sweep算法。

进一步，数据解析包括自动解析模式和用户自定义模式方式的至少一种：

自动解析模式是：读取流数据，根据预设有数据粒度，根据流数据的分隔符对实时流数据进行分割，并转化为具有行和列的表结构；

用户自定义解析模式是：读取流数据，根据预设有数据粒度，根据流数据的分隔符对实时流数据进行分割，并转化为具有行和列的表结构，其中的列名为自定义；或者是在转化为具有行和列的表结构的基础上再通过每个列定义的UDF进一步解析；

流数据的数据粒度为流数据记录或者为一个时间段内收集的流数据，且数据粒度能被配置；所述流数据的分隔符为标点符号、ascii码或者为回车。

进一步，日志处理方法如下：

步骤一、集群服务器根据设定的时间间隔收集日志数据；

步骤二、将收集时间作为时间标签，并将所述时间标签作为最外层数据嵌套至所述日志数据；将收集时间作为时间标签，并将所述时间标签作为最外层数据嵌套至所述日志数据，并存储至一日志队列；

步骤三、发送所述日志数据。；根据设定的时间间隔，将所述日志数据通过实时数据流的方式进行发送到大数据平台。

本发明的另一目的在于提供一种实现所述实时计算大数据方法的实时计算大数据系统，所述实时计算大数据系统包括：

数据采集模块，与主控模块连接，用于通过网络采集客户数据资源；

数据解析模块，与数据采集模块、主控模块连接，用于通过解析算法对大数据的实时流数据进行结构化解析；

主控模块，与数据解析模块、分配模块、并行处理模块、合并模块、日志处理模块、数据存储模块、显示模块连接，用于通过单片机控制各个模块正常工作；

分配模块，与主控模块连接，用于通过数据分配程序将采集的数据资源分配到并行处理模块进行处理；

并行处理模块，与主控模块连接，用于通过多粒度并行算法处理采集的数据，生成并行结果；

合并模块，与主控模块连接，用于通过合并算法将并行结果进行合并，生成处理结果；

日志处理模块，与主控模块连接，用于通过日志处理软件对将日志数据进行时间序列化，形成数据流进行处理；

数据存储模块，与主控模块连接，用于通过存储器将采集的数据资源进行存储；

显示模块，与主控模块连接，用于通过显示器显示采集的数据信息。

本发明的另一目的在于提供一种应用所述实时计算大数据方法的信息数据处理终端。

本发明的优点及积极效果为：本发明通过数据解析模块简化了流计算的业务逻辑开发的难度，让流计算可以像传统的数据处理应用Query进行业务逻辑的开发，越是遇到复杂的业务逻辑开发周期相比节约越直观；满足企业在流计算中需要结合传统数据的业务需求；当遇到业务逻辑时常变化的情况，可以快速地实现业务逻辑的开发及替换；同时，通过日志处理模块运用大数据存储和计算实现将日志数据进行时间序列化，形成数据流，并且整个服务器集群的数据采集和数据流都用相同的时间序列；通过将日志数据流同时分发到多个分析系统组件，实现数据流的并发访问的效果；整个集群采用相同的时间序列，实现集群数量庞大的服务器，可以通过时间序列进行时间维度的数据快速汇聚，快速访问某个时间的服务器性能，并通过大数据分析集群的实时数据流。本发明采用的算法并行方法，使节点计算的局部性加强，从而取得了近线性的加速比，较好地利用了并行系统计算资源。算法并行模型不仅克服了算法数据并行化效果不理想的局限性，又保证了算法的收敛速度和算法最优分类的特性，取得了较好的并行效率。

附图说明

图1是本发明实施提供的实时计算大数据系统结构示意图；

图中：1、数据采集模块；2、数据解析模块；3、主控模块；4、分配模块；5、并行处理模块；6、合并模块；7、日志处理模块；8、数据存储模块；9、显示模块。

图2是本发明实施提供的实时计算大数据方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的实时计算大数据系统包括：数据采集模块1、数据解析模块2、主控模块3、分配模块4、并行处理模块5、合并模块6、日志处理模块7、数据存储模块8、显示模块9。

数据采集模块1，与主控模块3连接，用于通过网络采集客户数据资源；

数据解析模块2，与数据采集模块1、主控模块3连接，用于通过解析算法对大数据的实时流数据进行结构化解析；

主控模块3，与数据解析模块2、分配模块4、并行处理模块5、合并模块6、日志处理模块7、数据存储模块8、显示模块9连接，用于通过单片机控制各个模块正常工作；

分配模块4，与主控模块3连接，用于通过数据分配程序将采集的数据资源分配到并行处理模块5进行处理；

并行处理模块5，与主控模块3连接，用于通过多粒度并行算法处理采集的数据，生成并行结果；

合并模块6，与主控模块3连接，用于通过合并算法将并行结果进行合并，生成处理结果；

日志处理模块7，与主控模块3连接，用于通过日志处理软件对将日志数据进行时间序列化，形成数据流进行处理；

数据存储模块8，与主控模块3连接，用于通过存储器将采集的数据资源进行存储；

显示模块9，与主控模块3连接，用于通过显示器显示采集的数据信息。

如图2所示，本发明实施例提供的实时计算大数据方法包括以下步骤：

S201：网络采集客户数据资源，解析算法对大数据的实时流数据进行结构化解析；

S202：数据分配程序将采集的数据资源分配进行并行处理；

S203：利用多粒度并行算法处理采集的数据，生成并行结果；通过合并算法将并行结果进行合并，生成处理结果；

S204：日志处理软件对将日志数据进行时间序列化，形成数据流进行处理；

S205：将采集的数据资源进行存储，并通过显示器显示采集的数据信息。

进一步，所述解析算法包括：

进一步，采集数据的并行算法包括：

(2)从HDFS上读取P和Q，将数据转换成RDD对象RDD和RDD<q>；

(6)在每一个子任务中执行In-memory的plane-sweep算法。

进一步，日志处理方法如下：

步骤一、集群服务器根据设定的时间间隔收集日志数据；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时计算大数据方法，其特征在于，所述实时计算大数据方法包括：

2.如权利要求1所述的实时计算大数据方法，其特征在于，所述解析算法包括：

3.如权利要求1所述的实时计算大数据方法，其特征在于，采集数据的并行算法包括：

(2)从HDFS上读取P和Q，将数据转换成RDD对象RDD和RDD<q>；

(6)在每一个子任务中执行In-memory的plane-sweep算法。

4.如权利要求1所述的实时计算大数据方法，其特征在于，数据解析包括自动解析模式和用户自定义模式方式的至少一种：

5.如权利要求1所述的实时计算大数据方法，其特征在于，日志处理方法如下：

步骤一、集群服务器根据设定的时间间隔收集日志数据；

步骤三、发送所述日志数据；根据设定的时间间隔，将所述日志数据通过实时数据流的方式进行发送到大数据平台。

6.一种实现权利要求1所述实时计算大数据方法的实时计算大数据系统，其特征在于，所述实时计算大数据系统包括：

7.一种应用权利要求1～5任意一项所述实时计算大数据方法的信息数据处理终端。