CN108647228B

CN108647228B - 可见光通信大数据实时处理方法和系统

Info

Publication number: CN108647228B
Application number: CN201810266976.1A
Authority: CN
Inventors: 陈相舟; 张庚; 薛佳睿; 丁慧霞; 汪洋; 辛军; 元梦莹; 赵百捷; 梁馨予; 王亚男; 甄妮; 崔建华; 王智慧; 任一丹; 钟浩; 何潇
Original assignee: State Grid Henan Electric Power Zhengzhou Power Supply Co; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Henan Electric Power Zhengzhou Power Supply Co; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2021-08-24
Anticipated expiration: 2038-03-28
Also published as: CN108647228A

Abstract

本发明涉及一种可见光通信大数据实时处理方法和系统,包括：将所述大数据存储在第一存储模块上，对所述第一存储模块中的各个数据进行初始优化；将初始优化后的数据输出至缓存中，继续对所述缓存中的数据进行压缩；将所述缓存中压缩后的数据转存在第二存储模块上，对所述第二存储模块上数据的大小和粒度进行分离，将分离后的数据返回至所述缓存中；将所述缓存中分离后的数据存储在第三存储模块上，对所述第三存储模块中的数据再次优化，将再次优化后的数据按照执行计划输出。本发明可以有效区分数据的大小以及粒度，有利于提高整体业务性能。

Description

可见光通信大数据实时处理方法和系统

技术领域

本发明涉及可见光通信系统的技术领域，尤其是指一种可见光通信大数据实时处理方法和系统。

背景技术

目前，可见光通信技术发展迅速，可见光通信传输数据量大增，且对由于视频数据在传输过程中数据量大，要求实时性高，因此需要研究由很多数据实时、不间断传输形成的数据流，其中对可见光通信数据流的研究主要集中在模型研究、系统设计和应用分析三个方面。在模型研究方面,流式大数据在实时性、无序性、无限性、易失性、突发性等方面均呈现出了诸多新的鲜明特征，因此，传统的先存储后计算的批量可见光通信数据计算理念不适用于大数据流式计算的环境中，使得可见光通信数据流式环境中的数据计算在系统的可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面均面临着前所未有的新的挑战；在系统设计方面，现有系统主要从可伸缩性、系统容错性、状态一致性、负载均衡、数据高吞吐量等方面设计；在应用分析方面，可见光通信数据流式计算的应用场景较多，按照可见光通信数据产生方式、可见光通信数据规模大小以及技术成熟度高低这三个不同维度，从可见光通信数据产生方式上看，分别是被动可见光通信产生数据、主动可见光通信产生数据和自动可见光通信产生数据；从数据规模上看，处理的数据分别是小规模、中规模和大规模；从技术成熟度上看，它们分别是成熟度高、成熟度中和成熟度低的数据。

现阶段，出现了很多针对数据流实时处理的分布式数据挖掘业务需求。具体地，可见光通信大数据平台中主要采用 MapReduce 并行计算模型对大数据实时处理。由于所述MapReduce 并行计算模型需要数据库系统提供有效的存储、索引和查询处理支持，因此所述MapReduce 并行计算模型对现有数据的处理，更加适合于大数据分布式环境下数据挖掘的业务，并且有助于异构数据的预处理和挖掘，而对于高速度数据流的处理，由于无法区分数据的大小以及粒度，因此不利于高效的处理数据，从而严重影响了整体的业务性能。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中无法区分数据的大小以及粒度的问题从而提供一种可以有效区分数据的大小以及粒度且能提高整体业务性能的可见光通信大数据实时处理方法。

为解决上述技术问题，本发明的一种可见光通信大数据实时处理方法，包括如下步骤：将所述大数据存储在第一存储模块上，对所述第一存储模块中的各个数据进行初始优化；将初始优化后的数据输出至缓存中，继续对所述缓存中的数据进行压缩；将所述缓存中压缩后的数据转存在第二存储模块上，对所述第二存储模块上数据的大小和粒度进行分离，将分离后的数据返回至所述缓存中；将所述缓存中分离后的数据存储在第三存储模块上，对所述第三存储模块中的数据再次优化，将再次优化后的数据按照执行计划输出。

在本发明的一个实施例中，将所述大数据存储在第一存储模块上的方法为：所述大数据通过预先构建的非结构化数据模型存储在所述第一存储模块上。

在本发明的一个实施例中，所述非结构化数据模型包括一个数据对象以及与所述数据对象相关的属性，其中所述属性包括与所述属性相关的特性。

在本发明的一个实施例中，所述第二存储模块上数据的大小和粒度进行分离的方法为：将所述数据按照任务类型划分成多个小体积文件，将所述小体积文件合并为可传输的大体积文件，将所述大体积文件按照结果划分，并将所有结果合并后输出最终数据。

在本发明的一个实施例中，对所述第二存储模块上数据的大小和粒度进行分离后，根据数据粗细粒度的不同进行资源分配。

在本发明的一个实施例中，根据数据粗细粒度的不同进行资源分配时，对于粗粒度的数据分配方法为：将未分离前的数据传输至预测器，通过所述预测器将粗粒度的数据传输至调度器；所述调度器将数据输出至数据传输中，通过任务管理对数据进行清除处理。

在本发明的一个实施例中，根据数据粗细粒度的不同进行资源分配时，对于细粒度的数据分配方法为：将未分离前的数据传输至控制器，通过所述控制器将细粒度的数据传输至调度器；所述调度器将数据输出至数据传输中，通过任务管理对数据进行清除处理。

在本发明的一个实施例中，对所述第三存储模块中的数据再次优化的方法为对所述数据进行过滤。

在本发明的一个实施例中，将再次优化后的数据按照执行计划输出前，对再次优化后的数据进行并行处理。

本发明还提供了一种可见光通信大数据实时处理系统，包括：第一存储模块和初始优化模块，其中所述第一存储模块用于存储大数据，所述初始优化模块用于对所述第一存储设备中的各个数据进行第一次优化；缓存和压缩模块，其中所述缓存用于存储第一次优化后的数据，所述压缩模块用于对所述缓存中的数据进行压缩；第二存储模块和分离模块，其中所述第二存储模块用于存储在所述缓存中压缩后的数据；所述分离模块用于对所述第二存储模块上数据的大小和粒度进行分离，且将分离后的数据返回至所述缓存中；第三存储模块和第二优化模块，其中所述第三存储模块用于存储所述缓存中分离后的数据，所述第二优化模块用于对所述第三存储模块中的数据进行再次优化，并将第二次优化后的数据按照计划输出。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的可见光通信大数据实时处理方法，将所述大数据存储在第一存储模块上，对所述第一存储模块中的各个数据进行初始优化，除去冗余信息，压缩空间，不但有利于节约所述第一存储模块的空间而且有利于数据的传输；将初始优化后的数据输出至缓存中，继续对所述缓存中的数据进行压缩，有利于整合所述数据，节省空间；将所述缓存中压缩后的数据转存在第二存储模块上，对所述第二存储模块上数据的大小和粒度进行分离，实现了对数据的深度优化，将分离后的数据返回至所述缓存中，由于根据所述数据的大小和粒度进行不同的运算，因此有利于提高计算速度。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明可见光通信大数据实时处理方法流程图；

图2是本发明非结构化数据模型。

具体实施方式

实施例一：

如图1所示，本实施例提供一种可见光通信大数据实时处理方法，包括如下步骤：将所述大数据存储在第一存储模块上，对所述第一存储模块中的各个数据进行初始优化；将初始优化后的数据输出至缓存中，继续对所述缓存中的数据进行压缩；将所述缓存中压缩后的数据转存在第二存储模块上，对所述第二存储模块上数据的大小和粒度进行分离，将分离后的数据返回至所述缓存中；将所述缓存中分离后的数据存储在第三存储模块上，对所述第三存储模块中的数据再次优化，将再次优化后的数据按照执行计划输出。

本实施例所述可见光通信大数据实时处理方法，将所述大数据存储在第一存储模块上，对所述第一存储模块中的各个数据进行初始优化，除去冗余信息，压缩空间，不但有利于节约所述第一存储模块的空间而且有利于数据的传输；将初始优化后的数据输出至缓存中，继续对所述缓存中的数据进行压缩，有利于整合所述数据，节省空间；将所述缓存中压缩后的数据转存在第二存储模块上，对所述第二存储模块上数据的大小和粒度进行分离，实现了对数据的深度优化，将分离后的数据返回至所述缓存中，由于根据所述数据的大小和粒度进行不同的运算，因此有利于提高计算速度；将所述缓存中分离后的数据存储在第三存储模块上，对所述第三存储模块中的数据再次优化，将再次优化后的数据按照执行计划输出，从而有利于高速运算，将第四次优化后的数据按照执行计划输出，有利于提高整体的业务性能。

将所述大数据存储在第一存储模块上的方法为：如图2所示，所述大数据通过预先构建的非结构化数据模型存储在所述第一存储模块上，有利于直观的了解各个数据之间的相互关系。其中所述非结构化数据模型包括一个数据对象以及与所述数据对象相关的属性，其中所述属性包括与所述属性相关的特性。具体地，所述非结构化数据模型包括一个数据对象，所述数据对象具有五个相关的属性，如基本属性，行为属性、内容属性，特征属性以及环境属性，其中所述基本属性中包括文件、源以及权限；所述行为属性包括文件热度、上下文、任何、交互信息；所述内容属性包括描述和语义；所述特征属性包括媒体、文档、音频、视频以及图像；所述环境属性包括主题热度和相似主体。

对所述数据的大小和粒度进行分离的方法为：将所述数据按照任务类型划分成多个小体积文件，将所述小体积文件合并为可传输的大体积文件，将所述大体积文件按照结果划分，并将所有结果合并后输出最终数据。具体地，由于所述大体积文件可以通过网络传输，因此按照结果划分，可以输出对应的数值，将所有数值合并后通过网络传输输出最终数据，从而方便大数据的处理。

上述对所述第二存储模块上数据的大小和粒度进行分离后，根据数据粗细粒度的不同进行资源分配。具体地，根据数据粗细粒度的不同进行资源分配时，对于粗粒度的数据分配方法为：将未分离前的数据传输至预测器，通过所述预测器可以分离出粗粒度的数据，将粗粒度的数据传输至调度器；所述调度器将数据输出至数据传输中，通过任务管理对数据进行清除处理，从而有利于提高计算速度。对于细粒度的数据分配方法为：将未分离前的数据传输至控制器，通过所述控制器可以分离出细粒度的数据，将细粒度的数据传输至调度器；所述调度器将数据输出至数据传输中，通过任务管理对数据进行清除处理，从而有利于提高计算速度，从而提高整体的业务性能。

对所述第三存储模块中的数据再次优化的方法为对所述数据进行过滤，具体地，利用优化器将所述第三存储模块中的数据进行过滤，按照数据分布情况、数据倾斜情况、源表大小、中间表大小以及其它统计信息进行过滤，最后，将过滤后的数据按照执行计划输出。

将再次优化后的数据按照执行计划输出前，对再次优化后的数据进行并行处理，从而有利于节约资源。具体地，对数据进行在线分析，然后按照交替方向乘子法对数据进行压缩，数据经过压缩后，由于空间释放，因此节约了资源，其中所述交替方向乘子法是机器学习中比较广泛使用的约束问题最优化方法，是一种成熟的算法。

本实施例中，所述第一存储模块包括电脑、硬盘、光盘等存储设备。所述第二存储模块是本地文件系统或分布式文件系统，其中所述本地文件系统可以是硬盘，所述分布式文件系统是多个本地文件系统。所述第三存储模块是计算机。

实施例二：

基于同一发明构思，本实施例提供一种可见光通信大数据实时处理系统，其解决问题的原理与所述可见光通信大数据实时处理方法类似，重复之处不再累述。

所述可见光通信大数据实时处理系统，包括：

第一存储模块和初始优化模块，其中所述第一存储模块用于存储大数据，所述初始优化模块用于对所述第一存储设备中的各个数据进行第一次优化；

缓存和压缩模块，其中所述缓存用于存储第一次优化后的数据，所述压缩模块用于对所述缓存中的数据进行压缩；

第二存储模块和分离模块，其中所述第二存储模块用于存储在所述缓存中压缩后的数据；所述分离模块用于对所述第二存储模块上数据的大小和粒度进行分离，且将分离后的数据返回至所述缓存中；

第三存储模块和第二优化模块，其中所述第三存储模块用于存储所述缓存中分离后的数据，所述第二优化模块用于对所述第三存储模块中的数据进行再次优化，并将第二次优化后的数据按照计划输出。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种可见光通信大数据实时处理方法，包括如下步骤：

将所述大数据存储在第一存储模块上，对所述第一存储模块中的各个数据进行初始优化；

将初始优化后的数据输出至缓存中，继续对所述缓存中的数据进行压缩；

将所述缓存中压缩后的数据转存在第二存储模块上，对所述第二存储模块上数据的大小和粒度进行分离，将分离后的数据返回至所述缓存中，对所述第二存储模块上数据的大小和粒度进行分离后，根据数据粗细粒度的不同进行资源分配，其中根据数据粗细粒度的不同进行资源分配时，对于粗粒度的数据分配方法为：将未分离前的数据传输至预测器，通过所述预测器将粗粒度的数据传输至调度器；所述调度器将数据输出至数据传输中，通过任务管理对数据进行清除处理；根据数据粗细粒度的不同进行资源分配时，对于细粒度的数据分配方法为：将未分离前的数据传输至控制器，通过所述控制器将细粒度的数据传输至调度器；所述调度器将数据输出至数据传输中，通过任务管理对数据进行清除处理；

将所述缓存中分离后的数据存储在第三存储模块上，对所述第三存储模块中的数据再次优化，将再次优化后的数据按照执行计划输出。

2.根据权利要求1所述可见光通信大数据实时处理方法，其特征在于：将所述大数据存储在第一存储模块上的方法为：所述大数据通过预先构建的非结构化数据模型存储在所述第一存储模块上。

3.根据权利要求2所述可见光通信大数据实时处理方法，其特征在于：所述非结构化数据模型包括一个数据对象以及与所述数据对象相关的属性，其中所述属性包括与所述属性相关的特性。

4.根据权利要求1所述可见光通信大数据实时处理方法，其特征在于：所述第二存储模块上数据的大小和粒度进行分离的方法为：将所述数据按照任务类型划分成多个小体积文件，将所述小体积文件合并为可传输的大体积文件，将所述大体积文件按照结果划分，并将所有结果合并后输出最终数据。

5.根据权利要求1所述可见光通信大数据实时处理方法，其特征在于：对所述第三存储模块中的数据再次优化的方法为对所述数据进行过滤。

6.根据权利要求1所述可见光通信大数据实时处理方法，其特征在于：将再次优化后的数据按照执行计划输出前，对再次优化后的数据进行并行处理。

7.一种可见光通信大数据实时处理系统，其特征在于：包括：

第一存储模块和初始优化模块，其中所述第一存储模块用于存储大数据，所述初始优化模块用于对所述第一存储模块中的各个数据进行第一次优化；

第二存储模块和分离模块，其中所述第二存储模块用于存储在所述缓存中压缩后的数据；所述分离模块用于对所述第二存储模块上数据的大小和粒度进行分离，且将分离后的数据返回至所述缓存中，对所述第二存储模块上数据的大小和粒度进行分离后，根据数据粗细粒度的不同进行资源分配，其中根据数据粗细粒度的不同进行资源分配时，对于粗粒度的数据分配为：将未分离前的数据传输至预测器，通过所述预测器将粗粒度的数据传输至调度器；所述调度器将数据输出至数据传输中，通过任务管理对数据进行清除处理；根据数据粗细粒度的不同进行资源分配时，对于细粒度的数据分配为：将未分离前的数据传输至控制器，通过所述控制器将细粒度的数据传输至调度器；所述调度器将数据输出至数据传输中，通过任务管理对数据进行清除处理；