CN114942923A

CN114942923A - 基于云平台大数据计算分析用统一管理系统

Info

Publication number: CN114942923A
Application number: CN202210807819.3A
Authority: CN
Inventors: 魏俊杰; 蓝岸; 庄辉; 黄松杰; 何翼; 熊黄
Original assignee: Shenzhen News Network Media Co ltd
Current assignee: Shenzhen News Network Media Co ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-08-26
Anticipated expiration: 2042-07-11
Also published as: CN114942923B

Abstract

本发明公开了基于云平台大数据计算分析用统一管理系统，涉及数据统一管理技术领域，解决了未对无效数据内部的重复数据进行处理技术问题；根据大数据内各种各样的数据属性，将多组不同的数据划分为结构化数据、半结构化数据以及非结构化数据，并采用对应的分区进行存储，再对分类后的数据进行再处理，预先对完整数据的完整度进行分析处理，将数据划分为四组不同的段值数据，并获取段值数据的权重占比，根据无效数据占比数值查看数据的完整度是否正常，提取处于异常完整数据内部的无效数据，并提取无效数据的重复数据，将重复数据采用替换标记进行替换，将替换后的重复数据进行存储，便降低完整数据的整体存储量，提升存储管理效果。

Description

基于云平台大数据计算分析用统一管理系统

技术领域

本发明属于数据统一管理技术领域，具体是基于云平台大数据计算分析用统一管理系统。

背景技术

大数据，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

专利公开号为CN112818045A的发明申请提供了一种大数据的数据接入统一管理平台，其特征在于：包括高可用+负载均衡模块、分布式协同模块、数据采集集群模块、数据计算集群模块、WEB统一管理调度平台。通过设置统一的接入管理平台，可以针对具有不同输入、输出方式的处理功能及对应数据进行统一管理，不再需要各数据采集环节分别编写独立程序或脚本，有效降低开发、维护难度，也显著提高了平台的性能及稳定性。

针对于云平台大数据所计算分析用的数据进行统一管理过程中，通过云平台大数据内部多组数据属性，将各类数据进行区分并同时将各类数据内部的无效数据剔除，并将不同属性的数据进行分类存储，但此种存储方式，仍存在以下不足需进行改进：

1、未考虑完整数据内部的无效数据占比，当无效数据占比权重过大时，此时的无效数据处于无法剔除状态，但无效数据的存储量可能会过大，并未采用一种较好的方式对无效数据内部的重复数据进行替换压缩，对无效数据的存储量进行降低；

2、未将整个完整数据进行分类压缩存储，并未采用对应标记的形式，使分类压缩存储的数据快速组合成完整数据。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一；为此，本发明提出了基于云平台大数据计算分析用统一管理系统，用于解决未对无效数据内部的重复数据进行处理以及未对整个完整数据进行拆分压实存储的技术问题。

为实现上述目的，根据本发明的第一方面的实施例提出基于云平台大数据计算分析用统一管理系统，包括：

初步分类端，用于对云平台大数据端内部的大数据进行分类处理，根据数据的分类属性将大数据依次划分为结构化数据、半结构化数据以及非结构化数据，并将三大分类属性数据依次管理存储于三大分区内；

数据划分端，对三大分区内部的数据再次进行划分，使数据划分为多组完整的段值数据，段值数据包括实体数据、属性数据、记录数据以及字段值数据；

数据完整度处理端，对完整数据的完整度进行分析处理，通过获取段值数据的权重占比，根据权重占比数据获取无效数据占比，根据无效数据占比数值查看数据的完整度是否正常，并对处于异常完整数据内部的无效数据进行替换标记处理，降低无效数据的整体存储量；

数据质量提升端，根据完整数据以及内部所划分的四组不同的段值数据，对完整数据进行压缩处理，提升整个完整数据的数据质量。

优选的，所述数据完整度处理端对完整数据的完整度进行分析处理为：

获取四组不同段值数据的权重占比，权重占比=不同的段值数据容量/完整数据总容量，并依次将实体数据的权重占比标记为ST_i，将属性数据的权重占比标记为SX_i，将记录数据的权重占比标记为JL_i，将字段值数据的权重占比标记为ZD_i；

将四组不同段值数据的权重占比合并处理，得到无效数据占比，并标记为WX_i，其中i代表不同的完整数据，无效数据占比=1-四组不同段值数据权重占比之和；

将无效数据占比WX_i与预设值X1进行比对，当WX_i≥X1时，代表完整数据完整度异常，并生成异常信号发送至外部终端，并将此完整数据标记为待处理完整度异常数据；

当WX_i＜X1时，代表完整数据完整度正常，并将此完整数据标记为待处理完整度正常数据。

优选的，所述数据完整度处理端提取待处理完整度异常数据内部的无效数据，提取无效数据内部的重复数据，并将重复数据采用替换标记为Ak，其中k代表不同的重复数据，具体的，一串无效数据为：1、2、3、2、4、5、2，则无效数据经过替换后表现形式为：1、A1、3、A1、4、5、A1，此时A1与数据2相匹配，将对应的重复数据与对应的替换标记Ak进行捆绑生成匹配表，并将匹配表传输至数据库内进行存储；

将替换后的无效数据传输至数据库内存储，并将替换后的无效数据与完整数据采用对应的捆绑标记。

优选的，所述数据质量提升端对完整数据进行压缩处理的方式为：

S1、将完整数据划分为实体数据、属性数据、记录数据以及字段值数据时，以实体数据为源数据，以属性数据、记录数据以及字段值数据为配数据，配数据从源数据内进行提取；

S2、在配数据从源数据提取间隔处，设定间隔下标标记，具体的，源数据表现形式为：1、2、3，此时配数据为2，则提取配数据2，并对配数据2进行间隔下标标记，标记后配数据2的整体表现形式为：₁2₃，此时配数据提取后的源数据表现形式为：1₂、*、₂3；

S3、将配数据提取完毕后，根据配数据的属性，依次划分为属性数据、记录数据以及字段值数据，并将实体数据为源数据，以属性数据、记录数据以及字段值数据为配数据采用对应的捆绑标记，并将四组段值数据进行压缩，输送至数据库内进行存储；

S4、对完整数据进行提取，根据对应的捆绑标记，依次提取实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包，根据对应的间隔下标标记，将四组段值数据进行整合为待处理完整度正常数据或待处理完整度异常数据，其中无效数据由待处理完整度异常数据剔除而出，在剔除过程中，同时采用步骤S2中的间隔标记形式对所提取的无效数据进行标记，当完整数据整合完毕后，通过捆绑标记，查看数据库内是否存在无效数据，若存在无效数据，根据对应的间隔标记，提取无效数据，并将无效数据整合至待处理完整度异常数据内形成完整数据。

优选的，还包括数据库，且数据库内设置有五组存储区间，五组存储区间分别对实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包和无效数据压缩包进行存储。

与现有技术相比，本发明的有益效果是：根据大数据内各种各样的数据属性，将多组不同的数据划分为结构化数据、半结构化数据以及非结构化数据，并采用对应的分区进行存储，再对分类后的数据进行再处理，预先对完整数据的完整度进行分析处理，将数据划分为四组不同的段值数据，并获取段值数据的权重占比，根据权重占比数据获取无效数据占比，根据无效数据占比数值查看数据的完整度是否正常，提取处于异常完整数据内部的无效数据，并提取无效数据的重复数据，将重复数据采用替换标记进行替换，将替换后的重复数据进行存储，便降低完整数据的整体存储量，提升存储管理效果；

再对完整数据内部的四组段值数据进行分类压缩存储，在存储时，便再一步降低了存储容量，提升整个完整数据的整体质量，提升统一管理的效果，将四组段值数据从完整数据内拆分时，对拆分点所对应的拆分数据进行间隔下标标记，根据间隔下标标记，在进行数据整合时，不会造成数据混乱，同时保证四组段值数据可快速组合成完整数据。

附图说明

图1为本发明原理框架示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1，本申请提供了基于云平台大数据端计算分析用统一管理系统，包括云平台大数据端、初步分类端、数据划分端、数据质量提升端、数据完整度处理端以及数据库；

所述云平台大数据端输出端与初步分类端输入端电性连接，所述初步分类端输出端与数据划分端输入端电性连接，所述数据划分端输出端分别与数据质量提升端以及数据完整度处理端输入端电性连接，所述数据质量提升端以及数据完整度处理端输出端均与数据库输入端电性连接；

所述初步分类端，用于对云平台大数据端内部的大数据进行分类处理，根据数据的分类属性将大数据依次划分为结构化数据、半结构化数据以及非结构化数据，且三大分类属性数据依次管理存储于三大分区内，三大分区分别为结构分区、半结构分区以及非结构分区，结构分区对结构化数据进行存储，半结构分区对半结构化数据进行存储，非结构分区对非结构化数据进行存储；

所述数据划分端，对三大分区内部的数据再次进行划分，使数据划分为多组完整的段值数据，并将所划分的段值数据传输至后续处理端内，其中，段值数据包括实体数据、属性数据、记录数据以及字段值数据，其中完整的数据包括上述四种数据类型（具体的，完整的数据包括四组段值数据和无效数据）；

所述数据完整度处理端，根据四组不同的段值数据，对多组不同数据的完整度进行处理分析，其中处理分析方式为：

获取四组不同段值数据的权重占比（权重占比=不同的段值数据容量/完整数据总容量），并依次将实体数据的权重占比标记为ST_i，将属性数据的权重占比标记为SX_i，将记录数据的权重占比标记为JL_i，将字段值数据的权重占比标记为ZD_i；

将四组不同段值数据的权重占比合并处理，得到无效数据占比，并标记为WX_i，其中i代表不同的完整数据（无效数据占比=1-四组不同段值数据权重占比之和）；

将无效数据占比WX_i与预设值X1进行比对，当WX_i≥X1时，代表完整数据完整度异常，并生成异常信号发送至外部终端，并将此完整数据标记为待处理完整度异常数据，此处X1取值为10％；

当WX_i＜X1时，代表完整数据完整度正常，并将此完整数据标记为待处理完整度正常数据；

提取待处理完整度异常数据内部的无效数据（无效数据为完整数据剔除四组不同段值数据所剩余的数据），提取无效数据内部的重复数据，并将重复数据采用替换标记为Ak，其中k代表不同的重复数据，具体的，一串无效数据为：1、2、3、2、4、5、2（具体的，参数2可能代表一大串的重复数据），则无效数据经过替换后表现形式为：1、A1、3、A1、4、5、A1，此时标记A1只是一种表现形式，使用A1对参数2进行替换，此时A1与数据2相匹配，替换完成后，将对应的重复数据与对应的替换标记Ak进行捆绑生成匹配表，并将匹配表传输至数据库内进行存储；

将替换后的无效数据传输至数据库内存储，并将替换后的无效数据与完整数据采用对应的捆绑标记，便于后期通过捆绑标记将无效数据与完整数据进行合并。

所述数据质量提升端，根据完整数据以及内部所划分的四组不同的段值数据，对完整数据进行压缩，提升整个完整数据的数据质量，其中具体处理方式如下：

S3、将配数据提取完毕后，根据配数据的属性，依次划分为属性数据、记录数据以及字段值数据，并将实体数据为源数据，以属性数据、记录数据以及字段值数据为配数据（具体的，此处将源数据作为一个数据提取模板，如步骤S2所示的表现形式，将多种不同的配数据从源数据内进行提取，并在提取位置处采用*进行替换，*代表此处存在数据，但数据已经被提取出去了），采用对应的捆绑标记，并将四组段值数据进行压缩，输送至数据库内进行存储，数据库内设置有五组存储区间，五组存储区间分别对实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包和无效数据压缩包进行存储；

S4、需要对原始的完整数据进行提取时，根据对应的捆绑标记，依次提取实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包，根据对应的间隔下标标记，将四组段值数据进行整合为待处理完整度正常数据或待处理完整度异常数据，其中无效数据由待处理完整度异常数据中剔除而出，在剔除过程中，同时采用步骤S2中的间隔标记形式对所提取的无效数据进行标记，当完整数据整合完毕后，通过捆绑标记，查看数据库内是否存在无效数据，若存在无效数据，根据对应的间隔标记，提取无效数据，并将无效数据整合至待处理完整度异常数据内形成原始的完整数据（具体的，存在无效数据的情况为，当无效数据占比超出10％时，将无效数据剔除后，则代表经过处理后的完整数据不够完整，则需要将完整数据补齐）。

通过数据质量提升端对完整数据进行质量提升时，便需将四组不同的段值数据从完整数据内提取，并采取压缩的方式，便可压缩整个完整数据的容量，以此提升整个完整数据的整体质量，同时，将对应的完整数据进行拆分，也增强了整体数据加密效果，从而便可提升统一管理效果。

实施例二

本实施例在具体实施过程中，与实施例一相比，具体区别在于，X1取值为7％，其余参数数据均与实施例一一致；

实验

将实施例一与实施例二内部多组参数散布于实验中进行体验，得到实验过程中产生的样本数据，样本数据包括操作用户给出的评价分，具体参数如下表所示：

由表中数据可知，实施例二的数据优于实施例一的数据，外部操作人员可根据个人需求选择对应的实施例。

上述公式中的部分数据均是去除量纲取其数值计算，公式是由采集的大量数据经过软件模拟得到最接近真实情况的一个公式；公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者通过大量数据模拟获得。

本发明的工作原理：根据大数据内各种各样的数据属性，将多组不同的数据划分为结构化数据、半结构化数据以及非结构化数据，并采用对应的分区进行存储，再对分类后的数据进行再处理，预先对完整数据的完整度进行分析处理，将数据划分为四组不同的段值数据，并获取段值数据的权重占比，根据权重占比数据获取无效数据占比，根据无效数据占比数值查看数据的完整度是否正常，提取处于异常完整数据内部的无效数据，并提取无效数据的重复数据，将重复数据采用替换标记进行替换，将替换后的重复数据进行存储，便降低完整数据的整体存储量，提升存储管理效果；

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.基于云平台大数据计算分析用统一管理系统，其特征在于，包括：

2.根据权利要求1所述的基于云平台大数据计算分析用统一管理系统，其特征在于，所述数据完整度处理端对完整数据的完整度进行分析处理为：

3.根据权利要求2所述的基于云平台大数据计算分析用统一管理系统，其特征在于，所述数据完整度处理端提取待处理完整度异常数据内部的无效数据，提取无效数据内部的重复数据，并将重复数据采用替换标记为Ak，其中k代表不同的重复数据，具体的，一串无效数据为：1、2、3、2、4、5、2，则无效数据经过替换后表现形式为：1、A1、3、A1、4、5、A1，此时A1与数据2相匹配，将对应的重复数据与对应的替换标记Ak进行捆绑生成匹配表，并将匹配表传输至数据库内进行存储；

4.根据权利要求3所述的基于云平台大数据计算分析用统一管理系统，其特征在于，所述数据质量提升端对完整数据进行压缩处理的方式为：

5.根据权利要求4所述的基于云平台大数据计算分析用统一管理系统，其特征在于，还包括数据库，且数据库内设置有五组存储区间，五组存储区间分别对实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包和无效数据压缩包进行存储。