CN117076573B

CN117076573B - 一种基于大数据技术的数据处理分析系统

Info

Publication number: CN117076573B
Application number: CN202311331318.3A
Authority: CN
Inventors: 张博; 李十子; 胡剑; 毕文波; 谭颖骞
Original assignee: Shenzhen Boshgame Technology Co ltd
Current assignee: Shenzhen Boshgame Technology Co ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-05
Anticipated expiration: 2043-10-16
Also published as: CN117076573A

Abstract

本发明公开了一种基于大数据技术的数据处理分析系统，涉及数据处理技术领域，包括：数据采集模块，所述数据采集模块获取等待处理的海量数据；数据预处理模块，所述数据预处理模块对等待处理的海量数据进行预处理；分布式集群模块，所述分布式集群模块对预处理后的海量数据进行数据切片；智能引擎处理模块，所述智能引擎分析模块获取历史数据，提取历史数据特征，根据历史数据构建数据分析包；智能引擎分析模块，所述智能引擎分析模块获取数据透视表中的节点索引结构，对数据趋势作出分析，得出提前决策信息。通过设置分布式集群模块、智能引擎处理模块和智能引擎分析模块，进而能使得分析处理结果与实际情况匹配度高。

Description

一种基于大数据技术的数据处理分析系统

技术领域

本发明涉及数据处理技术领域，具体是涉及一种基于大数据技术的数据处理分析系统。

背景技术

数据分析是指用适当的统计分析万法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发教据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

目前，各种科技的数据信息也越来越多，大多数杂乱无章，人工整理需要花费大量时间，浪费人力物力，且现有的数据处理分析系统对于数据处理的匹配度欠缺，其处理效果有待提升。

发明内容

为解决上述技术问题，提供一种基于大数据技术的数据处理分析系统，本技术方案解决了上述背景技术中提出的目前，各种科技的数据信息也越来越多，大多数杂乱无章，人工整理需要花费大量时间，浪费人力物力，且现有的数据处理分析系统对于数据处理的匹配度欠缺，其处理效果有待提升的问题。

为达到以上目的，本发明采用的技术方案为：

一种基于大数据技术的数据处理分析系统，包括：

数据采集模块，所述数据采集模块获取等待处理的海量数据；

数据预处理模块，所述数据预处理模块对等待处理的海量数据进行预处理，补充等待处理的海量数据中的缺失数据，剔除等待处理的海量数据的异常数据；

分布式集群模块，所述分布式集群模块对预处理后的海量数据进行数据切片，得到至少一个切片节点，使用判断回归分析进行切片节点关联性分析，使用判断回归分析进行切片节点关联性分析包括以下步骤：

确定切片节点的类型，所述类型分为连续型和类别型，连续型切片节点和类别型切片节点不具备关联性；

对于任意两个连续型切片节点一和连续型切片节点二，绘制以连续型切片节点一为自变量和连续型切片节点二为因变量的散点图；

根据散点图确定拟合模型，根据拟合模型，计算得出拟合函数；

计算散点图中点到拟合函数的距离的和为判断值，若判断值大于第一预设值，则连续型切片节点一和连续型切片节点二无关联性，若判断值不超过第一预设值，则连续型切片节点一和连续型切片节点二有关联性；

其中，散点图中点到拟合函数的距离为散点图中点到拟合函数上的点的距离的最小值；

对于任意两个类别型切片节点一和类别型切片节点二；

将类别型切片节点一中的数据按照类别型切片节点一中的各个类别进行分类，统计各类别中的数据个数，并计算得出各类别中的数据占比，按从小到大进行排列，得到；

将类别型切片节点二中的数据按照类别型切片节点二中的各个类别进行分类，统计各类别中的数据个数，并计算得出各类别中的数据占比，按从小到大进行排列，得到；

计算，若A大于第二预设值，则类别型切片节点一和类别型切片节点二无关联性，若A不超过第二预设值，则类别型切片节点一和类别型切片节点二有关联性；

其中，分别为类别型切片节点一中的各个类别的数据在类别型切片节点一中占比，/>分别为类别型切片节点二中的各个类别的数据在类别型切片节点二中占比，n为类别型切片节点一或类别型切片节点二中的各个类别的个数，A为类别型切片节点一和类别型切片节点二中对应类别数据个数差值的总和；

根据数据的关联性建立节点索引结构，节点索引结构存储在数据透视表中；

智能引擎处理模块，所述智能引擎处理模块获取历史数据，使用人工智能和模式识别技术对历史数据进行集成和分析，提取历史数据特征，提取历史数据特征包括以下步骤：

获取样本数据提取的样本特征和训练样本集，调整分类器的参数，在调整参数后的分类器中输入训练样本集，能输出得到对应的样本特征；

将历史数据用计算机可以运算的符号来表示；

对历史数据进行去噪声，提取有用信息，对历史数据中存在的退化现象进行复原；

对历史数据进行变换，输入历史数据至分类器中，分类器输出反应历史数据本质的特征；

根据历史数据构建数据分析包，根据历史数据构建数据分析包包括以下步骤：

获取历史数据的所有特征，对于每个特征建立分析支路；

分析支路收集、组织、处理和建模特征数据，分析支路对建模后的特征数据进行探索性数据分析，获得特征的初步分析模型；

对初步分析模型进行定制化设计与测试工作，初步分析模型测试不合格，则分析支路对特征数据重新进行探索性数据分析，并将结果在初步分析模型中更新，直到初步分析模型测试合格为止；

将初步分析模型与特征对应，集成初步分析模型，得到数据分析包；

智能引擎分析模块，所述智能引擎分析模块获取数据透视表中的节点索引结构，根据数据分析包，对数据趋势作出分析，得出提前决策信息。

可视化模块，所述可视化模块将提前决策信息可视化呈现。

优选的，所述数据预处理模块对等待处理的海量数据进行预处理包括以下步骤：

检测等待处理的海量数据中出现数据缺失的部分，使用未缺失的数据作为训练集；

基于训练集的数据作为训练环境，训练预测模型；

提取数据缺失的部分的特征，使用预测模型，预测数据缺失的部分的替代数据，在数据缺失的部分使用替代数据进行补偿；

对等待处理的海量数据作出其对应的散点图，获取散点图中的上四分位数和下四分位数，上四分位数为散点图从上至下四分之一位置处的数据，下四分位数为散点图从下至上四分之一位置处的数据；

计算上四分位数与下四分位数的差的绝对值，得到基准差；

基准差的预设倍数与上四分位数的和为上边缘值，下四分位数与基准差的预设倍数的差为下边缘值；

位于上边缘值和下边缘值所夹范围外的数据为异常数据；

提取异常数据的特征，使用预测模型，预测异常数据的替代数据，在异常数据处使用替代数据进行补偿。

优选的，所述对预处理后的海量数据进行数据切片包括以下步骤：

获取海量数据，判断数据是否为空，若数据为空集，则删除数据，若数据不为空集，则生成数据对应的字符串；

生成分割标准，将海量数据按类别分为系统层和应用层，系统层的分割由数据库系统和操作系统完成，应用层的分割由应用系统完成；

按照分割标准，对字符串插入分割标签，分割标签分割字符串为至少一个分割字符；

重新识别分割字符为数据，得到数据切片。

优选的，所述对数据趋势作出分析，得出提前决策信息包括以下步骤：

获取数据，对数据进行切片，得到至少一个切片节点一；

在数据透视表中检索与至少一个切片节点一有交集的至少一个节点索引结构一，从至少一个节点索引结构一中选取与至少一个切片节点一的交集最大的，作为节点索引结构二；

根据节点索引结构二提取至少一个特征，从数据分析包中调用对应特征的初步分析模型，至少一个初步分析模型集成构成总分析，得到数据趋势的分析，根据分析结果，得出提前决策信息。

优选的，所述可视化模块将提前决策信息可视化呈现包括以下步骤：

获取呈现需求侧重点，提取提前决策信息数据，清洗提前决策信息；

整合提前决策信息，确定可视化表现维度；

选取可视化表现模型，生成可视化图表。

与现有技术相比，本发明的有益效果在于：

通过设置分布式集群模块、智能引擎处理模块和智能引擎分析模块，使用计算机系统对海量数据进行处理，提升处理速度，减轻人力，同时，建立数据分析包和节点索引结构，根据数据分析包，对数据趋势作出分析，得出提前决策信息，进而能使得分析处理结果与实际情况匹配度高，此外，可视化模块将提前决策信息可视化呈现，能增强展示效果。

附图说明

图1为本发明的基于大数据技术的数据处理分析系统流程示意图；

图2为本发明的数据预处理模块对等待处理的海量数据进行预处理流程示意图；

图3为本发明的对预处理后的海量数据进行数据切片流程示意图；

图4为本发明的使用判断回归分析进行切片节点关联性分析流程示意图；

图5为本发明的提取历史数据特征流程示意图；

图6为本发明的根据历史数据构建数据分析包流程示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

参照图1所示，一种基于大数据技术的数据处理分析系统，包括：

分布式集群模块，所述分布式集群模块对预处理后的海量数据进行数据切片，得到至少一个切片节点，使用判断回归分析进行切片节点关联性分析，根据数据的关联性建立节点索引结构，节点索引结构存储在数据透视表中；

智能引擎处理模块，所述智能引擎处理模块获取历史数据，使用人工智能和模式识别技术对历史数据进行集成和分析，提取历史数据特征，根据历史数据构建数据分析包；

可视化模块，所述可视化模块将提前决策信息可视化呈现。

上述基于大数据技术的数据处理分析系统的工作过程如下：

步骤一：数据采集模块获取等待处理的海量数据，数据预处理模块对等待处理的海量数据进行预处理；

步骤二：分布式集群模块对预处理后的海量数据进行数据切片，得到至少一个切片节点，使用判断回归分析进行切片节点关联性分析，根据数据的关联性建立节点索引结构，节点索引结构存储在数据透视表中；

步骤三：智能引擎处理模块获取历史数据，使用人工智能和模式识别技术对历史数据进行集成和分析，提取历史数据特征，根据历史数据构建数据分析包；

步骤四：智能引擎分析模块获取等待分析的数据，智能引擎分析模块调用数据分析包和数据透视表中的节点索引结构，智能引擎分析模块获取等待分析的数据的特征，得到与特征匹配度最高的节点索引结构，使用节点索引结构中对应的数据分析包进行数据分析，得出提前决策信息；

步骤五：可视化模块将提前决策信息可视化呈现。

参照图2所示，数据预处理模块对等待处理的海量数据进行预处理包括以下步骤：

基于训练集的数据作为训练环境，训练预测模型；

计算上四分位数与下四分位数的差的绝对值，得到基准差；

位于上边缘值和下边缘值所夹范围外的数据为异常数据；

提取异常数据的特征，使用预测模型，预测异常数据的替代数据，在异常数据处使用替代数据进行补偿；

对等待处理的海量数据进行预处理的租用是完善数据，避免数据缺失或异常，导致数据在处理过程中出现异常。

参照图3所示，对预处理后的海量数据进行数据切片包括以下步骤：

重新识别分割字符为数据，得到数据切片；

进行数据切片是为了将数据分割为基本部分，完成基本部分的分析处理，使用基本部分的组合构成待处理的数据，基本部分的组合的分析处理形成对数据进行分析处理。

参照图4所示，使用判断回归分析进行切片节点关联性分析包括以下步骤：

对于任意两个类别型切片节点一和类别型切片节点二；

进行切片节点关联性分析是为了将数据中的起到分析作用的节点找出，因为对分析产生作用的节点互相之间存在一定关联性，因而，与其余数据中的其余的节点都没有关联的节点，必然对于分析作用不大，可以舍弃，不作考虑。

参照图5所示，提取历史数据特征包括以下步骤：

将历史数据用计算机可以运算的符号来表示；

提取历史数据特征将历史数据中有效部分提取分离出，避免历史数据中的无效部分对数据分析产生干扰。

参照图6所示，根据历史数据构建数据分析包包括以下步骤：

获取历史数据的所有特征，对于每个特征建立分析支路；

构建数据分析包可以将为待分析的数据提供分析的基础，将待分析的数据提取特征，将相应的特征的处理分析合并汇总，得到待分析的数据的分析结果。

对数据趋势作出分析，得出提前决策信息包括以下步骤：

获取数据，对数据进行切片，得到至少一个切片节点一；

节点索引结构一中包含特征，切片节点一中也包含特征，因此，二者可以作交集；

可视化模块将提前决策信息可视化呈现包括以下步骤：

整合提前决策信息，确定可视化表现维度；

选取可视化表现模型，生成可视化图表。

再进一步的，本方案还提出一种存储介质，其上存储有计算机可读程序，计算机可读程序被调用时执行上述的基于大数据技术的数据处理分析系统。

可以理解的是，存储介质可以是磁性介质，例如，软盘、硬盘、磁带；光介质例如，DVD；或者半导体介质例如固态硬盘SolidStateDisk，SSD等。

综上所述，本发明的优点在于：通过设置分布式集群模块、智能引擎处理模块和智能引擎分析模块，使用计算机系统对海量数据进行处理，提升处理速度，减轻人力，同时，建立数据分析包和节点索引结构，根据数据分析包，对数据趋势作出分析，得出提前决策信息，进而能使得分析处理结果与实际情况匹配度高，此外，可视化模块将提前决策信息可视化呈现，能增强展示效果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于大数据技术的数据处理分析系统，其特征在于，包括：

对于任意两个类别型切片节点一和类别型切片节点二；

将历史数据用计算机可以运算的符号来表示；

获取历史数据的所有特征，对于每个特征建立分析支路；

智能引擎分析模块，所述智能引擎分析模块获取数据透视表中的节点索引结构，根据数据分析包，对数据趋势作出分析，得出提前决策信息；

可视化模块，所述可视化模块将提前决策信息可视化呈现。

2.根据权利要求1所述的一种基于大数据技术的数据处理分析系统，其特征在于，所述数据预处理模块对等待处理的海量数据进行预处理包括以下步骤：

基于训练集的数据作为训练环境，训练预测模型；

计算上四分位数与下四分位数的差的绝对值，得到基准差；

位于上边缘值和下边缘值所夹范围外的数据为异常数据；

3.根据权利要求2所述的一种基于大数据技术的数据处理分析系统，其特征在于，所述对预处理后的海量数据进行数据切片包括以下步骤：

重新识别分割字符为数据，得到数据切片。

4.根据权利要求3所述的一种基于大数据技术的数据处理分析系统，其特征在于，所述对数据趋势作出分析，得出提前决策信息包括以下步骤：

获取数据，对数据进行切片，得到至少一个切片节点一；

5.根据权利要求4所述的一种基于大数据技术的数据处理分析系统，其特征在于，所述可视化模块将提前决策信息可视化呈现包括以下步骤：

整合提前决策信息，确定可视化表现维度；

选取可视化表现模型，生成可视化图表。