CN117076573B - 一种基于大数据技术的数据处理分析系统 - Google Patents
一种基于大数据技术的数据处理分析系统 Download PDFInfo
- Publication number
- CN117076573B CN117076573B CN202311331318.3A CN202311331318A CN117076573B CN 117076573 B CN117076573 B CN 117076573B CN 202311331318 A CN202311331318 A CN 202311331318A CN 117076573 B CN117076573 B CN 117076573B
- Authority
- CN
- China
- Prior art keywords
- data
- analysis
- node
- slice
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 98
- 238000012545 processing Methods 0.000 title claims abstract description 49
- 238000005516 engineering process Methods 0.000 title claims abstract description 20
- 238000007405 data analysis Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 9
- 238000000611 regression analysis Methods 0.000 claims description 8
- WSNMPAVSZJSIMT-UHFFFAOYSA-N COc1c(C)c2COC(=O)c2c(O)c1CC(O)C1(C)CCC(=O)O1 Chemical compound COc1c(C)c2COC(=O)c2c(O)c1CC(O)C1(C)CCC(=O)O1 WSNMPAVSZJSIMT-UHFFFAOYSA-N 0.000 claims description 6
- 238000011985 exploratory data analysis Methods 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 claims description 4
- 238000003909 pattern recognition Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据技术的数据处理分析系统,涉及数据处理技术领域,包括:数据采集模块,所述数据采集模块获取等待处理的海量数据;数据预处理模块,所述数据预处理模块对等待处理的海量数据进行预处理;分布式集群模块,所述分布式集群模块对预处理后的海量数据进行数据切片;智能引擎处理模块,所述智能引擎分析模块获取历史数据,提取历史数据特征,根据历史数据构建数据分析包;智能引擎分析模块,所述智能引擎分析模块获取数据透视表中的节点索引结构,对数据趋势作出分析,得出提前决策信息。通过设置分布式集群模块、智能引擎处理模块和智能引擎分析模块,进而能使得分析处理结果与实际情况匹配度高。
Description
技术领域
本发明涉及数据处理技术领域,具体是涉及一种基于大数据技术的数据处理分析系统。
背景技术
数据分析是指用适当的统计分析万法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发教据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
目前,各种科技的数据信息也越来越多,大多数杂乱无章,人工整理需要花费大量时间,浪费人力物力,且现有的数据处理分析系统对于数据处理的匹配度欠缺,其处理效果有待提升。
发明内容
为解决上述技术问题,提供一种基于大数据技术的数据处理分析系统,本技术方案解决了上述背景技术中提出的目前,各种科技的数据信息也越来越多,大多数杂乱无章,人工整理需要花费大量时间,浪费人力物力,且现有的数据处理分析系统对于数据处理的匹配度欠缺,其处理效果有待提升的问题。
为达到以上目的,本发明采用的技术方案为:
一种基于大数据技术的数据处理分析系统,包括:
数据采集模块,所述数据采集模块获取等待处理的海量数据;
数据预处理模块,所述数据预处理模块对等待处理的海量数据进行预处理,补充等待处理的海量数据中的缺失数据,剔除等待处理的海量数据的异常数据;
分布式集群模块,所述分布式集群模块对预处理后的海量数据进行数据切片,得到至少一个切片节点,使用判断回归分析进行切片节点关联性分析,使用判断回归分析进行切片节点关联性分析包括以下步骤:
确定切片节点的类型,所述类型分为连续型和类别型,连续型切片节点和类别型切片节点不具备关联性;
对于任意两个连续型切片节点一和连续型切片节点二,绘制以连续型切片节点一为自变量和连续型切片节点二为因变量的散点图;
根据散点图确定拟合模型,根据拟合模型,计算得出拟合函数;
计算散点图中点到拟合函数的距离的和为判断值,若判断值大于第一预设值,则连续型切片节点一和连续型切片节点二无关联性,若判断值不超过第一预设值,则连续型切片节点一和连续型切片节点二有关联性;
其中,散点图中点到拟合函数的距离为散点图中点到拟合函数上的点的距离的最小值;
对于任意两个类别型切片节点一和类别型切片节点二;
将类别型切片节点一中的数据按照类别型切片节点一中的各个类别进行分类,统计各类别中的数据个数,并计算得出各类别中的数据占比,按从小到大进行排列,得到;
将类别型切片节点二中的数据按照类别型切片节点二中的各个类别进行分类,统计各类别中的数据个数,并计算得出各类别中的数据占比,按从小到大进行排列,得到;
计算,若A大于第二预设值,则类别型切片节点一和类别型切片节点二无关联性,若A不超过第二预设值,则类别型切片节点一和类别型切片节点二有关联性;
其中,分别为类别型切片节点一中的各个类别的数据在类别型切片节点一中占比,/>分别为类别型切片节点二中的各个类别的数据在类别型切片节点二中占比,n为类别型切片节点一或类别型切片节点二中的各个类别的个数,A为类别型切片节点一和类别型切片节点二中对应类别数据个数差值的总和;
根据数据的关联性建立节点索引结构,节点索引结构存储在数据透视表中;
智能引擎处理模块,所述智能引擎处理模块获取历史数据,使用人工智能和模式识别技术对历史数据进行集成和分析,提取历史数据特征,提取历史数据特征包括以下步骤:
获取样本数据提取的样本特征和训练样本集,调整分类器的参数,在调整参数后的分类器中输入训练样本集,能输出得到对应的样本特征;
将历史数据用计算机可以运算的符号来表示;
对历史数据进行去噪声,提取有用信息,对历史数据中存在的退化现象进行复原;
对历史数据进行变换,输入历史数据至分类器中,分类器输出反应历史数据本质的特征;
根据历史数据构建数据分析包,根据历史数据构建数据分析包包括以下步骤:
获取历史数据的所有特征,对于每个特征建立分析支路;
分析支路收集、组织、处理和建模特征数据,分析支路对建模后的特征数据进行探索性数据分析,获得特征的初步分析模型;
对初步分析模型进行定制化设计与测试工作,初步分析模型测试不合格,则分析支路对特征数据重新进行探索性数据分析,并将结果在初步分析模型中更新,直到初步分析模型测试合格为止;
将初步分析模型与特征对应,集成初步分析模型,得到数据分析包;
智能引擎分析模块,所述智能引擎分析模块获取数据透视表中的节点索引结构,根据数据分析包,对数据趋势作出分析,得出提前决策信息。
可视化模块,所述可视化模块将提前决策信息可视化呈现。
优选的,所述数据预处理模块对等待处理的海量数据进行预处理包括以下步骤:
检测等待处理的海量数据中出现数据缺失的部分,使用未缺失的数据作为训练集;
基于训练集的数据作为训练环境,训练预测模型;
提取数据缺失的部分的特征,使用预测模型,预测数据缺失的部分的替代数据,在数据缺失的部分使用替代数据进行补偿;
对等待处理的海量数据作出其对应的散点图,获取散点图中的上四分位数和下四分位数,上四分位数为散点图从上至下四分之一位置处的数据,下四分位数为散点图从下至上四分之一位置处的数据;
计算上四分位数与下四分位数的差的绝对值,得到基准差;
基准差的预设倍数与上四分位数的和为上边缘值,下四分位数与基准差的预设倍数的差为下边缘值;
位于上边缘值和下边缘值所夹范围外的数据为异常数据;
提取异常数据的特征,使用预测模型,预测异常数据的替代数据,在异常数据处使用替代数据进行补偿。
优选的,所述对预处理后的海量数据进行数据切片包括以下步骤:
获取海量数据,判断数据是否为空,若数据为空集,则删除数据,若数据不为空集,则生成数据对应的字符串;
生成分割标准,将海量数据按类别分为系统层和应用层,系统层的分割由数据库系统和操作系统完成,应用层的分割由应用系统完成;
按照分割标准,对字符串插入分割标签,分割标签分割字符串为至少一个分割字符;
重新识别分割字符为数据,得到数据切片。
优选的,所述对数据趋势作出分析,得出提前决策信息包括以下步骤:
获取数据,对数据进行切片,得到至少一个切片节点一;
在数据透视表中检索与至少一个切片节点一有交集的至少一个节点索引结构一,从至少一个节点索引结构一中选取与至少一个切片节点一的交集最大的,作为节点索引结构二;
根据节点索引结构二提取至少一个特征,从数据分析包中调用对应特征的初步分析模型,至少一个初步分析模型集成构成总分析,得到数据趋势的分析,根据分析结果,得出提前决策信息。
优选的,所述可视化模块将提前决策信息可视化呈现包括以下步骤:
获取呈现需求侧重点,提取提前决策信息数据,清洗提前决策信息;
整合提前决策信息,确定可视化表现维度;
选取可视化表现模型,生成可视化图表。
与现有技术相比,本发明的有益效果在于:
通过设置分布式集群模块、智能引擎处理模块和智能引擎分析模块,使用计算机系统对海量数据进行处理,提升处理速度,减轻人力,同时,建立数据分析包和节点索引结构,根据数据分析包,对数据趋势作出分析,得出提前决策信息,进而能使得分析处理结果与实际情况匹配度高,此外,可视化模块将提前决策信息可视化呈现,能增强展示效果。
附图说明
图1为本发明的基于大数据技术的数据处理分析系统流程示意图;
图2为本发明的数据预处理模块对等待处理的海量数据进行预处理流程示意图;
图3为本发明的对预处理后的海量数据进行数据切片流程示意图;
图4为本发明的使用判断回归分析进行切片节点关联性分析流程示意图;
图5为本发明的提取历史数据特征流程示意图;
图6为本发明的根据历史数据构建数据分析包流程示意图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。
参照图1所示,一种基于大数据技术的数据处理分析系统,包括:
数据采集模块,所述数据采集模块获取等待处理的海量数据;
数据预处理模块,所述数据预处理模块对等待处理的海量数据进行预处理,补充等待处理的海量数据中的缺失数据,剔除等待处理的海量数据的异常数据;
分布式集群模块,所述分布式集群模块对预处理后的海量数据进行数据切片,得到至少一个切片节点,使用判断回归分析进行切片节点关联性分析,根据数据的关联性建立节点索引结构,节点索引结构存储在数据透视表中;
智能引擎处理模块,所述智能引擎处理模块获取历史数据,使用人工智能和模式识别技术对历史数据进行集成和分析,提取历史数据特征,根据历史数据构建数据分析包;
智能引擎分析模块,所述智能引擎分析模块获取数据透视表中的节点索引结构,根据数据分析包,对数据趋势作出分析,得出提前决策信息。
可视化模块,所述可视化模块将提前决策信息可视化呈现。
上述基于大数据技术的数据处理分析系统的工作过程如下:
步骤一:数据采集模块获取等待处理的海量数据,数据预处理模块对等待处理的海量数据进行预处理;
步骤二:分布式集群模块对预处理后的海量数据进行数据切片,得到至少一个切片节点,使用判断回归分析进行切片节点关联性分析,根据数据的关联性建立节点索引结构,节点索引结构存储在数据透视表中;
步骤三:智能引擎处理模块获取历史数据,使用人工智能和模式识别技术对历史数据进行集成和分析,提取历史数据特征,根据历史数据构建数据分析包;
步骤四:智能引擎分析模块获取等待分析的数据,智能引擎分析模块调用数据分析包和数据透视表中的节点索引结构,智能引擎分析模块获取等待分析的数据的特征,得到与特征匹配度最高的节点索引结构,使用节点索引结构中对应的数据分析包进行数据分析,得出提前决策信息;
步骤五:可视化模块将提前决策信息可视化呈现。
参照图2所示,数据预处理模块对等待处理的海量数据进行预处理包括以下步骤:
检测等待处理的海量数据中出现数据缺失的部分,使用未缺失的数据作为训练集;
基于训练集的数据作为训练环境,训练预测模型;
提取数据缺失的部分的特征,使用预测模型,预测数据缺失的部分的替代数据,在数据缺失的部分使用替代数据进行补偿;
对等待处理的海量数据作出其对应的散点图,获取散点图中的上四分位数和下四分位数,上四分位数为散点图从上至下四分之一位置处的数据,下四分位数为散点图从下至上四分之一位置处的数据;
计算上四分位数与下四分位数的差的绝对值,得到基准差;
基准差的预设倍数与上四分位数的和为上边缘值,下四分位数与基准差的预设倍数的差为下边缘值;
位于上边缘值和下边缘值所夹范围外的数据为异常数据;
提取异常数据的特征,使用预测模型,预测异常数据的替代数据,在异常数据处使用替代数据进行补偿;
对等待处理的海量数据进行预处理的租用是完善数据,避免数据缺失或异常,导致数据在处理过程中出现异常。
参照图3所示,对预处理后的海量数据进行数据切片包括以下步骤:
获取海量数据,判断数据是否为空,若数据为空集,则删除数据,若数据不为空集,则生成数据对应的字符串;
生成分割标准,将海量数据按类别分为系统层和应用层,系统层的分割由数据库系统和操作系统完成,应用层的分割由应用系统完成;
按照分割标准,对字符串插入分割标签,分割标签分割字符串为至少一个分割字符;
重新识别分割字符为数据,得到数据切片;
进行数据切片是为了将数据分割为基本部分,完成基本部分的分析处理,使用基本部分的组合构成待处理的数据,基本部分的组合的分析处理形成对数据进行分析处理。
参照图4所示,使用判断回归分析进行切片节点关联性分析包括以下步骤:
确定切片节点的类型,所述类型分为连续型和类别型,连续型切片节点和类别型切片节点不具备关联性;
对于任意两个连续型切片节点一和连续型切片节点二,绘制以连续型切片节点一为自变量和连续型切片节点二为因变量的散点图;
根据散点图确定拟合模型,根据拟合模型,计算得出拟合函数;
计算散点图中点到拟合函数的距离的和为判断值,若判断值大于第一预设值,则连续型切片节点一和连续型切片节点二无关联性,若判断值不超过第一预设值,则连续型切片节点一和连续型切片节点二有关联性;
其中,散点图中点到拟合函数的距离为散点图中点到拟合函数上的点的距离的最小值;
对于任意两个类别型切片节点一和类别型切片节点二;
将类别型切片节点一中的数据按照类别型切片节点一中的各个类别进行分类,统计各类别中的数据个数,并计算得出各类别中的数据占比,按从小到大进行排列,得到;
将类别型切片节点二中的数据按照类别型切片节点二中的各个类别进行分类,统计各类别中的数据个数,并计算得出各类别中的数据占比,按从小到大进行排列,得到;
计算,若A大于第二预设值,则类别型切片节点一和类别型切片节点二无关联性,若A不超过第二预设值,则类别型切片节点一和类别型切片节点二有关联性;
其中,分别为类别型切片节点一中的各个类别的数据在类别型切片节点一中占比,/>分别为类别型切片节点二中的各个类别的数据在类别型切片节点二中占比,n为类别型切片节点一或类别型切片节点二中的各个类别的个数,A为类别型切片节点一和类别型切片节点二中对应类别数据个数差值的总和;
进行切片节点关联性分析是为了将数据中的起到分析作用的节点找出,因为对分析产生作用的节点互相之间存在一定关联性,因而,与其余数据中的其余的节点都没有关联的节点,必然对于分析作用不大,可以舍弃,不作考虑。
参照图5所示,提取历史数据特征包括以下步骤:
获取样本数据提取的样本特征和训练样本集,调整分类器的参数,在调整参数后的分类器中输入训练样本集,能输出得到对应的样本特征;
将历史数据用计算机可以运算的符号来表示;
对历史数据进行去噪声,提取有用信息,对历史数据中存在的退化现象进行复原;
对历史数据进行变换,输入历史数据至分类器中,分类器输出反应历史数据本质的特征;
提取历史数据特征将历史数据中有效部分提取分离出,避免历史数据中的无效部分对数据分析产生干扰。
参照图6所示,根据历史数据构建数据分析包包括以下步骤:
获取历史数据的所有特征,对于每个特征建立分析支路;
分析支路收集、组织、处理和建模特征数据,分析支路对建模后的特征数据进行探索性数据分析,获得特征的初步分析模型;
对初步分析模型进行定制化设计与测试工作,初步分析模型测试不合格,则分析支路对特征数据重新进行探索性数据分析,并将结果在初步分析模型中更新,直到初步分析模型测试合格为止;
将初步分析模型与特征对应,集成初步分析模型,得到数据分析包;
构建数据分析包可以将为待分析的数据提供分析的基础,将待分析的数据提取特征,将相应的特征的处理分析合并汇总,得到待分析的数据的分析结果。
对数据趋势作出分析,得出提前决策信息包括以下步骤:
获取数据,对数据进行切片,得到至少一个切片节点一;
在数据透视表中检索与至少一个切片节点一有交集的至少一个节点索引结构一,从至少一个节点索引结构一中选取与至少一个切片节点一的交集最大的,作为节点索引结构二;
节点索引结构一中包含特征,切片节点一中也包含特征,因此,二者可以作交集;
根据节点索引结构二提取至少一个特征,从数据分析包中调用对应特征的初步分析模型,至少一个初步分析模型集成构成总分析,得到数据趋势的分析,根据分析结果,得出提前决策信息。
可视化模块将提前决策信息可视化呈现包括以下步骤:
获取呈现需求侧重点,提取提前决策信息数据,清洗提前决策信息;
整合提前决策信息,确定可视化表现维度;
选取可视化表现模型,生成可视化图表。
再进一步的,本方案还提出一种存储介质,其上存储有计算机可读程序,计算机可读程序被调用时执行上述的基于大数据技术的数据处理分析系统。
可以理解的是,存储介质可以是磁性介质,例如,软盘、硬盘、磁带;光介质例如,DVD;或者半导体介质例如固态硬盘SolidStateDisk,SSD等。
综上所述,本发明的优点在于:通过设置分布式集群模块、智能引擎处理模块和智能引擎分析模块,使用计算机系统对海量数据进行处理,提升处理速度,减轻人力,同时,建立数据分析包和节点索引结构,根据数据分析包,对数据趋势作出分析,得出提前决策信息,进而能使得分析处理结果与实际情况匹配度高,此外,可视化模块将提前决策信息可视化呈现,能增强展示效果。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (5)
1.一种基于大数据技术的数据处理分析系统,其特征在于,包括:
数据采集模块,所述数据采集模块获取等待处理的海量数据;
数据预处理模块,所述数据预处理模块对等待处理的海量数据进行预处理,补充等待处理的海量数据中的缺失数据,剔除等待处理的海量数据的异常数据;
分布式集群模块,所述分布式集群模块对预处理后的海量数据进行数据切片,得到至少一个切片节点,使用判断回归分析进行切片节点关联性分析,使用判断回归分析进行切片节点关联性分析包括以下步骤:
确定切片节点的类型,所述类型分为连续型和类别型,连续型切片节点和类别型切片节点不具备关联性;
对于任意两个连续型切片节点一和连续型切片节点二,绘制以连续型切片节点一为自变量和连续型切片节点二为因变量的散点图;
根据散点图确定拟合模型,根据拟合模型,计算得出拟合函数;
计算散点图中点到拟合函数的距离的和为判断值,若判断值大于第一预设值,则连续型切片节点一和连续型切片节点二无关联性,若判断值不超过第一预设值,则连续型切片节点一和连续型切片节点二有关联性;
其中,散点图中点到拟合函数的距离为散点图中点到拟合函数上的点的距离的最小值;
对于任意两个类别型切片节点一和类别型切片节点二;
将类别型切片节点一中的数据按照类别型切片节点一中的各个类别进行分类,统计各类别中的数据个数,并计算得出各类别中的数据占比,按从小到大进行排列,得到;
将类别型切片节点二中的数据按照类别型切片节点二中的各个类别进行分类,统计各类别中的数据个数,并计算得出各类别中的数据占比,按从小到大进行排列,得到;
计算,若A大于第二预设值,则类别型切片节点一和类别型切片节点二无关联性,若A不超过第二预设值,则类别型切片节点一和类别型切片节点二有关联性;
其中,分别为类别型切片节点一中的各个类别的数据在类别型切片节点一中占比,/>分别为类别型切片节点二中的各个类别的数据在类别型切片节点二中占比,n为类别型切片节点一或类别型切片节点二中的各个类别的个数,A为类别型切片节点一和类别型切片节点二中对应类别数据个数差值的总和;
根据数据的关联性建立节点索引结构,节点索引结构存储在数据透视表中;
智能引擎处理模块,所述智能引擎处理模块获取历史数据,使用人工智能和模式识别技术对历史数据进行集成和分析,提取历史数据特征,提取历史数据特征包括以下步骤:
获取样本数据提取的样本特征和训练样本集,调整分类器的参数,在调整参数后的分类器中输入训练样本集,能输出得到对应的样本特征;
将历史数据用计算机可以运算的符号来表示;
对历史数据进行去噪声,提取有用信息,对历史数据中存在的退化现象进行复原;
对历史数据进行变换,输入历史数据至分类器中,分类器输出反应历史数据本质的特征;
根据历史数据构建数据分析包,根据历史数据构建数据分析包包括以下步骤:
获取历史数据的所有特征,对于每个特征建立分析支路;
分析支路收集、组织、处理和建模特征数据,分析支路对建模后的特征数据进行探索性数据分析,获得特征的初步分析模型;
对初步分析模型进行定制化设计与测试工作,初步分析模型测试不合格,则分析支路对特征数据重新进行探索性数据分析,并将结果在初步分析模型中更新,直到初步分析模型测试合格为止;
将初步分析模型与特征对应,集成初步分析模型,得到数据分析包;
智能引擎分析模块,所述智能引擎分析模块获取数据透视表中的节点索引结构,根据数据分析包,对数据趋势作出分析,得出提前决策信息;
可视化模块,所述可视化模块将提前决策信息可视化呈现。
2.根据权利要求1所述的一种基于大数据技术的数据处理分析系统,其特征在于,所述数据预处理模块对等待处理的海量数据进行预处理包括以下步骤:
检测等待处理的海量数据中出现数据缺失的部分,使用未缺失的数据作为训练集;
基于训练集的数据作为训练环境,训练预测模型;
提取数据缺失的部分的特征,使用预测模型,预测数据缺失的部分的替代数据,在数据缺失的部分使用替代数据进行补偿;
对等待处理的海量数据作出其对应的散点图,获取散点图中的上四分位数和下四分位数,上四分位数为散点图从上至下四分之一位置处的数据,下四分位数为散点图从下至上四分之一位置处的数据;
计算上四分位数与下四分位数的差的绝对值,得到基准差;
基准差的预设倍数与上四分位数的和为上边缘值,下四分位数与基准差的预设倍数的差为下边缘值;
位于上边缘值和下边缘值所夹范围外的数据为异常数据;
提取异常数据的特征,使用预测模型,预测异常数据的替代数据,在异常数据处使用替代数据进行补偿。
3.根据权利要求2所述的一种基于大数据技术的数据处理分析系统,其特征在于,所述对预处理后的海量数据进行数据切片包括以下步骤:
获取海量数据,判断数据是否为空,若数据为空集,则删除数据,若数据不为空集,则生成数据对应的字符串;
生成分割标准,将海量数据按类别分为系统层和应用层,系统层的分割由数据库系统和操作系统完成,应用层的分割由应用系统完成;
按照分割标准,对字符串插入分割标签,分割标签分割字符串为至少一个分割字符;
重新识别分割字符为数据,得到数据切片。
4.根据权利要求3所述的一种基于大数据技术的数据处理分析系统,其特征在于,所述对数据趋势作出分析,得出提前决策信息包括以下步骤:
获取数据,对数据进行切片,得到至少一个切片节点一;
在数据透视表中检索与至少一个切片节点一有交集的至少一个节点索引结构一,从至少一个节点索引结构一中选取与至少一个切片节点一的交集最大的,作为节点索引结构二;
根据节点索引结构二提取至少一个特征,从数据分析包中调用对应特征的初步分析模型,至少一个初步分析模型集成构成总分析,得到数据趋势的分析,根据分析结果,得出提前决策信息。
5.根据权利要求4所述的一种基于大数据技术的数据处理分析系统,其特征在于,所述可视化模块将提前决策信息可视化呈现包括以下步骤:
获取呈现需求侧重点,提取提前决策信息数据,清洗提前决策信息;
整合提前决策信息,确定可视化表现维度;
选取可视化表现模型,生成可视化图表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311331318.3A CN117076573B (zh) | 2023-10-16 | 2023-10-16 | 一种基于大数据技术的数据处理分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311331318.3A CN117076573B (zh) | 2023-10-16 | 2023-10-16 | 一种基于大数据技术的数据处理分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076573A CN117076573A (zh) | 2023-11-17 |
CN117076573B true CN117076573B (zh) | 2024-01-05 |
Family
ID=88717541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311331318.3A Active CN117076573B (zh) | 2023-10-16 | 2023-10-16 | 一种基于大数据技术的数据处理分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076573B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038239A (zh) * | 2017-12-27 | 2018-05-15 | 中科鼎富(北京)科技发展有限公司 | 一种异构数据源规范化处理方法、装置及服务器 |
CN111415068A (zh) * | 2020-02-28 | 2020-07-14 | 国网福建省电力有限公司厦门供电公司 | 基于改造措施与失负荷量指标关联性的配电决策建模方法 |
CN111651505A (zh) * | 2020-06-05 | 2020-09-11 | 中国民用航空厦门空中交通管理站 | 一种基于数据驱动的设备运行态势分析预警方法及系统 |
CN115203311A (zh) * | 2022-07-05 | 2022-10-18 | 南京云创大数据科技股份有限公司 | 一种基于数据大脑的行业数据分析挖掘方法及系统 |
CN115564027A (zh) * | 2022-10-27 | 2023-01-03 | 浙江师范大学 | 多模态学习行为分析方法、系统及存储介质 |
CN115730605A (zh) * | 2022-11-21 | 2023-03-03 | 刘奕涵 | 基于多维信息的数据分析方法 |
CN116634483A (zh) * | 2023-05-11 | 2023-08-22 | 中国电信股份有限公司北京研究院 | 网元异常检测方法、装置、设备及介质 |
CN116796907A (zh) * | 2023-07-11 | 2023-09-22 | 桂林理工大学 | 一种基于物联网的水环境动态监测系统及其方法 |
-
2023
- 2023-10-16 CN CN202311331318.3A patent/CN117076573B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038239A (zh) * | 2017-12-27 | 2018-05-15 | 中科鼎富(北京)科技发展有限公司 | 一种异构数据源规范化处理方法、装置及服务器 |
CN111415068A (zh) * | 2020-02-28 | 2020-07-14 | 国网福建省电力有限公司厦门供电公司 | 基于改造措施与失负荷量指标关联性的配电决策建模方法 |
CN111651505A (zh) * | 2020-06-05 | 2020-09-11 | 中国民用航空厦门空中交通管理站 | 一种基于数据驱动的设备运行态势分析预警方法及系统 |
CN115203311A (zh) * | 2022-07-05 | 2022-10-18 | 南京云创大数据科技股份有限公司 | 一种基于数据大脑的行业数据分析挖掘方法及系统 |
CN115564027A (zh) * | 2022-10-27 | 2023-01-03 | 浙江师范大学 | 多模态学习行为分析方法、系统及存储介质 |
CN115730605A (zh) * | 2022-11-21 | 2023-03-03 | 刘奕涵 | 基于多维信息的数据分析方法 |
CN116634483A (zh) * | 2023-05-11 | 2023-08-22 | 中国电信股份有限公司北京研究院 | 网元异常检测方法、装置、设备及介质 |
CN116796907A (zh) * | 2023-07-11 | 2023-09-22 | 桂林理工大学 | 一种基于物联网的水环境动态监测系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117076573A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109242864B (zh) | 基于多分支网络的图像分割结果质量评价方法 | |
CN104850633B (zh) | 一种基于手绘草图部件分割的三维模型检索系统及方法 | |
Antonacopoulos et al. | ICDAR2005 page segmentation competition | |
US11157550B2 (en) | Image search based on feature values | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
WO2017080220A1 (zh) | 知识数据的处理方法和装置 | |
US20210073216A1 (en) | Business intelligence system based on artificial intelligence and analysis method thereof | |
CN110737805B (zh) | 图模型数据的处理方法、装置和终端设备 | |
CN108304382A (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN111932639B (zh) | 一种基于卷积神经网络的不均衡缺陷样本的检测方法 | |
CN111026870A (zh) | 一种综合文本分类和图像识别的ict系统故障分析方法 | |
CN108647729A (zh) | 一种用户画像获取方法 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN107729377A (zh) | 基于数据挖掘的顾客分类方法与系统 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN112417893A (zh) | 一种基于语义层次聚类的软件功能需求分类方法及系统 | |
CN114328663A (zh) | 一种基于数据挖掘的高维剧场数据降维可视化处理方法 | |
CN116561230B (zh) | 一种基于云计算的分布式存储与检索系统 | |
CN117076573B (zh) | 一种基于大数据技术的数据处理分析系统 | |
CN116935138A (zh) | 图片主题内容多样性计算与自动选择方法及系统 | |
CN111767404A (zh) | 一种事件挖掘方法和装置 | |
CN116150455A (zh) | 一种异构数据解析方法 | |
CN112989827B (zh) | 一种基于多源异构特征的文本数据集质量评估方法 | |
CN113641824A (zh) | 基于深度学习的文本分类系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |