CN117349782A - 智能数据预警决策树分析方法及系统 - Google Patents
智能数据预警决策树分析方法及系统 Download PDFInfo
- Publication number
- CN117349782A CN117349782A CN202311659555.2A CN202311659555A CN117349782A CN 117349782 A CN117349782 A CN 117349782A CN 202311659555 A CN202311659555 A CN 202311659555A CN 117349782 A CN117349782 A CN 117349782A
- Authority
- CN
- China
- Prior art keywords
- model
- decision tree
- data
- adopting
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 177
- 238000004458 analytical method Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 97
- 238000005457 optimization Methods 0.000 claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 238000005516 engineering process Methods 0.000 claims abstract description 49
- 238000011156 evaluation Methods 0.000 claims abstract description 44
- 230000002159 abnormal effect Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000002790 cross-validation Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 28
- 230000002068 genetic effect Effects 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000013138 pruning Methods 0.000 claims abstract description 24
- 238000004140 cleaning Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000000513 principal component analysis Methods 0.000 claims abstract description 14
- 238000011425 standardization method Methods 0.000 claims abstract description 12
- 238000010200 validation analysis Methods 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 15
- 230000005856 abnormality Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000003909 pattern recognition Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 7
- 238000012847 principal component analysis method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000001364 causal effect Effects 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000010485 coping Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 238000012502 risk assessment Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000012300 Sequence Analysis Methods 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000013524 data verification Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 6
- 230000006872 improvement Effects 0.000 abstract description 5
- 230000008676 import Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002759 z-score normalization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习技术领域,具体为智能数据预警决策树分析方法及系统,包括以下步骤:基于原始数据集,采用数据清洗技术和Z得分标准化方法,处理异常值和标准化数据,生成预处理数据集。本发明中,主成分分析和互信息评估在特征选择中提升效率,帮助模型聚焦于相关信息,减少计算复杂度,提高性能,结合遗传算法和后剪枝技术的分类与回归树算法增强泛化能力,同时减少过拟合风险,K折交叉验证为训练提供稳定性和准确性验证,提升模型可靠性,新数据集的异常检测有效识别潜在风险和异常模式,为用户提供及时预警,采用增量学习方法迭代优化模型,保证适应性和持续改进,使模型在动态环境中保持高效和准确。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及智能数据预警决策树分析方法及系统。
背景技术
机器学习是人工智能的一个分支,专注于开发算法和技术,使计算机系统能够从数据中学习并做出决策或预测。在机器学习领域,计算机利用算法分析大量数据,识别数据中的模式和关系,并基于这些发现做出预测或执行任务。这种技术在多个领域得到了应用,如图像识别、语音识别、医疗诊断、股票市场交易、无人驾驶汽车等。机器学习可以分为监督学习、非监督学习、半监督学习和强化学习等类型,各有其特定的用途和算法。
智能数据预警决策树分析方法是一种机器学习技术,旨在从大量数据中自动识别潜在的风险和异常模式。这种方法使用决策树算法,一个流行的分类和回归方法,来分析数据集并构建模型。决策树通过创建决策规则的树状结构来预测目标变量的值,使得复杂的数据决策过程更加直观和易于理解。在智能数据预警中,决策树分析用于识别导致问题或需要关注的数据模式,以便及时采取预防措施或应对策略。方法的主要目的是提高数据监控的效率和准确性,及早发现问题,防止潜在的风险或损失。通过自动检测异常模式和潜在风险,决策树分析有助于机构或个人在出现问题之前做出快速反应。这在金融风险管理、网络安全、健康监测、工业质量控制等方面尤为重要。
传统决策树分析方法在多个方面存在不足。在特征选择方面,传统方法缺乏有效的降维和关联性分析,导致模型处理不必要的复杂性,降低训练效率和模型性能。此外,未经优化的模型容易过拟合,且泛化能力有限。在模型验证方面,缺乏系统的交叉验证方法会影响模型的稳定性和可靠性。最后,传统方法在面对新数据集时往往缺乏有效的异常检测机制,限制其在实际应用中的预警能力。而对于模型的持续改进和适应性调整,传统方法也通常缺乏有效的策略。
发明内容
本发明的目的是解决现有技术中存在的缺点,而提出的智能数据预警决策树分析方法及系统。
为了实现上述目的,本发明采用了如下技术方案:智能数据预警决策树分析方法,包括以下步骤:
S1:基于原始数据集,采用数据清洗技术和Z得分标准化方法,处理异常值和标准化数据,生成预处理数据集;
S2:基于所述预处理数据集,采用主成分分析和互信息评估方法,进行特征提取和降维,生成特征选择结果;
S3:基于所述特征选择结果,采用分类与回归树算法,构建初始决策树模型;
S4:基于所述初始决策树模型,采用遗传算法和后剪枝技术,进行模型优化,建立优化后的决策树模型;
S5:基于所述优化后的决策树模型,进行交叉验证和模型训练,使用K折交叉验证方法,获取训练完成的决策树模型;
S6:基于所述训练完成的决策树模型,应用于新数据集进行异常检测,生成预警分析报告;
S7:基于所述预警分析报告,收集用户反馈并利用增量学习方法,进行模型迭代优化,生成迭代优化后的决策树模型;
所述预处理数据集具体为异常值修正和范围标准化后的数据,所述特征选择结果具体为与目标变量关联的特征集合,所述初始决策树模型具体指按照最优分裂规则构建的决策树结构,所述优化后的决策树模型具体为经过参数调整和结构剪枝的模型,所述训练完成的决策树模型具体指在训练集上经过验证的稳定性和准确性提升的模型,所述预警分析报告包括潜在风险点和异常模式的描述信息。
作为本发明的进一步方案,基于原始数据集,采用数据清洗技术和Z得分标准化方法,处理异常值和标准化数据,生成预处理数据集的步骤具体为:
S101:基于原始数据集,采用数据清洗技术,进行数据筛选和缺失值处理,生成清洗后的数据集;
S102:基于所述清洗后的数据集,采用统计分析方法,识别和标记异常值,生成带标识异常值的数据集;
S103:基于所述带标识异常值的数据集,采用异常值处理策略,剔除或替换异常值,生成去除异常值的数据集;
S104:基于所述去除异常值的数据集,采用Z得分标准化方法,进行数据标准化,生成预处理数据集;
所述数据清洗技术包括数据验证、重复数据处理和格式标准化,所述统计分析方法具体为箱形图分析和标准差分析,所述异常值处理策略包括离群点分析和数据平滑技术,所述Z得分标准化方法具体为计算每个数据点的标准分。
作为本发明的进一步方案,基于所述预处理数据集,采用主成分分析和互信息评估方法,进行特征提取和降维,生成特征选择结果的步骤具体为:
S201:基于所述预处理数据集,采用主成分分析方法,执行降维操作,生成降维后的数据集;
S202:基于所述降维后的数据集,采用互信息评估方法,评估特征与目标变量的相互依赖性,生成特征关联性评分;
S203:基于所述特征关联性评分,采用特征选择策略,提取关键特征,生成精简后的特征集;
S204:基于所述精简后的特征集,执行最终的特征确认,生成特征选择结果;
所述主成分分析方法包括协方差矩阵计算和特征向量提取,所述互信息评估方法具体为计算特征与目标变量的互信息值,所述特征选择策略具体为基于阈值的选择和基于排名的选择,所述最终确认具体参照领域知识的应用和模型需求。
作为本发明的进一步方案,基于所述特征选择结果,采用分类与回归树算法,构建初始决策树模型的步骤具体为:
S301:基于所述特征选择结果,采用分类与回归树算法,构建初始决策树模型;
S302:基于所述初步决策树模型,进行模型验证,使用交叉验证技术评估模型的初始性能,生成模型性能评估结果;
S303:基于所述模型性能评估结果,进行模型调整,生成调整后的决策树模型;
S304:基于所述调整后的决策树模型,执行模型简化,移除对分类贡献较小的节点,生成初始决策树;
所述分类与回归树算法包括特征选择、节点分裂标准确定以及树的构建,所述交叉验证技术包括数据分割、模型训练、测试以及性能评估,所述模型调整包括修改树的深度、调整节点分裂标准。
作为本发明的进一步方案,基于所述初始决策树模型,采用遗传算法和后剪枝技术,进行模型优化,建立优化后的决策树模型的步骤具体为:
S401:基于所述初始决策树,采用遗传算法,进行模型的结构优化,生成遗传算法优化结果;
S402:基于所述遗传算法优化结果,采用递归分裂方法,进行树结构的扩展,生成结点分裂后的决策树模型;
S403:基于所述结点分裂后的决策树模型,采用树修剪技术,进行树的简化,生成生长后的决策树模型;
S404:基于所述生长后的决策树模型,采用交叉验证方法,进行模型评估,生成初始决策树模型评估报告;
所述分类与回归树算法具体为利用信息增益或基尼指数进行树的分裂,所述递归分裂方法包括选择最优切分点和切分特征,所述树修剪技术具体指去除过度拟合的分支,所述交叉验证方法具体为分割数据集进行多次训练和验证。
作为本发明的进一步方案,基于所述优化后的决策树模型,进行交叉验证和模型训练,使用K折交叉验证方法,获取训练完成的决策树模型的步骤具体为:
S501:基于所述优化后的决策树模型,采用数据随机分区方法,准备K折交叉验证数据集,生成分割后的数据集;
S502:基于所述分割后的数据集,执行K折交叉验证,对模型进行迭代训练和验证,生成交叉验证结果;
S503:基于所述交叉验证结果,进行模型性能分析,包括误差率和混淆矩阵的计算,生成性能评估报告;
S504:基于所述性能评估报告,对模型进行微调,优化决策规则,生成训练完成的决策树模型;
所述数据随机分区方法具体包括随机抽样和分层抽样,所述K折交叉验证具体为单次操作中使用差异化的子集作为验证集,其余作为训练集。
作为本发明的进一步方案,基于所述训练完成的决策树模型,应用于新数据集进行异常检测,生成预警分析报告的步骤具体为:
S601:基于所述训练完成的决策树模型,采用混合异常检测方法,对新数据集进行异常模式识别,生成初步异常检测结果;
S602:基于所述初步异常检测结果,执行深度数据分析,识别和分类异常模式,生成异常模式分类结果;
S603:基于所述异常模式分类结果,采用关联规则挖掘和因果关系探索,分析每种异常模式的潜在原因和影响,生成异常原因和影响报告;
S604:基于所述异常原因和影响报告,编制综合的预警分析报告,包括风险评估和应对方案,生成预警分析报告;
所述混合异常检测方法采用统计阈值分析和数据模式识别技术,所述深度数据分析具体为使用时间序列分析和聚类算法对异常模式进行分类。
作为本发明的进一步方案,基于所述预警分析报告,收集用户反馈并利用增量学习方法,进行模型迭代优化,生成迭代优化后的决策树模型的步骤具体为:
S701:基于所述预警分析报告,采用在线调查和用户访谈方法,收集用户对报告的反馈和方案,生成用户反馈收集结果;
S702:基于所述用户反馈收集结果,分析用户需求和模型性能差距,进行优化策略的制定,生成模型优化策略结果;
S703:基于所述模型优化策略结果,采用增量学习方法对决策树模型进行优化,生成模型优化中间结果;
S704:基于所述模型优化中间结果,执行最终的模型调整和验证,生成迭代优化后的决策树模型;
所述优化策略的制定包括特征重新工程和调整决策树参数,所述增量学习方法具体为对新数据的连续学习和模型参数的动态调整。
智能数据预警决策树分析系统,所述智能数据预警决策树分析系统用于执行上述智能数据预警决策树分析方法,所述系统包括数据预处理模块、特征工程模块、决策树构建模块、模型优化模块、模型训练与验证模块、应用与迭代优化模块。
作为本发明的进一步方案,所述数据预处理模块基于原始数据集,采用数据清洗技术,进行数据筛选、缺失值处理,生成预处理数据集;
所述特征工程模块基于预处理数据集,采用主成分分析和互信息评估方法,执行降维操作、特征关联性评分,生成特征选择结果;
所述决策树构建模块基于特征选择结果,采用分类与回归树算法,构建初始决策树模型,并进行模型验证,生成初始决策树模型;
所述模型优化模块基于初始决策树模型,采用遗传算法和后剪枝技术,进行模型的结构优化、参数微调,生成优化后的决策树模型;
所述模型训练与验证模块基于优化后的决策树模型,采用K折交叉验证方法进行迭代训练和验证,生成训练完成的决策树模型;
所述应用与迭代优化模块基于训练完成的决策树模型,对新数据集进行异常检测和预警分析,并根据用户反馈利用增量学习方法进行模型迭代优化,生成迭代优化后的决策树模型。
与现有技术相比,本发明的优点和积极效果在于:
本发明中,主成分分析和互信息评估方法的应用在特征选择过程中提升了效率,帮助模型关注最相关的信息,从而减少计算复杂度和提高模型性能。分类与回归树算法结合遗传算法和后剪枝技术的使用,增强了模型的泛化能力,同时减少了过拟合的风险。K折交叉验证为模型训练提供了稳定性和准确性的验证,增加了模型的可靠性。通过对新数据集的异常检测,能有效识别潜在风险和异常模式,为用户提供了及时的预警。利用增量学习方法对模型进行迭代优化,保证模型随时间的适应性和持续改进,使其在动态环境中保持高效和准确。
附图说明
图1为本发明的工作流程示意图;
图2为本发明的S1细化流程图;
图3为本发明的S2细化流程图;
图4为本发明的S3细化流程图;
图5为本发明的S4细化流程图;
图6为本发明的S5细化流程图;
图7为本发明的S6细化流程图;
图8为本发明的S7细化流程图;
图9为本发明的系统流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:请参阅图1,本发明提供一种技术方案:智能数据预警决策树分析方法,包括以下步骤:
S1:基于原始数据集,采用数据清洗技术和Z得分标准化方法,处理异常值和标准化数据,生成预处理数据集;
S2:基于预处理数据集,采用主成分分析和互信息评估方法,进行特征提取和降维,生成特征选择结果;
S3:基于特征选择结果,采用分类与回归树算法,构建初始决策树模型;
S4:基于初始决策树模型,采用遗传算法和后剪枝技术,进行模型优化,建立优化后的决策树模型;
S5:基于优化后的决策树模型,进行交叉验证和模型训练,使用K折交叉验证方法,获取训练完成的决策树模型;
S6:基于训练完成的决策树模型,应用于新数据集进行异常检测,生成预警分析报告;
S7:基于预警分析报告,收集用户反馈并利用增量学习方法,进行模型迭代优化,生成迭代优化后的决策树模型;
预处理数据集具体为异常值修正和范围标准化后的数据,特征选择结果具体为与目标变量关联的特征集合,初始决策树模型具体指按照最优分裂规则构建的决策树结构,优化后的决策树模型具体为经过参数调整和结构剪枝的模型,训练完成的决策树模型具体指在训练集上经过验证的稳定性和准确性提升的模型,预警分析报告包括潜在风险点和异常模式的描述信息。
通过数据清洗技术和Z得分标准化,提高数据的质量和准确性,为后续分析提供了坚实基础。主成分分析和互信息评估方法的特征提取和降维优化效率,减少数据复杂度,降低模型训练的计算负担。分类与回归树算法结合遗传算法和后剪枝技术的应用提升模型性能,增强泛化能力,减少过拟合风险。K折交叉验证方法的使用进一步提高模型的稳定性和准确性,增强模型的可靠性。该方法在新数据集上的异常检测功能有效地识别潜在风险和异常模式,为用户提供了及时的预警。通过增量学习方法的迭代优化,确保模型的持续改进和适应性,增强了模型在动态环境中的应用价值。
请参阅图2,基于原始数据集,采用数据清洗技术和Z得分标准化方法,处理异常值和标准化数据,生成预处理数据集的步骤具体为:
S101:基于原始数据集,采用数据清洗技术,进行数据筛选和缺失值处理,生成清洗后的数据集;
S102:基于清洗后的数据集,采用统计分析方法,识别和标记异常值,生成带标识异常值的数据集;
S103:基于带标识异常值的数据集,采用异常值处理策略,剔除或替换异常值,生成去除异常值的数据集;
S104:基于去除异常值的数据集,采用Z得分标准化方法,进行数据标准化,生成预处理数据集;
数据清洗技术包括数据验证、重复数据处理和格式标准化,统计分析方法具体为箱形图分析和标准差分析,异常值处理策略包括离群点分析和数据平滑技术,Z得分标准化方法具体为计算每个数据点的标准分。
S101中,采用数据清洗技术对原始数据进行初步处理。这包括数据验证来确保数据的准确性和完整性,处理重复数据消除冗余,以及执行格式标准化以统一数据表示。
S102中,使用统计分析方法,如箱形图分析和标准差分析,来识别和标记数据集中的异常值。这些方法有助于可视化数据分布,从而更容易地识别离群点。标记异常值后,生成带标识异常值的数据集,为下一步的处理奠定基础。
S103中,对带标识异常值的数据集进行处理。采用异常值处理策略,如离群点分析和数据平滑技术,剔除或替换异常值。例如,用相邻数据点的平均值替换异常值或使用更复杂的统计方法进行平滑处理,从而生成去除异常值的数据集。
S104中,对去除异常值的数据集应用Z得分标准化方法。这个步骤涉及计算每个数据点的标准分,即将每个值转换为其与平均值的偏差和标准差的比率。
请参阅图3,基于预处理数据集,采用主成分分析和互信息评估方法,进行特征提取和降维,生成特征选择结果的步骤具体为:
S201:基于预处理数据集,采用主成分分析方法,执行降维操作,生成降维后的数据集;
S202:基于降维后的数据集,采用互信息评估方法,评估特征与目标变量的相互依赖性,生成特征关联性评分;
S203:基于特征关联性评分,采用特征选择策略,提取关键特征,生成精简后的特征集;
S204:基于精简后的特征集,执行最终的特征确认,生成特征选择结果;
主成分分析方法包括协方差矩阵计算和特征向量提取,互信息评估方法具体为计算特征与目标变量的互信息值,特征选择策略具体为基于阈值的选择和基于排名的选择,最终确认具体参照领域知识的应用和模型需求。
S201中,应用主成分分析(PCA)方法对预处理数据集执行降维操作。这包括计算数据的协方差矩阵,确定数据特征间的相关性。从协方差矩阵中提取特征向量,这些特征向量代表数据在新的维度上的投影,揭示最显著的数据变化方向。
S202中,基于降维后的数据集,采用互信息评估方法来评估各个特征与目标变量之间的相互依赖性。通过计算特征与目标变量的互信息值,确定哪些特征与目标变量有强关联。
S203中,基于特征关联性评分,采用特征选择策略来提取关键特征。这个策略包括基于阈值的选择(即只选择超过特定互信息阈值的特征)或基于排名的选择(选择互信息排名最高的特征)。
S204中,执行最终的特征确认。这个步骤涉及参照领域知识的应用和模型需求,确保选定的特征集不仅在统计上有效,而且在实际应用中有意义。
请参阅图4,基于特征选择结果,采用分类与回归树算法,构建初始决策树模型的步骤具体为:
S301:基于特征选择结果,采用分类与回归树算法,构建初始决策树模型;
S302:基于初步决策树模型,进行模型验证,使用交叉验证技术评估模型的初始性能,生成模型性能评估结果;
S303:基于模型性能评估结果,进行模型调整,生成调整后的决策树模型;
S304:基于调整后的决策树模型,执行模型简化,移除对分类贡献较小的节点,生成初始决策树;
分类与回归树算法包括特征选择、节点分裂标准确定以及树的构建,交叉验证技术包括数据分割、模型训练、测试以及性能评估,模型调整包括修改树的深度、调整节点分裂标准。
S301中,利用分类与回归树(CART)算法开始构建初始决策树模型。这个过程首先涉及特征选择,即根据先前确定的特征选择结果选择用于节点分裂的特征。确定节点分裂的标准,比如信息增益或基尼不纯度,以此来构建树。
S302中,对构建的初始决策树模型进行验证。这里使用交叉验证技术,包括将数据分割为多个子集,然后在这些子集上轮流进行模型训练和测试。
S303中,根据模型性能评估结果对模型进行调整。这包括修改树的深度以避免过拟合,或调整节点分裂的标准以提高分类效率。这些调整有助于平衡模型的复杂性和预测能力,从而生成调整后的决策树模型。
S304中,执行模型简化。这包括移除对分类贡献较小的节点,比如那些增加的信息量非常小的节点。简化的目的是使模型更加精炼和高效,同时保持其分类能力。
请参阅图5,基于初始决策树模型,采用遗传算法和后剪枝技术,进行模型优化,建立优化后的决策树模型的步骤具体为:
S401:基于初始决策树,采用遗传算法,进行模型的结构优化,生成遗传算法优化结果;
S402:基于遗传算法优化结果,采用递归分裂方法,进行树结构的扩展,生成结点分裂后的决策树模型;
S403:基于结点分裂后的决策树模型,采用树修剪技术,进行树的简化,生成生长后的决策树模型;
S404:基于生长后的决策树模型,采用交叉验证方法,进行模型评估,生成初始决策树模型评估报告;
分类与回归树算法具体为利用信息增益或基尼指数进行树的分裂,递归分裂方法包括选择最优切分点和切分特征,树修剪技术具体指去除过度拟合的分支,交叉验证方法具体为分割数据集进行多次训练和验证。
S401中,使用遗传算法对决策树的参数和结构进行优化。遗传算法通过模拟自然选择、交叉和变异过程来寻找最优解。
代码实现:
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from deap import base, creator, tools, algorithms
# 定义遗传算法参数
def evaluate(individual):
# 评估函数,根据决策树参数评估性能
params = decode_individual(individual)
clf = DecisionTreeClassifier(**params)
return np.mean(cross_val_score(clf, X_train, y_train, cv=5)),
creator.create("FitnessMax", base.Fitness, weights=(1.0,))
creator.create("Individual", list, fitness=creator.FitnessMax)
toolbox = base.Toolbox()
# 定义遗传算法操作...
# 运行遗传算法
pop = toolbox.population(n=50)
hof = tools.HallOfFame(1)
algorithms.eaSimple(pop, toolbox, 0.5, 0.1, 20, halloffame=hof)
best_params = decode_individual(hof[0])
optimized_tree = DecisionTreeClassifier(**best_params)
S402中,使用递归分裂方法对树结构进行扩展。根据信息增益或基尼指数选择最优切分点和特征。
代码实现:
def split(node, max_depth, min_size, depth):
left, right = node['groups']
del(node['groups'])
# 检查是否达到最大深度...
# 处理左子树
if len(left) <= min_size:
node['left'] = to_terminal(left)
else:
node['left'] = get_split(left)
split(node['left'], max_depth, min_size, depth+1)
# 处理右子树
# ...同左子树...
root = get_split(train_data)
split(root, 3, 1, 1)
S403:应用树修剪技术
方法描述:树修剪用于删除不必要的节点,防止过度拟合。
代码实现:
python
Copy code
def prune_tree(tree, validation_data):
# ...修剪树的逻辑,例如计算性能增益...
pass
pruned_tree = prune_tree(optimized_tree, validation_data)
S404中,使用交叉验证方法评估模型的泛化能力。
代码实现:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(pruned_tree, X, y, cv=5)
print("准确率:", scores.mean())
请参阅图6,基于优化后的决策树模型,进行交叉验证和模型训练,使用K折交叉验证方法,获取训练完成的决策树模型的步骤具体为:
S501:基于优化后的决策树模型,采用数据随机分区方法,准备K折交叉验证数据集,生成分割后的数据集;
S502:基于分割后的数据集,执行K折交叉验证,对模型进行迭代训练和验证,生成交叉验证结果;
S503:基于交叉验证结果,进行模型性能分析,包括误差率和混淆矩阵的计算,生成性能评估报告;
S504:基于性能评估报告,对模型进行微调,优化决策规则,生成训练完成的决策树模型;
数据随机分区方法具体包括随机抽样和分层抽样,K折交叉验证具体为单次操作中使用差异化的子集作为验证集,其余作为训练集。
S501中,准备K折交叉验证数据集。这一过程使用数据随机分区方法,如随机抽样或分层抽样,将整个数据集均匀分割成K个子集。分层抽样确保每个子集在关键特征上的分布与整个数据集保持一致,这对于后续的验证过程至关重要。
S502中,执行K折交叉验证。在这个过程中,每次选择一个子集作为验证集,其余作为训练集,对决策树模型进行迭代训练和性能评估。这个过程重复K次,每次选择不同的子集作为验证集,确保模型在各个子集上的性能得到全面验证。
S503中,负责模型性能分析。通过计算每次迭代中模型的误差率和生成混淆矩阵,详细了解模型在不同类别上的分类表现。
S504中,根据交叉验证的结果和性能评估报告对模型进行细致的微调。这包括调整决策规则、修改节点分裂标准或优化树的结构。微调完成后,得到最终的、训练完成的决策树模型,经过全面的验证和优化,确保最佳性能。
请参阅图7,基于训练完成的决策树模型,应用于新数据集进行异常检测,生成预警分析报告的步骤具体为:
S601:基于训练完成的决策树模型,采用混合异常检测方法,对新数据集进行异常模式识别,生成初步异常检测结果;
S602:基于初步异常检测结果,执行深度数据分析,识别和分类异常模式,生成异常模式分类结果;
S603:基于异常模式分类结果,采用关联规则挖掘和因果关系探索,分析每种异常模式的潜在原因和影响,生成异常原因和影响报告;
S604:基于异常原因和影响报告,编制综合的预警分析报告,包括风险评估和应对方案,生成预警分析报告;
混合异常检测方法采用统计阈值分析和数据模式识别技术,深度数据分析具体为使用时间序列分析和聚类算法对异常模式进行分类。
S601中,利用训练完成的决策树模型对新数据集进行异常模式识别。这一步采用混合异常检测方法,结合统计阈值分析和数据模式识别技术。统计阈值分析用于识别那些显著偏离正常范围的数据点,而数据模式识别技术则用于识别与已知正常模式不匹配的数据模式。
S602中,执行深度数据分析,进一步识别和分类异常模式。这里可以使用时间序列分析来跟踪数据随时间的变化趋势,以及运用聚类算法对异常数据点进行分类。
S603中,基于分类结果进行的更深入分析,采用关联规则挖掘和因果关系探索方法。这一步旨在分析每种异常模式的潜在原因和可能影响。关联规则挖掘可以揭示不同异常模式之间的潜在联系,而因果关系探索有助于理解特定异常模式的成因。
S604中,根据上述分析编制综合的预警分析报告。这份报告不仅包括对异常模式的详细描述和分类,还包含对每种异常模式的风险评估和建议应对方案。这样,最终生成的预警分析报告为决策者提供关于如何应对和缓解这些异常情况的重要信息。
请参阅图8,基于预警分析报告,收集用户反馈并利用增量学习方法,进行模型迭代优化,生成迭代优化后的决策树模型的步骤具体为:
S701:基于预警分析报告,采用在线调查和用户访谈方法,收集用户对报告的反馈和方案,生成用户反馈收集结果;
S702:基于用户反馈收集结果,分析用户需求和模型性能差距,进行优化策略的制定,生成模型优化策略结果;
S703:基于模型优化策略结果,采用增量学习方法对决策树模型进行优化,生成模型优化中间结果;
S704:基于模型优化中间结果,执行最终的模型调整和验证,生成迭代优化后的决策树模型;
优化策略的制定包括特征重新工程和调整决策树参数,增量学习方法具体为对新数据的连续学习和模型参数的动态调整。
S701中,基于预警分析报告,采用在线调查和用户访谈方法来收集用户的反馈。这个过程包括询问用户对预警报告的满意度,以及对提出的方案的看法和建议。
S702中,基于用户反馈结果,分析用户的具体需求和现有模型性能之间的差距。这一步骤涉及到对用户的反馈进行深入分析,识别模型在哪些方面需要改进。根据这些分析,制定相应的模型优化策略,包括特征重新工程或调整决策树的参数设置,从而生成模型优化策略结果。
S703中,基于优化策略对决策树模型进行增量学习优化。这包括对新收集的数据进行连续学习,以及根据优化策略动态调整模型参数。增量学习方法使模型能够不断适应新的数据和用户反馈,从而生成模型优化中间结果。
S704中,对模型进行最终的调整和验证。这一步骤确保模型优化后的稳定性和有效性,通过进一步的测试和验证,确保模型在新数据上的表现符合预期。
请参阅图9,智能数据预警决策树分析系统,智能数据预警决策树分析系统用于执行上述智能数据预警决策树分析方法,系统包括数据预处理模块、特征工程模块、决策树构建模块、模型优化模块、模型训练与验证模块、应用与迭代优化模块。
数据预处理模块基于原始数据集,采用数据清洗技术,进行数据筛选、缺失值处理,生成预处理数据集;
特征工程模块基于预处理数据集,采用主成分分析和互信息评估方法,执行降维操作、特征关联性评分,生成特征选择结果;
决策树构建模块基于特征选择结果,采用分类与回归树算法,构建初始决策树模型,并进行模型验证,生成初始决策树模型;
模型优化模块基于初始决策树模型,采用遗传算法和后剪枝技术,进行模型的结构优化、参数微调,生成优化后的决策树模型;
模型训练与验证模块基于优化后的决策树模型,采用K折交叉验证方法进行迭代训练和验证,生成训练完成的决策树模型;
应用与迭代优化模块基于训练完成的决策树模型,对新数据集进行异常检测和预警分析,并根据用户反馈利用增量学习方法进行模型迭代优化,生成迭代优化后的决策树模型。
通过精确的数据预处理和特征工程,系统显著提高数据的质量和分析的准确性,为决策支持提供可靠基础。决策树构建模块和模型优化模块的运用有效地增强模型的初始准确率和后续性能,减少过拟合的风险。遗传算法和后剪枝技术的应用提升模型的泛化能力。K折交叉验证在模型训练和验证中确保模型的稳定性和准确性,对于处理复杂数据集至关重要。应用与迭代优化模块的引入,使得模型针对新数据集进行高效的异常检测和预警分析,同时根据用户反馈通过增量学习进行持续优化,进一步提升模型的实用性和适应性。
以上,仅是本发明的较佳实施例而已,并非对本发明作其他形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其他领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (10)
1.智能数据预警决策树分析方法,其特征在于,包括以下步骤:
基于原始数据集,采用数据清洗技术和Z得分标准化方法,处理异常值和标准化数据,生成预处理数据集;
基于所述预处理数据集,采用主成分分析和互信息评估方法,进行特征提取和降维,生成特征选择结果;
基于所述特征选择结果,采用分类与回归树算法,构建初始决策树模型;
基于所述初始决策树模型,采用遗传算法和后剪枝技术,进行模型优化,建立优化后的决策树模型;
基于所述优化后的决策树模型,进行交叉验证和模型训练,使用K折交叉验证方法,获取训练完成的决策树模型;
基于所述训练完成的决策树模型,应用于新数据集进行异常检测,生成预警分析报告;
基于所述预警分析报告,收集用户反馈并利用增量学习方法,进行模型迭代优化,生成迭代优化后的决策树模型;
所述预处理数据集具体为异常值修正和范围标准化后的数据,所述特征选择结果具体为与目标变量关联的特征集合,所述初始决策树模型具体指按照最优分裂规则构建的决策树结构,所述优化后的决策树模型具体为经过参数调整和结构剪枝的模型,所述训练完成的决策树模型具体指在训练集上经过验证的稳定性和准确性提升的模型,所述预警分析报告包括潜在风险点和异常模式的描述信息。
2.根据权利要求1所述的智能数据预警决策树分析方法,其特征在于,基于原始数据集,采用数据清洗技术和Z得分标准化方法,处理异常值和标准化数据,生成预处理数据集的步骤具体为:
基于原始数据集,采用数据清洗技术,进行数据筛选和缺失值处理,生成清洗后的数据集;
基于所述清洗后的数据集,采用统计分析方法,识别和标记异常值,生成带标识异常值的数据集;
基于所述带标识异常值的数据集,采用异常值处理策略,剔除或替换异常值,生成去除异常值的数据集;
基于所述去除异常值的数据集,采用Z得分标准化方法,进行数据标准化,生成预处理数据集;
所述数据清洗技术包括数据验证、重复数据处理和格式标准化,所述统计分析方法具体为箱形图分析和标准差分析,所述异常值处理策略包括离群点分析和数据平滑技术,所述Z得分标准化方法具体为计算每个数据点的标准分。
3.根据权利要求1所述的智能数据预警决策树分析方法,其特征在于,基于所述预处理数据集,采用主成分分析和互信息评估方法,进行特征提取和降维,生成特征选择结果的步骤具体为:
基于所述预处理数据集,采用主成分分析方法,执行降维操作,生成降维后的数据集;
基于所述降维后的数据集,采用互信息评估方法,评估特征与目标变量的相互依赖性,生成特征关联性评分;
基于所述特征关联性评分,采用特征选择策略,提取关键特征,生成精简后的特征集;
基于所述精简后的特征集,执行最终的特征确认,生成特征选择结果;
所述主成分分析方法包括协方差矩阵计算和特征向量提取,所述互信息评估方法具体为计算特征与目标变量的互信息值,所述特征选择策略具体为基于阈值的选择和基于排名的选择,所述最终确认具体参照领域知识的应用和模型需求。
4.根据权利要求1所述的智能数据预警决策树分析方法,其特征在于,基于所述特征选择结果,采用分类与回归树算法,构建初始决策树模型的步骤具体为:
基于特征选择结果,采用分类与回归树算法,进行数据集的初始处理,生成初步决策树模型;
基于所述初步决策树模型,进行模型验证,使用交叉验证技术评估模型的初始性能,生成模型性能评估结果;
基于所述模型性能评估结果,进行模型调整,生成调整后的决策树模型;
基于所述调整后的决策树模型,执行模型简化,移除对分类贡献较小的节点,生成初始决策树;
所述分类与回归树算法包括特征选择、节点分裂标准确定以及树的构建,所述交叉验证技术包括数据分割、模型训练、测试以及性能评估,所述模型调整包括修改树的深度、调整节点分裂标准。
5.根据权利要求1所述的智能数据预警决策树分析方法,其特征在于,基于所述初始决策树模型,采用遗传算法和后剪枝技术,进行模型优化,建立优化后的决策树模型的步骤具体为:
基于所述初始决策树,采用遗传算法,进行模型的结构优化,生成遗传算法优化结果;
基于所述遗传算法优化结果,采用递归分裂方法,进行树结构的扩展,生成结点分裂后的决策树模型;
基于所述结点分裂后的决策树模型,采用树修剪技术,进行树的简化,生成生长后的决策树模型;
基于所述生长后的决策树模型,采用交叉验证方法,进行模型评估,生成初始决策树模型评估报告;
所述分类与回归树算法具体为利用信息增益或基尼指数进行树的分裂,所述递归分裂方法包括选择最优切分点和切分特征,所述树修剪技术具体指去除过度拟合的分支,所述交叉验证方法具体为分割数据集进行多次训练和验证。
6.根据权利要求1所述的智能数据预警决策树分析方法,其特征在于,基于所述优化后的决策树模型,进行交叉验证和模型训练,使用K折交叉验证方法,获取训练完成的决策树模型的步骤具体为:
基于所述优化后的决策树模型,采用数据随机分区方法,准备K折交叉验证数据集,生成分割后的数据集;
基于所述分割后的数据集,执行K折交叉验证,对模型进行迭代训练和验证,生成交叉验证结果;
基于所述交叉验证结果,进行模型性能分析,包括误差率和混淆矩阵的计算,生成性能评估报告;
基于所述性能评估报告,对模型进行微调,优化决策规则,生成训练完成的决策树模型;
所述数据随机分区方法具体包括随机抽样和分层抽样,所述K折交叉验证具体为单次操作中使用差异化的子集作为验证集,其余作为训练集。
7.根据权利要求1所述的智能数据预警决策树分析方法,其特征在于,基于所述训练完成的决策树模型,应用于新数据集进行异常检测,生成预警分析报告的步骤具体为:
基于所述训练完成的决策树模型,采用混合异常检测方法,对新数据集进行异常模式识别,生成初步异常检测结果;
基于所述初步异常检测结果,执行深度数据分析,识别和分类异常模式,生成异常模式分类结果;
基于所述异常模式分类结果,采用关联规则挖掘和因果关系探索,分析每种异常模式的潜在原因和影响,生成异常原因和影响报告;
基于所述异常原因和影响报告,编制综合的预警分析报告,包括风险评估和应对方案,生成预警分析报告;
所述混合异常检测方法采用统计阈值分析和数据模式识别技术,所述深度数据分析具体为使用时间序列分析和聚类算法对异常模式进行分类。
8.根据权利要求1所述的智能数据预警决策树分析方法,其特征在于,基于所述预警分析报告,收集用户反馈并利用增量学习方法,进行模型迭代优化,生成迭代优化后的决策树模型的步骤具体为:
基于所述预警分析报告,采用在线调查和用户访谈方法,收集用户对报告的反馈和方案,生成用户反馈收集结果;
基于所述用户反馈收集结果,分析用户需求和模型性能差距,进行优化策略的制定,生成模型优化策略结果;
基于所述模型优化策略结果,采用增量学习方法对决策树模型进行优化,生成模型优化中间结果;
基于所述模型优化中间结果,执行最终的模型调整和验证,生成迭代优化后的决策树模型;
所述优化策略的制定包括特征重新工程和调整决策树参数,所述增量学习方法具体为对新数据的连续学习和模型参数的动态调整。
9.智能数据预警决策树分析系统,其特征在于,根据权利要求1-8任一项所述的智能数据预警决策树分析方法,所述系统包括数据预处理模块、特征工程模块、决策树构建模块、模型优化模块、模型训练与验证模块、应用与迭代优化模块。
10.根据权利要求9所述的智能数据预警决策树分析系统,其特征在于,所述数据预处理模块基于原始数据集,采用数据清洗技术,进行数据筛选、缺失值处理,生成预处理数据集;
所述特征工程模块基于预处理数据集,采用主成分分析和互信息评估方法,执行降维操作、特征关联性评分,生成特征选择结果;
所述决策树构建模块基于特征选择结果,采用分类与回归树算法,构建初始决策树模型,并进行模型验证,生成初始决策树模型;
所述模型优化模块基于初始决策树模型,采用遗传算法和后剪枝技术,进行模型的结构优化、参数微调,生成优化后的决策树模型;
所述模型训练与验证模块基于优化后的决策树模型,采用K折交叉验证方法进行迭代训练和验证,生成训练完成的决策树模型;
所述应用与迭代优化模块基于训练完成的决策树模型,对新数据集进行异常检测和预警分析,并根据用户反馈利用增量学习方法进行模型迭代优化,生成迭代优化后的决策树模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311659555.2A CN117349782B (zh) | 2023-12-06 | 2023-12-06 | 智能数据预警决策树分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311659555.2A CN117349782B (zh) | 2023-12-06 | 2023-12-06 | 智能数据预警决策树分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117349782A true CN117349782A (zh) | 2024-01-05 |
CN117349782B CN117349782B (zh) | 2024-02-20 |
Family
ID=89371480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311659555.2A Active CN117349782B (zh) | 2023-12-06 | 2023-12-06 | 智能数据预警决策树分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349782B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557009A (zh) * | 2024-01-12 | 2024-02-13 | 东莞市华灏技术有限公司 | 一种电源效率监测方法及系统 |
CN117648543A (zh) * | 2024-01-30 | 2024-03-05 | 金数信息科技(苏州)有限公司 | 一种自演化的变电站设备学习方法 |
CN118094107A (zh) * | 2024-04-08 | 2024-05-28 | 北京华力兴科技发展有限责任公司 | 异常数据检测方法及异常数据诊断器、射线测厚仪 |
CN118171129A (zh) * | 2024-05-11 | 2024-06-11 | 中移(苏州)软件技术有限公司 | 一种用户数据获取方法、系统、电子设备、芯片及介质 |
CN118314379A (zh) * | 2024-03-29 | 2024-07-09 | 深圳市心研医疗科技有限公司 | 一种散点图分类装置 |
CN118313798A (zh) * | 2024-06-07 | 2024-07-09 | 辽宁省网联数字科技产业有限公司 | 一种基于人工智能的资信标标准化自动评审方法 |
CN118316723A (zh) * | 2024-05-11 | 2024-07-09 | 山东慧贝行信息技术有限公司 | 一种基于网络风险检测的网络安全评估方法及系统 |
CN118429145A (zh) * | 2024-07-04 | 2024-08-02 | 杭州新视窗信息技术有限公司 | 一种多维度项目数据动态处理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189058A1 (en) * | 2013-07-22 | 2016-06-30 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Incremental learner via an adaptive mixture of weak learners distributed on a non-rigid binary tree |
US20170104774A1 (en) * | 2015-10-08 | 2017-04-13 | Cisco Technology, Inc. | Anomaly detection in a network coupling state information with machine learning outputs |
US20190238396A1 (en) * | 2018-01-29 | 2019-08-01 | Cisco Technology, Inc. | Using random forests to generate rules for causation analysis of network anomalies |
CN114673558A (zh) * | 2022-04-12 | 2022-06-28 | 中国矿业大学 | 一种煤矿掘进工作面风险识别与智能预控系统及方法 |
US20230072123A1 (en) * | 2021-09-07 | 2023-03-09 | Hcl Technologies Limited | Method and system for automating analysis of log data files |
CN117056834A (zh) * | 2023-08-18 | 2023-11-14 | 上海墅字科技有限公司 | 基于决策树的大数据分析方法 |
-
2023
- 2023-12-06 CN CN202311659555.2A patent/CN117349782B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189058A1 (en) * | 2013-07-22 | 2016-06-30 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Incremental learner via an adaptive mixture of weak learners distributed on a non-rigid binary tree |
US20170104774A1 (en) * | 2015-10-08 | 2017-04-13 | Cisco Technology, Inc. | Anomaly detection in a network coupling state information with machine learning outputs |
US20190238396A1 (en) * | 2018-01-29 | 2019-08-01 | Cisco Technology, Inc. | Using random forests to generate rules for causation analysis of network anomalies |
US20230072123A1 (en) * | 2021-09-07 | 2023-03-09 | Hcl Technologies Limited | Method and system for automating analysis of log data files |
CN114673558A (zh) * | 2022-04-12 | 2022-06-28 | 中国矿业大学 | 一种煤矿掘进工作面风险识别与智能预控系统及方法 |
CN117056834A (zh) * | 2023-08-18 | 2023-11-14 | 上海墅字科技有限公司 | 基于决策树的大数据分析方法 |
Non-Patent Citations (8)
Title |
---|
何蓓;邹波;周峰;肖冀;骆凯波;: "基于决策树群的多维电能表状态检验技术及其应用", 电测与仪表, no. 07, 10 April 2018 (2018-04-10) * |
孙正兴 , 彭彬彬 , 丛兰兰 , 孙建勇 , 张斌: "在线草图识别中的用户适应性研究", 计算机辅助设计与图形学学报, no. 09, 20 September 2004 (2004-09-20) * |
张蕾;崔勇;刘静;江勇;吴建平;: "机器学习在网络空间安全研究中的应用", 计算机学报, no. 09, 5 March 2018 (2018-03-05) * |
李伟贺;陈志军;郑建军;: "采用核主元成分分析和随机森林的电梯故障诊断", 化工自动化及仪表, no. 01, 10 January 2014 (2014-01-10) * |
王曙燕: "医学图像智能分类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 September 2006 (2006-09-15) * |
谭景信;王亚军;: "数据分析技术在社区矫正信息系统中的应用", 计算机工程与应用, no. 20, 15 October 2017 (2017-10-15) * |
顾艳林;: "大数据驱动下网络入侵信号提取检测仿真", 计算机仿真, no. 09, 15 September 2017 (2017-09-15) * |
齐晨虹: "基于属性简约的乳腺疾病数据分类技术及应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 April 2016 (2016-04-15) * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557009A (zh) * | 2024-01-12 | 2024-02-13 | 东莞市华灏技术有限公司 | 一种电源效率监测方法及系统 |
CN117557009B (zh) * | 2024-01-12 | 2024-05-07 | 东莞市华灏技术有限公司 | 一种电源效率监测方法及系统 |
CN117648543A (zh) * | 2024-01-30 | 2024-03-05 | 金数信息科技(苏州)有限公司 | 一种自演化的变电站设备学习方法 |
CN118314379A (zh) * | 2024-03-29 | 2024-07-09 | 深圳市心研医疗科技有限公司 | 一种散点图分类装置 |
CN118094107A (zh) * | 2024-04-08 | 2024-05-28 | 北京华力兴科技发展有限责任公司 | 异常数据检测方法及异常数据诊断器、射线测厚仪 |
CN118171129A (zh) * | 2024-05-11 | 2024-06-11 | 中移(苏州)软件技术有限公司 | 一种用户数据获取方法、系统、电子设备、芯片及介质 |
CN118316723A (zh) * | 2024-05-11 | 2024-07-09 | 山东慧贝行信息技术有限公司 | 一种基于网络风险检测的网络安全评估方法及系统 |
CN118313798A (zh) * | 2024-06-07 | 2024-07-09 | 辽宁省网联数字科技产业有限公司 | 一种基于人工智能的资信标标准化自动评审方法 |
CN118313798B (zh) * | 2024-06-07 | 2024-08-23 | 辽宁省网联数字科技产业有限公司 | 一种基于人工智能的资信标标准化自动评审方法 |
CN118429145A (zh) * | 2024-07-04 | 2024-08-02 | 杭州新视窗信息技术有限公司 | 一种多维度项目数据动态处理方法及系统 |
CN118429145B (zh) * | 2024-07-04 | 2024-09-24 | 杭州新视窗信息技术有限公司 | 一种多维度项目数据动态处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117349782B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117349782B (zh) | 智能数据预警决策树分析方法及系统 | |
CN107465664B (zh) | 基于并行多人工蜂群算法和支持向量机的入侵检测方法 | |
CN117574308B (zh) | 基于人工智能的计量芯片异常检测方法及系统 | |
CN117593101B (zh) | 基于多维数据的金融风险数据处理分析方法及系统 | |
CN117235639A (zh) | 一种基于知识图谱和强化学习的日志异常检测辅助决策方法及系统 | |
CN118569655B (zh) | 一种分阶段数据生命周期安全评估方法和系统 | |
CN118037440B (zh) | 一种综合信贷系统的授信数据处理方法及系统 | |
CN117709446A (zh) | 基于规则引擎的动态金融信用风险模型的构建方法 | |
Jin et al. | A novel multi-stage ensemble model with a hybrid genetic algorithm for credit scoring on imbalanced data | |
CN116340726A (zh) | 一种能源经济大数据清洗方法、系统、设备及存储介质 | |
CN117522607A (zh) | 一种企业财务管理系统 | |
CN118194487A (zh) | 一种电路与用电设备自动化布置方法、介质及系统 | |
CN113656707A (zh) | 一种理财产品推荐方法、系统、存储介质及设备 | |
CN116562901B (zh) | 基于机器学习的反欺诈规则自动生成方法 | |
CN117422181A (zh) | 一种基于模糊标签的代发客户流失预警方法及系统 | |
CN116542380B (zh) | 基于自然语言的电厂供应链碳足迹优化方法及装置 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
Corral et al. | Analysis of vulnerability assessment results based on CAOS | |
CN115174263A (zh) | 攻击路径动态决策方法与装置 | |
Thangarasu et al. | Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification | |
Fister et al. | Dynfs: dynamic genotype cutting feature selection algorithm | |
Dagar | A Comparative Study on Loan Eligibility | |
Sadi-Nezhad et al. | A new fuzzy clustering algorithm based on multi-objective mathematical programming | |
Tajziyehchi | A Machine Learning-Based Approach for Predictive Analysis of Cost Growth in Heavy Industrial Construction Projects | |
CN117873837A (zh) | 一种存储设备容量耗尽趋势的分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |