CN109344171A - 一种基于数据流处理的非线性系统特征变量显著性挖掘法 - Google Patents
一种基于数据流处理的非线性系统特征变量显著性挖掘法 Download PDFInfo
- Publication number
- CN109344171A CN109344171A CN201811568706.2A CN201811568706A CN109344171A CN 109344171 A CN109344171 A CN 109344171A CN 201811568706 A CN201811568706 A CN 201811568706A CN 109344171 A CN109344171 A CN 109344171A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- variable
- conspicuousness
- characteristic variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005065 mining Methods 0.000 title claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 16
- 239000002131 composite material Substances 0.000 claims abstract description 14
- 230000004044 response Effects 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012804 iterative process Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000007418 data mining Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013079 data visualisation Methods 0.000 claims description 4
- 230000002688 persistence Effects 0.000 claims description 4
- 238000010162 Tukey test Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000003252 repetitive effect Effects 0.000 abstract description 2
- 238000009412 basement excavation Methods 0.000 description 6
- 239000000809 air pollutant Substances 0.000 description 5
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 3
- 231100001243 air pollutant Toxicity 0.000 description 3
- 150000001335 aliphatic alkanes Chemical class 0.000 description 3
- 150000001336 alkenes Chemical class 0.000 description 3
- HSFWRNGVRCDJHI-UHFFFAOYSA-N alpha-acetylene Natural products C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 description 3
- 125000003118 aryl group Chemical group 0.000 description 3
- 125000002534 ethynyl group Chemical group [H]C#C* 0.000 description 3
- 150000008282 halocarbons Chemical class 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003344 environmental pollutant Substances 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 231100000719 pollutant Toxicity 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000000571 coke Substances 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- JRZJOMJEPLMPRA-UHFFFAOYSA-N olefin Natural products CCCCCCCC=C JRZJOMJEPLMPRA-UHFFFAOYSA-N 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- VLCQZHSMCYCDJL-UHFFFAOYSA-N tribenuron methyl Chemical compound COC(=O)C1=CC=CC=C1S(=O)(=O)NC(=O)N(C)C1=NC(C)=NC(OC)=N1 VLCQZHSMCYCDJL-UHFFFAOYSA-N 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据流处理的非线性系统特征变量显著性挖掘法,其中所述方法包括:收集该历史数据,并对其进行预处理;通过闭环结构优化DBSCAN参数,使用DBSCAN聚类划分数据集合;对每一类数据建立基于LGBMRegressor的非线性模型,记录模型的迭代训练过程每一特征变量被使用的次数,用以表征其显著性,并建立显著性特征变量序列;确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,整合所有类的特征值分布区间模型建立网格模型,最后将显著性特征变量序列映射到网格模型中对应的类,形成复合网格模型;搭建基于Storm的实时计算框架,设计基于流处理的Topology(拓扑结构),同时加载复合网格模型。
Description
技术领域
本发明涉及数据流处理和数据挖掘领域,尤其是一种基于数据流处理的非线性系统特征变量显著性挖掘法。
背景技术
“大数据”在 2011 年一路走红, 在 2012 年更加闪耀,成为业界当之无愧的焦点。伴随Internet和Web技术的飞速发展,网络日志、互联网搜索索引、电子商务、社交网站等技术的广泛使用带来了数据量的急剧增长。计算机技术在各行各业的普遍使用也促使大量数据的产生,数据以惊人的速度增长,预示着我们己经进入大数据时代。根据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番,预计到 2020 年,全球将拥有 35ZB 的数据量,这些数据的规模、形式超出了传统数据处理方法所能捕获、管理和处理的能力。大数据时代不仅给我们带来了爆炸式增长的数据量、复杂多样的数据结构,而且也使处理这些数据信息的手段更加复杂。海量数据的存储以及分布式计算成为大数据分析与处理的首要问题。然而,在人们利用分布式计算的手段处理大批量静态数据的同时,大流量数据的实时处理与应用同样也成为了大数据企业与科研人员的关注热点。
分布式的大批量数据处理与各种机器学习算法的结合,可以帮助人们从海量的历史数据中获取更加准确、充分的数据模式与价值信息,然后庞大的数据量也会增加计算成本。数据流处理与大批量数据处理最大的区别在于数据流处理的实时性,人们需要在数据流到达后尽快获取知识,并实现实时响应,尤其在气象、金融、网络安全、电子商务、生产制造、欺诈识别等领域,需要实时观测各种实例化系统的状态变化并对数据快速处理以挖掘引起异常变化的显著特征因素。同时,上述领域中的各种实例化系统多为高维特征构成的非线性系统,因此,这也为非线性系统中的特征变量显著性挖掘带来了挑战:(1)无法通过简单的相关性分析挖掘直接影响系统输出的特征变量;(2)无法利用PCA等手段实现降维以简化所研究的非线性系统;(3)现行的显著性检验的应用场景并非上述的非线性系统中的特征变量显著性挖掘;(4)虽然现行的各种针对非线性问题的机器学习算法能够以高精度拟合任意复杂的非线性模型,但其描述非线性系统输入变量权值的数据结构过于繁琐,如神经网络;(5)多数非线性系统的结构并非人为设计,而是由其业务目的与已有的数据结构决定的,如分类、聚类问题,甚至自然语言处理、机器视觉等领域的问题都是非线性问题,其具体问题所对应的原始数据模型是复杂、未知的,因此通过拟合非线性关系挖掘特征变量对于系统输出的影响程度是不现实的。为兼顾数据流处理实时性的要求,以及实现非线性系统中特征变量显著性的简洁描述,故提出一种基于数据流处理的非线性系统特征变量显著性挖掘法。
发明内容
本发明所要解决的技术问题是:明确结构化数据类型的非线性系统中的特征变量集以及响应变量集,收集该系统的历史数据,并对其进行异常值处理、缺失值处理以及数据标准化;通过闭环结构优化DBSCAN聚类算法的Eps、MinPts两参数,通过DBSCAN聚类划分数据集合,并初步区分各种数据分布特征;对每一类数据建立基于LGBMRegressor的非线性模型,在模型的迭代训练过程中,记录每一特征变量被使用的次数,以该次数表征其对应特征变量的显著性,将特征变量按照显著性大小降序排序形成显著性特征变量序列,以表征该类数据集的特征变量的显著性;针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并将数据转换为原始数值,确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,整合所有类的特征值分布区间模型建立网格模型,行网格为各类中不同特征数值的分布区间模型,列网格对应不同类在同一特征上的特征数值的分布区间模型,最后将显著性特征变量序列映射到网格模型中对应的类,形成复合网格模型;搭建基于Storm的实时计算框架,并设计基于流处理的Topology(拓扑结构),该Topology主要由Spout组件与Bolt组件、Spout组件指向Bolt组件的单向流通道以及Bolt组件指向Bolt组件的单向流通道构成,同时设置多个Spout组件接收并发送数据流,设置部分冗余Spout组件以缓解数据流量增大时的系统负载,设置多个已加载复合网格模型的流数据挖掘Bolt组件以接收并处理来自Spout发送的数据,实时挖掘非线性系统中的显著特征变量,并将结果发送至数据可视化Bolt组件,以实时监测系统的运行状态。
为此,提出一种基于数据流处理的非线性系统特征变量显著性挖掘法,包括如下步骤:
步骤S1:明确非线性系统中的特征变量集以及响应变量集,收集该系统各变量的海量历史数据,并在完成数据预处理后,通过数据持久化技术将其存入数据库;
步骤S2:初始化Eps、MinPts两参数,随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析,将数据集合分类;
步骤S3:对所述步骤S2中经过聚类划分后的数据集合,分别基于每一类数据集合建立LGBMRegressor的非线性模型,同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率(为第个聚类对应的非线性模型的误差率),若,(为误差阈值)则返回步骤S2并重新初始化Eps、MinPts两参数,若,则进入步骤S4;
步骤S4:重复步骤S3中的非线性建模过程,在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘,即某个特征变量的重要性值越高,则该特征变量在其对应的非线性系统的显著性越强,将特征变量按照显著性强弱的顺序排序,并记录该排序序列;
步骤S5:针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并借助步骤S1记录的数据标准化算子将数据转换为原始数值,确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,最后整合所有类的特征值分布区间模型建立网格模型,行网格为各类中不同特征数值的分布区间模型,列网格对应不同类在同一特征上的特征数值的分布区间模型,同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类,形成复合网格模型,并将该网格该模型持久化到本地内存;
步骤S6:搭建基于Storm的实时计算框架,并设计基于数据流处理的Topology(拓扑结构),实现基于数据流处理的非线性系统特征变量的显著性挖掘。
本发明与现有技术对比的有益效果是:提出一种基于数据流处理的非线性系统特征变量显著性挖掘法,充分发挥非线性系统中静态历史数据的价值属性与数据流处理的实时性,着眼于非线性系统的特诊变量在系统各状态下对输出响应的影响,深度挖掘引起非线性系统变化的因素,为系统实现实时地优化、控制、调节提供一种新的方法。首先挖掘非线性系统的历史数据,在完成数据预处理后不断优化Eps、MinPts两参数以进行DBSCAN聚类,既能够避免后续挖掘过程中出现模型过拟合的现象又能够将数据集合以不同的数据分布进行划分,对各个聚类数据集合进行基于LGBMRegressor模型的非线性拟合,旨在通过数据充分还原系统原始的运行状态,以挖掘各状态下影响系统相应输出的显著特征变量,建立基于显著性特征变量挖掘的复合网格模型并将其加载到流数据处理的框架中,同时结合数据可视化技术,可实现非线性系统的实时监测,及时对系统中的关键环节进行优化、调整等活动。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本申请实施例中的一于数据流处理的非线性系统特征变量显著性挖掘法的流程示意图。
图2为本申请实施例中的复合网格模型示意图。
图3本申请实施例中的基于数据流处理的Topology(拓扑结构)示意图。
具体实施方式
为使本发明的目的、技术方案和优点清楚,下面将对本发明的具体实施方式进行清楚、完整的描述。
如图1所示,本申请实施例中的基于数据流处理的非线性系统特征变量显著性挖掘法的流程图。
该方法包括:步骤S1:明确非线性系统中的特征变量集以及响应变量集,收集该系统各变量的海量历史数据,并在完成数据预处理后,通过数据持久化技术将其存入数据库;步骤S2:初始化Eps、MinPts两参数,随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析,将数据集合分类;步骤S3:对所述步骤S2中经过聚类划分后的数据集合,分别基于每一类数据集合建立LGBMRegressor的非线性模型,同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率(为第个聚类对应的非线性模型的误差率),若,(为误差阈值)则返回步骤S2并重新初始化Eps、MinPts两参数,若,则进入步骤S4; 步骤S4:重复步骤S3中的非线性建模过程,在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘,即某个特征变量的重要性值越高,则该特征变量在其对应的非线性系统的显著性越强,将特征变量按照显著性强弱的顺序排序,并记录该排序序列;步骤S5:针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并借助步骤S1记录的数据标准化算子将数据转换为原始数值,确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,最后整合所有类的特征值分布区间模型建立网格模型,行网格为各类中不同特征数值的分布区间模型,列网格对应不同类在同一特征上的特征数值的分布区间模型,同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类,形成复合网格模型,并将该网格该模型持久化到本地内存;步骤S6:搭建基于Storm的实时计算框架,并设计基于数据流处理的Topology(拓扑结构),实现基于数据流处理的非线性系统特征变量的显著性挖掘。
在具体的实施方案中,可按下面方式操作(在下面的操作表述中,我们选取空气污染物浓度数据库为例,在每个操作步骤后,部分给出具体示例):
应用背景:烷烃、烯烃a、乙炔、芳香族、卤代烃、氟利昂、氯化物、54、等空气污染物均为的前体物,实时响应污染物浓度数据的不同分布,挖掘显著影响的空气污染物,并加以控制,有助于环保部门针对臭氧污染及时采取预防、减排等治理措施。
目标:针对空气污染物浓度构成的非线性系统,应用基于数据流处理的非线性系统特征变量显著性挖掘法,实时响应污染物浓度数据的不同分布,挖掘显著影响的空气污染物,并实现实时可视化。
步骤S1:明确非线性系统中的特征变量集以及响应变量集,具体如表1所示,收集该系统各变量的海量历史数据,并在完成数据预处理后,通过数据持久化技术将其存入数据库,部分数据如表2所示;
表1 特征变量与相应变量
特征变量 | 烷烃、烯烃、乙炔、芳香族、卤代烃、氟利昂、氯化物、54、等空气污染物浓度,单位: |
响应变量 | 浓度,单位: |
表2 部分污染物浓度数据数据
烷烃 | 烯烃 | 乙炔 | 芳香族 | 卤代烃 | 氟利昂 | 氯化物 | 54 | NO2 | O3 |
8.38 | 17.5 | 0.184 | 11.2 | 9.88 | 1.34 | 0.0908 | 3.19 | 77 | 70 |
6.94 | 15.9 | 0.148 | 7.22 | 6.08 | 0.965 | 0.200 | 3.20 | 35 | 104 |
3.83 | 8.98 | 0.0748 | 1.93 | 1.37 | 0.498 | 0.0735 | 1.31 | 20 | 120 |
3.37 | 7.79 | 0.0450 | 1.61 | 1.11 | 0.424 | 0.0960 | 1.09 | 20 | 132 |
3.19 | 9.01 | 0.0649 | 2.59 | 1.65 | 0.522 | 0.0435 | 1.45 | 30 | 152 |
2.97 | 9.41 | 0.0598 | 3.43 | 2.07 | 0.515 | 0.0295 | 1.43 | 25 | 171 |
2.02 | 7.54 | 0.0498 | 1.67 | 0.999 | 0.340 | 0.0200 | 0.893 | 20 | 175 |
1.63 | 6.68 | 0.0348 | 1.80 | 1.05 | 0.350 | 0.009 | 0.810 | 25 | 163 |
首先通过Tukey Method方法检测各变量数据中(表2)是否存在异常值,并删除含异常值的记录,随后针对存在数据缺失的变量做分布分析,根据已有数据的分布特征填充缺失数据,最后对所有数据进行z-score标准化,并记录各变量数据的标准化算子。
其中Tukey Method方法具体步骤如下:
(1)有一组无序数列:,,,……,;
(2)确定四分位数位置:,为计算结果中的整数部分,为计算结果中的小数部分,为数列中元素的总数;
(3)计算四分位数:;
(4)当 时,分别有下四分位数,分别有中分位数,分别有上四分位数;
(5)计算四分位距:;
(6)计算下、上限:,;
(7)定位异常值:数值落在上下限以外的数,即为异常值。
其中,标准化算子,为数列的标准差,为为数列的均值。
步骤S2:初始化Eps、MinPts两参数,随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析,将数据集合分类,DBSCAN聚类过程如下:
(1)将所有点标记为核心点、边界点或噪声点;
(2)删除噪声点;
(3)为距离在Eps之内的所有核心点之间赋予一条边;
(4)每组连通的核心点形成一个簇;
(5)将每个边界点指派到一个与之关联的核心点的簇中。
DBSCAN聚类根据数据点密度实现聚类,可识别各种形状的数据分布特征,因此具备区别各变量数据分布特征的能力,即通过聚类可挖掘非线性系统的不同状态,而且不需要在实施聚类前制定目标聚类数目,同时将数据分类处理,利于缓解数据非线性回归模型的过拟合现象。实现DBSCAN聚类的关键代码如下所示:
from sklearn import cluster
X,labels_true = data
clst = cluster.DBSCAN();
predict_labels = clst.fit_predict(X)
print("ARI:%s"%adjusted_rand_score(labels_true,predict_labels))
print("Core sample num:%d"%len(clst.core_sample_indices_))
步骤S3:对所述步骤S2中经过聚类划分后的数据集合,分别基于每一类数据集合建立LGBMRegressor的非线性模型,同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率(为第个聚类对应的非线性模型的误差率),若,(为误差阈值)则返回步骤S2并重新初始化Eps、MinPts两参数,若,则进入步骤S4。
其中,,为第个聚类对应的非线性模型的误差率,为第个聚类中的样本数,为第个聚类中为第个样本的响应变量值,为非线性模型预测的第个聚类中为第个样本的响应变量值。
建立LGBMRegressor非线性模型的核心代码如下:
import lightgbm as lgb
gbm = lgb.LGBMRegressor(objective='regression',
num_leaves=31,
learning_rate=0.05,
n_estimators=20)
gbm.fit(X_train, y_train,
eval_set=[(X_test, y_test)],
eval_metric='l1',
early_stopping_rounds=5)
步骤S4:重复步骤S3中的非线性建模过程,在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘,即某个特征变量的重要性值越高,则该特征变量在其对应的非线性系统的显著性越强,将特征变量按照显著性强弱的顺序排序,并记录该排序序列。特征变量重要性的计算准则:记录特征变量在模型训练迭代过程中被使用的次数,以该次数表征其对应特征变量的重要性,计算特征显著性的代码如下:
def feature_importance(self, importance_type='split', iteration=-1):
if importance_type == "split":
importance_type_int = 0
elif importance_type == "gain":
importance_type_int = 1
else:
importance_type_int = -1
num_feature = self.num_feature()
result = np.array([0 for _ in range_(num_feature)], dtype=np.float64)
_safe_call(_LIB.LGBM_BoosterFeatureImportance(
self.handle,
ctypes.c_int(iteration),
ctypes.c_int(importance_type_int),
result.ctypes.data_as(ctypes.POINTER(ctypes.c_double))))
if importance_type_int == 0:
return result.astype(int)
else:
return result
特征变量显著性部分计算结果如表3。
表3 特征变量显著性部分计算结果
步骤S5:针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并借助步骤S1记录的数据标准化算子将数据转换为原始数值,确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,最后整合所有类的特征值分布区间模型建立网格模型,行网格为各类中不同特征数值的分布区间模型,列网格对应不同类在同一特征上的特征数值的分布区间模型,同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类,形成复合网格模型如图2所示,并将该网格该模型持久化到本地内存;新的数据流输入模型,各特征变量数值映射到某一行网格,根据模型中的特征变量序列,即可迅速获取影响系统当前输出的显著特征变量。
步骤S6:搭建基于Storm的实时计算框架,并设计基于数据流处理的Topology(拓扑结构)如图3所示,实现基于数据流处理的非线性系统特征变量的显著性挖掘。所设计的基于流处理的Topology由Spout组件与Bolt组件、Spout组件指向Bolt组件的单向流通道以及Bolt组件指向Bolt组件的单向流通道构成,Spout组件负责接收数据流并将数据流发送到其指向的各Bolt组件,Bolt组件负责接收并处理来自Spout组件或其他Bolt组件的数据流。所设计的基于流处理的Topology具体结构如下:设置多个Spout组件接收并发送数据流,同时设置部分冗余Spout组件以缓解数据流量增大时的系统负载;设置多个流数据挖掘Bolt组件,接收来自Spout发送的数据,并加载步骤S4中持久化到本地内存的复合网格模型,以迅速挖掘系统当前状态下的显著特征变量,同时各流数据挖掘Bolt组件将结果统一发送至数据可视化Bolt组件,以实时监测系统的运行状态。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (8)
1.一种基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是包括如下步骤:
步骤S1:明确非线性系统中的特征变量集以及响应变量集,收集该系统各变量的海量历史数据,并在完成数据预处理后,通过数据持久化技术将其存入数据库;
步骤S2:初始化Eps、MinPts两参数,随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析,将数据集合分类;
步骤S3:对所述步骤S2中经过聚类划分后的数据集合,分别基于每一类数据集合建立LGBMRegressor的非线性模型,同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率(为第个聚类对应的非线性模型的误差率),若,(为误差阈值)则返回步骤S2并重新初始化Eps、MinPts两参数,若,则进入步骤S4;
步骤S4:重复步骤S3中的非线性建模过程,在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘,即某个特征变量的重要性值越高,则该特征变量在其对应的非线性系统的显著性越强,将特征变量按照显著性强弱的顺序排序,并记录该排序序列;
步骤S5:针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并借助步骤S1记录的数据标准化算子将数据转换为原始数值,确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,最后整合所有类的特征值分布区间模型建立网格模型,行网格为各类中不同特征数值的分布区间模型,列网格对应不同类在同一特征上的特征数值的分布区间模型,同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类,形成复合网格模型,并将该网格该模型持久化到本地内存;
步骤S6:搭建基于Storm的实时计算框架,并设计基于数据流处理的Topology(拓扑结构),实现基于数据流处理的非线性系统特征变量的显著性挖掘。
2.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S1中,数据预处理过程为:首先通过Tukey Method方法检测各变量数据中是否存在异常值,并删除含异常值的记录,随后针对存在数据缺失的变量做分布分析,根据已有数据的分布特征填充缺失数据,最后对所有数据进行z-score标准化,并记录各变量数据的标准化算子。
3.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S2中,DBSCAN聚类根据数据点密度实现聚类,可识别各种形状的数据分布特征,因此具备区别各变量数据分布特征的能力,即通过聚类可挖掘非线性系统的不同状态,而且不需要在实施聚类前制定目标聚类数目,同时将数据分类处理,利于缓解数据非线性回归模型的过拟合现象。
4.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S3中,引入误差率与误差阈值检验非线性模型的准确率,同时使得步骤S2与步骤S3形成闭环结构,能够确保步骤S2与步骤S3最终输出结果的准确性。误差率计算公式如下:
(1);
其中,为第个聚类对应的非线性模型的误差率,为第个聚类中的样本数,为第个聚类中为第个样本的响应变量值,为非线性模型预测的第个聚类中为第个样本的响应变量值。
5.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S4中,特征变量重要性的计算准则:记录特征变量在模型训练迭代过程中被使用的次数,以该次数表征其对应特征变量的重要性;该计算准则与模型训练的迭代过程有关,因此该指标体现的是特征变量间的相对显著性;将特征变量按照显著性强弱的顺序排序能够更直观地观察各特征变量之间的显著性,同时可快速获取关键特征变量。
6.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S5中,建立复合网格模型:首先针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并借助步骤S1记录的数据标准化算子将数据转换为原始数值,确定变量值主要的分布区间,形成单个类的特征值分布区间模型,最后整合所有类的特征值分布区间模型建立网格模型,将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类,形成复合网格模型;新的数据流输入模型,各特征变量数值映射到某一行网格,根据模型中的特征变量序列,即可迅速获取影响系统当前输出的显著特征变量。
7.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S6中,所设计的基于流处理的Topology由Spout组件与Bolt组件、Spout组件指向Bolt组件的单向流通道以及Bolt组件指向Bolt组件的单向流通道构成,Spout组件负责接收数据流并将数据流发送到其指向的各Bolt组件,Bolt组件负责接收并处理来自Spout组件或其他Bolt组件的数据流。
8.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S6中,所设计的基于流处理的Topology具体结构如下:设置多个Spout组件接收并发送数据流,同时设置部分冗余Spout组件以缓解数据流量增大时的系统负载;设置多个流数据挖掘Bolt组件,接收来自Spout发送的数据,并加载步骤S4中持久化到本地内存的复合网格模型,以迅速挖掘系统当前状态下的显著特征变量,同时各流数据挖掘Bolt组件将结果统一发送至数据可视化Bolt组件,以实时监测系统的运行状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811568706.2A CN109344171A (zh) | 2018-12-21 | 2018-12-21 | 一种基于数据流处理的非线性系统特征变量显著性挖掘法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811568706.2A CN109344171A (zh) | 2018-12-21 | 2018-12-21 | 一种基于数据流处理的非线性系统特征变量显著性挖掘法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109344171A true CN109344171A (zh) | 2019-02-15 |
Family
ID=65304470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811568706.2A Pending CN109344171A (zh) | 2018-12-21 | 2018-12-21 | 一种基于数据流处理的非线性系统特征变量显著性挖掘法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344171A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046757A (zh) * | 2019-04-08 | 2019-07-23 | 中国人民解放军第四军医大学 | 基于LightGBM算法的门诊量预测系统及预测方法 |
CN110827355A (zh) * | 2019-11-14 | 2020-02-21 | 南京工程学院 | 一种基于视频图像坐标的移动目标快速定位方法及系统 |
CN112215366A (zh) * | 2020-12-07 | 2021-01-12 | 成都数联铭品科技有限公司 | 基于结果画像的模型解释方法、系统、计算及存储设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577602A (zh) * | 2013-11-18 | 2014-02-12 | 浪潮(北京)电子信息产业有限公司 | 一种二次聚类方法及系统 |
CN105893669A (zh) * | 2016-03-30 | 2016-08-24 | 浙江大学 | 一种基于数据挖掘的全局仿真性能预测方法 |
CN107682319A (zh) * | 2017-09-13 | 2018-02-09 | 桂林电子科技大学 | 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法 |
-
2018
- 2018-12-21 CN CN201811568706.2A patent/CN109344171A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577602A (zh) * | 2013-11-18 | 2014-02-12 | 浪潮(北京)电子信息产业有限公司 | 一种二次聚类方法及系统 |
CN105893669A (zh) * | 2016-03-30 | 2016-08-24 | 浙江大学 | 一种基于数据挖掘的全局仿真性能预测方法 |
CN107682319A (zh) * | 2017-09-13 | 2018-02-09 | 桂林电子科技大学 | 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法 |
Non-Patent Citations (1)
Title |
---|
田路强: "基于DBSCAN的分布式聚类及增量聚类的研究与应用", CNKI优秀硕士论文集, 15 March 2017 (2017-03-15), pages 39 - 40 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046757A (zh) * | 2019-04-08 | 2019-07-23 | 中国人民解放军第四军医大学 | 基于LightGBM算法的门诊量预测系统及预测方法 |
CN110827355A (zh) * | 2019-11-14 | 2020-02-21 | 南京工程学院 | 一种基于视频图像坐标的移动目标快速定位方法及系统 |
CN112215366A (zh) * | 2020-12-07 | 2021-01-12 | 成都数联铭品科技有限公司 | 基于结果画像的模型解释方法、系统、计算及存储设备 |
CN112215366B (zh) * | 2020-12-07 | 2021-03-02 | 成都数联铭品科技有限公司 | 基于结果画像的模型解释方法、系统、计算及存储设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106504116B (zh) | 基于电网运行与暂态稳定裕度指标关联的稳定评估方法 | |
Gaber et al. | A survey of classification methods in data streams | |
CN106022477A (zh) | 智能分析决策系统及方法 | |
CN109344171A (zh) | 一种基于数据流处理的非线性系统特征变量显著性挖掘法 | |
CN106021771A (zh) | 一种故障诊断方法及装置 | |
Li et al. | A supervised clustering and classification algorithm for mining data with mixed variables | |
CN112735097A (zh) | 一种区域滑坡预警方法及系统 | |
CN110472678A (zh) | 基于改进svm的电力企业信息系统异常检测方案的优化方法 | |
CN107025468A (zh) | 基于pca‑ga‑svm算法的高速公路拥堵识别方法 | |
CN110348490A (zh) | 一种基于支持向量机算法的土壤质量预测方法及装置 | |
Gu et al. | Application of fuzzy decision tree algorithm based on mobile computing in sports fitness member management | |
CN112087316B (zh) | 基于异常数据分析的网络异常根源定位方法 | |
CN111476274B (zh) | 一种大数据预测分析的方法、系统、装置及存储介质 | |
CN113780684A (zh) | 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法 | |
CN111126865B (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
CN112149922A (zh) | 高速公路隧道下行线出入口区域事故严重程度预测方法 | |
Zhang | Financial data anomaly detection method based on decision tree and random forest algorithm | |
CN109685133A (zh) | 基于构建的预测模型低成本、高区分度的数据分类方法 | |
CN115794803B (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
Jiang et al. | Parameters calibration of traffic simulation model based on data mining | |
CN109635008A (zh) | 一种基于机器学习的设备故障检测方法 | |
CN116090819A (zh) | 一种基于关联规则的配电网风险态势预测方法 | |
Chen | Abnormal data monitoring and analysis based on data mining and neural network | |
CN113642669B (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
CN111882135B (zh) | 一种物联网设备入侵检测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |