CN109344171A

CN109344171A - 一种基于数据流处理的非线性系统特征变量显著性挖掘法

Info

Publication number: CN109344171A
Application number: CN201811568706.2A
Authority: CN
Inventors: 徐新胜; 王庆林
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-02-15

Abstract

本发明公开了一种基于数据流处理的非线性系统特征变量显著性挖掘法，其中所述方法包括：收集该历史数据，并对其进行预处理；通过闭环结构优化DBSCAN参数，使用DBSCAN聚类划分数据集合；对每一类数据建立基于LGBMRegressor的非线性模型，记录模型的迭代训练过程每一特征变量被使用的次数，用以表征其显著性，并建立显著性特征变量序列；确定各变量数值主要的分布区间，形成单个类的特征值分布区间模型，整合所有类的特征值分布区间模型建立网格模型，最后将显著性特征变量序列映射到网格模型中对应的类，形成复合网格模型；搭建基于Storm的实时计算框架，设计基于流处理的Topology（拓扑结构），同时加载复合网格模型。

Description

一种基于数据流处理的非线性系统特征变量显著性挖掘法

技术领域

本发明涉及数据流处理和数据挖掘领域，尤其是一种基于数据流处理的非线性系统特征变量显著性挖掘法。

背景技术

“大数据”在 2011 年一路走红，在 2012 年更加闪耀，成为业界当之无愧的焦点。伴随Internet和Web技术的飞速发展，网络日志、互联网搜索索引、电子商务、社交网站等技术的广泛使用带来了数据量的急剧增长。计算机技术在各行各业的普遍使用也促使大量数据的产生，数据以惊人的速度增长，预示着我们己经进入大数据时代。根据国际数据资讯(IDC)公司监测，全球数据量大约每两年翻一番，预计到 2020 年，全球将拥有 35ZB 的数据量，这些数据的规模、形式超出了传统数据处理方法所能捕获、管理和处理的能力。大数据时代不仅给我们带来了爆炸式增长的数据量、复杂多样的数据结构，而且也使处理这些数据信息的手段更加复杂。海量数据的存储以及分布式计算成为大数据分析与处理的首要问题。然而，在人们利用分布式计算的手段处理大批量静态数据的同时，大流量数据的实时处理与应用同样也成为了大数据企业与科研人员的关注热点。

分布式的大批量数据处理与各种机器学习算法的结合，可以帮助人们从海量的历史数据中获取更加准确、充分的数据模式与价值信息，然后庞大的数据量也会增加计算成本。数据流处理与大批量数据处理最大的区别在于数据流处理的实时性，人们需要在数据流到达后尽快获取知识，并实现实时响应，尤其在气象、金融、网络安全、电子商务、生产制造、欺诈识别等领域，需要实时观测各种实例化系统的状态变化并对数据快速处理以挖掘引起异常变化的显著特征因素。同时，上述领域中的各种实例化系统多为高维特征构成的非线性系统，因此，这也为非线性系统中的特征变量显著性挖掘带来了挑战：（1）无法通过简单的相关性分析挖掘直接影响系统输出的特征变量；（2）无法利用PCA等手段实现降维以简化所研究的非线性系统；（3）现行的显著性检验的应用场景并非上述的非线性系统中的特征变量显著性挖掘；（4）虽然现行的各种针对非线性问题的机器学习算法能够以高精度拟合任意复杂的非线性模型，但其描述非线性系统输入变量权值的数据结构过于繁琐，如神经网络；（5）多数非线性系统的结构并非人为设计，而是由其业务目的与已有的数据结构决定的，如分类、聚类问题，甚至自然语言处理、机器视觉等领域的问题都是非线性问题，其具体问题所对应的原始数据模型是复杂、未知的，因此通过拟合非线性关系挖掘特征变量对于系统输出的影响程度是不现实的。为兼顾数据流处理实时性的要求，以及实现非线性系统中特征变量显著性的简洁描述，故提出一种基于数据流处理的非线性系统特征变量显著性挖掘法。

发明内容

本发明所要解决的技术问题是：明确结构化数据类型的非线性系统中的特征变量集以及响应变量集，收集该系统的历史数据，并对其进行异常值处理、缺失值处理以及数据标准化；通过闭环结构优化DBSCAN聚类算法的Eps、MinPts两参数，通过DBSCAN聚类划分数据集合，并初步区分各种数据分布特征；对每一类数据建立基于LGBMRegressor的非线性模型，在模型的迭代训练过程中，记录每一特征变量被使用的次数，以该次数表征其对应特征变量的显著性，将特征变量按照显著性大小降序排序形成显著性特征变量序列，以表征该类数据集的特征变量的显著性；针对每一类数据集的各变量值做直方图分析，过滤分布稀疏的数值，并将数据转换为原始数值，确定各变量数值主要的分布区间，形成单个类的特征值分布区间模型，整合所有类的特征值分布区间模型建立网格模型，行网格为各类中不同特征数值的分布区间模型，列网格对应不同类在同一特征上的特征数值的分布区间模型，最后将显著性特征变量序列映射到网格模型中对应的类，形成复合网格模型；搭建基于Storm的实时计算框架，并设计基于流处理的Topology（拓扑结构），该Topology主要由Spout组件与Bolt组件、Spout组件指向Bolt组件的单向流通道以及Bolt组件指向Bolt组件的单向流通道构成，同时设置多个Spout组件接收并发送数据流，设置部分冗余Spout组件以缓解数据流量增大时的系统负载，设置多个已加载复合网格模型的流数据挖掘Bolt组件以接收并处理来自Spout发送的数据，实时挖掘非线性系统中的显著特征变量，并将结果发送至数据可视化Bolt组件，以实时监测系统的运行状态。

为此，提出一种基于数据流处理的非线性系统特征变量显著性挖掘法，包括如下步骤：

步骤S1：明确非线性系统中的特征变量集以及响应变量集，收集该系统各变量的海量历史数据，并在完成数据预处理后，通过数据持久化技术将其存入数据库；

步骤S2：初始化Eps、MinPts两参数，随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析，将数据集合分类；

步骤S3：对所述步骤S2中经过聚类划分后的数据集合，分别基于每一类数据集合建立LGBMRegressor的非线性模型，同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率（为第个聚类对应的非线性模型的误差率），若，（为误差阈值）则返回步骤S2并重新初始化Eps、MinPts两参数，若,则进入步骤S4；

步骤S4：重复步骤S3中的非线性建模过程，在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘，即某个特征变量的重要性值越高，则该特征变量在其对应的非线性系统的显著性越强，将特征变量按照显著性强弱的顺序排序，并记录该排序序列；

步骤S5：针对每一类数据集的各变量值做直方图分析，过滤分布稀疏的数值，并借助步骤S1记录的数据标准化算子将数据转换为原始数值，确定各变量数值主要的分布区间，形成单个类的特征值分布区间模型，最后整合所有类的特征值分布区间模型建立网格模型，行网格为各类中不同特征数值的分布区间模型，列网格对应不同类在同一特征上的特征数值的分布区间模型，同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类，形成复合网格模型，并将该网格该模型持久化到本地内存；

步骤S6：搭建基于Storm的实时计算框架，并设计基于数据流处理的Topology（拓扑结构），实现基于数据流处理的非线性系统特征变量的显著性挖掘。

本发明与现有技术对比的有益效果是：提出一种基于数据流处理的非线性系统特征变量显著性挖掘法，充分发挥非线性系统中静态历史数据的价值属性与数据流处理的实时性，着眼于非线性系统的特诊变量在系统各状态下对输出响应的影响，深度挖掘引起非线性系统变化的因素，为系统实现实时地优化、控制、调节提供一种新的方法。首先挖掘非线性系统的历史数据，在完成数据预处理后不断优化Eps、MinPts两参数以进行DBSCAN聚类，既能够避免后续挖掘过程中出现模型过拟合的现象又能够将数据集合以不同的数据分布进行划分，对各个聚类数据集合进行基于LGBMRegressor模型的非线性拟合，旨在通过数据充分还原系统原始的运行状态，以挖掘各状态下影响系统相应输出的显著特征变量，建立基于显著性特征变量挖掘的复合网格模型并将其加载到流数据处理的框架中，同时结合数据可视化技术，可实现非线性系统的实时监测，及时对系统中的关键环节进行优化、调整等活动。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本申请实施例中的一于数据流处理的非线性系统特征变量显著性挖掘法的流程示意图。

图2为本申请实施例中的复合网格模型示意图。

图3本申请实施例中的基于数据流处理的Topology（拓扑结构）示意图。

具体实施方式

为使本发明的目的、技术方案和优点清楚，下面将对本发明的具体实施方式进行清楚、完整的描述。

如图1所示，本申请实施例中的基于数据流处理的非线性系统特征变量显著性挖掘法的流程图。

该方法包括：步骤S1：明确非线性系统中的特征变量集以及响应变量集，收集该系统各变量的海量历史数据，并在完成数据预处理后，通过数据持久化技术将其存入数据库；步骤S2：初始化Eps、MinPts两参数，随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析，将数据集合分类；步骤S3：对所述步骤S2中经过聚类划分后的数据集合，分别基于每一类数据集合建立LGBMRegressor的非线性模型，同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率（为第个聚类对应的非线性模型的误差率），若，（为误差阈值）则返回步骤S2并重新初始化Eps、MinPts两参数，若,则进入步骤S4；步骤S4：重复步骤S3中的非线性建模过程，在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘，即某个特征变量的重要性值越高，则该特征变量在其对应的非线性系统的显著性越强，将特征变量按照显著性强弱的顺序排序，并记录该排序序列；步骤S5：针对每一类数据集的各变量值做直方图分析，过滤分布稀疏的数值，并借助步骤S1记录的数据标准化算子将数据转换为原始数值，确定各变量数值主要的分布区间，形成单个类的特征值分布区间模型，最后整合所有类的特征值分布区间模型建立网格模型，行网格为各类中不同特征数值的分布区间模型，列网格对应不同类在同一特征上的特征数值的分布区间模型，同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类，形成复合网格模型，并将该网格该模型持久化到本地内存；步骤S6：搭建基于Storm的实时计算框架，并设计基于数据流处理的Topology（拓扑结构），实现基于数据流处理的非线性系统特征变量的显著性挖掘。

在具体的实施方案中，可按下面方式操作（在下面的操作表述中，我们选取空气污染物浓度数据库为例，在每个操作步骤后，部分给出具体示例）：

应用背景：烷烃、烯烃a、乙炔、芳香族、卤代烃、氟利昂、氯化物、54、等空气污染物均为的前体物，实时响应污染物浓度数据的不同分布，挖掘显著影响的空气污染物，并加以控制，有助于环保部门针对臭氧污染及时采取预防、减排等治理措施。

目标：针对空气污染物浓度构成的非线性系统，应用基于数据流处理的非线性系统特征变量显著性挖掘法，实时响应污染物浓度数据的不同分布，挖掘显著影响的空气污染物，并实现实时可视化。

步骤S1：明确非线性系统中的特征变量集以及响应变量集，具体如表1所示，收集该系统各变量的海量历史数据，并在完成数据预处理后，通过数据持久化技术将其存入数据库，部分数据如表2所示；

表1 特征变量与相应变量

特征变量	烷烃、烯烃、乙炔、芳香族、卤代烃、氟利昂、氯化物、54、等空气污染物浓度，单位：
		响应变量	浓度,单位：

表2 部分污染物浓度数据数据

烷烃	烯烃	乙炔	芳香族	卤代烃	氟利昂	氯化物	54	NO2	O3
										8.38	17.5	0.184	11.2	9.88	1.34	0.0908	3.19	77	70
6.94	15.9	0.148	7.22	6.08	0.965	0.200	3.20	35	104
										3.83	8.98	0.0748	1.93	1.37	0.498	0.0735	1.31	20	120
3.37	7.79	0.0450	1.61	1.11	0.424	0.0960	1.09	20	132
										3.19	9.01	0.0649	2.59	1.65	0.522	0.0435	1.45	30	152
2.97	9.41	0.0598	3.43	2.07	0.515	0.0295	1.43	25	171
										2.02	7.54	0.0498	1.67	0.999	0.340	0.0200	0.893	20	175
1.63	6.68	0.0348	1.80	1.05	0.350	0.009	0.810	25	163

首先通过Tukey Method方法检测各变量数据中（表2）是否存在异常值，并删除含异常值的记录，随后针对存在数据缺失的变量做分布分析，根据已有数据的分布特征填充缺失数据，最后对所有数据进行z-score标准化，并记录各变量数据的标准化算子。

其中Tukey Method方法具体步骤如下：

(1)有一组无序数列：，，，……,；

(2)确定四分位数位置：，为计算结果中的整数部分，为计算结果中的小数部分，为数列中元素的总数；

(3)计算四分位数：；

(4)当时，分别有下四分位数，分别有中分位数，分别有上四分位数；

(5)计算四分位距：；

(6)计算下、上限：，；

(7)定位异常值：数值落在上下限以外的数，即为异常值。

其中，标准化算子，为数列的标准差，为为数列的均值。

步骤S2：初始化Eps、MinPts两参数，随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析，将数据集合分类，DBSCAN聚类过程如下：

(1)将所有点标记为核心点、边界点或噪声点；

(2)删除噪声点；

(3)为距离在Eps之内的所有核心点之间赋予一条边；

(4)每组连通的核心点形成一个簇；

(5)将每个边界点指派到一个与之关联的核心点的簇中。

DBSCAN聚类根据数据点密度实现聚类，可识别各种形状的数据分布特征，因此具备区别各变量数据分布特征的能力，即通过聚类可挖掘非线性系统的不同状态，而且不需要在实施聚类前制定目标聚类数目，同时将数据分类处理，利于缓解数据非线性回归模型的过拟合现象。实现DBSCAN聚类的关键代码如下所示：

from sklearn import cluster

X,labels_true = data

clst = cluster.DBSCAN();

predict_labels = clst.fit_predict(X)

print("ARI:%s"%adjusted_rand_score(labels_true,predict_labels))

print("Core sample num:%d"%len(clst.core_sample_indices_))

步骤S3：对所述步骤S2中经过聚类划分后的数据集合，分别基于每一类数据集合建立LGBMRegressor的非线性模型，同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率（为第个聚类对应的非线性模型的误差率），若，（为误差阈值）则返回步骤S2并重新初始化Eps、MinPts两参数，若,则进入步骤S4。

其中，，为第个聚类对应的非线性模型的误差率，为第个聚类中的样本数，为第个聚类中为第个样本的响应变量值，为非线性模型预测的第个聚类中为第个样本的响应变量值。

建立LGBMRegressor非线性模型的核心代码如下：

import lightgbm as lgb

gbm = lgb.LGBMRegressor(objective='regression',

num_leaves=31,

learning_rate=0.05,

n_estimators=20)

gbm.fit(X_train, y_train,

eval_set=[(X_test, y_test)],

eval_metric='l1',

early_stopping_rounds=5)

步骤S4：重复步骤S3中的非线性建模过程，在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘，即某个特征变量的重要性值越高，则该特征变量在其对应的非线性系统的显著性越强，将特征变量按照显著性强弱的顺序排序，并记录该排序序列。特征变量重要性的计算准则：记录特征变量在模型训练迭代过程中被使用的次数，以该次数表征其对应特征变量的重要性，计算特征显著性的代码如下：

def feature_importance(self, importance_type='split', iteration=-1):

if importance_type == "split":

importance_type_int = 0

elif importance_type == "gain":

importance_type_int = 1

else:

importance_type_int = -1

num_feature = self.num_feature()

result = np.array([0 for _ in range_(num_feature)], dtype=np.float64)

_safe_call(_LIB.LGBM_BoosterFeatureImportance(

self.handle,

ctypes.c_int(iteration),

ctypes.c_int(importance_type_int),

result.ctypes.data_as(ctypes.POINTER(ctypes.c_double))))

if importance_type_int == 0:

return result.astype(int)

else:

return result

特征变量显著性部分计算结果如表3。

表3 特征变量显著性部分计算结果

步骤S5：针对每一类数据集的各变量值做直方图分析，过滤分布稀疏的数值，并借助步骤S1记录的数据标准化算子将数据转换为原始数值，确定各变量数值主要的分布区间，形成单个类的特征值分布区间模型，最后整合所有类的特征值分布区间模型建立网格模型，行网格为各类中不同特征数值的分布区间模型，列网格对应不同类在同一特征上的特征数值的分布区间模型，同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类，形成复合网格模型如图2所示，并将该网格该模型持久化到本地内存；新的数据流输入模型，各特征变量数值映射到某一行网格，根据模型中的特征变量序列，即可迅速获取影响系统当前输出的显著特征变量。

步骤S6：搭建基于Storm的实时计算框架，并设计基于数据流处理的Topology（拓扑结构）如图3所示，实现基于数据流处理的非线性系统特征变量的显著性挖掘。所设计的基于流处理的Topology由Spout组件与Bolt组件、Spout组件指向Bolt组件的单向流通道以及Bolt组件指向Bolt组件的单向流通道构成，Spout组件负责接收数据流并将数据流发送到其指向的各Bolt组件，Bolt组件负责接收并处理来自Spout组件或其他Bolt组件的数据流。所设计的基于流处理的Topology具体结构如下：设置多个Spout组件接收并发送数据流，同时设置部分冗余Spout组件以缓解数据流量增大时的系统负载；设置多个流数据挖掘Bolt组件，接收来自Spout发送的数据，并加载步骤S4中持久化到本地内存的复合网格模型，以迅速挖掘系统当前状态下的显著特征变量，同时各流数据挖掘Bolt组件将结果统一发送至数据可视化Bolt组件，以实时监测系统的运行状态。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是包括如下步骤：

2.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S1中，数据预处理过程为：首先通过Tukey Method方法检测各变量数据中是否存在异常值，并删除含异常值的记录，随后针对存在数据缺失的变量做分布分析，根据已有数据的分布特征填充缺失数据，最后对所有数据进行z-score标准化，并记录各变量数据的标准化算子。

3.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S2中，DBSCAN聚类根据数据点密度实现聚类，可识别各种形状的数据分布特征，因此具备区别各变量数据分布特征的能力，即通过聚类可挖掘非线性系统的不同状态，而且不需要在实施聚类前制定目标聚类数目，同时将数据分类处理，利于缓解数据非线性回归模型的过拟合现象。

4.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S3中，引入误差率与误差阈值检验非线性模型的准确率，同时使得步骤S2与步骤S3形成闭环结构，能够确保步骤S2与步骤S3最终输出结果的准确性。误差率计算公式如下：

(1)；

其中,为第个聚类对应的非线性模型的误差率，为第个聚类中的样本数，为第个聚类中为第个样本的响应变量值，为非线性模型预测的第个聚类中为第个样本的响应变量值。

5.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S4中，特征变量重要性的计算准则：记录特征变量在模型训练迭代过程中被使用的次数，以该次数表征其对应特征变量的重要性；该计算准则与模型训练的迭代过程有关，因此该指标体现的是特征变量间的相对显著性；将特征变量按照显著性强弱的顺序排序能够更直观地观察各特征变量之间的显著性，同时可快速获取关键特征变量。

6.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S5中，建立复合网格模型：首先针对每一类数据集的各变量值做直方图分析，过滤分布稀疏的数值，并借助步骤S1记录的数据标准化算子将数据转换为原始数值，确定变量值主要的分布区间，形成单个类的特征值分布区间模型，最后整合所有类的特征值分布区间模型建立网格模型，将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类，形成复合网格模型；新的数据流输入模型，各特征变量数值映射到某一行网格，根据模型中的特征变量序列，即可迅速获取影响系统当前输出的显著特征变量。

7.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S6中，所设计的基于流处理的Topology由Spout组件与Bolt组件、Spout组件指向Bolt组件的单向流通道以及Bolt组件指向Bolt组件的单向流通道构成，Spout组件负责接收数据流并将数据流发送到其指向的各Bolt组件，Bolt组件负责接收并处理来自Spout组件或其他Bolt组件的数据流。

8.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S6中，所设计的基于流处理的Topology具体结构如下：设置多个Spout组件接收并发送数据流，同时设置部分冗余Spout组件以缓解数据流量增大时的系统负载；设置多个流数据挖掘Bolt组件，接收来自Spout发送的数据，并加载步骤S4中持久化到本地内存的复合网格模型，以迅速挖掘系统当前状态下的显著特征变量，同时各流数据挖掘Bolt组件将结果统一发送至数据可视化Bolt组件，以实时监测系统的运行状态。