CN115329895A

CN115329895A - 多源异构数据降噪分析处理方法

Info

Publication number: CN115329895A
Application number: CN202211083485.6A
Authority: CN
Inventors: 姚池; 黄波; 张小波; 杨建华; 姜清辉; 周创兵
Original assignee: Shenzhen Jiegan Technology Co ltd; Nanchang University
Current assignee: Shenzhen Jiegan Technology Co ltd; Nanchang University
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-11-11

Abstract

本发明公开了一种多源异构数据降噪分析处理方法，涉及数据处理方法技术领域。所述方法包括如下步骤：对工程数智化建设运维应用场景多源数据采用期望最大EM法对数据进行填充处理；采用主成分分析PCA算法对填充处理后的数据进行特征降维处理；采用余弦相似度作为欧氏距离的加权值，构造基于聚类算法FCM的数据去噪方法，对多源复杂属性噪声数据流进行降噪处理。所述方法能够提高工程数智化复杂多维数据质量，为后期工程数据挖掘、融合分析及方案决策提供的有效、可靠、关键的支撑作用，可广泛应用于工程行业模式识别、分类、数据挖掘等领域。

Description

多源异构数据降噪分析处理方法

技术领域

本发明涉及数据处理方法技术领域，尤其涉及一种多源异构数据降噪分析处理方法。

背景技术

随着智能传感、大数据、云计算、人工智能等先进技术快速发展，在工程建设运维领域，数字化建设及升级进程也快速推进，大量多源异构复杂数据涌入数据库，直接从各数据源收集到的信息在不同程度上会存在一些问题，比如说工程数据的完整性、唯一性、一致性等，工程数据的维度不统一、有噪声信息、字段冗余或有多指标数值等问题。这些均会造成后续数据挖掘分析处理操作代价较高、费时费力、决策不准确等问题，因而对多源复杂数据流进行前期预处理及降噪处理是数据分析必不可少且很重要环节，为后续的数据挖掘分析及工程方案决策提供重要的技术保障。

发明内容

本发明所要解决的技术问题是如何提供一种能够有效提高数据有效性，为后期工程数据挖掘、融合分析及方案决策提供有效支撑的多源异构数据降噪分析处理方法。

为解决上述技术问题，本发明所采取的技术方案是：一种多源异构数据降噪分析处理方法，其特征在于包括如下步骤：

对工程数智化建设运维应用场景多源数据采用期望最大EM法对数据进行填充处理；

采用主成分分析PCA算法对填充处理后的数据进行特征降维处理；

采用余弦相似度作为欧氏距离的加权值，构造基于聚类算法FCM的数据去噪方法，对多源复杂属性噪声数据流进行降噪处理。

进一步的技术方案在于，基于期望最大EM法的数据填充处理的方法包括如下步骤：

设已知观测数据X＝{x₁,x₂,…,x_n}，联合分布概率p(x,z|θ)，条件分布概率p(z|x,θ))，z为未知观测数据；

初始化模型参数θ的初值θ⁰；

E步：固定参数θ，优化参数Q；根据已知观测数据x和模型参数θ，求隐变量z条件概率分布期望；

Q_i(z⁽ⁱ⁾)＝P(z⁽ⁱ⁾|x⁽ⁱ⁾,θ^j)

M步：固定参数Q，优化参数θ。利用上一步已经求出z，进行极大似然估计，得到更优θ值；

θ^j+1＝arg max_θL(θ,θ^j)

不断进行E步和M步的迭代，直至收敛。

进一步的技术方案在于，基于PCA算法的数据特征降维处理方法包括如下步骤：

初始化矩阵X_n×m，矩阵代表n个m维的数据属性，将数据进行去均值处理，必要时再进行归一化，即N_x～(0,1)；

求协方差矩阵，以及协方差矩阵特征值λ和特征向量u；

将特征向量按照对应特征值λ_i从大到小排列，计算方差贡献率

依次计算累计方差贡献率

是否超过预设限值，将符合条件前k个特征向量组成投影矩阵P；

Y＝PX就是降维到k维后的数据矩阵。

进一步的技术方案在于，采用余弦相似度作为欧氏距离的加权值，构造基于聚类算法FCM的数据去噪方法具体包括如下步骤：

设聚类之后某一簇聚类中心为v_i，对于样本任意一点

加权欧式距离表示为：

其中，

为聚类中心v_i所在簇内的所有样本点，t为以v_i为聚类中心一簇内的样本数；

首先预设欧式距离阈值r，可取该簇内所有样本点到聚类中心的加权欧式距离的平均值l；在目标降噪数据完成聚类后，当d_v(x,v_i)>r时，表示该样本点是噪声点并将其删除，反之则保留该样本点；

进一步的技术方案在于：采用肘部法则，计算聚类中心个数c的取值，其计算原理是代价函数，代价函数是类别畸变程度之和，每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和；在选择类别数量上，肘部法则会把不同值的成本函数值画出来；随着值的增大，每个类包含的样本数会减少，于是样本离其重心会更近平均畸变程度会减小；随着值继续增大，平均畸变程度的改善效果会不断减低；值增大过程中，畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。

采用上述技术方案所产生的有益效果在于：本发明所述方法采用期望最大EM法对数据进行填充处理，提高数据完整性；采用主成分分析PCA法进行数据特征降维处理，提高数据一致性；采用余弦相似度作为欧氏距离的加权值，构造基于聚类算法FCM的数据去噪方法，提高数据有效性，旨在形成一套有效优越的多源复杂属性噪声数据流的预处理降噪方法，提高工程数智化复杂多维数据质量，为后期工程数据挖掘、融合分析及方案决策提供的有效、可靠、关键的支撑作用，可广泛应用于工程行业模式识别、分类、数据挖掘等领域。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例所述方法的主流程图；

图2是本发明实施例所述方法中期望最大EM法数据填充处理流程图；

图3是本发明实施例所述方法中主成分分析PCA法数据降维处理流程图；

图4是本发明实施例所述方法中FCM聚类法处理流程图；

图5是本发明实施例所述方法中改进的FCM聚类法去噪处理流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明实施例公开了一种多源异构数据降噪分析处理方法，包括如下步骤：

S1：对工程数智化建设运维应用场景多源数据采用期望最大EM法对数据进行填充处理；

S2：采用主成分分析PCA算法对填充处理后的数据进行特征降维处理；

S3：采用余弦相似度作为欧氏距离的加权值，构造基于聚类算法FCM的数据去噪方法，对多源复杂属性噪声数据流进行降噪处理。

下面结合具体内容对上述方法进行详细的说明

数据预处理方法

数据预处理是所有工程数据挖掘融合分析中必不可少的重要步骤，预处理结果质量也直接影响着工程分析结果，一个好的预处理结果不仅能够使数据挖掘融合分析与工程决策的结果更准确可靠，还可以提高分析速度，继而降本增效。

基于期望最大EM法的数据填充处理：

本方法采用期望最大EM法对数据进行填充处理，提高数据完整性。期望最大EM算法是一种从不完全数据或有数据丢失的数据集(存在隐变量)中求解概率模型参数的最大似然估计方法。EM法基本思想是首先估计出一个初始的缺失数据值，在不断迭代中更新缺失数据的值直到收敛，计算出对缺失数据的最大数学期望。

如图2所示，EM算法主要步骤为：

设已知观测数据X＝{x₁,x₂,…,x_n}，联合分布概率p(x,z|θ)，条件分布概率p(z|x,θ)，z为未知观测数据(隐变量)。

①初始化模型参数θ的初值θ⁰；

②E步：固定参数θ，优化参数Q。根据已知观测数据x和模型参数θ，求隐变量z条件概率分布期望；

Q_i(z⁽ⁱ⁾)＝P(z⁽ⁱ⁾|x⁽ⁱ⁾,θ^j)

③M步：固定参数Q，优化参数θ。利用上一步已经求出z，进行极大似然估计，得到更优θ值；

θ^j+1＝arg max_θ L(θ,θ^j)

④不断进行②,③步的迭代，直至收敛。

基于PCA算法的数据特征降维处理

本方法采用主成分分析PCA法进行数据特征降维处理，提高数据一致性及提炼主要信息。数据特征降维是为了有效降低数据维度，提炼数据主要信息，让更重要的特征信息凸显，使得数据更容易处理。PCA法主要原理是利用协方差度量属性维度之间的相关性，最后达到各个属性维度之间线性无关。

图3所述，PCA算法主要步骤为：

①初始化矩阵X_n×m，矩阵代表n个m维的数据属性，将数据进行去均值处理，必要时再进行归一化，即N_x～(0,1)；

②求协方差矩阵，以及协方差矩阵特征值λ和特征向量u；

③将特征向量按照对应特征值λ_i从大到小排列，计算方差贡献率

依次计算累计方差贡献率

是否超过预设限值(一般可设定为85％)，将符合条件前k个特征向量组成投影矩阵P；

④Y＝PX就是降维到k维后的数据矩阵。。

在数据预处理中，数据填充和特征降维在算法上结合应用场景需求尚具有较大的改进空间，即不同的算法对于处理结果的影响较大，其余预处理操作，比如标准化、归一化、数据去重等都已经有较为成熟完备的方法或工具。

基于FCM聚类的数据降噪改进方法

噪声数据对模型的影响通常较为显著，降低甚至消除噪声影响有利于提升数据质量。本方法主要基于模糊C均值聚类(FCM)法进行数据降噪处理，提高数据有效性。FCM法主要思想是：如果某一个实例没有跟大多数实例聚到一起，而是单独成一族，或者某几个实例成一个非常小的簇，那么这个实例或者这个小簇很有可能就是噪声数据，可以将它们删除，以此来降低或消除噪声数据对整个数据集的影响。基于聚类的去噪算法可以同时进行聚类与异常值检测的操作，在数据集大小上的操作性较好，且时间复杂度与数据集的大小呈线性关系，方法更高效。

如图4所示，模糊C均值聚类(FCM)法

FCM(模糊C均值聚类)方法是一种以隶属度来确定每个数据点属于某个聚类的程度的算法，其聚类结果是每一个数据点对聚类中心的隶属程度，该隶属程度用一个数值来表示。在众多模糊聚类算法中，FCM)算法应用最广泛且成功。FCM法计算思想是：通过循环更新隶属度矩阵，使得聚类之后划分在同一簇的样本之间相似度最大，而不同簇之间相似度最小。

设数据集X＝{x₁,x₂,…,x_n}，划分为c个聚类，计算每个聚类中心v_j，使得代价函数达到最小，具体步骤如下：

①用在[0,1]范围内的随机数初始化一个隶属度矩阵U_c×n，矩阵任意元素u_ij满足条件：

u_ij表示样本点x_j对于聚类中心v_i的隶属程度，且u_ij>0。

②计算每个聚类中心：

③计算代价函数，如果代价函数小于某个阈值β，或者两次迭代过程中代价函数的变化量小于某个阈值ε，则停止计算，代价函数为：

其中，d(x_j,v_i)＝||x_j-v_i||为第j个数据点与第i个聚类中心之间欧式距离；m为模糊因子，用来决定聚类结果模糊度的权重指数，一般可取m＝2。

④更新隶属度矩阵U，再返回②：

其中，d_ji＝d(x_j,v_i)＝||x_j-v_i||，d_jk＝d(x_j,v_k)＝||x_j-v_k||。

对于算法输出隶属度矩阵U，计算u_i(x_j)＝max_ju_ij(x_j),u_i即为样本x_j的模糊划分。

FCM算法是一种无监督的模糊聚类方法，实施前需要对参数进行初始化，在算法实现过程中无需人为干预，更为高效。

余弦相似度：

相似性度量对一个聚类结果中的两个对象之间相似性的度量，度量方式有两种：用对象之间的距离来表示的相异度和对象之间相关性来表示的相似性。常用的相似性度量方法有：欧式距离、曼哈顿距离等计算距离度量类方法，余弦相似度、相关系数法等相似度度量法。

余弦相似度也是一种常见的相似度度量方法，这种方法利用两个样本之间形成的余弦值作为度量相似度的尺度，所以余弦相似度更加关注方向上的差异，其计算公式如下：

余弦相似度取值范围是[-1,1]，由余弦值的定义可知，当余弦值越大他们之间的夹角就越小，则这两个样本在这个方向上就越相似，反之则相反。

基于FCM改进的数据降噪方法

考虑到普通FCM聚类方法仅使用欧式距离作为相似度度量，是衡量空间各点间的绝对距离，其与各个点所在位置坐标(样本点特征维度数值)直接相关，而将不同属性之间的差别同等对待，无法体现实际应用中的一些需求。而余弦相似度可以衡量空间向量夹角，更加体现在方向上的差异，而不是绝地位置。

为了避免FCM聚类方法可能产生的误判情况，本方法基于余弦相似度，采用样本点和聚类中心之间夹角的余弦值来对普通FCM聚类方法欧氏距离进行加权优化改进处理，可有效提高其泛化能力及准确性。

设聚类之后某一簇聚类中心为v_i，对于样本任意一点

加权欧式距离表示为：

其中，

为聚类中心v_i所在簇内的所有样本点，t为以v_i为聚类中心一簇内的样本数。

基于FCM方法改进的去噪算法具体步骤为：

首先预设欧式距离阈值r，可取该簇内所有样本点到聚类中心的加权欧式距离的平均值l。在目标降噪数据完成聚类后，当d_v(x,v_i)>r时，表示该样本点是噪声点并将其删除，反之则保留该样本点。

对于聚类中心个数c的取值，本方法采用肘部法则，其计算原理是代价函数，代价函数是类别畸变程度之和，每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和(类内部的成员彼此越紧凑则类的畸变程度越小，越分散越大)。在选择类别数量上，肘部法则会把不同值的成本函数值画出来。随着值的增大，每个类包含的样本数会减少，于是样本离其重心会更近平均畸变程度会减小。随着值继续增大，平均畸变程度的改善效果会不断减低。值增大过程中，畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。

改进的去噪方法流程如图5所示：

针对FCM在数据量剧增时运算量较大的问题，可以先将数据进行预处理。利用K-均值聚类算法对待处理的数据进行初始分割，将分割结果作为FCM算法的初始聚类中心：V＝(v₁,v₂,…,v_c)。这样可以减少FCM的迭代次数，降低运算量，提高实时性。

欧氏距离衡量的是空间各点间的绝对距离，表征的是对象之间数值上的绝对差异，与每个点的位置坐标直接相关；余弦相似度衡量的是空间向量夹角，体现的是方向上的差异，对绝对数值不敏感。比如对于空间中的A、B两点，如果保持A点位置不变，B沿原方向靠近或远离坐标原点，A、B之间的余弦相似度是不变的，但显然他们之间的绝对距离是在变化的；而如果继续保持A点位置不变，B点以A点为圆心变化位置时候，欧氏距离保持不变但余弦相似度一定会有变化。所以本方法在聚类之后的相似度衡量上，将欧氏距离与余弦相似度相结合，构造出本申请所述去噪方法。

本申请所述方法提高工程数智化复杂多维数据质量，为后期工程数据挖掘、融合分析及方案决策提供的有效、可靠、关键的支撑作用，可广泛应用于工程行业模式识别、分类、数据挖掘等领域。

Claims

1.一种多源异构数据降噪分析处理方法，其特征在于包括如下步骤：

2.如权利要求1所述的多源异构数据降噪分析处理方法，其特征在于基于期望最大EM法的数据填充处理的方法包括如下步骤：

设已知观测数据X＝{x₁，x₂，...，x_n}，联合分布概率p(x，z|θ)，条件分布概率p(z|x，θ))，z为未知观测数据；

初始化模型参数θ的初值θ⁰；

Q_i(z⁽ⁱ⁾)＝P(z⁽ⁱ⁾|x⁽ⁱ⁾，θ^j)

θ^j+1＝arg max_θL(θ，θ^j)

不断进行E步和M步的迭代，直至收敛。

3.如权利要求1所述的多源异构数据降噪分析处理方法，其特征在于基于PCA算法的数据特征降维处理方法包括如下步骤：

初始化矩阵X_n×m，矩阵代表n个m维的数据属性，将数据进行去均值处理，必要时再进行归一化，即N_x～(0，1)；

求协方差矩阵，以及协方差矩阵特征值λ和特征向量u；

依次计算累计方差贡献率

Y＝PX就是降维到k维后的数据矩阵。

4.如权利要求1所述的多源异构数据降噪分析处理方法，其特征在于采用余弦相似度作为欧氏距离的加权值，构造基于聚类算法FCM的数据去噪方法具体包括如下步骤：

设聚类之后某一簇聚类中心为v_i，对于样本任意一点

加权欧式距离表示为：

其中，

首先预设欧式距离阈值r，可取该簇内所有样本点到聚类中心的加权欧式距离的平均值l；在目标降噪数据完成聚类后，当d_v(x，v_i)＞r时，表示该样本点是噪声点并将其删除，反之则保留该样本点；

5.如权利要求4所述的多源异构数据降噪分析处理方法，其特征在于：采用肘部法则，计算聚类中心个数c的取值，其计算原理是代价函数，代价函数是类别畸变程度之和，每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和；在选择类别数量上，肘部法则会把不同值的成本函数值画出来；随着值的增大，每个类包含的样本数会减少，于是样本离其重心会更近平均畸变程度会减小；随着值继续增大，平均畸变程度的改善效果会不断减低；值增大过程中，畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。