CN115329895A - 多源异构数据降噪分析处理方法 - Google Patents
多源异构数据降噪分析处理方法 Download PDFInfo
- Publication number
- CN115329895A CN115329895A CN202211083485.6A CN202211083485A CN115329895A CN 115329895 A CN115329895 A CN 115329895A CN 202211083485 A CN202211083485 A CN 202211083485A CN 115329895 A CN115329895 A CN 115329895A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- clustering
- noise reduction
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000000513 principal component analysis Methods 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 6
- 238000012423 maintenance Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 16
- 230000007423 decrease Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 11
- 230000004927 fusion Effects 0.000 abstract description 6
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种多源异构数据降噪分析处理方法,涉及数据处理方法技术领域。所述方法包括如下步骤:对工程数智化建设运维应用场景多源数据采用期望最大EM法对数据进行填充处理;采用主成分分析PCA算法对填充处理后的数据进行特征降维处理;采用余弦相似度作为欧氏距离的加权值,构造基于聚类算法FCM的数据去噪方法,对多源复杂属性噪声数据流进行降噪处理。所述方法能够提高工程数智化复杂多维数据质量,为后期工程数据挖掘、融合分析及方案决策提供的有效、可靠、关键的支撑作用,可广泛应用于工程行业模式识别、分类、数据挖掘等领域。
Description
技术领域
本发明涉及数据处理方法技术领域,尤其涉及一种多源异构数据降噪分析处理方法。
背景技术
随着智能传感、大数据、云计算、人工智能等先进技术快速发展,在工程建设运维领域,数字化建设及升级进程也快速推进,大量多源异构复杂数据涌入数据库,直接从各数据源收集到的信息在不同程度上会存在一些问题,比如说工程数据的完整性、唯一性、一致性等,工程数据的维度不统一、有噪声信息、字段冗余或有多指标数值等问题。这些均会造成后续数据挖掘分析处理操作代价较高、费时费力、决策不准确等问题,因而对多源复杂数据流进行前期预处理及降噪处理是数据分析必不可少且很重要环节,为后续的数据挖掘分析及工程方案决策提供重要的技术保障。
发明内容
本发明所要解决的技术问题是如何提供一种能够有效提高数据有效性,为后期工程数据挖掘、融合分析及方案决策提供有效支撑的多源异构数据降噪分析处理方法。
为解决上述技术问题,本发明所采取的技术方案是:一种多源异构数据降噪分析处理方法,其特征在于包括如下步骤:
对工程数智化建设运维应用场景多源数据采用期望最大EM法对数据进行填充处理;
采用主成分分析PCA算法对填充处理后的数据进行特征降维处理;
采用余弦相似度作为欧氏距离的加权值,构造基于聚类算法FCM的数据去噪方法,对多源复杂属性噪声数据流进行降噪处理。
进一步的技术方案在于,基于期望最大EM法的数据填充处理的方法包括如下步骤:
设已知观测数据X={x1,x2,…,xn},联合分布概率p(x,z|θ),条件分布概率p(z|x,θ)),z为未知观测数据;
初始化模型参数θ的初值θ0;
E步:固定参数θ,优化参数Q;根据已知观测数据x和模型参数θ,求隐变量z条件概率分布期望;
Qi(z(i))=P(z(i)|x(i),θj)
M步:固定参数Q,优化参数θ。利用上一步已经求出z,进行极大似然估计,得到更优θ值;
θj+1=arg maxθL(θ,θj)
不断进行E步和M步的迭代,直至收敛。
进一步的技术方案在于,基于PCA算法的数据特征降维处理方法包括如下步骤:
初始化矩阵Xn×m,矩阵代表n个m维的数据属性,将数据进行去均值处理,必要时再进行归一化,即Nx~(0,1);
求协方差矩阵,以及协方差矩阵特征值λ和特征向量u;
Y=PX就是降维到k维后的数据矩阵。
进一步的技术方案在于,采用余弦相似度作为欧氏距离的加权值,构造基于聚类算法FCM的数据去噪方法具体包括如下步骤:
首先预设欧式距离阈值r,可取该簇内所有样本点到聚类中心的加权欧式距离的平均值l;在目标降噪数据完成聚类后,当dv(x,vi)>r时,表示该样本点是噪声点并将其删除,反之则保留该样本点;
进一步的技术方案在于:采用肘部法则,计算聚类中心个数c的取值,其计算原理是代价函数,代价函数是类别畸变程度之和,每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和;在选择类别数量上,肘部法则会把不同值的成本函数值画出来;随着值的增大,每个类包含的样本数会减少,于是样本离其重心会更近平均畸变程度会减小;随着值继续增大,平均畸变程度的改善效果会不断减低;值增大过程中,畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。
采用上述技术方案所产生的有益效果在于:本发明所述方法采用期望最大EM法对数据进行填充处理,提高数据完整性;采用主成分分析PCA法进行数据特征降维处理,提高数据一致性;采用余弦相似度作为欧氏距离的加权值,构造基于聚类算法FCM的数据去噪方法,提高数据有效性,旨在形成一套有效优越的多源复杂属性噪声数据流的预处理降噪方法,提高工程数智化复杂多维数据质量,为后期工程数据挖掘、融合分析及方案决策提供的有效、可靠、关键的支撑作用,可广泛应用于工程行业模式识别、分类、数据挖掘等领域。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例所述方法的主流程图;
图2是本发明实施例所述方法中期望最大EM法数据填充处理流程图;
图3是本发明实施例所述方法中主成分分析PCA法数据降维处理流程图;
图4是本发明实施例所述方法中FCM聚类法处理流程图;
图5是本发明实施例所述方法中改进的FCM聚类法去噪处理流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本发明实施例公开了一种多源异构数据降噪分析处理方法,包括如下步骤:
S1:对工程数智化建设运维应用场景多源数据采用期望最大EM法对数据进行填充处理;
S2:采用主成分分析PCA算法对填充处理后的数据进行特征降维处理;
S3:采用余弦相似度作为欧氏距离的加权值,构造基于聚类算法FCM的数据去噪方法,对多源复杂属性噪声数据流进行降噪处理。
下面结合具体内容对上述方法进行详细的说明
数据预处理方法
数据预处理是所有工程数据挖掘融合分析中必不可少的重要步骤,预处理结果质量也直接影响着工程分析结果,一个好的预处理结果不仅能够使数据挖掘融合分析与工程决策的结果更准确可靠,还可以提高分析速度,继而降本增效。
基于期望最大EM法的数据填充处理:
本方法采用期望最大EM法对数据进行填充处理,提高数据完整性。期望最大EM算法是一种从不完全数据或有数据丢失的数据集(存在隐变量)中求解概率模型参数的最大似然估计方法。EM法基本思想是首先估计出一个初始的缺失数据值,在不断迭代中更新缺失数据的值直到收敛,计算出对缺失数据的最大数学期望。
如图2所示,EM算法主要步骤为:
设已知观测数据X={x1,x2,…,xn},联合分布概率p(x,z|θ),条件分布概率p(z|x,θ),z为未知观测数据(隐变量)。
①初始化模型参数θ的初值θ0;
②E步:固定参数θ,优化参数Q。根据已知观测数据x和模型参数θ,求隐变量z条件概率分布期望;
Qi(z(i))=P(z(i)|x(i),θj)
③M步:固定参数Q,优化参数θ。利用上一步已经求出z,进行极大似然估计,得到更优θ值;
θj+1=arg maxθ L(θ,θj)
④不断进行②,③步的迭代,直至收敛。
基于PCA算法的数据特征降维处理
本方法采用主成分分析PCA法进行数据特征降维处理,提高数据一致性及提炼主要信息。数据特征降维是为了有效降低数据维度,提炼数据主要信息,让更重要的特征信息凸显,使得数据更容易处理。PCA法主要原理是利用协方差度量属性维度之间的相关性,最后达到各个属性维度之间线性无关。
图3所述,PCA算法主要步骤为:
①初始化矩阵Xn×m,矩阵代表n个m维的数据属性,将数据进行去均值处理,必要时再进行归一化,即Nx~(0,1);
②求协方差矩阵,以及协方差矩阵特征值λ和特征向量u;
④Y=PX就是降维到k维后的数据矩阵。。
在数据预处理中,数据填充和特征降维在算法上结合应用场景需求尚具有较大的改进空间,即不同的算法对于处理结果的影响较大,其余预处理操作,比如标准化、归一化、数据去重等都已经有较为成熟完备的方法或工具。
基于FCM聚类的数据降噪改进方法
噪声数据对模型的影响通常较为显著,降低甚至消除噪声影响有利于提升数据质量。本方法主要基于模糊C均值聚类(FCM)法进行数据降噪处理,提高数据有效性。FCM法主要思想是:如果某一个实例没有跟大多数实例聚到一起,而是单独成一族,或者某几个实例成一个非常小的簇,那么这个实例或者这个小簇很有可能就是噪声数据,可以将它们删除,以此来降低或消除噪声数据对整个数据集的影响。基于聚类的去噪算法可以同时进行聚类与异常值检测的操作,在数据集大小上的操作性较好,且时间复杂度与数据集的大小呈线性关系,方法更高效。
如图4所示,模糊C均值聚类(FCM)法
FCM(模糊C均值聚类)方法是一种以隶属度来确定每个数据点属于某个聚类的程度的算法,其聚类结果是每一个数据点对聚类中心的隶属程度,该隶属程度用一个数值来表示。在众多模糊聚类算法中,FCM)算法应用最广泛且成功。FCM法计算思想是:通过循环更新隶属度矩阵,使得聚类之后划分在同一簇的样本之间相似度最大,而不同簇之间相似度最小。
设数据集X={x1,x2,…,xn},划分为c个聚类,计算每个聚类中心vj,使得代价函数达到最小,具体步骤如下:
①用在[0,1]范围内的随机数初始化一个隶属度矩阵Uc×n,矩阵任意元素uij满足条件:
uij表示样本点xj对于聚类中心vi的隶属程度,且uij>0。
②计算每个聚类中心:
③计算代价函数,如果代价函数小于某个阈值β,或者两次迭代过程中代价函数的变化量小于某个阈值ε,则停止计算,代价函数为:
其中,d(xj,vi)=||xj-vi||为第j个数据点与第i个聚类中心之间欧式距离;m为模糊因子,用来决定聚类结果模糊度的权重指数,一般可取m=2。
④更新隶属度矩阵U,再返回②:
其中,dji=d(xj,vi)=||xj-vi||,djk=d(xj,vk)=||xj-vk||。
对于算法输出隶属度矩阵U,计算ui(xj)=maxjuij(xj),ui即为样本xj的模糊划分。
FCM算法是一种无监督的模糊聚类方法,实施前需要对参数进行初始化,在算法实现过程中无需人为干预,更为高效。
余弦相似度:
相似性度量对一个聚类结果中的两个对象之间相似性的度量,度量方式有两种:用对象之间的距离来表示的相异度和对象之间相关性来表示的相似性。常用的相似性度量方法有:欧式距离、曼哈顿距离等计算距离度量类方法,余弦相似度、相关系数法等相似度度量法。
余弦相似度也是一种常见的相似度度量方法,这种方法利用两个样本之间形成的余弦值作为度量相似度的尺度,所以余弦相似度更加关注方向上的差异,其计算公式如下:
余弦相似度取值范围是[-1,1],由余弦值的定义可知,当余弦值越大他们之间的夹角就越小,则这两个样本在这个方向上就越相似,反之则相反。
基于FCM改进的数据降噪方法
考虑到普通FCM聚类方法仅使用欧式距离作为相似度度量,是衡量空间各点间的绝对距离,其与各个点所在位置坐标(样本点特征维度数值)直接相关,而将不同属性之间的差别同等对待,无法体现实际应用中的一些需求。而余弦相似度可以衡量空间向量夹角,更加体现在方向上的差异,而不是绝地位置。
为了避免FCM聚类方法可能产生的误判情况,本方法基于余弦相似度,采用样本点和聚类中心之间夹角的余弦值来对普通FCM聚类方法欧氏距离进行加权优化改进处理,可有效提高其泛化能力及准确性。
基于FCM方法改进的去噪算法具体步骤为:
首先预设欧式距离阈值r,可取该簇内所有样本点到聚类中心的加权欧式距离的平均值l。在目标降噪数据完成聚类后,当dv(x,vi)>r时,表示该样本点是噪声点并将其删除,反之则保留该样本点。
对于聚类中心个数c的取值,本方法采用肘部法则,其计算原理是代价函数,代价函数是类别畸变程度之和,每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和(类内部的成员彼此越紧凑则类的畸变程度越小,越分散越大)。在选择类别数量上,肘部法则会把不同值的成本函数值画出来。随着值的增大,每个类包含的样本数会减少,于是样本离其重心会更近平均畸变程度会减小。随着值继续增大,平均畸变程度的改善效果会不断减低。值增大过程中,畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。
改进的去噪方法流程如图5所示:
针对FCM在数据量剧增时运算量较大的问题,可以先将数据进行预处理。利用K-均值聚类算法对待处理的数据进行初始分割,将分割结果作为FCM算法的初始聚类中心:V=(v1,v2,…,vc)。这样可以减少FCM的迭代次数,降低运算量,提高实时性。
欧氏距离衡量的是空间各点间的绝对距离,表征的是对象之间数值上的绝对差异,与每个点的位置坐标直接相关;余弦相似度衡量的是空间向量夹角,体现的是方向上的差异,对绝对数值不敏感。比如对于空间中的A、B两点,如果保持A点位置不变,B沿原方向靠近或远离坐标原点,A、B之间的余弦相似度是不变的,但显然他们之间的绝对距离是在变化的;而如果继续保持A点位置不变,B点以A点为圆心变化位置时候,欧氏距离保持不变但余弦相似度一定会有变化。所以本方法在聚类之后的相似度衡量上,将欧氏距离与余弦相似度相结合,构造出本申请所述去噪方法。
本申请所述方法提高工程数智化复杂多维数据质量,为后期工程数据挖掘、融合分析及方案决策提供的有效、可靠、关键的支撑作用,可广泛应用于工程行业模式识别、分类、数据挖掘等领域。
Claims (5)
1.一种多源异构数据降噪分析处理方法,其特征在于包括如下步骤:
对工程数智化建设运维应用场景多源数据采用期望最大EM法对数据进行填充处理;
采用主成分分析PCA算法对填充处理后的数据进行特征降维处理;
采用余弦相似度作为欧氏距离的加权值,构造基于聚类算法FCM的数据去噪方法,对多源复杂属性噪声数据流进行降噪处理。
5.如权利要求4所述的多源异构数据降噪分析处理方法,其特征在于:采用肘部法则,计算聚类中心个数c的取值,其计算原理是代价函数,代价函数是类别畸变程度之和,每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和;在选择类别数量上,肘部法则会把不同值的成本函数值画出来;随着值的增大,每个类包含的样本数会减少,于是样本离其重心会更近平均畸变程度会减小;随着值继续增大,平均畸变程度的改善效果会不断减低;值增大过程中,畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211083485.6A CN115329895A (zh) | 2022-09-06 | 2022-09-06 | 多源异构数据降噪分析处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211083485.6A CN115329895A (zh) | 2022-09-06 | 2022-09-06 | 多源异构数据降噪分析处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329895A true CN115329895A (zh) | 2022-11-11 |
Family
ID=83929823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211083485.6A Pending CN115329895A (zh) | 2022-09-06 | 2022-09-06 | 多源异构数据降噪分析处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329895A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884089A (zh) * | 2021-04-12 | 2021-06-01 | 国网上海市电力公司 | 一种基于数据挖掘的电力变压器故障预警系统 |
CN116884554A (zh) * | 2023-09-06 | 2023-10-13 | 济宁蜗牛软件科技有限公司 | 一种电子病历分类管理方法及系统 |
CN116955444A (zh) * | 2023-06-15 | 2023-10-27 | 共享易付(广州)网络科技有限公司 | 基于大数据分析的采集噪声点挖掘方法及系统 |
CN117272215A (zh) * | 2023-11-21 | 2023-12-22 | 江苏达海智能系统股份有限公司 | 一种基于数据挖掘的智慧小区安全管理方法及系统 |
CN117390297A (zh) * | 2023-12-13 | 2024-01-12 | 天津和光同德科技股份有限公司 | 一种大规模人才智库信息优化匹配方法 |
CN118332509A (zh) * | 2024-06-13 | 2024-07-12 | 南京邮电大学 | 一种基于两阶段聚类的地铁站点特性挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147519A (zh) * | 2017-09-06 | 2019-08-20 | 广东石油化工学院 | 一种数据处理方法及装置 |
CN110990498A (zh) * | 2020-03-04 | 2020-04-10 | 杭州信雅达数码科技有限公司 | 一种基于fcm算法的数据融合方法 |
CN111398832A (zh) * | 2020-03-19 | 2020-07-10 | 哈尔滨工程大学 | 一种基于anfis模型的公交车电池soc预测方法 |
CN111814342A (zh) * | 2020-07-16 | 2020-10-23 | 中国人民解放军空军工程大学 | 一种复杂设备可靠性混合模型及其构建方法 |
CN113378021A (zh) * | 2021-07-08 | 2021-09-10 | 哈尔滨理工大学 | 基于半监督的信息熵主成分分析降维方法 |
-
2022
- 2022-09-06 CN CN202211083485.6A patent/CN115329895A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147519A (zh) * | 2017-09-06 | 2019-08-20 | 广东石油化工学院 | 一种数据处理方法及装置 |
CN110990498A (zh) * | 2020-03-04 | 2020-04-10 | 杭州信雅达数码科技有限公司 | 一种基于fcm算法的数据融合方法 |
CN111398832A (zh) * | 2020-03-19 | 2020-07-10 | 哈尔滨工程大学 | 一种基于anfis模型的公交车电池soc预测方法 |
CN111814342A (zh) * | 2020-07-16 | 2020-10-23 | 中国人民解放军空军工程大学 | 一种复杂设备可靠性混合模型及其构建方法 |
CN113378021A (zh) * | 2021-07-08 | 2021-09-10 | 哈尔滨理工大学 | 基于半监督的信息熵主成分分析降维方法 |
Non-Patent Citations (4)
Title |
---|
KRISHNA KANT SINGH DEPARTMENT OF EARTHQUAKE ENGINEERING, INDIAN INSTITUTE OF TECHNOLOGY, ROORKEE, INDIA ; AKANSHA MEHROTRA; M.J. N: "《Unsupervised change detection from remote sensing images using hybrid genetic FCM》", 《2013 STUDENTS CONFERENCE ON ENGINEERING AND SYSTEMS (SCES)》, 14 April 2013 (2013-04-14), pages 1 - 5 * |
TIANMING YU; JIANHUA YANG; WEI LU: "《Dynamic Background Subtraction Using Histograms Based on Fuzzy C-Means Clustering and Fuzzy Nearness Degree》", 《IEEE ACCESS ( VOLUME: 7)》, 17 January 2019 (2019-01-17), pages 14671 * |
吕云翔: "《机器学习原理及应用》", 31 August 2021, 机械工业出版社, pages: 83 - 84 * |
周炎亮,刘志全,楚秦: "《大数据分析师面试笔试宝典》", 31 August 2022, 机械工业出版社, pages: 71 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884089A (zh) * | 2021-04-12 | 2021-06-01 | 国网上海市电力公司 | 一种基于数据挖掘的电力变压器故障预警系统 |
CN116955444A (zh) * | 2023-06-15 | 2023-10-27 | 共享易付(广州)网络科技有限公司 | 基于大数据分析的采集噪声点挖掘方法及系统 |
CN116955444B (zh) * | 2023-06-15 | 2024-08-23 | 刘富 | 基于大数据分析的采集噪声点挖掘方法及系统 |
CN116884554A (zh) * | 2023-09-06 | 2023-10-13 | 济宁蜗牛软件科技有限公司 | 一种电子病历分类管理方法及系统 |
CN116884554B (zh) * | 2023-09-06 | 2023-11-24 | 济宁蜗牛软件科技有限公司 | 一种电子病历分类管理方法及系统 |
CN117272215A (zh) * | 2023-11-21 | 2023-12-22 | 江苏达海智能系统股份有限公司 | 一种基于数据挖掘的智慧小区安全管理方法及系统 |
CN117272215B (zh) * | 2023-11-21 | 2024-02-02 | 江苏达海智能系统股份有限公司 | 一种基于数据挖掘的智慧小区安全管理方法及系统 |
CN117390297A (zh) * | 2023-12-13 | 2024-01-12 | 天津和光同德科技股份有限公司 | 一种大规模人才智库信息优化匹配方法 |
CN117390297B (zh) * | 2023-12-13 | 2024-02-27 | 天津和光同德科技股份有限公司 | 一种大规模人才智库信息优化匹配方法 |
CN118332509A (zh) * | 2024-06-13 | 2024-07-12 | 南京邮电大学 | 一种基于两阶段聚类的地铁站点特性挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115329895A (zh) | 多源异构数据降噪分析处理方法 | |
Wang | Research and implementation of machine learning classifier based on KNN | |
Fornarelli et al. | An unsupervised multi-swarm clustering technique for image segmentation | |
CN111177224B (zh) | 一种基于条件式规整化流模型的时间序列无监督异常检测方法 | |
CN115641177B (zh) | 一种基于机器学习的防秒杀预判系统 | |
CN116781346A (zh) | 基于数据增强的卷积双向长短期记忆网络入侵检测方法 | |
Bampis et al. | High order visual words for structure-aware and viewpoint-invariant loop closure detection | |
CN110503148B (zh) | 一种具有尺度不变性的点云对象识别方法 | |
CN114140657B (zh) | 一种基于多特征融合的图像检索方法 | |
CN113536939B (zh) | 一种基于3d卷积神经网络的视频去重方法 | |
Wang | Research on feature selection methods based on random forest | |
CN117669808A (zh) | 一种基于贝叶斯优化的滑坡易发性预测方法 | |
CN112926650A (zh) | 一种基于特征选择耦合相似度的数据异常检测方法 | |
CN112149052A (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 | |
Scitovski et al. | A new fast fuzzy partitioning algorithm | |
CN110310294A (zh) | 一种利用自适应分割面模糊c均值聚类的点云分割方法 | |
Wang et al. | Fuzzy C-means clustering algorithm for automatically determining the number of clusters | |
CN115129503A (zh) | 一种设备故障数据清洗方法及系统 | |
CN115130544A (zh) | 基于多头自注意力超图神经网络的数据分类方法及装置 | |
CN114492165A (zh) | 基于亲缘选育方法的参数优化方法及系统 | |
Akhtar et al. | Big data mining based on computational intelligence and fuzzy clustering | |
CN111882441A (zh) | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 | |
Zhong et al. | Topological structural analysis based on self-adaptive growing neural network for shape feature extraction | |
CN117668719B (zh) | 一种自适应阈值的隧道监测数据异常检测方法 | |
US20020138466A1 (en) | Method, computer program and data processing system for data clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |