CN110619311A - 一种基于eemd-ica-svm的数据分类方法 - Google Patents

一种基于eemd-ica-svm的数据分类方法 Download PDF

Info

Publication number
CN110619311A
CN110619311A CN201910889962.XA CN201910889962A CN110619311A CN 110619311 A CN110619311 A CN 110619311A CN 201910889962 A CN201910889962 A CN 201910889962A CN 110619311 A CN110619311 A CN 110619311A
Authority
CN
China
Prior art keywords
signal
data
determining
classification
svm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910889962.XA
Other languages
English (en)
Inventor
胡燕祝
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910889962.XA priority Critical patent/CN110619311A/zh
Publication of CN110619311A publication Critical patent/CN110619311A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及基于EEMD‑ICA‑SVM的数据分类方法,属于数据挖掘与机器学习领域,其特征在于采用如下步骤:(1)选取一个数据信号并给数据信号加入高斯白噪声;(2)确定原始数据的局部均值函数和剩余信号;(3)确定IMF分量;(4)确定残余函数;(5)确定集合经验模态分量;(6)建立ICA数学模型;(7)构建SVM分类模型;(8)选择合适的核函数。本发明克服了小波分解自适应较差和EMD分解的模态混叠与端点效应问题,特征提取更准确,将SVM模型进行非线性变换,模型精简且具有优秀的泛化能力,降低了对数据规模和数据分布的要求,为数据分类领域提供了一种拥有较高分类准确率的方法。

Description

一种基于EEMD-ICA-SVM的数据分类方法
技术领域
本发明涉及机器学习与数据挖掘领域,主要是一种对数据进行分类的方法。
背景技术
目前针对数据分类问题,大部分算法已经具有良好的分类效果,但是很少考虑到数据类型、模型复杂度等因素的鲁棒性,这严重影响识别准确率。而有的模型精简了算法模型的复杂度,但是其分类结果的准确率较低,效果不佳。经典的机器学习分类任务在研究学习中可以分为两部分:提取数据特征和分类器设计。首先从数据中提取有效的特征,特征向量确定后,还需对特征进行相关性分析,去除信号中的冗余信息。最后输入到有效的分类器中进行分类,确定不同数据类型。然而,在如今高速发展的信息时代,生活中的数据资源处于不断的产生过程中,呈爆炸性趋势快速增长,如何准确高效的提取庞大数据中的有效信息并进行分类显得尤为重要。当前,特征提取技术在图像处理、模式识别和网络入侵检测等方面的运用越来越广泛,在传统分类方法中,对于特征的手动提取相当耗时耗力,且精度要求高。尤其在大数据环境下特征提取的效率已经成为制约快速处理数据能力的瓶颈。
关于特征提取的方法,传统的小波分解自适应较差,如EMD分解会出现模态混叠与端点效应问题,尽管EEMD解了模态混叠问题,但依旧存在端点效应。而ICA独立分分析,若对源数据和混合矩阵没有任何先验知识,求解混合矩阵的过程中可能会存在不确定性。对于SVM模型,在实现经验风险和置信范围最小化的情况下,对于小样本数据,也能够获得良好的统计结果,但是模型本身存在求解合适的核函数问题。因此,将三种方法结合起来,利用EEMD和ICA结合解决了信号端点效应问题,将SVM模型与ICA结合降低了对数据规模和数据分布的要求,也有利于求解核函数。三种方法优势互补,可达到较高的准确率和高效性,降低失误率,从而满足对各个领域的需求。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种精确、高效的数据分类方法,其具体流程及算法如图1和图2所示。
技术方案实施步骤如下:
(1)首先选取一个数据信号X(t),在给这个数据信号加入高斯白噪声si(t)。公式表示为:
x(t)=X(t)+si(t)
式中,x(t)为下一步待处理数据信号,X(t)为原始数据信号,si(t)为高斯白噪声信号。
(2)确定原始数据的局部均值函数m11(t)和剩余信号h11(t):
计算数据信号x(t)所有的极值点,使用三次样条函数将其拟合到原始数据序列的包络上,计算上下包络的平均值得到局部均值函数m11(t)。将局部均值函数m11(t)从原始振动信号x(t)中分离出来,得到剩余信号h11(t),即:
h11(t)=x(t)-m11(t)
式中,h11(t)表示剩余信号,x(t)表示待处理数据信号,m11(t)表示局部均值函数。
(3)确定IMF分量:
重复进行上述处理过程k次,直到h11(t)满足IMF的定义,且获得的平均值趋于零,得到第一个IMF分量c11(t),它代表信号x(t)的最高频率的分量:
h1k(t)=h1(k-1)(t)-m1k(t)
c1(t)=h1k(t)
式中,h1k(t)和h1(k-1)(t)分别表示第k和k-1次处理后的剩余信号,m1k(t)表示第k次局部均值函数,c1(t)表示第一个IMF分量。
(4)确定残余函数rn(t):
将c1(t)从x(t)中分离出来,得到第1个去掉高频分量的差值信号r1(t),重复此步骤n次。
r1(t)=x(t)-c1(t)
rn(t)=rn-1(t)-cn(t)
当cn(t)或rn(t)满足终止条件(即rn(t)成为一个单调函数)时结束。
式中,r1(t)和rn-1(t)表示第1个和第n-1去掉高频分量的差值信号,c1(t)和cn(t)表示第1个和第n个IMF分量,ci(t)表示各个IMF分量,rn(t)表示残余函数。
(5)确定集合经验模态分量Mj(t):
对每一组得到而IMF分量添加不同的白噪声,得到一组新的IMF向量。
Mij(t)=cj(t)+si(t)
对多个添加白噪声的IMF进行平均,得到一个新的IMF表示为Mj(t)。
式中,Mij(t)表示第i次添加白噪声的第j个IMF分量,cj(t)表示第j个原始IMF分量,si(t)添加的白噪声信号。Mj(t)表示第j个集合经验模态分量。循环k次,可组成一组新的集合经验模态分量组M={M1,M2,…,Mk}。
(6)建立ICA数学模型:
M=A·S
式中,A表示未知的混合矩阵,S=[S1,S2,...,Sd]T表示源信号,d表示源信号的维数,M=[M1,M2,…,Mk]T表示k维观测到的信号特征向量。
最终,确定振动信号的特征向量Y:
Y=W·M
式中,Y表示振动信号的特征向量,W表示混合矩阵A的逆矩阵,M=[M1,M2,…,Mk]T表示k维观测到的信号特征向量。
(7)构建SVM分类模型:
标准SVM主要解决线性二分类问题,但大多数数据分类问题属于非线性问题,因此需要将标准SVM进行非线性变换。SVM非线性分类模型可用如下优化形式表示。
式中,φ(xi)为非线性映射,ω表示空间样本,C表示惩罚因子,非负变量ξi以折中考虑最少错分样本和最大分类间隔。
(8)选择合适的核函数K(xi,xj):
K(xi,xj)=exp(-γ||xi-xj||2),γ>0
式中,xi,xj表示特征向量,γ表示超参数。将测试集样本作为输入,送到模型中进行分类,得到分类结果,完成基于EEMD-ICA-SVM的数据分类方法。
本发明比现有技术具有的优点:
(1)本发明采用EEMD-ICA方法提取数据特征,克服了小波分解自适应较差和EMD分解的模态混叠与端点效应问题,提取数据特征更准确,分解向量自适应且没有交叉干扰项,去除了冗杂信息,提高了数据分类的准确率。
(2)本发明将SVM模型进行非线性变换,模型精简且具有优秀的泛化能力,降低了对数据规模和数据分布的要求,且具有较高的分类准确率。这说明本发明进行数据分类时,可以达到较好的分类效果。
附图说明
为了更好地理解本发明,下面结合附图作进一步的说明。
图1是建立基于EEMD-ICA-SVM的数据分类模型的步骤流程图;
图2是建立基于EEMD-ICA-SVM的数据分类模型的算法流程图;
图3是SVM模型的结构示意图;
图4是利用本发明与多种模型运行结果对比。
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
本实施案例选用的数据集共118组样本,其中IEC TC 10变压器故障数据将变压器故障划分为:低能放电(LE-D)23组、高能放电(HE-D)45组、中低温过热(LM-T)10组、高温过热(H-T)14组、正常状态(N-C)26组,共五种状态,得到118组IEC TC 10变压器故障分类样本,采用随机抽样的方法选出90组作为训练集,剩余28组作为测试集。
本发明所提供的EEMD-ICA-SVM的数据分类模型的流程算法图如图1和图2所示,具体步骤如下:
(1)首先选取一个数据信号X(t),在给这个数据信号加入高斯白噪声si(t)。公式表示为:
x(t)=X(t)+si(t)
式中,x(t)为下一步待处理数据信号,X(t)为原始数据信号,si(t)为高斯白噪声信号,选取高斯白噪声标准差Nstd为0.05,白噪声添加次数为100。
(2)确定原始数据的局部均值函数m11(t)和剩余信号h11(t):
计算数据信号x(t)所有的极值点,使用三次样条函数将其拟合到原始数据序列的包络上,计算上下包络的平均值得到局部均值函数m11(t)。将局部均值函数m11(t)从原始振动信号x(t)中分离出来,得到剩余信号h11(t),即:
h11(t)=x(t)-m11(t)
式中,h11(t)表示剩余信号,x(t)表示待处理数据信号,m11(t)表示局部均值函数。
(3)确定IMF分量:
重复进行上述处理过程k次,直到h11(t)满足IMF的定义,且获得的平均值趋于零,得到第1个IMF分量c11(t),它代表信号x(t)的最高频率的分量:
h1k(t)=h1(k-1)(t)-m1k(t)
c1(t)=h1k(t)
式中,h1k(t)和h1(k-1)(t)分别表示第k和k-1次处理后的剩余信号,m1k(t)表示第k次局部均值函数,c1(t)表示第1个IMF分量。
(4)确定残余函数rn(t):
将c1(t)从x(t)中分离出来,得到第1个去掉高频分量的差值信号r1(t),重复此步骤n次。
r1(t)=x(t)-c1(t)
rn(t)=rn-1(t)-cn(t)
当cn(t)或rn(t)满足终止条件(即rn(t)成为一个单调函数)时结束。
式中,r1(t)和rn-1(t)表示第1个和第n-1去掉高频分量的差值信号,c1(t)和cn(t)表示第1个和第n个IMF分量,ci(t)表示各个IMF分量,rn(t)表示残余函数。循环6次后,可得到6个IMF分量。
(5)确定集合经验模态分量Mj(t):
对每一组得到而IMF分量添加不同的白噪声,得到一组新的IMF向量。
Mij(t)=cj(t)+si(t)
对多个添加白噪声的IMF进行平均,得到一个新的IMF表示为Mj(t)
式中,Mij(t)表示第i次添加白噪声的第j个IMF分量,cj(t)表示第j个原始IMF分量,si(t)添加的白噪声信号。Mj(t)表示第j个集合经验模态分量。循环6次,可得到6个新的IMF分量,组成一组新的集合经验模态分量组M={M1,M2,…,M6}。
(6)建立ICA数学模型:
式中,S=[S1,S2,…S6]T表示源信号。
最终,确定数据信号的特征向量Y:
(7)构建SVM分类模型
标准SVM主要解决线性二分类问题,但大多数数据分类问题属于非线性问题,因此需要将标准SVM进行非线性变换。SVM非线性分类模型可用如下优化形式表示。
K(xi,xj)=exp(-γ||xi-xj||2),γ>0
式中,φ(xi)为非线性映射,ω表示空间样本,即上式中的特征向量Y。C表示惩罚因子,区间范围为[1,103],非负变量ξi以折中考虑最少错分样本和最大分类间隔。通过实验,确定最终ICA寻得的最佳SVM参数C=452.6735。
(8)选择合适的核函数K(xi,xj);
K(xi,xj)=exp(-γ||xi-xj||2),γ>0
式中,xi,xj表示特征向量,γ表示超参数,通过实验,确定最终ICA寻得的最佳SVM参数γ=43.5816。将28组测试集样本作为输入,送到模型中进行分类,得到分类结果,完成基于EEMD-ICA-SVM的数据分类方法,实验结果如图3所示。
为了验证本发明对数据分类的准确性与高效性,对本发明进行了多组数据分类仿真实验,并将结果与一些数据分类的模型算法进行了对比,仿真结果如图4和表1所示。
表1多种模型实验结果对比
由仿真结果表1可知,在使用相同数据集的情况下,本发明通过EEMD-ICA-SVM组合模型对数据分类准确率可以达到99.6%。与其他三种方法相比,在时效性和分类准确性上都有了大幅提升。这表明本发明建立的数据分类方法是精确的、高效的,为实际中数据分类应用打下了良好基础。

Claims (1)

1.本发明提出了一种基于EEMD-ICA-SVM的数据分类方法,其特征在于:(1)选取一个数据信号并加入高斯白噪声,(2)确定原始数据的局部均值函数和剩余信号,(3)确定IMF分量,(4)确定残余函数,(5)确定集合经验模态分量,(6)建立ICA数学模型,(7)构建SVM分类模型,(8)选择合适的核函数,具体包括以下八个步骤:
步骤一:首先选取一个数据信号X(t),在给这个数据信号加入高斯白噪声si(t),公式表示为;
x(t)=X(t)+si(t);
式中,x(t)为下一步待处理数据信号,X(t)为原始数据信号,si(t)为高斯白噪声信号;
步骤二:确定原始数据的局部均值函数m11(t)和剩余信号h11(t);
计算数据信号x(t)所有的极值点,使用三次样条函数将其拟合到原始数据序列的包络上,计算上下包络的平均值得到局部均值函数m11(t),将局部均值函数m11(t)从原始振动信号x(t)中分离出来,得到剩余信号h11(t),即:
h11(t)=x(t)-m11(t);
式中,h11(t)表示剩余信号,x(t)表示待处理数据信号,m11(t)表示局部均值函数;
步骤三:确定IMF分量;
重复进行上述处理过程k次,直到h11(t)满足IMF的定义,且获得的平均值趋于零,得到第一个IMF分量c11(t),它代表信号x(t)的最高频率的分量;
h1k(t)=h1(k-1)(t)-m1k(t);
c1(t)=h1k(t);
式中,h1k(t)和h1(k-1)(t)分别表示第k和k-1次处理后的剩余信号,m1k(t)表示第k次局部均值函数,c1(t)表示第一个IMF分量;
步骤四:确定残余函数rn(t);
将c1(t)从x(t)中分离出来,得到第1个去掉高频分量的差值信号r1(t),重复此步骤n次;
r1(t)=x(t)-c1(t);
rn(t)=rn-1(t)-cn(t);
当cn(t)或rn(t)满足终止条件(即rn(t)成为一个单调函数)时结束;
式中,r1(t)和rn-1(t)表示第1个和第n-1去掉高频分量的差值信号,c1(t)和cn(t)表示第1个和第n个IMF分量,ci(t)表示各个IMF分量,rn(t)表示残余函数;
步骤五:确定集合经验模态分量Mj(t);
对每一组得到而IMF分量添加不同的白噪声,得到一组新的IMF向量;
Mij(t)=cj(t)+si(t);
对多个添加白噪声的IMF进行平均,得到一个新的IMF表示为Mj(t);
式中,Mij(t)表示第i次添加白噪声的第j个IMF分量,cj(t)表示第j个原始IMF分量,si(t)添加的白噪声信号,Mj(t)表示第j个集合经验模态分量,循环k次,可组成一组新的集合经验模态分量组M={M1,M2,…,Mk};
步骤六:建立ICA数学模型;
M=A·S;
式中,A表示未知的混合矩阵,S=[S1,S2,...,Sd]T表示源信号,d表示源信号的维数,M=[M1,M2,…,Mk]T表示k维观测到的信号特征向量;
最终,确定振动信号的特征向量Y;
Y=W·M;
式中,Y表示振动信号的特征向量,W表示混合矩阵A的逆矩阵,M=[M1,M2,…,Mk]T表示k维观测到的信号特征向量;
步骤七:构建SVM分类模型;
标准SVM主要解决线性二分类问题,但大多数数据分类问题属于非线性问题,因此需要将标准SVM进行非线性变换,SVM非线性分类模型可用如下优化形式表示;
式中,φ(xi)为非线性映射,ω表示空间样本,C表示惩罚因子,非负变量ξi以折中考虑最少错分样本和最大分类间隔;
步骤八:选择合适的核函数K(xi,xj);
K(xi,xj)=exp(-γ||xi-xj||2),γ>0;
式中,xi,xj表示特征向量,γ表示超参数,将测试集样本作为输入,送到模型中进行分类,得到分类结果。
CN201910889962.XA 2019-09-20 2019-09-20 一种基于eemd-ica-svm的数据分类方法 Pending CN110619311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910889962.XA CN110619311A (zh) 2019-09-20 2019-09-20 一种基于eemd-ica-svm的数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910889962.XA CN110619311A (zh) 2019-09-20 2019-09-20 一种基于eemd-ica-svm的数据分类方法

Publications (1)

Publication Number Publication Date
CN110619311A true CN110619311A (zh) 2019-12-27

Family

ID=68923734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910889962.XA Pending CN110619311A (zh) 2019-09-20 2019-09-20 一种基于eemd-ica-svm的数据分类方法

Country Status (1)

Country Link
CN (1) CN110619311A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115851A (zh) * 2020-09-16 2020-12-22 北京邮电大学 一种基于cmeemd-gaiw-sw-dfa的分布式光纤信号听觉信息融合方法
CN113076516A (zh) * 2021-04-16 2021-07-06 上海欣影电力科技股份有限公司 一种基于pso-emmd-ica的变压器振动信号在线分离方法
CN113283289A (zh) * 2021-04-13 2021-08-20 上海电力大学 一种基于CEEMD-MFE与t-SNE的局部放电模式识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239142A (zh) * 2017-06-01 2017-10-10 南京邮电大学 一种结合公共空间模式算法和emd的脑电信号特征提取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239142A (zh) * 2017-06-01 2017-10-10 南京邮电大学 一种结合公共空间模式算法和emd的脑电信号特征提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
夏均忠;苏涛;马宗坡;冷永刚;白云川;: "基于EMD的滚动轴承故障特征提取方法" *
张碧薇: "基于EEMD与平稳小波变换的脉搏波形特征分析研究" *
杨航;郭晓金;: "基于EMD的运动想象脑电特征提取与识别" *
程军圣;于德介;杨宇;: "基于EMD和SVM的滚动轴承故障诊断方法" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115851A (zh) * 2020-09-16 2020-12-22 北京邮电大学 一种基于cmeemd-gaiw-sw-dfa的分布式光纤信号听觉信息融合方法
CN112115851B (zh) * 2020-09-16 2022-02-08 北京邮电大学 一种基于cmeemd-gaiw-sw-dfa的分布式光纤信号听觉信息融合方法
CN113283289A (zh) * 2021-04-13 2021-08-20 上海电力大学 一种基于CEEMD-MFE与t-SNE的局部放电模式识别方法
CN113076516A (zh) * 2021-04-16 2021-07-06 上海欣影电力科技股份有限公司 一种基于pso-emmd-ica的变压器振动信号在线分离方法

Similar Documents

Publication Publication Date Title
CN110197286B (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN105740912B (zh) 基于核范数正则化的低秩图像特征提取的识别方法及系统
US20220036231A1 (en) Method and device for processing quantum data
CN110619311A (zh) 一种基于eemd-ica-svm的数据分类方法
CN108734199B (zh) 基于分段深度特征及低秩表示的高光谱图像鲁棒分类方法
Cong et al. Self-supervised online metric learning with low rank constraint for scene categorization
CN113963165B (zh) 一种基于自监督学习的小样本图像分类方法及系统
CN106096660B (zh) 基于独立成分分析算法的卷积神经网络
Wang et al. A fast semidefinite approach to solving binary quadratic problems
CN108875933A (zh) 一种无监督稀疏参数学习的超限学习机分类方法及系统
CN110705636B (zh) 一种基于多样本字典学习和局部约束编码的图像分类方法
CN111079856B (zh) 一种基于csjitl-rvm的多时段间歇过程软测量建模方法
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN108921853B (zh) 基于超像素和免疫稀疏谱聚类的图像分割方法
CN112149045A (zh) 一种适用于大规模数据的降维、关联分析方法
Xu et al. Discriminative analysis for symmetric positive definite matrices on lie groups
CN111507297B (zh) 一种基于度量信息矩阵的雷达信号识别方法及系统
Gu et al. Robust semi-supervised classification for noisy labels based on self-paced learning
CN109784233B (zh) 一种基于Lp-范数的锁相值加权空间滤波方法及装置
Xing et al. Fuzzy c-means algorithm automatically determining optimal number of clusters
CN113592030A (zh) 基于复值奇异谱分析的图像检索方法和系统
Muthukannan et al. Color image segmentation using k-means clustering and optimal fuzzy C-means clustering
Perez et al. Face Patches Designed through Neuroevolution for Face Recognition with Large Pose Variation
Hassan et al. Quality of performance evaluation of ten machine learning algorithms in classifying thirteen types of apple fruits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191227

WD01 Invention patent application deemed withdrawn after publication