CN113553535B - 一种基于改进的ReliefF多路信号特征优化方法 - Google Patents

一种基于改进的ReliefF多路信号特征优化方法 Download PDF

Info

Publication number
CN113553535B
CN113553535B CN202110778508.4A CN202110778508A CN113553535B CN 113553535 B CN113553535 B CN 113553535B CN 202110778508 A CN202110778508 A CN 202110778508A CN 113553535 B CN113553535 B CN 113553535B
Authority
CN
China
Prior art keywords
features
feature
relieff
signal
feature set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110778508.4A
Other languages
English (en)
Other versions
CN113553535A (zh
Inventor
潘礼正
王顺超
丁忆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN202110778508.4A priority Critical patent/CN113553535B/zh
Publication of CN113553535A publication Critical patent/CN113553535A/zh
Application granted granted Critical
Publication of CN113553535B publication Critical patent/CN113553535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明公开了一种基于改进的ReliefF多路信号特征优化方法,所述方法包括获取预处理信号;根据信号特性,进行单路信号特征提取;选出各单路信号下合适的维度特征,进行多信号多特征的融合,并进行归一化处理;利用ReliefF算法分析特征与目标类别间的相关性,并根据特征权重大小将特征进行排序;利用对称不确定性分析比较特征间的冗余性,通过把每轮与主特征比较后删除的特征重新恢复再比较并设定删除阈值,最终输出的主特征集为最优的维度特征集。本发明在特征维度优化时从特征的相关性和冗余性两个角度出发,最大程度地保留了仍具有贡献力度的特征,减少了原始特征信息的不必要的损失。

Description

一种基于改进的ReliefF多路信号特征优化方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于改进的ReliefF多路信号特征优化方法。
背景技术
在人机交互中,随着数据处理的体量越来越大,如何快速有效地选择特征是数据处理中不可避免的问题。当特征维度偏高时,不仅消耗了计算的时间,降低了计算的效率,而且高维的特征中存在不相关或冗余的特征反而会影响辨识的精度。因此,对数据样本量大,维度偏高的情况,发掘其潜在的有用的信息以便能最大程度地保留原始信号数据的特征,是当前数据处理领域研究的热点。
目前,已有许多的特征维度优化算法被提出,这些特征优化的算法在不同应用的场合下具备各自的特性。方差选择法先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。相关系数法先要计算各个特征对目标值的相关系数以及相关系数的P值,然后结合相关系数来选择特征。Relief算法最早由Kira提出,它从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找k个最近邻样本H,从和R不同类的样本中寻找k个最近邻样本M,最后按照公式更新特征权重。
针对高维数据的分类问题,大多特征选择优化算法只单一地考虑了特征与类别目标间的相关性问题或者特征间的冗余度问题,没有把两者结合起来分析。另外,传统的快速相关性滤波的方法(FCBF)虽然考虑了特征的相关性和冗余度问题,但是在样本数远大于特征维数的情况下,特征的相关性排序效果不甚理想。而且在特征冗余度分析时,每次被主特征比较后删除的特征都不会再参与下一轮主特征的比较,从而使得原始信息的表征不能尽可能的全面。
发明内容
本发明的目的是提供一种基于改进的ReliefF多路信号特征优化方法,从特征的相关性和冗余性两个角度出发,最大程度地保留了仍具有贡献力度的特征,减少了原始特征信息的不必要的损失。
本发明为实现上述发明目的采用如下技术方案:
本发明提供了一种基于改进的ReliefF多路信号特征优化方法,包括:
获取预处理信号;
根据信号特性,进行单路信号特征提取;
选出各单路信号下合适的维度特征,进行多信号多特征的融合,并进行归一化处理;
利用ReliefF算法分析特征与目标类别间的相关性,并根据特征权重大小将特征进行排序;
利用对称不确定性分析比较特征间的冗余性,通过把每轮与主特征比较后删除的特征重新恢复再比较并设定删除阈值,最终输出的主特征集为最优的维度特征集。
进一步地,预处理信号的方法包括:
提取相关信号,降低采样频率,去工频滤波降噪并对各类信号进行数据划分。
进一步地,提取的特征包括:
几何平均、调和平均、峭度、最大值、平均值、中值、最小值、阈值、斜度、标准差和方差。
进一步地,采用数据平滑处理和去趋势的方式进行单路信号特征提取。
进一步地,所述数据平滑处理和去趋势的方式包括:
移动标准差移动方差/>移动均值/>移动中位数mmad=median(|Ai-median(A)|);
其中,A是一个移动的向量,向量的长度为N,Ai表示A中第i个向量值,μ表示均值。
进一步地,利用ReliefF算法分析特征与目标类别间的相关性的方法包括:
利用ReliefF算法处理多分类问题,从训练样本集中随机取出一个样本R,从和样本R同类的样本集中找出k个近邻样本;
从和样本R不同类的训练样本集中找出k个近邻样本;
计算特征在同类近邻样本和不同类近邻样本间相关性的权重,公式如下:
其中,P(C)为该类别的比例,P(Class(R))为随机选取的某样本类别的比例,diff(p,R,H)表示样本R和样本H在特征p上的差,m为抽样次数;
根据权重大小对特征进行排序。
进一步地,利用对称不确定性分析比较特征间的冗余性的方法包括:
取经过ReliefF算法后得到的有序特征集fu
从有序特征集fu中按顺序取特征fi(i∈{1,2,...,n})作为主特征;
将确定的主特征与余下特征fj(j∈{i+1,i+2,...,n})依次比较特征间的对称不确定性值SUi,j
设立阈值λ,若SUi,j大于λ,则将被比较的特征fj删除,反之则保留。
进一步地,将与主特征比较后删除的特征重新恢复再比较并设定删除阈值,最终输出的主特征集为最优的维度特征集的方法包括:
每轮确定出的主特征不再参与下一轮的比较,并把主特征挑出放入优化的特征集中,被删除的特征fj将被标记并累计删除的次数dj
若dj不大于3则将上一轮所有删除的特征依次按删除的顺序放入现存特征集的末端,刷新现存的特征集;
若dj大于3,则该特征fj将被永久地删除,不再参与比较;
按现存排序的顺序重新确定下一个主特征,直至不再有主特征产生;
整合所有被挑出的主特征,该特征集便是最优的维度特征集。
本发明的有益效果如下:
本发明在特征维度优化时从特征的相关性和冗余性两个角度出发,最大程度地保留了仍具有贡献力度的特征,减少了原始特征信息的不必要的损失;
在高维的数据空间达到了维度优化的目的,减少了计算的复杂度和计算消耗的时间;
相比于传统的主观选择最优维度的方法,本发明具有维度优化的效果且维度优化速度更快,可以自适应地抉择出满足条件的特征,组成最优的维度特征集。
附图说明
图1为根据本发明实施例提供的一种基于改进的ReliefF多路信号特征优化方法的流程框图;
图2为根据本发明实施例提供的一种基于改进的ReliefF多路信号特征优化方法中FCBF算法的原理图;
图3为根据本发明实施例提供的一种基于改进的ReliefF多路信号特征优化方法的算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所涉及方法的整体流程图如图1所示,包括以下步骤:
步骤1:预处理相关生理信号。相关的生理信号包括:呼吸(RSP)、血压(BVP)、皮电(GSR)、肌电(EMG)及眼电(EOG)。降低采样频率至128Hz,每个训练样本去除眼电伪迹和前3秒的基线。对各类生理信号进行数据划分,6秒一段并作3秒的重叠。
步骤2:特征提取。尽可能多地提取特征组建特征库。常见的提取的特征包括:最大值(max)、最小值(min)、方差(var)、标准差(std)、中值(median)、均值(mean)、范围(range)、几何平均(geometric mean)、调和平均(harmonic mean)。采用一些数据平滑处理和去趋势的方法,同样提取以上特征,可以获得更多不同类型下的特征值。数据平滑处理和去趋势的方法包括:移动标准差移动方差移动均值/>移动中位数(movmad)mmad=median(|Ai-median(A)|),A是一个移动的向量,向量的长度为N,Ai表示A中第i个向量值,μ表示均值。
步骤3:选择出各单路信号下合适的维度特征,进行多信号多特征的融合,组成m×n的特征集(m表示样本数,n表示特征数),并进行归一化处理。
步骤4:利用ReliefF算法分析特征与目标类别间的相关性并根据特征权重大小将特征进行排序。ReliefF算法处理多分类问题,每次从训练样本集中随机取出一个样本R,然后从和R同类的样本集中找出k个近邻样本(Near Hits),从每个R的不同类的样本集中找出k个近邻样本(Near Misses),然后依据公式计算每个特征的权重以此来分析特征与目标类别间的相关性,并根据权重大小将特征进行排序。
步骤5:利用对称不确定性分析比较特征间的冗余性,通过把每轮与主特征比较后删除的特征重新恢复再比较并设定删除阈值,以便保留每个特征最大的表征力度。最终输出的主特征集便是最优的特征维度。
传统的FCBF算法是一种基于相关性的快速滤波的算法。采用信息熵理论度量的方式,依据对称不确定性值SU(symmetrical uncertainty),先分析特征i与类别C之间的相关性,若特征的相关性值SUi,c大于设定的阈值θ则保留,反之则删除。按SUi,c值大小,对特征排序。如图2所示,特征f1至f6,便是相关性分析后排完序的特征。接着比较特征i和特征j间的冗余度值SUi,j。按先前特征排序的大小,先确定主特征f1并依次按顺序与余下的特征挨个比较,大于设定的阈值λ则删除,反之则保留,f3和f4被删除。再确定第二主特征f2重复上述步骤,f6被删除。最终,挑出的f1、f2、f5便是最优特征集。
但是传统的FCBF在样本数大于特征数的情况下,相关性分析的效果不甚理想。于是,采用基于ReliefF的方法对特征进行相关性排序并用对称不确定性进行特征间的冗余度分析。于是,一种基于改进的ReliefF多路信号特征优化方法如图3所示,所述改进的ReliefF多路信号特征优化方法步骤如下:
(1)取经过ReliefF算法后得到的有序特征集fu(特征维度为n)。
(2)按顺序取特征fi(i∈{1,2,...,n})作为主特征。将确定好的主特征往下与余下特征fj(j∈{i+1,i+2,...,n})依次比较特征间的对称不确定性值,设立阈值λ,若特征间的SUi,j大于λ,则将被比较的特征fj删除,反之则保留。每轮确定出的主特征不用再参与下一轮的比较,并把主特征挑出放入优化的特征集中。被删除的特征fj将被标记并累计删除的次数dj
(3)若dj不大于3则将上一轮所有未彻底删除的特征依次按删除的顺序放入现存特征集fu的末端,刷新现存的特征集fu。若dj大于3,则该特征fj将被彻底地删除,不用再参与比较。
(4)按现存排序的顺序重新确定下一个主特征,重复步骤(2)至(3)。直至不再有主特征产生。
整合所有被挑出的主特征,该特征集便是最优维度的特征集。
为了验证本发明的有效性,本发明所用的改进的特征维度优化的方法在国际公开的数据库DEAP(A Database for Emotion Analysis Using Physiological Signals)上进行验证。对于多人的四分类情绪辨识问题,本发明方法和传统的特征维度优化方法ReliefF及FCBF进行对比,统一选用支持向量机分类器进行辨识分类,三种维度优化方法的正确率及所对应的最优维度如表1所示。
表1.本发明改进的特征维度优化方法与FCBF和ReliefF方法正确率的比较。
从表1可以明显看出ReliefF算法整体要优于FCBF,而本发明改进的特征维度优化的方法整体又要优于ReliefF,而且ReliefF算法需手动的挑选最优维度,本发明改进的特征维度优化的方法自适应的筛选出了最优维度。对于s23-s32(10人)和s01-s22(22人)的最优维度区间分别在[131,141]、[143,151],对应的平均精度分别为81.27%和82.32%。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种基于改进的ReliefF多路信号特征优化方法,其特征在于,所述方法包括:
获取预处理信号;
根据信号特性,进行单路信号特征提取;
选出各单路信号下的维度特征,进行多信号多特征的融合,并进行归一化处理;
利用ReliefF算法分析特征与目标类别间的相关性,并根据特征权重大小将特征进行排序;
利用对称不确定性分析比较特征间的冗余性,通过把每轮与主特征比较后删除的特征重新恢复再比较并设定删除阈值,最终输出的主特征集为最优的维度特征集;
利用ReliefF算法分析特征与目标类别间的相关性的方法包括:
利用ReliefF算法处理多分类问题,从训练样本集中随机取出一个样本R,从和样本R同类的样本集中找出k个近邻样本;
从和样本R不同类的训练样本集中找出k个近邻样本;
计算特征在同类近邻样本和不同类近邻样本间相关性的权重,公式如下:
其中,P(C)为该类别的比例,P(Class(R))为随机选取的某样本类别的比例,diff(p,R,H)表示样本R和样本H在特征p上的差,m为抽样次数;
根据权重大小对特征进行排序;
利用对称不确定性分析比较特征间的冗余性的方法包括:
取经过ReliefF算法后得到的有序特征集fu
从有序特征集fu中按顺序取特征fi(i∈{1,2,...,n})作为主特征;
将确定的主特征与余下特征fj(j∈{i+1,i+2,...,n})依次比较特征间的对称不确定性值SUi,j
设立阈值λ,若SUi,j大于λ,则将被比较的特征fj删除,反之则保留;
通过把每轮与主特征比较后删除的特征重新恢复再比较并设定删除阈值,最终输出的主特征集为最优的维度特征集的方法包括:
每轮确定出的主特征不再参与下一轮的比较,并把主特征挑出放入优化的特征集中,被删除的特征fj将被标记并累计删除的次数dj
若dj不大于3则将上一轮所有删除的特征依次按删除的顺序放入现存特征集的末端,刷新现存的特征集;
若dj大于3,则该特征fj将被永久地删除,不再参与比较;
按现存排序的顺序重新确定下一个主特征,直至不再有主特征产生;
整合所有被挑出的主特征,该特征集便是最优的维度特征集。
2.根据权利要求1所述的一种基于改进的ReliefF多路信号特征优化方法,其特征在于,预处理信号的方法包括:
提取相关信号,降低采样频率,去工频滤波降噪并对各类信号进行数据划分。
3.根据权利要求1所述的一种基于改进的ReliefF多路信号特征优化方法,其特征在于,采用数据平滑处理和去趋势的方式进行单路信号特征提取。
4.根据权利要求3所述的一种基于改进的ReliefF多路信号特征优化方法,其特征在于,提取的特征包括:
几何平均、调和平均、峭度、最大值、平均值、中值、最小值、阈值、斜度、标准差和方差。
5.根据权利要求4所述的一种基于改进的ReliefF多路信号特征优化方法,其特征在于,所述数据平滑处理和去趋势的方式包括:
移动标准差移动方差/>移动均值/>移动中位数mmad=median(Ai-median(A));
其中,A是一个移动的向量,向量的长度为N,Ai表示A中第i个向量值,μ表示均值。
CN202110778508.4A 2021-07-09 2021-07-09 一种基于改进的ReliefF多路信号特征优化方法 Active CN113553535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110778508.4A CN113553535B (zh) 2021-07-09 2021-07-09 一种基于改进的ReliefF多路信号特征优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110778508.4A CN113553535B (zh) 2021-07-09 2021-07-09 一种基于改进的ReliefF多路信号特征优化方法

Publications (2)

Publication Number Publication Date
CN113553535A CN113553535A (zh) 2021-10-26
CN113553535B true CN113553535B (zh) 2023-09-01

Family

ID=78131504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110778508.4A Active CN113553535B (zh) 2021-07-09 2021-07-09 一种基于改进的ReliefF多路信号特征优化方法

Country Status (1)

Country Link
CN (1) CN113553535B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368894A (zh) * 2020-02-27 2020-07-03 苏州浪潮智能科技有限公司 一种fcbf特征选择方法及其在网络入侵检测中的应用
CN111833966A (zh) * 2020-07-07 2020-10-27 华东师范大学 一种基于自适应lasso的特征选择方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368894A (zh) * 2020-02-27 2020-07-03 苏州浪潮智能科技有限公司 一种fcbf特征选择方法及其在网络入侵检测中的应用
CN111833966A (zh) * 2020-07-07 2020-10-27 华东师范大学 一种基于自适应lasso的特征选择方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于FCA -ReliefF的融合生理信号情绪识别研究;潘礼正等;《计算机测量与控制》;第28卷(第2期);179-183 *

Also Published As

Publication number Publication date
CN113553535A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN107679465B (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN106462957B (zh) 一种红外图像中条纹噪声的去除方法及系统
KR101434170B1 (ko) 추출된 데이터 특징을 이용한 학습 방법 및 장치
CN105095434B (zh) 时效需求识别方法及装置
CN110751636B (zh) 一种基于改进型编解码网络的眼底图像视网膜动脉硬化检测方法
JP2005535952A (ja) 画像内容検索法
JP5685324B2 (ja) 映像を比較する方法および装置
JP2014194762A (ja) 次元削減に基づき時系列を処理するための方法および装置
CN106530294A (zh) 一种对睑板腺图像进行处理以获得腺体参数的信息的方法
CN116402825B (zh) 轴承故障红外诊断方法、系统、电子设备及存储介质
CN111368867A (zh) 档案归类方法及系统、计算机可读存储介质
CN113553535B (zh) 一种基于改进的ReliefF多路信号特征优化方法
CN111611293A (zh) 一种基于特征加权与MapReduce的离群数据挖掘方法
JP2001502165A (ja) クロマトグラフ泳動パターンの分析方法および装置
CN111222546A (zh) 一种多尺度融合的食品图像分类模型训练及图像分类方法
CN112214684B (zh) 一种种子扩展的重叠社区发现方法及装置
CN117726602A (zh) 基于带状池化的息肉分割方法及系统
CN108846407B (zh) 基于独立成分高序不确定脑网络的磁共振影像分类方法
CN108153414B (zh) 稳态视觉诱发电位信号的识别方法、系统及装置
CN109299304A (zh) 目标图像检索方法及系统
CN110443276A (zh) 基于深度卷积网络与灰度递归图分析的时间序列分类方法
CN114999661A (zh) 皮肤癌识别模型的构建方法、皮肤癌识别装置、电子设备
CN109684493B (zh) 一种基于k邻域分布得分的图像重排序方法
CN114398991A (zh) 基于Transformer结构搜索的脑电信号情绪识别方法
CN113951821A (zh) 睡眠分期方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant