CN116304853A - 一种极限学习机与特征提取相结合的数据分类方法及系统 - Google Patents

一种极限学习机与特征提取相结合的数据分类方法及系统 Download PDF

Info

Publication number
CN116304853A
CN116304853A CN202211609662.XA CN202211609662A CN116304853A CN 116304853 A CN116304853 A CN 116304853A CN 202211609662 A CN202211609662 A CN 202211609662A CN 116304853 A CN116304853 A CN 116304853A
Authority
CN
China
Prior art keywords
extreme learning
learning machine
data set
learner
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211609662.XA
Other languages
English (en)
Inventor
刘颖异
何冰
戴缘生
宋浩瑜
倪祺
谢小松
张博洋
张文婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
State Grid Shanghai Electric Power Co Ltd
Original Assignee
Beihang University
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, State Grid Shanghai Electric Power Co Ltd filed Critical Beihang University
Priority to CN202211609662.XA priority Critical patent/CN116304853A/zh
Publication of CN116304853A publication Critical patent/CN116304853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种极限学习机与特征提取相结合的数据分类方法及系统,其中,方法包括以下步骤:将给定数据集进行优化并划分为训练样本数据集和测试样本数据集;选择k个极限学习机基学习器,基于训练样本数据集,训练各个极限学习机基学习器;计算极限学习机基学习器和训练样本的判别度量;基于判别度量,构建自适应重启策略中的阈值函数,并基于测试样本数据集使用重启式集成正则极限学习机作为分类器,对给定数据集进行分类。本申请解决了现有分类器面对含噪、冗余的复杂数据很难平衡时效性和准确性的问题,该基于重启式集成正则极限学习机与稀疏特征分类的模型,具备时效性、广泛性好,准确度高的优点。

Description

一种极限学习机与特征提取相结合的数据分类方法及系统
技术领域
本申请涉及机器学习领域,具体涉及一种极限学习机与特征提取相结合的数据分类方法及系统。
背景技术
随着信息科学机器应用技术快速发展,我们已置身于数据的海洋,而对于诸多复杂数据的辨别、分类也成为机器学习的主流任务之一。针对复杂数据含噪、冗余(高维)的特性,目前主流的分类算法例如神经网络,大多是不断堆叠隐含层的深度或者改变连接方式、激活函数等方式来强化学习特征的效果,尽管这样显著的提升了分类的准确度,但是其时效性受限于硬件设备、网络模型,其广泛性受限于训练数据集的大小,数据体量显著增长同时,其形态与内在关联正变得愈发复杂多样,许多现有以数据为驱动的机器学习模型已不再适用,亟需提出新的方法,以期增强学习模型自适应性,改善场景拓展能力。由于应用场景与采集设备差异,数据经常呈现出复杂外在形式。随机干扰在外界环境中普遍存在,通过给定采集装置获取的数据一定混杂有一定能量随机背景成分,这也是数据复杂性的一个直观体现。当信噪比较低时,数据中有价值信息淹没在噪声中,如果不采取相应处理措施,则由其训练生成学习模型的泛化能力将会显著降低,增加待测样本错判概率。
并且现实中所采集到数据,在原始空间往往表现十分稠密,能量分散、数据点间相互间耦合,存在信息层面冗余。传感测试设备普及与互联存储技术快速发展使得针对特定场景、任务描绘变得丰富起来,同时,观测数据不可避免具有更高维度,例如生物DNA序列、网站用户浏览记录和故障监测数据等。数据集中样本属性维数通常与分类模型假设空间(待定参数)数量呈现正相关关系,当样本数量超过其属性维度时,会导致在假设空间中寻找决策超平面难度上升,数据所具有的高维特质无疑对分类器性能提出了更高要求。
综上所述,现有技术存在的问题是,面对数据稠密的复杂性以及普遍存在的噪声特性,传统的分类模型无法很好的平衡时效性、广泛性以及准确度。因此,在实践中可以将高维性与冗余性作为复杂数据一个特性两个不同呈现方面同时加以考虑,进而设计不同的解决策略并加以融合应用。
发明内容
本申请提供了一种极限学习机与特征提取相结合的数据分类方法及系统,提出了将稀疏特征提取算法与重启式继承正则极限学习机进行融合设计并应用的方法,解决现有分类器面对含噪、冗余的复杂数据很难平衡时效性和准确性的问题。
为达到上述目的,本申请提供了以下方案:
一种极限学习机与特征提取相结合的数据分类方法,包括以下步骤:
S1.将给定数据集进行优化并划分为训练样本数据集和测试样本数据集;
S2.选择k个极限学习机基学习器,基于所述训练样本数据集,训练各个极限学习机基学习器;
S3.计算所述极限学习机基学习器和所述训练样本的判别度量;
S4.基于所述判别度量,构建自适应重启策略中的阈值函数,并基于所述测试样本数据集使用重启式集成正则极限学习机作为分类器,对所述给定数据集进行分类。
优选的,所述S1包括:
对于所述给定数据集,使用标准K-SVD模型定义优化目标,获得数据的字典矩阵
Figure BDA0003999005290000031
固定所述字典矩阵
Figure BDA0003999005290000032
对优化目标进行改写,使用CNNOMP算法求解稀疏系数矩阵,构建所述训练样本数据集以及所述测试样本数据集。
优选的,所述S2包括:
将MSEPRESS作为性能评判指标,训练得到k个所述极限学习机的基学习器;
基于所述性能评判指标,对k个所述极限学习机基学习器进行升序排列,并得到k个所述极限学习机基学习器的输出层权重Υ以及k个所述极限学习机基学习器的输出
Figure BDA0003999005290000033
优选的,所述S3包括:
计算各个基学习器以及不同样本的判别度量,公式如下:
Figure BDA0003999005290000034
其中,
Figure BDA0003999005290000035
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA0003999005290000036
中数值最大大的元素,
Figure BDA0003999005290000041
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA0003999005290000042
中数值第二大的元素;
基于给定一组输入{Tiffi}i=1,...,N,计算Beta分布的最大似然估计,并使用FA-KDE算法进行非参数估计。
优选的,所述S4包括:
使用
Figure BDA0003999005290000043
与/>
Figure BDA0003999005290000044
分别对应被正确分类和错误分类样本输出判别度量,其中,/>
Figure BDA0003999005290000045
计算生成的概率密度函数
Figure BDA0003999005290000046
并构建基学习器自适应重启策略中判别阈值函数,公式如下:
Figure BDA0003999005290000047
其中,
Figure BDA0003999005290000048
针对第k个所述极限学习机基学习器,设k是由均匀分布[0,1]生成的随机数,如果所述给定数据集Tiffk满足κ≤Tiffk,则完成本轮运算后跳出,否则激活第k+1个所述极限学习机基学习器;
将所述极限学习机基学习器用作分类器,对所述给定数据集进行分类。
本申请还提供了一种极限学习机与特征提取相结合的数据分类系统,包括:样本划分模块、训练模块、判别模块和运算模块;
所述样本划分模块用于将给定数据集进行优化并划分为训练样本数据集和测试样本数据集;
所述训练模块用于选择k个极限学习机基学习器,基于所述训练样本数据集,训练各个极限学习机基学习器;
所述判别模块用于计算所述极限学习机基学习器和所述训练样本的判别度量;
所述运算模块用于基于所述判别度量,构建自适应重启策略中的阈值函数,并基于所述测试样本数据集使用重启式集成正则极限学习机作为分类器,对所述给定数据集进行分类。
优选的,所述样本划分模块的工作流程包括:
对于所述给定数据集,使用标准K-SVD模型定义优化目标,获得数据的字典矩阵
Figure BDA0003999005290000051
固定所述字典矩阵
Figure BDA0003999005290000052
对优化目标进行改写,使用CNNOMP算法求解稀疏系数矩阵,构建所述训练样本数据集以及所述测试样本数据集。
优选的,所述训练模块的工作流程包括:
将MSEPRESS作为性能评判指标,训练得到k个所述极限学习机的基学习器;
基于所述性能评判指标,对k个所述极限学习机基学习器进行升序排列,并得到k个所述极限学习机基学习器的输出层权重Υ以及k个所述极限学习机基学习器的输出
Figure BDA0003999005290000053
优选的,所述判别模块的工作流程包括:
计算各个基学习器以及不同样本的判别度量,公式如下:
Figure BDA0003999005290000054
其中,
Figure BDA0003999005290000055
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA0003999005290000056
中数值最大大的元素,
Figure BDA0003999005290000061
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA0003999005290000062
中数值第二大的元素;
基于给定一组输入{Tiffi}i=1,...,N,计算Beta分布的最大似然估计,并使用FA-KDE算法进行非参数估计。
优选的,所述运算模块的工作流程包括:
使用
Figure BDA0003999005290000063
与/>
Figure BDA0003999005290000064
分别对应被正确分类和错误分类样本输出判别度量,其中,/>
Figure BDA0003999005290000065
计算生成的概率密度函数
Figure BDA0003999005290000066
并构建基学习器自适应重启策略中判别阈值函数,公式如下:
Figure BDA0003999005290000067
其中,
Figure BDA0003999005290000068
针对第k个所述极限学习机基学习器,设k是由均匀分布[0,1]生成的随机数,如果所述给定数据集Tiffk满足κ≤Tiffk,则完成本轮运算后跳出,否则激活第k+1个所述极限学习机基学习器;
将所述极限学习机基学习器用作分类器,对所述给定数据集进行分类。
本申请的有益效果为:
(1)本申请通过基于K-SVD与CNNOMP设计了相应稀疏特征提取算法,针对复杂数据冗余(高维)特性,通过分解、重构有效去除高维复杂性以及背景噪声,获取各样本数据稀疏特征表示向量,同时避免了标准K-SVD模型生成字典含义不明确的问题,完成冗余数据的去除,即“降维”处理。
(2)本申请通过使用极限学习机作为分类器,使得在保证精准度的前提下,相较于主流的深度学习算法有更好的时效性。
(3)本申请通过设置重启式正则极限学习机模型的重启策略,自主设计了自适应重启策略中判别阈值函数。通过训练,从物体显著特征出发,根据当前情形,判断是否给出结论,如果无法得到准确分类结果,则需要识别更多的特征,即重启使用额外的基学习器,得到更为准确的结果。这种重启式启用基学习器的方法使得该分类器在保证精准度的同时拥有极高的泛化性和时效性。
(4)本申请通过将重启式集成正则极限学习机与稀疏特征提取结合,首先通过稀疏特征提取将数据“降维”尽可能多的滤去冗余数据,避免对分类器造成额外的影响;之后应用重启式正则极限学习机作为分类器,可以保证针对不同的数据特征或者噪声数据选择使用不同的基模型,保证了分类的时效性、准确性,并满足数据广泛性的要求。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种极限学习机与特征提取相结合的数据分类方法流程示意图;
图2为本申请实施例一中的方法实现流程图;
图3为本申请实施例一中各电压等级下表示字典集;
图4为本申请实施例一中基于各电压等级表示字典集采集数据重构示意图;
图5为本申请实施例二中一种极限学习机与特征提取相结合的数据分类系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
在本实施例一中,如图1所示,一种极限学习机与特征提取相结合的数据分类方法,包括以下步骤:
S1.将给定数据集进行优化并划分为训练样本数据集和测试样本数据集;对于给定数据集,使用标准K-SVD模型定义优化目标,获得数据的字典矩阵
Figure BDA0003999005290000081
固定字典矩阵/>
Figure BDA0003999005290000082
对优化目标进行改写,使用CNNOMP算法求解稀疏系数矩阵,构建训练样本数据集以及测试样本数据集。
S2.选择k个极限学习机基学习器,基于训练样本数据集,训练各个极限学习机基学习器;将MSEPRESS作为性能评判指标,训练得到k个极限学习机的基学习器;基于性能评判指标,对k个极限学习机基学习器进行升序排列,并得到k个极限学习机基学习器的输出层权重Υ以及k个极限学习机基学习器的输出
Figure BDA0003999005290000091
S3.计算极限学习机基学习器和训练样本的判别度量;计算各个基学习器以及不同样本的判别度量,公式如下:
Figure BDA0003999005290000092
其中,
Figure BDA0003999005290000093
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA00039990052900000911
中数值最大大的元素,
Figure BDA0003999005290000094
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA00039990052900000912
中数值第二大的元素;基于给定一组输入{Tiffi}i=1,...,N,计算Beta分布的最大似然估计,并使用FA-KDE算法进行非参数估计。
S4.基于判别度量,构建自适应重启策略中的阈值函数,并基于测试样本数据集使用重启式集成正则极限学习机作为分类器,对给定数据集进行分类;使用
Figure BDA0003999005290000095
与/>
Figure BDA0003999005290000096
分别对应被正确分类和错误分类样本输出判别度量,其中,
Figure BDA0003999005290000097
计算生成的概率密度函数/>
Figure BDA0003999005290000098
并构建基学习器自适应重启策略中判别阈值函数,公式如下:
Figure BDA0003999005290000099
其中,
Figure BDA00039990052900000910
针对第k个所述极限学习机基学习器,设k是由均匀分布[0,1]生成的随机数,如果所述给定数据集Tiffk满足κ≤Tiffk,则完成本轮运算后跳出,否则激活第k+1个极限学习机基学习器,将极限学习机基学习器用作分类器,对给定数据集进行分类。
下面以某电力设备采集数据为应用对象,详细介绍本申请的实际方法流程:
如图2所示,将重启式集成正则极限学习机与稀疏特征相结合,提出了基于重启式集成正则极限学习机与稀疏特征分类模型一种具体实现形式,实验表明稀疏特征能有效区分各电压等级下的采集数据,所提模型具有良好泛化效果。
针对复杂数据冗余(高维)特性,以某电力设备采集数据数据为应用对象,基于K-SVD与CNNOMP设计了相应稀疏特征提取算法。在进行电压等级分类过程中,将采集数据定义为复杂数据的冗余量。定义在0kV电压下,采集装置所测得数据可视为检测系统中的背景噪声,先应用K-SVD模型获得
Figure BDA0003999005290000101
对应字典集/>
Figure BDA0003999005290000102
然后应用CNNOMP算法获取个电压等级下的训练样本所构成的数据矩阵/>
Figure BDA0003999005290000103
在字典集/>
Figure BDA0003999005290000104
上的分量,将其减去背景分量获得/>
Figure BDA0003999005290000105
如图3所示,最后在数据集/>
Figure BDA0003999005290000106
分别应用K-SVD分别获得/>
Figure BDA0003999005290000107
基于CNNOMP算法求取
Figure BDA0003999005290000108
在表征字典集/>
Figure BDA0003999005290000109
上稀疏系数特征,并依次重新构成新的样本数据/>
Figure BDA00039990052900001010
得到训练样本数据/>
Figure BDA00039990052900001011
如图4所示。该方法通过分解、重构有效去除检测系统中的噪声和冗余数据,获取各样本数据稀疏特征表示向量。
使用LOO(leave-one-out)交叉验证方法,使用MSEPRESS输出指标作为性能评判得到多个极限学习机的基学习器,MSEPRESS指标计算公式如下:
Figure BDA0003999005290000111
其中,yi
Figure BDA0003999005290000112
分别代表真实的结果以及极限学习机模型的输出,Θii为H(HTH)-1H矩阵对角线上的第i个元素。依照此方法选择{MSEPRESS}较小的k个极限学习机,并按照从小到大的顺序排列。根据稀疏特征提取获得的训练数据分别训练k个极限学习机。
对于测试数据来说,首先应用之前训练好的模型生成相应的数据,求解判别度量,公式如下:
Figure BDA0003999005290000113
其中,
Figure BDA0003999005290000114
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA00039990052900001111
中数值最大大的元素,
Figure BDA0003999005290000115
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA0003999005290000116
中数值第二大的元素,应用Beta参数估计以及使用KDE(Kernel Density Estimation)进行非参数估计。
使用
Figure BDA0003999005290000117
与/>
Figure BDA0003999005290000118
分别对应被正确分类和错误分类样本输出判别度量,其中,/>
Figure BDA0003999005290000119
计算生成的概率密度函数/>
Figure BDA00039990052900001110
并构建基学习器自适应重启策略中判别阈值函数,如下式所示:
Figure BDA0003999005290000121
Figure BDA0003999005290000122
由此出发,构造关于极限学习机基学习器自适应重启策略中判别阈值函数,表达式如下:
Figure BDA0003999005290000123
其中,
Figure BDA0003999005290000124
设置可调参数包括隐节点数目
Figure BDA0003999005290000125
激活函数g(·)、正则化参数γ=1/C、随机权重wj与偏置bj。为表达方便,定义/>
Figure BDA0003999005290000126
分别表示隐节点数目、激活函数与正则化参数备选集合。LOO(leave-one-out)交叉验证方法作为K则交叉验证的一种特殊形式,被广泛应用于极限学习机模型,为方便参数γ优化,本章采用MSEPRESS作为性能指标,其对应表达式为:
Figure BDA0003999005290000127
其中,yi
Figure BDA0003999005290000128
分别代表真实的结果以及极限学习机模型的输出,Θii为H(HTH)-1H矩阵对角线上的第i个元素。
在基学习器生成过程中,根据样本集规模Nr和特征维数d确定参数
Figure BDA0003999005290000129
与/>
Figure BDA00039990052900001210
中元素。进一步地,关于激活函数g(·),确定集合g(·)中可选元素包括:
(1)sigmoid函数:g(x)=1/(1+e-x)
(2)Sine函数:g(x)=sin(x)
(3)Hardlimit函数:
Figure BDA0003999005290000131
(4)Hyperbolic Hangent函数:g(x)=(ex-e-x)/(ex+e-x)
(5)Guass函数:g(x)=e-x
(6)Inverse Hyperbolic Sine函数:
Figure BDA0003999005290000132
(7)Morlet函数:
Figure BDA0003999005290000133
设k是由均匀分布[0,1]生成的随机数,针对第k个极限学习机基学习器,对于给定样本Tiffk满足κ≤Tiffk则完成本轮运算,否则激活第k+1个基学习器。
在本实施例一中,基学习器的工作原理为:
首先使用一些常用符号定义,使用
Figure BDA0003999005290000134
表示训练样集,/>
Figure BDA0003999005290000135
对应第i个样本,/>
Figure BDA0003999005290000136
为转换成向量形式的样本标记,Nr、d和m分别代表训练样本数、输入样本特征维数和类别数量;/>
Figure BDA0003999005290000137
为隐层节点数目;/>
Figure BDA0003999005290000138
表示隐层到输出层连接权重,在极限学习机中式待求变量。极限学习机隐层输出矩阵H和标签矩阵Y定义如下所示:
Figure BDA0003999005290000139
Figure BDA00039990052900001310
其中wj和bj分别表示从输入层到输出层链接权重和对应偏置,g(·)为对应激活函数。
在极限学习机中,wj和bj由定义在某段区间内概率分布随机产生,γ为输出层权重。极限学习机模型训练过程可等价于求解一下最优化问题:
Figure BDA0003999005290000141
进一步地,为防止训练阶段过拟合现象产生,可将正则参数引入式xx,
对应目标函数可改写为:
Figure BDA0003999005290000142
Figure BDA0003999005290000143
Figure BDA0003999005290000144
关于C可以做出如下解释:一方面可以被视为关于输出误差的惩罚常量,另一方面,也可以被视作减少经验风险而引入的正则参数。
根据最优化理论中拉格朗日乘子法,可以进一步改写为:
Figure BDA0003999005290000145
其中αij为引入的辅助变量。应用求导法则,可以获得优化条件:
Figure BDA0003999005290000151
多场景下实验表明相较于现有集成极限学习机方法,可以看出ER2-ELM能很好平衡泛化精度与预测时间。
实施例二
在本实施例二中,如图5所示,一种极限学习机与特征提取相结合的数据分类系统,包括:样本划分模块、训练模块、判别模块和运算模块。
样本划分模块用于将给定数据集进行优化并划分为训练样本数据集和测试样本数据集;样本划分模块的工作流程包括:对于给定数据集,使用标准K-SVD模型定义优化目标,获得数据的字典矩阵
Figure BDA0003999005290000152
固定字典矩阵/>
Figure BDA0003999005290000153
对优化目标进行改写,使用CNNOMP算法求解稀疏系数矩阵,构建训练样本数据集以及测试样本数据集。
训练模块用于选择k个极限学习机基学习器,基于训练样本数据集,训练各个极限学习机基学习器;训练模块的工作流程包括:将MSEPRESS作为性能评判指标,训练得到k个极限学习机的基学习器;基于性能评判指标,对k个极限学习机基学习器进行升序排列,并得到k个极限学习机基学习器的输出层权重Υ以及k个极限学习机基学习器的输出
Figure BDA0003999005290000154
判别模块用于计算极限学习机基学习器和训练样本的判别度量;判别模块的工作流程包括:计算各个基学习器以及不同样本的判别度量,公式如下:
Figure BDA0003999005290000161
其中,
Figure BDA0003999005290000162
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA0003999005290000163
中数值最大大的元素,
Figure BDA0003999005290000164
表示第k基学习器、第i样本实际输出向量与/>
Figure BDA0003999005290000165
中数值第二大的元素;基于给定一组输入{Tiffi}i=1,...,N,计算Beta分布的最大似然估计,并使用FA-KDE算法进行非参数估计。
运算模块用于基于判别度量,构建自适应重启策略中的阈值函数,并基于测试样本数据集使用重启式集成正则极限学习机作为分类器,对所述给定数据集进行分类。运算模块的工作流程包括:使用
Figure BDA0003999005290000166
与/>
Figure BDA0003999005290000167
分别对应被正确分类和错误分类样本输出判别度量,其中,/>
Figure BDA0003999005290000168
计算生成的概率密度函数
Figure BDA0003999005290000169
并构建基学习器自适应重启策略中判别阈值函数,公式如下:
Figure BDA00039990052900001610
其中,
Figure BDA00039990052900001611
针对第k个极限学习机基学习器,设k是由均匀分布[0,1]生成的随机数,如果给定数据集Tiffk满足κ≤Tiffk,则完成本轮运算后跳出,否则激活第k+1个极限学习机基学习器,将极限学习机基学习器用作分类器,对给定数据集进行分类。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (10)

1.一种极限学习机与特征提取相结合的数据分类方法,其特征在于,包括以下步骤:
S1.将给定数据集进行优化并划分为训练样本数据集和测试样本数据集;
S2.选择k个极限学习机基学习器,基于所述训练样本数据集,训练各个极限学习机基学习器;
S3.计算所述极限学习机基学习器和所述训练样本的判别度量;
S4.基于所述判别度量,构建自适应重启策略中的阈值函数,并基于所述测试样本数据集使用重启式集成正则极限学习机作为分类器,对所述给定数据集进行分类。
2.根据权利要求1所述一种极限学习机与特征提取相结合的数据分类方法,其特征在于,所述S1包括:
对于所述给定数据集,使用标准K-SVD模型定义优化目标,获得数据的字典矩阵
Figure FDA0003999005280000011
固定所述字典矩阵
Figure FDA0003999005280000012
对优化目标进行改写,使用CNNOMP算法求解稀疏系数矩阵,构建所述训练样本数据集以及所述测试样本数据集。
3.根据权利要求1所述一种极限学习机与特征提取相结合的数据分类方法,其特征在于,所述S2包括:
将MSEPRESS作为性能评判指标,训练得到k个所述极限学习机的基学习器;
基于所述性能评判指标,对k个所述极限学习机基学习器进行升序排列,并得到k个所述极限学习机基学习器的输出层权重Υ以及k个所述极限学习机基学习器的输出
Figure FDA0003999005280000021
4.根据权利要求1所述一种极限学习机与特征提取相结合的数据分类方法,其特征在于,所述S3包括:
计算各个基学习器以及不同样本的判别度量,公式如下:
Figure FDA0003999005280000022
其中,
Figure FDA0003999005280000023
表示第k基学习器、第i样本实际输出向量与/>
Figure FDA0003999005280000024
中数值最大大的元素,/>
Figure FDA0003999005280000025
表示第k基学习器、第i样本实际输出向量与/>
Figure FDA0003999005280000026
中数值第二大的元素;
基于给定一组输入{Tiffi}i=1,...,N,计算Beta分布的最大似然估计,并使用FA-KDE算法进行非参数估计。
5.根据权利要求1所述一种极限学习机与特征提取相结合的数据分类方法,其特征在于,所述S4包括:
使用
Figure FDA0003999005280000027
与/>
Figure FDA0003999005280000028
分别对应被正确分类和错误分类样本输出判别度量,其中,/>
Figure FDA0003999005280000029
计算生成的概率密度函数
Figure FDA00039990052800000210
并构建基学习器自适应重启策略中判别阈值函数,公式如下:
Figure FDA00039990052800000211
其中,
Figure FDA00039990052800000212
针对第k个所述极限学习机基学习器,设k是由均匀分布[0,1]生成的随机数,如果所述给定数据集Tiffk满足κ≤Tiffk,则完成本轮运算后跳出,否则激活第k+1个所述极限学习机基学习器;
将所述极限学习机基学习器用作分类器,对所述给定数据集进行分类。
6.一种极限学习机与特征提取相结合的数据分类系统,其特征在于,包括:样本划分模块、训练模块、判别模块和运算模块;
所述样本划分模块用于将给定数据集进行优化并划分为训练样本数据集和测试样本数据集;
所述训练模块用于选择k个极限学习机基学习器,基于所述训练样本数据集,训练各个极限学习机基学习器;
所述判别模块用于计算所述极限学习机基学习器和所述训练样本的判别度量;
所述运算模块用于基于所述判别度量,构建自适应重启策略中的阈值函数,并基于所述测试样本数据集使用重启式集成正则极限学习机作为分类器,对所述给定数据集进行分类。
7.根据权利要求6所述一种极限学习机与特征提取相结合的数据分类系统,其特征在于,所述样本划分模块的工作流程包括:
对于所述给定数据集,使用标准K-SVD模型定义优化目标,获得数据的字典矩阵
Figure FDA0003999005280000031
固定所述字典矩阵
Figure FDA0003999005280000032
对优化目标进行改写,使用CNNOMP算法求解稀疏系数矩阵,构建所述训练样本数据集以及所述测试样本数据集。
8.根据权利要求6所述一种极限学习机与特征提取相结合的数据分类系统,其特征在于,所述训练模块的工作流程包括:
将MSEPRESS作为性能评判指标,训练得到k个所述极限学习机的基学习器;
基于所述性能评判指标,对k个所述极限学习机基学习器进行升序排列,并得到k个所述极限学习机基学习器的输出层权重Υ以及k个所述极限学习机基学习器的输出
Figure FDA0003999005280000041
9.根据权利要求6所述一种极限学习机与特征提取相结合的数据分类系统,其特征在于,所述判别模块的工作流程包括:
计算各个基学习器以及不同样本的判别度量,公式如下:
Figure FDA0003999005280000042
其中,
Figure FDA0003999005280000043
表示第k基学习器、第i样本实际输出向量与/>
Figure FDA0003999005280000044
中数值最大大的元素,/>
Figure FDA0003999005280000045
表示第k基学习器、第i样本实际输出向量与/>
Figure FDA0003999005280000046
中数值第二大的元素;
基于给定一组输入{Tiffi}i=1,...,N,计算Beta分布的最大似然估计,并使用FA-KDE算法进行非参数估计。
10.根据权利要求6所述一种极限学习机与特征提取相结合的数据分类系统,其特征在于,所述运算模块的工作流程包括:
使用
Figure FDA0003999005280000047
与/>
Figure FDA0003999005280000048
分别对应被正确分类和错误分类样本输出判别度量,其中,/>
Figure FDA0003999005280000049
计算生成的概率密度函数
Figure FDA00039990052800000410
并构建基学习器自适应重启策略中判别阈值函数,公式如下:
Figure FDA0003999005280000051
其中,
Figure FDA0003999005280000052
针对第k个所述极限学习机基学习器,设k是由均匀分布[0,1]生成的随机数,如果所述给定数据集Tiffk满足κ≤Tiffk,则完成本轮运算后跳出,否则激活第k+1个所述极限学习机基学习器;
将所述极限学习机基学习器用作分类器,对所述给定数据集进行分类。
CN202211609662.XA 2022-12-14 2022-12-14 一种极限学习机与特征提取相结合的数据分类方法及系统 Pending CN116304853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211609662.XA CN116304853A (zh) 2022-12-14 2022-12-14 一种极限学习机与特征提取相结合的数据分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211609662.XA CN116304853A (zh) 2022-12-14 2022-12-14 一种极限学习机与特征提取相结合的数据分类方法及系统

Publications (1)

Publication Number Publication Date
CN116304853A true CN116304853A (zh) 2023-06-23

Family

ID=86785756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211609662.XA Pending CN116304853A (zh) 2022-12-14 2022-12-14 一种极限学习机与特征提取相结合的数据分类方法及系统

Country Status (1)

Country Link
CN (1) CN116304853A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116646078A (zh) * 2023-07-19 2023-08-25 中国人民解放军总医院 一种基于人工智能的心血管急危重症临床决策支持系统及设备
CN117057405A (zh) * 2023-08-22 2023-11-14 燕山大学 基于新型激励函数的dna分子学习机方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116646078A (zh) * 2023-07-19 2023-08-25 中国人民解放军总医院 一种基于人工智能的心血管急危重症临床决策支持系统及设备
CN116646078B (zh) * 2023-07-19 2023-11-24 中国人民解放军总医院 一种基于人工智能的心血管急危重症临床决策支持系统及设备
CN117057405A (zh) * 2023-08-22 2023-11-14 燕山大学 基于新型激励函数的dna分子学习机方法
CN117057405B (zh) * 2023-08-22 2024-04-12 燕山大学 基于新型激励函数的dna分子学习机方法

Similar Documents

Publication Publication Date Title
CN109408389B (zh) 一种基于深度学习的代码缺陷检测方法及装置
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN116304853A (zh) 一种极限学习机与特征提取相结合的数据分类方法及系统
Esmaeili et al. Fast-at: Fast automatic thumbnail generation using deep neural networks
CN110147732A (zh) 指静脉识别方法、装置、计算机设备及存储介质
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN112149705A (zh) 分类模型的训练方法、系统、计算机设备及存储介质
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN111027576A (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN111967535B (zh) 一种储粮管理场景温度传感器故障诊断方法及其诊断装置
CN113360701A (zh) 一种基于知识蒸馏的素描图处理方法及其系统
US11816565B2 (en) Semantic coherence analysis of deep neural networks
CN110705694A (zh) 基于特征提取的面向边缘数据中心的窃电监测方法
CN114609994A (zh) 基于多粒度正则化重平衡增量学习的故障诊断方法及装置
Du et al. Convolutional neural network-based data anomaly detection considering class imbalance with limited data
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
Cai et al. Aris: a noise insensitive data pre-processing scheme for data reduction using influence space
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
Agbo et al. Best Fit Missing Value Imputation (BFMVI) Algorithm for Incomplete Data in the Internet of Things.
CN113762151A (zh) 一种故障数据处理方法、系统及故障预测方法
CN117150402A (zh) 基于生成式对抗网络的电力数据异常检测方法及模型
Duan Automatic identification of conodont species using fine-grained convolutional neural networks
Yang et al. Adaptive density peak clustering for determinging cluster center
CN113254939A (zh) 基于多注意力机制和自适应学习的智能合约漏洞检测方法
CN111898579A (zh) 基于极限梯度提升的高分遥感影像无偏半监督分类模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination