CN108596224A - 基于半监督学习的孪生超限学习机分类的数据处理方法 - Google Patents
基于半监督学习的孪生超限学习机分类的数据处理方法 Download PDFInfo
- Publication number
- CN108596224A CN108596224A CN201810324030.6A CN201810324030A CN108596224A CN 108596224 A CN108596224 A CN 108596224A CN 201810324030 A CN201810324030 A CN 201810324030A CN 108596224 A CN108596224 A CN 108596224A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- indicate
- label
- hidden layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于半监督学习的孪生超限学习机分类的数据处理方法,属于数据挖掘与处理技术领域。本发明在基于随机特征映射机制的基础上采用两个非平行分类面进行分类的半监督学习算法,将流行正则化、随机特征映射和两个非平行分类面的技术组合起来,解决单分类面在交叉数据等问题上缺陷,并在有奇异点的情况下保证有较强的鲁棒性,同时克服了之前算法在少量有标签样本上无法同时满足泛化能力与计算效率要求的问题。本发明方法,可以在有标签数据较少的情况下,充分挖掘无标签数据所蕴含的信息,非常适用于在高铁、风机等新兴高技术领域的故障诊断中,计算速度快,基本上可做到实时判断,且分类的准确率高。
Description
技术领域
本发明涉及一种基于半监督学习的孪生超限学习机分类的数据处理方法,属于数据挖掘与处理技术领域。
背景技术
近年来随着信息采集技术和计算机存储技术提升,企业为达到信息化、智能化管理和运作的目标,在企业运行的各个阶段积累了大量的数据信息,例如高铁、风机运行中的状态信息、故障信息等,这些信息都可以作为机器学习的样本,其中有标注的称为有标签数据,而这些有标签数据采用机器学习算法进行学习,就可以发现故障现象与机器状态信息间的对应关系或相关规律,然而在整个高铁或风机系统的故障诊断中,有标签数据需要人工进行标注,不仅费时间且费钱,所以积累较少,并随着运行不断地产生海量的无标签数据,这些数据也蕴含着大量的有用信息,因此,研究基于少量的有标签数据和大量的无标签数据的机器学习算法具有非常重要的现实意义。基于半监督学习的孪生超限学习机分类的数据处理的目的就是学习有标签数据中的规律,并发现无标签数据中蕴含的有用信息,从而快速、准确地找出故障发生的原因,为智能化的故障诊断、快速检修提供基础。
以往研究主要集中于有标签数据的数据积累较多的领域,利用机器学习的方法学习规律或建立预测模型,根据这些规律或模型对新的数据进行分类判断。而在实际应用场景中,经常出现有标签数据积累较少的情况,如新兴行业和领域、新设备、新机器等,数据收集比较困难,或者收集成本很大,此时,我们既缺乏足够的有标签数据进行分析,也缺乏具有实际工作经验的工作人员,因此更加需要先进的基于少量有标签数据的机器学习方法,从无标签数据中挖掘出有效信息,来达到有标签数据量充足时的机器学习效果。
半监督学习(Semi-supervised learning,SSL)正是凭借其通过少量有标签数据挖掘大量有用信息的能力引起了学者们的关注。现在的有的比较流行的半监督学习方法如直推式支持向量机、联合训练、基于图的方法等。它假设有标签数据和无标签数据是根据同一个概率分布生成的,且所有的数据位于一个低维度的流形中。基于图的半监督学习方法是整个半监督学习方法中一个非常重要的研究领域。在这类方法中,图中的每个顶点都代表一个输入数据,边的权重则反映两个数据之间的相似程度。如果两个数据之间的权重比较大,两个数据的标签就比较相似,反之亦然。通过这种方式,图能反映所有数据之间的相似程度,有标签样本也利用这种方式传播它的信息。基于这种思路提出了许多算法,如半监督超限学习机、拉普拉斯支持向量机,拉普拉斯正则最小二乘等。然而这些算法均为单分类面算法,在对交叉数据分类时存在缺陷,也无法对奇异点进行有效分类。
发明内容
本发明的目的是提出一种基于半监督学习的孪生超限学习机分类的数据处理方法,一种在基于随机特征映射机制的基础上采用两个非平行分类面进行分类的半监督学习算法。该算法将流行正则化、随机特征映射和两个非平行分类面的技术组合起来,解决单分类面在交叉数据等问题上缺陷,并能在有奇异点的情况下保证有较强的鲁棒性,同时克服已有算法在少量有标签样本上无法同时满足泛化能力与计算效率要求的问题。
本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法,该方法包括以下步骤:
(1)对数据集合进行分解:
令xi表示数据集中的一个数据,i=1,2,…,n,n表示数据集中所包含数据的个数,设数据xi具有d个特征,则xi由一个1×d维的行向量表示,即xi=(xi1,xi2,…,xij,…,xid),xij表示数据xi的第j个特征,j=1,2,…,d;
将数据集中所有数据按照行向量的方式自上而下记入一个矩阵X中:
将数据集中的所有数据分成两个子集,即有标签数据子集和无标签数据子集,并分别记入矩阵Xl和Xu,其中:
Xl——表示有标签数据组成的矩阵,l表示有标签数据的个数;
Xu——表示无标签数据组成的矩阵,u表示无标签数据的个数;
将有标签数据集合分为两个子集,即标签为+1的数据集合和标签为+1的数据集合,并分别记入矩阵A和B,其中:
A——表示标签为+1的数据组成的矩阵,m1表示该类数据的个数;
B——表示标签为-1的数据组成的矩阵,m2表示该类数据的个数;
(2)对矩阵A和B中的数据,分别构建两个单隐含层前向反馈网络,对两类有标签数据进行学习,包括以下步骤:
(2-1)构建单隐含层前向反馈网络的结构:
设置单隐含层前向反馈网络的输入层节点数量为每个数据的特征个数,即输入层有d个输入节点,设单隐含层前向反馈网络的隐含层节点数量为nh,nh为任意正整数,设单隐含层前向反馈网络的输出层的节点为1,一个数据点xi在隐含层的输出用h(xi)表示;
(2-2)选择一个激活函数G(x),如Sigmoid函数
G(x)=1/(1+e-x),
其中:x是一个变量。
(2-3)构建一个拉普拉斯矩阵L:
设数据xi和xj为近邻关系,数据点xi为离数据xj最近的k个数据之一,或数据xj为离数据xi最近的k个数据之一,k的取值范围为[5,50];
采用高斯函数,计算两个数据xi和xj之间的权重Pij如下:
根据上述权重Pij,构建一个对角矩阵D,令对角矩阵D角上的元素为则拉普拉斯矩阵为L=D-P,其中矩阵P是pij元素的集合,σ为任意正整数,一般为数据的方差,在取值上根据数据集的不同而不同;
(2-4)根据上述函数G(x)的线性特性,构建单隐含层前向反馈网络的隐含层输出矩阵:
(2-4-1)当函数G(x)为线性函数时:
计算数据标签为+1的矩阵A中的隐含层的输出矩阵,矩阵A中包含m1个数据的特征,隐含层输出矩阵为以下的m1×d维矩阵U:
其中,k=1,…,nh,i=1,…,m1,表示数据xi在隐含层第k个节点上的输出,其中G(x)函数中
计算数据标签为-1的矩阵B中的隐含层的输出矩阵,矩阵B中包含m2个数据的特征,隐含层输出矩阵为以下的m2×d维矩阵V:
其中,k=1,…,nh,i=1,…,m2,表示数据xi在隐含层第k个节点上的输出;
其中:
wik——表示wik表示连接输入节点与隐含层节点之间的权重,该向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成;
bk——表示第k个隐含层节点的偏差,该偏差向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成;
(2-4-2)当上述当函数G(x)为非线性函数时:
当函数G(xi)为非线性函数时,定义一个孪生超限学习机核函数:
令是核矩阵,其中上标T表示矩阵或向量的转置;
当k=1,…,nh,i=1,…,m1时,计算矩阵A中的隐含层的输出矩阵,由于矩阵A中包含m1个数据的特征,所以隐含层输出矩阵为以下的m1×nh维矩阵:
R=KELM(A,XT)
当k=1,…,nh,i=1,…,m2时,计算矩阵B中的隐含层的输出矩阵,由于矩阵B中包含m2个数据的特征,所以隐含层输出矩阵为以下的m2×nh维矩阵:
S=KELM(B,XT)
(3)求解一个二次规划问题,得到拉格朗日乘子向量,具体步骤如下:
(3-1)建立一个二次规划问题的模型(P1):
(P1)满足0≤αi≤c,i=1,…,m
针对标签为+1的数据,求解步骤(1)中矩阵A的拉格朗日乘子α,其中c表示一个正的常数,根据需要设定取值范围为0至1010;
建立一个二次规划问题的模型(P2):
(P2)满足0≤λi≤c,i=1,…,m
针对标签为-1的数据,求解步骤(1)中矩阵B中的拉格朗日乘子λ,其中c表示一个正的常数,根据需要设定取值范围为0至1010;
(3-2)采用逐次超松弛迭代方法求解上述(3-1)的二次规划问题的模型(P1),求解过程如下:
(3-2-1)确定模型中的Q矩阵;
当函数G(x)为线性函数时,模型(P1)中的Q是m×m维矩阵,Q=V(UTU+c1FTLF+εI)- 1VT;模型(P2)中的Q是m×m维矩阵,Q=U(VTV+c1FTLF+εI)-1UT,其中:
U——表示当G(x)为线性函数时,矩阵A的隐含层输出,
V——表示当G(x)为线性函数时,矩阵B的隐含层输出,
F——表示矩阵X隐含层的输出矩阵,由矩阵U和V组合而成,是一个(l+u)×nh的二维矩阵,
L——表示步骤(2-3)中构建一个拉普拉斯矩阵,
T——表示矩阵或向量的转置,
ε——表示一个任意小的正标量,
I——表示相应维度的单位矩阵,
c1——表示一个正的常数,
当函数G(x)为非线性函数时,模型(P1)中的Q是m×m维矩阵,Q=S(RTR+c1KLK+εI)-1ST,模型(P2)中的Q是m×m维矩阵,Q=R(STS+c1KLK+εI)-1RT,其中:
R——表示当G(x)为非线性函数时,矩阵A的隐含层输出,
S——表示当G(x)为非线性函数时,矩阵B的隐含层输出,
K——表示超限学习机的核矩阵,
(3-2-2)以求解模型(P1)为例,设定初始值,t为区间(0,2)一个任意选择的实数,令α0为随机生成一个1×m维的实数向量;
(3-2-3)迭代更新,计算αi+1
αi+1=(αi-tE-1(Qαi-e+L(αi+1-αi)))
其中e为相应维度的单位向量,L是m×m维度的二维矩阵,是严格的下三角矩阵,其中lij=qij,i>j,E是m×m维度的二维矩阵,是对角矩阵,eij=qij,i=j,qij为Q的元素,
(3-2-4)计算||αi+1-αi||,若||αi+1-αi||的值小于规定的阈值或许可值,则输出α,若||αi+1-αi||的值大于或等于规定的阈值或许可值,则返回(3-2-3);
利用与上述(3-2-2)和步骤(3-2-3)的方法,求解上述模型(P2),得到拉格朗日乘子λ;
(4)计算+1类数据和-1类数据的两个分类面,用于对无标签数据进行分类:
利用矩阵Xl中的有标签数据xi,i=1,…,l,分别学习出+1类和-1类两个分类面:
(4-1)对于函数G(x)为线性函数的情况:
令β1=-(UTU+c1FTLF+εI)-1VTα,则+1类数据的分类面为:
h(xi)β1=-h(xi)(UTU+c1FTLF+εI)-1VTα=0;
令β2=-(VTV+c1FTLF+εI)-1UTλ,则-1类数据的分类面为:
h(xi)β2=-h(xi)(VTV+c1FTLF+εI)-1UTλ=0;
其中,ε表示任意小的正标量,I为相应维度的单位矩阵;
(4-2)对于函数G(x)为非线性函数的情况:
令μ1=-(RTR+c1KLK+εI)-1STα,则+1类数据的分类面为:
h(xi)μ1=-h(xi)(RTR+c1KLK+εI)-1STα=0;
令则-1类数据的分类面为:
(5)对数据集中的无标签数据进行分类:
根据矩阵Xu中的无标签数据xi与两个分类超平面的距离,计算得到无标签数据xi的分类:
当函数G(x)为线性函数时,计算f(xi)=argminr=1,2|h(xi)βr|
当函数G(x)为非线性函数时,计算f(xi)=argminr=1,2|h(xi)μr|
其中,f(xi)表示数据分类结果,为+1或-1;h(xi)表示数据xi经过隐含层的输出;|·|表示xi到分类面的垂直距离。
本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法,其优点是:
本发明方法采用随机特征映射机制,输入权重随机指定,对权重不需要进行反复迭代。本发明方法的模型中采用两个非平行分类面,不仅改善了分类性能,而且能够提高模型的鲁棒性。本发明方法的模型能充分挖掘无标签样本所蕴含的几何结构信息,并引入流形正则项。本发明方法允许有一个小的可接受的训练误差,能够改善过度拟合。本发明方法只需计算两个较小的二次规划问题,因此有较好的计算效率。本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法,可以在有标签数据较少的情况下,充分挖掘无标签数据所蕴含的信息,非常适用于在高铁、风机等新兴高技术领域的故障诊断中,计算速度快,基本上可做到实时判断,且分类的准确率高。
附图说明
图1是本发明方法中的待处理数据的分类与标签方法示意图。
图2是本发明方法中单隐含层前向反馈网络的示意图。
图3(a)是双直线数据集,图3(b)是双月亮数据集。
图4不同算法在有标签样本的数量变化下获得的分类准确率。
具体实施方式
本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法,用于在少量有标签数据中学习规律,并对大量无标签数据进行二分类处理,下面结合具体实例对方法进行说明,该方法包括以下步骤:
(1)对数据集合进行分解:
令xi表示数据集中的一个数据,i=1,2,…,n,n表示数据集中所包含数据的个数,设数据xi具有d个特征,则xi由一个1×d维的行向量表示,即xi=(xi1,xi2,…,xij,…,xid),xij表示数据xi的第j个特征,j=1,2,…,d;
将数据集中所有数据按照行向量的方式自上而下记入一个矩阵X中:
将数据集中的所有数据分成两个子集,即有标签数据子集和无标签数据子集,并分别记入矩阵Xl和Xu,其中:
Xl——表示有标签数据组成的矩阵,l表示有标签数据的个数;
Xu——表示无标签数据组成的矩阵,u表示无标签数据的个数;
将有标签数据集合分为两个子集,即标签为+1的数据集合和标签为+1的数据集合,并分别记入矩阵A和B,如图1所示,其中:
A——表示标签为+1的数据组成的矩阵,m1表示该类数据的个数;
B——表示标签为-1的数据组成的矩阵,m2表示该类数据的个数;
本发明中的数据分类方法的原理是通过对矩阵Xl中有标签的数据进行学习,计算产生+1类数据和-1类数据的两个分类面,然后计算每个无标签数据距这两个分类面的距离,距离哪个分类面较近,则该数据属于这个类别。步骤(2)、(3)、(4)说明了两个分类面的构建方法。
(2)对矩阵A和B中的数据,分别构建两个单隐含层前向反馈网络,如图2所示,对两类有标签数据进行学习,包括以下步骤:
(2-1)构建单隐含层前向反馈网络的结构:
设置单隐含层前向反馈网络的输入层节点数量为每个数据的特征个数,即输入层有d个输入节点,设单隐含层前向反馈网络的隐含层节点数量为nh,nh为任意正整数,设单隐含层前向反馈网络的输出层的节点为1,输出函数用h(xi)表示;
(2-2)选择一个激活函数G(x);
G(x)可以根据实际使用效果选择任意的无限可微的函数,如径向基函数、Sigmoid函数、Sine函数、Cosine函数和指数函数等,本发明中选择采用了径向基函数G(x)=exp(-‖x-μ‖2/2σ2),其中μ是数据的均值,σ是数据的方差,与Sigmoid函数G(x)=1/(1+e-x)
其中:
wik——表示连接输入节点与隐含层节点之间的权重,该向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成;
bk——表示第k个隐含层节点的偏差,该偏差向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成;
(2-3)构建一个拉普拉斯矩阵L:
设数据xi和xj为近邻关系,数据点xi为离数据xj最近的k个数据之一,或数据xj为离数据xi最近的k个数据之一,k的取值范围为[5,10];
采用高斯函数,计算两个数据xi和xj之间的权重Pij如下:
根据上述权重Pij,构建一个对角矩阵D,令对角矩阵D角上的元素为则拉普拉斯矩阵为L=D-P,其中矩阵P是pij元素的集合,σ为任意正整数;
(2-4)根据上述函数G(x)的线性特性,构建单隐含层前向反馈网络的隐含层输出矩阵:
(2-4-1)当函数G(x)为线性函数时:
计算数据标签为+1的矩阵A中的隐含层的输出矩阵,矩阵A中包含m1个数据的特征,隐含层输出矩阵为以下的m1×d维矩阵U:
其中,k=1,…,nh,i=1,…,m1,表示数据xi在隐含层第k个节点上的输出;
计算数据标签为-1的矩阵B中的隐含层的输出矩阵,矩阵B中包含m2个数据的特征,隐含层输出矩阵为以下的m2×d维矩阵V:
其中,k=1,…,nh,i=1,…,m2,表示数据xi在隐含层第k个节点上的输出;
(2-4-2)当上述当函数G(x)为非线性函数时:
当函数G(x)为非线性函数时,定义一个孪生超限学习机核函数:
令是核矩阵,其中上标T表示矩阵或向量的转置;
当k=1,…,nh,i=1,…,m1时,计算矩阵A中的隐含层的输出矩阵,由于矩阵A中包含m1个数据的特征,所以隐含层输出矩阵为以下的m1×nh维矩阵:
R=KELM(A,XT)
当k=1,…,nh,i=1,…,m2时,计算矩阵B中的隐含层的输出矩阵,由于矩阵B中包含m2个数据的特征,所以隐含层输出矩阵为以下的m2×nh维矩阵:
S=KELM(B,XT)
(3)求解一个二次规划问题,得到拉格朗日乘子向量,具体步骤如下:
(3-1)建立一个二次规划问题的模型(P1):
(P1)满足0≤αi≤c,i=1,…,m
针对标签为+1的数据,求解步骤(1)中矩阵A的拉格朗日乘子α,其中c表示一个正的常数,根据需要设定取值范围为0至1010;
建立一个二次规划问题的模型(P2):
(P2)满足0≤λi≤c,i=1,…,m
针对标签为-1的数据,求解步骤(1)中矩阵B中的拉格朗日乘子λ,其中c表示一个正的常数,根据需要设定取值范围为0至1010;
(3-2)采用逐次超松弛迭代(Successive Over Relaxation,SOR)方法求解上述(3-1)的二次规划问题的模型(P1),求解过程如下:
(3-2-1)确定模型中的Q矩阵;
当函数G(x)为线性函数时,模型(P1)中的Q是m×m维矩阵,Q=V(UTU+c1FTLF+εI)- 1VT;模型(P2)中的Q是m×m维矩阵,Q=U(VTV+c1FTLF+εI)-1UT,其中:
U——表示当G(x)为线性函数时,矩阵A的隐含层输出;
V——表示当G(x)为线性函数时,矩阵B的隐含层输出;
F——表示矩阵X隐含层的输出矩阵,由矩阵U和V组合而成,是一个(l+u)×nh的二维矩阵;
L——表示步骤(2-3)中构建一个拉普拉斯矩阵;
T——表示矩阵或向量的转置;
ε——表示一个任意小的正标量,(本例中的取值10-5);
I——表示相应维度的单位矩阵;
c1——表示一个正的常数(取值范围为0至1010);
当函数G(x)为非线性函数时,模型(P1)中的Q是m×m维矩阵,Q=S(RTR+c1KLK+εI)-1ST;模型(P2)中的Q是m×m维矩阵,Q=R(STS+c1KLK+εI)-1RT,其中:
R——表示当G(x)为非线性函数时,矩阵A的隐含层输出;
S——表示当G(x)为非线性函数时,矩阵B的隐含层输出;
k——表示超限学习机的核矩阵;
(3-2-2)以求解模型(P1)为例,设定初始值,t为区间(0,2)一个任意选择的实数,令α0为随机生成一个1×m维的实数向量;
(3-2-3)迭代更新,计算αi+1
αi+1=(αi-tE-1(Qαi-e+L(αi+1-αi)))
其中e为相应维度的单位向量,L是m×m维度的二维矩阵,是严格的下三角矩阵,其中lij=qij,i>j,E是m×m维度的二维矩阵,是对角矩阵,eij=qij,i=j,qij为Q的元素,
(3-2-4)计算||αi+1-αi||,若||αi+1-αi||的值小于规定的阈值或许可值,则输出α,若||αi+1-αi||的值大于或等于规定的阈值或许可值,则返回(3-2-3);
利用与上述(3-2-2)和步骤(3-2-3)的方法,求解上述模型(P2),得到拉格朗日乘子λ;
(4)计算+1类数据和-1类数据的两个分类面,用于对无标签数据进行分类:
利用矩阵Xl中的有标签数据xi,i=1,…,l,分别学习出+1类和-1类两个分类面:
(4-1)对于函数G(x)为线性函数的情况:
令β1=-(UTU+c1FTLF+εI)-1VTα,则+1类数据的分类面为:
h(xi)β1=-h(xi)(UTU+c1FTLF+εI)-1VTα=0;
令β2=-(VTV+c1FTLF+εI)-1UTλ,则-1类数据的分类面为:
h(xi)β2=-h(xi)(VTV+c1FTLF+εI)-1UTλ=0;
其中,ε表示任意小的正标量,I为相应维度的单位矩阵;
(4-2)对于函数G(x)为非线性函数的情况:
令μ1=-(RTR+c1KLK+εI)-1STα,则+1类数据的分类面为:
h(xi)μ1=-h(xi)(RTR+c1KLK+εI)-1STα=0;
令则-1类数据的分类面为:
(5)对数据集中的无标签数据进行分类:
根据矩阵Xu中的无标签数据xi与两个分类超平面的距离,计算得到无标签数据xi的分类:即距离哪个平面更近就归为哪一类。
当函数G(x)为线性函数时,计算f(xi)=argminr=1,2|h(xi)βr|
当函数G(x)为非线性函数时,计算f(xi)=argminr=1,2|h(xi)μr|
其中,f(xi)表示数据分类结果,为+1或-1;h(xi)表示数据xi经过隐含层的输出;|·|表示xi到分类面的垂直距离。
以下对本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法的性能分析如下:
(1)c1值大小的影响分析
首先构建两个人工数据集如图3,一个是如图3(a)所示的双直线数据集,一个是如图3(b)所示的双月亮数据集,每个数据集包括300个样本点,每类各150个样本,其中有标签的数据为2个,无标签的数据为148个。
表1展示了算法在两个人工数据集上采用不同的c1值下的分类准确率。从表中,可以看到随着c1值的增大,分类准确率是在逐步提高。从在双月亮数据集上获得的分类准确率的平均值,可以看到分类准确率提高了3.57%,在双直线数据集上提高了1.46%,也可以看出算法是可以挖掘无标签数据的结构信息来提高分类准确率。
表1算法在不同c1的值下的分类准确率
(2)比较不同的算法在标准数据集上的分类准确率:
与超限学习机(ELM)、孪生超限学习机(TELM)、半监督超限学习机(SSELM)、拉普拉斯正则最小二乘(LapRLS)、拉普拉斯支持向量机(LapSVM)这些算法进行了比较。这些算法获得的分类准确率如表2。在几个标准的半监督数据集上进行了实验,实验结果包括在无标签数据集、验证集和测试集上的结果。实验结果表明提出的数据处理方法(LapTELM)在4个数据集上获得了最好的结果。
表2算法在标准半监督数据集上的分类准确率
(3)比较了不同的算法在有标签数据变化情况下的分类准确率
表3显示了不同的算法在有标签数据变化情况下的分类准确率。实验采用的数据集是著名的手写阿拉伯数字的数据集USPS的一个子集。测试集、无标签数据集和验证集的大小分别为1600,2000和2000。实验结果表明,有标签数据增加时,算法的分类准确率在提高,但提高的幅度不大。
表3算法在不同数量的有标签样本上的分类准确率
在另外一个数据集上有标签样本从比较少变化到比较多的情况下,不同算法获得的分类准确率,如图4所示。实验结果表明提出的方法在有标签样本比较少的情况与其它算法比有较大的优势。
Claims (1)
1.一种基于半监督学习的孪生超限学习机分类的数据处理方法,其特征在于该方法包括以下步骤:
(1)对数据集合进行分解:
令xi表示数据集中的一个数据,i=1,2,…,n,n表示数据集中所包含数据的个数,设数据xi具有d个特征,则xi由一个1×d维的行向量表示,即xi=(xi1,xi2,…,xij,…,xid),xij表示数据xi的第j个特征,j=1,2,…,d;
将数据集中所有数据按照行向量的方式自上而下记入一个矩阵X中:
将数据集中的所有数据分成两个子集,即有标签数据子集和无标签数据子集,并分别记入矩阵Xl和Xu,其中:
Xl——表示有标签数据组成的矩阵,l表示有标签数据的个数;
Xu——表示无标签数据组成的矩阵,u表示无标签数据的个数;
将有标签数据集合分为两个子集,即标签为+1的数据集合和标签为+1的数据集合,并分别记入矩阵A和B,其中:
A——表示标签为+1的数据组成的矩阵,m1表示该类数据的个数;
B——表示标签为-1的数据组成的矩阵,m2表示该类数据的个数;
(2)对矩阵A和B中的数据,分别构建两个单隐含层前向反馈网络,对两类有标签数据进行学习,包括以下步骤:
(2-1)构建单隐含层前向反馈网络的结构:
设置单隐含层前向反馈网络的输入层节点数量为每个数据的特征个数,即输入层有d个输入节点,设单隐含层前向反馈网络的隐含层节点数量为nh,nh为任意正整数,设单隐含层前向反馈网络的输出层的节点为1,输出函数用h(xi)表示;
(2-2)选择一个激活函数G(x),如Sigmoid函数
G(x)=1/(1+e-x),
(2-3)构建一个拉普拉斯矩阵L:
设数据xi和xj为近邻关系,数据点xi为离数据xj最近的k个数据之一,或数据xj为离数据xi最近的k个数据之一,k的取值范围为[5,10];
采用高斯函数,计算两个数据xi和xj之间的权重Pij如下:
根据上述权重Pij,构建一个对角矩阵D,令对角矩阵D角上的元素为则拉普拉斯矩阵为L=D-P,其中矩阵P是pij元素的集合,σ为任意正整数;
(2-4)根据上述函数G(x)的线性特性,构建单隐含层前向反馈网络的隐含层输出矩阵:
(2-4-1)当函数G(x)为线性函数时:
计算数据标签为+1的矩阵A中的隐含层的输出矩阵,矩阵A中包含m1个数据的特征,隐含层输出矩阵为以下的m1×d维矩阵U:
其中,k=1,…,nh,i=1,…,m1,表示数据xi在隐含层第k个节点上的输出;
wik——表示连接输入节点与隐含层节点之间的权重,该向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成;
bk——表示第k个隐含层节点的偏差,该偏差向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成;
计算数据标签为-1的矩阵B中的隐含层的输出矩阵,矩阵B中包含m2个数据的特征,隐含层输出矩阵为以下的m2×d维矩阵V:
其中,k=1,…,nh,i=1,…,m2,表示数据xi在隐含层第k个节点上的输出;
(2-4-2)当上述当函数G(x)为非线性函数时:
当函数G(x)为非线性函数时,定义一个孪生超限学习机核函数:
令是核矩阵,其中上标T表示矩阵或向量的转置;
当k=1,…,nh,i=1,…,m1时,计算矩阵A中的隐含层的输出矩阵,由于矩阵A中包含m1个数据的特征,所以隐含层输出矩阵为以下的m1×nh维矩阵:
R=KELM(A,XT)
当k=1,…,nh,i=1,…,m2时,计算矩阵B中的隐含层的输出矩阵,由于矩阵B中包含m2个数据的特征,所以隐含层输出矩阵为以下的m2×nh维矩阵:
S=KELM(B,XT)
(3)求解一个二次规划问题,得到拉格朗日乘子向量,具体步骤如下:
(3-1)建立一个二次规划问题的模型(P1):
(P1)满足0≤αi≤c,i=1,…,m
针对标签为+1的数据,求解步骤(1)中矩阵A的拉格朗日乘子α,其中c表示一个正的常数,根据需要设定取值范围为0至1010;
建立一个二次规划问题的模型(P2):
(P2)满足0≤λi≤c,i=1,…,m
针对标签为-1的数据,求解步骤(1)中矩阵B中的拉格朗日乘子λ,其中c表示一个正的常数,根据需要设定取值范围为0至1010;
(3-2)采用逐次超松弛迭代方法求解上述(3-1)的二次规划问题的模型(P1),求解过程如下:
(3-2-1)确定模型中的Q矩阵;
当函数G(x)为线性函数时,模型(P1)中的Q是m×m维矩阵,Q=V(UTU+c1FTLF+εI)-1VT;模型(P2)中的Q是m×m维矩阵,Q=U(VTV+c1FTLF+εI)-1UT,其中:
U——表示当G(x)为线性函数时,矩阵A的隐含层输出,
V——表示当G(x)为线性函数时,矩阵B的隐含层输出,
F——表示矩阵X隐含层的输出矩阵,由矩阵U和V组合而成,是一个(l+u)×nh的二维矩阵,
L——表示步骤(2-3)中构建一个拉普拉斯矩阵,
T——表示矩阵或向量的转置,
ε——表示一个任意小的正标量,
I——表示相应维度的单位矩阵,
c1——表示一个正的常数,
当函数G(x)为非线性函数时,模型(P1)中的Q是m×m维矩阵,Q=S(RTR+c1KLK+εI)-1ST,模型(P2)中的Q是m×m维矩阵,Q=R(STS+c1KLK+εI)-1RT,其中:
R——表示当G(x)为非线性函数时,矩阵A的隐含层输出,
S——表示当G(x)为非线性函数时,矩阵B的隐含层输出,
K——表示超限学习机的核矩阵,
(3-2-2)以求解模型(P1)为例,设定初始值,t为区间(0,2)一个任意选择的实数,令α0为随机生成一个1×m维的实数向量;
(3-2-3)迭代更新,计算αi+1
αi+1=(αi-tE-1(Qαi-e+L(αi+1-αi)))
其中e为相应维度的单位向量,L是m×m维度的二维矩阵,是严格的下三角矩阵,其中lij=qij,i>j,E是m×m维度的二维矩阵,是对角矩阵,eij=qij,i=j,qij为Q的元素,
(3-2-4)计算||αi+1-αi||,若||αi+1-αi||的值小于规定的阈值或许可值,则输出α,若||αi+1-αi||的值大于或等于规定的阈值或许可值,则返回(3-2-3);
利用与上述(3-2-2)和步骤(3-2-3)的方法,求解上述模型(P2),得到拉格朗日乘子λ;
(4)计算+1类数据和-1类数据的两个分类面,用于对无标签数据进行分类:
利用矩阵Xl中的有标签数据xi,i=1,…,l,分别学习出+1类和-1类两个分类面:
(4-1)对于函数G(x)为线性函数的情况:
令β1=-(UTU+c1FTLF+εI)-1VTα,则+1类数据的分类面为:
h(xi)β1=-h(xi)(UTU+c1FTLF+εI)-1VTα=0;
令β2=-(VTV+c1FTLF+εI)-1UTλ,则-1类数据的分类面为:
h(xi)β2=-h(xi)(VTV+c1FTLF+εI)-1UTλ=0;
其中,ε表示任意小的正标量,I为相应维度的单位矩阵;
(4-2)对于函数G(x)为非线性函数的情况:
令μ1=-(RTR+c1KLK+εI)-1STα,则+1类数据的分类面为:
h(xi)μ1=-h(xi)(RTR+c1KLK+εI)-1STα=0;
令则-1类数据的分类面为:
(5)对数据集中的无标签数据进行分类:
根据矩阵Xu中的无标签数据xi与两个分类超平面的距离,计算得到无标签数据xi的分类:
当函数G(x)为线性函数时,计算f(xi)=argminr=1,2|h(xi)βr|
当函数G(x)为非线性函数时,计算f(xi)=argminr=1,2|h(xi)μr|
其中,f(xi)表示数据分类结果,为+1或-1;h(xi)表示数据xi经过隐含层的输出;|·|表示xi到分类面的垂直距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324030.6A CN108596224A (zh) | 2018-04-12 | 2018-04-12 | 基于半监督学习的孪生超限学习机分类的数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324030.6A CN108596224A (zh) | 2018-04-12 | 2018-04-12 | 基于半监督学习的孪生超限学习机分类的数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108596224A true CN108596224A (zh) | 2018-09-28 |
Family
ID=63621965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810324030.6A Pending CN108596224A (zh) | 2018-04-12 | 2018-04-12 | 基于半监督学习的孪生超限学习机分类的数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596224A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196886A (zh) * | 2019-04-19 | 2019-09-03 | 安徽大学 | 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台 |
CN110825861A (zh) * | 2019-11-05 | 2020-02-21 | 重庆邮电大学 | 一种基于分布式表示模型困惑度的人机对话方法与系统 |
CN112101263A (zh) * | 2020-09-22 | 2020-12-18 | 中国科学技术大学 | 一种主动学习样本选取方法、系统及计算机可读存储介质 |
CN113256592A (zh) * | 2021-06-07 | 2021-08-13 | 中国人民解放军总医院 | 图像特征提取模型的训练方法、系统及装置 |
-
2018
- 2018-04-12 CN CN201810324030.6A patent/CN108596224A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196886A (zh) * | 2019-04-19 | 2019-09-03 | 安徽大学 | 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台 |
CN110825861A (zh) * | 2019-11-05 | 2020-02-21 | 重庆邮电大学 | 一种基于分布式表示模型困惑度的人机对话方法与系统 |
CN110825861B (zh) * | 2019-11-05 | 2022-05-03 | 重庆邮电大学 | 一种基于分布式表示模型困惑度的人机对话方法与系统 |
CN112101263A (zh) * | 2020-09-22 | 2020-12-18 | 中国科学技术大学 | 一种主动学习样本选取方法、系统及计算机可读存储介质 |
CN112101263B (zh) * | 2020-09-22 | 2022-09-06 | 中国科学技术大学 | 一种主动学习样本选取方法、系统及计算机可读存储介质 |
CN113256592A (zh) * | 2021-06-07 | 2021-08-13 | 中国人民解放军总医院 | 图像特征提取模型的训练方法、系统及装置 |
CN113256592B (zh) * | 2021-06-07 | 2021-10-08 | 中国人民解放军总医院 | 图像特征提取模型的训练方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876780B (zh) | 一种复杂背景下桥梁裂缝图像裂缝检测方法 | |
CN108596224A (zh) | 基于半监督学习的孪生超限学习机分类的数据处理方法 | |
CN104598813B (zh) | 一种基于集成学习和半监督svm的计算机入侵检测方法 | |
Li et al. | Sewer pipe defect detection via deep learning with local and global feature fusion | |
CN107846392A (zh) | 一种基于改进协同训练‑adbn的入侵检测算法 | |
CN102129568B (zh) | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 | |
CN109034035A (zh) | 基于显著性检测和特征融合的行人重识别方法 | |
CN109766992A (zh) | 基于深度学习的工控异常检测及攻击分类方法 | |
CN106055573A (zh) | 一种多示例学习框架下的鞋印图像检索方法及系统 | |
Liu et al. | Fabric defects detection based on SSD | |
Zhang et al. | A unified light framework for real-time fault detection of freight train images | |
CN105574489A (zh) | 基于层次级联的暴力群体行为检测方法 | |
CN105261148A (zh) | 一种基于天网监控系统的踩踏事件预警疏散方法 | |
CN110334602A (zh) | 一种基于卷积神经网络的人流量统计方法 | |
Du et al. | DCGAN based data generation for process monitoring | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及系统 | |
Naftali et al. | Comparison of object detection algorithms for street-level objects | |
Yin et al. | Automated classification of piping components from 3D LiDAR point clouds using SE-PseudoGrid | |
Luo et al. | Mvp-net: multiple view pointwise semantic segmentation of large-scale point clouds | |
Li et al. | Anomaly detection using sparse reconstruction in crowded scenes | |
Prasetiyo et al. | Differential augmentation data for vehicle classification using convolutional neural network | |
Cui et al. | Deep learning-based condition assessment for bridge elastomeric bearings | |
CN104200220A (zh) | 一种基于静态纹理模型聚集的动态纹理识别方法 | |
Li et al. | Multi-hierarchical spatial-temporal graph convolutional networks for traffic flow forecasting | |
Li et al. | Graph Classification Model Based on Graph Neural Networks and Graph Distance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180928 |
|
WD01 | Invention patent application deemed withdrawn after publication |