CN110738243B - 一种自适应无监督特征选择方法 - Google Patents

一种自适应无监督特征选择方法 Download PDF

Info

Publication number
CN110738243B
CN110738243B CN201910925728.8A CN201910925728A CN110738243B CN 110738243 B CN110738243 B CN 110738243B CN 201910925728 A CN201910925728 A CN 201910925728A CN 110738243 B CN110738243 B CN 110738243B
Authority
CN
China
Prior art keywords
bogie
train
vector
axle temperature
orthogonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910925728.8A
Other languages
English (en)
Other versions
CN110738243A (zh
Inventor
谢国
王丹
钱富才
黑新宏
姬文江
费蓉
赵金伟
金永泽
陈庞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shengxia Intellectual Property Operation Co ltd
Hubei Central China Technology Development Of Electric Power Co ltd
Original Assignee
Hubei Central China Technology Development Of Electric Power Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Central China Technology Development Of Electric Power Co ltd filed Critical Hubei Central China Technology Development Of Electric Power Co ltd
Priority to CN201910925728.8A priority Critical patent/CN110738243B/zh
Publication of CN110738243A publication Critical patent/CN110738243A/zh
Application granted granted Critical
Publication of CN110738243B publication Critical patent/CN110738243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Control Of Metal Rolling (AREA)

Abstract

本发明公开了一种自适应无监督特征选择方法,具体按照以下步骤实施:首先对列车转向架的轴温数据进行采集,并记录其标签,对列车转向架的轴温数据进行标准化处理,以此消除量纲,降低奇异值对结果的影响然后将标准化后的列车转向架的轴温作为自适应特征选择的输入,通过施密特正交计算得到每个转向架轴温的正交向量;最后通过自适应的选择策略,选择合适的正交向量作为选择的列车轴温数据的有效特征,此有效特征用于对列车转向架轴温数据进行分类,检测列车的运行状态,保证列车平稳运行。本发明便于对无标签信息的数据进行特征选择,进而提高分类效率。

Description

一种自适应无监督特征选择方法
技术领域
本发明属于高维数据特征选择技术领域,具体涉及一种自适应无监督特征选择方法。
背景技术
随着信息技术的快速发展,各个领域产生了大量的高维数据,这些数据中存在着大量的不相关特征和冗余特征,导致了“维数灾难”等问题。研究表明,不相关特征和冗余特征会影响数据挖掘相关算法的性能,大多数数据挖掘算法的复杂度随着不相关特征的增加而呈指数增长,算法的计算效率随冗余特征的增加而下降,因此对特征选择方法提出了迫切的要求。特征选择的本质通过一个特定的评价标准对一个给定特征子集的优良性进行衡量,在数据处理中它能够去除数据中不相关和冗余特征,寻找出重要特征,提高机器学习和数据挖掘算法的运行效率和准确率。在现实生活中大多数据都是无标签数据,因此对无监督特征选择的方法更具有研究价值和实用性。本文是一种自适应无监督特征选择方法,该算法计算效率高,计算复杂度低,极大地提高了分类效果。
发明内容
本发明的目的是提供一种自适应无监督特征选择方法,便于对无标签信息的数据进行特征选择,进而提高分类效率。
本发明所采用的技术方案是,一种自适应无监督特征选择方法,具体按照以下步骤实施:
步骤1、对列车转向架的轴温数据进行采集,并记录其标签,对列车转向架的轴温数据进行标准化处理,以此消除量纲,降低奇异值对结果的影响;
步骤2、将步骤1标准化后的列车转向架的轴温作为自适应特征选择的输入,通过施密特正交计算得到每个转向架轴温的正交向量;
步骤3、通过自适应的选择策略,选择合适的正交向量作为选择的列车轴温数据的有效特征,此有效特征用于对列车转向架轴温数据进行分类,检测列车的运行状态,保证列车平稳运行。
本发明的特点还在于,
步骤1具体按照以下步骤实施:
步骤1.1、计算列车转向架轴温的平均值为其中,n表示样本总数,i表示第i个样本,i=1,2,…,n,j表示第j个转向架,j=1,2,…,d,d表示转向架总数,即特征总数;
步骤1.2、计算列车转向架轴温的方差为
步骤1.3、列车转向架轴温数据标准化的结果为
步骤2具体按照以下步骤实施:
步骤2.1、将列车转向架轴温作为特征向量,输入列车转向架轴温的特征为xt,t=1,2,...,d,d表示特征总数,即转向架总数,设初始选择出的列车转向架的特征子空间的维数为k=0,k表示所选择出的特征个数,选择初始目标矩阵B=[],B用于保存所选择的特征向量,初始列转向架轴温数据的最大模长为
当t=1时,列车第1个转向架轴温特征选择的详细步骤如下:
步骤2.1.1、计算列车第一个转向架轴温的模长为||x1||,并与当前最大模长进行比较,/>更新当前最大模长,令/>
步骤2.1.2、将列车第一个转向架轴温x1作为正交向量的基础,并令r1=x1,其中,r1表示列车第一个转向架轴温的正交向量;
步骤2.1.3、为了使最终求得的正交向量的组合是标准正交矩阵,因此,对求得的每个转向架轴温数据的正交向量进行单位化处理,列车第一个转向架轴温的单位化正交向量是其中,||r1||表示列车第一个转向架轴温的正交向量的模长,b1表示列车第一个转向架的标准正交向量;
步骤2.2、当t≥2时,列车第t个转向架轴温特征选择的详细步骤如下:
步骤2.2.1、计算当前输入的列车轴温数据的模长||xt||,并与当前最大的模长进行比较,若/>更新当前的最大模长,并令/>若/>保留当前最大模长/>其中,/>表示前t个转向架轴温数据中的最大模长;
步骤2.2.2、为了方便计算第t个转向架轴温的正交向量,即残差向量,令rt=xt,使用施密特正交的方法计算当前温度向量rt与基向量bi之间的正交向量,计算公式为其中,i取1到k,k表示所选择出的特征个数,rt表示第t个转向架轴温的正交向量,即与保留的前k个特征之间的残差,bi表示保留的第i个特征向量;
步骤2.2.3、对求解得到的正交向量进行单位化处理得到基向量bk+1,计算公式为其中,bk+1表示第k+1个特征向量。
步骤3具体按照以下步骤实施:
步骤3.1、计算第t个列车转向架轴温的正交向量(残差向量)rt与前t个列车转向架轴温中最大模长之间的压缩比率,并与阈值th进行比较,若/>将经过单位化处理的正交向量bk+1作为新的基底保留添加到选择的特征矩阵中,表达式为B=[B,bk+1],由于加入了新的基底,故选择出的特征维数增加,表达式为k=k+1;反之,若/>则重复步骤2.2以及步骤3.1;
步骤3.2、最终输出所选择的列车k个转向架轴温特征矩阵为B,B=[b1,b2,…,bk],b1,b2,…,bk表示所选择出的特征向量,k表示选择出的特征的个数。
步骤3.1中阈值th选择如下:阈值th为数据压缩比,即目标维数k与原始数据的维数d的比值,表明数据的压缩比率,用公式表示为
本发明的有益效果是,一种自适应无监督特征选择方法,对输入数据通过施密特正交和自适应阈值方式选择出数据的重要特征,去除冗余特征,且算法复杂度低,计算效率高,得到的结果具有可解释的物理意义。在自适应确定维数特征中,随着数据维数的增大,阈值不断增大,选择出特征的难度也在逐渐增大,最终会收敛于某个值,从而确定出特征维数。
附图说明
图1是本发明一种自适应无监督特征选择方法分类方法的总体流程图;
图2是本发明中步骤3.1中阈值th选择策略的图解;
图3是本发明支持向量机验证过程的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种自适应无监督特征选择方法,流程图如图1所示,具体按照以下步骤实施:
步骤1、对列车转向架的轴温数据进行采集,并记录其标签,对列车转向架的轴温数据进行标准化处理,以此消除量纲,降低奇异值对结果的影响,具体按照以下步骤实施:
步骤1.1、计算列车转向架轴温的平均值为其中,n表示样本总数,i表示第i个样本,i=1,2,…,n,j表示第j个转向架,j=1,2,…,d,d表示转向架总数,即特征总数;
步骤1.2、计算列车转向架轴温的方差为
步骤1.3、列车转向架轴温数据标准化的结果为
步骤2、将步骤1标准化后的列车转向架的轴温作为自适应特征选择的输入,通过施密特正交计算得到每个转向架轴温的正交向量,具体按照以下步骤实施:
步骤2.1、将列车转向架轴温作为特征向量,输入列车转向架轴温的特征为xt,t=1,2,...,d,d表示特征总数,即转向架总数,设初始选择出的列车转向架的特征子空间的维数为k=0,k表示所选择出的特征个数,选择初始目标矩阵B=[],B用于保存所选择的特征向量,初始列转向架轴温数据的最大模长为
当t=1时,列车第1个转向架轴温特征选择的详细步骤如下:
步骤2.1.1、计算列车第一个转向架轴温的模长为||x1||,并与当前最大模长进行比较,/>更新当前最大模长,令/>
步骤2.1.2、将列车第一个转向架轴温x1作为正交向量的基础,并令r1=x1,其中,r1表示列车第一个转向架轴温的正交向量;
步骤2.1.3、为了使最终求得的正交向量的组合是标准正交矩阵,因此,对求得的每个转向架轴温数据的正交向量进行单位化处理,列车第一个转向架轴温的单位化正交向量是其中,||r1||表示列车第一个转向架轴温的正交向量的模长,b1表示列车第一个转向架的标准正交向量;
步骤2.2、当t≥2时,列车第t个转向架轴温特征选择的详细步骤如下:
步骤2.2.1、计算当前输入的列车轴温数据的模长||xt||,并与当前最大的模长进行比较,若/>更新当前的最大模长,并令/>若/>保留当前最大模长/>其中,/>表示前t个转向架轴温数据中的最大模长;
步骤2.2.2、为了方便计算第t个转向架轴温的正交向量,即残差向量,令rt=xt,使用施密特正交的方法计算当前温度向量rt与基向量bi之间的正交向量,计算公式为其中,i取1到k,k表示所选择出的特征个数,rt表示第t个转向架轴温的正交向量,即与保留的前k个特征之间的残差,bi表示保留的第i个特征向量;
步骤2.2.3、对求解得到的正交向量进行单位化处理得到基向量bk+1,计算公式为其中,bk+1表示第k+1个特征向量。
步骤3、通过自适应的选择策略,选择合适的正交向量作为选择的列车轴温数据的有效特征,此有效特征用于对列车转向架轴温数据进行分类,检测列车的运行状态,保证列车平稳运行,具体按照以下步骤实施:
步骤3.1、计算第t个列车转向架轴温的正交向量(残差向量)rt与前t个列车转向架轴温中最大模长之间的压缩比率,并与阈值th进行比较,若/>将经过单位化处理的正交向量bk+1作为新的基底保留添加到选择的特征矩阵中,表达式为B=[B,bk+1],由于加入了新的基底,故选择出的特征维数增加,表达式为k=k+1;反之,若/>则重复步骤2.2以及步骤3.1;
步骤3.2、最终输出所选择的列车k个转向架轴温特征矩阵为B,B=[b1,b2,…,bk],b1,b2,…,bk表示所选择出的特征向量,k表示选择出的特征的个数。
步骤3.1中阈值th选择如图2所示,阈值th为数据压缩比,即目标维数k与原始数据的维数d的比值,表明数据的压缩比率,用公式表示为
本发明支持向量机验证过程的流程图如图3所示,具体步骤如下:
对步骤2得到的降维后的轴温特征矩阵B=[b1,b2,…,bk]∈Rn×k进行采样,选择其中的百分之八十作为训练集,将其输入到SVM模型中进行训练,剩余的百分之二十作为测试集,通过测试集的正确率来说明该算法的有效性。详细步骤如下:
步骤a、训练:输入轴温训练集以及训练集所对应的标签,并且确定核函数的类型,然后通过Lagrange乘子法求解,得到最优Lagrange乘子a*,其中,Lagrange的方程为约束条件为/>最后通过判别函数求解得到偏差b*。其中,xi表示列车转向架的轴温,i=1,2,…,n。yi表示所对应的标签,i=1,2,…,n。k(xi·xj)表示所选择的核函数。
步骤b、测试:将测试集输入到已经训练好的Lagrange乘子a*、偏差b*和核函数,即训练好的SVM模型,并输出样本类别。将输出的标签与真实的标签作对比,得到训练集的正确率。

Claims (2)

1.一种自适应无监督特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、对列车转向架的轴温数据进行采集,并记录其标签,对列车转向架的轴温数据进行标准化处理,以此消除量纲,降低奇异值对结果的影响;
所述步骤1具体按照以下步骤实施:
步骤1.1、计算列车转向架轴温的平均值为其中,n表示样本总数,i表示第i个样本,i=1,2,…,n,j表示第j个转向架,j=1,2,…,d,d表示转向架总数,即特征总数;
步骤1.2、计算列车转向架轴温的方差为
步骤1.3、列车转向架轴温数据标准化的结果为
步骤2、将步骤1标准化后的列车转向架的轴温作为自适应特征选择的输入,通过施密特正交计算得到每个转向架轴温的正交向量;
所述步骤2具体按照以下步骤实施:
步骤2.1、将列车转向架轴温作为特征向量,输入列车转向架轴温的特征为xt,t=1,2,...,d,d表示特征总数,即转向架总数,设初始选择出的列车转向架的特征子空间的维数为k=0,k表示所选择出的特征个数,选择初始目标矩阵B=[],B用于保存所选择的特征向量,初始列转向架轴温数据的最大模长为
当t=1时,列车第1个转向架轴温特征选择的详细步骤如下:
步骤2.1.1、计算列车第一个转向架轴温的模长为||x1||,并与当前最大模长进行比较,/>更新当前最大模长,令/>
步骤2.1.2、将列车第一个转向架轴温x1作为正交向量的基础,并令r1=x1,其中,r1表示列车第一个转向架轴温的正交向量;
步骤2.1.3、为了使最终求得的正交向量的组合是标准正交矩阵,因此,对求得的每个转向架轴温数据的正交向量进行单位化处理,列车第一个转向架轴温的单位化正交向量是其中,||r1||表示列车第一个转向架轴温的正交向量的模长,b1表示列车第一个转向架的标准正交向量;
步骤2.2、当t≥2时,列车第t个转向架轴温特征选择的详细步骤如下:
步骤2.2.1、计算当前输入的列车轴温数据的模长||xt||,并与当前最大的模长进行比较,若/>更新当前的最大模长,并令/>若/>保留当前最大模长其中,/>表示前t个转向架轴温数据中的最大模长;
步骤2.2.2、为了方便计算第t个转向架轴温的正交向量,即残差向量,令rt=xt,使用施密特正交的方法计算当前温度向量rt与基向量bi之间的正交向量,计算公式为其中,i取1到k,k表示所选择出的特征个数,rt表示第t个转向架轴温的正交向量,即与保留的前k个特征之间的残差,bi表示保留的第i个特征向量;
步骤2.2.3、对求解得到的正交向量进行单位化处理得到基向量bk+1,计算公式为其中,bk+1表示第k+1个特征向量;
步骤3、通过自适应的选择策略,选择合适的正交向量作为选择的列车轴温数据的有效特征,此有效特征用于对列车转向架轴温数据进行分类,检测列车的运行状态,保证列车平稳运行;
所述步骤3具体按照以下步骤实施:
步骤3.1、计算第t个列车转向架轴温的正交向量(残差向量)rt与前t个列车转向架轴温中最大模长之间的压缩比率,并与阈值th进行比较,若/>将经过单位化处理的正交向量bk+1作为新的基底保留添加到选择的特征矩阵中,表达式为B=[B,bk+1],由于加入了新的基底,故选择出的特征维数增加,表达式为k=k+1;反之,若/>则重复步骤2.2以及步骤3.1;
步骤3.2、最终输出所选择的列车k个转向架轴温特征矩阵为B,B=[b1,b2,…,bk],b1,b2,…,bk表示所选择出的特征向量,k表示选择出的特征的个数。
2.根据权利要求1所述的一种自适应无监督特征选择方法,其特征在于,所述步骤3.1中阈值th选择如下:阈值th为数据压缩比,即目标维数k与原始数据的维数d的比值,表明数据的压缩比率,用公式表示为
CN201910925728.8A 2019-09-27 2019-09-27 一种自适应无监督特征选择方法 Active CN110738243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910925728.8A CN110738243B (zh) 2019-09-27 2019-09-27 一种自适应无监督特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910925728.8A CN110738243B (zh) 2019-09-27 2019-09-27 一种自适应无监督特征选择方法

Publications (2)

Publication Number Publication Date
CN110738243A CN110738243A (zh) 2020-01-31
CN110738243B true CN110738243B (zh) 2023-09-26

Family

ID=69269690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910925728.8A Active CN110738243B (zh) 2019-09-27 2019-09-27 一种自适应无监督特征选择方法

Country Status (1)

Country Link
CN (1) CN110738243B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013184118A1 (en) * 2012-06-07 2013-12-12 Hewlett-Packard Development Company, L.P. Unsupervised learning of one dimensional signals
CN109324595A (zh) * 2018-09-19 2019-02-12 西安理工大学 一种基于增量pca的工业监测数据分类方法
CN109685093A (zh) * 2018-09-19 2019-04-26 合肥工业大学 无监督的自适应特征选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013184118A1 (en) * 2012-06-07 2013-12-12 Hewlett-Packard Development Company, L.P. Unsupervised learning of one dimensional signals
CN109324595A (zh) * 2018-09-19 2019-02-12 西安理工大学 一种基于增量pca的工业监测数据分类方法
CN109685093A (zh) * 2018-09-19 2019-04-26 合肥工业大学 无监督的自适应特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
康守强 ; 邹佳悦 ; 王玉静 ; 谢金宝 ; V.I.MIKULOVICH ; .基于无监督特征对齐的变负载下滚动轴承故障诊断方法.中国电机工程学报.(01),全文. *
杨俊川 ; 蒋同 ; 张国庆 ; .基于协同表示标签传播的半监督正交鉴别分析算法.聊城大学学报(自然科学版).2019,(03),全文. *

Also Published As

Publication number Publication date
CN110738243A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN111368920B (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN106934042A (zh) 一种知识图谱表示模型及其方法
Kuismin et al. Estimation of covariance and precision matrix, network structure, and a view toward systems biology
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN111353373A (zh) 一种相关对齐域适应故障诊断方法
CN110852446A (zh) 机器学习模型训练方法、装置和计算机可读存储介质
CN110940523A (zh) 一种无监督域适应故障诊断方法
Majeed Improving time complexity and accuracy of the machine learning algorithms through selection of highly weighted top k features from complex datasets
Shi et al. Resampling algorithms based on sample concatenation for imbalance learning
CN111027636A (zh) 基于多标签学习的无监督特征选择方法及系统
CN110705694A (zh) 基于特征提取的面向边缘数据中心的窃电监测方法
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN110210412B (zh) 一种基于深度学习和多示例学习的高光谱影像分类方法
CN110738243B (zh) 一种自适应无监督特征选择方法
CN116467451A (zh) 一种文本分类方法、装置、存储介质以及电子设备
CN114492569B (zh) 一种基于宽度学习系统的台风路径分类方法
Chapel et al. Anomaly detection with score functions based on the reconstruction error of the kernel PCA
CN115272688A (zh) 一种基于元特征的小样本学习图像分类方法
CN113128544B (zh) 训练人工智能模型的方法和装置
CN109359694B (zh) 一种基于混合协同表示的分类器的图像分类方法和装置
CN111738328B (zh) 一种联合mkfda和svm的高光谱遥感图像分类方法
Chu et al. Globality‐Locality Preserving Maximum Variance Extreme Learning Machine
Liu et al. Cost-sensitive collaborative representation based classification via probability estimation with addressing the class imbalance
Xu et al. Unsupervised Learning Part-Based Representation for Stocks Market Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230830

Address after: No. 546, Luoyu Road, Hongshan District, Wuhan, Hubei Province, 430000

Applicant after: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co.,Ltd.

Address before: 510000 room 101-2, building 2, No. 95, Daguan Middle Road, Tianhe District, Guangzhou City, Guangdong Province (office only)

Applicant before: Guangzhou shengxia Intellectual Property Operation Co.,Ltd.

Effective date of registration: 20230830

Address after: 510000 room 101-2, building 2, No. 95, Daguan Middle Road, Tianhe District, Guangzhou City, Guangdong Province (office only)

Applicant after: Guangzhou shengxia Intellectual Property Operation Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

GR01 Patent grant
GR01 Patent grant