CN112464154B - 一种基于无监督学习的自动筛选有效特征的方法 - Google Patents

一种基于无监督学习的自动筛选有效特征的方法 Download PDF

Info

Publication number
CN112464154B
CN112464154B CN202011353569.8A CN202011353569A CN112464154B CN 112464154 B CN112464154 B CN 112464154B CN 202011353569 A CN202011353569 A CN 202011353569A CN 112464154 B CN112464154 B CN 112464154B
Authority
CN
China
Prior art keywords
data set
feature
features
dimension reduction
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011353569.8A
Other languages
English (en)
Other versions
CN112464154A (zh
Inventor
章艺
王强
符栋梁
俞炅旻
周璞
马佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
704th Research Institute of CSIC
Original Assignee
704th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 704th Research Institute of CSIC filed Critical 704th Research Institute of CSIC
Priority to CN202011353569.8A priority Critical patent/CN112464154B/zh
Publication of CN112464154A publication Critical patent/CN112464154A/zh
Application granted granted Critical
Publication of CN112464154B publication Critical patent/CN112464154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于无监督学习的自动筛选有效特征的方法,包括数据集构建;设定阈值ε,对数据集进行PCA降维,选择尽可能小的主成分数量K;依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,自动筛选数据集的有效特征。本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。

Description

一种基于无监督学习的自动筛选有效特征的方法
技术领域
本发明涉及一种基于无监督学习的自动筛选有效特征的方法,属于人工智能、数据清洗、数据降维领域。
背景技术
在诸多业务场景中,都存在着工程师根据大量的特征数据进行结果分析和判断的过程,而对于缺乏经验的工程师来说,他们无法判断哪些特征是有用的,哪些是可以忽略的。例如在故障分析中,工程师利用频域的幅值分析机器是否运转异常时,都是根据基频、倍频等频率的幅值是否异常来判断机器是否故障。因此,如何快速为工程师提供精确、有效、直接的特征,对于人工进行数据分析的效率和准确率起到了重要的作用。
当工程师面对大量的特征数据时,一般先采用PCA算法对数据进行降维,再对数据进行分析。然而PCA的降维过程是由维度多的原数据特征生成维度少的新数据特征。由于新数据特征对工程师来说无实际物理意义,这给工程师根据特征进行数据分析的方式造成了很大的困难。
发明内容
本发明要解决的技术问题是:提供一种基于无监督学习的自动筛选有效特征的方法,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
为了解决上述问题,本发明的技术方案是提供了一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。
优选地,所述PCA降维过程具体包括:
步骤S1、均值归一化,计算出待降维的数据集中所有特征Xj的均值μj,j=1,2,…,n;归一化后的矩阵值
步骤S2、计算协方差矩阵∑,
步骤S3、计算协方差矩阵∑的特征值Sii和特征向量Ui,由特征向量Ui构成特征向量矩阵U,通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量;在降维压缩后,通过公式近似地还原原有特征。
优选地,通过公式确定阈值ε和主成分数量K,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
与现有技术相比,本发明的有益效果是:
本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
附图说明
图1为一种基于无监督学习的自动筛选有效特征的方法流程图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
如图1所示,本发明一种基于无监督学习的自动筛选有效特征的方法包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
由于PCA降维算法并非本发明的创新内容,因此不再赘述,本发明仅列出相关步骤,具体推导过程请参考PCA实现原理。
I)均值归一化。为了统一每个特征取值在数量级上的差异,需计算出数据集X中所有特征的均值μj(j=1,2,…,n),归一化后的矩阵值
II)计算协方差矩阵∑,
III)计算协方差矩阵∑的特征值Sii和特征向量Ui。由特征向量Ui构成特征向量矩阵U。可通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量。同样地,在降维压缩后,可通过公式近似地还原原有特征。
在进行PCA降维的过程中,使得平均均方误差与数据集的方差比例尽可能小的情况下,选择尽可能小的主成分数量,即K值。设定阈值ε(以1%为例,意味着原数据集中偏差有99%被保留下来),由于数据样本长度不完全相同,因此需要对小于设定样本长度的样本进行填充处理,通过设置空标记来实现。
数据集可降维的充要条件是数据集中各个特征之间存在某种数据相关性。由此,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。且这些特征保留了原数据集的表示含义,有利于将其作为工程师进行数据分析判断的依据。

Claims (1)

1.一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行下一个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征;
所述PCA降维过程具体包括:
步骤S1、均值归一化,计算出待降维的数据集中所有特征Xj的均值μj,j=1,2,…,n;归一化后的矩阵值
步骤S2、计算协方差矩阵∑,
步骤S3、计算协方差矩阵∑的特征值Sjj和特征向量Uj,由特征向量Uj构成特征向量矩阵U,通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量;在降维压缩后,通过公式近似地还原原有特征;
通过公式确定阈值ε和主成分数量K,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
CN202011353569.8A 2020-11-27 2020-11-27 一种基于无监督学习的自动筛选有效特征的方法 Active CN112464154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011353569.8A CN112464154B (zh) 2020-11-27 2020-11-27 一种基于无监督学习的自动筛选有效特征的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011353569.8A CN112464154B (zh) 2020-11-27 2020-11-27 一种基于无监督学习的自动筛选有效特征的方法

Publications (2)

Publication Number Publication Date
CN112464154A CN112464154A (zh) 2021-03-09
CN112464154B true CN112464154B (zh) 2024-03-01

Family

ID=74808927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011353569.8A Active CN112464154B (zh) 2020-11-27 2020-11-27 一种基于无监督学习的自动筛选有效特征的方法

Country Status (1)

Country Link
CN (1) CN112464154B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553630B (zh) * 2021-06-15 2023-06-23 西安电子科技大学 基于无监督学习的硬件木马检测系统和信息数据处理方法
CN113903059B (zh) * 2021-12-13 2022-04-15 中汽信息科技(天津)有限公司 人体模型建立方法、设备和存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100001177A (ko) * 2008-06-26 2010-01-06 주식회사 비츠로시스 주성분 분석을 이용한 유전자 선택 알고리즘
CN104899358A (zh) * 2015-05-13 2015-09-09 山东科技大学 奥灰岩溶裂隙水网络横向分布的预测方法
CN106056149A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能无监督学习主成分分析方法建立不同车型分工况远程定损系统及方法
US9516039B1 (en) * 2013-11-12 2016-12-06 EMC IP Holding Company LLC Behavioral detection of suspicious host activities in an enterprise
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN107358006A (zh) * 2017-07-25 2017-11-17 华北电力大学(保定) 一种基于主成分分析的Lorenz扰动风速预测方法
CN109344517A (zh) * 2018-10-14 2019-02-15 毛述春 一种新能源汽车的高压绝缘故障诊断方法
CN109933539A (zh) * 2019-04-15 2019-06-25 燕山大学 一种基于主成分分析和组合采样的软件缺陷预测方法
CN110334546A (zh) * 2019-07-08 2019-10-15 辽宁工业大学 基于主成分分析优化的差分隐私高维数据发布保护方法
CN110516818A (zh) * 2019-05-13 2019-11-29 南京江行联加智能科技有限公司 一种基于集成学习技术的高维度数据预测方法
CN110647911A (zh) * 2019-08-13 2020-01-03 南京航空航天大学 一种基于主成分分析和深度信念网络的轴承故障诊断方法
CN110825068A (zh) * 2019-09-29 2020-02-21 惠州蓄能发电有限公司 一种基于pca-cnn的工业控制系统异常检测方法
CN111709181A (zh) * 2020-05-06 2020-09-25 东华大学 基于主成分分析的涤纶长丝工业生产流程故障预测方法
KR20200125031A (ko) * 2019-04-25 2020-11-04 한국전자통신연구원 데이터 차원 축소 방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0437702B1 (en) * 1989-11-21 1998-08-12 Fujitsu Limited Semiconductor integrated circuit of compound semiconductor devices comprising isolation regions and method of making the same
US10254641B2 (en) * 2016-12-01 2019-04-09 Lam Research Corporation Layout pattern proximity correction through fast edge placement error prediction
US11574702B2 (en) * 2017-12-20 2023-02-07 George Mason University Mining all atom simulations for diagnosing and treating disease

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100001177A (ko) * 2008-06-26 2010-01-06 주식회사 비츠로시스 주성분 분석을 이용한 유전자 선택 알고리즘
US9516039B1 (en) * 2013-11-12 2016-12-06 EMC IP Holding Company LLC Behavioral detection of suspicious host activities in an enterprise
CN104899358A (zh) * 2015-05-13 2015-09-09 山东科技大学 奥灰岩溶裂隙水网络横向分布的预测方法
CN106056149A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能无监督学习主成分分析方法建立不同车型分工况远程定损系统及方法
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN107358006A (zh) * 2017-07-25 2017-11-17 华北电力大学(保定) 一种基于主成分分析的Lorenz扰动风速预测方法
CN109344517A (zh) * 2018-10-14 2019-02-15 毛述春 一种新能源汽车的高压绝缘故障诊断方法
CN109933539A (zh) * 2019-04-15 2019-06-25 燕山大学 一种基于主成分分析和组合采样的软件缺陷预测方法
KR20200125031A (ko) * 2019-04-25 2020-11-04 한국전자통신연구원 데이터 차원 축소 방법 및 장치
CN110516818A (zh) * 2019-05-13 2019-11-29 南京江行联加智能科技有限公司 一种基于集成学习技术的高维度数据预测方法
CN110334546A (zh) * 2019-07-08 2019-10-15 辽宁工业大学 基于主成分分析优化的差分隐私高维数据发布保护方法
CN110647911A (zh) * 2019-08-13 2020-01-03 南京航空航天大学 一种基于主成分分析和深度信念网络的轴承故障诊断方法
CN110825068A (zh) * 2019-09-29 2020-02-21 惠州蓄能发电有限公司 一种基于pca-cnn的工业控制系统异常检测方法
CN111709181A (zh) * 2020-05-06 2020-09-25 东华大学 基于主成分分析的涤纶长丝工业生产流程故障预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于主成分分析和遗传程序设计的油浸式变压器故障诊断;董卓;朱永利;张敬敬;陈哲星;胡资斌;;河北工业科技(第06期);全文 *
基于主成分分析的化探元素含量数据处理;周祥全;张津;程鲁;;科技创新与应用(第25期);全文 *
基于近场声全息的载荷识别技术及试验验证;章艺等;噪声与振动控制;第38卷(第Z1期);第601-604页 *

Also Published As

Publication number Publication date
CN112464154A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112464154B (zh) 一种基于无监督学习的自动筛选有效特征的方法
CN109496334B (zh) 用于评估语音质量的设备和方法
KR100640663B1 (ko) 상수 및 동일 패턴을 갖는 파라미터들을 다변량 모델링하는방법 및 장치 그리고 이를 이용한 반도체 제조방법
US20190261204A1 (en) Method and system for abnormal value detection in lte network
CN112508243B (zh) 电力信息系统多故障预测网络模型的训练方法及装置
Aston et al. High dimensional efficiency with applications to change point tests
CN114970157B (zh) 电子产品在电压应力作用下的小样本试验寿命预测方法
CN109782158B (zh) 一种基于多级分类的模拟电路诊断方法
CN114817034A (zh) 一种测试质量的分析方法、装置及电子设备
Needell et al. Testing positive semidefiniteness using linear measurements
CN114169460A (zh) 样本筛选方法、装置、计算机设备和存储介质
CN116894455A (zh) 确定用于人工神经网络的后训练量化的代表性输入数据集的方法和系统
WO2000060423A1 (en) Model error bounds for identification of stochastic models for control design
CN113177078B (zh) 基于条件生成模型的近似查询处理算法
CN110765881B (zh) 一种基于主成分分析的小波基选择方法
Shaharudin et al. Performance analysis and validation of modified singular spectrum analysis based on simulation torrential rainfall data
Hassan et al. Real-time fault detection in semiconductor using one-class support vector machines
CN110784887B (zh) 网格化无线电信号监测系统中异常信号源数量的检测方法
WO2015118736A1 (ja) システム同定装置
Soverini et al. Frequency domain identification of autoregressive models in the presence of additive noise
Aviyente A measure of mutual information on the time-frequency plane
CN114580982B (zh) 一种工业设备的数据质量的评估方法、装置及设备
CN114327978B (zh) 基于矩变量的系统故障模式识别方法和系统
CN118228146B (zh) 一种水利工程用淤泥清除量计算方法及系统
US20010010087A1 (en) Method of analyzing fault occurring in semiconductor device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant