CN112464154A - 一种基于无监督学习的自动筛选有效特征的方法 - Google Patents

一种基于无监督学习的自动筛选有效特征的方法 Download PDF

Info

Publication number
CN112464154A
CN112464154A CN202011353569.8A CN202011353569A CN112464154A CN 112464154 A CN112464154 A CN 112464154A CN 202011353569 A CN202011353569 A CN 202011353569A CN 112464154 A CN112464154 A CN 112464154A
Authority
CN
China
Prior art keywords
data set
feature
principal component
features
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011353569.8A
Other languages
English (en)
Other versions
CN112464154B (zh
Inventor
章艺
王强
符栋梁
俞炅旻
周璞
马佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
704th Research Institute of CSIC
Original Assignee
704th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 704th Research Institute of CSIC filed Critical 704th Research Institute of CSIC
Priority to CN202011353569.8A priority Critical patent/CN112464154B/zh
Publication of CN112464154A publication Critical patent/CN112464154A/zh
Application granted granted Critical
Publication of CN112464154B publication Critical patent/CN112464154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于无监督学习的自动筛选有效特征的方法,包括数据集构建;设定阈值ε,对数据集进行PCA降维,选择尽可能小的主成分数量K;依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,自动筛选数据集的有效特征。本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。

Description

一种基于无监督学习的自动筛选有效特征的方法
技术领域
本发明涉及一种基于无监督学习的自动筛选有效特征的方法,属于人工智能、数据清洗、数据降维领域。
背景技术
在诸多业务场景中,都存在着工程师根据大量的特征数据进行结果分析和判断的过程,而对于缺乏经验的工程师来说,他们无法判断哪些特征是有用的,哪些是可以忽略的。例如在故障分析中,工程师利用频域的幅值分析机器是否运转异常时,都是根据基频、倍频等频率的幅值是否异常来判断机器是否故障。因此,如何快速为工程师提供精确、有效、直接的特征,对于人工进行数据分析的效率和准确率起到了重要的作用。
当工程师面对大量的特征数据时,一般先采用PCA算法对数据进行降维,再对数据进行分析。然而PCA的降维过程是由维度多的原数据特征生成维度少的新数据特征。由于新数据特征对工程师来说无实际物理意义,这给工程师根据特征进行数据分析的方式造成了很大的困难。
发明内容
本发明要解决的技术问题是:提供一种基于无监督学习的自动筛选有效特征的方法,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
为了解决上述问题,本发明的技术方案是提供了一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。
优选地,所述PCA降维过程具体包括:
步骤S1、均值归一化,计算出待降维的数据集中所有特征Xj的均值μj,j=1,2,…,n;归一化后的矩阵值
Figure BDA0002802003550000021
步骤S2、计算协方差矩阵∑,
Figure BDA0002802003550000022
步骤S3、计算协方差矩阵∑的特征值Sii和特征向量Ui,由特征向量Ui构成特征向量矩阵U,通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量;在降维压缩后,通过公式
Figure BDA0002802003550000023
近似地还原原有特征。
优选地,通过公式
Figure BDA0002802003550000024
确定阈值ε和主成分数量K,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
与现有技术相比,本发明的有益效果是:
本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
附图说明
图1为一种基于无监督学习的自动筛选有效特征的方法流程图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
如图1所示,本发明一种基于无监督学习的自动筛选有效特征的方法包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
由于PCA降维算法并非本发明的创新内容,因此不再赘述,本发明仅列出相关步骤,具体推导过程请参考PCA实现原理。
I)均值归一化。为了统一每个特征取值在数量级上的差异,需计算出数据集X中所有特征的均值μj(j=1,2,…,n),归一化后的矩阵值
Figure BDA0002802003550000031
II)计算协方差矩阵∑,
Figure BDA0002802003550000032
III)计算协方差矩阵∑的特征值Sii和特征向量Ui。由特征向量Ui构成特征向量矩阵U。可通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量。同样地,在降维压缩后,可通过公式
Figure BDA0002802003550000033
近似地还原原有特征。
在进行PCA降维的过程中,使得平均均方误差与数据集的方差比例尽可能小的情况下,选择尽可能小的主成分数量,即K值。设定阈值ε(以1%为例,意味着原数据集中偏差有99%被保留下来),由于数据样本长度不完全相同,因此需要对小于设定样本长度的样本进行填充处理,通过设置空标记来实现。
Figure BDA0002802003550000034
数据集可降维的充要条件是数据集中各个特征之间存在某种数据相关性。由此,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。且这些特征保留了原数据集的表示含义,有利于将其作为工程师进行数据分析判断的依据。

Claims (3)

1.一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。
2.如权利要求1所述的一种基于无监督学习的自动筛选有效特征的方法,其特征在于:所述PCA降维过程具体包括:
步骤S1、均值归一化,计算出待降维的数据集中所有特征Xj的均值μj,j=1,2,…,n;归一化后的矩阵值
Figure FDA0002802003540000011
步骤S2、计算协方差矩阵∑,
Figure FDA0002802003540000012
步骤S3、计算协方差矩阵∑的特征值Sii和特征向量Ui,由特征向量Ui构成特征向量矩阵U,通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量;在降维压缩后,通过公式
Figure FDA0002802003540000013
近似地还原原有特征。
3.如权利要求1所述的一种基于无监督学习的自动筛选有效特征的方法,其特征在于:通过公式
Figure FDA0002802003540000014
确定阈值ε和主成分数量K,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
CN202011353569.8A 2020-11-27 2020-11-27 一种基于无监督学习的自动筛选有效特征的方法 Active CN112464154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011353569.8A CN112464154B (zh) 2020-11-27 2020-11-27 一种基于无监督学习的自动筛选有效特征的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011353569.8A CN112464154B (zh) 2020-11-27 2020-11-27 一种基于无监督学习的自动筛选有效特征的方法

Publications (2)

Publication Number Publication Date
CN112464154A true CN112464154A (zh) 2021-03-09
CN112464154B CN112464154B (zh) 2024-03-01

Family

ID=74808927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011353569.8A Active CN112464154B (zh) 2020-11-27 2020-11-27 一种基于无监督学习的自动筛选有效特征的方法

Country Status (1)

Country Link
CN (1) CN112464154B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553630A (zh) * 2021-06-15 2021-10-26 西安电子科技大学 基于无监督学习的硬件木马检测系统和信息数据处理方法
CN113903059A (zh) * 2021-12-13 2022-01-07 中汽信息科技(天津)有限公司 人体模型建立方法、设备和存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0437702A2 (en) * 1989-11-21 1991-07-24 Fujitsu Limited Semiconductor integrated circuit of compound semiconductor devices comprising isolation regions and method of making the same
KR20100001177A (ko) * 2008-06-26 2010-01-06 주식회사 비츠로시스 주성분 분석을 이용한 유전자 선택 알고리즘
CN104899358A (zh) * 2015-05-13 2015-09-09 山东科技大学 奥灰岩溶裂隙水网络横向分布的预测方法
CN106056149A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能无监督学习主成分分析方法建立不同车型分工况远程定损系统及方法
US9516039B1 (en) * 2013-11-12 2016-12-06 EMC IP Holding Company LLC Behavioral detection of suspicious host activities in an enterprise
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN107358006A (zh) * 2017-07-25 2017-11-17 华北电力大学(保定) 一种基于主成分分析的Lorenz扰动风速预测方法
US20180157161A1 (en) * 2016-12-01 2018-06-07 Lam Research Corporation Design layout pattern proximity correction through fast edge placement error prediction
CN109344517A (zh) * 2018-10-14 2019-02-15 毛述春 一种新能源汽车的高压绝缘故障诊断方法
US20190189243A1 (en) * 2017-12-20 2019-06-20 George Mason University Mining All Atom Simulations for Diagnosing and Treating Disease
CN109933539A (zh) * 2019-04-15 2019-06-25 燕山大学 一种基于主成分分析和组合采样的软件缺陷预测方法
CN110334546A (zh) * 2019-07-08 2019-10-15 辽宁工业大学 基于主成分分析优化的差分隐私高维数据发布保护方法
CN110516818A (zh) * 2019-05-13 2019-11-29 南京江行联加智能科技有限公司 一种基于集成学习技术的高维度数据预测方法
CN110647911A (zh) * 2019-08-13 2020-01-03 南京航空航天大学 一种基于主成分分析和深度信念网络的轴承故障诊断方法
CN110825068A (zh) * 2019-09-29 2020-02-21 惠州蓄能发电有限公司 一种基于pca-cnn的工业控制系统异常检测方法
CN111709181A (zh) * 2020-05-06 2020-09-25 东华大学 基于主成分分析的涤纶长丝工业生产流程故障预测方法
KR20200125031A (ko) * 2019-04-25 2020-11-04 한국전자통신연구원 데이터 차원 축소 방법 및 장치

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0437702A2 (en) * 1989-11-21 1991-07-24 Fujitsu Limited Semiconductor integrated circuit of compound semiconductor devices comprising isolation regions and method of making the same
KR20100001177A (ko) * 2008-06-26 2010-01-06 주식회사 비츠로시스 주성분 분석을 이용한 유전자 선택 알고리즘
US9516039B1 (en) * 2013-11-12 2016-12-06 EMC IP Holding Company LLC Behavioral detection of suspicious host activities in an enterprise
CN104899358A (zh) * 2015-05-13 2015-09-09 山东科技大学 奥灰岩溶裂隙水网络横向分布的预测方法
CN106056149A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能无监督学习主成分分析方法建立不同车型分工况远程定损系统及方法
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
US20180157161A1 (en) * 2016-12-01 2018-06-07 Lam Research Corporation Design layout pattern proximity correction through fast edge placement error prediction
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN107358006A (zh) * 2017-07-25 2017-11-17 华北电力大学(保定) 一种基于主成分分析的Lorenz扰动风速预测方法
US20190189243A1 (en) * 2017-12-20 2019-06-20 George Mason University Mining All Atom Simulations for Diagnosing and Treating Disease
CN109344517A (zh) * 2018-10-14 2019-02-15 毛述春 一种新能源汽车的高压绝缘故障诊断方法
CN109933539A (zh) * 2019-04-15 2019-06-25 燕山大学 一种基于主成分分析和组合采样的软件缺陷预测方法
KR20200125031A (ko) * 2019-04-25 2020-11-04 한국전자통신연구원 데이터 차원 축소 방법 및 장치
CN110516818A (zh) * 2019-05-13 2019-11-29 南京江行联加智能科技有限公司 一种基于集成学习技术的高维度数据预测方法
CN110334546A (zh) * 2019-07-08 2019-10-15 辽宁工业大学 基于主成分分析优化的差分隐私高维数据发布保护方法
CN110647911A (zh) * 2019-08-13 2020-01-03 南京航空航天大学 一种基于主成分分析和深度信念网络的轴承故障诊断方法
CN110825068A (zh) * 2019-09-29 2020-02-21 惠州蓄能发电有限公司 一种基于pca-cnn的工业控制系统异常检测方法
CN111709181A (zh) * 2020-05-06 2020-09-25 东华大学 基于主成分分析的涤纶长丝工业生产流程故障预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周祥全;张津;程鲁;: "基于主成分分析的化探元素含量数据处理", 科技创新与应用, no. 25 *
章艺等: "基于近场声全息的载荷识别技术及试验验证", 噪声与振动控制, vol. 38, no. 1, pages 601 - 604 *
董卓;朱永利;张敬敬;陈哲星;胡资斌;: "基于主成分分析和遗传程序设计的油浸式变压器故障诊断", 河北工业科技, no. 06 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553630A (zh) * 2021-06-15 2021-10-26 西安电子科技大学 基于无监督学习的硬件木马检测系统和信息数据处理方法
CN113903059A (zh) * 2021-12-13 2022-01-07 中汽信息科技(天津)有限公司 人体模型建立方法、设备和存储介质
CN113903059B (zh) * 2021-12-13 2022-04-15 中汽信息科技(天津)有限公司 人体模型建立方法、设备和存储介质

Also Published As

Publication number Publication date
CN112464154B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN106572493B (zh) Lte网络中的异常值检测方法及系统
Bottou et al. Large scale online learning
Chwialkowski et al. A kernel independence test for random processes
CN109496334B (zh) 用于评估语音质量的设备和方法
CN112464154A (zh) 一种基于无监督学习的自动筛选有效特征的方法
Chang et al. Confidence regions for entries of a large precision matrix
CN111290967A (zh) 一种软件缺陷预测方法、装置、设备及存储介质
CN111552509A (zh) 一种接口间依赖关系的确定方法及装置
Aston et al. High dimensional efficiency with applications to change point tests
CN113377964A (zh) 知识图谱链接预测方法、装置、设备及存储介质
Li et al. A novel recursive learning estimation algorithm of Wiener systems with quantized observations
CN114817034A (zh) 一种测试质量的分析方法、装置及电子设备
CN112395558B (zh) 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法
CN114169460A (zh) 样本筛选方法、装置、计算机设备和存储介质
CN117876018A (zh) 潜在客户识别和预测的方法、装置、电子设备及存储介质
Xu et al. Optimal gradient quantization condition for communication-efficient distributed training
CN113297185A (zh) 一种特征衍生方法及装置
CN113177078B (zh) 基于条件生成模型的近似查询处理算法
US11388187B2 (en) Method of digital signal feature extraction comprising multiscale analysis
CN114511002A (zh) 一种面向小样本数据的故障诊断方法及系统
Chen et al. Change point detection in beta process with high frequency data
US6931363B2 (en) EDR direction estimating method, system, and program, and memory medium for storing the program
Choi et al. Latent group structure in linear panel data models with endogenous regressors
Martínez et al. Partial quicksort and quickpartitionsort
Bai et al. Rare-Event Simulation Without Variance Reduction: An Extreme Value Theory Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant