CN112926640B - 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 - Google Patents
一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112926640B CN112926640B CN202110196365.6A CN202110196365A CN112926640B CN 112926640 B CN112926640 B CN 112926640B CN 202110196365 A CN202110196365 A CN 202110196365A CN 112926640 B CN112926640 B CN 112926640B
- Authority
- CN
- China
- Prior art keywords
- feature
- feature selection
- cancer gene
- cancer
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108700019961 Neoplasm Genes Proteins 0.000 title claims abstract description 56
- 102000048850 Neoplasm Genes Human genes 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 52
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000013145 classification model Methods 0.000 claims abstract description 15
- 238000010187 selection method Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 206010028980 Neoplasm Diseases 0.000 claims description 20
- 201000011510 cancer Diseases 0.000 claims description 20
- 238000007637 random forest analysis Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000002493 microarray Methods 0.000 claims description 14
- 238000000540 analysis of variance Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 101150039058 dns gene Proteins 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000000018 DNA microarray Methods 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000003500 gene array Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 206010038038 rectal cancer Diseases 0.000 description 1
- 201000001275 rectum cancer Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质,包括:A、训练癌症基因分类模型:(1)获取训练数据:第一阶段:集成三种特征选择算法进行全面特征选择,得到特征子集;第二阶段:使用非监督神经网络获得特征子集最佳表示;(2)将特征子集最佳表示分为训练集和测试集,输入神经网络中进行训练;B、癌症基因分类:将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型,实现癌症基因分类。本发明通过使用集成特征选择方法,实现考虑各个方面进行特征选择;并通过使用非监督神经网络提取特征最佳表示,获得更为干净的基因特征,提高分类精度。
Description
技术领域
本发明涉及一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质,属于基因表达技术领域。
背景技术
癌症是世界上最致命的疾病之一。癌症发现时间的早晚,直接决定了病人的治疗效果和生命安全。
利用机器学习处理基因微阵列数据集对于协助癌症的早期诊断具有重要的作用,但微阵列数据集中基因特征的数目远大于样本数目,造成了样本不平衡,影响了分类的效率和精度,对此基因阵列数据进行特征选择就显得尤为重要。现有的深度特征选择算法都致力于从高维度中选出重要的特征,但没有考虑最终保留特征数目较多和神经网络性能较差问题。
例如,Ibrahim等人提出一种基于深度和主动学习的多层特征选择算法(MLFS)(参见文献[1]Ibrahim R,Yousri N A,Ismail M A,et al.Multi-level gene/MiRNA featureselection using deep belief nets and active learning[C]//Proc of 2014 36thAnnual International Conference of the IEEE Engineering in Medicine andBiology Society.Piscataway,NJ:IEEE,2014:3957-3960),使用深度置信网络(DBN)作为特征选择框架,捕捉癌症基因的上层表示,之后通过无监督学习算法进行分类评估。
Koul等人提出一种基于交叉验证和无监督学习的特征选择策略确定癌症生物标记(参见文献[2]Koul N,Manvi S S.A Scheme for Feature Selection from GeneExpression Data using Recursive Feature Elimination with Cross Validation andUnsupervised Deep Belief Network Classifier[C]//Proc of 2019 3rdInternational Conference on Computing and Communications Technologies(ICCCT).Piscataway,NJ:IEEE,2019:31-36)。使用递归特征消除进行特征选择,随机森林用来对选择后的基因进行五次交叉验证,最后使用DBN网络分类器对这些基因进行分类。
Syafiandini等人对直肠癌基因进行降维并查看分类精度,深度模型使用深度玻尔兹曼机(DBM)对基因训练,测试,得到重构数据,根据重构数据与原始数据的均方误差(MSE)得到最优特征基因(参见文献[3]Syafiandini A F,Wasito I,Yazid S,etal.Multimodal Deep Boltzmann Machines for feature selection on geneexpression data[C]//Proc of 2016International Conference on Advanced ComputerScience and Information Systems(ICACSIS).Piscataway,NJ:IEEE,2016:407-412)。
Sutawika和Wasito同样使用DBM通过比对重构数据与原始数据的误差进行特征选择,之后使用最小二乘法对选择的特征进行合成用于分类(参见文献[4]Sutawika L A,Wasito I.Restricted Boltzmann machines for unsupervised feature selectionwith partial least square feature extractor for microarray datasets[C]//Procof 2017International Conference on Advanced Computer Science and InformationSystems(ICACSIS).Piscataway,NJ:IEEE,2017:257-260)。
Wisesty等人使用互信息(MI)对癌症基因进行特征选择,结果作为在输入层输入到DBN网络中进行分类(参见文献[5]Wisesty U N,Pratama B P B,Aditsania A,etal.Cancer Detection Based on Microarray Data Classification Using Deep BeliefNetwork and Mutual Information[C]//Proc of 2017 5th International Conferenceon Instrumentation,Communications,Information Technology,and BiomedicalEngineering(ICICI-BME).Piscataway,NJ:IEEE,2017:157-162)。
Kilicarslana等人提出一种混合方法来提高分类精度。使用ReliefF算法进行特征选择,CNN作为分类器对特征选择后的结果进行分类(参见文献[6]Kilicarslana S,Ademb K,Mete C.Diagnosis and classification of cancer using hybrid modelbased on ReliefF and convolutional neural network[J].Medical Hypotheses,2020,137(2020):109577)。
Zeebaree使用方差分析选择特征,CNN对基因数据集进行特征提取和分类(参见文献[7]Zeebaree D Q.Gene Selection and Classification of Microarray Data UsingConvolutional Neural Network[C]//Proc of 2018International Conference onAdvanced Science and Engineering(ICOASE).Piscataway,NJ:IEEE,2018:145-150)。
由上可知,在深度特征选择技术应用中,研究者多采用单一条件的特征选择算法,导致选择后的基因特征较多;另外,对于神经网络的选择多采用存在已久的网络具有较低的分类精度,即使使用像CNN这种高效地神经网络模型,它也主要作为分类模型分类基因特征,对特征选择过程并没有较大的贡献。而且在将神经网络应用到特征选择时很少考虑使用神经网络得到特征的最佳表示。
以上问题都是需要解决的。
发明内容
对于深度特征选择算法研究至今,解决了不少问题,但还是存在选择特征数目较多和分类精度较低问题,为了解决这些问题,本发明提供了一种基于两阶段深度特征选择的癌症基因分类方法,通过两阶段深度特征选择来提高最终的分类精度,本发明主要解决的问题如下:
1)对于深度特征选择算法中存在单一特征选择问题,导致特征选择数目较多。设计基于boosting的集成特征选择方法,该方法实现对基因特征进行全面选择,避免重要基因特征遗漏,并且保留较少的特征数目。
2)对于神经网络模型存在已久和网络模型作用不大问题,寻找新型高效的神经网络,选择出的神经网络不仅提高了最终的分类精度,并弥补神经网络作用不大问题。设计通过使用神经网络实现对特征进一步特征提取,获取特征最佳低维表示,得到更为干净的特征,从而提高分类精度。
本发明还提供了一种计算机设备及存储介质。
术语解释:
1、boosting集成特征选择方法:是一种迭代特征选择方法,每次特征选择的训练集都依赖于上一次选择特征的结果。
2、方差分析(ANOVA):是一种基于统计学的特征选择算法,该方法通过求得每个特征的方差来对特征进行排序。
3、RReliefF算法:它根据特征与实例之间的差异程度来估计一个特征区分其相邻样本的能力,并且根据数据特征与标签之间的相关性给每个特征分配不同的权重。
4、随机森林算法(RF):作为一个新兴的、高度灵活的学习算法具有广泛的操作前景,由多棵决策树组成可以很好地防止过拟合。它通过特征重要性来排序特征。
5、癌症微阵列数据:是一种可以被计算机识别的二维数据矩阵,是人类基因组计划的逐步实施和分子生物学的迅猛发展及运用的产物,是生物芯片中的一种。
6、新型网络变分自编码器VAE:VAE是一种生成式神经网络,通过构建隐变量z来生成新的特征,新的特征与原来特征不同但相似。
本发明的技术方案为:
一种基于两阶段深度特征选择的癌症基因分类方法,通过两阶段深度特征选择来提高癌症分类准确度,包括步骤如下:
A、训练癌症基因分类模型
(1)获取训练数据
第一阶段:集成三种特征选择算法进行全面特征选择,得到特征子集;这保证最后选择的特征子集少而精;
第二阶段:使用非监督神经网络获得特征子集最佳表示;提高了最终分类精度。
(2)将特征子集最佳表示分为训练集和测试集,输入癌症基因分类模型中进行训练;
B、癌症基因分类
将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型,实现癌症基因分类,判断是否为癌症基因。
进一步优选的,步骤B中,检测癌症基因数据进行预处理的过程为:去掉待检测癌症基因数据中的空值及非数值型数据后,通过所述第一阶段及第二阶段的处理得到特征子集最佳表示,将特征子集输入训练好的癌症基因分类模型。
本发明通过使用集成特征选择方法,实现考虑各个方面进行特征选择;并通过使用非监督神经网络提取特征最佳表示,获得更为干净的基因特征,提高分类精度。
根据本发明优选的,基于boosting集成特征选择方法,集成三种特征选择算法,实现全面特征选择,三种特征选择算法包括方差分析(ANOVA)、RReliefF算法和随机森林算法(RF);全面特征选择的实现过程如下:
(1)通过方差分析及RReliefF算法对原始数据进行特征选择,根据两种内部操作得到候选特征子集;
(2)使用随机森林算法根据特征重要性对候选特征子集进行排序,选择出所需要的特征子集。
这三种方法进行特征选择时分别考虑到基因特征自身特点,基因特征之间相关性问题和基因特征与学习器(学习器指的是机器学习中监督算法)之间的关系。针对以上三方面进行特征选择最终保留下的特征数目较少,且满足各方面优点,选择出的特征具有较高的识别性。
进一步优选的,原始数据是指癌症微阵列数据。该数据具有高维少样本特点。
进一步优选的,步骤(1)的具体实现步骤包括:
a、设置方差分析中参数p,p是指设置的特征方差阈值,通过方差计算公式(Ⅰ)进行一轮特征选择,求出每一个特征的特征方差,选择出特征方差高于p的特征;
Var(x)=p(1-p)(Ⅰ)
式(Ⅰ)中,Var(x)代表特征x的方差值;
进一步优选的,p=0.8;
b、根据RReliefF算法中不同的权重W来确定候选特征子集;
设置权重阈值W,由于每一种癌症微阵列数据基因特征数目不一,所以对于权重W的设置也不固定,实验过程中W取值范围为0.001~0.1之间,根据以下规则计算权重:
从所有样本(即步骤a得到的特征方差高于p的特征)中随机选出一个样本R,通过对特征之间距离计算,分别寻找样本R同类与异类中的最近样本,得到特征权重,若得到R中某一特征在相同分类上的特征距离小于不同分类上的距离,这说明该特征具有一定的意义,特征权重较高,反之降低特征权重。RReliefF算法通过样概率定义模拟样本之间的绝对距离,特征权重计算公式如式(II)所示:
式(II)中,W[A]是指特征A的权重,对于概率PdiffC|diffA,PdiffA,PdiffC的定义如(Ⅲ),(Ⅳ),(V)所示。PdiffA是指特征A在所有样本中对应概率值,如式(Ⅲ)所示,PdiffC表示对特征A在所有样本中对应的预测概率值,如式(Ⅳ)所示,PdiffC|diffA表示在已知特征A在样本中具体概率时,预测结果为diffC的概率值,如式(V)所示,NSs是指最近样本(the nearestsamples),并且DNSs代表diffC和它的NSs,PdiffC|diffA、PdiffA、PdiffC的定义如式(Ⅲ)、(Ⅳ)、(V)所示:
PdiffA=P(diffA|NSs)(Ⅲ)
PdiffC=P(diffC|NSs)(Ⅳ)
PdiffC|diffA=P(diffC|DNSs)(V)
求取得到所有特征的权重。
进一步优选的,步骤(2)中,通过基尼系数作为随机森林算法的评价指标,来表示候选特征子集中每个候选特征的特征重要性,基尼系数某指某一特征在RF所有决策树中节点分裂不纯度的平均改变量,具体实现步骤包括:
求取候选特征子集中每个候选特征的基尼系数,基尼系数求取公式如式(VI)所示:
式(VI)中,IG是指基尼系数,f是指某一特征,fi是指第i个特征,m是指特征总数;随机森林算法根据基尼系数求解出每个特征的特征重要性,根据重要性排序选择出满足该随机森林算法的特征,得到所需要的特征子集(通过调用随机森林函数就实现该过程,得到选择特征结果);
通过以上三种特征选择算法,去掉较多的冗余和不相关特征,得到较少数目的特征子集。
根据本发明优选的,第二阶段的具体实现步骤是指:针对神经网络存在已久和网络模型作用不大问题,设计使用新型网络变分自编码器(VAE)来解决该问题,对于存在已久的神经网络,虽然在深度特征选择中解决了一些问题,但还存在分类较低问题,VAE作为自编码器的一种延伸神经网络模型,它不仅具有降维功能,还具有较高的去噪能力,将特征子集导入新型网络变分自编码器中,进行去噪并获得特征子集低维表示即特征子集最佳表示。该特征子集具有较低的冗余性,且包含识别性信息更多。根据以上两步操作后提高分类精度。
进一步优选的,将特征子集作为输入层输入到VAE中,对其进行特征提取获得最佳特征低维表示,得到包含信息量更多的特征子集。对于VAE的设置,由于操作的是微阵列数据集,是一种一维数据,所以不需要设计太复杂的网络结果,所述新型网络变分自编码器包括输入层、第一全连接层、隐含层、第二全连接层及输出层,所述隐含层的节点数为256,epoch为50次,batch size为25。通过对隐含层节点设置来降低特征维度获得特征低维表示,并且获得低维表示的同时去除原始维度中包含的噪声。
进一步优选的,所述隐含层的激活函数为relu函数,所述输出层的激活函数为sigmoid函数,使用Adam作为优化器。
根据以上两步,得到最佳低维特征子集,该特征子集包含更具有识别性的癌症基因特征。选择使用新型网络变分自编码器(VAE),该网络模型作为新型神经网络具有较高的性能,它克服了存在已久神经网络分类较低问题,而且也考虑到获得特征最佳低维表示这在提高分类精度方面有了巨大的提升。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于两阶段深度特征选择的癌症基因分类方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于两阶段深度特征选择的癌症基因分类方法的步骤。
本发明的有益效果为:
1、本发明使用基于boosting集成特征选择方法,该方法将与特征有关的所有方面均考虑在内,避免重要基因不能被选择,保证最终选择特征较少求具有较高识别性;
2、本发明使用了VAE获得特征低维表示,它不仅提高了最终的分类精度,而且也弥补了深度特征选择时一些神经网络模型作用性不高问题。通过使用VAE对特征选择后的结果进行进一步特征提取,去除特征中存在的噪声和冗余性,使得最后得到的特征更为干净,具有较高的研究价值。为了验证该方法的有效性,通过监督分类算法支持向量机来得到分类精度。通过实验证明,该方法具有较高的分类性能。
附图说明
图1为本发明基于两阶段深度特征选择的癌症基因分类方法的流程示意图;
图2为本发明新型网络变分自编码器VAE的结构框图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于两阶段深度特征选择的癌症基因分类方法,通过两阶段深度特征选择来提高癌症分类准确度,如图1所示,包括步骤如下:
A、训练癌症基因分类模型
(1)获取训练数据
第一阶段:集成三种特征选择算法进行全面特征选择,得到特征子集;这保证最后选择的特征子集少而精;
第二阶段:使用非监督神经网络获得特征子集最佳表示;提高了最终分类精度。
(2)将特征子集最佳表示分为训练集和测试集,输入癌症基因分类模型中进行训练;
B、癌症基因分类
将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型,实现癌症基因分类,判断是否为癌症基因。
实施例2
根据实施例1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其区别在于:
步骤B中,检测癌症基因数据进行预处理的过程为:去掉待检测癌症基因数据中的空值及非数值型数据后,通过第一阶段及第二阶段的处理得到特征子集最佳表示,将特征子集输入训练好的癌症基因分类模型。
本发明通过使用集成特征选择方法,实现考虑各个方面进行特征选择;并通过使用非监督神经网络提取特征最佳表示,获得更为干净的基因特征,提高分类精度。
实施例3
根据实施例1所述的一种基于两阶段深度特征选择的癌症基因分类方法,如图1所示,其区别在于:
基于boosting集成特征选择方法,集成三种特征选择算法,实现全面特征选择,三种特征选择算法包括方差分析(ANOVA)、RReliefF算法和随机森林算法(RF);全面特征选择的实现过程如下:
(1)通过方差分析及RReliefF算法对原始数据进行特征选择,根据两种内部操作得到候选特征子集;
(2)使用随机森林算法根据特征重要性对候选特征子集进行排序,选择出所需要的特征子集。
这三种方法进行特征选择时分别考虑到基因特征自身特点,基因特征之间相关性问题和基因特征与学习器(学习器指的是机器学习中监督算法)之间的关系。针对以上三方面进行特征选择最终保留下的特征数目较少,且满足各方面优点,选择出的特征具有较高的识别性。
原始数据是指癌症微阵列数据。该数据具有高维少样本特点。
实施例4
根据实施例3所述的一种基于两阶段深度特征选择的癌症基因分类方法,其区别在于:
步骤(1)的具体实现步骤包括:
a、设置方差分析中参数p,p是指设置的特征方差阈值,通过方差计算公式(Ⅰ)进行一轮特征选择,求出每一个特征的特征方差,选择出特征方差高于p的特征;
Var(x)=p(1-p) (Ⅰ)
式(Ⅰ)中,Var(x)代表特征x的方差值;
p=0.8;
b、根据RReliefF算法中不同的权重W来确定候选特征子集;
设置权重阈值W,由于每一种癌症微阵列数据基因特征数目不一,所以对于权重W的设置也不固定,实验过程中W取值范围为0.001~0.1之间,根据以下规则计算权重:
从所有样本(即步骤a得到的特征方差高于p的特征)中随机选出一个样本R,通过对特征之间距离计算,分别寻找样本R同类与异类中的最近样本,得到特征权重,若得到R中某一特征在相同分类上的特征距离小于不同分类上的距离,这说明该特征具有一定的意义,特征权重较高,反之降低特征权重。RReliefF算法通过样概率定义模拟样本之间的绝对距离,特征权重计算公式如式(II)所示:
式(II)中,W[A]是指特征A的权重,对于概率PdiffC|diffA,PdiffA,PdiffC的定义如(Ⅲ),(Ⅳ),(V)所示。PdiffA是指特征A在所有样本中对应概率值,如式(Ⅲ)所示,PdiffC表示对特征A在所有样本中对应的预测概率值,如式(Ⅳ)所示,PdiffC|diffA表示在已知特征A在样本中具体概率时,预测结果为diffC的概率值,如式(V)所示,NSs是指最近样本(the nearestsamples),并且DNSs代表diffC和它的NSs,PdiffC|diffA、PdiffA、PdiffC的定义如式(Ⅲ)、(Ⅳ)、(V)所示:
PdiffA=P(diffA|NSs)(Ⅲ)
PdiffC=P(diffC|NSs)(Ⅳ)
PdiffC|diffA=P(diffC|DNSs)(V)
求取得到所有特征的权重。
步骤(2)中,通过基尼系数作为随机森林算法的评价指标,来表示候选特征子集中每个候选特征的特征重要性,基尼系数某指某一特征在RF所有决策树中节点分裂不纯度的平均改变量,具体实现步骤包括:
求取候选特征子集中每个候选特征的基尼系数,基尼系数求取公式如式(VI)所示:
式(VI)中,IG是指基尼系数,f是指某一特征,fi是指第i个特征,m是指特征总数;随机森林算法根据基尼系数求解出每个特征的特征重要性,根据重要性排序选择出满足该随机森林算法的特征,得到所需要的特征子集(通过调用随机森林函数就实现该过程,得到选择特征结果);
通过以上三种特征选择算法,去掉较多的冗余和不相关特征,得到较少数目的特征子集。
为了验证该方法选择出的特征子集具有较高的分类精度,对数据集按比例划分成测试集和训练集,通过监督分类算法对划分好的数据集进行评估操作,图1中ANOVA代表方差分析,RF表示随机森林算法,accuracy和acc均表示准确度,SN代表敏感度,SP代表特异度,precision代表精确度。acc,accuracy,SN,SP,precision(由于使用的微阵列数据集包含二分类和三分类数据所以使用不同的评估标准。对于二分类数据使用accuracy,SN,SP,precision这四种作为评估准则,对于三分类数据只能使用accuracy作为最后评估准则,为了和二分类accuracy作为区分,所以使用acc作为代替)均为最终评估指标。通过实验证明,该方法具有较高的分类性能。
实施例5
根据实施例1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其区别在于:
第二阶段的具体实现步骤是指:针对神经网络存在已久和网络模型作用不大问题,设计使用新型网络变分自编码器(VAE)来解决该问题,对于存在已久的神经网络,虽然在深度特征选择中解决了一些问题,但还存在分类较低问题,VAE作为自编码器的一种延伸神经网络模型,它不仅具有降维功能,还具有较高的去噪能力,将特征子集导入新型网络变分自编码器中,进行去噪并获得特征子集低维表示即特征子集最佳表示。该特征子集具有较低的冗余性,且包含识别性信息更多。根据以上两步操作后提高分类精度。
将特征子集作为输入层输入到VAE中,对其进行特征提取获得最佳特征低维表示,得到包含信息量更多的特征子集。对于VAE的设置,由于操作的是微阵列数据集,是一种一维数据,所以不需要设计太复杂的网络结果,如图2所示,新型网络变分自编码器包括输入层(Input)、第一全连接层、隐含层(Hiden Layer)、第二全连接层及输出层(Output),隐含层的节点数为256,epoch为50次,batch size为25。通过对隐含层节点设置来降低特征维度获得特征低维表示,并且获得低维表示的同时去除原始维度中包含的噪声。
隐含层的激活函数为relu函数,输出层的激活函数为sigmoid函数,使用Adam作为优化器。
根据以上两步,得到最佳低维特征子集,该特征子集包含更具有识别性的癌症基因特征。选择使用新型网络变分自编码器(VAE),该网络模型作为新型神经网络具有较高的性能,它克服了存在已久神经网络分类较低问题,而且也考虑到获得特征最佳低维表示这在提高分类精度方面有了巨大的提升。
实施例6
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1-5任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。
实施例7
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1-5任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。
Claims (11)
1.一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,包括步骤如下:
A、训练癌症基因分类模型
(1)获取训练数据
第一阶段:集成三种特征选择算法进行全面特征选择,得到特征子集;
第二阶段:使用非监督神经网络获得特征子集最佳表示;
(2)将特征子集最佳表示分为训练集和测试集,输入癌症基因分类模型中进行训练;
B、癌症基因分类
将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型,实现癌症基因分类,判断是否为癌症基因;
基于boosting集成特征选择方法,集成三种特征选择算法,实现全面特征选择,三种特征选择算法包括方差分析、RReliefF算法和随机森林算法;全面特征选择的实现过程如下:
(1.1)通过方差分析及RReliefF算法对原始数据进行特征选择,得到候选特征子集;
(1.2)使用随机森林算法根据特征重要性对候选特征子集进行排序,选择出所需要的特征子集。
2.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,原始数据是指癌症微阵列数据。
3.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤B中,检测癌症基因数据进行预处理的过程为:去掉待检测癌症基因数据中的空值及非数值型数据后,通过所述第一阶段及第二阶段的处理得到特征子集最佳表示,将特征子集输入训练好的癌症基因分类模型。
4.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤(1.1)的具体实现步骤包括:
a、设置方差分析中参数p,p是指设置的特征方差阈值,通过方差计算公式(Ⅰ)进行一轮特征选择,求出每一个特征的特征方差,选择出特征方差高于p的特征;
Var(x)=p(1-p) (Ⅰ)
式(Ⅰ)中,Var(x)代表特征x的方差值;
b、根据RReliefF算法中不同的权重W来确定候选特征子集;
设置权重阈值W,根据以下规则计算权重:
从所有样本中随机选出一个样本R,通过对特征之间距离计算,分别寻找样本R同类与异类中的最近样本,得到特征权重,RReliefF算法通过样概率定义模拟样本之间的绝对距离,特征权重计算公式如式(II)所示:
式(II)中,W[A]是指特征A的权重,PdiffA是指特征A在所有样本中对应概率值,如式(Ⅲ)所示,PdiffC表示对特征A在所有样本中对应的预测概率值,如式(Ⅳ)所示,PdiffC|diffA表示在已知特征A在样本中具体概率时,预测结果为diffC的概率值,如式(Ⅴ)所示,NSs是指最近样本,并且DNSs代表diffC和它的NSs,PdiffC|diffA、PdiffA、PdiffC的定义如式(Ⅲ)、(Ⅳ)、(Ⅴ)所示:
PdiffA=P(diffA|NSs) (Ⅲ)
PdiffC=P(diffC|NSs) (Ⅳ)
PdiffC|diffA=P(diffC|DNSs) (Ⅴ)
求取得到所有特征的权重。
5.根据权利要求4所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,p=0.8。
7.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,第二阶段的具体实现步骤是指:将特征子集导入新型网络变分自编码器中,进行去噪并获得特征子集低维表示即特征子集最佳表示。
8.根据权利要求7所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,所述新型网络变分自编码器包括输入层、第一全连接层、隐含层、第二全连接层及输出层,所述隐含层的节点数为256,epoch为50次,batch size为25。
9.根据权利要求8所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,所述隐含层的激活函数为relu函数,所述输出层的激活函数为sigmoid函数,使用Adam作为优化器。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-9任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110196365.6A CN112926640B (zh) | 2021-02-22 | 2021-02-22 | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110196365.6A CN112926640B (zh) | 2021-02-22 | 2021-02-22 | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926640A CN112926640A (zh) | 2021-06-08 |
CN112926640B true CN112926640B (zh) | 2023-02-28 |
Family
ID=76170063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110196365.6A Active CN112926640B (zh) | 2021-02-22 | 2021-02-22 | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926640B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021425B (zh) * | 2021-10-11 | 2024-04-12 | 清华大学 | 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 |
CN116417070A (zh) * | 2023-04-17 | 2023-07-11 | 齐鲁工业大学(山东省科学院) | 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法 |
CN116680594B (zh) * | 2023-05-05 | 2024-07-05 | 齐鲁工业大学(山东省科学院) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 |
CN118335206B (zh) * | 2024-06-07 | 2024-10-01 | 齐鲁工业大学(山东省科学院) | 一种基于泛癌多组学数据的无监督特征选择方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289412A (zh) * | 2020-10-09 | 2021-01-29 | 深圳市儿童医院 | 自闭症谱系障碍分类器的构建方法、其装置及电子设备 |
CN112382342A (zh) * | 2020-11-24 | 2021-02-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于集成特征选择的癌症甲基化数据分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472817B (zh) * | 2019-07-03 | 2023-03-24 | 西北大学 | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 |
CN111180009B (zh) * | 2020-01-03 | 2023-04-28 | 山东大学 | 一种基于基因组分析的癌症分期预测系统 |
-
2021
- 2021-02-22 CN CN202110196365.6A patent/CN112926640B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289412A (zh) * | 2020-10-09 | 2021-01-29 | 深圳市儿童医院 | 自闭症谱系障碍分类器的构建方法、其装置及电子设备 |
CN112382342A (zh) * | 2020-11-24 | 2021-02-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于集成特征选择的癌症甲基化数据分类方法 |
Non-Patent Citations (4)
Title |
---|
An efficient dimensionality reduction method using filter-based feature selection and variational autoencoders on Parkinson’s disease classification;Hakan Gunduz;《ELSEVIER》;20210203;第3节 * |
Ensembles for feature selection: A review and future trends;Verónica Bolón-Canedo 等;《ELSEVIER》;20181126;全文 * |
Theoretical and Empirical Analysis of ReliefF and RReliefF;MARKO ROBNIK-SIKONJA 等;《Machine Learning》;20031231;第2.3节 * |
随机森林如何评估特征重要性;0过把火0;《https://www.jianshu.com/p/7a876bb876b9》;20181019;第1页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926640A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926640B (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
Liu et al. | Selecting informative genes with parallel genetic algorithms in tissue classification | |
CN110222745A (zh) | 一种基于相似性学习及其增强的细胞类型鉴定方法 | |
Kianmehr et al. | Fuzzy clustering-based discretization for gene expression classification | |
CN107992945A (zh) | 基于深度学习和进化计算的特征基因选择方法 | |
CN113642613A (zh) | 基于改进樽海鞘群算法的医学疾病特征选择方法 | |
CN116417070A (zh) | 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法 | |
CN116680594A (zh) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 | |
Morovvat et al. | An ensemble of filters and wrappers for microarray data classification | |
CN116052885B (zh) | 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 | |
Abd-el Fattah et al. | A TOPSIS based method for gene selection for cancer classification | |
CN116153396A (zh) | 一种基于迁移学习的非编码变异预测方法 | |
CN112580606B (zh) | 基于聚类分组的大规模人体行为识别方法 | |
AL-Bermany et al. | Microarray gene expression data for detection alzheimer’s disease using k-means and deep learning | |
CN115116619A (zh) | 一种脑卒中数据分布规律智能分析方法及系统 | |
Sohail et al. | Selection of optimal texture descriptors for retrieving ultrasound medical images | |
AlRefaai et al. | Classification of gene expression dataset for type 1 diabetes using machine learning methods | |
Li et al. | Data mining techniques for the practical bioinformatician | |
Huang et al. | A Study of Genetic Neural Network as Classifiers and its Application in Breast Cancer Diagnosis. | |
CN118335200B (zh) | 基于因果特征选择的肺腺癌亚型分类系统、介质及设备 | |
CN118335206B (zh) | 一种基于泛癌多组学数据的无监督特征选择方法 | |
Mesafint et al. | Feature Selection Methods For Prediction Of The Individual’s Status Of Hiv/Aids From Edhs Dataset-A Filter Approach | |
Nandhakumar et al. | DNA MICROARRAY DATA REDUCTION METHOD FOR DIMENSIONALITY PROBLEMS | |
Janane et al. | A relief-TOPSIS based feature selection for high-dimensional data | |
CN113177604A (zh) | 一种基于改进l1正则化和聚类的高维数据特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee after: Qilu University of Technology (Shandong Academy of Sciences) Country or region after: China Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee before: Qilu University of Technology Country or region before: China |