CN116052885A - 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 - Google Patents
基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 Download PDFInfo
- Publication number
- CN116052885A CN116052885A CN202310069802.7A CN202310069802A CN116052885A CN 116052885 A CN116052885 A CN 116052885A CN 202310069802 A CN202310069802 A CN 202310069802A CN 116052885 A CN116052885 A CN 116052885A
- Authority
- CN
- China
- Prior art keywords
- feature
- relieff
- feature selection
- cancer
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 57
- 201000011510 cancer Diseases 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004393 prognosis Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 15
- 206010006187 Breast cancer Diseases 0.000 claims description 14
- 208000026310 Breast neoplasm Diseases 0.000 claims description 14
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 14
- 206010017758 gastric cancer Diseases 0.000 claims description 14
- 201000011549 stomach cancer Diseases 0.000 claims description 14
- 208000024770 Thyroid neoplasm Diseases 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 11
- 201000002510 thyroid cancer Diseases 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 238000002493 microarray Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 230000002496 gastric effect Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 210000000481 breast Anatomy 0.000 claims 1
- 238000010801 machine learning Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 210000001685 thyroid gland Anatomy 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 208000013076 thyroid tumor Diseases 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 238000001134 F-test Methods 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 101100268917 Oryctolagus cuniculus ACOX2 gene Proteins 0.000 description 1
- 206010033701 Papillary thyroid cancer Diseases 0.000 description 1
- 238000001358 Pearson's chi-squared test Methods 0.000 description 1
- SAQSTQBVENFSKT-UHFFFAOYSA-M TCA-sodium Chemical compound [Na+].[O-]C(=O)C(Cl)(Cl)Cl SAQSTQBVENFSKT-UHFFFAOYSA-M 0.000 description 1
- UCONUSSAWGCZMV-UHFFFAOYSA-N Tetrahydro-cannabinol-carbonsaeure Natural products O1C(C)(C)C2CCC(C)=CC2C2=C1C=C(CCCCC)C(C(O)=O)=C2O UCONUSSAWGCZMV-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000185 follicular epithelial cell Anatomy 0.000 description 1
- 210000005075 mammary gland Anatomy 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 208000030045 thyroid gland papillary carcinoma Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质,属于生物医学技术领域。本发明基于改进ReliefF的癌症组学特征选择算法提高三种癌症的预后预测精度,在特征选择部分,提出了引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选。在神经网络的训练部分,将筛选后冗余度低且信息全面的三种癌症特征子集传入神经网络进行训练预测,最终得到三种不同癌症的预后预测精度。
Description
技术领域
本发明涉及一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质,通过将深度学习与神经网络相结合的方式提高癌症组学的分类效果,属于生物医学技术领域。
背景技术
在全球癌症统计中,癌症致死率在近几年呈上升趋势,位居排行首列中的胃癌、乳腺癌以及甲状腺癌也成为高死亡率的癌症之一。乳腺癌虽作为女性最常被检测出的癌症,但死亡率却仍居高不下。胃癌和甲状腺作为人群中普遍发生的疾病,但治愈率却不见提升,及时准确的诊断是治疗该类疾病的重要环节。因此,设计行之有效地方法提高三种癌症的预测准确度是极其重要的。目前,由于组学数据高维低样本的特点,单一数据集会因样本不平衡等多种因素影响预测效果,导致分类效果不佳。多组组学数据可有效规避因信息不全、数据不平衡等问题,可有效改善实验效果。因此,利用深度特征选择降维的同时提高组学数据分类效果对于预后预测极为重要。
近年来,虽然乳腺癌、胃癌和甲状腺癌逐渐成为全球患病最频繁的癌症,但在深度学习领域的研究较少。Mourad等人通过特征选择对甲状腺癌数据集进行预后的评估,具体参见:Mourad,M.,Moubayed,S.P.,Dezube,A.R.,Mourad,Y.,Park,K.,Torreblanca-Zanca,A.,Torrecilla,J.S.,Cancilla,J.C.,&Wang,J.(2020).Machine Learning and FeatureSelection Applied to SEER Data to Reliably Assess Thyroid CancerPrognosis.Scientific Reports,10.Solanki等人采用特征选择等方法对乳腺癌进行预后,具体参见:Solanki,Y.S.,Chakrabarti,P.,Jasinski,M.F.,Leonowicz,Z.,Bolshev,V.,Vinogradov,A.,Jasińska,E.,Goňo,R.,&Nami,M.(2021).A Hybrid SupervisedMachine Learning Classifier System for Breast Cancer Prognosis Using FeatureSelection and Data Imbalance Handling Approaches.Electronics.Kim等人结合机器学习对胃癌进行预测,具体参见:Kim,Y.,Lee,S.,Kim,D.,Chae,J.,Ham,H.,Cho,H.C.,&Cho,H.(2020).Machine Learning based Gastric Cancer Computer-aided DiagnosisSystem using Feature Selection.The Transactions of the Korean Institute ofElectrical Engineers,69,170-176。
以上研究虽然已经取得了一定的成果,但是分类精度方面还存在不足,这也证明在癌症研究领域还存在很大的提升空间。着机器学习的出现,越来越多的研究者开始使用机器学习的方法对癌症数据进行研究。Thara等人利用机器学习对胃癌进行预测,具体参见:Thara,L.,&Gunasundari,R.(2018).Swarm Intelligence Based Feature SelectionAlgorithms and Classifiers for Gastric Cancer Prediction.InternationalConference on Intelligent Data Communication Technologies and Internet ofThings(ICICI)2018.Sarkar等人使用机器学习方法预测乳腺癌亚型标志物,具体参见:]Sarkar,J.P.,Saha,I.,Sarkar,A.,&Maulik,U.(2021).Machine learning integratedensemble of feature selection methods followed by survival analysis forpredicting breast cancer subtype specific miRNA biomarkers.Computers inbiology and medicine,131,104244.Wu等人结合机器学习预测甲状腺的转移,具体参见:Wu,Y.,Rao,K.V.,Liu,J.,Han,C.,Gong,L.,Chong,Y.,Liu,Z.,&Xu,X.(2020).MachineLearning Algorithms for the Prediction of Central Lymph Node Metastasis inPatients With Papillary Thyroid Cancer.Frontiers in Endocrinology,11。
以上研究表明,机器学习的加入可以明显提高分类效果,但由于基因数据的高维高噪比的特性导致分类精度低。因此,本发明提出了一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度的系统及方法,将该方法应用于三种不同癌症数据集,以提高预后预测的精度。
发明内容
在现阶段中,特征选择算法在组学应用中得到广泛推崇,但是很少考虑使用深度特征选择算法提高癌症的预后预测精度。针对此问题,本发明提供了一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质。
术语解释:
1、组学数据:主要包括转录组学、脂类组学、免疫组学、RNA组学、影像组学、超声组学等。
2、基因表达数据(Exp):反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。基因表达数据属于组学数据中的一种。
3、胃癌:发生于胃黏膜上皮的恶性肿瘤。
4、乳腺癌:乳腺上皮细胞在多种致癌因子的作用下,发生增殖失控的现象。
5、甲状腺癌:起源于甲状腺滤泡上皮细胞的恶性肿瘤。
本发明的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度的系统及方法主要解决的问题如下:(1)传统的机器学习算法在处理组学数据过程中存在数据冗余、数据高维等问题,均对癌症预后预测造成干扰。(2)为了解决组学数据中出现的高维高噪声的问题,提出了引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选。(3)针对组学数据分类精度不高的问题,提出了改进的Relief特征选择算法与神经网络相结合的方法,提高三种不同癌症的分类精度。
本发明采用以下技术方案:
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统,包括特征选择模块和预后预测模块;
所述特征选择模块,用于在ReliefF算法的基础上,引入了差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选;
所述预后预测模块,用于将筛选出的三种癌症特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
一种上述基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,包括如下步骤:
(1)特征选择模块使用改进后的ReliefF算法,根据特征与样本之间的相关性赋予特征相应的权值,引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,最终通过权重降序原则,筛选出最佳特征子集;
(2)预后预测模块将步骤(1)筛选出的最佳特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
优选的,步骤(1)的具体实现过程为:
假设在癌症组学数据集中有x个样本,f为特征集,其中f={f1,f2,f3…fi…fp},一个样本x由p维向量(x1,x2,x3,…xi…xp)构成,进行t次迭代,随机选取一个训练样本xi,然后选取该样本的k个近邻同类样本和k个异类样本(本发明属于二分类,从训练集中随机选择一个样本xi,然后从与xi同类的样本中寻找k个最近邻样本,与xi不同类的样本中选取k个异类样本),代入特征权值更新;
两个不同样本xi与xj在特征fi上的差异系数如公式I所示:
式中,xi(fi)是样本xi在特征fi的取值,xj(fi)是样本xj在特征fi的取值,max(fi)和min(fi)分别表示特征fi在样本中的最大值和最小值;
特征权重更新公式如II所示:
式中:其中dsame为k个近邻同类样本的差异系数,ddiff为k个异类样本的差异系数,t代表该算法的迭代次数,l表示类别,lxi表示样本xi在类别中的所属标记,p(l)表示标记l的概率,p(lxi)表示样本xi所属标记的概率,wfi表示fi的权重,linkij表示Jaccard相似系数,表示样本xi与k个近邻同类样本在fi上的权重贡献,表示样本xi与k个异类样本在fi上的权重贡献;
将候选特征子集通过权重降序原则得到特征子集,将得到的特征子集进行特征提取筛选出包含信息丰富且冗余度低的候选特征子集,最终实现最佳特征子集的筛选。
优选的,所述神经网络中设置有四层隐藏层、一层输入层和一层输出层,其隐藏层的节点数分别为16、32、32、2,迭代次数优选设置为50,虽然迭代次数增多可能会提高实验效果,但具体情况还需要具体分析,本发明进行了大量试验证明训练50次时效果较好。最后设置每次batch-size为16个特征。
优选的,隐藏层的标准架构如式(III)所示:
P(y|X,θ)=G(LoutWout+bout),
……,
Lout=σ(L1W1+b1),
……,
Lk+1=σ(LkWk+bk),
……,
L1=σ(XWin+bin)(III)
其中,P(y|X,θ)表示预测结果即分类结果,X=(X1,X2,X3,...,.Xn)T是三种癌症的转录组学的特征子集矩阵,y代表样本标签,如设置y=0表示正常样本,y=1表示甲状腺肿瘤样本,θ代表神经网络的所有参数;G(·)表示分类函数,σ(·)表示隐含层的激活函数;Lout表示输出层,Wout表示神经网络中输出层中的特征矩阵权重值,bout表示输出层误差值,b1、bk表示隐藏层的误差值,bin表示输入层误差值,L1表示第一层隐藏层,W1表示第一层隐藏层的特征矩阵权重值,Lk+1表示第k+1层隐藏层,Lk表示第k层隐藏层,Wk表示第k层隐藏层的特征矩阵权重值,Win表示输入层的特征矩阵权重值。
优选的,分类函数为softmax分类函数,隐含层的激活函数为Relu函数。
本发明提出的REDFS算法(指改进的ReliefF),采用了四层隐藏层,对特征子集进行提取,使用Adam优化器,Relu函数作为隐含层的激活函数,使用softmax函数将最后神经元的输出结果映射到(0,1)之间得到癌症的分类精度。
优选的,在步骤(1)之前还包括获取数据,所述数据来源于TCGA数据库,采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集;
通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据;利用R语言中的差异分析进行差异分析,通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现上述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
本发明未详尽之处,均可采用现有技术。
本发明的有益效果为:
本发明基于改进ReliefF的癌症组学特征选择算法提高三种癌症的预后预测精度,在特征选择部分,提出了引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选。在神经网络的训练部分,将筛选后冗余度低且信息全面的三种癌症特征子集传入神经网络进行训练预测,最终得到三种不同癌症的预后预测精度。
附图说明
图1为基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法流程示意图;
图2为本发明神经网络的结构框图;
图3为本发明与现存的ReliefF算法的对比结果示意图,其中(a)为准确度,(b)为曲线下方面积,(c)为敏感度,(d)为精确度;
图4为本发明与传统特征选择分类的对比结果示意图,其中(a)表示胃癌在保留不同特征选择数目时Accuracy结果;(b)表示甲状腺癌在保留不同特征选择数目时Accuracy结果;(c)表示乳腺癌在保留不同特征选择数目时Accuracy结果;(d)三种癌症在REDFS算法下不同特征数目时Accuracy结果;
图5为本发明与深度特征选择分类的对比结果示意图,其中(a)为准确度,(b)为曲线下方面积,(c)为敏感度,(d)为精确度。
具体实施方式:
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
实施例1
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统,包括特征选择模块和预后预测模块;
所述特征选择模块,用于在ReliefF算法的基础上,引入了差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选;
所述预后预测模块,用于将筛选出的三种癌症特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
实施例2
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,如图1所示,该流程图主要分为数据获取、方法以及性能评估;
所述数据来源于TCGA数据库,采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集,并对数据集进行预处理;
通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据;利用R语言中的差异分析进行差异分析,通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集。
方法包括如下步骤:
(1)特征选择模块使用改进后的ReliefF算法,属于特征权重算法,根据特征与样本之间的相关性赋予特征相应的权值,引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,最终通过权重降序原则,筛选出最佳特征子集;
(2)预后预测模块将步骤(1)筛选出的最佳特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
性能评估使用机器学习中的二分类评估指标。
在图1中,通过TCGA官网分别下载胃癌、乳腺癌以及甲状腺癌的基因表达数据;通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据;利用R语言中的差异分析进行差异分析,通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集;利用本发明提出的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法得到最终候选特征子集;最后将特征子集传入神经网络进行训练预测得到最终的分类精度。
本发明的重点论述的是改进的ReliefF算法,通过ReliefF特征权重排列得到特征子集,进行特征提取得到低维特征子集。本发明中加入差异系数,通过扩大相似样本与差异样本之间差异,提高特征选择的稳定性,提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,最终通过权重降序原则,实现最佳特征子集的筛选。
实施例3
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,如实施例2所述,所不同的是,步骤(1)的具体实现过程为:
假设在癌症组学数据集中有x个样本,f为特征集,其中f={f1,f2,f3…fi…fp},一个样本x由p维向量(x1,x2,x3,…xi…xp)构成,进行t次迭代,随机选取一个训练样本xi,然后选取该样本的k个近邻同类样本和k个异类样本(本发明属于二分类,从训练集中随机选择一个样本xi,然后从与xi同类的样本中寻找k个最近邻样本,与xi不同类的样本中选取k个异类样本),代入特征权值更新;
两个不同样本xi与xj在特征fi上的差异系数如公式I所示:
式中,xi(fi)是样本xi在特征fi的取值,xj(fi)是样本xj在特征fi的取值,max(fi)和min(fi)分别表示特征fi在样本中的最大值和最小值;
特征权重更新公式如II所示:
式中:其中dsame为k个近邻同类样本的差异系数,ddiff为k个异类样本的差异系数,t代表该算法的迭代次数,l表示类别,lxi表示样本xi在类别中的所属标记,p(l)表示标记l的概率,p(lxi)表示样本xi所属标记的概率,wfi表示fi的权重,linkij表示Jaccard相似系数,表示样本xi与k个近邻同类样本在fi上的权重贡献,表示样本xi与k个异类样本在fi上的权重贡献;
将候选特征子集通过权重降序原则得到特征子集,将得到的特征子集进行特征提取筛选出包含信息丰富且冗余度低的候选特征子集,最终实现最佳特征子集的筛选。
实施例4
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,如实施例3所述,所不同的是,神经网络中设置有四层隐藏层、一层输入层和一层输出层,其隐藏层的节点数分别为16、32、32、2,迭代次数优选设置为50,虽然迭代次数增多可能会提高实验效果,但具体情况还需要具体分析,本发明进行了大量试验证明训练50次时效果较好。最后设置每次batch-size为16个特征。
隐藏层的标准架构如式(III)所示:
P(y|X,θ)=G(LoutWout+bout),
……,
Lout=σ(L1W1+b1),
……,
Lk+1=σ(LkWk+bk),
……,
L1=σ(XWin+bin)(III)
其中,P(y|X,θ)表示预测结果即分类结果,X=(X1,X2,X3,...,.Xn)T是三种癌症的转录组学的特征子集矩阵,y代表样本标签,如设置y=0表示正常样本,y=1表示甲状腺肿瘤样本,θ代表神经网络的所有参数;G(·)表示分类函数,σ(·)表示隐含层的激活函数;Lout表示输出层,Wout表示神经网络中输出层中的特征矩阵权重值,bout表示输出层误差值,b1、bk表示隐藏层的误差值,bin表示输入层误差值,L1表示第一层隐藏层,W1表示第一层隐藏层的特征矩阵权重值,Lk+1表示第k+1层隐藏层,Lk表示第k层隐藏层,Wk表示第k层隐藏层的特征矩阵权重值,Win表示输入层的特征矩阵权重值。
分类函数为softmax分类函数,隐含层的激活函数为Relu函数。
本发明提出的REDFS算法(指改进的ReliefF),采用了四层隐藏层,对特征子集进行提取,使用Adam优化器,Relu函数作为隐含层的激活函数,使用softmax函数将最后神经元的输出结果映射到(0,1)之间得到癌症的分类精度。
实施例5
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例3的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
实施例6
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例3的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
为了证明面向甲状腺癌的深度特征选择算法的有效性,本发明进行了大量的对比试验。首先使用机器学习中专有的Accuracy,AUC,SN和SP对模型进行性能评估。其中accuracy代表准确度,AUC代表曲线下方面积,SN表示敏感度,SP表示精确度,表1为本发明与现存的ReliefF算法的对比结果表,图3为本发明与现存的ReliefF算法的对比结果示意图,与表1相对应,其中(a)为准确度Accuracy,(b)为曲线下方面积AUC,(c)为敏感度SN,(d)为精确度SP。
表1:本发明与现存的ReliefF算法的对比结果
其中,ReliefF、ML-ReliefF、IML-ReliefF是其中三种现存的ReliefF方法,Datasets代表数据类型,将该三种方法与本发明改进的ReliefF方法(REDFS)进行对比,通过图3,可以看出本发明的方法在性能上明显优于现存的三种ReliefF方法。
表2为本发明与传统特征选择分类的对比结果,图4为本发明与传统特征选择分类的对比结果示意图,与表2是对应的;
表2:本发明与传统特征选择分类的对比结果
其中,CHI是指卡方检验方法,一般指皮尔森卡方检验;F-test指F-检验又称相关系数法,该方法通过检测特征与标签之间的相关性进行特征选择;RF是指随机森林的方法,通过自身的特性可以进行分类;LR-RFE是指L1正则化-递归消除方法,该方法使用RFE进行特征选择,LR用来分类;RF-RFE是指随机森林-递归消除方法,该方法同样使用RFE进行特征选择,RF进行分类;REDFS是指本发明使用的方法,即基于改进ReliefF的癌症组学特征选择算法。
图4中(a)-(c)分别表示三种癌症数据的准确度变化区线,(d)为将三种癌症的精度放在一起进行对比,图4(d)中,STCA表示胃癌的转录组学数据;THCA表示甲状腺的转录组学数据;BRCA表示乳腺癌的转录组学数据,通过对比三种不同癌症数据在保留相同特征数目其精度的变化存在差异,本发明的方法在精度上取得较好的效果
通过图4,可以看出,三种癌症数据随保留特征数目的不同呈现不同的起伏且波动较大,而本发明的方法在三种数据中均取得较好的效果,并且相对稳定,精度均保持在90%以上。
表3为本发明与深度特征选择分类的对比结果,图5为本发明与深度特征选择分类的对比结果示意图,(a)为准确度,(b)为曲线下方面积,(c)为敏感度,(d)为精确度,与表3对应,其中,DNP-AAP、RDFS、fDNN代表深度特征选择方法的三种方法,REDFS是指本发明使用的方法,即基于改进ReliefF的癌症组学特征选择算法。
表3:本发明与深度特征选择分类的对比结果
通过表3和图5,本发明在三个数据集中均高出Relief准确率的10%,高出IML-ReliefF算法准确率的9.74%。总体来说,四种算法均取得较好地实验效果,但REDFS算法在三种癌症数据集中分类性能更高,更具有研究意义。
以上所述是本发明的选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统,其特征在于,包括特征选择模块和预后预测模块;
所述特征选择模块,用于在ReliefF算法的基础上,引入了差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选;
所述预后预测模块,用于将筛选出的三种癌症特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
2.一种权利要求1所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,包括如下步骤:
(1)特征选择模块使用改进后的ReliefF算法,引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,筛选出最佳特征子集;
(2)预后预测模块将步骤(1)筛选出的最佳特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
3.根据权利要求2所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,步骤(1)的具体实现过程为:
假设在癌症组学数据集中有x个样本,f为特征集,其中f={f1,f2,f3…fi…fp},一个样本x由p维向量(x1,x2,x3,…xi…xp)构成,进行t次迭代,随机选取一个训练样本xi,然后选取该样本的k个近邻同类样本和k个异类样本,代入特征权值更新;
两个不同样本xi与xj在特征fi上的差异系数如公式I所示:
式中,xi(fi)是样本xi在特征fi的取值,xj(fi)是样本xj在特征fi的取值,max(fi)和min(fi)分别表示特征fi在样本中的最大值和最小值;
特征权重更新公式如II所示:
式中:其中dsame为k个近邻同类样本的差异系数,ddiff为k个异类样本的差异系数,t代表该算法的迭代次数,l表示类别,lxi表示样本xi在类别中的所属标记,p(l)表示标记l的概率,p(lxi)表示样本xi所属标记的概率,wfi表示fi的权重,linkij表示Jaccard相似系数,表示样本xi与k个近邻同类样本在fi上的权重贡献,表示样本xi与k个异类样本在fi上的权重贡献;
将候选特征子集通过权重降序原则得到特征子集,将得到的特征子集进行特征提取筛选出包含信息丰富且冗余度低的候选特征子集,最终实现最佳特征子集的筛选。
4.根据权利要求2所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,所述神经网络中设置有四层隐藏层,其隐藏层的节点数分别为16、32、32、2,迭代次数优选设置为50。
5.根据权利要求4所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,隐藏层的标准架构如式(III)所示:
P(y|X,θ)=G(LoutWout+bout),
……,
Lout=σ(L1W1+b1),
……,
Lk+1=σ(LkWk+bk),
……,
L1=σ(XWin+bin)(III)
其中,P(y|X,θ)表示预测结果即分类结果,X=(X1,X2,X3,...,.Xn)T是三种癌症的转录组学的特征子集矩阵,y代表样本标签,θ代表神经网络的所有参数;G(·)表示分类函数,σ(·)表示隐含层的激活函数;Lout表示输出层,Wout表示神经网络中输出层中的特征矩阵权重值,bout表示输出层误差值,b1、bk表示隐藏层的误差值,bin表示输入层误差值,L1表示第一层隐藏层,W1表示第一层隐藏层的特征矩阵权重值,Lk+1表示第k+1层隐藏层,Lk表示第k层隐藏层,Wk表示第k层隐藏层的特征矩阵权重值,Win表示输入层的特征矩阵权重值。
6.根据权利要求5所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,分类函数为softmax分类函数,隐含层的激活函数为Relu函数。
7.根据权利要求5所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,在步骤(1)之前还包括获取数据,所述数据来源于TCGA数据库,采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集;
通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据;利用R语言中的差异分析进行差异分析,通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求2-7任一所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2-7任一所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310069802.7A CN116052885B (zh) | 2023-02-07 | 2023-02-07 | 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310069802.7A CN116052885B (zh) | 2023-02-07 | 2023-02-07 | 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116052885A true CN116052885A (zh) | 2023-05-02 |
CN116052885B CN116052885B (zh) | 2024-03-08 |
Family
ID=86117973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310069802.7A Active CN116052885B (zh) | 2023-02-07 | 2023-02-07 | 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052885B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680594A (zh) * | 2023-05-05 | 2023-09-01 | 齐鲁工业大学(山东省科学院) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598774A (zh) * | 2015-02-04 | 2015-05-06 | 河南师范大学 | 基于logistic与相关信息熵的特征基因选择方法 |
US20180268065A1 (en) * | 2017-03-20 | 2018-09-20 | Facebook, Inc. | Search Result Ranking Based on Post Classifiers on Online Social Networks |
CN110957036A (zh) * | 2019-10-24 | 2020-04-03 | 中国人民解放军总医院 | 一种基于因果推理构建的疾病预后风险评估模型的方法 |
CN111833966A (zh) * | 2020-07-07 | 2020-10-27 | 华东师范大学 | 一种基于自适应lasso的特征选择方法及系统 |
CN112070171A (zh) * | 2020-09-11 | 2020-12-11 | 桂林理工大学 | 一种基于实例选择和特征选择的优化数据集的方法 |
CN112926650A (zh) * | 2021-02-24 | 2021-06-08 | 辽宁工程技术大学 | 一种基于特征选择耦合相似度的数据异常检测方法 |
CN113362888A (zh) * | 2021-06-02 | 2021-09-07 | 齐鲁工业大学 | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 |
-
2023
- 2023-02-07 CN CN202310069802.7A patent/CN116052885B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598774A (zh) * | 2015-02-04 | 2015-05-06 | 河南师范大学 | 基于logistic与相关信息熵的特征基因选择方法 |
US20180268065A1 (en) * | 2017-03-20 | 2018-09-20 | Facebook, Inc. | Search Result Ranking Based on Post Classifiers on Online Social Networks |
CN110957036A (zh) * | 2019-10-24 | 2020-04-03 | 中国人民解放军总医院 | 一种基于因果推理构建的疾病预后风险评估模型的方法 |
CN111833966A (zh) * | 2020-07-07 | 2020-10-27 | 华东师范大学 | 一种基于自适应lasso的特征选择方法及系统 |
CN112070171A (zh) * | 2020-09-11 | 2020-12-11 | 桂林理工大学 | 一种基于实例选择和特征选择的优化数据集的方法 |
CN112926650A (zh) * | 2021-02-24 | 2021-06-08 | 辽宁工程技术大学 | 一种基于特征选择耦合相似度的数据异常检测方法 |
CN113362888A (zh) * | 2021-06-02 | 2021-09-07 | 齐鲁工业大学 | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 |
Non-Patent Citations (3)
Title |
---|
JIAO LIU 等: "Improved reliefF-based feature selection algorithm for cancer history", BIOMEDICAL SIGNAL PROCESSING AND CONTROL, vol. 85, 31 August 2023 (2023-08-31), pages 1 - 10 * |
孙林等: "基于邻域粗糙集和Relief的弱标记特征选择方法", 计算机科学, vol. 49, no. 04, 30 October 2021 (2021-10-30), pages 152 - 160 * |
李田力等: "标记不平衡性的多标记粗糙互信息特征选择", 忻州师范学院学报, vol. 37, no. 05, 30 October 2021 (2021-10-30), pages 42 - 48 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680594A (zh) * | 2023-05-05 | 2023-09-01 | 齐鲁工业大学(山东省科学院) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116052885B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
George et al. | Review on feature selection techniques and the impact of SVM for cancer classification using gene expression profile | |
Ressom et al. | Classification algorithms for phenotype prediction in genomics and proteomics | |
Singh et al. | Artificial intelligence based medical decision support system for early and accurate breast cancer prediction | |
Maulik et al. | Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data | |
Chiang et al. | A combination of rough-based feature selection and RBF neural network for classification using gene expression data | |
Liu et al. | Feature selection based on sensitivity analysis of fuzzy ISODATA | |
Mundra et al. | Gene and sample selection for cancer classification with support vectors based t-statistic | |
Kianmehr et al. | Fuzzy clustering-based discretization for gene expression classification | |
Ramathilagam et al. | Extended Gaussian kernel version of fuzzy c-means in the problem of data analyzing | |
CN112926640B (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
Bakhshandeh et al. | Symmetric uncertainty class-feature association map for feature selection in microarray dataset | |
CN116052885B (zh) | 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 | |
Laskhmaiah et al. | An Optimized K-means with Density and Distance-Based Clustering Algorithm for Multidimensional Spatial Databases. | |
Lamba et al. | Computational studies in breast Cancer | |
Babu et al. | A simplex method-based bacterial colony optimization algorithm for data clustering analysis | |
Ceccarelli et al. | Improving fuzzy clustering of biological data by metric learning with side information | |
Chellamuthu et al. | Data mining and machine learning approaches in breast cancer biomedical research | |
Wong et al. | A probabilistic mechanism based on clustering analysis and distance measure for subset gene selection | |
Devi Arockia Vanitha et al. | Multiclass cancer diagnosis in microarray gene expression profile using mutual information and support vector machine | |
CN111354415B (zh) | 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法 | |
Yin et al. | Novel algorithm for coexpression detection in time-varying microarray datasets | |
Al-Baity et al. | A New Optimized Wrapper Gene Selection Method for Breast Cancer Prediction. | |
Xu et al. | Comparison of different classification methods for breast cancer subtypes prediction | |
Dasgupta et al. | A study and analysis of a feature subset selection technique using penguin search optimization algorithm | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |