CN116052885A - 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 - Google Patents

基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 Download PDF

Info

Publication number
CN116052885A
CN116052885A CN202310069802.7A CN202310069802A CN116052885A CN 116052885 A CN116052885 A CN 116052885A CN 202310069802 A CN202310069802 A CN 202310069802A CN 116052885 A CN116052885 A CN 116052885A
Authority
CN
China
Prior art keywords
feature
relieff
feature selection
cancer
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310069802.7A
Other languages
English (en)
Other versions
CN116052885B (zh
Inventor
赵龙
刘娇
司呈坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202310069802.7A priority Critical patent/CN116052885B/zh
Publication of CN116052885A publication Critical patent/CN116052885A/zh
Application granted granted Critical
Publication of CN116052885B publication Critical patent/CN116052885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质,属于生物医学技术领域。本发明基于改进ReliefF的癌症组学特征选择算法提高三种癌症的预后预测精度,在特征选择部分,提出了引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选。在神经网络的训练部分,将筛选后冗余度低且信息全面的三种癌症特征子集传入神经网络进行训练预测,最终得到三种不同癌症的预后预测精度。

Description

基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
技术领域
本发明涉及一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质,通过将深度学习与神经网络相结合的方式提高癌症组学的分类效果,属于生物医学技术领域。
背景技术
在全球癌症统计中,癌症致死率在近几年呈上升趋势,位居排行首列中的胃癌、乳腺癌以及甲状腺癌也成为高死亡率的癌症之一。乳腺癌虽作为女性最常被检测出的癌症,但死亡率却仍居高不下。胃癌和甲状腺作为人群中普遍发生的疾病,但治愈率却不见提升,及时准确的诊断是治疗该类疾病的重要环节。因此,设计行之有效地方法提高三种癌症的预测准确度是极其重要的。目前,由于组学数据高维低样本的特点,单一数据集会因样本不平衡等多种因素影响预测效果,导致分类效果不佳。多组组学数据可有效规避因信息不全、数据不平衡等问题,可有效改善实验效果。因此,利用深度特征选择降维的同时提高组学数据分类效果对于预后预测极为重要。
近年来,虽然乳腺癌、胃癌和甲状腺癌逐渐成为全球患病最频繁的癌症,但在深度学习领域的研究较少。Mourad等人通过特征选择对甲状腺癌数据集进行预后的评估,具体参见:Mourad,M.,Moubayed,S.P.,Dezube,A.R.,Mourad,Y.,Park,K.,Torreblanca-Zanca,A.,Torrecilla,J.S.,Cancilla,J.C.,&Wang,J.(2020).Machine Learning and FeatureSelection Applied to SEER Data to Reliably Assess Thyroid CancerPrognosis.Scientific Reports,10.Solanki等人采用特征选择等方法对乳腺癌进行预后,具体参见:Solanki,Y.S.,Chakrabarti,P.,Jasinski,M.F.,Leonowicz,Z.,Bolshev,V.,Vinogradov,A.,Jasińska,E.,Goňo,R.,&Nami,M.(2021).A Hybrid SupervisedMachine Learning Classifier System for Breast Cancer Prognosis Using FeatureSelection and Data Imbalance Handling Approaches.Electronics.Kim等人结合机器学习对胃癌进行预测,具体参见:Kim,Y.,Lee,S.,Kim,D.,Chae,J.,Ham,H.,Cho,H.C.,&Cho,H.(2020).Machine Learning based Gastric Cancer Computer-aided DiagnosisSystem using Feature Selection.The Transactions of the Korean Institute ofElectrical Engineers,69,170-176。
以上研究虽然已经取得了一定的成果,但是分类精度方面还存在不足,这也证明在癌症研究领域还存在很大的提升空间。着机器学习的出现,越来越多的研究者开始使用机器学习的方法对癌症数据进行研究。Thara等人利用机器学习对胃癌进行预测,具体参见:Thara,L.,&Gunasundari,R.(2018).Swarm Intelligence Based Feature SelectionAlgorithms and Classifiers for Gastric Cancer Prediction.InternationalConference on Intelligent Data Communication Technologies and Internet ofThings(ICICI)2018.Sarkar等人使用机器学习方法预测乳腺癌亚型标志物,具体参见:]Sarkar,J.P.,Saha,I.,Sarkar,A.,&Maulik,U.(2021).Machine learning integratedensemble of feature selection methods followed by survival analysis forpredicting breast cancer subtype specific miRNA biomarkers.Computers inbiology and medicine,131,104244.Wu等人结合机器学习预测甲状腺的转移,具体参见:Wu,Y.,Rao,K.V.,Liu,J.,Han,C.,Gong,L.,Chong,Y.,Liu,Z.,&Xu,X.(2020).MachineLearning Algorithms for the Prediction of Central Lymph Node Metastasis inPatients With Papillary Thyroid Cancer.Frontiers in Endocrinology,11。
以上研究表明,机器学习的加入可以明显提高分类效果,但由于基因数据的高维高噪比的特性导致分类精度低。因此,本发明提出了一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度的系统及方法,将该方法应用于三种不同癌症数据集,以提高预后预测的精度。
发明内容
在现阶段中,特征选择算法在组学应用中得到广泛推崇,但是很少考虑使用深度特征选择算法提高癌症的预后预测精度。针对此问题,本发明提供了一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质。
术语解释:
1、组学数据:主要包括转录组学、脂类组学、免疫组学、RNA组学、影像组学、超声组学等。
2、基因表达数据(Exp):反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。基因表达数据属于组学数据中的一种。
3、胃癌:发生于胃黏膜上皮的恶性肿瘤。
4、乳腺癌:乳腺上皮细胞在多种致癌因子的作用下,发生增殖失控的现象。
5、甲状腺癌:起源于甲状腺滤泡上皮细胞的恶性肿瘤。
本发明的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度的系统及方法主要解决的问题如下:(1)传统的机器学习算法在处理组学数据过程中存在数据冗余、数据高维等问题,均对癌症预后预测造成干扰。(2)为了解决组学数据中出现的高维高噪声的问题,提出了引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选。(3)针对组学数据分类精度不高的问题,提出了改进的Relief特征选择算法与神经网络相结合的方法,提高三种不同癌症的分类精度。
本发明采用以下技术方案:
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统,包括特征选择模块和预后预测模块;
所述特征选择模块,用于在ReliefF算法的基础上,引入了差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选;
所述预后预测模块,用于将筛选出的三种癌症特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
一种上述基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,包括如下步骤:
(1)特征选择模块使用改进后的ReliefF算法,根据特征与样本之间的相关性赋予特征相应的权值,引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,最终通过权重降序原则,筛选出最佳特征子集;
(2)预后预测模块将步骤(1)筛选出的最佳特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
优选的,步骤(1)的具体实现过程为:
假设在癌症组学数据集中有x个样本,f为特征集,其中f={f1,f2,f3…fi…fp},一个样本x由p维向量(x1,x2,x3,…xi…xp)构成,进行t次迭代,随机选取一个训练样本xi,然后选取该样本的k个近邻同类样本和k个异类样本(本发明属于二分类,从训练集中随机选择一个样本xi,然后从与xi同类的样本中寻找k个最近邻样本,与xi不同类的样本中选取k个异类样本),代入特征权值更新;
两个不同样本xi与xj在特征fi上的差异系数如公式I所示:
Figure BDA0004064318090000041
式中,xi(fi)是样本xi在特征fi的取值,xj(fi)是样本xj在特征fi的取值,max(fi)和min(fi)分别表示特征fi在样本中的最大值和最小值;
特征权重更新公式如II所示:
Figure BDA0004064318090000042
式中:其中dsame为k个近邻同类样本的差异系数,ddiff为k个异类样本的差异系数,t代表该算法的迭代次数,l表示类别,lxi表示样本xi在类别中的所属标记,p(l)表示标记l的概率,p(lxi)表示样本xi所属标记的概率,wfi表示fi的权重,linkij表示Jaccard相似系数,
Figure BDA0004064318090000043
表示样本xi与k个近邻同类样本在fi上的权重贡献,
Figure BDA0004064318090000044
表示样本xi与k个异类样本在fi上的权重贡献;
将候选特征子集通过权重降序原则得到特征子集,将得到的特征子集进行特征提取筛选出包含信息丰富且冗余度低的候选特征子集,最终实现最佳特征子集的筛选。
优选的,所述神经网络中设置有四层隐藏层、一层输入层和一层输出层,其隐藏层的节点数分别为16、32、32、2,迭代次数优选设置为50,虽然迭代次数增多可能会提高实验效果,但具体情况还需要具体分析,本发明进行了大量试验证明训练50次时效果较好。最后设置每次batch-size为16个特征。
优选的,隐藏层的标准架构如式(III)所示:
P(y|X,θ)=G(LoutWout+bout),
……,
Lout=σ(L1W1+b1),
……,
Lk+1=σ(LkWk+bk),
……,
L1=σ(XWin+bin)(III)
其中,P(y|X,θ)表示预测结果即分类结果,X=(X1,X2,X3,...,.Xn)T是三种癌症的转录组学的特征子集矩阵,y代表样本标签,如设置y=0表示正常样本,y=1表示甲状腺肿瘤样本,θ代表神经网络的所有参数;G(·)表示分类函数,σ(·)表示隐含层的激活函数;Lout表示输出层,Wout表示神经网络中输出层中的特征矩阵权重值,bout表示输出层误差值,b1、bk表示隐藏层的误差值,bin表示输入层误差值,L1表示第一层隐藏层,W1表示第一层隐藏层的特征矩阵权重值,Lk+1表示第k+1层隐藏层,Lk表示第k层隐藏层,Wk表示第k层隐藏层的特征矩阵权重值,Win表示输入层的特征矩阵权重值。
优选的,分类函数为softmax分类函数,隐含层的激活函数为Relu函数。
本发明提出的REDFS算法(指改进的ReliefF),采用了四层隐藏层,对特征子集进行提取,使用Adam优化器,Relu函数作为隐含层的激活函数,使用softmax函数将最后神经元的输出结果映射到(0,1)之间得到癌症的分类精度。
优选的,在步骤(1)之前还包括获取数据,所述数据来源于TCGA数据库,采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集;
通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据;利用R语言中的差异分析进行差异分析,通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现上述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
本发明未详尽之处,均可采用现有技术。
本发明的有益效果为:
本发明基于改进ReliefF的癌症组学特征选择算法提高三种癌症的预后预测精度,在特征选择部分,提出了引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选。在神经网络的训练部分,将筛选后冗余度低且信息全面的三种癌症特征子集传入神经网络进行训练预测,最终得到三种不同癌症的预后预测精度。
附图说明
图1为基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法流程示意图;
图2为本发明神经网络的结构框图;
图3为本发明与现存的ReliefF算法的对比结果示意图,其中(a)为准确度,(b)为曲线下方面积,(c)为敏感度,(d)为精确度;
图4为本发明与传统特征选择分类的对比结果示意图,其中(a)表示胃癌在保留不同特征选择数目时Accuracy结果;(b)表示甲状腺癌在保留不同特征选择数目时Accuracy结果;(c)表示乳腺癌在保留不同特征选择数目时Accuracy结果;(d)三种癌症在REDFS算法下不同特征数目时Accuracy结果;
图5为本发明与深度特征选择分类的对比结果示意图,其中(a)为准确度,(b)为曲线下方面积,(c)为敏感度,(d)为精确度。
具体实施方式:
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
实施例1
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统,包括特征选择模块和预后预测模块;
所述特征选择模块,用于在ReliefF算法的基础上,引入了差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选;
所述预后预测模块,用于将筛选出的三种癌症特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
实施例2
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,如图1所示,该流程图主要分为数据获取、方法以及性能评估;
所述数据来源于TCGA数据库,采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集,并对数据集进行预处理;
通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据;利用R语言中的差异分析进行差异分析,通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集。
方法包括如下步骤:
(1)特征选择模块使用改进后的ReliefF算法,属于特征权重算法,根据特征与样本之间的相关性赋予特征相应的权值,引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,最终通过权重降序原则,筛选出最佳特征子集;
(2)预后预测模块将步骤(1)筛选出的最佳特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
性能评估使用机器学习中的二分类评估指标。
在图1中,通过TCGA官网分别下载胃癌、乳腺癌以及甲状腺癌的基因表达数据;通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据;利用R语言中的差异分析进行差异分析,通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集;利用本发明提出的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法得到最终候选特征子集;最后将特征子集传入神经网络进行训练预测得到最终的分类精度。
本发明的重点论述的是改进的ReliefF算法,通过ReliefF特征权重排列得到特征子集,进行特征提取得到低维特征子集。本发明中加入差异系数,通过扩大相似样本与差异样本之间差异,提高特征选择的稳定性,提出使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,最终通过权重降序原则,实现最佳特征子集的筛选。
实施例3
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,如实施例2所述,所不同的是,步骤(1)的具体实现过程为:
假设在癌症组学数据集中有x个样本,f为特征集,其中f={f1,f2,f3…fi…fp},一个样本x由p维向量(x1,x2,x3,…xi…xp)构成,进行t次迭代,随机选取一个训练样本xi,然后选取该样本的k个近邻同类样本和k个异类样本(本发明属于二分类,从训练集中随机选择一个样本xi,然后从与xi同类的样本中寻找k个最近邻样本,与xi不同类的样本中选取k个异类样本),代入特征权值更新;
两个不同样本xi与xj在特征fi上的差异系数如公式I所示:
Figure BDA0004064318090000081
式中,xi(fi)是样本xi在特征fi的取值,xj(fi)是样本xj在特征fi的取值,max(fi)和min(fi)分别表示特征fi在样本中的最大值和最小值;
特征权重更新公式如II所示:
Figure BDA0004064318090000082
式中:其中dsame为k个近邻同类样本的差异系数,ddiff为k个异类样本的差异系数,t代表该算法的迭代次数,l表示类别,lxi表示样本xi在类别中的所属标记,p(l)表示标记l的概率,p(lxi)表示样本xi所属标记的概率,wfi表示fi的权重,linkij表示Jaccard相似系数,
Figure BDA0004064318090000083
表示样本xi与k个近邻同类样本在fi上的权重贡献,
Figure BDA0004064318090000084
表示样本xi与k个异类样本在fi上的权重贡献;
将候选特征子集通过权重降序原则得到特征子集,将得到的特征子集进行特征提取筛选出包含信息丰富且冗余度低的候选特征子集,最终实现最佳特征子集的筛选。
实施例4
一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,如实施例3所述,所不同的是,神经网络中设置有四层隐藏层、一层输入层和一层输出层,其隐藏层的节点数分别为16、32、32、2,迭代次数优选设置为50,虽然迭代次数增多可能会提高实验效果,但具体情况还需要具体分析,本发明进行了大量试验证明训练50次时效果较好。最后设置每次batch-size为16个特征。
隐藏层的标准架构如式(III)所示:
P(y|X,θ)=G(LoutWout+bout),
……,
Lout=σ(L1W1+b1),
……,
Lk+1=σ(LkWk+bk),
……,
L1=σ(XWin+bin)(III)
其中,P(y|X,θ)表示预测结果即分类结果,X=(X1,X2,X3,...,.Xn)T是三种癌症的转录组学的特征子集矩阵,y代表样本标签,如设置y=0表示正常样本,y=1表示甲状腺肿瘤样本,θ代表神经网络的所有参数;G(·)表示分类函数,σ(·)表示隐含层的激活函数;Lout表示输出层,Wout表示神经网络中输出层中的特征矩阵权重值,bout表示输出层误差值,b1、bk表示隐藏层的误差值,bin表示输入层误差值,L1表示第一层隐藏层,W1表示第一层隐藏层的特征矩阵权重值,Lk+1表示第k+1层隐藏层,Lk表示第k层隐藏层,Wk表示第k层隐藏层的特征矩阵权重值,Win表示输入层的特征矩阵权重值。
分类函数为softmax分类函数,隐含层的激活函数为Relu函数。
本发明提出的REDFS算法(指改进的ReliefF),采用了四层隐藏层,对特征子集进行提取,使用Adam优化器,Relu函数作为隐含层的激活函数,使用softmax函数将最后神经元的输出结果映射到(0,1)之间得到癌症的分类精度。
实施例5
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例3的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
实施例6
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例3的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
为了证明面向甲状腺癌的深度特征选择算法的有效性,本发明进行了大量的对比试验。首先使用机器学习中专有的Accuracy,AUC,SN和SP对模型进行性能评估。其中accuracy代表准确度,AUC代表曲线下方面积,SN表示敏感度,SP表示精确度,表1为本发明与现存的ReliefF算法的对比结果表,图3为本发明与现存的ReliefF算法的对比结果示意图,与表1相对应,其中(a)为准确度Accuracy,(b)为曲线下方面积AUC,(c)为敏感度SN,(d)为精确度SP。
表1:本发明与现存的ReliefF算法的对比结果
Figure BDA0004064318090000101
其中,ReliefF、ML-ReliefF、IML-ReliefF是其中三种现存的ReliefF方法,Datasets代表数据类型,将该三种方法与本发明改进的ReliefF方法(REDFS)进行对比,通过图3,可以看出本发明的方法在性能上明显优于现存的三种ReliefF方法。
表2为本发明与传统特征选择分类的对比结果,图4为本发明与传统特征选择分类的对比结果示意图,与表2是对应的;
表2:本发明与传统特征选择分类的对比结果
Figure BDA0004064318090000102
Figure BDA0004064318090000111
其中,CHI是指卡方检验方法,一般指皮尔森卡方检验;F-test指F-检验又称相关系数法,该方法通过检测特征与标签之间的相关性进行特征选择;RF是指随机森林的方法,通过自身的特性可以进行分类;LR-RFE是指L1正则化-递归消除方法,该方法使用RFE进行特征选择,LR用来分类;RF-RFE是指随机森林-递归消除方法,该方法同样使用RFE进行特征选择,RF进行分类;REDFS是指本发明使用的方法,即基于改进ReliefF的癌症组学特征选择算法。
图4中(a)-(c)分别表示三种癌症数据的准确度变化区线,(d)为将三种癌症的精度放在一起进行对比,图4(d)中,STCA表示胃癌的转录组学数据;THCA表示甲状腺的转录组学数据;BRCA表示乳腺癌的转录组学数据,通过对比三种不同癌症数据在保留相同特征数目其精度的变化存在差异,本发明的方法在精度上取得较好的效果
通过图4,可以看出,三种癌症数据随保留特征数目的不同呈现不同的起伏且波动较大,而本发明的方法在三种数据中均取得较好的效果,并且相对稳定,精度均保持在90%以上。
表3为本发明与深度特征选择分类的对比结果,图5为本发明与深度特征选择分类的对比结果示意图,(a)为准确度,(b)为曲线下方面积,(c)为敏感度,(d)为精确度,与表3对应,其中,DNP-AAP、RDFS、fDNN代表深度特征选择方法的三种方法,REDFS是指本发明使用的方法,即基于改进ReliefF的癌症组学特征选择算法。
表3:本发明与深度特征选择分类的对比结果
Figure BDA0004064318090000112
Figure BDA0004064318090000121
通过表3和图5,本发明在三个数据集中均高出Relief准确率的10%,高出IML-ReliefF算法准确率的9.74%。总体来说,四种算法均取得较好地实验效果,但REDFS算法在三种癌症数据集中分类性能更高,更具有研究意义。
以上所述是本发明的选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统,其特征在于,包括特征选择模块和预后预测模块;
所述特征选择模块,用于在ReliefF算法的基础上,引入了差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,实现最佳特征子集的筛选;
所述预后预测模块,用于将筛选出的三种癌症特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
2.一种权利要求1所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,包括如下步骤:
(1)特征选择模块使用改进后的ReliefF算法,引入差异系数,在扩大相似样本与差异样本之间差异的同时提高特征选择的稳定性,使用Jaccard相似系数权重来计算每个特征的权重的同时实现权重的更新,保留最具关键性的特征子集,筛选出最佳特征子集;
(2)预后预测模块将步骤(1)筛选出的最佳特征子集输入进神经网络进行学习分类,得到三种癌症最终的分类结果。
3.根据权利要求2所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,步骤(1)的具体实现过程为:
假设在癌症组学数据集中有x个样本,f为特征集,其中f={f1,f2,f3…fi…fp},一个样本x由p维向量(x1,x2,x3,…xi…xp)构成,进行t次迭代,随机选取一个训练样本xi,然后选取该样本的k个近邻同类样本和k个异类样本,代入特征权值更新;
两个不同样本xi与xj在特征fi上的差异系数如公式I所示:
Figure FDA0004064318080000011
式中,xi(fi)是样本xi在特征fi的取值,xj(fi)是样本xj在特征fi的取值,max(fi)和min(fi)分别表示特征fi在样本中的最大值和最小值;
特征权重更新公式如II所示:
Figure FDA0004064318080000021
式中:其中dsame为k个近邻同类样本的差异系数,ddiff为k个异类样本的差异系数,t代表该算法的迭代次数,l表示类别,lxi表示样本xi在类别中的所属标记,p(l)表示标记l的概率,p(lxi)表示样本xi所属标记的概率,wfi表示fi的权重,linkij表示Jaccard相似系数,
Figure FDA0004064318080000022
表示样本xi与k个近邻同类样本在fi上的权重贡献,
Figure FDA0004064318080000023
表示样本xi与k个异类样本在fi上的权重贡献;
将候选特征子集通过权重降序原则得到特征子集,将得到的特征子集进行特征提取筛选出包含信息丰富且冗余度低的候选特征子集,最终实现最佳特征子集的筛选。
4.根据权利要求2所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,所述神经网络中设置有四层隐藏层,其隐藏层的节点数分别为16、32、32、2,迭代次数优选设置为50。
5.根据权利要求4所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,隐藏层的标准架构如式(III)所示:
P(y|X,θ)=G(LoutWout+bout),
……,
Lout=σ(L1W1+b1),
……,
Lk+1=σ(LkWk+bk),
……,
L1=σ(XWin+bin)(III)
其中,P(y|X,θ)表示预测结果即分类结果,X=(X1,X2,X3,...,.Xn)T是三种癌症的转录组学的特征子集矩阵,y代表样本标签,θ代表神经网络的所有参数;G(·)表示分类函数,σ(·)表示隐含层的激活函数;Lout表示输出层,Wout表示神经网络中输出层中的特征矩阵权重值,bout表示输出层误差值,b1、bk表示隐藏层的误差值,bin表示输入层误差值,L1表示第一层隐藏层,W1表示第一层隐藏层的特征矩阵权重值,Lk+1表示第k+1层隐藏层,Lk表示第k层隐藏层,Wk表示第k层隐藏层的特征矩阵权重值,Win表示输入层的特征矩阵权重值。
6.根据权利要求5所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,分类函数为softmax分类函数,隐含层的激活函数为Relu函数。
7.根据权利要求5所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法,其特征在于,在步骤(1)之前还包括获取数据,所述数据来源于TCGA数据库,采用胃癌、乳腺癌以及甲状腺癌的基因表达数据作为数据集;
通过R语言分别将三种基因表达数据处理成计算机可识别的微阵列数据;利用R语言中的差异分析进行差异分析,通过pvalue>0.5和log2Foldchange>1筛选出符合包含信息多且冗余度低的候选特征子集。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求2-7任一所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2-7任一所述的基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统的工作方法的步骤。
CN202310069802.7A 2023-02-07 2023-02-07 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质 Active CN116052885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310069802.7A CN116052885B (zh) 2023-02-07 2023-02-07 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310069802.7A CN116052885B (zh) 2023-02-07 2023-02-07 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质

Publications (2)

Publication Number Publication Date
CN116052885A true CN116052885A (zh) 2023-05-02
CN116052885B CN116052885B (zh) 2024-03-08

Family

ID=86117973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310069802.7A Active CN116052885B (zh) 2023-02-07 2023-02-07 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116052885B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680594A (zh) * 2023-05-05 2023-09-01 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598774A (zh) * 2015-02-04 2015-05-06 河南师范大学 基于logistic与相关信息熵的特征基因选择方法
US20180268065A1 (en) * 2017-03-20 2018-09-20 Facebook, Inc. Search Result Ranking Based on Post Classifiers on Online Social Networks
CN110957036A (zh) * 2019-10-24 2020-04-03 中国人民解放军总医院 一种基于因果推理构建的疾病预后风险评估模型的方法
CN111833966A (zh) * 2020-07-07 2020-10-27 华东师范大学 一种基于自适应lasso的特征选择方法及系统
CN112070171A (zh) * 2020-09-11 2020-12-11 桂林理工大学 一种基于实例选择和特征选择的优化数据集的方法
CN112926650A (zh) * 2021-02-24 2021-06-08 辽宁工程技术大学 一种基于特征选择耦合相似度的数据异常检测方法
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598774A (zh) * 2015-02-04 2015-05-06 河南师范大学 基于logistic与相关信息熵的特征基因选择方法
US20180268065A1 (en) * 2017-03-20 2018-09-20 Facebook, Inc. Search Result Ranking Based on Post Classifiers on Online Social Networks
CN110957036A (zh) * 2019-10-24 2020-04-03 中国人民解放军总医院 一种基于因果推理构建的疾病预后风险评估模型的方法
CN111833966A (zh) * 2020-07-07 2020-10-27 华东师范大学 一种基于自适应lasso的特征选择方法及系统
CN112070171A (zh) * 2020-09-11 2020-12-11 桂林理工大学 一种基于实例选择和特征选择的优化数据集的方法
CN112926650A (zh) * 2021-02-24 2021-06-08 辽宁工程技术大学 一种基于特征选择耦合相似度的数据异常检测方法
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIAO LIU 等: "Improved reliefF-based feature selection algorithm for cancer history", BIOMEDICAL SIGNAL PROCESSING AND CONTROL, vol. 85, 31 August 2023 (2023-08-31), pages 1 - 10 *
孙林等: "基于邻域粗糙集和Relief的弱标记特征选择方法", 计算机科学, vol. 49, no. 04, 30 October 2021 (2021-10-30), pages 152 - 160 *
李田力等: "标记不平衡性的多标记粗糙互信息特征选择", 忻州师范学院学报, vol. 37, no. 05, 30 October 2021 (2021-10-30), pages 42 - 48 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680594A (zh) * 2023-05-05 2023-09-01 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法

Also Published As

Publication number Publication date
CN116052885B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
George et al. Review on feature selection techniques and the impact of SVM for cancer classification using gene expression profile
Ressom et al. Classification algorithms for phenotype prediction in genomics and proteomics
Singh et al. Artificial intelligence based medical decision support system for early and accurate breast cancer prediction
Maulik et al. Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data
Chiang et al. A combination of rough-based feature selection and RBF neural network for classification using gene expression data
Liu et al. Feature selection based on sensitivity analysis of fuzzy ISODATA
Mundra et al. Gene and sample selection for cancer classification with support vectors based t-statistic
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
Ramathilagam et al. Extended Gaussian kernel version of fuzzy c-means in the problem of data analyzing
CN112926640B (zh) 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
Bakhshandeh et al. Symmetric uncertainty class-feature association map for feature selection in microarray dataset
CN116052885B (zh) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
Laskhmaiah et al. An Optimized K-means with Density and Distance-Based Clustering Algorithm for Multidimensional Spatial Databases.
Lamba et al. Computational studies in breast Cancer
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
Ceccarelli et al. Improving fuzzy clustering of biological data by metric learning with side information
Chellamuthu et al. Data mining and machine learning approaches in breast cancer biomedical research
Wong et al. A probabilistic mechanism based on clustering analysis and distance measure for subset gene selection
Devi Arockia Vanitha et al. Multiclass cancer diagnosis in microarray gene expression profile using mutual information and support vector machine
CN111354415B (zh) 基因增强的骨架粒子群优化特征选择算法的小鼠唐氏综合征关键蛋白质筛选方法
Yin et al. Novel algorithm for coexpression detection in time-varying microarray datasets
Al-Baity et al. A New Optimized Wrapper Gene Selection Method for Breast Cancer Prediction.
Xu et al. Comparison of different classification methods for breast cancer subtypes prediction
Dasgupta et al. A study and analysis of a feature subset selection technique using penguin search optimization algorithm
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant