CN113130002B - 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 - Google Patents

一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 Download PDF

Info

Publication number
CN113130002B
CN113130002B CN202110475896.9A CN202110475896A CN113130002B CN 113130002 B CN113130002 B CN 113130002B CN 202110475896 A CN202110475896 A CN 202110475896A CN 113130002 B CN113130002 B CN 113130002B
Authority
CN
China
Prior art keywords
value
gene
matrix
analysis
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110475896.9A
Other languages
English (en)
Other versions
CN113130002A (zh
Inventor
刘元宁
赵曦
张�浩
钟晓丹
王林宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110475896.9A priority Critical patent/CN113130002B/zh
Publication of CN113130002A publication Critical patent/CN113130002A/zh
Application granted granted Critical
Publication of CN113130002B publication Critical patent/CN113130002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Mathematical Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其方法为:步骤一、对原始的基因表达矩阵进行数据的预处理;步骤二、在经过预处理后得到的数据上进行生物标志物筛选;步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型;步骤四、建模之后对选出的标志物进行生信分析。有益效果:使用线性支持向量机模型验证45个基因标志物,利用五折较差验证的AUC和ACC作为模型评估指标,最终的结果为AUC=0.98,ACC=0.92。该结果明显优于大多数传统基因标志物选择方法,本发明不仅能找出与肺癌相关的标志物,准确预测肺癌患者的生存期,同时还能发掘与肺腺癌发生相关的通路,探究肺腺癌的发生机制。

Description

一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的 新方法
技术领域
本发明涉及一种模型构建及生物学验证的新方法,特别涉及一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法。
背景技术
目前,肺癌是一种死亡率和发病率居全世界首位的恶性肿瘤。除此之外,肺癌恶性程度高,预后较差,5年生存率仅有8%。肺癌的治疗手段多种多样,传统的治疗手段包括药物治疗、手术治疗、放疗、化疗等。进入二十一世纪后,分子靶向治疗取得了重大突破,通过针对癌症特异性因子进行治疗的效果远远好于传统疗法。因此,找到与癌症的发病机理相关的特异性生物分子也是当前的肿瘤生物学领域的研究热点。
近几年越来越多的研究团队致力于肺腺癌肿瘤标志物的挖掘和预后模型的构建,这些方法可以分为两类,一类是基于传统生物学的方法:研究者们采集肺癌患者的尿液,血浆,病理切片,细胞组织液等生物样本,通过分析实验组和对照组中不同生物分子的浓度,或者通过抗原-抗体结合反应、相关激酶代谢反应、免疫学反应或者与某种特定试剂的阳性反应来判断。这样生化方法通常手段复杂,实验花费开销昂贵,效率低,同时会由于实验人员的操作带来误差。另一类是基于高通量组学与统计学、机器学习结合的标志物挖掘方法。常规的方法包括以医学统计学为基础,最常见的是Cox变量分析寻找与预测目标相关性较强的标志物,并使用KM曲线进行生存分析挖掘标志物的方法。同时,生信数据库在标志物的筛选中也发挥重要作用,例如DAVID,STRING,GeneBank,Gene Ontology等被广泛地应用于生物信息的挖掘中。随着机器学习和数据挖掘技术的发展,越来越多的方法被应用到标志物的筛选中。常规的RFE特征选择算法,二进制的粒子群优化算法,深度学习也在不同的数据集体现出色性能,同时使用机器学习算法取代传统的风险回归模型也能的都更高的精度。虽然基于高通量的手段可以减小实验损耗,提升效率,但是面对上万维度的特征时,如何有效地选出最佳标志物这一问题,依然是当前相关领域要解决的重点难题。
递归特征消除的主要思想是反复的构建模型,然后根据特征重要性筛选删除一部分不重要的特征,接下来在剩余的特征上重复这个过程,直到当前特征集合为空为止。之后输出被删除的特征排序即为即为特征重要性排序。在生物学信息中,SVM与RFE结合是最常用的方法,在多个生物组学数据集中表现优越。
SFFS算法,即序列浮动向前算法是一种常见的基于Wrapper的特征选择方法,基本思想如下:从空集开始,在未选择的特征中选择一个特征x,使子集加入x后评价函数达到最优。然后在已选择的特征中删除一个特征y,使子集剔除z后评价函数达到最优。
发明内容
本发明的目的是能快速、准确地筛选与肺腺癌患者预后生存相关的标志物,利用选出的标志物构建预后模型并对这些标志物进行生物信息学验证,而提供的一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法。
本发明提供的肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其方法包括如下步骤:
步骤一、对原始的基因表达矩阵进行数据的预处理,首先使用匹配文件进行注释,将探针名改为基因名,按照如下方式进行数据预处理:
1)、删除缺失率超过20%的转录组特征基因;
2)、删除方差接近0的转录组特征基因;
3)、对缺失率超过20%的转录组特征基因使用KNN填充的方式进行填充;
4)、使用Z-score方法对上述3)得到的表达矩阵进行归一化;
最终,得到了一个含有数个基因,数个样本的转录组表达数据矩阵;
步骤二、在经过预处理后得到的数据上进行生物标志物筛选,流程如下所示:
1)、使用双边t检验去除癌症/非癌症组p值大于0.05的特征基因,p值越大,说明在不同分组种显著性差异越不明显;
2)、获取差异表达基因,即利用fold-change检验计算出癌症/非癌症组的logFC值和FDR值,保留|logFC|>1.5,FDR<0.05的基因,并且根据|logFC|的正负来判断该基因在癌症发生过程中是上调还是下调;
3)、利用scikt-learn中的SelectFromModel模块来实现基于模型的特征选择,利用模型自带的特征评估的功能,删除低于某一特征评分的设定值的特征,该过程是一个迭代的过程,通过阈值和迭代次数的设定确定最终的结果;
4)、构建基因表达的相关性网络,并与fold-change和generank算法相结合,调整SVMRFE中的特征权重来确定最终的基因排序列表,改进的SVMRFE算法过程如下所示:
首先依据互信息公式构造一个互信息矩阵,互信息公式(1)如下所示:
Figure GDA0003868491890000031
p(x,y)是X和Y的联合概率分布函数,指的是两个事件同时发生的概率,而p(x)和p(y)分别是X和Y的边缘概率分布函数,随机向量中分量各自的概率分布;
将互信息矩阵转成拓扑重叠网络的形式,这一步的目的是寻找基因间的广泛联系:
Figure GDA0003868491890000041
M_TOM:最终形成的矩阵值,n:检测样本的全部个数,min,样本矩阵第i行第n列的值;mnj,样本矩阵第n行第j列的值;mij,样本矩阵第i行第j列的值;
按照公式(3)、(4)计算评分矩阵,将评分矩阵看成相关性网络:
Figure GDA0003868491890000042
Figure GDA0003868491890000043
Z(i,j):形成新矩阵Z的表达值,zi 2:拓扑网络对应自变量的值;zj 2:拓扑网络对应结果因变量的值;
I(X;Y):样本表达式的互信息值,μi:样本平均总体数,σi:样本标准差;
对相关性网络使用GeneRank算法,按照公式(5)计算每个节点的重要性,这里相关性网络上的节点表示矩阵中的基因:
Figure GDA0003868491890000044
d:自由设定的参数值,成为阻尼系数,取值范围[0-1];degj:第j个基因的输出度,度表示在网络拓扑结构中有多少个与该基因相连的基因;fci:基因表达量与平均值相比变化的绝对值;
Figure GDA0003868491890000045
矩阵对角线的值;
根据公式(5)的结果和支持向量机递归特征清除重新确定转录组中基因特征的重要权重;
采用SVMRFE算法通过模型训练样本,对每个特征进行评分排序,去掉评分最低的特征,然后重复构建模型进行下一次训练,该过程中特征重要性的评估方法如公式(6):
ci=wi 2 (6)
wi 2:求解支持向量机得到的超平面的值;
支持向量机训练过程求出(6)之后,利用公式(4)重新计算每一个基因的重要性,此时的重要性为公式(5)和公式(6)两个结果的比值,如公式(7)所示:
ranki=wi 2/ri [N] (7)
wi 2:求解支持向量机得到的超平面的值,ri [N]:GeneRank算法得出的排序结果;经过公式(7)得到的结果为每一个基因重新计算的重要性,以此重要性为评估指标,进行递归特征清除算法;
5)、输出执行改进的SVMRFE算法得到的基因排序,选取前50个特征基因中的最优子集,在利用动态SFFS方法对最优子集进行去冗余,得到的基因组合即可被认定为是最佳基因组合;
去冗余的过程是一种改进的SFFS算法,该算法首先从空集开始,从未被选中的特征中选择一个加入特征集合,使加入后分类准确率更高;然后从已选中的特征中删除特征,在该过程中使用一个数组记录当前特征数为i时的最佳分类准确率arr[i],如果删除过程中arr[i]升高,则继续删除,检验arr[i-1]的值,一直删除到该值不再继续升高为止;
步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型,以生存期是否超过三年将其分成正、负样本,通过多种机器学习分类模型进行对比,使用五折交叉验证评估,用ACC值,AUC值,F1-score值作为评估指标,选择线性支持向量机作为预后分类模型;
支持向量机是去找到一个超平面,尽可能地将两个不同类别的样本分开,定义这个超平面为wTx+b=0,在二维平面中,就相当于直线w_1*x+w_1*y+b=0,其中,x代表输入向量,也就是样本集合中的向量;w是可调权值向量,每个向量可调权值;T代表向量的转置;b代表偏置,即超平面相对原点的偏移,而在超平面上方的点,定义为y=1,在超平面下方的点,定义为y=-1,在支持向量机训练的过程中,实现任意一个样本与超平面的间隔最大化,这时的间隔称为硬间隔,该过程中的目标函数为:
Figure GDA0003868491890000061
s.t yi(wTxi+b)≥1(i=1,2,...m)
由于
Figure GDA0003868491890000062
的最大化等价于
Figure GDA0003868491890000063
的最小化,因此根据凸优化理论,最终的目标函数为:
Figure GDA0003868491890000064
满足ai≥0;
在模型的构建中使用的是线性支持向量机,线性支持向量机,指原有的数据样本本可以寻找一个超平面使两个样本完全分离,但是混入了异常点导致无法线性可分或者由于异常点严重影响模型的泛化性能,在这种情况下,引入一个松弛变量ξi,对应一个代价,使间隔函数加上松弛变量大于等于1,这个过程称为软间隔最大化,此时目标函数为:
Figure GDA0003868491890000065
在目标函数中,C表示惩罚系数,αi、μi均为大于0的拉格朗日系数,C越大,对误分类的惩罚也越大;
步骤四、建模之后对选出的标志物进行生信分析,其中包括基因组功能分析、KM生存分析、通路分析和miRNA靶基因分析,通路分析包括GO分析、KEGG分析和Reactome分析,生存分析是通过对患者的随访,分析一定时间后的患者生存或者死亡的状况,KM生存分析中使用Kaplan-Meier分析法。
本发明的有益效果:
本发明提供的肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法应用于TCGA数据库的数据集中,能够筛选出45个基因。使用线性支持向量机模型验证45个基因标志物,利用五折较差验证的AUC和ACC作为模型评估指标,最终的结果为AUC=0.98,ACC=0.92。该结果明显优于大多数传统基因标志物选择方法。
同时,本发明提出的方法中还包括了对标志物的生物学验证。从功能分析和靶基因的结果看出,选中的45个标志物有36个基因参与了与肺癌相关的基因调控过程,其他的标志物也被证实参与了癌症的发生和发展,将该标志物集合进行KM分析和时间依赖的ROC曲线,得到高低风险组p<0.00001的显著性差异和0.841的ROC值。同时,本发明使用了包含通路分析,生存分析等方法进一步验证选中的标志物与肺癌相关的功能。在多种通路分析中,发现多种通路与肺癌的发生与发展有关。这也证明本发明不仅能找出与肺癌相关的标志物,准确预测肺癌患者的生存期,同时还能发掘与肺腺癌发生相关的通路,探究肺腺癌的发生机制。
附图说明
图1为本发明所述的为肿瘤转录组数据的预处理流程示意图。
图2为本发明所述的为肿瘤标志物的筛选流程示意图。
图3为本发明所述的为预后模型的建立和生物信息的验证过程示意图。
具体实施方式
请参阅图1至图3所示:
本发明提供的肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其方法包括如下步骤:
步骤一、对原始的基因表达矩阵进行数据的预处理,首先使用匹配文件进行注释,将探针名改为基因名。数据预处理的过程如下所示:
1)、删除缺失率超过20%的转录组特征基因;
2)、删除方差接近0的转录组特征基因;
3)、对缺失率超过20%的转录组特征基因使用KNN填充的方式进行填充;
4)、使用Z-score方法对3)得到的表达矩阵进行归一化
最终,得到了一个含有57000个基因,513个样本的转录组表达数据矩阵。
步骤二、在经过预处理后得到的数据上进行生物标志物筛选,流程如下所示;
1)、使用双边t检验去除癌症/非癌症组p值大于0.05的特征基因;
2)、获取差异表达基因,即利用fold-change检验计算出癌症/非癌症组的logFC值和FDR值,保留|logFC|>1.5,FDR<0.05的基因;
3)、利用scikt-learn中的SelectFromModel模块来实现基于模型的特征选择,利用模型自带的特征评估的功能,删除低于某一特征评分的设定值的特征。该过程是一个迭代的过程,通过阈值和迭代次数的设定确定最终的结果。
4)、构建基因表达的相关性网络,并与fold-change和generank算法相结合,调整SVMRFE中的特征权重来确定最终的基因排序列表。改进的SVMRFE算法过程如下所示:
首先依据互信息公式构造一个互信息矩阵,互信息公式(1)如下所示:
Figure GDA0003868491890000081
将互信息矩阵转成拓扑重叠网络的形式,这一步的目的是寻找基因间的广泛联系:
Figure GDA0003868491890000082
按照公式(3)、(4)计算评分矩阵,将评分矩阵看成相关性网络:
Figure GDA0003868491890000091
Figure GDA0003868491890000092
对相关性网络使用GeneRank算法,按照公式(5)计算每个节点的重要性,这里相关性网络上的节点表示矩阵中的基因:
Figure GDA0003868491890000093
根据公式(5)的结果和支持向量机递归特征清除重新确定转录组中基因特征的重要权重。
SVMRFE算法是一种基于支持向量机的包装式后向序列特征选择方法,该算法通过模型训练样本,对每个特征进行评分排序,去掉评分最低的特征,然后重复构建模型进行下一次训练。该过程中特征重要性的评估方法如公式(6)。
ci=wi 2 (6)
支持向量机训练过程求出(6)之后,利用(4)重新计算每一个基因的重要性,此时的重要性为(5)和(6)两个结果的比值,如公式(7)所示。
ranki=wi 2/ri [N] (7)
经过公式(7)得到的结果为每一个基因重新计算的重要性。以此重要性为评估指标,进行递归特征清除算法。
5)、输出执行改进的SVMRFE算法得到的基因排序,选取前50个特征基因中的最优子集,在利用动态SFFS方法对最优子集进行去冗余,得到的基因组合即可被认定为是最佳基因组合。
去冗余的过程是一种改进的SFFS算法,该算法首先从空集开始,从未被选中的特征中选择一个加入特征集合,使加入后分类准确率更高;然后从已选中的特征中删除特征,在该过程中使用一个数组记录当前特征数为i时的最佳分类准确率arr[i]。如果删除过程中arr[i]升高,则继续删除,检验arr[i-1]的值,一直删除到该值不再继续升高为止。
步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型,以生存期是否超过三年将其分成正、负样本,通过多种机器学习分类模型进行对比,使用五折交叉验证评估,用ACC值,AUC值,F1-score值作为评估指标,选择线性支持向量机作为预后分类模型;
支持向量机是去找到一个超平面,尽可能地将两个不同类别的样本分开,定义这个超平面为wTx+b=0,在二维平面中,就相当于直线w_1*x+w_1*y+b=0,其中,x代表输入向量,也就是样本集合中的向量;w是可调权值向量,每个向量可调权值;T代表向量的转置;b代表偏置,即超平面相对原点的偏移,而在超平面上方的点,定义为y=1,在超平面下方的点,定义为y=-1,在支持向量机训练的过程中,实现任意一个样本与超平面的间隔最大化,这时的间隔称为硬间隔,该过程中的目标函数为:
Figure GDA0003868491890000101
s.t yi(wTxi+b)≥1(i=1,2,...m)
由于
Figure GDA0003868491890000102
的最大化等价于
Figure GDA0003868491890000103
的最小化,因此根据凸优化理论,最终的目标函数为:
Figure GDA0003868491890000104
满足ai≥0;
在模型的构建中使用的是线性支持向量机,线性支持向量机,指原有的数据样本本可以寻找一个超平面使两个样本完全分离,但是混入了异常点导致无法线性可分或者由于异常点严重影响模型的泛化性能,在这种情况下,引入一个松弛变量ξi,对应一个代价,使间隔函数加上松弛变量大于等于1,这个过程称为软间隔最大化,此时目标函数为:
Figure GDA0003868491890000111
在目标函数中,C表示惩罚系数,αi、μi均为大于0的拉格朗日系数,C越大,对误分类的惩罚也越大;
步骤四、建模之后对选出的标志物进行生信分析,其中包括基因组功能分析、KM生存分析、通路分析和miRNA靶基因分析,通路分析包括GO分析、KEGG分析和Reactome分析,生存分析是通过对患者的随访,分析一定时间后的患者生存或者死亡的状况,KM生存分析中使用Kaplan-Meier分析法。

Claims (1)

1.一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其特征在于:其方法包括如下步骤:
步骤一、对原始的基因表达矩阵进行数据的预处理,首先使用匹配文件进行注释,将探针名改为基因名,按照如下方式进行数据预处理:
1)、删除缺失率超过20%的转录组特征基因;
2)、删除方差接近0的转录组特征基因;
3)、对缺失率超过20%的转录组特征基因使用KNN填充的方式进行填充;
4)、使用Z-score方法对上述3)得到的表达矩阵进行归一化;
最终,得到了一个含有数个基因,数个样本的转录组表达数据矩阵;
步骤二、在经过预处理后得到的数据上进行生物标志物筛选,流程如下所示:
1)、使用双边t检验去除癌症/非癌症组p值大于0.05的特征基因,p值越大,说明在不同分组种显著性差异越不明显;
2)、获取差异表达基因,即利用fold-change检验计算出癌症/非癌症组的logFC值和FDR值,保留|logFC|>1.5,FDR<0.05的基因,并且根据|logFC|的正负来判断该基因在癌症发生过程中是上调还是下调;
3)、利用scikt-learn中的SelectFromModel模块来实现基于模型的特征选择,利用模型自带的特征评估的功能,删除低于某一特征评分的设定值的特征,该过程是一个迭代的过程,通过阈值和迭代次数的设定确定最终的结果;
4)、构建基因表达的相关性网络,并与fold-change和generank算法相结合,调整SVMRFE中的特征权重来确定最终的基因排序列表,改进的SVMRFE算法过程如下所示:
首先依据互信息公式构造一个互信息矩阵,互信息公式(1)如下所示:
Figure FDA0003868491880000021
p(x,y)是X和Y的联合概率分布函数,指的是两个事件同时发生的概率,而p(x)和p(y)分别是X和Y的边缘概率分布函数,随机向量中分量各自的概率分布;
将互信息矩阵转成拓扑重叠网络的形式,这一步的目的是寻找基因间的广泛联系:
Figure FDA0003868491880000022
M_TOM:最终形成的矩阵值,n:检测样本的全部个数,min,样本矩阵第i行第n列的值;mnj,样本矩阵第n行第j列的值;mij,样本矩阵第i行第j列的值;
按照公式(3)、(4)计算评分矩阵,将评分矩阵看成相关性网络:
Figure FDA0003868491880000023
Figure FDA0003868491880000024
Z(i,j):形成新矩阵Z的表达值,zi 2:拓扑网络对应自变量的值;zj 2:拓扑网络对应结果因变量的值;
I(X;Y):样本表达式的互信息值,μi:样本平均总体数,σi:样本标准差;
对相关性网络使用GeneRank算法,按照公式(5)计算每个节点的重要性,这里相关性网络上的节点表示矩阵中的基因:
Figure FDA0003868491880000025
d:自由设定的参数值,成为阻尼系数,取值范围[0-1];degj:第j个基因的输出度,度表示在网络拓扑结构中有多少个与该基因相连的基因;fci:基因表达量与平均值相比变化的绝对值;
Figure FDA0003868491880000031
矩阵对角线的值;
根据公式(5)的结果和支持向量机递归特征清除重新确定转录组中基因特征的重要权重;
采用SVMRFE算法通过模型训练样本,对每个特征进行评分排序,去掉评分最低的特征,然后重复构建模型进行下一次训练,该过程中特征重要性的评估方法如公式(6):
ci=wi 2 (6)
wi 2:求解支持向量机得到的超平面的值;
支持向量机训练过程求出(6)之后,利用公式(4)重新计算每一个基因的重要性,此时的重要性为公式(5)和公式(6)两个结果的比值,如公式(7)所示:
ranki=wi 2/ri [N] (7)
wi 2:求解支持向量机得到的超平面的值,ri [N]:GeneRank算法得出的排序结果;经过公式(7)得到的结果为每一个基因重新计算的重要性,以此重要性为评估指标,进行递归特征清除算法;
5)、输出执行改进的SVMRFE算法得到的基因排序,选取前50个特征基因中的最优子集,在利用动态SFFS方法对最优子集进行去冗余,得到的基因组合即可被认定为是最佳基因组合;
去冗余的过程是一种改进的SFFS算法,该算法首先从空集开始,从未被选中的特征中选择一个加入特征集合,使加入后分类准确率更高;然后从已选中的特征中删除特征,在该过程中使用一个数组记录当前特征数为i时的最佳分类准确率arr[i],如果删除过程中arr[i]升高,则继续删除,检验arr[i-1]的值,一直删除到该值不再继续升高为止;
步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型,以生存期是否超过三年将其分成正、负样本,通过多种机器学习分类模型进行对比,使用五折交叉验证评估,用ACC值,AUC值,F1-score值作为评估指标,选择线性支持向量机作为预后分类模型;
支持向量机是去找到一个超平面,尽可能地将两个不同类别的样本分开,定义这个超平面为wTx+b=0,在二维平面中,就相当于直线w_1*x+w_1*y+b=0,其中,x代表输入向量,也就是样本集合中的向量;w是可调权值向量,每个向量可调权值;T代表向量的转置;b代表偏置,即超平面相对原点的偏移,而在超平面上方的点,定义为y=1,在超平面下方的点,定义为y=-1,在支持向量机训练的过程中,实现任意一个样本与超平面的间隔最大化,这时的间隔称为硬间隔,该过程中的目标函数为:
Figure FDA0003868491880000041
由于
Figure FDA0003868491880000042
的最大化等价于
Figure FDA0003868491880000043
的最小化,因此根据凸优化理论,最终的目标函数为:
Figure FDA0003868491880000044
满足ai≥0;
在模型的构建中使用的是线性支持向量机,线性支持向量机,指原有的数据样本本可以寻找一个超平面使两个样本完全分离,但是混入了异常点导致无法线性可分或者由于异常点严重影响模型的泛化性能,在这种情况下,引入一个松弛变量ξi,对应一个代价,使间隔函数加上松弛变量大于等于1,这个过程称为软间隔最大化,此时目标函数为:
Figure FDA0003868491880000045
在目标函数中,C表示惩罚系数,αi、μi均为大于0的拉格朗日系数,C越大,对误分类的惩罚也越大;
步骤四、建模之后对选出的标志物进行生信分析,其中包括基因组功能分析、KM生存分析、通路分析和miRNA靶基因分析,通路分析包括GO分析、KEGG分析和Reactome分析,生存分析是通过对患者的随访,分析一定时间后的患者生存或者死亡的状况,KM生存分析中使用Kaplan-Meier分析法。
CN202110475896.9A 2021-04-29 2021-04-29 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 Active CN113130002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475896.9A CN113130002B (zh) 2021-04-29 2021-04-29 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475896.9A CN113130002B (zh) 2021-04-29 2021-04-29 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法

Publications (2)

Publication Number Publication Date
CN113130002A CN113130002A (zh) 2021-07-16
CN113130002B true CN113130002B (zh) 2022-11-08

Family

ID=76781053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475896.9A Active CN113130002B (zh) 2021-04-29 2021-04-29 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法

Country Status (1)

Country Link
CN (1) CN113130002B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694748B (zh) * 2022-02-22 2022-10-28 中国人民解放军军事科学院军事医学研究院 一种基于预后信息与强化学习的蛋白质组学分子分型方法
CN116417070A (zh) * 2023-04-17 2023-07-11 齐鲁工业大学(山东省科学院) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法
CN116564409A (zh) * 2023-05-06 2023-08-08 海南大学 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN118335200B (zh) * 2024-06-12 2024-09-03 山东大学 基于因果特征选择的肺腺癌亚型分类系统、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007010628A1 (ja) * 2005-07-22 2007-01-25 Japanese Foundation For Cancer Research 癌の予防・治療剤
CN109033747A (zh) * 2018-07-20 2018-12-18 福建师范大学福清分校 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法
CN109841281A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
CN111027590A (zh) * 2019-11-11 2020-04-17 郑州大学第一附属医院 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法
CN112391470A (zh) * 2020-11-11 2021-02-23 广东医科大学 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110143959A1 (en) * 2008-08-13 2011-06-16 Rosetta Genomics Ltd. Compositions and methods for determining the prognosis of bladder urothelial cancer
CN109859801B (zh) * 2019-02-14 2023-09-19 辽宁省肿瘤医院 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007010628A1 (ja) * 2005-07-22 2007-01-25 Japanese Foundation For Cancer Research 癌の予防・治療剤
CN109841281A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
CN109033747A (zh) * 2018-07-20 2018-12-18 福建师范大学福清分校 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法
CN111027590A (zh) * 2019-11-11 2020-04-17 郑州大学第一附属医院 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法
CN112391470A (zh) * 2020-11-11 2021-02-23 广东医科大学 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Development of predicitve models to distinguish metals from non-metal toxicants, and individual metal from one another;Zongtao Yu等;《Selected Articles from the 20th International Conference on Bioinformatics & Computational Biology (BIOCOMP 2019)》;20201203;第21卷(第9期);1-14 *
基于机器学习的肺腺癌生存预后与肿瘤分期的特征建模方法研究;赵曦;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》;20220115(第01期);E072-452 *
胆管癌分子标志物筛选及诊断效能的循证评价研究;唐增伟;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》;20190915(第09期);E072-667 *
面向肿瘤检测的生物表达数据特征选择研究;来海锋;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》;20110915(第09期);E072-9 *

Also Published As

Publication number Publication date
CN113130002A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113130002B (zh) 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
US20200239965A1 (en) Source of origin deconvolution based on methylation fragments in cell-free dna samples
US20170024529A1 (en) Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient&#39;s Survival Prediction
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
JP2018181290A (ja) 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
Bennet et al. A Hybrid Approach for Gene Selection and Classification Using Support Vector Machine.
CN116680594B (zh) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
Dhillon et al. Biomarker identification and cancer survival prediction using random spatial local best cat swarm and Bayesian optimized DNN
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
Bellazzi et al. The Gene Mover's Distance: Single-cell similarity via Optimal Transport
CN115762792A (zh) 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
Rohimat et al. Implementation of Genetic Algorithm-Support Vector Machine on Gene Expression Data in Identification of Non-Small Cell Lung Cancer in Nonsmoking Female
Kim et al. A genetic filter for cancer classification on gene expression data
CN114141306B (zh) 基于基因相互作用模式优化图表示的远处转移识别方法
KR102462746B1 (ko) 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템
Ben-Dor et al. Overabundance analysis and class discovery in gene expression data
CN111414935A (zh) 基于卡方检测算法和改进的果蝇优化算法的有效混合特征选择方法
Mishra et al. Probable Biomarker Identification Using Recursive Feature Extraction and Network Analysis
CN116741269A (zh) 一种融合基因特征和图卷积预测个性化癌症驱动基因的方法
Korayem et al. A hybrid genetic algorithm and artificial immune system for informative gene selection
Slimen et al. Involving FCGR method in multiclass cancer diseases classification with transfer learning models
CN118114125B (zh) 基于增量学习的miRNA及其异构体家族信息识别方法
Zhou et al. Grading prediction of kidney renal clear cell carcinoma by deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant