CN113130002A - 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 - Google Patents

一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 Download PDF

Info

Publication number
CN113130002A
CN113130002A CN202110475896.9A CN202110475896A CN113130002A CN 113130002 A CN113130002 A CN 113130002A CN 202110475896 A CN202110475896 A CN 202110475896A CN 113130002 A CN113130002 A CN 113130002A
Authority
CN
China
Prior art keywords
gene
analysis
model
feature
prognosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110475896.9A
Other languages
English (en)
Other versions
CN113130002B (zh
Inventor
刘元宁
赵曦
张�浩
钟晓丹
王林宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110475896.9A priority Critical patent/CN113130002B/zh
Publication of CN113130002A publication Critical patent/CN113130002A/zh
Application granted granted Critical
Publication of CN113130002B publication Critical patent/CN113130002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Mathematical Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其方法为:步骤一、对原始的基因表达矩阵进行数据的预处理;步骤二、在经过预处理后得到的数据上进行生物标志物筛选;步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型;步骤四、建模之后对选出的标志物进行生信分析。有益效果:使用线性支持向量机模型验证45个基因标志物,利用五折较差验证的AUC和ACC作为模型评估指标,最终的结果为AUC=0.98,ACC=0.92。该结果明显优于大多数传统基因标志物选择方法,本发明不仅能找出与肺癌相关的标志物,准确预测肺癌患者的生存期,同时还能发掘与肺腺癌发生相关的通路,探究肺腺癌的发生机制。

Description

一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的 新方法
技术领域
本发明涉及一种模型构建及生物学验证的新方法,特别涉及一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法。
背景技术
目前,肺癌是一种死亡率和发病率居全世界首位的恶性肿瘤。除此之外,肺癌恶性程度高,预后较差,5年生存率仅有8%。肺癌的治疗手段多种多样,传统的治疗手段包括药物治疗、手术治疗、放疗、化疗等。进入二十一世纪后,分子靶向治疗取得了重大突破,通过针对癌症特异性因子进行治疗的效果远远好于传统疗法。因此,找到与癌症的发病机理相关的特异性生物分子也是当前的肿瘤生物学领域的研究热点。
近几年越来越多的研究团队致力于肺腺癌肿瘤标志物的挖掘和预后模型的构建,这些方法可以分为两类,一类是基于传统生物学的方法:研究者们采集肺癌患者的尿液,血浆,病理切片,细胞组织液等生物样本,通过分析实验组和对照组中不同生物分子的浓度,或者通过抗原-抗体结合反应、相关激酶代谢反应、免疫学反应或者与某种特定试剂的阳性反应来判断。这样生化方法通常手段复杂,实验花费开销昂贵,效率低,同时会由于实验人员的操作带来误差。另一类是基于高通量组学与统计学、机器学习结合的标志物挖掘方法。常规的方法包括以医学统计学为基础,最常见的是Cox变量分析寻找与预测目标相关性较强的标志物,并使用KM曲线进行生存分析挖掘标志物的方法。同时,生信数据库在标志物的筛选中也发挥重要作用,例如DAVID,STRING,GeneBank,Gene Ontology等被广泛地应用于生物信息的挖掘中。随着机器学习和数据挖掘技术的发展,越来越多的方法被应用到标志物的筛选中。常规的RFE特征选择算法,二进制的粒子群优化算法,深度学习也在不同的数据集体现出色性能,同时使用机器学习算法取代传统的风险回归模型也能的都更高的精度。虽然基于高通量的手段可以减小实验损耗,提升效率,但是面对上万维度的特征时,如何有效地选出最佳标志物这一问题,依然是当前相关领域要解决的重点难题。
递归特征消除的主要思想是反复的构建模型,然后根据特征重要性筛选删除一部分不重要的特征,接下来在剩余的特征上重复这个过程,直到当前特征集合为空为止。之后输出被删除的特征排序即为即为特征重要性排序。在生物学信息中,SVM与RFE结合是最常用的方法,在多个生物组学数据集中表现优越。
SFFS算法,即序列浮动向前算法是一种常见的基于Wrapper的特征选择方法,基本思想如下:从空集开始,在未选择的特征中选择一个特征x,使子集加入x后评价函数达到最优。然后在已选择的特征中删除一个特征y,使子集剔除 z后评价函数达到最优。
发明内容
本发明的目的是能快速、准确地筛选与肺腺癌患者预后生存相关的标志物,利用选出的标志物构建预后模型并对这些标志物进行生物信息学验证,而提供的一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法。
本发明提供的肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其方法包括如下步骤:
步骤一、对原始的基因表达矩阵进行数据的预处理,首先使用匹配文件进行注释,将探针名改为基因名,按照如下方式进行数据预处理:
1)、删除缺失率超过20%的转录组特征基因;
2)、删除方差接近0的转录组特征基因;
3)、对缺失率超过20%的转录组特征基因使用KNN填充的方式进行填充;
4)、使用Z-score方法对上述3)得到的表达矩阵进行归一化;
最终,得到了一个含有数个基因,数个样本的转录组表达数据矩阵;
步骤二、在经过预处理后得到的数据上进行生物标志物筛选,流程如下所示:
1)、使用双边t检验去除癌症/非癌症组p值大于0.05的特征基因,p值越大,说明在不同分组种显著性差异越不明显;
2)、获取差异表达基因,即利用fold-change检验计算出癌症/非癌症组的 logFC值和FDR值,保留|logFC|>1.5,FDR<0.05的基因,并且根据|logFC|的正负来判断该基因在癌症发生过程中是上调还是下调;
3)、利用scikt-learn中的SelectFromModel模块来实现基于模型的特征选择,利用模型自带的特征评估的功能,删除低于某一特征评分的设定值的特征,该过程是一个迭代的过程,通过阈值和迭代次数的设定确定最终的结果;
4)、构建基因表达的相关性网络,并与fold-change和generank算法相结合,调整SVMRFE中的特征权重来确定最终的基因排序列表,改进的SVMRFE 算法过程如下所示:
首先依据互信息公式构造一个互信息矩阵,互信息公式(1)如下所示:
Figure BDA0003047080220000031
将互信息矩阵转成拓扑重叠网络的形式,这一步的目的是寻找基因间的广泛联系:
Figure BDA0003047080220000032
按照公式(3)、(4)计算评分矩阵,将评分矩阵看成相关性网络:
Figure BDA0003047080220000041
Figure BDA0003047080220000042
对相关性网络使用GeneRank算法,按照公式(5)计算每个节点的重要性,这里相关性网络上的节点表示矩阵中的基因:
Figure BDA0003047080220000043
根据公式(5)的结果和支持向量机递归特征清除重新确定转录组中基因特征的重要权重;
采用SVMRFE算法通过模型训练样本,对每个特征进行评分排序,去掉评分最低的特征,然后重复构建模型进行下一次训练,该过程中特征重要性的评估方法如公式(6):
ci=wi 2 (6)
支持向量机训练过程求出(6)之后,利用公式(4)重新计算每一个基因的重要性,此时的重要性为公式(5)和公式(6)两个结果的比值,如公式(7)所示:
ranki=wi 2/ri [N] (7)
经过公式(7)得到的结果为每一个基因重新计算的重要性。以此重要性为评估指标,进行递归特征清除算法;
5)、输出执行改进的SVMRFE算法得到的基因排序,选取前50个特征基因中的最优子集,在利用动态SFFS方法对最优子集进行去冗余,得到的基因组合即可被认定为是最佳基因组合;
去冗余的过程是一种改进的SFFS算法,该算法首先从空集开始,从未被选中的特征中选择一个加入特征集合,使加入后分类准确率更高;然后从已选中的特征中删除特征,在该过程中使用一个数组记录当前特征数为i时的最佳分类准确率arr[i],如果删除过程中arr[i]升高,则继续删除,检验arr[i-1] 的值,一直删除到该值不再继续升高为止;
步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型,以生存期是否超过三年将其分成正、负样本,通过多种机器学习分类模型进行对比,使用五折交叉验证评估,用ACC值,AUC值,F1-score值作为评估指标,选择线性支持向量机作为预后分类模型;
支持向量机是去找到一个超平面,尽可能地将两个不同类别的样本分开,定义这个超平面为wTx+b=0,在二维平面中,就相当于直线w_1*x+w_1*y+b=0,其中,x代表输入向量,也就是样本集合中的向量;w是可调权值向量,每个向量可调权值;T代表向量的转置;b代表偏置,即超平面相对原点的偏移,而在超平面上方的点,定义为y=1,在超平面下方的点,定义为y=-1,在支持向量机训练的过程中,实现任意一个样本与超平面的间隔最大化,这时的间隔称为硬间隔,该过程中的目标函数为:
Figure BDA0003047080220000051
由于
Figure BDA0003047080220000052
的最大化等价于
Figure BDA0003047080220000053
的最小化,因此根据凸优化理论,最终的目标函数为:
Figure BDA0003047080220000054
在模型的构建中使用的是线性支持向量机,线性支持向量机,指原有的数据样本本可以寻找一个超平面使两个样本完全分离,但是混入了异常点导致无法线性可分或者由于异常点严重影响模型的泛化性能,在这种情况下,引入一个松弛变量ξi,对应一个代价,使间隔函数加上松弛变量大于等于1,这个过程称为软间隔最大化,此时目标函数为:
Figure BDA0003047080220000061
在目标函数中,C表示惩罚系数,αi、μi均为大于0的拉格朗日系数,C越大,对误分类的惩罚也越大;
步骤四、建模之后对选出的标志物进行生信分析,其中包括基因组功能分析、KM生存分析、通路分析和miRNA靶基因分析,通路分析包括GO分析、KEGG 分析和Reactome分析,生存分析是通过对患者的随访,分析一定时间后的患者生存或者死亡的状况,KM生存分析中使用Kaplan-Meier分析法。
本发明的有益效果:
本发明提供的肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法应用于TCGA数据库的数据集中,能够筛选出45个基因。使用线性支持向量机模型验证45个基因标志物,利用五折较差验证的AUC和ACC作为模型评估指标,最终的结果为AUC=0.98,ACC=0.92。该结果明显优于大多数传统基因标志物选择方法。
同时,本发明提出的方法中还包括了对标志物的生物学验证。从功能分析和靶基因的结果看出,选中的45个标志物有36个基因参与了与肺癌相关的基因调控过程,其他的标志物也被证实参与了癌症的发生和发展,将该标志物集合进行KM分析和时间依赖的ROC曲线,得到高低风险组p<0.00001的显著性差异和0.841的ROC值。同时,本发明使用了包含通路分析,生存分析等方法进一步验证选中的标志物与肺癌相关的功能。在多种通路分析中,发现多种通路与肺癌的发生与发展有关。这也证明本发明不仅能找出与肺癌相关的标志物,准确预测肺癌患者的生存期,同时还能发掘与肺腺癌发生相关的通路,探究肺腺癌的发生机制。
附图说明
图1为本发明所述的为肿瘤转录组数据的预处理流程示意图。
图2为本发明所述的为肿瘤标志物的筛选流程示意图。
图3为本发明所述的为预后模型的建立和生物信息的验证过程示意图。
具体实施方式
请参阅图1至图3所示:
本发明提供的肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其方法包括如下步骤:
步骤一、对原始的基因表达矩阵进行数据的预处理,首先使用匹配文件进行注释,将探针名改为基因名。数据预处理的过程如下所示:
1)、删除缺失率超过20%的转录组特征基因;
2)、删除方差接近0的转录组特征基因;
3)、对缺失率超过20%的转录组特征基因使用KNN填充的方式进行填充;
4)、使用Z-score方法对3)得到的表达矩阵进行归一化
最终,得到了一个含有57000个基因,513个样本的转录组表达数据矩阵。
步骤二、在经过预处理后得到的数据上进行生物标志物筛选,流程如下所示;
1)、使用双边t检验去除癌症/非癌症组p值大于0.05的特征基因;
2)、获取差异表达基因,即利用fold-change检验计算出癌症/非癌症组的 logFC值和FDR值,保留|logFC|>1.5,FDR<0.05的基因;
3)、利用scikt-learn中的SelectFromModel模块来实现基于模型的特征选择,利用模型自带的特征评估的功能,删除低于某一特征评分的设定值的特征。该过程是一个迭代的过程,通过阈值和迭代次数的设定确定最终的结果。
4)、构建基因表达的相关性网络,并与fold-change和generank算法相结合,调整SVMRFE中的特征权重来确定最终的基因排序列表。改进的SVMRFE 算法过程如下所示:
首先依据互信息公式构造一个互信息矩阵,互信息公式(1)如下所示:
Figure BDA0003047080220000081
将互信息矩阵转成拓扑重叠网络的形式,这一步的目的是寻找基因间的广泛联系:
Figure BDA0003047080220000082
按照公式(3)、(4)计算评分矩阵,将评分矩阵看成相关性网络:
Figure BDA0003047080220000083
Figure BDA0003047080220000084
对相关性网络使用GeneRank算法,按照公式(5)计算每个节点的重要性,这里相关性网络上的节点表示矩阵中的基因:
Figure BDA0003047080220000085
根据公式(5)的结果和支持向量机递归特征清除重新确定转录组中基因特征的重要权重。
SVMRFE算法是一种基于支持向量机的包装式后向序列特征选择方法,该算法通过模型训练样本,对每个特征进行评分排序,去掉评分最低的特征,然后重复构建模型进行下一次训练。该过程中特征重要性的评估方法如公式(6)。
ci=wi 2 (6)
支持向量机训练过程求出(6)之后,利用(4)重新计算每一个基因的重要性,此时的重要性为(5)和(6)两个结果的比值,如公式(7)所示。
ranki=wi 2/ri [N] (7)
经过公式(7)得到的结果为每一个基因重新计算的重要性。以此重要性为评估指标,进行递归特征清除算法。
5)、输出执行改进的SVMRFE算法得到的基因排序,选取前50个特征基因中的最优子集,在利用动态SFFS方法对最优子集进行去冗余,得到的基因组合即可被认定为是最佳基因组合。
去冗余的过程是一种改进的SFFS算法,该算法首先从空集开始,从未被选中的特征中选择一个加入特征集合,使加入后分类准确率更高;然后从已选中的特征中删除特征,在该过程中使用一个数组记录当前特征数为i时的最佳分类准确率arr[i]。如果删除过程中arr[i]升高,则继续删除,检验arr[i-1] 的值,一直删除到该值不再继续升高为止。
步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型,以生存期是否超过三年将其分成正、负样本,通过多种机器学习分类模型进行对比,使用五折交叉验证评估,用ACC值,AUC值,F1-score值作为评估指标,选择线性支持向量机作为预后分类模型;
支持向量机是去找到一个超平面,尽可能地将两个不同类别的样本分开,定义这个超平面为wTx+b=0,在二维平面中,就相当于直线w_1*x+w_1*y+b=0,其中,x代表输入向量,也就是样本集合中的向量;w是可调权值向量,每个向量可调权值;T代表向量的转置;b代表偏置,即超平面相对原点的偏移,而在超平面上方的点,定义为y=1,在超平面下方的点,定义为y=-1,在支持向量机训练的过程中,实现任意一个样本与超平面的间隔最大化,这时的间隔称为硬间隔,该过程中的目标函数为:
Figure BDA0003047080220000101
由于
Figure BDA0003047080220000102
的最大化等价于
Figure BDA0003047080220000103
的最小化,因此根据凸优化理论,最终的目标函数为:
Figure BDA0003047080220000104
在模型的构建中使用的是线性支持向量机,线性支持向量机,指原有的数据样本本可以寻找一个超平面使两个样本完全分离,但是混入了异常点导致无法线性可分或者由于异常点严重影响模型的泛化性能,在这种情况下,引入一个松弛变量ξi,对应一个代价,使间隔函数加上松弛变量大于等于1,这个过程称为软间隔最大化,此时目标函数为:
Figure BDA0003047080220000105
在目标函数中,C表示惩罚系数,αi、μi均为大于0的拉格朗日系数,C越大,对误分类的惩罚也越大;
步骤四、建模之后对选出的标志物进行生信分析,其中包括基因组功能分析、KM生存分析、通路分析和miRNA靶基因分析,通路分析包括GO分析、KEGG 分析和Reactome分析,生存分析是通过对患者的随访,分析一定时间后的患者生存或者死亡的状况,KM生存分析中使用Kaplan-Meier分析法。

Claims (1)

1.一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其特征在于:其方法包括如下步骤:
步骤一、对原始的基因表达矩阵进行数据的预处理,首先使用匹配文件进行注释,将探针名改为基因名,按照如下方式进行数据预处理:
1)、删除缺失率超过20%的转录组特征基因;
2)、删除方差接近0的转录组特征基因;
3)、对缺失率超过20%的转录组特征基因使用KNN填充的方式进行填充;
4)、使用Z-score方法对上述3)得到的表达矩阵进行归一化;
最终,得到了一个含有数个基因,数个样本的转录组表达数据矩阵;
步骤二、在经过预处理后得到的数据上进行生物标志物筛选,流程如下所示:
1)、使用双边t检验去除癌症/非癌症组p值大于0.05的特征基因,p值越大,说明在不同分组种显著性差异越不明显;
2)、获取差异表达基因,即利用fold-change检验计算出癌症/非癌症组的logFC值和FDR值,保留|logFC|>1.5,FDR<0.05的基因,并且根据|logFC|的正负来判断该基因在癌症发生过程中是上调还是下调;
3)、利用scikt-learn中的SelectFromModel模块来实现基于模型的特征选择,利用模型自带的特征评估的功能,删除低于某一特征评分的设定值的特征,该过程是一个迭代的过程,通过阈值和迭代次数的设定确定最终的结果;
4)、构建基因表达的相关性网络,并与fold-change和generank算法相结合,调整SVMRFE中的特征权重来确定最终的基因排序列表,改进的SVMRFE算法过程如下所示:
首先依据互信息公式构造一个互信息矩阵,互信息公式(1)如下所示:
Figure FDA0003047080210000021
将互信息矩阵转成拓扑重叠网络的形式,这一步的目的是寻找基因间的广泛联系:
Figure FDA0003047080210000022
按照公式(3)、(4)计算评分矩阵,将评分矩阵看成相关性网络:
Figure FDA0003047080210000023
Figure FDA0003047080210000024
对相关性网络使用GeneRank算法,按照公式(5)计算每个节点的重要性,这里相关性网络上的节点表示矩阵中的基因:
Figure FDA0003047080210000025
根据公式(5)的结果和支持向量机递归特征清除重新确定转录组中基因特征的重要权重;
采用SVMRFE算法通过模型训练样本,对每个特征进行评分排序,去掉评分最低的特征,然后重复构建模型进行下一次训练,该过程中特征重要性的评估方法如公式(6):
ci=wi 2 (6)
支持向量机训练过程求出(6)之后,利用公式(4)重新计算每一个基因的重要性,此时的重要性为公式(5)和公式(6)两个结果的比值,如公式(7)所示:
ranki=wi 2/ri [N] (7)
经过公式(7)得到的结果为每一个基因重新计算的重要性,以此重要性为评估指标,进行递归特征清除算法;
5)、输出执行改进的SVMRFE算法得到的基因排序,选取前50个特征基因中的最优子集,在利用动态SFFS方法对最优子集进行去冗余,得到的基因组合即可被认定为是最佳基因组合;
去冗余的过程是一种改进的SFFS算法,该算法首先从空集开始,从未被选中的特征中选择一个加入特征集合,使加入后分类准确率更高;然后从已选中的特征中删除特征,在该过程中使用一个数组记录当前特征数为i时的最佳分类准确率arr[i],如果删除过程中arr[i]升高,则继续删除,检验arr[i-1]的值,一直删除到该值不再继续升高为止;
步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型,以生存期是否超过三年将其分成正、负样本,通过多种机器学习分类模型进行对比,使用五折交叉验证评估,用ACC值,AUC值,F1-score值作为评估指标,选择线性支持向量机作为预后分类模型;
支持向量机是去找到一个超平面,尽可能地将两个不同类别的样本分开,定义这个超平面为wTx+b=0,在二维平面中,就相当于直线w_1*x+w_1*y+b=0,其中,x代表输入向量,也就是样本集合中的向量;w是可调权值向量,每个向量可调权值;T代表向量的转置;b代表偏置,即超平面相对原点的偏移,而在超平面上方的点,定义为y=1,在超平面下方的点,定义为y=-1,在支持向量机训练的过程中,实现任意一个样本与超平面的间隔最大化,这时的间隔称为硬间隔,该过程中的目标函数为:
Figure FDA0003047080210000031
由于
Figure FDA0003047080210000032
的最大化等价于
Figure FDA0003047080210000033
的最小化,因此根据凸优化理论,最终的目标函数为:
Figure FDA0003047080210000041
满足αi≥0;
在模型的构建中使用的是线性支持向量机,线性支持向量机,指原有的数据样本本可以寻找一个超平面使两个样本完全分离,但是混入了异常点导致无法线性可分或者由于异常点严重影响模型的泛化性能,在这种情况下,引入一个松弛变量ξi,对应一个代价,使间隔函数加上松弛变量大于等于1,这个过程称为软间隔最大化,此时目标函数为:
Figure FDA0003047080210000042
在目标函数中,C表示惩罚系数,αi、μi均为大于0的拉格朗日系数,C越大,对误分类的惩罚也越大;
步骤四、建模之后对选出的标志物进行生信分析,其中包括基因组功能分析、KM生存分析、通路分析和miRNA靶基因分析,通路分析包括GO分析、KEGG分析和Reactome分析,生存分析是通过对患者的随访,分析一定时间后的患者生存或者死亡的状况,KM生存分析中使用Kaplan-Meier分析法。
CN202110475896.9A 2021-04-29 2021-04-29 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 Active CN113130002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475896.9A CN113130002B (zh) 2021-04-29 2021-04-29 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475896.9A CN113130002B (zh) 2021-04-29 2021-04-29 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法

Publications (2)

Publication Number Publication Date
CN113130002A true CN113130002A (zh) 2021-07-16
CN113130002B CN113130002B (zh) 2022-11-08

Family

ID=76781053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475896.9A Active CN113130002B (zh) 2021-04-29 2021-04-29 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法

Country Status (1)

Country Link
CN (1) CN113130002B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694748A (zh) * 2022-02-22 2022-07-01 中国人民解放军军事科学院军事医学研究院 一种基于预后信息与强化学习的蛋白质组学分子分型方法
CN116417070A (zh) * 2023-04-17 2023-07-11 齐鲁工业大学(山东省科学院) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007010628A1 (ja) * 2005-07-22 2007-01-25 Japanese Foundation For Cancer Research 癌の予防・治療剤
US20110143959A1 (en) * 2008-08-13 2011-06-16 Rosetta Genomics Ltd. Compositions and methods for determining the prognosis of bladder urothelial cancer
CN109033747A (zh) * 2018-07-20 2018-12-18 福建师范大学福清分校 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法
CN109841281A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
CN109859801A (zh) * 2019-02-14 2019-06-07 辽宁省肿瘤医院 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
CN111027590A (zh) * 2019-11-11 2020-04-17 郑州大学第一附属医院 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法
CN112391470A (zh) * 2020-11-11 2021-02-23 广东医科大学 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007010628A1 (ja) * 2005-07-22 2007-01-25 Japanese Foundation For Cancer Research 癌の予防・治療剤
US20110143959A1 (en) * 2008-08-13 2011-06-16 Rosetta Genomics Ltd. Compositions and methods for determining the prognosis of bladder urothelial cancer
CN109841281A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
CN109033747A (zh) * 2018-07-20 2018-12-18 福建师范大学福清分校 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法
CN109859801A (zh) * 2019-02-14 2019-06-07 辽宁省肿瘤医院 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
CN111027590A (zh) * 2019-11-11 2020-04-17 郑州大学第一附属医院 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法
CN112391470A (zh) * 2020-11-11 2021-02-23 广东医科大学 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZONGTAO YU等: "Development of predicitve models to distinguish metals from non-metal toxicants, and individual metal from one another", 《SELECTED ARTICLES FROM THE 20TH INTERNATIONAL CONFERENCE ON BIOINFORMATICS & COMPUTATIONAL BIOLOGY (BIOCOMP 2019)》 *
唐增伟: "胆管癌分子标志物筛选及诊断效能的循证评价研究", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》 *
来海锋: "面向肿瘤检测的生物表达数据特征选择研究", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》 *
赵曦: "基于机器学习的肺腺癌生存预后与肿瘤分期的特征建模方法研究", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694748A (zh) * 2022-02-22 2022-07-01 中国人民解放军军事科学院军事医学研究院 一种基于预后信息与强化学习的蛋白质组学分子分型方法
CN114694748B (zh) * 2022-02-22 2022-10-28 中国人民解放军军事科学院军事医学研究院 一种基于预后信息与强化学习的蛋白质组学分子分型方法
CN116417070A (zh) * 2023-04-17 2023-07-11 齐鲁工业大学(山东省科学院) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法

Also Published As

Publication number Publication date
CN113130002B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
Boulesteix et al. IPF‐LASSO: integrative L1‐penalized regression with penalty factors for prediction based on multi‐omics data
US20200239965A1 (en) Source of origin deconvolution based on methylation fragments in cell-free dna samples
CN113130002B (zh) 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
KR20190101966A (ko) 범-암 게놈에서 dna 접근성을 예측하기 위한 방법 및 시스템
CN113539376B (zh) 判断肝细胞肝癌患者预后的基因模型、构建方法和应用
US20170024529A1 (en) Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient&#39;s Survival Prediction
WO2020132544A1 (en) Anomalous fragment detection and classification
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
CN114334012A (zh) 一种基于多组学数据识别癌症亚型的方法
CN115762792A (zh) 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法
Bellazzi et al. The Gene Mover's Distance: Single-cell similarity via Optimal Transport
CN105631464A (zh) 对染色体序列和质粒序列进行分类的方法及装置
Apiletti et al. Maskedpainter: feature selection for microarray data analysis
CN104462817B (zh) 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
CN114141306B (zh) 基于基因相互作用模式优化图表示的远处转移识别方法
Kim et al. A genetic filter for cancer classification on gene expression data
Yuan et al. HEARTSVG: a fast and accurate method for spatially variable gene identification in large-scale spatial transcriptomic data
KR102462746B1 (ko) 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템
Mishra et al. Probable Biomarker Identification Using Recursive Feature Extraction and Network Analysis
Alzubaidi et al. A new hybrid global optimization approach for selecting clinical and biological features that are relevant to the effective diagnosis of ovarian cancer
CN113160881B (zh) 一种基于mRMR和MBFA的高维数据特征选择方法
Slimen et al. Involving FCGR method in multiclass cancer diseases classification with transfer learning models
CN116741269A (zh) 一种融合基因特征和图卷积预测个性化癌症驱动基因的方法
Chlis et al. Extracting reliable gene expression signatures through stable bootstrap validation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant