CN113436684A - 一种癌症分类和特征基因选择方法 - Google Patents

一种癌症分类和特征基因选择方法 Download PDF

Info

Publication number
CN113436684A
CN113436684A CN202110751724.XA CN202110751724A CN113436684A CN 113436684 A CN113436684 A CN 113436684A CN 202110751724 A CN202110751724 A CN 202110751724A CN 113436684 A CN113436684 A CN 113436684A
Authority
CN
China
Prior art keywords
model
establishing
selection
cancer
learner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110751724.XA
Other languages
English (en)
Other versions
CN113436684B (zh
Inventor
施绍萍
何欢
余佳麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202110751724.XA priority Critical patent/CN113436684B/zh
Publication of CN113436684A publication Critical patent/CN113436684A/zh
Application granted granted Critical
Publication of CN113436684B publication Critical patent/CN113436684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息领域,公开了一种癌症分类和特征基因选择方法,包括以下步骤:初级学习器的建立:建立T个logistic回归模型及其对应的sparse group lasso正则化的损失函数求解模型,输出次级学习器训练集;次级学习器的建立:建立multi‑response回归模型及其对应L1正则化的损失函数求解模型,输出训练集预测结果;预后特征选择模型:建立预后特征选择SGL模型。本发明癌症分类和特征基因选择方法,满足预测、稳定和选择三大标准,stacking集成提高了模型对癌症分类预测的准确性和稳定性,准确选取致癌基因和癌症相关基因,增强模型的可解释性;融合基因与基因通路先验知识,提高了癌症分类的准确性和特征选择的有效性。

Description

一种癌症分类和特征基因选择方法
技术领域
本发明涉及生物信息领域,具体的说,涉及一种癌症分类和特征基因选择方法。
背景技术
大量研究表明,基因组学数据对许多癌症的分类是有用的。随着测序技术的发展,现在可以从单个细胞中分离和测序遗传物质。对于这类基因表达RNA序列数据,变量p(作为基因表达)的数量远远大于样本容量n。然而,从生物学的角度来看,只有一小部分基因变量能强烈指向靶向性疾病,而大多数基因与癌症分类无关。这些不相关的基因可能会引入噪声,降低分类精度。此外,从机器学习的角度来看,过多的基因可能会导致过拟合,并对分类性能产生负面影响,并且由于变量之间的伪依赖关系,导致优化过程不具有唯一性,也不具有稳定性,此时经典回归或分类方法是不合适的。所以需要有效的基因选择方法来帮助分类不同的癌症类型,提高预测的准确性。
正则化技术是一种重要的嵌入式特征选择方法可以同时实现模型训练和特征选择,尤其是将正则化技术融入逻辑回归框架以实现癌症分类和基因选择受到广泛关注。最常用正则化方法之一是基于lk-norm惩罚的组合,这类方法没有将基因和基因通路考虑在内,只是单纯从基因角度去考虑与复杂疾病的关联而没有考虑基因通路的协同作用。另一类常用的正则化是将lk-norm与表达特征潜在关系的函数式相结合,其优点是既可以结合特征之间先验知识或潜在联系,又可以实现特征稀疏。对于具有不同特征组信息的数据集,传统sparse group lasso(SGL)方法存在预测性能不稳定的情况,且其特征选择的能力依赖于α的选择。
发明内容
针对上述现有技术中的不足,本发明基于stacking集成策略,提供一种融合了基因与基因通路先验知识,有效提高癌症分类的准确性、预测稳定性和特征选择的有效性的癌症分类和特征基因选择方法。
本发明所采取的技术方案是:
一种癌症分类和特征基因选择方法,包括如下步骤:
(1)初级学习器的建立:
对于n*p维的训练集矩阵X及样本标签y,建立T个logistic回归模型作为初级学习器;
对于sparse group lasso(SGL)正则化项,其有一个混合参数α用来调节lasso与group lasso的权重,基于T个等距分布在(0,1)之间α值,建立对应的T个SGL正则化的logistic回归求解模型;
对每个αt,通过交叉验证选择最优正则化参数λt,并记录验证集在每个初级学习器的预测概率值为n*T矩阵
Figure BDA0003144883590000021
(2)次级学习器的建立:
建立multi-response回归模型作为次级学习器,将分类问题转换成multi-response回归问题,对于分类有K类的原始问题,其可以转换为K个独立的回归问题;
建立L1正则化的multi-response回归求解模型,其输入属性为步骤(1)中验证集输出类概率矩阵
Figure BDA0003144883590000022
通过交叉验证来选择最优正则化参数λ*,在求解模型得到不同类的预测值后,即可对癌症样本进行分类;
(3)预后特征选择模型的建立:
建立新的SGL正则化的logistic回归求解模型作为预后特征选择模型;
Figure BDA0003144883590000031
来渐进拟合
Figure BDA0003144883590000032
其中β是密集的,而γ是稀疏的;
其输入数据集标签为步骤(2)预测分类结果
Figure BDA0003144883590000033
其混合参数是基于步骤(1)中交叉验证结果选取的最优混合参数α*
通过交叉验证选出最优正则化参数λ,或者调整λ使模型选择一定数量的特征基因,从而实现特征基因选择。
优选的,在建立所述步骤(1)中的初级学习器之前,还包括步骤:从TCGA数据库下载相关癌症基因表达数据,筛选mRNA基因表达数据和差异基因,进行GSEA分析获取基因通路信息,根据通路信息进行特征基因分组,得到训练集和测试集。
优选的,所述步骤(1)中初级学习器为多个不同的αt对应的SGL正则化极大似然损失函数模型求解所得的logistic模型;
logistic模型具体为:
Figure BDA0003144883590000034
Figure BDA0003144883590000035
其中
Figure BDA0003144883590000036
是训练集X的子矩阵,其表示第i样本对应的基因组l,βl为基因组l的回归系数,β=(β1,β2,...,βm)T为基因回归系数。
优选的,所述步骤(1)的SGL正则化的logistic回归求解模型具体为:
Figure BDA0003144883590000037
其中
Figure BDA0003144883590000038
为步骤(1)中所述sparse group lasso正则化项,λ>0是正则化参数,α∈[0,1]是混合参数;l(β)为logistic回归模型对应的负对数似然:
Figure BDA0003144883590000041
优选的,所述步骤(2)次级学习器为L1正则化均方误差损失函数模型求解所得multi-response回归模型;
次级学习器multi-response回归模型具体为:
Figure BDA0003144883590000042
其中W=(wik)1≤i≤T,1≤k≤K为系数矩阵,W*零均值噪声矩阵,
Figure BDA0003144883590000043
为步骤(1)中验证集输出类概率矩阵。
优选的,步骤(2)中所述的L1正则化的multi-response回归求解模型表达式为:
Figure BDA0003144883590000044
使用与步骤(1)中相同的交叉验证集来选择步骤(2)中所述的最优正则化参数λ*,注意在这两次连续的交叉验证过程中,我们使用相同的训练集来估计初级和次级学习器回归系数(β;W和W*),相同的验证集来调优初级和次级学习器的正则化参数(λt;λ*);
所述步骤(2)中次级学习器的训练集为所述步骤(1)中的输出概率矩阵
Figure BDA0003144883590000045
其标签为初始样本标签。
优选的,所述步骤(2)中所述的对癌症样本进行分类具体为:
求解步骤(2)中所述次级学习器,对于属于类k的样本i,有
Figure BDA0003144883590000046
其中wjk
Figure BDA0003144883590000047
分别对应W和W*的第k列,
Figure BDA0003144883590000048
表示第j个初级学习器样本i的输出概率;因此对于一个新样本,可以得到其每一类的类概率
Figure BDA0003144883590000051
并将该样本分类为类k当满足:
Figure BDA0003144883590000052
优选的,所述步骤(3)中的预后特征选择模型的训练集为初始数据集,其标签为训练集在步骤(2)中的预测结果。
优选的,所述步骤(3)中所述的新的SGL正则化的logistic回归求解模型具体为:
Figure BDA0003144883590000053
其中混合参数α*是基于步骤(1)中求解T个初级学习器所得的交叉验证集AUC结果选取的,l(γ)为新的负对数似然损失函数,具体为:
Figure BDA0003144883590000054
Figure BDA0003144883590000055
其中
Figure BDA0003144883590000056
为求解步骤(2)中模型所得数据集X的预测结果,γ为稀疏的回归系数;通过交叉验证选出最优λ,或者调整λ使模型包含所需数量的特征基因,从而实现模型稀疏和特征基因选择。
本发明相对现有技术的有益效果:
本发明癌症分类和特征基因选择方法,克服传统方法只能满足其中一两条标准的缺陷,在SGL基础上加以改进,满足预测、稳定和选择三大标准,stacking集成提高了模型对癌症分类预测的准确性和稳定性,预后特征选择可以有效结合基因通路信息,准确选取致癌基因和癌症相关基因,增强模型的可解释性;融合基因与基因通路先验知识,提高了癌症分类的准确性和特征选择的有效性,有利于复杂疾病的研究。
本发明癌症分类和特征基因选择方法,利用stacking集成策略提高癌症预测模型的稳定性和准确性,克服了sparse group lasso方法的短板;更能适应不同类型、不同特征组信息的基因表达数据集;本发明将基因和基因通路信息考虑在内,通过预后特征选择实现了特征基因筛选,使得模型准确性有所提高且提取的特征基因更具生物意义、与癌症发生更为相关。
本发明癌症分类和特征基因选择方法,基于stacking集成的思想,需要建立初级学习器和次级学习器,而现有方法sparse group lasso是只有初级学习器;特征基因选择时筛选哪些特征主要是受参数影响的,我们基于T个初级学习器的交叉验证结果,选取最优混合参数α*作为此预后特征选择模型的参数,所以在特征基因选择时参数的确定与现有方法不同。
附图说明
图1是本发明提供的一种癌症分类和特征基因选择方法流程示意图;
图2是本发明提供的一种癌症分类和特征基因选择方法与其他主流方法在测试集上的分类准确度和AUC值结果比对图。
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
附图1和2可知,一种癌症分类和特征基因选择方法,包括如下步骤:
(1)初级学习器的建立:
对于n*p维的训练集矩阵X及样本标签y,建立T个logistic回归模型作为初级学习器;
对于sparse group lasso(SGL)正则化项,其有一个混合参数α用来调节lasso与group lasso的权重,基于T个等距分布在(0,1)之间α值,建立对应的T个SGL正则化的logistic回归求解模型;
对每个αt,通过交叉验证选择最优正则化参数λt,并记录验证集在每个初级学习器的预测概率值为n*T矩阵
Figure BDA0003144883590000071
(2)次级学习器的建立:
建立multi-response回归模型作为次级学习器,将分类问题转换成multi-response回归问题,对于分类有K类的原始问题,其可以转换为K个独立的回归问题;
建立L1正则化的multi-response回归求解模型,其输入属性为步骤(1)中验证集输出类概率矩阵
Figure BDA0003144883590000072
通过交叉验证来选择最优正则化参数λ*,在求解模型得到不同类的预测值后,即可对癌症样本进行分类;
(3)预后特征选择模型的建立:
建立新的SGL正则化的logistic回归求解模型作为预后特征选择模型:
Figure BDA0003144883590000073
来渐进拟合
Figure BDA0003144883590000074
其中β是密集的,而γ是稀疏的;
其输入数据集标签为步骤(2)预测分类结果
Figure BDA0003144883590000075
其混合参数是基于步骤(1)中交叉验证结果选取的最优混合参数α*
通过交叉验证选出最优正则化参数λ,或者调整λ使模型选择一定数量的特征基因,从而实现特征基因选择。
在建立所述步骤(1)中的初级学习器之前,还包括步骤:从TCGA数据库下载相关癌症基因表达数据,筛选mRNA基因表达数据和差异基因,进行GSEA分析获取基因通路信息,根据通路信息进行特征基因分组,得到训练集和测试集。
所述步骤(1)中初级学习器为多个不同的αt对应的SGL正则化极大似然损失函数模型求解所得的logistic模型;
logistic模型具体为:
Figure BDA0003144883590000081
Figure BDA0003144883590000082
其中
Figure BDA0003144883590000083
是训练集X的子矩阵,其表示第i样本对应的基因组l,βl为基因组l的回归系数,β=(β1,β2,...,βm)T为基因回归系数。
所述步骤(1)的SGL正则化的logistic回归求解模型具体为:
Figure BDA0003144883590000084
其中
Figure BDA0003144883590000085
为步骤(1)中所述sparse group lasso正则化项,λ>0是正则化参数,α∈[0,1]是混合参数;l(β)为logistic回归模型对应的负对数似然:
Figure BDA0003144883590000086
所述步骤(2)次级学习器为L1正则化均方误差损失函数模型求解所得multi-response回归模型;
次级学习器multi-response回归模型具体为:
Figure BDA0003144883590000087
其中W=(wik)1≤i≤T,1≤k≤K为系数矩阵,W*零均值噪声矩阵,
Figure BDA0003144883590000088
为步骤(1)中验证集输出类概率矩阵。
步骤(2)中所述的L1正则化的multi-response回归求解模型表达式为:
Figure BDA0003144883590000089
使用与步骤(1)中相同的交叉验证集来选择步骤(2)中所述的最优正则化参数λ*,注意在这两次连续的交叉验证过程中,我们使用相同的训练集来估计初级和次级学习器回归系数(β;W和W*),相同的验证集来调优初级和次级学习器的正则化参数(λt;λ*);
所述步骤(2)中次级学习器的训练集为所述步骤(1)中的输出概率矩阵
Figure BDA0003144883590000091
其标签为初始样本标签。
所述步骤(2)中所述的对癌症样本进行分类具体为:
求解步骤(2)中所述次级学习器,对于属于类k的样本i,有
Figure BDA0003144883590000092
其中wjk
Figure BDA0003144883590000093
分别对应W和W*的第k列,
Figure BDA0003144883590000094
表示第j个初级学习器样本i的输出概率;因此对于一个新样本,可以得到其每一类的类概率
Figure BDA0003144883590000095
并将该样本分类为类k当满足:
Figure BDA0003144883590000096
所述步骤(3)中的预后特征选择模型的训练集为初始数据集,其标签为训练集在步骤(2)中的预测结果。
所述步骤(3)中所述的新的SGL正则化的logistic回归求解模型具体为:
Figure BDA0003144883590000097
其中混合参数α*是基于步骤(1)中求解T个初级学习器所得的交叉验证集AUC结果选取的,l(γ)为新的负对数似然损失函数,具体为:
Figure BDA0003144883590000098
Figure BDA0003144883590000099
其中
Figure BDA00031448835900000910
为求解步骤(2)中模型所得数据集X的预测结果,γ为稀疏的回归系数;通过交叉验证选出最优λ,或者调整λ使模型包含所需数量的特征基因,从而实现模型稀疏和特征基因选择。
本发明癌症分类和特征基因选择方法,克服传统方法只能满足其中一两条标准的缺陷,在SGL基础上加以改进,满足预测、稳定和选择三大标准,stacking集成提高了模型对癌症分类预测的准确性和稳定性,预后特征选择可以有效结合基因通路信息,准确选取致癌基因和癌症相关基因,增强模型的可解释性;融合基因与基因通路先验知识,提高了癌症分类的准确性和特征选择的有效性,有利于复杂疾病的研究。
本发明癌症分类和特征基因选择方法,利用stacking集成策略提高癌症预测模型的稳定性和准确性,克服了sparse group lasso方法的短板;更能适应不同类型、不同特征组信息的基因表达数据集;本发明将基因和基因通路信息考虑在内,通过预后特征选择实现了特征基因筛选,使得模型准确性有所提高且提取的特征基因更具生物意义、与癌症发生更为相关。
以下结合数据对本发明方面进行详细说明:
一、材料的选取及数据处理
本发明选取公共数据库TCGA中的肝癌、甲状腺癌、肺癌的基因表达数据集,对于肝癌和甲状腺癌提取其中正常样本和癌症样本为研究对象,对于肺癌选取其两种癌症亚型肺腺癌和肺鳞癌作为研究对象。下载相关癌症基因表达数据,筛选mRNA基因表达数据和差异表达基因,进行GSEA分析获取基因通路信息,根据通路信息进行特征基因分组,再将所有数据随机分为训练集和测试集。数据具体信息如表1所示:
表1数据分类、特征组信息汇总
Figure BDA0003144883590000101
Figure BDA0003144883590000111
数据处理:mRNA表达数据进行标准化处理。
二、癌症分类和特征基因选择方法
本发明的癌症分类和特征基因选择具体步骤为,如图1所示:
初级学习器求解:根据本发明中的步骤(1)对肝癌、甲状腺癌、肺癌训练集D进行五折交叉验证,将初始训练集D随机分成五个大小相同的集合D1,D2,...,D5,令Dj
Figure BDA0003144883590000112
分别为第j折的验证集和训练集。如步骤(1)所述,每一个αt对应了一个初级学习器,对于T个的logistic预测模型(初级学习器)通过在
Figure BDA0003144883590000113
上训练其对应的T个不同的学习算法而得,对验证集Dj中的每个样本,通过训练所得初级学习器预测其类概率值并记录为概率矩阵
Figure BDA0003144883590000114
记录验证集的预测AUC值并基于此选取最优的正则化参数λc
次级学习器求解:求解步骤(1)中T个初级学习器所得的
Figure BDA0003144883590000115
作为次级训练集,即次级学习器的输入训练集,初始训练集的样本标签仍然作为次级学习器输入标签。同样,如步骤(2)所述进行五折交叉验证来训练次级学习器和选择最优正则化参数λ*,此时步骤(2)中的K=2,因为此为二分类问题。注意在步骤(1)和步骤(2)中,使用相同的训练集来估计初级和次级学习器回归系数(β;W和W*),相同的验证集来调优初级和次级学习器的正则化参数(λc;λ*)。
特征选择模型确定:基于步骤(1)中验证集在T个初级学习器上的预测AUC值,可以选取最优混合参数α*作为步骤(3)中所述的特征选择模型的混合参数。此模型的训练集为初始训练集D,但样本标签为步骤(2)中训练集的预测结果。然后,可以通过交叉验证选出最优λ,或者调整λ使模型选择一定数量的特征基因。
当步骤(1)中初级学习器和步骤(2)中次级学习器算法结束时,即可确定模型的所有回归系数,即基于基因表达数据集的健康与癌症二分类预测模型已经确定。随后即可对各自的测试集进行拟合并可以进行特征选择。请参阅图2,为本方法与同类型其他流行方法对基因数据集中测试集的分类准确性和AUC的表现。分类准确性指的是分类正确样本占总样本的比例,AUC指的是“ROC”(受试者工作特征)曲线下的面积。通常来说,准确率和AUC越高,分类器越好。实验结果可以看出,相比于现有方法,本发明方法在癌症预测问题上具有更好的预测准确性和AUC。此外,通过对比这四种方法在各基因数据集上选出的基因,发现本方法选出的基因更可能是医学报告上的潜在癌症基因而且更具判别性。因此,本发明方法是准确且有效的。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明的技术方案范围内。

Claims (9)

1.一种癌症分类和特征基因选择方法,其特征在于,包括如下步骤:
(1)初级学习器的建立:
对于n*p维的训练集矩阵X及样本标签y,建立T个logistic回归模型作为初级学习器;
对于sparsegrouplasso(SGL)正则化项,其有一个混合参数α用来调节lasso与grouplasso的权重,基于T个等距分布在(0,1)之间α值,建立对应的T个SGL正则化的logistic回归求解模型;
对每个αt,通过交叉验证选择最优正则化参数λt,并记录验证集在每个初级学习器的预测概率值为n*T矩阵
Figure FDA0003144883580000011
(2)次级学习器的建立:
建立multi-response回归模型作为次级学习器,将分类问题转换成multi-response回归问题,对于分类有K类的原始问题,其可以转换为K个独立的回归问题;
建立L1正则化的multi-response回归求解模型,其输入属性为步骤(1)中验证集输出类概率矩阵
Figure FDA0003144883580000012
通过交叉验证来选择最优正则化参数λ*,在求解模型得到不同类的预测值后,即可对癌症样本进行分类;
(3)预后特征选择模型的建立:
建立新的SGL正则化的logistic回归求解模型作为预后特征选择模型;
Figure FDA0003144883580000013
来渐进拟合
Figure FDA0003144883580000014
其中β是密集的,而γ是稀疏的;
其输入数据集标签为步骤(2)预测分类结果
Figure FDA0003144883580000015
其混合参数是基于步骤(1)中交叉验证结果选取的最优混合参数α*
通过交叉验证选出最优正则化参数λ,或者调整λ使模型选择一定数量的特征基因,从而实现特征基因选择。
2.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
在建立所述步骤(1)中的初级学习器之前,还包括步骤:从TCGA数据库下载相关癌症基因表达数据,筛选mRNA基因表达数据和差异基因,进行GSEA分析获取基因通路信息,根据通路信息进行特征基因分组,得到训练集和测试集。
3.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
所述步骤(1)中初级学习器为多个不同的αt对应的SGL正则化极大似然损失函数模型求解所得的logistic模型;
logistic模型具体为:
Figure FDA0003144883580000021
Figure FDA0003144883580000022
其中
Figure FDA0003144883580000023
是训练集X的子矩阵,其表示第i样本对应的基因组l,βl为基因组l的回归系数,β=(β1,β2,...,βm)T为基因回归系数。
4.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
所述步骤(1)的SGL正则化的logistic回归求解模型具体为:
Figure FDA0003144883580000024
其中
Figure FDA0003144883580000025
为步骤(1)中所述sparse group lasso正则化项,λ>0是正则化参数,α∈[0,1]是混合参数;l(β)为logistic回归模型对应的负对数似然:
Figure FDA0003144883580000026
5.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
所述步骤(2)次级学习器为L1正则化均方误差损失函数模型求解所得multi-response回归模型;
次级学习器multi-response回归模型具体为:
Figure FDA0003144883580000031
其中W=(wik)1≤i≤T,1≤k≤K为系数矩阵,W*零均值噪声矩阵,
Figure FDA0003144883580000032
为步骤(1)中验证集输出类概率矩阵。
6.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
步骤(2)中所述的L1正则化的multi-response回归求解模型表达式为:
Figure FDA0003144883580000033
使用与步骤(1)中相同的交叉验证集来选择步骤(2)中所述的最优正则化参数λ*,注意在这两次连续的交叉验证过程中,我们使用相同的训练集来估计初级和次级学习器回归系数(β;W和W*),相同的验证集来调优初级和次级学习器的正则化参数(λt;λ*);
所述步骤(2)中次级学习器的训练集为所述步骤(1)中的输出概率矩阵
Figure FDA0003144883580000037
其标签为初始样本标签。
7.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
所述步骤(2)中所述的对癌症样本进行分类具体为:
求解步骤(2)中所述次级学习器,对于属于类k的样本i,有
Figure FDA0003144883580000034
其中wjk
Figure FDA0003144883580000035
分别对应E和W*的第k列,
Figure FDA0003144883580000036
表示第j个初级学习器样本i的输出概率;因此对于一个新样本,可以得到其每一类的类概率
Figure FDA0003144883580000041
并将该样本分类为类k当满足:
Figure FDA0003144883580000042
8.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
所述步骤(3)中的预后特征选择模型的训练集为初始数据集,其标签为训练集在步骤(2)中的预测结果。
9.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
所述步骤(3)中所述的新的SGL正则化的logistic回归求解模型具体为:
Figure FDA0003144883580000043
其中混合参数α*是基于步骤(1)中求解T个初级学习器所得的交叉验证集AUC结果选取的,l(γ)为新的负对数似然损失函数,具体为:
Figure FDA0003144883580000044
Figure FDA0003144883580000045
其中
Figure FDA0003144883580000046
为求解步骤(2)中模型所得数据集X的预测结果,γ为稀疏的回归系数;通过交叉验证选出最优λ,或者调整λ使模型包含所需数量的特征基因,从而实现模型稀疏和特征基因选择。
CN202110751724.XA 2021-07-02 2021-07-02 一种癌症分类和特征基因选择方法 Active CN113436684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110751724.XA CN113436684B (zh) 2021-07-02 2021-07-02 一种癌症分类和特征基因选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110751724.XA CN113436684B (zh) 2021-07-02 2021-07-02 一种癌症分类和特征基因选择方法

Publications (2)

Publication Number Publication Date
CN113436684A true CN113436684A (zh) 2021-09-24
CN113436684B CN113436684B (zh) 2022-07-15

Family

ID=77758707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110751724.XA Active CN113436684B (zh) 2021-07-02 2021-07-02 一种癌症分类和特征基因选择方法

Country Status (1)

Country Link
CN (1) CN113436684B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114077874A (zh) * 2022-01-17 2022-02-22 广东工业大学 基于分段采样的段域神经网络回归方法、系统及存储介质
CN114927213A (zh) * 2022-04-15 2022-08-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置
CN117746979A (zh) * 2024-02-21 2024-03-22 中国科学院遗传与发育生物学研究所 一种动物品种的鉴定方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007015459A1 (ja) * 2005-08-01 2007-02-08 Osaka University 大腸癌リンパ節転移の有無を予測するための遺伝子セット
CN106895975A (zh) * 2017-01-17 2017-06-27 苏州大学 基于Stacked SAE深度神经网络的轴承故障诊断方法
CN108416190A (zh) * 2018-02-11 2018-08-17 广州市碳码科技有限责任公司 基于深度学习的肿瘤早期筛查方法、装置、设备及介质
CN109447099A (zh) * 2018-08-28 2019-03-08 西安理工大学 一种基于pca降维的多分类器融合方法
WO2019079647A2 (en) * 2017-10-18 2019-04-25 Wuxi Nextcode Genomics Usa, Inc. IA STATISTICS FOR DEEP LEARNING AND PROBABILISTIC PROGRAMMING, ADVANCED, IN BIOSCIENCES
CN111340770A (zh) * 2020-02-22 2020-06-26 太原理工大学 结合全局加权lbp和纹理分析的癌症预后模型构建方法
CN112700325A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种基于Stacking集成学习的网贷回头客预测的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007015459A1 (ja) * 2005-08-01 2007-02-08 Osaka University 大腸癌リンパ節転移の有無を予測するための遺伝子セット
CN106895975A (zh) * 2017-01-17 2017-06-27 苏州大学 基于Stacked SAE深度神经网络的轴承故障诊断方法
WO2019079647A2 (en) * 2017-10-18 2019-04-25 Wuxi Nextcode Genomics Usa, Inc. IA STATISTICS FOR DEEP LEARNING AND PROBABILISTIC PROGRAMMING, ADVANCED, IN BIOSCIENCES
CN108416190A (zh) * 2018-02-11 2018-08-17 广州市碳码科技有限责任公司 基于深度学习的肿瘤早期筛查方法、装置、设备及介质
CN109447099A (zh) * 2018-08-28 2019-03-08 西安理工大学 一种基于pca降维的多分类器融合方法
CN111340770A (zh) * 2020-02-22 2020-06-26 太原理工大学 结合全局加权lbp和纹理分析的癌症预后模型构建方法
CN112700325A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种基于Stacking集成学习的网贷回头客预测的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EUN SUNG LEE: "Exploring the Performance of Stacking Classifier to Predict Depression Among the Elderly", 《2017 IEEE INTERNATIONAL CONFERENCE ON HEALTHCARE INFORMATICS (ICHI)》 *
TING, KM: "Issues in stacked generalization", 《 JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH》 *
余佳麟: "赖氨酸翻译后修饰位点预测方法研究", 《中国优秀硕士论文电子期刊》 *
高慧云: "集成学习在基因表达数据中的分类研究", 《中国优秀硕士论文电子期刊》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114077874A (zh) * 2022-01-17 2022-02-22 广东工业大学 基于分段采样的段域神经网络回归方法、系统及存储介质
CN114927213A (zh) * 2022-04-15 2022-08-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置
CN117746979A (zh) * 2024-02-21 2024-03-22 中国科学院遗传与发育生物学研究所 一种动物品种的鉴定方法

Also Published As

Publication number Publication date
CN113436684B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN113436684B (zh) 一种癌症分类和特征基因选择方法
Smyth et al. Statistical issues in cDNA microarray data analysis
Wang et al. Breast cancer patient stratification using a molecular regularized consensus clustering method
TWI783699B (zh) 一種判別源自不同個體之基因的方法及其深度學習模型
Emura et al. Survival prediction based on compound covariate under Cox proportional hazard models
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN106971091A (zh) 一种基于确定性粒子群优化和支持向量机的肿瘤识别方法
CN104462868A (zh) 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
Dash et al. Performance analysis of clustering techniques over microarray data: A case study
CN106055928A (zh) 一种宏基因组重叠群的分类方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
Heller et al. A flexible two-stage procedure for identifying gene sets that are differentially expressed
Saha et al. A novel gene ranking method using Wilcoxon rank sum test and genetic algorithm
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
Ma et al. EnsembleKQC: an unsupervised ensemble learning method for quality control of single cell RNA-seq sequencing data
Coppola et al. A gene ontology-driven wide and deep learning architecture for cell-type classification from single-cell RNA-seq data
Bhanot et al. Robust diagnosis of non-Hodgkin lymphoma phenotypes validated on gene expression data from different laboratories
CN115985388B (zh) 基于预处理降噪和生物中心法则的多组学集成方法和系统
CN113178233B (zh) 大规模单细胞转录组数据高效聚类方法
Zheng et al. A structural variation genotyping algorithm enhanced by CNV quantitative transfer
Korayem et al. A hybrid genetic algorithm and artificial immune system for informative gene selection
Crow et al. Addressing the looming identity crisis in single cell RNA-seq
CN113160881B (zh) 一种基于mRMR和MBFA的高维数据特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant