CN113436684A - 一种癌症分类和特征基因选择方法 - Google Patents
一种癌症分类和特征基因选择方法 Download PDFInfo
- Publication number
- CN113436684A CN113436684A CN202110751724.XA CN202110751724A CN113436684A CN 113436684 A CN113436684 A CN 113436684A CN 202110751724 A CN202110751724 A CN 202110751724A CN 113436684 A CN113436684 A CN 113436684A
- Authority
- CN
- China
- Prior art keywords
- model
- establishing
- selection
- cancer
- learner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- Biochemistry (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物信息领域,公开了一种癌症分类和特征基因选择方法,包括以下步骤:初级学习器的建立:建立T个logistic回归模型及其对应的sparse group lasso正则化的损失函数求解模型,输出次级学习器训练集;次级学习器的建立:建立multi‑response回归模型及其对应L1正则化的损失函数求解模型,输出训练集预测结果;预后特征选择模型:建立预后特征选择SGL模型。本发明癌症分类和特征基因选择方法,满足预测、稳定和选择三大标准,stacking集成提高了模型对癌症分类预测的准确性和稳定性,准确选取致癌基因和癌症相关基因,增强模型的可解释性;融合基因与基因通路先验知识,提高了癌症分类的准确性和特征选择的有效性。
Description
技术领域
本发明涉及生物信息领域,具体的说,涉及一种癌症分类和特征基因选择方法。
背景技术
大量研究表明,基因组学数据对许多癌症的分类是有用的。随着测序技术的发展,现在可以从单个细胞中分离和测序遗传物质。对于这类基因表达RNA序列数据,变量p(作为基因表达)的数量远远大于样本容量n。然而,从生物学的角度来看,只有一小部分基因变量能强烈指向靶向性疾病,而大多数基因与癌症分类无关。这些不相关的基因可能会引入噪声,降低分类精度。此外,从机器学习的角度来看,过多的基因可能会导致过拟合,并对分类性能产生负面影响,并且由于变量之间的伪依赖关系,导致优化过程不具有唯一性,也不具有稳定性,此时经典回归或分类方法是不合适的。所以需要有效的基因选择方法来帮助分类不同的癌症类型,提高预测的准确性。
正则化技术是一种重要的嵌入式特征选择方法可以同时实现模型训练和特征选择,尤其是将正则化技术融入逻辑回归框架以实现癌症分类和基因选择受到广泛关注。最常用正则化方法之一是基于lk-norm惩罚的组合,这类方法没有将基因和基因通路考虑在内,只是单纯从基因角度去考虑与复杂疾病的关联而没有考虑基因通路的协同作用。另一类常用的正则化是将lk-norm与表达特征潜在关系的函数式相结合,其优点是既可以结合特征之间先验知识或潜在联系,又可以实现特征稀疏。对于具有不同特征组信息的数据集,传统sparse group lasso(SGL)方法存在预测性能不稳定的情况,且其特征选择的能力依赖于α的选择。
发明内容
针对上述现有技术中的不足,本发明基于stacking集成策略,提供一种融合了基因与基因通路先验知识,有效提高癌症分类的准确性、预测稳定性和特征选择的有效性的癌症分类和特征基因选择方法。
本发明所采取的技术方案是:
一种癌症分类和特征基因选择方法,包括如下步骤:
(1)初级学习器的建立:
对于n*p维的训练集矩阵X及样本标签y,建立T个logistic回归模型作为初级学习器;
对于sparse group lasso(SGL)正则化项,其有一个混合参数α用来调节lasso与group lasso的权重,基于T个等距分布在(0,1)之间α值,建立对应的T个SGL正则化的logistic回归求解模型;
(2)次级学习器的建立:
建立multi-response回归模型作为次级学习器,将分类问题转换成multi-response回归问题,对于分类有K类的原始问题,其可以转换为K个独立的回归问题;
通过交叉验证来选择最优正则化参数λ*,在求解模型得到不同类的预测值后,即可对癌症样本进行分类;
(3)预后特征选择模型的建立:
建立新的SGL正则化的logistic回归求解模型作为预后特征选择模型;
通过交叉验证选出最优正则化参数λ,或者调整λ使模型选择一定数量的特征基因,从而实现特征基因选择。
优选的,在建立所述步骤(1)中的初级学习器之前,还包括步骤:从TCGA数据库下载相关癌症基因表达数据,筛选mRNA基因表达数据和差异基因,进行GSEA分析获取基因通路信息,根据通路信息进行特征基因分组,得到训练集和测试集。
优选的,所述步骤(1)中初级学习器为多个不同的αt对应的SGL正则化极大似然损失函数模型求解所得的logistic模型;
logistic模型具体为:
优选的,所述步骤(1)的SGL正则化的logistic回归求解模型具体为:
优选的,所述步骤(2)次级学习器为L1正则化均方误差损失函数模型求解所得multi-response回归模型;
次级学习器multi-response回归模型具体为:
优选的,步骤(2)中所述的L1正则化的multi-response回归求解模型表达式为:
使用与步骤(1)中相同的交叉验证集来选择步骤(2)中所述的最优正则化参数λ*,注意在这两次连续的交叉验证过程中,我们使用相同的训练集来估计初级和次级学习器回归系数(β;W和W*),相同的验证集来调优初级和次级学习器的正则化参数(λt;λ*);
优选的,所述步骤(2)中所述的对癌症样本进行分类具体为:
求解步骤(2)中所述次级学习器,对于属于类k的样本i,有其中wjk和分别对应W和W*的第k列,表示第j个初级学习器样本i的输出概率;因此对于一个新样本,可以得到其每一类的类概率并将该样本分类为类k当满足:
优选的,所述步骤(3)中的预后特征选择模型的训练集为初始数据集,其标签为训练集在步骤(2)中的预测结果。
优选的,所述步骤(3)中所述的新的SGL正则化的logistic回归求解模型具体为:
其中混合参数α*是基于步骤(1)中求解T个初级学习器所得的交叉验证集AUC结果选取的,l(γ)为新的负对数似然损失函数,具体为:
本发明相对现有技术的有益效果:
本发明癌症分类和特征基因选择方法,克服传统方法只能满足其中一两条标准的缺陷,在SGL基础上加以改进,满足预测、稳定和选择三大标准,stacking集成提高了模型对癌症分类预测的准确性和稳定性,预后特征选择可以有效结合基因通路信息,准确选取致癌基因和癌症相关基因,增强模型的可解释性;融合基因与基因通路先验知识,提高了癌症分类的准确性和特征选择的有效性,有利于复杂疾病的研究。
本发明癌症分类和特征基因选择方法,利用stacking集成策略提高癌症预测模型的稳定性和准确性,克服了sparse group lasso方法的短板;更能适应不同类型、不同特征组信息的基因表达数据集;本发明将基因和基因通路信息考虑在内,通过预后特征选择实现了特征基因筛选,使得模型准确性有所提高且提取的特征基因更具生物意义、与癌症发生更为相关。
本发明癌症分类和特征基因选择方法,基于stacking集成的思想,需要建立初级学习器和次级学习器,而现有方法sparse group lasso是只有初级学习器;特征基因选择时筛选哪些特征主要是受参数影响的,我们基于T个初级学习器的交叉验证结果,选取最优混合参数α*作为此预后特征选择模型的参数,所以在特征基因选择时参数的确定与现有方法不同。
附图说明
图1是本发明提供的一种癌症分类和特征基因选择方法流程示意图;
图2是本发明提供的一种癌症分类和特征基因选择方法与其他主流方法在测试集上的分类准确度和AUC值结果比对图。
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
附图1和2可知,一种癌症分类和特征基因选择方法,包括如下步骤:
(1)初级学习器的建立:
对于n*p维的训练集矩阵X及样本标签y,建立T个logistic回归模型作为初级学习器;
对于sparse group lasso(SGL)正则化项,其有一个混合参数α用来调节lasso与group lasso的权重,基于T个等距分布在(0,1)之间α值,建立对应的T个SGL正则化的logistic回归求解模型;
(2)次级学习器的建立:
建立multi-response回归模型作为次级学习器,将分类问题转换成multi-response回归问题,对于分类有K类的原始问题,其可以转换为K个独立的回归问题;
通过交叉验证来选择最优正则化参数λ*,在求解模型得到不同类的预测值后,即可对癌症样本进行分类;
(3)预后特征选择模型的建立:
建立新的SGL正则化的logistic回归求解模型作为预后特征选择模型:
通过交叉验证选出最优正则化参数λ,或者调整λ使模型选择一定数量的特征基因,从而实现特征基因选择。
在建立所述步骤(1)中的初级学习器之前,还包括步骤:从TCGA数据库下载相关癌症基因表达数据,筛选mRNA基因表达数据和差异基因,进行GSEA分析获取基因通路信息,根据通路信息进行特征基因分组,得到训练集和测试集。
所述步骤(1)中初级学习器为多个不同的αt对应的SGL正则化极大似然损失函数模型求解所得的logistic模型;
logistic模型具体为:
所述步骤(1)的SGL正则化的logistic回归求解模型具体为:
所述步骤(2)次级学习器为L1正则化均方误差损失函数模型求解所得multi-response回归模型;
次级学习器multi-response回归模型具体为:
步骤(2)中所述的L1正则化的multi-response回归求解模型表达式为:
使用与步骤(1)中相同的交叉验证集来选择步骤(2)中所述的最优正则化参数λ*,注意在这两次连续的交叉验证过程中,我们使用相同的训练集来估计初级和次级学习器回归系数(β;W和W*),相同的验证集来调优初级和次级学习器的正则化参数(λt;λ*);
所述步骤(2)中所述的对癌症样本进行分类具体为:
求解步骤(2)中所述次级学习器,对于属于类k的样本i,有其中wjk和分别对应W和W*的第k列,表示第j个初级学习器样本i的输出概率;因此对于一个新样本,可以得到其每一类的类概率并将该样本分类为类k当满足:
所述步骤(3)中的预后特征选择模型的训练集为初始数据集,其标签为训练集在步骤(2)中的预测结果。
所述步骤(3)中所述的新的SGL正则化的logistic回归求解模型具体为:
其中混合参数α*是基于步骤(1)中求解T个初级学习器所得的交叉验证集AUC结果选取的,l(γ)为新的负对数似然损失函数,具体为:
本发明癌症分类和特征基因选择方法,克服传统方法只能满足其中一两条标准的缺陷,在SGL基础上加以改进,满足预测、稳定和选择三大标准,stacking集成提高了模型对癌症分类预测的准确性和稳定性,预后特征选择可以有效结合基因通路信息,准确选取致癌基因和癌症相关基因,增强模型的可解释性;融合基因与基因通路先验知识,提高了癌症分类的准确性和特征选择的有效性,有利于复杂疾病的研究。
本发明癌症分类和特征基因选择方法,利用stacking集成策略提高癌症预测模型的稳定性和准确性,克服了sparse group lasso方法的短板;更能适应不同类型、不同特征组信息的基因表达数据集;本发明将基因和基因通路信息考虑在内,通过预后特征选择实现了特征基因筛选,使得模型准确性有所提高且提取的特征基因更具生物意义、与癌症发生更为相关。
以下结合数据对本发明方面进行详细说明:
一、材料的选取及数据处理
本发明选取公共数据库TCGA中的肝癌、甲状腺癌、肺癌的基因表达数据集,对于肝癌和甲状腺癌提取其中正常样本和癌症样本为研究对象,对于肺癌选取其两种癌症亚型肺腺癌和肺鳞癌作为研究对象。下载相关癌症基因表达数据,筛选mRNA基因表达数据和差异表达基因,进行GSEA分析获取基因通路信息,根据通路信息进行特征基因分组,再将所有数据随机分为训练集和测试集。数据具体信息如表1所示:
表1数据分类、特征组信息汇总
数据处理:mRNA表达数据进行标准化处理。
二、癌症分类和特征基因选择方法
本发明的癌症分类和特征基因选择具体步骤为,如图1所示:
初级学习器求解:根据本发明中的步骤(1)对肝癌、甲状腺癌、肺癌训练集D进行五折交叉验证,将初始训练集D随机分成五个大小相同的集合D1,D2,...,D5,令Dj和分别为第j折的验证集和训练集。如步骤(1)所述,每一个αt对应了一个初级学习器,对于T个的logistic预测模型(初级学习器)通过在上训练其对应的T个不同的学习算法而得,对验证集Dj中的每个样本,通过训练所得初级学习器预测其类概率值并记录为概率矩阵记录验证集的预测AUC值并基于此选取最优的正则化参数λc。
次级学习器求解:求解步骤(1)中T个初级学习器所得的作为次级训练集,即次级学习器的输入训练集,初始训练集的样本标签仍然作为次级学习器输入标签。同样,如步骤(2)所述进行五折交叉验证来训练次级学习器和选择最优正则化参数λ*,此时步骤(2)中的K=2,因为此为二分类问题。注意在步骤(1)和步骤(2)中,使用相同的训练集来估计初级和次级学习器回归系数(β;W和W*),相同的验证集来调优初级和次级学习器的正则化参数(λc;λ*)。
特征选择模型确定:基于步骤(1)中验证集在T个初级学习器上的预测AUC值,可以选取最优混合参数α*作为步骤(3)中所述的特征选择模型的混合参数。此模型的训练集为初始训练集D,但样本标签为步骤(2)中训练集的预测结果。然后,可以通过交叉验证选出最优λ,或者调整λ使模型选择一定数量的特征基因。
当步骤(1)中初级学习器和步骤(2)中次级学习器算法结束时,即可确定模型的所有回归系数,即基于基因表达数据集的健康与癌症二分类预测模型已经确定。随后即可对各自的测试集进行拟合并可以进行特征选择。请参阅图2,为本方法与同类型其他流行方法对基因数据集中测试集的分类准确性和AUC的表现。分类准确性指的是分类正确样本占总样本的比例,AUC指的是“ROC”(受试者工作特征)曲线下的面积。通常来说,准确率和AUC越高,分类器越好。实验结果可以看出,相比于现有方法,本发明方法在癌症预测问题上具有更好的预测准确性和AUC。此外,通过对比这四种方法在各基因数据集上选出的基因,发现本方法选出的基因更可能是医学报告上的潜在癌症基因而且更具判别性。因此,本发明方法是准确且有效的。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明的技术方案范围内。
Claims (9)
1.一种癌症分类和特征基因选择方法,其特征在于,包括如下步骤:
(1)初级学习器的建立:
对于n*p维的训练集矩阵X及样本标签y,建立T个logistic回归模型作为初级学习器;
对于sparsegrouplasso(SGL)正则化项,其有一个混合参数α用来调节lasso与grouplasso的权重,基于T个等距分布在(0,1)之间α值,建立对应的T个SGL正则化的logistic回归求解模型;
(2)次级学习器的建立:
建立multi-response回归模型作为次级学习器,将分类问题转换成multi-response回归问题,对于分类有K类的原始问题,其可以转换为K个独立的回归问题;
通过交叉验证来选择最优正则化参数λ*,在求解模型得到不同类的预测值后,即可对癌症样本进行分类;
(3)预后特征选择模型的建立:
建立新的SGL正则化的logistic回归求解模型作为预后特征选择模型;
通过交叉验证选出最优正则化参数λ,或者调整λ使模型选择一定数量的特征基因,从而实现特征基因选择。
2.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
在建立所述步骤(1)中的初级学习器之前,还包括步骤:从TCGA数据库下载相关癌症基因表达数据,筛选mRNA基因表达数据和差异基因,进行GSEA分析获取基因通路信息,根据通路信息进行特征基因分组,得到训练集和测试集。
8.根据权利要求1所述癌症分类和特征基因选择方法,其特征在于:
所述步骤(3)中的预后特征选择模型的训练集为初始数据集,其标签为训练集在步骤(2)中的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110751724.XA CN113436684B (zh) | 2021-07-02 | 2021-07-02 | 一种癌症分类和特征基因选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110751724.XA CN113436684B (zh) | 2021-07-02 | 2021-07-02 | 一种癌症分类和特征基因选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113436684A true CN113436684A (zh) | 2021-09-24 |
CN113436684B CN113436684B (zh) | 2022-07-15 |
Family
ID=77758707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110751724.XA Active CN113436684B (zh) | 2021-07-02 | 2021-07-02 | 一种癌症分类和特征基因选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436684B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936801A (zh) * | 2021-10-18 | 2022-01-14 | 河北工业大学 | 基于机器学习融合的全麻有创收缩压预测方法与系统 |
CN114077874A (zh) * | 2022-01-17 | 2022-02-22 | 广东工业大学 | 基于分段采样的段域神经网络回归方法、系统及存储介质 |
CN114927213A (zh) * | 2022-04-15 | 2022-08-19 | 南京世和基因生物技术股份有限公司 | 多癌种早筛模型构建方法以及检测装置 |
CN117746979A (zh) * | 2024-02-21 | 2024-03-22 | 中国科学院遗传与发育生物学研究所 | 一种动物品种的鉴定方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007015459A1 (ja) * | 2005-08-01 | 2007-02-08 | Osaka University | 大腸癌リンパ節転移の有無を予測するための遺伝子セット |
CN106895975A (zh) * | 2017-01-17 | 2017-06-27 | 苏州大学 | 基于Stacked SAE深度神经网络的轴承故障诊断方法 |
CN108416190A (zh) * | 2018-02-11 | 2018-08-17 | 广州市碳码科技有限责任公司 | 基于深度学习的肿瘤早期筛查方法、装置、设备及介质 |
CN109447099A (zh) * | 2018-08-28 | 2019-03-08 | 西安理工大学 | 一种基于pca降维的多分类器融合方法 |
WO2019079647A2 (en) * | 2017-10-18 | 2019-04-25 | Wuxi Nextcode Genomics Usa, Inc. | IA STATISTICS FOR DEEP LEARNING AND PROBABILISTIC PROGRAMMING, ADVANCED, IN BIOSCIENCES |
CN111340770A (zh) * | 2020-02-22 | 2020-06-26 | 太原理工大学 | 结合全局加权lbp和纹理分析的癌症预后模型构建方法 |
CN112700325A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于Stacking集成学习的网贷回头客预测的方法 |
-
2021
- 2021-07-02 CN CN202110751724.XA patent/CN113436684B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007015459A1 (ja) * | 2005-08-01 | 2007-02-08 | Osaka University | 大腸癌リンパ節転移の有無を予測するための遺伝子セット |
CN106895975A (zh) * | 2017-01-17 | 2017-06-27 | 苏州大学 | 基于Stacked SAE深度神经网络的轴承故障诊断方法 |
WO2019079647A2 (en) * | 2017-10-18 | 2019-04-25 | Wuxi Nextcode Genomics Usa, Inc. | IA STATISTICS FOR DEEP LEARNING AND PROBABILISTIC PROGRAMMING, ADVANCED, IN BIOSCIENCES |
CN108416190A (zh) * | 2018-02-11 | 2018-08-17 | 广州市碳码科技有限责任公司 | 基于深度学习的肿瘤早期筛查方法、装置、设备及介质 |
CN109447099A (zh) * | 2018-08-28 | 2019-03-08 | 西安理工大学 | 一种基于pca降维的多分类器融合方法 |
CN111340770A (zh) * | 2020-02-22 | 2020-06-26 | 太原理工大学 | 结合全局加权lbp和纹理分析的癌症预后模型构建方法 |
CN112700325A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于Stacking集成学习的网贷回头客预测的方法 |
Non-Patent Citations (4)
Title |
---|
EUN SUNG LEE: "Exploring the Performance of Stacking Classifier to Predict Depression Among the Elderly", 《2017 IEEE INTERNATIONAL CONFERENCE ON HEALTHCARE INFORMATICS (ICHI)》 * |
TING, KM: "Issues in stacked generalization", 《 JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH》 * |
余佳麟: "赖氨酸翻译后修饰位点预测方法研究", 《中国优秀硕士论文电子期刊》 * |
高慧云: "集成学习在基因表达数据中的分类研究", 《中国优秀硕士论文电子期刊》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936801A (zh) * | 2021-10-18 | 2022-01-14 | 河北工业大学 | 基于机器学习融合的全麻有创收缩压预测方法与系统 |
CN114077874A (zh) * | 2022-01-17 | 2022-02-22 | 广东工业大学 | 基于分段采样的段域神经网络回归方法、系统及存储介质 |
CN114927213A (zh) * | 2022-04-15 | 2022-08-19 | 南京世和基因生物技术股份有限公司 | 多癌种早筛模型构建方法以及检测装置 |
CN117746979A (zh) * | 2024-02-21 | 2024-03-22 | 中国科学院遗传与发育生物学研究所 | 一种动物品种的鉴定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113436684B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113436684B (zh) | 一种癌症分类和特征基因选择方法 | |
Smyth et al. | Statistical issues in cDNA microarray data analysis | |
Dunkler et al. | Statistical analysis principles for Omics data | |
TWI783699B (zh) | 一種判別源自不同個體之基因的方法及其深度學習模型 | |
Emura et al. | Survival prediction based on compound covariate under Cox proportional hazard models | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN112466404A (zh) | 一种宏基因组重叠群无监督聚类方法及系统 | |
CN104462868A (zh) | 一种结合随机森林和Relief-F的全基因组SNP位点分析方法 | |
CN101923604A (zh) | 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法 | |
Dash et al. | Performance analysis of clustering techniques over microarray data: A case study | |
Das et al. | SwarnSeq: An improved statistical approach for differential expression analysis of single-cell RNA-seq data | |
CN106951728B (zh) | 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法 | |
Saha et al. | A novel gene ranking method using Wilcoxon rank sum test and genetic algorithm | |
CN109376803A (zh) | 基于模糊复集值积分的多神经网络分类器融合方法及装置 | |
CN113160881B (zh) | 一种基于mRMR和MBFA的高维数据特征选择方法 | |
He et al. | Retracted: Overcoming the inadaptability of sparse group lasso for data with various group structures by stacking | |
Ma et al. | EnsembleKQC: an unsupervised ensemble learning method for quality control of single cell RNA-seq sequencing data | |
CN114334168A (zh) | 结合协同学习策略的粒子群混合优化的特征选择算法 | |
Li et al. | Outcome-guided disease subtyping by generative model and weighted joint likelihood in transcriptomic applications | |
Coppola et al. | A gene ontology-driven wide and deep learning architecture for cell-type classification from single-cell RNA-seq data | |
CN115985388B (zh) | 基于预处理降噪和生物中心法则的多组学集成方法和系统 | |
Bar et al. | A mixture model to detect edges in sparse co-expression graphs with an application for comparing breast cancer subtypes | |
CN113178233B (zh) | 大规模单细胞转录组数据高效聚类方法 | |
Zheng et al. | A structural variation genotyping algorithm enhanced by CNV quantitative transfer | |
Korayem et al. | A hybrid genetic algorithm and artificial immune system for informative gene selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |