CN110675917B - 一种个体癌症样本的生物标记物识别方法 - Google Patents

一种个体癌症样本的生物标记物识别方法 Download PDF

Info

Publication number
CN110675917B
CN110675917B CN201910973485.5A CN201910973485A CN110675917B CN 110675917 B CN110675917 B CN 110675917B CN 201910973485 A CN201910973485 A CN 201910973485A CN 110675917 B CN110675917 B CN 110675917B
Authority
CN
China
Prior art keywords
sample
ith
labeled
samples
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910973485.5A
Other languages
English (en)
Other versions
CN110675917A (zh
Inventor
李�杰
王东
王亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910973485.5A priority Critical patent/CN110675917B/zh
Publication of CN110675917A publication Critical patent/CN110675917A/zh
Application granted granted Critical
Publication of CN110675917B publication Critical patent/CN110675917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)

Abstract

本发明是一种个体癌症样本的生物标记物识别方法。本发明先基于两种不同表型的样本数据确定差异表达基因成分,如基因、蛋白质等分子化合物,选取出q个差异表达成分;基于选取的q个差异表达成分,获得平均样本。本发明构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;基于样本回归预测的结果和差异表达成分,确定单样本的生物标记。本发明可以针对不同的个体样本选出差异化的生物标记物。

Description

一种个体癌症样本的生物标记物识别方法
技术领域
本发明涉及生物标记物识别技术领域,是一种个体癌症样本的生物标记物识别方法。
背景技术
现有的生物标记物识别方法多基于两组不同表型的样本的差异性来识别生物标记物,然而癌症是一种复杂的异质性疾病,不同的患者有不同的发病机制,需要不同的治疗,因此,需要一种可以确定个体癌症样本的生物标记物的方法。
发明内容
本发明为确定个体癌症样本的生物标记,本发明提供了一种个体癌症样本的生物标记物识别方法,本发明提供了以下技术方案:
一种个体癌症样本的生物标记物识别方法,包括以下步骤:
步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;
步骤2:基于选取的q个差异表达成分,获得平均样本;
步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;
步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分。
优选地,所述步骤1具体为:
选取两组不同表型的成分表达数据样本,分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;
采用yji表示第i个样本、样本标签为“+”的第j个成分的表达值,采用xji表示第i个样本、样本标签为“-”的第j个成分的表达值,基于yji和xji选取出q个差异表达成分。
优选地,所述步骤2具体为:
步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:
Figure GDA0002669841330000011
Figure GDA0002669841330000012
其中,u+和u-分别表示“+”和“-”两组样本的平均样本,
Figure GDA0002669841330000021
为在“+”组中的第q个成分的平均表达值,
Figure GDA0002669841330000022
为“-”组中的第q个成分的平均表达值;
步骤2.2:根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的第j个成分的表达值,来确定在“+”组和“-”组的第j个成分的平均表达值,通过下式确定在“+”组和“-”组的第j个成分的平均表达值:
Figure GDA0002669841330000023
Figure GDA0002669841330000024
其中,
Figure GDA0002669841330000025
为“+”组的第j个成分的平均表达值,
Figure GDA0002669841330000026
为“-”组的第j个成分的平均表达值,n1和n2分别表示“+”和“-”两类样本的样本数。
优选地,所述步骤3具体为:
步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本、样本标签为“+”的第j个差异表达成分的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:
Figure GDA0002669841330000027
其中,
Figure GDA0002669841330000028
为第i个标签为“+”的样本;
对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:
Figure GDA0002669841330000029
其中,
Figure GDA00026698413300000210
为第i个标签为“+”的样本进行回归预测的结果,
Figure GDA00026698413300000211
为线型回归的截距系数;
步骤3.2:令x'ji表示第i个样本、样本标签为“-”的第j个差异表达成分的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:
Figure GDA00026698413300000212
其中,
Figure GDA00026698413300000213
为第i个标签为“-”的样本;
对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“-”的样本进行回归预测的结果:
Figure GDA0002669841330000031
其中,
Figure GDA0002669841330000032
为第i个标签为“-”的样本进行回归预测的结果,
Figure GDA0002669841330000033
为线型回归的自变量系数。
优选地,所述步骤4具体为:
步骤4.1:在q个差异表达成分中,单个样本的某些成分的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达成分的残差值通过如下公式计算:
Figure GDA0002669841330000034
对于第i个样本标签为“-”的样本,第j个差异表达成分的残差值通过如下公式计算:
Figure GDA0002669841330000035
步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物成分,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:
Figure GDA0002669841330000036
Figure GDA0002669841330000037
其中,
Figure GDA0002669841330000038
为高斯核进行核密度估计结果,h是平滑因子,K是高斯核函数;
步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:
Figure GDA0002669841330000039
其中,CIα为残差值分布的在置信度为α下的置信区间;
步骤4.4:在得到CIα后,对于第i个样本标签为“+”的样本的第j个成分,当满足
Figure GDA00026698413300000310
则第j个成分是第i个样本标签为“+”的样本的生物标记物成分;
对于标签为“-”的样本,当满足
Figure GDA00026698413300000311
则第j个成分是第i个样本标签为“-”的样本的生物标记物成分。
优选地,所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发或响应的样本。
本发明具有以下有益效果:
本发明可以针对不同的个体样本选出差异化的生物标记物。
本发明可以有效地识别出生物标记物,其有效性主要体包括:
a)不同样本的生物标记物的表达值与其他样本在统计上有显著地差异;
b)在不同样本中频繁出现的生物标记物可以有效地区分样本的生存状况;
c)被选出的生物标记物被文献报道表明其具有与表型相关的生物作用。
附图说明
图1是个体癌症样本的生物标记物识别方法流程图;
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
按照图1所示,以下内容以生物标记物是基因为例,介绍发明内容,本发明提供一种个体癌症样本的生物标记物识别方法,包括以下步骤:
步骤1:基于两种不同表型的样本数据确定差异表达基因,选取出q个差异表达基因;
所述步骤1具体为:
步骤1.1:选取两组不同表型的基因表达数据样本,分别使用“+”和“-”作为两组不同表型的基因表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;n=n1+n2,n表示所有样本的个数,所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发或响应的样本。
步骤1.2:采用yji表示第i个样本、样本标签为“+”的第j个基因的表达值,采用xji表示第i个样本、样本标签为“-”的第j个基因的表达值,基于yji和xji选取出q个基因差异表达基因。
步骤2:基于选取的q个差异表达基因,获得平均样本;
所述步骤2具体为:
步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:
Figure GDA0002669841330000051
Figure GDA0002669841330000052
其中,u+和u-分别表示“+”和“-”两组样本的平均样本,
Figure GDA0002669841330000053
为在“+”组中的第q个基因的平均表达值,
Figure GDA0002669841330000054
为“-”组中的第q个基因的平均表达值;
步骤2.2:根据第i个样本标签为“+”的样本的第j个基因的表达值和第i个样本标签为“-”的第j个基因的表达值,来确定在“+”组和“-”组的第j个基因的平均表达值,通过下式确定在“+”组和“-”组的第j个基因的平均表达值:
Figure GDA0002669841330000055
Figure GDA0002669841330000056
其中,
Figure GDA0002669841330000057
为“+”组的第j个基因的平均表达值,
Figure GDA0002669841330000058
为“-”组的第j个基因的平均表达值,n1和n2分别表示“+”和“-”两类样本的样本数。
步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;
所述步骤3具体为:
步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本、样本标签为“+”的第j个差异表达基因的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:
Figure GDA0002669841330000059
其中,
Figure GDA00026698413300000510
为第i个标签为“+”的样本;
对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:
Figure GDA00026698413300000511
其中,
Figure GDA00026698413300000512
为第i个标签为“+”的样本进行回归预测的结果,
Figure GDA00026698413300000513
为线型回归的截距系数;
步骤3.2:令x'ji表示第i个样本、样本标签为“-”的第j个差异表达基因的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:
Figure GDA0002669841330000061
其中,
Figure GDA00026698413300000611
为第i个标签为“-”的样本;
对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“-”的样本进行回归预测的结果:
Figure GDA0002669841330000062
其中,
Figure GDA0002669841330000063
为第i个标签为“-”的样本进行回归预测的结果,
Figure GDA0002669841330000064
为线型回归的自变量系数。
步骤4:基于样本回归预测的结果和差异表达基因,确定单样本的生物标记基因。
所述步骤4具体为:
步骤4.1:在q个差异表达基因中,单个样本的某些基因的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达基因的残差值通过如下公式计算:
Figure GDA0002669841330000065
对于第i个样本标签为“-”的样本,第j个差异表达基因的残差值通过如下公式计算:
Figure GDA0002669841330000066
步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物基因,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:
Figure GDA0002669841330000067
Figure GDA0002669841330000068
其中,
Figure GDA0002669841330000069
为高斯核进行核密度估计结果,h是平滑因子,K是高斯核函数;
步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:
Figure GDA00026698413300000610
其中,CIα为残差值分布的在置信度为α下的置信区间;
步骤4.4:在得到CIα后,对于第i个样本标签为“+”的样本的第j个基因,当满足
Figure GDA0002669841330000071
则第j个基因是第i个样本标签为“+”的样本的生物标记物基因;
对于标签为“-”的样本,当满足
Figure GDA0002669841330000072
则第j个基因是第i个样本标签为“-”的样本的生物标记物基因。
本发明在GSE35640数据集上进行了实验验证,GSE35640数据集包含22个响应免疫药物的样本和34个未响应免疫药物的样本。
参数设定:本方法中所有的统计检验中的α均设定为0.05。
实施步骤:
(1)通过两组不同表型的样本,选出一定数量的差异表达基因(本例中使用了统计方法,α=0.05)。
(2)针对两组样本数据,分别计算出响应免疫药物组平均样本和未响应免疫药物组平均样本。
(3)利用所求得的平均样本以及单一样本,通过回归分析(α=0.05),获得每个样本的生物标记物基因。
结果:
(a)每个样本的生物标记基因都是特定的,样本的生物标记基因表达值应该与其他样本有显著差异。基于这一思想,我们设计了一种统计方法来测试这种差异。具体来说,测试过程如下。首先,我们选择样本Si的生物标记基因,提取它们在所有样本中的表达值。然后,对每个生物标志物基因在不同样本中的表达值进行排序,构建秩矩阵。矩阵的第i行向量Ri表示Si的生物标记基因的表达值的排序序号。最后,通过Kolmogorov-Smirnov检验Ri与其它Rj(j≠i)是否存在显著差异,因此,针对样本Si,可以得到n-1个统计检验的P值(n表示与样本Si同表型的样本数量)。在响应免疫药物的样本组和未响应免疫药物组中,分别有96.96%和95.72%的P值小于0.05。
(b)每个肿瘤样本的生物标记基因都反映了其特征,即生物标记基因是对应肿瘤样本的特征,它们应该能够将肿瘤样本分为高风险组和低风险组,并预测肿瘤患者的生存风险。因此,我们选择了在响应药物组出现频率高于未响应药物组的前70个生物标记物基因进行生存分析,结果表明这些生物标记物可以有效地将肿瘤样本分为高风险组和低风险组(P值小于0.05)。
每一个肿瘤样本的生物标记基因都反映了肿瘤的发病机制,在GSE35640数据集的原始研究论文中,研究人员找出了84个基因表达特征集,在这84个基因中有61个基因同样地被本方法确认为生物标记物基因。
以上所述仅是一种个体癌症样本的生物标记物识别方法的优选实施方式,一种个体癌症样本的生物标记物识别方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

Claims (5)

1.一种个体癌症样本的生物标记物识别方法,其特征是:包括以下步骤:
步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;
步骤2:基于选取的q个差异表达成分,获得平均样本;
步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;
步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分;
所述步骤4具体为:
步骤4.1:在q个差异表达成分中,单个样本的某些成分的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达成分的残差值通过如下公式计算:
Figure FDA0002669841320000011
对于第i个样本标签为“-”的样本,第j个差异表达成分的残差值通过如下公式计算:
Figure FDA0002669841320000012
其中,
Figure FDA0002669841320000013
为第i个标签为“+”的样本进行回归预测的结果,y'ji表示第i个样本、样本标签为“+”的第j个差异表达成分的表达值,x'ji表示第i个样本、样本标签为“-”的第j个差异表达成分的表达值,
Figure FDA0002669841320000014
为第i个标签为“-”的样本进行回归预测的结果;
步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物成分,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:
Figure FDA0002669841320000015
Figure FDA0002669841320000016
其中,
Figure FDA0002669841320000017
为高斯核进行核密度估计结果,h是平滑因子,K是高斯核函数,ei为高斯核密度估计的自变量,x为高斯核函数自变量;
步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:
Figure FDA0002669841320000021
其中,CIα为残差值分布的在置信度为α下的置信区间;
步骤4.4:在得到CIα后,对于第i个样本标签为“+”的样本的第j个成分,当满足
Figure FDA0002669841320000022
则第j个成分是第i个样本标签为“+”的样本的生物标记物成分;
对于标签为“-”的样本,当满足
Figure FDA0002669841320000023
则第j个成分是第i个样本标签为“-”的样本的生物标记物成分。
2.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤1具体为:
选取两组不同表型的成分表达数据样本,分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;
采用yji表示第i个样本、样本标签为“+”的第j个成分的表达值,采用xji表示第i个样本、样本标签为“-”的第j个成分的表达值,基于yji和xji选取出q个差异表达成分。
3.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤2具体为:
步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:
Figure FDA0002669841320000024
Figure FDA0002669841320000025
其中,u+和u-分别表示“+”和“-”两组样本的平均样本,
Figure FDA0002669841320000026
为在“+”组中的第q个成分的平均表达值,
Figure FDA0002669841320000027
为“-”组中的第q个成分的平均表达值;
步骤2.2:根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的第j个成分的表达值,来确定在“+”组和“-”组的第j个成分的平均表达值,通过下式确定在“+”组和“-”组的第j个成分的平均表达值:
Figure FDA0002669841320000028
Figure FDA0002669841320000029
其中,
Figure FDA0002669841320000031
为“+”组的第j个成分的平均表达值,
Figure FDA0002669841320000032
为“-”组的第j个成分的平均表达值,n1和n2分别表示“+”和“-”两类样本的样本数。
4.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤3具体为:
步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本、样本标签为“+”的第j个差异表达成分的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:
Figure FDA0002669841320000033
其中,
Figure FDA0002669841320000034
为第i个标签为“+”的样本;
对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:
Figure FDA0002669841320000035
其中,
Figure FDA0002669841320000036
为第i个标签为“+”的样本进行回归预测的结果,
Figure FDA0002669841320000037
为线型回归的截距系数,
Figure FDA0002669841320000038
为标签为“+”的样本的回归参数;
步骤3.2:令x'ji表示第i个样本、样本标签为“-”的第j个差异表达成分的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:
Figure FDA00026698413200000313
其中,
Figure FDA00026698413200000314
为第i个标签为“-”的样本;
对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“-”的样本进行回归预测的结果:
Figure FDA0002669841320000039
其中,
Figure FDA00026698413200000310
为第i个标签为“-”的样本进行回归预测的结果,
Figure FDA00026698413200000311
为线型回归的自变量系数,
Figure FDA00026698413200000312
为标签为“-”的样本的回归参数。
5.根据权利要求2所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发或响应的样本。
CN201910973485.5A 2019-10-14 2019-10-14 一种个体癌症样本的生物标记物识别方法 Active CN110675917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910973485.5A CN110675917B (zh) 2019-10-14 2019-10-14 一种个体癌症样本的生物标记物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910973485.5A CN110675917B (zh) 2019-10-14 2019-10-14 一种个体癌症样本的生物标记物识别方法

Publications (2)

Publication Number Publication Date
CN110675917A CN110675917A (zh) 2020-01-10
CN110675917B true CN110675917B (zh) 2020-11-13

Family

ID=69082371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910973485.5A Active CN110675917B (zh) 2019-10-14 2019-10-14 一种个体癌症样本的生物标记物识别方法

Country Status (1)

Country Link
CN (1) CN110675917B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004044128A2 (en) * 2002-10-24 2004-05-27 Oklahoma Medical Research Foundation An associative analysis of gene expression array data
CN101846670A (zh) * 2009-03-25 2010-09-29 沈树泉 一种生物样本的数字化标记检测方法
CN106845156B (zh) * 2017-01-11 2019-03-22 张渠 基于血小板差异表达基因标记的分类方法、装置及系统
CN107992945B (zh) * 2017-12-14 2020-03-24 浙江工业大学 基于深度学习和进化计算的特征基因选择方法
CN108830045B (zh) * 2018-06-29 2021-04-20 深圳先进技术研究院 一种基于多组学的生物标记物系统筛选方法
CN110010204B (zh) * 2019-04-04 2022-12-02 中南大学 基于融合网络和多打分策略的预后生物标志物识别方法

Also Published As

Publication number Publication date
CN110675917A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
Gower et al. Detecting adaptive introgression in human evolution using convolutional neural networks
NZ759804A (en) Deep learning-based techniques for training deep convolutional neural networks
Li et al. Machine learning for lung cancer diagnosis, treatment, and prognosis
NZ759846A (en) Deep learning-based splice site classification
JP2024016039A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
Romualdi et al. Pattern recognition in gene expression profiling using DNA array: a comparative study of different statistical methods applied to cancer classification
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
CN111276252B (zh) 一种肿瘤良恶性鉴别模型的构建方法及装置
CN111913999B (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
CN108268752B (zh) 一种染色体异常检测装置
Schachtner et al. Knowledge-based gene expression classification via matrix factorization
US20220165363A1 (en) De novo compartment deconvolution and weight estimation of tumor tissue samples using decoder
Kaderali et al. CASPAR: a hierarchical bayesian approach to predict survival times in cancer from gene expression data
CN110675917B (zh) 一种个体癌症样本的生物标记物识别方法
Maglietta et al. Selection of relevant genes in cancer diagnosis based on their prediction accuracy
Qin et al. An efficient method to identify differentially expressed genes in microarray experiments
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
Petersen et al. CHOIR improves significance-based detection of cell types and states from single-cell data
EP2324351B1 (en) Non-hypergeometric overlap probability
Babichev et al. Filtration of DNA nucleotide gene expression profiles in the systems of biological objects clustering
EP4216231A1 (en) Providing molecular data based on ct images
CN110751983A (zh) 一种筛选特征mRNA用于诊断早期肺癌的方法
Clayman RNA Sequencing and Clinical Data Analysis of Multiple Cancer Types on the National Cancer Institute's Genomic Data Commons

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant