CN110675917B - 一种个体癌症样本的生物标记物识别方法 - Google Patents
一种个体癌症样本的生物标记物识别方法 Download PDFInfo
- Publication number
- CN110675917B CN110675917B CN201910973485.5A CN201910973485A CN110675917B CN 110675917 B CN110675917 B CN 110675917B CN 201910973485 A CN201910973485 A CN 201910973485A CN 110675917 B CN110675917 B CN 110675917B
- Authority
- CN
- China
- Prior art keywords
- sample
- ith
- labeled
- samples
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
Abstract
本发明是一种个体癌症样本的生物标记物识别方法。本发明先基于两种不同表型的样本数据确定差异表达基因成分,如基因、蛋白质等分子化合物,选取出q个差异表达成分;基于选取的q个差异表达成分,获得平均样本。本发明构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;基于样本回归预测的结果和差异表达成分,确定单样本的生物标记。本发明可以针对不同的个体样本选出差异化的生物标记物。
Description
技术领域
本发明涉及生物标记物识别技术领域,是一种个体癌症样本的生物标记物识别方法。
背景技术
现有的生物标记物识别方法多基于两组不同表型的样本的差异性来识别生物标记物,然而癌症是一种复杂的异质性疾病,不同的患者有不同的发病机制,需要不同的治疗,因此,需要一种可以确定个体癌症样本的生物标记物的方法。
发明内容
本发明为确定个体癌症样本的生物标记,本发明提供了一种个体癌症样本的生物标记物识别方法,本发明提供了以下技术方案:
一种个体癌症样本的生物标记物识别方法,包括以下步骤:
步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;
步骤2:基于选取的q个差异表达成分,获得平均样本;
步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;
步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分。
优选地,所述步骤1具体为:
选取两组不同表型的成分表达数据样本,分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;
采用yji表示第i个样本、样本标签为“+”的第j个成分的表达值,采用xji表示第i个样本、样本标签为“-”的第j个成分的表达值,基于yji和xji选取出q个差异表达成分。
优选地,所述步骤2具体为:
步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:
步骤2.2:根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的第j个成分的表达值,来确定在“+”组和“-”组的第j个成分的平均表达值,通过下式确定在“+”组和“-”组的第j个成分的平均表达值:
优选地,所述步骤3具体为:
步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本、样本标签为“+”的第j个差异表达成分的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:
对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:
步骤3.2:令x'ji表示第i个样本、样本标签为“-”的第j个差异表达成分的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:
对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“-”的样本进行回归预测的结果:
优选地,所述步骤4具体为:
步骤4.1:在q个差异表达成分中,单个样本的某些成分的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达成分的残差值通过如下公式计算:
对于第i个样本标签为“-”的样本,第j个差异表达成分的残差值通过如下公式计算:
步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物成分,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:
步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:
其中,CIα为残差值分布的在置信度为α下的置信区间;
优选地,所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发或响应的样本。
本发明具有以下有益效果:
本发明可以针对不同的个体样本选出差异化的生物标记物。
本发明可以有效地识别出生物标记物,其有效性主要体包括:
a)不同样本的生物标记物的表达值与其他样本在统计上有显著地差异;
b)在不同样本中频繁出现的生物标记物可以有效地区分样本的生存状况;
c)被选出的生物标记物被文献报道表明其具有与表型相关的生物作用。
附图说明
图1是个体癌症样本的生物标记物识别方法流程图;
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
按照图1所示,以下内容以生物标记物是基因为例,介绍发明内容,本发明提供一种个体癌症样本的生物标记物识别方法,包括以下步骤:
步骤1:基于两种不同表型的样本数据确定差异表达基因,选取出q个差异表达基因;
所述步骤1具体为:
步骤1.1:选取两组不同表型的基因表达数据样本,分别使用“+”和“-”作为两组不同表型的基因表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;n=n1+n2,n表示所有样本的个数,所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发或响应的样本。
步骤1.2:采用yji表示第i个样本、样本标签为“+”的第j个基因的表达值,采用xji表示第i个样本、样本标签为“-”的第j个基因的表达值,基于yji和xji选取出q个基因差异表达基因。
步骤2:基于选取的q个差异表达基因,获得平均样本;
所述步骤2具体为:
步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:
步骤2.2:根据第i个样本标签为“+”的样本的第j个基因的表达值和第i个样本标签为“-”的第j个基因的表达值,来确定在“+”组和“-”组的第j个基因的平均表达值,通过下式确定在“+”组和“-”组的第j个基因的平均表达值:
步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;
所述步骤3具体为:
步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本、样本标签为“+”的第j个差异表达基因的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:
对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:
步骤3.2:令x'ji表示第i个样本、样本标签为“-”的第j个差异表达基因的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:
对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“-”的样本进行回归预测的结果:
步骤4:基于样本回归预测的结果和差异表达基因,确定单样本的生物标记基因。
所述步骤4具体为:
步骤4.1:在q个差异表达基因中,单个样本的某些基因的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达基因的残差值通过如下公式计算:
对于第i个样本标签为“-”的样本,第j个差异表达基因的残差值通过如下公式计算:
步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物基因,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:
步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:
其中,CIα为残差值分布的在置信度为α下的置信区间;
本发明在GSE35640数据集上进行了实验验证,GSE35640数据集包含22个响应免疫药物的样本和34个未响应免疫药物的样本。
参数设定:本方法中所有的统计检验中的α均设定为0.05。
实施步骤:
(1)通过两组不同表型的样本,选出一定数量的差异表达基因(本例中使用了统计方法,α=0.05)。
(2)针对两组样本数据,分别计算出响应免疫药物组平均样本和未响应免疫药物组平均样本。
(3)利用所求得的平均样本以及单一样本,通过回归分析(α=0.05),获得每个样本的生物标记物基因。
结果:
(a)每个样本的生物标记基因都是特定的,样本的生物标记基因表达值应该与其他样本有显著差异。基于这一思想,我们设计了一种统计方法来测试这种差异。具体来说,测试过程如下。首先,我们选择样本Si的生物标记基因,提取它们在所有样本中的表达值。然后,对每个生物标志物基因在不同样本中的表达值进行排序,构建秩矩阵。矩阵的第i行向量Ri表示Si的生物标记基因的表达值的排序序号。最后,通过Kolmogorov-Smirnov检验Ri与其它Rj(j≠i)是否存在显著差异,因此,针对样本Si,可以得到n-1个统计检验的P值(n表示与样本Si同表型的样本数量)。在响应免疫药物的样本组和未响应免疫药物组中,分别有96.96%和95.72%的P值小于0.05。
(b)每个肿瘤样本的生物标记基因都反映了其特征,即生物标记基因是对应肿瘤样本的特征,它们应该能够将肿瘤样本分为高风险组和低风险组,并预测肿瘤患者的生存风险。因此,我们选择了在响应药物组出现频率高于未响应药物组的前70个生物标记物基因进行生存分析,结果表明这些生物标记物可以有效地将肿瘤样本分为高风险组和低风险组(P值小于0.05)。
每一个肿瘤样本的生物标记基因都反映了肿瘤的发病机制,在GSE35640数据集的原始研究论文中,研究人员找出了84个基因表达特征集,在这84个基因中有61个基因同样地被本方法确认为生物标记物基因。
以上所述仅是一种个体癌症样本的生物标记物识别方法的优选实施方式,一种个体癌症样本的生物标记物识别方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (5)
1.一种个体癌症样本的生物标记物识别方法,其特征是:包括以下步骤:
步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;
步骤2:基于选取的q个差异表达成分,获得平均样本;
步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;
步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分;
所述步骤4具体为:
步骤4.1:在q个差异表达成分中,单个样本的某些成分的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达成分的残差值通过如下公式计算:
对于第i个样本标签为“-”的样本,第j个差异表达成分的残差值通过如下公式计算:
其中,为第i个标签为“+”的样本进行回归预测的结果,y'ji表示第i个样本、样本标签为“+”的第j个差异表达成分的表达值,x'ji表示第i个样本、样本标签为“-”的第j个差异表达成分的表达值,为第i个标签为“-”的样本进行回归预测的结果;
步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物成分,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:
步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:
其中,CIα为残差值分布的在置信度为α下的置信区间;
2.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤1具体为:
选取两组不同表型的成分表达数据样本,分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;
采用yji表示第i个样本、样本标签为“+”的第j个成分的表达值,采用xji表示第i个样本、样本标签为“-”的第j个成分的表达值,基于yji和xji选取出q个差异表达成分。
3.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤2具体为:
步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:
步骤2.2:根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的第j个成分的表达值,来确定在“+”组和“-”组的第j个成分的平均表达值,通过下式确定在“+”组和“-”组的第j个成分的平均表达值:
4.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤3具体为:
步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本、样本标签为“+”的第j个差异表达成分的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:
对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:
步骤3.2:令x'ji表示第i个样本、样本标签为“-”的第j个差异表达成分的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:
对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“-”的样本进行回归预测的结果:
5.根据权利要求2所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发或响应的样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910973485.5A CN110675917B (zh) | 2019-10-14 | 2019-10-14 | 一种个体癌症样本的生物标记物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910973485.5A CN110675917B (zh) | 2019-10-14 | 2019-10-14 | 一种个体癌症样本的生物标记物识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110675917A CN110675917A (zh) | 2020-01-10 |
CN110675917B true CN110675917B (zh) | 2020-11-13 |
Family
ID=69082371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910973485.5A Active CN110675917B (zh) | 2019-10-14 | 2019-10-14 | 一种个体癌症样本的生物标记物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110675917B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004044128A2 (en) * | 2002-10-24 | 2004-05-27 | Oklahoma Medical Research Foundation | An associative analysis of gene expression array data |
CN101846670A (zh) * | 2009-03-25 | 2010-09-29 | 沈树泉 | 一种生物样本的数字化标记检测方法 |
CN106845156B (zh) * | 2017-01-11 | 2019-03-22 | 张渠 | 基于血小板差异表达基因标记的分类方法、装置及系统 |
CN107992945B (zh) * | 2017-12-14 | 2020-03-24 | 浙江工业大学 | 基于深度学习和进化计算的特征基因选择方法 |
CN108830045B (zh) * | 2018-06-29 | 2021-04-20 | 深圳先进技术研究院 | 一种基于多组学的生物标记物系统筛选方法 |
CN110010204B (zh) * | 2019-04-04 | 2022-12-02 | 中南大学 | 基于融合网络和多打分策略的预后生物标志物识别方法 |
-
2019
- 2019-10-14 CN CN201910973485.5A patent/CN110675917B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110675917A (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gower et al. | Detecting adaptive introgression in human evolution using convolutional neural networks | |
NZ759804A (en) | Deep learning-based techniques for training deep convolutional neural networks | |
Li et al. | Machine learning for lung cancer diagnosis, treatment, and prognosis | |
NZ759846A (en) | Deep learning-based splice site classification | |
JP2024016039A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
US20210381056A1 (en) | Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility | |
Romualdi et al. | Pattern recognition in gene expression profiling using DNA array: a comparative study of different statistical methods applied to cancer classification | |
JP2023507252A (ja) | パッチ畳み込みニューラルネットワークを用いる癌分類 | |
CN111276252B (zh) | 一种肿瘤良恶性鉴别模型的构建方法及装置 | |
CN111913999B (zh) | 基于多组学与临床数据的统计分析方法、系统和存储介质 | |
CN108268752B (zh) | 一种染色体异常检测装置 | |
Schachtner et al. | Knowledge-based gene expression classification via matrix factorization | |
US20220165363A1 (en) | De novo compartment deconvolution and weight estimation of tumor tissue samples using decoder | |
Kaderali et al. | CASPAR: a hierarchical bayesian approach to predict survival times in cancer from gene expression data | |
CN110675917B (zh) | 一种个体癌症样本的生物标记物识别方法 | |
Maglietta et al. | Selection of relevant genes in cancer diagnosis based on their prediction accuracy | |
Qin et al. | An efficient method to identify differentially expressed genes in microarray experiments | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
KR102376212B1 (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 | |
Petersen et al. | CHOIR improves significance-based detection of cell types and states from single-cell data | |
EP2324351B1 (en) | Non-hypergeometric overlap probability | |
Babichev et al. | Filtration of DNA nucleotide gene expression profiles in the systems of biological objects clustering | |
EP4216231A1 (en) | Providing molecular data based on ct images | |
CN110751983A (zh) | 一种筛选特征mRNA用于诊断早期肺癌的方法 | |
Clayman | RNA Sequencing and Clinical Data Analysis of Multiple Cancer Types on the National Cancer Institute's Genomic Data Commons |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |