CN110910957B - 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法 - Google Patents

一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法 Download PDF

Info

Publication number
CN110910957B
CN110910957B CN201911414501.3A CN201911414501A CN110910957B CN 110910957 B CN110910957 B CN 110910957B CN 201911414501 A CN201911414501 A CN 201911414501A CN 110910957 B CN110910957 B CN 110910957B
Authority
CN
China
Prior art keywords
site
sample
microsatellite
training
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911414501.3A
Other languages
English (en)
Other versions
CN110910957A (zh
Inventor
孙大伟
柳毅
段小红
承康平
周启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiuzhen Medical Technology Zhejiang Co ltd
Original Assignee
Qiuzhen Medical Technology Zhejiang Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiuzhen Medical Technology Zhejiang Co ltd filed Critical Qiuzhen Medical Technology Zhejiang Co ltd
Priority to CN201911414501.3A priority Critical patent/CN110910957B/zh
Publication of CN110910957A publication Critical patent/CN110910957A/zh
Application granted granted Critical
Publication of CN110910957B publication Critical patent/CN110910957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,该方法基于优化后的微卫星位点状态标志,采用机器学习技术,通过对每个微卫星位点进行建模分析,利用有效位点被判别为微卫星不稳定位点的百分比来探测每个样本是否为微卫星不稳定状态,实现只利用肿瘤样本测序数据来探测微卫星不稳定状态,能够高精度判断多个微卫星位点的稳定性,实现准确稳定的微卫星不稳定状态基因检测。

Description

一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛 选方法
技术领域
本发明涉及基因检测技术领域,尤其涉及一种基于单肿瘤样本高通量测序数据的微卫星不稳定性探测位点筛选方法。
背景技术
近年来,人类基因组测序技术在疾病,健康,衰老等方面的应用越来越广泛,随着测序技术的成熟,特别是下一代测序技术已经逐渐应用于临床诊断。下一代测序技术的发明使得测序技术实现自动化高通量两个特点,使得测序价格越来越低。除了下一代测序技术,目前单细胞测序也为人类在微观层面上观测人类基因组序列信息提供了更多的便利。
目前,肿瘤已经成为中国主要死亡原因且肿瘤负担仍在持续上升,发病率也在逐年增大,为了减少死亡率,减轻患者的痛苦,精准医疗与个体医疗显得十分重要,通过单肿瘤样本高通量测序数据的微卫星不稳定性探测个体化用药也随之成为当前的发展趋势。微卫星不稳定性(Micro-Satellite Instability , MSI)是指脱氧核糖核苷酸(DNA)复制过程中由于重复序列非正常插入或移除导致微卫星等位基因长度发生变化,且该变化因为DNA错配修复机制的基因发生启动子甲基化抑制基因表达或发生失活、截短突变)无法通过DNA错配修复系统(Mismatch Repair System, MMR)进行修正等种种原因。当细胞中与DNA错配修复系统相关的基因发生突变或者异常表观修饰而失活时,就会产生微卫星不稳定性(Microsatellite Instability,MSI)的表型。大量研究表明,微卫星不稳定性与肿瘤的发生有关,并在肿瘤的治疗和预后的过程中具有重要的作用。因此,选择合适的基于单肿瘤样本高通量测序数据的微卫星不稳定性探测位点筛选方法具有非常重要的意义。
目前临床中微卫星不稳定性(MSI)检测方法主要依赖于美国肿瘤研究所制定的检测标准,即检测两个单核苷酸重复位点(BAT-25,BAT-26)和三个二核苷酸重复位点(D2S123,D5S346,D17S250)共五个基因组微卫星位点的稳定性。这种方法通过PCR扩增然后通过电泳实验对比肿瘤样本和正常对照样本在目标重复区域的拷贝数情况来决定微卫星位点的稳定性。根据检测样本中不稳定性位点占总检测位点数的比例可以将样本微卫星不稳定性状态确定为高不稳定(MSI-H),低不稳定(MSI-L)和稳定(MSS)三种状态。这种检测方法检测位点过少,实验方案复杂,耗费时间较长,且只能检测限定的标志物。
随着二代测序(NGS)在肿瘤生物学的深入拓展,一些计算机算法已经开发用NGS数据来确定MSI的状态。计算机算法,例如微卫星不稳定性分析软件MSIsensor, MANTIS和mSINGS是通过检查来自正常和肿瘤配对样本的测序数据计算不稳定的微卫星位点的占比。微卫星不稳定性分析软件MSIseq,MOSAIC和MIRMMR使用了基于微卫星突变位点,甲基化和其他微卫星特点的机器学习分类器。MOSAIC和MSIseq通过处理更小但是微卫星特点更集中的文件(样本重复区域中观察到的每兆区域的微插入微缺失)来对MSI数值进行评估。MSIsensor是一款在肿瘤/正常组织(Tumor-normal)基因组测序数据中定量MSI的软件,它识别人类基因组中对应微卫星位点的体细胞突变状态。MSIsensor的性能已经得到纪念斯隆凯特琳癌症中心(MSKCC)在15000例实体瘤中的验证,已投入日常的医疗检测。
尽管MSI检测如今越来越成为许多医疗机构中的常规项,但是在实际的临床操作中,配对的正常样本并不在样本采集的日常要求;同时,相匹配的非肿瘤组织可能很难在临床操作中获取。肿瘤/正常组织配对(Tumor-normal paired)分析,即使是正常组织采用低深度测序,依然会造成成本的显著上升。不仅如此,如果配对的正常样本来自血液或是唾液,肿瘤/正常组织分析无法捕捉到样本保存和核酸提取的系统噪音。
因此,需求更为合适的基于单肿瘤样本高通量测序数据的微卫星不稳定性探测位点筛选方法符合市场需求,具有较高的经济价值、社会价值和临床实用价值。
发明内容
本发明的主要目的在于提供一种基于单肿瘤样本高通量测序数据的微卫星不稳定性探测位点筛选方法,该方法基于优化后的微卫星位点状态标志,采用机器学习技术,通过对每个微卫星位点进行建模分析,利用有效位点被判别为MSI位点的百分比来探测每个样本是否为MSI,实现只利用肿瘤样本测序数据来探测MSI状态,能够高精度判断多个MSI位点的稳定性,实现准确稳定的MSI状态基因检测。
为达到以上目的,本发明采用的技术方案为:一种基于单肿瘤样本高通量测序数据微卫星不稳定性探测位点筛选方法,其特征在于,包括以下步骤。
步骤S1:收集来自美国肿瘤基因组图谱计划(The Cancer Genome Atlas,TCGA)的肿瘤/正常组织配对数据样本,并获取其覆盖微卫星位点的测序片段分布。
步骤S2:对每个配对数据样本的微卫星位点分布进行卡方检验,获取每个微卫星位点为体细胞突变的统计概率(P-value),并经过校正计算产生用于判断每个微卫星位点是否是体细胞位点的错误发现率(FDR)。
步骤S3:根据每个微卫星位点的FDR将微卫星位点分为体细胞位点或胚系位点,将样本覆盖率>10%的微卫星位点作为有效训练位点输入基于单肿瘤样本的机器学习模型中用作模型训练。
步骤S4:对上述单个有效训练位点进行训练,将该有效训练位点的有效样本数的80%作为训练集,20%作为对照集分别用于机器学习模型的训练和测试;训练和测试结束后,若体细胞样本数和胚系样本数均大于5,对照集的曲线下面积(AUC)>0.95,则该微卫星位点保留作为有效位点,同时生成一个有效位点模型,否则去除该微卫星位点。
步骤S5:经过训练和测试后,得到所有有效位点及其有效位点模型。
步骤S6:使用MSIsensor软件对样本的数据扫描,预设有效位点为MSI位点的概率为p_cutoff;采用有效位点模型分别对对应的各样本中支持的每个位点进行预测,分别输出该样本支持的位点i为微卫星不稳定性MSI位点的概率pi,i为正整数,通过比较pi和p_cutoff判定该位点是否为MSI位点。
进一步地,步骤S1中所述肿瘤/正常样本配对数据的数据格式为全外显子组的BAM数据。
进一步地,步骤S3中所述微卫星位点的分类依据为,FDR<0.05的微卫星位点标为体细胞位点,FDR>0.2的微卫星位点标为胚系位点。
进一步地,步骤S4中,所述训练步骤为:对训练集中的有效样本进行机器学习模型训练,将训练集样本的体细胞位点和胚系位点信息作为模型建立的输入,得到针对单肿瘤样本的机器学习预测模型,将训练集中单肿瘤样本的位点信息BAM文件输入单肿瘤样本的机器学习预测模型,扫描所有训练位点的分布,得到位点分布信息,根据训练集中单肿瘤样本的位点分布信息,训练机器学习模型。
进一步地,步骤S4中,所述测试步骤为:对测试集中的有效样本进行机器学习模型测试,将测试集样本的单肿瘤样本的位点信息BAM文件输入单肿瘤样本的机器学习训练模型,得到预测结果,通过预测结果计算MSI分值,通过MSI分值预测测试集样本MSI状态,通过预测的测试集样本MSI状态与测试样本原有判定的MSI状态对比,结果符合说明测试位点为有效位点,得到有效位点模型。
进一步地,步骤S5中,所述体细胞位点和胚系位点的样本数取值为自定参数,优选为5,为满足足够的训练样本数并保持体细胞样本数和胚系样本数一致。
进一步地,步骤S6中,所述概率pi的获得方式为:使用步骤S5中得到有效位点模型对每个扫描得到的位点信息进行预测,其中位点i为微卫星不稳定性MSI位点的概率即为pi;因为i代表位点,此处必须为正整数。
进一步地,步骤S6中,所述MSI位点的判定方法为:若pi<p_cutoff,则该位点判别为1,即判定该位点i为MSI位点,否则该位点判别为0。
由于上述技术方案运用,本发明与现有技术相比具有下列优点。
(1)本发明的基于单肿瘤样本高通量测序数据的微卫星不稳定性探测位点筛选方法,基于优化后的微卫星位点检测数量,采用机器学习技术,实现只利用肿瘤组织样本测序数据检测MSI状态。
(2)本发明的基于单肿瘤样本高通量测序数据的微卫星不稳定性探测位点筛选方法,实现了预测过程与肿瘤的类型无关,仅利用肿瘤全外显子或外显子捕获实验(Panel)来更全面地检查各个癌种的MSI状态。
(3)本发明的基于单肿瘤样本高通量测序数据的微卫星不稳定性探测位点筛选方法,能够高精度地探测MSI状态,实现准确稳定的基因检测结果。
附图说明
图1是本发明的基于单肿瘤样本高通量测序数据的MSI探测位点筛选方法流程图。
图2是TCGA结直肠癌单肿瘤样本数据分析蜜蜂群图。
图3是TCGA胃癌数据单肿瘤样本数据分析蜜蜂群图。
图4是TCGA子宫内膜癌单肿瘤样本数据分析蜜蜂群图。
图5是TCGA结直肠癌单肿瘤样本数据分析ROC曲线图。
图6是TCGA胃癌单肿瘤样本数据分析ROC曲线图。
图7是TCGA子宫内膜癌单肿瘤样本数据分析ROC曲线图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。本发明实施例中的所述原料均为商业购买。
本发明公开了一种基于单肿瘤样本高通量测序数据的微卫星不稳定性探测位点筛选方法,如图1所示,包括以下步骤。
步骤S1:收集来自美国癌症肿瘤基因组图谱计划(The Cancer Genome Atlas,TCGA)的若干个肿瘤/正常组织配对数据样本,数据格式为全外显子组的BAM数据,并获取其覆盖微卫星位点的测序片段分布。
步骤S2:对每个配对数据样本的微卫星位点分布进行卡方检验,获取每个微卫星位点为体细胞突变的统计P-value值,并经过校正计算产生用于判断每个微卫星位点是否是体细胞位点的错误发现率FDR值。
步骤S3:根据每个微卫星位点的FDR值将微卫星位点分为体细胞位点或胚系位点,FDR<0.05的微卫星位点标为体细胞位点,FDR>0.2的微卫星位点标为胚系位点;将样本覆盖率>10%的微卫星位点作为有效训练位点输入基于单肿瘤样本的机器学习模型中用作模型训练。
步骤S4:对上述单个有效训练位点进行训练,将该有效训练位点的有效样本数的80%作为训练集、20%作为对照集分别用于机器学习模型的训练和测试;训练和测试结束后,若体细胞样本数和胚系样本数均大于5,对照集的AUC>0.95,则该微卫星位点保留作为有效位点,同时生成一个有效位点模型,否则去除该微卫星位点。
步骤S5:所有有效训练位点经过训练和测试后,得到所有有效位点及其有效位点模型。
使用MSIsensor软件对样本的数据扫描,预设有效位点为MSI位点的概率为p_cutoff;采用有效位点模型分别对对应的各样本中支持的每个位点进行预测,分别输出该样本支持的位点i为微卫星不稳定性MSI位点的概率pi,i为正整数,通过比较pi和p_cutoff判定该位点是否为MSI位点。
步骤S7:预设得分s_cutoff,计算每个样本的微卫星不稳定性评分MSIscore,所述MSIscore为该样本中判定为MSI位点的位点个数占所有测序片段支持的位点总数的比值,若MSIscore>s_cutoff,则判定该样本为MSI,即具有微卫星不稳定性,否则判定为MSS。
实施例
1)搭建自动化分析单肿瘤样本测序数据的机器学习框架。
收集来自肿瘤基因组图谱TCGA(the Cancer Genome Atlas)、EGA (EuropeanGenome-phenome Archive, https://www.ebi.ac.uk/ega/home)、北京肿瘤医院(BCH)、肿瘤基因检测Panel TSO500(www.illumina.com/tso500)等5个数据源的肿瘤/正常样本配对数据,数据格式是全外显子组的BAM数据,BAM是目前基因数据分析中最通用的比对数据存储格式,它既适合于短读长也适合于长读长,最长可以支持128Mbp的超大读长。现在基本上所有的比对数据都是用BAM格式存储的,已经成为了业内的默认标准。
本例中一共收集了2073个不同癌种的样本数据,包括结直肠癌CRC数据集(COAD和READ)、胃癌(STAD)、子宫内膜癌(UCEC)、肺癌及混合癌种。所有的TCGA数据用于模型的训练,剩余数据用于测试。由于DNA错配修复蛋白表达缺失,测序片段中重复短核苷酸序列缺失的量呈现增加趋势。通过对比结直肠癌、胃癌和子宫内膜癌的MSIsensor测试结果,构建的单肿瘤机器学习模型在MSI与MSS(Microsatellite Stable,微卫星稳定,与MSI相对)二分类上的准确率有显著的提高,单肿瘤样本模型机器学习的准确率是0.99。
2)机器学习模型实现单肿瘤样本序列数据的精确诊断。
基于以上机器学习框架中的训练策略,建立机器学习的单肿瘤样本高通量测序数据的MSI探测方法,如图1所示。每个样本的配对数据经过卡方检验,产生用于判断每个位点是否是体细胞位点的错误发现率FDR,FDR作为判断该微卫星位点的等位基因分布分类标签,其中微卫星位点的FDR<0.05标为体细胞位点(Somatic loci),FDR>0.2标为胚系位点(Germline loci)。
在训练阶段,统计样本覆盖率大于10%的位点为有效训练位点,符合条件的位点共有13085个。在单个位点训练时,将该位点的有效样本分为80%的训练集和20%的对照集,使用机器学习模型训练。训练且用对照集测试之后,为了保证对照结果的有效性,仅保留体细胞位点和胚系位点的样本数均大于5且对照集AUC大于0.95的位点为有效位点,也就生成一个有效模型,最终有效位点为2838个。
根据图1所示的训练流程,对于测试的每个样本,首先采用MSIsensor对样本的BAM数据扫描2838个有效位点,并获取样本测序片段支持的位点,采用每个位点模型对该样本的每个位点进行预测,模型输出该样本支持的位点i为MSI的概率pi。然后,通过预设的概率p_cutoff来判别位点是否为MSI位点。具体如下:如果pi<p_cutoff,该位点判别为1,即该位点i为MSI位点,否则判别为0。本例中p_cutoff取0.3。
最后,对每个样本计算其MSIscore来预测样本是否为MSI,其中MSIscore表示所有判别为MSI位点的个数占所有测序片段支持的位点总数的比值。具体如下:根据预设的得分s_cutoff,如果MSIscore>s_cutoff,则判别该样本为MSI,否则为MSS。本例中s_cutoff取0.2。
3)机器学习模型单一癌种和混合癌种的测试。
为了评估样本的微卫星(MS)状态,我们对每个位点进行建模分析,最后通过有效位点被判别为MSI的百分比来预测每个样本是否为MSI,样本分为MSI和MSS两类。
为使机器学习方法取得最高的性能,采用TCGA全部样本作为机器学习模型训练的输入。模型建立过程中,可变参数包括:判定为somatic的FDR阈值(s_threthold):0.05/0.3,有效位点的正负样本最小个数(min_sample_num): 20/30,重复次数分布截取的右边界(rep_end): 26/36,数据集(dataset): 950/1561,其中根据机器学习的经验,理论最好的参数应该为:pos_threthold =0.05,min_sample_num =30,rep_end =36,dataset =1561。固定参数包括:测试时位点判断为体细胞位点的阈值:0.3,选择位点时对照组最小样本个数:5,选择位点时对照组最小AUC:0.95,判定为非体细胞位点的FDR阈值:0.8,重复次数分布截取的左边界:1,有效位点的最小覆盖度:20。
本例中测试了混合样本和单癌种的MS预测性能,其中混合癌种包括:TCGA混合样本(TCGA_new)、Panel数据(hospital)和TCGA-SU(包含STAD与UCEC的混合样本),单癌种包括:TCGA-STAD、TCGA-CRC、TCGA-UCEC、EGA。结果显示:TCGA_new AUC:0.9919,TCGA-STADAUC:0.9999,TCGA-CRC AUC:0.9942,TCGA-SU AUC:0.9957,EGA AUC:1.0000,hospitalAUC:0.9940。在最优模型情况下结直肠癌(如图2)、胃癌(如图3)和子宫内膜癌(如图4)MSI分值的蜜蜂群图分布结果如图所示。
本例中检查了TCGA中的三类癌症数据,数据内容包括1561例癌症样本的外显子,超过180.6343万个微卫星位点。构建2000个微卫星位点的分类器,用于单肿瘤样本体细胞的检测。这2000个微卫星位点更适用于泛癌种中特定癌种或泛癌种的单肿瘤样本 MSI分类。本发明在7个数据库上得到了评估,总体上取得了≥98%的准确度。与此同时,结直肠癌、胃癌和子宫内膜癌受试者工作特征曲线(ROC)下的平均面积≥0.99(如图5、6、7)。需要特别指出的是,从泛癌种中,除TCGA结直肠以外的特定个体化肿瘤类型挖掘出同样的MSI-H临界值为≥0.2,这和illumina TSO500的结果一致。这些分析深究了MSI保守的肿瘤特性,并且揭示了临床上MSI诊断和癌症基因发现的新机遇。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。

Claims (4)

1.在一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,其特征在于,包括以下步骤:
步骤S1:收集肿瘤/正常组织配对数据样本,并获取其覆盖微卫星位点的测序片段分布;
步骤S2:对每个配对数据样本的微卫星位点分布进行卡方检验,获取每个微卫星位点为体细胞突变的统计概率,并经过校正计算产生用于判断每个微卫星位点是否是体细胞位点的错误发现率;
步骤S3:根据每个微卫星位点是否为体细胞位点的错误发现率将微卫星位点分为体细胞位点或胚系位点,将样本覆盖率>10%的微卫星位点作为有效训练位点输入基于单肿瘤样本的机器学习模型中用作模型训练;
步骤S4:对单个有效训练位点进行训练,将该有效训练位点的有效样本数的80%作为训练集,20%作为对照集分别用于机器学习模型的训练和测试;训练和测试结束后,若体细胞位点的样本数和胚系位点的样本数均大于5,对照集的曲线下面积>0.95,则该微卫星位点保留作为有效位点,同时生成一个有效位点模型,否则去除该微卫星位点;具体的,所述训练步骤为,对训练集中的有效样本进行机器学习模型训练,将训练集样本的体细胞位点和胚系位点信息作为模型建立的输入,得到针对单肿瘤样本的机器学习预测模型,将训练集中单肿瘤样本的位点信息BAM文件输入单肿瘤样本的机器学习预测模型,扫描所有训练位点的分布,得到位点分布信息,根据训练集中单肿瘤样本的位点分布信息,训练机器学习模型;所述测试步骤为,对测试集中的有效样本进行机器学习模型测试,将测试集样本的单肿瘤样本的位点信息BAM文件输入单肿瘤样本的机器学习训练模型,得到预测结果,通过预测结果计算微卫星不稳定性分值并预测测试集样本微卫星不稳定性状态,通过预测的测试集样本微卫星不稳定性状态与测试样本原有判定的微卫星不稳定性状态对比,结果符合说明测试位点为有效位点,得到有效位点模型;
步骤S5:经过训练和测试后,得到所有有效位点及其有效位点模型;
步骤S6:使用MSIsensor软件对样本的数据扫描,预设有效位点为微卫星不稳定性位点的概率为p_cutoff;采用有效位点模型分别对对应的各样本中支持的每个位点进行预测,
得到该样本支持的位点i为微卫星不稳定性位点的概率为pi,i为正整数,通过比较pi和p_cutoff判定该位点是否为微卫星不稳定性位点。
2.根据权利要求1所述的一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,其特征在于,步骤S1中所述肿瘤/正常样本配对数据的数据格式为全外显子组的BAM数据。
3.根据权利要求1所述的一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,其特征在于,步骤S3中所述微卫星位点的分类依据为,错误发现率<0.05的微卫星位点标为体细胞位点,错误发现率>0.2的微卫星位点标为胚系位点。
4.根据权利要求1所述的一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,其特征在于,步骤S6中,所述微卫星不稳定性位点的判定方法为:若pi<p_cutoff,则该位点判别为1,即判定该位点i为微卫星不稳定性位点,否则该位点判别为0。
CN201911414501.3A 2019-12-31 2019-12-31 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法 Active CN110910957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911414501.3A CN110910957B (zh) 2019-12-31 2019-12-31 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911414501.3A CN110910957B (zh) 2019-12-31 2019-12-31 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法

Publications (2)

Publication Number Publication Date
CN110910957A CN110910957A (zh) 2020-03-24
CN110910957B true CN110910957B (zh) 2023-06-27

Family

ID=69814111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911414501.3A Active CN110910957B (zh) 2019-12-31 2019-12-31 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法

Country Status (1)

Country Link
CN (1) CN110910957B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037859B (zh) * 2020-09-02 2023-12-19 迈杰转化医学研究(苏州)有限公司 一种微卫星不稳定性的分析方法和分析装置
CN112391477B (zh) * 2020-12-07 2021-04-09 北京求臻医疗器械有限公司 一种检测游离核酸微卫星不稳定性的方法及装置
CN112626216B (zh) * 2020-12-31 2022-11-01 复旦大学附属中山医院 一种检测肿瘤微卫星不稳定性状态的组合物及其应用
CN113160891A (zh) * 2021-04-14 2021-07-23 西安交通大学 一种基于转录组测序的微卫星不稳定性检测方法
CN113151476B (zh) * 2021-05-07 2022-08-09 北京泛生子基因科技有限公司 一种基于二代测序数据鉴别微卫星不稳定的位点组合、方法及其应用
CN113361580A (zh) * 2021-05-31 2021-09-07 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种结直肠癌错配修复功能的预测方法及装置
CN113362932B (zh) * 2021-06-24 2023-02-17 河北大学 一种基于cc-注意力机制的影像组学特征筛选方法
CN113744251B (zh) * 2021-09-07 2023-08-29 上海桐树生物科技有限公司 基于自注意力机制从病理图片预测微卫星不稳定性的方法
CN114972837B (zh) * 2022-03-15 2024-05-03 常州桐树生物科技有限公司 基于rnn从病理图片识别微卫星不稳定性状态的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106755501A (zh) * 2017-01-25 2017-05-31 广州燃石医学检验所有限公司 一种基于二代测序的同时检测微卫星位点稳定性和基因组变化的方法
CN108374008A (zh) * 2018-05-07 2018-08-07 求臻医学科技(北京)有限公司 用于检测kras突变的引物对和探针的组合产品、组合物、试剂盒及其应用
CN109637590A (zh) * 2018-12-29 2019-04-16 西安交通大学 一种基于基因组测序的微卫星不稳定性检测系统及方法
CA3067422A1 (en) * 2017-11-16 2019-05-23 Illumina, Inc. Systems and methods for determining microsatellite instability

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10294529B2 (en) * 2012-04-10 2019-05-21 Life Sciences Research Partners Vzw Microsatellite instability markers in detection of cancer
CA3003251A1 (en) * 2015-10-12 2017-04-20 Nantomics, Llc Systems, compositions, and methods for discovery of msi and neoepitopes that predict sensitivity to checkpoint inhibitors
GB201614474D0 (en) * 2016-08-24 2016-10-05 Univ Of Newcastle Upon Tyne The Methods of identifying microsatellite instability
US20190206513A1 (en) * 2017-12-29 2019-07-04 Grail, Inc. Microsatellite instability detection
US11741365B2 (en) * 2018-05-14 2023-08-29 Tempus Labs, Inc. Generalizable and interpretable deep learning framework for predicting MSI from histopathology slide images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106755501A (zh) * 2017-01-25 2017-05-31 广州燃石医学检验所有限公司 一种基于二代测序的同时检测微卫星位点稳定性和基因组变化的方法
CA3067422A1 (en) * 2017-11-16 2019-05-23 Illumina, Inc. Systems and methods for determining microsatellite instability
CN108374008A (zh) * 2018-05-07 2018-08-07 求臻医学科技(北京)有限公司 用于检测kras突变的引物对和探针的组合产品、组合物、试剂盒及其应用
CN109637590A (zh) * 2018-12-29 2019-04-16 西安交通大学 一种基于基因组测序的微卫星不稳定性检测系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MSI状态与Ⅱ期、Ⅳ期结肠癌患者预后及其临床病理特征的相关性分析及思考;刘超等;《中华普外科手术学杂志》;第13卷(第3期);283-286 *
Revised Bethesda Guidelines for hereditary nonpolyposis colorectal cancer (Lynch syndrome) and microsatellite instability;Umar Asad等;《Journal of the National Cancer Institute》;第96卷(第4期);261-268 *
肿瘤微卫星不稳定检测方法综述;陈玮等;《计算机系统应用》;第20卷(第10期);39-45 *

Also Published As

Publication number Publication date
CN110910957A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110910957B (zh) 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
KR102605348B1 (ko) 암 검출을 위한 혈장 dna의 크기 및 수 비정상의 이용 방법
CN109767810B (zh) 高通量测序数据分析方法及装置
ES2869347T3 (es) Determinación de un desequilibrio de la secuencia de ácido nucleico
KR20170125044A (ko) 암 스크리닝 및 태아 분석을 위한 돌연변이 검출법
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
CN106156543B (zh) 一种肿瘤ctDNA信息统计方法
US20190338349A1 (en) Methods and systems for high fidelity sequencing
KR102029393B1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
US20210065842A1 (en) Systems and methods for determining tumor fraction
JP2015536639A5 (zh)
WO2021139716A1 (en) Biterminal dna fragment types in cell-free samples and uses thereof
WO2020237184A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
CN110016497B (zh) 一种检测肿瘤单细胞基因组拷贝数变异的方法
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
US20210115520A1 (en) Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
WO2021061473A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
WO2020224159A1 (zh) 基于二代测序用于脑胶质瘤的检测panel、检测试剂盒、检测方法及其应用
Renaud et al. Unsupervised detection of fragment length signatures of circulating tumor DNA using non-negative matrix factorization
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN114724631A (zh) 染色体拷贝数变异程度评估模型、方法及应用
Stålberg et al. An integrative genomic analysis of formalin fixed paraffin-embedded archived serous ovarian carcinoma comparing long-term and short-term survivors
KR102519739B1 (ko) 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
JP2020517304A (ja) Dna分析のためのオフターゲット配列の使用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 135, Floor 1, Building 3, No. 96, Longchuanwu Road, Donghu Street, Linping District, Hangzhou City, Zhejiang Province, 310000

Applicant after: Qiuzhen Medical Technology (Zhejiang) Co.,Ltd.

Address before: 100176 101, Floor 1, Building 3, No. 156, Jinghai 4th Road, Daxing Economic and Technological Development Zone, Beijing

Applicant before: CHOSENMED TECHNOLOGY (BEIJING) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant