CN112951325B - 一种用于癌症检测的探针组合的设计方法及其应用 - Google Patents

一种用于癌症检测的探针组合的设计方法及其应用 Download PDF

Info

Publication number
CN112951325B
CN112951325B CN202110190057.2A CN202110190057A CN112951325B CN 112951325 B CN112951325 B CN 112951325B CN 202110190057 A CN202110190057 A CN 202110190057A CN 112951325 B CN112951325 B CN 112951325B
Authority
CN
China
Prior art keywords
mutation
cancer
detection
grading
probe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110190057.2A
Other languages
English (en)
Other versions
CN112951325A (zh
Inventor
管彦芳
易玉婷
郝时光
曾晓玲
杨玲
易鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiyinjia Medical Laboratory Co ltd
Changsha Geenga Biotechnology Co ltd
Original Assignee
Changsha Geenga Biotechnology Co ltd
Beijing Jiyinjia Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Geenga Biotechnology Co ltd, Beijing Jiyinjia Medical Laboratory Co ltd filed Critical Changsha Geenga Biotechnology Co ltd
Priority to CN202110190057.2A priority Critical patent/CN112951325B/zh
Publication of CN112951325A publication Critical patent/CN112951325A/zh
Application granted granted Critical
Publication of CN112951325B publication Critical patent/CN112951325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种用于癌症检测的探针组合的设计方法及其应用,所述设计方法包括:提取数据库中的癌症的突变集合分为训练集和验证集,将所述训练集中参考基因组距离<=80的突变合并得到多个突变热点区间;将所述多个突变热点区间以区域突变密度为依据依次进行筛选,将满足以下条件的突变热点区间作为所述探针组合的靶点。本发明设计得到的探针组合对常见癌症的覆盖优秀,采用Gene+数据库和MSK数据库验证集模拟该panel对9个癌症的覆盖情况,结果表明,九大癌症类型的覆盖度均>93%;基于该探针的早起癌症检测具有高灵敏度和特异性,对于肝癌的检出率达到85%;基于该探针的ctDNA阳性判定方法能有效对患者进行预后分层。

Description

一种用于癌症检测的探针组合的设计方法及其应用
技术领域
本发明涉及生物技术领域,尤其涉及一种用于癌症检测的探针组合的设计方法及其应用。
背景技术
肝癌是一类高发性恶性肿瘤,患有肝癌的病人通常死亡率较高。高发病率和死亡率的关键原因在于缺乏有效的早期筛查标志物。传统诊断方法中,血清甲胎蛋白(Alpha-fetoprotein,AFP)和肝脏超声检查是早期筛查肝癌的主要手段,但是相关研究表明约80%的小肝癌患者(早期肝癌患者)的AFP水平没有显著升高,说明AFP作为筛查标志物具有一定的局限性,不适于早期肝癌的检测;而对于早期肝癌的超声检查,其灵敏度仅有47%;通过超声联合AFP蛋白标志物检出的灵敏度为63%,虽然这种联合检测可提高灵敏度,也降低了特异性,因此,在早期肝癌患者的诊断中,急需高度灵敏和特异性的检测手段。
胰腺癌是一种发病隐匿、进展迅速、预后极差的消化系统恶性肿瘤,总体发病率和死亡率逐年上升。手术切除是目前唯一可能治愈的方法,但大部分患者就诊时因疾病较晚而失去手术时机,晚期患者的5年生存率只有2~5%,而早期患者术后5年生存率可高达80%。以血清蛋白标记物(CA199)联合影像学(B超/CT)为基础的筛查体系,敏感性和特异性不足,是导致胰腺癌早诊率低的重要原因。有研究结果显示,采用CT、MRI、超声内镜等方法筛查胰腺癌高危人群,阳性率仅为1.56%,且成本大、效率低,而超声内镜等有创检查也造成患者的心理、生理损伤,因此,亟需研发更高效、准确、无创的筛查技术手段。
卵巢癌是妇科肿瘤中的三大癌症之一,由于其早期症状少,起病隐匿,无特异性等特征导致其病死亡率较高。研究表明,卵巢癌患者中只有20-25%的患者被诊断为I期疾病,其5年生存率大于90%;而75-80%的患者被诊断为III期或IV期,其5年生存率仅有17-39%。蛋白标记物CA-125对早期卵巢癌(I-III期)的阳性预测值仅有35%,且特异性较差(<90%);而影像学手段(经阴道超声,TVU)的灵敏性>50%,但由于良性和恶性肿瘤的重叠,导致其特异性不理想;有研究表明,上述传统筛查方法的低特异性,会导致其中部分患者的过度诊疗,并出现了一定的并发症,综上所述,寻找新的特异性和灵敏性均较高的检测方法,是目前早期卵巢癌筛查所迫切需要的。
早期发现是减少癌症死亡的关键。2018年,Cohen等人开发了一种早期癌症检测方法CancerSEEK4。CancerSEEK通过检测16个基因的循环肿瘤DNA(ctDNA)以及8个蛋白质生物标志物,用于鉴定8种常见癌症:卵巢癌,肝癌,食道癌,胰腺癌,胃癌,结直肠癌,肺癌和乳腺癌。、
CancerSEEK的第1个组分是基于ctDNA突变。研究人员设计了61对引物,从16个基因中扩增目标区域的66至80个碱基对的DNA片段。使用COSMIC数据库进行模拟评估,该panel对癌症的理论检出率为41%(肝癌)~95%(胰腺癌)。而使用该研究中805例癌症数据进行评估,该panel至少检出1个突变的灵敏度为82%,至少检出2个突变的灵敏度为47%。在实验技术上,研究人员采用了两个方法来检测罕见低频突变:(1)用DNA条形码标记每个原始模板分子;(2)将从血浆中提取的cfDNA分成6份(每孔25uL),并对每孔进行独立检测。这减少了每孔DNA分子的数量,但是增加了每孔中每个突变分子的比例,使突变更容易检测。CancerSEEK的第2个组分是基于癌症蛋白质生物标志物。研究者通过对健康对照和癌症患者的分析,从初步鉴定的41种潜在的蛋白质生物标志物,最终筛选出8种作为最终的标志物。这些蛋白可以通过单一免疫分析平台进行重复性评估。研究人员招募了1,005例I~III期卵巢、肝脏、食道、胰腺、胃、结直肠、肺、或乳腺癌患者,采集手术切除前/新辅前的外周血,进行CancerSEEK检测。如果16个基因之一的突变频率或8个蛋白之一或其组合之一的突变频率相对于对照群体显着升高,则将患者的检测结果分类为阳性。然后使用机器学习工具和统计分析来确定10次的10倍交叉验证的中位敏感性和特异性。CancerSEEK的敏感性:I期、II期和III期分别是43%、73%和78%。8种常见癌症的中位总敏感性为70%,卵巢癌最高为98%,乳腺癌最低为33%。目前尚缺乏有效筛查标志物的癌症为卵巢癌、肝癌、胃癌、胰腺癌和食管癌,敏感度在69%-98%之间。该研究还包括812名没有癌症病史的健康人(中位年龄55岁)作为对照人群,其中7人检测结果为阳性,特异性>99%。
新辅助治疗和手术切除是大多数非转移癌症的主要治疗方式,不过会有30%到50%的患者最终会复发。随着ctDNA液体活检技术的发展,其对治疗后或术后复发预测价值的研究越发重要。美国Natera公司开发的Signatera是首个针对患者定制的用于微小残留检测、治疗疗效或复发监测的产品。Signatera的产品构成:用WES(whole exomesequencing,全外显子组测序)鉴定组织中的主克隆体细胞变异,从中挑选16个SNVs突变设计引物,通过基于扩增子的高通量测序监测血浆中的变异。
伦敦大学癌症研究所的Charles Swanton等人开展了TRACERx前瞻性临床试验,采用Signatera技术来监测NSCLC中(non-small cell lung cancer,非小细胞肺癌)从诊断到死亡的变异克隆演变过程。患者手术组织样本用M-seq多区域外显子组技术(multi-regionexome sequencing)进行测序;所有患者个性化ctDNA检测panel包含的SNVs中位数量为18个。在变异calling分析时,采用了“position-specific error model”(突变位点特异误差模型)对SNVs变异进行过滤筛选,检出2个SNVs以及以上的患者为ctDNA阳性。2017年TRACERx在Nature期刊发布了100例入组肺癌患者的研究数据,其中24例患者进行了ctDNA复发预测评估。24例患者在前两年每隔三个月随访一次,之后每隔六个月随访一次,直到临床复发的影像学评估。24例患者中有14例在术后任一节点检测为ctDNA阳性,ctDNA阳性检出率为58.33%;ctDNA阳性患者中有13例患者出现了影响学的复发,ctDNA阳性预测值为92.86%,ctDNA阴性预测值为90.0%。Signatera检测ctDNA预测患者复发比影像学预测提前最高达到11个月,有4例患者中的提前时间超过6个月。
此外,2019年JAMA Oncology发表了125例I-III期肠癌的MRD监测结果,Signatera预测复发比影像学提前的中位时间为10.1个月,最快能提前16.5个月预测复发,特异性为98%。2019年Clinical Cancer Research发表了49例I-III期乳腺癌的数据,Signatera预测复发比影像学提前的中位时间为8.9个月,最快能提前2年预测患者复发,特异性为100%。
然而,CancerSEEK是以西方人群的基因组特征训练而形成的探针集合。根据文献报道,利用此款探针对公开数据库COSMIC中核心癌症的覆盖度分析的时候,发现肝癌的检出率只有41%。而基因组特征是存在人种差异的,尤其是肝癌。
而关于Signatera,组织样本通过WES检出的变异多且杂,仅仅通过主克隆变异的筛选,很难确定这些变异和疾病复发的相关性,最终导致Signatera在几个临床试验中的产品性能较差。例如在2019年JAMA Oncology发表的125例I-III期肠癌MRD监测结果表明,基于Signatera技术的ctDNA预测复发的灵敏度仅为41.2%(7/17),阳性预测值和阴性预测值都偏低,分别为70%和88.1%。此外,在2019年ESMO年会(Abstract#110P)公布的关于肾细胞癌ctDNA术后复发监测的结果表明,Signatera预测复发的灵敏度为44.4%(12/27),阳性预测值为100%(12/12);阴性预测值仅为53%(17/32),其中有15例复发患者的ctDNA检测结果为阴性。(2)在做MRD监测时,血浆样本的个性化检测完全依赖于组织样本的变异检出。对于没有组织样本或没法提供组织样本的患者,该方法不能进行MRD监测。(3)TAT和成本。
发明内容
为了解决现有技术存在问题,本发明提供一种用于癌症检测的探针组合的设计方法及其应用。
第一方面,本发明涉及一种用于癌症检测的探针组合的设计方法,包括:
提取数据库中的癌症的突变集合分为训练集和验证集,将所述训练集中参考基因组距离<=80的突变合并得到多个突变热点区间;将所述多个突变热点区间以区域突变密度为依据依次进行筛选,将满足以下条件的突变热点区间作为所述探针组合的靶点:
(1)以所述训练集中的患者的突变集合为目标数据,患者覆盖贡献增加;
(2)区间内有至少两个突变位点。
进一步地,所述区域突变密度为突变热点区间内突变个数和区间长度的比值。
进一步地,所述患者覆盖贡献增加具体为训练集中的肿瘤基因突变检出率不断增加,并且得到验证集的确认。
进一步地,所述提取数据库中的癌症的突变集合分为训练集和验证集为:
将数据库COSMIC、MSK和Gene+中目标癌症类型的数据均分为训练集和验证集。
第二方面,本发明提供一种用于癌症检测的探针组合,由上述设计方法设计得到。所述探针组合针对的靶点具体包括实施例1中表1-表4所示靶标。
根据本发明表1-表4提供的靶标,可以相应地通过本领域的常规探针设计方法,设计探针。设计出的探针可以直接用于这些靶标,也就是这些和癌症密切相关的基因的检测。
本发明进一步提供一种用于早期癌症检测或术后ctDNA阳性判定的试剂盒,所述试剂盒包括所述探针组合。
本发明进一步提供所述探针组合在早期癌症检测或术后ctDNA阳性判定中的应用。
进一步地,所述应用包括:
(1)运用权利要求4或5所述探针组合对待测样本进行检测;
(2)对步骤(1)检测得到的突变以及相应的基因进行分级,
(3)以步骤(2)的分级结果、错误背景和突变频率构建随机模型进行评分,以评分的最大值作为样本评分,使用早期癌症样本和健康人样本的评分训练模型确定阈值。
进一步地,步骤(2)中,针对突变的分级方式如下:
在各癌症中检出率≥1%且癌症样本数目>100例作为等级1;
在各癌症中检出率为0.5~1%且癌症样本数目>500例作为等级2;
Gene+数据库、MSK数据库、COSMIC数据库中至少有2个数据库有记载作为等级3;
其他突变作为等级4;
针对基因的分级方式如下:
在相应癌症中检出率≥20%作为等级1;
在相应癌症中检出率为10%-20%作为等级2;
在相应癌症中检出率为5~10%作为等级3;
在相应癌症中检出率<5%作为等级4。
进一步地,再进行早期癌症检测或术后ctDNA阳性判定均可适用上述方式,其中在术后ctDNA阳性判定过程中,还可适用以下流程:
将突变分为配对肿瘤组织来源和其他突变,对于其他突变,方式和上述的相同;
对于配对肿瘤组织来源的突变,以突变频率、是否为驱动突变和突变CCF(Cancercell fraction,癌症细胞比例)作为特征,用术后复发和未复发样本检出的配对组织来源的突变训练随机森林模型,确定分类阈值;
本发明进一步提供一种早期癌症检测系统,包括检测模块、分级模块和判断模块;
所述检测模块用于运用权利要求4或5所述探针组合对待测样本进行检测;
所述分级模块和所述检测模块相连,用于对检测模块检测得到的突变及对应的基因进行分级;
所述判断模块和所述分级模块以及所述检测模块分别相连,用于以分级模块得到的分级结果、测序条件下的背景错误和突变频率构建随机模型进行评分,以评分的最大值作为样本评分,使用早期癌症样本和健康人样本的评分训练模型确定阈值。
本发明具有如下有益效果:
1、本发明设计得到的探针对常见癌症的覆盖优秀,采用Gene+数据库和MSK数据库模拟该panel对9个癌症的覆盖情况,结果表明,九大癌症类型的覆盖度均>93%;
2、本发明适用于早期多个癌症类型的检测,具有高灵敏度和特异性,对于肝癌、卵巢癌、结直肠癌、肺鳞癌、胰腺癌的检出率达到85%、72%、77%、79%和77%。
3、本发明提供的ctDNA阳性判定方法能有效对患者进行预后分层。
附图说明
图1为本发明实施例1提供的探针集合对三大数据库核心癌症训练集的覆盖情况;
图2为本发明实施例1提供的探针集合对三大数据库核心癌症验证集的覆盖情况;
图3为本发明实施例2提供的早期肝癌检测方法在早期肝癌训练集的性能表现;
图4为本发明实施例2提供的早期肝癌检测方法在早期肝癌的验证集性能表现;其中A为本发明方法对早期肝癌的检出率;B为甲胎蛋白对早期肝癌的检出率;
图5为本发明实施例4提供的基于循环肿瘤DNA(ctDNA)分层肝癌患者的无疾病生存Kaplan-Meier分析;横坐标表示患者手术后随访的时间,纵坐标表示未复发患者的比例。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1探针组合及其靶点
1.1捕获探针的设计方法和设计结果
1.1.1捕获探针的设计方法
本实施例提供了一种经济高效的可用于泛癌种辅助的探针组合设计方法,具体如下:
(1)确定目标癌症类型,如肺癌、乳腺癌、结直肠癌、肝癌、胰腺癌、胃癌、食管癌、膀胱癌。
(2)提取Gene+数据库、COSMIC数据库和MSKCC数据库中九大癌症的突变集合,分为训练集和验证集。寻找热点突变区域,对于参考基因组距离<=80的突变合并,并计算其合并区域后的区域密度值Rd和区域内的突变个数RegMuts。公式如下:
Figure GDA0003017161100000061
其中,RegMuts为所在合并区域内的突变个数,RegLen为合并区域覆盖区间长度,即将合并区域左右扩充到120bp(单个探针覆盖长度)的倍数,合并区域长度不足120bp的按照120bp计算。
(3)将热点区间按照Rd值从大到小排序。
(4)以训练集中Gene+和MSK的患者突变集为目标数据,从(3)中的热点区域数据依次筛选(如果Rd值相同,优先选择RegMuts大的区域),以满足以下两个条件纳入panel区域:患者覆盖贡献有增加;该区域至少有两个突变检出。
经过上述方法得到捕获探针的目标区域:
本捕获探针包含13个基因的全编码区,以及210个基因的特定区域,具体如表1-表4所示。
表1 13个基因的全编码区
APC AR AXIN1 CDH1 CDKN2A
FBXW7 KEAP1 PTEN RB1 SMAD4
SMARCA4 STK11 TP53  
表2 147个基因的414个外显子
Figure GDA0003017161100000071
Figure GDA0003017161100000081
Figure GDA0003017161100000091
Figure GDA0003017161100000101
表3 173个基因的特定区域
Figure GDA0003017161100000102
Figure GDA0003017161100000111
Figure GDA0003017161100000121
Figure GDA0003017161100000131
Figure GDA0003017161100000141
表4 4个基因的4个内含子
Figure GDA0003017161100000142
图1和图2为本实施例提供的探针集合对三大数据库核心癌症的覆盖情况,其中图1为探针集合对于训练集的覆盖情况,图2为探针集合对于验证集的覆盖情况。
实施例2 DX testing应用与肝癌早期检测的灵敏度和特异性
招募未经手术和新辅助治疗的I-III期肝癌患者;同时招募200例没有癌症病史的健康人作为对照人群。采集外周血样本10mL。
2.1血浆分离与DNA提取
对于全血需要及时进行血浆/血细胞分离(EDTA抗凝管,4h内;Streck管72h内),分离步骤如下:
(1)在4℃条件下1600g离心10min,离心后将上层血浆分装到多个1.5mL或者2.0mL的离心管中,在吸取血浆过程中注意不要吸到中间层的白细胞。
此步骤分离血浆后,中间层+底层血细胞留取备用,作为正常对照。
(2)在4℃条件下以16000g离心10min去除残余细胞,将上清转入新的1.5mL或者2.0mL离心管中(注意不要吸到管底的白细胞),即得到所需的血浆。
血浆按照QIAamp Circulating Nucleic Acid Kit(Qiagen)提取试剂说明书,进行血浆cfDNA的提取。血细胞样本按照QIAamp DNA Mini Kit提取试剂说明书,进行gDNA的提取。然后采用Qubit定量,要求血浆cfDNA大于15ng;血细胞gDNA大于100ng。
2.2文库构建
2.2.1末端修复及加“A”
(1)向片段化产物中加入末端修复反应液和末端修复反应酶,振荡混匀并离心;
(2)在恒温混匀仪或PCR仪上孵育:20℃,30min;65℃,30min;
(3)孵育完成后,降至室温,使用掌式离心机短暂离心。
2.2.2接头连接
取出连接酶以及接头。将接头置于室温溶解,连接酶置于冰盒上。使用前将接头和连接酶反应液充分振荡混匀并短暂离心。
2.2.3接头连接后纯化:将接头连接后的样本使用磁珠进行纯化
(1)提前30min取出磁珠置于室温,使用前充分振荡混匀;
(2)吸取相应体积磁珠至1.5mL离心管中,再将产物转至磁珠中,用移液器轻轻吹打混匀,室温下孵育10min,使磁珠与DNA片段充分结合,孵育期间配制80%乙醇;
(3)孵育结束后,将1.5mL离心管置于磁力架上,静置10-20min(视磁珠量而定),直至液体澄清,弃上清;
(4)保持1.5mL离心管固定于磁力架上,加入新鲜配制的80%乙醇,用量足够淹没磁珠即可,弃上清;
(5)重复步骤(4)一次,尽量吸干管底液体;
(6)将1.5mL离心管打开盖子置于37℃金属浴上加热烘干,至磁珠表面不反光后取下;
(7)向1.5mL离心管中加入溶解液,移液器吹打混匀,室温下孵育5min,使DNA片段充分溶解在DNA溶解液中;
(8)将1.5mL离心管置于磁力架上至液体完全澄清;
(9)吸取上清到新的1.5mL离心管中,弃去带磁珠的1.5mL离心管。
2.2.4杂交捕获前PCR富集(Non-C-PCR)
(1)取出对应编号的Index,置于室温溶解,充分振荡混匀并离心;
(2)从冰箱中取出DNA聚合酶反应液,置于4℃冰箱溶解后,轻轻振荡混匀并离心,置于冰盒上;
(3)在PCR管中加入反应组分振荡混匀并离心。
(4)将上述PCR管置于PCR仪上进PCR
2.2.5 Non-C-PCR产物纯化:PCR后的样本使用磁珠进行纯化。
2.2.6 DNA片段化后操作
(1)提前30min取出磁珠置于室温,使用前充分振荡混匀;
(2)吸取相应体积磁珠至1.5mL离心管中,再将产物转至磁珠中,用移液器轻轻吹打混匀,室温下孵育10min,使磁珠与DNA片段充分结合,孵育期间配制80%乙醇;
(3)孵育结束后,将1.5mL离心管置于磁力架上,静置10-20min(视磁珠量而定),直至液体澄清,弃上清;
(4)保持1.5mL离心管固定于磁力架上,加入新鲜配制的80%乙醇,用量足够淹没磁珠即可,弃上清;
(5)重复步骤(4)一次,尽量吸干管底液体;
(6)将1.5mL离心管打开盖子置于37℃金属浴上加热烘干,至磁珠表面不反光后取下;
(7)向1.5mL离心管中加入溶解液,移液器吹打混匀,室温下孵育5min,使DNA片段充分溶解在DNA溶解液中;
(8)将1.5mL离心管置于磁力架上至液体完全澄清;
(9)吸取上清到新的1.5mL离心管中,弃去带磁珠的1.5mL离心管。
2.2.7文库质控
用Qubit荧光定量仪(
Figure GDA0003017161100000161
dsDNA BR Assay Kit)对产物进行定量,并对产物的长度分布范围进行定量,要求总量满足要求,且无接头及大片段污染。
2.3靶序列捕获
2.3.1文库质控合格后,采用本发明实施例1设计的富集探针,参照探针制造商提供的说明书进行杂交捕获。最后洗脱回溶20μL ddH2O带杂交洗脱磁珠。
2.3.2洗脱产物扩增富集(LM-PCR)
(1)从冰箱中取出DNA聚合酶反应液及引物,置于室温溶解后,充分振荡混匀并离心。
(2)按照说明书PCR反应液,再加入全部带磁珠B的洗脱产物,吹打混匀;
(3)将上述PCR管置于PCR仪上,进行扩增反应
(4)PCR后的样本使用磁珠进行纯化。
2.3.3洗脱文库检测
用Qubit荧光定量仪(
Figure GDA0003017161100000162
dsDNA BR Assay Kit)对产物进行定量,并对产物的长度分布范围进行定量,要求总量满足要求,且无接头及大片段污染。
2.4上机测序
采用Gene+seq测序仪及同原理的其他测序仪进行上机测序。测序实验操作按照制造商提供的操作说明书进行上机测序操作。
上机数据量要求:血浆样本要求10G,配对的对照样本要求2G。
2.5信息分析
测序原始下机数据质控。采用发明人自主开发的血浆ctDNA低频突变富集测序技术——ER-seq(Enrichment&Rarallele Sequence)(中国专利公开号CN105063208A,公开日2015年11月18日)的信息分析流程(RealSeq Pipeline),去除UID后,使用NCfilter进行过reads滤过滤。
序列比对。以GRCh37为参考序列,使用bwa进行序列比对,生成初步比对的reads。使用realseq对bam进行基于ER-seq的分析流程的reads的聚类分析及纠错,提取包括天然重复片段在内的去重后的reads。再次使用bwa对重新对reads进行比对。使用GATK的RealignerTargetCreator进行INDEL附近序列的局部重新比对,降低INDEL附近的比对错误率。使用GATK的BaseRecalibrator和PrintReads对bam文件里reads的碱基质量值进行重新校正,使最后输出的bam文件中reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率,并将质量矫正后的reads重新输出。
原始变异检测。使用realDecaller和Mutect2检测体细胞突变和造血克隆突变,使用GATK的SelectVariants检测胚系突变。
变异的注释和过滤。使用NCanno对原始变异检出突变进行注释,包括突变信息和外部数据库ESP、GAD、EXAC、1000Genomes和GenomesAD等,使用注释信息、白细胞对照和健康人样本构造的健康人基线,对突变进行过滤。
CRI模型评分。使用CRI模型基于样本检出的突变,对样本进行评分,得到最终的检测结果。
CRI模型评分方式具体如下:
以突变在Gene+数据库、MSK数据库和COSMIC数据库中的九大癌症类型的检出率为依据,对于本发明探针覆盖的突变,按照既定的规则(表)对突变和基因进行分级。构建特定的测序条件下的碱基错误分布背景。根据突变的分级、错误背景、基因分级和突变频率构建随机森林模型,对检出突变进行评分,以样本检出突变评分的最大值为样本评分,使用早期肝癌样本和健康人样本训练模型确定阈值。
CRI Score计算公式:
ScoreMut=f(AF,Mut Level,Gene Level,Errors)
Scoresample=Max(ScoreMut)其中:f为随机森林模型,ScoreMut为突变变维度的评分值,AF为突变频率,Mut Level为突变相关性分级,Gene Level为基因相关性分级,Scoresample为样本维度评分,Errors为测序条件下背景错误。
表5 Mut Level分级方法
突变等级 分类规则
1 在各癌症中检出率≥1%,要求癌症样本数目>100例.
2 在各癌症中检出率∈0.5~1%,要求癌症样本数目>500例.
3 Gene+数据库、MSK数据库、COSMIC数据库中至少有2个数据库有记载。
4 突变不属于1、2和3等级的突变
表6 Gene Level分级方法
突变等级 分类规则 示例(肝癌)
1 在相应癌症中检出率≥20% TP53,TERT
2 在相应癌症中检出率∈10%-20% CTNNB1,ARID1A、AXIN1、LRP1B
3 在相应癌症中检出率∈5~10% KRAS、PIK3CA、APC、MLL2、TSC2、RB1
4 在相应癌症中检出率<5% 其他
2.6检测结果
训练集:50例肝癌患者和100例健康患者的测序质控结果显示,测序深度中位5900X,污染率极低<0.01%。随机森林模型分类ROC曲线(图3),AUC为0.978。CRI Score值>0.2850样本为阳性时,特异性为96%(91%~98%,95%置信区间),灵敏度为86%(73%~94%,95%置信区间);CRI Score值>0.3552样本为阳性时,特异性为99%(95%~99.8%,95%置信区间),灵敏度为84%(71%~93%,95%CI)。
验证集:运用本项目检测方法,在100例非癌症个体中,4例表现为阳性,特异性为96%。肝癌A、B、C期(BCLC分期)的检出率分别为83%、88%和91%,综合检出率为85%(图4中的A)。AFP按照阈值20、200和400ng/mL的检出率分别为67%、40%和33%(图4中的B)。因此,本项目方法相对于AFP(20ng/mL),使得肝癌早期检出率提升18%。
实施例3卵巢癌、胰腺癌、结直肠癌早期检测
招募未经手术和新辅助治疗的I-III期卵巢癌、结直肠癌、肺鳞癌、胰腺癌患者实施该检测。
检测方法同实施例2。
运用本项目检测方法,36例卵巢癌、79例结直肠癌、28例肺鳞癌、35例胰腺癌的灵敏度分别为72%、77%、79%和77%。
实施例4应用于术后微小残留检测应用
招募经过手术的I-III期肝癌患者,采集手术组织和术后外周血样本10-20mL。
4.1组织DNA提取和片段化
收集到的组织样本(组织和石蜡切片)按照试剂盒说明书提取基因组DNA。推荐使用超声波打断将DNA片段化,片段化后使用倍磁珠对其进行纯化。用Qubit荧光定量仪(
Figure GDA0003017161100000191
dsDNA HS Assay Kit)对片段化纯化产物进行定量,产物浓度应高于2ng/μL。如若得到的浓度低于2ng/μL,NC-PCR由10个循环改为12个循环;用Agilent 2100 Bioanalyzer检测产物的长度分布范围,DNA片段主带在200-250bp左右。
4.2术后血浆参考实施例1进行文库构建,杂交捕获,上机测序及信息分析。
4.3检测结果
4.3.1测序结果
101例肝癌患者的测序结果显示,测序深度中位6295X,污染率<0.05%。
4.3.2 Landmark血浆检测后半年内复发风险预测
在101例随访的肝癌患者中,I期和II期患者为51例,III期患者50例。从手术到第一次术后血采集的中位时间间隔为7.4天,第一次术后血采集的时间点为术后血监测Landmark点。研究结果表明(图5),有21例患者Landmark术后血为ctDNA阳性(占比20.79%)。Landmark后半年内出现影像学复发的患者为25例,其中ctDNA阳性的患者为13例(52.0%)。在ctDNA阴性的患者人群中,有12例患者出现了影像学复发(15%)。ctDNA阳性肝癌患者的中位复发时间为3.53个月,阴性肝癌人群未达到中位复发时间。Landmark术后血ctDNA阳性的肝癌患者和ctDNA阴性患者相比,半年内复发的风险显著较高,复发风险比(HR)为5.546(95%CI,6.374-47.75;P<0.0001)。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (6)

1.一种用于癌症检测的探针组合的设计方法,其特征在于,包括:
提取数据库中的癌症的突变集合分为训练集和验证集,将所述训练集中参考基因组距离<=80的突变合并得到多个突变热点区间;将所述多个突变热点区间以区域突变密度为依据依次进行筛选,将满足以下条件的突变热点区间作为所述探针组合的靶点:
(1)以所述训练集中的患者的突变集合为目标数据,患者覆盖贡献增加;
(2)区间内有至少两个突变位点;
所述区域突变密度为突变热点区间内突变个数和区间长度的比值;
所述患者覆盖贡献增加为:
在包含待筛选的突变热点区间时,训练集中的肿瘤基因突变检出率增加,并且得到所述验证集的确认。
2.根据权利要求1所述的设计方法,其特征在于,所述提取数据库中的癌症的突变集合分为训练集和验证集为:
将数据库COSMIC、MSK和Gene+中目标癌症类型的数据均分为训练集和验证集。
3.一种用于癌症检测的探针组合,其特征在于,所述探针组合以权利要求1或2所述设计方法设计得到。
4.根据权利要求3所述的探针组合,其特征在于,所述探针组合针对的靶点区域如下:
(1)包括APC、AR、AXIN1、CDH1、CDKN2A、FBXW7、KEAP1、PTEN、RB1、SMAD4、SMARCA4、STK11和TP53的全编码区;
(2)包括如下所述的外显子:
Figure FDA0004009519970000011
Figure FDA0004009519970000021
Figure FDA0004009519970000031
Figure FDA0004009519970000041
Figure FDA0004009519970000051
(3)包括如下所述的特定区域:
Figure FDA0004009519970000061
Figure FDA0004009519970000071
Figure FDA0004009519970000081
Figure FDA0004009519970000091
Figure FDA0004009519970000101
(4)包括ALK的内含子Intron19、FGFR3的内含子Intron17、RET的内含子Intron11和ROS1的内含子Intron 33。
5.一种试剂盒,其特征在于,所述试剂盒用于早期癌症检测或术后ctDNA阳性判定,所述试剂盒包含权利要求3或4所述探针组合。
6.一种早期癌症检测系统,其特征在于,包括检测模块、分级模块和判断模块;
所述检测模块用于运用权利要求3或4所述探针组合对待测样本进行检测;
所述分级模块和所述检测模块相连,用于对检测模块检测得到的突变及对应的基因进行分级;
所述判断模块和所述分级模块以及所述检测模块分别相连,用于以分级模块得到的分级结果、测序条件下的背景错误和突变频率构建随机模型进行评分,以评分的最大值作为样本评分,使用早期癌症样本和健康人样本的评分训练模型确定阈值。
CN202110190057.2A 2021-02-18 2021-02-18 一种用于癌症检测的探针组合的设计方法及其应用 Active CN112951325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110190057.2A CN112951325B (zh) 2021-02-18 2021-02-18 一种用于癌症检测的探针组合的设计方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110190057.2A CN112951325B (zh) 2021-02-18 2021-02-18 一种用于癌症检测的探针组合的设计方法及其应用

Publications (2)

Publication Number Publication Date
CN112951325A CN112951325A (zh) 2021-06-11
CN112951325B true CN112951325B (zh) 2023-04-21

Family

ID=76244434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110190057.2A Active CN112951325B (zh) 2021-02-18 2021-02-18 一种用于癌症检测的探针组合的设计方法及其应用

Country Status (1)

Country Link
CN (1) CN112951325B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424664B (zh) * 2022-11-07 2023-03-10 北京雅康博生物科技有限公司 人为突变程度评估方法及装置
CN117524304B (zh) * 2024-01-08 2024-03-29 北京求臻医学检验实验室有限公司 实体瘤微小病灶残留的检测panel、探针组及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104099425A (zh) * 2014-08-01 2014-10-15 上海赛安生物医药科技有限公司 一种用于检测B-raf基因突变的试剂盒
CN106047998A (zh) * 2016-05-27 2016-10-26 深圳市海普洛斯生物科技有限公司 一种肺癌基因的检测方法及应用
CN107619867A (zh) * 2017-10-18 2018-01-23 广州漫瑞生物信息技术有限公司 用于同时检测肺癌多种基因突变类型的序列组合和探针

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012202265B2 (en) * 2005-11-29 2015-05-21 Cambridge Enterprise Limited Markers for breast cancer
CN101434987A (zh) * 2007-11-16 2009-05-20 沈阳守正生物技术有限公司 基因的检测方法
PL3198026T3 (pl) * 2014-08-07 2020-05-18 Pharmassist Ltd Metody określania mutacji genu pik3ca w próbce
CN105734120B (zh) * 2014-12-11 2020-11-27 天津华大基因科技有限公司 检测性发育相关基因变异的方法和试剂盒
GB2549763A (en) * 2016-04-28 2017-11-01 Univ Oxford Innovation Ltd Biomarkers for early diagnosis of ovarian cancer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104099425A (zh) * 2014-08-01 2014-10-15 上海赛安生物医药科技有限公司 一种用于检测B-raf基因突变的试剂盒
CN106047998A (zh) * 2016-05-27 2016-10-26 深圳市海普洛斯生物科技有限公司 一种肺癌基因的检测方法及应用
CN107619867A (zh) * 2017-10-18 2018-01-23 广州漫瑞生物信息技术有限公司 用于同时检测肺癌多种基因突变类型的序列组合和探针

Also Published As

Publication number Publication date
CN112951325A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN108753967B (zh) 一种用于肝癌检测的基因集及其panel检测设计方法
CN107475375B (zh) 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒
Ou et al. Detection of bladder cancer using urinary cell-free DNA and cellular DNA
JP2021525069A (ja) 癌を査定および/または処置するためのセルフリーdna
CN110272985A (zh) 基于外周血血浆游离dna高通量测序技术的肿瘤筛查试剂盒及其系统与方法
CN112951325B (zh) 一种用于癌症检测的探针组合的设计方法及其应用
CN112176057B (zh) 利用CpG位点甲基化水平检测胰腺导管腺癌的标志物及其应用
CN116631508B (zh) 肿瘤特异性突变状态的检测方法及其应用
JP2020524987A (ja) 妊娠高血圧腎症に特異的な循環rnaシグネチャー
CN114596918B (zh) 一种检测突变的方法及装置
CN111187841A (zh) 一种诊断肺腺癌的甲基化分子标志物及其应用
CN114717311A (zh) 用于检测尿路上皮癌的标志物、试剂盒和装置
CN114574587A (zh) 一种用于结直肠癌检测的标记物组合物及其应用
Zhao et al. A novel cell-free single-molecule unique primer extension resequencing (cf-SUPER) technology for bladder cancer non-invasive detection in urine
US20240105281A1 (en) Methods and Systems for Analyzing Nucleic Acid Molecules
CN108913772B (zh) 基于捕获测序的bMSI检测技术
CN110408706A (zh) 一种评估鼻咽癌复发的生物标志物及其应用
CN115851923A (zh) 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用
CN115287353A (zh) 一种肝癌血浆游离dna来源的甲基化标志物及用途
CN110564851A (zh) 一组用于非超突变型直肠癌分子分型的基因及其应用
CN108342483B (zh) 一组用于非超突变型结直肠癌分子分型的基因及其应用
CN110964821A (zh) 一种预测肝癌转移模式及风险的检测panel及其应用
SG185254A1 (en) 3.4 kb mitochondrial dna deletion for use in the detection of cancer
CN113005198B (zh) 检测直肠癌放化疗敏感性相关15基因突变位点的试剂盒及其应用
Edsjö et al. Current and emerging sequencing-based tools for precision cancer medicine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230403

Address after: 9/F, Building 6, Zone 1, No. 8 Life Park Road, Science and Technology Park, Changping District, Beijing 102206

Applicant after: BEIJING JIYINJIA MEDICAL LABORATORY Co.,Ltd.

Applicant after: Changsha Geenga Biotechnology Co.,Ltd.

Address before: Room 502, 5 / F, No.2 building, No.8 courtyard, Shengliyuan Road, science and Technology Park, Changping District, Beijing

Applicant before: BEIJING JIYINJIA MEDICAL LABORATORY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant