CN116631508A

CN116631508A - 肿瘤特异性突变状态的检测方法及其应用

Info

Publication number: CN116631508A
Application number: CN202310889084.8A
Authority: CN
Inventors: 易鑫; 管彦芳; 高伟; 曹务强; 曾晓玲; 付宁; 田梓涵
Original assignee: Beijing Jiyinjia Medical Laboratory Co ltd; Suzhou Jiyinjia Biomedical Engineering Co ltd
Current assignee: Beijing Jiyinjia Medical Laboratory Co ltd; Suzhou Jiyinjia Biomedical Engineering Co ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-08-22
Anticipated expiration: 2043-07-19
Also published as: CN116631508B

Abstract

本发明的目的在于提供肿瘤特异性突变状态的检测方法及其应用。本发明的方法采用大探针组合对受试者的肿瘤组织进行靶向捕获高通量测序，应用本发明的筛选和突变排序的方法筛选出个性化监测位点，从而进行个性化探针组的定制，并且叠加癌种特异固定核心探针组和SNP探针组监测循环肿瘤DNA中的肿瘤特异性突变，具有高灵敏度、高特异性、高性价比、可监测肿瘤进化产生的耐药突变、快速便捷且适用于泛癌种等优点，能够用于复发风险分层、治疗反应评估和疾病监测，为临床治疗决策提供重要参考。

Description

肿瘤特异性突变状态的检测方法及其应用

技术领域

本发明属于基因检测技术领域，具体地，本发明涉及一种肿瘤特异性突变状态，尤其是微小残留病灶的检测方法及其应用。

背景技术

手术切除是早期实体瘤患者的首要治疗方法，但是相当多的患者在手术后仍然出现局部复发或远处转移。目前，癌症的预后分层主要是基于临床病理参数，如TNM分期、病理亚型、肿瘤分级等，但其仅能反应群体的预后状态，无法精细地预测个体的预后，因此，迫切需要更加精准、灵敏、准确、实时的方法来识别患者复发风险高或低，以及依据风险预测结果，进一步指导最适辅助治疗方案的选择，延长患者生存。

分子/微小残留病灶（Molecular/Minimal Residue Disease，MRD）是指肿瘤患者接受根治性治疗后疾病达到影像学完全缓解，但体内仍存在影像学方法无法检出的残留肿瘤细胞或者微小病灶，可通过液体活检发现的癌来源分子异常，代表着癌症的持续存在和临床进展可能。这阶段残留的肿瘤细胞数量可能非常少，未达到影像学可观测到的水平，属于肿瘤进展的隐匿阶段，可能暂时不会引起任何的体征或症状，却是肿瘤复发或转移的潜在隐患。分子/微小残留病灶的检测具有良好的预后价值。基于循环肿瘤DNA(ctDNA)的MRD检测可以发现这种分子异常，用于复发风险分层、治疗反应评估和疾病监测，为临床治疗决策提供重要参考。

本领域亟需一种对微小残留病灶进行高灵敏度、高特异性、高性价比、可监测肿瘤进化产生的耐药突变、快速便捷且适用于泛实体瘤的检测技术。

发明内容

本发明提供了一种用于检测生物样品中循环肿瘤DNA（ctDNA）的肿瘤特异性突变的方法。在一些实施方案中，所述方法可用于检测微小残留病灶（MRD）。

第一方面，本发明提供了一种用于检测受试者循环肿瘤DNA的肿瘤特异性突变的方法，所述方法包括如下步骤：

步骤1，对受试者的第一生物样本进行测序以获得第一生物样本的体细胞突变图谱：

1）对第一生物样本进行靶向捕获的高通量测序（NGS），2）数据质控：包括对测序获得的低质量读段进行过滤获得高质量读段；3）数据对比和去重：包括将过滤后的高质量读段与人类参考基因组进行比对以生成初始比对结果；4）肿瘤可信体细胞突变检测：检测突变类型包括SNV、短插入缺失（Indel）、CNV、SV或其他类型突变中的一种或多种，同时进行突变过滤确定可信体细胞突变，包括过滤掉胚系突变，背景噪音和/或根据位点深度和突变频率可信度较低的突变；5）对过滤后得到的肿瘤可信体细胞突变，进行主克隆突变/亚克隆突变的鉴定和/或新抗原预测；

步骤2，根据步骤1得到的肿瘤可信体细胞突变进行受试者个性化探针组的定制：1）个性化监测候选突变池确定，包括将热点突变直接纳入候选突变池作为备选突变，以及将非热点突变进行过滤后，纳入候选突变池作为备选突变；2）突变排序；和3）根据突变排序确定个性化监测位点，进行探针定制；

步骤3，基于选自如下的一种或者多种基因和/或突变设计癌种特异固定核心探针组：指南或专家共识级别的用药突变；具有明确临床价值，且有强生物标志物预测价值的非指南/非共识级的基因和突变；目标癌种中的驱动基因突变；目标癌种的热点及高频突变基因/区域；

步骤4，利用个性化探针组和/或癌种特异固定核心探针组和/或SNP探针对受试者的第二生物样本进行测序，获得测序数据，从而检测体细胞突变；

步骤5，使用针对ctDNA的肿瘤特异性突变的判断方法来判断所述肿瘤特异性突变的状态：步骤4中获得的测序数据进行处理后，以肿瘤知情（Tumor-informedassay）检测策略，获得个性化探针组中受试者肿瘤组织来源的突变结果和/或以不依赖肿瘤信息（Tumor-agnostic assay）的检测策略，获得癌种特异固定核心探针组中受试者非肿瘤组织来源的突变结果，并通过预先设置的突变阳性判断条件获得阳性突变；根据阳性突变的结果，满足预先设置的样本结果阳性判断条件则判定第二生物样本的肿瘤特异性突变状态为阳性。

在一些实施方案中，所述肿瘤特异性突变状态为微小残留病灶。

在一些实施方案中，步骤1中所述的靶向捕获NGS测序采用大探针组合（大panel），所述的大探针组合选自与肿瘤发生发展相关的基因、与靶向用药相关的基因、免疫治疗相关的基因或者其组合；所述的大探针组合包含不低于100个基因，例如可以是不低于100个的任意整数个基因；进一步地，可以为100-5000个基因、100-3000个基因、100-2000个基因，所述的基因个数可以为上述数值范围内的任意整数个基因；优选地，所述的大探针组合包含100-1500个基因，所述的基因个数可以是上述数值范围内的任意整数个基因。

在一些实施方案中，在本发明的方法中所述的突变检测包括SNV检测，短插入缺失检测和/或SV检测。

在一些实施方案中，步骤1中所述数据质控的过滤条件为：1）低质量读段；2）读段中包含N碱基占比较高的读段，N是指未知碱基；3）比对不上人类参考基因组的读段；4）过滤UID测序错误而又不能纠错的读段；或，所述N碱基占比较高的读段是指N碱基占比≥10%的读段；进一步地，在本申请中，可以是去掉碱基质量低于5且占比50%以上的读段。

在一些实施方案中，步骤1中所述过滤掉胚系突变包括使用公共人群数据库进行胚系突变过滤，所述公共数据库包括但不限于ESP、GAD、EXAC、千人基因组数据库、GenomesAD数据库。

在一些实施方案中，步骤1中所述背景噪音通过背景过滤数据库进行过滤，所述的背景过滤数据库包括但不限于：由正常对照样本基因组DNA测序数据构建的背景基线数据库、由健康人样本的细胞游离DNA（cfDNA）测序数据构建的背景基线数据库。进一步地，在本申请中，使用2000例临床癌症阴性样本构建的自建基线数据库。

在一些实施方案中，步骤2中所述的非热点突变的过滤包括：剔除潜在克隆性造血（CH）突变、剔除较不可信突变或剔除影响探针捕获性能的突变中的一种或多种，所述剔除潜在克隆性造血突变包括剔除病例等位基因频率/对照等位基因频率（caseAF/ctrlAF）＜3的突变或克隆性造血数据库中注释的突变，所述克隆性造血数据库中注释的突变为人群正常白细胞中高发生率的克隆性造血突变；所述剔除较不可信突变包括剔除低质量突变、突变所在读段中的位置出现聚集性偏好的突变和/或人群背景数据库中的突变，人群背景数据库的突变过滤条件为：突变人群发生率＞10%，且突变病例等位基因频率（caseAF）＜5%；所述剔除影响探针捕获性能的突变为重复区域突变，或其对应个性化探针序列GC碱基含量≤20%或≥80%的突变，或其探针序列在人类基因中同源序列≥2的突变。

在一些实施方案中，步骤2中所述的突变排序包括对SNV、短插入缺失和SV中的一种或多种排序，优选地，所述SNV或短插入缺失排序根据驱动突变的突变频率、主克隆突变的突变频率、亚克隆突变的突变频率、新抗原预测值中的一种或多种进行排序；和/或所述SV突变排序包括对热点融合突变和非热点融合突变的突变频率进行排序。

进一步地，所述对SNV和短插入缺失排序的顺序为将突变频率≥5%的驱动突变，突变频率≥5%的主克隆突变和/或突变频率≥5%的亚克隆突变按照突变频率由高到低排序；和/或

将突变频率＜5%的驱动突变，突变频率＜5%的主克隆突变和/或突变频率＜5%的亚克隆突变分别按照突变频率由高到低排序；和/或

新抗原预测值按照从低到高排序。

新抗原预测值越低则新抗原与主要组织相容性复合体（MHC）分子预测的亲和力程度越高。

更进一步地，所述对SNV和短插入缺失排序的优先顺序为：突变频率≥5%的驱动突变、突变频率≥5%的主克隆突变、突变频率≥5%的亚克隆突变、突变频率＜5%的驱动突变、突变频率＜5%的主克隆突变、突变频率＜5%的亚克隆突变、新抗原预测值；并且其中每种突变按照突变频率由高到低进行排序，新抗原预测值按照从低到高排序。

在一些实施方案中，步骤2中所述的新抗原预测值使用Pvac-Seq软件进行，包括如下步骤：①输入一个包含肿瘤细胞特有的突变信息的VCF格式文件，以及肿瘤细胞和正常细胞的人类白细胞抗原(HLA)分型信息；②根据突变信息和人类白细胞抗原分型信息，生成可能的新抗原候选肽段，一般为8-11个氨基酸的长度；③使用NetMHCpan和SMMPMBEC算法对每个候选肽段和人类白细胞抗原分子的结合亲和力进行预测，并根据预测值进行排序和过滤，并且设置过滤条件为：最优的突变结合分数（Best.MT.score）＜500，半数最大抑制浓度（IC50）<500，肿瘤DNA测序深度（tumor_dna_depth）>10，肿瘤变异等位基因频率（tumor_vaf）>0.05，对照变异等位基因频率（normal_vaf）<0.02，新抗原预测值的计算公式为：中位突变结合分数排名（median MT score）+野生与突变倍数变化中位数排名（median foldchange）+（突变型的变异等位基因频率（mutvaf）/2），上述公式中计算出的新抗原预测值越小则新抗原与主要组织相容性复合体分子预测的亲和力程度越高。

在一些实施方案中，所述对SV进行排序包括：按照突变频率对热点融合突变由高到低排序；按照突变频率对非热点融合突变由高到低排序；其中热点融合突变优先于非热点融合突变。

在一些实施方案中，步骤2中所述的个性化监测位点为根据突变排序筛选出的排序靠前的1-50个SNV/短插入缺失和/或全部的SV；优选地，筛选出排序靠前的2-20个SNV/短插入缺失和/或全部的SV。所述的1-50与2-20个可以为该数值范围内的任意整数个。

更优选地，所述的个性化监测位点为根据突变排序筛选出的排序靠前的2-20个SNV/短插入缺失和全部的SV。

在一些实施方案中，步骤2中所述个性化探针组包括针对1-50或2-20个个性化监测位点设计的探针。探针的设计方法可以参考公开号为CN116072219A，发明名称为探针设计方法及其装置的中国发明专利。

在一些实施方案中，步骤3中所述的基因和/或突变选择的优先顺序为：指南或专家共识级别的用药突变（等级1）；具有明确临床价值，且有强生物标志物预测价值的非指南/非共识级的基因和突变（等级2）；目标癌种中的驱动基因突变（等级3）；目标癌种的高人群发生率的基因/区域（等级4）。

进一步地，步骤3中所述的优先顺序为：等级1包含目标癌种NCCN指南推荐的I类用药突变，和/或CSCO指南I级推荐的用药突变，目标癌种中FDA或NMPA批准的用药突变，国内外专家共识推荐的用药靶点；等级2包含报道的目标癌种中具有明确临床价值，且有强生物标志物预测价值的非指南/非共识级的基因和突变；等级3包含目标癌种中的驱动基因突变；等级4包含目标癌种的热点及高频突变基因/区域。

一些实施方案中，步骤3中的癌种特异固定核心探针组中肺癌、肠癌、乳腺癌或者泛癌种探针组的探针数目范围为40-100条，优选为40条、50条、60条、70条、80条、90条、100条。

一些实施方案中，步骤3中的癌种特异固定核心探针组的探针长度为80-160个碱基对，优选为80、90、100、110、120、130、140、150、160个碱基对长度。优选地，在一些实施方案中，步骤3中的癌种特异固定核心探针组基于下述基因设计：

肺癌核心探针基因：EGFR、ERBB2、MET、BRAF、KRAS、ALK、PIK3CA、TP53

肠癌核心探针基因：BRAF、KRAS、NRAS、TP53、PIK3CA、APC

乳腺癌核心探针基因：PIK3CA、AKT1、ESR1、ERBB2、TP53、PTEN、GATA3

其他泛实体瘤通用核心探针基因：BRAF、KRAS、PIK3CA、CDKN2A、TP53。

在一些实施方案中，所述第一生物样本包括但不限于原发肿瘤组织，或者患者血液，优选地，所述第一生物样本包括但不限于手术或穿刺活检的肿瘤组织样本。所述第二生物样本包括但不限于血液、血浆、胸/腹腔积液、腰椎或脑室脑脊液（CSF）、唾液、尿液、肿瘤细胞和它们的处理物。所述的肿瘤组织样本包括但不限于新鲜的手术切除肿瘤组织、穿刺的肿瘤组织、福尔马林固定石蜡包埋组织（FFPE）等。

在一些实施方案中，步骤1中所述人类参考基因组包括hs37d5基因组、b37基因组、hg19基因组、hg18基因组、hg17基因组、hg16基因组或hg38基因组的至少一部分。

在一些实施方案中，步骤2中的个性化探针组包括：对于筛选出的个性化监测位点，判断其是否在对应的癌种特异固定核心探针组的范围内：（1）如果个性化监测位点在癌种特异固定核心探针组范围内，则不需要定制；（2）如果个性化监测位点不在癌种特异固定核心探针组范围内，则需要定制。

在一些实施方案中，所述的SNP探针组为dbSNP数据库中人群发生率及杂合度较高的SNP位点，用于鉴别样本来源和评估样本污染程度。

在一些实施方案中，利用个性化探针组和/或癌种特异固定核心探针组和/或SNP探针组对第二生物样本中的细胞游离DNA进行测序，从而检测体细胞突变。

在一些实施方案中，利用个性化探针组和/或癌种特异固定核心探针组和/或SNP探针组对第二生物样本中的循环肿瘤DNA进行深度测序。

在一些实施方案中，DNA建库起始量是10-100ng。

在一些实施方案中，DNA建库起始量是30-80ng。

在一些实施方案中，采用30,000×-100,000×的原始测序深度。优选地，采用100,000×的原始测序深度。

在一些实施方案中，对第二生物样本中的循环肿瘤DNA进行测序检测体细胞突变包括检测SNV和/或短插入缺失和/或SV。

在一些实施方案中，步骤5中所述的肿瘤组织来源的突变结果包括SNV、短插入缺失、SV中的一种或几种。

在一些实施方案中，步骤5中所述的肿瘤组织来源的突变结果中，SNV/短插入缺失的突变检测中支持突变的读段可以分为三类：（1）双向聚簇纠错读段（DS），测序过程中同时检测了该DNA片段的正链和负链，聚簇纠错过程在双链测序结果上进行；（2）单向聚簇纠错读段（SS），测序过程中检测了该DNA片段的正链和负链中的一条链，存在PCR重复，聚簇纠错过程在单链测序结果上进行；（3）单向非聚簇纠错读段（Single），测序结果不存在PCR重复，未进行聚簇纠错。

在一些实施方案中，步骤5中所述的肿瘤组织来源的突变结果中，支持突变的有效读段需要满足如下条件：（1）比对质量不低于预设阈值h，（2）碱基质量不低于预设阈值i；（3）突变位置满足条件；（4）聚簇纠错过程中，支持突变的原始读段大于或等于该簇内读段总数的比例为j；（5）高于聚簇纠错背景阈值。

进一步地，突变位置的条件为：突变位置不位于读段5'端第1~4个碱基和3'端的第1~3个碱基。

进一步地，所述的预设阈值h为60。

进一步地，所述的预设阈值i为20。

进一步地，所述的预设阈值j为0.95。

在一些实施方案中，所述的聚簇纠错背景阈值通过如下方法构建：

1）聚簇纠错背景：以聚簇纠错前携带突变信号，聚簇纠错后失去突变信号的簇构建聚簇背景；

2）聚簇纠错背景阈值确定：

a. 阳性读段集合：肿瘤细胞含量为0.1%的阳性标准品中支持目标突变的读段；

b. 阴性读段集合：阴性标准品中支持目标突变的读段；

c. 确定阈值条件：通过准确率-召回率曲线（Precision-Recall，P-R）在阳性和阴性读段集合中确定聚簇纠错背景阈值。

在一些实施方案中，步骤5中所述的肿瘤组织来源的突变结果中，SNV/短插入缺失突变阳性的判断条件为：

1）SNV和长度≤5个碱基对的短插入缺失，满足条件之一判定为阳性：a.支持突变的双向聚簇纠错读段数不低于预设阈值k；b.支持突变的单向聚簇纠错读段数 + 单向非聚簇纠错读段数不低于预设阈值m；

2）长度>5个碱基对的短插入缺失，满足条件之一判定为阳性：a.双向聚簇纠错读段数不低于预设阈值n；b.单向聚簇纠错读段数不低于预设阈值p：c.单向非聚簇纠错读段数不低于预设阈值q。

进一步地，预设阈值k是1。

进一步地，预设阈值m是2。

进一步地，预设阈值n是1。

进一步地，预设阈值p是1。

进一步地，预设阈值q是1。

进一步地，所述的SNV/短插入缺失突变阳性的判断条件中还包含三联核苷酸背景过滤：

a. 背景检出率高于0.1；b. 突变检出频率高于三联核苷酸背景，p值≤0.1。

上述三联核苷酸背景构建包括如下步骤：1）统计样本检测区域内64种三联核苷酸和3种碱基替换类型的突变检出情况，构建不同三联核苷酸背景的特定碱基替换类型的背景检出模型。2）构建模型的方式为二项β分布。

在一些实施方案中，步骤5中所述的肿瘤组织来源的突变结果中，SV突变阳性的判断条件为：SR+DP不低于预设阈值r；其中SR为跨越断点读段（Split Reads)，一条读段可以同时比对到基因组的不同区域，即读段跨越了断点；DP，非一致对（discordant pair），在双端测序中，两条读段分别比对到不同染色体，或者同一条染色体距离较远的基因组区域。

进一步地，预设阈值r为2。

在一些实施方案中，步骤5中所述的癌种特异固定核心探针组的非肿瘤组织来源的突变结果中，突变阳性的判断条件为：（1）突变为热点突变；（2）SNV/短插入缺失支持突变的总读段数不低于预设阈值s。

进一步地，预设阈值s为4。

在一些实施方案中，步骤5中所述的第二生物样本的肿瘤特异性突变状态判定为阳性的判断条件为：

个性化探针组中受试者肿瘤组织来源的突变结果或癌种特异固定核心探针组中受试者非肿瘤组织来源的突变结果中任意一项判断第二生物样本的肿瘤特异性状态为阳性，则所述的肿瘤特异性突变状态为阳性；当上述检测结果中的样本结果判定均为阴性时，则所述的肿瘤特异性突变状态为阴性。

所述的肿瘤组织来源的突变结果中，样本结果阳性的判断标准为：

（1）肿瘤组织来源的突变数目不高于预设阈值t时，阳性突变数量不低于预设阈值u，则第二生物样本肿瘤特异性突变状态判定为阳性；

（2）肿瘤组织来源的突变数目高于预设阈值t时，满足如下条件之一则样本结果判定为阳性：a）检出长度≥5个碱基对的短插入缺失；b）检出1个阳性突变且支持该突变的双向聚簇纠错读段数≥2；c）检出≥2个阳性突变且支持这些突变的总双向聚簇纠错读段数≥1；

（3）检出SV突变阳性，则样本结果判定为阳性。

进一步地，所述预设阈值t为5，所述预设阈值u为1。

所述的癌种特异固定核心探针组的检测中，非肿瘤组织来源的突变结果中检出突变阳性则判定第二生物样本的肿瘤特异性突变状态为阳性。

所述的肿瘤特异性突变状态为微小残留病灶（MRD）状态。

在一些实施方案中，所述的方法可用于确定对疗法的应答。

在一些实施方案中，所述的方法可用于确定癌症的进展。

在一些实施方案中，所述的方法可用于预测对未来治疗策略的应答。

在一些实施方案中，所述的方法可用于在治疗期间或治疗之后确定患者中癌症的存在。

在一些实施方案中，所述的方法可用于在疾病缓解之后、对治疗完全应答之后或诊断出无法检测的癌症之后确定患者中癌症的存在。

在一些实施方案中，所述的方法可用于在手术去除原发性肿瘤之后检测患者的微小残留病灶（MRD）。

在一些实施方案中，所述的方法可用于在手术去除转移性肿瘤之后检测患者的微小残留病灶（MRD）。

第二方面，本发明提供了用于检测受试者循环肿瘤DNA的肿瘤特异性突变的系统，所述系统包括：

（1）探针组确定模块；

（2）体细胞突变检测模块；

（3）体细胞突变判断模块。

在一些实施方案中，所述系统用于执行第一方面的方法。

在一些实施方案中，所述系统可用于检测MRD。

第三方面，本发明提供了第一方面的方法或第二方面的系统在用于检测受试者循环肿瘤DNA的肿瘤特异性突变中的应用。

在一些实施方案中，所述应用为检测MRD。

第四方面，本发明提供了一种存储介质，其记载了用于运行第一方面的方法和使第二方面的系统运行的程序。

附图说明

图1A示出了本公开的样本克隆簇数量分布统计结果。

图1B示出了本公开的主克隆突变数量分布。

图1C示出了本公开的亚克隆突变数量分布。

图2A示出了本公开的个性化探针组的捕获效率。

图2B示出了本公开的深度系数≥0.2和＜0.2的个性化探针数目。

图2C示出了本公开的深度系数≥0.5和＜0.5的个性化探针数目。

图3示出了本公开的个性化监测的位点中，主克隆突变和亚克隆突变的检出率。

图4示出了本公开的个性化监测位点中，VAF≥5%和VAF＜5%的突变检出率。

图5示出了本公开的不同大小的探针组合的捕获效率。

图6示出了本公开的癌种特异核心探针组对各个癌种的人群覆盖度。

图7示出了本公开的癌种特异核心探针组在不同癌种患者中的突变检出数目分布。

图8示出了本公开的癌种特异核心探针组的捕获效率。

图9A示出了本公开的癌种特异核心探针组中≥0.2倍平均测序深度的探针比例。

图9B示出了本公开的癌种特异核心探针组中≥0.5倍平均测序深度的探针比例。

图10示出了本公开的癌种特异核心探针组的探针深度系数。

图11示出了本公开的6例样本在不同原始深度下的dup率曲线图。

图12示出了本公开的经1021探针组合检测的2245例肿瘤组织（覆盖14个癌种）的检出突变数统计。

图13示出了本公开的1021+MRD检测MRD标准品的灵敏度。

图14A示出了本公开的33例接受根治性手术的I-III期非小细胞肺癌（NSCLC）患者进行1021+MRD检测的灵敏度和特异性。

图14B示出了本公开的1021+MRD检测阳性受试者和阴性受试者的无复发存活率。

图14C示出了本公开的1021+MRD和群体化定制MRD每位患者监测的组织来源突变数比较。

图14D示出了本公开的MRD阳性患者1021+MRD和群体定制策略检出的组织来源突变数比较。

图15A示出了本公开的1021+MRD在结直肠癌种中的灵敏度和特异性。

图15B示出了本公开的1021+MRD在结直肠癌种中阳性受试者和阴性受试者的无复发存活率曲线。

具体实施方式

在本申请中，术语“TNM分期”是国际抗癌协会(UICC)提出的专门用来在癌症治疗过程中确定肿瘤病变范围的分类方法。这三个字母分别代表不同的含义。T表示原发肿瘤大小和范围，有T1、T2、T3、T4四个等级，数字越大表示肿瘤的体积和侵犯的范围越大；同时还有Tis和T0两种，分别表示肿瘤只到上皮层(原位癌)、所检查的部位没有发现肿瘤病灶。N代表区域淋巴结，反映与肿瘤有关的淋巴结转移情况，有N0、N1、N2、N3四种。N0表示未发现淋巴结受侵犯，数字越大则表示局部淋巴结转移越多。如果淋巴结转移情况无法确定就用Nx表示。M表示远处转移情况，M0表示没转移；M1则表示有转移。在此基础上，用TNM三个指标的组合划分出不同的时期。

在本申请中，MRD可以是三个术语的缩写，分别是分子残留病灶（molecularresidual disease）、可测量残留病灶（measurable residual disease）和微小残留病灶（minimal residual disease）。MRD反映了肿瘤病灶的残留状况。经过治疗后，肿瘤患者体内可能还会有少量的肿瘤细胞残留，而这些肿瘤细胞数量可能少到不引起任何症状体征，通过细胞学镜检或血清学检查等传统手段通常无法检测到，检测需要借助灵敏度高的现代前沿技术如流式细胞术、PCR、NGS等。MRD即指这些标准细胞形态学分析无法检测到的少量肿瘤细胞，如果患者MRD阳性，意味着患者的复发风险较高或预后较差。

细胞游离核酸(例如cfDNA)的分析已经在例如产前检测、器官移植、传染病和肿瘤学中具有广泛的应用。在检测或监测受试者的疾病(例如癌症)的情况下，循环肿瘤DNA(ctDNA)可以是多种癌症类型中的敏感和特异性生物标志物。在一些情况下，循环肿瘤DNA可用于检测治疗(例如实体瘤的化疗或手术切除)后微小残留疾病(MRD)或肿瘤负荷的存在。然而，循环肿瘤DNA分析的检测限(LOD)可能受到许多因素的限制，包括(i)来自典型血液采集的低输入DNA量，和(ii)测序的背景错误率。

在本申请中，术语“驱动突变”：指的在肿瘤细胞中具有选择性生长优势的突变。驱动突变有因果性地参与到癌症形成中，它使得癌细胞具有生长优势，同时这一突变是从癌症产生的组织微环境中正向选择出来的。对于癌症最终阶段的维持，驱动突变不是必需的（尽管常常是），但它一定在癌症形成的细胞系的某个时间点被选择出来。在一些实施方案中，对核酸序列测序以检测核酸变体，突变或变异。检测序列变体的方法是本领域已知的，并且序列变体可以通过本领域已知的任何测序方法进行检测。

在本申请中，术语“读段”指一小段短的测序片段，是高通量测序仪产生的测序数据。

最低检测限（LoD），是指检测灵敏度≥95%时的最低突变频率。在本申请中，“灵敏度”是指在特定突变频率的突变/样本中，检测到突变或样本被判为MRD阳性的概率。

在本申请中，术语“拷贝数变异”或“CNV”，是指具有相同核苷酸序列的基因片段在存在或不存在/获得或丢失的情况下的比较数值变化。

在本申请中，术语“SNV”是指发生在基因组中特定位置的单核苷酸的突变或变异。

在本申请中，术语“SNP”，即单核苷酸多态性，是指由于单个核苷酸改变而导致的核酸序列多态性。

在本申请中，术语“Panel”是高通量基因检测和基因测序发展起来后用的一个词语，它是指在检测中不只是检测一个位点、一个基因。而是同时检测多个基因、多个位点。这些位点和基因需要按照一个标准进行选择和组合，从而构成一个检测Panel。因此基因检测Panel可以理解为基因组合、基因集合或探针组合。

在本申请中，术语“新抗原”是由细胞的蛋白质组中通常不存在的肽所形成的抗原。在本发明的一些实施例中，术语“新抗原”是指一类肿瘤抗原，其由表达的蛋白质中的肿瘤特异性突变产生。在一些实施例中，新抗原可以源自任何癌症、肿瘤或其细胞。在癌细胞的发生发展过程中会产生很多基因突变，一些突变会产生一些正常细胞和组织没有的蛋白质，它们可能会激活免疫系统，导致免疫系统对癌细胞的攻击，这些由癌细胞基因突变所产生的异常蛋白称为新抗原。新抗原在癌症研究和治疗中具有非常重要的作用：①可以作为肿瘤的分子标志物，反映肿瘤的进化状态和异质性，预测肿瘤的生物学行为和临床预后；②可以作为肿瘤的免疫治疗靶点，激活和增强机体对肿瘤的特异性免疫反应，消除肿瘤细胞，提高治疗效果和耐受性；③可以作为肿瘤的个体化治疗策略，根据每个病人的肿瘤特异性突变，定制个性化的新抗原疫苗或者细胞治疗，提高治疗精准度和安全性。

在本申请中，术语“体细胞突变”是指在发生变异的DNA在体细胞中，而产生生殖细胞的性原细胞(或成熟的生殖细胞)中的DNA并没有发生改变。体细胞突变可以发生在身体的除了生殖细胞以外的任何细胞中，并且因此不会传递给后代。

在本申请中，术语“深度测序”是指针对序列的每个区域的大量重复读数的一般概念。

在本申请中，“测序数据”是指技术人员已知的关于核酸分子的任何序列信息。序列数据可以包括有关必须转换成核酸序列的DNA或RNA序列、修饰的核酸、单链或双链序列、或可替代地氨基酸序列的信息。序列数据可以另外包括关于测序设备、获取日期、读段长度、测序方向、已测序实体的来源、相邻序列或读段、重复的存在或本领域技术人员已知的任何其它合适的参数的信息。序列数据可以本领域技术人员已知的任何合适的格式、档案、编码或文档来呈现。

在本申请中，“主克隆突变”是指存在于所有肿瘤细胞中的突变，通常出现于肿瘤发生发展的早期。

在本申请中，“亚克隆突变”是指只在部分肿瘤细胞中存在的突变，通常出现于肿瘤发生发展的后期，反映了肿瘤的进化。

在本申请中，经Pyclone-VI软件分析后最大的克隆群被认为是主克隆（label=0），其余的克隆群被认为是亚克隆（label>0）。

在本申请中，术语“肿瘤”是指团块或赘生物，其本身被定义为细胞的异常新生长，这种细胞通常比正常细胞生长更快，并且如果不治疗将会继续生长，有时会导致对邻近结构的损害。肿瘤大小可能相差很大。肿瘤可以是实体的或液体填充的。肿瘤可以指良性(非恶性，通常无害)或恶性(能够转移)的生长。一些肿瘤可能包含良性赘生性细胞(例如原位癌)，同时还包含恶性癌细胞(例如腺癌)。应该理解为包括位于全身多个位置的赘生物。因此，出于本公开的目的，肿瘤包括原发性肿瘤、淋巴结、淋巴组织和转移性肿瘤。

在本申请中，所述癌症的非限制性实例包括胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、乳腺癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠直肠腺癌、胃肠间质瘤、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑色素瘤、葡萄膜黑色素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌、移行细胞癌、尿路上皮癌、肾母细胞瘤、肝癌、肝上皮癌、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌、鼻咽癌、成神经细胞瘤、口腔癌、口腔鳞状细胞癌、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、腺泡细胞癌、前列腺癌、皮肤癌、黑色素瘤、恶性黑色素瘤、皮肤黑色素瘤、小肠癌、胃癌、胃上皮癌、、子宫癌或子宫肉瘤。

在一些实施方案中，所述测序技术包括但不限于Illumina、华大智造、吉因加。

在本申请中，术语“SV”指染色体的某些部分的改变，而不是基因组中染色体或一组染色体的数目的改变。导致结构变体的突变共有四种常见类型：缺失和插入，例如重复(分别涉及染色体中DNA数量的变化，遗传物质的丢失和获得)，倒置(涉及染色体区段的排列变化)和易位(涉及染色体区段的位置变化，这能够引起基因融合)。在本发明中，术语“SV”包括遗传物质的丢失、遗传物质的增加、易位、基因融合及其组合。

在本申请中，术语“Indel”或“indel”是指基因组上一个等位基因中存在一个或更多个碱基而另一等位基因中不存在碱基的位置。在本申请所述的分析过程中，由于在一个等位基因中的插入等同于在另一个等位基因中的缺失，它们通常不被区分。因此，在本申请中，“Indel”是指两个等位基因之间的插入/缺失的位置。在一些实施方案中，“Indel”可以理解为短插入缺失。

在本申请中，术语“受试者”是指任何动物、哺乳动物或人。受试者患有、可能患有或怀疑患有一种或多种疾病。受试者可能患有癌症，受试者可能表现出与癌症相关的症状，受试者可能并未表现与癌症相关的症状，或者受试者可能并未被诊断出患有癌症。在一些实施方案中，所述受试者是人。

在本申请中，术语“生物样品”通常是指来自受试者的组织或流体样品。生物样品可以直接从受试者获得。或者，生物样品可以是来源于受试者经处理的生物样品。所述生物样品可以是一种或多种核酸分子，例如DNA或核糖核酸(RNA)分子，或可以包含一种或多种核酸分子，例如DNA或核糖核酸(RNA)分子。所述生物样品可以来源于任何器官、组织或生物流体。所述生物样品可以包括例如体液或实体样品。可以是细针抽吸物或活检组织。所述实体样品的一个实例是肿瘤样品，例如来自活检实体瘤。所述体液包括但不限于血液、血浆、胸/腹腔积液、腰椎或脑室脑脊液（cerebrospinalfluid，CSF）、唾液、尿液、肿瘤细胞和它们的处理物。在一些实施方案中，所述的一个或多个细胞游离核酸分子可以来源于生物样品。

在本申请中，术语“VCF”是代表变体调用格式的首字母缩写，并且指代在生物信息学中被用于存储基因序列变异的文本文件的格式。

在本申请中，术语“NetMHCpan算法”是一种基于人工神经网络的免疫表位预测算法，可以预测给定氨基酸序列中的MHC分子特异的免疫表位。

在本申请中，术语“SMMPMBEC算法”是一种用于预测肽段与MHCI型分子的亲和性的算法，基于统计力学模型，利用肽段和MHCI型分子的序列信息，构建MHCI型分子的位置特异性评分矩阵（PSSM），从而对任意长度的肽段进行亲和力预测。

在本申请中，术语“dbSNP数据库”是单核苷酸多态性数据库，是NCBI中专门用于存储物种SNP位点信息的数据库。

在本申请中，术语“准确率-召回率曲线（P-R）”是指一条横坐标为P，纵坐标为R的函数图像。P代表的是精准率，R代表的是召回率，PR曲线代表的是精准率与召回率的关系。

在本申请中，术语“β分布”是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，在机器学习和数理统计学中有重要应用。

在本申请中，术语“VAF”的全称是变异等位基因频率或变异等位基因分数。简单来说就是在基因组某个位点支持变异/突变的读段覆盖深度占这个位点总读段覆盖深度的比例。

在本申请中，术语“CSCO指南”是指中国临床肿瘤学会（发布的各种恶性肿瘤临床实践指南。

在本申请中，术语“TCGA数据库”中TCGA即癌症基因组图谱计划。目前收录了来自20000个病人，33个癌症的数据。包括了基因组，转录组，表观遗传，蛋白组等各个组学数据，以及临床样本信息。

在本申请中，术语“MSK数据库”是一个由美国纪念斯隆·凯特琳癌症中心提供的数据目录，收录了该中心的科研人员和合作伙伴所产生的各种生物医学数据，包括基因组、转录组、蛋白质组、代谢组、临床试验等数据。

在本申请中，术语“Cosmic数据库”是癌症体细胞突变目录，它是一个综合性的数据库，详细记录了与人类癌症相关的驱动基因。

dup即重复序列，是指在高通量测序中，由于PCR扩增或其他原因导致同一个模板DNA片段被多次测序，得到多条一样的读段,dup也称为重复数据或重复序列。这些重复序列在总测序序列中占比，称为dup率。

在本申请中，术语“UID”即唯一标识符，含义同“UMI”(唯一分子标记)。在高通量测序中，UID是一种用于标记和区分不同模板分子的方法，可以提高测序数据的质量和准确性。

在本申请中，术语“ESP数据库”，包含了SNP和短插入缺失变异。主要目的是通过NGS技术对不同人群进行SNP分型，来辅助心脏，肺，血液相关疾病的研究。

在本申请中，术语“GAD数据库”是一个收集和展示人类遗传相关性研究中的基因-疾病关联信息的数据库。

在本申请中，术语“EXAC数据库”即外显子组聚合联盟，包含了大量自有的人类外显子组数据。

在本申请中，术语“千人基因组数据库”或“tgp数据库”是一个收集和展示来自不同人群的人类全基因组测序数据的数据库，由国际基因组样本资源维护和共享。

在本申请中，术语“GenomeAD数据库”即基因组聚合数据库是一个由国际合作团队开发的数据库资源，旨在整合和标准化来自各种大规模测序项目的外显子和全基因组测序数据，并为广大科学界提供汇总数据。genomeAD数据库包含了来自14万多个个体的外显子和全基因组测序数据，涵盖了不同的人种、地域和祖先。

在本申请中，术语“clinvar数据库”是NCBI临床突变数据库，整合遗传变异、临床表型、支持证据以及功能注解与分析等方面的信息，采用星标系统来评价特定突变在疾病中的功能注释等级，记载文献中变异与疾病/表型之间的关系，且有文献溯源。

在本申请中，术语“index”通常是一段短DNA序列的序列标签。在测序过程中，index会被附加在DNA片段的末端，用来标记不同的样本来源。

在本申请中，术语“fastq文件”指一种基于文本的存储生物序列和对应碱基或氨基酸质量的文件格式。

在本申请中，术语“bam文件”是以高效压缩的二进制格式存储读段比对到参考基因组的比对结果的文件。

在本申请中，术语“PCR”即“聚合酶链式反应”，按本领域的技术人员所理解的常规方法操作。

本发明的方法相比于群体化定制策略，可追踪更多的组织来源突变（中位4 vs9），结合高至十万乘超高深度测序，可检出更多的低频突变，具有更高的检测灵敏度。

本发明的方法叠加使用个性化探针组和癌种特异固定核心探针组，个性化探针组可用于监测肿瘤组织来源的突变，更早的研究已证实原发性肿瘤与癌转移之间的基因异质性，同时考虑到同一种肿瘤在不同个体中可能表现不同，通过使用个性化探针组可检测肿瘤进化产生耐药突变和第二原发突变，可在一定程度上克服肿瘤的时空异质性。经验证，本发明的方法和系统性能卓越，30ngDNA投入量时，监测2个突变样本最低检测限达到0.05%，60ngDNA投入量时，监测2个突变样本最低检测限达到0.02%。对临床肺癌的MRD检测灵敏度93.3%，特异性100%；对肠癌的检测灵敏度为92%，特异性100%。

本发明的方法和系统测序数据量小，监测成本低，增加了产品的可及性。

本发明的方法和系统适合泛实体肿瘤的MRD监测，可以针对更多癌种，提供对肿瘤基因组的综合描述。

本发明还发现组织中的主克隆突变和高频突变具有更大的复发监测贡献度。

以下所述的是本发明的优选实施方式，本发明所保护的不限于以下优选实施方式。应当指出，对于本领域的技术人员来说在此发明创造构思的基础上，做出的若干变形和改进，都属于本发明的保护范围。所用试剂未注明生产商者，均为可以通过市购获得的常规产品。

实施例

实施例1：个性化探针设计和性能测试

个性化探针根据肿瘤组织中检出的突变进行定制，在个性化探针设计过程中，优先选择主克隆突变和突变频率较高的突变。实验证明，主克隆突变和高频突变对MRD监测具有更高的贡献率。

1.1. 突变克隆性分析统计

对223例肿瘤组织样本基于全外显子测序（WES）的克隆分析结果进行统计，发现统计样本中最少分为1个克隆簇，最多分为8个克隆簇，克隆簇数量下四分位为3，上四分位为5（图1A）。有71.2%样本的主克隆涵盖的可选突变数在10个以上，21.5%的样本主克隆涵盖的可选突变数在50个以上（图1B），对于这一部分样本可优先选择主克隆突变进行个性化探针定制。对于亚克隆突变，有96%的样本可检出≥2个突变，223个样本的95%分位数为10个突变（图1C）。

1.2. 个性化探针性能测试

统计了73例患者的个性化探针定制情况，及其对应的100例血浆样本高通量测序监测的探针性能结果。

（1）探针定制成功率

73例患者个性化探针全部成功定制，定制成功率为100%。

（2）探针捕获效率

本次测试的血浆临床样本捕获效率最小值为30.2%，最大值为55.64%，中位值为44.80%，探针捕获效率性能良好（图2A）。

（3）探针深度系数

73组探针所有监测位点深度系数均在0.2以上；个性化探针深度系数在0.5以上探针比例中位数为100%（90%-100%），说明监测位点设计的探针覆盖和均一性良好（图2B和图2C）。

1.3. 主克隆突变、亚克隆突变以及高频突变、低频突变在MRD监测中的检出率统计

对24例复发的结直肠癌患者进行个性化探针组合定制和MRD检测，每位患者最多监测50个位点，其中23例被鉴定为MRD阳性。对循环肿瘤DNA阳性血液中检出的突变进行统计，分析主克隆突变和亚克隆突变、高频突变和低频突变在MRD监测中的检出率。

（1）主克隆突变和亚克隆突变贡献率统计

在24例复发的结直肠癌患者中，24位患者个性化探针中有主克隆突变定制，20位患者个性化探针中有亚克隆突变定制。其中，有22位患者在血液中检出主克隆突变，检出率为91.7%（22/24），有16位患者检出亚克隆，检出率为80%（16/20）。在个性化监测的位点中，主克隆突变和亚克隆突变的检出率中位值分别为89.5%和52%（图3）。以上结果说明，主克隆比亚克隆具有更好的MRD监测效果。

（2）突变频率对MRD监测的影响

以5%VAF为分界点，将个性化定制的突变分为两组：①在组织中检出的VAF≥5%；②在组织中检出的VAF＜5%，分别统计两组突变在MRD监测中的检出率。在24例复发的结直肠癌患者中，所有患者都有VAF≥5%的组织来源突变定制，10位患者定制了VAF＜5%的组织来源突变。其中，有23例患者在血液中检出组织来源的VAF≥5%的突变，检出率为95.8%（23/24），4位患者检出VAF＜5%的组织来源突变，检出率为20%（4/10）。在所有24位患者的个性化监测位点中，组织来源的VAF≥5%和VAF＜5%的突变检出率中位值分别为78.9%和0%（图4）。以上结果说明，在复发患者的血液样本中，组织中的高频突变（VAF≥5%）具有更高的检出率。

实施例2：核心探针筛选和性能测试

2.1. 核心探针组大小的确定

对不同大小探针组的捕获效率统计后发现，随着探针组增大，捕获效率逐渐增加，然后趋于平稳（图5）。探针组大小达到5kb时，捕获效率基本稳定在30%以上，可满足检测要求。更小的探针组会导致更低的捕获效率，最终影响检测性能。由于针对每个患者定制的个性化探针组一般较小（监测2-20个突变时，个性化探针组大小为0.24kb-2.4kb），导致捕获效率较低。核心探针和个性化探针叠加使用可以增加探针组大小，稳定实验体系，提高捕获效率。因此核心探针组大小为5kb时，既可保证监测2个及以上突变时杂交捕获的实验稳定性，又可保证数据量需求较低。综上所述，核心探针组的大小设置为5Kb。

2.2. 按照以下规则进行核心探针区域的筛选

1. 筛选等级1：目标癌种NCCN指南推荐的I类用药突变，和/或CSCO指南I级推荐的用药突变，目标癌种中美国食品药品监督管理局（FDA）或中国药品监督管理局（NMPA）批准的用药突变，国内外专家共识推荐的用药靶点。

针对肺癌、结直肠癌和乳腺癌设计单独核心探针，针对其他癌种设计泛癌种核心探针。见表1。

表1：针对肺癌、结直肠癌、乳腺癌、泛癌的探针设计

2. 筛选等级2：报道的目标癌种中具有明确临床价值，且有强生物标志物预测价值的非指南/非共识级的基因和突变；等级3：目标癌种中的驱动基因突变；等级4：TCGA数据库、MSK数据库和Cosmic数据库中，目标癌种的热点及高频突变基因/区域。见表2。

从上述根据优先级排序好的基因/突变中选择出优先级靠前的非指南级别的基因/突变，将这些突变和1中筛选出的突变合并，直至达到预期的探针组合大小（5kb）。

表2：筛选出的符合等级 2-等级4规则的突变

/>

2.3. 核心探针的覆盖评估

为了评估核心探针在人群中的覆盖度，统计核心探针在吉因加数据库和TCGA数据库中单点覆盖情况（≥1个位点）。

（1）单癌种核心探针覆盖度

肺癌核心探针在在吉因加数据库和TCGA数据库中覆盖度分别为89.95%和80.20%；肠癌核心探针在吉因加数据库人群覆盖为98.22%，在TCGA数据库中覆盖度为92.53%；乳腺癌分别为85.96%和71.93%（图6）。

吉因加和TCGA数据库覆盖度差异可能与人种、地域等因素有关，吉因加数据库人群主要为中国人群。总体来说核心探针人群覆盖度优异。

（2）其他泛实体肿瘤通用核心探针覆盖度

泛癌核心探针检测范围包括食管癌、胰腺癌、卵巢癌、子宫内膜癌、胃癌、尿路上皮癌等癌种。泛癌核心探针在TCGA数据库食管癌人群中的覆盖比例为95.33%，在吉因加数据库食管癌人群覆盖为88.65%；在TCGA数据库胰腺癌人群中的覆盖比例为93.79%，在吉因加数据库胰腺癌人群覆盖为80.54%；在TCGA数据库卵巢癌人群中的覆盖比例为90.68%，在吉因加数据库卵巢癌人群覆盖为88.86%；在TCGA数据库子宫内膜癌人群中的覆盖比例为76.79%，在吉因加数据库子宫内膜癌人群覆盖为77.8%；在TCGA数据库胃癌人群中的覆盖比例为75.95%，在吉因加数据库胃癌人群覆盖为66.82%；在TCGA数据库尿路上皮癌人群中的覆盖比例为71.52%，在吉因加数据库卵巢癌人群覆盖为61.34%（图6）。

2.4. 核心探针的检出突变数评估

对核心探针在TCGA和吉因加数据库中的检出突变数目进行统计：肠癌位点突变数中位均为2，肺癌突变数中位值均为1，乳腺癌突变数中位值均为1；其他实体瘤中食管癌、胰腺癌突变数中位值均为1，卵巢癌突变中位2（图7）。在同一癌种中，吉因加数据库和TCGA数据库检出突变数目中位值相同，说明核心探针包含的基因在不同人群中实现了很好的覆盖。

2.5. 核心探针对临床样本的捕获效率、均一性评估

使用临床样本对上述设计的4种核心探针的性能进行测试，包括肺癌、肠癌、乳腺癌、泛实体瘤样本各4例，每例样本重复检测2次。

根据临床样本信息整理各癌种捕获效率，肠癌核心探针捕获效率中位数为44.5%（30.12%-56.62%），肺癌核心探针捕获效率中位数为43.4%（34.88%-48.99%），乳腺癌核心探针中位数为41.51%（38.62%-49.04%），泛癌核心探针捕获效率中位数为40.08%（36.23%-43.66%），探针捕获性能良好（图8）。

（2）探针均一性

根据临床样本信息，汇总≥0.2倍平均深度比例（图9A），≥0.5倍平均深度比例（图9B）的信息，在≥0.2倍平均深度比例结果中，除肠癌中位数为99.98%外，其他3个癌种，中位数均为100%；在≥0.5倍平均深度比例结果中，4个癌种中位数均在97%以上，结果表明核心探针均一性较高，表现良好。

（3）探针深度系数

4种核心探针深度系数0.2-2之间，肠癌探针系数范围0.28-1.47之间，中位值1.03；肺癌探针系数范围0.56-1.87，中位值1.22；乳腺癌探针系数范围0.4-1.78，中位值1.04；泛癌探针系数范围0.37-1.83，中位值1.10（图10）。整体探针深度系数良好。

实施例3：关键阈值的确定

3.1.测序深度的确定

使用6例80 ng DNA建库起始量的临床样本测序结果，进行饱和测序深度分析。结果表明，当原始测序深度达80,000×时，dup率大于80%，达到生物信息学的测序饱和；当原始测序深度达到100,000×时，dup率达到85%以上（图11）。因此，推荐测序达到8万及以上。

实施例4：SNV/短插入缺失突变检测

1. 测序原始下机数据质控：采用发明人自主开发的血浆循环肿瘤DNA低频突变富集测序技术——ER-seq（Enrichment&Rarallele Sequence）（中国专利公开号CN105063208A）的信息分析流程（RealSeqPipeline），去除UID后，使用NCfilter软件进行读段过滤。

2. 序列比对：以GRCh37版本的人类参考基因组为参考序列，使用bwa软件(版本号：0.7.17-r1188)进行序列比对，生成初步比对的读段。

3. 去除PCR重复读段：使用realseq2软件对bam文件进行基于血浆循环肿瘤DNA低频突变富集测序技术的分析流程的读段的聚类分析及纠错，提取包括天然重复片段在内的去重后的读段。再次使用bwa软件对重新对读段进行比对。

4. 短插入缺失重比对和碱基质量矫正：使用GATK软件的RealignerTargetCreator模块进行短插入缺失附近序列的局部重新比对，降低短插入缺失附近的比对错误率。使用GATK软件的BaseRecalibrator模块和PrintReads模块对bam文件里读段的碱基质量值进行重新校正，使最后输出的bam文件中读段中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率，并将质量矫正后的读段重新输出。

5. 使用realDecaller2软件检测SNV/短插入缺失，NCSV2软件检测SV原始变异（突变）。

6. 变异的注释和过滤：使用NCanno软件对原始变异（突变）检出突变进行注释，包括突变信息、健康人样本构造的健康人基线库、外部数据库（ESP、GAD、EXAC、千人基因组数据库和GenomesAD等）。

7. 突变检测：

1）肿瘤组织来源突变突变检测：

（1）在阳性和阴性读段集合中，根据准确率-召回率曲线确定支持突变读段的聚簇纠错背景。阳性读段集合为10例由sw480和NA12878细胞系DNA混合得到的肿瘤细胞含量为0.1%的阳性标准品中的支持目标突变的读段；阴性读段集合为20例NA12878细胞系DNA的支持目标突变的读段。

（2）支持突变的有效读段：1）比对质量>=60；2）碱基质量>=20；3）突变不位于读段5'端第1~4个碱基和3'端的第1~3个碱基；4）聚簇纠错过程中，支持突变的原始读段大于或等于该簇内读段总数的95%；5）高于聚簇纠错背景。

（3）肿瘤组织来源SNV/短插入缺失突变阳性判断条件：

a）SNV和长度≤5个碱基对的短插入缺失，满足条件之一：a.支持突变的双向聚簇纠错读段数≥1；b.支持突变的单向聚簇纠错读段数 +单向非聚簇纠错读段数≥2；

b）长度>5个碱基对的短插入缺失，满足条件之一：a.双向聚簇纠错读段数≥1；b.单向聚簇纠错读段数≥1：c.单向非聚簇纠错读段数≥1。

c）三联核苷酸过滤：a.背景检出率>0.1；b.突变检出频率高于三联核苷酸背景，p值≤0.1。

（4）肿瘤组织来源SV阳性判断条件：SR+DP≥2。

2）非肿瘤组织来源突变阳性判断条件：a.突变为热点突变；b. SNV/短插入缺失支持突变的总读段数≥4。

8. 样本结果判断，满足以下条件之一则样本结果判断为阳性：

1）肿瘤组织来源SNV/短插入缺失检出阳性：

a. 监测突变数目≤5：阳性突变数量>1；

b. 监测突变数目>5，满足条件之一：1）检出长度≥5个碱基对监测短插入缺失；2）检出1个阳性监测突变且支持该突变的双向聚簇纠错读段数≥2；3）检出≥2个阳性监测突变且支持这些突变的总双向聚簇纠错读段数≥1；

2）肿瘤组织来源SV检出阳性；

3）非肿瘤组织来源SNV/短插入缺失检出阳性。

实施例5：探针组合（1021探针组合）检出组织突变数统计

使用吉因加1021 探针组合对实体瘤组织进行突变检测，然后定制个性化探针组，并叠加使用癌种特异的核心探针组进行MRD监测的方法被称为1021+MRD。吉因加1021探针组合可以参考公开号为CN111321140A，发明名称为一种基于单样本的肿瘤突变负荷检测方法和装置的中国发明专利。对吉因加数据库中经1021探针组合检测的2245例肿瘤组织（覆盖14个癌种）样本数据进行分析，以检出突变数≥2为基数进行统计1021+MRD监测的突变数至少为2个，1021探针组合对我国高发的肺癌、结直肠癌、乳腺癌、胃或胃食管交界处肿瘤、肝癌、子宫内膜癌的覆盖度分别为98%、100%、98%、97%、100%和100%，突变检出中位数分别为9、11、7、10、8和11，说明1021探针组合对我国高发的多种实体瘤的突变实现了全面覆盖（图12）。

实施例6：1021+MRD分析性能

使用突变频率分别为0.1%、0.05%、 0.02% 和0%的MRD标准品对1021+MRD的分析性能进行评估：DNA投入量为30ng时，监测2个突变样本最低检测限达到0.05%；DNA投入量为60ng时，监测2个突变样本最低检测限达到0.02%（图13）。监测2-20个突变时，1021+MRD的特异性＞95%。

实施例7：临床性能验证

7.1. 实验和分析流程

7.1.1 细胞游离DNA提取

全血样本经1,600g和16,000g两步离心分离血浆并去除血浆中细胞碎片后，使用Maelstrom2400游离DNA提取仪进行磁珠法血浆游离DNA提取。

7.1.2 文库构建

细胞游离DNA进行末端修复及加碱基“A”，然后再经过接头连接、纯化、捕获前PCR（Non-C-PCR）以及纯化的过程，得到捕获前中间文库。将中间文库浓度质控合格样本进行后续的杂交洗脱。

7.1.3杂交捕获

浓度质控合格的文库经混合（pooling）、蒸干、混合探针杂交、洗脱、洗脱产物PCR以及纯化的过程，得到杂交后普通文库。普通文库经浓度和片段分布质控合格后进行测序。

7.1.4 测序和数据分析

（1）FASTQ数据产出

通过软件splitBarcode软件(版本：0.1.3)，结合样本对应的序列标签（index）序列信息，将每个样本对应的全长读段信息从下机文件中提取，并分别以固定的命名格式将双端测序的读段分别存储为两个fastq文件中。

（2）序列标签匹配异常检查

在突变检测阶段，通过识别肿瘤样本和对照样本中纯合位点的异常和匹配情况，对序列标签匹配异常或者样本间交叉污染的情况进行检测。

（3）数据比对和bam文件生成

在数据比对之前，首先使用Realseq2软件(版本：1.1.6）软件：（1）去除读段末端的UMI并保存于读段名称中；（2）过滤低质量读段。得到的fastq文件使用BWA（版本：0.7.15-r1140）软件，比对到人类参考基因组（版本：hs37d5）上，生成初始比对结果的bam文件，随后使用Realseq2软件(版本：201808)，借助UMI对初始比对结果文件中的PCR重复读段进行聚簇纠错。结合千人数据库和dbSNP（版本：138）数据库中的常见短插入缺失突变对检测芯片两端延伸50个碱基对范围内的短插入缺失区域进行重新比对，结合千人数据库、dbSNP（版本：138）数据库和COSMIC数据库中的信息对检测芯片两端延伸50个碱基对范围内的碱基质量值进行重新矫正。

（4）样本质控

样本配对错误：生物信息流程通过计算对照样本中对芯片区间两端延伸50个碱基对的范围内的纯合位点与肿瘤样本的一致性进行样本配对是否异常的判断依据，若一致性低于90%则认为所检测的对照和肿瘤样本存在配对错误的风险。

样本污染：通过GATK（版本：4.1.4）软件中的CalculateContamination模块结合对照和肿瘤样本的bam文件信息，通过对检测样本中纯合位点中支持参考碱基的读段信息进行读取和统计，从而对样本的交叉污染情况进行评估，若污染率高于1%则认为样本间存在交叉污染的风险。

（5）突变检测

本产品共检测在芯片捕获区间两端延伸50个碱基对范围以内的单核苷酸突变（SNV）和插入缺失突变（Indel）。使用RealDcaller2（版本：1.1.3）软件检测目标区域内所有突变，检测过程分为如下三个步骤：（1）检测区域内的所有突变，过滤胚系突变；（2）对非监测突变，保留等位基因深度（AD）≥4的突变，保留所有监测突变；（3）将剩余突变结果以VCF格式结果输出。

将上述检测过程得到的突变通过BedAnno（版本：1.20）软件进行注释，注释涉及的数据库包含：（1）基因注释数据库（版本：NCBI release 104）；（2）dbSNP数据库（版本：147）；（3）tgp数据库（版本：phase3）；（4）COSMIC数据库（版本：v80）；（5）ExAC数据库（版本：0.3.1）；（6）clinvar数据库（版本：20200701）。

对于上述步骤得到的突变进行过滤，保留满足如下条件的突变：（1）突变长度小于5个碱基对的监测SNV和短插入缺失，双向聚簇纠错读段数≥1或单向聚簇纠错读段数+单向非聚簇纠错读段数≥2；（2）突变长度大于或等于5个碱基对的短插入缺失，双向非聚簇纠错读段数≥1或单向聚簇纠错读段数≥1或单向非聚簇纠错读段数≥1；（3）非监测热点突变等位基因深度（AD）≥4；（4）其他突变等位基因深度≥8。其中，单向非聚簇纠错读段数为簇大小为1的未纠错读段。

7.2. 肺癌临床性能

对33例接受根治性手术的I-III期非小细胞肺癌（NSCLC）患者进行MRD检测，15例为复发患者，18例未复发患者。经1021+MRD检测，14例复发患者被鉴定为MRD阳性，灵敏度93.3%，18例未复发患者全被鉴定为MRD阴性，特异性为100%（图14A）。MRD阳性比MRD阴性具有更高的复发风险（HR=35.4，P＜0.0001）（图14B）。另外，有9位患者经1021+MRD检测可比影像学提前预测复发，中位提前时间为143天。

相比于群体定制策略，1021+MRD可监测更多组织来源突变数。在33例NSCLC患者中，1021+MRD个性化定制的突变中位数为6，平均数为10.2，而群体定制策略监测的组织来源突变中位数为4，平均数为5.3。其中的28例患者（85%）1021+MRD监测的组织来源突变数多于群体定制策略，中位多监测4.9个突变（图14C）。

得益于更多的监测突变数和更高的测序深度，在MRD阳性患者中，1021+MRD可比群体定制策略检出更多的突变位点，可以更全面地反应肿瘤分子残留病灶状态。在14例阳性复发NSCLC患者中，7个患者的8个样本经1021+MRD检出的组织来源突变数大于群体定制策略。1021+MRD检出阳性突变平均数为4.8个，比群体定制策略平均多检出2.1个突变（图14D）。

另外，由于测序深度增加，1021+MRD对低频突变检测的灵敏度增加：有3例NSCLC患者中出现了相同突变位点群体定制策略测序30000x深度没有检测到，但是用1021+MRD测序100000x深度可检测到阳性信号。见表3。

表3： 1021+MRD对低频突变具有更高的检测灵敏度

从吉因加数据库中筛选出13例临床复发但是群体定制策略检测MRD阴性的标本，癌症种类包括非小细胞肺癌、肾细胞癌、肝癌和结直肠癌。对以上样本重新使用1021+MRD检测，结果显示4例（30.8%）患者经1021+MRD检测为循环肿瘤DNA阳性。1021+MRD鉴定出的8个阳性突变中，有5个突变也在群体定制探针组合的监测范围内，由于突变频率较低（0.006%-0.042%）群体定制策略30000x测序未检出，经1021+MRD 100000x高深度测序检出。另外，有3个突变不在群体定制探针组合监测范围内，为1021+MRD多监测的位点。以上结果再一次证明了1021+MRD在测序深度和监测广度上的增加，对最终的临床性能带来的提升。见表4。

表4：1021+MRD提升临床检测性能

/>

7.3. 肠癌临床性能

使用1021+MRD对34例接受根治性治疗的I-IV期结直肠癌患者的回顾性样本进行检测，根据检测结果和随访记录，对患者的生存状态、复发风险等进行评估。34例患者中有25例患者确认复发，9例未复发。在复发的患者中，23例被鉴定为MRD阳性，未复发患者全部被鉴定为MRD阴性。因此，1021+MRD预测复发的灵敏度为92.0%（23/25），特异性为100%（9/9）（图15A），被1021+MRD鉴定为循环肿瘤DNA阳性的患者具有更高的复发风险（HR=9.2，P=0.0001）（图15B）。

Claims

1.一种用于检测受试者ctDNA的肿瘤特异性突变状态的检测方法，所述方法包括如下步骤：

步骤1，对受试者的第一生物样本进行测序以获得第一生物样本的体细胞突变图谱：1）对第一生物样本进行靶向捕获高通量测序；2）数据质控：包括对测序获得的低质量读段进行过滤获得高质量读段；3）数据对比和去重：包括将过滤后的高质量读段与人类参考基因组进行比对以生成初始比对结果；4）肿瘤可信体细胞突变检测：检测突变类型包括SNV、短插入缺失、CNV、SV或其他类型突变中的一种或多种，同时进行突变过滤确定可信体细胞突变，包括过滤掉胚系突变，背景噪音和/或根据位点深度和突变频率可信度较低的突变，5）对过滤后得到的肿瘤可信体细胞突变，进行主克隆突变/亚克隆突变的鉴定和/或新抗原预测；

步骤2，根据步骤1得到的肿瘤可信体细胞突变进行受试者个性化探针组的定制：1）个性化监测突变备选池确定，包括将热点突变直接纳入候选突变池作为备选突变，以及将非热点突变进行过滤后，纳入候选突变池作为备选突变；2）突变排序；和3）根据突变排序确定个性化监测位点，进行探针定制；

步骤3，基于选自如下的一种或者多种基因和/或突变设计癌种特异核心探针组：指南或专家共识级别的用药突变；具有明确临床价值，且有强生物标志物预测价值的非指南/非共识级的基因和突变；目标癌种中的驱动基因突变；目标癌种的热点及高频突变基因/区域；

步骤4，利用个性化探针组和/或癌种特异核心探针组和/或SNP探针对受试者的第二生物样本进行测序，获得测序数据，从而检测体细胞突变；

步骤5，使用针对循环肿瘤DNA的肿瘤特异性突变的判断方法来判断所述肿瘤特异性突变的状态：步骤4中获得的测序数据进行处理后，以肿瘤知情检测策略，获得个性化探针组中受试者肿瘤组织来源的突变结果，和/或以不依赖肿瘤信息的检测策略，获得癌种特异固定核心探针组中受试者非肿瘤组织来源的突变结果，并通过预先设置的突变阳性判断条件获得阳性突变；根据阳性突变的结果，满足预先设置的样本结果阳性判断条件则判定第二生物样本的肿瘤特异性突变状态为阳性，否则，则判定第二生物样本的肿瘤特异性突变状态为阴性。

2.根据权利要求1所述的方法，其特征在于，步骤2中所述的非热点突变的过滤包括：

剔除潜在克隆性造血突变、剔除较不可信突变或剔除影响探针捕获性能的突变中的一种或多种，所述剔除潜在克隆性造血突变包括剔除病例等位基因频率/对照等位基因频率\＜3的突变或克隆性造血数据库中注释的突变，所述克隆性造血数据库中注释的突变为人群正常白细胞中高发生率的CH突变；所述剔除较不可信突变包括剔除低质量突变、突变所在读段中的位置出现聚集性偏好的突变和/或人群背景数据库中的突变，人群背景数据库的突变过滤条件为：突变人群发生率＞10%，且突变病例等位基因频率＜5%；所述剔除影响探针捕获性能的突变为重复区域突变，或其对应个性化探针序列GC碱基含量≤20%或≥80%的突变，或其探针序列在人类基因中同源序列≥2的突变。

3.根据权利要求1所述的方法，其特征在于，步骤2中所述的突变排序包括对SNV，短插入缺失和SV中的一种或多种排序，所述SNV或短插入缺失排序根据驱动突变的突变频率、主克隆突变的突变频率、亚克隆突变的突变频率、新抗原预测值中的一种或多种进行排序；并且/或者SV突变排序包括对热点融合突变和非热点融合突变的突变频率进行排序。

4.根据权利要求3所述的方法，其特征在于，所述对SNV和短插入缺失排序的优先顺序为：≥5%的驱动突变、≥5%的主克隆突变、≥5%的亚克隆突变、＜5%的驱动突变、＜5%的主克隆突变、＜5%的亚克隆突变、新抗原预测值；并且其中每种突变按照突变频率由高到低进行排序，新抗原预测值按照从低到高进行排序。

5.根据权利要求3所述的方法，其特征在于，所述SV突变排序包括：

按照突变频率对热点融合突变由高到低排序；按照突变频率对非热点融合突变由高到低排序；其中热点融合突变排序优先于非热点融合突变。

6.根据权利要求1所述的方法，其特征在于，步骤2中所述的新抗原预测使用Pvac-Seq软件进行，其中，过滤条件为：最优的突变结合分数＜500，半数最大抑制浓度<500，肿瘤DNA测序深度>10，肿瘤变异等位基因频率> 0.05，对照变异等位基因频率<0.02，新抗原预测值的计算公式为：中位突变结合分数排名+野生与突变倍数变化中位数排名 +（突变型的变异等位基因频率/2），上述公式中计算出的新抗原预测值越低则新抗原和MHC分子预测的亲和力程度越高。

7.根据权利要求1所述的方法，其特征在于，步骤2中所述的个性化监测位点为根据突变排序筛选出的排序靠前的2-20个SNV和短插入缺失和/或全部的SV。

8.根据权利要求1所述的方法，其特征在于，步骤3中所述的基因和/或突变选择的优先顺序为：指南或专家共识级别的用药突变；具有明确临床价值，且有强生物标志物预测价值的非指南/非共识级的基因和突变；目标癌种中的驱动基因突变；目标癌种的高人群发生率的基因/区域。

9.根据权利要求8所述的方法，其特征在于，步骤3中所述癌种特异核心探针组基于下述基因设计：

肺癌核心探针基因：EGFR、ERBB2、MET、BRAF、KRAS、ALK、PIK3CA、TP53；

肠癌核心探针基因：BRAF、KRAS、NRAS、TP53、PIK3CA、APC；

乳腺癌核心探针基因：PIK3CA、AKT1、ESR1、ERBB2、TP53、PTEN、GATA3；

10.根据权利要求1所述的方法，其特征在于，对于步骤2所述的个性化监测位点，判断其是否在对应的癌种特异固定核心探针组的范围内：（1）如果个性化监测位点在癌种特异固定核心探针组范围内，则不需要定制；（2）如果个性化监测位点不在癌种特异固定核心探针组范围内，则需要定制。

11.根据权利要求1所述的方法，其特征在于，步骤5中所述的肿瘤组织来源的突变结果中，SNV/短插入缺失的突变检测中支持突变的读段可以分为三类：

DS：双向聚簇纠错读段，SS：单向聚簇纠错读段，Single：单向非聚簇纠错读段；其中，支持突变的有效读段需要满足如下条件：（1）比对质量不低于预设阈值h，（2）碱基质量不低于预设阈值i；（3）突变位置满足条件；（4）聚簇纠错过程中，支持突变的原始读段大于或等于该簇内读段总数的比例为j；（5）高于聚簇纠错背景阈值。

12.根据权利要求11所述的方法，其特征在于，所述的聚簇纠错背景阈值通过如下方法构建：

2）聚簇纠错背景阈值确定：a. 阳性读段集合：肿瘤细胞含量为0.1%的阳性标准品中支持目标突变的读段；b.阴性读段集合：阴性标准品中支持目标突变的读段；c.确定阈值条件：通过准确率-召回率曲线在阳性和阴性读段集合中确定聚簇纠错背景阈值。

13.根据权利要求1所述的方法，其特征在于，步骤5中所述的肿瘤组织来源的突变结果中，突变阳性的判断条件为：

（1）SNV/短插入缺失的突变阳性判断条件为：1）SNV和长度≤5个碱基对的短插入缺失，满足条件之一判定为阳性：a. 支持突变的双向聚簇纠错读段数不低于预设阈值k；b. 支持突变的单向聚簇纠错读段数 + 单向非聚簇纠错读段数不低于预设阈值m；2）长度>5个碱基对的短插入缺失，满足条件之一判定为阳性：a. 双向聚簇纠错读段数不低于预设阈值n；b.单向聚簇纠错读段数不低于预设阈值p；c. 单向非聚簇纠错读段数不低于预设阈值q；

（2）SV的突变阳性判断条件为：SR+DP不低于预设阈值r。

14.根据权利要求1所述的方法，其特征在于，步骤5中所述的非肿瘤组织来源的突变结果中，突变阳性判断条件为：（1）突变为热点突变；（2）SNV/短插入缺失支持突变的总读段数不低于预设阈值s。

15.根据权利要求1所述的方法，其特征在于，步骤5中所述的样本结果阳性判断条件为：肿瘤组织来源的突变结果和非肿瘤组织来源的突变结果中任意一项判定样本结果为阳性，则所述的第二生物样本的肿瘤特异性突变状态为阳性；当所述样本结果判定均为阴性时，则所述的第二生物样本的肿瘤特异性突变状态为阴性。

16.根据权利要求15所述的方法，其特征在于，肿瘤组织来源的突变结果中样本结果阳性的判断条件为：

（1）肿瘤组织来源的突变数目不高于预设阈值t时，阳性突变数量不低于预设阈值u，则样本肿瘤特异性突变状态判定为阳性；

（2）肿瘤组织来源的突变数目高于预设阈值t时，满足如下条件之一则样本结果判定为阳性： a）检出长度≥5个碱基对的短插入缺失；b）检出1个阳性突变且支持该突变的双向聚簇纠错读段数≥2；c）检出≥2个阳性突变且支持这些突变的总双向聚簇纠错读段数≥1；

（3）检出SV突变阳性，则样本结果判定为阳性。

17.根据权利要求15所述的方法，其特征在于，非肿瘤组织来源的突变结果中样本结果阳性的判断条件为：非肿瘤组织来源的突变结果中检出突变阳性则样本结果判定为阳性。

18.根据权利要求1所述的方法，其特征在于，所述第一生物样本选自原发肿瘤组织，或者患者血液；所述第二生物样本选自血液、血浆、胸/腹腔积液、腰椎或脑室脑脊液、唾液、尿液、肿瘤细胞和它们的处理物。

19.根据权利要求1所述的方法，其特征在于，所述的靶向捕获高通量测序采用大探针组合，所述的大探针组合选自与肿瘤发生发展相关的基因、与靶向用药相关的基因、免疫治疗相关的基因或者其组合；所述的大探针组合包含100-2000个基因。

20.用于检测受试者循环肿瘤DNA的肿瘤特异性突变的系统，所述系统包括：

（1）探针组确定模块；

（2）体细胞突变检测模块；和

（3）体细胞突变判断模块。

21.根据权利要求20的系统，其用于执行权利要求1-19中任一项所述的方法。

22.根据权利要求20的系统，所述系统用于检测微小残留病灶。

23.权利要求1-19中任一项所述的方法或权利要求20-22中任一项所述的系统在用于检测受试者循环肿瘤DNA的肿瘤特异性突变中的应用。

24.根据权利要求1-19中任一项所述的方法，或权利要求20-22中任一项所述的系统在确定受试者对疗法的应答；确定疾病的进展；预测受试者对未来治疗策略的应答；在治疗期间或治疗之后确定受试者疾病的存在；在疾病缓解之后、对治疗完全应答之后或诊断出无法检测疾病之后确定受试者中疾病的存在；在手术去除原发性肿瘤之后检测受试者的微小残留病灶；和/或在手术去除转移性肿瘤之后检测受试者的微小残留病灶中的应用。

25.一种存储介质，其记载了用于运行权利要求1-19中任一项所述的方法或权利要求20-22中任一项所述的系统或权利要求23-24中任一项所述的应用的程序。