CN113257349B - 选择用于分析肿瘤突变负荷的设计区间的方法及应用 - Google Patents

选择用于分析肿瘤突变负荷的设计区间的方法及应用 Download PDF

Info

Publication number
CN113257349B
CN113257349B CN202110645416.9A CN202110645416A CN113257349B CN 113257349 B CN113257349 B CN 113257349B CN 202110645416 A CN202110645416 A CN 202110645416A CN 113257349 B CN113257349 B CN 113257349B
Authority
CN
China
Prior art keywords
slrc
tmb
interval
length
design
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110645416.9A
Other languages
English (en)
Other versions
CN113257349A (zh
Inventor
郎继东
田埂
杨家亮
苏慧玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Geneis Beijing Co ltd
Original Assignee
Geneis Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Geneis Beijing Co ltd filed Critical Geneis Beijing Co ltd
Priority to CN202110645416.9A priority Critical patent/CN113257349B/zh
Publication of CN113257349A publication Critical patent/CN113257349A/zh
Application granted granted Critical
Publication of CN113257349B publication Critical patent/CN113257349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开选择用于分析肿瘤突变负荷的设计区间的方法及应用。本发明基于公共数据集合对数据进行优化处理,提出了选择能够有效模拟真实效果的设计区间,结合实际探针设计成本等因素,能够优化得到高性能的计算分析TMB的panel基因(外显子区域)的组合形式,不仅在性能上更优,同时大大降低了探针的设计成本及消耗,并且在实际临床应用中取得了较好的表现。

Description

选择用于分析肿瘤突变负荷的设计区间的方法及应用
技术领域
本发明涉及肿瘤突变负荷预测领域,具体地涉及选择用于分析肿瘤突变负荷的设计区间的方法,基于该方法设计探针组的方法以及由此得到的探针组和试剂盒。
背景技术
随着免疫治疗的研究进展在肿瘤治疗领域突飞猛进以及测序成本越来越低,运用二代测序技术预测分析肿瘤突变负荷(Tumor Mutation Burden, TMB)的需求越来越高。肿瘤突变负荷(TMB)一般指特定基因组区域内每兆碱基对(Mb)体细胞非同义突变的个数,可以间接反应肿瘤产生新抗原的能力和程度,已被证实可预测多种肿瘤的免疫治疗疗效。
从已经批准的适应症和关键临床研究提供的证据来看,TMB作为研究最多的生物标记物,其效果已在程序性死亡抑制因子-1(PD-1)蛋白及其配体(PD-L1)抗体用于治疗非小细胞肺癌及有错配修复缺失的结直肠癌等肿瘤研究中得到了证实,从而可以用于选择免疫肿瘤(Immuno Oncology,IO)药物治疗高获益人群。
目前国内外用来分析TMB的NGS产品多种多样,2017年底MSK和FMI的两个公司设计的大panel分别获得FDA批准;2018年国外公司百时美施贵宝的欧狄沃(CFDA:非小细胞肺癌)、科瑞达(CFDA:黑色素瘤和ALK阴性的非鳞状非小细胞肺癌)以及国内的公司君实的特瑞普利单抗(CFDA:黑色素瘤)、信达的信迪利单抗(CFDA:霍奇金淋巴瘤)以及恒瑞5月份刚获批的卡瑞丽珠单抗(CFDA:霍奇金淋巴瘤)先后上市,已然说明了TMB对作为PD-L1表达、MSI/dMMR 等之外的PD-1/PD-L1药物疗效的标志物之一受到了更高的重视。
在《中国癌症防治杂志》上发表的《肿瘤突变负荷检测及临床应用中国专家共识(2020年版)》中指出:“采用靶向测序panel进行TMB评估时,建议与WES评估的TMB进行一致性评价。靶向测序panel覆盖范围原则上不应<1.0Mb”。目前不少基因检测公司直接将MSK和FMI两家产品的基因取并集后再做简单的增添,推出500多个基因的大panel产品用来检测TMB,同时市面上也有的公司在已有的400-500个基因的panel产品上直接升级到800-1100个基因的panel。但这些panel的性能千差万别,结果互有矛盾,所以如何设计检测panel可以达到最优的TMB计算性能就是一个非常值得讨论且重要的问题。
背景技术中的信息仅仅在于说明本发明的总体背景,不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。
发明内容
为解决现有技术中的至少部分技术问题,本发明提供选择用于分析肿瘤突变负荷的设计区间的新思路。至少部分地基于此完成了本发明。具体地,本发明包括以下内容。
本发明的第一方面,提供一种选择用于分析肿瘤突变负荷的设计区间的方法,其一般包括以下步骤:
(a) 利用体细胞突变数据计算各癌种在不同样本的全外显子组测序中的WES-TMB数值;
(b) 以固定单位长度递加的规则在指定长度区间划分得到多个子长度区间,每个子长度区间对应不同的序列长度;
(c) 利用体细胞突变数据计算各癌种在不同样本的各子长度区间的Panel-TMB数值;
(d) 分别计算各子长度区间的Panel-TMB数值与WES-TMB数值的相关系数的平方值,并作出各子长度区间的分布图;和
(e) 定义TMB-H和TMB-L,选择各子长度区间中与WES-TMB拟合最好的结果,计算该结果下判定TMB-H及TMB-L的灵敏度、特异性和约登指数,将开始进入平台期且拟合系数为0.98以上时对应的子长度区间的大小作为设计区间的大小。
在某些实施方案中,根据本发明所述的选择用于分析肿瘤突变负荷的最优设计区间的方法,其中,所述体细胞突变数据包括非同义突变数据,优选进一步包括移码突变数据、stopgain突变数据、stoploss突变数据以及splicing突变数据。
在某些实施方案中,根据本发明所述的选择用于分析肿瘤突变负荷的设计区间的方法,其中,所述固定单位长度为0.1Mb,所述指定长度区间为0.1-2.0Mb。
在某些实施方案中,根据本发明所述的选择用于分析肿瘤突变负荷的设计区间的方法,其中,WES-TMB数值的计算公式为:WES-TMB=全外显子组体细胞突变个数/全外显子组区间大小;Panel-TMB数值的计算公式为:Panel-TMB=选择的子长度区间内体细胞突变个数/选择的子长度区间大小。
在某些实施方案中,根据本发明所述的选择用于分析肿瘤突变负荷的设计区间的方法,其中,当TMB大于20时,将其定义为TMB-H;当TMB为20以下时,将其定义为TMB-L。
在某些实施方案中,根据本发明所述的选择用于分析肿瘤突变负荷的设计区间的方法,其进一步包括(f) 按外显子长度从大到小的顺序选择所述指定长度区间内的多个外显子组成最优设计区间,其中所述多个外显子的总长度对应于选定的设计区间的大小。
本发明的第二方面,提供一种设计用于分析肿瘤突变负荷的探针组的方法,其包括第一方面所述的方法作为其步骤或基于第一方面得到的设计区间选择多个外显子组成靶区间。
在某些实施方案中,根据本发明设计用于分析肿瘤突变负荷的探针组的方法,所述探针组为针对外显子组的全覆盖探针组。
本发明的第三方面,提供一种用于分析肿瘤突变负荷的探针组,其由根据第二方面所述的方法得到。
在某些实施方案中,根据本发明的探针组,其靶区间由下述基因的外显子组成:ABCA13、ADAM20、ADCK5、ADGRG4、AFTPH、AHNAK、AHNAK2、AKAP12、AKAP6、AKAP9、ALMS1、AMER1、AMER3、ANK2、ANK3、ANKRD50、APC、APC2、APOB、ARHGAP30、ARHGAP31、ARHGAP35、ARID5B、ARMCX4、ASH1L、ASPM、ASXL1、ASXL3、ATAD5、BCL9、BNC2、BOP1、BRCA1、BRCA2、C10orf71、C2orf16、C2orf71、C6orf132、CARD6、CASP8AP2、CCDC168、CCNB3、CD248、CELSR2、CENPF、CEP250、CEP295、CHAMP1、CHGB、CIC、CIITA、CMYA5、CRYBG3、DCHS1、DCHS2、DDIAS、DDN、DHX30、DNAH3、DST、EHBP1L1、ELMO3、ERCC6L、EXPH5、EXTL3、F8、FAM135A、FAM208B、FAM83B、FAT1、FAT2、FAT3、FAT4、FIGNL1、FILIP1L、FLG、FLNA、FLRT2、FREM2、FREM3、FRMPD1、FSIP2、GLI2、GOLGA4、GOLGB1、GPATCH8、GPR179、GPRASP1、GPRIN3、GTF2H2C、GVINP1、HELZ2、HIVEP1、HIVEP2、HIVEP3、HPS6、HRNR、ICE1、IGFN1、IGSF10、INTS5、IRS1、ITIH6、KIAA0232、KIAA1161、KIAA1210、KIAA1551、KIAA1683、KIAA2022、KIAA2026、KIF26A、KLHDC7A、KLHDC7B、KLHL34、KMT2A、KMT2D、KNL1、LAMA5、LAMB2、LCOR、LCORL、LOC100128108、LOC441081、LOC647859、LOC653080、LRRC37A、LRRC37A2、LRRC37A3、LRRC37A4P、LRRC8D、MACF1、MAGEE1、MAGEL2、MALAT1、MAP10、MAP1A、MAP1B、MAP2、MAP3K19、MFHAS1、MMRN1、MMRN2、MN1、MROH1、MSH6、MTTP、MTUS1、MUC16、MUC4、MUM1L1、NAIP、NCAN、NCKAP5、NCOA6、NHSL2、NKTR、NPIPB11、NPIPB3、NPIPB4、NPIPB5、NT5DC2、NUMA1、NWD2、OPLAH、PCDH11X、PCDH11Y、PCDH12、PCDH17、PCDH19、PCDH7、PCDH9、PCDHAC2、PCDHB1、PCLO、PCNX3、PDZD2、PEG10、PEG3、PJA1、PKDREJ、PLCH1、PLCL2、PPL、PRAG1、PRDM11、PRR12、PRR14L、PRR36、PRRC2C、PRUNE2、PRX、PTCH2、PTPN23、PTPRZ1、QSER1、RAG1、RAI1、RANBP2、RB1CC1、RBP3、RECQL4、REV3L、REXO1L2P、RFX7、RGPD1、RGPD3、RGPD4、RGPD5、RIPOR1、RLF、RNF213、RP1、RSC1A1、RTN4、RUSC2、SACS、SALL2、SAMD9、SETX、SH3D21、SHANK2、SHROOM3、SHROOM4、SLC5A3、SLITRK1、SLITRK2、SLITRK4、SMCR8、SMN2、SON、SPATA31A1、SPATA31A3、SPATA31A5、SPATA31A6、SPATA31C2、SRRM2、STARD9、SYTL2、TACC2、TAS1R3、TBL3、TCF20、TCHHL1、TDRD15、TDRD6、TEX15、TLR4、TLR5、TLR7、TNNI3K、TNRC6C、TOPAZ1、TOPORS、TRIM56、TSHZ2、TSIX、TTI1、TTN、TULP4、UBA7、URGCP、USPL1、VCAN、WDCP、WDR87、XIRP1、XIRP2、XIST、YLPM1、ZBED4、ZBTB1、ZBTB21、ZDBF2、ZFHX2、ZFHX3、ZFHX4、ZHX1、ZHX3、ZNF292、ZNF407、ZNF423、ZNF462、ZNF469、ZNF507、ZNF518A、ZNF521、ZNF644、ZNF646和ZNF831。
在panel设计时,不同的设计方案对应着探针设计的成本消耗,如果没有更优的组合设计可能会对实际设计探针成本上造成巨大的消耗和浪费,即相同性能或性能差异不明显的条件下消耗了成倍的探针合成成本。本发明基于公共数据集合对数据进行优化处理,提出了选择能够有效模拟真实效果的设计区间,结合实际探针设计成本等因素,能够优化得到高性能的计算分析TMB的panel基因(外显子区域)的组合形式,不仅在性能上优于已获得授权批准或市场上较好公司的panel产品,同时大大降低了探针的设计成本及消耗,并且在实际临床应用中取得了较好的表现。
附图说明
图1随机抽取各个区间大小与WES的TMB数值拟合系数R2的分布图及TMB-H/L的灵敏度、特异性及约登指数的分布。
图2不同组合策略筛选条件下的灵敏度、特异性及约登指数的比较。其中,灵敏度、特异性及约登指数图中最上方的曲线分别对应于最大外显子为主向小选择,中间的曲线对应于随机选择,最下方的曲线对应于最小外显子为主向大选择。
图3最优选择Panel的各个癌种的分布图。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。除非另有说明,否则“%”为基于重量的百分数。
本发明中,术语“设计区间”是指在在分析肿瘤突变负荷时,探针(特别是全覆盖探针)所针对的序列区间或靶区间。设计区间包括区间大小和区间内的特定序列组成两部分内容。设计区间的选择是探针组设计以及后续应用的基础。
[选择用于分析肿瘤突变负荷的设计区间的方法]
本发明的第一方面,提供一种选择用于分析肿瘤突变负荷的设计区间的方法,本发明有时简单为本发明的选择方法,其一般包括以下步骤(a)-(e),可选地进一步包括步骤(f):
(a) 利用体细胞突变数据计算各癌种在不同样本的全外显子组测序中的WES-TMB数值;
(b) 以固定单位长度递加的规则在指定长度区间划分得到多个子长度区间,每个子长度区间对应不同的序列长度;
(c) 利用体细胞突变数据计算各癌种在不同样本的各子长度区间的Panel-TMB数值;
(d) 分别计算各子长度区间的Panel-TMB数值与WES-TMB数值的相关系数的平方值,并作出各子长度区间的分布图;和
(e) 定义TMB-H和TMB-L,选择各子长度区间中与WES-TMB拟合最好的结果,计算该结果下判定TMB-H及TMB-L的灵敏度、特异性和约登指数,将开始进入平台期且拟合系数为0.98以上时对应的子长度区间的大小作为设计区间的大小。
本领域技术人员应理解,只要能够实现本发明的目的,上述步骤的顺序并不特别限定,例如,所述步骤的顺序可以是(a)、(b)、(c)、(d)、(e);还可以是其他顺序等。此外,在不影响本发明目的的情况下,两个以上的上述步骤可合并同时进行。另外,本领域技术人员还应理解的是,在上述步骤前后,或这些任意步骤之间还可包含其他步骤或操作,例如进一步优化和/或改善本发明所述的方法。下面详细说明各步骤
步骤(a)
本发明的步骤(a)为得到参考或标准TMB数值的步骤,其包括利用体细胞突变数据计算各癌种在不同样本的全外显子组测序中的WES-TMB数值。
本发明中,体细胞突变数据是指与影响肿瘤突变负荷或其相关的任何突变,通常情况下,其主要包括非同义突变数据和/或移码突变数据,还可包括stopgain突变、stoploss突变及splicing突变等。本发明中,优选地,体细胞突变是指突变频率大于等于5%,例如8%以上、10%以上的突变。
本发明中,TMB数值的具体计算方法不特别限定,可使用本领域已知的任何方法。在某些示例性方法中,WES-TMB数值的计算公式为:WES-TMB=全外显子组体细胞突变个数/全外显子组区间大小。
步骤(b)
本发明的步骤(b)为划分用于模拟指定长度区间内TMB结果的多个子长度区间的步骤,其包括以固定单位长度递加的规则在指定长度区间划分得到多个子长度区间,每个子长度区间对应不同的序列长度。
本发明中,指定长度区间是指涵盖待分析外显子组例如全外显子组中全部序列长度的长度范围,单位一般为Mb。指定长度区间根据待分析外显子组不同而变化。在人类全外显子组的测序结果中,外显子的大小最小可至几十bp,最大的可达几千bp。指定长度区间可基于最小和最大长度而设定,例如可以设定为0.1Mb-2.0Mb。
本发明中,子长度区间是指根据特定要求在指定长度区间内划分或选择得到的不同的长度范围。例如可以按每个固定单位长度递增在指定长度区间内划分得到多外子长度区间。固定单位长度可以根据需要而自由设定,例如可以选择0.1Mb-0.5Mb内的任意长度作为固定单位长度。优选地,在0.1Mb-2.0Mb指定长度区间内以0.1Mb作为固定单位长度。
步骤(c)
本发明的步骤(c)是计算不同子长度区间的TMB数值的步骤,其包括利用体细胞突变数据计算各癌种在不同样本的各子长度区间的Panel-TMB数值。
本发明中,Panel-TMB数值的计算方法与WES-TMB数值计算方法类似也不特别限定,可使用本领域已知的任何方法。在某些示例性方法中,Panel-TMB数值的计算公式为:Panel-TMB=选择的子长度区间内体细胞突变个数/选择的子长度区间大小。
如上所述本发明中包括WES-TMB数值和Panel-TMB数值的两种计算。为了方便起见,本发明有时简称TMB数值的计算。需要说明的是,虽然对于TMB数值的计算方法不特定,但是在同一选择方法中,对于WES-TMB数值和Panel-TMB数值需利用相同的方法进行计算。
步骤(d)
本发明的步骤(d)为计算两种TMB数值之间的相关系数的步骤,其可包括分别计算各子长度区间的Panel-TMB数值与WES-TMB数值的相关系数的平方值,并作出各子长度区间的分布图。
本发明中,两种TMB数值之间的相关系数可用已知的任何方法计算。在示例性方法中,本发明利用Pearson积距法相关系数的平方值(R2)来评价两者之间的相关性。
步骤(e)
本发明的步骤(e)为根据评价指标选择最优子长度区间的步骤,其包括定义TMB-H和TMB-L,选择各子长度区间中与WES-TMB拟合最好的结果,计算该结果下判定TMB-H及TMB-L的灵敏度、特异性和约登指数,将开始进入平台期且拟合系数为0.98以上时对应的子长度区间的大小作为设计区间的大小。
本发明中,根据包含TMB高低的指标评价模拟效果。TMB高低计算可自由设定。例如可根据以下标准区分:当TMB大于20时,将其定义为TMB-H;当TMB为20以下时,将其定义为TMB-L。
步骤(f)
本发明的步骤(f)为可选或优选步骤,其用于确定设计区间内的序列组成。具体地,其可包括按外显子长度从大到小的顺序选择所述指定长度区间内的多个外显子组成所述设计区间。
本发明发现当区间大小确定后,不同的序列选择方式影响最终的设计效果。具体地,当与随机选择外显子组成选定大小的区间相比时,当按外显子长度排序后依次选择得到的设计区间具有更优的效果。特别是当按外显子从大到小的顺序依次选择时,组成的设计区间最优的效果。
[用于分析肿瘤突变负荷的探针组及其设计方法]
本发明的第二方面,提供一种设计用于分析肿瘤突变负荷的探针组的方法,本文有时简称为本发明的设计方法。其一般包括第一方面所述的方法作为其步骤或基于第一方面得到的设计区间选择多个外显子组成靶区间。
本领域已知,设计区间或靶区间的选择对探针组的设计而言是重要的。本发明中,只要包括第一方面所述的方法作为设计探针组的步骤或者基于第一方面得到的设计区间进行探针组设计,则都在本发明的范围内。本发明的设计方法不限定具体地设计方法或具体设计步骤。本领域已知不同的设计条件或设计软件会得到不同的探针组,但这些探针组均不实质上影响本发明的目的。因此,本领域已知的各种设计条件或软件等均在本发明的范围内。
本发明的第三方面,提供一种探针组,其为利用本发明的设计方法得到的用于分析肿瘤突变负荷的探针组。优选地,其为全外显子组全覆盖探针组。
实施例1
本实施例为选择分析肿瘤突变负荷(TMB)的最优设计区间的示例。具体地,其主要包括以下步骤如下:
1、下载ICGC网站上关于TCGA(Release 28)的体细胞突变的结果数据集(https://dcc.icgc.org/releases),共24个癌种,9517例样本;同时下载Agilentv6 Exome Target的商业试剂盒设计的全外显子长度区间作为参考进行模拟(https://earray.chem.agilent.com/suredesign/index.htm),该试剂盒全外显子WES的区间大小总计为60,700,153bp(约60Mb);
2、选择体细胞结果中非同义突变及移码突变等信息,计算各个癌种中各个样本的WES的TMB数值,计算公式为WES-TMB=全外显子组体细胞突变个数/全外显子组区间大小(Mb);
3、以0.1-2.0Mb的区间长度大小且以0.1Mb的单位递加的规则,在Agilent试剂盒的全外显子长度区间内进行随机抽取,并且每个区间长度大小随机抽取5次,共取得20个区间长度,每个区间长度的样本为5;
4、选择体细胞结果中非同义突变及移码突变等信息,计算各个癌种中各个样本的各个区间大小的TMB数值,计算公式为Panel-TMB=选择的区间内体细胞突变个数/选择的区间大小(Mb);
5、根据步骤2及步骤4的结果,分别计算各个区间大小中各随机抽取次数的TMB结果与WES的TMB结果Pearson积距法相关系数的平方值(R2),并作出各区间大小的分布图;
6、定义TMB>20为TMB-H,定义TMB<=20为TMB-L,选择随机选取5次的各区间大小中与WES-TMB拟合最好的结果,计算该结果下的判定TMB-H及TMB-L的灵敏度、特异性及约登指数,发现其在区间大小为0.9Mb的时候开始进入平台期且拟合系数为0.98,灵敏度为0.926及约登指数为0.922,均都达到了第一个>90%的性能峰值(如图1所示);
7、选择出最小的最优性能的panel区间大小为0.9Mb;由于Agilent试剂盒最小的全外显子大小是115bp,最大的全外显子大小是6,461bp,而一般RNA的捕获探针长度是120bp,考虑到探针在捕获目标区域的同时也会同等性能的捕获到该目标区域之外的部分区域,所以当由最小外显子为主开始取到0.9Mb大小区间时,需要约7,400多条探针;而当由最大外显子为主开始取到0.9Mb大小区间时理论上一定少于74,00条探针的,因为满足该区间大小的最小的外显子长度区间长度为1,908bp;
8、根据步骤3-7的方法,同样计算最小外显子为主向大选择以及最大外显子为主向下选择两种方案的0.1Mb-2.0Mb区间及特定0.9Mb区间大小下的灵敏度、特异性及约登指数的分布比较(如图2所示);
9、根据步骤7与步骤8的到的结论,最终以Agilentv6 ExomeTargetRNA探针全外试剂盒推断出的最优的计算分析TMB的组合形式为0.9Mb大小的涉及289个基因范围的345个全外显子长度区间组合,基因列表如下:
ABCA13、ADAM20、ADCK5、ADGRG4、AFTPH、AHNAK、AHNAK2、AKAP12、AKAP6、AKAP9、ALMS1、AMER1、AMER3、ANK2、ANK3、ANKRD50、APC、APC2、APOB、ARHGAP30、ARHGAP31、ARHGAP35、ARID5B、ARMCX4、ASH1L、ASPM、ASXL1、ASXL3、ATAD5、BCL9、BNC2、BOP1、BRCA1、BRCA2、C10orf71、C2orf16、C2orf71、C6orf132、CARD6、CASP8AP2、CCDC168、CCNB3、CD248、CELSR2、CENPF、CEP250、CEP295、CHAMP1、CHGB、CIC、CIITA、CMYA5、CRYBG3、DCHS1、DCHS2、DDIAS、DDN、DHX30、DNAH3、DST、EHBP1L1、ELMO3、ERCC6L、EXPH5、EXTL3、F8、FAM135A、FAM208B、FAM83B、FAT1、FAT2、FAT3、FAT4、FIGNL1、FILIP1L、FLG、FLNA、FLRT2、FREM2、FREM3、FRMPD1、FSIP2、GLI2、GOLGA4、GOLGB1、GPATCH8、GPR179、GPRASP1、GPRIN3、GTF2H2C、GVINP1、HELZ2、HIVEP1、HIVEP2、HIVEP3、HPS6、HRNR、ICE1、IGFN1、IGSF10、INTS5、IRS1、ITIH6、KIAA0232、KIAA1161、KIAA1210、KIAA1551、KIAA1683、KIAA2022、KIAA2026、KIF26A、KLHDC7A、KLHDC7B、KLHL34、KMT2A、KMT2D、KNL1、LAMA5、LAMB2、LCOR、LCORL、LOC100128108、LOC441081、LOC647859、LOC653080、LRRC37A、LRRC37A2、LRRC37A3、LRRC37A4P、LRRC8D、MACF1、MAGEE1、MAGEL2、MALAT1、MAP10、MAP1A、MAP1B、MAP2、MAP3K19、MFHAS1、MMRN1、MMRN2、MN1、MROH1、MSH6、MTTP、MTUS1、MUC16、MUC4、MUM1L1、NAIP、NCAN、NCKAP5、NCOA6、NHSL2、NKTR、NPIPB11、NPIPB3、NPIPB4、NPIPB5、NT5DC2、NUMA1、NWD2、OPLAH、PCDH11X、PCDH11Y、PCDH12、PCDH17、PCDH19、PCDH7、PCDH9、PCDHAC2、PCDHB1、PCLO、PCNX3、PDZD2、PEG10、PEG3、PJA1、PKDREJ、PLCH1、PLCL2、PPL、PRAG1、PRDM11、PRR12、PRR14L、PRR36、PRRC2C、PRUNE2、PRX、PTCH2、PTPN23、PTPRZ1、QSER1、RAG1、RAI1、RANBP2、RB1CC1、RBP3、RECQL4、REV3L、REXO1L2P、RFX7、RGPD1、RGPD3、RGPD4、RGPD5、RIPOR1、RLF、RNF213、RP1、RSC1A1、RTN4、RUSC2、SACS、SALL2、SAMD9、SETX、SH3D21、SHANK2、SHROOM3、SHROOM4、SLC5A3、SLITRK1、SLITRK2、SLITRK4、SMCR8、SMN2、SON、SPATA31A1、SPATA31A3、SPATA31A5、SPATA31A6、SPATA31C2、SRRM2、STARD9、SYTL2、TACC2、TAS1R3、TBL3、TCF20、TCHHL1、TDRD15、TDRD6、TEX15、TLR4、TLR5、TLR7、TNNI3K、TNRC6C、TOPAZ1、TOPORS、TRIM56、TSHZ2、TSIX、TTI1、TTN、TULP4、UBA7、URGCP、USPL1、VCAN、WDCP、WDR87、XIRP1、XIRP2、XIST、YLPM1、ZBED4、ZBTB1、ZBTB21、ZDBF2、ZFHX2、ZFHX3、ZFHX4、ZHX1、ZHX3、ZNF292、ZNF407、ZNF423、ZNF462、ZNF469、ZNF507、ZNF518A、ZNF521、ZNF644、ZNF646、ZNF831。
10、根据步骤9的结论作出各癌种的TMB分布图(如图3所示)。结论与已知的WES的癌种分布图一致,参见The future of cancer treatment: immunomodulation, CARs andcombination immunotherapy. Nat Rev Clin Oncol. 2016 Jun;13(6):394。
实施例2
本实施例为示例性探针组设计及结果验证例。具体如下:
1、对289个基因进行探针合成,目标区域大小为926,568bp,命名为Geneis-TMBpanel;
2、选择100个肺腺癌的使用福尔马林固定石蜡包埋处理的样本(Formalin-Fixedand Parrffin-Embedded, FFPE) 及其对应的白细胞样本,分别选择Guardant360、NCC-GP150、F1CDx、MSK0IMPACT以及Geneis-TMB的panel产品进行二代测序技术的建库及捕获测序;
3、将100个肺腺癌样本得到的测序数据进行比对、去重、体细胞突变检测及突变注释,统计各个样本满足:
1)非同义突变、移码突变、stopgain突变、stoploss突变及splicing突变;
2) 突变频率大于等于5%;
3) 单点测序深度>=100X且突变reads支持数>=2三个条件的体细胞突变个数;
4、根据公式:TMB=捕获区间内体细胞突变个数/捕获区间大小(0.926568Mb)计算出每个样本的TMB数值;
5、以WES的数据为“金标准”,分别计算各个panel产品与WES的拟合系数;定义TMB>20为TMB-H,定义TMB<=20为TMB-L,分别计算各个panel产品的灵敏度、特异性及约登指数(如表1所示)。
表1
Figure 746166DEST_PATH_IMAGE001
根据步骤5所示,Geneis-TMB与WES的TMB数据线性拟合度最高,且约登指数也是最大的,证明了该方法可行,结果目前最优。
尽管本发明已经参考示例性实施方案进行了描述,但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下,可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

Claims (9)

1.一种选择用于分析肿瘤突变负荷的设计区间的方法,其特征在于,包括选择设计区间大小的步骤和选择区间内序列组成的步骤,
所述选择设计区间大小的步骤包括以下(a)-(d):
(a) 利用体细胞突变数据计算各癌种在不同样本的全外显子组测序中的WES-TMB数值;
(b) 以固定单位长度递加的规则在指定长度区间划分得到多个子长度区间,每个子长度区间对应不同的序列长度,其中,所述指定长度区间是指涵盖待分析外显子组全部序列长度的长度范围;
(c) 利用体细胞突变数据计算各癌种在不同样本的各子长度区间的Panel-TMB数值;
(d) 分别计算各子长度区间的Panel-TMB数值与WES-TMB数值的相关性;和
(e) 定义TMB-H和TMB-L,选择各子长度区间中与WES-TMB拟合的结果,计算该结果下判定TMB-H及TMB-L的灵敏度、特异性和约登指数,将开始进入平台期且拟合系数为0.98以上时对应的子长度区间的大小作为设计区间的大小;
所述选择区间内序列组成的步骤包括以下(f):
(f) 按外显子长度从大到小的顺序选择所述指定长度区间内的多个外显子组成设计区间,其中所述多个外显子的总长度对应于选定的设计区间的大小。
2.根据权利要求1所述的选择用于分析肿瘤突变负荷的设计区间的方法,其特征在于,所述体细胞突变数据包括非同义突变数据。
3.根据权利要求1所述的选择用于分析肿瘤突变负荷的设计区间的方法,其特征在于,所述固定单位长度为0.1Mb,所述指定长度区间为0.1-2.0Mb。
4.根据权利要求1所述的选择用于分析肿瘤突变负荷的设计区间的方法,其特征在于,WES-TMB数值的计算公式为:WES-TMB=全外显子组体细胞突变个数/全外显子组区间大小;Panel-TMB数值的计算公式为:Panel-TMB=选择的子长度区间内体细胞突变个数/选择的子长度区间大小。
5.根据权利要求1所述的选择用于分析肿瘤突变负荷的设计区间的方法,其特征在于,当TMB大于20时,将其定义为TMB-H;当TMB为20以下时,将其定义为TMB-L。
6.根据权利要求1所述的选择用于分析肿瘤突变负荷的设计区间的方法,其特征在于,利用Pearson积距法相关系数的平方值来评价所述相关性。
7.一种设计用于分析肿瘤突变负荷的探针组的方法,其特征在于,包括根据权利要求1-6任一项所述的方法作为其步骤。
8.一种用于分析肿瘤突变负荷的探针组,其特征在于,由根据权利要求7所述的方法得到,所述探针组的靶区间由下述基因的外显子组成:ABCA13、ADAM20、ADCK5、ADGRG4、AFTPH、AHNAK、AHNAK2、AKAP12、AKAP6、AKAP9、ALMS1、AMER1、AMER3、ANK2、ANK3、ANKRD50、APC、APC2、APOB、ARHGAP30、ARHGAP31、ARHGAP35、ARID5B、ARMCX4、ASH1L、ASPM、ASXL1、ASXL3、ATAD5、BCL9、BNC2、BOP1、BRCA1、BRCA2、C10orf71、C2orf16、C2orf71、C6orf132、CARD6、CASP8AP2、CCDC168、CCNB3、CD248、CELSR2、CENPF、CEP250、CEP295、CHAMP1、CHGB、CIC、CIITA、CMYA5、CRYBG3、DCHS1、DCHS2、DDIAS、DDN、DHX30、DNAH3、DST、EHBP1L1、ELMO3、ERCC6L、EXPH5、EXTL3、F8、FAM135A、FAM208B、FAM83B、FAT1、FAT2、FAT3、FAT4、FIGNL1、FILIP1L、FLG、FLNA、FLRT2、FREM2、FREM3、FRMPD1、FSIP2、GLI2、GOLGA4、GOLGB1、GPATCH8、GPR179、GPRASP1、GPRIN3、GTF2H2C、GVINP1、HELZ2、HIVEP1、HIVEP2、HIVEP3、HPS6、HRNR、ICE1、IGFN1、IGSF10、INTS5、IRS1、ITIH6、KIAA0232、KIAA1161、KIAA1210、KIAA1551、KIAA1683、KIAA2022、KIAA2026、KIF26A、KLHDC7A、KLHDC7B、KLHL34、KMT2A、KMT2D、KNL1、LAMA5、LAMB2、LCOR、LCORL、LOC100128108、LOC441081、LOC647859、LOC653080、LRRC37A、LRRC37A2、LRRC37A3、LRRC37A4P、LRRC8D、MACF1、MAGEE1、MAGEL2、MALAT1、MAP10、MAP1A、MAP1B、MAP2、MAP3K19、MFHAS1、MMRN1、MMRN2、MN1、MROH1、MSH6、MTTP、MTUS1、MUC16、MUC4、MUM1L1、NAIP、NCAN、NCKAP5、NCOA6、NHSL2、NKTR、NPIPB11、NPIPB3、NPIPB4、NPIPB5、NT5DC2、NUMA1、NWD2、OPLAH、PCDH11X、PCDH11Y、PCDH12、PCDH17、PCDH19、PCDH7、PCDH9、PCDHAC2、PCDHB1、PCLO、PCNX3、PDZD2、PEG10、PEG3、PJA1、PKDREJ、PLCH1、PLCL2、PPL、PRAG1、PRDM11、PRR12、PRR14L、PRR36、PRRC2C、PRUNE2、PRX、PTCH2、PTPN23、PTPRZ1、QSER1、RAG1、RAI1、RANBP2、RB1CC1、RBP3、RECQL4、REV3L、REXO1L2P、RFX7、RGPD1、RGPD3、RGPD4、RGPD5、RIPOR1、RLF、RNF213、RP1、RSC1A1、RTN4、RUSC2、SACS、SALL2、SAMD9、SETX、SH3D21、SHANK2、SHROOM3、SHROOM4、SLC5A3、SLITRK1、SLITRK2、SLITRK4、SMCR8、SMN2、SON、SPATA31A1、SPATA31A3、SPATA31A5、SPATA31A6、SPATA31C2、SRRM2、STARD9、SYTL2、TACC2、TAS1R3、TBL3、TCF20、TCHHL1、TDRD15、TDRD6、TEX15、TLR4、TLR5、TLR7、TNNI3K、TNRC6C、TOPAZ1、TOPORS、TRIM56、TSHZ2、TSIX、TTI1、TTN、TULP4、UBA7、URGCP、USPL1、VCAN、WDCP、WDR87、XIRP1、XIRP2、XIST、YLPM1、ZBED4、ZBTB1、ZBTB21、ZDBF2、ZFHX2、ZFHX3、ZFHX4、ZHX1、ZHX3、ZNF292、ZNF407、ZNF423、ZNF462、ZNF469、ZNF507、ZNF518A、ZNF521、ZNF644、ZNF646和ZNF831。
9.一种用于分析肿瘤突变负荷的试剂盒,其特征在于,包含根据权利要求8所述的探针组。
CN202110645416.9A 2021-06-10 2021-06-10 选择用于分析肿瘤突变负荷的设计区间的方法及应用 Active CN113257349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110645416.9A CN113257349B (zh) 2021-06-10 2021-06-10 选择用于分析肿瘤突变负荷的设计区间的方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110645416.9A CN113257349B (zh) 2021-06-10 2021-06-10 选择用于分析肿瘤突变负荷的设计区间的方法及应用

Publications (2)

Publication Number Publication Date
CN113257349A CN113257349A (zh) 2021-08-13
CN113257349B true CN113257349B (zh) 2021-10-01

Family

ID=77187285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110645416.9A Active CN113257349B (zh) 2021-06-10 2021-06-10 选择用于分析肿瘤突变负荷的设计区间的方法及应用

Country Status (1)

Country Link
CN (1) CN113257349B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267410A (zh) * 2022-02-10 2022-04-01 领星生物科技(上海)有限公司 用于确定肿瘤突变负荷的状态的方法、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767811A (zh) * 2018-11-29 2019-05-17 北京优迅医学检验实验室有限公司 用于预测肿瘤突变负荷的线型模型的构建方法、预测肿瘤突变负荷的方法及装置
CN109880910A (zh) * 2019-04-25 2019-06-14 南京世和基因生物技术有限公司 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3423828A4 (en) * 2016-02-29 2019-11-13 Foundation Medicine, Inc. METHODS AND SYSTEMS FOR EVALUATING THE MUTATIONAL CHARGE OF A TUMOR
CA3038712A1 (en) * 2016-10-06 2018-04-12 Genentech, Inc. Therapeutic and diagnostic methods for cancer
CN109022553B (zh) * 2018-06-29 2019-10-25 裕策医疗器械江苏有限公司 用于肿瘤突变负荷检测的基因芯片及其制备方法和装置
CN109033749B (zh) * 2018-06-29 2020-01-14 裕策医疗器械江苏有限公司 一种肿瘤突变负荷检测方法、装置和存储介质
CN112029861B (zh) * 2020-09-07 2021-09-21 臻悦生物科技江苏有限公司 基于捕获测序技术的肿瘤突变负荷检测装置及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767811A (zh) * 2018-11-29 2019-05-17 北京优迅医学检验实验室有限公司 用于预测肿瘤突变负荷的线型模型的构建方法、预测肿瘤突变负荷的方法及装置
CN109880910A (zh) * 2019-04-25 2019-06-14 南京世和基因生物技术有限公司 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统

Also Published As

Publication number Publication date
CN113257349A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
JP7531217B2 (ja) 癌を査定および/または処置するためのセルフリーdna
Tan et al. Genomic alteration during metastasis of lung adenocarcinoma
Raddatz et al. Aging is associated with highly defined epigenetic changes in the human epidermis
Karasaki et al. Evolutionary characterization of lung adenocarcinoma morphology in TRACERx
CN116987790A (zh) 对肺腺癌亚型分型的方法
TWI670495B (zh) 一種鑑定樣本中腫瘤負荷的方法和系統
CN113257349B (zh) 选择用于分析肿瘤突变负荷的设计区间的方法及应用
CN113066585A (zh) 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法
Takahashi et al. Histologic subtyping in pathologic stage I-IIA lung adenocarcinoma provides risk-based stratification for surveillance
Fan et al. The mutational pattern of homologous recombination (HR)-associated genes and its relevance to the immunotherapeutic response in gastric cancer
Wang et al. A prognostic nomogram for lung adenocarcinoma based on immune-infiltrating Treg-related genes: from bench to bedside
Kogan et al. Impact of lower uterine segment involvement in type II endometrial cancer and the unique mutational profile of serous tumors
Li et al. Tumor mutation score is more powerful than tumor mutation burden in predicting response to immunotherapy in non-small cell lung cancer
CN110004229A (zh) 多基因作为egfr单克隆抗体类药物耐药标志物的应用
Xiao et al. Adaptive prediction model in prospective molecular signature–based clinical studies
Wang et al. Multi-region sequencing depicts intratumor heterogeneity and clonal evolution in cervical cancer
Madrid et al. Spectra of antinuclear antibodies in patients with squamous cell carcinoma of the lung and of the head and neck
KR20220133516A (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
CN116762132A (zh) 基于游离dna的疾病预测模型及其构建方法和应用
Liu et al. Identification of aneuploidy-related gene signature to predict survival in head and neck squamous cell carcinomas
CN115558716B (zh) 一种用于预测癌症的cfDNA片段特征组合、系统及应用
Zhou et al. The value of H2BC12 for predicting poor survival outcomes in patients with WHO grade II and III gliomas
WO2020137076A1 (ja) Parp阻害剤に対する癌の感受性の予測方法および相同組換修復不全を有する癌の検出方法
Emami et al. Tissue sources for accurate measurement of germline DNA genotypes in prostate cancer patients treated with radical prostatectomy
CN115662519B (zh) 一种基于机器学习预测癌症的cfDNA片段特征组合及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant