CN109022553A

CN109022553A - 用于肿瘤突变负荷检测的基因芯片及其制备方法和装置

Info

Publication number: CN109022553A
Application number: CN201810712939.9A
Authority: CN
Inventors: 李淼; 王佳茜; 陈超; 张艳鹏; 高志博
Original assignee: Shenzhen Yulce Biological Technology Co Ltd
Current assignee: Yuze Medical Devices Jiangsu Co., Ltd.
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-18
Anticipated expiration: 2038-06-29
Also published as: CN109022553B

Abstract

本申请公开了一种用于肿瘤突变负荷检测的基因芯片及其制备方法和装置。本申请的基因芯片，其包含捕获811个基因的探针。本申请的基因芯片，根据肿瘤基因组数据库，设计了811个芯片捕获区域，通过对这811个芯片捕获区域进行特异性的捕获测序，能真实有效的反映人全基因组上肿瘤突变负荷的变化趋势，特别适用于中国人群肿瘤突变负荷分析。本申请的基因芯片能替代传统全外显子测序检测肿瘤突变负荷，缩小了测序数据量，减小了肿瘤突变负荷检测成本，缩短了检测周期，为肿瘤突变负荷临床检测提供了一种相对便宜，且快速、高效、准确的解决方案，本申请基因芯片及基于基因芯片的肿瘤突变负荷检测方法对免疫治疗用药具有显著的临床指导意义。

Description

用于肿瘤突变负荷检测的基因芯片及其制备方法和装置

技术领域

本申请涉及肿瘤突变负荷检测领域，特别是涉及一种用于肿瘤突变负荷检测的基因芯片及其制备方法和装置。

背景技术

肿瘤是由基因组变异引起的疾病。免疫检查点抑制剂开辟了肿瘤治疗的新时代，但由于缺乏合适的临床分子标志物，PD-1/PD-L1药物的受益人群无法被高效的筛选，只有20％-30％。肿瘤突变负荷(缩写TMB)是反应肿瘤细胞中总的基因突变程度的一个指标，通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。不同类型的肿瘤、同一种肿瘤中不同人群的TMB水平会不一样，并且在平均TMB水平比较高的肿瘤中，也并不是所有患者的TMB水平都比较高，不同肿瘤类别中存在高TMB水平的人群比例也都不一样；已有研究表明高TMB的水平能大概率预测肺癌、膀胱癌、黑色素瘤等肿瘤对免疫检查点抑制剂药物响应概率。鉴于TMB作为标志物在临床试验已取得一些良好的效果，已有国内外已有一些大型的公司或药企单独或合作进行TMB生物标志物的开发，研究将TMB纳入免疫检查点抑制剂药物临床试验的检测范围。

作为分子标志物，临床上有高效准确检测TMB的需求。目前市场上尚无此类成熟产品，研究方面通常采用全外显子组测序的方法分析检测TMB；但是，基于外显子组测序的TMB检测方法具有成本高、周期长的缺陷，不适合临床应用。因此，亟待开发相应的TMB高效检测方法。

发明内容

本申请的目的是提供一种新的用于肿瘤突变负荷检测的基因芯片及其制备方法和装置。

为了实现上述目的，本申请采用了以下技术方案：

本申请的第一方面公开了一种用于肿瘤突变负荷检测的基因芯片，该基因芯片包含捕获表1所示基因的探针，

表1

。

需要说明的是，本申请的基因芯片，其关键在于811个芯片捕获区域的设计，采用本申请的基因芯片作为肿瘤突变负荷检测的二代测序靶向捕获芯片，能够真实反映人全基因组上肿瘤突变负荷的变化趋势。相比于传统的全外显子测序检测肿瘤突变负荷，采用本申请的基因芯片进行捕获测序，大大缩小了测序数据量，从而减小了肿瘤突变负荷检测成本，缩短了检测周期，能够更好的满足临床快速、高效、准确检测TMB的使用需求。具体地，本申请的基因芯片的检测从两个维度上都有一定的优势：一个是从周期角度考虑，目前市场上全外显子检测方法的测序仪是illumina平台的×10测序仪或者NovaSeq测序仪，测序时间最快也要40h，测序完成后还要有至少4h的时间处理数据拆分，而本申请的基因芯片一般使用illumina平台的NextSeq550AR/500来测序，测序时间非常快，最长29小时即可完成测序工作，前期数据拆分只需要0.5h，所以在时间方面优势非常明显。另外一个是从成本角度考虑，在全外显子的测序深度是200×情况下，测序量要达到至少24G，而本申请的基因芯片检测一般的测序深度也同样是200×的条件下测序量是1.5G，测序量是全外显子测序量的1/16，大大节省了实验成本。

可以理解，本申请的关键在于811个芯片捕获区域的设计，在确定这些捕获区域后，具体的探针设计可以参考现有的基因芯片捕获探针设计方案，在此不累述。

优选地，本申请的基因芯片还设计有检测拷贝数变异的SNP位点的探针，其中，SNP位点为选自CancerGeneCensus基因列表的基因的SNP位点，且SNP位点不在表1所示基因的捕获区域内；SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。

优选的，本申请的基因芯片中，具体选择了5099个检测拷贝数变异的SNP位点用于探针设计。

优选的，基因芯片上还设计有检测SNP质控位点的探针，该SNP质控位点为根据CellLinesProject数据库设计的，中国人群中突变频率在0.4-0.6区间的SNP位点。

优选的，SNP质控位点包括rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

本申请的第二方面公开了本申请的基因芯片的制备方法，包括芯片捕获区域设计，具体包括以下步骤，

外显子突变概率统计步骤：包括1)统计COSMIC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pa；2)统计ICGC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pb；3)分别统计中国人群食管癌基因组数据、中国人群肺癌基因组数据和中国人群胃癌基因组数据中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pc；

外显子打分和初筛步骤：包括按照公式pa×0.3+pb×0.2+pc×0.5对每个外显子进行打分；此打分的分值代表外显子对肿瘤突变负荷变化的贡献程度，去除贡献程度为0的外显子，其余外显子作为候选外显子；

外显子加权分值计算步骤：包括根据Cancer Gene Census基因列表进行加权分值计算，具体包括，所有候选外显子中，属于Cancer Gene Census基因列表的外显子权重为1，不属于Cancer Gene Census基因列表的外显子权重为0.5，所有候选外显子的分值各自乘以其权重，即获得各外显子的加权分值；

外显子筛选步骤：包括对所有候选外显子进行筛选，

筛选公式为：

S＝∑(-0.5*s)+(1*x)+(1*r)

其中s为候选外显子的区域大小、x为外显子加权分值，r为所选区域肿瘤突变负荷结果与外显子的pearson相关系数；使用遗传算法对每组外显子组合进行评估，取其中得分最高的作为最终捕获区域。

需要说明的是，本申请的一种实现方式中外显子筛选步骤使用DEAP软件的遗传算法，DEAP软件包的筛选参数为：初始种群数量50、Lambda值400、突变概率0.5、交换概率0.4、迭代500代；用筛选公式计算出最终捕获区域。

还需要说明的是，本申请的基因芯片制备方法，其关键在于芯片捕获区域的设计，至于获得捕获区域后的后续工艺，例如捕获探针序列设计、芯片制备等可以参考现有的基因芯片制备方案，或由现有的芯片设计厂家设计定制。本申请的一个实施例中，基因芯片由美国的安捷伦科技有限公司设计定制。本申请基于肿瘤基因组数据库设计芯片捕获区域，并着重参考中国人群食管癌基因组数据、中国人群肺癌基因组数据和中国人群胃癌基因组数据，加重中国人群基因组数据的权重，使得最终获得的芯片捕获区域能够更真实有效的反映中国人群的人全基因组上肿瘤突变负荷的变化趋势。

优选地，本申请的制备方法还包括检测拷贝数变异SNP位点设计步骤，根据设计的拷贝数变异检测用SNP位点制备探针；其中，拷贝数变异检测用SNP位点选自Cancer GeneCensus基因列表的基因中的SNP位点，且SNP位点不在表1所示基因的捕获区域内，SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。

优选的，本申请的制备方法还包括SNP质控位点设计步骤，根据设计的SNP质控位点制备探针；SNP质控位点根据Cell Lines Project数据库设计，并选择中国人群中突变频率在0.4-0.6区间的SNP位点，根据PCR验证成功率排序，成功率由高到低的选取SNP位点，作为SNP质控位点。

本申请的第三方面公开了一种用于肿瘤突变负荷检测基因芯片设计的装置，该装置包括，

外显子突变概率统计模块：用于1)统计COSMIC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pa；2)统计ICGC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pb；3)分别统计中国人群食管癌基因组数据、中国人群肺癌基因组数据和中国人群胃癌基因组数据中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pc；

外显子打分和初筛模块：用于按照公式pa×0.3+pb×0.2+pc×0.5对每个外显子进行打分；此打分的分值代表外显子对肿瘤突变负荷变化的贡献程度，去除贡献程度为0的外显子，其余外显子作为候选外显子；

外显子加权分值计算模块：用于根据Cancer Gene Census基因列表进行加权分值计算，具体包括，所有候选外显子中，属于Cancer Gene Census基因列表的外显子权重为1，不属于Cancer Gene Census基因列表的外显子权重为0.5，所有候选外显子的分值各自乘以其权重，即获得各外显子的加权分值；

外显子筛选模块：用于对所有候选外显子进行筛选，筛选公式为：

S＝∑(-0.5*s)+(1*x)+(1*r)

本申请的一种实现方式中，基于DEAP软件包遗传算法的外显子筛选模块，其筛选参数为：初始种群数量50、Lambda值400、突变概率0.5、交换概率0.4、迭代500代；用筛选公式计算出最终捕获区域。

优选地，本申请用于肿瘤突变负荷检测基因芯片设计的装置还包括检测拷贝数变异SNP位点设计模块，用于根据设计的用于检测拷贝数变异的SNP位点制备探针，SNP位点选自Cancer Gene Census基因列表的基因中的SNP位点，且SNP位点不在表1所示基因的捕获区域内；SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。

优选的，本申请用于肿瘤突变负荷检测基因芯片设计的装置还包括SNP质控位点设计模块，用于根据设计的SNP质控位点制备探针；SNP质控位点根据Cell Lines Project数据库设计，并选择中国人群中突变频率在0.4-0.6区间的SNP位点，根据PCR验证成功率排序，成功率由高到低选取SNP位点，作为SNP质控位点。

本申请的第四方面公开了一种用于肿瘤突变负荷检测基因芯片设计的装置，该装置包括：存储器，用于存储程序；处理器，用于通过执行存储器存储的程序以实现本申请的基因芯片制备方法。

本申请的第五方面公开了一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现本申请的基因芯片制备方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请用于肿瘤突变负荷检测的基因芯片，根据肿瘤基因组数据库，特别是针对中国人群的肿瘤基因组数据库，设计了811个芯片捕获区域，通过对这811个芯片捕获区域进行特异性的捕获测序，能够真实有效的反映人全基因组上肿瘤突变负荷的变化趋势，特别适用于中国人群的肿瘤突变负荷分析。本申请的基因芯片能够替代传统的全外显子测序检测肿瘤突变负荷，大大缩小了测序数据量，从而减小了肿瘤突变负荷检测成本，缩短了检测周期，为肿瘤突变负荷的临床检测提供了一种相对便宜，且快速、高效、准确的解决方案，同时，本申请基因芯片及基于基因芯片的肿瘤突变负荷检测方法对免疫治疗用药具有显著的临床指导意义。

附图说明

图1是本申请实施例中用于肿瘤突变负荷检测的基因芯片的捕获区域设计流程框图；

图2是本申请实施例中用于肿瘤突变负荷检测基因芯片设计的装置的结构框图；

图3是本申请实施例中肺癌样本模拟的基因芯片捕获测序检测TMB与全外显子检测TMB的对比分析结果；

图4是本申请实施例中膀胱癌样本模拟的基因芯片捕获测序检测TMB与全外显子检测TMB的对比分析结果；

图5是本申请实施例中头颈鳞癌样本模拟的基因芯片捕获测序检测TMB与全外显子检测TMB的对比分析结果；

图6是本申请实施例中非小细胞肺癌样品采用基于基因芯片捕获测序检测TMB及TMB信息分析对免疫治疗的用药指导分析；

图7是本申请实施例中非小细胞肺癌患者接受免疫治疗后的生存曲线；

图8是本申请实施例中采用基于基因芯片捕获测序对44例进行免疫治疗临床试验的病人进行TMB检测及TMB信息分析对免疫治疗的用药指导分析。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

现有的肿瘤突变负荷检测方法，都是基于全外显子测序进行的。全外显子测序数据量大、成本高、周期长，这是临床应用难以有效推广的重要因素。为此，本申请创造性的提出，从肿瘤基因组数据库中筛选出具有代表性的811个芯片捕获区域，即表1所示的捕获区域，通过对这些区域进行捕获测序，能够替代全外显子测序，用于分析肿瘤突变负荷，这大大减小了测序数据量，减小了成本，缩短了检测周期，为TMB检测的临床应用奠定了坚实的基础。

另外，为了确保本申请的基因芯片能够更能真实有效的反映人全基因组上肿瘤突变负荷的变化趋势，本申请的改进方案中，还在基因芯片上设计了检测拷贝数变异的SNP位点的探针，这些探针是针对检测拷贝数变异的SNP位点设计的，而这些SNP位点选自CancerGene Census基因列表的基因中的SNP位点，且SNP位点不在表1所示基因的捕获区域内；SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。本申请的一种实现方式中，具体选择了5099个检测拷贝数变异的SNP位点用于探针设计。此外，为了确保检测的肿瘤与对照样本来自同一个人，本申请的基因芯片还进一步的设计了检测SNP质控位点的探针，这些SNP质控位点为根据Cell Lines Project数据库设计的，中国人群中突变频率在0.4-0.6区间的位点，并且，根据PCR验证成功率排序，成功率由高到低的选取SNP位点，作为SNP质控位点。本申请的一种实现方式中，具体选择了28个SNP位点作为SNP质控位点，即rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

为了保障芯片捕获区域能够真实准确的反映人全基因组上肿瘤突变负荷的变化趋势，本申请特别提供了本申请基因芯片的制备方法，包括芯片捕获区域设计，具体如图1所示，包括以下步骤：

外显子突变概率统计步骤101包括：

1)统计COSMIC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pa；

其中，COSMIC数据库参考文献S.A.Forbesetal.,“COSMIC:Exploring the world’s knowledge of somatic mutations in human cancer,”Nucleic Acids Res.,vol.43,no.D1,pp.D805–D811,Oct.2015。

2)统计ICGC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pb；

ICGC数据库的网址为：https://icgc.org/。

3)分别统计中国人群食管癌基因组数据、中国人群肺癌基因组数据和中国人群胃癌基因组数据中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pc；

其中，中国人群食管癌基因组数据参考文献Y.Songetal.,“Identification ofgenomic alterations in oesophageal squamous cell cancer,”Nature,vol.509,no.7498,pp.91–95,May2014.。中国人群肺癌基因组数据参考文献K.Wuetal.,“Frequentalterations in cytoskeleton remodelling genes in primary and metastatic lungadenocarcinomas.,”Nat.Commun.,vol.6,p.10131,Dec.2015.。中国人群胃癌基因组数据参考文献K.Chenetal.,“Mutational landscape of gastric adenocarcinoma inChinese:implications for prognosis and therapy.,”Proc.Natl.Acad.Sci.U.S.A.,vol.112,no.4,pp.1107–12,Jan.2015.。

外显子打分和初筛步骤102：包括按照公式pa×0.3+pb×0.2+pc×0.5对每个外显子进行打分，pa表示COSMIC数据库中统计的外显子出现突变碱基的概率，pb表示ICGC数据库中统计的外显子出现突变碱基的概率，pb表示中国人群食管癌基因组数据、中国人群肺癌基因组数据或中国人群胃癌基因组数据中统计的外显子出现突变碱基的概率；此打分的分值代表外显子对肿瘤突变负荷变化的贡献程度，去除贡献程度为0的外显子，其余外显子作为候选外显子；

外显子加权分值计算步骤103：包括根据Cancer Gene Census基因列表进行加权分值计算，具体包括，所有候选外显子中，属于Cancer Gene Census基因列表的外显子权重为1，不属于Cancer Gene Census基因列表的外显子权重为0.5，所有候选外显子的分值各自乘以其权重，即获得各外显子的加权分值；

外显子筛选步骤104：包括对所有候选外显子进行筛选，筛选公式为：

S＝∑(-0.5*s)+(1*x)+(1*r)

本申请的一种实现方式中，外显子筛选步骤由DEAP软件包完成，并根据设定的参数自动输出结果，具体的筛选参数为：初始种群数量50、Lambda值400、突变概率0.5、交换概率0.4、迭代500代；用筛选公式计算出最终捕获区域。

本申请进一步的改进方案中，基因芯片制备方法还包括检测拷贝数变异(CNV)SNP位点设计步骤105，根据设计的用于检测拷贝数变异的SNP位点制备探针；其中，用于检测拷贝数变异的SNP位点选自Cancer Gene Census基因列表的基因中的SNP位点，且SNP位点不在表1所示基因的捕获区域内，SNP位点的具体选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。本申请的一种实现方式中，具体选择了5099个检测拷贝数变异的SNP位点用于探针设计。

本申请的制备方法还包括SNP质控位点设计步骤106：包括根据设计的SNP质控位点制备探针；SNP质控位点根据Cell Lines Project数据库设计，并选择中国人群中突变频率在0.4-0.6区间的SNP位点，根据PCR验证成功率排序，成功率由高到低的选取SNP位点，作为SNP质控位点。

本申请的一种实现方式中具体选择了28个SNP位点，即rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290，作为SNP质控位点。

本领域技术人员可以理解，上述实施方式方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，如图2所示，本申请一实施例中，用于肿瘤突变负荷检测基因芯片设计的装置包括，外显子突变概率统计模块201、外显子打分和初筛模块202、外显子加权分值计算模块203、外显子筛选模块204、检测拷贝数变异SNP位点设计模块205和SNP质控位点设计模块206。

外显子突变概率统计模块201：用于1)统计COSMIC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pa；2)统计ICGC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pb；3)分别统计中国人群食管癌基因组数据、中国人群肺癌基因组数据和中国人群胃癌基因组数据中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pc。

外显子打分和初筛模块202：用于按照公式pa×0.3+pb×0.2+pc×0.5对每个外显子进行打分，pa表示COSMIC数据库中统计的外显子出现突变碱基的概率，pb表示ICGC数据库中统计的外显子出现突变碱基的概率，pb表示中国人群食管癌基因组数据、中国人群肺癌基因组数据或中国人群胃癌基因组数据中统计的外显子出现突变碱基的概率；此打分的分值代表外显子对肿瘤突变负荷变化的贡献程度，去除贡献程度为0的外显子，其余外显子作为候选外显子。

外显子加权分值计算模块203：用于根据Cancer Gene Census基因列表进行加权分值计算，具体包括，所有候选外显子中，属于Cancer Gene Census基因列表的外显子权重为1，不属于Cancer Gene Census基因列表的外显子权重为0.5，所有候选外显子的分值各自乘以其权重，即获得各外显子的加权分值。

外显子筛选模块204：用于对所有候选外显子进行筛选，筛选公式为：

S＝∑(-0.5*s)+(1*x)+(1*r)

检测拷贝数变异SNP位点设计模块205：用于根据设计的用于检测拷贝数变异的SNP位点设计探针；所述SNP位点选自Cancer Gene Census基因列表的基因中的SNP位点，且所述SNP位点不在表1所示基因的捕获区域内，SNP位点的具体选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。

SNP质控位点设计模块206：用于根据设计的SNP质控位点制备探针，SNP质控位点根据Cell Lines Project数据库设计，并选择中国人群中突变频率在0.4-0.6区间的SNP位点，根据PCR验证成功率排序，成功率由高到低选取SNP位点，作为SNP质控位点。

本申请另一实施例还提供一种用于肿瘤突变负荷检测基因芯片设计的装置，包括存储器，用于存储程序；处理器，用于通过执行存储器存储的程序以实现本申请的基因芯片制备方法，包括外显子突变概率统计步骤101、外显子打分和初筛步骤102、外显子加权分值计算步骤103、外显子筛选步骤104、检测拷贝数变异SNP位点设计步骤105和SNP质控位点设计步骤106。

本申请另一种实施例还提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现本申请的基因芯片制备方法，包括外显子突变概率统计步骤101、外显子打分和初筛步骤102、外显子加权分值计算步骤103、外显子筛选步骤104、检测拷贝数变异SNP位点设计步骤105和SNP质控位点设计步骤106。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例1

传统肿瘤突变负荷检测通常采用全外显子测序，具有成本高、周期长的缺点。为解决此问题，本例设计了一种靶向捕获芯片，只捕获特定基因序列并进行测序，有效降低了测序数据量，达到节省成本、缩短周期的目的。

该靶向捕获芯片的设计过程是：

1)根据COSMIC数据库收集的突变信息，统计每个基因的每个外显子上有多少个碱基发生突变，突变总数除以外显子总长度，得到每个外显子上出现突变碱基的概率。

2)根据ICGC数据库(https://icgc.org/)收集的样本数据，统计每个基因的每个外显子上有多少个样本发生突变，突变样本数除以总样本数，得到每个外显子上出现突变样本的概率。

3)根据中国人群食管癌、肺癌及胃癌基因组数据，统计每个基因的每个外显子上有多少个样本发生突变，突变样本数除以总样本数，得到每个外显子上出现突变样本的概率。

4)根据上述数据对每个外显子赋予分值，计算方法为：pa×0.3+pb×0.2+pc×0.5,其中pa、pb、pc分别为步骤1)、2)、3)计算的概率。此分值可代表外显子对肿瘤突变负荷变化的贡献程度。去除贡献程度为0的外显子后，其余外显子作为候选外显子进入下一步计算。

5)根据Cancer Gene Census基因列表总结的肿瘤相关重要基因对外显子分配权重，属于该基因列表的外显子权重为1，不属于该基因列表的外显子权重为0.5。外显子得分乘以权重得到加权分值。

6)使用遗传算法对外显子进行筛选：遗传算法使用DEAP软件包，参数设置如下：初始种群数量50，Lambda值400，突变概率0.5，交换概率0.4，迭代500代。筛选公式为：

S＝∑(-0.5*s)+(1*x)+(1*r)

其中s为候选外显子的区域大小、x为外显子加权分值，r为所选区域肿瘤突变负荷结果与外显子的pearson相关系数；使用遗传算法对每组外显子组合进行评估，取其中得分最高的作为最终捕获区域，即获得表1所示的811个捕获区域，用于基因芯片的探针设计。

7)对于Cancer Gene Census基因列表上所列基因中的SNP位点，若不在表1所示基因的捕获区域内，则挑选这部分SNP位点用于CNV检测。SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个。本实施例中，拷贝数变异检测用SNP位点为5099个。

8)添加SNP质控位点。该质控位点的选择方法为：根据Cell Lines Project数据库设计的质控位点，选择中国人群中突变频率在0.4-0.6区间的位点，根据PCR验证成功率排序，选择最高的28个SNP位点如下：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

使用TCGA数据库(https://cancergenome.nih.gov/)收集的230例肺癌样本进行测试。数据库中收录了样本的外显子范围内体细胞变异结果。根据芯片捕获区域筛选区域内突变，模拟采用本例的基因芯片捕获测序结果。比较两者的突变总数，如图3所示。图3中，横坐标为每个样本使用外显子测序检测到的突变总数，纵坐标为模拟基因芯片捕获检测到的突变总数，结果显示，Pearson相关系数R²＝0.957，说明二者存在较强的相关性。

另外，本例还使用TCGA数据库收集的131例膀胱癌和279例头颈鳞癌样本分别进行类似的测试，结果如图4和图5所示。图4是膀胱癌的对比分析结果，横坐标为每个样本使用外显子测序检测到的突变总数，纵坐标为模拟基因芯片捕获检测到的突变总数，结果显示，Pearson相关系数R²＝0.954，说明二者存在较强的相关性。图5为头颈鳞癌的对比分析结果，横坐标为每个样本使用外显子测序检测到的突变总数，纵坐标为模拟基因芯片捕获检测到的突变总数，结果显示，Pearson相关系数R²＝0.93，说明二者存在较强的相关性。

以上结果显示，采用本例的基因芯片进行捕获测序，能够替代传统的全外显子测序，能够真实反映肿瘤突变负荷。

实施例2

传统肿瘤基因组检测方法通常采用肿瘤单样本检测，研究中发现这种方法无法有效区分体细胞突变与生殖细胞突变。该缺陷对于常规靶向检测影响不大，但对于肿瘤突变负荷检测存在较大影响。为解决此问题，本例采用了配对检测的方式，同时检测肿瘤组织及对照样本，配合后续的分析方法得到体细胞突变。其中，对照样本为癌旁组织或外周血。

本例在实验方法上引入了测序序列纠错技术：目前主流二代测序方法使用150bpPaired End方法测序，产生2条150bp的reads。由于建库方式的特点，插入片段长度大约为180bp左右，这样产生的是2条有较长片段重合的PEreads，也即插入片段被测通。传统分析方法无法很好利用测通的reads，通常会采用缩短读长或增大插入片段长度的方法提高数据利用率。本例则利用2条重复测序的reads纠正测序错误导致的突变碱基，即仅当重合的2条reads在同一位置均出现突变时才认为突变真实存在。此方法有效利用了重复测序的数据，达到提高突变检测准确率的效果。本例的测序序列纠错技术参考专利申请“基于二代测序的点突变检测过滤方法、装置和存储介质”，申请号201711107001.6。

在实施例1的基因芯片基础上，为了保障TMB检测的准确性，本例进一步对测序结果的信息分析方法进行了设计，即提供了一种新的肿瘤突变负荷检测方法。本例的TMB检测方法包括下机数据处理步骤、数据过滤及质控步骤、序列比对及结果质控步骤、体细胞突变检测及结果过滤步骤、变异结果注释步骤、肿瘤纯度预测步骤、样本成对质控步骤、TMB预测步骤、TMB用药指导步骤等。上述检测方法通过自动化调度系统在生物信息分析集群上运行，稳定高效输出分析结果。

各步骤详细介绍如下：

a)下机数据处理：测序仪产生的通常为专用格式数据，需首先转化为通用的fastq文件格式。此外一张测序芯片上会混合多个样本，需要在分析之前将属于各个样本的数据拆分开来。本例使用bcl2fastq软件对下机数据进行处理，并针对常用的NextSeq 500测序仪进行了参数上的优化，主要优化包括：合并4条lane的数据统一进行处理，允许index错配数为1，达到提高数据利用率、简化后续处理的目的。数据处理完毕后经过质控程序质控，质控标准：总测序数据量>39G，各样本数据量与理论值差距<20％，Q30>80％，未拆分数据<5％，判断数据产出及质量是否出现异常，无异常则进入下一步骤。

2)数据过滤及质控：测序仪产出的数据除包含有效数据外，还包括测序接头序列、低质量序列及N碱基组成的序列，这些序列会干扰后续分析，需要去除。本发明使用cutadapt软件进行上述操作。过滤后的数据使用质控软件进行质控，符合以下标准的数据为合格数据：

去接头后的碱基数(Clean_Base)>2500Mb、碱基质量大于20的百分比(Q20)>95％、碱基质量大于30的百分比(Q30)>80％、GC>45％and<50％、GC-AT分离比(GC-AT_Seperation)<0.500％、N_Rate<0.100％、平均读长(Average_read_length)>120bpand<＝151bp、读长分布标准差(Read_length_stddev)<20.000、平均碱基质量(Average_base_quality)>32.000、可用数据比例(Clean_base_ratio)>80％。

c)序列比对及质控：序列比对采用bwamem算法进行，使用的参考基因组为GRCh37.73。比对结果直接进行去重合排序处理，不需生成临时文件，达到节省时间及空间的目的。比对结果使用质控软件进行质控，符合以下标准的数据为合格数据：

比对率(Mapping_rate)>99％、平均比对质量(Mapping_quality)>35、插入片段长度(Insert_size)<180bpand>120bp、重复片段比例(Duplication_rate)<30％、捕获效率(Capture_rate)>50％、目标区域测序深度(Depth_in_target)>500×、目标区域覆盖率(Target_coverage)>98％、大于500×测序深度区域所占比例(Target_500×)>70％、大于100×测序深度区域所占比例(Target_100×)>90％、大于10×测序深度区域所占比例(Target_10×)>90％。

d)体细胞变异检测及结果过滤：本方法对肿瘤组织和对照样本数据同时进行变异检测，发现体细胞突变。变异检测使用samtools及varscan软件进行，得到原始变异结果。变异检测原始结果中包含较多假阳性变异，需要进行过滤。本例的变异过滤算法，根据突变碱基的碱基质量值、比对质量值、reads上相对位置、突变频率、是否为热点突变等因素进行统计分析，最终确定真实突变。

其中，变异过滤算法详细参考专利申请“基于二代测序的点突变检测过滤方法、装置和存储介质”，申请号201711107001.6。具体的，过滤去除假阳性变异包括过滤去除未达到设定要求的点突变位点，或过滤去除未达到设定阈值的插入缺失(InDel)突变位点。

过滤去除未达到设定要求的点突变位点包括：

1)由附近上游的缺失导致的假阳性点突变；

2)由比对造成的与附近SNP位点互斥的假阳性突变；

3)由PCR扩增造成的假阳性突变；

4)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果；其中，突变支持数的设定阈值是3，位点覆盖深度的设定阈值是20；

5)待测样本中突变等位基因频率低于设定阈值的结果；以及，对照样本中对应的突变等位基因频率高于设定阈值的结果；其中，待测样本中突变等位基因频率的设定阈值根据泊松分布模型针对每个位点算出不同的阈值，对照样本中对应的突变等位基因频率的设定阈值是2％；

6)其他低质量或高质量碱基占比超过设定阈值的待检测位点，其中，低质量或高质量碱基包括非参考碱基和非突变碱基；设定阈值是40％；

7)重复区域的突变位点；

8)周围有插入缺失富集的突变位点；

9)周围比对不匹配超过设定阈值的突变位点；设定阈值是5，包括Fisher单边检验中支持突变的不匹配读段的比例显著高于支持参考碱基的不匹配读段的比例，检验P值小于0.05；

10)支持突变的碱基富集在读段末端或一条链方向；

11)使用秩和检验，支持突变的碱基质量值或比对质量值不显著高于设定阈值的结果；支持突变的碱基质量值和比对质量值的设定阈值是20，检验P值大于0.05；

12)使用Fisher单边检验，支持突变的软剪切读段的比例显著高于支持参考碱基的软剪切读段的比例；即检验P值小于0.05；

13)使用Fisher单边检验，待测样本的突变等位基因频率不显著高于对照样本的突变等位基因频率的结果，即检验P值大于0.05。

过滤去除未达到设定阈值的插入缺失突变位点包括：

1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变；

2)由PCR扩增造成的假阳性突变；

3)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果；例如，突变支持数低于3，位点覆盖深度低于20；

4)待测样本中突变等位基因频率低于设定阈值的结果；以及任选地，对照样本中对应的突变等位基因频率高于设定阈值的结果；例如，待测样本中VAF低于3％；对照样本中对应的VAF高于2％的InDel突变位点；

5)其他低质量或高质量碱基占比超过设定阈值的待检测位点，其中，所述低质量或高质量碱基包括非参考碱基和插入缺失突变；例如，低质量或高质量碱基占比高于40％的InDel突变位点；

6)在假阳性位点数据库中的突变位点；

7)周围有其他插入缺失富集的突变位点；

8)周围比对质量差，错配碱基数高于设定阈值的突变位点；使用Fisher单边检验，支持突变的错配读段比例显著高于支持参考碱基的错配读段比例；例如，mismatch大于5的InDel突变位点；使用Fisher单边检验，支持突变的mismatch reads比例显著高于支持参考碱基的mismatch reads比例，如Fisher检验P值小于0.05，的InDel突变位点；

9)支持突变的插入缺失富集在读段末端或某个链方向；

10)使用秩和检验，支持突变的比对质量值不显著高于设定阈值的结果；例如，质量值20，秩和检验P值大于0.05，的InDel突变位点；

11)使用Fisher单边检验，支持突变的软剪切读段比例显著高于支持参考碱基的软剪切读段比例；例如，Fisher检验P值小于0.05，的InDel突变位点；

12)使用Fisher单边检验，待测样本的等位基因突变频率不显著高于对照样本的等位基因突变频率；例如，待测样本的VAF不显著高于对照样本的VAF，如Fisher检验P值大于0.05，的InDel突变位点。

e)变异结果注释：本方法首先使用SnpEff注释软件对突变结果进行注释，得到基因名称、转录本编号及位置信息、HGVS突变编号等基本信息；随后使用ExAC数据库对中国人群突变频率进行注释，使用DBNSFP数据库对突变进行有害性预测和保守性预测，使用clinvar数据库对突变相关疾病信息进行注释。根据这些信息对突变性质进行判断，用于后续分析。

f)肿瘤纯度预测：肿瘤体细胞突变分为克隆突变及亚克隆突变，二者对突变负荷贡献不一。本方法使用ASCAT软件预测肿瘤纯度，并据此计算克隆突变数量。

关于肿瘤纯度预测参考专利申请“基于二代测序的肿瘤克隆变异检测方法、装置和存储介质”，申请号201810271836.3。具体如下：

基于二代测序的肿瘤克隆变异检测方法，包括以下步骤，

(1)肿瘤突变频率鉴定步骤，包括对成对的肿瘤和正常样本的测序结果的比对文件进行突变检测，获取突变的测序片段支持数、正常的测序片段支持数和总的测序片段支持数；并计算肿瘤突变频率，即突变的测序片段支持数除以总的测序片段支持数，获得肿瘤突变频率。其中，变异检测软件包括但不仅限于常规使用的MuTect、VarScan等变异检测软件。突变检测包括点突变、短片段的插入缺失和/或杂合性缺失，选取测序质量高的片段作为最终的统计结果。

因为二代测序的片段都是成对的，一对片段之间的插入片段区域如果较小，则两条片段都会覆盖到突变位置，这样的两条片段实际上为一条片段，因此需要矫正。因此，突变频率鉴定步骤中还包括矫正的步骤，矫正的步骤包括，若两条成对序列在重叠区域里碱基类型一致，则只保留区域里质量值较高的一条序列；若碱基类型不一致，并且其中一条序列质量高，另一条质量低，则保留质量高的序列，否则两条都舍弃。

(2)肿瘤样本纯度鉴定步骤，包括获取肿瘤和正常样本中的每个SNP位点两种碱基的测序片段支持数，将碱基频率小于或大于设定阈值的SNP位点定义为纯合位点，将剔除纯合位点的SNP的信息，转化为纯度检测软件的输入数据集，得到肿瘤样本纯度鉴定结果和拷贝数信息。

临床上估计肿瘤组织纯度的方法是取一点肿瘤组织放在显微镜下观察组织中明显是肿瘤细胞的比例。但是，由于测序样品与显微镜观察样品不是同一批样品，所以临床观察的纯度往往对信息分析的参考意义不大。

信息学上对纯度进行预测主要决定于两个因素，一个是碱基频率，另一个是拷贝数。有很大一部分癌症的基因组非常不稳定，会发生大量的拷贝数变异，甚至发生基因组加倍的现象，并且有很多研究找到了拷贝数变异与表达的关系，证实与癌症相关，所以估计纯度时的拷贝数因素不能忽略。

假设突变碱基的拷贝数为q，样品纯度是p，正常基因组的拷贝数为2，则碱基频率f具体采用公式(2)计算，

f＝p*q/(p*(q+1)+2*(1-p)) (2)

公式(2)中，f为碱基频率，q为突变碱基的拷贝数，p为肿瘤样本的纯度。

本例具体的，利用SNParray上的软件ASCAT，对成对样本进行纯度检测。ASCAT是应用在SNParray上的软件，能从SNP位点信息出发，预测拷贝数变异和纯度。由于二代测序技术的纯度预测工具还不成熟，很少有软件能够很好的预测肿瘤纯度。多项数据支持SNParray与二代测序技术找出来的拷贝数变异结果一致率较高，因此参考ASCAT的预测方法，将二代测的信号转成SNP array的信号。

本例选择突变位点tumor和正常位点normal中Germline突变位点，将碱基频率小于30％或大于70％的SNP位点定义为纯合位点，将踢掉纯合位点后的SNP作为数据集，处理成SNParray的类似形式。SNParray中，用LogR来表示位点总的信号强度，用BAF(即BAlleleFrequency)表示B碱基的频率，假设SNP位点有A、B两种碱基组成，则它们的关系表示如下面的公式(2-1)、公式(2-2)两个公式：

其中，i表示SNP位点，n_A,i表示i位点的A碱基的深度，n_B,i表i位点的B碱基的深度，D表示突变肿瘤的平均深度，BAF表示B碱基的频率。将上面两个转化的信号作为ASCAT的输入，进行纯度和拷贝数的检测。

(3)肿瘤拷贝数鉴定步骤，包括对经过纯度矫正的拷贝数信息及相应区域进行过滤筛选，并将小片段合并成大片段，对突变区域的拷贝数进行注释，获得肿瘤拷贝数鉴定结果。

本例采用ASCAT的结果对拷贝数进行片段化，并且给出区域片段化的绝对拷贝数，这些拷贝数信息已经经过纯度的矫正。对这些区域进行过滤筛选，对小片段进行合并成大片段，对突变区域的拷贝数进行注释。根据突变的样本纯度和拷贝数结果校正“(1)肿瘤突变频率鉴定步骤”获得的肿瘤突变频率。

(4)肿瘤突变频率校正步骤，包括根据肿瘤样本纯度鉴定步骤和肿瘤拷贝数鉴定步骤的结果，利用beta分布模型计算突变细胞在所测肿瘤组织中的比例，获得校正后的肿瘤突变频率。

根据肿瘤纯度以及拷贝数，就可以精确的量化突变在所测肿瘤组织中的比例(cancer cell fraction，缩写CCF)，判断突变发生是属于克隆性clonal还是亚克隆subclonal。本例采用的是beta分布模型。

本例计算突变细胞在所测肿瘤组织中的比例，具体采用公式(4-1)，

CCF的值从0～1，pdf(CCF,m)表示突变肿瘤细胞比例的密度分布函数，β_pdf表示beta密度分布函数，CCF表示突变细胞在所测肿瘤组织中的比例，α为纯度，q(m)表示肿瘤的拷贝数，alt(m)是突变的测序片段支持数，ref(m)是正常的测序片段支持数。于是可以得到概率最高的CCF值。

本例还考虑了杂合型缺失(LOH)的情况，在LOH情况下，CCF的计算可以用公式(4-2)。

取概率高的CCF作为结果。

(5)肿瘤克隆变异类型鉴定步骤，包括根据校正后的肿瘤突变频率判断突变类型的克隆属性，获得肿瘤克隆变异结果。

本例认为CCF>0.8的概率如果大于0.5就认为是clonal，反之，是subclonal；更为严谨的判断中，认为CCF＝1的概率大于0.5，判断是clonal，反之，是subclonal。

g)样本成对质控：为确保检测的肿瘤与对照样本来自同一个人，本方法在捕获芯片上设计了28个SNP质控位点，这些位点具有人群多态性，在不同人中表现为不同基因型，可用于成对质控。

h)TMB预测：确保突变结果检测无误后可进行TMB预测，得到每百万碱基的平均突变数量，TMB计算公式为：

TMB＝c/s

其中，s为捕获区域内达到高深度测序标准的外显子区域总大小，c为捕获区域内非同义突变且为克隆突变的数量。

i)TMB用药指导：本方法收集了国内外已上市及正在进行临床试验的免疫检验点抑制剂相关药物，建立解读知识库。解读知识库包含以下信息：1.FDA及CFDA批准的免疫检验点抑制剂适用情况；2.NCCN及ASCO达成共识的免疫检验点抑制剂适用情况；3.文献及临床试验发现的免疫检验点抑制剂适用情况。知识库根据上述原始信息总结出不同TMB水平对应的用药指导建议，并自动化输出报告供医生及患者参考。

本例对上述信息分析方法的验证如下：使用文献N.A.Rizvietal.,“Mutationallandscape determines sensitivity to PD-1 blockade in non-small cell lungcancer,”Science(80-.).,vol.348,no.6230,pp.124–128,Apr.2015.发表的34例非小细胞肺癌病例，采用实施例1的基因芯片的捕获区域，以及本例的信息分析方法，对原始数据进行分析，结果如图6所示。图6中，DCB代表免疫治疗有效，NDB代表免疫治疗无效，纵轴为各患者的TMB分布水平。图6的结果显示，免疫治疗有效及无效的患者TMB水平有明显差别p＝0.002。另外，本例还统计了患者接受免疫治疗后的生存曲线，如图7所示。图7中，横坐标为治疗后的时间，单位为“月”，纵坐标为患者无进展生存率。图7的结果显示，高TMB组与低TMB组的生存率有明显不同。

以上结果证明本例的分析方法得出的TMB结果可用于区分免疫治疗有效和无效患者，达到用药指导的目的。

基于以上研究和认识，本例进一步对中国人群的TMB进行了研究，并设计了肿瘤突变负荷解读数据库，具体如下：

国外已发表的肿瘤突变负荷相关文献通常使用欧美人群数据研究，与中国肿瘤患者人群突变特征不完全相符，不能直接用于指导。本例建立了中国肿瘤基因组突变数据库，具体包含的数据如下：

a)中国非小细胞肺癌患者基因组数据

b)中国肾细胞癌患者基因组数据

c)中国结直肠癌患者基因组数据

d)中国食管癌患者基因组数据

e)中国膀胱癌患者基因组数据

f)中国肝癌患者基因组数据

g)中国胃癌患者基因组数据

其中，中国非小细胞肺癌患者基因组数据参考K.Wu et al.,“Frequentalterations in cytoskeleton remodelling genes in primary and metastatic lungadenocarcinomas.,”Nat.Commun.,vol.6,p.10131,Dec.2015.

中国肾细胞癌患者基因组数据参考G.Guo et al.,“Frequent mutations ofgenes encoding ubiquitin-mediated proteolysis pathway components in clearcellrenal cell carcinoma,”Nat.Genet.,vol.44,no.1,pp.17–19,Jan.2012.

中国结直肠癌患者基因组数据参考J.Yuetal.,“Novel recurrently mutatedgenes and a prognostic mutation signature in colorectal cancer.,”Gut,vol.64,no.4,pp.636–45,Apr.2015.

中国食管癌患者基因组数据参考Y.Songetal.,“Identification of genomicalterations in oesophageal squamous cell cancer,”Nature,vol.509,no.7498,pp.91–95,May 2014.

中国膀胱癌患者基因组数据参考G.Guo et al.,“Whole-genome and whole-exome sequencing of bladder cancer identifies frequent alterations in genesinvolved in sister chromatid cohesion and segregation,”Nat.Genet.,vol.45,no.12,pp.1459–1463,Dec.2013.

中国肝癌患者基因组数据参考G.Guoetal.,“Frequent mutations of genesencoding ubiquitin-mediated proteolysis pathway components in clear cellrenal cell carcinoma,”Nat.Genet.,vol.44,no.1,pp.17–19,Jan.2012.

中国胃癌患者基因组数据参考K.Chenetal.,“Mutational landscape ofgastric adenocarcinoma in Chinese:implications for prognosis and therapy.,”Proc.Natl.Acad.Sci.U.S.A.,vol.112,no.4,pp.1107–12,Jan.2015.。

对以上数据使用本例的信息分析方法进行分析，得到每个样本的TMB数值。对上述数据按照4分位进行计算，得出TMB阈值划分：

TMB<2.5个/Mb时，评价为TMB-Low

TMB>＝2.5个/Mb且TMB<10个/Mb时，评价为TMB-Medium

TMB>＝10个/Mb时，评价为TMB-High

根据临床研究结果，当TMB为Low时，免疫检验点抑制剂效果不佳，此时建议采用靶向治疗或其他疗法；当TMB为High时，免疫检验点抑制剂效果较好，此时建议采用免疫治疗。

实施例3

临床应用，本例对44例进行免疫治疗临床试验的病人进行检测，结果如图8所示，图8中，DCB代表免疫治疗有效，NDB代表免疫治疗无效；采用实施例1的基因芯片检测和实施例2的分析后，建议用药者共18人，经治疗后有好转17人，无好转1人；不建议用药者共26人，经治疗后有好转3人，无好转23人。可见本申请的基因芯片和TMB检测建议用药的患者中94.4％的患者为治疗有效，而不建议用药的患者中88.5％的患者表现为治疗无效，Fisher检验两者存在显著差异(p<0.001)，说明本申请基因芯片及基于基因芯片的TMB检测方法对免疫治疗用药具有显著的临床指导意义。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

Claims

1.一种用于肿瘤突变负荷检测的基因芯片，其特征在于：所述基因芯片包含捕获表1所示基因的探针，

表1

2.根据权利要求1所述的基因芯片，其特征在于：所述基因芯片还包含检测拷贝数变异的SNP位点的探针，所述SNP位点为选自Cancer Gene Census基因列表的基因的SNP位点，且所述SNP位点不在表1所示基因的捕获区域内；所述SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。

3.根据权利要求1所述的基因芯片，其特征在于：所述基因芯片还包含检测SNP质控位点的探针，所述SNP质控位点为根据Cell Lines Project数据库设计的，中国人群中突变频率在0.4-0.6区间的位点。

4.根据权利要求3所述的基因芯片，其特征在于：所述SNP质控位点包括rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

5.根据权利要求1-4任一项所述基因芯片的制备方法，其特征在于：包括基因芯片的捕获区域设计，所述捕获区域设计包括以下步骤，

外显子筛选步骤：包括对所有候选外显子进行筛选，筛选公式为：

S＝∑(-0.5*s)+(1*x)+(1*r)

6.根据权利要求5所述的制备方法，其特征在于，还包括检测拷贝数变异SNP位点设计步骤，根据设计的用于检测拷贝数变异的SNP位点制备探针；所述用于检测拷贝数变异的SNP位点为选自Cancer Gene Census基因列表的基因的SNP位点，且所述SNP位点不在表1所示基因的捕获区域内，SNP位点的具体选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。

7.根据权利要求5所述的制备方法，其特征在于：还包括SNP质控位点设计步骤，根据设计的SNP质控位点制备探针；所述SNP质控位点根据Cell Lines Project数据库设计，并选择中国人群中突变频率在0.4-0.6区间的SNP位点，并且，根据PCR验证成功率排序，成功率由高到低的选取SNP位点，作为SNP质控位点。

8.根据权利要求7所述的制备方法，其特征在于：所述SNP质控位点包括rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

9.一种用于肿瘤突变负荷检测基因芯片设计的装置，其特征在于：所述装置包括，

S＝∑(-0.5*s)+(1*x)+(1*r)

10.根据权利要求9所述的装置，其特征在于：还包括检测拷贝数变异SNP位点设计模块，用于根据设计的用于检测拷贝数变异的SNP位点设计探针；所述SNP位点为选自CancerGene Census基因列表的基因的SNP位点，且所述SNP位点不在表1所示基因的捕获区域内；所述SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。

11.根据权利要求9所述的装置，其特征在于：还包括SNP质控位点设计模块，用于根据设计的SNP质控位点制备探针，SNP质控位点根据Cell Lines Project数据库设计，并选择中国人群中突变频率在0.4-0.6区间的SNP位点，根据PCR验证成功率排序，成功率由高到低选取SNP位点，作为SNP质控位点。

12.一种用于肿瘤突变负荷检测基因芯片设计的装置，其特征在于，所述装置包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求5至8中任一项所述的制备方法。

13.一种计算机可读存储介质，其特征在于：包括程序，所述程序能够被处理器执行以实现如权利要求5至8中任一项所述的制备方法。