CN111118610A

CN111118610A - 用于基因突变高深度测序的基因芯片及其制备方法和应用

Info

Publication number: CN111118610A
Application number: CN201811287028.2A
Authority: CN
Inventors: 王春丽; 蔡宇航; 师妍; 杨颖�; 陈希; 刘军
Original assignee: Bgi Guangzhou Medical Laboratory Co ltd; Tianjin Bgi Medical Laboratory Co ltd; BGI Shenzhen Co Ltd
Current assignee: Bgi Guangzhou Medical Laboratory Co ltd; Tianjin Bgi Medical Laboratory Co ltd; BGI Shenzhen Co Ltd; BGI Genomics Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-08

Abstract

本申请公开了一种用于基因突变高深度测序的基因芯片及其制备方法和应用。本申请的基因芯片制备方法，包括根据不同的突变类型，结合基因突变在线数据库和本地数据库，构建捕获区间库；由捕获区间库设计基因芯片，提高捕获质量和效率，实现高深度测序；突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种；捕获区间库包括单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。本申请的基因芯片制备方法，能够最大程度的覆盖突变人群，最大程度的覆盖癌症及其相关基因，设计出更加适应于中国人群的基因芯片。本申请的基因芯片测序深度高，特别适用于血液中极其微量的循环DNA的检测。

Description

用于基因突变高深度测序的基因芯片及其制备方法和应用

技术领域

本申请涉及核酸测序领域，特别是涉及一种用于基因突变高深度测序的基因芯片及其制备方法和应用。

背景技术

肿瘤是严重威胁人类健康的疾病之一，而肿瘤具有高度的异质性，即不同部位肿瘤具有不同特征，即使同一部位的肿瘤，治疗效果也因人而异。为了提高临床肿瘤治疗的效果，考虑肿瘤个体的差异性和肿瘤细胞发展进化的特征，进行“因人因时”的肿瘤个体化治疗势在必行。随着癌症认知领域的发展和科学技术的进步，基因组测序技术逐渐进入到肿瘤临床应用，个体化的肿瘤基因检测已有很多惊人的成果出现。Science、Nature、theJournal of New England上刊登的多项研究成果也证明了个体化基因检测在临床治疗中的巨大前景。

基于高通量测序技术的全基因组、全外显子组或目标区域捕获测序能够比较全面的反应体细胞变异情况。众所周知，对于肿瘤患者，癌组织的获取总是相对困难的，尤其是对于一些晚期不适合手术的患者来说，如果能够从外周血中检测得到来自肿瘤细胞的变异，将会对癌症的临床治疗和监测带来巨大的变革。于是，近年来肿瘤患者血液中循环DNA的基因检测诊断已成为研究热点，研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤诊断标志物。

血液循环肿瘤DNA含量会随着肿瘤病情的发展以及转移性肿瘤的发生而产生变化，但整体上血浆循环肿瘤DNA的含量会较癌组织中获取到的DNA含量低很多，尤其是对于早期筛查以及预后监控的样本来说，含量会更低，这使得血浆循环DNA中的肿瘤标志物突变频率较癌组织频率低，这就需要对血浆循环DNA进行超高深度的测序，才能更准确的检出早期发生的肿瘤标志物。但是，对血浆循环DNA进行超高深度的测序，采用全基因组或者全外显子组测序将会大大提高成本。为了降低成本，亟需开发对微量血液循环DNA进行目标区域芯片捕获测序的方案。

发明内容

本申请的目的是提供一种新的用于基因突变高深度测序的基因芯片及其制备方法和应用。

本申请采用了以下技术方案：

本申请的一方面公开了一种用于基因突变高深度测序的基因芯片的制备方法，包括根据不同的突变类型，结合基因突变在线数据库和本地数据库的突变信息，构建捕获区间库；根据捕获区间库设计基因芯片，提高基因芯片的捕获质量和效率，实现高深度测序；突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种；捕获区间库根据不同的突变类型分为，单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。

本申请的基因芯片制备方法，提供了一种新的芯片设计算法，一方面，本申请的制备方法，综合考虑了不同突变类型对基因芯片设计的影响；另一方面，本申请的制备方法结合了基因突变在线数据库和本地数据库的突变信息，这对设计不同地区人群针对性的基因芯片具有重要意义，特别是目前基因突变大部分在线数据库都是针对西方人种的检测结果，因此，难以设计出更加适应于中国人群的基因芯片，而本申请的制备方法则很好的克服了该问题。

优选的，单核苷酸变异和插入缺失突变捕获区间库的构建具体包括以下步骤，

(1)统计cosmic数据库中所检测肿瘤的驱动基因的外显子区间的RI值，并将所有统计到的与所检测肿瘤相关的驱动基因的外显子区间，按照RI值降序排列；

RI值等于(n×1000)÷L，其中n为cosmic数据库中外显子区间的患者数目、L为外显子区间的序列长度；也就是说，n的值为该外显子区间相对应的患者数目，即在cosmic数据库中有多少个患者是在该外显子区间发生的单核苷酸变异或插入缺失突变；

(2)按照RI值降序排列后，以RI值最高的外显子区间，即第一个外显子区间，作为样本数据库，统计其它外显子区间与样本数据库的不同变异的个数，不同变异个数最多的作为第二个筛选外显子区间，将第二个筛选外显子区间加入到样本数据库中，继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数，不同变异个数最多的作为第三个筛选外显子区间，将第三个筛选外显子区间也加入到样本数据库中，采用相同的方法得到第四个筛选外显子区间，再将第四个筛选外显子区间加入到样本数据库中，以此类推，直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完，得到的样本数据库，即芯片区间；

(3)统计TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间，去除与cosmic数据库相同的驱动基因的外显子区间，以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间，根据步骤(2)最终得到的样本数据库，按照步骤(2)相同的筛选方法，对候选区间进行筛选，并将筛选的外显子区间加入到步骤(2)的样本数据库中；也就是说，统计候选区间与步骤(2)最终获得的样本数据库的不同变异的个数，不同变异个数最多的作为第一筛选外显子区间，将第一筛选外显子区间加入到样本数据库中，继续统计其它候选区间与加入第一筛选外显子区间后的样本数据库的不同变异的个数，不同变异个数最多的作为第二筛选外显子区间，将第二筛选外显子区间也加入到样本数据库中，采用相同的方法得到第三筛选外显子区间，再将第三筛选外显子区间加入到样本数据库中，以此类推，直至所有候选区间都被这样迭代筛选完，得到的样本数据库；其中，患者数目大于或等于5，即5个或以上的样本，这是为了保障所加入区间是容易检测出突变的区间，也就是说，是为了保障该区间的阳性检出率；比如一个区间上，如果都没有样本变异，那么将这个区间设计到芯片上，其意义也不会很大；

(4)统计步骤(3)最终得到的样本数据库中，只有一个SNV或INDEL变异的样本，作为单突变样本数据库；

(5)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间，去除已经被步骤(3)筛选入样本数据库的外显子区间，以RI≥30，包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间，筛选候选区间中去除单突变样本数据库后样本数减少最多的外显子区间，作为第一外显子区间；从候选区间中去除被筛选的第一外显子区间及其单突变样本；然后，采用同样的方法筛选第二外显子区间；以此类推，直至去除单突变样本数据库后样本数不再减少；被筛选到的所有外显子区间，都加入步骤(3)得到的样本数据库中；其中，被筛选到的所有外显子区间，就是指第一外显子区间、第二外显子区间，直至最终获得的去除单突变样本数据库后样本数不再减少的外显子区间，这些外显子区间的总和；

(6)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间，去除已经被步骤(3)和步骤(5)筛选入样本数据库的外显子区间，以RI≥20，包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间，按照步骤(5)的筛选方法，筛选外显子区间，并将其加入步骤(5)得到的样本数据库中；即得到初步的单核苷酸变异和插入缺失突变捕获区间库；其中，按照步骤(5)的筛选方法筛选外显子区间，具体是指，同样的，筛选候选区间中去除单突变样本数据库后样本数减少最多的外显子区间，作为第一外显子区间；从候选区间中去除被筛选的第一外显子区间及其单突变样本；然后，采用同样的方法筛选第二外显子区间；以此类推，直至去除单突变样本数据库后样本数不再减少；被筛选到的所有外显子区间，都加入步骤(5)得到的样本数据库中；其中，被筛选到的所有外显子区间，同样是指第一外显子区间、第二外显子区间，直至最终获得的去除单突变样本数据库后样本数不再减少的外显子区间，这些外显子区间的总和；

(7)统计本地数据库中的高频热点变异，将其中未被包含在步骤(6)得到的初步单核苷酸变异和插入缺失突变捕获区间库中的高频热点变异，沿其变异位点前后各延伸50bp的区间，加入到步骤(6)得到的样本数据库中，得到最终的单核苷酸变异和插入缺失突变捕获区间库。

需要说明的是，在单核苷酸变异和插入缺失突变捕获区间库构建方法的步骤(2)之后，理论上来说，在经过步骤(1)和步骤(2)这两个步骤以后，理论上可以完成所有驱动基因区域的筛选；但是为了避免遗漏，需要进一步查看，是否存在某个驱动基因在步骤(1)和步骤(2)的筛选过程中都没有被筛选到任何外显子区域；如果存在这种情况，则需要把该驱动基因的所有外显子区域都添加到芯片区间中；这样做的目的是，防止某个长度较短，或者是发生突变频率不高的重要基因被遗漏。因此，在本申请优选的方案中，在步骤(2)之后，在步骤(3)之前，还包括将没有筛选到任何区间的基因的所有区间都加到芯片区间上。

优选的，拷贝数突变捕获区间库由杂合SNP位点前后各延伸100bp得到的捕获区间组成，杂合SNP位点筛选自拷贝数突变相关的基因及其外显子区间；杂合SNP位点采用以下方法筛选获得：

(1)统计现有的拷贝数突变的基因列表，提取所有关于拷贝数突变的基因序列，及其外显子区间；

(2)提取SNP千人数据库中，步骤(1)所提取的基因序列的杂合SNP位点，并将所提取的SNP位点按变异人数降序排列；可以理解，将SNP位点按照其对应的变异人数降序排列，目的是为了尽可能的选取突变人数较多的高频SNP位点；

(3)筛选变异人数大于或等于100的高频杂合SNP位点，选取包含至少4至N个高频杂合SNP位点的基因序列，以所选取的基因序列为分析对象，步长1000bp，筛选每个基因序列的杂合SNP位点，杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库；其中，N的取值为所选基因序列长度的1/400，例如基因序列的长度为10K，则N值为25，即选取最多具有25个高频杂合SNP位点的基因序列；

(4)筛选变异人数大于或等于50的高频杂合SNP位点，选取包含至少2至M个高频杂合SNP位点的外显子区间，以所选取的外显子区间为分析对象，步长1000bp，筛选每个外显子区间的杂合SNP位点，杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库；其中，M的取值为所选外显子区间长度的1/500，例如外显子区间的长度为10K，则N值为20，即选取最多具有20个高频杂合SNP位点的外显子区间。

需要说明的是，步长1000bp进行筛选是指在所选基因序列或外显子区间中，每1000bp筛选一个符合条件的杂合SNP位点；可以理解，因为最终可能对芯片的最终区域大小有要求，所以对于前面选取好的SNP位点，需要再根据实际的要求，选择适当的步长进一步筛选。

优选的，结构变异捕获区间库的构建具体包括以下步骤，

(1)统计现有的关于热点融合基因的热点断点，将热点断点前后各延伸100bp作为捕获区间；

(2)统计本地数据库中，用药相关的融合基因的阳性融合热点断点，将热点断点前后各延伸100bp作为捕获区间；本地数据库的用药相关融合基因的阳性融合热点断点如表1所示

表1

(3)统计本地数据库中，高频的融合基因热点断点，将热点断点前后各延伸100bp作为捕获区间；本地数据库的高频的融合基因热点断点如表2所示，

表2

将步骤(1)、(2)和(3)的捕获区间合并，即得到结构变异捕获区间库。

优选的，本申请的制备方法还包括在基因芯片中设计至少21个质控位点，每个质控位点前后各延伸50bp获得的序列作为杂交阳性质控品。

优选的，本申请的制备方法还包括对设计的基因芯片进行初步评估，初步评估包括，分析基因芯片中各探针的GC含量、捕获区间长度、探针对数据库中突变人群的覆盖情况。

优选的，各探针的GC含量为40％-60％，捕获区间长度不低于100bp；并且要求探针的捕获区间在数据库中的突变人数不为0，否则删除该探针。

需要说明的是，通常情况下，本申请的基因芯片要求各个芯片区间的GC含量在40％-60％之间；要求每个捕获区间的长度不低于100bp，对于长度小于100bp的区间，需要将其左右延伸至100bp；同时，需要核查每个捕获区间上，数据库中的突变人数，删除无突变发生的区间。

优选的，本申请的制备方法还包括对初步评估合格的基因芯片进行验证测试，验证测试包括，合成一批或两批所设计的基因芯片，采用模拟样本，对基因芯片进行检测，评估基因芯片的测序深度、捕获效率、dup率、比对率、覆盖度、变异检测下限、灵敏度、特异性。

其中，dup率是指Duplication rate，也就是捕获区间上，去重以后的reads数/捕获区间上所有的reads数的比值，即dup率＝去重以后的reads数÷捕获区间上所有的reads数；比对率是指测序过程中，比对到基因组上的reads数÷总的reads数；覆盖度指的是样本的深度覆盖情况，即捕获区间上，样本的整体覆盖情况，如100×的覆盖度为99％，表示在整个捕获区间上，深度>100×的碱基占所有碱基的99％；变异检测下限是指最低检测频率，比如检测0.5％的SNV；灵敏度是指真阳性率，即检出的阳性÷实际的阳性；特异性是指真阴性率，即检出的阴性÷实际的阴性。

本申请的另一面公开了本申请的制备方法制备的基因芯片。

本申请的再一面公开了本申请的基因芯片在循环DNA检测中的应用。

本申请的再一面公开了本申请的基因芯片在制备癌症检测或预后监控的试剂盒或装置中的应用。

需要说明的是，本申请的基因芯片及其制备方法，主要就是针对像循环DNA这样含量极低的样品检测而研发设计的，因此特别适用于循环DNA检测。而癌症的检测或监控，目前的研究热点就是循环肿瘤DNA的检测，但是，由于循环肿瘤DNA的含量极低，尤其是对于早期筛查或预后监控的样本来说，含量会更低；而本申请的高深度测序基因芯片能够对循环DNA进行高深度测序，准确的检出极其微量的循环肿瘤DNA，因此，可以用于癌症检测或预后监控。

本申请的有益效果在于：

本申请的基因芯片制备方法，根据不同的突变类型构建与之适应的捕获区间库，进而设计适用于不同突变类型检测的基因芯片，使得基因芯片能够最大程度的覆盖突变人群；并且，本申请的制备方法结合基因突变在线数据库和本地数据库，使得基因芯片能够最大程度的覆盖癌症及其相关基因，设计出更加适应于中国人群的基因芯片。本申请的基因芯片测序深度高，特别适用于血液中极其微量的循环DNA的检测。

具体实施方式

本申请用于基因突变高深度测序的基因芯片的制备方法，实际上提供了一种新的基因芯片设计的方案；而目前国内外关于基因芯片设计方法的文献报道都很少，相关文献的观点基本上都是结合相关的数据库，如TCGA、ICGC、COSMIC等数据库，在基因芯片设计的过程中，使得突变人群的覆盖度达到的最大化。现有方法的不足是：(1)没有考虑不同突变类型对于基因芯片的影响，这些突变类型包括单核苷酸变异(缩写SNV)、插入缺失突变(缩写INDEL)、拷贝数突变(缩写CNV)、结构变异(缩写SV)，事实上，不同的突变类型，在基因芯片设计过程中所考察的因素是不一样的，比如对于CNV，即拷贝数突变，在芯片的设计过程中，要考虑多设计进一些杂合SNV位点，这样，有助于辅助判断样本是否真正发生了CNV，这是现有方法中没有涉及的。(2)在基因芯片的设计过程中，只是单纯的考虑TCGA、ICGC、COSMIC等在线数据库；实际上，不同地区的人群突变频率是不同的，甚至突变的热点基因的排列顺序也会不一样；因此，现有的方法不能设计出特别针对某一地区人群突变检测的基因芯片，容易发生漏检。(3)在基因芯片设计过程中，忽略了非编码区的作用，事实上，有些非编码区对突变检出会起到很大的作用，尤其是对SV的检测。(4)在芯片设计完成后，没有对芯片做出初步的评估。

本申请的用于基因突变高深度测序的基因芯片的制备方法，正是针对以上4点进行了补充优化，使得制备的基因芯片能够满足产品的个性化分析需求。具体优化如下：

(1)本申请的制备方法，根据不同的突变类型构建与之适应的捕获区间库，进而设计出与不同突变类型相适应的基因芯片，比如，对于CNV的热点基因，本申请加入了这些热点基因的杂合SNV位点，当然，杂合SNV位点个数的选取与基因的大小有关，每个基因选取适当的杂合SNV位点数，最终的捕获区间库为上述几种区间的并集，从而保障了对CNV的检测。

(2)本申请的制备方法，不仅考虑了产品的个性化需求，还综合考虑了TCGA、ICGC、COSMIC等数据库，使得基因芯片最大程度了覆盖了高发癌症的相关Driver Gene、高频突变基因、高频突变位点、癌症相关12条信号通路中重要基因、靶向药物及化疗药物敏感和耐药相关基因等。与此同时，还结合已有的临床数据，将本地数据库的突变信息加入基因芯片设计中，从而设计出更加适应于中国人群的基因芯片。

(3)本申请的制备方法，在进一步的改进方案中，不仅考虑了相关基因的编码区，也考虑了非编码区，尤其考虑了SV的热点基因的非编码区。常见的比如：ROS1基因的32,33,34,35号内含子，RET的9,10,11号内含子等。

(4)本申请的制备方法，在进一步的改进方案中，还包括对所设计的基因芯片进行初步评估，考察其GC含量，捕获区间长度，数据库中突变人群的覆盖情况等；进一步的，还包括用阳性样本、标准品或模拟样本，评估芯片的基本QC情况和变异检出情况，基本QC情况的评估包括测序深度、捕获效率、dup率、比对率和覆盖度等的评估，变异检出情况的评估包括检测下限、灵敏度、特异性等的评估。

下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例

本例的基因突变高深度测序基因芯片的制备方法，包括根据单核苷酸变异、插入缺失突变、拷贝数突变和结构变异等不同的突变类型，结合基因突变在线数据库和本地数据库的突变信息，构建捕获区间库；根据捕获区间库设计基因芯片，提高基因芯片的捕获质量和效率，实现高深度测序。其中捕获区间库根据不同的突变类型分为，单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。本例采用不同的样本分别对插入缺失突变捕获区间库的构建、拷贝数突变捕获区间库的构建，以及结构变异捕获区间库的构建进行了详细解释。具体如下：

一、插入缺失突变捕获区间库的构建

本例以肺癌小芯片SNV/INDEL相关的基因芯片区间设计过程为例，对插入缺失突变捕获区间库的构建进行详细说明，具体的SNV/INDEL相关基因的芯片设计方法如下：

第一步：由cosmic数据库得到driver gene的芯片区间

1、统计cosmic数据库中相关癌种的driver gene的每个外显子区间的变异样本数、变异样本、RI值以及所有的样本个数，并将其根据RI值降序排列。其中，相关癌种可以涉及多个癌种，也可以是某个具体癌种的个体化芯片。

RI值等于(n×1000)÷L，其中n为cosmic数据库中外显子区间的患者数目，L为外显子区间的序列长度。

本例具体对肺癌进行了统计，部分结果如表3所示。

表3肺癌小芯片的驱动基因列表

KRAS	NRAS	KEAP1	JAK2	RET
					EGFR	STK11	ALK	ERBB4	NOTCH1
TP53	NFE2L2	RB1	KIT	ROS1
					BRAF	CTNNB1	PDGFRA	SMAD4	FGFR3
PIK3CA	MET	KDR	FGFR2	FGFR4
					ERBB2	PTEN	FBXW7	DDR2	JAK3
CDKN2A	AKT1	HRAS	ATM	APC

按照RI值降序排列，其部分结果如表4所示。

表4肺癌小芯片的驱动基因RI值降序排列结果

2、迭代，得到cosmic数据库中driver gene的芯片区间。

以RI值最高的外显子区间，即第一个外显子区间，作为样本数据库，统计其它外显子区间与所述样本数据库的不同变异的个数，不同变异个数最多的作为第二个筛选外显子区间，将第二个筛选外显子区间加入到所述样本数据库中，继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数，不同变异个数最多的作为第三个筛选外显子区间，将第三个筛选外显子区间也加入到所述样本数据库中，采用相同的方法得到第四个筛选外显子区间，再将第四个筛选外显子区间加入到所述样本数据库中，以此类推，直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完，得到的样本数据库，即芯片区间。

本例对肺癌驱动基因筛选的部分结果如表5所示。

表5肺癌驱动基因迭代获得的driver gene芯片区间

对于没有筛选到任何区间的基因，为了避免遗漏，还需要将没有筛选到任何区间的基因所有区间都加到芯片区间上。但是，对于本例来说，本例的肺癌没有需要补充的驱动基因，所有的基因都筛选到了相应的区间。

第二步：TCGA和ICGC数据库覆盖度最大

统计TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间，去除与cosmic数据库相同的驱动基因的外显子区间，以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间，统计候选区间与步骤“2、迭代，得到cosmic数据库中driver gene的芯片区间”最终获得的样本数据库的不同变异的个数，不同变异个数最多的作为第一筛选外显子区间，将第一筛选外显子区间加入到样本数据库中，继续统计其它候选区间与加入第一筛选外显子区间后的样本数据库的不同变异的个数，不同变异个数最多的作为第二筛选外显子区间，将第二筛选外显子区间也加入到样本数据库中，采用相同的方法得到第三筛选外显子区间，再将第三筛选外显子区间加入到样本数据库中，以此类推，直至所有候选区间都被这样迭代筛选完，得到的样本数据库。

第三步：选取RI>＝30，SNV>＝3的区间

1、在上面两个步骤的基础上，本例统计了TCGA和ICGC数据库中包括driver gene区间在内的筛选到的区间上只有一个变异的样本，将这些样本作为单样本数据库。肺癌的单样本数据库的统计结果如表6所示。

表6单样本数据库统计结果

2、根据“第一步”和“第二步”统计的TCGA和ICGC数据库中检测肿瘤相关的驱动基因的外显子区间，去除已经被筛选入样本数据库的外显子区间，以RI≥30，包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间，筛选候选区间中去除“单样本数据库”后样本数减少最多的外显子区间，作为第一外显子区间；从候选区间中去除被筛选的第一外显子区间及其单突变样本；然后，采用同样的方法筛选第二外显子区间；以此类推，直至去除“单样本数据库”后样本数不再减少；被筛选到的所有外显子区间，都加入“第二步”得到的样本数据库中。

本例对肺癌的驱动基因外显子区间筛选结果如表7所示。

表7肺癌驱动基因外显子区间筛选结果

第四步：选取RI>＝20，SNV>＝3的区间

根据“第一步”和“第二步”统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间，去除已经被“第一步”、“第二步”和“第三步”筛选入样本数据库的外显子区间，以RI≥20，包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间，按照“第三步”的筛选方法，筛选外显子区间，并将其加入“第三步”得到的样本数据库中；即得到初步的单核苷酸变异和插入缺失突变捕获区间库。

本例对肺癌的驱动基因外显子区间筛选结果如表8所示。

表8肺癌驱动基因外显子区间筛选结果

第五步：补充本地数据库中的高频热点突变

检查本地数据库中的高频热点变异是否都包含在以上得到的初步的单核苷酸变异和插入缺失突变捕获区间库中，如果包含，则停止；否则，将未包含在内的热点变异位点，前后各延伸50bp的区间加入到上述的初步的单核苷酸变异和插入缺失突变捕获区间库中。

本例所说的本地数据库是组内累计的分析数据。主要核查常见的热点突变位点是否都包含在所设计的芯片区间上。本例肺癌小芯片无遗漏的热点变异，不需要补充。因此，“第四步”得到的初步的单核苷酸变异和插入缺失突变捕获区间库，即最终的单核苷酸变异和插入缺失突变捕获区间库。至此即完成了SNV/INDEL相关基因的芯片区间的设计。

本例统计的肺癌的热点突变数据如表9所示。

表9肺癌热点突变数据列表

表9中，所有的突变类型都是SNV。

二、拷贝数突变捕获区间库的构建

对于本例“一、插入缺失突变捕获区间库的构建”中采用的肺癌小芯片而言，其不需要单独的CNV区域，因此本例以用药V3版CNV相关的芯片区间设计过程为例，对拷贝数突变捕获区间库的构建进行详细说明，具体的CNV相关基因的芯片设计方法如下：其思想是，对一些关注的基因提取了相应的杂合SNP位点，然后在杂合位点的前后各延伸100bp得到CNV的捕获区间。

本例关注的CNV基因包含21个基因。本例杂合SNP位点的选取过程如下：

1、通过文献或者数据库，确认出CNV变异所需要的gene_list；

2、提取gene_list中基因的外显子区间；

3、提取gene_list中基因的区间；

4、提取SNP千人数据库中，上述基因上的杂合SNP位点，并将这些杂合SNP位点按变异人数降序排列，部分排列结果如表10所示。

表10杂合SNP位点按变异人数降序排列结果

表10为chr7染色体的MET基因的排列结果，其中所有杂合SNP位点都来自于chr7染色体MET基因。

5、筛选高频杂合SNP位点，该位点满足变异人数大于或等于100，选取包含4至N个高频杂合SNP位点的基因序列，以所选取的基因序列为分析对象，步长1000bp，筛选每个基因序列的杂合SNP位点，杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库；其中，N的取值为基因序列长度的1/400。

本例具体的，从21个基因中总计选取了2916个高频杂合SNP位点，最终过滤后保留了1389个杂合SNP位点用于组成拷贝数突变捕获区间库，部分结果如表11所示。

表11杂合SNP位点筛选结果

表11为chr9染色体的ABL1基因的筛选结果，其中所有杂合SNP位点都来自于chr9染色体ABL1基因。

6、选取外显子区间上的高频杂合SNP位点，该位点满足变异人数大于等于50，选取包含2至M个高频杂合SNP位点的外显子区间，以所选取的外显子区间为分析对象，步长1000bp，筛选每个外显子区间的杂合SNP位点，杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库；其中，M的取值为所选外显子区间长度的1/500。

本例具体的，从21个基因中总计选取了834个高频杂合SNP位点，最终过滤后保留了746个杂合SNP位点用于组成拷贝数突变捕获区间库，部分结果如表12所示。

表12杂合SNP位点筛选结果

以上这些位点均与的分布在各个基因上。根据以上选取的杂合SNP位点得到用药V3版CNV相关的芯片区间。

三、结构变异捕获区间库的构建

本例同样以用药V3版SV相关的芯片区间设计过程为例，对结构变异捕获区间库的构建进行详细说明，具体的SV相关基因的芯片设计方法如下：

1、统计现有文献中报导的关于热点融合基因的热点断点，将热点断点前后各延伸100bp作为捕获区间；本例具体统计获得了366个热点断点，详细如表13所示。

表13统计获得的热点断点

2、将SNV/INDEL、CNV相关的芯片区间综合考虑，查找SV热点区域是否已经包含于芯片区间中，尤其是一些热点内含子区域，如ALK的19号内含子，进一步补充SV热点基因的内含子区间；

本例具体添加了56个区域的内含子，如表14所示。

表14添加的内含子区域

3、将天津华大临床样本整理出的TJ-BGI本地数据库中热点的阳性融合断点前后各延伸100bp加入到捕获区间中；其中热点断点具体信息如表1所示；

表1天津华大临床样本整理的TJ-BGI本地数据库中热点的阳性融合断点

断点名称	所属染色体	断点位置	断点名称	所属染色体	断点位置
						KIF5B	chr10	32302258	EML4	chr2	42526429
KIF5B	chr10	32313913	EML4	chr2	42527042
						KIF5B	chr10	32315964	EML4	chr2	42528337
KIF5B	chr10	32315968	EML4	chr2	42528338
						KIF5B	chr10	32316337	EML4	chr2	42543648
KIF5B	chr10	32316338	EML4	chr2	42543649
						NCOA4	chr10	51586356	EML4	chr2	42543650
NCOA4	chr10	51586385	ERG	chr21	39811366
						ATF1	chr12	51198447	ERG	chr21	39826501
CREB1	chr2	208435548	ERG	chr21	39826503
						CREB1	chr2	208435549	ERG	chr21	39857904
CREB1	chr2	208438119	ERG	chr21	39870323
						CREB1	chr2	208438120	ERG	chr21	39870324
ALK	chr2	29431716	ERG	chr21	39914099
						ALK	chr2	29855131	ERG	chr21	39914100
EML4	chr2	42494621	ERG	chr21	39933668
						EML4	chr2	42494623	ERG	chr21	39966359
EML4	chr2	42500189	BCR	chr22	23629296
						EML4	chr2	42503114	CD74	chr5	149783628
EML4	chr2	42504603	ROS1	chr6	117686236
						EML4	chr2	42504606	EZR	chr6	159191325
EML4	chr2	42507391	EZR	chr6	159191326
						EML4	chr2	42526428	EZR	chr6	159209880

4、将天津华大临床样本整理出的TJ-BGI本地数据库中高频的融合断点前后各延伸100bp加入到捕获区间中；其中，融合断点信息如表2所示。

表2天津华大临床样本整理的TJ-BGI本地数据库中高频的融合断点

断点名称	所属染色体	断点位置	断点名称	所属染色体	断点位置
						TPM3	chr1	154130050	EWSR1	chr22	29695626
KIF5B	chr10	32304401	EWSR1	chr22	29695688
						KIF5B	chr10	32304578	EWSR1	chr22	29695743
KIF5B	chr10	32310072	EWSR1	chr22	29695744
						KIF5B	chr10	32317471	ROS1	chr6	117609844
KIF5B	chr10	32323692	ROS1	chr6	117650610
						KIF5B	chr10	32327054	ROS1	chr6	117677962
RUFY4	chr2	218943564	ROS1	chr6	117681423
						ALK	chr2	29420577	ROS1	chr6	117681435
ALK	chr2	29420609	ROS1	chr6	117681436
						ALK	chr2	29420610	ROS1	chr6	117681438
ALK	chr2	29420617	ROS1	chr6	117681443
						ALK	chr2	29420621	ROS1	chr6	117708202
ALK	chr2	29420625	ROS1	chr6	117710589
						EML4	chr2	42488374	ROS1	chr6	117710593
EML4	chr2	42510083	ROS1	chr6	117710610
						PTGIS	chr20	48127396	ROS1	chr6	117725276
ERG	chr21	39755356	ROS1	chr6	117725400
						ERG	chr21	39755361	ROS1	chr6	117746891
EWSR1	chr22	29695597	ABL1	chr9	133759272

一个完整的芯片，在设计完成突变检测相关的芯片区间以后，还要加入质控点区间。本例设计了21个质控点，在最终的芯片区间，加入这21个质控位点，每个质控点前后延伸50bp的区间，得到最终的芯片捕获区间。

并将每个质控点前后各延伸50bp获得的序列作为杂交阳性质控品。本例的21个质控位点具体如表15所示。

表15质控位点信息

根据以上构建的单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库中的至少一种，以及21个质控位点的芯片区间，设计探针，并按照常规的方式制备基因芯片。

本例进一步对设计的基因芯片进行初步评估，具体包括，分析基因芯片中各探针的GC含量、捕获区间长度、探针对数据库中突变人群的覆盖情况。要求各探针的GC含量为40％-60％，捕获区间长度为170bp左右；并且要求各探针的捕获区间在数据库中的突变人数不为0，否则删除该探针。

初步评估合格后，本例进一步的用设计的基因芯片测试一批样本，评估样本的QC情况，包括测序深度、捕获效率、dup率、比对率、覆盖度等；以及变异检出情况，包括变异检测下限、灵敏性和特异性等。如果上述所有指标都满足要求，则说明芯片可以满足产品的个性化分析需求，芯片设计完成。

需要说明的是，芯片合成之前不会有实际的样本，所以不会有针对该芯片区域评估的具体数据，通常可以先合成初版的芯片，然后选取组织、血浆样本10例左右进行小试，考察样本的QC结果。比如对于drug的芯片，要求组织样本深度500×，血浆样本的深度为1000×，捕获效率达到50％以上。组织样本平均深度500×的情况下，100×的覆盖度达到99％；血浆样本平均深度1000×的情况下，100×的覆盖度达到99％。

按照本例方法制备的基因芯片，能够满足超过深度的测序，一般来说，针对ctDNA样本而言，要求去重后1000×以上，但是对于个别的小芯片，比如肺癌小芯片，深度可以达到去重后3000×；本例的基因芯片对肺癌基因的测序深度可以达到3000×以上，能够满足使用需求。

还需要说明的是，按照本例方法制备的基因芯片，第一，芯片区域不冗余；第二，对于不同的变异类型单独设计，对于不同产品的检测需求，可以做通用的测试，比如肺癌芯片的SV与drug芯片的SV考察的融合断点相同，在测试过程中可以通用。因此，本例的基因芯片及其制备方法能够降低成本。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种用于基因突变高深度测序的基因芯片的制备方法，其特征在于：包括根据不同的突变类型，结合基因突变在线数据库和本地数据库的突变信息，构建捕获区间库；根据所述捕获区间库设计基因芯片，提高基因芯片的捕获质量和效率，实现高深度测序；

所述突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种；

所述捕获区间库根据不同的突变类型分为，单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。

2.根据专利要求1所述的制备方法，其特征在于：所述单核苷酸变异和插入缺失突变捕获区间库采用以下方法构建，

所述RI值等于(n×1000)÷L，其中n为cosmic数据库中所述外显子区间的患者数目，L为外显子区间的序列长度；

(2)按照RI值降序排列后，以RI值最高的外显子区间，即第一个外显子区间，作为样本数据库，统计其它外显子区间与所述样本数据库的不同变异的个数，不同变异个数最多的作为第二个筛选外显子区间，将第二个筛选外显子区间加入到所述样本数据库中，继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数，不同变异个数最多的作为第三个筛选外显子区间，将第三个筛选外显子区间也加入到所述样本数据库中，采用相同的方法得到第四个筛选外显子区间，再将第四个筛选外显子区间加入到所述样本数据库中，以此类推，直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完，得到的样本数据库，即芯片区间；

(3)统计TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间，去除与cosmic数据库相同的驱动基因的外显子区间，以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间，根据步骤(2)最终得到的样本数据库，按照步骤(2)相同的筛选方法，对所述候选区间进行筛选，并将筛选的外显子区间加入到步骤(2)的样本数据库中；

(5)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间，去除已经被步骤(3)筛选入样本数据库的外显子区间，以RI≥30，包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间，筛选候选区间中去除所述单突变样本数据库后样本数减少最多的外显子区间，作为第一外显子区间；从候选区间中去除被筛选的第一外显子区间及其单突变样本；然后，采用同样的方法筛选第二外显子区间；以此类推，直至去除所述单突变样本数据库后样本数不再减少；被筛选到的所有外显子区间，都加入步骤(3)得到的样本数据库中；

(6)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间，去除已经被步骤(3)和步骤(5)筛选入样本数据库的外显子区间，以RI≥20，包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间，按照步骤(5)的筛选方法，筛选外显子区间，并将其加入步骤(5)得到的样本数据库中；即得到初步的单核苷酸变异和插入缺失突变捕获区间库；

3.根据权利要求1所述的制备方法，其特征在于：所述拷贝数突变捕获区间库由杂合SNP位点前后各延伸100bp得到的捕获区间组成，所述杂合SNP位点筛选自拷贝数突变相关的基因及其外显子区间；

所述杂合SNP位点采用以下方法筛选获得：

(2)提取SNP千人数据库中，步骤(1)所提取的基因序列的杂合SNP位点，并将所提取的SNP位点按变异人数降序排列；

(3)筛选变异人数大于或等于100的高频杂合SNP位点，选取包含4至N个所述高频杂合SNP位点的基因序列，以所选取的基因序列为分析对象，步长1000bp，筛选每个基因序列的杂合SNP位点，杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库；其中，N的取值为所述基因序列长度的1/400；

(4)筛选变异人数大于或等于50的高频杂合SNP位点，选取包含2至M个所述高频杂合SNP位点的外显子区间，以所选取的外显子区间为分析对象，步长1000bp，筛选每个外显子区间的杂合SNP位点，杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库；其中，M的取值为所述外显子区间长度的1/500。

4.根据权利要求1所述的制备方法，其特征在于：所述结构变异捕获区间库采用以下方法构建，

(2)统计本地数据库中，用药相关的融合基因的阳性融合热点断点，将热点断点前后各延伸100bp作为捕获区间；本地数据库的用药相关融合基因的阳性融合热点断点如表1所示，

表1

表2

断点名称所属染色体断点位置断点名称所属染色体断点位置 TPM3 chr1 154130050 EWSR1 chr22 29695626 KIF5B chr10 32304401 EWSR1 chr22 29695688 KIF5B chr10 32304578 EWSR1 chr22 29695743 KIF5B chr10 32310072 EWSR1 chr22 29695744 KIF5B chr10 32317471 ROS1 chr6 117609844 KIF5B chr10 32323692 ROS1 chr6 117650610 KIF5B chr10 32327054 ROS1 chr6 117677962 RUFY4 chr2 218943564 ROS1 chr6 117681423 ALK chr2 29420577 ROS1 chr6 117681435 ALK chr2 29420609 ROS1 chr6 117681436 ALK chr2 29420610 ROS1 chr6 117681438 ALK chr2 29420617 ROS1 chr6 117681443 ALK chr2 29420621 ROS1 chr6 117708202 ALK chr2 29420625 ROS1 chr6 117710589 EML4 chr2 42488374 ROS1 chr6 117710593 EML4 chr2 42510083 ROS1 chr6 117710610 PTGIS chr20 48127396 ROS1 chr6 117725276 ERG chr21 39755356 ROS1 chr6 117725400 ERG chr21 39755361 ROS1 chr6 117746891 EWSR1 chr22 29695597 ABL1 chr9 133759272

将步骤(1)、(2)和(3)的捕获区间合并，即得到所述结构变异捕获区间库。

5.根据权利要求1-4任一项所述的制备方法，其特征在于：还包括在基因芯片中设计至少21个质控位点，每个质控位点前后各延伸50bp获得的序列作为杂交阳性质控品。

6.根据权利要求1-4任一项所述的制备方法，其特征在于：还包括对设计的基因芯片进行初步评估，所述初步评估包括，分析基因芯片中各探针的GC含量、捕获区间长度、探针对数据库中突变人群的覆盖情况；

优选的，各探针的GC含量为40％-60％，捕获区间长度不低于100bp；并且要求各探针的捕获区间在数据库中的突变人数不为0，否则删除该探针。

7.根据权利要求6所述的制备方法，其特征在于：还包括对初步评估合格的基因芯片进行验证测试，所述验证测试包括，合成一批或两批所设计的基因芯片，采用模拟样本，对基因芯片进行检测，评估基因芯片的测序深度、捕获效率、dup率、比对率、覆盖度、变异检测下限、灵敏度、特异性。

8.根据权利要求1-7任一项所述的制备方法制备的基因芯片。

9.根据权利要求8所述的基因芯片在循环DNA检测中的应用。

10.根据权利要求8所述的基因芯片在制备癌症检测或预后监控的试剂盒或装置中的应用。