CN110387419B

CN110387419B - 实体瘤多基因检测基因芯片及其制备方法和检测装置

Info

Publication number: CN110387419B
Application number: CN201910768791.5A
Authority: CN
Inventors: 李淼; 陈超; 张毅红; 陈龙昀; 李暾; 但旭
Original assignee: Yuze Medical Devices Jiangsu Co ltd
Current assignee: Yuze Medical Devices Jiangsu Co ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2023-06-13
Anticipated expiration: 2039-08-20
Also published as: CN110387419A

Abstract

一种实体瘤多基因检测基因芯片及其制备方法和检测装置，该基因芯片包含如表1所示的用于检测肿瘤突变负荷和靶向用药相关突变位点的基因区域的探针序列，以及如表2所示的用于检测微卫星不稳定位点的探针序列。本发明的基因芯片，能够捕获859个肿瘤突变负荷和靶向用药相关突变位点以及250个微卫星不稳定位点的基因区域，这些基因区域可真实反映人全基因组上肿瘤突变负荷及微卫星不稳定状态的变化趋势，且该区域覆盖了常见的靶向用药相关突变位点，可以同时用于各种肿瘤分子标志物的检测。

Description

实体瘤多基因检测基因芯片及其制备方法和检测装置

技术领域

本申请涉及肿瘤检测领域，特别是涉及一种实体瘤多基因检测基因芯片及其制备方法和检测装置。

背景技术

肿瘤是由基因组变异引起的疾病。肿瘤的治疗包括手术、放疗、化疗、分子靶向治疗、免疫治疗等多种手段，其中靶向治疗及免疫治疗均需要根据临床分子标志物的状态制定相应治疗策略。

肿瘤的靶向治疗是在细胞分子水平上，针对已经明确的致癌位点设计相应的治疗药物，特异地选择致癌位点结合发生作用，使肿瘤细胞特异性死亡的治疗方式。靶向治疗药物可分为靶向性的表皮生长因子受体(EGFR)阻断剂、针对某些特定细胞标志物的单克隆抗体、酪氨酸激酶受体抑制剂、抗肿瘤血管生成药物及其他激酶抑制剂等，在应用靶向药物之前需要确定患者致癌位点及相关标志物的变化情况，因此基因检测是靶向治疗前的必要步骤。

免疫检查点抑制剂开辟了肿瘤治疗的新时代，但由于缺乏合适的临床分子标志物，PD-1/PD-L1药物的受益人群无法被高效筛选，筛选率只有20％-30％。肿瘤突变负荷(TMB)是反应肿瘤细胞中总的基因突变程度的一个指标，通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。不同类型的肿瘤、同一种肿瘤中不同人群的TMB水平会不一样，并且在平均TMB水平比较高的肿瘤中，也并不是所有患者的TMB水平都比较高，不同肿瘤类别中存在高TMB水平的人群比例都不一样。已有研究表明高TMB的水平能大概率预测肺癌、膀胱癌、黑色素瘤等肿瘤对免疫检查点抑制剂药物响应概率。鉴于TMB作为标志物在临床试验已取得一些良好的效果，国内外已有一些大型的公司或药企单独或合作进行TMB生物标志物的开发，研究将TMB纳入免疫检查点抑制剂药物临床试验的检测范围。微卫星不稳定(MSI)也是一种分子标志物，临床上有高效准确检测肿瘤突变负荷、微卫星不稳定及靶向治疗位点突变的需求。

但目前市场上相关产品多为单项检测，以3种指标(TMB、MSI、靶向治疗位点突变)为例，需要分别单独检测，具有成本高、周期长、样本用量大的缺陷，不适合临床应用。亟待开发一种可以同时检测多种指标的检测试剂盒，可以高效地检测多种指标。

发明内容

本发明提供一种实体瘤多基因检测基因芯片及其制备方法和检测装置，能够同时分析TMB、MSI和靶向治疗位点突变三种指标，预测肿瘤靶向治疗药物及免疫检查点抑制剂疗效。

根据第一方面，本发明提供一种实体瘤多基因检测基因芯片，该基因芯片包含如表1所示的用于检测TMB和靶向用药相关突变位点的基因区域的探针序列，以及如表2所示的用于检测MSI位点的探针序列。

在优选实施例中，上述基因芯片还包含检测如表3所示的HLA基因型的探针。

在优选实施例中，上述基因芯片还包含检测SNP质控位点的探针，上述SNP质控位点为根据Cell Lines Project(细胞系项目)数据库设计的，中国人群中突变频率在0.4-0.6区间的位点。

在优选实施例中，上述SNP质控位点包括rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153和rs1541290。

在优选实施例中，上述基因芯片还包含检测如表4所示的性别判断质控位点的探针。

根据第二方面，本发明提供一种如第一方面的基因芯片的制备方法，该方法包括：

提供如第一方面的基因芯片所需的芯片基底和结合于芯片基底上的探针；

将上述探针通过基因芯片制备方法结合于上述芯片基底上，得到上述基因芯片。

芯片基底包括但不限于磁珠。

根据第三方面，本发明提供一种用于肿瘤样本检测的二代测序方法，该方法包括：

提取肿瘤组织DNA，并以上述肿瘤组织DNA为材料构建测序文库；

使用如第一方面的基因芯片捕获上述测序文库中的目标基因；

对上述目标基因进行测序以确定其序列。

根据第四方面，本发明提供一种实体瘤多基因检测装置，该装置包括：

如第一方面的基因芯片；以及

用于测定上述基因芯片所捕获的实体瘤组织的核酸序列的测序装置。

根据第五方面，本发明提供一种实体瘤多基因检测装置，该装置包括：

数据获取单元，用于获取如第一方面的基因芯片所捕获的实体瘤组织的核酸序列的测序数据；

体细胞变异检测及结果过滤单元，用于对实体瘤组织的测序数据进行变异检测，并对检测结果使用生殖细胞突变数据库进行过滤以得到实体瘤组织相关的体细胞突变；

体细胞结构变异检测单元，用于对实体瘤组织的测序数据进行体细胞结构变异检测以得到实体瘤组织相关的体细胞结构变异；

肿瘤突变负荷预测单元，用于对实体瘤组织的测序数据进行肿瘤突变负荷预测；

微卫星不稳定检测单元，用于对实体瘤组织的测序数据进行微卫星不稳定检测。

在优选实施例中，上述微卫星不稳定检测单元包括以下子单元：

潜在微卫星不稳定位点获取子单元，用于分别计算每个位点的微卫星不稳定变化情况，统计所有符合质控标准且发生碱基的插入或缺失且支持读长数满足设定标准的位点，获得潜在微卫星不稳定位点；

体细胞微卫星不稳定位点获取子单元，用于使用基于信息熵的算法对所述潜在微卫星不稳定位点进行筛选，获得体细胞微卫星不稳定位点；

体细胞微卫星不稳定位点数量统计子单元，用于统计体细胞微卫星不稳定位点数量；和

微卫星不稳定检测结果获取子单元，用于筛选体细胞微卫星不稳定位点数占总微卫星不稳定位点数的百分比大于设定阈值的位点，获得微卫星不稳定检测结果。

在优选实施例中，上述质控标准为5bp≤微卫星不稳定位点长度≤50bp；上述设定标准为p<0.05；上述阈值为20％。

在优选实施例中，上述装置还包括如下一种或多种单元：

下机数据处理单元，用于将下机数据转化为通用的文件格式以及将多个样本的数据拆分开来；

数据过滤及质控单元，用于去除测序数据中的测序接头序列、低质量序列及N碱基组成的序列以及对过滤后的数据进行质控以得到符合质控标准的合格数据；

序列比对及质控单元，用于将测序数据比对到参考基因组并对质控结果进行质控以得到符合质控标准的合格数据；

变异结果注释单元，用于对变异结果进行注释以得到基因名称、转录本编号及位置信息、HGVS突变编号，和/或对中国人群突变频率进行注释，和/或对突变进行有害性预测和保守性预测，和/或对突变相关疾病信息进行注释；

样本质控单元，用于对上述基因芯片捕获的SNP位点进行基因型分析以得到SNP位点基因型与检测个体的对应关系；

样本性别质控单元，用于对上述基因芯片捕获的性别判断质控位点进行分析以得到性别判断质控位点与检测个体的对应关系；

HLA分型单元，用于对上述基因芯片捕获的HLA基因区域进行HLA分型。

根据第六方面，本发明提供一种实体瘤多基因检测方法，包括：

获取如第一方面的基因芯片所捕获的实体瘤组织的核酸序列的测序数据；

对实体瘤组织的测序数据进行变异检测，并对检测结果使用生殖细胞突变数据库进行过滤以得到实体瘤组织相关的体细胞突变；

对实体瘤组织的测序数据进行体细胞结构变异检测以得到实体瘤组织相关的体细胞结构变异；

对实体瘤组织的测序数据进行肿瘤突变负荷预测；

对实体瘤组织的测序数据进行微卫星不稳定检测。

在优选实施例中，上述微卫星不稳定检测包括以下步骤：

分别计算每个位点的微卫星不稳定变化情况，统计所有符合质控标准且发生碱基的插入或缺失且支持读长数满足设定标准的位点，获得潜在微卫星不稳定位点；

使用基于信息熵的算法对潜在微卫星不稳定位点进行筛选，获得体细胞微卫星不稳定位点；

统计体细胞微卫星不稳定位点数量；和

筛选体细胞微卫星不稳定位点数占总微卫星不稳定位点数的百分比大于设定阈值的位点，获得微卫星不稳定检测结果。

在优选实施例中，上述实体瘤多基因检测方法，还包括如下一种或多种步骤；

将下机数据转化为通用的文件格式以及将多个样本的数据拆分开来；

去除测序数据中的测序接头序列、低质量序列及N碱基组成的序列以及对过滤后的数据进行质控以得到符合质控标准的合格数据；

将测序数据比对到参考基因组并对质控结果进行质控以得到符合质控标准的合格数据；

对变异结果进行注释以得到基因名称、转录本编号及位置信息、HGVS突变编号，和/或对中国人群突变频率进行注释，和/或对突变进行有害性预测和保守性预测，和/或对突变相关疾病信息进行注释；

对上述基因芯片捕获的SNP位点进行基因型分析以得到SNP位点基因型与检测个体的对应关系；

对上述基因芯片捕获的性别判断质控位点进行分析以得到性别判断质控位点与检测个体的对应关系；

对上述基因芯片捕获的HLA基因区域进行HLA分型。

根据第七方面，本发明提供一种计算机可读存储介质，该计算机可读存储介质包括程序，该程序能够被处理器执行以实现如第六方面的实体瘤多基因检测方法。

本发明的基因芯片，能够捕获859个TMB和靶向用药相关突变位点以及250个MSI位点的基因区域，这些基因区域可真实反映人全基因组上肿瘤突变负荷及MSI的变化趋势，且该区域覆盖了常见的靶向用药相关突变位点，可以同时用于各种标志物的检测。

本发明的实体瘤多基因检测装置，在仅使用肿瘤样本(即单样本)检测的情况下，一次测序完成多项指标的分析，可准确反映样本中点突变、插入缺失、结构变异、微卫星不稳定、肿瘤突变负荷及HLA分型情况。

附图说明

图1为本发明实施例中用于肿瘤样本检测的二代测序方法流程图；

图2为本发明实施例中实体瘤多基因检测装置的结构框图；

图3为本发明实施例中实体瘤多基因检测信息分析方法流程图；

图4为本发明实施例中MSI检测与金标准比较结果图；

图5为本发明实施例中HLA分型与HLA检测金标准比较结果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本发明能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他材料、方法所替代。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

针对现有技术存在的问题，本发明提供一种实体瘤多基因检测基因芯片，包括捕获以下基因区域的探针：(1)859个用于检测TMB和靶向用药相关突变位点的基因区域；(2)250个用于检测MSI位点的基因区域。

本发明应用于二代测序领域，用于肿瘤突变分析、微卫星不稳定(MSI)检测、肿瘤突变负荷(TMB)检测，预测肿瘤靶向治疗药物及免疫检查点抑制剂疗效。

本发明的开发与应用技术路线大体如下所示：

肿瘤组织样本收集→肿瘤组织DNA提取→高通量基因捕获测序→测序数据预处理→测序数据比对→体细胞变异检测分析(点突变、插入删除、结构变异)→肿瘤纯度预测→TMB计算→MSI计算→结果解读→指导肿瘤治疗。

在一个具体实施例中，具体实施如下：

1、靶向捕获芯片设计：

传统肿瘤基因检测通常采用全外显子测序，具有成本高、周期长的缺点。为解决此问题，本发明设计了一种靶向捕获芯片，只捕获特定基因序列并进行测序，有效降低了测序数据量，达到节省成本、缩短周期的目的。

该靶向捕获芯片的设计过程是：

1)根据COSMIC数据库收集的突变信息，统计每个基因的每个外显子上有多少个碱基发生突变，突变总数除以外显子总长度，得到每个外显子上出现突变碱基的概率。

2)根据ICGC数据库(https://icgc.org/)收集的样本数据，统计每个基因的每个外显子上有多少个样本发生突变，突变样本数除以总样本数，得到每个外显子上出现突变样本的概率。

3)根据中国人群食管癌、肺癌及胃癌基因组数据，统计每个基因的每个外显子上有多少个样本发生突变，突变样本数除以总样本数，得到每个外显子上出现突变样本的概率。

4)根据上述数据对每个外显子赋予分值，计算方法为：pa*0.3+pb*0.2+pc*0.5，其中pa、pb、pc分别为1)、2)、3)步计算的概率。此分值可代表外显子对肿瘤突变荷变化的贡献程度。去除贡献程度为0的外显子后，其余外显子作为候选区域进入下一步计算。

5)根据Cancer Gene Census基因列表总结的肿瘤相关重要基因对外显子分配权重，属于该基因列表的外显子权重为1，不属于该基因列表的外显子权重为0.5。外显子得分乘以权重得到加权分值。

6)使用遗传算法对外显子进行筛选。遗传算法使用DEAP软件包，参数设置如下：初始种群数量50，Lambda值400，突变概率0.5，交换概率0.4，迭代500代。评分公式为：区域大小权重-0.5，外显子分值1.0，所选区域TMB结果与外显子相关性权重1.0。据此计算出最终捕获区域。

7)对于Cancer Gene Census基因列表上所列基因，若不在捕获区域内，则挑选部分SNP位点用于CNV检测。位点选择规则为：选择中国人群中突变频率在0.3-0.7的位点，平均每M区域选择6个。

8)为配合靶向药物相关变异检测，补充以下重要基因的全外显子：

EGFR	BIM	KRAS	BRAF	PIK3CA	KIT
						PDGFRA	NRAS	CSF1R	FLT3	SMO	SRC
PTEN	BRD4	RARA	TMPRSS2	FGFR2	NOTCH2
						BCR	FGFR3	NTRK1	RAF1

9)为配合结构变异检测，补充以下重要基因内含子上容易发生结构变异的区域，即ALK、ROS1和RET基因区域。区域的计算方法是根据COSMIC数据库收集的已知结构变异，筛选发生频率最高的区域。

最终设计的捕获区域包含以下表1所示的859个基因区域。

表1

/>

/>

/>

/>

进一步，为检测MSI，补充以下表2所示的250个可能发生MSI变化的位点。具体而言，统计TCGA数据库样本中发生MSI变化的位点，按照可能发生MSI变化的频率从高到低的顺序进行筛选且与MSI整体趋势相关的位点组成。

表2

/>

/>

进一步，添加HLA分型区域，用于对样本进行HLA分型。根据中国人群HLA分布频率，设计以下表3所示的HLA基因型的探针。

表3

/>

进一步，添加SNP质控位点，对每个样本确定唯一标识，用于识别样本污染或混样的异常。该质控位点的选择方法为：根据Cell Lines Project数据库设计的质控位点，选择其中中国人群中突变频率在0.4-0.6区间的位点，根据PCR验证成功率排序，选择最高的28个SNP位点如下：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153和rs1541290。

进一步，添加如下表4中的性别判断质控位点，用于判断样本性别，避免样本编号混乱。

表4

chrX	11314992	AMEL_Intron3_X
			chrX	24229534	ZFXY_MA_expanded_up_2x_X
chrY	2655436	SRY_Y
			chrY	2848026	ZFXY_MA_expanded_up_2x_Y
chrY	6737998	AMEL_Intron3_Y

本发明的技术方案与发明名称为“用于肿瘤突变负荷检测的基因芯片及其制备方法和装置”，申请号为2018107129399的中国发明专利相比，主要区别包括：

a)删除如下表5所示的基因。这些基因对肿瘤突变负荷计算贡献较低，且不是靶向用药相关基因。

表5

/>

b)新增如下表6所示的基因。这些基因对肿瘤突变负荷计算贡献较高，能够提高肿瘤突变负荷计算的准确性。

表6

APOBEC3A	LOC101927322	PRKACA	TIMM23B
				ARTN	MAP4K3	PRKDC	TMEFF1
ATP2C1	METTL21A	PROC	TOE1
				BCL2L11	MFSD11	RAD17	TPM3
C11ORF65	MYCNOS	RAD50	U2AF1L5
				C1QTNF5	NBPF10	REEP5	UGT1A10
CD3EAP	NBPF19	RHOA	UGT1A3
				CD74	NBPF20	RNMT	UGT1A4
CENPP	NBPF9	SEC14L2	UGT1A5
				CSF1R	NO	SEC14L3	UGT1A6
CYP19A1	PCDHA1	SLC7A8	UGT1A7
				DCBLD1	PCDHA2	SMOX	UGT1A8
FAM20A	PCDHA5	SNAPC5	UGT1A9
				FAM69A	PCDHA6	SRC	WDR20
FANCD2OS	PCDHA7	SRP19	ZDHHC6
				FNTB	PDCD1	SSX4B	ZNF2
HIST1H2BK	PINLYP	SYN3	ZNF276
				INSRR	POLD1	TACC3
LHFPL6	POLE4	TAGLN
				LIG3	PRG4	TBC1D9

c)对结构变异基因区域重新设计。结构变异通常发生在基因的内含子区域，常规外显子捕获方式无法检测。本发明在这些基因易发生结构变异的内含子区域设计捕获探针，保证了结构变异检测的准确性。

d)对HLA分型区域重新设计。针对中国人群常见的HLA基因型设计捕获探针，提高捕获效率的同时增加了中国人群HLA分型的准确性。

本发明还提供上述基因芯片的制备方法，该方法包括：芯片基底和结合于芯片基底上的探针；将探针通过基因芯片制备方法结合于芯片基底上，得到基因芯片。

本发明实施例中，基因芯片制备方法不限，只要是能够将核酸探针结合于芯片基底上即可，现有技术中有多种实现这种结合的方法，本领域技术人员可以根据需要选择合适方法实现。

基于本发明的基因芯片，本发明一个实施例还提供一种用于肿瘤样本检测的二代测序方法，该方法包括：提取肿瘤组织DNA，并以肿瘤组织DNA为材料构建测序文库；使用本发明的基因芯片捕获测序文库中的目标基因；对目标基因进行测序以确定其序列。

具体而言，在一个实施例中，本发明的二代测序方法可以按照图1所示的流程进行。其中提取肿瘤组织DNA及提取质控、DNA修复、建库及建库质控和测序及测序质控等步骤可以按照现有技术方法进行。而杂交捕获及质控使用本发明的基因芯片实现。

本发明实施例中，可用的测序方法很多，理论上任何测序平台，包括但不限于Illumina平台及MGI平台均可用于本发明中对目标基因进行测序。具体的测序策略包括但不限于PE100或PE150测序方式，肿瘤组织测序的数据量一般在5G左右。

基于本发明的基因芯片，本发明一个实施例还提供一种实体瘤多基因检测装置，该装置包括：本发明的基因芯片；以及，用于测定基因芯片所捕获的实体瘤组织的核酸序列的测序装置。测序装置具体可以是各种测序平台，包括但不限于Illumina平台及MGI平台等。

需要说明的是，上述实体瘤多基因检测装置是实体的物理装置，以基因芯片和配套使用的测序装置构成。除此之外，上述实体瘤多基因检测装置还可以包括其他配套设备和装置，例如实体瘤多基因检测二代测序文库构建使用的设备和装置等。

基于本发明的基因芯片，本发明一个实施例还提供一种实体瘤多基因检测装置，如图2所示，该装置包括：数据获取单元201，用于获取本发明的基因芯片所捕获的实体瘤组织的核酸序列的测序数据；体细胞变异检测及结果过滤单元202，用于对实体瘤组织的测序数据进行变异检测，并对检测结果使用生殖细胞突变数据库进行过滤以得到实体瘤组织相关的体细胞突变；体细胞结构变异检测单元203，用于对实体瘤组织的测序数据进行体细胞结构变异检测以得到实体瘤组织相关的体细胞结构变异；肿瘤突变负荷预测单元204，用于对实体瘤组织的测序数据进行肿瘤突变负荷预测；微卫星不稳定检测单元205，用于对实体瘤组织的测序数据进行微卫星不稳定检测。

在一个优选实施例中，本发明的装置还包括如下一种或多种单元：下机数据处理单元，用于将下机数据转化为通用的文件格式以及将多个样本的数据拆分开来；数据过滤及质控单元，用于去除测序数据中的测序接头序列、低质量序列及N碱基组成的序列以及对过滤后的数据进行质控以得到符合质控标准的合格数据；序列比对及质控单元，用于将测序数据比对到参考基因组并对质控结果进行质控以得到符合质控标准的合格数据；变异结果注释单元，用于对变异结果进行注释以得到基因名称、转录本编号及位置信息、HGVS突变编号，和/或对中国人群突变频率进行注释，和/或对突变进行有害性预测和保守性预测，和/或对突变相关疾病信息进行注释；样本质控单元，用于对上述基因芯片捕获的SNP位点进行基因型分析以得到SNP位点基因型与检测个体的对应关系；样本性别质控单元，用于对上述基因芯片捕获的性别判断质控位点进行分析以得到性别判断质控位点与检测个体的对应关系；HLA分型单元，用于对上述基因芯片捕获的HLA基因区域进行HLA分型。

本领域技术人员可以理解，上述实施方式中各种单元的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，本发明的一个实施例提供一种计算机可读存储介质，该计算机可读存储介质包括程序，该程序能够被处理器执行以实现如下的实体瘤多基因检测方法：获取本发明的基因芯片所捕获的实体瘤组织的核酸序列的测序数据；对实体瘤组织的测序数据进行变异检测，并对检测结果使用生殖细胞突变数据库进行过滤以得到实体瘤组织相关的体细胞突变；对实体瘤组织的测序数据进行体细胞结构变异检测以得到实体瘤组织相关的体细胞结构变异；对实体瘤组织的测序数据进行TMB预测；对实体瘤组织的测序数据进行MSI检测。

在优选实施例中，上述实体瘤多基因检测方法，还包括如下一种或多种步骤；将下机数据转化为通用的文件格式以及将多个样本的数据拆分开来；去除测序数据中的测序接头序列、低质量序列及N碱基组成的序列以及对过滤后的数据进行质控以得到符合质控标准的合格数据；将测序数据比对到参考基因组并对质控结果进行质控以得到符合质控标准的合格数据；对变异结果进行注释以得到基因名称、转录本编号及位置信息、HGVS突变编号，和/或对中国人群突变频率进行注释，和/或对突变进行有害性预测和保守性预测，和/或对突变相关疾病信息进行注释；对上述基因芯片捕获的SNP位点进行基因型分析以得到SNP位点基因型与检测个体的对应关系；对上述基因芯片捕获的性别判断质控位点进行分析以得到性别判断质控位点与检测个体的对应关系；对上述基因芯片捕获的HLA基因区域进行HLA分型。

以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例仅是示例性的，不能理解为对本发明保护范围的限制。

实施例1

本实施例中设计定制的探针，覆盖表1至表4以及28个SNP位点区域的探针序列。芯片性能测试结果如下表7所示，可见该探针设计兼容常见的Illumina平台及MGI平台，设计区域覆盖度均达到99％以上，满足正常使用需求。

表7

样本编号	测序平台	捕获效率(％)	覆盖度(％)
				DNR901971SLZAA01_3_2	MGI	37.195	99.829
DNR901971XYZAA01_2_3	MGI	42.099	99.792
				DNR901979SLZAA01_3_2	MGI	32.582	99.868
DNR901979XYZAA01_2_3	MGI	40.51	99.838
				DNR902340SLZAA01_2_1	MGI	49.45	99.789
DNR902340XYZAA01_2_1	MGI	39.764	99.764
				DNR903896SLZAA01_3_2	MGI	38.427	99.857
DNR903896XYZAA01_2_3	MGI	56.814	99.76
				DNR904698SLZAA01_2_1	MGI	42.357	99.755
DNR904698XYZAA01_2_1	MGI	40.17	99.792
				DNR900409SLZAA01_1_2	Illumina	61.416	99.838
DNR900409XYZAA01_1_2	Illumina	66.512	99.748
				DNR900931SLZAA01_1_2	Illumina	65.534	99.841
DNR900931XYZAA01_1_2	Illumina	65.609	99.744
				DNR901128AZZAA01_1_2	Illumina	67.301	99.657
DNR901128XYZAA01_1_2	Illumina	65.862	99.621
				DNR902792AZZAA01_1_2	Illumina	66.514	99.733
DNR902792XYZAA01_1_2	Illumina	67.078	99.652

实施例2

本实施例展示了信息分析方法，包括下机数据处理、数据过滤及质控、序列比对及结果质控、体细胞突变检测及结果过滤、变异结果注释、MSI检测、肿瘤纯度预测、TMB预测、TMB用药指导等环节。上述信息分析方法通过自动化调度系统在生物信息分析集群上运行，稳定高效输出分析结果。如图3所示，各信息分析环节详细介绍如下：

a)下机数据处理：测序仪产生的通常为专用格式数据，需首先转化为通用的fastq文件格式。此外，一张测序芯片上会混合多个样本，需要在分析之前将属于各个样本的数据拆分开来。本方法可适配常见第二代测序仪输出数据格式，根据测序仪类型不同采用不同的处理方式。对于Illumina测序仪使用bcl2fastq软件对下机数据进行处理，并针对常用的NextSeq 500测序仪进行了参数上的优化，达到提高数据利用率、简化后续处理的目的。对于MGI测序仪，仪器直接产出可用数据量(Clean data)，软件根据标签(index)序列匹配筛选各样本数据。数据处理完毕后经过质控程序质控，判断数据产出及质量是否出现异常，无异常则进入下一步骤。

b)数据过滤及质控：Illumina测序仪产出的数据除包含有效数据外，测序仪还包括测序接头序列、低质量序列及N碱基组成的序列，这些序列会干扰后续分析，需要去除。本发明使用cutadapt软件进行上述操作。过滤后的数据使用质控软件进行质控，符合以下表8标准的数据为合格数据。

表8

MGI测序仪数据直接使用质控软件进行质控，符合以下表9标准的数据为合格数据。

表9

c)序列比对及质控：序列比对采用bwa mem算法进行，使用的参考基因组为GRCh37.73。比对结果直接进行去重合排序处理，不需生成临时文件，达到节省时间及空间的目的。比对结果使用质控软件进行质控，符合以下表10标准的数据为合格数据。

表10

比对率(Mapping_rate)	>99％
		比对质量(Mapping_quality)	>50
插入片段大小(Insert_size)	<230bp and>120bp
		重复率(Duplication_rate)	<30％
捕获率(Capture_rate)	>50％
		目标区域测序深度(Depth_in_target)	>500X
目标区域覆盖度(Target_coverage)	>98％
		目标区域大于500X深度比例(Target_500X)	>60％
目标区域大于100X深度比例(Target_100X)	>80％
		目标区域大于10X深度比例(Target_10X)	>90％

d)体细胞变异检测及结果过滤：体细胞变异包括SNV、InDel，本方法对肿瘤组织数据进行变异检测，并对检测结果进行过滤，只保留肿瘤相关的体细胞突变。其中，SNV的检测及过滤在发明名称为“基于二代测序检测点突变的方法、装置和存储介质”，申请号为201711107001.6的中国专利的基础上改进，InDel的检测及过滤在发明名称为“基于二代测序的插入缺失突变检测方法、装置和存储介质”，申请号为201810273763.1的中国专利的基础上改进，使用单一肿瘤样本通过以下步骤计算体细胞变异：1)使用samtools及varscan软件计算测序数据中与参考碱基不同的潜在变异位点；2)根据变异位点的碱基质量值、比对质量值、reads上相对位置、突变频率、是否为热点突变等因素进行统计分析，确定候选突变位点；3)使用生殖细胞突变数据库(dbSNP数据库、千人基因组数据库、ExAC数据库)中的人群变异数据进行过滤，只保留非生殖细胞突变，作为最终结果。

本方法与原有方法的不同在于，增加了步骤3)，原有变异检测方法用于单样本时无法区分体细胞突变与生殖细胞突变，本方法通过该步骤实现此效果。实际数据测试显示，添加步骤3)后，本方法对于靶向药物相关变异检测的灵敏度为97.89％，特异性为97.94％，可满足实际使用。

e)体细胞结构变异检测：本方法参照发明名称为“用于检测目标区域基因融合的方法、装置和存储介质”、申请号为201711107002.0的中国专利，使用单一肿瘤样本(取消了对照样本的输入)，根据双末端读长(paired-end reads)配对关系及软剪接读长(softclipped reads)比对位置确定结构变异断点，得到最终结果。

f)变异结果注释：本方法首先使用SnpEff注释软件对变异结果进行注释，得到基因名称、转录本编号及位置信息、HGVS突变编号等基本信息；随后使用ExAC数据库对中国人群突变频率进行注释，使用DBNSFP数据库对突变进行有害性预测和保守性预测，使用clinvar数据库对突变相关疾病信息进行注释。根据这些信息可对变异性质进行判断，用于后续分析。

g)TMB预测：本发明的TMB预测方法参照发明名称为“肿瘤突变负荷检测方法、装置和存储介质”、申请号为201910254928.5的中国专利，即单样本检测TMB的方法，因此可使用此方法计算TMB。

h)微卫星不稳定(MSI)检测：本方法的MSI检测过程如下：1)在芯片上设计250个可能发生MSI变化的位点。2)分别计算每个位点的MSI变化情况，对于所有符合质控标准(最小长度为5bp，最大长度为50bp)的位点，若该位点发生碱基的插入或缺失且支持读长(reads)数满足标准(统计学检验p<0.05)，则认为是潜在MSI位点。3)上述方法鉴定出潜在MSI位点，但无法判断MSI是否为肿瘤细胞特有。成对样本检测可以通过对照样本进行区分。本方法为单样本检测，使用基于信息熵的算法预测潜在MSI位点属于生殖细胞突变还是体细胞突变，进而筛选出肿瘤细胞特有的MSI位点。4)统计体细胞突变MSI位点数量及其占总位点数的百分比，若百分比大于设定的阈值(如20％)则认为该样本为微卫星不稳定。

i)样本质控：为确保检测的样本不至于混淆，本方法在捕获芯片上设计了28个多态性位点，这些位点具有人群多态性，在不同人中表现为不同基因型，可用于鉴定与患者的对应关系。检测过程如下：1)分析每个多态性位点的基因型及突变频率；2)使用其他检测方法(如荧光PCR法)对原始样本的相同位点进行分型；3)比较两种方法分型结果的一致性，若一致性>80％表示二者为相同样本，否则说明二者可能为不同样本，需要进一步确认。

j)样本性别质控：为确保检测的样本不至于混淆，本方法在捕获芯片上设计了5个性别判断位点，如表4所示，这些位点分布于性染色体上，可用于鉴定样本性别，判断与患者的对应关系。检测过程如下：1)分析每个性别判断位点的测序情况；2)若X染色体上位点有覆盖，且Y染色体上对应位点也有覆盖，证明样本来源为男性；3)若X染色体上位点有覆盖，且Y染色体上对应位点无覆盖，证明样本来源为女性；4)若X染色体上位点无覆盖，表示样本测序出现问题，无法判断。

k)HLA分型：HLA分型情况可用于新生抗原预测等用途。HLA分型检测过程如下：1)将测序数据比对至包含不同HLA基因型序列的参考基因组(GRCh38)，根据比对情况判断不同基因型的概率；2)提取HLA区域测序读长后进行组装，分析与各种HLA基因型的相似度；3)综合1)和2)两种方法的结果交集作为HLA分型结果。

对上述信息分析方法的验证结果如下：

1、靶向用药相关突变位点检测

使用标准品对上述位点检测情况进行评估，结果如下表11，可见该方法对常见突变位点均可有效检出。

表11

突变类型	基因名称	突变情况	理论突变频率	实际突变频率
					SNP	EGFR	T790M	4.20％	3.02
DEL	FLT3	ΔI836	5.00％	3.21
					SNP	IDH1	R132C	5.00％	3.01
SNP	JAK2	V617F	5.00％	5.59
					SNP	KRAS	G12A	5.00％	2.47
SNP	KRAS	G12R	5.00％	4.86
					SNP	MEK1/MAP2K1	P124L	5.00％	4.23
SNP	NOTCH1	L1600P	4.80％	5.48
					SNP	NRAS	Q61K	5.00％	4.48
融合(fusion)	EML4-ALK	COSF734(EML4-ALK)	3.2	0.93
					融合(fusion)	ROS1	CD74-ROS1 fusion	3.2	1.4

2、MSI检测

使用本方法检测结果与MSI检测金标准(一代测序方法，PCR方法)比较，结果如图4。图中左侧为经金标准检测为微卫星不稳定(MSI)的样本，右侧为经金标准检测为微卫星稳定(MSS)的样本，可见两类样本使用本方法检测的MSI频率数值范围有显著不同，当使用20％频率作为阈值时与金标准的符合度为100％。

3、TMB检测

使用2018-2019年间收集的42例中国肺癌患者样本(样本来源为深圳裕策生物科技有限公司发起的中国抗癌天梯计划数据库)，分别通过本发明的方法和传统WES方法计算TMB，比较二者结果，结果如图5，Pearson相关系数0.965，证明本发明的基因芯片计算的TMB与WES TMB有很高的相关性，可以代表WES TMB。

4、HLA分型

使用本方法检测结果与HLA检测金标准(一代测序方法，PCR方法)比较，结果如下表12，可见分型一致性超过96％。

表12

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种实体瘤多基因检测基因芯片，其特征在于，所述基因芯片包含如表1所示的用于检测肿瘤突变负荷和靶向用药相关突变位点的基因区域的探针序列，以及如表2所示的用于检测微卫星不稳定位点的探针序列；

表1

ABCB1 ABCC2 ABI1 ABL1 ABL2 ABR ACIN1 ACKR3 ACSL3 ACSL6 ACVR1 ADAMTS12 ADAMTS7 ADGRB2 ADGRD1 ADGRE2 ADH1B ADRB3 AFDN AFF1 AFF3 AFF4 AKAP9 AKT2 ALDH2 ALK ALKBH8 ALPK2 AMER1 ANK3 AP1S1 APC APCS APOBEC3A APOBEC3B AR ARHGAP26 ARHGEF12 ARID1A ARID1B ARID2 ARNT ARTN ASPSCR1 ASTE1 ASXL1 ATF1 ATIC ATM ATP1A1 ATP1B2 ATP2B3 ATP2C1 ATR ATRX AXIN1 AXIN2 B2M BACE2 BAHD1 BAP1 BARD1 BCL10 BCL11A BCL11B BCL2 BCL2L11 BCL3 BCL6 BCL7A BCL9 BCL9L BCOR BCORL1 BCR BEND3 BIRC3 BLM BMP7 BMPR1A BRAF BRCA1 BRCA2 BRD3 BRD4 BRDT BRIP1 BTG1 BUB1B C11ORF65 C1ORF127 C1QTNF5 C5ORF49 C8A CACNA1D CALR CAMTA1 CANT1 CANX CARD11 CARNMT1 CARS CASP8 CBFB CBL CBLB CBLC CBX5 CCDC6 CCNB1IP1 CCND1 CCND2 CCND3 CCNE1 CD226 CD274 CD3EAP CD74 CD93 CDC7 CDC73 CDH1 CDH10 CDH6 CDK12 CDK4 CDK6 CDKN1B CDKN2A CDKN2C CEBPA CELSR1 CENPP CEP63 CEP89 CFAP206 CHCHD7 CHD4 CHEK2 CHIC2 CHRNA3 CIC CIITA CILP CLCN2 CLIP1 CLP1 CLTC CLTCL1 CNBP CNMD CNOT1 CNOT3 CNTN4 CNTRL COL1A1 COL2A1 COL5A1 COX6C CREB1 CREB3L1 CREB3L2 CREBBP CRIPAK CRLF2 CRTC1 CRTC3 CSF1R CSF2RB CSF3R CSMD3 CTCF CTNNB1 CUL1 CUX1 CXCR4 CYLD CYP19A1 CYP2D6 DAXX DAZAP1 DCAF4L2 DCBLD1 DCC DCP1B DCSTAMP DCT DCTN1 DDB2 DDIT3 DDR2 DDX10 DDX3X DDX5 DDX6 DDX60L DEFB126 DEFB132 DEK DGKB DHFR DICER1 DMXL2 DNAH10 DNAH5 DNAH7 DNAJB1 DNM2 DNMT3A DOCK2 DOCK8 DPYD DROSHA DTX1 DYNC1H1 EBF1 ECT2L EGFR EIF2B3 EIF3E EIF4A2 ELF4 ELL ELMO1 ELN ELOA EML4 ENPP6 EP300 EPHA7 EPHB2 EPS15 ERBB2 ERBB3 ERBB4 ERC1 ERCC1 ERCC2 ERCC3 ERCC4 ERG ESR1 ETNK1 ETV1 ETV5 ETV6 EWSR1 EXT1 EXT2 EZH2 EZR FAM111B FAM131B FAM20A FAM46C FAM69A FANCA FANCC FANCD2 FANCD2OS FANCE FANCF FANCG FAS FAT1 FAT4 FBXO11 FBXO38 FBXW7 FCAMR FCRL4 FEV FGFR1 FGFR1OP FGFR2 FGFR3 FGFR4 FH FIGN FIP1L1 FLCN FLI1 FLT3 FLT4 FNBP1 FNTB FOXA1 FOXL2 FOXO1 FOXO3 FOXO4 FOXP1 FSTL3 FUBP1 FUS FUT9 FZD6 FZR1 GABRG1 GAS7 GATA1 GATA2 GATA3 GIGYF1 GNA11 GNAQ GNAS GOLGA5 GOLGA6L6 GOLGA8H GOPC GPC3 GPHN GPR141 GRIN2A GRM3 GRXCR1 GSTP1 H3F3A H3F3B HERC1 HERPUD1 HEY1 HIF1A HIP1 HIST1H2BK HIST1H3I HIST1H4I HK3 HLF HMGA1 HNF1A HNRNPA2B1 HOOK3 HOXA9 HOXD13 HPD HRAS HRNR HSP90AA1 HSP90AB1 HSPA1A HSPA1B HSPA4 HSPA5 HSPA8 HYDIN IDH1 IDH2 IFT140 IGFBP4 IKBKB IKZF1 IL16 IL21R IL6ST IL7R INSRR IRAK3 IRF4 ITGA10 ITK ITPKB JAK1 JAK2 JAK3 JAZF1 JUN KAT6B KCNA1 KCNJ5 KCNN2 KCNT2 KDM5A KDM5C KDM6A KDR KDSR KEAP1 KIAA0319L KIAA1522 KIAA1549 KIF14 KIF20B KIF5B KIT KLC1 KLF6 KLHDC7A KLHDC8A KLK2 KMT2A KMT2C KMT2D KNL1 KRAS KRT4 KRT73 KTN1 LASP1 LCK LCP1 LEF1 LHCGR LHFPL6 LIFR LIG3 LMNA LMO1 LOC101927322 LPP LRBA LRIG3 LRP1B LSM14A LYL1 LZTR1 MAFB MAGI1 MALT1 MAML2 MAP1S MAP2 MAP2K1 MAP2K2 MAP2K4 MAP2K7 MAP3K1 MAP3K13 MAP4K3 MAP7 MAPK1 MAPRE3 MAS1L MAX MDM2 MDM4 MECOM MED12 MEN1 MET METTL21A MFRP MFSD11 MITF MKL1 MLF1 MLH1 MLH3 MLLT1 MLLT10 MLLT11 MLLT3 MLLT6 MN1 MNX1 MPL MRPL36 MSH2 MSH3 MSH6 MSI2 MSN MTHFR MTMR9 MTOR MUC12 MUC4 MUTYH MYB MYBPC3 MYC MYCN MYCNOS MYD88 MYH11 MYH9 MYO5A MYO7B NAB2 NACA NBN NBPF10 NBPF19 NBPF20 NBPF9 NCKIPSD NCOA1 NCOA2 NCOA4 NCOR1 NCOR2 NCR1 NDC1 NDRG1 NEFH NEK6 NETO1 NF1 NF2 NFATC2 NFE2 NFE2L1 NFE2L2 NFIB NFKB2 NFKBIE NGRN NIN NLK NME8 NO NONO NOTCH1 NOTCH2 NPAP1 NPBWR2 NPM1 NR4A3 NRAS NRG1 NRXN2 NSD1 NSD2 NSD3 NT5C2 NTRK1 NTRK3 NUDT17 NUMA1 NUP214 NUP98 NUTM1 NXF5 OGDH OMD OR14A16 OR2G6 OR2J2 OR2T2 OR52H1 OR52N5 OR5AS1 OR5H14 OR6C2 Otop1 P2RY8 PALB2 PAPD7 PAX3 PAX5 PAX8 PAXIP1 PBRM1 PBX1 PCDH15 PCDHA1 PCDHA2 PCDHA3 PCDHA4 PCDHA5 PCDHA6 PCDHA7 PCDHA8 PCDHB15 PCDHB16 PCDHB3 PCDHB7 PCM1 PCSK7 PCSK9 PDCD1 PDCD1LG2 PDE4DIP PDGFRA PDGFRB PDIA3 PEAR1 PER1 PHF6 PHOX2B PICALM PIK3CA PIK3R1 PIM1 PINLYP PIP5K1C PLAG1 PLAGL2 PLCG1 PLEKHA6 PLOD1 PLXNB3 PML PMS1 PMS2 PNPLA5 POLD1 POLE POLE4 POT1 POU5F1 PPARG PPARGC1B PPFIBP1 PPP1R12B PPP2R1A PPP6C PRCC PRDM1 PRDM16 PRF1 PRG4 PRKACA PRKAR1A PRKDC PROC PRRX1 PRX PSIP1 PTCH1 PTEN PTK6 PTPN11 PTPN13 PTPRB PTPRC PTPRK PWWP2A PXDNL RABEP1 RAC1 RAD17 RAD21 RAD50 RAD51B RAD51C RAF1 RALGDS RANBP17 RANBP2 RAP1GDS1 RARA RB1 RBM10 RBM15 RBMX RECQL4 REEP5 REL RELN RET RGS22 RHOA RHOH RMI2 RNF213 RNF43 RNMT ROS1 RPL10 RPL5 RPN1 RSPO3 RUNX1 RUNX1T1 RYR3 SBDS SCAF4 SDC4 SDHA SDHAF2 SDHC SDHD SEC14L2 SEC14L3 SEC31A SEC63 SEPT5 SEPT6 SEPT9 SET SETBP1 SETD1B SETD2 SF3B1 SFPQ SGO2 SH2B3 SH3GL1 SHTN1 SLC17A6 SLC27A3 SLC34A2 SLC35F5 SLC39A14 SLC7A2 SLC7A8 SLC9C1 SLTM SMAD2 SMAD3 SMAD4 SMAD7 SMARCA4 SMARCB1 SMARCD1 SMARCE1 SMO SMOX SNAPC5 SND1 SNX25 SOCS1 SOCS5 SOX2 SPECC1 SPEN SPOP SRC SRGAP3 SRP19 SRRM1 SRSF2 SRSF3 SS18 SS18L1 SSX1 SSX4 SSX4B ST14 STAG2 STAT3 STAT5B STAT6 STIL STK11 STRN SUFU SUZ12 SYK SYN3 TACC3 TAF15 TAF1B TAGLN TAL1 TAL2 TAP1 TAP2 TAPBP TAS2R42 TBC1D9 TBCK TBK1 TBL1XR1 TBX18 TBX3 TCERG1 TCF12 TCF3 TCF7L2 TECTA TERT TET1 TET2 TEX10 TFE3 TFG TFPT TFRC TGFBR2 TGIF1 THRAP3 TIMM23B TIMP3 TM9SF3 TMEFF1 TMEM214 TMEM236 TMPRSS13 TMPRSS2 TNFAIP3 TNFRSF14 TNKS2 TNR TOE1 top1 TP53 TPCN1 TPM3 TPM4 TPR TRAF7 TRIM24 TRIM27 TRIM33 TRIOBP TRIP11 TRIP12 TRRAP TSC1 TSC2 TSHR TTI1 TTL TTN TYRP1 U2AF1 U2AF1L5 UBA6 UBR5 UBXN6 UGT1A1 UGT1A10 UGT1A3 UGT1A4 UGT1A5 UGT1A6 UGT1A7 UGT1A8 UGT1A9 UGT2B7 USP6 USP8 VHL VTI1A WDCP WDR20 WDR60 WIF1 WNT16 WRN WT1 WWTR1 XPA XPC XPO1 XRCC1 YWHAE ZAN ZBED4 ZBTB16 ZBTB49 ZCCHC8 ZDHHC6 ZFHX3 ZFHX4 ZNF112 ZNF2 ZNF233 ZNF276 ZNF331 ZNF384 ZNF521 ZNF763 ZNF793 ZNF844 ZRSR2

表2

chr1:75172756 chr1:76257074 chr1:92763091 chr1:94964139 chr1:108160260 chr1:112240038 chr1:112305406 chr1:114224782 chr1:114940632 chr1:115238016 chr1:118623681 chr1:145456732 chr1:154227292 chr1:155679543 chr1:158637865 chr1:168165767 chr1:172577864 chr1:201754410 chr1:211280724 chr1:223156406 chr1:231094050 chr1:237060945 chr1:241954005 chr1:245021291 chr2:271998 chr2:8998775 chr2:44445604 chr2:47635523 chr2:48032740 chr2:48046012 chr2:55559651 chr2:55883509 chr2:61308569 chr2:62063093 chr2:100006890 chr2:120404629 chr2:120620092 chr2:135703650 chr2:149240657 chr2:152424933 chr2:160958349 chr2:169728069 chr2:170917983 chr2:175246386 chr2:179363909 chr2:191941054 chr2:201470233 chr2:218673230 chr2:228356364 chr2:230656987 chr2:234178624 chr2:234916771 chr2:239241445 chr3:5249962 chr3:15613279 chr3:33725814 chr3:42660489 chr3:58296209 chr3:71008341 chr3:77645946 chr3:100438797 chr3:101399910 chr3:108224685 chr3:108355575 chr3:111873902 chr3:112253193 chr3:113377481 chr3:121720514 chr3:132166148 chr3:132173004 chr3:148858987 chr3:158407930 chr3:186295417 chr3:191888452 chr3:196088809 chr4:38937316 chr4:39233719 chr4:42626659 chr4:48529683 chr4:71693494 chr4:76997157 chr4:77065476 chr4:84519775 chr4:89352469 chr4:103505784 chr4:104066176 chr4:113107829 chr4:113568126 chr4:119666217 chr4:122590883 chr4:128621144 chr4:128812230 chr4:141448595 chr4:151850226 chr4:152609920 chr5:14485161 chr5:50122645 chr5:70809269 chr5:72185591 chr5:112346432 chr5:118576096 chr5:137507104 chr5:147785802 chr5:147793666 chr5:150282674 chr5:176729736 chr6:13316780 chr6:15651642 chr6:17602797 chr6:20758808 chr6:24412431 chr6:30573637 chr6:32147291 chr6:36452603 chr6:44216544 chr6:46636556 chr6:90366329 chr6:99817699 chr6:110048489 chr6:136710669 chr6:137325901 chr6:152629772 chr6:157495951 chr6:158049351 chr6:163899794 chr7:5239319 chr7:23226646 chr7:40234742 chr7:65426054 chr7:65599246 chr7:74239417 chr7:74536839 chr7:74608740 chr7:92900512 chr7:95775848 chr7:102727051 chr7:105122891 chr7:116409675 chr7:120739962 chr7:135099044 chr7:138434066 chr8:38940143 chr8:42868455 chr8:96047806 chr8:103287850 chr8:108315599 chr8:121455558 chr9:163927 chr9:19299209 chr9:75420448 chr9:80343587 chr9:85597720 chr9:86588185 chr9:97555228 chr9:131456159 chr9:131743701 chr10:27333121 chr10:70056619 chr10:78868165 chr10:103567665 chr10:116203911 chr11:4139450 chr11:8486375 chr11:11969473 chr11:49056627 chr11:49088577 chr11:55656437 chr11:59368218 chr11:83180169 chr11:85979636 chr11:89534159 chr11:89591660 chr11:89771844 chr11:108004927 chr11:108141955 chr11:108188266 chr11:116629734 chr11:125763610 chr12:3018675 chr12:15776223 chr12:19410474 chr12:21327652 chr12:21791410 chr12:40716037 chr12:45771901 chr12:48360947 chr12:72019989 chr12:72028607 chr12:94575207 chr12:95488339 chr12:96704958 chr12:97311376 chr12:104714847 chr12:129360367 chr13:28133956 chr13:31789169 chr13:39608335 chr13:73409508 chr13:77792099 chr13:79216356 chr13:102235764 chr13:115002097 chr14:20137126 chr14:31191668 chr14:50121449 chr14:51348281 chr15:30010328 chr15:32393486 chr15:43430749 chr15:43927623 chr15:55841195 chr15:55972660 chr15:83808031 chr16:68155860 chr16:75674252 chr17:10543281 chr17:45105631 chr17:62855003 chr17:67178976 chr17:74736999 chr18:649879 chr18:66367726 chr19:327260 chr19:6026288 chr19:6908675 chr19:10090467 chr19:34302673 chr19:38282490 chr20:5548208 chr20:29449657 chr20:31954819 chr20:37146131 chr20:46266543 chr21:34117067 chr21:38522353 chr22:41545024 chr22:46679850 chrX:2343183 chrX:19380975 chrX:23693084 chrX:24084241 chrX:48214185 chrX:48270311 chrX:52654536 chrX:100793432 chrX:114871127 chrX:123204978 chrX:129267464 chrX:134025421 chrX:135080623

；

所述基因芯片还包含检测如下表3所示的HLA基因型的探针；

表3

HLA-A11:01 HLA-B46:01 HLA-C07:02 DRB1*01:01 HLA-A24:02 HLA-B15:01 HLA-C01:02 DRB1*01:02 HLA-A02:01 HLA-B40:01 HLA-C08:01 DRB1*03:01 HLA-A33:03 HLA-B13:02 HLA-C03:04 DRB1*04:01 HLA-A02:07 HLA-B58:01 HLA-C06:02 DRB1*04:04 HLA-A30:01 HLA-B15:02 HLA-C03:02 DRB1*04:07 HLA-A02:06 HLA-B13:01 HLA-C03:03 DRB1*04:11 HLA-A02:03 HLA-B51:01 HLA-C04:01 DRB1*04:12 HLA-A31:01 HLA-B52:01 HLA-C07:17 DRB1*04:17 HLA-A01:01 HLA-B44:03 HLA-C12:02 DRB1*07:01 HLA-A03:01 HLA-B15:11 HLA-C14:02 DRB1*08:02 HLA-A26:01 HLA-B54:01 HLA-C15:02 DRB1*08:03 HLA-B40:06 HLA-C12:03 DRB1*09:01 HLA-B38:02 DRB1*11:01 HLA-B55:02 DRB1*11:04 HLA-B35:01 DRB1*13:01 HLA-B48:01 DRB1*13:02 HLA-B07:02 DRB1*14:01 HLA-B15:18 DRB1*14:02 HLA-B40:02 DRB1*14:06 DRB1*14:08 DRB1*15:01 DRB1*16:02

。

2.根据权利要求1所述的基因芯片，其特征在于，所述基因芯片还包含检测SNP质控位点的探针，所述SNP质控位点为根据Cell Lines Project数据库设计的，中国人群中突变频率在0.4-0.6区间的位点。

3.根据权利要求2所述的基因芯片，其特征在于，所述SNP质控位点包括rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153和rs1541290。

4.根据权利要求1所述的基因芯片，其特征在于，所述基因芯片还包含检测如下表4所示的性别判断质控位点的探针；

表4

。

5.一种如权利要求1-4任一项所述的基因芯片的制备方法，其特征在于，所述方法包括：

提供如权利要求1-4任一项所述的基因芯片所需的芯片基底和结合于芯片基底上的探针；

将所述探针通过基因芯片制备方法结合于所述芯片基底上，得到所述基因芯片。

6.一种非疾病诊断治疗目的的用于肿瘤样本检测的二代测序方法，其特征在于，所述方法包括：

提取肿瘤组织DNA，并以所述肿瘤组织DNA为材料构建测序文库；

使用如权利要求1-4任一项所述的基因芯片捕获所述测序文库中的目标基因；

对所述目标基因进行测序以确定其序列。

7.一种实体瘤多基因检测装置，其特征在于，所述装置包括：

如权利要求1-4任一项所述的基因芯片；以及

用于测定所述基因芯片所捕获的实体瘤组织的核酸序列的测序装置。

8.一种实体瘤多基因检测装置，其特征在于，所述装置包括：

数据获取单元，用于获取如权利要求1-4任一项所述的基因芯片所捕获的实体瘤组织的核酸序列的测序数据；

9.根据权利要求8所述的实体瘤多基因检测装置，其特征在于，所述微卫星不稳定检测单元包括以下子单元：

体细胞微卫星不稳定位点数量统计子单元，用于统计所述体细胞微卫星不稳定位点数量；和

微卫星不稳定检测结果获取子单元，用于筛选所述体细胞微卫星不稳定位点数占总微卫星不稳定位点数的百分比大于设定阈值的位点，获得微卫星不稳定检测结果。

10.根据权利要求9所述的实体瘤多基因检测装置，其特征在于，所述质控标准为5bp≤微卫星不稳定位点长度≤50bp；所述设定标准为p<0.05；所述阈值为20%。

11.根据权利要求8所述的实体瘤多基因检测装置，其特征在于，所述装置还包括如下一种或多种单元：

样本质控单元，用于对所述基因芯片捕获的SNP位点进行基因型分析以得到SNP位点基因型与检测个体的对应关系；

样本性别质控单元，用于对所述基因芯片捕获的性别判断质控位点进行分析以得到性别判断质控位点与检测个体的对应关系；

HLA分型单元，用于对所述基因芯片捕获的HLA基因区域进行HLA分型。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括程序，该程序能够被处理器执行以实现如下所述的实体瘤多基因检测方法：

获取如权利要求1-4任一项所述的基因芯片所捕获的实体瘤组织的核酸序列的测序数据；

对实体瘤组织的测序数据进行肿瘤突变负荷预测；

对实体瘤组织的测序数据进行微卫星不稳定检测。

13.根据权利要求12所述的计算机可读存储介质，其特征在于，所述微卫星不稳定检测包括以下步骤：

使用基于信息熵的算法对所述潜在微卫星不稳定位点进行筛选，获得体细胞微卫星不稳定位点；

统计所述体细胞微卫星不稳定位点数量；和

筛选所述体细胞微卫星不稳定位点数占总微卫星不稳定位点数的百分比大于设定阈值的位点，获得微卫星不稳定检测结果。

14.根据权利要求13所述的计算机可读存储介质，其特征在于，所述质控标准为5bp≤微卫星不稳定位点长度≤50bp；所述设定标准为p<0.05；所述阈值为20%。

15.根据权利要求12所述的计算机可读存储介质，其特征在于，所述实体瘤多基因检测方法，还包括如下一种或多种步骤：

对所述基因芯片捕获的SNP位点进行基因型分析以得到SNP位点基因型与检测个体的对应关系；

对所述基因芯片捕获的性别判断质控位点进行分析以得到性别判断质控位点与检测个体的对应关系；

对所述基因芯片捕获的HLA基因区域进行HLA分型。