CN113481299B

CN113481299B - 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法

Info

Publication number: CN113481299B
Application number: CN202110743775.8A
Authority: CN
Inventors: 李华; 胡传圣; 胡文献; 沈益行
Original assignee: Suzhou Jingmai Biotechnology Co ltd
Current assignee: Suzhou Jingmai Biotechnology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-05-10
Anticipated expiration: 2041-06-30
Also published as: CN113481299A

Abstract

本申请提供用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法，靶向测序panel的探针用于分别靶向捕获待捕获样品中的所述102个靶标基因的特定区域，探针根据102个靶标基因设计，102个靶标基因为根据大量基因，基于检测到的SNV以及InDel，计算T_XN与S_N的皮尔森相关系数R_X，选择R_X大于0.7得到的102个靶标基因，所述用于肺癌检测的试剂盒能够进行靶向捕获，并根据肺癌预测的打分公式和分类阈值，能够将I和II期肺癌患者与健康人进行准确的区分，其检测可靠性经验证，ROC曲线的AUC值达0.9以上。

Description

用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序 panel的方法

技术领域

本发明涉及生物技术领域，更具体地，涉及用于肺癌检测的靶向测序 panel的检测试剂、获得肺癌检测的靶向测序panel的方法、用于肺癌检测的试剂盒以及用于肺癌检测的方法。

背景技术

肺癌是世界范围内发病病例和死亡病例数量最多的恶性肿瘤。其中，非小细胞肺癌约占所有肺癌的80％。肺癌早期病症不明显，因此约75％的患者在发现患癌时已处于肺癌中晚期，已有局部浸润和远端转移。晚期肺癌的五年生存率非常低，不足5％。但是，早期肺癌患者5年生存率可高达90％以上。因此，对肺癌的早期诊断是肺癌患者获得良好预后以及减少死亡率的重要方法。

目前，肺癌的早期诊断方法主要包括：胸部影像学、痰脱落细胞学检测以及支气管镜检查等，而这些方法的检测效果目前并不理想。其中，胸部影像学检测方法包括：X胸片、低剂量螺旋CT(LDCT)和PET-CT等。肺癌在早期通常以肺结节的形式出现，尽管影像学检测提高了肺结节的检出率，但由于肺结节病因复杂且临床表现缺乏特异性，使得对其良恶性的鉴别有一定的难度。因此，X胸片检查的误漏诊率很高，可达50％以上；LDCT和PET-CT对于肺结节的检测特异性较差，在肺癌早期筛查和诊断中广泛应用的LDCT技术其检测假阳性可高达21％以上；并且，这些影像学受测者都需要承受辐射带来的健康风险。痰脱落细胞学检测，诊断中央型肺癌的敏感性约为50％，而对于周围性肺癌则不足20％。支气管镜检查尽管对于中央型肺癌的检测敏感性较高，但对于周围型肺癌的检测效果依然较差，并且这类侵入式检查难以在人群中大范围推广。因此，需要开发敏感性和特异性均比较高且大众易于接受的肺癌早期检测技术。

液体活检技术被《麻省理工大学科技评论》评选为“2015年十大突破技术之一”，作为体外诊断的一个分支，液体活检通过血液或者尿液等对癌症等疾病做出诊断，其优势在于能通过非侵入性取样降低活检的危害，而且有效延长患者生存期，性价比高。基于血液的ctDNA检测作为液体活检技术的重要发展分支之一，有望取代组织活检。目前市场上存在的肺癌突变检测产品包括Roche的以血液为基础的用于检测NSCLC患者EGFR基因突变的基因检测试剂盒，QIAGEN公司的以石蜡包埋组织为基础的检测EGFR基因23种体细胞突变的基因检测试剂盒以及华大吉比美公司的以石蜡包埋组织为样本或者以血液为样本的检测EGFR20/29/50种基因突变的检测试剂盒。但是，这类产品只能够针对肺癌的一种或者若干种基因突变进行检测，对于突变的覆盖度不高，导致它们对肺癌(特别是早期肺癌)的检测敏感性和特异性并不理想。因此，目前很有必要研发新的肺癌检测方法和试剂盒，以用于肺癌高风险人群的肿瘤检测，便于及早进行临床干预。

发明内容

本发明的目的在于，提供用于肺癌检测的靶向测序panel的检测试剂、获得肺癌检测的靶向测序panel的方法、用于肺癌检测的试剂盒以及用于肺癌检测的方法。

本申请的第一方面，提供一种用于肺癌检测的靶向测序panel的检测试剂，所述靶向测序panel的检测试剂包括102个靶标基因对应的探针，所述探针用于分别靶向捕获待捕获样品中的所述102个靶标基因的特定区域，所述102个靶标基因分别为：AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、 CDKN2ADPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、 FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、 MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、 NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、 PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、 PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、 SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、 TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A，将探针靶向捕获的DNA进行测序并对测序数据进行SNV和InDel分析，能够将I和II期非小细胞肺癌患者与健康人进行准确的区分。

在一些实施方式中，探针为带生物素标记的单链DNA分子，其设计使用市场主流设计方法(如Illumina TruSeq Exome)，化学合成委托主流企业 (如生工生物工程)使用常规方法合成。

在一些实施方式中，所述待捕获样品为从人体外周血的血清中提取的游离DNA，经过打断、末端补平加A、连接Y型接头及扩增纯化后的样品。

进一步的，所述人体外周血≥10ml，所述从血清中提取的游离DNA的量为 100-500ng。

进一步的，所述游离DNA被随机打断成小片段，使用磁珠纯化筛选出合适的片段。所述游离DNA被随机打断的方式为：超声打断，游离DNA被随机打断并使用，磁珠纯化筛选出的片段为140-160bp。

进一步的，对筛选出的DNA片段进行末端补平和末端加A，再连接Y型接头，所述Y型接头为：5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和 5’- TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCA TCGTTATCTCGTATGCCGTCTTCTGCTTG-3’，其中，NNNNNNN为7个碱基的随机核苷酸序列(即随机标签序列)，记为A1，ACCGGTCCGTAA为12个碱基的固定序列，记为A2，TTACGGACCGGT为其反向互补序列，TATAGCCT和GCCAATTA为 index序列，用于区分不同受测者的测序数据，可用Illumina常用的8碱基 index替换。

进一步的，连接Y型接头后，进行PCR扩增并且扩增后的产物进行磁珠纯化和定量。所述定量为Qubit定量。

在一些实施方式中，将3-6个待捕获样品(来源于不同的人体)进行等质量比例混合，然后使用所述测序panel中的探针进行杂交，从而靶向捕获所述102个基因的特定区域，所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的 100bp。其中，转录起始位点上游的500bp以及转录终止位点下游的100bp，对基因表达具有重要的调控作用，对该区域的测序具有重要意义，因此本发明的靶向捕获区域包含该区域。

进一步的，使用所述测序panel进行一次靶向捕获后，再一次使用所述测序panel的探针进行靶向捕获及磁珠纯化，随后进行PCR扩增及磁珠纯化，所得产物即为制备好的DNA文库。

在一些实施方式中，将DNA文库进行长度范围检测和浓度定量，随后送至Illumina NextSeq500进行高通量测序，测序时加入测序引物：5’ -ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’，以及Index 引物：5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’，而后获得下机数据(rawdata)。

进一步的，使用Agilent 2100Bioanalyzer进行片段长度范围检测以及Invitrogen Qubit进行浓度定量，测序读长为150bp，测序模式为双端测序。

在一些实施方式中，通过质控工具对所述下机数据进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据(clean data)，随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除，再将其使用序列比对软件与参考基因组序列进行比对，获得定位于所述参考基因组序列的位置信息；再去除PCR重复序列以及低比对质量的序列，再统计目标区域的测序覆盖度，舍弃覆盖度低于1000 倍的区域；然后使用变异检测工具进行SNV和InDel分析，再使用snpEff过滤掉dbSNP(v151)数据库中的常见变异，得到高质量的SNV和InDel位点并用于后续分析和打分。

进一步的，所述质控工具为FastQC、Cutadpat和Trimmomatic；所述序列比对软件为Bowtie2；所述去除PCR重复序列具体为：被序列比对软件比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置相同) 的序列则视为PCR重复，并将其合并为同一条序列；所述去除低比对质量的序列为去除MAPQ<20的序列，获得高比对质量的序列；所述变异检测工具为 Varscan2。

在一些实施方式中，将SNV和InDel分析中得到的每个目标基因中的SNV 与InDel总数，采用打分公式S1进行肺癌预测打分，每个待捕获样品得到一个分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为以下的28个基因：CDKN2A、EGFR、FAM135B、HCN1、 KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、 PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、 TNN、TNR、TP53、TPTE；j为以下的33个基因：ATM、BRAF、CADPS、GALNT13、 GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、 PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、 VPS13A；k为所述102个靶标基因去除i和j后剩下的41个基因；Mu_i为i 中的28个基因的每个基因的SNV和InDel总数，Mu_j为j中的33个基因的每个基因的SNV和InDel总数，Mu_k为k中的41个基因的每个基因的SNV和InDel 总数；C₁＝0.89，C₂＝0.72，C₃＝0.55。

进一步的，以Score_lung＝2为分类阈值，Score_lung大于2则将受测者预测为肺癌，小于等于2则将受测者预测为健康人。

在一些实施方式中，所述用于肺癌检测的靶向测序panel的检测试剂，用于制备肺癌检测试剂盒中的应用。

本申请的第二方面，提供一种获得肺癌检测的靶向测序panel的检测试剂的方法，包括步骤：

(S1)使用TCGA(The Cancer Genome Atlas)的亚洲人肺癌患者全基因组/全外显子组测序数据，计算不同基因在患者中的突变频率，该突变仅为 SNV和InDel，并根据突变频率从高到低进行排序，选出排名靠前的前 300-1000个基因，所述选出的基因中包含常见的癌症驱动基因；从人体外周血的血清中提取的游离DNA，经过打断片段、末端补平加A、连接Y型接头及扩增纯化后的DNA作为待捕获样品；

(S2)利用探针分别靶向捕获步骤S1中选出的基因的特定区域，将探针靶向捕获后的DNA进行测序及测序数据分析，所述测序数据分析包括使用变异检测工具进行SNV和InDel分析；

(S3)对步骤S2进行SNV和InDel分析得到的数据，对于步骤S1中选出的每个基因计算T_XN与S_N的皮尔森相关系数R_X，R_X大于0.7的基因作为肺癌检测的靶向测序panel的靶标基因，靶标基因相对应的探针用于靶向捕获所述靶标基因。

在一些实施方式中，在步骤S1中，选出排名靠前的前500个基因，这500个基因为：ABCA13,ABCA9,ABCB1,ABCB5,ACAN,ACTN2,ADAMTS12, ADAMTS16,ADAMTS18,ADAMTS20,ADAMTSL3,ADCY2,ADCY8,ADGRB3,ADGRG4, ADGRL3,ADGRL4,ADGRV1,AFF2,AHNAK,AHNAK2,AIDA,AKAP6,AKT1,ALMS1, ALPK2,AMER3,ANK1,ANK2,ANK3,ANKRD30A,ANKRD30B,APOB,ARID1A, ASAH2,ASPM,ASTN1,ASTN2,ASXL3,ATM,ATRNL1,BCHE,BCLAF1,BEST1, BIRC6,BOD1L1,BRAF,BRINP2,BRINP3,BRWD3,C6,CACNA1B,CACNA1C, CACNA1E,CACNA2D1,CADPS,CAV2,CDH10,CDH12,CDH18,CDH7,CDH8,CDH9, CDKN2A,CENPF,CFAP47,CFH,CHD5,CHD7,CMYA5,CNGB3,CNTN5,CNTNAP2, CNTNAP4,CNTNAP5,COL11A1,COL12A1,COL14A1,COL15A1,COL19A1,COL1A2, COL22A1,COL24A1,COL3A1,COL4A5,COL5A2,COL6A3,COL6A6,CPED1,CPS1, CRB1,CREBBP,CSMD1,CSMD2,CSMD3,CTNNA2,CTNNB1,CTNND2,CUBN, DCAF4L2,DCC,DCHS1,DCHS2,DGKI,DIDO1,DLC1,DMBT1,DMD,DNAH10, DNAH11,DNAH2,DNAH3,DNAH5，DNAH7，DNAH8，DNAH9,DOCK10，DOCK2,DPM1， DPP10，DSCAM，DST，DTX2，DUSP27，DYNC1H1，DYNC2H1,DYSF，EGFR,EIF3E， ELP4,EPB41L3,EPHA3,EPHA5,EPHA6，EPHB1，EPHB6，ERBB2，ERBB4，ERICH3， EYA4，EYS，F5，F8，F9，FAM135B，FAM47A,FAM47B，FAM47C,FANCL,FAT1, FAT2，FAT3,FAT4,FBN1，FBN2,FCGBP,FCRL5，FER1L6，FGL1，FLG，FLG2， FLNC，FMN2，FRAS1，FREM2，FRMPD1，FSCB，FSHR,FSIP2,FSTL5，GABRA2， GALNT13，GALNT17，GATA3，GFRAL，GKN2，GPR158，GRID1，GRID2，GRIK2， GRIN2A，GRIN2B，GRIN3A，GRM1，GRM5，GRM7,GRM8，HCN1，HDAC9，HECW1，HEPH，HERC1，HERC2，HGF，HIGD2B,HMCN1,HRAS,HRNR,HUWE1,HYDIN， IFT172,IL1RAPL1,INPP5D,ITGA8,ITGAX,ITIH6,ITM2A,ITPRID1,KALRN， KCNB2,KCNH1,KCNH7,KCNH8,KCNT2,KDR，KEAP1,KIAA1109，KIAA1211， KIAA1549L,KIF2B,KLHL1,KLHL4,KMT2C,KMT2D,KRAS,LAMA1,LAMA2, LAMA4,LAMB4，LCT,LPA,LRFN5,LRP1,LRP1B，LRP2,LRRC4C,LRRC7,LRRIQ1，LRRK2，LRRTM4，LTBP1，LYST，MACF1，MAGEC1，MAP2，MDGA2，MDN1，MEK1， MET,MGAM,MKI67,MMP16,MMRN1,MROH2B,MRPL1,MUC16,MUC17,MUC5B， MXRA5,MYCBP2,MYH1,MYH13,MYH2,MYH4,MYH6,MYH7,MYH8,MYO16,MYO18B, MYO3A,MYO7B,MYT1L,NALCN,NAV3,NBAS,NBEA,NCAM2,NCKAP5,NDC80, NDST4,NEB,NEDD4L,NELL1,NEXMIF,NF1,NFE2L2,NID2,NLGN4X,NLRP12, NLRP13,NLRP14,NLRP3,NLRP4,NLRP5,NLRP7,NLRP8,NOS1,NOTCH1, NOTCH4,NPAP1,NRAS,NRK,NRXN1,NRXN3,NTM,NTRK3,OBSCN,OCA2,OR2L13, OR2T4,OR4A15,OR4C6,OR5L2,OR6F1,OSBPL10,OTOF,OTOGL,OVCH1, PAPPA2,PCDH10,PCDH11X,PCDH15,PCDH17,PCDHB7,PCLO,PDE1C,PDE3A, PDE4DIP,PDGFRA,PDZRN3,PEG3,PIK3CA,PIK3CG,PKD1L1,PKHD1,PKHD1L1, PLCB1,PLCH1,PLCL1,PLEC,PLPPR4,PLXNA4,POLQ,POM121L12,POTEE,POTEG,PPFIA2,PPP1R3A,PRDM9,PREX1,PREX2,PRKCZ,PRKDC,PRSS1, PRUNE2,PSEN2,PSG2,PSG5,PTEN,PTPRB,PTPRC,PTPRD,PTPRT,PTPRZ1, PUS7L,PXDNL,PYHIN1,RB1,RBMS3,REG1B,RELN,RGS7,RIMS1,RIMS2,RNF7, ROBO2,RP1,RP1L1,RSKR,RUNX1T1,RYR1,RYR2,RYR3,SACS,SAGE1,SALL1, SCN10A,SCN1A,SCN2A,SCN3A,SCN5A,SCN7A,SDK1,SEMA5A,SETBP1,SETD2,SGIP1,SI,SIPA1L2,SLC26A3,SLC39A12,SLC41A3,SLC4A10,SLC5A1, SLC6A5,SLC8A1,SLIT2,SLIT3,SLITRK1,SLITRK2,SLITRK3,SMARCA4, SNTG1，SORCS1,SORCS3，SPAG17，SPATA31A6,SPATA31D1,SPATA31E1,SPEF2, SPEG,SPHKAP,SPTA1，STAB2,STK11,SUDS3,SVEP1,SYNE1，SYNE2,TAF1L， TBX15，TCHH，TECTA,TENM1,TENM2,TENM3,TENM4,TEX15，TG,THBS2， THSD7A,THSD7B，TIAM1，TIMD4，TLN2,TLR4,TMEM132B，TMEM132D，TMPRSS15, TMTC1，TNN，TNR，TP53,TPR,TPTE,TRHDE，TRIM51，TRIM58,TRIO,TRPA1， TRPS1，TRRAP，TSHZ3，TTN，U2AF1,UBR4,UNC13C,UNC5D,UNC79,USH2A, USP29，USP34，UTRN，VCAN，VPS13A,VPS13B,VPS13C，VPS13D，VWF，WDFY3， XIRP2，ZAN，ZBBX,ZDBF2，ZEB1,ZEB2,ZFHX3,ZFHX4，ZFPM2,ZIC1，ZNF208， ZNF423,ZNF479,ZNF521,ZNF536,ZNF716,ZNF804A,ZNF804B,ZNF831,ZP4，其中所述常见的癌症驱动基因为：AKT1,BRAF,CDKN2A,CTNNB1,EGFR,ERBB2, HRAS,KEAP1,KRAS,MEK1,MET,NFE2L2,NOTCH1,NRAS,PIK3CA,PTEN,STK11, TP53。

进一步的，所述人体外周血≥10ml,所述从血清中提取的游离DNA的量为 100-500ng。

在一些实施方式中，将3-6个待捕获样品(来源于不同的人体)进行等质量比例混合，然后使用所述测序panel中的探针进行杂交，从而靶向捕获所述102个基因的特定区域，所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的 100bp。

进一步的，将捕获后的DNA进行PCR扩增及磁珠纯化，所得产物即为制备好的DNA文库。

进一步的，将DNA文库进行长度范围检测和浓度定量，随后送至IlluminaNextSeq500进行高通量测序，测序时加入测序引物：5’ -ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’，以及Index 引物：5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’，而后获得下机数据(raw data)。

进一步优选的，使用Agilent 2100Bioanalyzer进行片段长度范围检测以及Invitrogen Qubit进行浓度定量，测序读长为150bp，测序模式为双端测序。

进一步的，通过质控工具对所述下机数据进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据(clean data)；随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除；再将其使用序列比对软件与参考基因组序列进行比对，获得定位于所述参考基因组序列的位置信息；再去除PCR重复序列以及低比对质量的序列，再统计目标区域的测序覆盖度，舍弃覆盖度低于1000倍的区域；然后使用变异检测工具进行SNV和InDel分析，再使用snpEff(默认参数)过滤掉dbSNP(v151)数据库中的常见变异，得到高质量的SNV和InDel 位点并用于后续分析和打分。

进一步的优选的，所述质控工具为FastQC、Cutadpat和Trimmomatic；所述序列比对软件为Bowtie2；所述去除PCR重复序列具体为：被序列比对软件比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置相同)的序列则视为PCR重复，并将其合并为同一条序列；所述去除低比对质量的序列为去除MAPQ<20的序列，获得高比对质量的序列；所述变异检测工具为Varscan2。

在一些实施方式中，在步骤S3中，对于步骤S1中选出的任意一个基因 X和受测者N而言，T_XN为该受测者的该基因中检测到的SNV和InDel总数，同时，为每一个受测者定义一个变量S_N，当受测者为健康人、I期患者和II 期患者的时候，S_N分别是0、1和2，对于基因X，计算T_XN与S_N的皮尔森相关系数R_X，R_X大于0.7的基因即为肺癌检测的测序panel的靶标基因。

进一步的，所述靶标基因有102个，102个靶标基因分别为：AIDA、ASAH2、 ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、 ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、 HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、 KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、 NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、 POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、 REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、 SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、 TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A。

进一步的，计算102个靶标基因的每个目标基因中的SNV与InDel总数，采用打分公式S1进行肺癌预测打分，每个待捕获样品得到一个分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为R_X大于0.9的28个基因：CDKN2A、EGFR、FAM135B、HCN1、 KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、 PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、 TNN、TNR、TP53、TPTE；j为R_X大于0.8且小于等于0.9的33个基因：ATM、 BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、 NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、 POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、 UNC5D、VPS13A；k为R_X大于0.7且小于等于0.8的、102个靶标基因去除i 和j后剩下的41个基因；Mu_i为i中的28个基因的每个基因的SNV和InDel 总数，Mu_j为j中的33个基因的每个基因的SNV和InDel总数，Mu_k为k中的 41个基因的每个基因的SNV和InDel总数；C₁＝∑(R_i ²)/28＝0.89，C₂＝∑

(R_j ²)/33＝0.72，C₃＝∑(R_k ²)/41＝0.55，R_i，R_j和R_k分别对应了上述i、j、k基因的R_X。

在本申请的第三方面，提供一种用于肺癌检测的试剂盒，所述试剂盒包括：

Y型接头，所述Y型接头为：5’- AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAG CCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和 5’- TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’，其中，NNNNNNN为7个碱基的随机核苷酸序列(即随机标签序列)，记为A1，ACCGGTCCGTAA为12个碱基的固定序列，记为A2，TTACGGACCGGT为其反向互补序列，TATAGCCT和GCCAATTA为 index序列，用于区分不同受测者的测序数据，可用Illumina常用的8碱基 index替换；所述Y型接头用于对人体外周血血清中的游离DNA进行片段打断和末端补平加A后的DNA进行连接Y型接头。

在一些实施方式中，所述试剂盒还包括：102个靶标基因对应的探针，所述探针用于分别靶向捕获待捕获样品中的所述102个靶标基因的特定区域，所述102个靶标基因分别为：AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、 CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、 FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、 IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、 LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、 NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、 OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、 PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、 SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、 TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A。

在本申请中，Y型接头的设计特别考虑了以下两方面：(1)Y型接头中的随机核苷酸序列(A1)的长度由计算机模拟计算后确定，具体方法为：1，用游离DNA的入口量(以500ng计)除以单个细胞的DNA量(以6pg计)，随后乘以2，得到超声打断产生的同一位置的DNA片段的最多可能拷贝数m； 2,假定A1的长度为n，使用R语言产生一个长度为42n的向量，包含的元素为从1到42n的自然数；3，使用R语言从所述向量中进行有放回抽样，抽样次数为m，对抽得的m个元素进行去重并计算去重后剩余元素数占m个元素的比例P；4，不断增加n，当n≥7时，P大于99.9％，即同一位置的DNA拷贝因为连接到了相同的A1而在后续分析中被误认为是PCR重复去除的比例低于千分之一；又由于A1应尽可能短(减少由于测序错误导致的不同A1被读成相同的可能性；减少A1在下机数据中的占比以提高经济性)，A1的长度显然应该选择7。(2)Y型接头中的固定序列(A2)的长度由以下方法确定：假定固定序列包含n个核苷酸(n≥8)，当n从8依次增加到12时，对应的固定序列的碱基组合数量依次为65536,262144,1048576,4194304,16777216；使用序列比对软件Bowtie2将所有的组合比对到人类参考基因组(hg38)，当n≤11时，所有组合都可以完美比对到人类参考基因组上(即没有任何错配)，当n＝12时，开始出现少量(<1％)无法完美比对的碱基组合；可以推断，当n≥13时，亦会有无法完美比对的碱基组合；为了避免因固定序列与基因组序列完全相同而发生错误的序列移除，同时为了让固定序列尽可能短(减少由于测序错误导致的A2无法识别；减少A2在下机数据中的占比以提高经济性)，固定序列A2的长度显然应该选择12。

换言之，通过以下方法确定了固定序列A2的长度为12：假定固定序列包含n个核苷酸(n≥8)，当n从8依次增加到12时，对应的固定序列的碱基组合数量依次为65536,262144,1048576,4194304,16777216；使用序列比对软件Bowtie2将所有的组合比对到人类参考基因组(hg38)，当n≤11时，所有组合都可以完美比对到人类参考基因组上(即没有任何错配)，当n＝12 时，开始出现少量(<1％)无法完美比对的碱基组合；可以推断，当n≥13时，亦有无法完美比对的碱基组合；为了避免因固定序列与基因组序列完全相同而发生错误的序列移除，同时为了让固定序列尽可能短(减少由于测序错误导致的A2无法识别；减少A2在下机数据中的占比以提高经济性)，固定序列A2的长度显然应该选择12。通过以下方法确定了随机核苷酸序列A1的长度为7。1，用游离DNA的入口量(以500ng计)除以单个细胞的DNA量(以 6pg计)，随后乘以2，得到超声打断产生的同一位置的DNA片段的最多可能拷贝数m；2,假定A1的长度为n，使用R语言产生一个长度为4²ⁿ的向量，包含的元素为从1到4²ⁿ的自然数；3，使用R语言从所述向量中进行有放回抽样，抽样次数为m，对抽得的m个元素进行去重并计算去重后剩余元素数占m 个元素的比例P；4，不断增加n，当n≥7时，P大于99.9％，即同一位置的 DNA拷贝因为连接到了相同的A1而在后续分析中被误认为是PCR重复去除的比例低于千分之一；又由于A1应尽可能短(减少由于测序错误导致的不同 A1被读成相同的可能性；减少A1在下机数据中的占比以提高经济性)，A1 的长度显然应该选择7。

在一些实施方式中，所述试剂盒还包括ERP3(15046465,Illumina)和 ATL2(15046467,IIlumina)，分别用于对片段打断后的DNA进行末端补平和末端加A。

在一些实施方式中，所述试剂盒还包括PPC(15031748,Illumina)和EPM(15041027,Illumina)，这两个试剂用于对连接Y型接头后的DNA进行PCR 扩增，PCR扩增的产物进行磁珠纯化和定量后用于进行靶标基因捕获。

在一些实施方式中，所述试剂盒还包括NEM(15037047,Illumina)，用于对靶标基因捕获后的DNA进行PCR扩增，PCR扩增后的产物进行磁珠纯化即为制备好的DNA文库。

在一些实施方式中，所述试剂盒还包括测序引物：5’ -ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’，以及Index 引物：5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’，所述测序引物和Index引物用于DNA文库在IlluminaNextSeq500进行高通量测序需要加入的引物，从而获得下机数据。

在一些实施方式中，所述用于肺癌检测的试剂盒的使用方法，包括步骤：

(S1)对人体外周血血清中的游离DNA进行片段打断后的DNA使用ERP3 (15046465,Illumina)进行末端补平，再使用ATL2(15046467,Illumina) 进行末端加A，然后使用所述Y型接头进行连接Y型接头，再使用PPC (15031748,IIlumina)和EPM(15041027,Illumina)对连接Y型接头后的 DNA进行PCR扩增；

(S2)使用所述探针对步骤S1获得的DNA进行分别靶向捕获102个靶标基因，再NEM(15037047,Illumina)进行PCR扩增，扩增后的产物进行磁珠纯化即为制备好的DNA文库；

(S3)对DNA文库使用所述测序引物和Index引物加入到Illumina NextSeq500进行高通量测序种，获得下机数据；

(S4)对下机数据进行数据质控和预处理，随后通过识别固定碱基序列 A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’ 端移除，再将其使用序列比对软件与参考基因组序列进行比对，获得定位于所述参考基因组序列的位置信息；再去除PCR重复序列以及低比对质量的序列，再统计目标区域的测序覆盖度，舍弃覆盖度低于1000倍的区域；然后使用变异检测工具进行SNV和InDel分析，再使用snpEff过滤掉dbSNP(v151) 数据库中的常见变异，得到高质量的SNV和InDel位点并用于后续分析和打分；计算每个目标基因中的SNV和InDel位点总数，采用打分公式S1进行肺癌预测打分，每个待捕获样品得到一个分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为以下的28个基因：CDKN2A、EGFR、FAM135B、HCN1、KEAP1、 KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、 RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、 TNR、TP53、TPTE；j为以下的33个基因：ATM、BRAF、CADPS、GALNT13、GFRAL、 HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、 OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、 PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A； k为所述102个靶标基因去除i和j后剩下的41个基因；Mu_i为i中的28个基因的每个基因的SNV和InDel总数，Mu_j为j中的33个基因的每个基因的 SNV和InDel总数，Mu_k为k中的41个基因的每个基因的SNV和InDel总数； C₁＝0.89，C₂＝0.72，C₃＝0.55；以Score_lung＝2为分类阈值，Score_lung大于2则将受测者预测为肺癌，小于等于2则将受测者预测为健康人。

进一步的，在步骤S4中，所述质控工具为FastQC、Cutadpat和 Trimmomatic，通过质控工具对所述下机数据进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据(clean data)；所述序列比对软件为Bowtie2；所述去除PCR重复序列具体为：被序列比对软件比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置相同)的序列则视为PCR重复，并将其合并为同一条序列；所述去除低比对质量的序列为去除MAPQ<20的序列，获得高比对质量的序列；所述变异检测工具为Varscan2。

在本申请的第四方面，提供一种用于肺癌检测的方法，包括步骤：

(A)从人体外周血的血清中提取的游离DNA，经过打断片段、末端补平加A、连接Y型接头及扩增纯化后的DNA作为待捕获样品；

(B)利用探针分别靶向待捕获样品中的102个靶标基因的特定区域，所述102个靶标基因分别为：AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、 CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、 FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、 IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、 MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、 NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、 PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、 SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、 SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、 TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A；

(C)将探针靶向捕获后的DNA进行测序及测序数据分析，所述测序数据分析包括使用变异检测工具进行SNV和InDel分析，能够将I和II期肺癌患者与健康人进行准确的区分。

在一些实施方式中，在步骤A中，所述人体外周血≥10ml,所述从血清中提取的游离DNA的量为100-500ng。

所述游离DNA被随机打断成小片段，使用磁珠纯化筛选出合适的片段。所述游离DNA被随机打断的方式为：超声打断，游离DNA被随机打断并使用，磁珠纯化筛选出的片段为140-160bp。

进一步的，对筛选出的DNA片段进行末端补平和末端加A，再连接Y型接头，所述Y型接头为：5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和 5’- TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCA TCGTTATCTCGTATGCCGTCTTCTGCTTG-3’，其中，NNNNNNN为7个碱基的随机核苷酸序列(即随机标签序列)，记为A1，ACCGGTCCGTAA为12个碱基的固定序列，记为A2，TTACGGACCGGT为其反向互补序列，TATAGCCT和GCCAATTA为 index序列，用于区分不同受测者的测序数据，可用Illumina常用的8碱基 index替换。。

在一些实施方式中，在步骤B中，将3-6个待捕获样品(来源于不同的人体)进行等质量比例混合，然后使用所述测序panel中的探针进行杂交，从而靶向捕获所述102个基因的特定区域，所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp。

在一些实施方式中，在步骤C中，将两个靶向捕获后获得的DNA，进行PCR扩增及磁珠纯化，所得产物即为制备好的DNA文库。

进一步优选的，使用Agilent 2100 Bioanalyzer进行片段长度范围检测以及Invitrogen Qubit进行浓度定量，测序读长为150bp，测序模式为双端测序。

进一步的，通过质控工具对所述下机数据进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据(clean data)；随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列 5’以及3’端移除；再将其使用序列比对软件与参考基因组序列进行比对，获得定位于所述参考基因组序列的位置信息；再去除PCR重复序列以及低比对质量的序列，再统计目标区域的测序覆盖度，舍弃覆盖度低于1000倍的区域；然后使用变异检测工具进行SNV和InDel分析，再使用snpEff(默认参数)过滤掉dbSNP(v151)数据库中的常见变异，得到高质量的SNV和InDel 位点并用于后续分析和打分。

进一步的，基于得到的每个目标基因中的SNV与InDel总数，采用打分公式S1进行肺癌预测打分，每个待捕获样品得到一个分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为以下的28个基因：CDKN2A、EGFR、FAM135B、HCN1、KEAP1、 KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、 TNR、TP53、TPTE；j为以下的33个基因：ATM、BRAF、CADPS、GALNT13、GFRAL、 HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、 OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、 PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A； k为所述102个靶标基因去除i和j后剩下的41个基因；Mu_i为i中的28个基因的每个基因的SNV和InDel总数，Mu_j为j中的33个基因的每个基因的 SNV和InDel总数，Mu_k为k中的41个基因的每个基因的SNV和InDel总数； C₁＝0.89，C₂＝0.72，C₃＝0.55。

与现有技术相比，本发明的有益效果在于：

1、102个靶标基因的选取方法更为合理，使用了TCGA的亚洲人肺癌突变大数据进行了500基因的初步筛选，随后又使用了中国肺癌患者和健康人的突变数据对靶标基因进行了进一步的筛选，最终确定了102个靶标基因，随后又使用了中国肺癌患者和健康人作为验证组，验证了对102个靶标基因的特定区域测序能够将I和II期肺癌患者与健康人进行准确的区分。

2、Y型接头的序列设计更为优化，与常规Y型接头相比，除了设计引物区域序列、引入随机核苷酸序列(A1)和固定序列(A2)，更重要的是提出了 A1和A2的优化设计方法，这既能减少后续数据分析产生的错误，又能提高测序的经济性；这些特点对于提高肺癌检测准确度以及降低肺癌检测成本非常重要。

3、本发明通过计算T_XN与S_N的皮尔森相关系数R_X筛选出了102个靶标基因，本发明提出了新的预测肺癌的打分公式S1，应用该公式能够简单并且准确的将I和II期肺癌患者与健康人进行准确的区分，预测准确性高，使用简便且经过了临床样品的验证，具有很大的推广潜力。

附图说明

结合以下附图一起阅读时，将会更加充分地描述本申请内容的上述和其他特征。可以理解，这些附图仅描绘了本申请内容的若干实施方式，因此不应认为是对本申请内容范围的限定。通过采用附图，本申请内容将会得到更加明确和详细地说明。

图1为训练组100例样品测序数据的质控结果箱线图。其中，平均覆盖度经过了以10000为底的对数转换。

图2为在训练组中使用打分公式S1得到的肺癌检测ROC曲线。图中“肺癌”指的是I和II期非小细胞肺癌。

图3为验证组100例样品测序数据的质控结果箱线图。其中，平均覆盖度经过了以10000为底的对数转换。

图4为在验证组中使用打分公式S1得到的肺癌检测ROC曲线。图中“肺癌”指的是I和II期非小细胞肺癌。

具体实施方式

描述以下实施例以辅助对本申请的理解，实施例不是也不应当以任何方式解释为限制本申请的保护范围。

下列实施例中未注明具体条件的实验方法，按照常规实验条件，例如 Sambrook等人的分子克隆实验室手册(New York:Cold Spring Harbor Laboratory Press，1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。除非有特别说明，否则实施例所用的材料均为市售产品。

实施例1：获得训练组外周血

申请人于2018年3月至2019年1月采集了未经治疗的I和II期非小细胞肺癌患者的外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性30例，女性20例，平均年龄为57.8，年龄分布为33–79岁，均为中国人。同期，申请人采集了健康人外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性30例，女性20例，平均年龄为58.2，年龄分布为33–78岁，均为中国人。这两组样品作为训练组样本，这两组样品的性别与年龄都没有统计学上的显著差异，因此满足性别和年龄匹配的原则。

对于每一份外周血，均进行提取游离DNA、片段打断末端补平加A、连接 Y型接头及扩增纯化后的DNA作为待捕获样品。

实施例2：制备待捕获样品

将对于每一份外周血，均进行以下提取游离DNA、片段打断末端补平加A、连接Y型接头及扩增纯化和定量，得到的DNA作为待捕获样品：

(1)对每一份外周血，在用干燥采血管采集后于4℃静置半小时以上，随后400g，4℃离心10分钟取上清，进一步1800g，4℃离心10分钟取上清，得到血清样品，保存于-80℃冰箱中；

(2)使用QIAamp Circulating Nucleic Acid Kit(55114，QIAGEN) 从上述血清样品抽提100–500ng的DNA，用超纯水(无DNA酶和RNA酶，下同)稀释至总体积为20μl，随后使用Covaris超声破碎仪将其打断至片段长度为200bp左右；

(3)将打断完的样本用RSB(15026770，Illumina)补足至50ul体积，加入100ulSPB(15052080，Illumina)混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入62.5ul RSB后混匀，室温孵育2min，磁力架上吸附，取上清60ul至新管；

(4)加入40ul ERP3(15046465,Illumina)，混匀后30℃补平30min，降至4℃后取出；

(5)加入90ul SPB后充分混匀，室温孵育5min，磁力架上吸附，吸取 185ul上清至新管，往新管内加入125ul SPB后充分混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入20ul RSB 重悬磁珠，室温孵育2min，磁力架上吸附，取上清17.5ul至新管；

(6)加入12.5ul ATL2(15046467，Illumina)，混匀后37℃反应30min， 70℃反应5min，4℃冷却5min后取出；

(7)加入2.5ul RSB，2.5ul LIG2(15036183，Illumina)，2.5ul接头(adapter；15uM；接头为Y型接头，碱基序列为5’- AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGC CTCAAGTATCTGCGTTCACCGAC CTGCAACGACTAGCNNNNNNNNNNTACGGTGCGCT-3’和5’- GCGCACCGTANNNNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’)混匀后30℃反应10min，降至4℃ 后取出；其中，TATAGCCT和GCCAATTA为index序列，用于区分不同受测者的测序数据，后续需要混样的不同样品在此处使用了不同的index序列(替换序列参照IIlumina常用的8碱基index序列)。

(8)加入5ul STL(15012546,Illumina)混匀，加入39ul SPB混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入52.5ul RSB，室温孵育2min，磁力架上吸附，吸取50ul上清至新管，新管加入45ul SPB混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入27.5ul RSB，室温孵育2min，磁力架上吸附，吸取25ul上清至新管；

(9)加入5ul PP(15031748，Illumina)20ul EPM(15041027，Illumina) 混匀后进行PCR反应：95℃预变性3min，98℃变性20s，60℃退火15s，72 ℃延伸30s，执行11个循环后，72℃延伸5min降至4℃后取出；

(10)加35ul SPB充分混匀，室温孵育5min，磁力架上吸附，取82ul 上清至新管，加入82ul SPB混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加入17.5ul RSB重悬磁珠，室温孵育2min，磁力架上吸附，取上清15ul至新管，用Invitrogen Qubit测定浓度后的DNA作为待捕获样品。

实施例3：选出突变频率高的500个基因

首先，选出以下常见的癌症驱动基因：AKT1，BRAF,CDKN2A，CTNNB1,EGFR, ERBB2,HRAS,KEAP1,KRAS,MEK1,MET,NFE2L2,NOTCH1,NRAS,PIK3CA,PTEN, STK11,TP53。

然后，使用TCGA的肺癌患者(亚洲人)全基因组/全外显子组测序数据，计算不同基因在患者中的突变频率，该突变仅为SNV和InDel，并根据突变频率从高到低进行排序，选出排名靠前的前500个基因，这500个基因中包含了上述常见的18个癌症驱动基因，这500个基因为：ABCA13,ABCA9,ABCB1, ABCB5,ACAN,ACTN2,ADAMTS12,ADAMTS16,ADAMTS18,ADAMTS20,ADAMTSL3, ADCY2,ADCY8,ADGRB3,ADGRG4,ADGRL3,ADGRL4,ADGRV1,AFF2,AHNAK,AHNAK2,AIDA,AKAP6,AKT1,ALMS1,ALPK2,AMER3,ANK1,ANK2,ANK3, ANKRD30A,ANKRD30B,APOB,ARID1A,ASAH2,ASPM,ASTN1,ASTN2,ASXL3, ATM,ATRNL1,BCHE,BCLAF1,BEST1,BIRC6,BOD1L1,BRAF,BRINP2,BRINP3, BRWD3,C6,CACNA1B,CACNA1C,CACNA1E,CACNA2D1,CADPS,CAV2,CDH10, CDH12,CDH18,CDH7,CDH8,CDH9,CDKN2A,CENPF,CFAP47,CFH,CHD5,CHD7,CMYA5,CNGB3,CNTN5,CNTNAP2,CNTNAP4,CNTNAP5,COL11A1,COL12A1, COL14A1,COL15A1,COL19A1,COL1A2,COL22A1,COL24A1,COL3A1,COL4A5, COL5A2,COL6A3,COL6A6,CPED1,CPS1,CRB1,CREBBP,CSMD1,CSMD2,CSMD3, CTNNA2,CTNNB1,CTNND2,CUBN,DCAF4L2,DCC,DCHS1,DCHS2,DGKI,DIDO1, DLC1,DMBT1,DMD,DNAH10,DNAH11,DNAH2,DNAH3,DNAH5,DNAH7,DNAH8, DNAH9,DOCK10,DOCK2,DPM1,DPP10,DSCAM,DST,DTX2,DUSP27,DYNC1H1, DYNC2H1,DYSF,EGFR,EIF3E,ELP4,EPB41L3,EPHA3,EPHA5,EPHA6,EPHB1, EPHB6,ERBB2,ERBB4,ERICH3,EYA4,EYS,F5,F8,F9,FAM135B,FAM47A, FAM47B,FAM47C,FANCL,FAT1,FAT2,FAT3,FAT4,FBN1,FBN2,FCGBP,FCRL5, FER1L6,FGL1,FLG,FLG2,FLNC,FMN2,FRAS1,FREM2,FRMPD1,FSCB，FSHR, FSIP2，FSTL5,GABRA2,GALNT13,GALNT17，GATA3，GFRAL,GKN2,GPR158，GRID1，GRID2,GRIK2,GRIN2A，GRIN2B,GRIN3A，GRM1,GRM5,GRM7，GRM8, HCN1，HDAC9,HECW1，HEPH，HERC1，HERC2,HGF,HIGD2B,HMCN1,HRAS，HRNR， HUWE1，HYDIN,IFT172,IL1RAPL1，INPP5D,ITGA8,ITGAX,ITIH6,ITM2A， ITPRID1，KALRN,KCNB2，KCNH1,KCNH7,KCNH8,KCNT2,KDR,KEAP1， KIAA1109,KIAA1211,KIAA1549L,KIF2B，KLHL1，KLHL4,KMT2C,KMT2D，KRAS，LAMA1，LAMA2,LAMA4，LAMB4，LCT，LPA，LRFN5，LRP1，LRP1B,LRP2，LRRC4C, LRRC7,LRRIQ1,LRRK2,LRRTM4,LTBP1,LYST,MACF1,MAGEC1,MAP2,MDGA2, MDN1,MEK1,MET,MGAM，MKI67,MMP16,MMRN1,MROH2B,MRPL1,MUC16,MUC17, MUC5B,MXRA5,MYCBP2,MYH1,MYH13,MYH2,MYH4,MYH6,MYH7,MYH8,MYO16, MYO18B,MYO3A,MYO7B,MYT1L,NALCN,NAV3,NBAS,NBEA,NCAM2,NCKAP5, NDC80，NDST4,NEB,NEDD4L,NELL1，NEXMIF,NF1,NFE2L2,NID2,NLGN4X，NLRP12,NLRP13,NLRP14,NLRP3,NLRP4,NLRP5，NLRP7,NLRP8,NOS1, NOTCH1,NOTCH4,NPAP1,NRAS,NRK,NRXN1,NRXN3,NTM,NTRK3,OBSCN,OCA2, OR2L13,OR2T4,OR4A15,OR4C6,OR5L2,OR6F1,OSBPL10,OTOF,OTOGL, OVCH1,PAPPA2,PCDH10,PCDH11X,PCDH15,PCDH17,PCDHB7,PCLO,PDE1C, PDE3A,PDE4DIP，PDGFRA,PDZRN3,PEG3,PIK3CA,PIK3CG,PKD1L1,PKHD1,PKHD1L1,PLCB1,PLCH1,PLCL1,PLEC,PLPPR4,PLXNA4,POLQ,POM121L12, POTEE,POTEG,PPFIA2,PPP1R3A,PRDM9,PREX1,PREX2,PRKCZ,PRKDC, PRSS1,PRUNE2,PSEN2,PSG2,PSG5,PTEN，PTPRB,PTPRC,PTPRD，PTPRT, PTPRZ1,PUS7L,PXDNL，PYHIN1,RB1,RBMS3,REG1B,RELN,RGS7,RIMS1, RIMS2,RNF7,ROBO2,RP1,RP1L1,RSKR,RUNX1T1,RYR1,RYR2,RYR3,SACS,SAGE1,SALL1,SCN10A,SCN1A,SCN2A,SCN3A,SCN5A,SCN7A,SDK1,SEMA5A, SETBP1,SETD2,SGIP1,SI,SIPA1L2,SLC26A3,SLC39A12,SLC41A3,SLC4A10, SLC5A1,SLC6A5,SLC8A1,SLIT2,SLIT3,SLITRK1,SLITRK2,SLITRK3, SMARCA4,SNTG1,SORCS1,SORCS3,SPAG17,SPATA31A6,SPATA31D1, SPATA31E1,SPEF2,SPEG,SPHKAP,SPTA1,STAB2,STK11,SUDS3,SVEP1, SYNE1,SYNE2，TAF1L,TBX15,TCHH，TECTA,TENM1,TENM2,TENM3,TENM4, TEX15,TG,THBS2,THSD7A,THSD7B,TIAM1,TIMD4,TLN2,TLR4,TMEM132B, TMEM132D,TMPRSS15,TMTC1，TNN,TNR,TP53,TPR,TPTE,TRHDE,TRIM51， TRIM58,TRIO,TRPA1,TRPS1,TRRAP,TSHZ3,TTN,U2AF1,UBR4,UNC13C, UNC5D,UNC79，USH2A,USP29,USP34，UTRN,VCAN，VPS13A,VPS13B,VPS13C, VPS13D,VWF,WDFY3,XIRP2,ZAN,ZBBX，ZDBF2,ZEB1,ZEB2,ZFHX3,ZFHX4, ZFPM2，ZIC1,ZNF208,ZNF423，ZNF479，ZNF521，ZNF536，ZNF716,ZNF804A, ZNF804B，ZNF831,ZP4。

实施例4：捕获待捕获样品中的选出的500个基因并进行上机测序

将多个待捕获样品(来源于不同的人体)混合，使用探针分别靶向捕获选出的500个基因的特定区域，靶向捕获两次，将捕获后的DNA进行PCR扩增及磁珠纯化，所得产物即为制备好的DNA文库。

(1)将5个实施例2得到的待捕获样品按等质量比例混合，使总样本量在900ng-1500ng之间，体积用RSB补足至40ul；

(2)加入50ul CT3(15048799,Illumina)，10ul DNA探针溶液(0.5uM，根据实施例3中选出的500个基因分别合成相应的探针，探针为带生物素标记的单链DNA分子，其设计参照Illumina TruSeq Exome(FC-150-1004)设计，化学合成使用常规方法)混匀后进行杂交反应：95℃，10min；94℃,1min，92℃,1min，90℃,1min，…，60℃,1min(每降2℃反应1min)；58℃，90min 后可取出；探针分别靶向捕获每个待捕获样品的500个基因的特定区域，所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp。

(3)取EP管，立即加入100ul上步得到的样品，加入250ul SMB(15015927,IIlumina)，室温孵育25min，磁力架上吸附，弃上清，加200ul SWS(15052987, Illumina)，混匀，50℃孵育30min，立即放在磁架上，吸附，弃上清，重复一次；

(4)配工作液：28.5ul EE1(15037034,Illumina)和1.5ul HP3(11324596,Illumina)混匀；取23ul重悬磁珠，室温孵育2min，磁力架上吸附，取21ul 上清至新管，加入4ul ET2(15013008,Illumina)混匀；

(5)加入15ul RSB，50ul CT3，10ul DNA探针溶液(同上)混匀后进行杂交反应：95℃，10min；94℃,1min，92℃,1min，90℃,1min，…，60℃,1min (每降2℃反应1min)；58℃，14.5h后可取出；

(6)取EP管，立即加入100ul上步得到的样品，加入250ul SMB，室温孵育25min，磁力架上吸附，弃上清，加200ul SWS，混匀，50℃孵育30min，立即放在磁架上，吸附，弃上清，重复一次；

(7)配工作液：28.5ul EE1和1.5ul HP3混匀；取上一步得到的重悬磁珠23ul，室温孵育2min，磁力架上吸附，取21ul上清至新管，加入4ul ET2 混匀；加45ul SPB混匀，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加27.5ul RSB，室温孵育2min，磁力架上吸附，取上清25ul于新管；

(8)加5ul PPC，20ul NEM(15037047,Illumina)混匀后进行PCR反应：98℃预变性30s，98℃变性10s，60℃退火30s，72℃延伸30s，执行11 个循环后，72℃延伸5min，降至4℃后取出，加入45ul SPB，室温孵育5min，磁力架上吸附，弃上清，用200ul 80％酒精洗两次，弃液体干燥后加22ul RSB，室温孵育2min，磁力架上吸附，取上清20ul于新管，得到制备完成的外显子DNA文库。

(9)使用Agilent 2100 Bioanalyzer进行片段长度范围检测(片段长度基本分布于200～400bp间)以及Invitrogen Qubit进行浓度定量(大于 1ng/μl)之后，送至IlluminaNextSeq 500测序平台进行测序，测序读长为150bp，测序模式为双端测序，加入测序引物(5’ -ACCGACCTGCAACGACTAGC-3’，5’-GACTGTCTGCAACGACTAGC-3’)和Index引物(5’-AGTCCTGATCGACAGATCAC-3’,5’-TCGGTGAACGCAGATACTTG-3’)，并获得下机数据(rawdata)。

实施例5：数据分析获得102个靶标基因、肺癌预测打分公式及分类阈值

使用FastQC,Cutadpat和Trimmomatic进行数据质控和预处理(使用默认参数)以得到去除了低质量序列和测序接头的有效数据，随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列 5’以及3’端移除，随后使用序列比对软件Bowtie2将得到的序列再比对到人类参考基因组序列上(使用默认参数)，获得定位于参考基因组的位置信息；

根据序列比对位置，对结果进行PCR重复序列的去除。具体而言，被 Bowtie2比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置相同)的序列若带有相同的随机标签序列A1，则视为PCR重复，并将其合并为同一条序列；

从已去除PCR重复的序列中，进一步过滤掉低比对质量的序列(仅保留 MAPQ≥20的序列)，进一步统计目标区域的测序覆盖度，舍弃覆盖度低于1000 倍的区域后，进入下一步分析；

使用变异检测工具Varscan2，对上一步获得的数据进行SNV和InDel 分析，随后使用snpEff过滤掉dbSNP(v151)数据库中的常见变异(默认参数)，得到高质量的SNV和InDel位点并用于后续分析和打分。

测序数据质控分析显示，100个样品的下机数据Q30均大于85％，可比对序列超过95％，靶向捕获区域的平均覆盖度达到4000倍以上(数据分布的箱线图见图1)，数据质量均为合格。

获得102个靶标基因

对于实施例3选出的500个基因，对任意一个基因X和受测者N而言，定义T_XN为该受测者的该基因中检测到的SNV和InDel总数，同时，为每一个受测者定义一个变量S_N，当受测者为健康人、I期患者和II期患者的时候， S_N分别是0、1和2，随后，对于基因X，基于实施例1中的所有受测者计算 T_XN与S_N的皮尔森相关系数R_X，保留R_X大于0.7的基因作为肺癌检测的靶向测序paneI的靶标基因。这里，R_X大于0.7的基因有102个，这102个靶标基因分别为：AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、 DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、 GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、 ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、 MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、 PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、 PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、 SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、 SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、 UNC5D、VPS13A。

根据102个靶标基因设计的肺癌预测的打分公式

基于这102靶标基因，申请人设计了一个早期肺癌预测的打分公式，采用打分公式S1进行肺癌预测打分，每个待捕获样品得到一个分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为R_X大于0.9的28个基因：CDKN2A、EGFR、FAM135B、HCN1、 KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、 PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、 TNN、TNR、TP53、TPTE；j为R_X大于0.8且小于等于0.9的33个基因：ATM、 BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、 POM121L12、POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、 SLC4A10、SLC6A5、UNC5D、VPS13A；k为R_X大于0.7且小于等于0.8的、102 个靶标基因去除i和j后剩下的41个基因；Mu_i为i中的28个基因的每个基因的SNV和InDel总数，Mu_j为j中的33个基因的每个基因的SNV和InDel 总数，Mu_k为k中的41个基因的每个基因的SNV和InDel总数；C₁＝∑ (R_i ²)/28＝0.89，C₂＝∑(R_j ²)/33＝0.72，C₃＝∑(R_k ²)/41＝0.55，R_i，R_j和R_k分别对应了上述i、j、k基因的R_X。

肺癌预测打分公式的分类阈值

针对上述肺癌预测的打分公式S1，申请人以Score_lung＝2为分类阈值，高于2则将受测者判断为肺癌，低于或等于2则将受测者判断为健康人。

基于该打分公式以及分类阈值，基于训练组的肺癌的检测敏感性为 0.92，特异性亦为0.92。随后，使用R语言ROCR包绘制ROC曲线(中文全称为受试者工作特征曲线)，对应的AUC(英文全称为Area Under Curve) 大于0.92，如图2所示，表明对I和II期肺癌具有优秀的检测能力。

实施例6：使用验证组验证检测效果

申请人于2019年2月至2020年1月采集了未经治疗的I和II期非小细胞肺癌患者的外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性29例，女性21例，平均年龄为62.2岁，年龄分布为40–81岁，均为中国人。同期，申请人采集了健康人外周静脉血样品共50例，每一例样品均含有20ml的外周血，其中男性29例，女性21例，平均年龄为61.9岁，年龄分布为41–80岁，均为中国人。这两组样品的性别与年龄都没有统计学上的显著差异，因此满足性别和年龄匹配的原则。

对于验证组的100例外周血样本，采用实施例2相同的步骤进行提取游离DNA、片段打断末端补平加A、连接Y型接头及扩增纯化和定量，得到的 DNA作为待捕获样品。

然后对待捕获样品进行靶标基因捕获，靶标基因为实施例5得到的102 个靶标基因，采用实施例4相同的步骤进行靶标基因捕获和上机测序，注意这里的区别点在于，实施例4是采用500个基因进行靶向捕获，而此处是利用102个靶标基因对应的探针，分别靶向捕获待捕获样品中的102个靶标基因，其他步骤相同。

对于下机数据，采用与实施例5相同的数据进行测试数据质控和使用变异检测工具进行SNV和InDel分析，其中，测序数据质控分析显示，100个样品的下机数据Q30均大于85％，可比对序列超过95％，靶向捕获区域的平均覆盖度达到5000倍以上(见图3)，数据质量均为合格。

随后，对每个待捕获样品使用肺癌预测的打分公式S1计算分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为以下的28个基因：CDKN2A、EGFR、FAM135B、HCN1、KEAP1、 KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、 RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、 TNR、TP53、TPTE；j为以下的33个基因：ATM、BRAF、CADPS、GALNT13、GFRAL、 HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、 OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、 PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A； k为所述102个靶标基因去除i和j后剩下的41个基因；Mu_i为i中的28个基因的每个基因的SNV和InDel总数，Mu_j为j中的33个基因的每个基因的 SNV和InDel总数，Mu_k为k中的41个基因的每个基因的SNV和InDel总数； C₁＝0.89，C₂＝0.72，C₃＝0.55。

同样以Score_lung＝2为分类阈值，对肺癌患者和健康人进行分类，相应的肺癌检测敏感性为0.90，特异性为0.90；使用R语言ROCR包绘制基于验证组样本的ROC曲线，其AUC值为0.905，如图4所示。验证组再次说明，含有102个靶标基因的用于肺癌检测的靶向测序panel的检测试剂、基于102 个靶标基因的肺癌预测的打分公式S1及分类阈值、基于102个靶标基因相对应的探针的用于肺癌检测的试剂盒和基于肺癌预测的打分公式S1及分类阈值的肺癌检测方法，能够将I和II期肺癌患者与健康人进行准确的区分。

尽管本申请已公开了多个方面和实施方式，但是其它方面和实施方式对本领域技术人员而言将是显而易见的，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。本申请公开的多个方面和实施方式仅用于举例说明，其并非旨在限制本申请，本申请的实际保护范围以权利要求为准。

Claims

1.一种检测靶标基因的探针用于制备肺癌检测的检测试剂的用途，其特征在于，探针用于分别靶向捕获待捕获样品中的102个靶标基因的特定区域，所述102个靶标基因分别为：AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A，将探针靶向捕获的DNA进行测序并对测序数据进行SNV和InDel分析，能够将I和II期非小细胞肺癌患者与健康人进行区分；所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp；所述检测试剂还包括Y型接头，所述Y型接头为：5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTA TAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和5’-TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’，其中，NNNNNNN为7个碱基的随机核苷酸序列，记为A1，ACCGGTCCGTAA为12个碱基的固定序列，记为A2，TTACGGACCGGT为其反向互补序列，TATAGCCT和GCCAATTA为index序列，用于区分不同受测者的测序数据。

2.如权利要求1所述的检测靶标基因的探针用于制备肺癌检测的检测试剂的用途，其特征在于，所述待捕获样品为从人体外周血的血清中提取的游离DNA，经过打断、末端补平加A、连接Y型接头及扩增纯化后的样品。

3.如权利要求1所述的检测靶标基因的探针用于制备肺癌检测的检测试剂的用途，其特征在于，包括以下步骤：

(1)将3-6个待捕获样品进行等质量比例混合，然后使用所述探针进行杂交，从而靶向捕获所述102个基因的特定区域；

(2)通过质控工具对下机数据进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据，随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除，再将其使用序列比对软件与参考基因组序列进行比对，获得定位于所述参考基因组序列的位置信息；再去除PCR重复序列以及低比对质量的序列，再统计目标区域的测序覆盖度，舍弃覆盖度低于1000倍的区域；然后使用变异检测工具进行SNV和InDel分析，再使用snpEff过滤，得到高质量的SNV和InDel位点并用于后续分析和打分。

4.如权利要求1所述的检测靶标基因的探针用于制备肺癌检测的检测试剂的用途，其特征在于，将SNV和InDel分析中得到的每个目标基因中的SNV与InDel总数，采用打分公式S1进行早期肺癌预测打分，每个待捕获样品得到一个分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为以下的28个基因：CDKN2A、EGFR、FAM135B、HCN1、KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、TNR、TP53、TPTE；j为以下的33个基因：ATM、BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A；k为所述102个靶标基因去除i和j后剩下的41个基因；Mu_i为i中的28个基因的每个基因的SNV和InDel总数，Mu_j为j中的33个基因的每个基因的SNV和InDel总数，Mu_k为k中的41个基因的每个基因的SNV和InDel总数；C₁＝0.89，C₂＝0.72，C₃＝0.55。

5.如权利要求4所述的检测靶标基因的探针用于制备肺癌检测的检测试剂的用途，其特征在于，以Score_lung＝2为分类阈值，Score_lung大于2则将受测者预测为肺癌患者，小于等于2则将受测者预测为健康人。

6.一种获得肺癌检测的靶向测序panel的检测试剂的方法，其特征在于，包括步骤：

(S1)使用TCGA的亚洲人肺癌患者全基因组/全外显子组测序数据，计算不同基因在患者中的突变频率，该突变仅为SNV和InDel，并根据突变频率从高到低进行排序，选出排名靠前的前300-1000个基因；从人体外周血的血清中提取的游离DNA，经过打断片段、末端补平加A、连接Y型接头及扩增纯化后的DNA作为待捕获样品；所述Y型接头为：5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和5’-TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACG CCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’，其中，NNNNNNN为7个碱基的随机核苷酸序列，记为A1，ACCGGTCCGTAA为12个碱基的固定序列，记为A2，TTACGGACCGGT为其反向互补序列，TATAGCCT和GCCAATTA为index序列，用于区分不同受测者的测序数据；

(S2)利用探针分别靶向捕获步骤S1中选出的基因的特定区域，将探针靶向捕获后的DNA进行测序及测序数据分析，所述测序数据分析包括使用变异检测工具进行SNV和InDel分析；所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp；

(S3)对步骤S2进行SNV和InDel分析得到的数据，对于步骤S1中选出的每个基因计算T_XN与S_N的皮尔森相关系数R_X，R_X大于0.7的基因作为肺癌检测的靶向测序panel的靶标基因，靶标基因相对应的探针用于靶向捕获所述靶标基因；102个靶标基因分别为：AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A。

7.如权利要求6所述的获得肺癌检测的靶向测序panel的检测试剂的方法，其特征在于，包括步骤：

(1)在步骤S2中，将3-6个待捕获样品进行等质量比例混合，然后使用所述探针进行杂交，从而靶向捕获所述102个基因的特定区域；通过质控工具对下机数据进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据；随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除；再将其使用序列比对软件与参考基因组序列进行比对，获得定位于所述参考基因组序列的位置信息；再去除PCR重复序列以及低比对质量的序列，再统计目标区域的测序覆盖度，舍弃覆盖度低于1000倍的区域；然后使用变异检测工具进行SNV和InDel分析，再使用snpEff过滤，得到高质量的SNV和InDel位点并用于后续分析和打分；

(2)在步骤S3中，对于步骤S1中选出的任意一个基因X和受测者N而言，T_XN为该受测者的该基因中检测到的SNV和InDel总数，同时，为每一个受测者定义一个变量S_N，当受测者为健康人、I期患者和II期患者的时候，S分别是0、1和2，对于基因X，计算T_XN与S_N的皮尔森相关系数R_X，R_X大于0.7的基因即为肺癌检测的测序panel的靶标基因；

(3)计算102个靶标基因的每个目标基因中的SNV与InDel总数，采用打分公式S1进行肺癌预测打分，每个待捕获样品得到一个分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为R_X大于0.9的28个基因：CDKN2A、EGFR、FAM135B、HCN1、KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、TNR、TP53、TPTE；j为R_X大于0.8且小于等于0.9的33个基因：ATM、BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A；k为R_X大于0.7且小于等于0.8的、102个靶标基因去除i和j后剩下的41个基因；Mu_i为i中的28个基因的每个基因的SNV和InDel总数，Mu_j为j中的33个基因的每个基因的SNV和InDel总数，Mu_k为k中的41个基因的每个基因的SNV和InDel总数；C₁＝∑(R_i ²)/28＝0.89，C₂＝∑(R_j ²)/33＝0.72，C₃＝∑(R_k ²)/41＝0.55，R_i，R_j和R_k分别对应了上述i、j、k基因的R_X；以Score_lung＝2为分类阈值，Score_lung大于2则将受测者预测为肺癌患者，小于等于2则将受测者预测为健康人。

8.一种检测靶标基因的检测试剂用于制备肺癌检测的试剂盒的用途，其特征在于，所述试剂盒包括Y型接头，所述Y型接头为：5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTA TAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和5’-TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’，其中，NNNNNNN为7个碱基的随机核苷酸序列，记为A1，ACCGGTCCGTAA为12个碱基的固定序列，记为A2，TTACGGACCGGT为其反向互补序列，TATAGCCT和GCCAATTA为index序列，用于区分不同受测者的测序数据；所述Y型接头用于对人体外周血血清中的游离DNA进行片段打断和末端补平加A后的DNA进行连接Y型接头；所述试剂盒还包括探针，所述探针用于分别靶向捕获待捕获样品中的102个靶标基因的特定区域，所述102个靶标基因分别为：AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A；所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp。

9.如权利要求8所述的检测靶标基因的检测试剂用于制备肺癌检测的试剂盒的用途，其特征在于，用于肺癌早期检测的试剂盒的使用方法，包括步骤：

(S1)对人体外周血血清中的游离DNA进行片段打断后的DNA使用ERP3进行末端补平，再使用ATL2进行末端加A，然后使用所述Y型接头进行连接Y型接头，再使用PPC和EPM对连接Y型接头后的DNA进行PCR扩增；(S2)使用所述102个探针对步骤S1获得的DNA进行分别靶向捕获102个靶标基因，再NEM进行PCR扩增，扩增后的产物进行磁珠纯化即为制备好的DNA文库；

(S3)对DNA文库使用测序引物和Index引物加入到Illumina NextSeq500进行高通量测序种，获得下机数据；

(S4)对下机数据进行数据质控和预处理，随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除，再将其使用序列比对软件与参考基因组序列进行比对，获得定位于所述参考基因组序列的位置信息；再去除PCR重复序列以及低比对质量的序列，再统计目标区域的测序覆盖度，舍弃覆盖度低于1000倍的区域；然后使用变异检测工具进行SNV和InDel分析，再使用snpEff过滤，得到高质量的SNV和InDel位点并用于后续分析和打分；计算每个目标基因中的SNV和InDel位点总数，采用打分公式S1进行肺癌预测打分，每个待捕获样品得到一个分值Score_lung，打分公式S1为：

Score_lung＝C₁×∑(Mu_i)+C₂×∑(Mu_j)+C₃×∑(Mu_k)

其中，i为以下的28个基因：CDKN2A、EGFR、FAM135B、HCN1、KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、TNR、TP53、TPTE；j为以下的33个基因：ATM、BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A；k为所述102个靶标基因去除i和j后剩下的41个基因；Mu_i为i中的28个基因的每个基因的SNV和InDel总数，Mu_j为j中的33个基因的每个基因的SNV和InDel总数，Mu_k为k中的41个基因的每个基因的SNV和InDel总数；C₁＝0.89，C₂＝0.72，C₃＝0.55；以Score_lung＝2为分类阈值，Score_lung大于2则将受测者预测为肺癌患者，小于等于2则将受测者预测为健康人。