CN113481299B - 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法 - Google Patents

用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法 Download PDF

Info

Publication number
CN113481299B
CN113481299B CN202110743775.8A CN202110743775A CN113481299B CN 113481299 B CN113481299 B CN 113481299B CN 202110743775 A CN202110743775 A CN 202110743775A CN 113481299 B CN113481299 B CN 113481299B
Authority
CN
China
Prior art keywords
sequence
genes
lung cancer
snv
indel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110743775.8A
Other languages
English (en)
Other versions
CN113481299A (zh
Inventor
李华
胡传圣
胡文献
沈益行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Jingmai Biotechnology Co ltd
Original Assignee
Suzhou Jingmai Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Jingmai Biotechnology Co ltd filed Critical Suzhou Jingmai Biotechnology Co ltd
Priority to CN202110743775.8A priority Critical patent/CN113481299B/zh
Publication of CN113481299A publication Critical patent/CN113481299A/zh
Application granted granted Critical
Publication of CN113481299B publication Critical patent/CN113481299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法,靶向测序panel的探针用于分别靶向捕获待捕获样品中的所述102个靶标基因的特定区域,探针根据102个靶标基因设计,102个靶标基因为根据大量基因,基于检测到的SNV以及InDel,计算TXN与SN的皮尔森相关系数RX,选择RX大于0.7得到的102个靶标基因,所述用于肺癌检测的试剂盒能够进行靶向捕获,并根据肺癌预测的打分公式和分类阈值,能够将I和II期肺癌患者与健康人进行准确的区分,其检测可靠性经验证,ROC曲线的AUC值达0.9以上。

Description

用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序 panel的方法
技术领域
本发明涉及生物技术领域,更具体地,涉及用于肺癌检测的靶向测序 panel的检测试剂、获得肺癌检测的靶向测序panel的方法、用于肺癌检测 的试剂盒以及用于肺癌检测的方法。
背景技术
肺癌是世界范围内发病病例和死亡病例数量最多的恶性肿瘤。其中,非 小细胞肺癌约占所有肺癌的80%。肺癌早期病症不明显,因此约75%的患者 在发现患癌时已处于肺癌中晚期,已有局部浸润和远端转移。晚期肺癌的五 年生存率非常低,不足5%。但是,早期肺癌患者5年生存率可高达90%以上。 因此,对肺癌的早期诊断是肺癌患者获得良好预后以及减少死亡率的重要方 法。
目前,肺癌的早期诊断方法主要包括:胸部影像学、痰脱落细胞学检测 以及支气管镜检查等,而这些方法的检测效果目前并不理想。其中,胸部影 像学检测方法包括:X胸片、低剂量螺旋CT(LDCT)和PET-CT等。肺癌在早 期通常以肺结节的形式出现,尽管影像学检测提高了肺结节的检出率,但由 于肺结节病因复杂且临床表现缺乏特异性,使得对其良恶性的鉴别有一定的 难度。因此,X胸片检查的误漏诊率很高,可达50%以上;LDCT和PET-CT对 于肺结节的检测特异性较差,在肺癌早期筛查和诊断中广泛应用的LDCT技术 其检测假阳性可高达21%以上;并且,这些影像学受测者都需要承受辐射带 来的健康风险。痰脱落细胞学检测,诊断中央型肺癌的敏感性约为50%,而 对于周围性肺癌则不足20%。支气管镜检查尽管对于中央型肺癌的检测敏感 性较高,但对于周围型肺癌的检测效果依然较差,并且这类侵入式检查难以 在人群中大范围推广。因此,需要开发敏感性和特异性均比较高且大众易于 接受的肺癌早期检测技术。
液体活检技术被《麻省理工大学科技评论》评选为“2015年十大突破技 术之一”,作为体外诊断的一个分支,液体活检通过血液或者尿液等对癌症 等疾病做出诊断,其优势在于能通过非侵入性取样降低活检的危害,而且有 效延长患者生存期,性价比高。基于血液的ctDNA检测作为液体活检技术的 重要发展分支之一,有望取代组织活检。目前市场上存在的肺癌突变检测产 品包括Roche的以血液为基础的用于检测NSCLC患者EGFR基因突变的基因检 测试剂盒,QIAGEN公司的以石蜡包埋组织为基础的检测EGFR基因23种体细 胞突变的基因检测试剂盒以及华大吉比美公司的以石蜡包埋组织为样本或者 以血液为样本的检测EGFR20/29/50种基因突变的检测试剂盒。但是,这类产 品只能够针对肺癌的一种或者若干种基因突变进行检测,对于突变的覆盖度 不高,导致它们对肺癌(特别是早期肺癌)的检测敏感性和特异性并不理想。 因此,目前很有必要研发新的肺癌检测方法和试剂盒,以用于肺癌高风险人 群的肿瘤检测,便于及早进行临床干预。
发明内容
本发明的目的在于,提供用于肺癌检测的靶向测序panel的检测试剂、 获得肺癌检测的靶向测序panel的方法、用于肺癌检测的试剂盒以及用于肺 癌检测的方法。
本申请的第一方面,提供一种用于肺癌检测的靶向测序panel的检测试 剂,所述靶向测序panel的检测试剂包括102个靶标基因对应的探针,所述 探针用于分别靶向捕获待捕获样品中的所述102个靶标基因的特定区域,所 述102个靶标基因分别为:AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、 CDKN2ADPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、 FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、 MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、 NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、 PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、 PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、 SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、 TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A,将探针靶向捕获的DNA进 行测序并对测序数据进行SNV和InDel分析,能够将I和II期非小细胞肺癌 患者与健康人进行准确的区分。
在一些实施方式中,探针为带生物素标记的单链DNA分子,其设计使用 市场主流设计方法(如Illumina TruSeq Exome),化学合成委托主流企业 (如生工生物工程)使用常规方法合成。
在一些实施方式中,所述待捕获样品为从人体外周血的血清中提取的游 离DNA,经过打断、末端补平加A、连接Y型接头及扩增纯化后的样品。
进一步的,所述人体外周血≥10ml,所述从血清中提取的游离DNA的量为 100-500ng。
进一步的,所述游离DNA被随机打断成小片段,使用磁珠纯化筛选出合 适的片段。所述游离DNA被随机打断的方式为:超声打断,游离DNA被随机 打断并使用,磁珠纯化筛选出的片段为140-160bp。
进一步的,对筛选出的DNA片段进行末端补平和末端加A,再连接Y型 接头,所述Y型接头为:5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和 5’- TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCA TCGTTATCTCGTATGCCGTCTTCTGCTTG-3’,其中,NNNNNNN为7个碱基的随机核 苷酸序列(即随机标签序列),记为A1,ACCGGTCCGTAA为12个碱基的固定 序列,记为A2,TTACGGACCGGT为其反向互补序列,TATAGCCT和GCCAATTA为 index序列,用于区分不同受测者的测序数据,可用Illumina常用的8碱基 index替换。
进一步的,连接Y型接头后,进行PCR扩增并且扩增后的产物进行磁珠 纯化和定量。所述定量为Qubit定量。
在一些实施方式中,将3-6个待捕获样品(来源于不同的人体)进行等 质量比例混合,然后使用所述测序panel中的探针进行杂交,从而靶向捕获 所述102个基因的特定区域,所述特定区域为所捕获基因的外显子区域、外 显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的 100bp。其中,转录起始位点上游的500bp以及转录终止位点下游的100bp, 对基因表达具有重要的调控作用,对该区域的测序具有重要意义,因此本发 明的靶向捕获区域包含该区域。
进一步的,使用所述测序panel进行一次靶向捕获后,再一次使用所述 测序panel的探针进行靶向捕获及磁珠纯化,随后进行PCR扩增及磁珠纯化, 所得产物即为制备好的DNA文库。
在一些实施方式中,将DNA文库进行长度范围检测和浓度定量,随后送 至Illumina NextSeq500进行高通量测序,测序时加入测序引物:5’ -ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’,以及Index 引物:5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’, 而后获得下机数据(rawdata)。
进一步的,使用Agilent 2100Bioanalyzer进行片段长度范围检测以及Invitrogen Qubit进行浓度定量,测序读长为150bp,测序模式为双端测序。
在一些实施方式中,通过质控工具对所述下机数据进行数据质控和预处 理以得到去除了低质量序列和测序接头的有效数据(clean data),随后通 过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据 的序列5’以及3’端移除,再将其使用序列比对软件与参考基因组序列进行 比对,获得定位于所述参考基因组序列的位置信息;再去除PCR重复序列以 及低比对质量的序列,再统计目标区域的测序覆盖度,舍弃覆盖度低于1000 倍的区域;然后使用变异检测工具进行SNV和InDel分析,再使用snpEff过 滤掉dbSNP(v151)数据库中的常见变异,得到高质量的SNV和InDel位点 并用于后续分析和打分。
进一步的,所述质控工具为FastQC、Cutadpat和Trimmomatic;所述序 列比对软件为Bowtie2;所述去除PCR重复序列具体为:被序列比对软件比 对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置相同) 的序列则视为PCR重复,并将其合并为同一条序列;所述去除低比对质量的 序列为去除MAPQ<20的序列,获得高比对质量的序列;所述变异检测工具为 Varscan2。
在一些实施方式中,将SNV和InDel分析中得到的每个目标基因中的SNV 与InDel总数,采用打分公式S1进行肺癌预测打分,每个待捕获样品得到一 个分值Scorelung,打分公式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为以下的28个基因:CDKN2A、EGFR、FAM135B、HCN1、 KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、 PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、 TNN、TNR、TP53、TPTE;j为以下的33个基因:ATM、BRAF、CADPS、GALNT13、 GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、 PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、 VPS13A;k为所述102个靶标基因去除i和j后剩下的41个基因;Mui为i 中的28个基因的每个基因的SNV和InDel总数,Muj为j中的33个基因的每 个基因的SNV和InDel总数,Muk为k中的41个基因的每个基因的SNV和InDel 总数;C1=0.89,C2=0.72,C3=0.55。
进一步的,以Scorelung=2为分类阈值,Scorelung大于2则将受测者预测为 肺癌,小于等于2则将受测者预测为健康人。
在一些实施方式中,所述用于肺癌检测的靶向测序panel的检测试剂, 用于制备肺癌检测试剂盒中的应用。
本申请的第二方面,提供一种获得肺癌检测的靶向测序panel的检测试 剂的方法,包括步骤:
(S1)使用TCGA(The Cancer Genome Atlas)的亚洲人肺癌患者全基 因组/全外显子组测序数据,计算不同基因在患者中的突变频率,该突变仅为 SNV和InDel,并根据突变频率从高到低进行排序,选出排名靠前的前 300-1000个基因,所述选出的基因中包含常见的癌症驱动基因;从人体外周 血的血清中提取的游离DNA,经过打断片段、末端补平加A、连接Y型接头及 扩增纯化后的DNA作为待捕获样品;
(S2)利用探针分别靶向捕获步骤S1中选出的基因的特定区域,将探针 靶向捕获后的DNA进行测序及测序数据分析,所述测序数据分析包括使用变 异检测工具进行SNV和InDel分析;
(S3)对步骤S2进行SNV和InDel分析得到的数据,对于步骤S1中选 出的每个基因计算TXN与SN的皮尔森相关系数RX,RX大于0.7的基因作为肺癌 检测的靶向测序panel的靶标基因,靶标基因相对应的探针用于靶向捕获所 述靶标基因。
在一些实施方式中,在步骤S1中,选出排名靠前的前500个基因,这500个基因为:ABCA13,ABCA9,ABCB1,ABCB5,ACAN,ACTN2,ADAMTS12, ADAMTS16,ADAMTS18,ADAMTS20,ADAMTSL3,ADCY2,ADCY8,ADGRB3,ADGRG4, ADGRL3,ADGRL4,ADGRV1,AFF2,AHNAK,AHNAK2,AIDA,AKAP6,AKT1,ALMS1, ALPK2,AMER3,ANK1,ANK2,ANK3,ANKRD30A,ANKRD30B,APOB,ARID1A, ASAH2,ASPM,ASTN1,ASTN2,ASXL3,ATM,ATRNL1,BCHE,BCLAF1,BEST1, BIRC6,BOD1L1,BRAF,BRINP2,BRINP3,BRWD3,C6,CACNA1B,CACNA1C, CACNA1E,CACNA2D1,CADPS,CAV2,CDH10,CDH12,CDH18,CDH7,CDH8,CDH9, CDKN2A,CENPF,CFAP47,CFH,CHD5,CHD7,CMYA5,CNGB3,CNTN5,CNTNAP2, CNTNAP4,CNTNAP5,COL11A1,COL12A1,COL14A1,COL15A1,COL19A1,COL1A2, COL22A1,COL24A1,COL3A1,COL4A5,COL5A2,COL6A3,COL6A6,CPED1,CPS1, CRB1,CREBBP,CSMD1,CSMD2,CSMD3,CTNNA2,CTNNB1,CTNND2,CUBN, DCAF4L2,DCC,DCHS1,DCHS2,DGKI,DIDO1,DLC1,DMBT1,DMD,DNAH10, DNAH11,DNAH2,DNAH3,DNAH5,DNAH7,DNAH8,DNAH9,DOCK10,DOCK2,DPM1, DPP10,DSCAM,DST,DTX2,DUSP27,DYNC1H1,DYNC2H1,DYSF,EGFR,EIF3E, ELP4,EPB41L3,EPHA3,EPHA5,EPHA6,EPHB1,EPHB6,ERBB2,ERBB4,ERICH3, EYA4,EYS,F5,F8,F9,FAM135B,FAM47A,FAM47B,FAM47C,FANCL,FAT1, FAT2,FAT3,FAT4,FBN1,FBN2,FCGBP,FCRL5,FER1L6,FGL1,FLG,FLG2, FLNC,FMN2,FRAS1,FREM2,FRMPD1,FSCB,FSHR,FSIP2,FSTL5,GABRA2, GALNT13,GALNT17,GATA3,GFRAL,GKN2,GPR158,GRID1,GRID2,GRIK2, GRIN2A,GRIN2B,GRIN3A,GRM1,GRM5,GRM7,GRM8,HCN1,HDAC9,HECW1,HEPH,HERC1,HERC2,HGF,HIGD2B,HMCN1,HRAS,HRNR,HUWE1,HYDIN, IFT172,IL1RAPL1,INPP5D,ITGA8,ITGAX,ITIH6,ITM2A,ITPRID1,KALRN, KCNB2,KCNH1,KCNH7,KCNH8,KCNT2,KDR,KEAP1,KIAA1109,KIAA1211, KIAA1549L,KIF2B,KLHL1,KLHL4,KMT2C,KMT2D,KRAS,LAMA1,LAMA2, LAMA4,LAMB4,LCT,LPA,LRFN5,LRP1,LRP1B,LRP2,LRRC4C,LRRC7,LRRIQ1,LRRK2,LRRTM4,LTBP1,LYST,MACF1,MAGEC1,MAP2,MDGA2,MDN1,MEK1, MET,MGAM,MKI67,MMP16,MMRN1,MROH2B,MRPL1,MUC16,MUC17,MUC5B, MXRA5,MYCBP2,MYH1,MYH13,MYH2,MYH4,MYH6,MYH7,MYH8,MYO16,MYO18B, MYO3A,MYO7B,MYT1L,NALCN,NAV3,NBAS,NBEA,NCAM2,NCKAP5,NDC80, NDST4,NEB,NEDD4L,NELL1,NEXMIF,NF1,NFE2L2,NID2,NLGN4X,NLRP12, NLRP13,NLRP14,NLRP3,NLRP4,NLRP5,NLRP7,NLRP8,NOS1,NOTCH1, NOTCH4,NPAP1,NRAS,NRK,NRXN1,NRXN3,NTM,NTRK3,OBSCN,OCA2,OR2L13, OR2T4,OR4A15,OR4C6,OR5L2,OR6F1,OSBPL10,OTOF,OTOGL,OVCH1, PAPPA2,PCDH10,PCDH11X,PCDH15,PCDH17,PCDHB7,PCLO,PDE1C,PDE3A, PDE4DIP,PDGFRA,PDZRN3,PEG3,PIK3CA,PIK3CG,PKD1L1,PKHD1,PKHD1L1, PLCB1,PLCH1,PLCL1,PLEC,PLPPR4,PLXNA4,POLQ,POM121L12,POTEE,POTEG,PPFIA2,PPP1R3A,PRDM9,PREX1,PREX2,PRKCZ,PRKDC,PRSS1, PRUNE2,PSEN2,PSG2,PSG5,PTEN,PTPRB,PTPRC,PTPRD,PTPRT,PTPRZ1, PUS7L,PXDNL,PYHIN1,RB1,RBMS3,REG1B,RELN,RGS7,RIMS1,RIMS2,RNF7, ROBO2,RP1,RP1L1,RSKR,RUNX1T1,RYR1,RYR2,RYR3,SACS,SAGE1,SALL1, SCN10A,SCN1A,SCN2A,SCN3A,SCN5A,SCN7A,SDK1,SEMA5A,SETBP1,SETD2,SGIP1,SI,SIPA1L2,SLC26A3,SLC39A12,SLC41A3,SLC4A10,SLC5A1, SLC6A5,SLC8A1,SLIT2,SLIT3,SLITRK1,SLITRK2,SLITRK3,SMARCA4, SNTG1,SORCS1,SORCS3,SPAG17,SPATA31A6,SPATA31D1,SPATA31E1,SPEF2, SPEG,SPHKAP,SPTA1,STAB2,STK11,SUDS3,SVEP1,SYNE1,SYNE2,TAF1L, TBX15,TCHH,TECTA,TENM1,TENM2,TENM3,TENM4,TEX15,TG,THBS2, THSD7A,THSD7B,TIAM1,TIMD4,TLN2,TLR4,TMEM132B,TMEM132D,TMPRSS15, TMTC1,TNN,TNR,TP53,TPR,TPTE,TRHDE,TRIM51,TRIM58,TRIO,TRPA1, TRPS1,TRRAP,TSHZ3,TTN,U2AF1,UBR4,UNC13C,UNC5D,UNC79,USH2A, USP29,USP34,UTRN,VCAN,VPS13A,VPS13B,VPS13C,VPS13D,VWF,WDFY3, XIRP2,ZAN,ZBBX,ZDBF2,ZEB1,ZEB2,ZFHX3,ZFHX4,ZFPM2,ZIC1,ZNF208, ZNF423,ZNF479,ZNF521,ZNF536,ZNF716,ZNF804A,ZNF804B,ZNF831,ZP4,其中所述常见的癌症驱动基因为:AKT1,BRAF,CDKN2A,CTNNB1,EGFR,ERBB2, HRAS,KEAP1,KRAS,MEK1,MET,NFE2L2,NOTCH1,NRAS,PIK3CA,PTEN,STK11, TP53。
进一步的,所述人体外周血≥10ml,所述从血清中提取的游离DNA的量为 100-500ng。
进一步的,所述游离DNA被随机打断成小片段,使用磁珠纯化筛选出合 适的片段。所述游离DNA被随机打断的方式为:超声打断,游离DNA被随机 打断并使用,磁珠纯化筛选出的片段为140-160bp。
进一步的,对筛选出的DNA片段进行末端补平和末端加A,再连接Y型 接头,所述Y型接头为:5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和 5’- TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCA TCGTTATCTCGTATGCCGTCTTCTGCTTG-3’,其中,NNNNNNN为7个碱基的随机核 苷酸序列(即随机标签序列),记为A1,ACCGGTCCGTAA为12个碱基的固定 序列,记为A2,TTACGGACCGGT为其反向互补序列,TATAGCCT和GCCAATTA为 index序列,用于区分不同受测者的测序数据,可用Illumina常用的8碱基 index替换。
进一步的,连接Y型接头后,进行PCR扩增并且扩增后的产物进行磁珠 纯化和定量。所述定量为Qubit定量。
在一些实施方式中,将3-6个待捕获样品(来源于不同的人体)进行等 质量比例混合,然后使用所述测序panel中的探针进行杂交,从而靶向捕获 所述102个基因的特定区域,所述特定区域为所捕获基因的外显子区域、外 显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的 100bp。
进一步的,将捕获后的DNA进行PCR扩增及磁珠纯化,所得产物即为制 备好的DNA文库。
进一步的,将DNA文库进行长度范围检测和浓度定量,随后送至IlluminaNextSeq500进行高通量测序,测序时加入测序引物:5’ -ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’,以及Index 引物:5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’, 而后获得下机数据(raw data)。
进一步优选的,使用Agilent 2100Bioanalyzer进行片段长度范围检测 以及Invitrogen Qubit进行浓度定量,测序读长为150bp,测序模式为双端 测序。
进一步的,通过质控工具对所述下机数据进行数据质控和预处理以得到 去除了低质量序列和测序接头的有效数据(clean data);随后通过识别固 定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除;再将其使用序列比对软件与参考基因组序列进行比对, 获得定位于所述参考基因组序列的位置信息;再去除PCR重复序列以及低比 对质量的序列,再统计目标区域的测序覆盖度,舍弃覆盖度低于1000倍的区 域;然后使用变异检测工具进行SNV和InDel分析,再使用snpEff(默认参 数)过滤掉dbSNP(v151)数据库中的常见变异,得到高质量的SNV和InDel 位点并用于后续分析和打分。
进一步的优选的,所述质控工具为FastQC、Cutadpat和Trimmomatic; 所述序列比对软件为Bowtie2;所述去除PCR重复序列具体为:被序列比对 软件比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置 相同)的序列则视为PCR重复,并将其合并为同一条序列;所述去除低比对质 量的序列为去除MAPQ<20的序列,获得高比对质量的序列;所述变异检测工 具为Varscan2。
在一些实施方式中,在步骤S3中,对于步骤S1中选出的任意一个基因 X和受测者N而言,TXN为该受测者的该基因中检测到的SNV和InDel总数, 同时,为每一个受测者定义一个变量SN,当受测者为健康人、I期患者和II 期患者的时候,SN分别是0、1和2,对于基因X,计算TXN与SN的皮尔森相关 系数RX,RX大于0.7的基因即为肺癌检测的测序panel的靶标基因。
进一步的,所述靶标基因有102个,102个靶标基因分别为:AIDA、ASAH2、 ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、 ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、 HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、 KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、 NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、 POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、 REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、 SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、 TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A。
进一步的,计算102个靶标基因的每个目标基因中的SNV与InDel总数, 采用打分公式S1进行肺癌预测打分,每个待捕获样品得到一个分值Scorelung, 打分公式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为RX大于0.9的28个基因:CDKN2A、EGFR、FAM135B、HCN1、 KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、 PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、 TNN、TNR、TP53、TPTE;j为RX大于0.8且小于等于0.9的33个基因:ATM、 BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、 NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、 POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、 UNC5D、VPS13A;k为RX大于0.7且小于等于0.8的、102个靶标基因去除i 和j后剩下的41个基因;Mui为i中的28个基因的每个基因的SNV和InDel 总数,Muj为j中的33个基因的每个基因的SNV和InDel总数,Muk为k中的 41个基因的每个基因的SNV和InDel总数;C1=∑(Ri 2)/28=0.89,C2=∑
(Rj 2)/33=0.72,C3=∑(Rk 2)/41=0.55,Ri,Rj和Rk分别对应了上述i、j、k基 因的RX
进一步的,以Scorelung=2为分类阈值,Scorelung大于2则将受测者预测为 肺癌,小于等于2则将受测者预测为健康人。
在本申请的第三方面,提供一种用于肺癌检测的试剂盒,所述试剂盒包 括:
Y型接头,所述Y型接头为:5’- AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAG CCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和 5’- TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’,其中,NNNNNNN为7个碱基的随机核 苷酸序列(即随机标签序列),记为A1,ACCGGTCCGTAA为12个碱基的固定 序列,记为A2,TTACGGACCGGT为其反向互补序列,TATAGCCT和GCCAATTA为 index序列,用于区分不同受测者的测序数据,可用Illumina常用的8碱基 index替换;所述Y型接头用于对人体外周血血清中的游离DNA进行片段 打断和末端补平加A后的DNA进行连接Y型接头。
在一些实施方式中,所述试剂盒还包括:102个靶标基因对应的探针, 所述探针用于分别靶向捕获待捕获样品中的所述102个靶标基因的特定区 域,所述102个靶标基因分别为:AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、 CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、 FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、 IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、 LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、 NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、 OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、 PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、 SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、 TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A。
在本申请中,Y型接头的设计特别考虑了以下两方面:(1)Y型接头中 的随机核苷酸序列(A1)的长度由计算机模拟计算后确定,具体方法为:1, 用游离DNA的入口量(以500ng计)除以单个细胞的DNA量(以6pg计), 随后乘以2,得到超声打断产生的同一位置的DNA片段的最多可能拷贝数m; 2,假定A1的长度为n,使用R语言产生一个长度为42n的向量,包含的元素 为从1到42n的自然数;3,使用R语言从所述向量中进行有放回抽样,抽样 次数为m,对抽得的m个元素进行去重并计算去重后剩余元素数占m个元素 的比例P;4,不断增加n,当n≥7时,P大于99.9%,即同一位置的DNA拷 贝因为连接到了相同的A1而在后续分析中被误认为是PCR重复去除的比例低 于千分之一;又由于A1应尽可能短(减少由于测序错误导致的不同A1被读 成相同的可能性;减少A1在下机数据中的占比以提高经济性),A1的长度 显然应该选择7。(2)Y型接头中的固定序列(A2)的长度由以下方法确定: 假定固定序列包含n个核苷酸(n≥8),当n从8依次增加到12时,对应的 固定序列的碱基组合数量依次为65536,262144,1048576,4194304,16777216; 使用序列比对软件Bowtie2将所有的组合比对到人类参考基因组(hg38), 当n≤11时,所有组合都可以完美比对到人类参考基因组上(即没有任何错 配),当n=12时,开始出现少量(<1%)无法完美比对的碱基组合;可以推断, 当n≥13时,亦会有无法完美比对的碱基组合;为了避免因固定序列与基因 组序列完全相同而发生错误的序列移除,同时为了让固定序列尽可能短(减 少由于测序错误导致的A2无法识别;减少A2在下机数据中的占比以提高经 济性),固定序列A2的长度显然应该选择12。
换言之,通过以下方法确定了固定序列A2的长度为12:假定固定序列 包含n个核苷酸(n≥8),当n从8依次增加到12时,对应的固定序列的碱 基组合数量依次为65536,262144,1048576,4194304,16777216;使用序列比 对软件Bowtie2将所有的组合比对到人类参考基因组(hg38),当n≤11时, 所有组合都可以完美比对到人类参考基因组上(即没有任何错配),当n=12 时,开始出现少量(<1%)无法完美比对的碱基组合;可以推断,当n≥13时, 亦有无法完美比对的碱基组合;为了避免因固定序列与基因组序列完全相同 而发生错误的序列移除,同时为了让固定序列尽可能短(减少由于测序错误 导致的A2无法识别;减少A2在下机数据中的占比以提高经济性),固定序 列A2的长度显然应该选择12。通过以下方法确定了随机核苷酸序列A1的长 度为7。1,用游离DNA的入口量(以500ng计)除以单个细胞的DNA量(以 6pg计),随后乘以2,得到超声打断产生的同一位置的DNA片段的最多可能 拷贝数m;2,假定A1的长度为n,使用R语言产生一个长度为42n的向量,包 含的元素为从1到42n的自然数;3,使用R语言从所述向量中进行有放回抽 样,抽样次数为m,对抽得的m个元素进行去重并计算去重后剩余元素数占m 个元素的比例P;4,不断增加n,当n≥7时,P大于99.9%,即同一位置的 DNA拷贝因为连接到了相同的A1而在后续分析中被误认为是PCR重复去除的 比例低于千分之一;又由于A1应尽可能短(减少由于测序错误导致的不同 A1被读成相同的可能性;减少A1在下机数据中的占比以提高经济性),A1 的长度显然应该选择7。
在一些实施方式中,所述试剂盒还包括ERP3(15046465,Illumina)和 ATL2(15046467,IIlumina),分别用于对片段打断后的DNA进行末端补平和 末端加A。
在一些实施方式中,所述试剂盒还包括PPC(15031748,Illumina)和EPM(15041027,Illumina),这两个试剂用于对连接Y型接头后的DNA进行PCR 扩增,PCR扩增的产物进行磁珠纯化和定量后用于进行靶标基因捕获。
在一些实施方式中,所述试剂盒还包括NEM(15037047,Illumina),用 于对靶标基因捕获后的DNA进行PCR扩增,PCR扩增后的产物进行磁珠纯化 即为制备好的DNA文库。
在一些实施方式中,所述试剂盒还包括测序引物:5’ -ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’,以及Index 引物:5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’, 所述测序引物和Index引物用于DNA文库在IlluminaNextSeq500进行高通 量测序需要加入的引物,从而获得下机数据。
在一些实施方式中,所述用于肺癌检测的试剂盒的使用方法,包括步骤:
(S1)对人体外周血血清中的游离DNA进行片段打断后的DNA使用ERP3 (15046465,Illumina)进行末端补平,再使用ATL2(15046467,Illumina) 进行末端加A,然后使用所述Y型接头进行连接Y型接头,再使用PPC (15031748,IIlumina)和EPM(15041027,Illumina)对连接Y型接头后的 DNA进行PCR扩增;
(S2)使用所述探针对步骤S1获得的DNA进行分别靶向捕获102个靶标 基因,再NEM(15037047,Illumina)进行PCR扩增,扩增后的产物进行磁珠 纯化即为制备好的DNA文库;
(S3)对DNA文库使用所述测序引物和Index引物加入到Illumina NextSeq500进行高通量测序种,获得下机数据;
(S4)对下机数据进行数据质控和预处理,随后通过识别固定碱基序列 A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’ 端移除,再将其使用序列比对软件与参考基因组序列进行比对,获得定位于 所述参考基因组序列的位置信息;再去除PCR重复序列以及低比对质量的序 列,再统计目标区域的测序覆盖度,舍弃覆盖度低于1000倍的区域;然后使 用变异检测工具进行SNV和InDel分析,再使用snpEff过滤掉dbSNP(v151) 数据库中的常见变异,得到高质量的SNV和InDel位点并用于后续分析和打 分;计算每个目标基因中的SNV和InDel位点总数,采用打分公式S1进行肺 癌预测打分,每个待捕获样品得到一个分值Scorelung,打分公式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为以下的28个基因:CDKN2A、EGFR、FAM135B、HCN1、KEAP1、 KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、 RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、 TNR、TP53、TPTE;j为以下的33个基因:ATM、BRAF、CADPS、GALNT13、GFRAL、 HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、 OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、 PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A; k为所述102个靶标基因去除i和j后剩下的41个基因;Mui为i中的28个 基因的每个基因的SNV和InDel总数,Muj为j中的33个基因的每个基因的 SNV和InDel总数,Muk为k中的41个基因的每个基因的SNV和InDel总数; C1=0.89,C2=0.72,C3=0.55;以Scorelung=2为分类阈值,Scorelung大于2则将 受测者预测为肺癌,小于等于2则将受测者预测为健康人。
进一步的,在步骤S4中,所述质控工具为FastQC、Cutadpat和 Trimmomatic,通过质控工具对所述下机数据进行数据质控和预处理以得到去 除了低质量序列和测序接头的有效数据(clean data);所述序列比对软件 为Bowtie2;所述去除PCR重复序列具体为:被序列比对软件比对到参考基 因组同一位置(即序列的5’和3’端在参考基因组的位置相同)的序列则视 为PCR重复,并将其合并为同一条序列;所述去除低比对质量的序列为去除MAPQ<20的序列,获得高比对质量的序列;所述变异检测工具为Varscan2。
在本申请的第四方面,提供一种用于肺癌检测的方法,包括步骤:
(A)从人体外周血的血清中提取的游离DNA,经过打断片段、末端补平 加A、连接Y型接头及扩增纯化后的DNA作为待捕获样品;
(B)利用探针分别靶向待捕获样品中的102个靶标基因的特定区域,所 述102个靶标基因分别为:AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、 CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、 FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、 IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、 MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、 NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、 PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、 SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、 SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、 TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A;
(C)将探针靶向捕获后的DNA进行测序及测序数据分析,所述测序数据 分析包括使用变异检测工具进行SNV和InDel分析,能够将I和II期肺癌患 者与健康人进行准确的区分。
在一些实施方式中,在步骤A中,所述人体外周血≥10ml,所述从血清中 提取的游离DNA的量为100-500ng。
所述游离DNA被随机打断成小片段,使用磁珠纯化筛选出合适的片段。 所述游离DNA被随机打断的方式为:超声打断,游离DNA被随机打断并使用, 磁珠纯化筛选出的片段为140-160bp。
进一步的,对筛选出的DNA片段进行末端补平和末端加A,再连接Y型 接头,所述Y型接头为:5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和 5’- TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCA TCGTTATCTCGTATGCCGTCTTCTGCTTG-3’,其中,NNNNNNN为7个碱基的随机核 苷酸序列(即随机标签序列),记为A1,ACCGGTCCGTAA为12个碱基的固定 序列,记为A2,TTACGGACCGGT为其反向互补序列,TATAGCCT和GCCAATTA为 index序列,用于区分不同受测者的测序数据,可用Illumina常用的8碱基 index替换。。
进一步的,连接Y型接头后,进行PCR扩增并且扩增后的产物进行磁珠 纯化和定量。所述定量为Qubit定量。
在一些实施方式中,在步骤B中,将3-6个待捕获样品(来源于不同的 人体)进行等质量比例混合,然后使用所述测序panel中的探针进行杂交, 从而靶向捕获所述102个基因的特定区域,所述特定区域为所捕获基因的外 显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止 位点下游的100bp。
在一些实施方式中,在步骤C中,将两个靶向捕获后获得的DNA,进行PCR扩增及磁珠纯化,所得产物即为制备好的DNA文库。
进一步的,将DNA文库进行长度范围检测和浓度定量,随后送至IlluminaNextSeq500进行高通量测序,测序时加入测序引物:5’ -ACCGACCTGCAACGACTAGC-3’和5’-GACTGTCTGCAACGACTAGC-3’,以及Index 引物:5’-AGTCCTGATCGACAGATCAC-3’和5’-TCGGTGAACGCAGATACTTG-3’, 而后获得下机数据(raw data)。
进一步优选的,使用Agilent 2100 Bioanalyzer进行片段长度范围检测 以及Invitrogen Qubit进行浓度定量,测序读长为150bp,测序模式为双端 测序。
进一步的,通过质控工具对所述下机数据进行数据质控和预处理以得到 去除了低质量序列和测序接头的有效数据(clean data);随后通过识别固 定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列 5’以及3’端移除;再将其使用序列比对软件与参考基因组序列进行比对, 获得定位于所述参考基因组序列的位置信息;再去除PCR重复序列以及低比 对质量的序列,再统计目标区域的测序覆盖度,舍弃覆盖度低于1000倍的区 域;然后使用变异检测工具进行SNV和InDel分析,再使用snpEff(默认参 数)过滤掉dbSNP(v151)数据库中的常见变异,得到高质量的SNV和InDel 位点并用于后续分析和打分。
进一步的优选的,所述质控工具为FastQC、Cutadpat和Trimmomatic; 所述序列比对软件为Bowtie2;所述去除PCR重复序列具体为:被序列比对 软件比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的位置 相同)的序列则视为PCR重复,并将其合并为同一条序列;所述去除低比对质 量的序列为去除MAPQ<20的序列,获得高比对质量的序列;所述变异检测工 具为Varscan2。
进一步的,基于得到的每个目标基因中的SNV与InDel总数,采用打分 公式S1进行肺癌预测打分,每个待捕获样品得到一个分值Scorelung,打分公 式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为以下的28个基因:CDKN2A、EGFR、FAM135B、HCN1、KEAP1、 KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、 TNR、TP53、TPTE;j为以下的33个基因:ATM、BRAF、CADPS、GALNT13、GFRAL、 HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、 OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、 PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A; k为所述102个靶标基因去除i和j后剩下的41个基因;Mui为i中的28个 基因的每个基因的SNV和InDel总数,Muj为j中的33个基因的每个基因的 SNV和InDel总数,Muk为k中的41个基因的每个基因的SNV和InDel总数; C1=0.89,C2=0.72,C3=0.55。
进一步的,以Scorelung=2为分类阈值,Scorelung大于2则将受测者预测为 肺癌,小于等于2则将受测者预测为健康人。
与现有技术相比,本发明的有益效果在于:
1、102个靶标基因的选取方法更为合理,使用了TCGA的亚洲人肺癌突 变大数据进行了500基因的初步筛选,随后又使用了中国肺癌患者和健康人 的突变数据对靶标基因进行了进一步的筛选,最终确定了102个靶标基因, 随后又使用了中国肺癌患者和健康人作为验证组,验证了对102个靶标基因 的特定区域测序能够将I和II期肺癌患者与健康人进行准确的区分。
2、Y型接头的序列设计更为优化,与常规Y型接头相比,除了设计引物 区域序列、引入随机核苷酸序列(A1)和固定序列(A2),更重要的是提出了 A1和A2的优化设计方法,这既能减少后续数据分析产生的错误,又能提高 测序的经济性;这些特点对于提高肺癌检测准确度以及降低肺癌检测成本非 常重要。
3、本发明通过计算TXN与SN的皮尔森相关系数RX筛选出了102个靶标基 因,本发明提出了新的预测肺癌的打分公式S1,应用该公式能够简单并且准 确的将I和II期肺癌患者与健康人进行准确的区分,预测准确性高,使用简 便且经过了临床样品的验证,具有很大的推广潜力。
附图说明
结合以下附图一起阅读时,将会更加充分地描述本申请内容的上述和其 他特征。可以理解,这些附图仅描绘了本申请内容的若干实施方式,因此不 应认为是对本申请内容范围的限定。通过采用附图,本申请内容将会得到更 加明确和详细地说明。
图1为训练组100例样品测序数据的质控结果箱线图。其中,平均覆盖 度经过了以10000为底的对数转换。
图2为在训练组中使用打分公式S1得到的肺癌检测ROC曲线。图中“肺 癌”指的是I和II期非小细胞肺癌。
图3为验证组100例样品测序数据的质控结果箱线图。其中,平均覆盖 度经过了以10000为底的对数转换。
图4为在验证组中使用打分公式S1得到的肺癌检测ROC曲线。图中“肺 癌”指的是I和II期非小细胞肺癌。
具体实施方式
描述以下实施例以辅助对本申请的理解,实施例不是也不应当以任何方 式解释为限制本申请的保护范围。
下列实施例中未注明具体条件的实验方法,按照常规实验条件,例如 Sambrook等人的分子克隆实验室手册(New York:Cold Spring Harbor Laboratory Press,1989)中所述的条件,或按照制造厂商所建议的条件。 除非另外说明,否则百分比和份数按重量计算。除非有特别说明,否则实施 例所用的材料均为市售产品。
实施例1:获得训练组外周血
申请人于2018年3月至2019年1月采集了未经治疗的I和II期非小细 胞肺癌患者的外周静脉血样品共50例,每一例样品均含有20ml的外周血, 其中男性30例,女性20例,平均年龄为57.8,年龄分布为33–79岁,均 为中国人。同期,申请人采集了健康人外周静脉血样品共50例,每一例样品 均含有20ml的外周血,其中男性30例,女性20例,平均年龄为58.2,年 龄分布为33–78岁,均为中国人。这两组样品作为训练组样本,这两组样品 的性别与年龄都没有统计学上的显著差异,因此满足性别和年龄匹配的原则。
对于每一份外周血,均进行提取游离DNA、片段打断末端补平加A、连接 Y型接头及扩增纯化后的DNA作为待捕获样品。
实施例2:制备待捕获样品
将对于每一份外周血,均进行以下提取游离DNA、片段打断末端补平加A、 连接Y型接头及扩增纯化和定量,得到的DNA作为待捕获样品:
(1)对每一份外周血,在用干燥采血管采集后于4℃静置半小时以上, 随后400g,4℃离心10分钟取上清,进一步1800g,4℃离心10分钟取上 清,得到血清样品,保存于-80℃冰箱中;
(2)使用QIAamp Circulating Nucleic Acid Kit(55114,QIAGEN) 从上述血清样品抽提100–500ng的DNA,用超纯水(无DNA酶和RNA酶,下 同)稀释至总体积为20μl,随后使用Covaris超声破碎仪将其打断至片 段长度为200bp左右;
(3)将打断完的样本用RSB(15026770,Illumina)补足至50ul体积, 加入100ulSPB(15052080,Illumina)混匀,室温孵育5min,磁力架上吸附, 弃上清,用200ul 80%酒精洗两次,弃液体干燥后加入62.5ul RSB后混匀, 室温孵育2min,磁力架上吸附,取上清60ul至新管;
(4)加入40ul ERP3(15046465,Illumina),混匀后30℃补平30min, 降至4℃后取出;
(5)加入90ul SPB后充分混匀,室温孵育5min,磁力架上吸附,吸取 185ul上清至新管,往新管内加入125ul SPB后充分混匀,室温孵育5min, 磁力架上吸附,弃上清,用200ul 80%酒精洗两次,弃液体干燥后加入20ul RSB 重悬磁珠,室温孵育2min,磁力架上吸附,取上清17.5ul至新管;
(6)加入12.5ul ATL2(15046467,Illumina),混匀后37℃反应30min, 70℃反应5min,4℃冷却5min后取出;
(7)加入2.5ul RSB,2.5ul LIG2(15036183,Illumina),2.5ul接 头(adapter;15uM;接头为Y型接头,碱基序列为5’- AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGC CTCAAGTATCTGCGTTCACCGAC CTGCAACGACTAGCNNNNNNNNNNTACGGTGCGCT-3’和5’- GCGCACCGTANNNNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’)混匀后30℃反应10min,降至4℃ 后取出;其中,TATAGCCT和GCCAATTA为index序列,用于区分不同受测者 的测序数据,后续需要混样的不同样品在此处使用了不同的index序列(替 换序列参照IIlumina常用的8碱基index序列)。
(8)加入5ul STL(15012546,Illumina)混匀,加入39ul SPB混匀, 室温孵育5min,磁力架上吸附,弃上清,用200ul 80%酒精洗两次,弃液体 干燥后加入52.5ul RSB,室温孵育2min,磁力架上吸附,吸取50ul上清至 新管,新管加入45ul SPB混匀,室温孵育5min,磁力架上吸附,弃上清, 用200ul 80%酒精洗两次,弃液体干燥后加入27.5ul RSB,室温孵育2min, 磁力架上吸附,吸取25ul上清至新管;
(9)加入5ul PP(15031748,Illumina)20ul EPM(15041027,Illumina) 混匀后进行PCR反应:95℃预变性3min,98℃变性20s,60℃退火15s,72 ℃延伸30s,执行11个循环后,72℃延伸5min降至4℃后取出;
(10)加35ul SPB充分混匀,室温孵育5min,磁力架上吸附,取82ul 上清至新管,加入82ul SPB混匀,室温孵育5min,磁力架上吸附,弃上清, 用200ul 80%酒精洗两次,弃液体干燥后加入17.5ul RSB重悬磁珠,室温 孵育2min,磁力架上吸附,取上清15ul至新管,用Invitrogen Qubit测定 浓度后的DNA作为待捕获样品。
实施例3:选出突变频率高的500个基因
首先,选出以下常见的癌症驱动基因:AKT1,BRAF,CDKN2A,CTNNB1,EGFR, ERBB2,HRAS,KEAP1,KRAS,MEK1,MET,NFE2L2,NOTCH1,NRAS,PIK3CA,PTEN, STK11,TP53。
然后,使用TCGA的肺癌患者(亚洲人)全基因组/全外显子组测序数据, 计算不同基因在患者中的突变频率,该突变仅为SNV和InDel,并根据突变 频率从高到低进行排序,选出排名靠前的前500个基因,这500个基因中包 含了上述常见的18个癌症驱动基因,这500个基因为:ABCA13,ABCA9,ABCB1, ABCB5,ACAN,ACTN2,ADAMTS12,ADAMTS16,ADAMTS18,ADAMTS20,ADAMTSL3, ADCY2,ADCY8,ADGRB3,ADGRG4,ADGRL3,ADGRL4,ADGRV1,AFF2,AHNAK,AHNAK2,AIDA,AKAP6,AKT1,ALMS1,ALPK2,AMER3,ANK1,ANK2,ANK3, ANKRD30A,ANKRD30B,APOB,ARID1A,ASAH2,ASPM,ASTN1,ASTN2,ASXL3, ATM,ATRNL1,BCHE,BCLAF1,BEST1,BIRC6,BOD1L1,BRAF,BRINP2,BRINP3, BRWD3,C6,CACNA1B,CACNA1C,CACNA1E,CACNA2D1,CADPS,CAV2,CDH10, CDH12,CDH18,CDH7,CDH8,CDH9,CDKN2A,CENPF,CFAP47,CFH,CHD5,CHD7,CMYA5,CNGB3,CNTN5,CNTNAP2,CNTNAP4,CNTNAP5,COL11A1,COL12A1, COL14A1,COL15A1,COL19A1,COL1A2,COL22A1,COL24A1,COL3A1,COL4A5, COL5A2,COL6A3,COL6A6,CPED1,CPS1,CRB1,CREBBP,CSMD1,CSMD2,CSMD3, CTNNA2,CTNNB1,CTNND2,CUBN,DCAF4L2,DCC,DCHS1,DCHS2,DGKI,DIDO1, DLC1,DMBT1,DMD,DNAH10,DNAH11,DNAH2,DNAH3,DNAH5,DNAH7,DNAH8, DNAH9,DOCK10,DOCK2,DPM1,DPP10,DSCAM,DST,DTX2,DUSP27,DYNC1H1, DYNC2H1,DYSF,EGFR,EIF3E,ELP4,EPB41L3,EPHA3,EPHA5,EPHA6,EPHB1, EPHB6,ERBB2,ERBB4,ERICH3,EYA4,EYS,F5,F8,F9,FAM135B,FAM47A, FAM47B,FAM47C,FANCL,FAT1,FAT2,FAT3,FAT4,FBN1,FBN2,FCGBP,FCRL5, FER1L6,FGL1,FLG,FLG2,FLNC,FMN2,FRAS1,FREM2,FRMPD1,FSCB,FSHR, FSIP2,FSTL5,GABRA2,GALNT13,GALNT17,GATA3,GFRAL,GKN2,GPR158,GRID1,GRID2,GRIK2,GRIN2A,GRIN2B,GRIN3A,GRM1,GRM5,GRM7,GRM8, HCN1,HDAC9,HECW1,HEPH,HERC1,HERC2,HGF,HIGD2B,HMCN1,HRAS,HRNR, HUWE1,HYDIN,IFT172,IL1RAPL1,INPP5D,ITGA8,ITGAX,ITIH6,ITM2A, ITPRID1,KALRN,KCNB2,KCNH1,KCNH7,KCNH8,KCNT2,KDR,KEAP1, KIAA1109,KIAA1211,KIAA1549L,KIF2B,KLHL1,KLHL4,KMT2C,KMT2D,KRAS,LAMA1,LAMA2,LAMA4,LAMB4,LCT,LPA,LRFN5,LRP1,LRP1B,LRP2,LRRC4C, LRRC7,LRRIQ1,LRRK2,LRRTM4,LTBP1,LYST,MACF1,MAGEC1,MAP2,MDGA2, MDN1,MEK1,MET,MGAM,MKI67,MMP16,MMRN1,MROH2B,MRPL1,MUC16,MUC17, MUC5B,MXRA5,MYCBP2,MYH1,MYH13,MYH2,MYH4,MYH6,MYH7,MYH8,MYO16, MYO18B,MYO3A,MYO7B,MYT1L,NALCN,NAV3,NBAS,NBEA,NCAM2,NCKAP5, NDC80,NDST4,NEB,NEDD4L,NELL1,NEXMIF,NF1,NFE2L2,NID2,NLGN4X,NLRP12,NLRP13,NLRP14,NLRP3,NLRP4,NLRP5,NLRP7,NLRP8,NOS1, NOTCH1,NOTCH4,NPAP1,NRAS,NRK,NRXN1,NRXN3,NTM,NTRK3,OBSCN,OCA2, OR2L13,OR2T4,OR4A15,OR4C6,OR5L2,OR6F1,OSBPL10,OTOF,OTOGL, OVCH1,PAPPA2,PCDH10,PCDH11X,PCDH15,PCDH17,PCDHB7,PCLO,PDE1C, PDE3A,PDE4DIP,PDGFRA,PDZRN3,PEG3,PIK3CA,PIK3CG,PKD1L1,PKHD1,PKHD1L1,PLCB1,PLCH1,PLCL1,PLEC,PLPPR4,PLXNA4,POLQ,POM121L12, POTEE,POTEG,PPFIA2,PPP1R3A,PRDM9,PREX1,PREX2,PRKCZ,PRKDC, PRSS1,PRUNE2,PSEN2,PSG2,PSG5,PTEN,PTPRB,PTPRC,PTPRD,PTPRT, PTPRZ1,PUS7L,PXDNL,PYHIN1,RB1,RBMS3,REG1B,RELN,RGS7,RIMS1, RIMS2,RNF7,ROBO2,RP1,RP1L1,RSKR,RUNX1T1,RYR1,RYR2,RYR3,SACS,SAGE1,SALL1,SCN10A,SCN1A,SCN2A,SCN3A,SCN5A,SCN7A,SDK1,SEMA5A, SETBP1,SETD2,SGIP1,SI,SIPA1L2,SLC26A3,SLC39A12,SLC41A3,SLC4A10, SLC5A1,SLC6A5,SLC8A1,SLIT2,SLIT3,SLITRK1,SLITRK2,SLITRK3, SMARCA4,SNTG1,SORCS1,SORCS3,SPAG17,SPATA31A6,SPATA31D1, SPATA31E1,SPEF2,SPEG,SPHKAP,SPTA1,STAB2,STK11,SUDS3,SVEP1, SYNE1,SYNE2,TAF1L,TBX15,TCHH,TECTA,TENM1,TENM2,TENM3,TENM4, TEX15,TG,THBS2,THSD7A,THSD7B,TIAM1,TIMD4,TLN2,TLR4,TMEM132B, TMEM132D,TMPRSS15,TMTC1,TNN,TNR,TP53,TPR,TPTE,TRHDE,TRIM51, TRIM58,TRIO,TRPA1,TRPS1,TRRAP,TSHZ3,TTN,U2AF1,UBR4,UNC13C, UNC5D,UNC79,USH2A,USP29,USP34,UTRN,VCAN,VPS13A,VPS13B,VPS13C, VPS13D,VWF,WDFY3,XIRP2,ZAN,ZBBX,ZDBF2,ZEB1,ZEB2,ZFHX3,ZFHX4, ZFPM2,ZIC1,ZNF208,ZNF423,ZNF479,ZNF521,ZNF536,ZNF716,ZNF804A, ZNF804B,ZNF831,ZP4。
实施例4:捕获待捕获样品中的选出的500个基因并进行上机测序
将多个待捕获样品(来源于不同的人体)混合,使用探针分别靶向捕获 选出的500个基因的特定区域,靶向捕获两次,将捕获后的DNA进行PCR扩 增及磁珠纯化,所得产物即为制备好的DNA文库。
(1)将5个实施例2得到的待捕获样品按等质量比例混合,使总样 本量在900ng-1500ng之间,体积用RSB补足至40ul;
(2)加入50ul CT3(15048799,Illumina),10ul DNA探针溶液(0.5uM, 根据实施例3中选出的500个基因分别合成相应的探针,探针为带生物素标 记的单链DNA分子,其设计参照Illumina TruSeq Exome(FC-150-1004)设 计,化学合成使用常规方法)混匀后进行杂交反应:95℃,10min;94℃,1min,92℃,1min,90℃,1min,…,60℃,1min(每降2℃反应1min);58℃,90min 后可取出;探针分别靶向捕获每个待捕获样品的500个基因的特定区域,所 述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位 点上游的500bp以及转录终止位点下游的100bp。
(3)取EP管,立即加入100ul上步得到的样品,加入250ul SMB(15015927,IIlumina),室温孵育25min,磁力架上吸附,弃上清,加200ul SWS(15052987, Illumina),混匀,50℃孵育30min,立即放在磁架上,吸附,弃上清,重 复一次;
(4)配工作液:28.5ul EE1(15037034,Illumina)和1.5ul HP3(11324596,Illumina)混匀;取23ul重悬磁珠,室温孵育2min,磁力架上吸附,取21ul 上清至新管,加入4ul ET2(15013008,Illumina)混匀;
(5)加入15ul RSB,50ul CT3,10ul DNA探针溶液(同上)混匀后进 行杂交反应:95℃,10min;94℃,1min,92℃,1min,90℃,1min,…,60℃,1min (每降2℃反应1min);58℃,14.5h后可取出;
(6)取EP管,立即加入100ul上步得到的样品,加入250ul SMB,室 温孵育25min,磁力架上吸附,弃上清,加200ul SWS,混匀,50℃孵育30min, 立即放在磁架上,吸附,弃上清,重复一次;
(7)配工作液:28.5ul EE1和1.5ul HP3混匀;取上一步得到的重悬 磁珠23ul,室温孵育2min,磁力架上吸附,取21ul上清至新管,加入4ul ET2 混匀;加45ul SPB混匀,室温孵育5min,磁力架上吸附,弃上清,用200ul 80%酒精洗两次,弃液体干燥后加27.5ul RSB,室温孵育2min,磁力架上吸 附,取上清25ul于新管;
(8)加5ul PPC,20ul NEM(15037047,Illumina)混匀后进行PCR反 应:98℃预变性30s,98℃变性10s,60℃退火30s,72℃延伸30s,执行11 个循环后,72℃延伸5min,降至4℃后取出,加入45ul SPB,室温孵育5min, 磁力架上吸附,弃上清,用200ul 80%酒精洗两次,弃液体干燥后加22ul RSB, 室温孵育2min,磁力架上吸附,取上清20ul于新管,得到制备完成的外显 子DNA文库。
(9)使用Agilent 2100 Bioanalyzer进行片段长度范围检测(片段长 度基本分布于200~400bp间)以及Invitrogen Qubit进行浓度定量(大于 1ng/μl)之后,送至IlluminaNextSeq 500测序平台进行测序,测序读长 为150bp,测序模式为双端测序,加入测序引物(5’ -ACCGACCTGCAACGACTAGC-3’,5’-GACTGTCTGCAACGACTAGC-3’)和Index引 物(5’-AGTCCTGATCGACAGATCAC-3’,5’-TCGGTGAACGCAGATACTTG-3’),并 获得下机数据(rawdata)。
实施例5:数据分析获得102个靶标基因、肺癌预测打分公式及分类阈值
使用FastQC,Cutadpat和Trimmomatic进行数据质控和预处理(使用 默认参数)以得到去除了低质量序列和测序接头的有效数据,随后通过识别 固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列 5’以及3’端移除,随后使用序列比对软件Bowtie2将得到的序列再比对到 人类参考基因组序列上(使用默认参数),获得定位于参考基因组的位置信 息;
根据序列比对位置,对结果进行PCR重复序列的去除。具体而言,被 Bowtie2比对到参考基因组同一位置(即序列的5’和3’端在参考基因组的 位置相同)的序列若带有相同的随机标签序列A1,则视为PCR重复,并将其 合并为同一条序列;
从已去除PCR重复的序列中,进一步过滤掉低比对质量的序列(仅保留 MAPQ≥20的序列),进一步统计目标区域的测序覆盖度,舍弃覆盖度低于1000 倍的区域后,进入下一步分析;
使用变异检测工具Varscan2,对上一步获得的数据进行SNV和InDel 分析,随后使用snpEff过滤掉dbSNP(v151)数据库中的常见变异(默认参 数),得到高质量的SNV和InDel位点并用于后续分析和打分。
测序数据质控分析显示,100个样品的下机数据Q30均大于85%,可比对 序列超过95%,靶向捕获区域的平均覆盖度达到4000倍以上(数据分布的箱 线图见图1),数据质量均为合格。
获得102个靶标基因
对于实施例3选出的500个基因,对任意一个基因X和受测者N而言, 定义TXN为该受测者的该基因中检测到的SNV和InDel总数,同时,为每一个 受测者定义一个变量SN,当受测者为健康人、I期患者和II期患者的时候, SN分别是0、1和2,随后,对于基因X,基于实施例1中的所有受测者计算 TXN与SN的皮尔森相关系数RX,保留RX大于0.7的基因作为肺癌检测的靶向测 序paneI的靶标基因。这里,RX大于0.7的基因有102个,这102个靶标基 因分别为:AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、 DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、 GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、 ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、 MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、 PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、 PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、 SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、 SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、 UNC5D、VPS13A。
根据102个靶标基因设计的肺癌预测的打分公式
基于这102靶标基因,申请人设计了一个早期肺癌预测的打分公式,采 用打分公式S1进行肺癌预测打分,每个待捕获样品得到一个分值Scorelung, 打分公式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为RX大于0.9的28个基因:CDKN2A、EGFR、FAM135B、HCN1、 KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、 PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、 TNN、TNR、TP53、TPTE;j为RX大于0.8且小于等于0.9的33个基因:ATM、 BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、 POM121L12、POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、 SLC4A10、SLC6A5、UNC5D、VPS13A;k为RX大于0.7且小于等于0.8的、102 个靶标基因去除i和j后剩下的41个基因;Mui为i中的28个基因的每个 基因的SNV和InDel总数,Muj为j中的33个基因的每个基因的SNV和InDel 总数,Muk为k中的41个基因的每个基因的SNV和InDel总数;C1=∑ (Ri 2)/28=0.89,C2=∑(Rj 2)/33=0.72,C3=∑(Rk 2)/41=0.55,Ri,Rj和Rk分别对 应了上述i、j、k基因的RX
肺癌预测打分公式的分类阈值
针对上述肺癌预测的打分公式S1,申请人以Scorelung=2为分类阈值,高 于2则将受测者判断为肺癌,低于或等于2则将受测者判断为健康人。
基于该打分公式以及分类阈值,基于训练组的肺癌的检测敏感性为 0.92,特异性亦为0.92。随后,使用R语言ROCR包绘制ROC曲线(中文全 称为受试者工作特征曲线),对应的AUC(英文全称为Area Under Curve) 大于0.92,如图2所示,表明对I和II期肺癌具有优秀的检测能力。
实施例6:使用验证组验证检测效果
申请人于2019年2月至2020年1月采集了未经治疗的I和II期非小细 胞肺癌患者的外周静脉血样品共50例,每一例样品均含有20ml的外周血, 其中男性29例,女性21例,平均年龄为62.2岁,年龄分布为40–81岁, 均为中国人。同期,申请人采集了健康人外周静脉血样品共50例,每一例样 品均含有20ml的外周血,其中男性29例,女性21例,平均年龄为61.9岁, 年龄分布为41–80岁,均为中国人。这两组样品的性别与年龄都没有统计学 上的显著差异,因此满足性别和年龄匹配的原则。
对于验证组的100例外周血样本,采用实施例2相同的步骤进行提取游 离DNA、片段打断末端补平加A、连接Y型接头及扩增纯化和定量,得到的 DNA作为待捕获样品。
然后对待捕获样品进行靶标基因捕获,靶标基因为实施例5得到的102 个靶标基因,采用实施例4相同的步骤进行靶标基因捕获和上机测序,注意 这里的区别点在于,实施例4是采用500个基因进行靶向捕获,而此处是利 用102个靶标基因对应的探针,分别靶向捕获待捕获样品中的102个靶标基 因,其他步骤相同。
对于下机数据,采用与实施例5相同的数据进行测试数据质控和使用变 异检测工具进行SNV和InDel分析,其中,测序数据质控分析显示,100个 样品的下机数据Q30均大于85%,可比对序列超过95%,靶向捕获区域的平均 覆盖度达到5000倍以上(见图3),数据质量均为合格。
随后,对每个待捕获样品使用肺癌预测的打分公式S1计算分值Scorelung, 打分公式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为以下的28个基因:CDKN2A、EGFR、FAM135B、HCN1、KEAP1、 KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、 RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、 TNR、TP53、TPTE;j为以下的33个基因:ATM、BRAF、CADPS、GALNT13、GFRAL、 HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、 OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、 PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A; k为所述102个靶标基因去除i和j后剩下的41个基因;Mui为i中的28个 基因的每个基因的SNV和InDel总数,Muj为j中的33个基因的每个基因的 SNV和InDel总数,Muk为k中的41个基因的每个基因的SNV和InDel总数; C1=0.89,C2=0.72,C3=0.55。
同样以Scorelung=2为分类阈值,对肺癌患者和健康人进行分类,相应的 肺癌检测敏感性为0.90,特异性为0.90;使用R语言ROCR包绘制基于验证 组样本的ROC曲线,其AUC值为0.905,如图4所示。验证组再次说明,含 有102个靶标基因的用于肺癌检测的靶向测序panel的检测试剂、基于102 个靶标基因的肺癌预测的打分公式S1及分类阈值、基于102个靶标基因相对 应的探针的用于肺癌检测的试剂盒和基于肺癌预测的打分公式S1及分类阈值的肺癌检测方法,能够将I和II期肺癌患者与健康人进行准确的区分。
尽管本申请已公开了多个方面和实施方式,但是其它方面和实施方式对 本领域技术人员而言将是显而易见的,在不脱离本申请构思的前提下,还可 以做出若干变形和改进,这些都属于本申请的保护范围。本申请公开的多个 方面和实施方式仅用于举例说明,其并非旨在限制本申请,本申请的实际保 护范围以权利要求为准。

Claims (9)

1.一种检测靶标基因的探针用于制备肺癌检测的检测试剂的用途,其特征在于,探针用于分别靶向捕获待捕获样品中的102个靶标基因的特定区域,所述102个靶标基因分别为:AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A,将探针靶向捕获的DNA进行测序并对测序数据进行SNV和InDel分析,能够将I和II期非小细胞肺癌患者与健康人进行区分;所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp;所述检测试剂还包括Y型接头,所述Y型接头为:5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTA TAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和5’-TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’,其中,NNNNNNN为7个碱基的随机核苷酸序列,记为A1,ACCGGTCCGTAA为12个碱基的固定序列,记为A2,TTACGGACCGGT为其反向互补序列,TATAGCCT和GCCAATTA为index序列,用于区分不同受测者的测序数据。
2.如权利要求1所述的检测靶标基因的探针用于制备肺癌检测的检测试剂的用途,其特征在于,所述待捕获样品为从人体外周血的血清中提取的游离DNA,经过打断、末端补平加A、连接Y型接头及扩增纯化后的样品。
3.如权利要求1所述的检测靶标基因的探针用于制备肺癌检测的检测试剂的用途,其特征在于,包括以下步骤:
(1)将3-6个待捕获样品进行等质量比例混合,然后使用所述探针进行杂交,从而靶向捕获所述102个基因的特定区域;
(2)通过质控工具对下机数据进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据,随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除,再将其使用序列比对软件与参考基因组序列进行比对,获得定位于所述参考基因组序列的位置信息;再去除PCR重复序列以及低比对质量的序列,再统计目标区域的测序覆盖度,舍弃覆盖度低于1000倍的区域;然后使用变异检测工具进行SNV和InDel分析,再使用snpEff过滤,得到高质量的SNV和InDel位点并用于后续分析和打分。
4.如权利要求1所述的检测靶标基因的探针用于制备肺癌检测的检测试剂的用途,其特征在于,将SNV和InDel分析中得到的每个目标基因中的SNV与InDel总数,采用打分公式S1进行早期肺癌预测打分,每个待捕获样品得到一个分值Scorelung,打分公式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为以下的28个基因:CDKN2A、EGFR、FAM135B、HCN1、KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、TNR、TP53、TPTE;j为以下的33个基因:ATM、BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A;k为所述102个靶标基因去除i和j后剩下的41个基因;Mui为i中的28个基因的每个基因的SNV和InDel总数,Muj为j中的33个基因的每个基因的SNV和InDel总数,Muk为k中的41个基因的每个基因的SNV和InDel总数;C1=0.89,C2=0.72,C3=0.55。
5.如权利要求4所述的检测靶标基因的探针用于制备肺癌检测的检测试剂的用途,其特征在于,以Scorelung=2为分类阈值,Scorelung大于2则将受测者预测为肺癌患者,小于等于2则将受测者预测为健康人。
6.一种获得肺癌检测的靶向测序panel的检测试剂的方法,其特征在于,包括步骤:
(S1)使用TCGA的亚洲人肺癌患者全基因组/全外显子组测序数据,计算不同基因在患者中的突变频率,该突变仅为SNV和InDel,并根据突变频率从高到低进行排序,选出排名靠前的前300-1000个基因;从人体外周血的血清中提取的游离DNA,经过打断片段、末端补平加A、连接Y型接头及扩增纯化后的DNA作为待捕获样品;所述Y型接头为:5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTATAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和5’-TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACG CCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’,其中,NNNNNNN为7个碱基的随机核苷酸序列,记为A1,ACCGGTCCGTAA为12个碱基的固定序列,记为A2,TTACGGACCGGT为其反向互补序列,TATAGCCT和GCCAATTA为index序列,用于区分不同受测者的测序数据;
(S2)利用探针分别靶向捕获步骤S1中选出的基因的特定区域,将探针靶向捕获后的DNA进行测序及测序数据分析,所述测序数据分析包括使用变异检测工具进行SNV和InDel分析;所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp;
(S3)对步骤S2进行SNV和InDel分析得到的数据,对于步骤S1中选出的每个基因计算TXN与SN的皮尔森相关系数RX,RX大于0.7的基因作为肺癌检测的靶向测序panel的靶标基因,靶标基因相对应的探针用于靶向捕获所述靶标基因;102个靶标基因分别为:AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A。
7.如权利要求6所述的获得肺癌检测的靶向测序panel的检测试剂的方法,其特征在于,包括步骤:
(1)在步骤S2中,将3-6个待捕获样品进行等质量比例混合,然后使用所述探针进行杂交,从而靶向捕获所述102个基因的特定区域;通过质控工具对下机数据进行数据质控和预处理以得到去除了低质量序列和测序接头的有效数据;随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除;再将其使用序列比对软件与参考基因组序列进行比对,获得定位于所述参考基因组序列的位置信息;再去除PCR重复序列以及低比对质量的序列,再统计目标区域的测序覆盖度,舍弃覆盖度低于1000倍的区域;然后使用变异检测工具进行SNV和InDel分析,再使用snpEff过滤,得到高质量的SNV和InDel位点并用于后续分析和打分;
(2)在步骤S3中,对于步骤S1中选出的任意一个基因X和受测者N而言,TXN为该受测者的该基因中检测到的SNV和InDel总数,同时,为每一个受测者定义一个变量SN,当受测者为健康人、I期患者和II期患者的时候,S分别是0、1和2,对于基因X,计算TXN与SN的皮尔森相关系数RX,RX大于0.7的基因即为肺癌检测的测序panel的靶标基因;
(3)计算102个靶标基因的每个目标基因中的SNV与InDel总数,采用打分公式S1进行肺癌预测打分,每个待捕获样品得到一个分值Scorelung,打分公式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为RX大于0.9的28个基因:CDKN2A、EGFR、FAM135B、HCN1、KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、TNR、TP53、TPTE;j为RX大于0.8且小于等于0.9的33个基因:ATM、BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A;k为RX大于0.7且小于等于0.8的、102个靶标基因去除i和j后剩下的41个基因;Mui为i中的28个基因的每个基因的SNV和InDel总数,Muj为j中的33个基因的每个基因的SNV和InDel总数,Muk为k中的41个基因的每个基因的SNV和InDel总数;C1=∑(Ri 2)/28=0.89,C2=∑(Rj 2)/33=0.72,C3=∑(Rk 2)/41=0.55,Ri,Rj和Rk分别对应了上述i、j、k基因的RX;以Scorelung=2为分类阈值,Scorelung大于2则将受测者预测为肺癌患者,小于等于2则将受测者预测为健康人。
8.一种检测靶标基因的检测试剂用于制备肺癌检测的试剂盒的用途,其特征在于,所述试剂盒包括Y型接头,所述Y型接头为:5’-AATGATACGGCGACCACCGAGATCTACACAATTATCGTA TAGCCTCAAGTATCTGCGTTCACCGACCTGCAACGACTAGCNNNNNNNACCGGTCCGTAAT-3’和5’-TTACGGACCGGTNNNNNNNGCTAGTCGTTGCAGACAGTCCTGATCGACAGATCACGCCAATTAGCATCGTTATCTCGTATGCCGTCTTCTGCTTG-3’,其中,NNNNNNN为7个碱基的随机核苷酸序列,记为A1,ACCGGTCCGTAA为12个碱基的固定序列,记为A2,TTACGGACCGGT为其反向互补序列,TATAGCCT和GCCAATTA为index序列,用于区分不同受测者的测序数据;所述Y型接头用于对人体外周血血清中的游离DNA进行片段打断和末端补平加A后的DNA进行连接Y型接头;所述试剂盒还包括探针,所述探针用于分别靶向捕获待捕获样品中的102个靶标基因的特定区域,所述102个靶标基因分别为:AIDA、ASAH2、ATM、BEST1、BRAF、CADPS、CAV2、CDKN2A DPM1、DTX2、EGFR、EIF3E、ELP4、ERBB2、EYA4、F9、FAM135B、FANCL、FGL1、GALNT13、GATA3、GFRAL、GKN2、HCN1、HGF、HIGD2B、HRAS、IFT172、IL1RAPL1、INPP5D、ITM2A、KEAP1、KMT2C、KRAS、LPA、LRP1B、LRRC7、LTBP1、MDGA2、MET、MRPL1、MYH2、NDC80、NEDD4L、NF1、NFE2L2、NLRP4、NOTCH1、NRAS、NRXN1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、OSBPL10、PDE1C、PDE4DIP、PIK3CA、POM121L12、POTEG、PRKCZ、PRSS1、PSEN2、PSG2、PSG5、PTEN、PUS7L、PYHIN1、RBMS3、REG1B、RNF7、RSKR、RYR2、SAGE1、SCN7A、SETD2、SI、SLC26A3、SLC41A3、SLC4A10、SLC5A1、SLC6A5、SNTG1、SORCS3、SPHKAP、SPTA1、STK11、SUDS3、TBX15、THSD7A、TIMD4、TMEM132D、TNN、TNR、TP53、TPTE、U2AF1、UNC5D、VPS13A;所述特定区域为所捕获基因的外显子区域、外显子的上下游20bp、转录起始位点上游的500bp以及转录终止位点下游的100bp。
9.如权利要求8所述的检测靶标基因的检测试剂用于制备肺癌检测的试剂盒的用途,其特征在于,用于肺癌早期检测的试剂盒的使用方法,包括步骤:
(S1)对人体外周血血清中的游离DNA进行片段打断后的DNA使用ERP3进行末端补平,再使用ATL2进行末端加A,然后使用所述Y型接头进行连接Y型接头,再使用PPC和EPM对连接Y型接头后的DNA进行PCR扩增;(S2)使用所述102个探针对步骤S1获得的DNA进行分别靶向捕获102个靶标基因,再NEM进行PCR扩增,扩增后的产物进行磁珠纯化即为制备好的DNA文库;
(S3)对DNA文库使用测序引物和Index引物加入到Illumina NextSeq500进行高通量测序种,获得下机数据;
(S4)对下机数据进行数据质控和预处理,随后通过识别固定碱基序列A2将随机标签序列A1以及固定碱基序列A2从有效数据的序列5’以及3’端移除,再将其使用序列比对软件与参考基因组序列进行比对,获得定位于所述参考基因组序列的位置信息;再去除PCR重复序列以及低比对质量的序列,再统计目标区域的测序覆盖度,舍弃覆盖度低于1000倍的区域;然后使用变异检测工具进行SNV和InDel分析,再使用snpEff过滤,得到高质量的SNV和InDel位点并用于后续分析和打分;计算每个目标基因中的SNV和InDel位点总数,采用打分公式S1进行肺癌预测打分,每个待捕获样品得到一个分值Scorelung,打分公式S1为:
Scorelung=C1×∑(Mui)+C2×∑(Muj)+C3×∑(Muk)
其中,i为以下的28个基因:CDKN2A、EGFR、FAM135B、HCN1、KEAP1、KRAS、KMT2C、LRP1B、LRRC7、MDGA2、MYH2、NF1、NRXN1、PDE4DIP、PIK3CA、RYR2、SI、SNTG1、SORCS3、SPTA1、SPHKAP、STK11、THSD7A、TMEM132D、TNN、TNR、TP53、TPTE;j为以下的33个基因:ATM、BRAF、CADPS、GALNT13、GFRAL、HGF、IL1RAPL1、LPA、LTBP1、NFE2L2、NLRP4、NOTCH1、NTM、OCA2、OR2T4、OR4A15、OR4C6、OR5L2、OR6F1、PDE1C、POM121L12、POTEG、PSG2、PTEN、PYHIN1、REG1B、SAGE1、SCN7A、SETD2、SLC4A10、SLC6A5、UNC5D、VPS13A;k为所述102个靶标基因去除i和j后剩下的41个基因;Mui为i中的28个基因的每个基因的SNV和InDel总数,Muj为j中的33个基因的每个基因的SNV和InDel总数,Muk为k中的41个基因的每个基因的SNV和InDel总数;C1=0.89,C2=0.72,C3=0.55;以Scorelung=2为分类阈值,Scorelung大于2则将受测者预测为肺癌患者,小于等于2则将受测者预测为健康人。
CN202110743775.8A 2021-06-30 2021-06-30 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法 Active CN113481299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110743775.8A CN113481299B (zh) 2021-06-30 2021-06-30 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110743775.8A CN113481299B (zh) 2021-06-30 2021-06-30 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法

Publications (2)

Publication Number Publication Date
CN113481299A CN113481299A (zh) 2021-10-08
CN113481299B true CN113481299B (zh) 2022-05-10

Family

ID=77937839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110743775.8A Active CN113481299B (zh) 2021-06-30 2021-06-30 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法

Country Status (1)

Country Link
CN (1) CN113481299B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187964A (zh) * 2021-12-13 2022-03-15 深圳市海普洛斯生物科技有限公司 一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法
CN115985399B (zh) * 2023-03-20 2023-07-04 广州迈景基因医学科技有限公司 用于高通量测序的HRD panel位点选择优化方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
CN105779434A (zh) * 2014-12-15 2016-07-20 天津华大基因科技有限公司 试剂盒及其用途
CN105779435A (zh) * 2014-12-15 2016-07-20 天津华大基因科技有限公司 试剂盒及其用途
CN110592212A (zh) * 2019-08-15 2019-12-20 吴一龙 一种肺癌检测联合标志物、检测试剂盒及其用途
WO2020096248A1 (ko) * 2018-11-09 2020-05-14 주식회사 셀레믹스 폐암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법
CN111748621A (zh) * 2020-03-11 2020-10-09 重庆大学附属肿瘤医院 一种检测肺癌相关41基因的探针库、试剂盒及其应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017181146A1 (en) * 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer
KR20200139724A (ko) * 2018-03-30 2020-12-14 브리스톨-마이어스 스큅 컴퍼니 종양을 치료하는 방법
CN108893466B (zh) * 2018-06-04 2021-04-13 上海奥根诊断技术有限公司 测序接头、测序接头组和超低频突变的检测方法
CN109949861B (zh) * 2019-03-29 2020-02-21 裕策医疗器械江苏有限公司 肿瘤突变负荷检测方法、装置和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
CN105779434A (zh) * 2014-12-15 2016-07-20 天津华大基因科技有限公司 试剂盒及其用途
CN105779435A (zh) * 2014-12-15 2016-07-20 天津华大基因科技有限公司 试剂盒及其用途
WO2020096248A1 (ko) * 2018-11-09 2020-05-14 주식회사 셀레믹스 폐암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법
CN110592212A (zh) * 2019-08-15 2019-12-20 吴一龙 一种肺癌检测联合标志物、检测试剂盒及其用途
CN111748621A (zh) * 2020-03-11 2020-10-09 重庆大学附属肿瘤医院 一种检测肺癌相关41基因的探针库、试剂盒及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
二代测序检测在非小细胞肺癌患者肿瘤组织中的分析应用;王兆峰等;《临床肺科杂志》;20181130;第23卷(第11期);第1981-1984页 *
高通量测序在非小细胞肺癌基因突变研究中的应用;杨静丽等;《国际检验医学杂志》;20200531;第41卷(第10期);第1161-1166页 *

Also Published As

Publication number Publication date
CN113481299A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
JP2020103298A (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
WO2021128519A1 (zh) Dna甲基化生物标志物组合、检测方法和试剂盒
CN113481299B (zh) 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法
CN112301130B (zh) 一种肺癌早期检测的标志物、试剂盒及方法
JP2020010700A (ja) エピジェネティックドメインの安定性の全般的な損失を通して癌を検出する方法およびその組成物
TWI727938B (zh) 血漿粒線體dna分析之應用
WO2018166476A1 (zh) 检测样本中突变位点的方法
CN107142320B (zh) 用于检测肝癌的基因标志物及其用途
EP3372686A1 (en) Biomarker for detection of lung adenocarcinoma and use thereof
AU2017281099A1 (en) Compositions and methods for diagnosing lung cancers using gene expression profiles
WO2021180105A1 (zh) 一种检测常见两性癌症的探针组合物
EP2966183A1 (en) Method for obtaining information on lung cancer, and use of marker and determination device for obtaining information on lung cancer
JP2024020392A (ja) 特定の遺伝子のcpgメチル化変化を利用した肝癌診断用組成物およびその使用
CN109680054A (zh) 一种低频dna突变的检测方法
CN110724743B (zh) 人血液中结直肠癌诊断相关的甲基化生物标记物及其应用
WO2022262831A1 (zh) 用于评估肿瘤的物质及其方法
CN113652484B (zh) 测序panel的应用、试剂盒及测序文库的制备方法
EP4083232A1 (en) Combination of dna methylation biomarkers, and detection method therefor and kit thereof
EP4281583A1 (en) Heatrich-bs: heat enrichment of cpg-rich regions for bisulfite sequencing
KR101504069B1 (ko) 담관선암 검출 또는 진단용 메틸화 마커 및 방법
CN114561465B (zh) 一种用于检测结直肠腺瘤的标志组合物及其早期诊断试剂
CN115094142B (zh) 用于诊断肺肠型腺癌的甲基化标志物
WO2024001668A1 (zh) 用于检测肺结节良恶性的甲基化分子标记物及其应用
CN108424957B (zh) 一种胰腺癌痕量dna富集捕获测序的捕获芯片
CN114410792A (zh) 用于肾癌筛查的标志物、探针组合物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant