CN114187964A - 一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法 - Google Patents

一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法 Download PDF

Info

Publication number
CN114187964A
CN114187964A CN202111519375.5A CN202111519375A CN114187964A CN 114187964 A CN114187964 A CN 114187964A CN 202111519375 A CN202111519375 A CN 202111519375A CN 114187964 A CN114187964 A CN 114187964A
Authority
CN
China
Prior art keywords
mutation
lung cancer
gene
detection
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111519375.5A
Other languages
English (en)
Inventor
许明炎
何长寿
周衍庆
陈亚如
陈实富
杨庆
刘园园
张晓妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haplox Biotechnology Shenzhen Co ltd
Original Assignee
Haplox Biotechnology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haplox Biotechnology Shenzhen Co ltd filed Critical Haplox Biotechnology Shenzhen Co ltd
Priority to CN202111519375.5A priority Critical patent/CN114187964A/zh
Publication of CN114187964A publication Critical patent/CN114187964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法,涉及生物信息学技术领域。本发明通过整合肿瘤数据库和TCGA、COSMIC等著名肿瘤公共数据库,设计了一款覆盖肺癌驱动基因、靶向用药基因及热点突变的肺癌MRD基因检测panel,并开发了一套检测超低频基因突变预测模型。本发明以大样本量数据作为基础,聚焦肺癌驱动基因和热点突变,保证检测结果准确性;超高测序深度,保证了超低频检测限,超低频基因突变算法,提高突变检测精准度。本发明实施例证实,所述预测模型可以稳定检测0.02%的超低频突变。

Description

一种肺癌围手术期分子残留病灶基因检测panel及检测模型 的构建方法
技术领域
本发明属于生物信息学技术领域,具体涉及一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法。
背景技术
肺癌是我国发病率和死亡率最高的癌种,由于早期肺癌通常没有任何症状,大多数患者发现的时候已经是中晚期,错过了最佳的手术时间。即使手术成功切除后在影像学上检测不到肿瘤,也不意味着肿瘤被完全清除。微小残留病灶(MRD,Minimal ResidualDisease,也称分子残留病灶),是指癌症手术治疗后残留在体内的少量对治疗无反应或耐药的癌细胞。这类细胞数量可能很少,不会引起任何体征或症状,也无法通过传统方法检测出,但它们有可能导致癌症复发。目前传统的肺癌复发监测是定期进行肿瘤标志物和肺部CT检测,这种方法可以在一定程度上发现肿瘤复发,但时效性比较滞后。
发明内容
有鉴于此,本发明的目的在于提供一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法,并开发了一套检测超低频基因突变的生物信息学算法,从而达到精准检测血液中频率极低的分子残留病灶的目的。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供了一种肺癌围手术期分子残留病灶基因检测panel,所述基因检测panel包括如下所示的170个基因;
Figure BDA0003407052750000011
Figure BDA0003407052750000021
优选的,所述基因检测panel包括12个靶向用药基因:ALK、BRAF、EGFR、ERBB2、KRAS、MET、NRAS、PIK3CA、RET、ROS1、TERT和TP53。
优选的,所述基因检测panel包括30个肺癌驱动基因:AKT1、ALK、BAP1、BRAF、DDR2、DROSHA、EGFR、ERBB2、ERBB4、FGFR2、GRIN2A、HIF1A、KDR、KEAP1、KRAS、MAP2K1、MAP2K2、NFE2L2、NOTCH1、PIK3CB、PTPN13、PTPRT、RAD21、RB1、RBM10、RET、SMARCA4、STK11、TP53和TP63。
本发明还提供了一种检测超低频基因突变预测模型的构建方法,包括以下步骤:(1)提取样本组织的核酸,利用所述核酸构建文库;
(2)利用液相杂交捕获的方法在构建好的文库内富集上述基因检测panel的靶标区域,对捕获后的文库进行NGS测序,得fastq数据;
(3)利用fastp软件对所述fastq数据的overlap区域测序碱基进行矫正处理,将得到的数据回比到参考基因组hg19上,得初降噪数据;
(4)根据所述初降噪数据的起始终止位置和UMI数据进行去重处理,获得bam文件;所述UMI数据为采用单分子识别码的方法对每一条样本DNA进行标识后得到的数据;
(5)使用VarScan对所述bam文件进行变异检测,并提取特征值,利用特征值对变异位点进行过滤,同时过滤掉位于人类参考基因组的碱基重复区域附近的突变,获得肺癌分子残留病灶真阳性突变位点。
优选的,步骤(1)所述核酸的来源包括血浆游离DNA、血细胞gDNA或肿瘤组织gDNA。
优选的,步骤(5)所述特征值包括:每个变异位点的比对reads数、overlap分析、支持变异的分子拷贝数大于等于2的片段数目、分子拷贝数小于2的分子数目、发生多次比对的片段数目、变异位点位于片段末端的片段数目、对UMI去重后剩余的UMI标签个数和平均比对质量值。
本发明还提供了一种利用上述构建方法得到的检测超低频基因突变预测模型。
有益效果:本发明通过整合肿瘤数据库和TCGA、COSMIC等著名肿瘤公共数据库,设计了一款覆盖肺癌驱动基因、靶向用药基因及热点突变的肺癌MRD基因检测panel,并开发了一套检测超低频基因突变预测模型(图1)。
本发明以大样本量数据作为基础,聚焦肺癌驱动基因和热点突变,保证检测结果准确性;超高测序深度,保证了超低频检测限,超低频基因突变算法,提高突变检测精准度。本发明实施例证实,所述预测模型可以稳定检测0.02%的超低频突变,且稳定性高。
附图说明
图1为本发明整体方案流程图;
图2为分子残留病灶基因检测panel的获得方法;
图3为外显子区域的外显子突变指数;
图4为本发明所述检测模型的检测灵敏度;
图5为本发明所述检测模型的检测准确性;
图6为样本编号HP11~HP16的gDNA的文库条带;
图7为样本编号HP7~HP12的cfDNA的文库条带。
具体实施方式
本发明提供了一种肺癌围手术期分子残留病灶基因检测panel,所述基因检测panel包括如下所示的170个基因;
ADH1B AKT1 AKT3 ALK APC APOB AR ARAF ASXL1 ATM
ATR AXIN2 B2M BAP1 BARD1 BCL6 BCOR BLM BRAF BRIP1
BTK CAMTA1 CBL CDC73 CDK8 CDKN2A CFD CREBBP CSMD3 CSNK1A1
CTNNB1 CUL3 DDR2 DNMT3A DROSHA EEF1A1 EGFR EPHA3 EPHA5 EPHA7
EPHB1 ERBB2 ERBB3 ERBB4 ERCC1 ERG ERRFI1 ESR1 ETV4 ETV6
EXT2 FANCB FANCG FBXW7 FGF6 FGFR2 FGFR3 FGFR4 FLCN FLT1
FUS GALNT12 GATA1 GEN1 GLI1 GMEB1 GPRIN2 GRIN2A HFM1 HGF
HIF1A HNF1A HRAS HSP90AA1 IGF2 IKZF1 IL7R INPP4B KCNJ5 KDR
KEAP1 KIF1B KIT KLF4 KMT2A KRAS LMO1 MAP2K1 MAP2K2 MAP2K4
MAP3K1 MAPK1 MDM4 MED12 MET MITF MST1R MTOR MYCN NF1
NFE2L2 NKX2-1 NOTCH1 NOTCH3 NOVA1 NR4A3 NRAS NTRK2 NTRK3 PAK1
PAX5 PDGFRA PDGFRB PGR PIK3CA PIK3CB PIK3CD PIK3R2 PIM1 PLCG2
PMS1 PMS2 POLD1 POLE POLQ PPP2R2A PREX2 PRKACB PRKCI PRSS1
PTCH1 PTEN PTPN13 PTPRD PTPRT RAD21 RAD50 RARA RB1 RBM10
RECQL4 RET RHBDF2 RICTOR ROBO2 ROS1 SBDS SDHA SF3B1 SMAD2
SMAD4 SMARCA4 SMARCB1 SRC STAT3 STK11 SULT1A1 TERT TGFBR2 TNFAIP3
TNFRSF14 TNFSF8 top1 TP53 TP53BP1 TP63 U2AF1 WT1 XPA ZNF367
本发明所述基因检测panel包括12个靶向用药基因:ALK、BRAF、EGFR、ERBB2、KRAS、MET、NRAS、PIK3CA、RET、ROS1、TERT和TP53。本发明所述基因检测panel包括30个肺癌驱动基因:AKT1、ALK、BAP1、BRAF、DDR2、DROSHA、EGFR、ERBB2、ERBB4、FGFR2、GRIN2A、HIF1A、KDR、KEAP1、KRAS、MAP2K1、MAP2K2、NFE2L2、NOTCH1、PIK3CB、PTPN13、PTPRT、RAD21、RB1、RBM10、RET、SMARCA4、STK11、TP53和TP63。
本发明所述基因优选筛选自肿瘤数据库,更优选包括海普洛斯肿瘤数据库(https://varca.org/)中肺癌样本的突变数据、TCGA中的肺癌突变数据和COSMIC中肺癌驱动基因及相关靶向用药区间。本发明所述海普洛斯肿瘤数据库中肺癌样本的突变数据优选包含非同义突变SNV和indel。
本发明还提供了所述基因检测panel的获取方法,流程优选如图2所示:
(a)分析海普洛斯肺癌数据中,突变频率最高的150个长度小于1000bp的外显子区优先选取,当所有样本覆盖度饱和时,覆盖度饱和的外显子区域为Max coverage区域;
(b)当覆盖达到饱和后,选取在海普洛斯肺癌数据中出现过突变的驱动基因相关外显子区,这部分为驱动基因区域;
(c)对于出现突变的非Max coverage外显子和非驱动基因外显子等区域,定义所有样本突变数与所在外显子长度的比值为该外显子突变指数(MI,Mutation Index),根据该指数从高到低选取相应的外显子区域(图3),直到步骤(a)、步骤(b)和步骤(c)所得区域大小达到100kb;
Figure BDA0003407052750000051
其中,m为非冗余肺癌样本数,N为该外显子区内的突变数,L为该外显子的长度(bp);
(d)TCGA肺癌数据中,选取突变样本大于2的且无repeat碱基的indel,前后各取60bp进行探针捕获;同时,针对大于6bp的Indel,根据插入缺失位点设计fasta序列进行探针捕获;
(e)根据COSMIC数据库,选取肺癌驱动基因及靶向用药等突变位点(包括突变与融合)进行覆盖;最终设计出涵盖170个基因区域的肺癌围手术期分子残留病灶基因检测panel。
本发明还提供了一种检测超低频基因突变预测模型的构建方法,包括以下步骤:(1)提取样本组织的核酸,利用所述核酸构建文库;
(2)利用液相杂交捕获的方法在构建好的文库内富集上述基因检测panel的靶标区域,对捕获后的文库进行NGS测序,得fastq数据;
(3)利用fastp软件对所述fastq数据的overlap区域测序碱基进行矫正处理,将得到的数据回比到参考基因组hg19上,得初降噪数据;
(4)根据所述初降噪数据的起始终止位置和UMI数据进行去重处理,获得bam文件;所述UMI数据为采用单分子识别码的方法对每一条样本DNA进行标识后得到的数据;
(5)使用VarScan对所述bam文件进行变异检测,并提取特征值,利用特征值对变异位点进行过滤,同时过滤掉位于人类参考基因组的碱基重复区域附近的突变,获得肺癌分子残留病灶真阳性突变位点。
本发明步骤(1)所述核酸优选包括血浆游离DNA、血细胞gDNA或肿瘤组织gDNA。
本发明对步骤(1)所述文库的构建方法并没有特殊限定,优选包括核酸片段化、末端修复加A、加接头、片段筛选和PCR扩增。
本发明步骤(3)所述fastp软件优选由海普洛斯开发(PMID:30423086),利用所述fastp软件进行首次降噪即数据清洗:fastp处理Novaseq6000测序下机PE150 fastq数据,对overlap区域测序碱基进行矫正处理,去除测序低质量,N碱基占比偏高reads(大于5个碱基)等,得到干净可靠的数据回比到参考基因组hg19上。
本发明步骤(4)中,优选采用单分子识别码(UMI)的方法来对每一条DNA进行标识,在经过PCR扩增之后,可以通过UMI的方法对来自于同一条DNA模板的测序序列进行聚类。本发明所述gencore软件优选由海普洛斯开发(PMID:31881822)。本发明利用所述gencore软件进行再次降噪处理:根据回比到参考基因组的起始终止位置以及UMI进行去重处理,获得干净可靠的数据进行肿瘤突变检测。
本发明步骤(5)中,所述特征值优选包括:每个变异位点的比对reads数、overlap分析、支持变异的分子拷贝数大于等于2的片段数目、分子拷贝数小于2的分子数目、发生多次比对的片段数目、变异位点位于片段末端的片段数目、对UMI去重后剩余的UMI标签个数和平均比对质量值。
利用本发明所述模型,获得肺癌MRD真阳性突变位点,其中包括超低频突变,可以稳定检测0.02%的超低频突变,且稳定性高。
本发明还提供了一种利用上述构建方法得到的检测超低频基因突变预测模型。
下面结合实施例对本发明提供的一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法进行详细的说明,但是不能把它们理解为对本发明保护范围的限定。
微小残留病灶(Minimal Residual Disease,MRD):指癌症患者接受过治愈性治疗后,包括手术、化疗、放疗、免疫疗法、或联合治疗等,仍有残留的恶性细胞存在,但通常影像学或肿瘤标志物等传统方法检测不到,也叫分子残留病灶。
循环肿瘤细胞DNA(Circulating tumor DNA,ctDNA):是指在血液中存在少部分肿瘤细胞坏死分泌的DNA片段,通过高灵敏度的检查方法可以检查出来,可以用于一些癌症的早期诊断,及肿瘤治疗之后的随访评价治疗效果。
Panel:是指待检基因或位点区域的集合。
非同义突变SNV:和参考基因组该位置的碱基不同,样本基因组上该位置的碱基可能被替换为其他类型的碱基,且这个改变会引起氨基酸的改变。
Indel:插入缺失变异。和参考基因组相比,样本基因组上该位置有一定数量的核苷酸插入或缺失。
驱动基因:与癌症发生发展相关的重要基因称为驱动基因,一般在癌症发生和进展过程中,起到诱发及促进作用。
Read:即读段,由测序产生的一条连续的DNA序列,由A,T,C,G四个不同的碱基组成,比如ATCCGTAGCTCACGGACG。二代测序中的双端测序模式下,一条DNA的前后都会测序,所得到两条read互为配对read,按照测序模式不同,一般长度为50、100、150个碱基。
BAM文件:使用BWA比对软件将下机序列比对到人类参考基因上生成的文件,该文件含有序列在在参考基因上的位置、比对质量等详细信息。
UMI:分子标签,原始样本基因组打断后的每一个片段都加上一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于DNA聚合酶和扩增以及测序过程中所引入的错误,降低背景噪音。
实施例1
1、实验方法
1.1外周血离心分离血浆和血细胞,组织样本由病理医师取肿瘤组织部分;
1.2使用试剂盒提取血浆游离DNA、血细胞gDNA和肿瘤组织gDNA;
1.3对提取的核酸样本,使用KAPA PEG/NaCl SPRI solution、KAPA HiFiHotstart ReadyMix、KAPA Primer Mix、COT Human DNA、UBO、ROCHE 2X Hybe Buffer、Component A等试剂盒进行文库构建;
1.4对构建好的文库,使用分子残留病灶基因检测panel(170个基因),通过液相杂交捕获技术富集靶标区域,捕获后文库经质控后进行NGS测序。
2、检测超低频基因突变生物信息学算法:
2.1采用单分子识别码(UMI)的方法来对每一条DNA进行标识,在经过PCR扩增之后,可以通过UMI的方法对来自于同一条DNA模板的测序序列进行聚类;
2.2使用海普洛斯开发的fastp软件进行首次降噪即数据清洗:fastp处理Novaseq6000测序下机PE150 fastq数据,对overlap区域测序碱基进行矫正处理,去除测序低质量,N碱基占比偏高reads等,得到干净可靠的数据回比到参考基因组hg19上;
2.3使用海普洛斯开发的gencore软件进行再次降噪处理:根据回比到参考基因组的起始终止位置以及UMI进行去重处理,获得干净可靠的数据进行肿瘤突变检测;
2.4使用VarScan进行变异检测,再结合去重降噪后的比对结果bam文件,提取每个变异位点的比对reads数,并判断变异位点是否位于片段的overlap区域,并进行overlap分析及统计;
2.5统计支持变异的分子拷贝数大于等于2的片段数目、分子拷贝数小于2的分子数目、发生多次比对的片段数目、变异位点位于片段末端的片段数目、对UMI去重后剩余的UMI标签个数、平均比对质量值;
2.6基于2.4和2.5两步的特征值对变异位点进行过滤,同时过滤掉位于人类参考基因组的碱基重复区域附近的突变;
2.7获得肺癌MRD真阳性突变位点,包括超低频突变。
3、实验结果
3.1、选取3个突变梯度的标准品、10个健康志愿者的血液样本、6个肺癌患者志愿者的血液、组织样本进行多次平行重复实验,通过DNA提取、探针捕获、建库测序,实验数据如表1所示。
表1建库数据
Figure BDA0003407052750000091
3.2、然后进行数据过滤分析,结果表明实验过程正确,各项质控结果正常达标,如表2所示。
表2数据过滤结果
Figure BDA0003407052750000092
Figure BDA0003407052750000101
Figure BDA0003407052750000111
3.3、用上述过滤后的数据与参考基因组hg19进行比对,计算比对率、重复率、捕获效率、深度覆盖度、探针均一性等指标,结果表明各项指标正常,目标区域有效深度可达10000X左右,符合预期,如表3所示。
表3过滤后的数据与hg19的比对结果
Figure BDA0003407052750000121
Figure BDA0003407052750000131
Figure BDA0003407052750000141
3.4、根据【2.2】-【2.7】描述的分析方法,对标准品样本进行真阳性突变检测,该方法可以稳定检测0.02%的超低频突变,即检测限为0.02%,且稳定性高(图4)。
3.5、根据【2.2】-【2.7】描述的分析方法,对健康志愿者样本(样本1~样本10)进行真阳性突变检测,并未发现肺癌致病相关突变,结果阴性,符合预期。
3.6、根据【2.2】-【2.7】描述的分析方法,对肺癌志愿者样本(样本11~样本16)进行真阳性突变检测,并通过与之前临床基因检测(680基因检测产品,HapOnco680)结果进行对比,结果显示,在MRD panel检测到的突变位点在之前检测结果中均有检测出,阳性符合率为100%,且变异频率相近,相关系数达0.991(图5),表明该方法技术准确性。如表4所示。
表4真阳性突变检测结果
Figure BDA0003407052750000142
Figure BDA0003407052750000151
Figure BDA0003407052750000161
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种肺癌围手术期分子残留病灶基因检测panel,其特征在于,所述基因检测panel包括如下所示的170个基因;
ADH1B AKT1 AKT3 ALK APC APOB AR ARAF ASXL1 ATM ATR AXIN2 B2M BAP1 BARD1 BCL6 BCOR BLM BRAF BRIP1 BTK CAMTA1 CBL CDC73 CDK8 CDKN2A CFD CREBBP CSMD3 CSNK1A1 CTNNB1 CUL3 DDR2 DNMT3A DROSHA EEF1A1 EGFR EPHA3 EPHA5 EPHA7 EPHB1 ERBB2 ERBB3 ERBB4 ERCC1 ERG ERRFI1 ESR1 ETV4 ETV6 EXT2 FANCB FANCG FBXW7 FGF6 FGFR2 FGFR3 FGFR4 FLCN FLT1 FUS GALNT12 GATA1 GEN1 GLI1 GMEB1 GPRIN2 GRIN2A HFM1 HGF HIF1A HNF1A HRAS HSP90AA1 IGF2 IKZF1 IL7R INPP4B KCNJ5 KDR KEAP1 KIF1B KIT KLF4 KMT2A KRAS LMO1 MAP2K1 MAP2K2 MAP2K4 MAP3K1 MAPK1 MDM4 MED12 MET MITF MST1R MTOR MYCN NF1 NFE2L2 NKX2-1 NOTCH1 NOTCH3 NOVA1 NR4A3 NRAS NTRK2 NTRK3 PAK1 PAX5 PDGFRA PDGFRB PGR PIK3CA PIK3CB PIK3CD PIK3R2 PIM1 PLCG2 PMS1 PMS2 POLD1 POLE POLQ PPP2R2A PREX2 PRKACB PRKCI PRSS1 PTCH1 PTEN PTPN13 PTPRD PTPRT RAD21 RAD50 RARA RB1 RBM10 RECQL4 RET RHBDF2 RICTOR ROBO2 ROS1 SBDS SDHA SF3B1 SMAD2 SMAD4 SMARCA4 SMARCB1 SRC STAT3 STK11 SULT1A1 TERT TGFBR2 TNFAIP3 TNFRSF14 TNFSF8 top1 TP53 TP53BP1 TP63 U2AF1 WT1 XPA ZNF367
2.根据权利要求1所述的基因检测panel,其特征在于,所述基因检测panel包括12个靶向用药基因:ALK、BRAF、EGFR、ERBB2、KRAS、MET、NRAS、PIK3CA、RET、ROS1、TERT和TP53。
3.根据权利要求1所述的基因检测panel,其特征在于,所述基因检测panel包括30个肺癌驱动基因:AKT1、ALK、BAP1、BRAF、DDR2、DROSHA、EGFR、ERBB2、ERBB4、FGFR2、GRIN2A、HIF1A、KDR、KEAP1、KRAS、MAP2K1、MAP2K2、NFE2L2、NOTCH1、PIK3CB、PTPN13、PTPRT、RAD21、RB1、RBM10、RET、SMARCA4、STK11、TP53和TP63。
4.一种检测超低频基因突变预测模型的构建方法,其特征在于,包括以下步骤:(1)提取样本组织的核酸,利用所述核酸构建文库;
(2)利用液相杂交捕获的方法在构建好的文库内富集权利要求1~3任一项所述基因检测panel的靶标区域,对捕获后的文库进行NGS测序,得fastq数据;
(3)利用fastp软件对所述fastq数据的overlap区域测序碱基进行矫正处理,将得到的数据回比到参考基因组hg19上,得初降噪数据;
(4)根据所述初降噪数据的起始终止位置和UMI数据进行去重处理,获得bam文件;所述UMI数据为采用单分子识别码的方法对每一条样本DNA进行标识后得到的数据;
(5)使用VarScan对所述bam文件进行变异检测,并提取特征值,利用特征值对变异位点进行过滤,同时过滤掉位于人类参考基因组的碱基重复区域附近的突变,获得肺癌分子残留病灶真阳性突变位点。
5.根据权利要求4所述构建方法,其特征在于,步骤(1)所述核酸的来源包括血浆游离DNA、血细胞gDNA或肿瘤组织gDNA。
6.根据权利要求4所述构建方法,其特征在于,步骤(5)所述特征值包括:每个变异位点的比对reads数、overlap分析、支持变异的分子拷贝数大于等于2的片段数目、分子拷贝数小于2的分子数目、发生多次比对的片段数目、变异位点位于片段末端的片段数目、对UMI去重后剩余的UMI标签个数和平均比对质量值。
7.一种利用权利要求4~6任一项所述构建方法得到的检测超低频基因突变预测模型。
CN202111519375.5A 2021-12-13 2021-12-13 一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法 Pending CN114187964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111519375.5A CN114187964A (zh) 2021-12-13 2021-12-13 一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111519375.5A CN114187964A (zh) 2021-12-13 2021-12-13 一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法

Publications (1)

Publication Number Publication Date
CN114187964A true CN114187964A (zh) 2022-03-15

Family

ID=80543495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111519375.5A Pending CN114187964A (zh) 2021-12-13 2021-12-13 一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法

Country Status (1)

Country Link
CN (1) CN114187964A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115679000A (zh) * 2022-12-30 2023-02-03 臻和(北京)生物科技有限公司 微小残留病灶的检测方法、装置、设备和存储介质
CN116064755A (zh) * 2023-01-12 2023-05-05 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测mrd标志物的装置
CN117144002A (zh) * 2023-07-19 2023-12-01 苏州吉因加生物医学工程有限公司 一种用于mrd检测的个性化探针组的设计方法及其应用
CN117524304A (zh) * 2024-01-08 2024-02-06 北京求臻医学检验实验室有限公司 实体瘤微小病灶残留的检测panel、探针组及其应用

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106047998A (zh) * 2016-05-27 2016-10-26 深圳市海普洛斯生物科技有限公司 一种肺癌基因的检测方法及应用
CN107446996A (zh) * 2017-07-14 2017-12-08 艾吉泰康生物科技(北京)有限公司 一种检测靶序列的超低频突变的接头序列及方法
CN108893466A (zh) * 2018-06-04 2018-11-27 苏州人人基因科技有限公司 测序接头、测序接头组和超低频突变的检测方法
US20190189242A1 (en) * 2017-12-18 2019-06-20 Personal Genome Diagnostics Inc. Machine learning system and method for somatic mutation discovery
CN111235272A (zh) * 2020-01-10 2020-06-05 厦门艾德生物医药科技股份有限公司 一次性检测肺癌多重基因突变的组合物及其应用
CN112111565A (zh) * 2019-06-20 2020-12-22 上海其明信息技术有限公司 一种细胞游离dna测序数据的突变分析方法和装置
CN112680796A (zh) * 2021-01-18 2021-04-20 深圳市睿法生物科技有限公司 一种靶标基因富集建库方法
WO2021114139A1 (zh) * 2019-12-11 2021-06-17 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN113373234A (zh) * 2021-07-07 2021-09-10 山东第一医科大学附属肿瘤医院(山东省肿瘤防治研究院、山东省肿瘤医院) 一种基于突变特征的小细胞肺癌分子分型确定方法及应用
CN113481299A (zh) * 2021-06-30 2021-10-08 苏州京脉生物科技有限公司 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106047998A (zh) * 2016-05-27 2016-10-26 深圳市海普洛斯生物科技有限公司 一种肺癌基因的检测方法及应用
CN107446996A (zh) * 2017-07-14 2017-12-08 艾吉泰康生物科技(北京)有限公司 一种检测靶序列的超低频突变的接头序列及方法
US20190189242A1 (en) * 2017-12-18 2019-06-20 Personal Genome Diagnostics Inc. Machine learning system and method for somatic mutation discovery
CN108893466A (zh) * 2018-06-04 2018-11-27 苏州人人基因科技有限公司 测序接头、测序接头组和超低频突变的检测方法
CN112111565A (zh) * 2019-06-20 2020-12-22 上海其明信息技术有限公司 一种细胞游离dna测序数据的突变分析方法和装置
WO2021114139A1 (zh) * 2019-12-11 2021-06-17 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN111235272A (zh) * 2020-01-10 2020-06-05 厦门艾德生物医药科技股份有限公司 一次性检测肺癌多重基因突变的组合物及其应用
CN112680796A (zh) * 2021-01-18 2021-04-20 深圳市睿法生物科技有限公司 一种靶标基因富集建库方法
CN113481299A (zh) * 2021-06-30 2021-10-08 苏州京脉生物科技有限公司 用于肺癌检测的靶向测序panel、试剂盒及获得靶向测序panel的方法
CN113373234A (zh) * 2021-07-07 2021-09-10 山东第一医科大学附属肿瘤医院(山东省肿瘤防治研究院、山东省肿瘤医院) 一种基于突变特征的小细胞肺癌分子分型确定方法及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐望红: "《肿瘤流行病学》", 30 June 2017, 复旦大学出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115679000A (zh) * 2022-12-30 2023-02-03 臻和(北京)生物科技有限公司 微小残留病灶的检测方法、装置、设备和存储介质
CN116064755A (zh) * 2023-01-12 2023-05-05 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测mrd标志物的装置
CN116064755B (zh) * 2023-01-12 2023-10-20 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测mrd标志物的装置
CN117144002A (zh) * 2023-07-19 2023-12-01 苏州吉因加生物医学工程有限公司 一种用于mrd检测的个性化探针组的设计方法及其应用
CN117524304A (zh) * 2024-01-08 2024-02-06 北京求臻医学检验实验室有限公司 实体瘤微小病灶残留的检测panel、探针组及其应用
CN117524304B (zh) * 2024-01-08 2024-03-29 北京求臻医学检验实验室有限公司 实体瘤微小病灶残留的检测panel、探针组及其应用

Similar Documents

Publication Publication Date Title
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
US20200263239A1 (en) Systems and methods to detect rare mutations and copy number variation
CN114187964A (zh) 一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法
US9902992B2 (en) Systems and methods to detect rare mutations and copy number variation
CN114574581A (zh) 检测稀有突变和拷贝数变异的系统和方法
CN110343748B (zh) 基于高通量靶向测序分析肿瘤突变负荷的方法
CN112941180A (zh) 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用
CN116064755B (zh) 一种基于连锁基因突变检测mrd标志物的装置
CN110023509A (zh) 基因型分型测定中的非独特条形码
WO2023030233A1 (zh) 一种拷贝数变异的检测方法及其应用
CN114752672A (zh) 基于循环游离DNA突变进行滤泡性淋巴瘤预后评估的检测panel、试剂盒及应用
KR102145417B1 (ko) 무세포 핵산으로부터 수득된 서열 분석 데이터에 대한 배경 대립인자의 빈도 분포를 생성하는 방법 및 이를 이용하여 무세포 핵산으로부터 변이를 검출하는 방법
CN106520945A (zh) 一种基于二代测序平台的无创的靶向线粒体测序方法
Guo et al. An Innovative Data Analysis Strategy For Accurate NGS Detection of Tumor mtDNA Mutations
JP2023554505A (ja) サンプルを臨床関連カテゴリーに分類する方法
JP2023554509A (ja) サンプルを臨床関連カテゴリーに分類する方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220315