CN117497047A - 基于外显子测序筛选肿瘤基因标志物的方法、设备和介质 - Google Patents
基于外显子测序筛选肿瘤基因标志物的方法、设备和介质 Download PDFInfo
- Publication number
- CN117497047A CN117497047A CN202311534650.XA CN202311534650A CN117497047A CN 117497047 A CN117497047 A CN 117497047A CN 202311534650 A CN202311534650 A CN 202311534650A CN 117497047 A CN117497047 A CN 117497047A
- Authority
- CN
- China
- Prior art keywords
- tumor
- gene
- mutation
- copy number
- exon sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 103
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 31
- 238000012216 screening Methods 0.000 title claims abstract description 15
- 230000035772 mutation Effects 0.000 claims abstract description 44
- 230000036438 mutation frequency Effects 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 239000003550 marker Substances 0.000 claims abstract description 14
- 206010069754 Acquired gene mutation Diseases 0.000 claims abstract description 12
- 230000037439 somatic mutation Effects 0.000 claims abstract description 12
- 102100032966 Myomegalin Human genes 0.000 claims description 11
- 102100040498 Contactin-associated protein-like 3 Human genes 0.000 claims description 10
- 101000749881 Homo sapiens Contactin-associated protein-like 3 Proteins 0.000 claims description 10
- 101000589016 Homo sapiens Myomegalin Proteins 0.000 claims description 10
- 101001024606 Homo sapiens Neuroblastoma breakpoint family member 10 Proteins 0.000 claims description 10
- 102100037003 Neuroblastoma breakpoint family member 10 Human genes 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 102100031519 Collagen alpha-1(VI) chain Human genes 0.000 claims description 9
- 101000941581 Homo sapiens Collagen alpha-1(VI) chain Proteins 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 claims description 5
- 239000002773 nucleotide Substances 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 5
- 239000003153 chemical reaction reagent Substances 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 238000003908 quality control method Methods 0.000 claims description 4
- 101100263201 Homo sapiens USP9X gene Proteins 0.000 claims description 2
- 102100038603 Probable ubiquitin carboxyl-terminal hydrolase FAF-X Human genes 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 15
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 18
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 9
- 201000005202 lung cancer Diseases 0.000 description 9
- 208000020816 lung neoplasm Diseases 0.000 description 9
- 101000882257 Homo sapiens Protein FAM210A Proteins 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000004083 survival effect Effects 0.000 description 7
- 102100038863 Protein FAM210A Human genes 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004393 prognosis Methods 0.000 description 6
- 239000000523 sample Substances 0.000 description 6
- 210000004881 tumor cell Anatomy 0.000 description 6
- 238000007482 whole exome sequencing Methods 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 206010064571 Gene mutation Diseases 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 101150100005 COL6A1 gene Proteins 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 101150011478 FAM210A gene Proteins 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- 230000002601 intratumoral effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000004797 therapeutic response Effects 0.000 description 2
- 101150051309 CNTNAP3 gene Proteins 0.000 description 1
- 230000003350 DNA copy number gain Effects 0.000 description 1
- 230000004536 DNA copy number loss Effects 0.000 description 1
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 1
- 101150060414 NBPF10 gene Proteins 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 101150041391 PDE4DIP gene Proteins 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 239000002671 adjuvant Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000037434 nonsense mutation Effects 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于外显子测序筛选肿瘤基因标志物的方法、设备和介质,属于肿瘤基因标志物检测技术领域。所述方法基于肿瘤外显子测序数据获得基因的综合变异分数,从而确定候选基因。具体地,首先对外显子测序数据进行预处理,再比对基因组,接着进行体细胞突变突变分析和拷贝数变异分析,进而基于突变频率和拷贝数变异频率,计算综合变异分数,最后选取综合变异分数大于预设阈值的基因作为肿瘤基因标志物的候选基因。利用本发明的方法,能够丰富肿瘤的基因标志物,并且获得的基因标志物对肿瘤鉴定的敏感性和特异性都得到较大的提升,具有十分重要的临床价值。
Description
技术领域
本发明属于肿瘤基因标志物检测技术领域,具体地,涉及一种基于外显子测序筛选肿瘤基因标志物的方法、设备和介质。
背景技术
外显子组测序(Exome Sequencing)是一种高通量测序技术,旨在对生物体基因组中的外显子区域进行测序。在人类基因组中,外显子约占据了整个基因组的1~2%,尽管外显子区域的比例较小,但它们是编码蛋白质的关键部分,承担着许多生物学功能。外显子组测序的主要目的是鉴定生物体外显子区域的遗传变异,可以提供关于肿瘤细胞中存在的基因突变、突变频率、潜在的致病突变以及可能的治疗靶点等信息。这些遗传变异可能对蛋白质的结构、功能以及与疾病的关联性产生影响。
肿瘤外显子组测序数据分析的两个主要内容包括基因突变位点检测和拷贝数变异。突变位点对比对后的测序数据进行变异检测,鉴定肿瘤中存在的基因突变,包括单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)、插入/缺失变异(Insertion/Deletion,Indels)。常用的变异检测工具有GATK、MuTect、VarScan等。肿瘤细胞中的基因拷贝数变异(copy number variation,CNV)包括拷贝数增加(Copy Number Gain)和拷贝数减少(Copy Number Loss)。拷贝数增加表示某个基因的拷贝数在肿瘤细胞中增加,拷贝数增加可能导致基因过度表达,促进肿瘤细胞的生长和增殖。而拷贝数减少是某个基因的拷贝数在肿瘤细胞中减少,拷贝数减少可能导致基因表达的下调或丧失,影响肿瘤细胞的正常功能和调控。
目前肿瘤基因组的研究中,一些常用的工具和算法用于检测基因突变位点和拷贝数变化。例如,GATK(Genome Analysis Toolkit)中的MuTect和VarScan是常用的基因突变位点检测工具,可以识别单核苷酸变异(SNV)、插入/缺失变异(Indels)和结构变异。ADTEx(Allelic Depth from Tumor-Exome)和CNVkit是用于分析肿瘤外显子组测序数据的工具,它基于读段覆盖度和测序深度信息,利用统计模型推断拷贝数和基因突变的状态等,这些工具最主要的功能是通过分析获得基因突变和拷贝数变异的信息。
肿瘤内基因研究仅通过对肿瘤内基因体细胞突变进行频谱分析需要有大量样本的支持,往往特定类型的样本在很难在短期内获得。但对于队列样本的研究中,仅通过突变基因的功能变化这一单一信息进行功能验证,往往与预期不符,浪费了许多人力、算力和时间。
发明内容
为了解决上述技术问题,本发明基于肿瘤外显子测序数据获得基因的综合变异分数,从而确定候选基因。具体地,首先对外显子测序数据进行预处理,再比对基因组,接着进行体细胞突变突变分析和拷贝数变异分析,之后基于突变频率和拷贝数变异频率计算综合变异分数,最后选取综合变异分数大于预设阈值的基因作为肿瘤基因标志物的候选基因。为此,本发明采用的技术方案如下:
本发明第一方面提供一种基于外显子测序筛选肿瘤基因标志物的方法,包括以下步骤:
S1,获得多个肿瘤配对样本的外显子测序数据;
S2,对外显子测序数据进行突变位点检测,确定突变信息,并基于多个肿瘤配对样本的突变信息确定每个基因的突变频率Pm;
S3,计算每个基因的拷贝数,确定拷贝数变异信息,并确定每个基因的拷贝数变异频率Pc;
S4,基于突变频率Pm和拷贝数变异频率Pc,计算综合变异频率P:
P=Pm+Pc
对每个基因综合变异频率P进行归一化处理,计算基因的综合变异分数Gscore:
其中,Pmax为所有基因的综合变异频率的最大值,Pmin为所有基因的综合变异频率的最小值,
S5,选取综合变异分数Gscore大于预设阈值的基因作为肿瘤基因标志物的候选基因。
在本发明中,所述肿瘤基因标志物是指能够用于肿瘤诊断、预后和治疗响应预测的基因。
在本发明中,所述外显子测序数据可以是自行测序得到的,也可以来源于公众数据库,利用TCGA或cBioPortal,只要能够用于突变位点检和拷贝数分析即可。
在本发明的一些实施方案中,步骤S1中,所述外显子测序数据是原始下机数据经质量控制和预处理后得到的,所述质量控制和预处理包括:
(1)过滤接头reads;
(2)过滤含有N的比例大于5%的reads;
(3)过滤质量值Q≤10的碱基数占整个read的20%以上)的reads。
在本发明的一些实施方案中,步骤S2中,利用包括但不限于MuTect2、VarScan、Strelka进行突变位点检测。
本发明的一些实施方案中,步骤S2中,确定突变信息后,进一步去除已知与肿瘤无关的变异和无功能变异。
本发明的目的筛选肿瘤基因标志物,因此,对于一些已知的公认的与肿瘤无关的变异可以先行去除,避免进入下一步分析。显而易见地,无功能变异或称无义突变也不会是潜在的肿瘤基因标志物,可以去除。
在本发明的一些实施方案中,所述突变包括单核苷酸变异和插入/缺失变异。
在本发明的一些实施方案中,步骤S2中,针对某个特定基因,突变频率Pm的计算公式如下:
其中,Nmgene指全部样本中所述特定基因发生体细胞突变的数量,Nm指所有样本中发生体细胞突变的数量。
在本发明的一些实施方案中,步骤S3中,利用包括但不限于CNVkit、control-FREEC和ExomeCNV进行突变位点检测。
在本发明的一些实施方案中,针对某个特定基因,拷贝数变异频率Pc的计算公式如下:
其中,Ncgene指全部样本中所述特定基因发生拷贝数变异的数量,Nc指所有样本中发生拷贝数变异的数量。
在本发明的一些实施方案中,所述预设阈值为0.65,即选取综合变异分数大于0.65的基因作为肿瘤基因标志物的候选基因。
本发明第二方面提供基因标志物的检测试剂在制备用于诊断肿瘤的试剂盒中的应用,所述基因标志物是利用本发明第一方面所述的一种基于外显子测序筛选肿瘤基因标志物的方法筛选得到的。
在本发明的一些实施方案中,所述基因标志物包括NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A中的一种或多种。
在本发明的一些实施方案中,所述检测试剂为引物或探针,可以基于qPCR、捕获测序等方法进行检测。
本发明还提供一种预测受试者是否患有癌症或者是否具有患癌症的风险或预测癌症患者预后风险高低的系统,包括以下模块:
数据输入模块,用于输入受试者基因标志物的表达水平;
预测模块,与所述数据输入模块连接,用于根据所述基因标志物的表达水平判断受试者是否患有癌症或者是否具有患癌症的风险或者预后风险高低。
在本发明的一些实施方案中,所述预测模块中的利用机器学习模型进行判断。
进一步,所述机器学习模型采用以下任意一项算法训练得到:随机森林算法、支持向量机算法、线性回归算法、逻辑回归算法、贝叶斯分类器和神经网络算法。
本发明第三方面提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如本发明第一方面所述的一种基于外显子测序筛选肿瘤基因标志物的方法的步骤。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面所述的一种基于外显子测序筛选肿瘤基因标志物的方法的步骤。
本发明的有益效果
相对于现有技术,本发明具有以下有益效果:
本发明的方法采用基于拷贝数变异来综合确定基因突变位点的策略,得到准确的驱动基因进行突变标记物鉴定,进一步缩小了候选基因的选择范围,提高了驱动基因挖掘的准确性。通过筛选出在肿瘤中高频发生的突变位点或基因,可以开发用于诊断、预后和治疗响应预测的标记物,从而丰富肿瘤的基因标志物。
利用本发明的方法获得的基因标志物对肿瘤鉴定的敏感性和特异性都得到较大的提升,具有十分重要的临床价值。
附图说明
图1示出了本发明实施例2中NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A在肿瘤样本和正常样本中的表达情况。
图2示出了本发明实施例2中NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A异常表达对肺癌患者预后生存期的影响。
具体实施方式
除非另有说明、从上下文暗示或属于现有技术的惯例,否则本申请中所有的份数和百分比都基于重量,且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下,本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考,且其等价的同族专利也引入作为参考,特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致,则以本申请中提供的术语定义为准。
本申请中的数字范围是近似值,因此除非另有说明,否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值,条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。对于包含小于1的数值或者包含大于1的分数(例如1.1,1.5等)的范围,则适当地将1个单位看作0.0001,0.001,0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围,通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例,并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。
术语“包含”,“包括”,“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在,且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问,除非明确说明,否则本申请中所有使用术语“包含”,“包括”,或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反,出来对操作性能所必要的那些,术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明,否则术语“或”指列出的单独成员或其任何组合。
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
实施例
以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。
除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
实施例1肿瘤配对样本的外显子组测序数据分析
本实施例来源于20对肺癌样本的外显子测序数据进行肿瘤突变基因的综合变异分数分析。
1.测序数据预处理和比对基因组
(1)过滤接头(Adaptor)的reads;
(2)过滤含有N(N表示无法确定碱基信息)的比例大于5%的reads;
(3)过滤低质量(质量值Q≤10的碱基数占整个read的20%以上)的reads。
预处理后得到高质量外显子测序数据(clean data)。
使用BWA软件将clean data与参考基因组进行比对,并去除重复reads,获得去重后的bam文件,下一步进行突变位点检测和拷贝数分析。
2.体细胞突变分析
对比对参考基因组后的结果文件,使用MuTect2进行每一个样本的体细胞突变的分析,得到vcf格式的结果文件,再使用annovar工具对检测到的突变文件进行基因组数据库的注释。基于突变注释的结果,去除已知与肿瘤无关的突变和无功能变异,保留非同义突变(non-synonymous mutation),共存在1997个体细胞突变基因。
计算每个基因的突变频率Pm,计算公式如下:
其中,Nmgene指全部样本中特定基因发生体细胞突变的数量(频数),Nm指所有样本中发生体细胞突变的数量(在本实施例中,Nm=38)。
表1示出了按突变频率从大到小排列位于前30的基因。
表1体细胞突变基因(突变频率前30)
3.拷贝数变异分析
发明人利用CNVkit对20对肿瘤样本的比对结果进行拷贝数变异分析。对拷贝数估计结果进行统计分析,识别潜在的CNVs区域。之后,经gistic工具整理之后获得基因的拷贝数变异数量共1844个,最后计算每个基因的拷贝数变异频率Pc,计算公式如下:
其中,Bcgene指全部样本中特定基因发生拷贝数变异的数量,Nc指所有样本中发生拷贝数变异的数量(在本实施例中,Nc=34)。
拷贝数变异频率如表2所示:
表2样本拷贝数变异结果(前30个基因)
4.综合变异分数计算
基于突变频率Pm和拷贝数变异频率Pc,计算综合变异频率P。
P=Pm+Pc
对每个基因综合变异频率P进行归一化处理,计算基因的综合变异分数Gscore,计算公式如下:
其中,Pmax为所有基因综合变异频率的最大值(在本实施例中为0.8483);Pmin为所有基因综合变异频率的最小值(在本实施例中为0.0264)。
综合变异分数Gscore结果见表3。
表3综合变异分数Gscore结果(仅展示Gscore前30)
由表3可知,NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A等基因具有相对较高的综合变异分数(Gscore>0.65),说明这些存在体细胞突变的基因具有表达水平上改变的潜能,能够作为肿瘤诊断或识别的标志物。
实施例2筛选得到的基因的应用
为了研究NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A基因在人类肺癌中的临床意义,验证实施例1法综合变异分数的应用价值,本实施例收集来自TCGA网站的肺癌相关样本1154例,正常样本110例,肺癌样本1054例,使用高通量数据进行差异分析。结果发现组间重复性不高,经过主成分分析剔除离群样本,最终保留肿瘤样本(tumor)952例,正常样本(normol)102例。以上5个基因在肿瘤样本和正常样本中的表达水平如图1所示。
由图1可知,COL6A1、FAM210A和NBPF10、PDE4DIP、CNTNAP3基因在肺癌与正常样本之间的表达均存在显著差异,COL6A1、FAM210A两个基因在肿瘤样本中相较于正常样本表达上调,而NBPF10、PDE4DIP、CNTNAP3表达下调,说明使用综合变异分数(Gscore)可以反映基因的表达水平。
进一步,发明人分析NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A基因表达水平与肺癌预后的关系:对952例患者的临床资料整理去除无有效临床信息样本,剩余371个肿瘤样本用于Kaplan-Meier生存分析,如图2所示。
由图2可知,CNTNAP3、PDE4DIP和NBPF10高表达的肿瘤患者(中位生存期为30个月)与较低表达的肿瘤患者(中位生存期为48个月)相比中均显著缩短生存期(Log-rank,P<0.001)。而FAM210A基因在低表达的肿瘤患者(中位生存期42个月)与高表达的肿瘤患者(中位生存期48)显著缩短生存期(Log-rank,P<0.05)。但是COL6A1基因的表达对肿瘤患者的生存期未有明显的影响。
综上所述,本发明提供的NBPF10、PDE4DIP、CNTNAP3和FAM210A的异常表达与肺癌的预后风险高度相关,并能够用于肺癌的诊断、疗效评估以监控,其诊断结果可用于临床症状的辅助判断。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (10)
1.一种基于外显子测序筛选肿瘤基因标志物的方法,其特征在于,包括以下步骤:
S1,获得多个肿瘤配对样本的外显子测序数据;
S2,对外显子测序数据进行突变位点检测,确定突变信息,并基于多个肿瘤配对样本的突变信息确定每个基因的突变频率Pm;
S3,计算每个基因的拷贝数,确定拷贝数变异信息,并确定每个基因的拷贝数变异频率Pc;
S4,基于突变频率Pm和拷贝数变异频率Pc,计算综合变异频率P:
P=Pm+Pc
对每个基因综合变异频率P进行归一化处理,计算基因的综合变异分数Gscore:
其中,Pmax为所有基因的综合变异频率的最大值,Pmin为所有基因的综合变异频率的最小值,
S5,选取综合变异分数Gscore大于预设阈值的基因作为肿瘤基因标志物的候选基因。
2.根据权利要求1所述的一种基于外显子测序筛选肿瘤基因标志物的方法,其特征在于,步骤S1中,所述外显子测序数据是原始下机数据经质量控制和预处理后得到的,所述质量控制和预处理包括:
(1)过滤接头reads;
(2)过滤含有N的比例大于5%的reads;
(3)过滤质量值Q≤10的碱基数占整个read的20%以上的reads。
3.根据权利要求1所述的一种基于外显子测序筛选肿瘤基因标志物的方法,其特征在于,步骤S2中,确定突变信息后,进一步去除已知与肿瘤无关的变异和无功能变异。
4.根据权利要求1所述的一种基于外显子测序筛选肿瘤基因标志物的方法,其特征在于,所述突变包括单核苷酸变异和插入/缺失变异。
5.根据权利要求1-4任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法,其特征在于,步骤S2中,针对某个特定基因,突变频率Pm的计算公式如下:
其中,Nmgene指全部样本中所述特定基因发生体细胞突变位点的数量,Nm指所有样本中发生体细胞突变的数量。
6.根据权利要求1-4任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法,其特征在于,针对某个特定基因,拷贝数变异频率Pc的计算公式如下:
其中,Ncgene指全部样本中所述特定基因发生拷贝数变异的数量,Nc指所有样本中发生拷贝数变异的数量。
7.基因标志物的检测试剂在制备用于诊断肿瘤的试剂盒中的应用,其特征在于,所述基因标志物是利用权利要求1-6任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法筛选得到的。
8.根据权利要求7所述的应用,其特征在于,所述基因标志物包括NBPF10、PDE4DIP、COL6A1、CNTNAP3和FAM210A中的一种或多种。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-6任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法的步骤。
10.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一所述的一种基于外显子测序筛选肿瘤基因标志物的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311534650.XA CN117497047A (zh) | 2023-11-16 | 2023-11-16 | 基于外显子测序筛选肿瘤基因标志物的方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311534650.XA CN117497047A (zh) | 2023-11-16 | 2023-11-16 | 基于外显子测序筛选肿瘤基因标志物的方法、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117497047A true CN117497047A (zh) | 2024-02-02 |
Family
ID=89682674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311534650.XA Pending CN117497047A (zh) | 2023-11-16 | 2023-11-16 | 基于外显子测序筛选肿瘤基因标志物的方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117497047A (zh) |
-
2023
- 2023-11-16 CN CN202311534650.XA patent/CN117497047A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111304303B (zh) | 微卫星不稳定的预测方法及其应用 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
US20190066842A1 (en) | A novel algorithm for smn1 and smn2 copy number analysis using coverage depth data from next generation sequencing | |
EP3143537A1 (en) | Rare variant calls in ultra-deep sequencing | |
CN108256292B (zh) | 一种拷贝数变异检测装置 | |
EP3542291A1 (en) | Validation methods and systems for sequence variant calls | |
CN113724791B (zh) | Cyp21a2基因ngs数据分析的方法、装置及应用 | |
CN111243664B (zh) | 一种基于高通量测序的基因变异检测方法 | |
Camastra et al. | Statistical and computational methods for genetic diseases: An overview | |
KR102405245B1 (ko) | 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도 | |
WO2017218798A1 (en) | Systems and methods for diagnosing familial hypercholesterolemia | |
CN116200490A (zh) | 一种检测实体瘤微小残留病灶的方法 | |
CN116580768B (zh) | 一种基于定制化策略的肿瘤微小残留病灶检测方法 | |
Yu et al. | Detecting natural selection by empirical comparison to random regions of the genome | |
CN117497047A (zh) | 基于外显子测序筛选肿瘤基因标志物的方法、设备和介质 | |
US20210310050A1 (en) | Identification of global sequence features in whole genome sequence data from circulating nucleic acid | |
Roy et al. | NGS-μsat: Bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms | |
JP7064215B2 (ja) | 落屑症候群又は落屑緑内障の発症リスクの判定方法 | |
CN114517223A (zh) | 一种用于筛选snp位点的方法及其应用 | |
JP2018161132A (ja) | チロシンキナーゼ阻害剤治療に対する反応を予測するために生体試料を分類する方法 | |
JP7072803B2 (ja) | 広義原発開放隅角緑内障の発症リスクの判定方法 | |
CN115579056B (zh) | 一组用于评估精神分裂症分子分型的基因群及其诊断产品和应用 | |
CN115662507B (zh) | 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统 | |
CN115064212B (zh) | 基于wgs数据的预设区域人群肿瘤特异突变识别方法 | |
JP2023038111A (ja) | 広義原発開放隅角緑内障の重症化リスクに関する情報の取得方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |