CN106021994A - 一种肿瘤突变位点筛选及互斥基因挖掘的方法 - Google Patents

一种肿瘤突变位点筛选及互斥基因挖掘的方法 Download PDF

Info

Publication number
CN106021994A
CN106021994A CN201610318266.XA CN201610318266A CN106021994A CN 106021994 A CN106021994 A CN 106021994A CN 201610318266 A CN201610318266 A CN 201610318266A CN 106021994 A CN106021994 A CN 106021994A
Authority
CN
China
Prior art keywords
gene
site
mutual exclusion
mutation
mutant gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610318266.XA
Other languages
English (en)
Other versions
CN106021994B (zh
Inventor
薛成海
马飞
李连硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wankangyuan (tianjin) Gene Technology Co Ltd
Original Assignee
Wankangyuan (tianjin) Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wankangyuan (tianjin) Gene Technology Co Ltd filed Critical Wankangyuan (tianjin) Gene Technology Co Ltd
Priority to CN201610318266.XA priority Critical patent/CN106021994B/zh
Publication of CN106021994A publication Critical patent/CN106021994A/zh
Application granted granted Critical
Publication of CN106021994B publication Critical patent/CN106021994B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种肿瘤突变位点筛选及互斥基因挖掘的方法,包括以下步骤:(1)过滤vcf文件以及ANNOVAR注释软件的输出文件;(2)进行不同实验组突变位点的描述性分析;(3)构建突变基因矩阵;(4)对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,确定互斥与共突变基因。本发明通过使用突变位点的注释信息以及测序read数、位点测序深度等基本参数对突变位点进行过滤,然后对于得到的突变位点进行不同实验组突变模式的描述性分析以及共突变、互斥突变基因集合的挖掘。

Description

一种肿瘤突变位点筛选及互斥基因挖掘的方法
技术领域
本发明属于基因信息数据处理领域,特别是涉及到一种肿瘤突变位点筛选及互斥基因挖掘的方法。
背景技术
肿瘤是由环境因素与遗传因素共同诱发的恶性疾病,其中遗传诱因涉及到大量基因的功能异常(突变、甲基化改变)。而基因突变认为是肿瘤发生发展的最主要驱动因素。最近一些以二代测序为主要手段的研究项目成功地在多种肿瘤类型中揭示了大量的潜在肿瘤驱动基因。因此,对二代测序数据的有效分析是进一步了解肿瘤病理生理学特性、实现对肿瘤的早期诊断、靶向治疗的关键。
对肿瘤病人基因突变进行全局性描述,主要的二代测序技术手段有全基因组测序以及全外显子组测序两种方法。虽然对于每个碱基而言,二代测序的成本在快速下降,但是对大量样本进行全基因组测序仍然是一个耗费巨大的工作。已有研究证实有约85%的肿瘤相关突变坐落于蛋白质编码区。因此,外显子组测序是一种经济成本相对较低,同时基本可以完整反应肿瘤突变模式的测序手段。
在肿瘤突变基因中,存在互斥突变基因以及共突变基因两种特殊情况。互斥突变基因指的是两个基因在同一样本中倾向不同时突变,而共突变基因倾向于两个基因在一定数量样本中同时突变。通常认为互斥突变基因更加倾向于肿瘤的驱动基因,这些互斥突变基因往往负责同一生物学通路的功能行使。而共突变基因往往涉及到肿瘤需要影响的多个生物学过程。因此鉴别肿瘤个体样本中具有互斥以及共突变关系的基因集合对于理解肿瘤的发病机制以及生物学表现具有重要作用。
目前挖掘肿瘤突变位点的方法以及软件工具往往筛选条件不够直观。筛选过程对于使用者呈现一种“黑箱子”状态。这样不利于使用者对于找到的突变位点进行进一步的生物学解读。
发明内容
有鉴于此,本发明提出一种肿瘤突变位点筛选及互斥基因挖掘的方法,通过使用突变位点的注释信息以及测序read数、位点测序深度等基本参数对突变位点进行过滤,然后对于得到的突变位点进行不同实验组突变模式的描述性分析以及共突变、互斥突变基因集合的挖掘。
为达到上述目的,本发明的技术方案是这样实现的:一种肿瘤突变位点筛选及互斥基因挖掘的方法,包括以下步骤:
(1)过滤外显子组处理流程中的vcf文件以及ANNOVAR注释软件的输出文件,得到感兴趣组织和对照组织的突变位点的突变read数、位点测序深度、突变频率;
(2)进行不同实验组突变位点的描述性分析,找到实验组间的交叠突变位点以及特异性的突变位点,所述特异性的突变位点是指该突变位点在一个实验组出现而不在另外一个实验组中出现;
(3)对每个样本的突变基因进行汇总,依据实验组突变基因列表构建突变基因矩阵;
(4)对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,确定互斥与共突变基因。
进一步的,步骤(1)所述vcf文件的过滤方法为:
要求感兴趣组织的突变read数>=3,位点测序深度>=8,突变频率>=0.1;
对于对照组织要求突变read数<3,位点测序深度>=8,突变频率<0.1。
进一步的,步骤(1)所述ANNOVAR注释软件的输出文件的过滤方法为:
要求突变位于外显子区域;要求突变位点不能位于染色体高度重复区域;esp数据库中的群体变异频率低于5%;要求在千人基因组计划中的变异频率低于5%。
进一步的,步骤(2)所述不同实验组突变位点的描述性分析的方法为:
进行不同实验组之间突变基因的数量统计,找到实验组之间特异性的突变位点以及实验组之间共同的突变位点,通过Venn图的方式进行展示。
进一步的,步骤(3)所述突变基因矩阵,每一行对应一个实验组突变基因,每一列对应一个样本。
进一步的,步骤(4)所述对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,具体方法为:
根据突变信息填写下表
突变 野生 合计
基因1 n11 n12 n11+n12
基因2 n21 n22 n21+n22
n11+n21 n12+n22 n
按照如下公式计算基因是否显著互斥或者共突变:
p = a + b a c + d c n a + c = ( a + b ) ! ( c + d ) ! ( a + c ) ! ( b + d ) ! a ! b ! c ! d ! n ! .
相对于现有技术,本发明所述的肿瘤突变位点筛选及互斥基因挖掘的方法具有以下优势:
本发明结合外显子组处理流程中的vcf文件以及ANNOVAR注释软件的输出文件对样本基因突变位点进行基于突变read数、位点测序深度、突变频率以及突变对蛋白质影响等方面的过滤。同时可以对不同组病人突变位点进行描述性分析以及获得同一实验组中共突变以及互斥突变的基因集合,筛选条件以及筛选过程对于使用者直观呈现。有利于使用者对于找到的突变位点进行进一步的生物学解读。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的方法流程示意图。
图2为本发明实施例中G1样本生成的频率文件局部截图。
图3为本发明实施例中样本群体随过滤频率变化的曲线。
图4为本发明实施例中肿瘤组织与正常组织的突变位点韦恩图。
图5为本发明实施例中案例样本群体中突变部分基因列表。
图6为本发明实施例中突变基因矩阵示例。
图7为本发明实施例中互斥与共突变基因关系展示。
具体实施方式
需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
本发明的方法原理如下:
基因突变的发生是肿瘤发生的前提条件,通过外显子组测序数据对突变基因(基因位点)进行鉴定是生物医学研究的重要手段之一。对细胞生理状态影响较大的是那些对基因所翻译蛋白质具有一定影响的基因,故为了鉴别出肿瘤相关突变基因(基因位点),我们首先对常用注释软件ANNOVAR生成的注释文件进行蛋白质功能过滤。
接下来由于二代测序技术存在一定的测序错误可能性,因此需要对测序错误导致的假阳性突变位点进行甄别。大量研究证实通过校正突变位点read改变个数、突变位点测序深度、突变位点的突变频率以及对照组织的此位点的read改变个数、测序深度以及突变频率可以较好的控制假阳性突变位点的数量,从而更有利于发现具有生物学意义的突变基因。结合注释文件里面突变对蛋白质翻译的影响以及突变频率信息可以得到较为可信的疾病相关突变基因。
Fisher精确检验是统计互斥突变以及共表达基因的常用手段,本软件通过此方法计算得到的互斥与突变基因具有较高的可信度。
本发明的具体步骤如图1所示,包括:
(1)过滤vcf文件;对ANNOVAR生成的注释结果进行过滤;
(2)进行不同实验组突变位点的描述性分析;
生物学研究中往往检测了同一样本不同组织,进行对比分析。对于两个以及多个实验组样本间的突变位点的描述性分析,最主要的分析操作就是找到实验组间的交叠突变位点以及特异性(在一个实验组而不在另外一个实验组中出现)的突变位点。
发现出现在两个实验组(A1,A2)同一病人a中的突变位点集合;
发现在A1实验组中病人a中出现而不在A2实验组a病人样本中出现的突变位点。
对经过交叠或特异性分析的病人突变位点文件进行个数统计。
当我们要探讨群体间突变位点集合的时候,可以将每个病人通过一些列运算得到的最终突变位点集合汇总成实验组群体样本的突变位点集合;还可以通过韦恩图对实验组之间突变位点的可视化关系进行分析。
(3)互斥与共突变基因的确定
为了确定互斥与共突变基因,首先需要对每个样本的突变基因进行汇总;接下来依据实验组突变基因列表构建突变基因矩阵信息。输出结果每一行对应一个实验组突变基因,每一列对应一个样本,0表示未突变,1表示突变。之后对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析。
本发明的具体应用举例:
通过筛选胃癌外显子组测序数据的突变位点以及分析胃癌组织互斥以及共突变基因作为实例进行程序运行结果的展示。
实例中包含了3例胃癌组织外显子组测序数据以及对应样本的癌旁正常组织的外显子组测序数据。胃癌组织数据和正常组织数据均以配对血液样本作为参考得到vcf文件。胃癌组织和正常组织的突变位点文件经过ANNOVAR注释软件进行注释。
1.1 注释文件过滤
3例胃癌组织以及对应的癌旁正常组织的注释文件进行过滤分别得到对应样本的突变信息见表1。
表1
1.2 Vcf文件过滤
对vcf文件进行过滤。图2为G1样本生成的频率截图。
经过过滤后的vcf文件中突变位点数量见表2。突变频率为衡量突变可靠性的重要指标,可以进行变化频率对突变位点个数的分析,如图3所示,根据输出图形可以选择合适的频率阈值。
表2
过滤结果的交叠突变位点数量见表3。
表3 注释与vcf双重过滤突变位点个数
1.3 进行不同实验组突变位点的描述性分析
对肿瘤组织以及正常组织进行突变位点的汇总,对于肿瘤组织得到了722个突变位点,对于正常组织得到了507个突变位点。对两种组织交叠突变位点进行韦恩图绘制得到结果(参见图4)。
1.4 互斥与共突变分析
首先得到实验组突变基因的总和,前10个基因结果如图5所示。
接下来依照突变基因列表生成突变基因矩阵,如图6所示。
接下来进行基因与基因之间互斥关系的判断。这一步由于每一个基因对子需要使用fisher精确检验进行一次比较,故计算时间往往较长。本例中由于样本量较少,故计算出的统计值(P值)较大。图7为部分结果展示。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于,包括以下步骤:
(1)过滤外显子组处理流程中的vcf文件以及ANNOVAR注释软件的输出文件,得到感兴趣组织和对照组织的突变位点的突变read数、位点测序深度、突变频率;
(2)进行不同实验组突变位点的描述性分析,找到实验组间的交叠突变位点以及特异性的突变位点,所述特异性的突变位点是指该突变位点在一个实验组出现而不在另外一个实验组中出现;
(3)对每个样本的突变基因进行汇总,依据实验组突变基因列表构建突变基因矩阵;
(4)对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,确定互斥与共突变基因。
2.根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于,步骤(1)所述vcf文件的过滤方法为:
要求感兴趣组织的突变read数>=3,位点测序深度>=8,突变频率>=0.1;
对于对照组织要求突变read数<3,位点测序深度>=8,突变频率<0.1。
3.根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于,步骤(1)所述ANNOVAR注释软件的输出文件的过滤方法为:
要求突变位于外显子区域;要求突变位点不能位于染色体高度重复区域;esp数据库中的群体变异频率低于5%;要求在千人基因组计划中的变异频率低于5%。
4.根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于,步骤(2)所述不同实验组突变位点的描述性分析的方法为:
进行不同实验组之间突变基因的数量统计,找到实验组之间特异性的突变位点以及实验组之间共同的突变位点,通过Venn图的方式进行展示。
5.根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于,步骤(3)所述突变基因矩阵,每一行对应一个实验组突变基因,每一列对应一个样本。
6.根据权利要求1所述的一种肿瘤突变位点筛选及互斥基因挖掘的方法,其特征在于,步骤(4)所述对生成的突变基因矩阵进行依据Fisher精确检验的互斥以及共突变分析,具体方法为:
根据突变信息填写下表
突变 野生 合计 基因1 n11 n12 n11+n12 基因2 n21 n22 n21+n22 n11+n21 n12+n22 n
按照如下公式计算基因是否显著互斥或者共突变
P = a + b a c + d c n a + c = ( a + b ) ! ( c + d ) ! ( a + c ) ! ( b + d ) ! a ! b ! c ! d ! n ! .
CN201610318266.XA 2016-05-13 2016-05-13 一种肿瘤突变位点筛选及互斥基因挖掘的方法 Expired - Fee Related CN106021994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610318266.XA CN106021994B (zh) 2016-05-13 2016-05-13 一种肿瘤突变位点筛选及互斥基因挖掘的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610318266.XA CN106021994B (zh) 2016-05-13 2016-05-13 一种肿瘤突变位点筛选及互斥基因挖掘的方法

Publications (2)

Publication Number Publication Date
CN106021994A true CN106021994A (zh) 2016-10-12
CN106021994B CN106021994B (zh) 2019-03-26

Family

ID=57099557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610318266.XA Expired - Fee Related CN106021994B (zh) 2016-05-13 2016-05-13 一种肿瘤突变位点筛选及互斥基因挖掘的方法

Country Status (1)

Country Link
CN (1) CN106021994B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
CN108470114A (zh) * 2018-04-27 2018-08-31 元码基因科技(北京)股份有限公司 基于单样本的二代测序数据分析肿瘤突变负荷的方法
CN109727638A (zh) * 2018-12-27 2019-05-07 北京优迅医学检验实验室有限公司 测序深度的矫正方法及装置
CN110010197A (zh) * 2019-03-29 2019-07-12 深圳裕策生物科技有限公司 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质
CN110021348A (zh) * 2018-06-19 2019-07-16 上海交通大学医学院附属瑞金医院 基于RNA-seq数据的肿瘤基因突变检测方法及系统
CN112086127A (zh) * 2020-09-17 2020-12-15 中南大学湘雅医院 一种基于突变功能的群体遗传差异比较方法
WO2021042235A1 (zh) * 2019-09-02 2021-03-11 北京哲源科技有限责任公司 疾病类型自动确定方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1636727B1 (en) * 2003-06-10 2012-10-31 Janssen Diagnostics BVBA Computational method for predicting the contribution of mutations to the drug resistance phenotype exhibited by hiv based on a linear regression analysis of the log fold resistance
CN102952854A (zh) * 2011-08-25 2013-03-06 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
US20160032410A1 (en) * 2006-06-06 2016-02-04 Angeline Ingrid Bartholomeusz Detection and use of antiviral resistance mutations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1636727B1 (en) * 2003-06-10 2012-10-31 Janssen Diagnostics BVBA Computational method for predicting the contribution of mutations to the drug resistance phenotype exhibited by hiv based on a linear regression analysis of the log fold resistance
US20160032410A1 (en) * 2006-06-06 2016-02-04 Angeline Ingrid Bartholomeusz Detection and use of antiviral resistance mutations
CN102952854A (zh) * 2011-08-25 2013-03-06 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
CN106980763B (zh) * 2017-03-30 2020-04-28 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
CN108470114A (zh) * 2018-04-27 2018-08-31 元码基因科技(北京)股份有限公司 基于单样本的二代测序数据分析肿瘤突变负荷的方法
CN108470114B (zh) * 2018-04-27 2020-02-28 元码基因科技(北京)股份有限公司 基于单样本的二代测序数据分析肿瘤突变负荷的方法
CN110021348A (zh) * 2018-06-19 2019-07-16 上海交通大学医学院附属瑞金医院 基于RNA-seq数据的肿瘤基因突变检测方法及系统
CN109727638A (zh) * 2018-12-27 2019-05-07 北京优迅医学检验实验室有限公司 测序深度的矫正方法及装置
CN109727638B (zh) * 2018-12-27 2021-08-17 北京优迅医学检验实验室有限公司 测序深度的矫正方法及装置
CN110010197A (zh) * 2019-03-29 2019-07-12 深圳裕策生物科技有限公司 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质
WO2021042235A1 (zh) * 2019-09-02 2021-03-11 北京哲源科技有限责任公司 疾病类型自动确定方法及电子设备
CN112086127A (zh) * 2020-09-17 2020-12-15 中南大学湘雅医院 一种基于突变功能的群体遗传差异比较方法
CN112086127B (zh) * 2020-09-17 2023-03-10 中南大学湘雅医院 一种基于突变功能的群体遗传差异比较方法

Also Published As

Publication number Publication date
CN106021994B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN106021994A (zh) 一种肿瘤突变位点筛选及互斥基因挖掘的方法
CN106909806B (zh) 定点检测变异的方法和装置
Heindl et al. Mapping spatial heterogeneity in the tumor microenvironment: a new era for digital pathology
CN106022001A (zh) 一种肿瘤突变位点筛选及互斥基因挖掘的系统
EP1859377B1 (en) System for detecting abnormal cells using multi-dimensional analysis
US20240044904A1 (en) System, method, and article for detecting abnormal cells using multi-dimensional analysis
JP2021520004A (ja) 残存病変の検出システム及び方法
JP2018505392A (ja) 自動化されたフローサイトメトリ分析方法及びシステム
CN111968701B (zh) 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN106778066B (zh) 一种非小细胞肺癌相关癌基因筛选与功能分析方法
CN106980763A (zh) 一种基于基因突变频率的癌症驱动基因的筛选方法
CN108021788B (zh) 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置
CN106282320A (zh) 检测体细胞突变的方法和装置
CN110021346A (zh) 基于RNAseq数据的基因融合与突变检测方法及系统
CN111139291A (zh) 一种单基因遗传性疾病高通量测序分析方法
US20210118526A1 (en) Calculating cell-type rna profiles for diagnosis and treatment
CN110093417A (zh) 一种检测肿瘤单细胞体细胞突变的方法
CN116200490A (zh) 一种检测实体瘤微小残留病灶的方法
Wang et al. Systematic benchmarking of imaging spatial transcriptomics platforms in FFPE tissues
Mauguen et al. Estimating the probability of clonal relatedness of pairs of tumors in cancer patients
WO2023232762A1 (en) Machine learning predictive models of treatment response
CN113913518B (zh) 成熟b细胞肿瘤的分型标志物及其应用
CN116312807A (zh) 一种预测非小细胞肺癌免疫治疗疗效的早期预测评估方法
CN110223732A (zh) 多类生物序列注释的整合方法
Kim et al. Validity of patient-derived xenograft mouse models for lung cancer based on exome sequencing data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326