CN105930690A - 一种全外显子组测序数据分析方法 - Google Patents

一种全外显子组测序数据分析方法 Download PDF

Info

Publication number
CN105930690A
CN105930690A CN201610319415.4A CN201610319415A CN105930690A CN 105930690 A CN105930690 A CN 105930690A CN 201610319415 A CN201610319415 A CN 201610319415A CN 105930690 A CN105930690 A CN 105930690A
Authority
CN
China
Prior art keywords
sequencing data
genome
read
quality
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610319415.4A
Other languages
English (en)
Inventor
薛成海
雷文婕
刘婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wankangyuan (tianjin) Gene Technology Co Ltd
Original Assignee
Wankangyuan (tianjin) Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wankangyuan (tianjin) Gene Technology Co Ltd filed Critical Wankangyuan (tianjin) Gene Technology Co Ltd
Priority to CN201610319415.4A priority Critical patent/CN105930690A/zh
Publication of CN105930690A publication Critical patent/CN105930690A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种全外显子组测序数据分析方法,包括以下步骤:1)测序数据的质控;2)测序数据的基因组映射;3)测序数据找高置信的基因组变异;4)变异位点的注释。本发明通过简单的参数提交完成大规模数据的分析,包括原始数据的质量检测、数据去噪、测序read的基因组映射上游承接下机的原始测序数据,通过参数自动化提交分析模块,完成测序数据的分析,输出候选的致病突变位点和相关基因,为后期的实验验证提供依据。

Description

一种全外显子组测序数据分析方法
技术领域
本发明属于基因信息数据处理领域,特别是涉及到一种全外显子组测序数据分析方法。
背景技术
随着人类基因组计划和国际人类单体型图谱构建的完成,快速推动了通过解析基因组信息研究疾病易感位点的预测和功能研究。这类研究主要是基于生物芯片的基因分型技术,利用全基因组关联分析研究(GWAS)方法来寻找与复杂疾病相关的遗传因素。随着生物芯片中探针越来越密集,特别是叠瓦式探针的设计,对于疾病风险位点的挖掘也越来越全面。然而,GWAS的局限在于:识别的多数关联位点位于基因组的基因间区、内含子、调控区;其次,芯片的探针都是基于目前已知的(绝大多数是常见SNP)设计的,不能识别低频的致病变异和新的致病突变。
短短几年内,新一代技术的迅猛发展在数据通量和成本上都显示出巨大的优势。特别是全外显子组捕获测序技术,通过特异性探针富集到具有编码功能的外显子区,针对这些功能区域进行深度测序,不仅可以更全面的检测编码区域的变异,且能够识别低频的和新的变异位点。全外显子测序包含目标区间的捕获、文库构建和上机测序,以及生物信息学分析三个过程。目前最流行的三种外显子捕获试剂分别来自罗氏NimbleGen、Illumina和安捷伦。技术的不断推广,涌现出海量的基因组测序数据,如何快速、且系统性地挖掘这些大数据中的信息,以更全面的解析疾病,服务于生物医学,为数据分析团队提出了更高的要求和新的挑战。
发明内容
有鉴于此,本发明提出一种全外显子组测序数据分析方法,便于更快速、准确地挖掘测序数据中的信息。
为达到上述目的,本发明的技术方案是这样实现的:一种全外显子组测序数据分析方法,包括以下步骤:
1)测序数据的质控:通过对原始测序数据文件中单碱基质量,以及read质量的评估,判断测序数据是否可用于后续分析,同时,筛选去除测序因素产生的数据噪音;
2)测序数据的基因组映射:利用BWA的aln算法完成read到基因组的映射过程,通过多线程运算达到快速比对的结果;
3)测序数据找高置信的基因组变异:利用GATK包的UnifiedGenotyper方法找基因组上的变异位点,包括SNV和小片段的INDEL;
4)变异位点的注释:对变异的候选位点或基因组区间做注释,包含这些变异在基因组的位置、是否影响氨基酸编码、人群频率、对于蛋白质功能是否有害。
进一步的,所述步骤1)中测序数据的质控包括:
101)数据质量的统计结果以及评估报告,包含以下内容:碱基质量分布、GC含量统计、A/T/G/C碱基分布、read长度统计、显著富集的段序列检测;
102)read修剪,包括去除低质量的read片段、去除测序异常的read、去除测序过程中添加的适配器,输出高质量的read用于后续信息挖掘。
进一步的,所述步骤2)还通过picard、samtool和GATK方法对比对结果进行数据格式转换、排序、质量校正,输出准确比对到基因组上的read信息。
进一步的,所述步骤3)还包括对找到的变异位点进行假阳性过滤,其方法为:使用VQSR对变异位点进行过滤,SNV和INDEL需要分开进行。
进一步的,所述步骤3)还包括找基因组的拷贝数变异。
进一步的,所述步骤4)的注释方法包括:
401)将变异位点定位到基因组、基因,分析碱基改变是否影响氨基酸编码、阅读框结构;
402)通过公开的健康人群频率过滤常见的SNP;
403)预测氨基酸改变对蛋白质功能的影响;利用的方法包括PolyPhen、CADD、SIFT;
404)结合现有的疾病数据库筛查目前已报到的疾病突变和新的突变位点,提供候选的致病突变和基因;所述疾病数据库包括COSMIC、ClinVar、OMIM。
相对于现有技术,本发明所述的一种全外显子组测序数据分析方法具有以下优势:
本发明针对外显子组捕获测序数据进行分析,包括从下机的测序数据-->数据的质量控制-->数据的基本处理-->测序read的基因组映射-->找基因组变异-->计算基因组拷贝数-->注释变异位点的功能整个分析过程,本发明集成了全面的数据质量报告、结果统计和展示,通过简单的参数提交完成大规模数据的分析,包括原始数据的质量检测、数据去噪、测序read的基因组映射上游承接下机的原始测序数据,通过参数自动化提交分析模块,完成测序数据的分析,输出候选的致病突变位点和相关基因,为后期的实验验证提供依据。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明全外显子组测序数据分析流程包含:测序数据质量评估和控制、高质量read筛选、read比对到参考基因组、寻找基因组变异、配对样本寻找体细胞突变、计算拷贝数变异、功能注释等过程。下面,使用集成的软件模块逐步实现每一个分析步骤。
(1)原始测序数据的质量控制。本示例的全外显子组数据,利用fastQC模块对测序进行质量评估。例如癌组织的测序数据质量,分别为碱基质量分布、碱基比例分布、read长度分布和GC含量。
(2)利用trimming模块,基于滑窗方法计算碱基质量,过滤低质量的read。方法原理是:输入测序的fq文件(包含read标号、序列、碱基质量);
第一行为read编号,以“@”开头,包括平台类型、流动槽(lane)编号,区编号(tile),以及坐标位置,双末端测序的read1和read2;
第二行为测的序列信息;
第三行有符号“+”标记;
第四行是read上每个碱基的质量,以ASCII表示。
(3)利用mapping模块,将高质量的read比对到人类参考基因组(hg19)上。比对方法采用BWA,步骤包括read的基因组定位->bam生产->根据位置排序->标记由于PCR产生的重复片段->indel周围的重新比对,以去除假阳性变异信息->碱基质量的矫正->提取唯一比对到基因组上的raed做后续分析。
(4)利用gatk-snv模块,分别找癌组织中的SNV和INDEL。通过癌组织基因组和参考基因组比较识别了49707个SNV和5386个INDEL。
(5)利用CNV模块分析癌组织中DNA拷贝数的改变。结果中可见肿瘤组织中部分基因组片段发生扩增或者缺失。
(6)利用annotation模块对SNV、INDEL和CNV的候选位点或基因组区间做注释,包含这些变异在基因组的位置、是否影响氨基酸编码、人群频率、对于蛋白质功能是否有害。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种全外显子组测序数据分析方法,其特征在于,包括以下步骤:
1)测序数据的质控:通过对原始测序数据文件中单碱基质量,以及read质量的评估,判断测序数据是否可用于后续分析,同时,筛选去除测序因素产生的数据噪音;
2)测序数据的基因组映射:利用BWA的aln算法完成read到基因组的映射过程,通过多线程运算达到快速比对的结果;
3)测序数据找高置信的基因组变异:利用GATK包的UnifiedGenotyper方法找基因组上的变异位点,包括SNV和小片段的INDEL;
4)变异位点的注释:对变异的候选位点或基因组区间做注释,包含这些变异在基因组的位置、是否影响氨基酸编码、人群频率、对于蛋白质功能是否有害。
2.根据权利要求1所述的一种全外显子组测序数据分析方法,其特征在于,所述步骤1)中测序数据的质控包括:
101)数据质量的统计结果以及评估报告,包含以下内容:碱基质量分布、GC含量统计、A/T/G/C碱基分布、read长度统计、显著富集的段序列检测;
102)read修剪,包括去除低质量的read片段、去除测序异常的read、去除测序过程中添加的适配器,输出高质量的read用于后续信息挖掘。
3.根据权利要求1所述的一种全外显子组测序数据分析方法,其特征在于,所述步骤2)还通过picard、samtool和GATK方法对比对结果进行数据格式转换、排序、质量校正,输出准确比对到基因组上的read信息。
4.根据权利要求1所述的一种全外显子组测序数据分析方法,其特征在于,所述步骤3)还包括对找到的变异位点进行假阳性过滤,其方法为:使用VQSR对变异位点进行过滤,SNV和INDEL需要分开进行。
5.根据权利要求1所述的一种全外显子组测序数据分析方法,其特征在于,所述步骤3)还包括找基因组的拷贝数变异。
6.根据权利要求1所述的一种全外显子组测序数据分析方法,其特征在于,所述步骤4)的注释方法包括:
401)将变异位点定位到基因组、基因,分析碱基改变是否影响氨基酸编码、阅读框结构;
402)通过公开的健康人群频率过滤常见的SNP;
403)预测氨基酸改变对蛋白质功能的影响;利用的方法包括PolyPhen、CADD、SIFT;
404)结合现有的疾病数据库筛查目前已报到的疾病突变和新的突变位点,提供候选的致病突变和基因;所述疾病数据库包括COSMIC、ClinVar、OMIM。
CN201610319415.4A 2016-05-13 2016-05-13 一种全外显子组测序数据分析方法 Pending CN105930690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610319415.4A CN105930690A (zh) 2016-05-13 2016-05-13 一种全外显子组测序数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610319415.4A CN105930690A (zh) 2016-05-13 2016-05-13 一种全外显子组测序数据分析方法

Publications (1)

Publication Number Publication Date
CN105930690A true CN105930690A (zh) 2016-09-07

Family

ID=56835874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610319415.4A Pending CN105930690A (zh) 2016-05-13 2016-05-13 一种全外显子组测序数据分析方法

Country Status (1)

Country Link
CN (1) CN105930690A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置
CN106960122A (zh) * 2017-03-17 2017-07-18 晶能生物技术(上海)有限公司 基因突变引起的遗传疾病预测方法及装置
CN107247890A (zh) * 2017-06-30 2017-10-13 张巍 一种用于临床诊断和预测的基因数据系统
CN107526941A (zh) * 2017-09-22 2017-12-29 至本医疗科技(上海)有限公司 拷贝数变异检测预处理装置、检测装置、判定装置和系统
CN107545152A (zh) * 2017-09-18 2018-01-05 杭州和壹基因科技有限公司 一种基于Illumina数据找变异的方法
CN109063959A (zh) * 2018-06-22 2018-12-21 深圳弘睿康生物科技有限公司 一种样本质量控制分析方法和系统
CN109378038A (zh) * 2018-09-17 2019-02-22 上海派森诺生物科技股份有限公司 一种基于bsa基因定位的自动化分析方法
CN110060733A (zh) * 2019-04-28 2019-07-26 上海宝藤生物医药科技股份有限公司 基于单样本的二代测序肿瘤体细胞变异检测装置
CN111793678A (zh) * 2020-07-30 2020-10-20 臻悦生物科技江苏有限公司 一种基于二代测序技术检测同源重组通路基因突变的方法及试剂盒
CN111816250A (zh) * 2020-06-17 2020-10-23 华中科技大学 将大分子复合物结构映射到基因组和突变数据库的方法
CN113436681A (zh) * 2021-07-05 2021-09-24 温州谱希医学检验实验室有限公司 低频变异与目标疾病的关联统计检验方法及相关设备
CN115458057A (zh) * 2022-08-15 2022-12-09 新疆碳智干细胞库有限公司 一种人类基因全外显检测数据的分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KAI WANG ETC: ""ANNOVAR:functional annotation of genetic variants from high-throughput sequencing data"", 《NUCLEIC ACIDS RESEARCH》 *
刘永波 等: ""基于Solexa平台高通量测序数据的分析与处理流程研究"", 《农业网络信息》 *
李文轲 等: ""基因组二代测序数据的自动化分析流程"", 《遗传》 *
闫瑾 等: ""全外显子组测序分析中预处理方法和变异识别方法的比较"", 《重庆医科大学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置
CN106960122A (zh) * 2017-03-17 2017-07-18 晶能生物技术(上海)有限公司 基因突变引起的遗传疾病预测方法及装置
CN107247890A (zh) * 2017-06-30 2017-10-13 张巍 一种用于临床诊断和预测的基因数据系统
CN107545152A (zh) * 2017-09-18 2018-01-05 杭州和壹基因科技有限公司 一种基于Illumina数据找变异的方法
CN107526941B (zh) * 2017-09-22 2020-12-18 至本医疗科技(上海)有限公司 拷贝数变异检测预处理装置、检测装置、判定装置和系统
CN107526941A (zh) * 2017-09-22 2017-12-29 至本医疗科技(上海)有限公司 拷贝数变异检测预处理装置、检测装置、判定装置和系统
CN109063959A (zh) * 2018-06-22 2018-12-21 深圳弘睿康生物科技有限公司 一种样本质量控制分析方法和系统
CN109378038A (zh) * 2018-09-17 2019-02-22 上海派森诺生物科技股份有限公司 一种基于bsa基因定位的自动化分析方法
CN110060733A (zh) * 2019-04-28 2019-07-26 上海宝藤生物医药科技股份有限公司 基于单样本的二代测序肿瘤体细胞变异检测装置
CN111816250A (zh) * 2020-06-17 2020-10-23 华中科技大学 将大分子复合物结构映射到基因组和突变数据库的方法
CN111793678A (zh) * 2020-07-30 2020-10-20 臻悦生物科技江苏有限公司 一种基于二代测序技术检测同源重组通路基因突变的方法及试剂盒
CN113436681A (zh) * 2021-07-05 2021-09-24 温州谱希医学检验实验室有限公司 低频变异与目标疾病的关联统计检验方法及相关设备
CN113436681B (zh) * 2021-07-05 2022-02-25 温州谱希医学检验实验室有限公司 低频变异与目标疾病的关联统计检验方法及相关设备
CN115458057A (zh) * 2022-08-15 2022-12-09 新疆碳智干细胞库有限公司 一种人类基因全外显检测数据的分析方法

Similar Documents

Publication Publication Date Title
CN105930690A (zh) 一种全外显子组测序数据分析方法
CN106021984A (zh) 一种全外显子组测序数据分析系统
CN104762402B (zh) 超快速检测人类基因组单碱基突变和微插入缺失的方法
CN104462869B (zh) 检测体细胞单核苷酸突变的方法和装置
Krawitz et al. Microindel detection in short-read sequence data
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
CN102682224B (zh) 检测拷贝数变异的方法和装置
CN112951418B (zh) 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质
CN104657628A (zh) 基于Proton的转录组测序数据的比较分析方法和系统
CN110846411B (zh) 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法
CN110021346B (zh) 基于RNAseq数据的基因融合与突变检测方法及系统
CN109346130A (zh) 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
KR20140006846A (ko) Dna 서열의 데이터 분석
CN114694750A (zh) 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法
Schaumont et al. Stack Mapping Anchor Points (SMAP): a versatile suite of tools for read-backed haplotyping
CN112086131A (zh) 一种高通量测序中假阳性变异位点的筛选方法
CN109524060B (zh) 一种遗传病风险提示的基因测序数据处理系统与处理方法
CN105528532B (zh) 一种rna编辑位点的特征分析方法
CN108256291A (zh) 一种生成具有较高可信度基因突变检测结果的方法
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
CN116564406A (zh) 一种遗传变异自动化解读方法及设备
CN104598775A (zh) 一种rna编辑事件识别机制及其高效实现方案
CN110305945A (zh) 一种基于二代测序技术的游离线粒体dna突变检测技术
Rodriguez et al. A scalable, flexible workflow for MethylCap-seq data analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160907

RJ01 Rejection of invention patent application after publication