CN108920901A

CN108920901A - 一种测序数据突变分析系统

Info

Publication number: CN108920901A
Application number: CN201810891475.2A
Authority: CN
Inventors: 吴南; 吴志宏; 邱贵兴; 赵森; 吴勇; 闫子慧; 杨欣壮
Original assignee: Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Current assignee: Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date: 2018-07-24
Filing date: 2018-08-07
Publication date: 2018-11-30
Anticipated expiration: 2038-08-07
Also published as: CN108920901B

Abstract

本发明涉及一种测序数据分析系统，所述分析系统包括文件重命名模块、质量控制模块、序列比对模块、突变检测模块、突变注释模块、打分评级模块、过滤模块、突变评论备注模块；所述系统针对单样本或者家系样本，能够从测序原始下机的fastq格式数据检测和注释突变，并对突变进行打分，经过质量控制后，最终得到包含样本所有的突变及其注释信息和打分信息，以及包含样本所有罕见突变及其注释信息和打分信息的文件，便于更快速、准确、全面地挖掘测序数据中的信息。

Description

一种测序数据突变分析系统

技术领域

本发明属于生物医学领域，涉及一种基因突变分析系统。

背景技术

随着测序技术的发展，成本的降低，在人类健康领域，人基因组测序成为今后的主流趋势，精准医疗将是测序的最终目的。因此，如何准确的发掘测序结果中的变异、全面注释所发掘的变异成为了实现精准医疗的必要手段。

变异位点发现是指寻找人个体基因组与人参考基因组中相同位置上不同的碱基类型，这些变异位点有可能是影响人类健康，或导致人类患病的致病位点。基于二代测序技术，测序得到的序列和基因组进行比对，从比对的结果中找出不同位置上测序序列和基因组序列的差异碱基，这就是变异位点。一个人的基因组中可能发现百万个SNV、InDel(插入和缺失)变异，这些变异以ATCG四种碱基的各种组合形式出现。人类疾病就和这些变异有关，虽然可以发现百万个变异，但是存在一定程度的假阳性、并且真正跟疾病相关的变异数量极少。科研工作者要在大量的变异位点中找到真的候选致病的基因和变异位点，这需要借助有效的过滤条件和全面的数据库进行过滤和注释分析，以更全面的解析疾病，服务于生物医学。

发明内容

为了弥补现有技术的不足，本发明的目的在于提供一种测序数据突变分析系统，针对单样本或者家系样本，能够从测序原始下机的fastq格式数据检测和注释突变，并对突变进行打分，经过质量控制后，最终得到包含样本所有的突变及其注释信息和打分信息的raw.xls文件，以及包含样本所有罕见突变及其注释信息和打分信息的filtered.xls文件，便于更快速、准确地挖掘测序数据中的信息。

为了实现上述目的，本发明采用如下技术方案：

一种测序数据突变分析系统，所述分析系统包括文件重命名模块、质量控制模块、序列比对模块、突变检测模块、突变注释模块、打分评级模块、过滤模块、突变评论备注模块；

文件重命名模块用于将测序编号统一为分析编号；

质量控制模块数据修剪单元和数据整合单元，用于测序数据的质量评估，筛选去除数据噪音；

序列比对模块包括序列比对单元，将测序reads比对到基因组上，并通过多线程运算达到快速比对的结果，输出比对到基因组上的read信息；

突变检测模块用于对测序数据进行突变检测分析；

突变注释模块包括数据库准备单元、突变信息注释单元、遗传模式注释单元、突变预测注释单元，用于对突变信息的注释和分析；

打分评级模块包括突变打分单元和基因打分单元，用于优先筛选被分析的突变；

过滤模块包括第一过滤单元、第二过滤单元和第三过滤单元，用于突变质量以及突变频率和遗传模式的过滤，得到全面的与疾病相关的变异信息；

突变评论备注模块用于对特殊突变进行备注，便于对特殊突变进行提醒。

进一步，所述数据修剪单元使用trimmomatic对测序数据进行修剪，过程包括：去除测序过程中添加的适配器、允许两个碱基错配、palindrome模式下匹配碱基数阈值为20、simple模式下的匹配碱基数阈值为10、palindrome模式下允许切除的最短接头序列为8bp、palindrome模式下去除与R1完全反向互补的R2、去除首端和末端碱基质量小于15的碱基或者N、去除包含5个碱基且平均碱基质量小于20的滑窗、去除质量低于20的reads、最低reads长度为36。

进一步，所述突变信息注释单元包括突变基本信息和基因结构注释单元、突变频率注释单元、突变致病性注释单元、基因通路注释单元、蛋白质改变注释单元。

进一步，所述突变信息注释单元的注释结果中加入网站链接。

进一步，所述突变打分模块设置多条规则，逐次提取待注释文件的每一个突变，并按照设置规则逐条进行判断，根据判断结果，进行打分。

优选的，对突变打分而言，具体规则如下：

2突变类型为truncating("frameshift_variant"、"stop_gained"、"stop_lost"、"start_gained"、"start_lost"、"splice_acceptor_variant"或者"splice_donor_variant")

2a HGMD评级为DM、DM？或者DFP

2c遗传模式为Com_het或者Recessive

2d遗传模式为De_novo

2b符合2大类下的除去2a、2c、2d的所有突变

3 novel突变(1000G、ESP6500、gnomAD和ExAC数据库中均未收录该突变)

3a HGMD评级为DM、DM？或者DFP

3c遗传模式为Com_het或者Recessive

3d遗传模式为De_novo

3b符合2大类下的除去3a、3c、3d的所有突变

7非novel突变(1000G、ESP6500、gnomAD或者ExAC数据库中至少有一个数据库收录该突变)

7a HGMD评级为DM、DM？或者DFP

7c遗传模式为Com_het或者Recessive

7d遗传模式为De_novo

7b符合2大类下的除去7a、7c、7d的所有突变

4 homozygous>5的突变

逐行提取待注释文件中的上述信息(即逐次提取待注释文件的每一个突变)，按照上述条件逐条进行判断，并根据判断结果，予以相应的打分。当某一突变符合多条规则时，以“+”连接每一条规则对应的打分

对基因打分而言，具体规则如下：

根据在pubmed中已发表的文献，整理与某一疾病相关的基因，并根据其文献报道，对基因的重要性进行评级，给出分数，汇总成基因打分数据库。

对待注释文献，检索其基因是否收录在基因打分数据库中，若收录，则将打分分数匹配至待注释文件相应位置；若未收录，则在待注释文件的相应位置以“.”补充。

作为本发明的一种可选择的实施方式，所述第一过滤单元对突变检测模块中的数据进行过滤，减少突变的假阳性。在本发明的具体实施方式中，对突变质量的过滤如下：

-QUAL:>30

-depth:[6-3500]

-VAF:>＝10％

-alt depth:>2

作为本发明的一种可选择的实施方式，所述第二过滤单元对来自突变检测模块的数据再次进行过滤，过滤的数据进入突变注释单元进行注释，优选的，过滤参数如下：

-strand fail:alt reads数[0-6]或者strand比例(0.01-0.1)或者(0.9-0.99)；strand比例在[0-0.01]或者[0.99-1]，该位点删除

-low coverage:突变位点测序深度[6-20]

作为本发明的一种可选择的实施方式，所述第三过滤单元对经过第二过滤单元过滤的数据进行对突变频率和遗传模式的过滤，优选的，过滤参数如下：

-SNP heterozygosis:10％<＝VAF<＝90％

-SNP homozygosis:VAF>90％

-InDel heterozygosis:10％<＝VAF<＝80％

-InDel homozygosis:VAF>80％

本发明提供了基于上述分析系统分析突变的方法。

进一步，所述方法包括以下步骤：

1)通过文件重命名模块将测序编号命名为分析编号，统一命名格式；

2)通过质量控制模块对来自文件重命名模块的测序数据进行质量评估和统计，输出高质量的测序数据；

3)通过序列比对模块将来自质量控制模块的数据比对到基因组上，并进行染色体排序，得到sorted.bam文件；

4)通过突变检测模块对sorted.bam文件进行基因突变检测分析，输出vcf文件；

5)通过突变注释模块对突变数据进行注释，首先准备数据库，抓取数据库中的数据，然后对突变信息，遗传突变模式，突变预测进行注释；

6)通过打分评级模块对注释文件进行打分注释，优先筛选被分析的突变，快速筛查所需突变和基因；

7)通过突变评论备注模块对特殊突变进行备注；

8)输出突变信息结果。

进一步，步骤1)将测序编号重命名为分析编号，将同一样本的多个fastq文件合并建立测序号和样本号的对应表，命名为id.dic，通过Python脚本，将以测序号命名的fastq文件重命名为以样本号(或其他分析编号)命名的fastq文件，同时，若一个样本分多次上机或者多条lane上机，可自动合并，只要确保样本号一致即可。

进一步，步骤2)利用trimmomatic在质量控制的基础上对测序数据进行修剪，输出高质量的测序数据进行后续分析；利用samtools、bedtools、picard等软件统计各个样本测序相关的质量信息，并将不同软件得到的结果利用Python脚本进行整合，主要包括：Q20、Q30、10X coverage、20X coverage、50X coverage、GC含量、插入大小、mapping比例、Duplicate比例等。

作为一种优选的实施方式，利用trimmomatic对测序数据进行修剪时，去除测序过程中添加的适配器、允许两个碱基错配、palindrome模式下匹配碱基数阈值为20、simple模式下的匹配碱基数阈值为10、palindrome模式下允许切除的最短接头序列为8bp、palindrome模式下去除与R1完全反向互补的R2、去除首端和末端碱基质量小于15的碱基或者N、去除包含5个碱基且平均碱基质量小于20的滑窗、去除质量低于20的reads、最低reads长度为36。

进一步，步骤3)利用bwa的mem算法将测序reads与参考基因组进行比对，定位到相应位置，得到sam文件；利用picard将得到的sam文件按照染色体顺序进行排序，得到sorted.bam文件。

进一步，步骤4)利用picard将得到的sorted.bam文件标记由于PCR产生的重复片段；利用GATK对碱基质量分数以及插入/缺失突变进行重校准，以保证突变检测的准确性；利用GATK的HaplotypeCaller模块进行突变检测，包括SNV和indel两种突变，输出格式为vcf的文件。

进一步，步骤5)中的数据库包括购买的HGMD商业付费版数据库、[1000GProject](http://www.internationalgenome.org/)、[ESP6500](http://evs.gs.washington.edu/ EVS/)、[ExAC](exac.broadinstitute.org)、[gnomAD](http:// gnomad.broadinstitute.org/)、[dbSNP](https://www.ncbi.nlm.nih.gov/projects/ SNP/)、[SIFT](http://sift.jcvi.org/)、[Polyphen2](http:// genetics.bwh.harvard.edu/pph2/)、[CADD](http://cadd.gs.washington.edu/)、[GERP++](http://mendel.stanford.edu/SidowLab/downloads/gerp/)、[Clinvar](https:// www.ncbi.nlm.nih.gov/clinvar/)、[COSMIC](http://cancer.sanger.ac.uk/cosmic？ genome＝37)、[OMIM](https://www.omim.org/)、[KEGG](https://www.genome.jp/kegg/ pathway.html)、[GO](http://www.geneontology.org/)、[PID](https:// academic.oup.com/nar/article/37/suppl_1/D674/1002223)、[BIOCARTA](https:// cgap.nci.nih.gov/Pathways/BioCarta_Pathways)、[REACTOME](https:// reactome.org/)

进一步，抓取数据的过程如下：

a.获取所述现有数据库中多个页面的URL地址，其中，抽取现有数据库中所有页面的URL地址，将其以队列形式排列，并依次进行后续处理；

b.根据预设的抓取规则，抓取目标页面，其中，所述抓取规则为URL地址中的指定字段；例如，只抓取以：“https://www.omim.org/entry”为开头的URL地址。

c.对所述目标页面进行解析，获得所述数据。

d.在抓取过程中，还可以对抓取的结果进行存储，生成日志文件，方便后期的维护处理。

e.将抓取到的数据以统一格式存储，并构建注释数据库。具体格式为：染色体(chr)+位点(pos)+参考基因组碱基(ref)+突变碱基(alt)+数据库相应内容列。

进一步，突变信息注释包括：

1)突变基本信息和基因结构注释：

a.注释该突变是纯合突变还是杂合突变，该突变在过滤时的情况，发生该突变的reads比例，以及该突变的pileup和rs号；

b.根据突变位点在基因组中的位置，注释位点所在的基因名称，基因结构区。可获得突变发生在什么基因上，发生在基因的什么结构区域，如外显子、内含子或基因间区等(可具体到外显子区的第几个外显子)，突变是否发生在不同区域，这种突变类型属于无义突变、错义突变还是同义突变，该基因是常染色体遗传还是性染色体遗传，该基因是显性遗传还是隐性遗传，该基因在脊椎动物和哺乳动物中的保守性，以及该基因的ENGS号、HGVS号和转录本号。

2)突变频率注释：

注释该突变在1000G_ASN、1000G_ALL、ESP6500、gnomAD_exome_ALL、gnomAD_exome_EAS、gnomAD_genome_ALL、gnomAD_genome_EAS、ExAC_EAS_HomoAlt、ExAC_EAS、ExAC_HomoAlt、ExAC、In_house几个数据库中出现的次数和频率，并给出ExAC的网页链接和ExAC_PLI的网页链接，为变异解读提供便利。具体注释方法如下：

提取待注释文件中的染色体(chr)+位点(pos)+参考基因组碱基(ref)+突变碱基(alt)四列内容，这四列内容可唯一确定一个突变，在准备好数据库中进行完全匹配检索，判断所述突变位点是否收录于上述频率数据库中。若数据库中收录了该突变，获取该突变位点的突变个数和突变频率，匹配至待注释文件的相应位置；若数据库中未收录该突变，则在待注释文件的相应位置以“.”补充。

3)突变致病性注释：

根据准备的ClinVar、HGMD、OMIM、COSMIC等数据库整理位点-疾病关系和基因-疾病关系，注释该突变在这些疾病数据库中的收录情况，并给出OMIM的网页链接，为变异解读提供便利。具体注释方法如下：

提取待注释文件中的染色体(chr)+位点(pos)+参考基因组碱基(ref)+突变碱基(alt)四列内容，这四列内容可唯一确定一个突变，在准备好数据库中进行完全匹配检索，判断所述突变位点是否收录于上述疾病数据库中。若数据库中收录了该突变，获取该突变位点的在数据库中的收录内容，匹配至待注释文件的相应位置；若数据库中未收录该突变，则在待注释文件的相应位置以“.”补充。

4)基因通路注释：

根据准备的KEGG、GO、PID、BIOCARTA、REACTOME数据库进行基因功能和通路注释，便于在后续分析中可以通过疾病相关的重要功能通路找到参与功能通路的基因。具体注释方法如下：

提取待注释文件中的基因，在准备好数据库中进行完全匹配检索，判断所述突变基因是否收录于上述频率数据库中。若数据库中收录了该突变基因，获取该基因突变在数据库中的收录内容，匹配至待注释文件的相应位置；若数据库中未收录该基因突变，则在待注释文件的相应位置以“.”补充。

5)蛋白质改变注释：

注释该突变导致的蛋白极性改变情况，以及在Swiss数据库中的收录情况。

进一步，遗传模式注释用于在家系样本中，根据父母样本DNA序列情况，判断该孩子发生突变的遗传模式；获得该突变是符合遗传模式的，还是新发突变或者复合杂合突变，为后续变异解读提供有力证据。同时，在家系样本中，对于孩子的每一个突变，注释其父母在该突变发生未知的序列情况。

进一步，突变预测注释是利用SIFT，Polyphen，LRT，CADD，GERP++，MutationTaster六种预测方法对突变位点进行预测，根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测。

进一步，步骤6)包括突变打分和基因打分，通过对突变和基因的打分评级，可以做到优先筛选被分析的突变，有利于在海量数据中快速找到所需突变和基因。

进一步，对突变打分而言，具体规则如下：

2a HGMD评级为DM、DM？或者DFP

2c遗传模式为Com_het或者Recessive

2d遗传模式为De_novo

2b符合2大类下的除去2a、2c、2d的所有突变

3 novel突变(1000G、ESP6500、gnomAD和ExAC数据库中均未收录该突变)

3a HGMD评级为DM、DM？或者DFP

3c遗传模式为Com_het或者Recessive

3d遗传模式为De_novo

3b符合2大类下的除去3a、3c、3d的所有突变

7a HGMD评级为DM、DM？或者DFP

7c遗传模式为Com_het或者Recessive

7d遗传模式为De_novo

7b符合2大类下的除去7a、7c、7d的所有突变

4 homozygous>5的突变

逐行提取待注释文件(经突变注释模块注释完的文件)中的上述信息(即逐次提取待注释文件的每一个突变)，按照上述条件逐条进行判断，并根据判断结果，予以相应的打分。当某一突变符合多条规则时，以“+”连接每一条规则对应的打分。

进一步，对于基因打分而言，具体规则如下：

进一步，将上述注释结果保存在raw.xls文件中。

在本发明中，分析系统的突变过滤包括3部分：在突变检测步骤中(即bam文件到vcf文件过程中)：对突变质量进行过滤，减少突变的假阳性率；在突变注释步骤前(即vcf文件到raw.xls文件过程中)：对突变质量的再次过滤；对突变频率和遗传模式的过滤(即raw.xls文件到filtered.xls文件过程中)：得到罕见变异，有利于致病突变的发现。

在本发明中可以对过滤的参数进行适应性修改，只要能达到目的即可。作为一种优选的实施方式，第一次过滤的指标设置为：

-QUAL:>30

-depth:[6-3500]

-VAF:>＝10％

-alt depth:>2

作为优选的实施方式，第二次过滤的指标设置为：

-low coverage:突变位点测序深度[6-20]

作为更为优选的实施方式，对突变频率表和遗传模式的过滤指标设置为：

-SNP heterozygosis:10％<＝VAF<＝90％

-SNP homozygosis:VAF>90％

-InDel heterozygosis:10％<＝VAF<＝80％

-InDel homozygosis:VAF>80％

作为一种优选的实施方式，步骤7)中对特殊突变进行备注的指标设置如下：

-OMIM:基因在OMIM disease有收录，突变`人群频率`低于1％,in-house频率低于10％，突变类型中存在`aa change`类型突变；

-HGMD:突变位点或者两边延伸3bp在HGMD有收录，突变`人群频率`低于5％；

-COSMIC:突变在COSMIC数据库有收录，突变`人群频率`低于1％，in-house频率低于10％,Cosmic Occurence总数>＝10；

-truncating:突变`人群频率`低于1％，in-house频率低于10％，所有isoform的突变类型均在`truncating`类型中；

-truncating_isoform:突变`人群频率`低于1％，in-house频率低于10％，部分isoform的突变类型均在`truncating`类型中；

-novol:突变`人群频率`中为0，in-house频率低于10％；

-low_frequency:突变`人群频率`在[0-0.01]，in-house频率低于10％；

-lowVAF:case VAF在[0-30]

-possible_comhet:一个基因有两个杂合variant，突变`人群频率`低于1％,in-house频率低于10％，标记possible comhet

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。在本发明中，部分数据库的说明如下：

1000Genome(1000G)：包含2504例健康样本的全基因组测序和全外显子组测序数据库；

ESP6500：包含6504例多队列疾病样本全外显子组测序数据库；

ExAC：包含60,706例多队列健康样本和疾病样本全外显子组测序数据库；

gnomAD：包含123,136例全外显子组测序数据和15,496全基因组测序数据的数据库；

inhouse：申请人自己构建的包含849例无骨骼畸形的其他疾病样本及相关亲属样本的全基因组测序数据库；

OMIM：基因层面的孟德尔疾病数据库；

HGMD：突变层面的疾病数据库；

Clinvar：突变层面的疾病数据库；

COSMIC：突变层面的癌症疾病数据库

本发明的优点和有益效果：

本发明中提供了一种测序数据突变分析系统，通过调用高效准确的生物信息学软件和个性化分析模块，一键式完成测序数据的分析流程，提高了测序效率。

本发明提供的测序数据突变分析系统突变检测效力高，具有较高的敏感性和阳性预测值、较强的罕见变异的检测效力、可以发现Mosaicism。

本发明提供的测序数据突变分析系统注释信息齐全，包括了内部(inhouse)数据库、商业数据库以及免费数据库等仅20种数据库，注释信息齐全，此外还包括了对突变的打分评级以及注释结果的网站链接，使用更为便捷、有效。

附图说明

图1是测序数据突变分析系统结构图；

图2是测序数据分析系统的数据分析工作流程图。

具体的实施方式

下面结合附图和实施例对本发明作进一步详细的说明，以下实施例仅用于说明本发明而不用于限制本发明的范围。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

实施例1一种测序数据突变分析系统

文件重命名模块用于将测序编号统一为分析编号，将同一样本的多个fastq文件合并建立测序号和样本号的对应表，命名为id.dic，通过Python脚本，将以测序号命名的fastq文件重命名为以样本号(或其他分析编号)命名的fastq文件，同时，若一个样本分多次上机或者多条lane上机，可自动合并，只要确保样本号一致即可。

质量控制模块数据修剪单元和数据整合单元，用于测序数据的质量评估，筛选去除数据噪音；所述数据修剪单元使用trimmomatic对测序数据进行修剪，过程包括：去除测序过程中添加的适配器、允许两个碱基错配、palindrome模式下匹配碱基数阈值为20、simple模式下的匹配碱基数阈值为10、palindrome模式下允许切除的最短接头序列为8bp、palindrome模式下去除与R1完全反向互补的R2、去除首端和末端碱基质量小于15的碱基或者N、去除包含5个碱基且平均碱基质量小于20的滑窗、去除质量低于20的reads、最低reads长度为36；数据整合单元利用samtools、bedtools、picard等软件统计各个样本测序相关的质量信息，并将不同软件得到的结果利用Python脚本进行整合，主要包括：Q20、Q30、10Xcoverage、20X coverage、50X coverage、GC含量、插入大小、mapping比例、Duplicate比例等。

序列比对模块利用bwa的mem算法将测序reads与参考基因组进行比对，定位到相应位置，得到sam文件，然后利用picard将得到的sam文件按照染色体顺序进行排序，得到sorted.bam文件；

突变检测模块用于对测序数据进行突变检测分析，利用picard将得到的sorted.bam文件标记由于PCR产生的重复片段；利用GATK对碱基质量分数以及插入/缺失突变进行重校准，以保证突变检测的准确性；利用GATK的HaplotypeCaller模块进行突变检测，包括SNV和indel两种突变，文件输出格式为vcf文件。

突变注释模块包括数据库准备单元、突变信息注释单元、遗传模式注释单元、突变预测注释单元，用于对突变信息的注释和分析。突变信息注释单元包括突变基本信息和基因结构注释单元、突变频率注释单元、突变致病性注释单元、基因通路注释单元、蛋白质改变注释单元。其中，数据库准备单元的数据库包括购买的HGMD商业付费版数据库、[1000GProject](http://www.internationalgenome.org/)、[ESP6500](http:// evs.gs.washington.edu/EVS/)、[ExAC](exac.broadinstitute.org)、[gnomAD](http:// gnomad.broadinstitute.org/)、[dbSNP](https://www.ncbi.nlm.nih.gov/projects/ SNP/)、[SIFT](http://sift.jcvi.org/)、[Polyphen2](http:// genetics.bwh.harvard.edu/pph2/)、[CADD](http://cadd.gs.washington.edu/)、[GERP++](http://mendel.stanford.edu/SidowLab/downloads/gerp/)、[Clinvar](https:// www.ncbi.nlm.nih.gov/clinvar/)、[Cosmic](http://cancer.sanger.ac.uk/cosmic？ genome＝37)、[OMIM](https://www.omim.org/)、[KEGG](https://www.genome.jp/kegg/ pathway.html)、[GO](http://www.geneontology.org/)、[PID](https:// academic.oup.com/nar/article/37/suppl_1/D674/1002223)、[BIOCARTA](https:// cgap.nci.nih.gov/Pathways/BioCarta_Pathways)、[REACTOME](https:// reactome.org/)，数据库准备完毕后，抓取数据库中的数据，步骤包括：

b.根据预设的抓取规则，抓取目标页面，其中，所述抓取规则为URL地址中的指定字段。例如，只抓取以：“https://www.omim.org/entry”为开头的URL地址；

c.对所述目标页面进行解析，获得所述数据；

d.在抓取过程中，还可以对抓取的结果进行存储，生成日志文件，方便后期的维护处理；

e.将抓取到的数据以统一格式存储，并构建注释数据库；具体格式为：

染色体(chr)+位点(pos)+参考基因组碱基(ref)+突变碱基(alt)+数据库相应内容列；

突变基本信息和基因结构注释单元，注释该突变是纯合突变还是杂合突变，该突变在过滤时的情况，发生该突变的reads比例，以及该突变的pileup和rs号；根据突变位点在基因组中的位置，注释位点所在的基因名称，基因结构区；可获得突变发生在什么基因上，发生在基因的什么结构区域，如外显子、内含子或基因间区等(可具体到外显子区的第几个外显子)，突变是否发生在difficult region，这种突变类型属于无义突变、错义突变还是同义突变，该基因是常染色体遗传还是性染色体遗传，该基因是显性遗传还是隐性遗传，该基因在脊椎动物和哺乳动物中的保守性，以及该基因的ENGS号、HGVS号和转录本号；

突变频率注释单元用于注释该突变在1000G_ASN、1000G_ALL、ESP6500、gnomAD_exome_ALL、gnomAD_exome_EAS、gnomAD_genome_ALL、gnomAD_genome_EAS、ExAC_EAS_HomoAlt、ExAC_EAS、ExAC_HomoAlt、ExAC、In_house几个数据库中出现的次数和频率，并给出ExAC的网页链接和ExAC_PLI的网页链接，为变异解读提供便利。具体注释方法如下：提取待注释文件中的染色体(chr)+位点(pos)+参考基因组碱基(ref)+突变碱基(alt)四列内容，这四列内容可唯一确定一个突变，在准备好数据库中进行完全匹配检索，判断所述突变位点是否收录于上述频率数据库中。若数据库中收录了该突变，获取该突变位点的突变个数和突变频率，匹配至待注释文件的相应位置；若数据库中未收录该突变，则在待注释文件的相应位置以“.”补充；

突变致病性注释单元根据准备的ClinVar、HGMD、OMIM、Cosmic等数据库整理位点-疾病关系和基因-疾病关系，注释该突变在这些疾病数据库中的收录情况，并给出OMIM的网页链接，为变异解读提供便利。具体注释方法如下：提取待注释文件中的染色体(chr)+位点(pos)+参考基因组碱基(ref)+突变碱基(alt)四列内容，这四列内容可唯一确定一个突变，在准备好数据库中进行完全匹配检索，判断所述突变位点是否收录于上述疾病数据库中。若数据库中收录了该突变，获取该突变位点的在数据库中的收录内容，匹配至待注释文件的相应位置；若数据库中未收录该突变，则在待注释文件的相应位置以“.”补充；

基因通路注释单元根据准备的KEGG、GO、PID、BIOCARTA、REACTOME数据库进行基因功能和通路注释，便于在后续分析中可以通过疾病相关的重要功能通路找到参与功能通路的基因。具体注释方法如下：提取待注释文件中的基因(gene)，在准备好数据库中进行完全匹配检索，判断所述突变基因位点是否收录于上述频率数据库中。若数据库中收录了该突变基因，获取该基因突变位点的在数据库中的收录内容，匹配至待注释文件的相应位置；若数据库中未收录该基因突变，则在待注释文件的相应位置以“.”补充；

蛋白质改变单元用于注释突变导致的蛋白极性改变情况，以及在Swiss数据库中的收录情况；

突变预测注释单元利用SIFT，Polyphen，LRT，CADD，GERP++，MutationTaster六种预测方法对突变位点进行打分，根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测；

打分评级模块包括突变打分单元和基因打分单元，用于优先筛选被分析的突变；突变打分模块设置多条规则，逐次提取待注释文件的每一个突变，并按照设置规则逐条进行判断，根据判断结果，进行打分；对于突变打分而言，具体规则设置如下：

2a HGMD评级为DM、DM？或者DFP

2c遗传模式为Com_het或者Recessive

2d遗传模式为De_novo

2b符合2大类下的除去2a、2c、2d的所有突变

3novel突变(1000G、ESP6500、gnomAD和ExAC数据库中均未收录该突变)

3a HGMD评级为DM、DM？或者DFP

3c遗传模式为Com_het或者Recessive

3d遗传模式为De_novo

3b符合2大类下的除去3a、3c、3d的所有突变

7a HGMD评级为DM、DM？或者DFP

7c遗传模式为Com_het或者Recessive

7d遗传模式为De_novo

7b符合2大类下的除去7a、7c、7d的所有突变

4 homozygous>5的突变

逐行提取待注释文件中的上述信息(即逐次提取待注释文件的每一个突变)，按照上述条件逐条进行判断，并根据判断结果，予以相应的打分。当某一突变符合多条规则时，以“+”连接每一条规则对应的打分；

对于基因打分，具体规则设置如下：

根据在pubmed中已发表的文献，整理与某一疾病相关的基因，并根据其文献报道，对基因的重要性进行评级，给出分数，汇总成基因打分数据库；对待注释文献，检索其基因是否收录在基因打分数据库中，若收录，则将打分分数匹配至待注释文件相应位置；若未收录，则在待注释文件的相应位置以“.”补充；

过滤模块包括第一过滤单元、第二过滤单元和第三过滤单元，用于突变质量以及突变频率和遗传模式的过滤，得到全面的与疾病相关的变异信息；第一过滤单元在突变检测步骤中(即bam文件到vcf文件过程中)：对突变质量进行过滤，减少突变的假阳性率。主要过滤指标为：

-QUAL:>30

-depth:[6-3500]

-VAF:>＝10％

-alt depth:>2；

第二过滤单元在在突变注释步骤前(即vcf文件到raw.xls文件过程中)：对突变质量的再次过滤，具体过滤指标如下：

-low coverage:突变位点测序深度[6-20]；

第三过滤单元是对突变频率和遗传模式的过滤(即raw.xls文件到filtered.xls文件过程中)：得到罕见变异，有利于致病突变的发现。主要过滤指标如下：

-SNP heterozygosis:10％<＝VAF<＝90％

-SNP homozygosis:VAF>90％

-InDel heterozygosis:10％<＝VAF<＝80％

-InDel homozygosis:VAF>80％

突变评论备注模块根据突变的类型和数据库收录情况等信息，对特殊突变进行了备注，便于提醒后续分析人员注意此类突变。主要备注指标如下：

-OMIM：基因在OMIM disease有收录，突变`人群频率`低于1％,in-house频率低于10％,突变类型中存在`aa change`类型突变；

-HGMD：突变位点或者两边延伸3bp在HGMD有收录，突变`人群频率`低于5％；

-COSMIC：突变在cosmic数据库有收录，突变`人群频率`低于1％,in-house频率低于10％,Cosmic Occurence总数>＝10；

-truncating：突变`人群频率`低于1％,in-house频率低于10％,所有isoform的突变类型均在`truncating`类型中；

-truncating_isoform：突变`人群频率`低于1％,in-house频率低于10％,部分isoform的突变类型均在`truncating`类型中，；

-novol:突变`人群频率`中为0，in-house频率低于10％；

-low_frequency:突变`人群频率`在[0-0.01]，in-house频率低于10％；

-lowVAF:case VAF在[0-30]

-possible_comhet:一个基因有两个杂合variant，突变`人群频率`低于1％,in-house频率低于10％,标记possible comhet

实施例2具体运行实例

1、数据简介

数据类型：全外显子组测序

组织来源：DNA来自脑动静脉畸形(BAVM)患者及其父母的血液

实验设计：外显子捕获测序

测序平台：Illumina HiSeq 4000

2、系统使用

全外显子组测速数据分析流程如图2所示包含：测序数据的重命名，测序数据质量评估和控制、突变的检测和注释，突变的打分和备注等过程。下面，利用软件集成的功能模块逐步实现每一个分析步骤：

1)通过文件重命名模块将测序编号命名为分析编号，统一命名格式，将同一样本的多个fastq文件合并建立测序号和样本号的对应表；

2)通过质量控制模块对来自文件重命名模块的测序数据进行质量评估和统计整合，输出高质量的测序数据；

5)通过突变注释模块对突变数据进行注释，首先抓取数据库中的数据，然后对突变信息，遗传突变模式，突变预测进行注释；

7)通过突变评论备注模块对特殊突变进行备注；

8)输出突变信息结果。

3、结果

测序列队中，共发现85个罕见、功能性(错义、无义、剪切位点以及插入)新发突变，进一步将新发突变与候选通路进行聚类，发现可能致病突变，以及具有潜在功能丧失的显性遗传致病突变等。对测序结果进行分析比较，本申请系统的敏感性等结果如表1所示，说明使用本申请所述的系统具有较高的敏感性和阳性率。

表1比较共同区域的所有突变

上述实施例的说明只是用来理解本发明的技术方案。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，可以对本发明进行若干改进和修饰，这些改进和修饰也将落入本发明权利要求的保护范围内。

Claims

1.一种测序数据突变分析系统，其特征在于，所述分析系统包括文件重命名模块、质量控制模块、序列比对模块、突变检测模块、突变注释模块、打分评级模块、过滤模块、突变评论备注模块；

文件重命名模块用于将测序编号统一为分析编号；

质量控制模块包括数据修剪单元和数据整合单元，用于测序数据的质量评估和统计，筛选去除数据噪音；

序列比对模块，将测序reads比对到基因组上，并通过多线程运算达到快速比对的结果；

突变检测模块用于对测序数据进行突变检测分析；

2.根据权要求1所述的分析系统，其特征在于，所述数据修剪单元使用trimmomatic对测序数据进行修剪，过程包括：去除测序过程中添加的适配器、允许两个碱基错配、palindrome模式下匹配碱基数阈值为20、simple模式下的匹配碱基数阈值为10、palindrome模式下允许切除的最短接头序列为8bp、palindrome模式下去除与R1完全反向互补的R2、去除首端和末端碱基质量小于15的碱基或者N、去除包含5个碱基且平均碱基质量小于20的滑窗、去除质量低于20的reads、最低reads长度为36。

3.根据权利要求1所述的分析系统，其特征在于，所述突变信息注释单元包括突变基本信息和基因结构注释单元、突变频率注释单元、突变致病性注释单元、基因通路注释单元、蛋白质改变注释单元。

4.根据权利要求3所述的分析系统，其特征在于，所述突变信息注释单元的注释结果中加入网站链接。

5.根据权利要求1所述的分析系统，其特征在于，所述突变打分模块设置多条规则，逐次提取待注释文件的每一个突变，并按照设置规则逐条进行判断，根据判断结果，进行打分。

6.根据权利要求1所述的分析系统，其特征在于，所述第一过滤单元对突变检测模块中的数据进行过滤，减少突变的假阳性；优选的，过滤参数如下：

-QUAL:>30

-depth:[6-3500]

-VAF:>＝10％

-alt depth:>2 。

7.根据权利要求1所述的分析系统，其特征在于，所述第二过滤单元对来自突变检测模块的数据再次进行过滤，过滤的数据进入突变注释单元进行注释，优选的，过滤参数如下：

-low coverage:突变位点测序深度[6-20] 。

8.根据权利要求1所述的分析系统，其特征在于，所述第三过滤单元对经过第二过滤单元过滤的数据进行对突变频率和遗传模式的过滤；优选的，过滤参数如下：

-SNP heterozygosis:10％<＝VAF<＝90％

-SNP homozygosis:VAF>90％

-InDel heterozygosis:10％<＝VAF<＝80％

-InDel homozygosis:VAF>80％。

9.基于权利要求1-8任一项所述的分析系统分析突变的方法。

10.根据权利要求9所述的方法，其特征在于，包括以下步骤：

7)通过突变评论备注模块对特殊突变进行备注；

8)输出突变信息结果。