CN106156538A

CN106156538A - 一种全基因组变异数据的注释方法和注释系统

Info

Publication number: CN106156538A
Application number: CN201610502321.0A
Authority: CN
Inventors: 相深; 杨俊辉; 吴俊�
Original assignee: Tianjin Novo Pharmaceutical Detection Institute Co Ltd
Current assignee: Tianjin Novo Pharmaceutical Detection Institute Co Ltd
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2016-11-23

Abstract

本发明公开了一种全基因组变异数据的注释方法和注释系统。该方法包括以下步骤：S1，创建变异数据文件：采用国际标准的VCF格式储存变异数据作为输入文件；S2，多等位基因基因分型：首先进行基因型判断，与参考基因组一致的碱基用0表示，与参考基因组不一致的碱基用1，2，3……表示，然后进行SNP和InDel的多等位基因型进行拆分，使得等位基因型都使用0和1表示；S3，InDel发生位置归一化：采用向左对齐和简约的归一化方法进行InDel发生位置归一化；以及S4，注释：进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。应用本发明的技术方案，提高了注释信息的完整性和准确性。

Description

一种全基因组变异数据的注释方法和注释系统

技术领域

本发明涉及生物信息学技术领域，具体而言，涉及一种全基因组变异数据的注释方法和注释系统。

背景技术

随着测序技术的发展，成本的降低，在人类健康领域，人全基因组测序必将成为今后的主流趋势，精准医疗将是测序的最终目的。准确注释人类基因组的变异是实现精准医疗的必要手段。

变异位点发现是指寻找人个体基因组与人参考基因组中相同位置上不同的碱基类型，这些变异位点有可能是影响人类健康，或导致人类患病的致病位点。基于二代测序技术，测序得到的序列和基因组进行比对，从比对的结果中找出不同位置上测序序列和基因组序列的差异碱基，这就是变异位点。一个人的基因组中可能发现百万个SNV、InDel(插入和缺失)变异，这些变异以ATCG四种碱基的各种组合形式出现。人类疾病就和这些变异有关，虽然可以发现百万个变异，但是真正跟疾病相关的变异数量极少。科研工作者要在大量的变异位点中找到候选致病的基因和变异位点，这需要借助数据库进行注释分析，从注释的结果中挖掘出和疾病、药物等相关的变异位点。

现有的变异位点数据库注释方法或系统主要有以下几点内容：

1)变异位点进行基因结构注释：根据变异位点在基因组中的位置，注释位点所在的基因名称，基因结构区。基因和结构信息来源于knownGene数据库，可获得突变发生在什么基因上，发生在基因的什么结构区域，如外显子、内含子或基因间区等，以及这种突变类型属于无义突变、错义突变还是同义突变。

2)位点有害性预测，根据变异位点是否影响蛋白翻译过程中氨基酸的改变，进行有害性预测，常用的有SIFT，Ployphen两种软件进行打分。

3)人群位点频率注释，使用已知的数据库注释该变异位点在全球人群中的等位基因频率。如使用单核苷酸多态性数据库(dbSNP)，人类千人基因组数据库(1000genome)，美国外显子计划数据库(NHLBI Grand Opportunity Exome Sequencing Project)。

现有的注释工具如美国费城儿童医院开发并广泛使用的Annovar，其基于上述几点内容提供基因结构注释；人群突变频率注释，但不包含特定种群(如中国人种群)频率；在有害性分值注释方面提供的软件较多，没有指导性注释建议。

发明内容

本发明旨在提供一种全基因组变异数据的注释方法和注释系统，以提高注释信息的完整性和准确性。

为了实现上述目的，根据本发明的一个方面，提供了一种全基因组变异数据的注释方法。该方法包括以下步骤：S1，创建变异数据文件：采用国际标准的VCF格式储存变异数据作为输入文件；S2，多等位基因基因型分割：首先进行基因型判断，与参考基因组不一致的碱基用1，2，3……表示，然后进行SNP和InDel的多等位基因型进行拆分，使得等位基因型都使用0和1表示；S3，InDel发生位置归一化：采用向左对齐和简约的归一化方法进行InDel发生位置归一化；以及S4，注释：进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。

进一步地，基因结构注释包括根据数据库注释基因结构，构建基因编码区、非编码区、调控区、剪接体10bp区域的结构文件，以及突变类型文件。

进一步地，等位基因频率注释包括对于种群/地域/性别/病种等位基因频率注释。

进一步地，变异位点的有害性预测包括根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测，使用SIFT，Polyphen，CADD，MutationTaster四种预测方法对突变位点进行打分，结果采取多分值累加计数，在后续分析中满足累加计数条件的会被优先筛选；

进一步地，致病性注释包括根据已研究报道的文献以及数据库，借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理位点-疾病-药物关系、基因-疾病-药物关系，整合GTEx数据库中的表达数量性状，利用NCBI、KEGG、GO数据库整理基因功能和通路，用整合好的数据库对变异位点进行注释。

进一步地，S1中，种群、疾病、性别作为可选的输入参数。

进一步地，全基因组为人类全基因组。

根据本发明的另一方面，提供了一种全基因组变异数据的注释系统。该注释系统，包括：数据录入装置，采用国际标准的VCF格式储存变异数据作为输入文件；基因型判断装置，在标准的VCF存储格式里，与参考基因组一致的碱基类型用0表示，与参考基因组不一致的碱基类型用1，2，3……表示，根据该标准进行基因型判断；多等位基因型分割装置，用于进行SNP和InDel的多等位基因型进行拆分，使得等位基因型都使用0和1表示；InDel发生位置归一化装置，采用向左对齐和简约的归一化方法进行InDel发生位置归一化；以及注释装置，进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。

进一步地，注释装置包括：基因结构注释装置、等位基因频率注释装置、变异位点的有害性预测装置以及致病性注释装置。

进一步地，基因结构注释装置包括统计基因结构装置和突变类型分类装置。

进一步地，等位基因频率注释装置包括：种群分类装置、性别分类装置和疾病分类装置，种群分类装置、性别分类装置和疾病分类装置的下游设置有MAF计算装置，MAF计算装置的下游设置有结果整合与筛选装置和和中国人种群结果整合分析装置。

应用本发明的技术方案，对全基因组变异数据结果(Variant Call Format(VCF))进行注释，：包括基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释，提高了提高注释信息的完整性；根据向左对齐和简约(Left Alignment&Parsimony)标准修正了插入缺失(InDel)的发生位置，提高了InDel注释的准确性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明实施例1的全基因组变异数据的注释方法的流程示意图；

图2示出了实施例1中多基因型的分割方法；

图3示出了实施例1中实现多等位基因基因分型及InDel发生位置归一化的流程及装置示意图；

图4示出了实施例1中实现基因结构注释的流程及装置示意图；以及

图5示出了实施例1中实现种群/地域/性别/病种等位基因频率注释的流程及装置示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

发明人发现：近些年来，随着科研认知的更新，内含子等非编码区不再被认为是垃圾DNA，而是和启动子、增强子等作为重要调控作用的元件，发挥着重要的作用。有些疾病源于调控区的变异而产生，注释调控区域有助于找到疾病发生的原因。现有的变异位点注释方法或系统没有考虑到全基因组的数据特点，对非编码区和调控区的位点信息缺乏注释，不便于后期对这些区域的变异进行筛选。

另外，现有的注释工具缺乏对InDel发生位置的归一化，导致大量InDel无法得到准确注释，进而丢失了可能的致病性InDel变异。

有些致病位点在种群中发生频率很低，属于罕见的突变位点。由于遗传多样性和差异性的存在，同一个变异位点在不同种群/地域中的频率是不一致的，所以，同一种疾病的致病变异在不同的人群中可能是不同的位点；或者即使是同一个位点，其在不同人群中发生频率也是不一致的。因此，对变异位点的注释必须要使用一致人群的频率数据库。现有的变异位点注释方法或系统没有考虑到种群/地域差异性，这是非常关键的信息，无法注释就不能挖掘种群特有的致病位点。另外，需要考虑性别区分注释，否则无法挖掘具有性别偏好性疾病的致病位点，因此无法适用于现在各国精准医疗的需求。

现有的变异位点注释方法或系统缺乏与疾病、药物相关联的注释，而这些是科学研究以及临床试验获得的真实已知的信息，可以为致病性位点和基因的挖掘提供有效的信息。这些有效的信息得不到注释，给致病性变异位点的挖掘带来的障碍。

综上，现有基因组的注释方法或系统的都展现出了不准确性，使用范围局限性，不适应性。

针对发明人发现的上述技术问题，本发明提供了下列技术方案。

根据本发明一种典型的实施方式，提供一种全基因组变异数据的注释方法。该方法包括以下步骤：S1，创建变异数据文件：采用国际标准的VCF格式储存变异数据作为输入文件；S2，多等位基因基因型分割：首先进行基因型判断，与参考基因组一致的碱基用0表示，与参考基因组不一致的碱基用1，2，3……表示，然后进行SNP和InDel的多等位基因型进行拆分，使得等位基因型都使用0和1表示；S3，InDel发生位置归一化：采用Leftalignment&Parsimony的归一化方法进行InDel发生位置归一化；以及S4，注释：进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。

一个等位基因(Allele)存在多种基因型(Genotype)的情况；在相同或不同的人群/种群中，等位基因的不同的基因型频率是不同的，这可能导致不同表型(Phenotype)，不同疾病或发病率，因此必须要对多等位基因进行分类。

目前的变异检测软件检测较为灵活，但也因此忽略的InDel的位置标识标准，导致同一个Indel在不同的检测软件结果中不同，因此需要对InDel位置进行归一化处理，使其位置具有唯一性。

优选的，基因结构注释包括根据数据库注释基因结构，构建基因编码区、非编码区、调控区、剪接体10bp区域的结构文件，以及突变类型文件。

优选的，等位基因频率注释包括对于种群/地域/性别/病种等位基因频率注释。

优选的，变异位点的有害性预测包括根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测，使用SIFT，Polyphen，CADD，MutationTaster四种预测方法对突变位点进行打分，结果采取多分值累加计数，在后续分析中满足累加计数条件的会被优先筛选；其中，翻译有害氨基酸是指从突变位点开始改，突变位点导致氨基酸改变进而影响蛋白功能的变化。

优选的，致病性注释包括根据已研究报道的文献以及数据库，借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理变异位点-疾病-药物关系、基因-疾病-药物关系，整合GTEx数据库中的表达数量性状，利用NCBI、KEGG、GO数据库整理基因功能和通路，用整合好的数据库对变异位点进行注释。

优选的，S1中，种群、疾病、性别作为可选的输入参数。

根据本发明一种典型的实施方式，全基因组为人类全基因组。

根据本发明一种典型的实施方式，提供一种全基因组变异数据的注释系统。根据本发明的另一方面，提供了一种全基因组变异数据的注释系统。该注释系统，包括：数据录入装置，采用国际标准的VCF格式储存变异数据作为输入文件；基因型判断装置，在标准的VCF存储格式里，与参考基因组一致的碱基类型用0表示，与参考基因组不一致的碱基类型用1，2，3……表示，根据该标准进行基因型判断；多等位基因基因型分割装置，用于进行SNP和InDel的多等位基因型进行拆分使得等位基因型都使用0和1表示；；InDel发生位置归一化装置，采用向左对齐和简约的归一化方法进行Indel发生位置归一化；以及注释装置，进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。

应用本发明的技术方案具有至少以下技术效果：

1)本发明除了对编码区变异进行功能注释外，还提供非编码区和调控区变异的基因结构和功能注释，为该区域致病位点的发现提供了可能。

2)本发明对InDel发生位置进行归一化，保证InDel的准确注释，有效地解决了候选致病InDel的筛选难题。

3)本发明的频率注释充分考虑了种群/地域/性别差异，借助一致人群的频率注释，大大提高了致病位点筛选的可靠性。

4)本发明提供位点-疾病-药物、基因-疾病-药物的关联，对基因与疾病之间的关联提供了全面的信息，为致病变异的挖掘减少障碍。

5)本发明提供基因功能和通路注释，在后续分析中可以通过疾病相关的重要功能通路找到参与功能通路的基因。

下面将结合实施例进一步说明本发明的有益效果。

实施例1

本实施例整合bzgip(v1.0)、tabix(v1.0)、BCFtools(v1.0)中的norm模块、ANNOVAR软件(version 2015-03-22)、自写程序等模块和软件，整合了多种开放数据库和内部数据库，在Linux系统下运行。

以下对本实施例的注释方法的详细说明(如图1所示)：

1)变异数据文件：采用国际标准的VCF4.1格式储存，作为输入文件；其中种群、疾病、性别作为可选的输入参数。

2)多等位基因(Multi-Allele)基因型分割：一个等位基因(Allele)存在多种基因型(Genotype)的情况；在相同或不同的人群/种群中，等位基因的不同的基因型频率是不同的，这可能导致不同表型(Phenotype)，不同疾病或发病率，因此必须要对Multi-Allele进行分类。首先进行基因型判断，与参考基因组一致的碱基用0表示，与参考基因组不一致的碱基用1，2，3……表示，然后进行SNP和InDel的多等位基因型进行拆分，使得等位基因型都使用0和1表示；则等位基因基因型的表示方法示例：0/0，0/1，0/1，1/1，0/2，1/2等等。这里，0/2和1/2就属于多等位基因，两种基因型需要拆分开，进行后续的分析，具体拆分方式见如图2。在本实施例中实现本步骤的流程及装置主要是图3所示，基因型数据进行基因型判断装置，然后进入多基因型分割装置，最后进入InDel归一化装置进行归一化处理。

3)InDel发生位置归一化：目前的变异检测软件检测较为灵活，但也因此忽略的InDel的位置标识标准，导致同一个InDel在不同的检测软件结果中不同，因此需要对InDel位置进行归一化处理，使其位置具有唯一性。Left alignment&Parsimony是一种标准的归一化方法，它的原理是：将变异位点的起始位置向左移动至不能移动为止，在保证等位基因InDel的长度都不为0的情况下，尽可能用最少碱基来表示，见图3。

4)基因结构注释：根据knownGene数据库注释的人类基因结构，构建基因编码区(外显子区)，非编码区(内含子，基因间区)，调控区(基因结构上下游1Kb范围内)(UTR，增强子，启动子)，剪接体10bp区域的结构文件，以及无义突变、错义突变、同义突变等突变类型文件。将构建好的区域用于变异位点的注释划分，在本实施例中实现本步骤的流程及装置见图4，来自knownGene数据库的数据进入统计基因结构装置和突变类型装置进行处理。

5)种群/地域/性别/病种等位基因频率注释：不同性别，疾病种类的人群存在遗传多样性和差异性。疾病的变异位点在不同的人群中其发生频率不一致，甚至是不一样。因此对变异位点的注释必须要使用一致人群的数据库频率注释。在本平台中已对已知的人群、疾病、性别的变异信息进行归类，并且拥有独有的中国人种群变异数据，注释时选择相应的人群，疾病种群即可完成精准最小等位基因频率(MAF)注释，在本实施例中实现本步骤的流程及装置见图5，人类群体基因组数据库的数据，进入群体分类装置、性别分类装置和疾病分类装置进行处理，然后进入MAF计算装置，最后进入结果整合与筛选装置、中国人种群结果整合分析装置。

6)变异位点的有害性预测：根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测，使用SIFT，Polyphen，CADD，MutationTaster四种预测方法对突变位点进行打分，结果采取多分值累加计数。在后续分析中满足累加计数条件的会被优先筛选。

7)致病性注释：先挖掘已研究报道的文献以及数据库，借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet等整理位点-疾病-药物关系、基因-疾病-药物关系，整合GTEx数据库中的表达数量性状，利用NCBI、KEGG、GO等数据库整理基因功能和通路。用整合好数据库对变异位点进行注释。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：

本实施例的人类全基因组变异数据注释系统，整合了传统注释的优点，解决了传统注释的缺点，实现了变异位点位置、功能人种等多复杂度的精准注释，保证并提高了后续人类疾病精准分析的准确性。

本发明的技术方案，包含内含子区位点注释、基因功能、通路注释、基因-疾病-药物、变异位点-疾病-药物关联注释以及针对等位基因多基因型位点进行分类分型，降低罕见突变的检测假阴性；本发明考虑了基因组种群/地域/性别差异，适用于亚洲/中国人群/各种群/各地域/性别进行疾病候选致病位点的发现；注释信息全面，准确性高，为后续数据挖掘提供更加精准的候选致病性位点。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种全基因组变异数据的注释方法，其特征在于，包括以下步骤：

S1，创建变异数据文件：采用国际标准的VCF格式储存变异数据作为输入文件；

S2，多等位基因基因型分割：首先进行基因型判断，与参考基因组一致的碱基用0表示，与参考基因组不一致的碱基用1，2，3……表示，然后进行SNP和InDel的多等位基因型进行拆分，使得等位基因型都使用0和1表示；

S3，InDel发生位置归一化：采用向左对齐和简约的归一化方法进行InDel发生位置归一化；以及

S4，注释：进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。

2.根据权利要求1所述的注释方法，其特征在于，所述基因结构注释包括根据数据库注释基因结构，构建基因编码区、非编码区、调控区、剪接体10bp区域的结构文件，以及突变类型文件。

3.根据权利要求1所述的注释方法，其特征在于，所述等位基因频率注释包括对于种群/地域/性别/病种等位基因频率注释。

4.根据权利要求1所述的注释方法，其特征在于，所述变异位点的有害性预测包括根据突变位点是否影响蛋白翻译并导致翻译有害氨基酸进行突变位点的有害性预测，使用SIFT，Polyphen，CADD，MutationTaster四种预测方法对突变位点进行打分，结果采取多分值累加计数，在后续分析中满足累加计数条件的会被优先筛选。

5.根据权利要求1所述的注释方法，其特征在于，所述致病性注释包括根据已研究报道的文献以及数据库，借助ClinVar、HGMD、GWASCatalog、PharmGKB、OMIM、DrugBank、Orphanet整理位点-疾病-药物关系、基因-疾病-药物关系，整合GTEx数据库中的表达数量性状，利用NCBI、KEGG、GO数据库整理基因功能和通路，用整合好的数据库对变异位点进行注释。

6.根据权利要求1所述的注释方法，其特征在于，所述S1中，种群、疾病、性别作为可选的输入参数。

7.根据权利要求1所述的注释方法，其特征在于，所述全基因组为人类全基因组。

8.一种全基因组变异数据的注释系统，其特征在于，包括：

数据录入装置，采用国际标准的VCF格式储存变异数据作为输入文件；

基因型判断装置，在标准的VCF存储格式里，与参考基因组一致的碱基类型用0表示，与参考基因组不一致的碱基类型用1，2，3……表示，根据该标准进行基因型判断；

多等位基因基因型分割装置，用于进行SNP和InDel的多等位基因型进行拆分，使得等位基因型都使用0和1表示；

InDel发生位置归一化装置，采用向左对齐和简约的归一化方法进行InDel发生位置归一化；以及

注释装置，进行基因结构注释、等位基因频率注释、变异位点的有害性预测以及致病性注释。

9.根据权利要求8所述的注释系统，其特征在于，所述注释装置进一步包括：基因结构注释装置、等位基因频率注释装置、变异位点的有害性预测装置以及致病性注释装置。

10.根据权利要求9所述的注释系统，其特征在于，所述基因结构注释装置包括统计基因结构装置和突变类型分类装置。

11.根据权利要求9所述的注释系统，其特征在于，所述等位基因频率注释装置包括：种群分类装置、性别分类装置和疾病分类装置，所述种群分类装置、所述性别分类装置和所述疾病分类装置的下游设置有MAF计算装置，所述MAF计算装置的下游设置有结果整合与筛选装置和和中国人种群结果整合分析装置。