CN106021980A

CN106021980A - 一种dna及蛋白质水平突变分析系统

Info

Publication number: CN106021980A
Application number: CN201610318327.2A
Authority: CN
Inventors: 薛成海; 龚永辉; 刘宇
Original assignee: Wankangyuan (tianjin) Gene Technology Co Ltd
Current assignee: Wankangyuan (tianjin) Gene Technology Co Ltd
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2016-10-12
Anticipated expiration: 2036-05-13
Also published as: CN106021980B

Abstract

本发明提供了一种DNA及蛋白质水平突变分析系统，包括读取及索引判断模块，用于读取基因突变文件，格式化处理成标准名称；索引转录本序列、基因信息和基因转录本注释信息、构建氨基酸密码子对应关系表；判断突变发生的水平、突变的模式；判断突变命名是蛋白质水平突变或是基因组DNA水平突变或是CDS编码区突变；映射模块，用于根据读取及索引判断模块的判断结果，分别进入不同的水平突变映射流程，得到三种突变命名的映射关系。本发明承接文献挖掘的表型相关基因突变和多态位点，输出多种突变命名的映射关系，以达到完成注释文献挖掘的致病变异与测序识别的基因突变和多态位点间对应等目的。

Description

一种DNA及蛋白质水平突变分析系统

技术领域

本发明属于基因信息数据处理领域，特别是涉及到一种DNA及蛋白质水平突变分析系统。

背景技术

在Watson和Crick发现DNA双螺旋结构后的50多年里，探索基因变异在研究人类疾病的发生发展及预防治疗中扮演了重要角色，人类基因组计划的完成更为疾病和表型相关基因变异的识别开辟了广阔的空间。近年来从微阵列芯片、sanger测序到现在的高通量测序，随着技术的进步，越来越多的基因变异和多态位点被检测出来。它们从分子水平上揭示疾病和众多表型的机制，为解开生命奥秘及征服疾病带来新希望。

然而，不同研究人员识别的基因突变和多态位点在命名上缺乏统一的表示，如抑癌基因TP53在基因组位置7579553处发生了T到A碱基的突变，有的直接采用基因组位置作为标示加以命名(TP53:g.7579553T>A),有的采用基因编码区域的变异进行命名(TP53:c.134T>A),还有的采用最终的蛋白水平的变异结果进行命名(TP53:p.L45Q)。即使在同一蛋白水平的突变描述上，识别基因突变或多态时参考基因序列的不同也导致了最终命名不同，甚至混淆以致无法使用，例如仅对TP53基因的L45Q突变，不同研究采用的参考转录本就涉及了NM_001126112、NM_000546、NM_001126113和NM_001126114。这种不同水平的命名方式最终导致后来的研究人员很难基于前人的研究成果进行有效且准确地进行统一的分析和注释。例如在文献挖掘先前已报道的人类乳腺癌相关的基因突变和多态位点，找到4000多篇PubMed文献，共挖掘出3600多种基因突变和多态位点，但是缺乏一致的基因命名方式，很难应用这些文献挖掘的结果到下一步的分析中。

近年来，下一代测序技术应用的越来越普遍，大量的生物信息分析软件随之产生。在此背景之下，研究人员能快速利用现有成熟的生物信息分析软件及流程对海量的基因组测序数据进行解析，如识别基因突变及多态位点。借助前人的研究，快速准确的进一步解读注释这些突变才能加以应用，如应用到精准医疗中，进行疾病的个性化用药、诊断治疗等。由于大量的先前研究对基因突变的命名不存在统一的标准，很难对解析的结果进一步的注释和解读。

发明内容

有鉴于此，本发明提出一种DNA及蛋白质水平突变分析系统，承接文献挖掘的表型相关基因突变和多态位点，输出多种突变命名的映射关系，以达到完成注释文献挖掘的致病变异与测序识别的基因突变和多态位点间对应等目的。

为达到上述目的，本发明的技术方案是这样实现的：一种DNA及蛋白质水平突变分析系统，包括：

读取及索引判断模块，用于读取基因突变文件，格式化处理成标准名称；索引转录本序列、基因信息和基因转录本注释信息、构建氨基酸密码子对应关系表；判断突变发生的水平、突变的模式；判断突变命名是蛋白质水平突变或是基因组DNA水平突变或是CDS编码区突变；

映射模块，用于根据读取及索引判断模块的判断结果，分别进入不同的水平突变映射流程，得到三种突变命名的映射关系；

所述映射模块连接所述读取及索引判断模块。

进一步的，所述映射模块包括蛋白质水平突变映射单元、基因组DNA水平突变映射单元、CDS编码区突变映射单元；分别控制蛋白质水平突变映射流程、基因组DNA水平突变映射流程、CDS编码区突变映射流程。

更进一步的，所述蛋白质水平突变映射单元包括getProtein2amino子单元，用于将蛋白水平的单氨基酸改变映射到CDS编码区碱基的改变；还包括getPInDel2protein子单元，用于将蛋白质水平突变中插入缺失突变，映射到CDS编码区碱基改变模式；还包括getPos子单元，用于将CDS编码区突变中的单碱基突变映射出在基因组DNA序列上的位置。

更进一步的，所述基因组DNA水平突变映射单元包括getGenome2protein子单元、getGInDel2protein子单元、fasta2amino子单元；所述getGenome2protein子单元用于将基因组突变中的单碱基突变映射到CDS编码区和蛋白水平突变结果；所述getGInDel2protein子单元用于将基因组水平突变中的插入缺失突变映射到CDS编码区突变和蛋白水平变异结果；所述fasta2amino子单元用于将DNA序列转换成氨基酸序列。

更进一步的，所述CDS编码区突变映射单元包括getCInDel2protein子单元、getAmino2protein子单元、aminos2fasta子单元，所述getCInDel2protein子单元用于将CDS编码区突变中的插入缺失突变映射到蛋白水平突变和基因组水平突变结果；所述getAmino2protein子单元用于将CDS编码区中突变的单碱基突变转换成蛋白质水平的突变结果；所述aminos2fasta子单元用于将氨基酸序列转换成DNA碱基序列。

相对于现有技术，本发明所述的一种DNA及蛋白质水平突变分析系统具有以下优势：

本发明以基因突变文件作为输入，经过自动识别，判断突变命名是在DNA、RNA还是蛋白质水平，进而通过REFSEQ的基因转录本注释文件和序列注释文件进行判定突变在各个水平发生的位置和碱基及氨基酸改变。本发明承接文献挖掘的表型相关基因突变和多态位点，输出多种突变命名的映射关系，以达到完成注释文献挖掘的致病变异与测序识别的基因突变和多态位点间对应等目的。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的方法流程示意图。

图2为本发明实施例的转录本注释信息文件示例。

图3为本发明实施例的转录本DNA序列文件示例。

图4为本发明实施例的待映射蛋白水平突变文件示例。

图5为本发明实施例的蛋白质水平突变映射结果示例。

图6为本发明实施例的待映射基因组DNA水平突变文件示例。

图7为本发明实施例的待映射CDS编码区突变文件示例。

图8为本发明实施例的遗传病的风险突变位点文件。

图9为本发明实施例的映射结果文件。

具体实施方式

需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

本发明的原理说明：

不同水平突变的映射，实际上就是不同层面的位置定位和突变结果计算，针对不同水平的突变，需要采取不同的映射方式和步骤。本发明主要针对杂乱的不同层面的突变命名无法直接进行统一应用的情况，把所有层面的突变结果关系映射出来，方便对突变结果的进一步使用。

如图1所示，具体步骤如下：

首先，是基因转录本结构和序列以及氨基酸和碱基关系的索引。REFSEQ是一个稳定常用的基因注释数据库，采用其提供的基因机构注释文件和序列文件构建哈希表，达到从快速地从基因定位转录本，再到转录本结构，如内含子区，外显子区等。氨基酸和碱基(密码子)的互相对应关系也用哈希表加以存储，以便快速的进行氨基酸序列和碱基序列的转换。

其次是待映射文件的数据类型判断。通常，研究人员并未给出标准的基因名称或转录本名称，这个时候需要对提交的文件进行标化，达到标准注释的格式以便进行下一步的映射。

最后是映射关系的计算：

对于蛋白水平的突变，读入蛋白质水平突变结果后，根据氨基酸突变的位数，计算出相应CDS编码区域发生突变的位置。因为氨基酸的简并性，此过程会列出所有可能的CDS编码区域突变，最后对这些CDS编码区突变用参考序列所在位置的碱基来去除不匹配结果。过滤以后得到CDS突变。接下来根据CDS突变发生的位置，使用转录本结构注释信息，找到突变点在基因组上的位点及碱基改变。

对于CDS编码区水平的突变，根据CDS突变为位置可以从转录本对应的mRNA的序列文件的索引中计算该CDS区域对应的DNA序列，然后转成把DNA序列通过碱基氨基酸关系表转成相应的氨基酸序列，把突变前后的氨基酸序列比较，定位出氨基酸发生改变的位置及氨基酸的变化，从而映射出蛋白水平的突变结果，进一步，遍历该基因结构注释信息中的CDS区域，计算出发生改变的基因组位置及碱基改变，从而映射出基因组DNA水平的突变情况。

对于基因组DNA水平的突变结果，根据基因结构注释文件中该基因的CDS区域说明，计算出相应CDS编码区突变发生的位置。然后把该段CDS的DNA序列根据区域注释也提取出来并转换成相应的氨基酸序列，最后得到相应的蛋白水平的改变情况。

映射的结果文件包含了基因组DNA，CDS编码区(RNA)及蛋白质水平的突变对应关系。用户可以根据需要将某一层面的突变结果统一应用到下一步的研究中。

本发明系统软件设计说明如下：

运行平台：Windows,Unix/Linux，Mac OS

编程语言：Perl

软件依赖：需预先安装Perl模块Getopt::Long

本系统软件主要包含10段子程序：(1)workOnTransMutation，(2)getPInDel2protein(3)aminos2fasta,(4)getGInDel2protein,(5)getCInDel2protein,(6)fasta2amino，(7)getGenome2protein(8)getAmino2protein(9)getProtein2amino和(10)getPos。这些子函数perl调用方式为&+函数名+(参数)，其中workOnTransMutation，即读取及索引判断模块，其余9个程序为映射模块中的9个子单元。

workOnTransMutation：读取基因输入文件，格式化处理成标准名称，索引转录本fasta序列、基因信息和基因转录本注释信息、构建氨基酸密码子对应关系表，判断突变发生的水平，突变的模式，并根据突变模式调用其它子函数。

getPInDel2protein：将蛋白质水平突变中插入缺失突变，映射到CDS编码区碱基改变模式。

aminos2fasta：将氨基酸序列转换成DNA碱基序列。

getGInDel2protein：将基因组水平突变中的插入缺失突变映射到CDS编码区突变和蛋白水平变异结果。

getCInDel2protein：将CDS编码区突变中的插入缺失突变映射到蛋白水平突变和基因组水平突变结果。

fasta2amino：将DNA序列转换成氨基酸序列

getGenome2protein：将基因组突变中的单碱基突变映射到CDS编码区和蛋白水平突变结果。

getAmino2protein：将CDS编码区中突变的单碱基突变转换成蛋白质水平的突变结果。

getProtein2amino：将蛋白水平的单氨基酸改变映射到CDS编码区碱基的改变。

getPos：将CDS编码区突变中的单碱基突变映射出在基因组DNA序列上的位置。

详细运行说明：

1、蛋白质水平突变映射

workOnTransMutation、getProtein2amino、getPInDel2protein主要用来映射蛋白水平的单氨基酸突变及氨基酸的插入缺失突变；对于蛋白水平的单氨基酸突变结果，首先索引该突变发生所在基因的所有转录本注释信息及相应DNA序列信息。索引基因转录本注释信息所用文件如图2所示。转录本对应的mRNA的序列文件如图3所示。该转录本注释及序列的原始文件需要从REFSEQ数据库的FTP server中获取。

输入的待映射文件，如图4所示，应至少含有基因名或转录本名(示例第一例)，氨基酸突变结果(示例第二列)。

调用软件计算映射结果方式为perl+本软件名.pl+参数列表；在参数列表中:--input为输入的待映射文件名，--col_gene为该文件中基因或转录本名所在列，--col_mut为该文件中蛋白质水平突变结果所在列，--anno为基因或转录本注释文件--fasta为基因或转录本相应的mRNA序列文件。读入蛋白质水平突变结果后，根据氨基酸突变的位数，计算出相应CDS编码区域发生突变的位置。因为氨基酸的简并性，此过程会列出所有可能的CDS编码区域突变，最后对这些CDS编码区突变用参考序列所在位置的碱基来去除不匹配结果。过滤以后得到CDS突变。接下来根据CDS突变发生的位置，使用转录本结构注释信息，找到突变点在基因组上的位点及碱基改变。输出结果如图5所示。

2、基因组DNA水平突变映射

workOnTransMutation、getGenome2protein、getGInDel2protein主要用来映射基因组DNA上单碱基突变及小片段插入缺失突变到CDS编码区突变结果和蛋白水平突变结果。输入待映射的DNA水平突变文件如图6所示，应至少含有基因名或转录本名(示例第一例)，基因组DNA突变结果(示例第二列)。

映射的过程首先索引该突变发生所在基因的所有转录本注释信息及相应DNA序列信息。索引基因转录本注释信息所用文件如图2所示。转录本对应的mRNA的序列文件如图3所示。该转录本注释及序列的原始文件需要从REFSEQ数据库的FTP server中获取。软件调用及参数说明如1中映射蛋白水平突变的方式相一致。

接下来映射的步骤为，首先得到基因组位置后，根据基因结构注释文件中该基因的CDS区域说明，计算出相应CDS编码区突变发生的位置。然后把该段CDS的DNA序列根据区域注释也提取出来并转换成相应的氨基酸序列，最后得到相应的蛋白水平的改变情况。输出结果如图5所示。

3、CDS编码区突变映射

CDS编码区突变映射主要由workOnTransMutation、getCInDel2protein、getAmino2protein完成。映射的突变主要为CDS编码区上单碱基突变及小片段插入缺失突变。输入待映射的CDS编码区突变文件如图7所示，应至少含有基因名或转录本名(示例第一例)，CDS编码区突变结果(示例第二列)。

映射的过程首先需要索引该突变发生所在基因的所有转录本注释信息及相应DNA序列信息。索引基因转录本注释信息所用文件如图2所示。转录本对应的mRNA的序列文件如图3所示。该转录本注释及序列的原始文件需要从REFSEQ数据库的FTP server中获取。软件调用及参数说明如1中映射蛋白水平突变的方式相一致。

映射的具体步骤为：首先已知CDS突变发生的位置及突变的碱基变化，根据CDS突变为位置可以从转录本对应的mRNA的序列文件的索引中计算该CDS区域对应的DNA序列，然后转成把DNA序列通过碱基氨基酸关系表转成相应的氨基酸序列，把突变前后的氨基酸序列比较，定位出氨基酸发生改变的位置及氨基酸的变化，从而映射出蛋白水平的突变结果。进一步，遍历该基因结构注释信息中的CDS区域，计算出发生改变的基因组位置及碱基改变，从而映射出基因组DNA水平的突变情况。输出结果如图5所示。

实际应用举例

1、数据简介

从PubMed文章中手工挖掘常见遗传病的风险突变位点如图8所示，利用患者的全外显子测序结果和生物信息突变(单碱基突变和小片段插入缺失)挖掘工具及流程可以到的相应的突变注释结果，一般为基因DNA水平的突变。而文献研究人员常采用的突变描述方式为CDS编码区突变和蛋白水平突变结果。因此这里应用文献挖掘的结果，需要先对搜集的突变映射到基因DNA水平的突变。

2、软件运行结果

映射的结果文件包含了基因组DNA，CDS编码区(RNA)及蛋白质水平的突变对应关系，如图9所示。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种DNA及蛋白质水平突变分析系统，其特征在于，包括：

所述映射模块连接所述读取及索引判断模块。

2.根据权利要求1所述的一种DNA及蛋白质水平突变分析系统，其特征在于，所述映射模块包括蛋白质水平突变映射单元、基因组DNA水平突变映射单元、CDS编码区突变映射单元；分别控制蛋白质水平突变映射流程、基因组DNA水平突变映射流程、CDS编码区突变映射流程。

3.根据权利要求2所述的一种DNA及蛋白质水平突变分析系统，其特征在于，所述蛋白质水平突变映射单元包括getProtein2amino子单元，用于将蛋白水平的单氨基酸改变映射到CDS编码区碱基的改变；还包括getPInDel2protein子单元，用于将蛋白质水平突变中插入缺失突变，映射到CDS编码区碱基改变模式；还包括getPos子单元，用于将CDS编码区突变中的单碱基突变映射出在基因组DNA序列上的位置。

4.根据权利要求2所述的一种DNA及蛋白质水平突变分析系统，其特征在于，所述基因组DNA水平突变映射单元包括getGenome2protein子单元、getGInDel2protein子单元、fasta2amino子单元；所述getGenome2protein子单元用于将基因组突变中的单碱基突变映射到CDS编码区和蛋白水平突变结果；所述getGInDel2protein子单元用于将基因组水平突变中的插入缺失突变映射到CDS编码区突变和蛋白水平变异结果；所述fasta2amino子单元用于将DNA序列转换成氨基酸序列。

5.根据权利要求2所述的一种DNA及蛋白质水平突变分析系统，其特征在于，所述CDS编码区突变映射单元包括getCInDel2protein子单元、getAmino2protein子单元、aminos2fasta子单元，所述getCInDel2protein子单元用于将CDS编码区突变中的插入缺失突变映射到蛋白水平突变和基因组水平突变结果；所述getAmino2protein子单元用于将CDS编码区中突变的单碱基突变转换成蛋白质水平的突变结果；所述aminos2fasta子单元用于将氨基酸序列转换成DNA碱基序列。