CN107122624B

CN107122624B - 人类基因突变的hgvs名称生成及分析系统的实现方法

Info

Publication number: CN107122624B
Application number: CN201710298386.2A
Authority: CN
Inventors: 杨永臣
Original assignee: Individual
Current assignee: Jiangyin Jianhui Biotechnology Co ltd
Priority date: 2017-05-01
Filing date: 2017-05-01
Publication date: 2021-11-12
Anticipated expiration: 2037-05-01
Also published as: CN107122624A

Abstract

本发明公开了一种基因突变的HGVS名称自动生成模块的算法。其要素有三，一是先以“gene(R/M)S z/c”格式描述变异位点，其含义为：基因名称，（变异位点参考序列/变异位点突变序列）变异位点之后一段序列，变异位点是纯合型还是杂合型，三部分以空格隔离，以此描述测序所发现的变异；二是将该格式输入突变分析系统，通过HGVS计算程序调用基因信息数据库、基因遗传方式数据库、HGMD数据库等进行计算；三是获得基因变异的HGVS名称和基于HGVS名称的相关信息。经测试，基于本算法的人类基因突变分析系统可对6000多个人类基因的突变进行分析，满足一般的遗传病、癌症等的基因突变分析的需要。

Description

人类基因突变的HGVS名称生成及分析系统的实现方法

技术领域

本发明属于生物信息领域，涉及基因测序后对测序数据的分析，是一种计算基因突变的HGVS名称的技术。

背景技术

基因变异是在1949年被人类首次发现的。根据变异是否致病，区分了突变(mutation)和多态性位点(polymorphism)。突变一般是指特定DNA序列与参考序列相比发生的致病性的改变。多态性位点即SNP，指非致病的序列改变，一般将人群中发生频率大于1%的序列改变界定为SNP。随着基因变异的累积，人们逐渐认识到确认变异的致病性并不是一件容易的事。Condit、Marshall 和Cotton [1-3]等研究单词“mutation”和“polymorphism”的起源、演化和含义。由于“mutation”和“polymorphism”并没有严格而清晰的界限，或者其致病性未能立刻获得确认，且在人群中发生的频率不易精确获取，人类基因组变异协会建议使用更加中性的词来表示序列的改变，如序列变异(sequence variantor variation )、改变(alteration )和等位基因变异(allelic variant)等。鉴于此，在下文中，使用突变或基因变异，具有相同的含义，都不代表致病与否或致病性的程度。

二十世纪60年代由Victor McKusick等人收集人类基因变异数据[4]，并创立在线人类孟德尔遗传(Online Mendelian Inheritance in Man, OMIM)。以后出现了人类基因突变数据库(Human Gene Mutation Database, HGMD)；特定基因的变异数据库，包括PAHdb(PAH基因数据库)、PDGene(帕金森疾病相关基因)和DGV (结构变异数据库)等。在初始阶段，这些数据库缺乏对基因变异命名的统一格式，造成了提交和使用的混乱[5]。1994年Richard Cotton召集遗传学家成立了人类基因组变异协会(Human Geome VariationSociety, HGVS)，提出关于基因变异命名方面的建议，逐渐成为遗传学领域的国际准则。

根据HGVS的规则，变异的定位与参考序列相关。不同类型的参考序列有不同的标记，“c.”用于冠名编码DNA序列，“g.”用于冠名基因组序列，"p."用于冠名蛋白质序列，“m.”用于冠名线粒体序列，“r.”则用于冠名RNA序列。人类基因组变异协会推荐使用编码DNA序列作为标准参考序列，以编码序列的起始密码子ATG的A作为第一个碱基，依次排列。位于编码区上游的5’端序列以-1、-2、-3等表示，位于编码区下游的3’端序列以*1、*2、*3等表示。内含子从每个内含子序列的中间划分，前半部分以前面外显子最后一个减基位置和“+”表示，如c.79+lG>T；后半部分以后面外显子的第一个碱基位置和“-”表示，如c.80-2A>C。">"表示替换，数字表示碱基改变的范围，“del”、 “dup”、 “ins”和“inv”分别表示缺失、重复、插入、倒位。更详细的描述见http:// www.hgvs.org/mutnomen/。

HGVS的命名规则也是2015年美国医学遗传学与基因组学学会(ACMG)和美国分子病理学会(AMP)所发布的基因变异解读标准和指南中所推荐的命名规则[6]。该指南并指定了检测基因变异命名是否符合HGVS规则的在线工具(https://mutalyzer.nl)。

对于测序所得序列，经过与参考序列比对，可在序列上发现不同于参考序列的改变，即为基因变异。从变异位点给出HGVS名称，根据HGVS名称从数据库中检索变异，给出相关信息，这是基因测序分析人员的主要任务。根据参考序列及人工获取HGVS命名是可行的，但比较费时且容易出错；而使用https://mutalyzer.nl网站的“Description Extractor”工具进行HGVS名称自动生成，又存在不能区分内含子和外显子的重大缺陷。因此我们开发了人类基因突变分析系统，用于计算基因变异的HGVS名称，并有据此调出HGMD数据库结果的能力，为基因检测的科研工作者和基因检测临床分析人员提供更多选择。

参考文献：

［１］Ｃｏｎｄｉｔ，ＣＭ．，Ｐ．Ｊ．Ａｃｈｔｅｒ，Ｉ．Ｌａｕｅｒ，ａｎｄＥ．Ｓｅｆｃｏｖｉｃ，Ｔｈｅｃｈａｎｇｉｎｇｍｅａｎｉｎｇｓｏｆ＂ｍｕｔａｔｉｏｎ：＂Ａｃｏｎｔｅｘｔｕａｌｉｚｅｄｓｔｕｄｙｏｆｐｕｂｌｉｃｄｉｓｃｏｕｒｓｅ．ＨｕｍＭｕｔａｔ，２００２．１９（１）：６９－７５．

［２］Ｍａｒｓｈａｌｌ，Ｊ．Ｈ．，Ｏｎｔｈｅｃｈａｎｇｉｎｇｍｅａｎｉｎｇｓｏｆ＂ｍｕｔａｔｉｏｎ＂．ＨｕｍＭｕｔａｔ，２００２．１９（１）：７６－７８．

［３］Ｃｏｔｔｏｎ，Ｒ．Ｇ．，Ｃｏｍｍｕｎｉｃａｔｉｎｇ＂ｍｕｔａｔｉｏｎ：＂Ｍｏｄｅｍｍｅａｎｉｎｇｓａｎｄｃｏｎｎｏｔａｔｉｏｎｓ．ＨｕｍＭｕｔａｔ，２００２．１９（１）：２－３．

［４］Ｒｉｎｇ，Ｈ．Ｚ．，Ｐ．Ｙ．Ｋｗｏｋ，ａｎｄＲ．Ｇ．Ｃｏｔｔｏｎ，ＨｕｍａｎＶａｒｉｏｍｅＰｒｏｊｅｃｔ：ａｎｉｎｔｅｒｎａｔｉｏｎａｌｃｏｌｌａｂｏｒａｔｉｏｎｔｏｃａｔａｌｏｇｕｅｈｕｍａｎｇｅｎｅｔｉｃｖａｒｉａｔｉｏｎ．Ｐｈａｒｍａｃｏｇｅｎｏｍｉｃｓ，２００６．７（７）：９６９－９７２．

［５］丛培宽，全基因组外显子测序发现Ｘ连锁显性遗传性高度近视疾病的致病基因及人类基因变异数据库ＬＯＶＤ的创建，中国知网，硕博论文，２０１４

［６］ＲｉｃｈａｒｄｓＳ，ＡｚｉｚＮ，ＢａｌｅＳ，ＢｉｃｋＤ，ＤａｓＳ，Ｇａｓｔｉｅｒ－ＦｏｓｔｅｒＪ，ＧｒｏｄｙＷＷ，ＨｅｇｄｅＭ，ＬｙｏｎＥ，ＳｐｅｃｔｏｒＥ１０，ＶｏｅｌｋｅｒｄｉｎｇＫ，ＲｅｈｍＨＬ；ＡＣＭＧＬａｂｏｒａｔｏｒｙＱｕａｌｉｔｙＡｓｓｕｒａｎｃｅＣｏｍｍｉｔｔｅｅ．Ｓｔａｎｄａｒｄｓａｎｄｇｕｉｄｅｌｉｎｅｓｆｏｒｔｈｅｉｎｔｅｒｐｒｅｔａｔｉｏｎｏｆｓｅｑｕｅｎｃｅｖａｒｉａｎｔｓ：ａｊｏｉｎｔｃｏｎｓｅｎｓｕｓｒｅｃｏｍｍｅｎｄａｔｉｏｎｏｆｔｈｅＡｍｅｒｉｃａｎＣｏｌｌｅｇｅｏｆＭｅｄｉｃａｌＧｅｎｅｔｉｃｓａｎｄＧｅｎｏｍｉｃｓａｎｄｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＭｏｌｅｃｕｌａｒＰａｔｈｏｌｏｇｙ．ＧｅｎｅｔＭｅｄ．２０１５Ｍａｙ；１７（５）：４０５－２４．ｄｏｉ：１０．１０３８／ｇｉｍ．２０１５．３０．Ｅｐｕｂ２０１５Ｍａｒ５．

发明内容

为了诊断遗传病、癌症等，需要对目的基因测序，将测序所得序列与参考序列比对后，对于所发现的变异，用户希望尽快地和尽可能准确地获取该变异的HGVS名称、致病性信息、遗传方式信息等数据。因此我们设计了人类基因突变分析系统。

人类基因变异分析系统典型的实现方案是由数据输入界面、基因信息（含序列）数据库、基因遗传方式数据库、HGMD数据库、HGVS计算程序及数据输出界面构成。在非典型的实现方案中，对这些数据库的增删，顺序调整，数据来源调整等，不构成对本发明内容的根本改变。

在数据输入界面，系统规定的典型数据格式是：基因名称，（变异位点参考序列/变异位点突变序列）变异位点之后一段序列，变异位点是纯合型还是杂合型（用“c”代表纯合型，用“z”代表杂合型）。这些信息可简化为：“gene (R/M)S z/c”。在此格式中，gene是不可缺失的，且应使用标准的基因名称。R为变异位点参考序列，M为变异位点突变序列，二者以斜杠隔开且必须同时存在。R和M皆可以代表一个碱基，也可以代表多个碱基，R和M缺失时可以用“-”代替。例如碱基缺失时，M为“-”，碱基插入时，R为“-”。z/c代表碱基杂合型或纯合型，通过峰图即可简单判断，只允许输入单个字母，也可以不输入。典型的数据输入格式之外的其它的非典型数据输入格式，包括对数据项目的增删、顺序调整、格式调整等，不构成对本发明内容的根本改变。

对于所输入的信息，人类基因突变分析系统中的HGVS运算程序根据括号中的斜杠两边的碱基数量、是否存在短杠（“-”），以及括号后提供的序列在基因组序列中的情况来判断突变型，根据括号后序列在基因组序列中的位置及突变类型来判断突变在CDS坐标上的位置，从而计算出HGVS名称。在我们的典型设计方案中，本系统所能分析的基因突变类型包括：碱基置换（Substitutions）、缺失（Deletion）、重复（Duplication）、插入（Insertion）、倒位（Inversion）、缺失/插入（Indels）。在非典型的实现方案中，对以上突变类型数目的增删，不构成对本发明内容的根本改变。

在算出HGVS名称后，HGVS运算程序可据此从数据库中调出该突变的相关信息。在典型的实现方案中，所输出的信息包括：突变基因，转录本，核苷酸变化，氨基酸变化，纯合/杂合，遗传方式，HGMD致病性， HGMD疾病，文献等，并将这些信息输出到系统的输出界面。在非典型的实现方案中，对这些数据项目的增删、顺序调整、格式调整等，不构成对本发明内容的根本改变。

附图说明

图1，人类基因HGVS名称生成及分析系统突变分析系统的系统构架图。分别由数据输入界面、基因信息（含序列）数据库、基因遗传方式数据库、HGMD数据库、HGVS计算程序及数据输出界面构成。

图2，本发明的HGVS运算程序的流程图。信息按照一定的格式从左上角输入后，经过一系列的判断，计算，数据库调取，在右上角的信息输出处得到该变异的一系列信息。

具体实施方式

以下具体实施的过程，采用的是以上“发明内容”中的典型方案。

应该理解，具体实施过程采用了典型方案的思路，不表示典型方案是达成本发明目的的最佳方案。应该理解，本发明即便本发明的典型方案也并不限定于本文所描述的特定的方法、设计和流程。本文使用的术语仅为描述特定实施方式，并不意在限制本发明的范围。

此外，如本领域技术人员所理解的，可以采用各种不同的方式达成类似目的。例如改变编程使用的计算机语言、在不同的计算机系统中编程、在不同的机器上使用等。采用不同方式达到同样目的，不构成对本发明内容的改变。

尽管参照具体实施方式公开了本发明，但可能对所述实施方式作出各种修饰、替换和改变而不脱离随附说明书和权利要求书中描述的本发明的完整范围。基于详述、附图、实施例和权利要求，可以明白所公开的主题的其他特征、目的和优势。可利用与本文所述那些基本上类似或等同的方法来实施或测试本发明公开的主题。

人类基因突变分析系统已用多种计算机语言，在多种计算机系统中实现。其中在EXCEL环境中，通过编程实现对编码区分析的算法已经申请软件著作权。软件名称为：“人类基因编码区突变的功能分析软件”，登记号为：2015SR028115，授权日期为2015年2月9日。

1．人类基因突变分析系统的设计目的

人类基因突变分析系统是为一线的遗传病基因检测人员，特别是基于Sanger测序进行基因检测的实验室人员设计和使用的。系统设计的首要原则是用户体验的便利性，计算结果的准确性和导出数据的权威性。在进行Sanger测序时，用户通常是针对明确的基因设计引物，扩增后进行测序，并将测序文件通过比对软件与该基因的标准序列进行比对。在比对的过程中，根据测序峰图的情况，用户可甄别哪些部位是测序过程中产生的系统性错误，哪些部位是真实的变异位点。对于所发现的区别于参考序列的真实的变异位点，用户已经知道的信息包括：基因名称，变异位点参考序列，变异位点突变序列，变异位点上游和下游序列，以及通过变异位置是单峰还是套峰判断变异为杂合型还是纯合型等。其中在判断纯合型或杂合型时，由于男性X染色体上基因，显示为单峰的变异与常染色体基因的纯合型变异表现相同但归为半合型，用户无需查阅基因定位于常染色体或性染色体，只将所见的纯合型或杂合型输入，系统可自动判断，并给出是否为半合型的提示。在系统上，用户可以简单地输入：基因名称，（变异位点原始序列/变异位点突变序列）变异位点之后一段序列，变异位点是纯合型还是杂合型（用“c”代表纯合型，用“z”代表杂合型），中间以空格隔离。例如输入： ugt1a1 (G/A)GAGCATTTTACACCTTGAA c，希望计算后可得到：

突变基因：UGT1A1

转录本：NM_000463

核苷酸变化：c.211G>A

氨基酸变化：p.Gly71Arg

纯合/杂合：纯合型

遗传方式：AR

HGMD致病性：DFP

HGMD疾病：Hyperbilirubinaemia, association with

文献：Teng,CLIN GENET,2007

希望得到的信息中，突变基因是用户输入的基因名称，转录本是用于计算HGVS名称所用的基因转录本，核苷酸变化是计算得到的基于编码序列的HGVS名称，氨基酸变化是计算得到的基于蛋白质序列的HGVS名称，纯合/杂合是用户输入的信息并经过简单判断，遗传方式是这个基因或疾病的遗传方式，HGMD致病性和HGMD疾病是判断该突变是否致病，导致什么病的信息，文献则是与这个判断相关的文献。一般来说，这些信息回答了用户所关心的关于突变的最核心问题：突变的标准HGVS名称是什么，它是致病的吗，如果致病，致病强度如何，可导致什么疾病，有什么文献支持这个判断等。

HGVS网站给出了多种突变类型。其中基因微小突变包括：碱基置换（Substitutions）；缺失（Deletion）；重复（Duplication）；插入（Insertion）；倒位（Inversion）；缺失/插入（Indels）等。本系统可对编码DNA水平的这些变异方式进行分析，发生变异的位置包括编码蛋白质的外显子区域，不编码蛋白质的外显子区域，内含子区域，5’-UTR区，3’-UTR区等，并给出标准HGVS名称。HGVS网站还包括其它类型的变异如序列重复数量变异，易位，嵌合体，未知序列长片段变异等复杂情况，目前本系统尚不能处理。

总而言之，本系统的目的，是在用户进行序列比对遇到变异时，只要发生变异的基因名称是已知的，变异的类型不特殊，变异的位置位于基因序列之内，都可以以最简单方法的方式输入系统，系统反馈用户关于这个突变的最主要的信息，实现基因突变分析的智能化、自动化。

2 系统架构

为了实现以上目的，人类基因变异分析系统分别由数据输入界面、基因信息（含序列）数据库、基因遗传方式数据库、HGMD数据库、HGVS计算程序及数据输出界面构成。该系统的框架结构图见说明书附图１。在数据输入界面，用户需输入：基因名称，（变异位点参考序列/变异位点突变序列）变异位点之后一段序列，变异位点是纯合型还是杂合型（用“c”代表纯合型，用“z”代表杂合型）。数据输入界面支持输入多行数据的分析。

基因信息数据库所含基因列表来自HGMD数据库2015年版本包含的5969个基因。基因信息包括基因名称，来自Ensembl数据库的基因组序列，基因在HGMD数据库所用的转录本名称及序列等。

基因的遗传方式相对复杂一些。同一基因在不同的遗传病中可以有不同的遗传方式，同一基因同一遗传病在不同的个体中也可以有不同的遗传方式。对人类的数万个基因而言，明确其遗传方式的基因约有4000个。我们用以标注基因遗传方式的信息来自OMIM数据库。

HGMD数据库见http://www.hgmd.cf.ac.uk/ac/index.php。HGMD 分为公共版（public version）和专业版（professional version）。截止到2017年4月5日，公共版和专业版分别收录了5528和7791个基因，分别包含141635和197952个突变。所收录的突变类型包括外显子错义突变，启动子区突变，剪接位点突变，插入突变，缺失突变及复杂性重组等。

HGVS计算程序可将输入的信息转化为HGVS名称。由于HGMD数据库基本上遵循了HGVS的突变命名规则，因此HGVS计算程序可在生成的HGVS名称后，通过该名称从HGMD数据库中调取与该突变有关的信息。这些信息包括：突变的致病性，突变导致的疾病，有关该突变的参考文献等。

HGVS计算程序计算后，将计算结果输出到输出界面，包括：突变基因，转录本，核苷酸变化，氨基酸变化，纯合/杂合，遗传方式，HGMD致病性， HGMD疾病，文献等。

3 HGVS名称运算流程

在数据输入环节，如前所述，用户应输入：基因名称，（变异位点参考序列/变异位点突变序列）变异位点之后一段序列，纯合型/杂合型。这些信息可简化为：”gene(R/M)S z/c”。在此格式中，gene是不可缺失的，且应使用标准的基因名称。R为变异位点参考序列，M为变异位点突变序列，R和M皆可以代表一个碱基，也可以代表多个碱基，R和M在碱基缺失时可以用“-”代替。例如碱基缺失时，M为“-”，碱基插入时，R为“-”。z/c代表碱基杂合型或纯合型，通过峰图即可简单判断，应输入单个字母，也可以不输入。

对于所输入的信息，HGVS运算程序根据括号中的斜杠两边的碱基数量、是否存在短杠（“-”），以及括号后提供的序列在基因组序列中的情况来判断突变型，根据括号后序列在基因组序列中的位置及突变类型来判断突变在CDS坐标上的位置，从而计算出HGVS名称。其具体的运算流程见说明书附图2。在实际运算中，程序涉及的内容与判断要多于流程图。例如，如果输入的基因不在基因库中，应如何处理；如果输入的数据格式不对，应如何判断和处理；纯/杂合型未输入应如何应对；由于这些不是运算的重点，此处不再赘述。

4与HGMD数据的对接

通过HGVS计算程序得到某基因某变异的HGVS名称后，可从遵循了HGVS命名规则的变异数据库中检索该变异，找到后从数据库中调取与该变异有关的信息。常用的人类基因变异数据库有ClinVar，HGMD等，都基本遵循了HGVS突变命名规则。此处以HGMD为例。HGMD数据库分为公共版和专业版。在公共版，对于碱基置换型的突变，数据库提供了每个突变的登记号（Accession Number），密码子变化（Codon change），氨基酸变化（Amino acidchange），密码子位置（Codon number），基因组坐标及HGVS的命名（Genomic coordinates &HGVS nomenclature），表型（Phenotype），参考文献（Reference），评论（Comments）等信息。其中基因组坐标及HGVS的命名信息被掩盖了，密码子变化和氨基酸变化的信息进行了图片化处理，无法以文字格式拷贝。因此，使用HGMD公共版是不利于HGVS名称的计算机检索的。

HGMD的专业版数据库除了以上信息外，还包括突变的致病性分类（Variantclass）等信息。所提供的HGVS名称可拷贝。因此，通过HGVS计算测序所得HGVS名称，可对接HGMD专业版数据，获取相关信息。

5 人类基因突变HGVS命名系统的使用方法

对于从数据输入界面输入的基因突变数据，HGVS计算程序计算HGVS名称首先依赖于所输入数据的格式。如前所述，系统规定的数据输入格式为:

Gene(R/M)Sz/c

Gene 为基因的标准名称，R为突变参考序列，M为突变序列，S为突变处后面的一段序列，该序列需为NCBI上gDNA上的一段序列，不拘内含子还是外显子，也不拘5' UTR区域或3' UTR区域，但需大于10个碱基。如使用CDS序列，如所圈选序列包含不同外显子，在gDNA序列中不能检索，则无法计算。z/c代表突变为杂合型还是纯合型，可以不填。这种表示方式是比对时突变记录的最简单和最直便的格式。不同突变类型的输入格式简述如下：

1）碱基置换情况，R和M分别是单个碱基，如

ATP7B (T/C)CCCCCAGACCTTCTCTGTGCTG，表示CCCCCAGACCTTCTCTGTGCTG序列前发生了T到C的变异。T为参考序列，C为突变序列。

2）碱基缺失，缺失时M用-表示，如：

ATP7B (T/-)CCCCCAGACCTTCTCTGTGCTG

表示CCCCCAGACCTTCTCTGTGCTG前面的T缺失。

ATP7B（CC/-）CCCAGACCTTCTCTGTGCTG表示CCCAGACCTTCTCTGTGCTG前面的两个CC缺失。应该注意的是，按照HGVS的规则，当有连续相同的多个碱基缺失一个或几个时，应按缺失后面的碱基来算。所以，AGACCTTCTCTGTGCTG前面5个C缺失两个C时，应记做：

ATP7B（CC/-）AGACCTTCTCTGTGCTG，而不是（CC/-）CCCAGACCTTCTCTGTGCTG否则系统会给出错误的结果。

3）碱基插入，R用-表示，即序列中在无碱基处出现新的碱基，如

ATP7B（-/TT）AGACCTTCTCTGTGCTG

表示AGACCTTCTCTGTGCTG前面原来没有TT，突变后多了TT。

4）碱基重复，输入格式与碱基插入相同。

如插入的序列正好与前面等长的序列相同，则系统自动判断为重复。其输入格式与插入相同。例如：

ATP7B（-/A）GACCTTCTCTGTGCTG

所插入的A前面也是A，故判定为碱基重复。

5)缺失/插入，R和M其中至少一个的碱基数目要大于1，且不构成倒位。

如ATP7B（AG/TTT）ACCTTCTCTGTGCTG表示原来ACCTTCTCTGTGCTG前面的AG变为TTT

6）倒位，R和M的长度都必须大于1，且等长，且序列为反向，其格式与缺失/插入相同。

如ATP7B（AG/GA）ACCTTCTCTGTGCTG，系统自动判断GA是AG的倒位。

应该注意的是，目前HGMD数据库并未遵循HGVS关于碱基倒位的规则。HGMD将倒位视为缺失/插入。

以上数据整理如下：

ATP7B(T/C)CCCCCAGACCTTCTCTGTGCTG

ATP7B(T/-)CCCCCAGACCTTCTCTGTGCTG

ATP7B（-/TT）AGACCTTCTCTGTGCTG

ATP7B（-/A）GACCTTCTCTGTGCTG

ATP7B（AG/TTT）ACCTTCTCTGTGCTG

ATP7B（AG/GA）ACCTTCTCTGTGCTG

将这些数据输入系统，可得到以下结果。其中核苷酸变化就是编码DNA的HGVS名称：

突变基因

转录本

核苷酸变化

氨基酸变化

纯合/杂合

遗传方式

致病性

HGMD疾病

HGMD文献

ATP7B

NM_000053

c.3419T>C

p.Val1140Ala

需输入z或c

AR

DP

Wilson disease

Liu,WJG,2004

ATP7B

NM_000053

c.3419delT

无数据

需输入z或c

AR

DM

Wilson disease

Kumar,CLIN GENET,2005

ATP7B

NM_000053

c.3424_3425insTT

无数据

需输入z或c

AR

无

ATP7B

NM_000053

c.3425dupA

无数据

需输入z或c

AR

无

ATP7B

NM_000053

c.3425_3426delAGinsTTT

无数据

需输入z或c

AR

无

ATP7B

NM_000053

c.3425_3426invAG

无数据

需输入z或c

AR

无

（如在以上输入的序列后面加上空格和c或z字母，在纯和/杂合一栏将给出纯合型或杂合型的结果）。

6 与“mutalyzer”结果的比较

美国医学遗传学与基因组学学会(ACMG)所推荐的网站https://mutalyzer.nl（以下称为M系统）是从突变序列生成HGVS名称的专用工具。使用M系统生成基于CDS序列的突变的HGVS名称的方法是：打开https://mutalyzer.nl网站，点击“Description Extractor”，将参考序列输入参考序列 (Reference sequence) 框，再输入样品序列（Samplesequence），两条序列都必须是同一基因完整的CDS序列，而后点击“Extract variantdescription”，即可生成突变位点的HGVD命名格式。针对同一批的突变位点，我们用人类突变分析系统（以下称H系统）和M系统分别进行了处理，对两个系统的使用方式和所得结果进行了比较。

我们选择一个比较短的名为APOC2基因的CDS区，其序列为：

ＡＴＧＧＧＣＡＣＡＣＧＡＣＴＣＣＴＣＣＣＡＧＣＴＣＴＧＴＴＴＣＴＴＧＴＣＣＴＣＣＴＧＧＴＡＴＴＧＧＧＡＴＴＴＧＡＧＧＴＣＣＡＧＧＧＧＡＣＣＣＡＡＣＡＧＣＣＣＣＡＧＣＡＡＧＡＴＧＡＧＡＴＧＣＣＴＡＧＣＣＣＧＡＣＣＴＴＣＣＴＣＡＣＣＣＡＧＧＴＧＡＡＧＧＡＡＴＣＴＣＴＣＴＣＣＡＧＴＴＡＣＴＧＧＧＡＧＴＣＡＧＣＡＡＡＧＡＣＡＧＣＣＧＣＣＣＡＧＡＡＣＣＴＧＴＡＣＧＡＧＡＡＧＡＣＡＴＡＣＣＴＧＣＣＣＧＣＴＧＴＡＧＡＴＧＡＧＡＡＡＣＴＣＡＧＧＧＡＣＴＴＧＴＡＣＡＧＣＡＡＡＡＧＣＡＣＡＧＣＡＧＣＣＡＴＧＡＧＣＡＣＴＴＡＣＡＣＡＧＧＣＡＴＴＴＴＴＡＣＴＧＡＣＣＡＡＧＴＴＣＴＴＴＣＴＧＴＧＣＴＧＡＡＧＧＧＡＧＡＧＧＡＧＴＡＡ

以上用于举例的APOC2基因的CDS区序列，第1-55碱基属于第一外显子，第56-215碱基属于第二外显子，第216-306碱基到属于第三外显子。在使用M系统时，该序列需要始终存在于Reference sequence框中。

（1）碱基置换

将第二个位置的T改为C，然后将改变后的序列输入样品序列（Sample sequence）框中，则在M系统中，点击“Extract variant description”，生成的HGVS名称为：2T>C

在H系统中，无需输入参考序列，只要输入“APOC2（T/C）GGGCACACGAC”，即可得到：c.2T>C，两者一致，而H系统更符合HGVS的规范。这是由于M系统不区分所输入的序列是gDNA还是CDS或其它格式，需要由输入者判断，自行在其前加入g.或c. ，以分别标记序列类型，以下相同。

（2）碱基缺失

将第二个碱基删除后输入M系统，得到：2del；H系统的输入方法是：“APOC2（T/-）GGGCACACGAC”，可得到c.2delT，两者一致，而H系统显示了缺失的碱基名称，更完整。

（3）碱基插入

在第二个碱基后插入C，M系统得到：2_3insC，H系统的输入方法是：“APOC2（-/C）GGGCACACGACTC”，得：c.2_3insC，两者一致。

（4）碱基重复

第三四五位置是G，其后插入一个G，应为碱基重复。M系统得到：5dup；H系统的输入方法是：“APOC2（-/G）CACACGACTCCTC”，得：c.5dupG，两者一致，而H系统给出了重复的碱基名称，更完整。

（5）碱基倒位

将第11位到14位的GACT变为TCAG，显然是倒位，M系统得到：11_14delinsTCAG，M系统认为是插入缺失，H系统的输入方法是：“APOC2（GACT/TCAG）CCTCCCAGCTCTGTTTCT”，得：c.11_14invGACT，显然H系统符合HGVS的规则，而M系统所得结果以严格的HGVS命名规则来看是错误的。

（6）插入缺失

将第三个G变为CCC，M系统得：3delinsCCC；H系统的输入方法是：“APOC2（G/CCC）GGCACACGACTC”，得：c.3delGinsCCC，两者一直，而H系统给出了缺失的碱基名称，更完整。

（7）重复性序列（repeat sequence）

对于重复性序列，两个系统都不能以HGVS的格式处理。例如AR基因中存在两段微卫星重复序列，第一段为22个AGC重复，其标准命名应该是：c.173_175[22]，如减少一个AGC重复，名称变为c.173_175[21]。这种变化，在两个系统中都无法生成为标准的HGVS命名格式，而是当成del处理了。

两个系统的不同之处可归结为：（1）数据的输入格式不同。M系统需要输入参考序列和突变后的整个序列，而突变后的整个序列需要用户根据比对结果，在参考序列上编辑。H系统不需要输入参考序列，仅将基因名称和突变及突变后的一段序列输入即可。所输入的信息可以全部来自比对界面，而不需要另行打开基因序列的数据库。因此，从使用效果看，H系统的数据输入更为简便。（2）对内含子计算能力不同。对M系统所输入的参考序列，可以是基因组序列，也可以是CDS序列。前者计算突变时给出突变的基因组名称，应以g.开头，后者计算突变时给出突变的CDS名称，应以c.开头。但M系统不能区分所输入的序列是外显子还是内含子，对于内含子突变不能给出其突变的CDS名称。而内含子的突变，特别是位于外显子/内含子交界处附近内含子的突变，通常对转录本的剪切方式有重要影响。这属于M系统HGVS名称计算的重大缺陷。而H系统对输入的数据，不需要用户区分序列是外显子和内含子，系统可根据输入序列在基因上的位置自动区分属于内含子还是外显子，并给出相应的HGVS名称。（3）对倒位的计算能力不同。碱基倒位是一种特殊的插入缺失，在HGVS命名规则中，该突变类型归于单独的一类。然而M系统对此仍按缺失/插入处理，这是错误的，至少是没有严格遵守HGVS的规则。而H系统可以计算倒位型的突变。（4）输出格式不同。M系统对于输入的待检测序列，可以编辑一个突变，也可以编辑多个突变，经计算后给出每个突变的HGVS名称。除此之外并不能给出突变的其它信息。而H系统可以一次输入一行待测突变，也可以输入多行突变，且多行突变可分属不同的基因。所输出的数据，除了突变在DNA水平的HGVS名称外，还可以包括突变在蛋白质水平的HGVS名称，以及自动调出与该突变及该基因有关的信息。

结论是：在一般意义上，人类基因突变分析系统（H系统）要优于mutalyzer系统（M系统）。

Claims

1.一种基因突变的HGVS名称自动生成的方法：其特征在于，包括如下步骤：

步骤一，先以特定格式描述基因上所发现的变异；

步骤二，将该格式输入突变分析系统，通过HGVS计算程序调用基因信息数据库、基因遗传方式数据库、HGMD数据库进行计算；

步骤三，获得基因变异的HGVS名称和基于HGVS名称的相关信息；

所述突变分析系统还包括数据输入界面、HGVS计算程序及数据输出界面，在数据输入界面，用户需输入：“gene(R/M)S z/c”，数据输入界面支持输入多行数据的分析；gene为基因名称，R为变异位点参考序列，M为变异位点突变序列，S为变异位点之后一段序列，z代表变异位点是纯合型，c代表变异位点是杂合型，z/c应输入单个字母，也可以不输入；

所述HGVS计算程序可将输入的信息转化为HGVS名称，HGVS计算程序可在生成的HGVS名称后，通过该名称从HGMD数据库中调取与该突变有关的信息，这些信息包括：突变的致病性，突变导致的疾病，有关该突变的参考文献；

HGVS计算程序计算后，将计算结果输出到输出界面，包括：突变基因，转录本，核苷酸变化，氨基酸变化，纯合/杂合，遗传方式，HGMD致病性， HGMD疾病，文献；

HGVS名称运算流程如下：

在数据输入环节，用户应输入：“gene(R/M)S z/c”，在此格式中，gene是不可缺失的，且应使用标准的基因名称；R为变异位点参考序列，M为变异位点突变序列，R和M皆可以代表一个碱基，也可以代表多个碱基，R和M在碱基缺失时可以用“-”代替；碱基缺失时，M为“-”，碱基插入时，R为“-”，z/c代表碱基杂合型或纯合型，通过峰图即可简单判断，应输入单个字母，也可以不输入；

对于所输入的信息，HGVS运算程序根据括号中的斜杠两边的碱基数量、是否存在短杠“-”，以及括号后提供的序列在基因组序列中的情况来判断突变型，根据括号后序列在基因组序列中的位置及突变类型来判断突变在CDS坐标上的位置，从而计算出HGVS名称；

通过HGVS计算程序得到某基因某变异的HGVS名称后，可从遵循了HGVS命名规则的变异数据库中检索该变异，找到后从数据库中调取与该变异有关的信息；常用的人类基因变异数据库包括ClinVar，HGMD，都遵循了HGVS突变命名规则；此处以HGMD为例，通过HGVS计算测序所得HGVS名称，可对接HGMD专业版数据，获取相关信息；

对于从数据输入界面输入的基因突变数据，HGVS计算程序计算HGVS名称首先依赖于所输入数据的格式；系统规定的数据输入格式为:

Gene (R/M)S z/c

Gene 为基因的标准名称，R为变异位点参考序列，M为变异位点突变序列，S为变异位点之后一段序列，该序列需为NCBI上gDNA上的一段序列，不拘内含子还是外显子，也不拘5’UTR区域或3’UTR区域，但允许大于10个碱基，如果使用CDS序列，如果圈选序列包含不同外显子，在gDNA序列中不能检索，则无法计算；z/c代表突变为杂合型还是纯合型，可以不填，不同突变类型的输入格式简述如下：

1）碱基置换情况，R和M分别是单个碱基；

2）碱基缺失，缺失时M用“-”表示；

3）碱基插入，R用“-”表示，即序列中在无碱基处出现新的碱基；

4）碱基重复，输入格式与碱基插入相同；

5) 缺失/插入，R和M其中至少一个的碱基数目要大于1，且不构成倒位；

2.根据权利要求1所述的一种基因突变的HGVS名称自动生成的方法：其特征在于，所述基因的种属来源包括但不限于各种动物、各种植物、微生物、病毒及人工设计或改造的基因；

所述基因类型包括但不限于：基因组序列，转录本序列，RNA序列，线粒体DNA序列；

就基因组而言，包括但不限于基因的各个组成部分，用于编码蛋白质的外显子区域，不编码蛋白质的外显子区域，内含子区域，5’-UTR区，3’-UTR区，以及其它尚未归类的DNA序列；

就转录本序列而言，包括但不限于每个基因的已有转录本，以及仅在病人身上发现，以及仅在病理部位发现的转录本；

就基因方向而言，包括与编码RNA一致的序列，也包括与编码RNA反向互补的序列。

3.根据权利要求1所述的一种基因突变的HGVS名称自动生成的方法：其特征在于，所述变异在基因组水平，在RNA水平，在cDNA水平，突变类型包括但不限于：碱基置换Substitutions；缺失Deletion；重复Duplication；插入Insertion；倒位Inversion；缺失/插入Indels；

所述变异在蛋白质水平，根据功能影响突变类型包括：同义突变，无义突变，移码突变；

变异来源包括但不限于：体细胞突变，癌症相关基因突变，遗传，以及其它未知因素造成的变异；

用于发现变异的参考序列包括HG18, HG19, HG38, HG39各个版本的人基因组序列，包括来源于NCBI数据库、ensembl数据库，ucsc数据库各种数据库的基因序列，或其它来源的序列。

4.根据权利要求1所述的一种基因突变的HGVS名称自动生成的方法：其特征在于，所说特定格式的典型结构是：”gene(R/M)S z/c”；

在此格式中，gene指所分析的基因名称；R为变异位点原始序列，M为变异位点变异后序列，R和M皆可以代表一个碱基，也可以代表多个碱基，R和M缺失时可以用“-”代替；碱基缺失时，M为“-”，碱基插入时，R为“-”；S为突变位置之后的一段基因序列，用于锚定突变位点在基因序列上的位置，可长可短，过短时在序列中的重复次数增加，应可提示，予以解决，可基于gDNA序列，也可基于cDNA序列；z/c代表碱基杂合型或纯合型，通过峰图或比对结果即可判断，应输入单个字母z或者c，分别对应杂合型和纯合型，也可以不输入；所输入序列的字母大小写不做区分；括号、第一个斜杠、横杠、空格起到隔离和连接作用；

所述特定格式除了以上典型结构外，还包括在此基础上的变形，其变形方式包括但不限于：（1）用编号或其它符号代替基因名称，或使用不规则基因名称，或使用基因的转录本的名称；（2）颠换突变位点的参考序列与突变序列的位置，或将其它各要素位置重新组合和排列；（3）将用于锚定突变在基因上位置的S序列选在突变位点的前面，或前后都选；（4）用其它符号替换当前使用的括号、斜杠、空格、横杠、字母，或互相替换，或改变符号的数目，或少量删除部分符号；（5）在以上格式中另外添加其它符号或信息以共同输入；（6）将各要素分解以类表格方式输入；（7）在序列比对时，通过程序，将以上要素自动提取，不经展示地输入HGVS计算程序；（8）包括从（1）到（7）中所有变形方式的任何拼接、排列、组合。

5.根据权利要求1所述的一种基因突变的HGVS名称自动生成的方法：其特征在于，所述的突变分析系统的特征在于，该分析系统可用任何计算机语言编写，包括但不限于JAVA、VB、python、qb、c++、vc++、c语言；突变分析系统可运行的计算机操作系统包括但不限于：windows系列，dos，mac os系列，linux，unix、Android、iOS、Ubuntu；突变分析系统的存在方式包括但不限于：单机版、网络在线版、内置于基因分析仪上、以模块方式或其它方式存在于其它软件之中。

6.根据权利要求1所述的一种基因突变的HGVS名称自动生成的方法：其特征在于，所述的基因信息数据库包括基因名称，基因组序列，基因转录本序列，是计算基因HGVS名称的必要数据；所述的基因遗传方式数据库用于调取基因的遗传方式，该数据库不是计算基因HGVS名称的必要数据；所述的HGMD数据库用于调取基因突变致病性信息，该数据库不是计算HGVS名称的必要数据库。

7.根据权利要求1所述的一种基因突变的HGVS名称自动生成的方法：其特征在于，所述的HGVS名称的特征在于，该名称依照人类基因组变异协会HGVS所制定的规则， HGVS名称的特征还在于，包括了在HGVS名称基础上的适当变形、增删改部分符号。

8.根据权利要求1所述的一种基因突变的HGVS名称自动生成的方法：其特征在于，所述的基于HGVS名称的相关信息的特征在于，包括但不限于以下信息：突变的基因名称，参考序列所用转录本，核苷酸的HGVS名称，氨基酸的HGVS名称，纯合型或杂合型，基因或疾病的遗传方式，HGMD数据库所给的致病性， HGMD所给的相关疾病，HGMD所给文献，基因序列信息，对突变的致病性的各种软件预测，ClinVar数据库的信息，SNP数据库所给信息；系统可给出上述基于HGVS名称的相关信息的全部或部分信息，也可不给出，或给出更多信息，或以任意组合任意排列的方式给出部分信息，或在给出信息时变更所给信息的项目名称。