CN111798926A - 致病基因位点数据库及其建立方法 - Google Patents
致病基因位点数据库及其建立方法 Download PDFInfo
- Publication number
- CN111798926A CN111798926A CN202010612454.XA CN202010612454A CN111798926A CN 111798926 A CN111798926 A CN 111798926A CN 202010612454 A CN202010612454 A CN 202010612454A CN 111798926 A CN111798926 A CN 111798926A
- Authority
- CN
- China
- Prior art keywords
- site
- mutation
- pathogenic
- database
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001717 pathogenic effect Effects 0.000 title claims abstract description 104
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000035772 mutation Effects 0.000 claims abstract description 156
- 108020004705 Codon Proteins 0.000 claims abstract description 40
- 150000001413 amino acids Chemical class 0.000 claims abstract description 38
- 201000010099 disease Diseases 0.000 claims abstract description 31
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000010008 shearing Methods 0.000 claims abstract description 19
- 230000008859 change Effects 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000003776 cleavage reaction Methods 0.000 claims description 5
- 230000007017 scission Effects 0.000 claims description 5
- 238000003766 bioinformatics method Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 239000002773 nucleotide Substances 0.000 claims description 2
- 125000003729 nucleotide group Chemical group 0.000 claims description 2
- 230000007918 pathogenicity Effects 0.000 description 9
- 238000003745 diagnosis Methods 0.000 description 6
- 101150015424 dmd gene Proteins 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 102220123427 rs724159957 Human genes 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 108091092195 Intron Proteins 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 101150030803 SLC26A4 gene Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 102220068384 rs148434423 Human genes 0.000 description 2
- 102220330666 rs766462610 Human genes 0.000 description 2
- 102220123424 rs886043407 Human genes 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010000021 21-hydroxylase deficiency Diseases 0.000 description 1
- 101150110011 CYP21A2 gene Proteins 0.000 description 1
- 102220500636 Formylglycine-generating enzyme_S333A_mutation Human genes 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 208000032347 autosomal recessive nonsyndromic hearing loss 4 Diseases 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 231100000895 deafness Toxicity 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 201000011458 enlarged vestibular aqueduct Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000037434 nonsense mutation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 102200007602 rs104894853 Human genes 0.000 description 1
- 102200115374 rs121908362 Human genes 0.000 description 1
- 102200110412 rs151344469 Human genes 0.000 description 1
- 102200134646 rs35579976 Human genes 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种致病基因位点数据库及其建立方法,属于疾病基因检测技术领域。该致病基因位点数据库的建立方法包括以下步骤:获取经临床验证的致病基因位点数据信息,作为参考数据;获取所述参考数据中由于氨基酸改变致病的基因位点,并对此位点氨基酸的密码子进行扩展;获取所述参考数据中由于剪切位点改变致病的基因位点,并对此位点的其它突变形式进行扩展;对上述数据进行筛选,剔除人群突变发生频率高于预定阈值的位点,剩余高风险致病突变位点和高风险致病剪切位点,与所述参考数据组合,即组成所述致病基因位点数据库。该数据库收录了大量致病风险很高的位点记录,可以减少遗漏的可能性,大大提高了临床解读工作的准确性和效率。
Description
技术领域
本发明涉及疾病基因检测技术领域,特别是涉及一种致病基因位点数据库及其建立方法。
背景技术
基因突变分多态性和致病性,每个人的基因组上有大约400万个突变,其中绝大多数都是正常的非致病位点,即多态性位点,而致病性位点需经过复杂的流程验证,是一个长期积累的过程。
目前有很多收录致病性位点的数据库,如HGMD,ClinVar等,但这些数据库收录的都是实际发生过的突变,即有真实样本案例支持的突变,经与临床症状对照并验证后获得,即数据库中收录的多是较常见的位点。
在实践中,由于不常见的位点很难收集到足够多的样本量进行致病性的研究,因此并未收录到数据库中,但由于基因突变和疾病症状关系的多样性(同一个基因的不同突变可能导致不同的症状)和异质性(一种症状可能由多种不同的基因突变所引起),目前已经发现的致病位点占比非常低,即很多突变的意义是未知的,虽然这些单个罕见位点比较少见,但其总量较多。
而这些意义未经验证的数据对致病性基因突变检测起到了非常重要的提示作用,如果仅依赖于数据库收录的常见位点去做基因检测,会造成很多有意义的位点被忽略,这对于复合杂合致病的基因影响非常大,导致极大的加大了检测工作的难度,并降低了诊断效率。
发明内容
基于此,有必要针对上述问题,提供一种致病基因位点数据库,该数据库可将未经验证的高风险位点挖掘出来以备后用,并可通过在对检测到的突变位点分析时增加这些位点的风险权重,让分析人员更容易发现这种位点的存在,从而降低检测难度并提高诊断效率。
一种致病基因位点数据库的建立方法,包括以下步骤:
获取参考数据:获取经临床验证的致病基因位点数据信息,作为参考数据;
扩展得到突变位点数据:获取所述参考数据中由于氨基酸改变致病的基因位点,并对此位点氨基酸的密码子进行扩展,分析预设的突变产生情况,得到高风险致病突变位点数据,统计备用;
扩展得到剪切位点数据:获取所述参考数据中由于剪切位点改变致病的基因位点,并对此位点的其它突变形式进行扩展,得到高风险致病剪切位点数据,统计备用;
扩展位点筛选:对上述得到的高风险致病突变位点数据和高风险致病剪切位点数据进行筛选,剔除人群突变发生频率高于预定阈值的位点,剩余高风险致病突变位点和高风险致病剪切位点,与所述参考数据组合,即组成所述致病基因位点数据库。
本发明人在实践中发现,由于各种致病位点数据库中收录的都是真实样本中发生过且经验证过的位点,实际上有大量与此类位点有关联的位点其致病风险很高,虽这些高风险位点未经验证,但我们可以通过上述方法把这些位点挖掘出来以备后用,从而降低检测难度并提高诊断效率。
可以理解的,在扩展得到突变位点数据步骤中,考虑氨基酸改变致病的基因位点,核心是考虑单碱基置换突变位点,从而改变了氨基酸的密码子,最终改变了氨基酸,从而致病。因此,所述预设突变产生情况,即是根据氨基酸所对应的密码子,按照单碱基置换后可能存在的情况进行分类分析。如一个氨基酸对应于3个密码子,则按照排列组合的方式,最多可能有9种密码子形态,再对应至相应的氨基酸(或终止密码子),从而分析评估位点的致病风险。
在其中一个实施例中,所述参考数据来源于HGMD数据库和/或ClinVar数据库。可以理解的,参照数据来源不限,仅需是尽可能权威全面的数据库即可。
在其中一个实施例中,所述扩展得到突变位点数据步骤中,所述预设的突变产生情况包括以下三类:
I类突变为突变后密码子对应的氨基酸与参考数据一致;
II类突变为突变后密码子为终止密码子;
III类突变为突变后密码子对应的氨基酸与参考数据不一致,且非终止密码子。
可以理解的,上述III类也即是除I类和II类之外的错义突变。
在其中一个实施例中,当同时满足I类突变和II类突变时,判定为I类突变。可以理解的,如同时满足I类II类的情况,即是指原数据库中的突变就是终止突变的情况。所以当一个扩展的新突变也是终止突变时,优先判定为I类。也可以理解为,II类是特指原数据库中突变不是终止突变的情况下,扩展出了终止突变时定义的分类,此时II类的致病风险比I类要低。
在其中一个实施例中,所述扩展得到剪切位点数据步骤中,所述剪切位点扩展具体为,将参考数据中突变位点突变为与参考数据不同的核苷酸,即为Is类突变。
在其中一个实施例中,所述扩展位点筛选步骤中,所述预定阈值为5%。本发明人通过本单位大样本数据进行筛选和调整,最终发现,以5%为阈值,具有较好的效果,既能够尽量将可能存在的高风险位点示出,又能避免过多纳入无意义突变导致降低风险提示意义。
在其中一个实施例中,所述扩展位点筛选步骤中,对于无明确人群突变发生频率的位点,以及经筛选得到人群突变发生频率低于预定阈值的位点,进行如下过滤:
1)于本地样本库中检索具有该位点的样本,如样本数小于预定样本数,则保留该位点,作为高风险致病位点;如样本数大于等于预定样本数,则判断为待确认样本,进行下一步;
2)获取上述待确认样本对应的临床信息,如其中超过预定比例的样本的临床信息与该位点所处基因功能相关,则保留该位点作为高风险致病位点,如小于等于预定比例的样本的临床信息与该位点所处基因功能相关,则剔除该位点。
可以理解的,由于生物多态性的存在,如将所有与验证突变相关的突变均认为是高风险致病位点纳入数据库中,可能导致降低风险提示的意义,因此,对初步筛选出来的位点数据应进行过滤,仅保留高风险位点,从而增加本发明建立致病基因位点数据库的应用价值。
在其中一个实施例中,所述预定样本数为10,所述预定比例为1/3。本发明人通过本单位大样本数据进行筛选和调整,最终发现以上述参数建立数据库,具有较好的效果。
本发明还公开了上述的致病基因位点数据库的建立方法得到的致病基因位点数据库。
本发明还公开了一种致病基因自动分析系统,包括:
数据获取模块,用于获取待测样本的基因检测数据;
数据分析模块,用于将上述基因检测数据经生物信息学分析后,代入上述的致病基因位点数据库中进行比对,得到待测样本中I类突变、II类突变、III类突变和/或Is类突变的信息;
判定输出模块,用于将上述位点突变信息按照风险等级进行输出,所述风险等级由高至低依次为:I类突变、Is类突变、II类突变、III类突变。
与现有技术相比,本发明具有以下有益效果:
本发明的一种致病基因位点数据库的建立方法,通过对氨基酸改变的突变扩展,以及剪切位点的突变扩展,丰富致病基因位点数据,再对扩展后的位点进行剔除和筛选,最终得到既能丰富高风险致病位点,又具有较好实用价值的致病基因位点数据库。从而让分析人员更容易发现这些与与验证致病位点关联的其它致病风险的存在,从而降低检测难度并提高诊断效率。
本发明的致病基因位点数据库,收录了大量致病风险很高的位点记录,通过对基因检测位点与这些位点记录进行匹配分析,可以快速定位高风险致病位点,减少遗漏的可能性,大大提高了临床解读工作的准确性和效率。
本发明的致病基因位点数据库可用于致病基因自动分析系统中,利用自动化分析过程,将可能存在致病风险的突变位点均分析得到,降低了在生信过程中对于分析人员经验的要求,降低了检测分析难度,并提高了诊断效率。
附图说明
图1为氨基酸密码子表。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
以下实施例所用数据来源于本公司在日常送检样本中收集整理得到。
实施例1
一种致病基因位点数据库,通过以下方法建立:
一、获取参考数据。
获取经临床验证的致病基因位点数据信息,作为参考数据。
例如,可以从收录致病性位点的数据库,如HGMD,ClinVar等数据库中获取经临床验证的致病基因位点数据信息,本实施例中,以HGMD数据库为基础进行扩展。
二、扩展得到突变位点数据。
碱基突变导致的氨基酸的改变是致病位点数据库中收录的最多的一类突变类型,导致某个氨基酸改变的碱基突变往往有很多种,有些需要突变为特定氨基酸才致病,有些需要突变为终止密码子才致病,有些则只需要氨基酸发生改变就致病,但数据库中只收录了已发表过研究结果的位点。因此,本实施例中进行如下扩展:
获取所述参考数据中由于氨基酸改变致病的基因位点,并对此位点氨基酸的密码子进行扩展,分析预设的突变产生情况,根据氨基酸的改变,参见图1所示氨基酸密码子表,将一个密码子中所有碱基突变分为三类突变:
Ⅰ、突变后氨基酸改变与数据库中一致;
Ⅱ、突变后为终止密码子;
Ⅲ、突变后氨基酸改变与数据库中不一致且非终止密码子(即除前两种外的错义突变)。
当Ⅰ和Ⅱ同时满足时,优先判断为Ⅰ类突变。
通过上述过程,扩展得到高风险致病突变位点数据,统计备用。
以下以HGMD数据库中DMD基因为例进行具体的说明:
例一:
如DMD基因第268位氨基酸为Leu,密码子为TTA,数据库中仅有一条记录,即[c.804A>C;p.Leu268Phe]。经查密码子表,该密码子处可能产生9种单碱基突变,分别以下几种:
1)2种为终止突变:[c.803T>A;p.Leu268Term],[c.803T>G;p.Leu268Term];
2)5种为错义突变:[c.804A>C;p.Leu268Phe],[c.804A>T;p.Leu268Phe],[c.803T>C;p.Leu268Ser],[c.802T>A;p.Leu268Ile],[c.802T>G;p.Leu268Val];
3)有2种为同义突变:[c.804A>G;p.Leu268Leu],[c.802T>C;p.Leu268Leu];
在与HGMD数据库中致病突变位点参考数据[c.804A>C;p.Leu268Phe]进行比较后得出,[c.804A>T;p.Leu268Phe]可扩展为Ⅰ类;[c.803T>A;p.Leu268Term],[c.803T>G;p.Leu268Term]可扩展为Ⅱ类;[c.803T>C;p.Leu268Ser],[c.802T>A;p.Leu268Ile],[c.802T>G;p.Leu268Val]可扩展为Ⅲ类。
例二:
DMD基因第333位氨基酸为Ser,密码子为TCA,数据库中仅有一条记录,即[c.998C>A;p.Ser333Term]。经查氨基酸密码子表,该密码子处9种单碱基突变,分别以下几种:
1)有2种为终止突变:[c.998C>A,p.Ser333Term],[c.998C>G,p.Ser333Term];
2)有4种为错义突变:[c.998C>T,p.Ser333Leu],[c.997T>C,p.Ser333Pro],[c.997T>A,p.Ser333Thr],[c.997T>G,p.Ser333Ala];
3)有3种为同义突变:[c.999A>T,p.Ser333Ser],[c.999A>C,p.Ser333Ser],[c.999A>G,p.Ser333Ser];
在与HGMD数据库中致病突变位点参考数据[c.998C>A;p.Ser333Term]进行比较后得出,[c.998C>G,p.Ser333Term]可扩展为I类,也可扩展为II类,因Ⅰ类与Ⅱ类重叠,也就是说原数据库中的突变就是终止突变的情况,所以当一个扩展的新突变也是终止突变时,优先判定为I类。因此,[c.998C>G,p.Ser333Term]扩展为Ⅰ类;4种错义突变扩展为Ⅲ类。
三、扩展得到剪切位点数据。
内含子及外显子边缘处的一些碱基位点对内含子的剪切作用至关重要,除了通用的内含子±1和±2处的4个碱基外,某些内含子还有其他的关键剪切位点。同样,由于目前常规数据库中只收录了已发表过研究结果的位点,本实施例根据这些关键剪切位点的坐标,将数据库中未收录的其他突变形式扩展为Ⅰs类,具体如下。
获取所述参考数据中由于剪切位点改变致病的基因位点,并对此位点的其它突变形式进行扩展,得到高风险致病剪切位点数据,统计备用。
以HGMD数据库中DMD基因为例进行说明:[c.265-463A>G]是数据库中收录的一个DMD基因的剪切致病位点,把同坐标处的其他突变形式[c.265-463A>C],[c.265-463A>T],[c.265-463delA]扩展为Ⅰs类突变。
通过上述过程,扩展得到高风险致病剪切位点数据,统计备用。
四、扩展位点筛选。
对上述得到的高风险致病突变位点数据和高风险致病剪切位点数据进行筛选,剔除人群突变发生频率高于预定阈值的位点,剩余高风险致病突变位点和高风险致病剪切位点,与所述参考数据组合,即组成所述致病基因位点数据库。
具体的,对扩展位点进行人群频率的注释后,以5%为阈值可以排除掉多态性位点(以Ⅰs类和Ⅲ类为主)。
例如,CYP21A2基因内含子里有一个点突变c.293-13C>G(人群频率0.2%)影响剪切,会造成非常严重的21-羟化酶缺乏症。而c.293-13C>A是一个人群中常见的多态性位点,人群频率高达63%,c.293-13C>T则还没有人群频率的官方统计数据。
即该位置处碱基C为人类基因组参考序列碱基,G为HGMD数据库收录的致病碱基,A和T为扩展的碱基,由于A是一个人群中较常见的多态性位点,可以排除其致病性,因此可以剔除,只保留T为扩展的风险致病位点。
对于没有人群频率官方统计数据的位点,以及人群频率低于5%的位点,使用发明人汇总的本地样本库的临床信息进行筛选,方案如下:
1)在本地样本库中检索有该位点的样本,若样本数<10则保留该位点,否则进行下一步;
2)获取这些样本的临床信息,若有超过1/3样本的临床信息与该位点所处基因有关联,则保留该位点。
通过上述处理进行剔除和筛选后,剩余高风险致病突变位点和高风险致病剪切位点,与步骤一中由HGMD数据库获取的参考数据组合,即组成本实施例的一种致病基因位点数据库。
五、扩展位点的风险性分析。
终止突变的致病性需要视情况而定,不同基因以及不同外显子位置上的终止突变可以有不同的致病风险(有些基因的某些外显子上的终止突变是良性的),而错义突变致病风险的不确定性则更大。
Ⅰ类位点由于氨基酸改变与数据库中一致,其致病性是较为明确的,Ⅰs类位点为数据库中收录的剪切位点相同坐标处的碱基改变,其致病性也较为明确。Ⅱ类与Ⅲ类位点的致病性风险则依次递减。在实际应用中,可根据几类位点的风险等级来做判断。如可按照风险等级由高至低依次为:I类突变、Is类突变、II类突变、III类突变进行报告。
六、数据库收录位点对比。
将上述扩展建立的致病基因位点数据库与HGMD数据库收录突变位点数进行对比,具体如下表所示。
表1.位点数据对比
HGMD收录突变位点数 | 257,152 |
Ⅰ类位点数 | 25,717 |
Ⅰs类位点数 | 72,426 |
Ⅱ类位点数 | 35,262 |
Ⅲ类位点数 | 823,915 |
从上表可以看出,扩展的较高风险的Ⅰ、Ⅰs、Ⅱ类位点占HGMD总收录位点数的比例超过50%,较低风险的Ⅲ类位点数超过HGMD总收录位点数的3倍,极大的丰富了数据库中高风险位点。
实施例2
一种致病基因自动分析系统,包括:
数据获取模块,用于获取待测样本的基因检测数据;
数据分析模块,用于将上述基因检测数据经生物信息学分析后,代入实施例1建立得到的致病基因位点数据库中进行比对,得到待测样本中I类突变、II类突变、III类突变和/或Is类突变的信息;
判定输出模块,用于将上述位点突变信息按照风险等级进行输出,所述风险等级由高至低依次为:I类突变、Is类突变、II类突变、III类突变。
实施例3
利用实施例2的致病基因自动分析系统,对检测遗传性耳聋相关基因的样本数据进行分析。
按常规方案检测到chr7:107350577A>G的突变,该突变在HGMD原始数据库中检索到是SLC26A4基因一个风险位点[c.2168A>G,p.His723Arg]。文献报道此突变为东亚耳聋伴前庭水管扩大患者中最为常见的突变,但SLC26A4基因是隐性遗传,需要两个致病位点才能致病。
在使用实施例1中扩展HGMD数据库后得到的检索后,发现该患者还有一个chr7:107323982G>A的突变,也是高风险致病的致病基因位点,具体分析如下。
如表2所示,在HGMD原始数据库中,chr7:107323982位置处G>C和G>T均被标记为致病位点(DM标记),且G>T在不同的观点中,认为的致病方式有冲突,一种观点认为是引起氨基酸改变(后面的M标记)而致病,另一种观点则认为是引起剪切改变(后面的S标记)而致病;同时与chr7:107323982在同一密码子范围内的chr7:107323981位置处G>T也被标记为致病位点。
虽然HGMD原始数据库中并没有本案例患者的chr7:107323982G>A突变收录,但经实施例1建立得到的致病基因位点数据库分析,其中有四处扩展出了chr7:107323982G>A,其中一处为Ⅰs类,三处为Ⅲ类。
表2.致病基因位点分析情况
注:分类级别中raw为原始数据库收录的致病位点,raw_db列为对应原始数据库(HGMD)收录位点的信息。1,8,9,10号位点为HGMD原始数据库收录位点,其他为扩展位点,11,14,15,16号为本案例患者携带的位点,分别扩展自上述10,1,8,9号的位点。该基因Gly334处密码子为GGG,可根据密码子表对应出上述扩展位点的氨基酸突变类型。
上述案例说明,若只使用HGMD原始数据库,从该患者的检测结果中很容易遗漏chr7:107323982G>A突变,因为该位置G>A并不是一个常见突变,各种数据库(包括千人基因组,dbSNP,HGMD,clinvar等)都没有收录,而使用实施例1建立得到的致病基因位点数据库分析后则非常容易发现该位点,并明确其较高的致病风险,从而降低检测难度并提高诊断效率。
实施例4
利用实施例2的致病基因自动分析系统,参照实施例3的方法,对其它案例进行分析,对实施例1得到的致病基因位点数据库进行评估。结果如下
其他漏报案例举例:
1、实验号为NP15D3999样本。
将此样本参照实施例3的方法进行分析,结果如下表3和表4所示。
表3.致病基因位点扩展情况
注:该基因Thr1513处密码子为ACT,可根据密码子表对应出上述扩展位点的氨基酸突变类型。
表4.NP15D3999样本致病基因位点分析
2、实验号为NP19S2603样本。
将此样本参照实施例3的方法进行分析,结果如表5和表6所示。
表5.致病基因位点扩展情况
注:该突变位点位于内含子中,不编码氨基酸,但影响剪切,扩展为Is类突变位点。
表6.NP19S2603样本致病基因位点分析
3、实验号为TP18D664样本。
将此样本参照实施例3的方法进行分析,结果如下表7和表8所示。
表7.致病基因位点扩展情况
注:该基因Gly662处密码子为GGG,可根据密码子表对应出上述扩展位点的氨基酸突变类型。
表8.TP18D664样本致病基因位点分析
4、实验号为NP20S768样本。
将此样本参照实施例3的方法进行分析,结果如表9和表10所示。
表9.致病基因位点扩展情况
注:该基因Phe306处密码子为TTC,可根据密码子表对应出上述扩展位点的氨基酸突变类型。
表10.NP20S768样本致病基因位点分析
综上所述,常规技术中,目前对基因检测结果的解读高度依赖于现有数据库中收录的致病性位点,这些数据库是人类长达数十年研究基因数据的成果结晶。然而在实际的基因检测解读工作中,仍然有大量未被数据库收录的可疑突变位点,而迫于临床检测工作的时效性,不可能对这些可疑位点进行基础研究。
通过本发明的方法,对数据库进行扩展后,得到大量致病风险很高的位点记录,通过对基因检测位点与这些位点记录进行匹配分析,可以快速定位高风险致病位点,减少遗漏的可能性,大大提高了临床解读工作的准确性和效率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种致病基因位点数据库的建立方法,其特征在于,包括以下步骤:
获取参考数据:获取经临床验证的致病基因位点数据信息,作为参考数据;
扩展得到突变位点数据:获取所述参考数据中由于氨基酸改变致病的基因位点,并对此位点氨基酸的密码子进行扩展,分析预设的突变产生情况,得到高风险致病突变位点数据,统计备用;
扩展得到剪切位点数据:获取所述参考数据中由于剪切位点改变致病的基因位点,并对此位点的其它突变形式进行扩展,得到高风险致病剪切位点数据,统计备用;
扩展位点筛选:对上述得到的高风险致病突变位点数据和高风险致病剪切位点数据进行筛选,剔除人群突变发生频率高于预定阈值的位点,剩余高风险致病突变位点和高风险致病剪切位点,与所述参考数据组合,即组成所述致病基因位点数据库。
2.根据权利要求1所述的致病基因位点数据库的建立方法,其特征在于,所述参考数据来源于HGMD数据库和/或ClinVar数据库。
3.根据权利要求1所述的致病基因位点数据库的建立方法,其特征在于,所述扩展得到突变位点数据步骤中,所述预设的突变产生情况包括以下三类:
I类突变为突变后密码子对应的氨基酸与参考数据一致;
II类突变为突变后密码子为终止密码子;
III类突变为突变后密码子对应的氨基酸与参考数据不一致,且非终止密码子。
4.根据权利要求3所述的致病基因位点数据库的建立方法,其特征在于,当同时满足I类突变和II类突变时,判定为I类突变。
5.根据权利要求3所述的致病基因位点数据库的建立方法,其特征在于,所述扩展得到剪切位点数据步骤中,所述剪切位点扩展具体为,将参考数据中突变位点突变为与参考数据不同的核苷酸,即为Is类突变。
6.根据权利要求1所述的致病基因位点数据库的建立方法,其特征在于,所述扩展位点筛选步骤中,所述预定阈值为5%。
7.根据权利要求1所述的致病基因位点数据库的建立方法,其特征在于,所述扩展位点筛选步骤中,对于无明确人群突变发生频率的位点,以及经筛选得到人群突变发生频率低于预定阈值的位点,进行如下过滤:
1)于本地样本库中检索具有该位点的样本,如样本数小于预定样本数,则保留该位点,作为高风险致病位点;如样本数大于等于预定样本数,则判断为待确认样本,进行下一步;
2)获取上述待确认样本对应的临床信息,如其中超过预定比例的样本的临床信息与该位点所处基因功能相关,则保留该位点作为高风险致病位点,如小于等于预定比例的样本的临床信息与该位点所处基因功能相关,则剔除该位点。
8.根据权利要求7所述的致病基因位点数据库的建立方法,其特征在于,所述预定样本数为10,所述预定比例为1/3。
9.权利要求1-8任一项所述的致病基因位点数据库的建立方法得到的致病基因位点数据库。
10.一种致病基因自动分析系统,其特征在于,包括:
数据获取模块,用于获取待测样本的基因检测数据;
数据分析模块,用于将上述基因检测数据经生物信息学分析后,代入权利要求5所述的致病基因位点数据库中进行比对,得到待测样本中I类突变、II类突变、III类突变和/或Is类突变的信息;
判定输出模块,用于将上述位点突变信息按照风险等级进行输出,所述风险等级由高至低依次为:I类突变、Is类突变、II类突变、III类突变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612454.XA CN111798926B (zh) | 2020-06-30 | 2020-06-30 | 致病基因位点数据库及其建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612454.XA CN111798926B (zh) | 2020-06-30 | 2020-06-30 | 致病基因位点数据库及其建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111798926A true CN111798926A (zh) | 2020-10-20 |
CN111798926B CN111798926B (zh) | 2023-09-29 |
Family
ID=72811445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010612454.XA Active CN111798926B (zh) | 2020-06-30 | 2020-06-30 | 致病基因位点数据库及其建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111798926B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599210A (zh) * | 2020-12-16 | 2021-04-02 | 首都医科大学附属北京同仁医院 | 一种数据管理方法、装置、电子设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104955961A (zh) * | 2012-12-11 | 2015-09-30 | 塞勒密斯株式会社 | 利用密码子随机化和诱变来合成基因文库的方法 |
KR101693504B1 (ko) * | 2015-12-28 | 2017-01-17 | (주)신테카바이오 | 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템 |
CN107229841A (zh) * | 2017-05-24 | 2017-10-03 | 重庆金域医学检验所有限公司 | 一种基因变异评估方法及系统 |
CN107247890A (zh) * | 2017-06-30 | 2017-10-13 | 张巍 | 一种用于临床诊断和预测的基因数据系统 |
CN107345248A (zh) * | 2017-06-26 | 2017-11-14 | 思畅信息科技(上海)有限公司 | 基于大数据的基因与位点风险评估方法及其系统 |
CN108710782A (zh) * | 2018-05-16 | 2018-10-26 | 为朔医学数据科技(北京)有限公司 | 基因型转换方法、装置及电子设备 |
CN108920901A (zh) * | 2018-07-24 | 2018-11-30 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
CN108920898A (zh) * | 2018-07-27 | 2018-11-30 | 中国科学院水生生物研究所 | 一种快速分析真核生物蛋白质基因组学数据的方法 |
CN109243534A (zh) * | 2018-08-31 | 2019-01-18 | 郑州金域临床检验中心有限公司 | 基于ngs的突变基因的分析装置、设备及存储介质 |
CN109686439A (zh) * | 2018-12-04 | 2019-04-26 | 东莞博奥木华基因科技有限公司 | 遗传病基因检测的数据分析方法、系统及存储介质 |
CN109920481A (zh) * | 2019-01-31 | 2019-06-21 | 北京诺禾致源科技股份有限公司 | Brca1/2基因变异解读数据库及其构建方法 |
CN110379458A (zh) * | 2019-07-15 | 2019-10-25 | 中国人民解放军陆军军医大学第一附属医院 | 致病性变异位点判定方法、装置、计算机设备及存储介质 |
CN110544537A (zh) * | 2019-07-29 | 2019-12-06 | 北京荣之联科技股份有限公司 | 单基因遗传病基因分析报告的生成方法及其电子设备 |
CN111139291A (zh) * | 2020-01-14 | 2020-05-12 | 首都医科大学附属北京安贞医院 | 一种单基因遗传性疾病高通量测序分析方法 |
WO2020097660A1 (en) * | 2018-11-15 | 2020-05-22 | The University Of Sydney | Methods of identifying genetic variants |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102566931B (zh) * | 2011-12-31 | 2015-05-20 | 奇智软件(北京)有限公司 | 一种悬浮窗的显示方法及装置 |
CN105045468A (zh) * | 2015-07-23 | 2015-11-11 | 深圳市万普拉斯科技有限公司 | 移动终端中悬浮通知的处理方法及装置 |
CN105930043A (zh) * | 2016-04-15 | 2016-09-07 | 苏州佳世达电通有限公司 | 一种消息显示方法及电子设备 |
CN109725947A (zh) * | 2017-10-30 | 2019-05-07 | 华为技术有限公司 | 一种未读消息的处理方法及终端 |
CN109766037A (zh) * | 2018-12-27 | 2019-05-17 | 维沃移动通信有限公司 | 提示方法及终端设备 |
-
2020
- 2020-06-30 CN CN202010612454.XA patent/CN111798926B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104955961A (zh) * | 2012-12-11 | 2015-09-30 | 塞勒密斯株式会社 | 利用密码子随机化和诱变来合成基因文库的方法 |
KR101693504B1 (ko) * | 2015-12-28 | 2017-01-17 | (주)신테카바이오 | 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템 |
CN107229841A (zh) * | 2017-05-24 | 2017-10-03 | 重庆金域医学检验所有限公司 | 一种基因变异评估方法及系统 |
CN107345248A (zh) * | 2017-06-26 | 2017-11-14 | 思畅信息科技(上海)有限公司 | 基于大数据的基因与位点风险评估方法及其系统 |
CN107247890A (zh) * | 2017-06-30 | 2017-10-13 | 张巍 | 一种用于临床诊断和预测的基因数据系统 |
CN108710782A (zh) * | 2018-05-16 | 2018-10-26 | 为朔医学数据科技(北京)有限公司 | 基因型转换方法、装置及电子设备 |
CN108920901A (zh) * | 2018-07-24 | 2018-11-30 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
CN108920898A (zh) * | 2018-07-27 | 2018-11-30 | 中国科学院水生生物研究所 | 一种快速分析真核生物蛋白质基因组学数据的方法 |
CN109243534A (zh) * | 2018-08-31 | 2019-01-18 | 郑州金域临床检验中心有限公司 | 基于ngs的突变基因的分析装置、设备及存储介质 |
WO2020097660A1 (en) * | 2018-11-15 | 2020-05-22 | The University Of Sydney | Methods of identifying genetic variants |
CN109686439A (zh) * | 2018-12-04 | 2019-04-26 | 东莞博奥木华基因科技有限公司 | 遗传病基因检测的数据分析方法、系统及存储介质 |
CN109920481A (zh) * | 2019-01-31 | 2019-06-21 | 北京诺禾致源科技股份有限公司 | Brca1/2基因变异解读数据库及其构建方法 |
CN110379458A (zh) * | 2019-07-15 | 2019-10-25 | 中国人民解放军陆军军医大学第一附属医院 | 致病性变异位点判定方法、装置、计算机设备及存储介质 |
CN110544537A (zh) * | 2019-07-29 | 2019-12-06 | 北京荣之联科技股份有限公司 | 单基因遗传病基因分析报告的生成方法及其电子设备 |
CN111139291A (zh) * | 2020-01-14 | 2020-05-12 | 首都医科大学附属北京安贞医院 | 一种单基因遗传性疾病高通量测序分析方法 |
Non-Patent Citations (5)
Title |
---|
HAN-KUI LIU 等: "A phenotype-specific framework for identifying the eye abnormalities causative nonsynonymous-variants", 《BIORXIV PREPRINT》, pages 1 - 20 * |
TINGTING ZHANG 等: "MPD: a pathogen genome and metagenome database", 《DATABASE》, vol. 100, no. 39, pages 1 - 16 * |
姚瑶: "人类基因组上有害同义突变预测", 《中国优秀硕士学位论文全文数据库 基础科学辑》, no. 2018, pages 006 - 41 * |
孙永山: "基于序列模式挖掘识别基因剪接位点的硏究", 《中国优秀硕士学位论文 基础科学辑》, no. 2016, pages 006 - 113 * |
王悠 等: "3 个 Stargardt 家系 ABCA4 基因致病突变位点的筛查及验证", 《郑州大学学报( 医学版)》, vol. 53, no. 2, pages 217 - 221 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599210A (zh) * | 2020-12-16 | 2021-04-02 | 首都医科大学附属北京同仁医院 | 一种数据管理方法、装置、电子设备及存储介质 |
CN112599210B (zh) * | 2020-12-16 | 2022-04-12 | 首都医科大学附属北京同仁医院 | 一种数据管理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111798926B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110029157B (zh) | 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法 | |
CN103667438B (zh) | 一种筛查HRDs致病突变的方法及涉及的基因芯片杂交探针设计方法 | |
CN110211630B (zh) | 致病性单亲二倍体的筛查装置及存储介质和处理器 | |
CN104462869A (zh) | 检测体细胞单核苷酸突变的方法和装置 | |
CN104794371B (zh) | 检测逆转座子插入多态性的方法和装置 | |
Lashermes et al. | Genome rearrangements derived from homoeologous recombination following allopolyploidy speciation in coffee | |
CN109346130A (zh) | 一种直接从全基因组重测序数据中得到微单体型及其分型的方法 | |
KR20200065000A (ko) | 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법 | |
CN111139291A (zh) | 一种单基因遗传性疾病高通量测序分析方法 | |
CN110189796A (zh) | 一种绵羊全基因组重测序分析方法 | |
CN110093417B (zh) | 一种检测肿瘤单细胞体细胞突变的方法 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN111091869A (zh) | 以snp为遗传标记物的亲缘关系鉴定方法 | |
CN111292803B (zh) | 基因组断裂点识别方法及应用 | |
CN111223525A (zh) | 一种肿瘤外显子测序数据分析方法 | |
CN114921536A (zh) | 一种检测单亲二倍体和杂合性缺失的方法、装置、存储介质和设备 | |
CN111798926A (zh) | 致病基因位点数据库及其建立方法 | |
CN109524060B (zh) | 一种遗传病风险提示的基因测序数据处理系统与处理方法 | |
CN111826429B (zh) | 一种基于简化基因组测序和snp次等位基因频率的非杂交后代鉴定方法 | |
CN111128308B (zh) | 一种神经精神疾病新发突变信息知识平台 | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
KR102472050B1 (ko) | 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법 | |
KR102405758B1 (ko) | 집단과 질병군, 품종 등의 혼합체 또는 잡종의 특이적 표준게놈 데이터 생성과 유전적 집단 구성 판별 시스템 및 방법 | |
US20230282307A1 (en) | Method for detecting uniparental disomy based upon ngs-trio, and use thereof | |
CN114566213A (zh) | 家系高通量测序数据的单亲二倍体分析方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No. 10, Helix 3 Road, International Biological Island, Huangpu District, Guangzhou City, Guangdong Province, 510320 Applicant after: GUANGZHOU KINGMED CENTER FOR CLINICAL LABORATORY Applicant after: GUANGZHOU KINGMED DIAGNOSTICS GROUP Co.,Ltd. Address before: 510335 3rd floor, 2429 Xingang East Road, Haizhu District, Guangzhou City, Guangdong Province Applicant before: GUANGZHOU KINGMED CENTER FOR CLINICAL LABORATORY Applicant before: GUANGZHOU KINGMED DIAGNOSTICS GROUP Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |