CN112908411B - 一种线粒体变异位点数据库及其建立方法和应用 - Google Patents
一种线粒体变异位点数据库及其建立方法和应用 Download PDFInfo
- Publication number
- CN112908411B CN112908411B CN202110037972.8A CN202110037972A CN112908411B CN 112908411 B CN112908411 B CN 112908411B CN 202110037972 A CN202110037972 A CN 202110037972A CN 112908411 B CN112908411 B CN 112908411B
- Authority
- CN
- China
- Prior art keywords
- mitochondrial
- mutation
- variation
- site
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002438 mitochondrial effect Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000035772 mutation Effects 0.000 claims abstract description 89
- 108020005196 Mitochondrial DNA Proteins 0.000 claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000012217 deletion Methods 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 238000003780 insertion Methods 0.000 claims description 12
- 230000037431 insertion Effects 0.000 claims description 12
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims description 6
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims 1
- 201000010099 disease Diseases 0.000 abstract description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 9
- 210000003470 mitochondria Anatomy 0.000 description 16
- 238000012163 sequencing technique Methods 0.000 description 14
- 238000012216 screening Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 206010058799 Mitochondrial encephalomyopathy Diseases 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 208000012268 mitochondrial disease Diseases 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000032087 Hereditary Leber Optic Atrophy Diseases 0.000 description 2
- 201000000639 Leber hereditary optic neuropathy Diseases 0.000 description 2
- 208000006136 Leigh Disease Diseases 0.000 description 2
- 208000017507 Leigh syndrome Diseases 0.000 description 2
- 101150077241 MT-ND1 gene Proteins 0.000 description 2
- 101150026369 MT-ND6 gene Proteins 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 210000003463 organelle Anatomy 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000002407 ATP formation Effects 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 208000014094 Dystonic disease Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 208000035177 MELAS Diseases 0.000 description 1
- 102100038625 NADH-ubiquinone oxidoreductase chain 1 Human genes 0.000 description 1
- 101710106575 NADH-ubiquinone oxidoreductase chain 1 Proteins 0.000 description 1
- 102100028386 NADH-ubiquinone oxidoreductase chain 6 Human genes 0.000 description 1
- 101710106566 NADH-ubiquinone oxidoreductase chain 6 Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 208000010118 dystonia Diseases 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000010627 oxidative phosphorylation Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种线粒体变异位点数据库及其建立方法和应用,涉及生物信息技术领域。本发明的数据库采用以下方法建立得到:获取线粒体DNA序列数据;将上述线粒体DNA序列与线粒体参考基因组进行比对,得到比对结果,根据预设条件抓取线粒体变异位点信息;对每个线粒体变异位点信息进行同异质性分析,将异质性比例为0.01‑0.98的变异位点定义为异质性变异,否则定义为同质性变异;整合变异位点信息,汇总得到线粒体变异位点数据库。本发明的数据库,获得的数据质量统一、可靠,包括每个变异位点的异质性分数,对研究mtDNA突变和疾病的联系具有重要意义。
Description
技术领域
本发明涉及生物信息技术领域,特别是涉及一种线粒体变异位点数据库及其建立方法和应用。
背景技术
线粒体是真核细胞内关键的细胞器,线粒体通过氧化磷酸化或其它功能在细胞ATP产生中发挥重要作用。线粒体中包含独立的基因组,即线粒体DNA(mtDNA)。mtDNA的突变可以导致许多人类疾病,例如:A3273G突变(即线粒体基因组第3273号碱基由A变成了G)可导致MELAS等多种疾病。大约每5000人中有1人检出线粒体疾病。
mtDNA在单一细胞中的拷贝数量有几百份。同质性指的是细胞或个体中mtDNA的拷贝都是相同的;而异质性则指的是细胞或个体中包含有其他类型的mtDNA,例如包含突变的mtDNA。异质性比例(heteroplasmic fraction)是指mtDNA的突变比例,其数值可以在0-100%之间变化。大多数mtDNA突变仅在异质性比例超过特定阈值时才引起疾病症状,在此阈值以下,个体无症状,主要是因为有足够的功能正常的线粒体来维持正常代谢。异质性比例是mtDNA突变的重要特征,具有极大的研究意义。
因此,开发制作人群中的线粒体变异位点数据库具有很大的价值,可以使研究者了解所测得的变异是否为新发突变,并且看到已有的突变在人群中的分布情况及相应的异质性比例。然而,相比于常染色体变异位点种类繁多的数据库和庞大的收集量,线粒体的变异位点收录的量很少,现有比较知名的数据库只有MITOMAP,MITOMAP数据库里面的线粒体变异位点情况全部是收集不同研究机构发表的学术论文而来的(如图1所示)。数据库中线粒体的来源人群、测序方法、测序深度、数据质控、参考基因组、变异位点的分析方法,都不统一,无法保证信息的可靠性和一致性,限制了该数据库的应用价值。
发明内容
基于此,有必要针对上述问题,提供一种线粒体变异位点数据库的建立方法,使用统一的数据质控和变异位点检测流程,获得的数据质量统一、可靠,建立得到的数据库包括每个变异位点的异质性分数,对研究mtDNA突变和疾病的联系具有重要意义。
一种线粒体变异位点数据库的建立方法,包括以下步骤:
1)获取线粒体DNA序列数据;
2)将上述线粒体DNA序列与线粒体参考基因组进行比对,得到比对结果,根据预设条件抓取线粒体变异位点信息;
3)对每个线粒体变异位点信息进行同异质性分析,将异质性比例为0.01-0.98的变异位点定义为异质性变异,否则定义为同质性变异;
4)整合变异位点信息,汇总得到线粒体变异位点数据库。
上述数据库建立方法,使用统一的数据质控和变异位点检测流程,获得的数据质量统一、可靠,建立得到的数据库包括每个变异位点的异质性分数,对研究mtDNA突变和疾病的联系具有重要意义。
在其中一个实施例中,所述步骤1)中,采用DNA聚合酶和引物序列对线粒体DNA进行PCR扩增,得到线粒体DNA序列数据;
所述引物序列为:
F-16426:CCGCACAAGAGTGCTACTCTCCTC(SEQ ID No.1),
R-16425:GATATTGATTTCACGGAGGATGGTG(SEQ ID No.2)。
在其中一个实施例中,所述步骤1)中,抽取个体的外周血,使用Qiagen试剂盒提取线粒体DNA。
所述个体包括所有的国籍或人种的个体,当需要研究某个特定群体的线粒体DNA时,可仅纳入该群体的个体。例如,MITOMAP数据库主要是收录外国人群的线粒体变异情况,而线粒体是母系遗传,外国人群与中国人群在线粒体群体差异很大,MITOMAP收集的信息对中国人群的参考价值较低,那么就可以采用本发明的方法选取来自中国的个体,构建对应的数据库。
对测试个体进行编号,便于后续查询和溯源。
在其中一个实施例中,所述步骤1)中,采用DNA聚合酶和引物序列对线粒体DNA进行长片段PCR扩增,得到线粒体DNA序列数据。
优选地,所述DNA聚合酶为诺唯赞Vazyme公司的DNA聚合酶Master Mix。
优选地,所述引物序列为:
F-16426:CCGCACAAGAGTGCTACTCTCCTC(SEQ ID No.1),
R-16425:GATATTGATTTCACGGAGGATGGTG(SEQ ID No.2)。
该引物序列为人组织器官均可用的引物,为本领域公认的通用引物。
在其中一个实施例中,所述步骤1)中,得到PCR产物后,使用Bioo Scientific公司的NEXTflex试剂盒构建测序文库,使用Illumina Novaseq测序平台进行测序。
使用二代测序仪,测序快速、通量大、深度高,可以检测到低频的变异。
在其中一个实施例中,所述步骤2)中,先过滤掉平均测序深度低于200×的线粒体DNA,所得序列再与线粒体参考基因组进行比对,得到bam文件。
在其中一个实施例中,所述步骤2)中,所述线粒体参考基因组为NC_012920.1。
在其中一个实施例中,所述步骤2)中,所述预设条件包括:如突变类型为插入或缺失突变,当插入或缺失的序列为≤5bp的重复单元,且重复次数≥5次,则舍弃该插入或缺失突变。
在其中一个实施例中,所述步骤2)中,所述预设条件包括:变异的质量分数需≥20;变异的碱基质量分数需≥20;变异的最小频率需≥0.01。
变异的质量分数表明该处变异在统计学上的确定性,计算公式如下:
Q=-10×log10P
其中,Q为变异的质量分数,P为假阳性的概率。Q分值越高表示该处变异的假阳性率越低,即可信度越高。Q≥20,即P≤0.01,假阳性率低于0.01。
变异的碱基质量分数指该处变异的替换碱基在测序机器上的测序质量,分数越高表示该处的替换碱基的测序正确性越高。
变异的最小频率指的是低于该频率的变异会被过滤掉,频率即该位点测得的变异数量占总数量的比例。
在其中一个实施例中,所述预设条件还包括过滤条件:当某个体样本内检测到>50个变异位点,则舍弃该样本数据。
线粒体是非常重要的细胞器,若个体检测出>50处变异,有极大可能是本身DNA提取或者检测过程中受到污染,应当舍弃。
在其中一个实施例中,所述步骤3)中,编写Perl脚本,将异质性比例为0.01-0.98的变异位点定义为异质性变异,标注Het;否则定义为同质性变异,标注为Hom。
异质性比例,即该位点变异的拷贝数占总体mtDNA拷贝数的比例。若大于0.98,表明该变异在所测的样品中所占比例超过了98%,则几乎所有的线粒体该处都发生了变异(需要考虑到任何方法都有一定误差),则认为该变异为同质性。
在其中一个实施例中,所述步骤4)中,变异位点信息包括:
1)变异位点在线粒体基因组上的碱基位置;
2)变异位点在线粒体基因组上的处于哪个基因的区域内;
3)原本参考基因组该位置的碱基;
4)变异情况的替换碱基;
5)突变是异质性还是同质性;
6)突变的异质性分数;
7)突变所在的个体ID。
在其中一个实施例中,所述步骤4)中,使用Linux命令整合所有个体的变异位点信息,命令为“cat*.vcf>all.vcf”;基于Linux系统的服务器,安装MySQL,新建数据库及设计表;将all.vcf导入到MySQL中,得到线粒体变异位点数据库。
在其中一个实施例中,所述步骤4)后还包括步骤5):
基于shiny平台编写服务器代码,创建UI界面,设置查询条件和过滤条件,然后连接MySQL数据库,使用shiny-server进行部署。用户可以在浏览器中访问服务器从而使用该数据库。输入要查询的起始位点及结束位点,点击search,结果以列表形式返回,并且结果列表上有筛选框,支持在结果中进行二次筛选。
使用shiny平台以及MySQL搭建数据库,数据库操作简单,响应迅速,并且可以直接在初步筛选出来的结果上进行二次筛选。
本发明一方面还提供一种采用上述方法建立得到的线粒体变异位点数据库。
现有的MITOMAP数据库,在其中搜出某一位点的某种变异情况后,不能显示该位点在人群中的异质性分数,而异质性分数对研究线粒体变异具有重要意义,缺乏这一重要信息,使得MITOMAP数据库本身的价值难以被利用。而且,MITOMAP数据库使用时速度较慢,信息冗余,需要精简,搜索出来的结果不支持二次筛选功能。图2为使用MITOMAP数据库查询第37号碱基位置突变情况的查询示例。
而本发明的数据库可以有效解决上述问题,重要信息(异质性分数等参数)突出,查询结果可靠,查询操作简单,响应迅速,支持在搜索结果中进行二次筛选。
本发明还提供一种上述线粒体变异位点数据库在制备线粒体变异位点检测设备中的应用。
本发明还提供一种线粒体变异位点查询装置,包括:
输入模块,用于输入获取的线粒体DNA序列数据;
比对模块,用于将线粒体DNA序列与线粒体参考基因组进行比对,得到比对结果,并采用预设条件抓取线粒体变异位点信息;
分析模块,用于对每个线粒体变异位点信息进行同异质性分析,将异质性比例为0.01-0.98的变异位点定义为异质性变异,否则定义为同质性变异;
整合模块,用于整合和汇总变异位点信息;
输出模块,用于输出查询结果。
与现有技术相比,本发明具有以下有益效果:
本发明的数据库建立方法,使用统一的数据质控和变异位点检测流程,获得的数据质量统一、可靠,建立得到的数据库包括每个变异位点的异质性分数,对研究mtDNA突变和疾病的联系具有重要意义。
本发明的数据库,重要信息(异质性分数等参数)突出,查询结果可靠,查询操作简单,响应迅速,支持在搜索结果中进行二次筛选。通过实验可发现,采用本发明的数据库可查询到一些变异位点,对应的个体有临床症状,而在现有的MITOMAP数据库中无报道案例,可见本发明的数据库在研究mtDNA突变和疾病的联系方面具有重要应用价值。
附图说明
图1为MITOMAP数据库收录的位点来源论文网页截图;
图2为MITOMAP数据库变异位点搜索结果示例;
图3为实施例中线粒体数据库的MySQL设计表示意图;
图4为实施例中数据库的测试查询结果页面截图;
图5为线粒体第3502号碱基在MITOMAP数据库中的查询结果;
图6为线粒体第3502号碱基在实施例1所建立的数据库中的查询结果;
图7为线粒体第14465号碱基在MITOMAP数据库中的查询结果;
图8为线粒体第14465号碱基在实施例1所建立的数据库中的查询结果。
具体实施方式
为了便于理解本发明,以下将给出较佳实施例对本发明进行更全面的描述。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1
线粒体变异位点数据库的建立,包括以下步骤:
一、获取线粒体DNA序列数据。在本实施例中,按以下步骤进行。
1、抽取个体外周血,使用Qiagen试剂盒并根据其说明提取线粒体DNA。
2、使用诺唯赞Vazyme公司的DNA聚合酶Master Mix以及引物序列对提取到的DNA进行PCR扩增。得到PCR产物后,使用Bioo公司的NEXTflex试剂盒构建测序文库,然后使用Illumina Novaseq测序平台进行测序。引物序列为:
F-16426:CCGCACAAGAGTGCTACTCTCCTC(SEQ ID No.1),
R-16425:GATATTGATTTCACGGAGGATGGTG(SEQ ID No.2)。
二、将上述线粒体DNA序列与线粒体参考基因组进行比对,得到比对结果,根据预设条件抓取线粒体变异位点信息。具体地,在本实施例中采用以下方法实现。
1、过滤掉平均测序深度低于200×的线粒体DNA,使用BWA软件将序列比对到线粒体考基因组NC_012920.1上,得到bam文件。
2、使用Pisces软件(v5.1.6.54)处理bam文件,输入参数为“-RMxNFilter 5,5-MinVQ 20-MinBQ 20-MinVF 0.01”,获得线粒体变异位点信息。
命令中各参数的意义如下:
-RMxNFilter 5,5如突变类型为插入或缺失突变,当插入或缺失的序列为≤5bp的单一重复单元,重复次数≥5次,该插入或缺失舍弃;
-MinVQ20变异的质量分数(variant quality score)需≥20;
-MinBQ 20变异的碱基质量分数(basecall quality)需≥20;
-MinVF 0.01变异的最小频率(variant frequency)需要≥0.01。
三、对每个线粒体变异位点信息进行同异质性分析,将异质性比例为0.01-0.98的变异位点定义为异质性变异,否则定义为同质性变异。
具体地,编写Perl脚本,异质性比例处于0.01-0.98的变异位点定义为异质性变异,标注Het;否则定义为同质性变异,标注为Hom。如果某个体样本内检测到>50个的变异位点,则舍弃。
四、整合变异位点信息,汇总得到线粒体变异位点数据库。
具体地,使用Linux命令整合所有个体的变异位点结果,命令为“cat*.vcf>all.vcf”。基于Linux系统的服务器,安装MySQL,新建数据库及设计表,其中设计表如图3,该表一共有7列,其意义如下:
position:整数类型,该列指明变异位点在线粒体基因组上的碱基位置;
region:文本类型,该列指明变异位点在线粒体基因组上的处于哪个基因的区域内;
ref:文本类型,该列指明原本参考基因组该位置的碱基;
alt:文本类型,该列指明该变异情况的替换碱基;
Het_or_Hom:文本类型,该列表明该突变是异质性还是同质性;
Heteroplasmic Fraction:文本类型,该列指明突变的异质性分数;
Person_ID:文本类型,该列指明突变所在的个体ID。
再将all.vcf导入到MySQL中。
五、数据库查询。
具体地,基于shiny平台编写服务器代码,创建UI界面,设置查询条件和过滤条件,然后连接MySQL数据库,使用shiny-server进行部署。用户可以在浏览器中访问服务器从而使用该数据库。如图4,输入要查询的起始位点及结束位点,如要查询碱基37位置的突变情况,则在起始位置和结束位置都输入数字37,然后点击search,结果以列表形式返回,并且结果列表上有筛选框,支持在结果中进行二次筛选。
实施例2
分别在实施例1的线粒体变异位点数据库和MITOMAP数据库进行查询,查询线粒体的第3502号碱基变异位点。
线粒体的第3502号碱基T处于MT-ND1基因,该基因编码NADH-泛醌氧化还原酶链1蛋白。MT-ND1基因的变异与线粒体脑肌病、Leber遗传性视神经病、Leigh综合征以及成人的BMI(身体质量指数)升高都有关。
某疑似线粒体疾病患者其线粒体第3502号碱基发生突变,为查看该突变在人群中的发生情况,检索MITOMAP数据库,结果如图5,查询没有任何结果。
而使用实施例1所建立的线粒体变异位点数据库查询,可以看到第3502位点在人群中检测出有两个个体发生了突变(图6),其替换碱基皆为C,其异质性比例分别为0.017026578和0.015580532,比例接近且都很低,表明该突变虽然稀少,但可能对个体影响很大,异质性比例稍高的个体已经不存活。
实施例3
分别在实施例1的线粒体变异位点数据库和MITOMAP数据库进行查询,查询线粒体的第14465号碱基变异位点。
线粒体的第14465号碱基G处于MT-ND6基因,该基因编码NADH-泛醌氧化还原酶链6蛋白。MT-ND6基因的变异与Leber遗传性视神经病,Leigh综合征和肌张力障碍有关。
某疑似线粒体疾病患者其线粒体第14465号碱基发生突变,为查看该突变在人群中的发生情况,检索MITOMAP数据库,结果如图7,查询没有任何结果。
而使用实施例1所建立的线粒体变异位点数据库查询,可以看到第14465位点在人群中检测出有一个个体发生了突变(图8),其替换碱基为A,其异质性比例为0.025501719。
随着本发明的方法的建立,数据库可以不断地扩充样本,从而达到更广泛的代表性,为线粒体突变与疾病的相关研究提供更好的帮助。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
序列表
<110> 广州市金域转化医学研究院有限公司
<120> 一种线粒体变异位点数据库及其建立方法和应用
<160> 2
<170> SIPOSequenceListing 1.0
<210> 1
<211> 24
<212> DNA
<213> Artificial Sequence
<400> 1
ccgcacaaga gtgctactct cctc 24
<210> 2
<211> 25
<212> DNA
<213> Artificial Sequence
<400> 2
gatattgatt tcacggagga tggtg 25
Claims (6)
1.一种线粒体变异位点数据库的建立方法,其特征在于,包括以下步骤:
1)获取线粒体DNA序列数据;
2)将上述线粒体DNA序列与线粒体参考基因组进行比对,得到比对结果,根据预设条件抓取线粒体变异位点信息;所述线粒体参考基因组为NC_012920.1;所述预设条件包括:如突变类型为插入或缺失突变,当插入或缺失的序列为≤5bp的重复单元,且重复次数≥5次,则舍弃该插入或缺失突变,变异的质量分数需≥20;变异的碱基质量分数需≥20;变异的最小频率需≥0.01;
3)对每个线粒体变异位点信息进行同异质性分析,将异质性比例为0.01-0.98的变异位点定义为异质性变异,否则定义为同质性变异;
4)整合变异位点信息,汇总得到线粒体变异位点数据库;所述变异位点信息包括:1)变异位点在线粒体基因组上的碱基位置;2)变异位点在线粒体基因组上的处于哪个基因的区域内;3)原本参考基因组该位置的碱基;4)变异情况的替换碱基;5)突变是异质性还是同质性;6)突变的异质性分数;7)突变所在的个体ID。
2.根据权利要求1所述的建立方法,其特征在于,所述步骤1)中,采用DNA聚合酶和引物序列对线粒体DNA进行PCR扩增,得到线粒体DNA序列数据;
所述引物序列为:
F-16426:CCGCACAAGAGTGCTACTCTCCTC(SEQ ID No.1),
R-16425:GATATTGATTTCACGGAGGATGGTG(SEQ ID No.2)。
3.根据权利要求1所述的建立方法,其特征在于,所述预设条件还包括过滤条件:当某个体样本内检测到>50个变异位点,则舍弃该样本数据。
4.一种采用权利要求1-3任一项所述的方法建立得到的线粒体变异位点数据库。
5.一种权利要求4所述的线粒体变异位点数据库在制备线粒体变异位点检测设备中的应用。
6.一种线粒体变异位点查询装置,其特征在于,包括:
输入模块,用于输入获取的线粒体DNA序列数据;
比对模块,用于将线粒体DNA序列与线粒体参考基因组进行比对,得到比对结果,并采用预设条件抓取线粒体变异位点信息;所述线粒体参考基因组为NC_012920.1;所述预设条件包括:如突变类型为插入或缺失突变,当插入或缺失的序列为≤5bp的重复单元,且重复次数≥5次,则舍弃该插入或缺失突变,变异的质量分数需≥20;变异的碱基质量分数需≥20;变异的最小频率需≥0.01;
分析模块,用于对每个线粒体变异位点信息进行同异质性分析,将异质性比例为0.01-0.98的变异位点定义为异质性变异,否则定义为同质性变异;
整合模块,用于整合和汇总变异位点信息;所述变异位点信息包括:1)变异位点在线粒体基因组上的碱基位置;2)变异位点在线粒体基因组上的处于哪个基因的区域内;3)原本参考基因组该位置的碱基;4)变异情况的替换碱基;5)突变是异质性还是同质性;6)突变的异质性分数;7)突变所在的个体ID;
输出模块,用于输出查询结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110037972.8A CN112908411B (zh) | 2021-01-12 | 2021-01-12 | 一种线粒体变异位点数据库及其建立方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110037972.8A CN112908411B (zh) | 2021-01-12 | 2021-01-12 | 一种线粒体变异位点数据库及其建立方法和应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908411A CN112908411A (zh) | 2021-06-04 |
CN112908411B true CN112908411B (zh) | 2024-05-14 |
Family
ID=76112516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110037972.8A Active CN112908411B (zh) | 2021-01-12 | 2021-01-12 | 一种线粒体变异位点数据库及其建立方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908411B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004313121A (ja) * | 2003-04-18 | 2004-11-11 | Arkray Inc | ミトコンドリアdna3243変異の検出法ならびにそのための核酸プローブおよびキット |
CN101768637A (zh) * | 2009-11-20 | 2010-07-07 | 温州医学院 | 用于同时检测线粒体dna a1555g和c1494t突变的试剂盒及其使用方法 |
CN103173441A (zh) * | 2013-02-05 | 2013-06-26 | 深圳华大基因研究院 | 线粒体全基因组dna扩增、引物、测序及突变检测 |
CN103436604A (zh) * | 2013-07-18 | 2013-12-11 | 深圳市人民医院 | Dhplc检测并定量线粒体dna1555a>g的异质性突变 |
CN104694384A (zh) * | 2015-03-20 | 2015-06-10 | 上海美吉生物医药科技有限公司 | 线粒体dna拷贝数变异性的检测装置 |
WO2016019149A1 (en) * | 2014-07-30 | 2016-02-04 | Sutter West Bay Hospitals | Mitochondrial dna mutation profile for predicting human health conditions and disease risk and for monitoring treatments |
CN105907748A (zh) * | 2016-05-10 | 2016-08-31 | 广州嘉检医学检测有限公司 | 一种基于高通量测序的线粒体基因组文库及其构建方法 |
CN108192965A (zh) * | 2017-12-30 | 2018-06-22 | 北京中科唯新生物医学研究所有限公司 | 一种检测线粒体基因组a3243g位点异质性的方法 |
CN109920481A (zh) * | 2019-01-31 | 2019-06-21 | 北京诺禾致源科技股份有限公司 | Brca1/2基因变异解读数据库及其构建方法 |
CN110872617A (zh) * | 2012-09-04 | 2020-03-10 | 夸登特健康公司 | 检测稀有突变和拷贝数变异的系统和方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030190644A1 (en) * | 1999-10-13 | 2003-10-09 | Andreas Braun | Methods for generating databases and databases for identifying polymorphic genetic markers |
US20050026167A1 (en) * | 2001-06-11 | 2005-02-03 | Mark Birch-Machin | Complete mitochondrial genome sequences as a diagnostic tool for the health sciences |
US10584380B2 (en) * | 2015-09-01 | 2020-03-10 | Seven Bridges Genomics Inc. | Systems and methods for mitochondrial analysis |
JP6953586B2 (ja) * | 2019-06-19 | 2021-10-27 | シスメックス株式会社 | 患者検体の核酸配列の解析方法、解析結果の提示方法、提示装置、提示プログラム、及び患者検体の核酸配列の解析システム |
-
2021
- 2021-01-12 CN CN202110037972.8A patent/CN112908411B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004313121A (ja) * | 2003-04-18 | 2004-11-11 | Arkray Inc | ミトコンドリアdna3243変異の検出法ならびにそのための核酸プローブおよびキット |
CN101768637A (zh) * | 2009-11-20 | 2010-07-07 | 温州医学院 | 用于同时检测线粒体dna a1555g和c1494t突变的试剂盒及其使用方法 |
CN110872617A (zh) * | 2012-09-04 | 2020-03-10 | 夸登特健康公司 | 检测稀有突变和拷贝数变异的系统和方法 |
CN103173441A (zh) * | 2013-02-05 | 2013-06-26 | 深圳华大基因研究院 | 线粒体全基因组dna扩增、引物、测序及突变检测 |
CN103436604A (zh) * | 2013-07-18 | 2013-12-11 | 深圳市人民医院 | Dhplc检测并定量线粒体dna1555a>g的异质性突变 |
WO2016019149A1 (en) * | 2014-07-30 | 2016-02-04 | Sutter West Bay Hospitals | Mitochondrial dna mutation profile for predicting human health conditions and disease risk and for monitoring treatments |
CN104694384A (zh) * | 2015-03-20 | 2015-06-10 | 上海美吉生物医药科技有限公司 | 线粒体dna拷贝数变异性的检测装置 |
CN105907748A (zh) * | 2016-05-10 | 2016-08-31 | 广州嘉检医学检测有限公司 | 一种基于高通量测序的线粒体基因组文库及其构建方法 |
CN108192965A (zh) * | 2017-12-30 | 2018-06-22 | 北京中科唯新生物医学研究所有限公司 | 一种检测线粒体基因组a3243g位点异质性的方法 |
CN109920481A (zh) * | 2019-01-31 | 2019-06-21 | 北京诺禾致源科技股份有限公司 | Brca1/2基因变异解读数据库及其构建方法 |
Non-Patent Citations (4)
Title |
---|
Genome-wide somatic copy number alteration analysis and database construction for cervical cancer;Luo H.等;《MOLECULAR GENETICS AND GENOMICS》;第295卷(第3期);765-773 * |
Mamit-tRNA, a database of mammalian mitochondrial tRNA primary and secondary structures;JOERN PUTZ等;《RNA》;第13卷(第8期);1184-1190 * |
癫痫相关基因与突变的数据库构建;冉霞;《万方学位论文数据库》;11-15 * |
金国琴.《生物化学》.上海科学技术出版社,2017,138-139. * |
Also Published As
Publication number | Publication date |
---|---|
CN112908411A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111009286B (zh) | 对宿主样本进行微生物分析的方法和装置 | |
US5556749A (en) | Oligoprobe designstation: a computerized method for designing optimal DNA probes | |
AU2020200351A1 (en) | Family networks | |
CN109686439B (zh) | 遗传病基因检测的数据分析方法、系统及存储介质 | |
Bouaziz et al. | How artificial intelligence can improve our understanding of the genes associated with endometriosis: natural language processing of the PubMed Database | |
CN108877921A (zh) | 医疗智能分诊方法和医疗智能分诊系统 | |
CN108121896B (zh) | 一种基于miRNA的疾病间关系分析方法和装置 | |
JP2008537821A (ja) | 生体分子及び疾患の間の関係に関する証拠を収集するシステム及び方法 | |
JPH11501741A (ja) | 微生物学的データを保存し解析するコンピュータシステム | |
CN1385702A (zh) | 提供临床诊断服务的方法 | |
JP2009520278A (ja) | 科学情報知識管理のためのシステムおよび方法 | |
Adamic et al. | A literature based method for identifying gene-disease connections | |
JP2007102709A (ja) | 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム | |
US20190018930A1 (en) | Method for building a database | |
WO2021248695A1 (zh) | 基于临床特征和序列变异的单基因病名称推荐方法及系统 | |
CN116064755B (zh) | 一种基于连锁基因突变检测mrd标志物的装置 | |
CN115631789B (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
Paschold et al. | SARS-CoV-2–specific antibody rearrangements in prepandemic immune repertoires of risk cohorts and patients with COVID-19 | |
CN112289376A (zh) | 一种检测体细胞突变的方法及装置 | |
CN110111844A (zh) | 一种基因数据解读注释系统 | |
van Der Pol et al. | Real‐time analysis of the cancer genome and fragmentome from plasma and urine cell‐free DNA using nanopore sequencing | |
CN112908411B (zh) | 一种线粒体变异位点数据库及其建立方法和应用 | |
JP2002269114A (ja) | 知識データベース及び知識データベースの構築方法 | |
CN117275585A (zh) | 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备 | |
Mouratidis et al. | kmerDB: a database encompassing the set of genomic and proteomic sequence information for each species |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |