CN107885977A - 一种用于检测动物类群线粒体基因组重排的方法 - Google Patents
一种用于检测动物类群线粒体基因组重排的方法 Download PDFInfo
- Publication number
- CN107885977A CN107885977A CN201711233475.5A CN201711233475A CN107885977A CN 107885977 A CN107885977 A CN 107885977A CN 201711233475 A CN201711233475 A CN 201711233475A CN 107885977 A CN107885977 A CN 107885977A
- Authority
- CN
- China
- Prior art keywords
- rearrangement
- gene
- monoid
- rcsr
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Wood Science & Technology (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Immunology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了关于用于检测动物类群线粒体基因组重排的方法。属于分子生物学和生物信息学领域。依据本发明中关于动物类群线粒体基因组重排情况所提出的想法和实施方案,通过计算基因的重排累加值CSR和相对重排频率值rCSR,我们可以量化动物类群中线粒体基因组每个基因的重排情况,并进一步获得某一研究类群的重排保守区段和重排高频区段的位置,还可以对不同类群中的相同的基因的重排频率进行横向比较。
Description
一.发明领域
本发明属于分子生物学和生物信息学领域,更具体地说,涉及一种用于检测动物类群线粒体基因组重排的方法。
二.背景技术
在生物体内,线粒体作为一种半自主性细胞器,参与能量转换等生物体中众多必须的生物过程,而且其基因组组成保守。因线粒体基因组的基因序列进化速率适中,一直是分子系统学研究的重要分子标记。
虽然动物线粒体基因组组成十分保守,但随着线粒体基因组被完全测序的物种数目越来越多,陆续在不少动物类群中发现了存在线粒体基因组的基因重排现象(蛙类动物尤为突出)。基因重组包括基因缺失、基因重复和基因组重排现象(loss, duplication andrearrangement),因为重排在重组现象中比重较大,本发明统称它们为基因重排。文献显示一些学者已经利用比较基因组学的方法研究了线粒体基因的重排,寻找重排规律,并提出了脊椎重排的发生几种可能机制如duplication-random loss和intramitochondrialrecombination等。
然而,先前的这些研究存在一定的不足:(1)这些研究不能明确的表示出动物类群线粒体基因组每个基因的重排情况;(2)不能具体确定该动物类群在整个线粒体基因组中的重排高频区段和重排保守区段;(3)在此基础上更无法对不同动物类群的线粒体基因重排进行横向比较,进而探究重排的系统演化与机制。
为了改进上述缺陷,本发明致力于对动物类群线粒体基因组开展基因重排的深入研究,量化了线粒体基因组中单个基因的重排角色,找出了基因重排的高频和保守区段,并可以对不同动物类群进行横向比较,为线粒体基因组重排发生的理解和机制探究提供参考。
三.发明内容
1.发明要解决的问题
针对先前研究的不足之处,有以下3个问题亟待解决:第一,这些研究不能明确的表示出动物类群线粒体基因组每个基因的重排情况;第二,之前的研究都不能具体准确定位整个线粒体全序列中基因重排高频区段或重排保守区段;第三,无法对不同动物类群的线粒体基因重排进行横向比较,只能局限于单个动物类群。而利用本发明中提供的检测动物类群线粒体基因组基因重排的方法,能够准确而具体地了解到动物类群线粒体基因重排的情况,对今后线粒体基因重排的研究和机制探索提供基础参考。
技术方案
本发明提出了计算出针对特定动物类群的线粒体基因组中每个单一基因重排情况的方法,具体实施方案如下:
(1)首先获取数据:从线粒体基因组公共数据库中获取不同类型物种的所有线粒体基因组信息,如在Genebank数据库(https://www.ncbi.nlm.nih.gov/nuccore)。下载某一特定动物线粒体基因组的全序列数据,然后对数据进行处理:利用Perl语言、R语言分析提取相关数据,得到线粒体基因组中每一个基因的位置信息,进而获取每条基因组上的所有基因的位置排序,为后期进行方法计算做准备。
(2)利用本发明提出的新算法,具体公式如下:
(1)
(2)
其中CSR值表示线粒体基因组中A基因的重排累加值,Xn表示该基因在其中一个物种中的重排值,n是研究的特定类群所有物种数,rCSRA表示A基因的相对重排频率值(如图1所示)。
(3)针对特定类群,选定一个特定的物种的线粒体基因重排为基准,如以典型的脊椎动物的基因排序为基准,如一个科、目亦或是更高的分类阶元,应用我们提出的公式获得该类群的所有基因的rCSR值。
针对不同重排情况,计算“重排频率值”Xn的方案具体如下:
①如果以典型的脊椎动物的基因排序为基准,首先假定给每个基因0分分值。相对于基准排序,如果该基因左右两侧相邻基因不变,则不给该基因加分;
②如果左侧或是右侧相邻基因发生了改变,则给该基因加1分;
③如果被考察基因出现缺失,重复或是其两侧相邻的基因均发生了改变,则给该基因加2分;
对类群中每条线粒体基因组中的每个基因进行上述情况扫描,从而就可以获得该类群线粒体基因组中各个基因的重排频率值,并计算出CSR值和rCSR值。
(4)通过rCSR值计算公式可以看出rCSR值的取值范围在0到1之间,越接近0,则该基因越保守,越接近于1,则该基因的重排频率越高。基于上述特征,结合研究类群的保守性情况,研究者可以自定义出基因rCSR值小于某一个阈值为重排保守基因,大于某一阈值为重排高频重排保守区段,大于某一阈值为高频重排区段。这样一来,研究者就可以找出如果某一区段中的连续基因具有上述基因特征就可以扫描该动物类群的线粒体基因重排的高频和保守区段的位置。另外,通过上述方法还可以对不同动物类群中相同基因的重排情况进行横向比较。
图1为假设存在单个基因A,其出现于不同基因组中的重排值计算(rCSR值 计算)示意图。
具体实施案例与有益结论
依据本发明中所提出的方法,本发明进行了两栖动物线粒体基因重排的研究,实验步骤如下:
(1)从NCBI Organelle Genome Resource下载两栖动物线粒体基因组全序列数据,共计230个物种信息(2016年12月下载)。
(2)利用R语言,Perl语言对两栖动物线粒体基因组中每一个基因的位置信息进行分析提取,获取每条基因组上的所有的基因的位置排序,以典型的脊椎动物线粒体基因组排布为基准。
(3)利用本发明中提出的新算法,计算出单个基因的CSR值和rCSR值。再对各个基因的rCSR值进行分析研究。
(4)有益结论,在对两栖动物线粒体基因组组成中的37个基因和CR区的基因重排情况进行CSR值和rCSR值计算,获得的新发现如下:
①在两栖动物类群线粒体基因组内,ND5基因是蛋白质编码基因中rCSR值最高的基因,即重排频率最高的基因;COX1、COX2和COX3等基因rCSR值为0,说明它们与典型的脊椎动物线粒体基因组排布相同,属于基因组中重排最为保守的基因群。
②如果定义rCSR值小于0.05为保守基因,rCSR值大于0.2则为高频基因;本专利发现:两栖动物线粒体基因组中重排最为保守的2个基因区段分别为ATP6-COX3-G-ND3-R-ND4L段和位于COX1和COX2基因间的S-D段;而高频重排区段为ND5-ND6-CR区段。
③本例可以进一步横向分析发现:其一,与其他脊椎动物线粒体基因组重排相比,两栖动物线粒体基因组重排目前没有出现基因倒置现象;其二,tRNA基因在两栖动物类群中仍然是线粒体基因组重排的主要因素,出现连续3个或以上的tRNA基因区域易于发生基因重排;其三,通过与已有文献报道相比发现,CR区(d-loop区)和OL区(轻连复制起始点区)为脊椎动物线粒体基因组重排高影响基因,其周围基因重排频率明显高于其他位置,表明重排发生机制与这两个区段有关,这一观点与目前的线粒体基因组重排研究相一致,进一步表明本专利方法的科学性和准确性。
Claims (4)
1.一种用于检测动物类群线粒体基因组重排的方法,其特征在于:提出了一种能够量化动物类群中线粒体基因组每个基因的重排情况的新算法,其具体公式如下:
(1)
(2)
其中CSR值(commulative score of rearrangement重排累加值)表示A基因的重排累加值,Xn表示该基因在其中一个物种中的重排值,n是研究类群的所有物种数,rCSR(relative commulative score of rearrangement相对重排频率值),rCSRA表示A基因的相对重排频率值。
2.基于权利要求1所述的一种用于检测动物类群线粒体基因组重排的方法,其特征在于:rCSR值可以量化动物类群中线粒体基因组每个基因的重排情况,rCSR的取值范围在0到1之间,由公式的内涵我们不难发现:rCSR值越接近于0,则该基因越保守,越接近于1,则该基因的重排频率越高。
3.基于权利要求2所述的一种用于检测动物类群线粒体基因组重排的方法,其特征在于:根据上述特征,以脊椎动物线粒体基因重排情况为例,因其较保守,我们定义如下概念:rCSR值小于0.05为保守基因,rCSR值大于0.2则为高频基因;若某一段基因序列中所有基因(该段中连续的基因)的rCSR值都小于0.05,则该区段为重排保守区段。同样的,若某一段基因序列中所有基因的rCSR值都大于0.2,则该区段为该研究类群的重排高频区段。由此,我们就可以发现某一研究类群的重排高频区段和保守区段的位置。
4.基于权利要求1所述的一种用于检测动物类群线粒体基因组重排的方法,其特征在于:可以进一步通过上述方法对不同类群的线粒体基因进行重排信息的扫描,进而可以完成不同类群的相同指定基因的重排频率的横向比较。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711233475.5A CN107885977B (zh) | 2017-11-30 | 2017-11-30 | 一种用于检测动物类群线粒体基因组重排的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711233475.5A CN107885977B (zh) | 2017-11-30 | 2017-11-30 | 一种用于检测动物类群线粒体基因组重排的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107885977A true CN107885977A (zh) | 2018-04-06 |
CN107885977B CN107885977B (zh) | 2019-10-18 |
Family
ID=61776040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711233475.5A Active CN107885977B (zh) | 2017-11-30 | 2017-11-30 | 一种用于检测动物类群线粒体基因组重排的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107885977B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133351A (zh) * | 2023-10-24 | 2023-11-28 | 江西师范大学 | 一种优化的线粒体基因重排量化方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1251653A (zh) * | 1997-04-02 | 2000-04-26 | 武田药品工业株式会社 | 校正异常基因产物功能的物质 |
CN102083999A (zh) * | 2007-11-26 | 2011-06-01 | 免疫技术有限公司 | 研究v(d)j组合多样性的方法 |
CN103874706A (zh) * | 2011-04-28 | 2014-06-18 | 贝勒医学院 | 在人类前列腺癌富集的作为生物标记物的再生嵌合rna |
CN104152451A (zh) * | 2014-08-19 | 2014-11-19 | 淮南师范学院 | 一种太湖新银鱼物种分子鉴定的引物和方法 |
CN105177140A (zh) * | 2015-09-11 | 2015-12-23 | 淮南师范学院 | 一种基于miRNA序列分析物种进化的方法 |
CN106156538A (zh) * | 2016-06-29 | 2016-11-23 | 天津诺禾医学检验所有限公司 | 一种全基因组变异数据的注释方法和注释系统 |
CN106462669A (zh) * | 2014-03-25 | 2017-02-22 | 奎斯特诊断投资股份有限公司 | 通过使用平均循环阈值的基因内差异表达(ide)检测基因融合 |
-
2017
- 2017-11-30 CN CN201711233475.5A patent/CN107885977B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1251653A (zh) * | 1997-04-02 | 2000-04-26 | 武田药品工业株式会社 | 校正异常基因产物功能的物质 |
CN102083999A (zh) * | 2007-11-26 | 2011-06-01 | 免疫技术有限公司 | 研究v(d)j组合多样性的方法 |
CN103874706A (zh) * | 2011-04-28 | 2014-06-18 | 贝勒医学院 | 在人类前列腺癌富集的作为生物标记物的再生嵌合rna |
CN106462669A (zh) * | 2014-03-25 | 2017-02-22 | 奎斯特诊断投资股份有限公司 | 通过使用平均循环阈值的基因内差异表达(ide)检测基因融合 |
CN104152451A (zh) * | 2014-08-19 | 2014-11-19 | 淮南师范学院 | 一种太湖新银鱼物种分子鉴定的引物和方法 |
CN105177140A (zh) * | 2015-09-11 | 2015-12-23 | 淮南师范学院 | 一种基于miRNA序列分析物种进化的方法 |
CN106156538A (zh) * | 2016-06-29 | 2016-11-23 | 天津诺禾医学检验所有限公司 | 一种全基因组变异数据的注释方法和注释系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133351A (zh) * | 2023-10-24 | 2023-11-28 | 江西师范大学 | 一种优化的线粒体基因重排量化方法 |
CN117133351B (zh) * | 2023-10-24 | 2024-01-23 | 江西师范大学 | 一种优化的线粒体基因重排量化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107885977B (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chowdhury et al. | A review on multiple sequence alignment from the perspective of genetic algorithm | |
Pang et al. | Utility of the trnH–psbA intergenic spacer region and its combinations as plant DNA barcodes: a meta-analysis | |
Zhao et al. | Genetic grouping of SARS-CoV-2 coronavirus sequences using informative subtype markers for pandemic spread visualization | |
Gautheret et al. | Direct RNA motif definition and identification from multiple sequence alignments using secondary structure profiles | |
Edwards et al. | High-resolution genetic mapping with pooled sequencing | |
Kolbe et al. | Fast filtering for RNA homology search | |
Wen et al. | A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network | |
CN104032016B (zh) | 一种鸡肠炎沙门氏菌感染相关microRNA的检测方法 | |
CN106055922A (zh) | 一种基于基因表达数据的混合网络基因筛选方法 | |
Montazeri et al. | Large-scale inference of conjunctive Bayesian networks | |
Wang et al. | A brief review of machine learning methods for RNA methylation sites prediction | |
CN103902848A (zh) | 基于药物相互作用相似性识别药物靶标的系统及方法 | |
CN107885977A (zh) | 一种用于检测动物类群线粒体基因组重排的方法 | |
Gardner et al. | Statistical potentials for hairpin and internal loops improve the accuracy of the predicted RNA structure | |
Yuan et al. | RNA-CODE: a noncoding RNA classification tool for short reads in NGS data lacking reference genomes | |
CN103559423B (zh) | 一种甲基化作用的预测方法、装置 | |
Bustamam et al. | Implementation of hierarchical clustering using k-mer sparse matrix to analyze MERS–CoV genetic relationship | |
Voznica et al. | Deep learning from phylogenies to uncover the transmission dynamics of epidemics | |
CN106446601A (zh) | 一种大规模标注lncRNA功能的方法 | |
Lalwani et al. | Sequence–structure alignment techniques for RNA: a comprehensive survey | |
CN109493919A (zh) | 基于条件概率的基因型指派方法 | |
Xu et al. | Phylogenetic implications of mitogenomic sequences and gene rearrangements of scale insects (Hemiptera, Coccoidea) | |
EP3435264B1 (en) | Method and system for identification and classification of operational taxonomic units in a metagenomic sample | |
Banjarnahor et al. | Implementation of Hierarchical Clustering Method in Analyzing Genetic Relationship on DNA SARS-CoV-2 Sequences | |
Gudodagi et al. | Investigations and Compression of Genomic Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |