CN117133351B

CN117133351B - 一种优化的线粒体基因重排量化方法

Info

Publication number: CN117133351B
Application number: CN202311378396.9A
Authority: CN
Inventors: 石海鹤; 杨帅; 牛耕耘; 罗来源; 万昆; 李涛
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-01-23
Anticipated expiration: 2043-10-24
Also published as: CN117133351A

Abstract

本发明属于分子生物学和生物信息学技术领域，公开了一种优化的线粒体基因重排量化方法，输入一条基准基因序列和待量化基因序列；待量化基因序列逐列与基准基因序列进行异或运算，将运算结果按差异程度由高到低存储到划分数组中；取划分数组中差异程度最高的N个位置将基准基因序列和每个待量化基因序列分别划分为N+1个数组段；指定滑动窗口的距离，使用滑动窗口技术在数组段内滑动，在滑动窗口内对每一段划分后的数组段分别计算基因得分；根据基因得分更新相对重排频率值数组和重排频率累加值数组并输出。本发明可以量化不同线粒体基因簇内的重排事件，从而显著地展示出不同类群线粒体基因组结构的差异性，具有较高的准确性。

Description

一种优化的线粒体基因重排量化方法

技术领域

本发明属于分子生物学和生物信息学技术领域，更具体地说，涉及一种优化的线粒体基因重排量化方法。

背景技术

动物线粒体基因组因其结构紧凑，被认为是研究基因组的窗口。从8000种后生动物的线粒体基因组的统计分析中发现，线粒体基因顺序受到选择限制，可能影响线粒体DNA调控，基因重排的发生频率和参与重排的基因簇（gene cluster）在不同类群中变化较大，还有个别类群具有特异性的基因顺序。正确地识别基因顺序以及评估相应变量，在揭示基因组的演化规律、探索基因组功能、研究分子演化过程等方面具有重要的科学价值，也为基因顺序变化的模式及其机制提供可靠的基础数据。

目前普遍被接受的线粒体基因重排机制是基于后口动物提出的“串联复制，随机丢失”（tandem duplication random loss，TDRL）模型，随着更多的线粒体基因重排被识别，重组（recombination）再次被认为或是重排的重要机制。

虽然先前的相关研究都取得了一定成果，但是也存在着一些不足：这些研究没有考虑到基因重排事件中的热点特异性，在量化过程中对于高频重排基因簇和保守基因簇没有给予不同权重，在重排复杂度较高的类群中表现欠佳，不利于基因组比较工作的开展。

专利公开号CN107885977A公布了一种用于检测动物类群线粒体基因组重排的方法，该方法是一种新的量化线粒体基因组重排的方法，它视单基因为一个结构单位，但计算其相邻的两个基因的变化。通过全局等价量化分类单元中的多个重排特征。除了对特定分类群的重排频率（RF）予以计分之外，还产出线粒体基因组中单个基因的重排分数（RS）以检测分类单元内的保守基因簇和高频重排基因簇。目前，倒置的发生率常被用作线粒体内重组发生的证据，但qMGR算法未能考虑倒置，这导致其低估了复杂度较高的基因重排。此外，该方法虽然能够检测出高频重排的基因簇，但并未进一步对保守基因簇和高频重排基因簇区分比较。

但qMGR因其算法的固有问题，导致其高估了重排基因两侧基因的重排频率，低估了单侧未发生重排的基因的重排频率；同时无法有效处理基因重复、假基因或多控制区等问题。也因此，该算法无法有效评价强差异的基因重排类型的重排分数。

发明内容

针对上述问题，本发明提供了一种优化的线粒体基因重排量化方法，允许对重排强度各异的基因簇给予不同权重，可以量化不同线粒体基因簇内的移位、倒置和基因洗牌等多种重排事件，从而显著地展示出不同类群线粒体基因组结构的差异性，在揭示基因组的演化规律、探索基因组功能、研究分子演化过程等方面具有重要的科学价值。

本发明通过下述技术方案来实现：一种优化的线粒体基因重排量化方法，包括以下步骤：

步骤S1.输入一条基准基因序列和待量化基因序列；

步骤S2. 待量化基因序列逐列与基准基因序列进行异或运算，统计待量化基因序列每个位置的基因与基准基因序列对应位置的差异程度，并将运算结果按差异程度由高到低存储到划分数组中；

步骤S3.取划分数组中差异程度最高的N个位置表示重排次数最高的N个基因，将基准基因序列和每个待量化基因序列分别划分为N+1个数组段；

步骤S4.指定滑动窗口的距离，使用滑动窗口技术在数组段内滑动，在滑动窗口内对每一段划分后的数组段分别计算得分；在滑动窗口滑动的过程中，在每个滑动窗口内寻找是否有与B[i]相同的基因S[j][i]，如果存在，就按照如下规则进行计分，如果不存在则直接计得分为2分；计算得分的规则为：

；

式中，X_ji表示第j条待量化基因序列中第i个基因的得分；B[i]表示基准基因序列第i个位置上的基因；B[i-1]表示基准基因序列第i-1个位置上的基因；B[i+1]表示基准基因序列第i+1个位置上的基因；S[j][i]表示第j条待量化基因序列中第i个位置的基因；S[j][i-1]表示第j条待量化基因序列中第i-1个位置的基因；S[j][i+1]表示第j条待量化基因序列中第i+1个位置的基因；

步骤S5.根据计算的X_ji,按如下方式更新相对重排频率值数组BScore和重排频率累加值数组SScore并输出：

；

其中，BScore[i]表示待量化基因序列中第i个基因的相对重排频率值， SScore[j]表示第j条待量化基因序列的重排频率累加值；m表示待量化基因序列的数量，n为基准基因序列的基因数量。

具体地，步骤S2的运算公式如下：

；

其中，D[i]表示划分数组第i个位置上的基因，xor表示异或运算。

具体地，选择N为5，取划分数组中差异程度最高的a,b,c,d,e 共5个位置，将基准基因序列和每个待量化基因序列分别划分为6个数组段：

基准基因序列=B[1,a)+B[a,b)+B[b,c)+B[c,d)+B[d,e)+B[e,n]；

第j条待量化基因序列=S[j][1，a)+S[j][a,b)+S[j][b,c)+ S[j][c,d)+ S[j][d,e)+ S[j][e,n]；

其中，B[1,a)表示基准基因序列第1个基因到第a-1个基因的数组段，B[a,b)表示基准基因序列第a个基因到第b-1个基因的数组段，B[b,c)表示基准基因序列第b个基因到第c-1个基因的数组段,B[c,d)表示基准基因序列第c个基因到第d-1个基因的数组段,B[d,e) 表示基准基因序列第d个基因到第e-1个基因的数组段,B[e,n] 表示基准基因序列第e个基因到第n基因的数组段；S[j][1,a)表示第j条待量化基因序列第1个基因到第a-1个基因的数组段，S[j][a,b)表示第j条待量化基因序列第a个基因到第b-1个基因的数组段，S[j][b,c)表示第j条待量化基因序列第b个基因到第c-1个基因的数组段, S[j][c,d)表示第j条待量化基因序列第c个基因到第d-1个基因的数组段, S[j][d,e) 表示第j条待量化基因序列第d个基因到第e-1个基因的数组段, S[j][e,n] 表示第j条待量化基因序列第e个基因到第n基因的数组段。

具体地，利用Python语言对动物线粒体基因组中每一个基因的基因序列进行分析提取，获取每条基因组上的所有的基因的排列信息，以每个类群中典型的动物线粒体基因组排布为基准基因序列。

本发明通过划分数组来基因序列分段，并使用滑动窗口来计算每个基因的得分，可以量化不同线粒体基因簇内的移位、倒置和基因洗牌等多种重排事件，从而显著地展示出不同类群线粒体基因组结构的差异性，具有较高的准确性。通过对一组待量化的基因序列填充间隙来完成比对，以更大程度的在最大简约原则下复现这组数据的同源性。

附图说明

图1为滑动窗口分区示意图，图中字母A、B、C、D、E、F、G、H、I、J均为基因名称。

具体实施方式

下面结合实施例对本发明进一步详细说明。

从线粒体基因组公共数据库中获取不同类型物种的所有线粒体基因组信息，如在Genebank数据库(https://www .ncbi .nlm .nih .gov/nuccore)中下载某一特定动物线粒体基因组的全序列数据，然后对数据进行处理：利用编程语言Python语言分析提取相关数据，得到线粒体基因组中每一个基因的位置信息，进而获取每条基因组上的所有基因的位置排序，为后期线粒体基因重排做准备。

本发明的一种优化的线粒体基因重排量化方法，包括以下步骤：

步骤S1.输入一条基准基因序列和待量化基因序列；

对每个位置上的基因，将待量化基因序列与基准基因序列相比较，与基准基因不同的个数记录下来，如基准基因序列中第五个位置上的基因为trnW，对第五列的所有基因进行纵向比较，将不是trnW的基因数量记录在划分数组的第五个位置上，划分数组的第五个位置上记录的基因数量就代表待量化基因序列第五个位置的基因与基准基因序列差异程度，对每一列都进行同样的操作，进而初步统计出每个位置基因的差异程度，并将运算结果按差异程度由高到低存储到划分数组中；

；

其中，D[i]表示划分数组第i个位置上的基因，基准基因序列是一维数组，B[i]表示基准基因序列第i个位置上的基因, 待量化基因序列是二维数组，m表示待量化基因序列的数量,S[j][i]表示第j条待量化基因序列中第i个位置的基因，xor表示异或运算。

步骤S3.取划分数组中差异程度最高的N个位置表示重排次数最高的N个基因，将基准基因序列和每个待量化基因序列分别划分为N+1个数组段。图1中N为2，划分为3个数组段，类似地，本实施例选择N为5，取划分数组中差异程度最高的5个位置(a,b,c,d,e)，将基准基因序列和每个待量化基因序列分别划分为6个数组段。

基准基因序列=B[1,a)+B[a,b)+B[b,c)+B[c,d)+B[d,e)+B[e,n]；

其中，B[1,a)表示基准基因序列第1个基因到第a-1个基因的数组段，B[a,b)表示基准基因序列第a个基因到第b-1个基因的数组段，B[b,c)表示基准基因序列第b个基因到第c-1个基因的数组段,B[c,d)表示基准基因序列第c个基因到第d-1个基因的数组段,B[d,e) 表示基准基因序列第d个基因到第e-1个基因的数组段,B[e,n] 表示基准基因序列第e个基因到第n基因的数组段，n为基准基因序列的基因数量；S[j][1,a)表示第j条待量化基因序列第1个基因到第a-1个基因的数组段，S[j][a,b)表示第j条待量化基因序列第a个基因到第b-1个基因的数组段，S[j][b,c)表示第j条待量化基因序列第b个基因到第c-1个基因的数组段, S[j][c,d)表示第j条待量化基因序列第c个基因到第d-1个基因的数组段, S[j][d,e) 表示第j条待量化基因序列第d个基因到第e-1个基因的数组段, S[j][e,n] 表示第j条待量化基因序列第e个基因到第n基因的数组段。

步骤S4.指定滑动窗口的距离，使用滑动窗口技术在数组段内滑动，在滑动窗口内对每一段划分后的数组段（B[1,a)、B[a,b)、B[b,c)、B[c,d)、B[d,e)、B[e,n]、S[j][1,a)等）分别计算得分，如指定滑动窗口距离为3，对数组段B[1,a)进行操作，则每一段滑动窗口分别为：B[1,3)、B[3,6)……B[a-3,a)。

在滑动窗口滑动的过程中，在每个滑动窗口内寻找是否有与B[i]相同的基因S[j][i]，如果存在，就按照如下规则进行计分，如果不存在则直接计得分为2分；计算得分的规则为：

；

式中，X_ji表示第j条待量化基因序列中第i个基因的得分；B[i-1]表示基准基因序列第i-1个位置上的基因；B[i+1]表示基准基因序列第i+1个位置上的基因； S[j][i-1]表示第j条待量化基因序列中第i-1个位置的基因；S[j][i+1]表示第j条待量化基因序列中第i+1个位置的基因；

得分的规则实际是：

相对于基准基因序列，如果该基因左右两侧相邻基因不变，则不给该基因加分；

如果左侧或是右侧相邻基因发生了改变，则给该基因加1分；

如果被考察基因出现缺失，重复，转置或是其两侧相邻的基因均发生了改变，则给该基因加2分。

；

对类群中每条待量化基因序列中的每个基因进行上述方法扫描，从而就可以获得该类群线粒体基因组中各个基因的相对重排频率值和重排频率累加值。

依据本发明中所提出的方法，本发明进行了两栖类、鱼类、爬行类、鸟类、哺乳类动物线粒体基因重排的研究，实验步骤如下：

（1）重新运算已发表的脊椎动物线粒体基因重排比较研究中的源数据。

（2）利用Python语言就上述数据包进行清洗。

（3）利用本发明提出的方法，分别计算各分类单元的单个基因的重排频率。再对不同基因重排类型的量化分数进行分析研究。

（4）比较qMGR和本发明提出的方法的量化结果，获得的新发现如下：

(1)从NCBI网站下载两栖类、鱼类、爬行类、鸟类、哺乳类动物动物线粒体基因组全序列数据，共计2834个物种信息(2023年6月下载)。

(2)利用Python语言对上述动物线粒体基因组中每一个基因的基因序列进行分析提取，获取每条基因组上的所有的基因的排列信息，以每个类群中典型的动物线粒体基因组排布为基准基因序列。

(3)利用本发明提出的方法，计算出单个基因重排频率。再对各个物种的量化分数进行分析研究。

(4)在对两栖动物线粒体基因组组成中的37个基因和CR区(ControlRegion区)的基因重排情况进行量化计算，获得的新发现如下：

①去除离群值后，五个分类群的重排得分（RS）依次为两栖类 > 鱼类 > 哺乳类 >爬行类 > 鸟类；类群内差异度分化强度依次为哺乳类> 鱼类 > 两栖类 > 爬行类 > 鸟类。

②鱼类线粒体基因组的重排类型多样，保守性最低。重排得分（RS）均值在五个分类群中最高。重排频率（RF）最高的基因是trnQ、trnM和trnE，重排频率最高的蛋白质编码基因为nad6。

③两栖类线粒体基因组完全没有反转，但存在单个基因或基因簇的长距离位移。重排频率（RF）较高的基因有trnM、trnL1和trnP，蛋白质编码基因的重排频率均不高。

④爬行类线粒体基因组的重排类型主要包括反转、长距离位移、基因复制等。重排频率（RF）较高的基因有发生复制的trnL2，和重排高频发生的控制区上游若干基因。

⑤鸟类线粒体基因组仅在控制区上游段落发生基因复制，其余基因均未发生任何重排。但需要注意鸟类基因组存在大量源数据的注释错误，需要清洗数据后再重新量化。

⑥哺乳动物线粒体基因组仅在trnW至trnC这一基因簇中发生位移变化，反转基因仅局限于tRNA。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该本发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种优化的线粒体基因重排量化方法，其特征在于，包括以下步骤：

步骤S1.输入一条基准基因序列和待量化基因序列；

；

2.根据权利要求1所述的一种优化的线粒体基因重排量化方法，其特征在于，步骤S2的运算公式如下：

；

3.根据权利要求1所述的一种优化的线粒体基因重排量化方法，其特征在于，选择N为5，取划分数组中差异程度最高的a,b,c,d,e 共5个位置，将基准基因序列和每个待量化基因序列分别划分为3个数组段。

4.根据权利要求3所述的一种优化的线粒体基因重排量化方法，其特征在于，对基准基因序列和待量化基因序列的划分方式如下：

基准基因序列=B[1,a)+B[a,b)+B[b,c)+B[c,d)+B[d,e)+B[e,n]；

第j条待量化基因序列=S[j][1，a)+S[j][a,b)+S[j][b,c)+ S[j][c,d)+ S[j][d,e)+S[j][e,n]；

5.根据权利要求1所述的一种优化的线粒体基因重排量化方法，其特征在于，利用Python语言对动物线粒体基因组中每一个基因的基因序列进行分析提取，获取每条基因组上的所有的基因的排列信息，以每个类群中典型的动物线粒体基因组排布为基准基因序列。

6.根据权利要求1所述的一种优化的线粒体基因重排量化方法，其特征在于，步骤S3中选择N为2。

7.根据权利要求1所述的一种优化的线粒体基因重排量化方法，其特征在于，步骤S4中指定滑动窗口距离为3。