CN111261228A

CN111261228A - 计算保守核酸序列的方法及系统

Info

Publication number: CN111261228A
Application number: CN202010162536.9A
Authority: CN
Inventors: 马岚; 林乾宇
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-06-09
Anticipated expiration: 2040-03-10
Also published as: CN111261228B

Abstract

本发明公开了一种计算保守核酸序列的方法及系统。涉及生物领域，其中，方法通过基于数据集中氨基酸序列，计算预选序列与氨基酸序列的全局保守度，然后将全局保守度大于第一候选阈值的氨基酸序列作为保守氨基酸序列，再标记保守氨基酸序列在核酸序列中的位置区域，并分析位置区域中每个碱基位的单核苷酸多态性得到每个核酸序列的点突变结果，将点突变的个数小于第二突变阈值的核酸序列作为保守核酸序列。能够应用于大样本量的数据集，同时结合氨基酸序列和核酸序列，进行保守核酸序列分析，提高计算所得的保守核酸序列的保守性。

Description

计算保守核酸序列的方法及系统

技术领域

本发明涉及生物领域，尤其是涉及一种计算保守核酸序列的方法及系统。

背景技术

在生物学中，保守序列指的是具有高度相似性或同一性的分子序列，这些序列可以是核酸序列(如RNA或DNA序列)、蛋白质序列、蛋白质结构或糖类中的序列等，这些序列高度相似，却来自不同的物种或同一生物体产生的不同分子。从跨种保留的角度来看，这种序列的存在意味着在形成不同物种的进化过程中，有一段特殊的基因序列被保留了下来。通过分析不同进化阶段生物体的基因组发现，不同生物体的基因组中有些序列有惊人的相似，这些相似的序列就是保守序列，通过保守序列可以研究发生突变的几率。

相关技术中多是通过Clustal算法、T-coffee算法或MUSCLE算法来计算保守序列。但是Clustal算法无法应用于大样本量数据集，多序列比对速度也较低；T-coffee算法仅适用于不多于100条序列的较小样本数据集。因此需要提出一种能够适用于大样本数据集的保守核酸序列计算方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种计算保守核酸序列的方法，能够应用于大样本数据集计算保守核酸序列，同时提高计算所得的保守核酸序列的保守性。

第一方面，本发明的一个实施例提供了：一种计算保守核酸序列的方法，包括：

基于数据集中氨基酸序列，计算预选序列与所述氨基酸序列的全局保守度；

将所述全局保守度大于第一候选阈值的所述氨基酸序列作为保守氨基酸序列；

标记所述保守氨基酸序列在核酸序列中的位置区域，并分析所述位置区域中每个碱基位的单核苷酸多态性得到每个所述核酸序列的点突变结果；

将所述点突变的个数小于第二突变阈值的所述核酸序列作为保守核酸序列。

进一步地，所述基于数据集中氨基酸序列，计算预选序列与所述氨基酸序列的全局保守度，包括：

利用广度优先搜索算法在所述数据集中，计算每个所述氨基酸序列与所述预选序列之间的全局保守度。

进一步地，所述全局保守度表示为：

其中，p_i表示全局保守度，q_i表示预选序列，d_j表示数据集中的氨基酸序列，n表示数据集中氨基酸序列的个数。

进一步地，所述标记所述保守氨基酸序列在核酸序列中的位置区域，包括：

将核酸序列按照遗传密码子翻译成目标氨基酸序列；

利用动态规划法在所述目标氨基酸序列中标记所述保守氨基酸序列在所述目标氨基酸序列中的位置；

根据核酸序列与氨基酸序列对应关系，标记所述保守氨基酸序列在所述核酸序列的位置区域。

进一步地，分析所述位置区域中每个碱基位的单核苷酸多态性的过程包括：

记录每个核酸序列对应的所述位置区域；

通过统计碱基在每个碱基位上的百分比分析每个碱基位上的单核苷酸多态性，所述碱基包括：腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤。

进一步地，若每个碱基位上最大占比碱基的百分比低于所述第三碱基阈值，则判断所述碱基位上发生了点突变。

进一步地，还包括延长所述保守氨基酸序列。

第二方面，本发明的一个实施例提供了：一种计算保守核酸序列的系统，包括：

计算全局保守度单元：用于基于数据集中氨基酸序列，计算预选序列与所述氨基酸序列的全局保守度；

判断保守氨基酸序列单元：用于将所述全局保守度大于第一候选阈值的所述氨基酸序列作为保守氨基酸序列；

分析单核苷酸多态性单元：用于标记所述保守氨基酸序列在核酸序列中的位置区域，并分析所述位置区域中每个碱基位的单核苷酸多态性得到每个所述核酸序列的点突变结果；

判断保守核酸序列单元：用于将所述点突变的个数小于第二突变阈值的所述核酸序列作为保守核酸序列。

第三方面，本发明的一个实施例提供了：一种计算保守核酸序列的设备，包括：

至少一个处理器，以及与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如第一方面任一项所述的方法。

第四方面，本发明的一个实施例提供了：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面任一项所述的方法。

本发明实施例的有益效果是：

本发明实施例基于数据集中氨基酸序列，计算预选序列与氨基酸序列的全局保守度，然后将全局保守度大于第一候选阈值的氨基酸序列作为保守氨基酸序列，再标记保守氨基酸序列在核酸序列中的位置区域，并分析位置区域中每个碱基位的单核苷酸多态性得到每个核酸序列的点突变结果，将点突变的个数小于第二突变阈值的核酸序列作为保守核酸序列。能够应用于大样本量的数据集，同时结合氨基酸序列和核酸序列，进行保守核酸序列分析，提高计算所得的保守核酸序列的保守性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例中计算保守核酸序列方法的一具体实施例流程示意图；

图2是本发明实施例中计算保守核酸序列系统的一具体实施例结构框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

实施例一：

本发明实施例一提供一种计算保守核酸序列的方法。

相关技术中，进行保守序列计算的CLUSTAL算法是一种渐进的比对方法，先将多个序列两两比对构建距离矩阵，反应序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权；然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。但是该算法无法应用于大样本量数据集，同时多序列比对速度也较低。

T-coffee算法首先构建一个库包含有CLUSTAL得到的序列两两比对和FASTA得到的局部两两比对，并且给每个比对一个权重，然后把全局比对和局部比对的结果进行整合，每个两两比对中每个位点的比对都是综合了库中该两两比对的序列和其他序列比对的结果，这样就给该位点比对一个权重用以表明该位点的该比对在整个库中的合理性程度。但是其计算速度非常慢，其时间复杂度较高，因此能够应用的数据集较小(例如n<100)。

因此本发明实施例提供一种计算保守核酸序列的方法，能够应用于大样本数据集计算保守核酸序列，同时提高计算所得的保守核酸序列的保守性。

图1为本发明实施例提供的一种计算保守核酸序列的方法的流程示意图，如图1所示，该方法包括以下步骤：

S100：基于数据集中氨基酸序列，计算预选序列与氨基酸序列的全局保守度，在一种实施例中，预选序列可以是用于计算保守性的目的基因序列。

S110：将全局保守度大于第一候选阈值的氨基酸序列作为保守氨基酸序列。

S120：标记保守氨基酸序列在核酸序列中的位置区域，并分析位置区域中每个碱基位的单核苷酸多态性得到每个核酸序列的点突变结果。

S130：将点突变的个数小于第二突变阈值的核酸序列作为保守核酸序列。

具体的，在一种实施例中，步骤S100中，计算全局保守度的过程包括：利用广度优先搜索算法在数据集中，计算每个氨基酸序列与预选序列之间的全局保守度。

其中，广度优先搜索算法是一种(Breadth-First Search，BFS)盲目搜寻方法，目的是系统地展开并检查图中的所有节点，以找寻结果。其并不考虑结果的可能位置，而是彻底地搜索整张图，直到找到结果为止。广度优先搜索在搜索访问一层时，需要记住已被访问的节点，以便在访问下层节点时，从已被访问的节点出发搜索访问其邻接点。所以在广度优先搜索中需要设置一个队列Queue，使已被访问的节点顺序由队尾进入队列。在搜索访问下层节点时，先从队首取出一个已被访问的上层节点，再从该节点出发搜索访问它的各个邻接点。

例如在一种实施例中，建立数据集中氨基酸序列的队列，队列中的节点可以是氨基酸序列，利用队列的结构，先从开始节点的邻居节点开始遍历，先检索一个节点是否满足要求，即计算该氨基酸序列与预选序列之间的全局保守度，计算完成后，将该节点弹出队列并将该节点的邻居节点加入队列，最终完成遍历搜素，计算数据集中每一个氨基酸序列的全局保守度。

在一种实施例中，全局保守度表示为：

其中，p_i表示全局保守度，q_i表示预选序列，d_j表示数据集中的氨基酸序列，n表示数据集中氨基酸序列的个数。子串指该预选序列是该氨基酸序列的一部分。

在一种实施例中，步骤S110在得到预选序列的全局保守度之后，将全局保守度大于第一候选阈值的氨基酸序列作为保守氨基酸序列。

其中第一候选阈值可以根据实际应用需求进行设置，例如在进行流感病毒分析时，可以设置第一候选阈值为0.99，即凡是数据集中氨基酸序列对应的全局保守度p_i>0.99，则该氨基酸序列作为保守氨基酸序列。

在一种实施例中，还包括对保守氨基酸序列进行延长，进一步提高分析准确度。延长的方式例如可选电子克隆等方式，其中，电子克隆(in silico cloning)基于表达序列标签(expressed sequence tags，ESTs)，利用生物信息学技术组装延伸ESTs序列，获得基因的部分乃至全长cDNA序列，进一步利用RT-PCR的方法进行克隆分析、验证。在实际应用中，以模式物种(如预选序列)某一已知基因序列为起点，结合目标物种EST数据库，采用现代生物信息学及实验验证相结合的技术方法，尤其是通过同源性比较完全有可能快速筛选到一些具有重要功能的基因，进行克隆延长。

由于核酸经过转录和翻译表达蛋白，故蛋白质中的氨基酸序列与核酸中含的遗传信息也存在很多相关性。在一种实施例中，结合氨基酸序列和核酸序列，进行保守核酸序列分析。具体的，步骤S120中，标记保守氨基酸序列在核酸序列中的位置区域，并分析位置区域中每个碱基位的单核苷酸多态性得到每个核酸序列的点突变结果。

例如可通过下述步骤标记保守氨基酸序列在核酸序列中的位置区域：

S1210：将核酸序列按照遗传密码子翻译成目标氨基酸序列。

由于核酸序列与氨基酸序列之间的联系，能够通过对照遗传密码子，将氨基酸一个个排列出来，三个核苷酸序列可以编码为一个氨基酸，其中包括起始密码子和终止密码子，例如可以对照64的密码子将核酸序列翻译成目标氨基酸序列。

S1220：利用动态规划法在目标氨基酸序列中标记保守氨基酸序列在目标氨基酸序列中的位置，即通过动态规划在目标氨基酸序列中找到与保守氨基酸序列重叠的位置。

S1230：根据核酸序列与氨基酸序列对应关系，标记保守氨基酸序列在核酸序列的位置区域。即根据保守氨基酸序列在目标氨基酸序列中的位置得到对应保守氨基酸序列在核酸序列上的位置区域，该位置区域包含多个碱基位。

S1240：分析位置区域中每个碱基位的单核苷酸多态性。

在一种实施例中，分析位置区域中每个碱基位的单核苷酸多态性的过程包括：

S1241：记录每个核酸序列中保守氨基酸序列对应的位置区域；

然后通过统计碱基在核酸序列的每个碱基位上的占比的百分比，以此分析每个碱基位上的单核苷酸多态性，其中用到的碱基包括：腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤。

碱基是合成核苷、核苷酸和核酸的基本组成单位，是一类含氮碱基。生物体中常见的碱基有5种，分别是腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)和尿嘧啶(U)，腺嘌呤和鸟嘌呤属于嘌呤族(缩写作R)，具有双环结构。胞嘧啶、尿嘧啶、胸腺嘧啶属于嘧啶族(Y)，环系是一个六元杂环。碱基是组成遗传密码的基本单元，其中碱基A、G、C和T存在于DNA中，而A、G、C和U存在于RNA中。因此本实施例中，分析单核苷酸多态性用到的碱基包括：腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤，即碱基A、G、C、T。

S1242：若每个碱基位上最大占比碱基的百分比低于第三碱基阈值，则判断碱基位上发生了点突变。即当某个核酸序列中某个碱基位上最大占比的碱基的百分比低于第三碱基阈值，则认为全局情况中发生了点突变。例如在进行流感病毒分析时，可以设置第三碱基阈值为95％，即凡是核酸序列对应的碱基位上占比的碱基的百分比低于0.95，则该核酸序列的对应碱基位发生了点突变。

在一种实施例中，统计核酸序列中发生点突变的个数，将点突变的个数小于第二突变阈值的核酸序列作为保守核酸序列。即认为在全局情况下，发生点突变个数较多的核酸序列不属于保守核酸序列，只有点突变个数低于第二突变阈值的核酸序列才认为是保守核酸序列。

例如在进行流感病毒分析时，可以设置第二突变阈值为5个，即凡是核酸序列对应的点突变个数大于5个时，认为该核酸序列的点突变个数较多，不属于保守核酸序列。

在一种实施例中，本实施例的计算保守核酸序列的方法结合氨基酸序列和核酸序列联合进行保守核酸序列分析，能够应用于分析样本量n>100000的大样本量数据集，同时其得到的保守序列具有极高的保守度(如P>99％)。

实施例二：

本实施例提供一种计算保守核酸序列的系统，用于执行如实施例一所述的方法，如图2所示，为本实施例的计算保守核酸序列的系统结构框图，包括：

计算全局保守度单元1000：用于基于数据集中氨基酸序列，计算预选序列与氨基酸序列的全局保守度；

判断保守氨基酸序列单元2000：用于将全局保守度大于第一候选阈值的氨基酸序列作为保守氨基酸序列；

分析单核苷酸多态性单元3000：用于标记保守氨基酸序列在核酸序列中的位置区域，并分析位置区域中每个碱基位的单核苷酸多态性得到每个核酸序列的点突变结果；

判断保守核酸序列单元4000：用于将点突变的个数小于第二突变阈值的核酸序列作为保守核酸序列。

上述中计算保守核酸序列的系统各单元模块的具体细节已经在实施例一对应的计算保守核酸序列方法中进行了详细的描述，因此此处不再赘述。

另外，本发明还提供计算保守核酸序列的设备，包括：

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如实施例一所述的方法。计算机程序即程序代码，当程序代码在计算保守核酸序列设备上运行时，程序代码用于使计算保守核酸序列设备执行本说明书上述实施例一部分描述的计算保守核酸序列方法中的步骤。

另外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，其中计算机可执行指令用于使计算机执行如实施例一所述的方法。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、终端、存储介质和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上各实施例仅用以说明本发明的技术方案，而非对其限制，尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种计算保守核酸序列的方法，其特征在于，包括：

2.根据权利要求1所述的一种计算保守核酸序列的方法，其特征在于，所述基于数据集中氨基酸序列，计算预选序列与所述氨基酸序列的全局保守度，包括：

3.根据权利要求2所述的一种计算保守核酸序列的方法，其特征在于，所述全局保守度表示为：

4.根据权利要求1所述的一种计算保守核酸序列的方法，其特征在于，所述标记所述保守氨基酸序列在核酸序列中的位置区域，包括：

将核酸序列按照遗传密码子翻译成目标氨基酸序列；

5.根据权利要求4所述的一种计算保守核酸序列的方法，其特征在于，分析所述位置区域中每个碱基位的单核苷酸多态性的过程包括：

记录每个核酸序列对应的所述位置区域；

6.根据权利要求5所述的一种计算保守核酸序列的方法，其特征在于，若每个碱基位上最大占比碱基的百分比低于第三碱基阈值，则判断所述碱基位上发生了点突变。

7.根据权利要求1至6任一项所述的一种计算保守核酸序列的方法，其特征在于，还包括延长所述保守氨基酸序列。

8.一种计算保守核酸序列的系统，其特征在于，包括：

9.一种计算保守核酸序列的设备，其特征在于，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的方法。