CN115862740A

CN115862740A - 一种面向大规模病毒基因组数据的快速分布式多序列比对方法

Info

Publication number: CN115862740A
Application number: CN202211554754.2A
Authority: CN
Inventors: 任洪广; 胡明达; 靳远; 王博千; 梁龙; 岳俊杰; 杨浩艺; 龚行飞
Original assignee: Academy of Military Medical Sciences AMMS of PLA
Current assignee: Academy of Military Medical Sciences AMMS of PLA
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-28
Anticipated expiration: 2042-12-06
Also published as: CN115862740B

Abstract

本发明公开了一种面向大规模基因组数据的快速分布式多序列比对方法。包括如下步骤：1)先提取待测基因组数据中的类特征序列，2)将类特征序列分为多个小数据集进行分布式多序列比对运算，获得多个小数据集的多序列比对结果，3)使用比对校准算法调整每个小数据集的多序列比对结果；4)对各小数据集的多序列比对结果进行转化整合形成类特征序列比对数据集文件；5)对类特征序列比对数据集文件进行聚类还原处理，完成大规模基因组数据的快速多序列比对。本发明通过类特征序列提取和分布式多序列比对的方法，大幅度减少传统多序列比对方法所需的运算时间和运算存储消耗，运算速度快，序列比对结果合理高效。

Description

一种面向大规模病毒基因组数据的快速分布式多序列比对方法

技术领域

本发明涉及生物技术领域，尤其涉及一种基于分布式计算的，针对大规模新冠病毒基因组数据的快速多序列比对方法。

背景技术

基因多序列比对技术是生物信息学分析和病毒基因变异检测中常用的分析手段。主要内容是通过使用向参与比对的序列中插入Gap占位字符的方法，使得所有序列中的相同残基位点位于同一列。基因多序列比对可以对齐所有序列中的相同或者相似部分，从而便于寻找病毒突变位点，推断序列间的进化关系。

当前新冠病毒通过基因突变已经产生了多种传播能力增强的新型毒株，并在美国，英国，南非，巴西，印度等局部地区不断引发大规模的疫情。面对病毒的变异，如何快速准确的检测病毒的突变位点是当前急需解决的重要科学问题。

检测病毒突变位点的方法一般包括基因数据集筛选，参考序列选定，基因多序列比对等步骤。其中基因多序列比对是检测病毒突变位点的核心技术和关键步骤。

目前常规的基因多序列比对的计算复杂度与待比对的基因样本量成指数增长关系，即随着样本量的增长，多序列比对算法所需的计算时间和计算存储消耗将成指数增长。而目前，公开的新冠病毒基因组数据已经超过200万条，面对如此大规模病毒基因组数据，常规的基因多序列比对算法所需要的计算资源和计算时间是无法估量的。因此，针对正在快速发展的疫情，急需一种快速的，计算资源消耗可控的多序列比对方法用于辅助监测病毒变异。

发明内容

本发明的一个目的是提供一种面向大规模新冠病毒基因组数据的快速分布式多序列比对方法。

本发明的针对大规模病毒基因组数据的快速分布式多序列比对方法，包括如下步骤：1)先提取待测基因组数据中的类特征序列，2)依据步骤1得到的类特征序列的数据规模，将类特征序列分为若干小数据集进行分布式多序列比对运算，获得若干小数据集的多序列比对结果，3)使用比对校准算法调整每个小数据集的多序列比对结果；4)然后通过计算一致性参考序列和转化信息表，对各小数据集的多序列比对结果进行转化整合形成类特征序列比对数据集文件；5)对步骤4)中的类特征序列比对数据集文件进行聚类还原处理，完成大规模新冠病毒基因组数据的快速多序列比对。

其中，在所述步骤1)之前还包括对基因组数据的预处理，包括如下步骤：

S1)从原始数据库中获得基因组完整的且与所述参考毒株序列同种病毒同种基因同种类型的基因组序列，其中基因组序列可包括核酸序列和氨基酸序列两种类型；

S2)对步骤S1)得到的每个基因组序列进行质量控制与长度筛选,得到待测基因组数据，筛选方法如S21)和S22)所示：

S21)计算序列中异常字符所占有的比例P，记序列总长度为N，序列中异常字符数量μ，计算公式为：

如果P＞0.1，则从基因组序列数据集中删除该基因组序列；

S22)计算每一条基因组序列长度完整度L，记序列总长度为N，参考株序列总长度为N₀，计算公式为：

如果L＜0.8，则从基因组序列数据集中删除该基因组序列。

其中，所述分布式比对运算包括如下两个步骤：

1)将待测数据集随机分割为若干小数据集。

2)并行运行多序列比对工具对所有小数据集进行多序列比对。

其中，所述比对校准算法包好如下四个步骤：

1)提取参考株序列，作为比对校准模板。

2)确定序列的起始和终止位置，并删除起始位置之前和终止位置时候的序列信息。

3)删除序列比对结果中长度不足的序列或者存在异常字符的序列。

4)删除序列集中全部是GAP占位字符的空列。

其中，所述步骤1)中先提取待测基因组数据中的类特征序列的具体步骤为：

11)统计待测基因组数据中所有序列信息，将基因序列完全相同的所有序列记为一类，并生成聚类信息表。记类特征序列为Seq_y，编号为Num_y，序列名称为name。

聚类信息表格式如下：_i

Cluster(Num_y)＝{Seq_y:[name_α,name_β,…,name_λ]}

12)提取聚类信息表中的每一类的类特征序列，生成待比对基因序列数据集，其中类特征序列的名称为类的编号。

其中，所述步骤2)中的分布式多序列比对运算的具体步骤为：

21)将步骤12)得到的待比对基因序列数据集分割为样本量一致的若干小数据集，使得每个小数据集包含的毒株数量不超过R，其中R为保持多序列比对工具最佳计算效率的最大样本数；

22)将参考毒株序列分别加入到步骤21)中分割后的每个小数据集中；

23)使用多序列比对工具，采用并行计算的方式对步骤22)中得到的小数据集分别进行多序列比对计算，得到若干比对后的小数据集，记为{S₀,S₁,…,S_m}，小数据集的总个数记为m+1个。

其中，以比对后的小数据集S_i为例，所述步骤3)中的比对校准算法调整的方法为：

31)从小数据集S_i(0≤i≤m)中提取参考毒株序列，记为Seq₀，S_i中其他序列记为

32)从比对后的参考序列中确定序列的起始位置和终止位置分别记为a，b。记参考序列Seq₀的基因序列为{p₁,p₂,…,p_n}，计算公式：

当1≤j<a时，任意p_j＝Gap

当b<j≤n时，任意p_j＝Gap

且p_a≠Gap，p_b≠Gap；

所述Gap为字符“-”，是多序列比对时用来对齐序列的占位字符；

33)根据32)中得到的起始位置和终止位置信息，删除小数据集中所有序列起始位置之前的字符和终止位置之后的字符；记小数据集S_i中的序列Seq_y(1≤y≤r)的基因序列为{p^y ₁,p^y ₂,…,p^y _n}，删除字符后保留的基因序列为{p^y _a,p^y _a+1,…,p^y _b}()；

34)对33)中得到的数据集进行有效长度筛选。记参考序列Seq₀中有效字符数为N₀，Seq_y(1≤y≤r)的有效字符数为N_y；其中有效字符指序列中的非Gap字符，计算公式如下：

如果L_y＜0.8，则从数据集中删除该基因组序列。经过筛选后保留其他基因组序列；

35)对34)中得到的数据集进行异常比对校正。校正算法如下：

若参考序列Seq₀中p_j＝Gap时(a≤j≤b)，数据集中存在序列Seq_y(1≤y≤r)中p^y _j＝ε；其中ε为异常字符，则从数据集中删除序列Seq_y；

若参考序列Seq₀中p_j＝Gap时(a≤j≤b)，数据集中存在序列Seq_y(1≤y≤r)中p^y _j≠Gap；记序列Seq_y中异常字符数量E_y，

若则EP_y＞0.05,从数据集中删除序列Seq_y；

若参考序列Seq₀中p_j＝Gap时(a≤j≤b)，任取数据集中序列Seq_y(1≤y≤r)中都有p^y _j＝Gap；则删除所有序列中的第j位字符。

其中，所述步骤3)中对每个比对后的小数据集进行校准，得到的比对校准后的所有小数据集为{S'₀,S'₁,…,S'_m}。

其中，所述步骤4)中的转化整合的方法为：

41)提取小数据集{S'₀,S'₁,…,S'_m}中的所有参考株序列

其中

(0≤i≤m)是小数据集S'_i中经过比对校准的参考毒株序列；

42)计算一致性参考株序列

使得任意

(0≤i≤m)都可通过插入Gap占位字符的方式，转化成

记

转化成

时需要插入Gap占位字符的位置信息为转化信息表:{lⁱ ₁,lⁱ ₂,…,lⁱ _n}，；

43)任一小数据集S'_i(0≤i≤m)，都有转化信息表{lⁱ ₁,lⁱ ₂,…,lⁱ _n}。数据集S'_i中的所有序列

都按照转化信息表中记载的位置插入Gap字符。使得所有序列的长度与

的长度一致；

44)将通过步骤43)进行调整后的所有小数据集中的序列进行合并，形成类特征序列比对数据集文件。

其中，所述待测病毒为新冠病毒。

上述方法中，所述大规模新冠病毒基因组数据为基因序列总数量超过100万的病毒基因序列集；

上述方法中，所述基因组数据包括氨基酸序列数据和DNA序列数据两个类型；

上述方法中，所述参考毒株序列为病毒库中规定的信息完整质量完好的标准序列；

上述方法中，所述类特征序列为聚类后每一类代表毒株的基因组序列；

上述方法中，所述序列长度为每一条基因序列包含的字符数量；

上述方法中，所述常规多序列比对工具为软件MAFFT V7.271；

上述方法中，所述Gap为字符“-”，是多序列比对时用来对齐序列的占位字符。

所述的快速分布式多序列比对方法在待测病毒的多序列比对运算中的应用也应在本发明的保护范围之内。

本发明的实验表明，与现有技术相比，本发明的优点在于：1、使用基因序列聚类方法，避免了重复运算，有效降低了病毒基因组数据的运算复杂度和数据量。2、使用分布式多序列比对方法、配合比对信息转化方法，将大规模基因数据运算化整为零、提高了运算处理效率、降低对运算设备的要求、大幅缩减了大规模基因组数据的多序列比对的运算时间。3、使用比对校准算法可以自动化处理比对后的序列数据，并完成快速调整病毒序列比对质量的目的，不需要进行人工调整和筛选，降低了运算复杂度。4、多序列比对全部流程可自动化快速处理，更便于建立高效的运算系统。

本发明通过类特征序列提取，分布式多序列比对，自动化比对校准以及多序列比对信息整合等方法，实现了针对基因组大数据的快速多序列比对。本发明可比对的基因组数据量庞大，运算速度快，运行时间短，可辅助快速全面追踪病毒的变异趋势与历史进程。该发明避免了传统方法中针对大数据处理能力不足，运算时间过长，存储空间过大的问题。该方法主要优势体现在可自动化快速进行大规模病毒基因组多序列比对运算，不需要进行人工参与，利用该技术优势，可为实时监控疫情发展和病毒变异趋势提供重要技术支撑。

附图说明

图1为大规模新冠病毒基因组数据的快速分布式序列比对方法流程示意图。(这部分是总体的流程图，是全部过程的一个概览，不知道该怎么对应实例)

图2为分布式多序列比对方法原理示意图。

图3为序列聚类分析与类特征序列提取流程示意图。

图4为多序列比对校准算法流程示意图。

图5为分布式多序列比对结果准确性随机样本验证。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南，并不以任何方式构成对本发明的限制。

下述实施例中的实验方法，如无特殊说明，均为常规方法，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

下述实施例中所述数据库指的是公共基因组数据库GISAID网站(https://www.gisaid.org/)

实施例1、新冠病毒S蛋白氨基酸序列的快速分布式多序列比对方法

如图1所示，本实施例提供一种新冠病毒S蛋白氨基酸序列的快速分布式多序列比对方法，具体包括如下步骤：

一、大规模新冠病毒基因组样本制备

针对大规模新冠病毒S蛋白氨基酸序列样本的制备包括如下步骤：

1、构建新冠病毒S蛋白基因组数据库

从数据库中获得所有完整基因组且具有全长序列的新冠病毒S蛋白氨基酸序列，记作新冠病毒S蛋白基因组数据库。截止到2021年6月18日，数据库中收集到的序列数量约为198万条。

2、标准化序列命名

根据序列命名规则逐一将步骤1得到的新冠病毒S蛋白基因组数据库中氨基酸序列进行标准化重命名处理。

序列命名规则为：>基因名称|序列名称|时间信息|序列编号|地理信息。

3、提取参考菌株序列

根据数据库中建议的参考菌株信息，提取序列：>Spike|hCoV-19/Wuhan/Hu-1/2019|2019-12-31|EPI_ISL_402125|China，作为新冠病毒S蛋白基因组数据库的参考菌株序列。

二、大规模新冠病毒基因组样本的质量控制和长度筛选

针对新冠病毒S蛋白基因组数据库的质量控制和长度筛选包括如下步骤：

1、样本的质量控制的方法为：分别计算数据库中每条序列的异常字符占比，若

P>0.1，则删除该序列。

异常字符占比计算公式为：

其中，μ为每条序列中异常字符的数量，核酸序列中异常字符包括除字符A、字符T、字符G、字符C之外的所有字符，氨基酸序列中异常字符主要是指字符X(X是指在数据中对氨基酸序列中无法用20中氨基酸缩写字母表达的结果)，N为序列总长度。

2、长度筛选的方法为,分别计算每一条基因组序列长度完整度，如果L＜0.8，则从基因组序列数据集中删除该基因组序列。记序列总长度为N，参考株序列总长度为N₀，长度完整度计算公式为：

其中新冠病毒S蛋白参考序列总长度N₀＝1274。

3、经过质量控制和长度筛选后新冠病毒S蛋白基因组数据库保留基因组序列数量为163万条，作为待测数据集。

三、病毒基因组待测数据集聚类分析

针对新冠病毒S蛋白基因组待测数据集进行序列聚类分析，具体步骤如下：

1、统计待测数据集中所有序列信息，将基因序列完全相同的所有序列记为一类(每一类中的所有序列应该都是相同的，只不过序列标注的时间地点信息会有不同)，根据类生成的顺序给每一类依次编号，并生成聚类信息表。聚类信息表中应详细记录每一类的基本信息，内容包括类的编号，类所有包含的所有序列名称，以及类特征序列。记第y个生成的类特征序列(完全相同的基因序列)为Seq_y，类编号为Num_y，类中的序列名称依次用name_α，name_β……name_λ表示。聚类信息表格式应为：

Cluster(Num_y)＝{Seq_y:[name_α,name_β,…,name_λ]}。

2、提取聚类信息表中的所有的类特征序列，生成待比对基因序列数据集(待比对基因序列数据集的任意两个类特征序列均不相同，即避免了重复序列)，其中类特征序列的名称为类的编号Num_y。新冠病毒S蛋白待比对基因序列数据集中包含类特征序列的数量为13.9万条。

四、病毒基因组分布式多序列比对运算

针对新冠病毒S蛋白待比对基因序列集，进行分布式比对运算，如图2所示。具体步骤如下：

1、将新冠病毒S蛋白待比对基因序列集分割为样本量一致的若干小数据集。使得每个小数据集包含的毒株数量不超过R。其中R为保持多序列比对工具最佳计算效率的最大样本数。可根据实际计算能力情况，本实施例中设定R＝930。总计小数据集的数量为150个。

2、将步骤一种确定的参考毒株序列分别加入到中分割后的150个小数据集中。

3、使用多序列比对工具MAFFT V7.271，采用并行计算的方式对步骤2中得到的小数据集分别进行多序列比对计算。得到150个比对后的小数据集，记为{S₀,S₁,…,S₁₄₉}。每个比对后的小数据集中均包含与原序列一一对应的比对后的序列，并根据比对工具MAFFTV7.271原则，以加入Gap字符的方式，保证数据集中的所有比对后的序列长度相同、氨基酸位点尽可能多的一一对应。

五、多序列比对结果校准

针对步骤四中比对后的150个小数据集{S₀,S₁,…,S₁₄₉}，逐一进行比对校准操作，具体步骤为：

1、从小数据集S_i(0≤i≤149)中提取参考毒株序列，记为Seq₀，S_i中其他序列记为{Seq₁,Seq₂,…,Seq_r}

2、从比对后的参考毒株序列中确定序列的起始位置和终止位置分别记为a，b。

记参毒株考序列Seq₀的基因序列为{p₁,p₂,…,p_n}，通过下述公式确定a和b的位置：

当1≤j<a时，任意p_j＝Gap；

当b<j≤n时，任意p_j＝Gap；

且p_a≠Gap，p_b≠Gap。

其中，Seq₀表示比对运算后数据集S_i中的参考序列，p_j表示参考序列Seq₀，第j位的字符，Gap表示占位字符，即字符‘-’。

3、根据得到的起始位置和终止位置信息，删除小数据集中所有序列起始位置之前的字符和终止位置之后的字符，记小数据集S_i中的序列Seq_y(1≤y≤930)的基因序列为{p^y ₁,p^y ₂,…,p^y _n}，删除字符后保留的基因序列Seq’_y为{p^y _a,p^y _a+1,…,p^y _b}。

4、对数据集进行有效长度校正。记比对后的参考毒株序列Seq₀中有效字符数(参考毒株序列的长度)为N₀＝1274，Seq’_y(1≤y≤930)的有效字符数为N_y。其中有效字符指序列中的非Gap字符，计算公式如下：

如果L_y＜0.8，则从数据集中删除该基因组序列。经过筛选后保留其他基因组序列。这部分操作是要去除经过比对后包含序列信息过少的序列。

5.对每个小数据集进行上述步骤1-4的校准后，得到比对校准后的的小数据集。

六、病毒基因组序列比对信息转化

针对比对校准后的150个小数据集，分别提取其中的参考序列，并计算转换算法表。

具体步骤如下：

1、从每一个比对校准后的小数据集中提取参考序列，得到150个比对校准后的参考序列。

2、通过对150个比对校准后的参考序列的分析，设计一致性参考序列，所述一致性参考序列能够满足任一比对校准后的参考序列通过在序列中插入Gap占位字符而转化得到的条件。

3、分别比较每个比对校准后的参考序列和一致性参考序列的差异，生成转化信息表。所述转化信息表为该比对校准后的参考序列转化为一致性参考序列时所需加入gap字符的位置和数量。

4、对每个比对校准后的小数据集进行转化运算，所述转化运算为依据转化信息表向比对校准后的小数据集中的每一个序列插入Gap占位字符,使得所有序列长度都与一致性参考序列的长度相同，得到转化后的小数据集。

5、将步骤4中所有转化后的小数据集合并，记为类特征序列比对数据集文件(至此不同序列的比对已经完成)。

七、多序列比对结果验证

1、针对步骤六中产生的类特征序列比对数据集文件，根据步骤三中的聚类信息表将所有类特征序列名称还原成本类中原有待测数据集中的序列名称，整合形成新的多序列比对数据集，完成大规模新冠病毒基因组数据分布式快速多序列比对方法。

2、随机选取类特征序列比对数据集文件中的500条序列作为一个分布式比对验证数据样本。然后使用多序列比对工具MAFFT V7.271对验证数据样本重新进行多序列比对分析生成常规多序列比对结果数据样本。

3、逐列比较分布式比对验证数据样本和常规多序列比对结果数据样本之间的异同特征。通过统计两种运算结果之间具有的相同列的比例，计算一致率，进而完成一次样本验证。

4、重复步骤2和步骤3的操作，完成10次验证操作。结果如图5所示，每次样本验证的一致率结果均在99％以上。

以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本申请欲包括任何变更、用途或对本发明的改进，包括脱离了本申请中已公开范围，而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围，可以进行一些基本特征的应用。

Claims

1.一种针对大规模病毒基因组数据的快速分布式多序列比对方法，其特征在于，包括如下步骤：1)先提取待测基因组数据中的类特征序列，2)依据步骤1得到的类特征序列的数据规模，将类特征序列分为多个小数据集进行分布式多序列比对运算，获得多个小数据集的多序列比对结果，3)使用比对校准算法调整每个小数据集的多序列比对结果；4)然后通过计算一致性参考序列和转化信息表，对各小数据集的多序列比对结果进行转化整合形成类特征序列比对数据集文件；5)对步骤4)中的类特征序列比对数据集文件进行聚类还原处理，完成大规模新冠病毒基因组数据的快速多序列比对。

2.根据权利要求1所述的快速分布式多序列比对方法，其特征在于，在所述步骤1)之前还包括对基因组数据的预处理，包括如下步骤：

如果P＞0.1，则从基因组序列数据集中删除该基因组序列；

如果L＜0.8，则从基因组序列数据集中删除该基因组序列。

3.根据权利要求1所述的快速分布式多序列比对方法，其特征在于，所述步骤1)中先提取待测基因组数据中的类特征序列的具体步骤为：

11)统计待测基因组数据中所有序列信息，将基因序列完全相同的所有序列记为一类，并生成聚类信息表。记类特征序列为Seq_y，编号为Num_y，序列名称为name。聚类信息表格式如下：

Cluster(Num_y)＝｛Seq_y：[name_α，name_β，…，name_λ]}

4.根据权利要求1所述的快速分布式多序列比对方法，其特征在于，所述步骤2)中的分布式多序列比对运算的具体步骤为：

23)使用多序列比对工具，采用并行计算的方式对步骤22)中得到的小数据集分别进行多序列比对计算，得到若干比对后的小数据集，记为｛S₀，S₁，…，S_m}，其中小数据集的总个数记为m+1个。

5.根据权利要求1所述的快速分布式多序列比对方法，其特征在于，以比对后的小数据集S_i为例，所述步骤3)中的比对校准算法调整的方法为：

32)从比对后的参考序列中确定序列的起始位置和终止位置分别记为a，b。记参考序列Seq₀的基因序列为{p₁，p₂，…，p_n}，计算公式：

当1≤j＜a时，任意p_j＝Gap

当b＜j≤n时，任意p_j＝Gap

且p_a≠Gap，p_b≠Gap；

33)根据32)中得到的起始位置和终止位置信息，删除小数据集中所有序列起始位置之前的字符和终止位置之后的字符；记小数据集S_i中的序列Seq_y(1≤y≤r)的基因序列为{p^y ₁，p^y ₂，…，p^y _n}，删除字符后保留的基因序列为{p^y _a，p^y _a+1，…，p^y _b}()；