CN115862740A - 一种面向大规模病毒基因组数据的快速分布式多序列比对方法 - Google Patents
一种面向大规模病毒基因组数据的快速分布式多序列比对方法 Download PDFInfo
- Publication number
- CN115862740A CN115862740A CN202211554754.2A CN202211554754A CN115862740A CN 115862740 A CN115862740 A CN 115862740A CN 202211554754 A CN202211554754 A CN 202211554754A CN 115862740 A CN115862740 A CN 115862740A
- Authority
- CN
- China
- Prior art keywords
- sequence
- data set
- sequences
- small data
- gap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 241000700605 Viruses Species 0.000 title claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000009467 reduction Effects 0.000 claims abstract description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 38
- 241000711573 Coronaviridae Species 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000002864 sequence alignment Methods 0.000 claims description 19
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000002887 multiple sequence alignment Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 15
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 11
- 238000003908 quality control method Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 150000007523 nucleic acids Chemical group 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims 2
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 4
- 102100031673 Corneodesmosin Human genes 0.000 description 15
- 101710139375 Corneodesmosin Proteins 0.000 description 15
- 238000012795 verification Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 150000001413 amino acids Chemical class 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向大规模基因组数据的快速分布式多序列比对方法。包括如下步骤:1)先提取待测基因组数据中的类特征序列,2)将类特征序列分为多个小数据集进行分布式多序列比对运算,获得多个小数据集的多序列比对结果,3)使用比对校准算法调整每个小数据集的多序列比对结果;4)对各小数据集的多序列比对结果进行转化整合形成类特征序列比对数据集文件;5)对类特征序列比对数据集文件进行聚类还原处理,完成大规模基因组数据的快速多序列比对。本发明通过类特征序列提取和分布式多序列比对的方法,大幅度减少传统多序列比对方法所需的运算时间和运算存储消耗,运算速度快,序列比对结果合理高效。
Description
技术领域
本发明涉及生物技术领域,尤其涉及一种基于分布式计算的,针对大规模新冠病毒基因组数据的快速多序列比对方法。
背景技术
基因多序列比对技术是生物信息学分析和病毒基因变异检测中常用的分析手段。主要内容是通过使用向参与比对的序列中插入Gap占位字符的方法,使得所有序列中的相同残基位点位于同一列。基因多序列比对可以对齐所有序列中的相同或者相似部分,从而便于寻找病毒突变位点,推断序列间的进化关系。
当前新冠病毒通过基因突变已经产生了多种传播能力增强的新型毒株,并在美国,英国,南非,巴西,印度等局部地区不断引发大规模的疫情。面对病毒的变异,如何快速准确的检测病毒的突变位点是当前急需解决的重要科学问题。
检测病毒突变位点的方法一般包括基因数据集筛选,参考序列选定,基因多序列比对等步骤。其中基因多序列比对是检测病毒突变位点的核心技术和关键步骤。
目前常规的基因多序列比对的计算复杂度与待比对的基因样本量成指数增长关系,即随着样本量的增长,多序列比对算法所需的计算时间和计算存储消耗将成指数增长。而目前,公开的新冠病毒基因组数据已经超过200万条,面对如此大规模病毒基因组数据,常规的基因多序列比对算法所需要的计算资源和计算时间是无法估量的。因此,针对正在快速发展的疫情,急需一种快速的,计算资源消耗可控的多序列比对方法用于辅助监测病毒变异。
发明内容
本发明的一个目的是提供一种面向大规模新冠病毒基因组数据的快速分布式多序列比对方法。
本发明的针对大规模病毒基因组数据的快速分布式多序列比对方法,包括如下步骤:1)先提取待测基因组数据中的类特征序列,2)依据步骤1得到的类特征序列的数据规模,将类特征序列分为若干小数据集进行分布式多序列比对运算,获得若干小数据集的多序列比对结果,3)使用比对校准算法调整每个小数据集的多序列比对结果;4)然后通过计算一致性参考序列和转化信息表,对各小数据集的多序列比对结果进行转化整合形成类特征序列比对数据集文件;5)对步骤4)中的类特征序列比对数据集文件进行聚类还原处理,完成大规模新冠病毒基因组数据的快速多序列比对。
其中,在所述步骤1)之前还包括对基因组数据的预处理,包括如下步骤:
S1)从原始数据库中获得基因组完整的且与所述参考毒株序列同种病毒同种基因同种类型的基因组序列,其中基因组序列可包括核酸序列和氨基酸序列两种类型;
S2)对步骤S1)得到的每个基因组序列进行质量控制与长度筛选,得到待测基因组数据,筛选方法如S21)和S22)所示:
S21)计算序列中异常字符所占有的比例P,记序列总长度为N,序列中异常字符数量μ,计算公式为:
如果P>0.1,则从基因组序列数据集中删除该基因组序列;
S22)计算每一条基因组序列长度完整度L,记序列总长度为N,参考株序列总长度为N0,计算公式为:
如果L<0.8,则从基因组序列数据集中删除该基因组序列。
其中,所述分布式比对运算包括如下两个步骤:
1)将待测数据集随机分割为若干小数据集。
2)并行运行多序列比对工具对所有小数据集进行多序列比对。
其中,所述比对校准算法包好如下四个步骤:
1)提取参考株序列,作为比对校准模板。
2)确定序列的起始和终止位置,并删除起始位置之前和终止位置时候的序列信息。
3)删除序列比对结果中长度不足的序列或者存在异常字符的序列。
4)删除序列集中全部是GAP占位字符的空列。
其中,所述步骤1)中先提取待测基因组数据中的类特征序列的具体步骤为:
11)统计待测基因组数据中所有序列信息,将基因序列完全相同的所有序列记为一类,并生成聚类信息表。记类特征序列为Seqy,编号为Numy,序列名称为name。
聚类信息表格式如下:i
Cluster(Numy)={Seqy:[nameα,nameβ,…,nameλ]}
12)提取聚类信息表中的每一类的类特征序列,生成待比对基因序列数据集,其中类特征序列的名称为类的编号。
其中,所述步骤2)中的分布式多序列比对运算的具体步骤为:
21)将步骤12)得到的待比对基因序列数据集分割为样本量一致的若干小数据集,使得每个小数据集包含的毒株数量不超过R,其中R为保持多序列比对工具最佳计算效率的最大样本数;
22)将参考毒株序列分别加入到步骤21)中分割后的每个小数据集中;
23)使用多序列比对工具,采用并行计算的方式对步骤22)中得到的小数据集分别进行多序列比对计算,得到若干比对后的小数据集,记为{S0,S1,…,Sm},小数据集的总个数记为m+1个。
其中,以比对后的小数据集Si为例,所述步骤3)中的比对校准算法调整的方法为:
32)从比对后的参考序列中确定序列的起始位置和终止位置分别记为a,b。记参考序列Seq0的基因序列为{p1,p2,…,pn},计算公式:
当1≤j<a时,任意pj=Gap
当b<j≤n时,任意pj=Gap
且pa≠Gap,pb≠Gap;
所述Gap为字符“-”,是多序列比对时用来对齐序列的占位字符;
33)根据32)中得到的起始位置和终止位置信息,删除小数据集中所有序列起始位置之前的字符和终止位置之后的字符;记小数据集Si中的序列Seqy(1≤y≤r)的基因序列为{py 1,py 2,…,py n},删除字符后保留的基因序列为{py a,py a+1,…,py b}();
34)对33)中得到的数据集进行有效长度筛选。记参考序列Seq0中有效字符数为N0,Seqy(1≤y≤r)的有效字符数为Ny;其中有效字符指序列中的非Gap字符,计算公式如下:
如果Ly<0.8,则从数据集中删除该基因组序列。经过筛选后保留其他基因组序列;
35)对34)中得到的数据集进行异常比对校正。校正算法如下:
若参考序列Seq0中pj=Gap时(a≤j≤b),数据集中存在序列Seqy(1≤y≤r)中py j=ε;其中ε为异常字符,则从数据集中删除序列Seqy;
若参考序列Seq0中pj=Gap时(a≤j≤b),数据集中存在序列Seqy(1≤y≤r)中py j≠Gap;记序列Seqy中异常字符数量Ey,
若则EPy>0.05,从数据集中删除序列Seqy;
若参考序列Seq0中pj=Gap时(a≤j≤b),任取数据集中序列Seqy(1≤y≤r)中都有py j=Gap;则删除所有序列中的第j位字符。
其中,所述步骤3)中对每个比对后的小数据集进行校准,得到的比对校准后的所有小数据集为{S'0,S'1,…,S'm}。
其中,所述步骤4)中的转化整合的方法为:
44)将通过步骤43)进行调整后的所有小数据集中的序列进行合并,形成类特征序列比对数据集文件。
其中,所述待测病毒为新冠病毒。
上述方法中,所述大规模新冠病毒基因组数据为基因序列总数量超过100万的病毒基因序列集;
上述方法中,所述基因组数据包括氨基酸序列数据和DNA序列数据两个类型;
上述方法中,所述参考毒株序列为病毒库中规定的信息完整质量完好的标准序列;
上述方法中,所述类特征序列为聚类后每一类代表毒株的基因组序列;
上述方法中,所述序列长度为每一条基因序列包含的字符数量;
上述方法中,所述常规多序列比对工具为软件MAFFT V7.271;
上述方法中,所述Gap为字符“-”,是多序列比对时用来对齐序列的占位字符。
所述的快速分布式多序列比对方法在待测病毒的多序列比对运算中的应用也应在本发明的保护范围之内。
本发明的实验表明,与现有技术相比,本发明的优点在于:1、使用基因序列聚类方法,避免了重复运算,有效降低了病毒基因组数据的运算复杂度和数据量。2、使用分布式多序列比对方法、配合比对信息转化方法,将大规模基因数据运算化整为零、提高了运算处理效率、降低对运算设备的要求、大幅缩减了大规模基因组数据的多序列比对的运算时间。3、使用比对校准算法可以自动化处理比对后的序列数据,并完成快速调整病毒序列比对质量的目的,不需要进行人工调整和筛选,降低了运算复杂度。4、多序列比对全部流程可自动化快速处理,更便于建立高效的运算系统。
本发明通过类特征序列提取,分布式多序列比对,自动化比对校准以及多序列比对信息整合等方法,实现了针对基因组大数据的快速多序列比对。本发明可比对的基因组数据量庞大,运算速度快,运行时间短,可辅助快速全面追踪病毒的变异趋势与历史进程。该发明避免了传统方法中针对大数据处理能力不足,运算时间过长,存储空间过大的问题。该方法主要优势体现在可自动化快速进行大规模病毒基因组多序列比对运算,不需要进行人工参与,利用该技术优势,可为实时监控疫情发展和病毒变异趋势提供重要技术支撑。
附图说明
图1为大规模新冠病毒基因组数据的快速分布式序列比对方法流程示意图。(这部分是总体的流程图,是全部过程的一个概览,不知道该怎么对应实例)
图2为分布式多序列比对方法原理示意图。
图3为序列聚类分析与类特征序列提取流程示意图。
图4为多序列比对校准算法流程示意图。
图5为分布式多序列比对结果准确性随机样本验证。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
下述实施例中所述数据库指的是公共基因组数据库GISAID网站(https://www.gisaid.org/)
实施例1、新冠病毒S蛋白氨基酸序列的快速分布式多序列比对方法
如图1所示,本实施例提供一种新冠病毒S蛋白氨基酸序列的快速分布式多序列比对方法,具体包括如下步骤:
一、大规模新冠病毒基因组样本制备
针对大规模新冠病毒S蛋白氨基酸序列样本的制备包括如下步骤:
1、构建新冠病毒S蛋白基因组数据库
从数据库中获得所有完整基因组且具有全长序列的新冠病毒S蛋白氨基酸序列,记作新冠病毒S蛋白基因组数据库。截止到2021年6月18日,数据库中收集到的序列数量约为198万条。
2、标准化序列命名
根据序列命名规则逐一将步骤1得到的新冠病毒S蛋白基因组数据库中氨基酸序列进行标准化重命名处理。
序列命名规则为:>基因名称|序列名称|时间信息|序列编号|地理信息。
3、提取参考菌株序列
根据数据库中建议的参考菌株信息,提取序列:>Spike|hCoV-19/Wuhan/Hu-1/2019|2019-12-31|EPI_ISL_402125|China,作为新冠病毒S蛋白基因组数据库的参考菌株序列。
二、大规模新冠病毒基因组样本的质量控制和长度筛选
针对新冠病毒S蛋白基因组数据库的质量控制和长度筛选包括如下步骤:
1、样本的质量控制的方法为:分别计算数据库中每条序列的异常字符占比,若
P>0.1,则删除该序列。
异常字符占比计算公式为:其中,μ为每条序列中异常字符的数量,核酸序列中异常字符包括除字符A、字符T、字符G、字符C之外的所有字符,氨基酸序列中异常字符主要是指字符X(X是指在数据中对氨基酸序列中无法用20中氨基酸缩写字母表达的结果),N为序列总长度。
2、长度筛选的方法为,分别计算每一条基因组序列长度完整度,如果L<0.8,则从基因组序列数据集中删除该基因组序列。记序列总长度为N,参考株序列总长度为N0,长度完整度计算公式为:其中新冠病毒S蛋白参考序列总长度N0=1274。
3、经过质量控制和长度筛选后新冠病毒S蛋白基因组数据库保留基因组序列数量为163万条,作为待测数据集。
三、病毒基因组待测数据集聚类分析
针对新冠病毒S蛋白基因组待测数据集进行序列聚类分析,具体步骤如下:
1、统计待测数据集中所有序列信息,将基因序列完全相同的所有序列记为一类(每一类中的所有序列应该都是相同的,只不过序列标注的时间地点信息会有不同),根据类生成的顺序给每一类依次编号,并生成聚类信息表。聚类信息表中应详细记录每一类的基本信息,内容包括类的编号,类所有包含的所有序列名称,以及类特征序列。记第y个生成的类特征序列(完全相同的基因序列)为Seqy,类编号为Numy,类中的序列名称依次用nameα,nameβ……nameλ表示。聚类信息表格式应为:
Cluster(Numy)={Seqy:[nameα,nameβ,…,nameλ]}。
2、提取聚类信息表中的所有的类特征序列,生成待比对基因序列数据集(待比对基因序列数据集的任意两个类特征序列均不相同,即避免了重复序列),其中类特征序列的名称为类的编号Numy。新冠病毒S蛋白待比对基因序列数据集中包含类特征序列的数量为13.9万条。
四、病毒基因组分布式多序列比对运算
针对新冠病毒S蛋白待比对基因序列集,进行分布式比对运算,如图2所示。具体步骤如下:
1、将新冠病毒S蛋白待比对基因序列集分割为样本量一致的若干小数据集。使得每个小数据集包含的毒株数量不超过R。其中R为保持多序列比对工具最佳计算效率的最大样本数。可根据实际计算能力情况,本实施例中设定R=930。总计小数据集的数量为150个。
2、将步骤一种确定的参考毒株序列分别加入到中分割后的150个小数据集中。
3、使用多序列比对工具MAFFT V7.271,采用并行计算的方式对步骤2中得到的小数据集分别进行多序列比对计算。得到150个比对后的小数据集,记为{S0,S1,…,S149}。每个比对后的小数据集中均包含与原序列一一对应的比对后的序列,并根据比对工具MAFFTV7.271原则,以加入Gap字符的方式,保证数据集中的所有比对后的序列长度相同、氨基酸位点尽可能多的一一对应。
五、多序列比对结果校准
针对步骤四中比对后的150个小数据集{S0,S1,…,S149},逐一进行比对校准操作,具体步骤为:
1、从小数据集Si(0≤i≤149)中提取参考毒株序列,记为Seq0,Si中其他序列记为{Seq1,Seq2,…,Seqr}
2、从比对后的参考毒株序列中确定序列的起始位置和终止位置分别记为a,b。
记参毒株考序列Seq0的基因序列为{p1,p2,…,pn},通过下述公式确定a和b的位置:
当1≤j<a时,任意pj=Gap;
当b<j≤n时,任意pj=Gap;
且pa≠Gap,pb≠Gap。
其中,Seq0表示比对运算后数据集Si中的参考序列,pj表示参考序列Seq0,第j位的字符,Gap表示占位字符,即字符‘-’。
3、根据得到的起始位置和终止位置信息,删除小数据集中所有序列起始位置之前的字符和终止位置之后的字符,记小数据集Si中的序列Seqy(1≤y≤930)的基因序列为{py 1,py 2,…,py n},删除字符后保留的基因序列Seq’y为{py a,py a+1,…,py b}。
4、对数据集进行有效长度校正。记比对后的参考毒株序列Seq0中有效字符数(参考毒株序列的长度)为N0=1274,Seq’y(1≤y≤930)的有效字符数为Ny。其中有效字符指序列中的非Gap字符,计算公式如下:
如果Ly<0.8,则从数据集中删除该基因组序列。经过筛选后保留其他基因组序列。这部分操作是要去除经过比对后包含序列信息过少的序列。
5.对每个小数据集进行上述步骤1-4的校准后,得到比对校准后的的小数据集。
六、病毒基因组序列比对信息转化
针对比对校准后的150个小数据集,分别提取其中的参考序列,并计算转换算法表。
具体步骤如下:
1、从每一个比对校准后的小数据集中提取参考序列,得到150个比对校准后的参考序列。
2、通过对150个比对校准后的参考序列的分析,设计一致性参考序列,所述一致性参考序列能够满足任一比对校准后的参考序列通过在序列中插入Gap占位字符而转化得到的条件。
3、分别比较每个比对校准后的参考序列和一致性参考序列的差异,生成转化信息表。所述转化信息表为该比对校准后的参考序列转化为一致性参考序列时所需加入gap字符的位置和数量。
4、对每个比对校准后的小数据集进行转化运算,所述转化运算为依据转化信息表向比对校准后的小数据集中的每一个序列插入Gap占位字符,使得所有序列长度都与一致性参考序列的长度相同,得到转化后的小数据集。
5、将步骤4中所有转化后的小数据集合并,记为类特征序列比对数据集文件(至此不同序列的比对已经完成)。
七、多序列比对结果验证
1、针对步骤六中产生的类特征序列比对数据集文件,根据步骤三中的聚类信息表将所有类特征序列名称还原成本类中原有待测数据集中的序列名称,整合形成新的多序列比对数据集,完成大规模新冠病毒基因组数据分布式快速多序列比对方法。
2、随机选取类特征序列比对数据集文件中的500条序列作为一个分布式比对验证数据样本。然后使用多序列比对工具MAFFT V7.271对验证数据样本重新进行多序列比对分析生成常规多序列比对结果数据样本。
3、逐列比较分布式比对验证数据样本和常规多序列比对结果数据样本之间的异同特征。通过统计两种运算结果之间具有的相同列的比例,计算一致率,进而完成一次样本验证。
4、重复步骤2和步骤3的操作,完成10次验证操作。结果如图5所示,每次样本验证的一致率结果均在99%以上。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
Claims (10)
1.一种针对大规模病毒基因组数据的快速分布式多序列比对方法,其特征在于,包括如下步骤:1)先提取待测基因组数据中的类特征序列,2)依据步骤1得到的类特征序列的数据规模,将类特征序列分为多个小数据集进行分布式多序列比对运算,获得多个小数据集的多序列比对结果,3)使用比对校准算法调整每个小数据集的多序列比对结果;4)然后通过计算一致性参考序列和转化信息表,对各小数据集的多序列比对结果进行转化整合形成类特征序列比对数据集文件;5)对步骤4)中的类特征序列比对数据集文件进行聚类还原处理,完成大规模新冠病毒基因组数据的快速多序列比对。
2.根据权利要求1所述的快速分布式多序列比对方法,其特征在于,在所述步骤1)之前还包括对基因组数据的预处理,包括如下步骤:
S1)从原始数据库中获得基因组完整的且与所述参考毒株序列同种病毒同种基因同种类型的基因组序列,其中基因组序列可包括核酸序列和氨基酸序列两种类型;
S2)对步骤S1)得到的每个基因组序列进行质量控制与长度筛选,得到待测基因组数据,筛选方法如S21)和S22)所示:
S21)计算序列中异常字符所占有的比例P,记序列总长度为N,序列中异常字符数量μ,计算公式为:
如果P>0.1,则从基因组序列数据集中删除该基因组序列;
S22)计算每一条基因组序列长度完整度L,记序列总长度为N,参考株序列总长度为N0,计算公式为:
如果L<0.8,则从基因组序列数据集中删除该基因组序列。
3.根据权利要求1所述的快速分布式多序列比对方法,其特征在于,所述步骤1)中先提取待测基因组数据中的类特征序列的具体步骤为:
11)统计待测基因组数据中所有序列信息,将基因序列完全相同的所有序列记为一类,并生成聚类信息表。记类特征序列为Seqy,编号为Numy,序列名称为name。聚类信息表格式如下:
Cluster(Numy)={Seqy:[nameα,nameβ,…,nameλ]}
12)提取聚类信息表中的每一类的类特征序列,生成待比对基因序列数据集,其中类特征序列的名称为类的编号。
4.根据权利要求1所述的快速分布式多序列比对方法,其特征在于,所述步骤2)中的分布式多序列比对运算的具体步骤为:
21)将步骤12)得到的待比对基因序列数据集分割为样本量一致的若干小数据集,使得每个小数据集包含的毒株数量不超过R,其中R为保持多序列比对工具最佳计算效率的最大样本数;
22)将参考毒株序列分别加入到步骤21)中分割后的每个小数据集中;
23)使用多序列比对工具,采用并行计算的方式对步骤22)中得到的小数据集分别进行多序列比对计算,得到若干比对后的小数据集,记为{S0,S1,…,Sm},其中小数据集的总个数记为m+1个。
5.根据权利要求1所述的快速分布式多序列比对方法,其特征在于,以比对后的小数据集Si为例,所述步骤3)中的比对校准算法调整的方法为:
32)从比对后的参考序列中确定序列的起始位置和终止位置分别记为a,b。记参考序列Seq0的基因序列为{p1,p2,…,pn},计算公式:
当1≤j<a时,任意pj=Gap
当b<j≤n时,任意pj=Gap
且pa≠Gap,pb≠Gap;
所述Gap为字符“-”,是多序列比对时用来对齐序列的占位字符;
33)根据32)中得到的起始位置和终止位置信息,删除小数据集中所有序列起始位置之前的字符和终止位置之后的字符;记小数据集Si中的序列Seqy(1≤y≤r)的基因序列为{py 1,py 2,…,py n},删除字符后保留的基因序列为{py a,py a+1,…,py b}();
34)对33)中得到的数据集进行有效长度筛选。记参考序列Seq0中有效字符数为N0,Seqy(1≤y≤r)的有效字符数为Ny;其中有效字符指序列中的非Gap字符,计算公式如下:
如果Ly<0.8,则从数据集中删除该基因组序列。经过筛选后保留其他基因组序列;
35)对34)中得到的数据集进行异常比对校正。校正算法如下:
若参考序列Seq0中pj=Gap时(a≤j≤b),数据集中存在序列Seqy(1≤y≤r)中py j=ε;其中ε为异常字符,则从数据集中删除序列Seqy;
若参考序列Seq0中pj=Gap时(a≤j≤b),数据集中存在序列Seqy(1≤y≤r)中py j≠Gap;记序列Seqy中异常字符数量Ey,
若则EPy>0.05,从数据集中删除序列Seqy;
若参考序列Seq0中pj=Gap时(a≤j≤b),任取数据集中序列Seqy(1≤y≤r)中都有py j=Gap;则删除所有序列中的第j位字符。
6.根据权利要求5所述的快速分布式多序列比对方法,其特征在于,所述步骤3)中对每个比对后的小数据集进行校准,得到的比对校准后的所有小数据集为{S′0,S′1,…,S′m}。
7.根据权利要求1所述的快速分布式多序列比对方法,其特征在于,所述步骤4)中的转化整合的方法为:
44)将通过步骤43)进行调整后的所有小数据集中的序列进行合并,形成类特征序列比对数据集文件。
8.根据权利要求1所述的快速分布式多序列比对方法,其特征在于,所述待测病毒为新冠病毒。
9.根据权利要求1所述的快速分布式多序列比对方法,其特征在于,所述多序列比对工具为软件MAFFTV7.271。
10.权利要求1-9任一所述的快速分布式多序列比对方法在待测病毒的多序列比对运算中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211554754.2A CN115862740B (zh) | 2022-12-06 | 2022-12-06 | 一种面向大规模病毒基因组数据的快速分布式多序列比对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211554754.2A CN115862740B (zh) | 2022-12-06 | 2022-12-06 | 一种面向大规模病毒基因组数据的快速分布式多序列比对方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115862740A true CN115862740A (zh) | 2023-03-28 |
CN115862740B CN115862740B (zh) | 2023-09-12 |
Family
ID=85670227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211554754.2A Active CN115862740B (zh) | 2022-12-06 | 2022-12-06 | 一种面向大规模病毒基因组数据的快速分布式多序列比对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115862740B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116741268A (zh) * | 2023-04-04 | 2023-09-12 | 中国人民解放军军事科学院军事医学研究院 | 筛选病原体关键突变的方法、装置及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521528A (zh) * | 2011-12-05 | 2012-06-27 | 中国科学院计算机网络信息中心 | 一种基因序列数据的筛选方法 |
CN105243297A (zh) * | 2015-10-09 | 2016-01-13 | 人和未来生物科技(长沙)有限公司 | 一种参考基因组上基因序列片段的快速比对定位方法 |
CN105637098A (zh) * | 2013-08-21 | 2016-06-01 | 七桥基因公司 | 用于比对序列的方法和系统 |
US20180039728A1 (en) * | 2016-08-08 | 2018-02-08 | Samsung Electronics Co., Ltd. | Operating method of apparatus for analyzing genome sequences using distributed processing |
CN110070911A (zh) * | 2019-04-12 | 2019-07-30 | 内蒙古农业大学 | 一种基于Hadoop的基因序列并行比对方法 |
CN110797088A (zh) * | 2019-10-17 | 2020-02-14 | 南京医基云医疗数据研究院有限公司 | 全基因组重测序分析及用于全基因组重测序分析的方法 |
CN111243663A (zh) * | 2020-02-26 | 2020-06-05 | 西安交通大学 | 一种基于模式增长算法的基因变异检测方法 |
CN112735528A (zh) * | 2021-01-08 | 2021-04-30 | 华中农业大学 | 一种基因序列比对方法及系统 |
CN114420207A (zh) * | 2022-01-26 | 2022-04-29 | 中国科学院西北高原生物研究所 | 一种基因多序列比对方法、设备和系统 |
-
2022
- 2022-12-06 CN CN202211554754.2A patent/CN115862740B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521528A (zh) * | 2011-12-05 | 2012-06-27 | 中国科学院计算机网络信息中心 | 一种基因序列数据的筛选方法 |
CN105637098A (zh) * | 2013-08-21 | 2016-06-01 | 七桥基因公司 | 用于比对序列的方法和系统 |
CN105243297A (zh) * | 2015-10-09 | 2016-01-13 | 人和未来生物科技(长沙)有限公司 | 一种参考基因组上基因序列片段的快速比对定位方法 |
US20180039728A1 (en) * | 2016-08-08 | 2018-02-08 | Samsung Electronics Co., Ltd. | Operating method of apparatus for analyzing genome sequences using distributed processing |
CN110070911A (zh) * | 2019-04-12 | 2019-07-30 | 内蒙古农业大学 | 一种基于Hadoop的基因序列并行比对方法 |
CN110797088A (zh) * | 2019-10-17 | 2020-02-14 | 南京医基云医疗数据研究院有限公司 | 全基因组重测序分析及用于全基因组重测序分析的方法 |
CN111243663A (zh) * | 2020-02-26 | 2020-06-05 | 西安交通大学 | 一种基于模式增长算法的基因变异检测方法 |
CN112735528A (zh) * | 2021-01-08 | 2021-04-30 | 华中农业大学 | 一种基因序列比对方法及系统 |
CN114420207A (zh) * | 2022-01-26 | 2022-04-29 | 中国科学院西北高原生物研究所 | 一种基因多序列比对方法、设备和系统 |
Non-Patent Citations (1)
Title |
---|
冯晓龙 等: "基于Spark的基因短序列比对模型", 《计算机仿真》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116741268A (zh) * | 2023-04-04 | 2023-09-12 | 中国人民解放军军事科学院军事医学研究院 | 筛选病原体关键突变的方法、装置及计算机可读存储介质 |
CN116741268B (zh) * | 2023-04-04 | 2024-03-01 | 中国人民解放军军事科学院军事医学研究院 | 筛选病原体关键突变的方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115862740B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111009286A (zh) | 对宿主样本进行微生物分析的方法和装置 | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
Polavarapu et al. | Identification, characterization and comparative genomics of chimpanzee endogenous retroviruses | |
CN112599198A (zh) | 一种用于宏基因组测序数据的微生物物种与功能组成分析方法 | |
CN115798578B (zh) | 一种分析与检测病毒新流行变异株的装置及方法 | |
CN115862740A (zh) | 一种面向大规模病毒基因组数据的快速分布式多序列比对方法 | |
EP3919629A1 (en) | Method for using whole genome re-sequencing data to quickly identify transgenic or gene editing material and insertion sites thereof | |
CN114708910B (zh) | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 | |
CN102521528A (zh) | 一种基因序列数据的筛选方法 | |
CN114420212A (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
CN108595915A (zh) | 一种基于dna变异检测的三代数据校正方法 | |
WO2017129110A1 (zh) | 一种人体微生物定性与定量的检测方法 | |
CN107354239A (zh) | 一种检测eb病毒的多重荧光定量pcr方法及试剂盒 | |
CN114121167A (zh) | 一种微生物基因数据库的构建方法及系统 | |
CN106055928A (zh) | 一种宏基因组重叠群的分类方法 | |
CN107475449A (zh) | 一种适用于矮缩病毒科和双生病毒科病毒基因组拼接的转录组测序方法 | |
CN115631789A (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
CN116064755A (zh) | 一种基于连锁基因突变检测mrd标志物的装置 | |
Sun et al. | Efficient and stable metabarcoding sequencing data using a DNBSEQ-G400 sequencer validated by comprehensive community analyses | |
CN108733974B (zh) | 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法 | |
Jabeen et al. | Differential expression analysis of ZIKV infected human RNA sequence reveals potential genetic biomarkers | |
CN116287412A (zh) | 一种基于二代测序开发用于三七药材真伪检测鉴定的引物、探针及其检测方法 | |
CN113539369B (zh) | 一种优化的kraken2算法及其在二代测序中的应用 | |
CN115927559A (zh) | 病原体靶向检测系统的构建方法、引物组、电子设备及应用 | |
CN114242174A (zh) | 一种用于内源性逆转录病毒的鉴定注释方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |