CN111180014A

CN111180014A - 一种基于低深度siRNA数据的病毒序列组装方法

Info

Publication number: CN111180014A
Application number: CN202010004702.2A
Authority: CN
Inventors: 王晨光; 姜帆; 张燕平; 王超楠; 张永江
Original assignee: Chinese Academy of Inspection and Quarantine CAIQ
Current assignee: Chinese Academy of Inspection and Quarantine CAIQ
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-05-19

Abstract

本发明“一种基于低深度siRNA数据的病毒序列组装方法”，属于生物信息学技术，通过利用确定的病毒contig提取特征构建网络之后，通过自组织映射来对未确定的Read进行分组，数据有效度、组装完整度显著提升。

Description

一种基于低深度siRNA数据的病毒序列组装方法

技术领域

本发明涉及生物信息学技术，特别是一种基于低深度siRNA数据的病毒序列组装方法。

背景技术

病毒基因组较小，组装较为简单。但是由于病毒变异较大，通常很难直接进行对其DNA序列进行测序。目前主要通过病毒入侵宿主之后，被宿主切割成的siRNA进行组装。通常情况下，由于病毒抑制子存在会导致产生的siRNA量较少。目前的组装算法大多基于高深度的测序数据进行组装的，低深度，低覆盖图的算法研究较少。

基因组组装的基本思路：无论是一代sanger、二代短reads、三代长Pacbio，得到的测序数据相较于整个基因组而言仍然是极小的；组装任务就是将这些小片段连接起来，但是序列之间的联系因为重复序列的存在变得非常复杂，通过overlap我们最终都会构建Graph(如图1所示)，所有的算法都会从Graph中得到最优路径，从而得到最初的contig。

目前算法主要存在两种：

DBG算法：首先将reads打断成长度为K的核酸片段，即Kmer，在利用Kmer间的overlap关系构建DBG，再通过DBG得到基因组序列。

DBG算法最早应用于如细菌类小的基因组的组装上，直到华大(2010)开发SOAPdenovo算法，成功的组装了采用二代测序的黄瓜及熊猫的基因组，DBG算法开始普遍运用。

OLC算法：主要分为三步：(1)Overlap：对所有reads进行两两比对，找到片段间的重叠信息；(2)Layout：根据得到的重叠信息将存在的重叠片段建立一种组合关系，形成重叠群，即Contig；(3)根据构成Contig的片段的原始质量数据，在重叠群中寻找一条质量最重的序列路径，并获得与路径对应的序列，即Consensus。

由于病毒序列较短，测序的siRNA序列较短，单端数据、深度较低、冗余数据过多，必须开发属于病毒特点的基因组装方法。

发明内容

基于上述领域的需求，开发了基于OLC算法和自组织映射方法的病毒基因组组装方法，组装效率、准确度和组装完整度都显著提升，具体方案如下：

一种基于低深度siRNA数据的病毒序列组装方法，其特征在于：包含以下步骤：

(1)测序获取待测材料的病毒siRNA数据；

(2)siRNA数据分组：依据初始病毒基因组特征参数对siRNA数据进行初步分组得到病毒序列群和宿主序列群；

(3)初步组装：对病毒序列群的siRNA数据，利用OLC算法进行初步组装得到病毒contig；

(4)引入同源比对参考库：将病毒contig与构建的已知病毒数据库进行比对和匹配，过滤掉所述病毒contig中的非病毒序列，保留病毒的siRNA数据，并找出潜在存在的病毒或者其同源序列；

(5)数据找回：利用所述同源序列到步骤(2)中分出的宿主序列群中找回属于病毒序列群的序列；

(6)精确组装：利用步骤(5)找回的病毒序列和步骤(4)保留的病毒的siRNA数据，以构建的已知病毒数据库的序列为模板进行比对，进行精确组装得到取待测材料中的病毒基因组数据。

优选地，依据初始病毒基因组特征参数对siRNA数据进行初步分组是指依据siRNA的GC含量、siRNA长度和/或启动子序列，符合这些参数的序列归为病毒序列群；其余siRNA数据归为宿主序列群。

优选地，还包括：

根据步骤(3)初步组装得到病毒contig自动提取病毒基因组二次特征参数，siRNA的GC含量、siRNA长度和/或启动子序列；

以病毒基因组二次特征参数替换初始病毒基因组特征参数重复步骤(2)-(3)2-5轮。

优选地，所述利用OLC算法进行初步组装得到病毒contig包括：

对分组得到病毒序列群所有siRNA测序数据进行两两比对，找到片段间的重叠信息；

根据得到的重叠信息将存在重叠的片段建立组合关系得到病毒contig。

优选地，构建的已知病毒数据库的病毒基因组数据来源于网络发表的完整病毒基因组数据。

优选地，siRNA数据为fasta或fastq格式；病毒基因组数据为fasta或fastq格式。

本发明的方法主要是针对病毒测序的siRNA序列较短，单端数据、深度较低、冗余数据过多的特点，采用OLC算法并基于自组织映射模型，进行病毒基因组组装，提高数据利用准确度、组装效率，组装完整度。

由于测序获取的病毒siRNA数据中有大量的来自宿主的数据，会对结果产生较大的影响，如果直接利用宿主的参考基因组进行过滤，会造成有效数据的减少，因此本发明的方法中，通过构建的自组织映射模型，即将病毒初步组装的contig进行建模，可以自动得到病毒基因组的一些特征，如GC含量，可产生的siRNA长度，启动子编码基因等信息，这些特征用于下一步精确筛选病毒来源的siRNA和精确组装，通过病毒和宿主基因组的一些特征诸如：GC含量，siRNA长度等信息自动区分数据，准确度为80％，重复步骤(2)-(3)2-5多次训练数据分组准确度可以达到85％(多次训练是指反复迭代，迭代一次之后，可能准确度很高，但是涉及的数据量比较小，但是这一次迭代，病毒的基因组结果会被优化，利用优化后的基因组，再一次提取特征，进行再次的数据分组，映射、反复多次，结果可以达到85％)。

本发明中通过利用确定的病毒contig提取特征构建网络之后，通过自组织映射来对未确定的Read进行分组，数据有效度大大提升。

由于病毒基因组组装中存在大量的非病毒数据，如何精确的进行划分，是病毒基因组组装的核心难题，本发明通过自组织神经网络SOM对数据进行精确划分之后，进行组装，实现对数据的精确分组。SOM是基于无监督学习方法的神经网络的一种重要类型。自组织映射网络理论最早是由芬兰赫尔辛基理工大学Kohen于1981年提出的。此后，伴随着神经网络在20世纪80年代中后期的迅速发展，自组织映射理论及其应用也有了长足的进步。它模拟人脑中处于不同区域的神经细胞分工不同的特点，即不同区域具有不同的响应特征，而且这一过程是自动完成的。自组织映射网络通过寻找最优参考矢量集合来对输入模式集合进行分类。每个参考矢量为一输出单元对应的连接权向量。与传统的模式聚类方法相比，它所形成的聚类中心能映射到一个曲面或平面上，而保持拓扑结构不变。对于未知聚类中心的判别问题可以用自组织映射来实现。

附图说明

图1.基因组组装方法中形成的contig示意图。

具体实施方式

以下通过示例性实施方案说明本发明，但不作为对本发明范围的限制。

实施例1.对来自黄瓜花叶病毒的病毒测序数据进行组装测试本发明的方法

(1)测序获取待测材料的病毒siRNA数据；

来源：实验室前期测序数据，为黄瓜花叶病毒侵染烟草后的siRNA测序数据。

数据数量：1.5Gb

数据格式：fastq

(2)siRNA数据初步分组：依据初始病毒基因组特征参数对siRNA数据进行初步分组得到病毒序列群和宿主序列群；

初始病毒基因组特征参数为GC含量为40-60％，siRNA长度为21-22nt；

具体分组标准：

a.按照GC含量为40-60％，siRNA长度为21-22nt的siRNA分组得到病毒序列群。

b.其余部分且比对到宿主参考基因组的序列归为宿主序列群。

结果：

病毒序列群siRNA数据：4844行；

宿主序列群siRNA数据：12060行；

(3)初步组装：对保留的siRNA数据，利用OLC算法(可采用的OLC组装软件：VELEVT、PFOR2，均为开源软件)进行初步组装得到病毒contig；

根据得到的重叠信息将存在的重叠片段建立组合关系得到565个病毒contig。

(4)引入同源比对参考库：将病毒contig与构建的已知病毒数据库进行blast比对和匹配，过滤掉所述病毒contig中的非病毒序列，保留病毒的siRNA数据，并找出潜在存在的病毒或者其同源序列；

构建已知病毒数据库：来自

https://www.ncbi.nlm.nih.gov/assembly/？term＝cucumber％20mosaic％20virus％20AND％20latest％5Bsb％5D％20NOT％20anomalous％5Bsb％5D％20NOT％20％22derived％20from％20surveillance％20project％22％5Bsb％5D,包含NCBI公布的所有黄瓜花叶病毒组装信息在内的病毒已知序列信息。

比对判断标准：

未比对到同源比对数据库中的siRNA数据是非病毒序列；

比对到同源比对数据库中的的siRNA数据是病毒序列；

宿主序列群中比对到构建的已知病毒数据库的siRNA数据对应潜在存在的病毒或者其同源序列；

(5)数据找回：将所述同源序列到步骤(2)中分出的宿主序列群中进行比对，与同源序列匹配的siRNA数据为病毒的序列，找回；结果显示，步骤2中siRNA数据初步分组中，存在20％的误判序列；本步骤弥补了这种误判。

(6)精确组装：利用步骤(5)找回的siRNA数据和步骤(4)保留的病毒的siRNA数据与构建的已知病毒数据库比对，在已知病毒数据库中参考序列的指导下，进行精确组装得到待测材料中存在的病毒基因组组装数据；

实施例2.对来自黄瓜花叶病毒的病毒测序数据进行组装测试本发明的方法

(1)测序获取待测材料的病毒siRNA数据(数据来源同实施例1)；

数据数量：1.5Gb

数据格式：fastq

(2)siRNA数据初步分组：依据初始病毒基因组特征参数对对siRNA数据进行初步分组得到病毒序列群和宿主序列群；

具体分组标准：

a.将GC含量为40-60％，siRNA长度为21-22nt的siRNA分组得到病毒序列群。

结果：

病毒序列群siRNA数据：4844行；

宿主序列群siRNA数据：12060行；

根据得到565个病毒contig自动得出病毒基因组二次特征参数，利用病毒基因组二次特征参数代替初始病毒基因组特征参数重复步骤(2)-(3)2轮；

构建已知病毒数据库：来自

比对判断标准：

未比对到同源比对数据库中的siRNA数据是非病毒序列；

比对到同源比对数据库中的的siRNA数据是病毒序列；

对照方法如下：

1.利用Blast软件将siRNA与参考基因组进行比对

2.将比对到参考病毒基因组的数据挑出，利用VELEVT进行组装

3.得到较完整的病毒基因组测试效果如表1:

Claims

1.一种基于低深度siRNA数据的病毒序列组装方法，其特征在于：包含以下步骤：

(1)测序获取待测材料的病毒siRNA数据；

(6)精确组装：利用步骤(5)找回的病毒序列和步骤(4)保留的病毒的siRNA数据，以构建的已知病毒数据库的序列为模板进行序列比对，进行精确组装得到取待测材料中的病毒基因组数据。

2.根据权利要求1所述的方法，其特征在于：5

依据初始病毒基因组特征参数对siRNA数据进行初步分组是指依据siRNA的GC含量、siRNA长度和/或启动子序列，符合这些参数的序列归为病毒序列群；其余siRNA数据归为宿主序列群。

3.根据权利要求1或2所述的方法，其特征在于：

根据步骤(3)初步组装得到病毒contig提取病毒基因组二次特征参数，

以病毒基因组二次特征参数替换初始病毒基因组特征参数重复步骤(2)-(3)3-5轮。

4.根据权利要求1所述的方法，其特征在于：

利用OLC算法进行初步组装得到病毒contig包括：

5.根据权利要求1所述的方法，其特征在于：

构建的已知病毒数据库的病毒基因组数据来源于网络发表的完整病毒基因组数据。

6.根据权利要求1所述的方法，其特征在于：

siRNA数据为fasta或fastq格式

病毒基因组数据为fasta或fastq格式。