CN111180014A - 一种基于低深度siRNA数据的病毒序列组装方法 - Google Patents

一种基于低深度siRNA数据的病毒序列组装方法 Download PDF

Info

Publication number
CN111180014A
CN111180014A CN202010004702.2A CN202010004702A CN111180014A CN 111180014 A CN111180014 A CN 111180014A CN 202010004702 A CN202010004702 A CN 202010004702A CN 111180014 A CN111180014 A CN 111180014A
Authority
CN
China
Prior art keywords
virus
data
sirna
sequences
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010004702.2A
Other languages
English (en)
Inventor
王晨光
姜帆
张燕平
王超楠
张永江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Inspection and Quarantine CAIQ
Original Assignee
Chinese Academy of Inspection and Quarantine CAIQ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Inspection and Quarantine CAIQ filed Critical Chinese Academy of Inspection and Quarantine CAIQ
Priority to CN202010004702.2A priority Critical patent/CN111180014A/zh
Publication of CN111180014A publication Critical patent/CN111180014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明“一种基于低深度siRNA数据的病毒序列组装方法”,属于生物信息学技术,通过利用确定的病毒contig提取特征构建网络之后,通过自组织映射来对未确定的Read进行分组,数据有效度、组装完整度显著提升。

Description

一种基于低深度siRNA数据的病毒序列组装方法
技术领域
本发明涉及生物信息学技术,特别是一种基于低深度siRNA数据的病毒序列组装方法。
背景技术
病毒基因组较小,组装较为简单。但是由于病毒变异较大,通常很难直接进行对其DNA序列进行测序。目前主要通过病毒入侵宿主之后,被宿主切割成的siRNA进行组装。通常情况下,由于病毒抑制子存在会导致产生的siRNA量较少。目前的组装算法大多基于高深度的测序数据进行组装的,低深度,低覆盖图的算法研究较少。
基因组组装的基本思路:无论是一代sanger、二代短reads、三代长Pacbio,得到的测序数据相较于整个基因组而言仍然是极小的;组装任务就是将这些小片段连接起来,但是序列之间的联系因为重复序列的存在变得非常复杂,通过overlap我们最终都会构建Graph(如图1所示),所有的算法都会从Graph中得到最优路径,从而得到最初的contig。
目前算法主要存在两种:
DBG算法:首先将reads打断成长度为K的核酸片段,即Kmer,在利用Kmer间的overlap关系构建DBG,再通过DBG得到基因组序列。
DBG算法最早应用于如细菌类小的基因组的组装上,直到华大(2010)开发SOAPdenovo算法,成功的组装了采用二代测序的黄瓜及熊猫的基因组,DBG算法开始普遍运用。
OLC算法:主要分为三步:(1)Overlap:对所有reads进行两两比对,找到片段间的重叠信息;(2)Layout:根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群,即Contig;(3)根据构成Contig的片段的原始质量数据,在重叠群中寻找一条质量最重的序列路径,并获得与路径对应的序列,即Consensus。
由于病毒序列较短,测序的siRNA序列较短,单端数据、深度较低、冗余数据过多,必须开发属于病毒特点的基因组装方法。
发明内容
基于上述领域的需求,开发了基于OLC算法和自组织映射方法的病毒基因组组装方法,组装效率、准确度和组装完整度都显著提升,具体方案如下:
一种基于低深度siRNA数据的病毒序列组装方法,其特征在于:包含以下步骤:
(1)测序获取待测材料的病毒siRNA数据;
(2)siRNA数据分组:依据初始病毒基因组特征参数对siRNA数据进行初步分组得到病毒序列群和宿主序列群;
(3)初步组装:对病毒序列群的siRNA数据,利用OLC算法进行初步组装得到病毒contig;
(4)引入同源比对参考库:将病毒contig与构建的已知病毒数据库进行比对和匹配,过滤掉所述病毒contig中的非病毒序列,保留病毒的siRNA数据,并找出潜在存在的病毒或者其同源序列;
(5)数据找回:利用所述同源序列到步骤(2)中分出的宿主序列群中找回属于病毒序列群的序列;
(6)精确组装:利用步骤(5)找回的病毒序列和步骤(4)保留的病毒的siRNA数据,以构建的已知病毒数据库的序列为模板进行比对,进行精确组装得到取待测材料中的病毒基因组数据。
优选地,依据初始病毒基因组特征参数对siRNA数据进行初步分组是指依据siRNA的GC含量、siRNA长度和/或启动子序列,符合这些参数的序列归为病毒序列群;其余siRNA数据归为宿主序列群。
优选地,还包括:
根据步骤(3)初步组装得到病毒contig自动提取病毒基因组二次特征参数,siRNA的GC含量、siRNA长度和/或启动子序列;
以病毒基因组二次特征参数替换初始病毒基因组特征参数重复步骤(2)-(3)2-5轮。
优选地,所述利用OLC算法进行初步组装得到病毒contig包括:
对分组得到病毒序列群所有siRNA测序数据进行两两比对,找到片段间的重叠信息;
根据得到的重叠信息将存在重叠的片段建立组合关系得到病毒contig。
优选地,构建的已知病毒数据库的病毒基因组数据来源于网络发表的完整病毒基因组数据。
优选地,siRNA数据为fasta或fastq格式;病毒基因组数据为fasta或fastq格式。
本发明的方法主要是针对病毒测序的siRNA序列较短,单端数据、深度较低、冗余数据过多的特点,采用OLC算法并基于自组织映射模型,进行病毒基因组组装,提高数据利用准确度、组装效率,组装完整度。
由于测序获取的病毒siRNA数据中有大量的来自宿主的数据,会对结果产生较大的影响,如果直接利用宿主的参考基因组进行过滤,会造成有效数据的减少,因此本发明的方法中,通过构建的自组织映射模型,即将病毒初步组装的contig进行建模,可以自动得到病毒基因组的一些特征,如GC含量,可产生的siRNA长度,启动子编码基因等信息,这些特征用于下一步精确筛选病毒来源的siRNA和精确组装,通过病毒和宿主基因组的一些特征诸如:GC含量,siRNA长度等信息自动区分数据,准确度为80%,重复步骤(2)-(3)2-5多次训练数据分组准确度可以达到85%(多次训练是指反复迭代,迭代一次之后,可能准确度很高,但是涉及的数据量比较小,但是这一次迭代,病毒的基因组结果会被优化,利用优化后的基因组,再一次提取特征,进行再次的数据分组,映射、反复多次,结果可以达到85%)。
本发明中通过利用确定的病毒contig提取特征构建网络之后,通过自组织映射来对未确定的Read进行分组,数据有效度大大提升。
由于病毒基因组组装中存在大量的非病毒数据,如何精确的进行划分,是病毒基因组组装的核心难题,本发明通过自组织神经网络SOM对数据进行精确划分之后,进行组装,实现对数据的精确分组。SOM是基于无监督学习方法的神经网络的一种重要类型。自组织映射网络理论最早是由芬兰赫尔辛基理工大学Kohen于1981年提出的。此后,伴随着神经网络在20世纪80年代中后期的迅速发展,自组织映射理论及其应用也有了长足的进步。它模拟人脑中处于不同区域的神经细胞分工不同的特点,即不同区域具有不同的响应特征,而且这一过程是自动完成的。自组织映射网络通过寻找最优参考矢量集合来对输入模式集合进行分类。每个参考矢量为一输出单元对应的连接权向量。与传统的模式聚类方法相比,它所形成的聚类中心能映射到一个曲面或平面上,而保持拓扑结构不变。对于未知聚类中心的判别问题可以用自组织映射来实现。
附图说明
图1.基因组组装方法中形成的contig示意图。
具体实施方式
以下通过示例性实施方案说明本发明,但不作为对本发明范围的限制。
实施例1.对来自黄瓜花叶病毒的病毒测序数据进行组装测试本发明的方法
(1)测序获取待测材料的病毒siRNA数据;
来源:实验室前期测序数据,为黄瓜花叶病毒侵染烟草后的siRNA测序数据。
数据数量:1.5Gb
数据格式:fastq
(2)siRNA数据初步分组:依据初始病毒基因组特征参数对siRNA数据进行初步分组得到病毒序列群和宿主序列群;
初始病毒基因组特征参数为GC含量为40-60%,siRNA长度为21-22nt;
具体分组标准:
a.按照GC含量为40-60%,siRNA长度为21-22nt的siRNA分组得到病毒序列群。
b.其余部分且比对到宿主参考基因组的序列归为宿主序列群。
结果:
病毒序列群siRNA数据:4844行;
宿主序列群siRNA数据:12060行;
(3)初步组装:对保留的siRNA数据,利用OLC算法(可采用的OLC组装软件:VELEVT、PFOR2,均为开源软件)进行初步组装得到病毒contig;
对分组得到病毒序列群所有siRNA测序数据进行两两比对,找到片段间的重叠信息;
根据得到的重叠信息将存在的重叠片段建立组合关系得到565个病毒contig。
(4)引入同源比对参考库:将病毒contig与构建的已知病毒数据库进行blast比对和匹配,过滤掉所述病毒contig中的非病毒序列,保留病毒的siRNA数据,并找出潜在存在的病毒或者其同源序列;
构建已知病毒数据库:来自
https://www.ncbi.nlm.nih.gov/assembly/?term=cucumber%20mosaic%20virus%20AND%20latest%5Bsb%5D%20NOT%20anomalous%5Bsb%5D%20NOT%20%22derived%20from%20surveillance%20project%22%5Bsb%5D,包含NCBI公布的所有黄瓜花叶病毒组装信息在内的病毒已知序列信息。
比对判断标准:
未比对到同源比对数据库中的siRNA数据是非病毒序列;
比对到同源比对数据库中的的siRNA数据是病毒序列;
宿主序列群中比对到构建的已知病毒数据库的siRNA数据对应潜在存在的病毒或者其同源序列;
(5)数据找回:将所述同源序列到步骤(2)中分出的宿主序列群中进行比对,与同源序列匹配的siRNA数据为病毒的序列,找回;结果显示,步骤2中siRNA数据初步分组中,存在20%的误判序列;本步骤弥补了这种误判。
(6)精确组装:利用步骤(5)找回的siRNA数据和步骤(4)保留的病毒的siRNA数据与构建的已知病毒数据库比对,在已知病毒数据库中参考序列的指导下,进行精确组装得到待测材料中存在的病毒基因组组装数据;
实施例2.对来自黄瓜花叶病毒的病毒测序数据进行组装测试本发明的方法
(1)测序获取待测材料的病毒siRNA数据(数据来源同实施例1);
来源:实验室前期测序数据,为黄瓜花叶病毒侵染烟草后的siRNA测序数据。
数据数量:1.5Gb
数据格式:fastq
(2)siRNA数据初步分组:依据初始病毒基因组特征参数对对siRNA数据进行初步分组得到病毒序列群和宿主序列群;
初始病毒基因组特征参数为GC含量为40-60%,siRNA长度为21-22nt;
具体分组标准:
a.将GC含量为40-60%,siRNA长度为21-22nt的siRNA分组得到病毒序列群。
b.其余部分且比对到宿主参考基因组的序列归为宿主序列群。
结果:
病毒序列群siRNA数据:4844行;
宿主序列群siRNA数据:12060行;
(3)初步组装:对保留的siRNA数据,利用OLC算法(可采用的OLC组装软件:VELEVT、PFOR2,均为开源软件)进行初步组装得到病毒contig;
对分组得到病毒序列群所有siRNA测序数据进行两两比对,找到片段间的重叠信息;
根据得到的重叠信息将存在的重叠片段建立组合关系得到565个病毒contig。
根据得到565个病毒contig自动得出病毒基因组二次特征参数,利用病毒基因组二次特征参数代替初始病毒基因组特征参数重复步骤(2)-(3)2轮;
(4)引入同源比对参考库:将病毒contig与构建的已知病毒数据库进行blast比对和匹配,过滤掉所述病毒contig中的非病毒序列,保留病毒的siRNA数据,并找出潜在存在的病毒或者其同源序列;
构建已知病毒数据库:来自
https://www.ncbi.nlm.nih.gov/assembly/?term=cucumber%20mosaic%20virus%20AND%20latest%5Bsb%5D%20NOT%20anomalous%5Bsb%5D%20NOT%20%22derived%20from%20surveillance%20project%22%5Bsb%5D,包含NCBI公布的所有黄瓜花叶病毒组装信息在内的病毒已知序列信息。
比对判断标准:
未比对到同源比对数据库中的siRNA数据是非病毒序列;
比对到同源比对数据库中的的siRNA数据是病毒序列;
宿主序列群中比对到构建的已知病毒数据库的siRNA数据对应潜在存在的病毒或者其同源序列;
(5)数据找回:将所述同源序列到步骤(2)中分出的宿主序列群中进行比对,与同源序列匹配的siRNA数据为病毒的序列,找回;结果显示,步骤2中siRNA数据初步分组中,存在20%的误判序列;本步骤弥补了这种误判。
(6)精确组装:利用步骤(5)找回的siRNA数据和步骤(4)保留的病毒的siRNA数据与构建的已知病毒数据库比对,在已知病毒数据库中参考序列的指导下,进行精确组装得到待测材料中存在的病毒基因组组装数据;
对照方法如下:
1.利用Blast软件将siRNA与参考基因组进行比对
2.将比对到参考病毒基因组的数据挑出,利用VELEVT进行组装
3.得到较完整的病毒基因组测试效果如表1:
Figure BDA0002354789310000051

Claims (6)

1.一种基于低深度siRNA数据的病毒序列组装方法,其特征在于:包含以下步骤:
(1)测序获取待测材料的病毒siRNA数据;
(2)siRNA数据分组:依据初始病毒基因组特征参数对siRNA数据进行初步分组得到病毒序列群和宿主序列群;
(3)初步组装:对病毒序列群的siRNA数据,利用OLC算法进行初步组装得到病毒contig;
(4)引入同源比对参考库:将病毒contig与构建的已知病毒数据库进行比对和匹配,过滤掉所述病毒contig中的非病毒序列,保留病毒的siRNA数据,并找出潜在存在的病毒或者其同源序列;
(5)数据找回:利用所述同源序列到步骤(2)中分出的宿主序列群中找回属于病毒序列群的序列;
(6)精确组装:利用步骤(5)找回的病毒序列和步骤(4)保留的病毒的siRNA数据,以构建的已知病毒数据库的序列为模板进行序列比对,进行精确组装得到取待测材料中的病毒基因组数据。
2.根据权利要求1所述的方法,其特征在于:5
依据初始病毒基因组特征参数对siRNA数据进行初步分组是指依据siRNA的GC含量、siRNA长度和/或启动子序列,符合这些参数的序列归为病毒序列群;其余siRNA数据归为宿主序列群。
3.根据权利要求1或2所述的方法,其特征在于:
根据步骤(3)初步组装得到病毒contig提取病毒基因组二次特征参数,
以病毒基因组二次特征参数替换初始病毒基因组特征参数重复步骤(2)-(3)3-5轮。
4.根据权利要求1所述的方法,其特征在于:
利用OLC算法进行初步组装得到病毒contig包括:
对分组得到病毒序列群所有siRNA测序数据进行两两比对,找到片段间的重叠信息;
根据得到的重叠信息将存在重叠的片段建立组合关系得到病毒contig。
5.根据权利要求1所述的方法,其特征在于:
构建的已知病毒数据库的病毒基因组数据来源于网络发表的完整病毒基因组数据。
6.根据权利要求1所述的方法,其特征在于:
siRNA数据为fasta或fastq格式
病毒基因组数据为fasta或fastq格式。
CN202010004702.2A 2020-01-03 2020-01-03 一种基于低深度siRNA数据的病毒序列组装方法 Pending CN111180014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010004702.2A CN111180014A (zh) 2020-01-03 2020-01-03 一种基于低深度siRNA数据的病毒序列组装方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010004702.2A CN111180014A (zh) 2020-01-03 2020-01-03 一种基于低深度siRNA数据的病毒序列组装方法

Publications (1)

Publication Number Publication Date
CN111180014A true CN111180014A (zh) 2020-05-19

Family

ID=70647428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010004702.2A Pending CN111180014A (zh) 2020-01-03 2020-01-03 一种基于低深度siRNA数据的病毒序列组装方法

Country Status (1)

Country Link
CN (1) CN111180014A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899791A (zh) * 2020-06-17 2020-11-06 昆明理工大学 一种基于基因序列相似的病毒源头筛选方法
CN116072222A (zh) * 2023-02-16 2023-05-05 湖南大学 病毒基因组鉴定和拼接的方法及应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504697A (zh) * 2008-12-12 2009-08-12 深圳华大基因研究院 一种基因组测序设备及其片段连接支架的构建方法和系统
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统
CN104017883A (zh) * 2014-06-18 2014-09-03 深圳华大基因科技服务有限公司 组装基因组序列的方法和系统
US20140255931A1 (en) * 2012-04-04 2014-09-11 Good Start Genetics, Inc. Sequence assembly
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和系统
CN106868116A (zh) * 2017-01-24 2017-06-20 华南农业大学 一种桑树病原菌高通量鉴定及种属分类方法及其应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504697A (zh) * 2008-12-12 2009-08-12 深圳华大基因研究院 一种基因组测序设备及其片段连接支架的构建方法和系统
US20140255931A1 (en) * 2012-04-04 2014-09-11 Good Start Genetics, Inc. Sequence assembly
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统
CN104017883A (zh) * 2014-06-18 2014-09-03 深圳华大基因科技服务有限公司 组装基因组序列的方法和系统
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和系统
CN106868116A (zh) * 2017-01-24 2017-06-20 华南农业大学 一种桑树病原菌高通量鉴定及种属分类方法及其应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
原佳沛等: "新型长链非编码RNA(lncRNA)的生物信息学研究进展", 《生物化学与生物物理进展》 *
周卫星等: "高通量测序中序列拼接算法的研究进展", 《计算机科学》 *
田纯见等: "禽流感病毒广东株HA基因BLSOM神经网络分型方法的建立", 《广东农业科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899791A (zh) * 2020-06-17 2020-11-06 昆明理工大学 一种基于基因序列相似的病毒源头筛选方法
CN111899791B (zh) * 2020-06-17 2023-11-24 昆明理工大学 一种基于基因序列相似的病毒源头筛选方法
CN116072222A (zh) * 2023-02-16 2023-05-05 湖南大学 病毒基因组鉴定和拼接的方法及应用
CN116072222B (zh) * 2023-02-16 2024-02-06 湖南大学 病毒基因组鉴定和拼接的方法及应用

Similar Documents

Publication Publication Date Title
CN110010193B (zh) 一种基于混合策略的复杂结构变异检测方法
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
Yan et al. Graph neural representational learning of RNA secondary structures for predicting RNA-protein interactions
CN108197434B (zh) 去除宏基因组测序数据中人源基因序列的方法
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN114743594B (zh) 一种用于结构变异检测的方法、装置和存储介质
US20050079504A1 (en) Method and apparatus for mRNA assembly
Li et al. The computational approaches of lncRNA identification based on coding potential: status quo and challenges
CN111180014A (zh) 一种基于低深度siRNA数据的病毒序列组装方法
CN111599406B (zh) 结合网络聚类方法的全局多网络比对方法
Adebali et al. Phylogenetic analysis of SARS-CoV-2 genomes in Turkey
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
Williams et al. Plant microRNA prediction by supervised machine learning using C5. 0 decision trees
CN114420212A (zh) 一种大肠杆菌菌株鉴定方法和系统
CN112863599A (zh) 一种病毒测序序列的自动化分析方法及系统
CN111180013A (zh) 检测血液病融合基因的装置
CN113808669A (zh) 一种宏基因组序列组装方法
CN107729719A (zh) 一种从头测序方法
CN114496097A (zh) 一种胃癌代谢基因预后预测方法和装置
Nguyen et al. A knowledge-based multiple-sequence alignment algorithm
Wu et al. A genetic algorithm for optimizing subnetwork markers for the study of breast cancer metastasis
CN115497563B (zh) 一种癌症驱动基因识别方法、系统、存储介质及设备
CN113963746B (zh) 一种基于深度学习的基因组结构变异检测系统及方法
CN114628031B (zh) 检测癌症个体病人动态网络生物标志物的多模态优化方法
CN116721700B (zh) 鉴定新型双链dna胞苷脱氨酶的方法、装置及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination