CN117612605A

CN117612605A - 一种基于高通量测序的病毒全基因组序列组装分析方法

Info

Publication number: CN117612605A
Application number: CN202311674059.4A
Authority: CN
Inventors: 薄志坚; 栾明春; 郎兴莹; 王越
Original assignee: DALIAN CENTER FOR DISEASE CONTROL AND PREVENTION
Current assignee: DALIAN CENTER FOR DISEASE CONTROL AND PREVENTION
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-02-27

Abstract

本发明公开一种基于高通量测序的病毒全基因组序列组装分析方法，属于基因组序列组装分析方法技术领域。所述的方法是基于UNIX平台的开源软件对病毒基因组高通量测序下机序列数据进行组装分析，包括步骤：S1：准备参考基因组序列和待分析病毒全基因组测序原始的下机序列数据，S2：将原始的下机序列数据与参考基因组序列进行比对；S3：根据比对信息得到初步变异信息；S4:经过核实和校正得到准确的变异信息；S5：生成被测病毒全基因组一致性序列。本发明解决了从头组装无法实现的获得全部基因组序列问题，从而提高了高通量测序后病毒基因组序列组装准确性和速度。

Description

一种基于高通量测序的病毒全基因组序列组装分析方法

技术领域

本发明属于基因组序列组装分析方法技术领域，具体涉及一种基于高通量测序的病毒全基因组序列组装分析方法。

背景技术

基因测序技术自21世纪初第一代测序技术问世以来，随着生物技术和设备制造的发展，现已进入高通量基因组测序时代，第二代和三代高通量基因测序技术已广泛应用到肿瘤检测、病原体检测、基因工程等领域。

全基因组测序是指一个生物体携带的所有基因信息测序，对获得的基因信息数据进行收集、筛选、处理、利用的过程被称为生物信息分析，它是以计算机为工具，将分子生物学与信息技术相结合。病毒的全基因组测序以及对应的生物信息学分析方法是研究病毒进化、毒力因子变异、疫病爆发之间的关系、疫病传播途径、不同遗传变异的分布模式、疫病发生地理区域的基础，为调整防控政策等提供科学的依据。

目前，病毒的基因组测序技术无法一次性直接获得整条基因组序列，只能测较短的序列，高通量基因组测序是对病毒的基因组打断后，复制出多条片段，一次性对几百万到十亿条基因片段进行并行测序，利用生物信息学分析手段，根据其首尾重叠信息对序列进行拼接、组装，从而获得该病毒的基因组图谱。

基因组组装是生物信息学分析的核心问题，对于基因组分析是十分关键，它是把测序读取获得的短片段经过序列拼接组装，生成较长的完整全基因组序列。对组装效果的评价主要依据组装序列长度尽可能长，总长度占基因组序列长度的比例尽可能大，与真实序列尽可能符合。基因组组装软件可根据得到的所有读长组装成基因组，但受到病毒基因组测序数据特征的影响，现有组装软件都有局限性。

病毒基因组打断后基因片段序列读长较短，难以跨越高重复序列区域，同时碱基偏好性也影响了复杂区域组装；病毒基因组打断时存在冗余片段、污染或者缺失时，不能够完全准确地将基因序列拼接出来；增加打断后序列读长的话，错误率增加需要大量数据纠正。对以上病毒基因组组装问题，生物信息分析人员对病毒基因组结构特征掌握和分析经验可能不足以准确判断出某些碎片化片段的组装模式，难以进一步的完善和校正。基因组装对于病毒全基因组测序更具有挑战性，通常会出现组装碎片化和病毒基因组恢复不完全。因此，需要优化病毒基因组测序数据组装方法，来提高病毒基因组组装质量和效率。

发明内容

鉴于此，本发明的目的是提供了一种基于高通量测序的病毒全基因组序列组装分析方法。本发明以病毒参考基因组为基础，根据准确特定位点变异信息组装生成一致性序列，从而解决从头组装无法实现的获得全部基因组序列问题，从而提高了高通量测序后病毒基因组序列组装准确性和速度。

本发明目的是通过以下方式实现：

本发明提供一种基于高通量测序的病毒全基因组序列组装分析方法，所述的方法是基于UNIX平台的开源软件对病毒基因组高通量测序下机序列数据进行组装分析，包括步骤：S1：准备参考基因组序列和待分析病毒全基因组测序原始的下机序列数据，S2：将原始的下机序列数据与参考基因组序列进行比对；S3：根据比对信息得到初步变异信息；S4:经过核实和校正得到准确的变异信息；S5：生成被测病毒全基因组一致性序列。

基于上述技术方案，进一步地，S1包括如下步骤：

1.1、在NCBI数据库中下载被测病毒的参考基因组序列；

1.2、获得待分析病毒全基因组测序原始的下机序列数据，测序生成多个下机序列数据文件时需要合并成一个数据文件后再用于后续分析。

基于上述技术方案，进一步地，所述的测序为二代测序或三代测序。

基于上述技术方案，进一步地，S2包括如下步骤：

2.1、建立参考基因组索引；

2.2、用BWA-MEM比对算法将所得的下机序列数据比对至参考基因组，得到所有序列片段与参考基因组间原始比对信息。

基于上述技术方案，进一步地，比对的最小分值阈值参数T、匹配参数A、未匹配参数B、空缺参数O根据所用计算机的配置、病毒基因组大小、测序深度、序列长度的错误率进行调整。

基于上述技术方案，进一步地，比对的最小分值阈值参数T、匹配参数A、未匹配参数B、空缺参数O分别设分别设置为10～35、1～5、5～10、(20～50，20～50)。

基于上述技术方案，进一步地，S3包括如下步骤：

3.1、将原始的下机序列数据与参考基因组序列的比对信息进行排序和建立索引；

3.2、去除多余重复基因片段序列比对信息；

3.3、使用bcftools软件对比对信息进行基因序列变异分析，生成记录所有序列片段单核苷酸变异/插入或缺失(SNP/INDELS)的初步变异信息表，包括比对错误和测序错误产生的变异。

基于上述技术方案，进一步地，INDELS检测时偏差(bias)参数的设置采用0.12-0.25之间进行调整。

基于上述技术方案，进一步地，S4包括如下步骤：

4.1、使用IGV可视化软件观察低变异质量(QUAL)值位点四个碱基及INDELS的比例，并与参考基因组的碱基进行比较，确定该位点的变异的真实性以及是否是杂合突变；

4.2、通过以下两种方式校正变异信息：使用记事本编辑变异信息表，人工去掉初步变异表中假阳性变异位点，保存后上传，或者，调整步骤2.2和步骤3.3的参数去掉假阳性变异位点。

基于上述技术方案，进一步地，由于不同病毒的基因组结构有差异，实际测序深度、样本质量变化，需要根据实际情况采取以上两种方式进行调整，但当针对特定病毒、特定测序平台、较为稳定的样本和捕获试剂时，只需微调即可获得无限接近真实的变异位点信息。

基于上述技术方案，进一步地，S5包括如下步骤：

5.1、使用bcftools软件过滤变异质量值小于15～25的变异；

5.2、将过滤后变异信息压缩和索引；

5.3、将位点变异应用于到参考基因组上替换基因组序列碱基，得到所测病毒全基因组一致性序列。

本发明相对于现有技术具有的有益效果如下：

1、本发明基于病毒基因组相对与其它生物的基因组要小很多，相较于参考基因组被测病毒的变异位点较少，通常在100个位点左右，便于通过从获取无限接近真实的变异位点信息而得到一致性序列的方式来获取病毒全基因组的序列，在忽略全基因组头尾极少部分序列的前提下，得到的序列信息具有很高的准确性。

2、现有的基因组组装软件(如spades、canu、flye等)可根据得到的所有读取(reads)组装成基因组，尽管组装后的基因组序列不断接近完成图，但依然存在较多的空白，需要生物信息分析人员通过经验判断、实验过程数据来对组装结果进行进一步的完善和校正，病毒基因组的组装通常采用利用二代测序的短读长的准确性和三代测序长读长的特点进行校正后组装，或用spades等从头组装软件进行混合组装的方法，需要同时进行二代和三代两次测序，无疑会增加测序的成本，上述几种测序数据从头组装方法与本发明的分析方法相比，本发明的分析方法具有高准确性、低测序成本、短耗时的特点。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例涉及的附图进行简单地介绍。

图1为本发明基于高通量测序的病毒全基因组序列组装分析方法流程图。

图2为核对变异信息表中变异位点。

图3为在IGV中可视化人工核对变异位点。

具体实施方式

下面结合实施例对本发明进行详细的说明，但本发明的实施方式不限于此，显而易见地，下面描述中的实施例仅是本发明的部分实施例，对于本领域技术人员来讲，在不付出创造性劳动性的前提下，获得其他的类似的实施例均落入本发明的保护范围。

实施例1

本实施例对CovID-19病毒的二代测序(Illumina)全基因组测序获得的下机数据进行组装分析，具体的实施方案如下：

分析流程如下：

1、数据准备

1.1、在NCBI数据库中下载NC_045512.2参考基因组序列；

1.2、获取Illumina测序标本测序下机序列数据；

2、序列比对

2.1、建立参考基因组索引；

2.2、用BWA-MEM比对算法将下机序列数据比对至参考基因组，得到所有序列片段与参考基因组间原始比对信息；比对参数T、A、B、O分别设置为16、5、6、(30,26)。

3、根据比对信息得到初步变异信息

3.1、将原始比对信息进行排序和建立索引；

3.2、去除多余重复基因片段序列比对信息；

3.3、使用bcftools软件对比对信息进行基因序列变异分析，生成记录所有序列片段单核苷酸变异/插入或缺失(SNP/INDELS)的初步变异信息表。

4、经过核实和校正得到准确的变异信息

4.1、用IGV可视化软件观察低变异质量(QUAL)值位点四个碱基及INDELS的比例，并与参考基因组的碱基进行比较，确定该位点的变异的真实性以及是否是杂合突变；

4.2人工去掉初步变异信息表中假阳性变异位点。

5、生成被测病毒的全基因组一致性序列

5.1、使用bcftools软件过滤变异质量值小于20的变异；

5.2、将过滤后变异信息压缩和索引；

应用效果：得到100％覆盖率的CovID-19全基因组完整序列(fasta)；文件大小30k；耗时7min；无gap。

本实施例对下机数据进行分析，可以直观看到样本的实际情况，对特定的位点进行分析，经测试，标本分析结果与其它设备分析的结果一致，如果有个别不一致的位点通过IGV核实，调整分析过程中的相应参数得到完全一致的结果。

实施例2

本实施例对猴痘病毒(monkeypox)二代测序(Illumina)全基因组测序获得的下机数据进行组装分析，具体的实施方案如下：

1、数据准备

1.1、在NCBI数据库中下载NC_063383.1参考基因组序列；

1.2、获取Illumina测序标本测序下机序列数据，将2个两端测序文件合并。

2、序列比对

2.1、建立参考基因组索引；

2.2、用BWA-MEM比对算法将下机序列数据比对至参考基因组，得到所有序列片段与参考基因组间原始比对信息；比对参数T、A、B、O分别设置为32、1、10、(40,40)。

3、根据比对信息得到初步变异信息

3.1、将原始比对信息进行排序和建立索引；

3.2、去除多余重复基因片段序列比对信息；

3.3、使用bcftools软件对比对信息进行基因序列变异分析，生成记录所有序列片段单核苷酸变异/插入或缺失(SNP/INDELS的初步变异信息表。

4、经过核实和校正得到准确的变异信息

4.2人工去掉初步变异表中假阳性变异位点。

5、生成被测病毒的全基因组一致性序列

5.1、使用bcftools软件过滤变异质量值小于20的变异；

5.2、将过滤后变异信息压缩和索引；

应用效果：得到100％覆盖率的monkeypox全基因组完整序列(fasta)；文件大小197k；耗时15min；无gap。

表1.本实例组装分析方法与spades、canu、flye组装分析方法的比较

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于高通量测序的病毒全基因组序列组装分析方法，其特征在于，所述的方法是基于UNIX平台的开源软件对病毒基因组高通量测序下机序列数据进行组装分析，包括步骤：S1：准备参考基因组序列和待分析病毒全基因组测序原始的下机序列数据，S2：将原始的下机序列数据与参考基因组序列进行比对；S3：根据比对信息得到初步变异信息；S4:经过核实和校正得到准确的变异信息；S5：生成被测病毒全基因组一致性序列。

2.根据权利要求1所述的方法，其特征在于，S1包括如下步骤：

1.1、在NCBI数据库中下载被测病毒的参考基因组序列；

3.根据权利要求2所述的方法，其特征在于，所述的测序为二代测序或三代测序。

4.根据权利要求2所述的方法，其特征在于，S2包括如下步骤：

2.1、建立参考基因组索引；

5.根据权利要求4所述的方法，其特征在于，比对的最小分值阈值参数T、匹配参数A、未匹配参数B、空缺参数O根据所用计算机的配置、病毒基因组大小、测序深度、序列长度的错误率进行调整。

6.根据权利要求5所述的方法，其特征在于，比对的最小分值阈值参数T、匹配参数A、未匹配参数B、空缺参数O分别设分别设置为10～35、1～5、5～10、(20～50，20～50)。

7.根据权利要求4所述的方法，其特征在于，S3包括如下步骤：

3.2、去除多余重复基因片段序列比对信息；

8.根据权利要求7所述的方法，其特征在于，INDELS检测时偏差(bias)参数的设置采用0.12-0.25之间进行调整。

9.根据权利要求7所述的方法，其特征在于，S4包括如下步骤：

10.根据权利要求9所述的方法，其特征在于，S5包括如下步骤：

5.1、使用bcftools软件过滤变异质量值小于15～25的变异；

5.2、将过滤后变异信息压缩和索引；