CN116779036A

CN116779036A - 一种基于多重pcr的靶向病原体纳米孔测序快速分析方法

Info

Publication number: CN116779036A
Application number: CN202310725183.2A
Authority: CN
Inventors: 余乐; 李寅虎; 王志富; 武志慧; 杨童茜; 高军涛
Original assignee: Foshan Yuansheng Gene Biotechnology Co ltd
Current assignee: Foshan Yuansheng Gene Biotechnology Co ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-19

Abstract

本发明涉及纳米孔测序技术领域，具体涉及一种基于多重PCR的靶向病原体纳米孔测序快速分析方法，该方法构建了两轮比对分析的病原识别算法，保证了识别的准确性和时效性。首先在第一轮比对中，通过使用两种快速比对软件——vsearch和minimap2，实现了针对典型数据(1Gb纳米孔测序数据)的物种初步判别；在第二轮验证分析中，使用BLAST精确比对算法将第一步判别的各个物种的读段与该物种参考序列进行比对验证，有效减少了精确比对的计算量，将典型数据耗时降低至10分钟内，通过构建该方法，实现了典型纳米孔测序数据在10分钟内的准确分析和报告生成，并可兼容二代测序数据分析。

Description

一种基于多重PCR的靶向病原体纳米孔测序快速分析方法

技术领域

本发明涉及纳米孔测序技术领域，具体涉及一种基于多重PCR的靶向病原体纳米孔测序快速分析方法。

背景技术

靶向测序是一种专门用于捕获基因特殊区域并进行高通量测序的方法，PCR是其中一种最为常见的靶向富集方法。用于病原体鉴定的临床样本(如血液、肺泡灌洗液、脑脊液等)，往往具有病原体载量低的特性。通过对特异性病原体的目的片段进行扩增，可以达到靶向富集病原体的目的，同时有效减少宿主基因的干扰，实现对低载量病原体的检出。其主要技术及实现方案是提取临床样本中的核酸，利用多对引物进行特异性扩增并构建上机文库，进行测序，待获得测序数据后，使用序列比对软件与病原体序列数据库进行比对，采用一定的比对结果过滤条件进行筛选获得可信结果，进而计算输入的测序数据中病原体来源的序列含量及所占比例等，最终判断测序样本中相应病原体的存在情况。

纳米孔测序技术具有长读长的特性，但同时也具有随机错误率高的缺点，如何利用纳米孔测序数据实现对临床样本病原体的快速、准确检测，是当前面临的挑战，也是主要的技术难点。因此，为了提升临床病原检测的时效性和准确性，必须建立一套基于多重PCR的靶向病原体纳米孔测序自动分析方法及系统。

目前，对测序数据的处理方式主要包括序列比对和使用k-mer算法进行分析。其中，基于序列相似性比对的软件包括bwa、bowtie 2、BLAST等，是基于BWT转换算法构建的快速比对算法，在针对二代测序数据的分析中已经广为使用，如solexa序列用bowtie做比对。BLAST算法是1990年由Altschul等人提出的两序列局部比对算法，采用了一种短片段匹配算法和一种有效的统计模型来找出目的序列和数据库之间的最佳局部比对效果，是一种基于局部序列比对的序列比对算法。

但是如何分析纳米孔测序产生的长读长、且伴有较高随机错误的序列，还需进一步研究。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

本发明的目的在于解决如何分析纳米孔测序产生的长读长、且伴有较高随机错误的序列的问题，提供了一种基于多重PCR的靶向病原体纳米孔测序自动分析方法。

为了实现上述目的，本发明公开了一种基于多重PCR的靶向病原体纳米孔测序自动分析方法，包括以下步骤：

S1：读取下机数据，采用国际通用的测序数据标准FASTQ格式，支持gzip方法进行数据压缩以减少存储占用，使用cat或zcat命令合并来自于同一份样本的多个FASTQ数据文件或压缩的FASTQ.gz文件；

S2：根据数据类型，使用Nanofilt软件和fastQC软件和对应参数进行低质量数据过滤；

S3：使用samtools软件提取通过数据质控的高质量数据，用于后续分析；

S4：第一轮快速比对，通过使用Vsearch和Minimap2两种快速比对软件和算法进行物种初步判别；

S5：基于步骤S3、步骤S4的结果，使用samtools软件提取疑似病原的读段并按初步鉴定的物种进行拆分；

S6：将步骤S5拆分的疑似病原读段，与各物种参考序列进行BLAST比对，提取各读段最优比对，并按照比对长度大于读段长度80％、序列相似度高于90％，比对期望值(Evalue)小于1E-5，进行筛选；

S7：将步骤S6获得的病原读段，与本样本识别到的其他病原参考序列再次进行BLAST交叉比对，提取各读段最优比对，并按照比对长度大于读段长度80％、序列相似度高于90％，比对期望值小于1E-5，进行筛选；

S8：将步骤S7验证的病原读段按病原类型和基因组类型进行各分类水平的物种进行统计分析，明确该份样本中存在的病原类型、基因组类型、属水平和种水平的读段数量及构成比；

S9：根据步骤S8获得的样本中病原体统计信息，补充添加病原体注释信息、样本信息和患者信息等，生成检测报告。

所述步骤S2中针对三代测序的FASTQ测序数据文件进行质控检测和过滤，使用Nanofilt软件，筛选平均测序数据质量大于Q7的测序读段。

所述步骤S2中针对二代数据使用fastQC软件，筛选平均测序数据质量大于Q30的测序读段。

所述步骤S4中Vsearch用于与16S，ITS数据库比对进行细菌、真菌、病毒和寄生虫识别，Minimap2用于针对病毒等基因组变异较大病原体的补充比对，基于minimizer哈希表搜索、chaining算法和动态规划算法。

所述步骤S8中病原类型包括细菌、真菌、病毒、寄生虫，基因组类型包括DNA和RNA。

与现有技术比较本发明的有益效果在于：本发明提出的技术方案中建立了针对基于多重PCR的靶向纳米孔长读长测序数据的病原体比对识别方法和系统，能够有效处理纳米孔测序技术产生的长读长数据，很好地解决了长读长、错误率较高的纳米孔测序数据比对分析中准确性和分析速度难以兼顾的问题，将典型数据(1Gb纳米孔测序数据)分析耗时降低至10分钟以内，满足了临床中对低丰度病原体进行快速病原检测分析的需求，同时，该方法也能够针对二代测序获得的短读长数据进行分析，具有较好的数据兼容性。

附图说明

图1为本发明的流程示意图。

图2为本发明测试的计算环境和耗时统计；

图3为本发明与常见二代分析软件的耗时比对。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和资源消耗作更详细的说明。

采用这种基于多重PCR的靶向病原体纳米孔测序自动分析方法的数据检测过程如下：

1、核酸提取

根据试剂盒说明书提取核酸，并用Qubit 4.0測定核酸浓度。

2、RNA病毒进行逆转录

利用逆转录试剂盒进行RNA病毒逆转录。

3、配置引物

将引物干粉配成100μM存储液，按引物配制表(混合后单引物浓度5μM)配制混合引物。

4、配置PCR反应体系

5、PCR产物磁珠纯化：

1)将PCR产物转入新的1.5mL离心管，加入2×磁珠，混匀后静置5min。

2)磁力架静置2min，溶液清亮后弃上清。

3)75％乙醇漂洗磁珠，后晾干。

4)加入20μL无核酸酶水，室温静置8min。

5)磁力架静置2min，上清转移至新的离心管。

6)取1μL用qubit 4.0定量。

7)将纯化后的PCR产物稀释。

6、PCR产物末端修复

1)在PCR管中，加入样本15μL，末端修复酶2μL，末端修复反应液3μl，水10μl，配置成30μl体系，混匀。

2)在PCR仪设置：20℃10min，65℃10min，25℃(室温)30s，热盖105℃。

7、连接barcode和接头

1)将连接barcode后的各样本产物混合，加入磁珠吸附10min；

2)放在磁力架上，室温静置2min，待溶液清亮后弃上清。

3)75％乙醇进行漂洗，晾晒。

4)加入20μL无核酸酶水，室温放置8min。

5)磁力架静置2min，上清转移至新的离心管。

6)加入接头及缓冲液，进行连接，连接程序为20℃，20min，关闭热盖。

7)加入磁珠吸附10min后，置于磁力架上，室温静置2min，待溶液清亮后弃上清。

8)75％乙醇进行漂洗，晾晒。

9)加入20μL无核酸酶水，室温静置8min。

10)磁力架静置2min，上清转移至新的离心管。

11)取1μL用qubit 4.0定量。

8、上机測序

1)平衡芯片至室温，质检，确保有足够的孔用于测序

2)缓慢加样；

3)盖上盖子；

4)测序仪器参数选择，设置文件名和样本名，设置样本类型，选择PCRmulti，选择实时basecalling，开始测序。

9、数据分析过程如下：

(1)读取下机数据，采用国际通用的测序数据标准FASTQ格式，支持gzip方法进行数据压缩以减少存储占用；使用cat或zcat命令合并来自于同一份样本的多个FASTQ数据文件或压缩的FASTQ.gz文件；采用数据分批上传和分析的方式，该步骤耗时约2分钟；

(2)根据数据类型，使用不同数据质控软件和参数进行低质量数据过滤：

①针对三代测序的FASTQ测序数据文件进行质控检测和过滤，使用Nanofilt软件，筛选平均测序数据质量大于Q7的测序读段；

②针对二代数据使用fastQC软件，筛选平均测序数据质量大于Q30的测序读段；

(3)提取通过数据质控的高质量测序数据，用于后续分析；

(4)第一轮快速比对，通过使用两种快速比对算法进行物种初步判别：

①Vsearch，与16S，ITS数据库比对进行细菌、真菌、病毒和寄生虫识别；

②Minimap2，针对病毒等基因组变异较大病原体的补充比对，基于minimizer(一段序列内最小哈希值的种子)哈希表搜索、chaining算法和动态规划算法；

③并行方式运行第一轮两种快速比对，该步骤耗时约2分钟；

(5)基于步骤(3)、(4)结果，提取疑似病原的读段并按初步鉴定的物种进行拆分，该提取目标序列步骤约耗时2分钟；

(6)将步骤(5)拆分的疑似病原读段，与各物种参考序列进行BLAST比对，提取各读段最优比对，并按照比对长度大于读段长度80％、序列相似度高于90％，比对期望值(Evalue)小于1E-5，进行筛选；

(7)将步骤(6)获得的病原读段，与本样本识别到的其他病原参考序列再次进行BLAST交叉比对，提取各读段最优比对，并按照比对长度大于读段长度80％、序列相似度高于90％，比对期望值(E value)小于1E-5，进行筛选。由于比对范围的缩小，步骤(5)和步骤(6)再次进行BLAST的比对耗时约为2分钟；

(8)将步骤(6)验证的病原读段按物种进行统计分析，明确该份样本中存在的病原类型(细菌、真菌、病毒、寄生虫)、基因组类型(DNA、RNA)、属水平和种水平的读段数量及构成比；

(9)根据步骤七获得的样本中病原体统计信息，补充添加病原体注释信息、样本信息和患者信息等，生成检测报告，该统计和自动产出报告过程耗时约2分钟。

图3展示了对同一批数据，使用本发明和常用软件Kraken2进行分析的耗时比较。在Dell T7920工作站中，我们配置了512G内存，Intel 5220R CPU 2块，2T的SSD存储10块，Nvidia RTX A2000(12G)显卡一块，在该计算资源下，本发明对1G的不同纳米孔数据进行分析耗时在8-10分钟之间，显著优于Kraken2软件的14-16分钟。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于多重PCR的靶向病原体纳米孔测序快速分析方法，其特征在于，包括以下步骤：

S6：将步骤S5拆分的疑似病原读段，与各物种参考序列进行BLAST比对，提取各读段最优比对，并按照比对长度大于读段长度80％、序列相似度高于90％，比对期望值(E value)小于1E-5，进行筛选；

2.如权利要求1所述的一种基于多重PCR的靶向病原体纳米孔测序快速分析方法，其特征在于，所述步骤S2中针对三代测序的FASTQ测序数据文件进行质控检测和过滤，使用Nanofilt软件，筛选平均测序数据质量大于Q7的测序读段。

3.如权利要求1所述的一种基于多重PCR的靶向病原体纳米孔测序快速分析方法，其特征在于，所述步骤S2中针对二代数据使用fastQC软件，筛选平均测序数据质量大于Q30的测序读段。

4.如权利要求1所述的一种基于多重PCR的靶向病原体纳米孔测序快速分析方法，其特征在于，所述步骤S4中Vsearch用于与16S，ITS数据库比对进行细菌、真菌、病毒和寄生虫识别，Minimap2用于针对病毒等基因组变异较大病原体的补充比对，基于minimizer哈希表搜索、chaining算法和动态规划算法。

5.如权利要求1所述的一种基于多重PCR的靶向病原体纳米孔测序自动分析方法，其特征在于，所述步骤S8中病原类型包括细菌、真菌、病毒、寄生虫，基因组类型包括DNA和RNA。