CN116779036A - 一种基于多重pcr的靶向病原体纳米孔测序快速分析方法 - Google Patents
一种基于多重pcr的靶向病原体纳米孔测序快速分析方法 Download PDFInfo
- Publication number
- CN116779036A CN116779036A CN202310725183.2A CN202310725183A CN116779036A CN 116779036 A CN116779036 A CN 116779036A CN 202310725183 A CN202310725183 A CN 202310725183A CN 116779036 A CN116779036 A CN 116779036A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- comparison
- pathogen
- data
- species
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 244000052769 pathogen Species 0.000 title claims abstract description 49
- 230000001717 pathogenic effect Effects 0.000 title claims abstract description 49
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 38
- 238000004458 analytical method Methods 0.000 title claims abstract description 25
- 238000007403 mPCR Methods 0.000 title claims abstract description 14
- 230000008685 targeting Effects 0.000 title claims description 5
- 238000007672 fourth generation sequencing Methods 0.000 claims abstract description 18
- 241000894007 species Species 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 241000700605 Viruses Species 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 244000045947 parasite Species 0.000 claims description 6
- 238000003908 quality control method Methods 0.000 claims description 6
- 241000894006 Bacteria Species 0.000 claims description 5
- 241000233866 Fungi Species 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 241000282326 Felis catus Species 0.000 claims description 3
- 238000013144 data compression Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 claims description 2
- 239000011148 porous material Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012795 verification Methods 0.000 abstract 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 6
- 239000006228 supernatant Substances 0.000 description 6
- 239000011324 bead Substances 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 108020004707 nucleic acids Proteins 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000002096 quantum dot Substances 0.000 description 3
- 238000010839 reverse transcription Methods 0.000 description 3
- 238000007605 air drying Methods 0.000 description 2
- 241001493065 dsRNA viruses Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000001179 sorption measurement Methods 0.000 description 2
- 238000007671 third-generation sequencing Methods 0.000 description 2
- CJYDNDLQIIGSTH-UHFFFAOYSA-N 1-(3,5,7-trinitro-1,3,5,7-tetrazocan-1-yl)ethanone Chemical group CC(=O)N1CN([N+]([O-])=O)CN([N+]([O-])=O)CN([N+]([O-])=O)C1 CJYDNDLQIIGSTH-UHFFFAOYSA-N 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002865 local sequence alignment Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000011550 stock solution Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及纳米孔测序技术领域,具体涉及一种基于多重PCR的靶向病原体纳米孔测序快速分析方法,该方法构建了两轮比对分析的病原识别算法,保证了识别的准确性和时效性。首先在第一轮比对中,通过使用两种快速比对软件——vsearch和minimap2,实现了针对典型数据(1Gb纳米孔测序数据)的物种初步判别;在第二轮验证分析中,使用BLAST精确比对算法将第一步判别的各个物种的读段与该物种参考序列进行比对验证,有效减少了精确比对的计算量,将典型数据耗时降低至10分钟内,通过构建该方法,实现了典型纳米孔测序数据在10分钟内的准确分析和报告生成,并可兼容二代测序数据分析。
Description
技术领域
本发明涉及纳米孔测序技术领域,具体涉及一种基于多重PCR的靶向病原体纳米孔测序快速分析方法。
背景技术
靶向测序是一种专门用于捕获基因特殊区域并进行高通量测序的方法,PCR是其中一种最为常见的靶向富集方法。用于病原体鉴定的临床样本(如血液、肺泡灌洗液、脑脊液等),往往具有病原体载量低的特性。通过对特异性病原体的目的片段进行扩增,可以达到靶向富集病原体的目的,同时有效减少宿主基因的干扰,实现对低载量病原体的检出。其主要技术及实现方案是提取临床样本中的核酸,利用多对引物进行特异性扩增并构建上机文库,进行测序,待获得测序数据后,使用序列比对软件与病原体序列数据库进行比对,采用一定的比对结果过滤条件进行筛选获得可信结果,进而计算输入的测序数据中病原体来源的序列含量及所占比例等,最终判断测序样本中相应病原体的存在情况。
纳米孔测序技术具有长读长的特性,但同时也具有随机错误率高的缺点,如何利用纳米孔测序数据实现对临床样本病原体的快速、准确检测,是当前面临的挑战,也是主要的技术难点。因此,为了提升临床病原检测的时效性和准确性,必须建立一套基于多重PCR的靶向病原体纳米孔测序自动分析方法及系统。
目前,对测序数据的处理方式主要包括序列比对和使用k-mer算法进行分析。其中,基于序列相似性比对的软件包括bwa、bowtie 2、BLAST等,是基于BWT转换算法构建的快速比对算法,在针对二代测序数据的分析中已经广为使用,如solexa序列用bowtie做比对。BLAST算法是1990年由Altschul等人提出的两序列局部比对算法,采用了一种短片段匹配算法和一种有效的统计模型来找出目的序列和数据库之间的最佳局部比对效果,是一种基于局部序列比对的序列比对算法。
但是如何分析纳米孔测序产生的长读长、且伴有较高随机错误的序列,还需进一步研究。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
本发明的目的在于解决如何分析纳米孔测序产生的长读长、且伴有较高随机错误的序列的问题,提供了一种基于多重PCR的靶向病原体纳米孔测序自动分析方法。
为了实现上述目的,本发明公开了一种基于多重PCR的靶向病原体纳米孔测序自动分析方法,包括以下步骤:
S1:读取下机数据,采用国际通用的测序数据标准FASTQ格式,支持gzip方法进行数据压缩以减少存储占用,使用cat或zcat命令合并来自于同一份样本的多个FASTQ数据文件或压缩的FASTQ.gz文件;
S2:根据数据类型,使用Nanofilt软件和fastQC软件和对应参数进行低质量数据过滤;
S3:使用samtools软件提取通过数据质控的高质量数据,用于后续分析;
S4:第一轮快速比对,通过使用Vsearch和Minimap2两种快速比对软件和算法进行物种初步判别;
S5:基于步骤S3、步骤S4的结果,使用samtools软件提取疑似病原的读段并按初步鉴定的物种进行拆分;
S6:将步骤S5拆分的疑似病原读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值(Evalue)小于1E-5,进行筛选;
S7:将步骤S6获得的病原读段,与本样本识别到的其他病原参考序列再次进行BLAST交叉比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值小于1E-5,进行筛选;
S8:将步骤S7验证的病原读段按病原类型和基因组类型进行各分类水平的物种进行统计分析,明确该份样本中存在的病原类型、基因组类型、属水平和种水平的读段数量及构成比;
S9:根据步骤S8获得的样本中病原体统计信息,补充添加病原体注释信息、样本信息和患者信息等,生成检测报告。
所述步骤S2中针对三代测序的FASTQ测序数据文件进行质控检测和过滤,使用Nanofilt软件,筛选平均测序数据质量大于Q7的测序读段。
所述步骤S2中针对二代数据使用fastQC软件,筛选平均测序数据质量大于Q30的测序读段。
所述步骤S4中Vsearch用于与16S,ITS数据库比对进行细菌、真菌、病毒和寄生虫识别,Minimap2用于针对病毒等基因组变异较大病原体的补充比对,基于minimizer哈希表搜索、chaining算法和动态规划算法。
所述步骤S8中病原类型包括细菌、真菌、病毒、寄生虫,基因组类型包括DNA和RNA。
与现有技术比较本发明的有益效果在于:本发明提出的技术方案中建立了针对基于多重PCR的靶向纳米孔长读长测序数据的病原体比对识别方法和系统,能够有效处理纳米孔测序技术产生的长读长数据,很好地解决了长读长、错误率较高的纳米孔测序数据比对分析中准确性和分析速度难以兼顾的问题,将典型数据(1Gb纳米孔测序数据)分析耗时降低至10分钟以内,满足了临床中对低丰度病原体进行快速病原检测分析的需求,同时,该方法也能够针对二代测序获得的短读长数据进行分析,具有较好的数据兼容性。
附图说明
图1为本发明的流程示意图。
图2为本发明测试的计算环境和耗时统计;
图3为本发明与常见二代分析软件的耗时比对。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和资源消耗作更详细的说明。
采用这种基于多重PCR的靶向病原体纳米孔测序自动分析方法的数据检测过程如下:
1、核酸提取
根据试剂盒说明书提取核酸,并用Qubit 4.0測定核酸浓度。
2、RNA病毒进行逆转录
利用逆转录试剂盒进行RNA病毒逆转录。
3、配置引物
将引物干粉配成100μM存储液,按引物配制表(混合后单引物浓度5μM)配制混合引物。
4、配置PCR反应体系
5、PCR产物磁珠纯化:
1)将PCR产物转入新的1.5mL离心管,加入2×磁珠,混匀后静置5min。
2)磁力架静置2min,溶液清亮后弃上清。
3)75%乙醇漂洗磁珠,后晾干。
4)加入20μL无核酸酶水,室温静置8min。
5)磁力架静置2min,上清转移至新的离心管。
6)取1μL用qubit 4.0定量。
7)将纯化后的PCR产物稀释。
6、PCR产物末端修复
1)在PCR管中,加入样本15μL,末端修复酶2μL,末端修复反应液3μl,水10μl,配置成30μl体系,混匀。
2)在PCR仪设置:20℃10min,65℃10min,25℃(室温)30s,热盖105℃。
7、连接barcode和接头
1)将连接barcode后的各样本产物混合,加入磁珠吸附10min;
2)放在磁力架上,室温静置2min,待溶液清亮后弃上清。
3)75%乙醇进行漂洗,晾晒。
4)加入20μL无核酸酶水,室温放置8min。
5)磁力架静置2min,上清转移至新的离心管。
6)加入接头及缓冲液,进行连接,连接程序为20℃,20min,关闭热盖。
7)加入磁珠吸附10min后,置于磁力架上,室温静置2min,待溶液清亮后弃上清。
8)75%乙醇进行漂洗,晾晒。
9)加入20μL无核酸酶水,室温静置8min。
10)磁力架静置2min,上清转移至新的离心管。
11)取1μL用qubit 4.0定量。
8、上机測序
1)平衡芯片至室温,质检,确保有足够的孔用于测序
2)缓慢加样;
3)盖上盖子;
4)测序仪器参数选择,设置文件名和样本名,设置样本类型,选择PCRmulti,选择实时basecalling,开始测序。
9、数据分析过程如下:
(1)读取下机数据,采用国际通用的测序数据标准FASTQ格式,支持gzip方法进行数据压缩以减少存储占用;使用cat或zcat命令合并来自于同一份样本的多个FASTQ数据文件或压缩的FASTQ.gz文件;采用数据分批上传和分析的方式,该步骤耗时约2分钟;
(2)根据数据类型,使用不同数据质控软件和参数进行低质量数据过滤:
①针对三代测序的FASTQ测序数据文件进行质控检测和过滤,使用Nanofilt软件,筛选平均测序数据质量大于Q7的测序读段;
②针对二代数据使用fastQC软件,筛选平均测序数据质量大于Q30的测序读段;
(3)提取通过数据质控的高质量测序数据,用于后续分析;
(4)第一轮快速比对,通过使用两种快速比对算法进行物种初步判别:
①Vsearch,与16S,ITS数据库比对进行细菌、真菌、病毒和寄生虫识别;
②Minimap2,针对病毒等基因组变异较大病原体的补充比对,基于minimizer(一段序列内最小哈希值的种子)哈希表搜索、chaining算法和动态规划算法;
③并行方式运行第一轮两种快速比对,该步骤耗时约2分钟;
(5)基于步骤(3)、(4)结果,提取疑似病原的读段并按初步鉴定的物种进行拆分,该提取目标序列步骤约耗时2分钟;
(6)将步骤(5)拆分的疑似病原读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值(Evalue)小于1E-5,进行筛选;
(7)将步骤(6)获得的病原读段,与本样本识别到的其他病原参考序列再次进行BLAST交叉比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值(E value)小于1E-5,进行筛选。由于比对范围的缩小,步骤(5)和步骤(6)再次进行BLAST的比对耗时约为2分钟;
(8)将步骤(6)验证的病原读段按物种进行统计分析,明确该份样本中存在的病原类型(细菌、真菌、病毒、寄生虫)、基因组类型(DNA、RNA)、属水平和种水平的读段数量及构成比;
(9)根据步骤七获得的样本中病原体统计信息,补充添加病原体注释信息、样本信息和患者信息等,生成检测报告,该统计和自动产出报告过程耗时约2分钟。
图3展示了对同一批数据,使用本发明和常用软件Kraken2进行分析的耗时比较。在Dell T7920工作站中,我们配置了512G内存,Intel 5220R CPU 2块,2T的SSD存储10块,Nvidia RTX A2000(12G)显卡一块,在该计算资源下,本发明对1G的不同纳米孔数据进行分析耗时在8-10分钟之间,显著优于Kraken2软件的14-16分钟。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (5)
1.一种基于多重PCR的靶向病原体纳米孔测序快速分析方法,其特征在于,包括以下步骤:
S1:读取下机数据,采用国际通用的测序数据标准FASTQ格式,支持gzip方法进行数据压缩以减少存储占用,使用cat或zcat命令合并来自于同一份样本的多个FASTQ数据文件或压缩的FASTQ.gz文件;
S2:根据数据类型,使用Nanofilt软件和fastQC软件和对应参数进行低质量数据过滤;
S3:使用samtools软件提取通过数据质控的高质量数据,用于后续分析;
S4:第一轮快速比对,通过使用Vsearch和Minimap2两种快速比对软件和算法进行物种初步判别;
S5:基于步骤S3、步骤S4的结果,使用samtools软件提取疑似病原的读段并按初步鉴定的物种进行拆分;
S6:将步骤S5拆分的疑似病原读段,与各物种参考序列进行BLAST比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值(E value)小于1E-5,进行筛选;
S7:将步骤S6获得的病原读段,与本样本识别到的其他病原参考序列再次进行BLAST交叉比对,提取各读段最优比对,并按照比对长度大于读段长度80%、序列相似度高于90%,比对期望值小于1E-5,进行筛选;
S8:将步骤S7验证的病原读段按病原类型和基因组类型进行各分类水平的物种进行统计分析,明确该份样本中存在的病原类型、基因组类型、属水平和种水平的读段数量及构成比;
S9:根据步骤S8获得的样本中病原体统计信息,补充添加病原体注释信息、样本信息和患者信息等,生成检测报告。
2.如权利要求1所述的一种基于多重PCR的靶向病原体纳米孔测序快速分析方法,其特征在于,所述步骤S2中针对三代测序的FASTQ测序数据文件进行质控检测和过滤,使用Nanofilt软件,筛选平均测序数据质量大于Q7的测序读段。
3.如权利要求1所述的一种基于多重PCR的靶向病原体纳米孔测序快速分析方法,其特征在于,所述步骤S2中针对二代数据使用fastQC软件,筛选平均测序数据质量大于Q30的测序读段。
4.如权利要求1所述的一种基于多重PCR的靶向病原体纳米孔测序快速分析方法,其特征在于,所述步骤S4中Vsearch用于与16S,ITS数据库比对进行细菌、真菌、病毒和寄生虫识别,Minimap2用于针对病毒等基因组变异较大病原体的补充比对,基于minimizer哈希表搜索、chaining算法和动态规划算法。
5.如权利要求1所述的一种基于多重PCR的靶向病原体纳米孔测序自动分析方法,其特征在于,所述步骤S8中病原类型包括细菌、真菌、病毒、寄生虫,基因组类型包括DNA和RNA。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310725183.2A CN116779036A (zh) | 2023-06-16 | 2023-06-16 | 一种基于多重pcr的靶向病原体纳米孔测序快速分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310725183.2A CN116779036A (zh) | 2023-06-16 | 2023-06-16 | 一种基于多重pcr的靶向病原体纳米孔测序快速分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116779036A true CN116779036A (zh) | 2023-09-19 |
Family
ID=87985356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310725183.2A Pending CN116779036A (zh) | 2023-06-16 | 2023-06-16 | 一种基于多重pcr的靶向病原体纳米孔测序快速分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116779036A (zh) |
-
2023
- 2023-06-16 CN CN202310725183.2A patent/CN116779036A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349629A (zh) | 一种利用宏基因组或宏转录组检测微生物的分析方法 | |
CN112967753B (zh) | 一种基于纳米孔测序的病原微生物检测系统和方法 | |
CN104302781B (zh) | 一种检测染色体结构异常的方法及装置 | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
CN114121160B (zh) | 一种检测样本中宏病毒组的方法和系统 | |
CN115198023B (zh) | 一种海南黄牛液相育种芯片及其应用 | |
CN114708910B (zh) | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 | |
CN114657238B (zh) | 一种枸杞40k液相芯片及应用 | |
CN106191311B (zh) | 一种快速检测豚鼠LCMV、SV、PVM、Reo-3病毒的多重液相基因芯片方法及试剂 | |
CN115719616B (zh) | 一种病原物种特异性序列的筛选方法及系统 | |
CN103981256A (zh) | 一种沙门氏菌crispr分型方法 | |
CN113481311A (zh) | 用于鉴定布鲁氏菌疫苗株m5的snp分子标记及其应用 | |
CN110875082A (zh) | 一种基于靶向扩增测序的微生物检测方法和装置 | |
CN113096737B (zh) | 一种用于对病原体类型进行自动分析的方法及系统 | |
CN110970091A (zh) | 标签质控的方法及装置 | |
CN113265452A (zh) | 一种基于Nanopore宏基因组RNA-seq的生物信息学检测病原体的方法 | |
CN115261499B (zh) | 耐力相关的肠道微生物标记物及其应用 | |
CN116779036A (zh) | 一种基于多重pcr的靶向病原体纳米孔测序快速分析方法 | |
WO2012096016A1 (ja) | 核酸情報処理装置およびその処理方法 | |
KR20210040714A (ko) | 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 | |
CN115188411A (zh) | 一种基于单分子自适应采样测序的病原微生物和耐药基因的检测方法及系统 | |
CN115976178A (zh) | 基于纳米孔宏基因组测序的sftsv检测方法 | |
CN108642192A (zh) | 一种副猪嗜血杆菌多位点序列分子分型的方法 | |
CN115786541A (zh) | 鉴别布鲁氏菌疫苗株a19的snp分子标记、引物探针、试剂盒、方法和应用 | |
CN113744806A (zh) | 一种基于纳米孔测序仪的真菌测序数据鉴定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |