CN115948520A - 纳米孔测序方法及系统 - Google Patents
纳米孔测序方法及系统 Download PDFInfo
- Publication number
- CN115948520A CN115948520A CN202211160641.4A CN202211160641A CN115948520A CN 115948520 A CN115948520 A CN 115948520A CN 202211160641 A CN202211160641 A CN 202211160641A CN 115948520 A CN115948520 A CN 115948520A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- data
- time point
- correction
- nanopore
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007672 fourth generation sequencing Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012163 sequencing technique Methods 0.000 claims abstract description 306
- 238000012937 correction Methods 0.000 claims abstract description 149
- 238000006243 chemical reaction Methods 0.000 claims description 44
- 239000000523 sample Substances 0.000 claims description 44
- 108020004707 nucleic acids Proteins 0.000 claims description 33
- 102000039446 nucleic acids Human genes 0.000 claims description 33
- 150000007523 nucleic acids Chemical class 0.000 claims description 33
- 241000276569 Oryzias latipes Species 0.000 claims description 15
- 244000052769 pathogen Species 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 239000012472 biological sample Substances 0.000 claims description 5
- 230000001717 pathogenic effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 25
- 238000011156 evaluation Methods 0.000 abstract description 4
- 239000011324 bead Substances 0.000 description 25
- 238000002156 mixing Methods 0.000 description 22
- 239000007788 liquid Substances 0.000 description 21
- 241000894007 species Species 0.000 description 16
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 14
- 241000894006 Bacteria Species 0.000 description 10
- 239000006228 supernatant Substances 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 108090000623 proteins and genes Proteins 0.000 description 8
- 238000007480 sanger sequencing Methods 0.000 description 8
- 238000005119 centrifugation Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 244000005700 microbiome Species 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 206010040047 Sepsis Diseases 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000227 grinding Methods 0.000 description 5
- 244000000010 microbial pathogen Species 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 238000005406 washing Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 208000035473 Communicable disease Diseases 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000007853 buffer solution Substances 0.000 description 3
- 238000005352 clarification Methods 0.000 description 3
- 238000003759 clinical diagnosis Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 239000002096 quantum dot Substances 0.000 description 3
- 239000012487 rinsing solution Substances 0.000 description 3
- 239000012146 running buffer Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 102000016911 Deoxyribonucleases Human genes 0.000 description 2
- 108010053770 Deoxyribonucleases Proteins 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- 206010040070 Septic Shock Diseases 0.000 description 2
- 241000607762 Shigella flexneri Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000003115 biocidal effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000006166 lysate Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000036303 septic shock Effects 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108020004465 16S ribosomal RNA Proteins 0.000 description 1
- 241000588626 Acinetobacter baumannii Species 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- 241000588749 Klebsiella oxytoca Species 0.000 description 1
- 241000607142 Salmonella Species 0.000 description 1
- 241000192087 Staphylococcus hominis Species 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 238000007605 air drying Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 208000037815 bloodstream infection Diseases 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003480 eluent Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001821 nucleic acid purification Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 239000003223 protective agent Substances 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 239000012224 working solution Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及测序技术领域,具体涉及纳米孔测序方法及系统。本发明提供的纳米孔测序方法选择本身测序质量较高的序列进行进一步校正分析,获取更加准确的结果。同时,采用实时增量更新的方法,进行多次校正分析,最终统计多次结果,以获得最为准确信息。这样,兼顾了准确性和分析速度,大幅提高了校正程序的性能。本发明提供的纳米孔测序方法具有高准确性,解决近似物种鉴定准确性问题;校准结果可重复性,解决结果不稳定,受数据量和数据质量影响问题;实现校准结果质量可预测性,解决物种鉴定可信度评估问题;提高校准速度,实现数据的实时校准问题。
Description
技术领域
本发明涉及测序技术领域,具体涉及纳米孔测序方法及系统。
背景技术
由于病原微生物引起的感染性疾病频发,对公共健康的威胁日益严重。据世界卫生统计报告显示,全世界每年有超1000万人死于感染性疾病,约占疾病总死亡人数的30%。病毒性感染的致死率居高不下的主要原因:一是由于传染性强,二是感染性疾病的微生物种类日益复杂。常见病原微生物的威胁不仅没有消除,而且还出现了一些耐药性菌株,加之一些新病原体的出现,给临床诊断和治疗带来了很大的困难。以血流感染为例,全世界每年有1500万到1900万例败血症,导致约600万例患者死亡。脓毒症和脓毒症休克国际管理指南强烈推荐在败血症和败血性休克确诊后的1小时内进行抗生素治疗,第1小时为救治败血症患者的黄金时间,生存率高达79.9%,此后随着时间的延长,生存率每小时降低7.6%,超过6小时未行抗生素治疗的患者,生存率下降至14.5%。
纳米孔测序技术其通过对每个核酸分子穿过双分子生物膜上的纳米孔道蛋白时产生的阻遏电流分析进行序列测定。由于单个分子穿过纳米孔蛋白的速度极快(DNA分子过孔速度大约为450bp/s,RNA分子过孔速度大约为80bp/s),每个分子通过单独的纳米孔蛋白完成测序,因此不同分子的测序相对独立,分子之间并不干扰。在测序过程中,当每个分子通过纳米孔蛋白后其测序过程就已经结束,理论上完整的序列信息就可以立即被用于后续的数据分析流程,无需再等待其他分子测序完成或者整批测序结束后才能进行下一步的数据分析。该特点使得纳米孔测序仪从样本到测序数据的产出时间大幅缩短,因此非常适合用于时间要求较高的测序项目,比如病原微生物感染的临床诊断。
虽然纳米孔测序仪具备快速测序的优点,但由于DNA穿过纳米孔的速度过快,导致测序产生的碱基准确性相比二代测序平台偏低,平均单碱基准确性只有95%左右。同时,由于病原微生物之间,尤其是同属内不同物种间,基因存在一定的相似性,例如大肠埃希氏菌与费格森埃希氏菌的16s rRNA基因的相似度高打99.9%。因此直接使用纳米孔测序仪数据进行数据比对和微生物鉴定时,往往会产生大量的错误比对,进而导致物种的鉴定错误。这极大的限制了纳米孔测序技术在临床病原诊断上的应用。
由于每一条核酸在穿过纳米孔时产生的数据质量存在高低差异,即使是序列完全相同的多条核酸分子在进行检测时,所产生的测序reads数据上每个碱基的序列有存在差异。但是,通过大数据的分析与研究,虽然纳米孔测序数据携带有一定的错误,但这些错误也存在一定的规律,属于一种“随机性”的错误。理论上后续再通过生物信息学计算可以将这些测序错误进行修复,将一些测序数据较为为准确性更高的一致性数据。接着再利用这些高准确性的一致性序列进行数据库比对,可以大幅度提高微生物的物种鉴定准确性。
现有提高纳米孔测序数据物种鉴定准确性的方案主要有两大类思路:第一种,提高测序数据原始准确性,即Q值的过滤阈值,以获得更高准确性的原始数据,进而提高数据比对的准确性;第二种,将数据进行多序列比对后,随机以其中一条序列为校准模板,根据其他reads序列对比校准模板序列上每个单碱基序列位点在所有reads中的碱基分布,选取占比最高占比的碱基来校准形成一致性序列,再以一致性序列进行物种鉴定。然而第一种方案虽然可以减少一些错误比对的数据,但同样也会大幅缩减可用于后续分析的reads数据量,在应用中可能导致测序数据完全被过滤产生假阴性。更重要的是,该方案并没有本质上提高测序数据的准确性,依然难以区分高度相似的近缘微生物。第二种方案引入了数据矫正的思路,不过依然存在一下几大问题:1.校准后获得的数据准确性只能达到99.9%(即质量值Q30)以下,无法进一步提高达到99.99%(即质量值Q40),对于高度相似的近缘物种依然存在鉴定错误的问题。因为纳米孔测序数据的错误虽然具有一定的随机性,但并不是完全符合正态分布的随机错误,具有一定的错误模型,即错误的偏好。现有校准逻辑上,仅将错误位点的校准和一致性序列的形成并没有考虑这种偏好,因此对于有些错误无法进行准确校准;2.校准后一致性序列的碱基和质量值较为随机,重复性差。使用相同的测序数据,多次重复校准结果后产生的物种鉴定结果可能存在差异。3.校准后数据的质量值无法评估,因为在实际使用中,每个微生物测序获得reads数量不同,也就是可用于校准的数据不同。理论上,不同数量和不同质量的数据进行校准所获得的校准数据也存在质量差异。因此,现有手段无法评估校准数据用于物种鉴定的质量值,即可信度。4.校准的速度慢,现有流程校准过程会动用该物种下所有的reads数量,这将大幅度的提高数据校准时间,无法实现边测序边分析的实时分析,对于数据产量较多的结果,还会进一步导致数据分析时间严重滞后。
因此亟需开发一种具有高准确度,能够解决近似物种鉴定准确性问题、结果稳定的纳米孔测序方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提供一种纳米孔测序方法。该方法具有高准确性,解决近似物种鉴定准确性问题;校准结果可重复性,解决结果不稳定,受数据量和数据质量影响问题;实现校准结果质量可预测性,解决物种鉴定可信度评估问题;提高校准速度,实现数据的实时校准问题。
为此,本发明第一方面提供一种纳米孔测序方法。根据本发明的实施方案,所述纳米孔测序方法包括:
(1)将核酸样本进行连续的纳米孔测序反应;
(2)在所述连续的纳米孔测序反应的第一时间点,收集第一批测序数据,所述测序数据由多个测序读段组成;
(3)对所述第一批测序数据进行预分类,获得预分类后的第一批测序数据并汇总入第一序列池;
(4)基于所述第一序列池中的测序读段的测序质量Q值,选择第一测序读段组合;
(5)将所述第一测序读段组合输入至测序数据校正软件,以输出第一校正结果;
(6)在所述连续的纳米孔测序反应的第二时间点,收集第二批测序数据,所述第二批测序数据由所述第一时间点和所述第二时间点之间产出的测序数据组成;
(7)对所述第二批测序数据进行预分类,获得预分类后的第二批测序数据,并将所述预分类后的第二批测序数据和所述第一序列池中数据汇总入第二序列池;
(8)基于所述第二序列池中测序读段的测序质量Q值,选择第二测序读段组合;
(9)将所述第二测序读段组合输入至测序数据校正软件,以输出第二校正结果;
(10)自所述纳米孔测序反应开始至结束,包含多个时间点,在多个不同时间点重复步骤(6)-(9),统计所有校正结果,并对所有校正结果的质量进行排序,选择质量最高的作为最终校正结果。
发明人发现,针对纳米孔测序本身错误率相对较高的缺点,可以选择本身测序质量较高的序列进行进一步校正分析,获取更加准确的结果。同时,采用实时增量更新的方法,进行多次校正分析,最终统计多次结果,以获得最为准确信息。这样,兼顾了准确性和分析速度,大幅提高了校正程序的性能。本发明提供的纳米孔测序方法,随着纳米孔测序反应的进行,进行了多轮校正分析,采用实时增量更新方法,最终在测序完成时,汇总多轮的校正结果,选取出最为可靠的结果作为最终结果。本发明提供的纳米孔测序方法具有高准确性,解决近似物种鉴定准确性问题;校准结果可重复性,解决结果不稳定,受数据量和数据质量影响问题;实现校准结果质量可预测性,解决物种鉴定可信度评估问题;提高校准速度,实现数据的实时校准问题。
根据本发明的一些实施方案,所述核酸样本为疑似含有病原体的生物样本。
根据本发明的一些实施方案,所述第一测序读段组合和所述第二测序读段组合分别独立地包括不超过60个测序读段。
根据本发明的一些实施方案,按照所述测序质量Q值自高至低的方向,选择所述第一测序读段组合和所述第二测序读段组合。
根据本发明的一些实施方案,所述测序数据校正软件包括Racon和Medaka的组合。
测序数据实时产出是纳米孔测序的特点之一,随着测序时间的增加,单个序列群体的序列条数和其中Q值更高的序列也是在不断增加的,可以进行校正的序列质量也是不断在提高的。所以,在测序过程中,随着数据不断产出,进行多次校正,最后将多次校正结果合并取最优结果,这样不仅可以充分利用测序进行的时间进行分析,也可通过多次校正获得更加准确的校正结果。本发明综合了校正序列挑选算法,选择Racon+Medaka校正工具,校正预测准确度算法和实时校正算法策略,可在测序完成后的10分钟内完成校正分析,校正准确度达到99.6%以上。
根据本发明的一些实施方案,所述第一测序读段组合和所述第二测序读段组合的测序读段的测序质量Q值中位数不低于13,优选不低于14。
根据本发明的一些实施方案,进一步包括基于纳米孔测序反应中选择的每一个时间点获得的校正结果的测序质量Q值、每一个时间点获得的测序读段组合中测序读段的数目、每一个时间点获得的测序读段组合中测序读段的质量Q值,对校正结果进行准确性预测。
根据本发明的一些实施方案,所述准确性是通过机器学习模型预测的。
根据本发明的一些实施方案,进一步包括:
基于所述最终校正结果预测所述样本中核酸样本的生物来源。
根据本发明的一些实施方案,所述第一时间点为自纳米孔测序反应开始不超过30分钟,所述第一时间点之后的每个时间点的选择满足以下要求:与前一个时间点之间间隔不超过1小时,直至所述纳米孔测序反应结束。
根据本发明的一些实施方案,所述预分类是通过将测序数据与参考数据进行比对确定的。
本发明第二方面提供一种纳米孔测序系统。根据本发明的一些实施方案,所述纳米孔测序系统包括:
测序模块,所述测序模块用于将核酸样本进行连续的纳米孔测序反应;
第一序列选择模块,所述第一序列选择模块用于在所述连续的纳米孔测序反应的第一时间点,收集第一批测序数据,对所述第一批测序数据进行预分类,获得预分类后的第一批测序数据并汇总入第一序列池,基于所述第一序列池中的测序读段的测序质量Q值,选择第一测序读段组合,其中,所述测序数据由多个测序读段组成;
第一数据校正模块,所述第一数据校正模块与所述第一序列选择模块相连,所述第一数据校正模块用于将所述第一测序读段组合输入至测序数据校正软件,以输出第一校正结果;
第二序列选择模块,所述第二序列选择模块用于在所述连续的纳米孔测序反应的第二时间点,收集第二批测序数据,对所述第二批测序数据进行预分类,获得预分类后的第二批测序数据,并将所述预分类后的第二批测序数据和所述第一序列池中数据汇总入第二序列池,基于所述第二序列池中测序读段的测序质量Q值,选择第二测序读段组合,其中,所述第二批测序数据由所述第一时间点和所述第二时间点之间产出的测序数据组成;
第二数据校正模块,所述第二数据校正模块用于将所述第二测序读段组合输入至测序数据校正软件,以输出第二校正结果;
最终校正结果输出模块,所述最终校正结果输出模块用于在所述纳米孔测序反应开始至结束的多个不同时间点,统计所有校正结果,并对所有校正结果的质量进行排序,选择质量最高的作为最终校正结果。
根据本发明的一些实施方案,所述核酸样本为疑似含有病原体的生物样本。
根据本发明的一些实施方案,所述第一测序读段组合和所述第二测序读段组合分别独立地包括不超过60个测序读段。
根据本发明的一些实施方案,按照所述测序质量Q值自高至低的方向,选择所述第一测序读段组合和所述第二测序读段组合。
根据本发明的一些实施方案,所述测序数据校正软件包括Racon和Medaka的组合。
发明人通过对学术界已有的纳米孔测序数据校正工具调研,选择了4种软件工具组合,分别为Racon、canu、Medaka、Racon+Medaka。这些工具都可以输入一条初始模板序列和多条校正库序列,输出一条校正结果序列。如果输入标准菌的测序数据,将校正结果序列与标准菌序列进行比较,即可得到本次校正的准确性。通过在标准菌数据库中,对不同的初始模板序列Q值,校正库序列条数,校正库序列平均Q值进行排列组合,每个组合运行5次重复,从而选取了共计约3万6千组输入数据组合,分别进行4种工具共计约14万4千组校正测试。
通过上述14万组测试,可以得到以下几个结论:1、提高的初始模板序列的Q值和校正库序列的平均Q值,可以提高校正准确性;2、Racon+Medaka的工具组合在4种校正工具中,校正效果最好;3、校正库序列条数增加可以提高校正准确性,但是在40条以后,对校正准确度贡献较小;4、校正库序列平均Q值在13-14时,Racon+Medaka校正准确性可在99.6%以上,考虑到纳米测序产出序列的平均准确性在13-14左右,可以大致认为此校正工具的平均准确性能在99.6%以上。
根据本发明的一些实施方案,所述第一测序读段组合和所述第二测序读段组合的测序读段的测序质量Q值均不低于13,优选不低于14。
根据本发明的一些实施方案,所述系统进一步包括准确性预测模块,所述准确性预测模块用于基于纳米孔测序反应中选择的每一个时间点获得的校正结果的测序质量Q值、每一个时间点获得的测序读段组合中测序读段的数目、每一个时间点获得的测序读段组合中测序读段的质量Q值,对校正结果进行准确性预测。
根据本发明的一些实施方案,所述准确性是通过机器学习模型预测的。
根据本发明的一些实施方案,所述系统进一步包括预测模块,所述预测模块用于基于所述最终校正结果预测所述样本中核酸样本的生物来源。
根据本发明的一些实施方案,所述第一时间点为自纳米孔测序反应开始不超过30分钟,所述第一时间点之后的每个时间点的选择满足以下要求:与前一个时间点之间间隔不超过1小时,直至所述纳米孔测序反应结束。
根据本发明的一些实施方案,所述预分类是通过将测序数据与参考数据进行比对确定的。
本发明第三方面提供一种用于纳米孔测序的电子设备。根据本发明的一些实施方案,所述电子设备包括存储器、处理器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现第一方面所述的纳米孔测序方法。
本发明第四方面提供一种计算机可读存储介质。根据本发明的一些实施方案,所述计算机可读存储介质存储有计算机程序,所述程序被处理器执行时实现第一方面所述的纳米孔测序方法。
本发明提供的纳米孔测序方法:1、校正效果更加准确。首先是校正的输入序列经过了优化,选择Q值更高,本身就相对较为准确的序列进行校正,结果自然更加准确。其次是采用实时多次校正的策略,综合多次校正结果,保证了校正结果的稳定性和可靠性。最后是校正结果有预测准确性这一参数,可对校正结果进行评估,大幅提高结果的可靠性;2、运行速度快。本发明采用实时校正的策略,可一边进行测序一边进行校正分析。每次进行分析时都结合上一次分析的结果,进行增量更新。相对于在测序完成之后再进行校准分析,速度大幅提高。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的纳米孔测序方法的方法示意图;
图2是根据本发明实施例的纳米孔测序方法中对第二校正结果进行准确性预测的示意图;
图3是根据本发明实施例的利用纳米孔测序方法对所述样本中核酸样本预测生物来源的示意图;
图4是根据本发明实施例的纳米孔测序方法的装置示意图;
图5是根据本发明实施例的纳米孔测序方法中对第二校正结果进行准确性预测的装置示意图;
图6是根据本发明实施例的利用纳米孔测序方法对所述样本中核酸样本预测生物来源的装置示意图;
图7是根据本发明一个具体的实施例的纳米孔测序方法的方法示意图;
图8显示了实施例1中序列Q值与序列与标准序列的进化距离之间的关系,y轴是序列Q值,x是序列与标准序列的进化距离。单个点为纳米孔测序得到的单条序列;
图9显示了实施例1中序列Q值与识别度值之间的关系,Y轴是序列Q值,X轴是序列与标准序列进行blastn比对的识别度值;
图10显示了实施例2中不同标准菌,序列Q值与准确度之间的关系;
图11显示了实施例2中不同标准菌,不同校正软件对校正准确度的影响;
图12显示了实施例2中校正库序列条数与校正准确性之间的关系。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明的一个方面,本发明提出了一种纳米孔测序方法。根据本发明的实施例,参考附图1,包括:
S100,将核酸样本进行连续的纳米孔测序反应;S200,在所述连续的纳米孔测序反应的第一时间点,收集第一批测序数据,所述测序数据由多个测序读段组成;S300,对所述第一批测序数据进行预分类,获得预分类后的第一批测序数据;S400,将预分类后的第一批测序数据汇总入第一序列池;S500,基于所述第一序列池中的测序读段的测序质量Q值,选择第一测序读段组合;S600,将所述第一测序读段组合输入至测序数据校正软件,以输出第一校正结果;S700,在所述连续的纳米孔测序反应的第二时间点,收集第二批测序数据,所述第二批测序数据由所述第一时间点和所述第二时间点之间产出的测序数据组成;S800,对所述第二批测序数据进行预分类,获得预分类后的第二批测序数据;S900,将所述预分类后的第二批测序数据和所述第一序列池中数据汇总入第二序列池;S1000,基于所述第二序列池中测序读段的测序质量Q值,选择第二测序读段组合;S1100,将所述第二测序读段组合输入至测序数据校正软件,以输出第二校正结果;S1200,自所述纳米孔测序反应开始至结束,包含多个时间点,在多个不同时间点重复步骤S700-S1100,统计所有校正结果,并对所有校正结果的质量进行排序,选择质量最高的作为最终校正结果。
根据本发明的实施例,该纳米孔测序方法具有高准确性,解决近似物种鉴定准确性问题;校准结果可重复性,解决结果不稳定,受数据量和数据质量影响问题;实现校准结果质量可预测性,解决物种鉴定可信度评估问题;提高校准速度,实现数据的实时校准问题。
根据本发明的实施例,所述核酸样本为疑似含有病原体的生物样本。根据本发明的实施例,所述第一测序读段组合和所述第二测序读段组合分别独立地包括不超过60个测序读段,例如可以是30个、40个、50个、60个等。
根据本发明的实施例,按照所述测序质量Q值(单条序列的测序质量值)自高至低的方向,根据Q值大小进行排名,选择所述第一测序读段组合和所述第二测序读段组合。
根据本发明的实施例,所述测序数据校正软件包括但不限于Racon和Medaka的组合。发明人总结出一套科学的校正输入序列选择算法,找到了最佳的校正工具组合,并可以通过输入序列的参数得到校正结果的预测准确度。校正序列选择算法不仅提高校正的准确性,并且对于给定的某一个序列群体,挑选出来进行校正的序列都是固定,解决了以往方法中由于随机挑选初始模板序列导致的校正结果随机性。并且,由于对校正库序列条数进行了最大值限制,大幅减少了单次校正的计算量,提升了运行速度。
对病原微生物使用纳米孔测序仪进行测序后,对实时产生的序列与数据库进行一轮比对,根据比对结果将序列初步归类,按照序列Q值大小进行排序,选择Q值最大的序列作为初始模板序列,在剩下的序列中选择Q值前N(N小于50)条序列作为校正库序列。将初始模板序列和校正库序列输入到Racon软件中,进行第一轮校正后得到第一轮模板序列。再将第一轮模板序列和校正库序列使用Medaka软件进行校正,得到一致性序列。将一致性序列与比对库进行比对,最后获得这一批序列最终校正结果。
根据本发明的实施例,所述第一测序读段组合和所述第二测序读段组合的测序读段的测序质量Q值中位数不低于13,优选不低于14。
根据本发明的实施例,针对纳米孔测序反应中选择的每一个时间点获得的校正结果进行准确性预测。根据本发明的实施例,基于纳米孔测序反应中选择的每一个时间点获得的校正结果的测序质量Q值、每一个时间点获得的测序读段组合中测序读段的数目、每一个时间点获得的测序读段组合中测序读段的质量Q值,对校正结果进行准确性预测。这里以对第二数据校正结果进行准确性预测为例,如图2,所述纳米孔测序方法进一步包括步骤S1300,基于所述第二校正结果的测序质量Q值、所述第二测序读段中测序读段的数目、所述第二测序读段组合中测序读段的质量Q值,对所述第二校正结果进行准确性预测。在测序结束之前,还可以设置第三时间点、第四时间点、第五时间点等等,在每个时间点根据图2中方法步骤,都能够实现对该时间点获得的校正结果进行准确性预测。
根据本发明的实施例,所述准确性预测可以通过本领域已知的任意一种预测模型实现。根据本发明一个具体的实施例,所述准确性是通过机器学习模型预测的。
根据本发明的实施例,如图3,所述纳米孔测序方法进一步包括步骤S1400,基于所述最终校正结果预测所述样本中核酸样本的生物来源。
根据本发明的实施例,所述第一时间点为自纳米孔测序反应开始不超过30分钟,所述第一时间点之后的每个时间点的选择满足以下要求:与前一个时间点之间间隔不超过1小时,直至所述纳米孔测序反应结束。具体的,如图7所示,展示了本发明纳米孔测序方法的更为具体的实施方案,第一时间点为测序开始0.5h,第二时间点为测序开始1h,第三时间点为测序开始1.5h,根据需要选择更多的时间点,直至测序结束。
根据本发明的实施例,所述预分类是通过将测序数据与参考数据进行比对确定的。
在本发明的又一方面,本发明提出了一种纳米孔测序系统,如图4,所述测序系统包括:
测序模块10000,所述测序模块10000用于将核酸样本进行连续的纳米孔测序反应;
第一序列选择模块20000,所述第一序列选择模块20000与所述测序模块10000相连,所述第一序列选择模块20000用于在所述连续的纳米孔测序反应的第一时间点,收集第一批测序数据,对所述第一批测序数据进行预分类,获得预分类后的第一批测序数据并汇总入第一序列池,基于所述第一序列池中的测序读段的测序质量Q值,选择第一测序读段组合,其中,所述测序数据由多个测序读段组成;
第一数据校正模块30000,第一数据校正模块30000与所述第一序列选择模块20000相连,所述第一数据校正模块30000用于将所述第一测序读段组合输入至测序数据校正软件,以输出第一校正结果;
第二序列选择模块40000,所述第二序列选择模块40000与所述测序模块10000相连,所述第二序列选择模块40000用于在所述连续的纳米孔测序反应的第二时间点,收集第二批测序数据,对所述第二批测序数据进行预分类,获得预分类后的第二批测序数据,并将所述预分类后的第二批测序数据和所述第一序列池中数据汇总入第二序列池,基于所述第二序列池中测序读段的测序质量Q值,选择第二测序读段组合,其中,所述第二批测序数据由所述第一时间点和所述第二时间点之间产出的测序数据组成;
第二数据校正模块50000,所述第二数据校正模块50000与所述第二序列选择模块40000相连,所述第二数据校正模块50000用于将所述第二测序读段组合输入至测序数据校正软件,以输出第二校正结果;
最终校正结果输出模块60000,所述最终校正结果输出模块60000用于在所述纳米孔测序反应开始至结束的多个不同时间点,统计所有校正结果,并对所有校正结果的质量进行排序,选择质量最高的作为最终校正结果。
根据本发明的实施例,所述第一测序读段组合和所述第二测序读段组合分别独立地包括不超过60个测序读段。根据本发明的实施例,按照所述测序质量Q值自高至低的方向,选择所述第一测序读段组合和所述第二测序读段组合。根据本发明的实施例,所述测序数据校正软件包括Racon和Medaka的组合。根据本发明的实施例,所述第一测序读段组合和所述第二测序读段组合的测序读段的测序质量Q值均不低于13,优选不低于14。
根据本发明的实施例,所述系统进一步包括与每个时间点的数据校正模块相连的准确性预测模块,所述准确性预测模块用于基于纳米孔测序反应中选择的每一个时间点获得的校正结果的测序质量Q值、每一个时间点获得的测序读段组合中测序读段的数目、每一个时间点获得的测序读段组合中测序读段的质量Q值,对校正结果进行准确性预测。这里以第二数据校正模块为例,如图5所述系统进一步包括准确性预测模块70000,所述准确性预测模块70000与所述第二数据校正模块50000相连,所述准确性预测模块70000用于基于所述第二校正结果的测序质量Q值、所述第二测序读段中测序读段的数目、所述第二测序读段组合中测序读段的质量Q值,对所述第二校正结果进行准确性预测。
根据本发明的实施例,所述准确性是通过机器学习模型预测的。
根据本发明的实施例,如图6进一步包括预测模块80000,所述预测模块80000与所述最终校正结果输出模块60000相连,所述预测模块80000用于基于所述最终校正结果预测所述样本中核酸样本的生物来源。
根据本发明的实施例,所述第一时间点为自纳米孔测序反应开始不超过30分钟,所述第一时间点之后的每个时间点的选择满足以下要求:与前一个时间点之间间隔不超过1小时,直至所述纳米孔测序反应结束。具体的,如图7所示,展示了本发明纳米孔测序方法的更为具体的实施方案,第一时间点。
下面参考具体实施例,对本发明进行描述,需要说明的是,这些实施例仅仅是描述性的,而不以任何方式限制本发明。
试剂耗材:
核酸提取试剂盒(臻熙医学);建库试剂盒(臻熙医学);测序芯片(OxfordNanopore);血平板(环凯微生物);
实验设备:
组织研磨均质仪(TGrinder H24 OSE-TH-01);Qubit;PCR仪;测序仪(OxfordNanopore,GridION)
文库构建及测序
1、菌株处理
a)菌株为公司收集,保存在20%甘油中,使用时从-80冰箱解冻,吸取1ul涂布在平板上。
b)将平板置于37度温箱中培养48小时,刮取部分进行后续测序。
标准菌菌株列表
2,核酸提取与纯化
核酸提取:
a)将装有样本的研磨管内添加150μl裂解液1、150μl裂解液2和30μl核酸保护剂涡旋混匀
b)混匀后的样本使用TGrinder H24组织研磨均质仪(OSE-TH-01)混匀
c)研磨后离心(7000rpm,3min)在研磨管中加入20μl蛋白酶K,涡旋振荡混匀后放置金属浴上65℃孵育10min
d)孵育结束后轻微震荡混匀,瞬时离心,取550μl液体到分装后的EP管中,室温放置10min,期间每5min涡旋混匀30s
e)将离心管置于磁力架上5min,待磁珠完全吸附时用移液器小心去除液体
f)加入750μl漂洗液1,涡旋混匀2min使磁珠充分悬浮
g)将离心管置于磁力架上1min,待磁珠完全吸附时用移液器小心去除液体
h)加入750μl漂洗液1,涡旋混匀2min使磁珠充分悬浮
i)将离心管置于磁力架上1min,待磁珠完全吸附时用移液器小心去除液体
j)加入750μl漂洗液2,涡旋混匀2min使磁珠充分悬浮
k)将离心管置于磁力架上1min,待磁珠完全吸附时用移液器小心去除液体
l)加入750μl漂洗液2,涡旋混匀2min使磁珠充分悬浮,简短离心以去除管盖内壁的液滴
m)将离心管置于磁力架上1min,待磁珠完全吸附时用移液器小心去除液体
n)再次简单离心,待磁珠完全吸附时用移液器小心去除管底残留液体
o)将离心管置于磁力架上,室温晾干3-5min
p)加入52μl洗脱液,涡旋混匀2s,56℃孵育5min,期间每2min涡旋混匀,使核酸充分洗脱
q)将离心管放置于磁力架上静置2min,待磁珠完全吸附时小心吸取50μl核酸溶液转移至新的EP管中
核酸纯化
a)将1倍样本体积的磁珠及核酸混合震荡混匀后,室温静置10min;瞬时离心后靠在磁力架上,等待2min至澄清,弃上清,避免碰到磁珠
b)加入750μl 70%的乙醇洗涤,等待30s,弃上清,避免碰到磁珠
c)盖好EP管盖,进行瞬时离心,将管底液体吸取丢弃
d)瞬时离心,将壁上液体甩下,插入磁力架,等待1min
e)打开管盖,将残留乙醇吸出丢弃,开口等待1min(等待乙醇完全挥发)
f)添加41μl的DEPC水至EP管内,震荡混匀后室温静置2min,瞬离5s后靠在磁力架上至澄清,转移40μl核酸到新的EP管中,转移过程避免吸到磁珠
3,扩增
扩增体系:
扩增程序设置
4,Sanger测序
a)将扩增产物吸取5ul外送擎科生物进行一代Sanger测序。
5,文库构建
混样
a)将PCR产物进行震荡混匀,3000rpm离心2min
b)离心后,按编号来依次添加1μl产物到已配制好的199μl qubit工作液中,简单混匀离心,检测扩增产物浓度
c)按照单个样品15ng投入量,根据产物浓度,计算投入体积
d)将混完样的EP管混匀瞬时离心,量取EP管内液体的体积
e)将0.8倍样品体积的磁珠添加至EP管内混合一起震荡3min,放在磁力架上至澄清,弃上清,注意不要吸到磁珠
f)加入800μl 70%的乙醇洗涤,等待10s,弃上清,避免碰到磁珠,弃上清,避免碰到磁珠
g)重复上述步骤一次
h)瞬时离心,将壁上液体甩下,插入磁力架,等待1min
i)打开管盖,将残留乙醇吸出丢弃,开口等待1min
j)添加52μl DNase/RNase-free H2O水至EP管内,震荡2min,简单离心靠至磁力架上2min至溶液完全澄清
k)转移51μl至新的PCR管内
末端修复末端修复体系如下:
a)将PCR简单震荡离心,放入PCR仪器内运行程序,程序结束后,拿出PCR管简单混匀离心,添加至新的EP管内,之后添加1倍体积的磁珠进行纯化
b)将1倍样品体积的磁珠添加至EP管内混合一起震荡3min,放在磁力架上至澄清,弃上清,注意不要吸到磁珠
c)加入800μl 70%的乙醇洗涤,等待10s,弃上清,避免碰到磁珠(如果溶液不澄清,则延长磁吸时间直到溶液完全澄清),弃上清,避免碰到磁珠
d)重复上述步骤一次
e)瞬时离心,将壁上液体甩下,插入磁力架,等待1min
f)打开管盖,将残留乙醇吸出丢弃,开口等待1min
g)添加50μl的DNase/RNase-free H2O至EP管内,震荡2min,简单离心靠至磁力架上,转移49μl到新的EP管中
接头连接
a)将EP管简单震荡离心,常温放置20min,等待时间结束后,添加0.8倍样品体积的磁珠进行纯化
b)将0.8倍样品体积的磁珠及EP管DNA混合一起震荡3min,后靠在磁力架上至澄清,弃上清
c)加入200μl SFB缓冲液洗涤,混匀10s,简单离心,静置3min,弃上清
d)重复用200μl SFB缓冲液洗涤,混匀10s,简单离心,静置3min,弃上清
e)再次离心,靠在磁力架上至吸附,弃残留的液体
f)添加14μl的EB缓冲液至EP管内,轻轻弹EP管混匀,常温放置10min
g)简单离心靠至磁力架上,等待1min洗脱出13μl核酸,转移至新的EP管内6,上机测序
配制文库体系
a)此步骤投入总量应≤50ng,小于50g全部投入上机测序,大于50ng,用50ng/Qubit的浓度值,得出所需投入的体积;
b)配制Running buffer;
c)打开测序芯片priming port,在priming port用1ml移液器往外吸取少量液体,保证priming port处无气泡;
d)添加800μl Running buffer至孔内,关上priming port等待5min;
e)打开priming port和SpotON sample port,用1ml移液器向外吸取少量液体排出气泡后继续添加200μl Running buffer至priming port,然后在spotON sample port添加75μl样本。关闭priming port和SpotON sample port;
f)从waste port1吸出废液,直到黄色液体到达waste port1处;
g)将测序芯片放置到测序仪的测序卡槽中;
h)打开测序仪上的Minknow软件,选择建库试剂盒为LSK110,Basecalling模式为High-Accuary Basecalling,开始测序。
7,数据分析
数据前处理步骤:
a)拆分barcode。不同的样品带有不同的barcode序列,可以通过porechop软件进行barcode拆分,得到单个样品的fastq序列。
b)序列比对。将单个样品与公司已有的库进行比对。
c)将比对结果作为后续分析的输入
实施例1,Q值越大测序准确性越高
将单个标准菌样本(肠炎沙门-1)拆分后的序列,与此样本的Sanger测序序列结果进行比较,采用两种方法进行比较:
i.使用fasttree软件获取测序reads与Sanger测序序列之间的进化距离,数据越小表示两者越相近
ii.使用blastn软件将测序reads与Sanger测序序列进行比对,比对结果的Identity值越高,表示两者越相近
图8中,y轴是序列Q值,x是序列与标准序列的进化距离。单个点为纳米孔测序得到的单条序列。进化距离值越大,表示序列与标准序列的相差度越大。
图9中,Y轴是序列Q值,X轴是序列与标准序列进行blastn比对的识别度值,识别度值越大,表示序列与标准序列越相近。显示Q值越大,纳米孔测序产出序列准确性越高。
根据图7和8中结果,表明两个不同的比较方法,均显示测序reads的Q值越大,测序结果与Sanger测序序列的相似度越高,测序的准确性越高。
实施例2 4种校正工具在大量输入序列组合下校正准确性研究
1、选取数据量较多4种标准菌数据进行分析,分别为:福氏志贺菌,鲍曼不动杆菌,产酸克雷伯菌,人葡萄球菌;
2、校正软件的输入,都是一条初始模板序列和多条校正库序列。对标准菌的测序数据,按照初始模板序列Q值,校正库序列的平均Q值,校正库序列的条数,进行排列组合,尽量排列出所有的组合,每个组合进行5次重复。总计约3万6千组输入组合。
3、4种软件工具组合,分别为Racon,canu,Medaka,Racon+Medaka,分别对上述组合进行计算得到一条校正后序列。将校正后序列与标准的Sanger测序结果进行比对,得到Identity值即可认为是本次校正的准确度值。
需要说明的是,发明人针对多种菌进行了上述实验,由于时间结果比较一致,为了不进行过多赘述,本实施例仅展示福氏志贺菌的相关结果。
结果如图10-12所示,表明:1、提高的初始模板序列的Q值和校正库序列的平均Q值,可以提高校正准确性,与实施例1结论相符。2、Racon+Medaka的工具组合在4种校正工具中,校正效果最好。3、校正库序列条数增加可以提高校正准确性,但是在40条以后,对校正准确度贡献较小。4、校正库序列平均Q值在13-14时,Racon+Medaka校正准确性可在99.6%以上,考虑到纳米测序产出序列的平均准确性在13-14左右,可以大致认为此校正工具的平均准确性能在99.6%以上。
实施例3:校正准确性预测算法
1、在实施例2基础之上进行数据分析,想要构建一种通过输入参数计算校正序列准确性算法。这里比较了两种算法。
2、构建多元线性回归参数进行预测。将实施例2中3万6千组数据使用R语言进行线性回归分析,构建了线性回归方程。已知输入参数即可计算出校正序列的准确度。
3、通过已有数据进行拟合预测。将之前的3万6千组数据存放在程序中,将输入的数据在已有的数据中选择出一组最为相似的,即可得到这组数据最为相近的校正准确度值。
4、已有上述两种预测准确性计算方法,使用实施例2中的标准菌数据进行数据验证。随机抽取不同输入Q值输入组合共计2千组,分别进行两种方式的预测准确度计算。
经验数据拟合-平均值
-总体正确率:73%;误差:0.15
多元线性回归-平均值
-总体正确率:67%;误差:0.2
经验数据拟合-中位数
-总体正确率:73%;误差:0.08
多元线性回归-中位数
-总体正确率:63%;误差:0.17
结论:1、经验数据拟合效果更好。2、计算预测准确度时,对多条校正库序列使用Q值的中位数,相对于使用Q值的平均值进行预测,使用中位数的效果更好。
实施例4:实时校正流程速度和准确度评估
1、对实际测序数据采用两种方式进行校正分析。一种是测序完成后进行校正。一种是本发明的实时校正分析。
2、测试分析在公司自有计算集群上进行,计算集群共计6个节点,单节点配置为48核CPU,128GB内存。测序是在GridION测序仪上进行,测序进行6个小时。
3、测序完成后进行校正分析。此分析方法在测序完成后74分钟后完成校正分析,仅进行一次校正,无预测校正准确度值。
4、本发明的实时校正分析方案,在测序完成后13分钟完成了校正分析。总共进行了6次校正分析,每次均有校正准确度值,最终汇总6次校正结果,得到最终结果。
5、经过比较分析,本发明方法得到的校正结果更为准确。
结论:本发明方法进行序列校正运行速度更快,结果更准。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、“一些实施方案”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种纳米孔测序方法,其特征在于,包括:
(1)将核酸样本进行连续的纳米孔测序反应;
(2)在所述连续的纳米孔测序反应的第一时间点,收集第一批测序数据,所述测序数据由多个测序读段组成;
(3)对所述第一批测序数据进行预分类,获得预分类后的第一批测序数据并汇总入第一序列池;
(4)基于所述第一序列池中的测序读段的测序质量Q值,选择第一测序读段组合;
(5)将所述第一测序读段组合输入至测序数据校正软件,以输出第一校正结果;
(6)在所述连续的纳米孔测序反应的第二时间点,收集第二批测序数据,所述第二批测序数据由所述第一时间点和所述第二时间点之间产出的测序数据组成;
(7)对所述第二批测序数据进行预分类,获得预分类后的第二批测序数据,并将所述预分类后的第二批测序数据和所述第一序列池中数据汇总入第二序列池;
(8)基于所述第二序列池中测序读段的测序质量Q值,选择第二测序读段组合;
(9)将所述第二测序读段组合输入至测序数据校正软件,以输出第二校正结果;
(10)自所述纳米孔测序反应开始至结束,包含多个时间点,在多个不同时间点重复步骤(6)-(9),统计所有校正结果,并对所有校正结果的质量进行排序,选择质量最高的作为最终校正结果。
2.根据权利要求1所述的测序方法,其特征在于,所述核酸样本为疑似含有病原体的生物样本;
任选地,所述第一测序读段组合和所述第二测序读段组合分别独立地包括不超过60个测序读段;
任选地,按照所述测序质量Q值自高至低的方向,选择所述第一测序读段组合和所述第二测序读段组合;
任选地,所述测序数据校正软件包括Racon和Medaka的组合;
任选地,所述第一测序读段组合和所述第二测序读段组合的测序读段的测序质量Q值中位数不低于13,优选不低于14。
3.根据权利要求1所述的测序方法,其特征在于,进一步包括基于纳米孔测序反应中选择的每一个时间点获得的校正结果的测序质量Q值、每一个时间点获得的测序读段组合中测序读段的数目、每一个时间点获得的测序读段组合中测序读段的质量Q值,对校正结果进行准确性预测;
任选地,所述准确性是通过机器学习模型预测的。
4.根据权利要求1所述的测序方法,其特征在于,进一步包括:
基于所述最终校正结果预测所述样本中核酸样本的生物来源。
5.根据权利要求1所述的测序方法,其特征在于,所述第一时间点为自纳米孔测序反应开始不超过30分钟,所述第一时间点之后的每个时间点的选择满足以下要求:与前一个时间点之间间隔不超过1小时,直至所述纳米孔测序反应结束;
任选地,所述预分类是通过将测序数据与参考数据进行比对确定的。
6.一种纳米孔测序系统,其特征在于,包括:
测序模块,所述测序模块用于将核酸样本进行连续的纳米孔测序反应;
第一序列选择模块,所述第一序列选择模块用于在所述连续的纳米孔测序反应的第一时间点,收集第一批测序数据,对所述第一批测序数据进行预分类,获得预分类后的第一批测序数据并汇总入第一序列池,基于所述第一序列池中的测序读段的测序质量Q值,选择第一测序读段组合,其中,所述测序数据由多个测序读段组成;
第一数据校正模块,所述第一数据校正模块与所述第一序列选择模块相连,所述第一数据校正模块用于将所述第一测序读段组合输入至测序数据校正软件,以输出第一校正结果;
第二序列选择模块,所述第二序列选择模块用于在所述连续的纳米孔测序反应的第二时间点,收集第二批测序数据,对所述第二批测序数据进行预分类,获得预分类后的第二批测序数据,并将所述预分类后的第二批测序数据和所述第一序列池中数据汇总入第二序列池,基于所述第二序列池中测序读段的测序质量Q值,选择第二测序读段组合,其中,所述第二批测序数据由所述第一时间点和所述第二时间点之间产出的测序数据组成;
第二数据校正模块,所述第二数据校正模块用于将所述第二测序读段组合输入至测序数据校正软件,以输出第二校正结果;
最终校正结果输出模块,所述最终校正结果输出模块用于在所述纳米孔测序反应开始至结束的多个不同时间点,统计所有校正结果,并对所有校正结果的质量进行排序,选择质量最高的作为最终校正结果。
7.根据权利要求6所述的测序系统,其特征在于,所述核酸样本为疑似含有病原体的生物样本;
任选地,所述第一测序读段组合和所述第二测序读段组合分别独立地包括不超过60个测序读段;
任选地,按照所述测序质量Q值自高至低的方向,选择所述第一测序读段组合和所述第二测序读段组合;
任选地,所述测序数据校正软件包括Racon和Medaka的组合;
任选地,所述第一测序读段组合和所述第二测序读段组合的测序读段的测序质量Q值均不低于13,优选不低于14;
任选地,所述系统进一步包括准确性预测模块,所述准确性预测模块用于基于纳米孔测序反应中选择的每一个时间点获得的校正结果的测序质量Q值、每一个时间点获得的测序读段组合中测序读段的数目、每一个时间点获得的测序读段组合中测序读段的质量Q值,对校正结果进行准确性预测;
任选地,所述准确性是通过机器学习模型预测的。
8.根据权利要求6所述的测序系统,其特征在于,所述系统进一步包括预测模块,所述预测模块用于基于所述最终校正结果预测所述样本中核酸样本的生物来源;
任选地,所述第一时间点为自纳米孔测序反应开始不超过30分钟,所述第一时间点之后的每个时间点的选择满足以下要求:与前一个时间点之间间隔不超过1小时,直至所述纳米孔测序反应结束;
任选地,所述预分类是通过将测序数据与参考数据进行比对确定的。
9.一种用于纳米孔测序的电子设备,其特征在于,包括存储器、处理器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1~5中任一项所述的纳米孔测序方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~5中任一项所述的纳米孔测序方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211160641.4A CN115948520A (zh) | 2022-09-22 | 2022-09-22 | 纳米孔测序方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211160641.4A CN115948520A (zh) | 2022-09-22 | 2022-09-22 | 纳米孔测序方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115948520A true CN115948520A (zh) | 2023-04-11 |
Family
ID=87288330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211160641.4A Pending CN115948520A (zh) | 2022-09-22 | 2022-09-22 | 纳米孔测序方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115948520A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967753A (zh) * | 2021-02-25 | 2021-06-15 | 美格医学检验所(广州)有限公司 | 一种基于纳米孔测序的病原微生物检测系统和方法 |
CN113096736A (zh) * | 2021-03-26 | 2021-07-09 | 北京源生康泰基因科技有限公司 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
CN113744806A (zh) * | 2021-06-23 | 2021-12-03 | 杭州圣庭医疗科技有限公司 | 一种基于纳米孔测序仪的真菌测序数据鉴定方法 |
-
2022
- 2022-09-22 CN CN202211160641.4A patent/CN115948520A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967753A (zh) * | 2021-02-25 | 2021-06-15 | 美格医学检验所(广州)有限公司 | 一种基于纳米孔测序的病原微生物检测系统和方法 |
CN113096736A (zh) * | 2021-03-26 | 2021-07-09 | 北京源生康泰基因科技有限公司 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
CN113744806A (zh) * | 2021-06-23 | 2021-12-03 | 杭州圣庭医疗科技有限公司 | 一种基于纳米孔测序仪的真菌测序数据鉴定方法 |
Non-Patent Citations (1)
Title |
---|
GENOME BIOL: "Homopolish: a method for the removal of systematic errors in nanopore sequencing by homologous polishing", GENOME BIOL, vol. 22, 31 March 2021 (2021-03-31), pages 95 - 111 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DK3144672T3 (en) | GENOME IDENTIFICATION SYSTEM | |
CN113160882B (zh) | 一种基于三代测序的病原微生物宏基因组检测方法 | |
US9315804B2 (en) | Method of selecting aptamers | |
CN115719616B (zh) | 一种病原物种特异性序列的筛选方法及系统 | |
RU2751241C2 (ru) | Способ и устройство для оценки количества микроорганизмов в таксономической единице в образце | |
JP2016518822A (ja) | アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析 | |
WO2014136106A1 (en) | Method and system for analyzing the taxonomic composition of a metagenome in a sample | |
Phannareth et al. | Comparison of nanopore sequencing protocols and real-time analysis for phytopathogen diagnostics | |
CN110517726B (zh) | 一种基于高通量测序数据的微生物成分及浓度检测方法 | |
WO2019242445A1 (zh) | 病原体操作组的检测方法、装置、计算机设备和存储介质 | |
CN115948520A (zh) | 纳米孔测序方法及系统 | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
WO2023131795A1 (en) | Method and apparatus for detecting pathogens | |
CN116153410B (zh) | 微生物基因组参考数据库及其构建方法和应用 | |
Pandey et al. | Predicting protein–RNA interaction using sequence derived features and machine learning approach | |
CN118197414B (zh) | 一种病原微生物物种鉴定方法和系统 | |
Marić et al. | Approaches to metagenomic classification and assembly | |
Tamilpavai et al. | A computational perception of locating multiple longest common subsequence in DNA sequences | |
Storato | Improving metagenomic classification by boosting reference k-mers | |
Ramachandran et al. | An approach to pathogen discovery for viral infections of the nervous system | |
CN117524312A (zh) | 一种病原体宏基因组测序数据的分析方法、装置及其应用 | |
Kumawat et al. | BIOINFORMATICS IS AN INTERDISCIPLINARY AREA FOR VIRAL GENOME ANALYSIS AND ITS APPLICATIONS | |
Bible et al. | DeepMicrobes: taxonomic classification for metagenomics with deep learning | |
Biswa et al. | Tameness selection pressure affects gut virome diversity in mice | |
CN118197436A (zh) | 一种病原微生物宏基因组数据库的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |