CN113096736A - 一种基于纳米孔测序的病毒实时自动分析方法及系统 - Google Patents
一种基于纳米孔测序的病毒实时自动分析方法及系统 Download PDFInfo
- Publication number
- CN113096736A CN113096736A CN202110326137.6A CN202110326137A CN113096736A CN 113096736 A CN113096736 A CN 113096736A CN 202110326137 A CN202110326137 A CN 202110326137A CN 113096736 A CN113096736 A CN 113096736A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- read data
- data
- preset
- sequencing read
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000700605 Viruses Species 0.000 title claims abstract description 98
- 238000007672 fourth generation sequencing Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims description 51
- 238000012163 sequencing technique Methods 0.000 claims abstract description 375
- 238000004458 analytical method Methods 0.000 claims abstract description 76
- 230000003612 virological effect Effects 0.000 claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000013500 data storage Methods 0.000 claims abstract description 19
- 238000004140 cleaning Methods 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 21
- 238000005406 washing Methods 0.000 claims description 20
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 244000052769 pathogen Species 0.000 description 11
- 150000007523 nucleic acids Chemical group 0.000 description 10
- 108091028043 Nucleic acid sequence Proteins 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000011897 real-time detection Methods 0.000 description 7
- 230000001717 pathogenic effect Effects 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010223 real-time analysis Methods 0.000 description 5
- 238000002869 basic local alignment search tool Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003759 clinical diagnosis Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于纳米孔测序的病毒实时自动分析方法及系统,包括:按照预设的时间间隔扫描测序数据存储文件夹中的文件,以确定新的测序数据文件;对每个新的测序数据文件进行完整性校验和格式处理,以确定待测文件;对所述待测文件中的每个测序读段数据进行数据清洗,以获取质量合格的第一测序读段数据;将每个第一测序读段数据与预设的病毒基因组参考序列进行比对,并根据第一比对结果筛选,以确定第二测序读段数据;将第二测序读段数据和已存储的测序读段数据进行合并,并和预设的病毒基因组参考序列进行比对,以获得第二比对结果;根据第二比对结果确定测序深度,根据测序深度确定参考基因组覆盖度,并根据参考基因组覆盖度确定分析结果。
Description
技术领域
本发明涉及信息技术领域,并且更具体地,涉及一种基于纳米孔测序的病毒实时自动分析方法及系统。
背景技术
使用高通量测序方法检测病原体核酸序列提供病原学依据,目前已成为感染性疾病诊断中的常用方法之一。其一般过程包括,提取样本核酸序列,进行或不进行特定基因靶点的聚合酶链反应扩增,随后构建测序文库进行序列检测,将检测到的核酸序列与目标病原体的参比基因或基因组序列进行比对分析,根据设定的检测阈值,判断是否存在该病原体。
现有的基于一代Sanger法、二代边合成边测序的测序原理的测序仪,其常规运行模式均为一次测序过程结束后,测序产生的核酸序列数据一次性产出,数据分析过程在测序结束后进行,无需在测序仪运行过程中考虑数据分析问题,但由此导致了总体的病原检测时长必须大于测序仪的单次运行时长。纳米孔测序技术革命性地实现了实时测序、核酸序列数据在测序仪运行过程中持续产出,从而形成了不间断的“数据流”的获取。因此,这种数据产出模式为在测序过程中开展核酸序列数据实时分析提供了基础,使得病原检测的时限能够突破测序仪运行时间的限制实现进一步缩短,在感染性疾病病原体检测,尤其是重症感染患者的样本检测等对时效性要求较高的场景中具有广阔的应用前景。
为实现在纳米孔测序仪开始运行后,针对实时产出的核酸序列数据流的持续分析,需构建数据完整性检测、数据拆分/合并、分析结果合并、多线程处理和检测结果判定等技术体系。目前,已经实现这种纳米孔测序实时数据分析模式的软件有WIMP(What’s in MyPot?)工作流程,该WIMP工作流程,需使用相应的纳米孔测序平台,并且在测序过程中进行数据实时分析时,需要将数据上传至公司的云服务器。这种使用方式一方面由于测序获得的数据量较大(单张芯片~300Mb/小时),受限于网络传输条件,在不同地区可能具有不同的使用效果体验;另一方面由于人类遗传资源管理的相关政策要求以及病原体等数据较为敏感,该流程在特定情况下也不便使用。此外,该方法目前仅集成了Centrifuge物种快速鉴定软件,由于使用单一的快速比对算法其准确性受限,而针对病毒等变异度较高的病原体需要采用更为精确的比对方法。
发明内容
本发明提出一种基于纳米孔测序的病毒实时自动分析方法及系统,以解决如何实时地准确进行病毒分析的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种基于纳米孔测序的病毒实时自动分析方法,所述方法包括:
对检测样本对应的测序数据存储文件夹进行监控,按照预设的时间间隔扫描所述测序数据存储文件夹中的文件,确定扫描文件列表,并将所述扫描文件列表和已分析文件列表进行比对,以确定至少一个新的测序数据文件;
对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件;
按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据;
将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行比对,以获取每个第一测序读段数据对应的第一比对结果,并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据;
将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并,以获取至少一个第三测序读段数据,并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对,以获取每个第三测序读段数据对应的第二比对结果;
根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度,根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度,并根据所述参考基因组覆盖度确定分析结果。
优选地,其中所述对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件,包括:
对于任一个新的测序数据文件,判断该任一个新的测序数据文件中的数据行数是否满足大于等于预设的测序读段数量阈值,若满足,则确定该任一个新的测序数据文件通过完整性校验;若不满足,则确定该任一个新的测序数据文件未通过完整性校验;
将所有的通过完整性校验的新的测序数据文件的文件名称添加到所述已分析文件列表中,作为后续判断是否存在新的测序数据文件的依据,并根据新的测序数据文件的格式对所有的通过完整性校验的新的测序数据文件进行合并和/或压缩处理,以确定待测文件。
优选地,其中所述按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据,包括:
利用Nanofilt确定所述待测文件中的每个测序读段数据的测序读段数据质量,并筛选出测序读段数据质量满足预设的测序读段数据质量标准的每个测序读段数据均作为第一测序读段数据。
优选地,其中所述根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据,包括:
对于任一个第一测序读段数据,筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果,并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值,且碱基序列相似度大于等于预设的相似度阈值,且比对期望值小于等于预设的比对期望阈值;若满足,则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。
优选地,其中所述根据所述参考基因组覆盖度确定分析结果,包括:
判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值,若满足,则确定所述分析结果为阳性,表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒;若不满足,则确定所述分析结果为阴性,表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。
优选地,其中所述方法还包括:
当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时,停止检测。
根据本发明的另一个方面,提供了一种基于纳米孔测序的病毒实时自动分析系统,所述系统包括:
新的测序数据文件确定单元,用于对检测样本对应的测序数据存储文件夹进行监控,按照预设的时间间隔扫描所述测序数据存储文件夹中的文件,确定扫描文件列表,并将所述扫描文件列表和已分析文件列表进行比对,以确定至少一个新的测序数据文件;
待测文件确定单元,用于对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件;
数据清洗单元,用于按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据;
第一比对单元,用于将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对,以获取每个第一测序读段数据对应的第一比对结果,并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据;
第二比对单元,用于将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并,以获取至少一个第三测序读段数据,并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对,以获取每个第三测序读段数据对应的第二比对结果;
分析结果确定单元,用于根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度,根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度,并根据所述参考基因组覆盖度确定分析结果。
优选地,其中所述待测文件确定单元,对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件,包括:
对于任一个新的测序数据文件,判断该任一个新的测序数据文件中的数据行数是否满足大于等于预设的测序读段数量阈值,若满足,则确定该任一个新的测序数据文件通过完整性校验;若不满足,则确定该任一个新的测序数据文件未通过完整性校验;
将所有的通过完整性校验的新的测序数据文件的文件名称添加到所述已分析文件列表中,作为后续判断是否存在新的测序数据文件的依据,并根据新的测序数据文件的格式对所有的通过完整性校验的新的测序数据文件进行合并和/或压缩处理,以确定待测文件。
优选地,其中所述数据清洗单元,按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据,包括:
利用Nanofilt确定所述待测文件中的每个测序读段数据的测序读段数据质量,并筛选出测序读段数据质量满足预设的测序读段数据质量标准的每个测序读段数据均作为第一测序读段数据。
优选地,其中所述第一比对单元,根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据,包括:
对于任一个第一测序读段数据,筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果,并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值,且碱基序列相似度大于等于预设的相似度阈值,且比对期望值小于等于预设的比对期望阈值;若满足,则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。
优选地,其中所述分析结果确定单元,根据所述参考基因组覆盖度确定分析结果,包括:
判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值,若满足,则确定所述分析结果为阳性,表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒;若不满足,则确定所述分析结果为阴性,表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。
优选地,其中所述系统还包括:
判断单元,用于当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时,停止检测。
本发明提供了一种基于纳米孔测序的病毒实时自动分析方法及系统,能够有效处理纳米孔测序实时下机的数据流,对设定的病毒序列进行实时检测分析,能够在纳米孔测序的过程中实时开展病毒序列的检测,能够有效缩短检测时间,尽早识别病原体、及时为临床诊断提供依据,具有广阔的临床应用前景;相较于现有的WIMP工作流程,具有良好的开放性,支持基于本发明框架的二次开发应用,能够为临床中基于第三代纳米孔测序技术的各种实时检测应用场景提供基础平台。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析方法100的流程图;
图2为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析方法的示例图;
图3为根据本发明实施方式的病毒检测分析报告的示意图;
图4为根据本发明实施方式的检测灵敏度和特异度的示意图;
图5为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析系统500的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析方法100的流程图。如图1所示,本发明实施方式提供的基于纳米孔测序的病毒实时自动分析方法,能够有效处理纳米孔测序实时下机的数据流,对设定的病毒序列进行实时检测分析,能够在纳米孔测序的过程中实时开展病毒序列的检测,能够有效缩短检测时间,尽早识别病原体、及时为临床诊断提供依据,具有广阔的临床应用前景;相较于现有的WIMP工作流程,具有良好的开放性,支持基于本发明框架的二次开发应用,能够为临床中基于第三代纳米孔测序技术的各种实时检测应用场景提供基础平台。本发明实施方式提供的基于纳米孔测序的病毒实时自动分析方法100,从步骤101处开始,在步骤101对检测样本对应的测序数据存储文件夹进行监控,按照预设的时间间隔扫描所述测序数据存储文件夹中的文件,确定扫描文件列表,并将所述扫描文件列表和已分析文件列表进行比对,以确定至少一个新的测序数据文件。
本发明的方法针对纳米孔测序实时产生的核酸序列“数据流”,实现了对纳米孔测序产出数据流的灵活分段处理,通过在核酸序列持续产生过程中持续的数据分析和病毒序列识别,实现了针对分析起始所设定的检测目标病毒的实时检测分析。
在本发明中,在纳米孔测序仪启动测序后,首先设定检测样本对应的测序数据存储文件夹、分析结果输出文件夹、单个测序数据文件能够存储的最大的测序读段数量阈值、所检测病毒的基因组参比序列文件、相似度阈值、比对期望阈值、每轮分析的时间间隔和分析运行总时长等运行参数。
然后,对检测样本对应的测序数据存储文件夹进行监控,按照预设的时间间隔扫描所述测序数据存储文件夹中的文件,查看是否有新的测序数据文件产生。具体地,每隔所设定的时间间隔,扫描测序数据存储文件夹一次,读取.fastq和.fastq.gz格式文件的列表,确定扫描文件列表,并将扫描文件列表中的文件名称和存储于已分析文件列表中的程序记录的已分析的测序数据文件列表中的文件名称进行比较,存在于扫描文件列表但不在已分析文件列表中的文件名称对应的文件即为新的测序数据文件。其中,测序数据文件采用国际通用的标准FASTQ格式,支持gzip方法进行数据压缩以减少存储占用。
在步骤102,对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件。
优选地,其中所述对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件,包括:
对于任一个新的测序数据文件,判断该任一个新的测序数据文件中的数据行数是否满足大于等于预设的测序读段数量阈值,若满足,则确定该任一个新的测序数据文件通过完整性校验;若不满足,则确定该任一个新的测序数据文件未通过完整性校验;
将所有的通过完整性校验的新的测序数据文件的文件名称添加到所述已分析文件列表中,作为后续判断是否存在新的测序数据文件的依据,并根据新的测序数据文件的格式对所有的通过完整性校验的新的测序数据文件进行合并和/或压缩处理,以确定待测文件。
在本发明中,在有新的数据文件生成时,检测新生成的测序数据文件的行数,判断是否达到设定的单个测序数据文件能够存储的测序读段数量阈值,以此来检查新生成的测序数据文件的完整性。对于任一个新的测序数据文件,若达到预设的测序读段数量阈值(例如,预设一个测序数据文件存储1000条测序读段,文件包含4000行),则确定该任一个新的测序数据文件通过完整性校验;若不满足,则确定该任一个新的测序数据文件未通过完整性校验。
当存在至少一个新的测序数据文件通过完整性校验时,判断这些新生成的、完整的测序数据文件的文件格式,若为未压缩的FASTQ格式,则使用cat命令合并,使用gzip命令进行压缩;若为gzip格式的压缩文件,则使用cat命令直接合并,输出FASTQ.gz文件作为待测文件,用于后续分析,同时将这些新生成的测序数据文件的名称在已分析文件中进行记录,作为后续判别测序数据存储文件夹中是否有新生成的测序数据文件的依据。若无完整的、新生成的测序数据文件,则进入“等待”状态,直至到达下一扫描时间点开始下一次扫描。
在步骤103,按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据。
优选地,其中所述按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据,包括:
利用Nanofilt确定所述待测文件中的每个测序读段数据的测序读段数据质量,并筛选出测序读段数据质量满足预设的测序读段数据质量标准的每个测序读段数据均作为第一测序读段数据。
在本发明中,在确定FASTQ.gz格式的待测文件后,使用Nanofilt软件对待测文件中的测序数据文件进行质控检测和过滤,筛选测序读段数据质量满足测序读段数据质量标准的测序读段数据,作为质量合格的第一测序读段数据,并输出为FASTQ.gz格式的文件,用于后续分析。其中,测序读段数据质量准根据实际情况设置。例如:设置第一测序读段数据质量标准为Q≥10,即需要满足测序读段中所有碱基错误率均小于等于10%。其中,Q值根据碱基错误率利用公式Q=-10×log10P计算得到;其中,Q为质量值,P为某一碱基错误率。
在步骤104,将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对,以获取每个第一测序读段数据对应的第一比对结果,并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据。
优选地,其中所述根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据,包括:
对于任一个第一测序读段数据,筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果,并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值,且碱基序列相似度大于等于预设的相似度阈值,且比对期望值小于等于预设的比对期望阈值;若满足,则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。
在本发明中,将上一步输出的FASTQ.gz文件中的测序读段编号及核酸序列进行提取,存储为第一个FASTA格式文件,并利用基本局部比对工具(Basic Local AlignmentSearch Tool,BLAST)将每个第一测序读段数据对应的FASTA格式文件与预设的病毒基因组参考序列文件进行精确序列比对,以获取每个第一测序读段数据对应的第一比对结果。然后,对于任一个第一测序读段数据,筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果,并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值,且碱基序列相似度大于等于预设的相似度阈值,且比对期望值小于等于预设的比对期望阈值;若满足,则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。其中,可以根据需求设置比对长度比例阈值为80%,设置相似度阈值为95%,比对期望阈值为10-5。则读取BLAST分析结果,首先提取每个第一测序读段的比对得分最高的比对结果,然后对于每个第一测序读段数据再按照提取出的碱基序列的比对长度比例(alignment)大于等于预设的比对长度比例阈值80%、序列相似度(identity)大于等于预设的似度阈值95%,且比对期望值(E value)小于10-5的条件进行筛选,将符合筛选条件的第一测序读段数据作为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据存储为第二个FASTA格式文件,从而实现确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据。
在步骤105,将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并,以获取至少一个第三测序读段数据,并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对,以获取每个第三测序读段数据对应的第二比对结果。
在步骤106,根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度,根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度,并根据所述参考基因组覆盖度确定分析结果。
优选地,其中所述根据所述参考基因组覆盖度确定分析结果,包括:
判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值,若满足,则确定所述分析结果为阳性,表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒;若不满足,则确定所述分析结果为阴性,表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。
在本发明中,将上一步骤筛选得到的可比对至病毒基因组参考序列的第二测序读段数据,与此前的各轮数据分析中筛选获得的所有可比对至病毒基因组参考序列的测序读段进行合并,以获取至少一个第三测序读段数据,并使用Minimap2软件将截至目前获得的所有可比对至病毒基因组参考序列的测序读段与病毒基因组参考序列进行比对,获取每一个测序读段数据对应的第二比对结果,每个测序读段数据对应的第二比对结果共同存储与SAM格式的一个文件中。
再使用Samtools软件处理SAM格式的比对结果文件,对于病基因组参考序列的每个碱基位置,统计可覆盖该位置的测序读段的数量,即为每个参考基因组碱基位置的测序深度Di,再根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度,并判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值,若满足,则确定所述分析结果为阳性,表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒;若不满足,则确定所述分析结果为阴性,表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。例如,若设置测序深度阈值为5,预设的参考基因组覆盖度阈值为10%,则判断测序深度Di≥5的参考基因组覆盖度C5是否大于等于10%,若C5≥10%,则判断为阳性;若C5<10%,则判断为阴性。
在本发明中,还能够根据产生分析报告,分析报告包括来源于病毒的测序读段总数、全部检出的基因组碱基位置的总覆盖度C、平均测序深度Dm、根据测序深度大于等于预设测序深度阈值5的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定的参考基因组覆盖度C5以及分析结果,并绘制来源于病毒的测序读段比对到参考基因组上的位置分布图,作为病毒检出情况的参考信息。
其中,对于病毒基因组参考序列的每个碱基位置,统计可覆盖该位置的测序读段的数量,即为每个参考基因组碱基位置的测序深度Di,将测序深度Di≥1的碱基位置的测序深度求和再除以序深度Di≥1的碱基位置的个数即可得到平均测序深度Dm。
统计所有分析检测到的基因组碱基位置的总数,并除以病毒基因组参考序列的总碱基数,即可得到参考基因组覆盖度C。
统计测序深度Di≥5的参考基因组碱基位置的总数,并除以参考基因组总碱基数,即可得到测序深度Di≥5的参考基因组覆盖度C5。
优选地,其中所述方法还包括:
当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时,停止检测。
在本发明中,为了防止漫无目的的检测,还可以在当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时(检测时长可根据经验或预实验确定,例如24小时),停止检测。在当所述分析结果未指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长未达到预设的检测时长时,返回步骤101继续检测。
图2为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析方法的示例图。如图2所示,自动分析过程包括:启动分析程序进行自定义设置,包括设定数据存储文件夹、输出文件夹、病毒基因组参考序列文件和分析时长等;扫描数据存储文件夹以检测新的测序数据文件,并判断是否有完整的新增测序数据文件;若存在,则对新增数据进行合并,然后使用Nanofilt进行数据质控分析,筛选出测序读段质量大于Q10的进行保留,并存储读段序列至passed.fastq.gz文件中;提取读段序列为FASTA格式,并使用BLAST与参考序列进行比对,提取每个第一测序读段的比对得分最高的比对结果,然后再按照提取出的比对结果的比对长度比例(alignment)大于等于预设的比对长度比例阈值80%、序列相似度(identity)大于等于预设的似度阈值95%,且比对期望值(Evalue)小于10-5的条件进行测序读段数据的筛选;将截止目前筛选出的测序读段数据(包括此次筛选出的测序读段数据和已存储的上次分析过程中筛选出的可比对至所述预设的病毒基因组参考序列的测序读段数据)进行合并,再基于Minimap2将合并后的测序读段数据与病毒基因组参考序列进行比对,根据比对结果确定覆盖度,并根据覆盖度确定分析结果;判断运行时长是否达到预设分析时长,若达到则停止。
与现有技术相比,本发明提出的技术方案中建立了基于纳米孔实时测序数据的开放式分析计算框架和系统,能够有效处理纳米孔测序实时下机的数据流,实现实时数据分析和结果合并汇总。相较于目前针对一代、二代数据开发的软件系统,实现了实时数据处理和分析功能;相较于牛津纳米孔技术公司的WIMP工作流程,本系统具有良好的开放性,支持基于本框架的二次开发应用,为临床中基于纳米孔测序技术的各种实时检测应用场景提供了基础平台。该系统能够在纳米孔测序的过程中实时开展病毒序列的检测,能够有效缩短检测时间,尽早识别病原体、及时为临床提供治疗依据,具有广阔的临床应用前景。根据本发明的方法通过在86份临床样本和27份阴性对照样本中检测某病毒病毒进行评估,如图3所示,该病毒的基因组序列总碱基数为29903bp,测到的该病毒序列覆盖的总长度为25520bp,覆盖度为85.34%,平均深度为273.98×,如图4所示,本发明方法的灵敏度可达到96.5%,特异度可达到100%。
图5为根据本发明实施方式的基于纳米孔测序的病毒实时自动分析系统500的结构示意图。如图5所示,本发明实施方式提供的基于纳米孔测序的病毒实时自动分析系统500,包括:新的测序数据文件确定单元501、待测文件确定单元502、数据清洗单元503、第一比对单元504、第二比对单元505和分析结果确定单元506。
优选地,所述新的测序数据文件确定单元501,用于对检测样本对应的测序数据存储文件夹进行监控,按照预设的时间间隔扫描所述测序数据存储文件夹中的文件,确定扫描文件列表,并将所述扫描文件列表和已分析文件列表进行比对,以确定至少一个新的测序数据文件。
优选地,所述待测文件确定单元502,用于对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件。
优选地,其中所述待测文件确定单元502,对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件,包括:
对于任一个新的测序数据文件,判断该任一个新的测序数据文件中的数据行数是否满足大于等于预设的测序读段数量阈值,若满足,则确定该任一个新的测序数据文件通过完整性校验;若不满足,则确定该任一个新的测序数据文件未通过完整性校验;
将所有的通过完整性校验的新的测序数据文件的文件名称添加到所述已分析文件列表中,作为后续判断是否存在新的测序数据文件的依据,并根据新的测序数据文件的格式对所有的通过完整性校验的新的测序数据文件进行合并和/或压缩处理,以确定待测文件。
优选地,所述数据清洗单元503,用于按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据。
优选地,其中所述数据清洗单元503,按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据,包括:
利用Nanofilt确定所述待测文件中的每个测序读段数据的测序读段数据质量,并筛选出测序读段数据质量满足预设的测序读段数据质量标准的每个测序读段数据均作为第一测序读段数据。
优选地,所述第一比对单元504,用于将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对,以获取每个第一测序读段数据对应的第一比对结果,并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据。
优选地,其中所述第一比对单元504,根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据,包括:
对于任一个第一测序读段数据,筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果,并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值,且碱基序列相似度大于等于预设的相似度阈值,且比对期望值小于等于预设的比对期望阈值;若满足,则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。
优选地,所述第二比对单元505,用于将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并,以获取至少一个第三测序读段数据,并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对,以获取每个第三测序读段数据对应的第二比对结果。
优选地,所述分析结果确定单元506,用于根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度,根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度,并根据所述参考基因组覆盖度确定分析结果。
优选地,其中所述分析结果确定单元506,根据所述参考基因组覆盖度确定分析结果,包括:
判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值,若满足,则确定所述分析结果为阳性,表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒;若不满足,则确定所述分析结果为阴性,表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。
优选地,其中所述系统还包括:
判断单元,用于当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时,停止检测。
本发明的实施例的基于纳米孔测序的病毒实时自动分析系统500与本发明的另一个实施例的基于纳米孔测序的病毒实时自动分析方法100相对应,在此不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (12)
1.一种基于纳米孔测序的病毒实时自动分析方法,其特征在于,所述方法包括:
对检测样本对应的测序数据存储文件夹进行监控,按照预设的时间间隔扫描所述测序数据存储文件夹中的文件,确定扫描文件列表,并将所述扫描文件列表和已分析文件列表进行比对,以确定至少一个新的测序数据文件;
对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件;
按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据;
将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对,以获取每个第一测序读段数据对应的第一比对结果,并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据;
将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并,以获取至少一个第三测序读段数据,并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对,以获取每个第三测序读段数据对应的第二比对结果;
根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度,根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度,并根据所述参考基因组覆盖度确定分析结果。
2.根据权利要求1所述的方法,其特征在于,所述对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件,包括:
对于任一个新的测序数据文件,判断该任一个新的测序数据文件中的数据行数是否满足大于等于预设的测序读段数量阈值,若满足,则确定该任一个新的测序数据文件通过完整性校验;若不满足,则确定该任一个新的测序数据文件未通过完整性校验;
将所有的通过完整性校验的新的测序数据文件的文件名称添加到所述已分析文件列表中,作为后续判断是否存在新的测序数据文件的依据,并根据新的测序数据文件的格式对所有的通过完整性校验的新的测序数据文件进行合并和/或压缩处理,以确定待测文件。
3.根据权利要求1所述的方法,其特征在于,所述按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据,包括:
利用Nanofilt确定所述待测文件中的每个测序读段数据的测序读段数据质量,并筛选出测序读段数据质量满足预设的测序读段数据质量标准的每个测序读段数据均作为第一测序读段数据。
4.根据权利要求1所述的方法,其特征在于,所述根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据,包括:
对于任一个第一测序读段数据,筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果,并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值,且碱基序列相似度大于等于预设的相似度阈值,且比对期望值小于等于预设的比对期望阈值;若满足,则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。
5.根据权利要求1所述的方法,其特征在于,所述据所述参考基因组覆盖度确定分析结果,包括:
判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值,若满足,则确定所述分析结果为阳性,表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒;若不满足,则确定所述分析结果为阴性,表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时,停止检测。
7.一种基于纳米孔测序的病毒实时自动分析系统,其特征在于,所述系统包括:
新的测序数据文件确定单元,用于对检测样本对应的测序数据存储文件夹进行监控,按照预设的时间间隔扫描所述测序数据存储文件夹中的文件,确定扫描文件列表,并将所述扫描文件列表和已分析文件列表进行比对,以确定至少一个新的测序数据文件;
待测文件确定单元,用于对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件;
数据清洗单元,用于按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据;
第一比对单元,用于将所述至少一个质量合格的第一测序读段数据中的每个第一测序读段数据与预设的病毒基因组参考序列进行精确序列比对,以获取每个第一测序读段数据对应的第一比对结果,并根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据;
第二比对单元,用于将所述至少一个第二测序读段数据和已存储的可比对至所述预设的病毒基因组参考序列的测序读段数据进行合并,以获取至少一个第三测序读段数据,并将所述至少一个第三测序读段数据和预设的病毒基因组参考序列进行比对,以获取每个第三测序读段数据对应的第二比对结果;
分析结果确定单元,用于根据每个第三测序读段数据对应的第二比对结果确定所述预设的病毒基因组参考序列的各个碱基位置上的测序深度,根据测序深度大于等于预设测序深度阈值的碱基位置总数和病毒基因组参考序列的碱基总数的比值确定参考基因组覆盖度,并根据所述参考基因组覆盖度确定分析结果。
8.根据权利要求7所述的系统,其特征在于,所述待测文件确定单元,对每个新的测序数据文件进行完整性校验,并按照预设的格式处理策略对所有的通过完整性校验的新的测序数据文件进行处理,以确定待测文件,包括:
对于任一个新的测序数据文件,判断该任一个新的测序数据文件中的数据行数是否满足大于等于预设的测序读段数量阈值,若满足,则确定该任一个新的测序数据文件通过完整性校验;若不满足,则确定该任一个新的测序数据文件未通过完整性校验;
将所有的通过完整性校验的新的测序数据文件的文件名称添加到所述已分析文件列表中,作为后续判断是否存在新的测序数据文件的依据,并根据新的测序数据文件的格式对所有的通过完整性校验的新的测序数据文件进行合并和/或压缩处理,以确定待测文件。
9.根据权利要求7所述的系统,其特征在于,所述数据清洗单元,按照预设的数据清洗策略对所述待测文件中的每个测序读段数据进行数据清洗,以获取至少一个质量合格的第一测序读段数据,包括:
利用Nanofilt确定所述待测文件中的每个测序读段数据的测序读段数据质量,并筛选出测序读段数据质量满足预设的测序读段数据质量标准的每个测序读段数据均作为第一测序读段数据。
10.根据权利要求7所述的系统,其特征在于,所述第一比对单元,根据第一比对结果按照预设的筛选策略进行测序读段数据的筛选,以确定可比对至所述预设的病毒基因组参考序列的至少一个第二测序读段数据,包括:
对于任一个第一测序读段数据,筛选该任一个第一测序读段数据对应的第一比对结果中得分最高的比对结果,并判断筛选出的比对结果是否满足比对长度比例大于等于预设的比对长度比例阈值,且碱基序列相似度大于等于预设的相似度阈值,且比对期望值小于等于预设的比对期望阈值;若满足,则确定该任一个第一测序读段数据为可比对至所述预设的病毒基因组参考序列的一个第二测序读段数据。
11.根据权利要求7所述的系统,其特征在于,所述根据所述参考基因组覆盖度确定分析结果,包括:
判断所述参考基因组覆盖度是否满足大于等于预设的参考基因组覆盖度阈值,若满足,则确定所述分析结果为阳性,表示所述检测样本中存在与所述预设的病毒基因组参考序列对应的病毒;若不满足,则确定所述分析结果为阴性,表示所述检测样本中不存在与所述预设的病毒基因组参考序列对应的病毒。
12.根据权利要求7所述的系统,其特征在于,所述系统还包括:
判断单元,用于当所述分析结果指示检测样本中存在与所述预设的病毒基因组参考序列对应的病毒或检测时长达到预设的检测时长时,停止检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110326137.6A CN113096736B (zh) | 2021-03-26 | 2021-03-26 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110326137.6A CN113096736B (zh) | 2021-03-26 | 2021-03-26 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096736A true CN113096736A (zh) | 2021-07-09 |
CN113096736B CN113096736B (zh) | 2023-10-31 |
Family
ID=76670112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110326137.6A Active CN113096736B (zh) | 2021-03-26 | 2021-03-26 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096736B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114438182A (zh) * | 2022-02-18 | 2022-05-06 | 杭州柏熠科技有限公司 | 基于纳米孔测序的进境植物检疫性病毒鉴定方法及应用 |
CN114464253A (zh) * | 2022-03-03 | 2022-05-10 | 予果生物科技(北京)有限公司 | 基于长读长测序进行实时病原检测的方法、系统和应用 |
CN115391284A (zh) * | 2022-10-31 | 2022-11-25 | 四川大学华西医院 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
CN116881634A (zh) * | 2023-09-06 | 2023-10-13 | 北京齐碳科技有限公司 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
CN117746980A (zh) * | 2023-12-18 | 2024-03-22 | 广州凯普医学检验所有限公司 | 一种流感病毒自动化快速分型方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0451700A1 (en) * | 1990-04-10 | 1991-10-16 | Miles Inc. | Recombinant APP minigenes for expression in transgenic mice as models for Alzheimers's disease |
AUPR311601A0 (en) * | 2001-02-15 | 2001-03-08 | Adp Pharmaceutical Pty Limited | Matrix gene expression in chondrogenesis |
CA2945962A1 (en) * | 2014-04-21 | 2015-10-29 | Natera, Inc. | Detecting mutations and ploidy in chromosomal segments |
CN105986013A (zh) * | 2015-02-02 | 2016-10-05 | 广州华大基因医学检验所有限公司 | 确定微生物种类的方法和装置 |
CN109637581A (zh) * | 2018-12-10 | 2019-04-16 | 江苏医联生物科技有限公司 | 一种dna二代测序全流程质量分析方法 |
CN110349630A (zh) * | 2019-06-21 | 2019-10-18 | 天津华大医学检验所有限公司 | 血液宏基因组测序数据的分析方法、装置及其应用 |
CN110938681A (zh) * | 2019-12-27 | 2020-03-31 | 上海韦翰斯生物医药科技有限公司 | 等位基因核酸富集和检测方法 |
-
2021
- 2021-03-26 CN CN202110326137.6A patent/CN113096736B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0451700A1 (en) * | 1990-04-10 | 1991-10-16 | Miles Inc. | Recombinant APP minigenes for expression in transgenic mice as models for Alzheimers's disease |
AUPR311601A0 (en) * | 2001-02-15 | 2001-03-08 | Adp Pharmaceutical Pty Limited | Matrix gene expression in chondrogenesis |
CA2945962A1 (en) * | 2014-04-21 | 2015-10-29 | Natera, Inc. | Detecting mutations and ploidy in chromosomal segments |
CN105986013A (zh) * | 2015-02-02 | 2016-10-05 | 广州华大基因医学检验所有限公司 | 确定微生物种类的方法和装置 |
CN109637581A (zh) * | 2018-12-10 | 2019-04-16 | 江苏医联生物科技有限公司 | 一种dna二代测序全流程质量分析方法 |
CN110349630A (zh) * | 2019-06-21 | 2019-10-18 | 天津华大医学检验所有限公司 | 血液宏基因组测序数据的分析方法、装置及其应用 |
CN110938681A (zh) * | 2019-12-27 | 2020-03-31 | 上海韦翰斯生物医药科技有限公司 | 等位基因核酸富集和检测方法 |
Non-Patent Citations (1)
Title |
---|
"科技信息", 黑龙江科技信息, no. 18 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114438182A (zh) * | 2022-02-18 | 2022-05-06 | 杭州柏熠科技有限公司 | 基于纳米孔测序的进境植物检疫性病毒鉴定方法及应用 |
CN114438182B (zh) * | 2022-02-18 | 2024-04-05 | 杭州柏熠科技有限公司 | 基于纳米孔测序的进境植物检疫性病毒鉴定方法及应用 |
CN114464253A (zh) * | 2022-03-03 | 2022-05-10 | 予果生物科技(北京)有限公司 | 基于长读长测序进行实时病原检测的方法、系统和应用 |
CN115391284A (zh) * | 2022-10-31 | 2022-11-25 | 四川大学华西医院 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
CN115391284B (zh) * | 2022-10-31 | 2023-02-03 | 四川大学华西医院 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
CN116881634A (zh) * | 2023-09-06 | 2023-10-13 | 北京齐碳科技有限公司 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
CN116881634B (zh) * | 2023-09-06 | 2023-12-26 | 北京齐碳科技有限公司 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
CN117746980A (zh) * | 2023-12-18 | 2024-03-22 | 广州凯普医学检验所有限公司 | 一种流感病毒自动化快速分型方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113096736B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113096736B (zh) | 一种基于纳米孔测序的病毒实时自动分析方法及系统 | |
CN109033749B (zh) | 一种肿瘤突变负荷检测方法、装置和存储介质 | |
CN108334750B (zh) | 一种宏基因组数据分析方法及系统 | |
CN109411015B (zh) | 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质 | |
CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
CN112111565A (zh) | 一种细胞游离dna测序数据的突变分析方法和装置 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN110060733B (zh) | 基于单样本的二代测序肿瘤体细胞变异检测装置 | |
CN112365927B (zh) | Cnv检测装置 | |
CN113096737B (zh) | 一种用于对病原体类型进行自动分析的方法及系统 | |
CN111326212A (zh) | 一种结构变异的检测方法 | |
CN112397151A (zh) | 基于靶向捕获测序的甲基化标志物筛选与评价方法及装置 | |
CN113053535A (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
CN108319817A (zh) | 循环肿瘤dna重复序列的处理方法及装置 | |
CN111398611A (zh) | 样本检测时间预估方法、装置、样本分析仪及存储介质 | |
KR20100068903A (ko) | Pe 파일의 실행압축 여부 판단장치 및 그 방법 | |
CN113327646B (zh) | 测序序列的处理方法及装置、存储介质、电子设备 | |
CN112102882B (zh) | 一种用于肿瘤样本ngs检测流程的质控系统和方法 | |
CN115691807A (zh) | 一种慢加急性肝衰竭感染风险预警模型及其构建方法 | |
CN110970089B (zh) | 胎儿浓度计算的预处理方法、预处理装置及其应用 | |
CN114944208A (zh) | 质量控制方法、装置、电子设备及存储介质 | |
CN113724781A (zh) | 检测纯合缺失的方法和装置 | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
CN113528631B (zh) | 一种ngs测序中样本质量预测方法及系统 | |
CN116564411B (zh) | 等温扩增核酸的结果判定方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |