CN114464253B - 基于长读长测序进行实时病原检测的方法、系统和应用 - Google Patents

基于长读长测序进行实时病原检测的方法、系统和应用 Download PDF

Info

Publication number
CN114464253B
CN114464253B CN202210203436.5A CN202210203436A CN114464253B CN 114464253 B CN114464253 B CN 114464253B CN 202210203436 A CN202210203436 A CN 202210203436A CN 114464253 B CN114464253 B CN 114464253B
Authority
CN
China
Prior art keywords
data
sequencing
time
reads
species
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210203436.5A
Other languages
English (en)
Other versions
CN114464253A (zh
Inventor
夏涵
胡龙
刘广建
官远林
梁晓雪
宋雅丽
邓勇
曾敏俊
李长诚
佟斯垚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuguo Microcode Biotechnology Co ltd Of Xixian New Area
Yuguo Zhizao Technology Beijing Co ltd
Yuguo Biotechnology Beijing Co ltd
Original Assignee
Yuguo Microcode Biotechnology Co ltd Of Xixian New Area
Yuguo Zhizao Technology Beijing Co ltd
Yuguo Biotechnology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuguo Microcode Biotechnology Co ltd Of Xixian New Area, Yuguo Zhizao Technology Beijing Co ltd, Yuguo Biotechnology Beijing Co ltd filed Critical Yuguo Microcode Biotechnology Co ltd Of Xixian New Area
Priority to CN202210203436.5A priority Critical patent/CN114464253B/zh
Publication of CN114464253A publication Critical patent/CN114464253A/zh
Application granted granted Critical
Publication of CN114464253B publication Critical patent/CN114464253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于长读长测序进行实时病原检测的方法、系统和应用,包括(1)测序下机数据监测及定时分析启动;(2)获取测序fastq数据,并对数据进行质控;(3)质控后的数据与人的参考基因组比对,并去除比对上的reads;(4)去除人源reads的数据与微生物数据库进行比对和统计,检测报出测序数据中的病原微生物种类;(5)到达设定间隔时间后,新产生的数据顺序执行步骤(2)至(3),并与前一个时间间隔步骤(3)产生的数据合并,执行步骤(4)。本发明能够应用长读长测序数据实时、快速、准确完成临床样本病原微生物检测,具有重要的应用价值。

Description

基于长读长测序进行实时病原检测的方法、系统和应用
技术领域
本发明涉及生物信息学技术领域,具体涉及病原微生物检测方法及系统技术领域。
背景技术
感染是威胁人类健康的重要因素之一,进一步产生不同的临床症状,甚至危及生命。病原微生物检测是感染类疾病的诊断治疗中不可缺少的重要环节,临床微生物培养是病原检测的“金标准”。但是,常规的培养鉴定不仅流程复杂、培养周期长,同时还需要辅助进行镜检和各类各式特异性染色等鉴定方法,造成诊断时间成本高,检出不及时。培养还存在较大偏倚,对苛养菌培养效果不佳,较难通过培养检出,对于不典型或少见、变异微生物,真菌及病毒,大多数临床微生物室缺少检出能力,容易发生错检、漏检。
随着测序技术的发展,临床微生物与感染诊断逐步进入以基因组测序为代表的分子检测阶段,基于高通量基因测序技术的宏基因组检测技术(Metagenomic nextgeneration sequencing,mNGS)不依赖于培养,直接对临床样本中靶标核酸进行无偏倚、光谱性测序筛查,经与严格校验、组织的微生物基因组数据库进行比对分析,能够特异性鉴定人体微生物组种属,快速发现病原、同时对条件致病性微生物进行鉴别,并与人体共生微生物进行区分。
目前,mNGS检测技术主要基于二代测序平台,测序读长一般在几十到几百个碱基(核糖核苷酸),较短的测序读长在一定程度上限制了病原物种的精确鉴定,并且无法直接获得可能的耐药基因序列,阻碍了耐药基因检出。
发明内容
针对上述内容中所记载的技术问题中的一种,本发明提出了一种基于长读长测序进行实时病原检测的方法、系统和应用,解决了短读长数据病原检测的不足的问题。本发明监测测序数据下机并按预设的间隔时间节点循环启动分析,每次启动分析后对新获取的测序数据进行质控和去除人源reads(并可合并已用于分析的数据),将得到的clean reads与微生物数据库比对及结果评估和筛选,确定数据中病原微生物的物种信息并报出,使得本发明方法可兼容不同测序精度的长读长数据。同时由于长读长测序可以获得更长的reads,甚至对天然DNA和RNA直接测序,减少了扩增带来的实验偏差。由于本发明的系统解决了快速检出的问题,结合便携测序仪器能够进行实时检测和分析,使得本发明方法、系统能够应用于更多、更复杂的场景,为临床检测和研究带来了变革。
第一方面,本发明提供了基于长读长测序进行实时病原检测的方法,包括如下步骤:
(1)测序下机数据监测及定时分析启动;
(2)获取测序fastq数据,并对数据进行质控;
(3)质控后的数据与人的参考基因组比对,并去除比对上的reads;
(4)去除人源reads的数据与微生物数据库进行比对和统计,检测报出测序数据中的病原微生物种类;
(5)到达设定间隔时间后,新产生的数据顺序执行步骤(2)至(3),并与前一个时间间隔步骤(3)产生的数据合并,执行步骤(4)。
优选的,本发明所述步骤(1)定时分析启动时间包括初始等待启动时间和间隔时间,初始等待启动时间和间隔时间是根据使用测序仪器的测序生产速度、临床样本对于病原检测时效的需求、生产数据量满足分析设置。
优选的,本发明所述步骤(2)对测序数据的质控包含接头过滤、低质量过滤和reads长度过滤。本发明所述测序数据的质控可通过适用于所用测序平台的软件或自行编写的shell、python、perl、R等文本处理程序完成。
优选的,本发明所述步骤(3)clean reads与人的参考基因组比对用于去除人源的数据,使用minimap2、BWA、BLAST中任一软件完成。
优选的,本发明所述步骤(4)中,微生物数据库选用Refseq、NT、Kraken2中的任一数据库。
优选的,本发明所述步骤(5)中,所述间隔时间根据仪器生产和临床需求设定。
本发明步骤(4)中报出结果包括物种中文名、物种拉丁名、支持物种分类的reads数目、丰度、基因组覆盖长度和覆盖比例等。
具体的,本发明所述初始等待启动时间为0.5-2小时,当经过一次间隔时间后相对丰度占比最高的物种A小于80%,且相对丰度占比最高的物种A基因组覆盖比例小于10%时,将间隔时间调整为原间隔时间的6倍,当相对丰度占比最高的物种A的相对丰度大于80%时,将间隔时间调为原来的1/3-2/3;A物种的相对丰度如下式计算:
Figure BDA0003530487950000031
其中A、B、C···N代表了待检测样品中包括病毒、细菌、放线菌在内的所有微生物。
第二方面,本发明提供了基于长读长测序进行实时病原检测的系统,包括:
数据存储模块,用于获得测序fastq数据,调取存储人的参考基因组和微生物数据库;
数据分析模块,用于对测序fastq数据进行质控,质控后的数据与人的参考基因组比对,并去除比对上的reads;
数据反馈模块,用于对去除人源reads的数据与微生物数据库进行比对和统计,检测报出测序数据中的病原微生物种类;
计时控制模块,用于记录输出初始等待启动时间和间隔时间,控制分析启动时机。
第三方面,本发明提供了基于长读长测序进行实时病原检测的电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明上述方法。
第四方面,本发明提供了基于长读长测序进行实时病原检测的计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行本发明上述的方法。
通过实施本发明的技术方案,可以达到以下有益效果:
本发明提供的方法、系统、电子设备和计算机可读存储介质能够兼容各种测序精度的长读长测序平台,实时完成测序数据质控和去人源,并将clean reads与微生物数据库比对和筛选,确定样本微生物物种组成并报出。
本发明提供的方法能够应用长读长测序数据实时、快速、准确完成临床样本病原微生物检测,具有重要的应用价值。
本发明通过采用长读长测序使得检测不再依赖于培养,甚至可以对天然DNA和RNA直接测序,减少了扩增带来的实验偏差,而且使得原本需要几天的培养检测时间缩短到数小时之类完成,甚至能够根据需要在一小时内获得需要初步检测数据,解决了现有技术针对病毒检测周期长,导致病情延误或者难以及时采取针对性治疗使得很多治疗方法难以迅速展开的情况。
本发明通过制定时间设定依据,既保证了结果输出的参考性,也能够后续修正及时调整治疗方案,保证了时效性和准确性。
附图说明
图1为本发明基于长读长测序进行实时病原检测的方法的技术路线图。
图2为实施例1中病原检测结果的部分展示,从左到右列分别为:物种拉丁名、比对到该物种的reads总数、唯一比对的reads总数、比对基因组的覆盖长度、覆盖率。
图3为实施例1中每个物种的模拟数据在分析中实际唯一比对到该物种的数目及占cleanreads中该物种reads的百分比。
具体实施方式
下面将结合说明书附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合以下本发明的优选实施方法的详述以及包括的实施例可进一步地理解本发明的内容。
如附图1所示,本发明提供了基于长读长测序进行实时病原检测的方法,包括如下步骤:
(1)测序下机数据监测及定时分析启动;
(2)获取测序fastq数据,并对数据进行质控;
(3)质控后的数据与人的参考基因组比对,并去除比对上的reads;
(4)去除人源reads的数据与微生物数据库进行比对和统计,检测报出测序数据中的病原微生物种类;
(5)到达设定间隔时间后,新产生的数据顺序执行步骤(2)至(3),并与前一个时间间隔步骤(3)产生的数据合并,执行步骤(4)。
实施例1本发明基于长读长测序进行实时病原检测的系统
本发明提供了基于长读长测序进行实时病原检测的系统,包括:
数据存储模块,用于获得测序fastq数据,调取存储人的参考基因组和微生物数据库;
数据分析模块,用于对测序fastq数据进行质控,质控后的数据与人的参考基因组比对,并去除比对上的reads;
数据反馈模块,用于对去除人源reads的数据与微生物数据库进行比对和统计,检测报出测序数据中的病原微生物种类;
计时控制模块,用于记录输出初始等待启动时间和间隔时间,控制分析启动时机。
实施例2本发明基于长读长测序进行实时病原检测的电子设备
本发明提供了基于长读长测序进行实时病原检测的电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明上述方法。
实施例3本发明基于长读长测序进行实时病原检测的计算机可读存储介质
本发明提供了基于长读长测序进行实时病原检测的计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行本发明上述的方法。
实施例4627种病原微生物模拟长读长测序数据检测
本实施例以353种临床重要致病细菌、支原体、衣原体、立克次氏体、螺旋体、214种临床重要致病病毒、50种临床重要致病真菌及10种临床重要致病寄生虫为代表,从NCBI下载每个物种代表性Refseq基因组fasta序列,构建微生物数据库。同时,以基因组序列为参考,使用长读长测序数据模拟软件DeepSimulator进行测序数据模拟,每个物种产生100条模拟reads,最后合并形成总的fastq文件。
完成数据库构建和模拟测序数据fastq合并后,开始进行分析:
(1)获取本实施例为模拟数据后,对fastq数据进行质控,首先使用porechop软件去除测序接头,然后过滤质量值低于8、长度不足500碱基的reads。
(2)质控后的fastq数据与人的参考基因Hg38进行比对,保留未比对上的reads作为clean reads。
(3)使用BLAST软件将clean reads与构建的数据库进行比对,并根据比对长度、序列一致性对结果进行筛选,统计比对结果中每个物种比对上的reads数目、唯一比对上的readds数目、比对覆盖长度和相对于基因组的覆盖率等参数,如图2。
本实施例的分析结果显示,共627个物种中,582种微生物(92.8%)唯一比对上的reads完全来自于自身模拟数据,未出现其他物种reads的错误筛选(假阳性)。其他45例存在丢失真实reads(假阴性)的物种中,最高的丢失率仅为5.5%,如图3。可见本发明基于长读长测序进行实时病原检测的方法整体检测准确性高,假阴性发生率低,丢失真实reads(假阴性)的物种丢失率低,这为设定初始等待启动时间和间隔时间进行分阶段输出提高输出时效性和兼顾准确性提供了理论依据。
实施例5病原血培养样本长读长测序数据分析
本实施例具体的实施方法包括:
(1)测序开始后,设定1小时初始等待时间,1小时后启动分析,设定间隔分析时间为30分钟。
(2)对fastq数据进行质控,采用自行编写的shell文本处理程序首先将测序reads与接头序列库比对,去除测序接头,然后过滤质量值低于8、长度不足500碱基的reads。
(3)质控后的fastq数据与人的参考基因Hg38进行比对,保留未比对上的reads作为clean reads。
(4)使用BWA软件将clean reads与NT库进行比对,并根据比对长度、序列一致性对结果进行筛选,统计比对结果。
(5)初始分析完成后,每间隔30分钟对新产生的数据执行步骤(2)和(3),然后合并之前产生的clean reads共同执行步骤(4)。
测试数据如下所示:
表1:经过1小时初始等待时间后报出的病原微生物信息
物种名称 中文名称 reads数目 丰度 基因组覆盖长度 覆盖比例
Klebsiellapneumoniae 肺炎克雷伯菌 1432 84.96% 832183 14.64%
Enterococcusfaecium 屎肠球菌 120 13.86% 143145 4.90%
Escherichiacoli 大肠杆菌 5 0.36% 32412 0.70%
Staphylococcusepidermidis 表皮葡萄球菌 6 0.81% 35576 1.40%
表2:经过1小时初始等待时间和0.5小时间隔分析时间后报出的病原微生物信息
物种名称 中文名称 reads数目 丰度 基因组覆盖长度 覆盖比例
Klebsiellapneumoniae 肺炎克雷伯菌 2133 86.87% 954831 16.80%
Enterococcusfaecium 屎肠球菌 153 12.13% 186593 6.39%
Escherichiacoli 大肠杆菌 7 0.35% 24356 0.52%
Staphylococcusepidermidis 表皮葡萄球菌 7 0.65% 35487 1.42%
表3:经过1小时初始等待时间和6个半小时间隔分析时间以上报出的病原微生物信息
物种名称 中文名称 reads数目 丰度 基因组覆盖长度 覆盖比例
Klebsiellapneumoniae 肺炎克雷伯菌 287653 99.81% 3786735 66.64%
Enterococcusfaecium 屎肠球菌 239 0.16% 224536 7.69%
Escherichiacoli 大肠杆菌 12 0.00% 36547 0.79%
Staphylococcusepidermidis 表皮葡萄球菌 32 0.03% 56486 2.27%
从上述数据可以看出,经过1小时初始等待时间后,虽然后面随着每次间隔时间结束报出的病原微生物信息中reads数目持续增加,基因组覆盖长度和覆盖比例也在不断增加,但是病原微生物的丰度顺序已经不再变化,换句话说,本实施例在初始等待时间为1小时时,已经能够对丰度最大的病原微生物进行把握,这已经给临床治疗提供了足够的信息进行前期诊疗。本实施例也尝试了初始等待时间小于0.5小时,多个病原微生物丰度接近时就会出现排序变化的情况,也就是说时间特别短由于可供分析的数据太少,当出现极个别其他物种reads的错误筛选(假阳性)或者存在丢失真实reads(假阴性)的情况时,就会出现误判,输出的结果不能支撑做成临床诊疗决定,但是当初始等待时间达到2小时以上后,可供分析的数据已经具有完全具备参考意义,本实施例通过多组病原微生物组合测试发现其他物种reads的错误筛选(假阳性)或者存在丢失真实reads(假阴性)已经对利用输出结果得出临床诊疗方案没有影响:
实施例6病原肺泡灌洗液培养样本长读长测序数据分析
本实施例具体的实施方法包括:
(1)测序开始后,设定半小时初始等待时间,半小时后启动分析,设定间隔分析时间为60分钟。
(2)对fastq数据进行质控,首先将测序reads与接头序列库比对,去除测序接头,然后过滤质量值低于8、长度不足500碱基的reads。
(3)质控后的fastq数据与人的参考基因Hg38进行比对,保留未比对上的reads作为clean reads。
(4)使用minimap2软件将clean reads与Refseq库进行比对,并根据比对长度、序列一致性对结果进行筛选,统计比对结果。
(5)初始分析完成后,每间隔60分钟对新产生的数据执行步骤(2)和(3),然后合并之前产生的clean reads共同执行步骤(4)。
表1:经过0.5小时初始等待时间后报出的病原微生物信息
物种名称 中文名称 reads数目 丰度 基因组覆盖长度 覆盖比例
Streptococcuspneumoniae 肺炎链球菌 421 80.60% 114357 5.31%
Pseudomonasaeruginosa 铜绿假单胞菌 236 15.54% 93548 1.49%
Acinetobacterbaumannii 鲍曼不动杆菌 13 1.35% 13596 0.34%
Staphylococcusaureus 金黄色葡萄球菌 8 1.17% 2443 0.09%
Haemophilusparainfluenzae 副流感嗜血杆菌 7 1.34% 4577 0.21%
表2:经过0.5小时初始等待时间和0.5小时间隔分析时间后报出的病原微生物信息
物种名称 中文名称 reads数目 丰度 基因组覆盖长度 覆盖比例
Streptococcuspneumoniae 肺炎链球菌 668 79.15% 168764 7.83%
Pseudomonasaeruginosa 铜绿假单胞菌 435 17.73% 211398 3.37%
Acinetobacterbaumannii 鲍曼不动杆菌 15 0.96% 15539 0.39%
Staphylococcusaureus 金黄色葡萄球菌 12 1.09% 3572 0.13%
Haemophilusparainfluenzae 副流感嗜血杆菌 9 1.07% 5312 0.25%
表3:经过0.5小时初始等待时间和2.5小时间隔分析时间后报出的病原微生物信息
物种名称 中文名称 reads数目 丰度 基因组覆盖长度 覆盖比例
Streptococcuspneumoniae 肺炎链球菌 1243 76.12% 343857 15.96%
Pseudomonasaeruginosa 铜绿假单胞菌 1056 22.24% 552348 8.82%
Acinetobacterbaumannii 鲍曼不动杆菌 16 0.53% 15897 0.40%
Staphylococcusaureus 金黄色葡萄球菌 12 0.56% 3572 0.13%
Haemophilusparainfluenzae 副流感嗜血杆菌 9 0.55% 5312 0.25%
表4:经过0.5小时初始等待时间和3小时以上间隔分析时间后报出的病原微生物信息
物种名称 中文名称 reads数目 丰度 基因组覆盖长度 覆盖比例
Streptococcuspneumoniae 肺炎链球菌 4885 80.95% 1557748 72.31%
Pseudomonasaeruginosa 铜绿假单胞菌 3243 18.48% 2328766 37.17%
Acinetobacterbaumannii 鲍曼不动杆菌 20 0.18% 18862 0.47%
Staphylococcusaureus 金黄色葡萄球菌 15 0.19% 4734 0.17%
Haemophilusparainfluenzae 副流感嗜血杆菌 12 0.20% 6548 0.30%
从上述实施例尝试进行调整的初始等待时间数据看,如果初始等待时间小于0.5小时,如果病原微生物的组成复杂而且丰度接近时就会出现排序变化的情况,也就是说时间特别短由于可供分析的数据太少,当出现极个别其他物种reads的错误筛选(假阳性)或者存在丢失真实reads(假阴性)的情况时,就会出现误判。本实施例的实验数据进一步验证了上述实施例5的结论,当本实施例初始等待时间为0.5小时时,鲍曼不动杆菌、金黄色葡萄球菌、副流感嗜血杆菌是会发现顺序变化,相对丰度占比最高的物种A肺炎链球菌的丰度也是先降低随着间隔时间增加升高,经过多轮实验发现当整个间隔时间达到3小时以上时,丰度值变化相对稳定。所以本实施例进一步实验发现,当经过0.5小时间隔时间后相对丰度占比最高的物种A小于80%,且相对丰度占比最高的物种A基因组覆盖比例小于10%时,如果将间隔时间调整为原间隔时间的6倍各个病原微生物的丰度变化相对稳定,当相对丰度占比最高的物种A的相对丰度大于80%,将间隔时间调为原来的1/3-2/3,如果间隔时间太长失去了提前获得临床参考数据的意义,如果间隔时间太短增加的reads数目太少不足以支撑获得进一步的分析结果。
按照本发明的规则结合长读长的测序技术,调整初始等待时间和间隔分析时间能最大限度的缩短输出时间,保证结果输出的效率,为实时、快速、准确完成临床样本病原微生物检测提供了一个可靠、可行和准确的技术方案。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。

Claims (4)

1.基于长读长测序进行实时病原检测的方法,其特征在于,包括如下步骤:
(1)测序下机数据监测及定时分析启动;定时分析启动时间包括初始等待启动时间和间隔时间,初始等待启动时间和间隔时间是根据使用测序仪器的测序生产速度、临床样本对于病原检测时效的需求、生产数据量满足分析设置;
(2)获取测序fastq数据,并对数据进行质控;对测序数据的质控包含接头过滤、过滤质量值低于8、长度不足500碱基的reads;
(3)使用minimap2、BWA、BLAST中任一软件完成质控后的数据与人的参考基因组比对,并去除比对上的reads;比对到人基因组的reads去除使用samtools软件完成;
(4)去除人源reads的数据与微生物数据库进行比对和统计,检测报出测序数据中的病原微生物种类;微生物数据库选用Refseq、NT、Kraken2中的任一数据库;
(5)到达设定间隔时间后,新产生的数据顺序执行步骤(2)至(3),并与前一个时间间隔步骤(3)产生的数据合并,执行步骤(4);所述间隔时间根据仪器生产和临床需求设定;
所述初始等待启动时间为0.5-2小时,当经过一次间隔时间后相对丰度占比最高的物种A小于80%,且相对丰度占比最高的物种A基因组覆盖比例小于10%时,将间隔时间调整为原间隔时间的6倍,当相对丰度占比最高的物种A的相对丰度大于80%时,将间隔时间调为原来的1/3-2/3;A物种的相对丰度如下式计算:
Figure FDA0004031415900000021
其中A、B、C···N代表了待检测样品中包括病毒、细菌、放线菌在内的所有微生物。
2.应用权利要求1所述方法的系统,其特征在于,包括:
数据存储模块,用于获得测序fastq数据,调取存储人的参考基因组和微生物数据库;
数据分析模块,用于对测序fastq数据进行质控,质控后的数据与人的参考基因组比对,并去除比对上的reads;
数据反馈模块,用于对去除人源reads的数据与微生物数据库进行比对和统计,检测报出测序数据中的病原微生物种类;
计时控制模块,用于记录输出初始等待启动时间和间隔时间,控制分析启动时机。
3.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1所述的方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行权利要求1所述的方法。
CN202210203436.5A 2022-03-03 2022-03-03 基于长读长测序进行实时病原检测的方法、系统和应用 Active CN114464253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210203436.5A CN114464253B (zh) 2022-03-03 2022-03-03 基于长读长测序进行实时病原检测的方法、系统和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210203436.5A CN114464253B (zh) 2022-03-03 2022-03-03 基于长读长测序进行实时病原检测的方法、系统和应用

Publications (2)

Publication Number Publication Date
CN114464253A CN114464253A (zh) 2022-05-10
CN114464253B true CN114464253B (zh) 2023-03-10

Family

ID=81416241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210203436.5A Active CN114464253B (zh) 2022-03-03 2022-03-03 基于长读长测序进行实时病原检测的方法、系统和应用

Country Status (1)

Country Link
CN (1) CN114464253B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024138691A1 (zh) * 2022-12-30 2024-07-04 深圳华大生命科学研究院 微生物物种鉴定方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349630A (zh) * 2019-06-21 2019-10-18 天津华大医学检验所有限公司 血液宏基因组测序数据的分析方法、装置及其应用
CN111187813A (zh) * 2020-02-20 2020-05-22 予果生物科技(北京)有限公司 全流程质控的病原微生物高通量测序检测方法
CN112542214A (zh) * 2020-12-18 2021-03-23 昆明金域医学检验所有限公司 基于病原微生物宏基因组的多种菌群间Granger因果分析方法
CN112863603A (zh) * 2021-03-12 2021-05-28 南开大学 细菌全基因组测序数据的自动化分析方法及系统
CN112967753A (zh) * 2021-02-25 2021-06-15 美格医学检验所(广州)有限公司 一种基于纳米孔测序的病原微生物检测系统和方法
CN113096737A (zh) * 2021-03-26 2021-07-09 北京源生康泰基因科技有限公司 一种用于对病原体类型进行自动分析的方法及系统
CN113284556A (zh) * 2021-04-29 2021-08-20 安徽农业大学 从动植物转录组数据中挖掘内生微生物组信息的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2017013471A (es) * 2015-04-27 2018-08-01 Abvitro Llc Metodo de secuenciamiento, determinacion, apareamiento y validacion de agentes terapeuticos y antigenos especificos de enfermedades.
US20240279751A1 (en) * 2020-06-10 2024-08-22 King Abdullah University Of Science And Technology A rapid multiplex rpa based nanopore sequencing method for real-time detection and sequencing of multiple viral pathogens
CN113096736B (zh) * 2021-03-26 2023-10-31 北京源生康泰基因科技有限公司 一种基于纳米孔测序的病毒实时自动分析方法及系统
CN113160882B (zh) * 2021-05-24 2022-11-15 成都博欣医学检验实验室有限公司 一种基于三代测序的病原微生物宏基因组检测方法
CN113299344A (zh) * 2021-06-23 2021-08-24 深圳华大医学检验实验室 基因测序分析方法、装置、存储介质和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349630A (zh) * 2019-06-21 2019-10-18 天津华大医学检验所有限公司 血液宏基因组测序数据的分析方法、装置及其应用
CN111187813A (zh) * 2020-02-20 2020-05-22 予果生物科技(北京)有限公司 全流程质控的病原微生物高通量测序检测方法
CN112542214A (zh) * 2020-12-18 2021-03-23 昆明金域医学检验所有限公司 基于病原微生物宏基因组的多种菌群间Granger因果分析方法
CN112967753A (zh) * 2021-02-25 2021-06-15 美格医学检验所(广州)有限公司 一种基于纳米孔测序的病原微生物检测系统和方法
CN112863603A (zh) * 2021-03-12 2021-05-28 南开大学 细菌全基因组测序数据的自动化分析方法及系统
CN113096737A (zh) * 2021-03-26 2021-07-09 北京源生康泰基因科技有限公司 一种用于对病原体类型进行自动分析的方法及系统
CN113284556A (zh) * 2021-04-29 2021-08-20 安徽农业大学 从动植物转录组数据中挖掘内生微生物组信息的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于NGS的宏基因组学在微生物病原体鉴定中的应用;刘悦 等;《热带医学杂志》;20191130;第19卷(第11期);第1446-1449页 *

Also Published As

Publication number Publication date
CN114464253A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN109686408B (zh) 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统
Sheng et al. Multi-perspective quality control of Illumina RNA sequencing data analysis
CN111951895A (zh) 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN111187813B (zh) 全流程质控的病原微生物高通量测序检测方法
CN111599413B (zh) 一种测序数据的分类单元组分计算方法
CN112992277B (zh) 一种微生物基因组数据库构建方法及其应用
CN114464253B (zh) 基于长读长测序进行实时病原检测的方法、系统和应用
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
CN115719616B (zh) 一种病原物种特异性序列的筛选方法及系统
CN112331268B (zh) 目标物种特有序列的获取方法及目标物种检测方法
CN117690483B (zh) 一种基于病原宏基因二代测序的耐药基因检测方法
JP2016518822A (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
CN116364182A (zh) 一种单细胞转录组与tcr和bcr测序数据的整合分析方法
Cepeda et al. MetaCompass: reference-guided assembly of metagenomes
CN114496089B (zh) 一种病原微生物鉴定方法
CN116312779A (zh) 检测样本污染和识别样本错配的方法和装置
CN114420213B (zh) 一种生物信息分析方法及装置、电子设备及存储介质
CN108715891A (zh) 一种转录组数据的表达定量方法及系统
CN113470752A (zh) 一种基于纳米孔测序仪的细菌测序数据鉴定方法
Brown BIGDATA: Small: DA: DCM: Low-memory streaming prefilters for biological sequencing data
Freedman et al. Building better genome annotations across the tree of life
KR20210050293A (ko) 종돈 조기 선발을 위한 SNP chip 데이터 생성 및 분석 기술
CN110684830A (zh) 一种石蜡切片组织rna分析方法
Aldawiri et al. A Novel Approach for Mapping Ambiguous Sequences of Transcriptomes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant