CN114334004B - 一种病原微生物快速比对鉴定方法及其应用 - Google Patents

一种病原微生物快速比对鉴定方法及其应用 Download PDF

Info

Publication number
CN114334004B
CN114334004B CN202111472221.5A CN202111472221A CN114334004B CN 114334004 B CN114334004 B CN 114334004B CN 202111472221 A CN202111472221 A CN 202111472221A CN 114334004 B CN114334004 B CN 114334004B
Authority
CN
China
Prior art keywords
species
classification
comparison
sequences
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111472221.5A
Other languages
English (en)
Other versions
CN114334004A (zh
Inventor
郭刚
邓望龙
尹随随
丁然
陆光华
卜范峰
任用
李诗濛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xiansheng Diagnostic Technology Co ltd
Nanjing Xiansheng Medical Laboratory Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Original Assignee
Nanjing Xiansheng Diagnostic Technology Co ltd
Nanjing Xiansheng Medical Laboratory Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xiansheng Diagnostic Technology Co ltd, Nanjing Xiansheng Medical Laboratory Co ltd, Jiangsu Xiansheng Medical Diagnosis Co ltd filed Critical Nanjing Xiansheng Diagnostic Technology Co ltd
Priority to CN202111472221.5A priority Critical patent/CN114334004B/zh
Publication of CN114334004A publication Critical patent/CN114334004A/zh
Application granted granted Critical
Publication of CN114334004B publication Critical patent/CN114334004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明属于生信分析领域,具体涉及一种病原微生物测序数据快速比对鉴定方法及其应用,所述方法基于自研分类算法分组快速比对,通过复分类算法统计分析获得病原微生物鉴定和相对定量。

Description

一种病原微生物快速比对鉴定方法及其应用
技术领域
本发明属于生信分析领域,具体涉及一种微生物测序数据快速比对鉴定方法及其应用。
背景技术
快速准确的微生物鉴定技术始终是临床微生物关注的重点,传统微生物检验方法(形态学、培养、抗原抗体)在解决疑难及未知微生物上存在局限性。宏基因组下一代测序(metagenomic next-generation sequencing,mNGS)技术针对样本中所有核酸进行无偏测序,结合病原微生物数据库及生信算法,检测样本中含有的可能病原微生物序列。随着检出灵敏度的需求以及测序成本大下降,mNGS产出大量的数据,增加了生信病原鉴定分析时间。由于感染患者病情特殊性,需要在极短时间内准确鉴定出病原微生物,这个对病原比对算法提出了挑战。
目前做mNGS常见的病原比对算法分为两大类:一种是以Blast(Basic LocalAlignment Search Tool)为代表的全局比对方法,另一种是以Kraken为代表的基于Kmer比对策略;但两者各有优缺点:
Blast基于全局比对,基本策略是用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查的序列(称为query)在database中搜索,每一条query与database中的每一条subject都要进行双序列比对,从而得出全部比对结果。Blast是物种鉴定的金标准,但是由于循环比对的策略导致其速度非常慢。
Kraken是一种基于kmer超快速的程序,可为宏基因组DNA序列分配分类标签。为了对序列进行分类,序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先(lowest common ancestor,LCA)。与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树,用于分类。在分类树中,每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。通过在路径中添加所有权重来对分类树中的每个根到叶路径进行评分,并且分类树中的最大RTL路径是分类路径。Kraken速度快,但是由于基于kmer的的kmer的权重分类,并非完整序列的全局比对,会产生比对误差,另外Kraken无法准确体现物种丰度。
有鉴于此,特提出本发明。
发明内容
针对上述技术问题,本发明所采用的技术方案如下:
本发明首先提供一种微生物测序数据快速比对方法,包括如下步骤
步骤1)测序数据比对预分类;
步骤2)待分析数据分组;
步骤3)分组重比对。
进一步的,所述步骤1)的预分类采用Kraken2进行预分类,
进一步的,所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;
优选的,所述测序数据为为去宿主后的测序数据。
进一步的,所述步骤2)待分析数据分组为:
基于步骤1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
所述UCR计算如下:
其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
优选的,所述通过计算UCR形成分组数据具体如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,代表该节点以下物种区分度较低;从分类树的物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据。
进一步的,所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
优选的,使用Blast算法。
本发明还提供一种微生物测序数据快速比对鉴定方法,包括上述任一所述微生物快速比对方法,并进一步包括如下步骤:
步骤4)比对结果复分类统计。
进一步的,所述步骤4)比对结果复分类统计具体为:
针对于步骤3)重比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
优选的,
所述多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述物种序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
本发明还提供一种微生物测序数据快速比对鉴定系统,所述系统包括如下模块:
模块1)测序数据比对预分类模块;
模块2)待分析数据分组模块;
模块3)分组重比对模块;
模块4)比对结果复分类统计模块。
进一步的,所述模块1)的预分类采用Kraken2进行预分类,
进一步的,所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;
优选的,所述测序数据为为去宿主后的测序数据。
进一步的,所述模块2)待分析数据分组为:
基于模块1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
所述UCR计算如下:
其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
优选的,所述通过计算UCR形成分组数据具体如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,代表该节点以下物种区分度较低;从分类树的物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据。
进一步的,所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
优选的,使用Blast算法。
进一步的,所述模块4)比对结果复分类统计具体为:
针对于步骤3)重比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
优选的,
所述多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述物种序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
本发明还提供一种电子设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如上任一项所述的方法。
本发明还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如上任一项所述的方法。
进一步的,上述所述微生物优选为为病原微生物,更优选的微宏基因组病原微生物;
进一步的,所述数据来自一代、二代、三代或四代测序数据,优选来自NGS平台。
本发明的有益技术效果:
1)本发明预分类算法可快速准确将待测样本数据和病原列表最优分组,将病原比对的数据和数据库比对范围缩减到最优最小。
2)本发明基于上述分组比对算法,病原鉴定速度比相同准确性软件速度更快,资源消耗更少。
3)本发明对比对结果复分类算法,多重比对序列,分层按物种唯一比对序列比例统计,检出物种和丰都更接近真实值。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1数据分组示意图;
图2等比混合样本回收率统计比较图;
图3梯度混合样本回收率统计结果;
图4Blast运行过程中内存消耗CPU占用情况;
图5本发明运行过程中的内存和CPU的消耗情况;
图6检出物种可视化统计图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下术语或定义仅仅是为了帮助理解本发明而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
除非在下文中另有定义,本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本发明。
如本发明中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。
本发明的微生物测序数据快速比对方法,大体包括如下步骤:
步骤1)测序数据比对预分类;
步骤2)待分析数据分组;
步骤3)分组重比对。
在一些实施方式中,所述步骤1)的预分类采用Kraken2进行预分类,
在一些实施方式中,具体为步骤为:测序reads数据使用Kraken2进行比对预分类,得到待分析样本的分类树,统计预分类信息,包括:分类树中每个节点总reads数、可再分reads数及每条reads所属分类节点信息;
优选的,所述测序reads可以为去宿主后的reads。
在一些实施方式中,所述步骤2)待分析数据分组为:
基于步骤1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
所述UCR计算如下:
其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
优选的,所述步骤2)的具体分析如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,也代表这个节点以下物种区分度较低;从分类树物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据。
在一些实施方式中,所述步骤3)分组重比可采用包括但不限于:Blast、bwa、bowtie2比对算法。
在一些实施方式中,使用Blast算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
本发明的一种微生物快速比对鉴定方法,包括上述任一所述微生物快速比对方法,并进一步包括如下步骤:
步骤4)比对结果复分类统计。
在一些实施方式中,所述步骤4)比对结果复分类统计具体为:
对于步骤3)比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
所述多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述物种序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
可以理解,基于本发明的核心思想可知,其对于微生物的种类并不限定,任何类类型的微生物测序数据理论上都是适用的;作为一些特定实施方式中,上述所述微生物优选为病原微生物,更优选的是来自宏基因组的病原微生物。
可以理解,基于本发明的核心内容可知,其对于测序数据的来源或形式也不限制;在一些实施方式中,所述数据可以来自一代、二代、三代或四代测序数据,优选来自NGS平台。
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
实验例本发明方法及体系建立
本发明通过前期的探索和优化,最终确立如下一套病原微生物快速比对鉴定方法
1.数据预分类
去宿主后的reads使用Kraken2进行预分类,获取到待分析样本的分类树,并统计每个节点(node)总reads数(node_reads)与可再分reads数(class_reads),以及每条reads所属分类节点信息。
2.待分析数据与比对数据库分组
基于上述预分类信息,对于每个节点定义了一个未分类reads占比(UCR),定义计算公式如下:
其中:NodeReads为节点总reads数,ClassReads为节点可再分类reads数
定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,也代表这个节点以下物种区分度较低;从分类树物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据,具体参见图1。
3.分组重比对
使用Blast算法,对上述分组数据与共有数据库进行比对,并进行初步的比对质量过滤。
4.比对结果复分类统计
对于上述比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列(MR),对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN。分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
所述多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述物种序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集;
上述比对结果复分类统计中,首先获取了该样本中代表实际物种丰都比例的唯一比对序列数,根据该信息对于多重比对序列按照共比对物种的唯一比对比例进行再分配,不仅保证了物种的丰都比例的合理同时又让序列的丰都更加接近真实值,避免了其他软件对多重比对序列处理不合理导致的物种丰都偏差或者导致的物种鉴定错误。
实施例 本发明方法的效果验证
在宏基因组领域中,Kraken作为最常用的快速分类软件,Blast作为业内“金标准”。本发明结开发的算法策略兼顾分析速度和优势,弥补两款软件的劣势。为了证明本发明的性能,本发明方法将同Kraken和Blast以及其他同类软件进行比较分析速度和准确性,以阐明本发明的优势。
实施例1、数据评估
为避免未知因素干扰,本评估使用模拟数据方法进行。从呼吸道,脑脊液,血液中常见的9个物种的代表基因组随机抽取模拟序列进行等比混合,为了体现不同物种数量及差异导致的比对软件的错误分类同时做了梯度交叉混合,每个组合有三个随机重复。
其中等比混合样本信息如下表:
其中样本混合比例如下表:
实施例2、等比混合样本准确性评估
为了评估本发明的准确性,模拟数据等比混合后,用不同的软件进行比对分析计算回收率:
回收率计算公式如下:
并对重复及不同数据量的物种回收率进行统计分析,结果如图2。
从结果中可看出与Blast相比本发明的回收率基本一致,头状葡萄球菌Blast仅有71%,而本发明回收率达到了93%更加接近真实值。Kraken的回收率严重偏离真实值,大肠杆菌的回收率只有7.46%;Braken是基于kraken的基础做的基于统计学的优化,大多数物种可接近真实值,但是对于同科的大肠杆菌和肺炎克雷伯存在分配错误的问题,大肠杆菌只有46%的回收率,肺炎克雷伯回收率140%。
综合来看,本发明方法的准确性更高。
实施例3、梯度混合样本准确性评估
由于感染样本数据的复杂性,经常会出现丰都显著差异,同属物种难以区分的问题,高丰度会影响到低丰度物种的检出,因此设计了梯度混合样本呈数量级差异,如图3所示,从结果可看出不论哪个混合梯度回收率最接近100%,其他方法的回收率都存在明显偏离问题,尤其Kraken偏离最为明显,大多回收率都低于50%
实施例4、分析速度与资源消耗比较
本发明除了解决检出准确性方面,同时加快分析速度,减少资源开支,具体验证如下:
1.分析速度比较
在病原微生物比对过程中影响分析速度主要是序列数和物种复杂程度,从下表中可以看出随着数据量的增加,物种数的增加分析时间加长,本发明的分析速度比Blast快了10倍,在数据量达到4.5M比Blast快了20多倍。
2.资源开支比较
本实例通过比较本发明方法和Blast方法运行过程中的内存消耗CPU占用情况,来分析资源开支差异,具体结如图4-5所示。
从图中可看出,本发明的在比对过程中只用了30G的内存,比Blast少了一半,显著减低了集群资源的消耗。
实施例5、检出物种可视化统计
病原微生物鉴定过程,为了确定物种鉴定的准确性一般需要查看序列在基因组上的比对情况,本实例对检出物种绘制了覆盖图,同时展现了序列分布,覆盖度,平均深度信息,具体如图6。
从图中可以看出待分析样本中Staphylococcus aureus在整个基因组上分布均匀,平均覆盖度大于70%,且平均深度在2X,可判定此物种检出为真阳。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (4)

1.一种微生物测序数据快速比对鉴定方法,所述鉴定方法为非疾病诊断方法,包括如下步骤:
步骤1)测序数据比对预分类;
步骤2)待分析数据分组;
步骤3)分组重比对;
步骤4)比对结果的复分类统计;
所述步骤1)的比对预分类采用Kraken2进行比对预分类,并统计预分类信息;
所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;所述测序数据为去宿主后的测序数据;
所述步骤2)待分析数据分组为:
基于步骤1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
所述UCR计算如下:
其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
所述通过计算UCR形成分组数据具体如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,代表该节点以下物种区分度较低;从分类树的物种S溯源到根R,寻找该R分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据;
所述测序数据来自NGS测序数据;
所述步骤4)比对结果的复分类统计具体为:
针对于步骤3)重比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述该物种的总序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
2.权利要求1所述的微生物测序数据快速比对鉴定方法,其特征在于,所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
3.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-2任一项所述的方法。
4.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-2任一项所述的方法。
CN202111472221.5A 2021-12-04 2021-12-04 一种病原微生物快速比对鉴定方法及其应用 Active CN114334004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111472221.5A CN114334004B (zh) 2021-12-04 2021-12-04 一种病原微生物快速比对鉴定方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111472221.5A CN114334004B (zh) 2021-12-04 2021-12-04 一种病原微生物快速比对鉴定方法及其应用

Publications (2)

Publication Number Publication Date
CN114334004A CN114334004A (zh) 2022-04-12
CN114334004B true CN114334004B (zh) 2024-03-15

Family

ID=81049135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111472221.5A Active CN114334004B (zh) 2021-12-04 2021-12-04 一种病原微生物快速比对鉴定方法及其应用

Country Status (1)

Country Link
CN (1) CN114334004B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090324A (zh) * 2018-01-16 2018-05-29 深圳市泰康吉音生物科技研发服务有限公司 基于高通量基因测序数据的病原微生物鉴定方法
CN108334750A (zh) * 2018-04-19 2018-07-27 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统
CN109082479A (zh) * 2017-06-14 2018-12-25 深圳华大基因研究院 从样本中鉴定微生物物种的方法和装置
CN111462821A (zh) * 2020-04-10 2020-07-28 广州微远基因科技有限公司 病原微生物分析鉴定系统及应用
CN111599413A (zh) * 2020-05-12 2020-08-28 江苏先声医学诊断有限公司 一种测序数据的分类单元组分计算方法
CN111951895A (zh) * 2020-07-09 2020-11-17 苏州协云基因科技有限公司 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
CN112530519A (zh) * 2020-12-14 2021-03-19 广东美格基因科技有限公司 一种检测样本中微生物和耐药基因的方法和系统
WO2021180771A1 (fr) * 2020-03-12 2021-09-16 bioMérieux Technologie moleculaire de prediction d'un caractere phenotypique d'une bacterie a partir de son genome
US11139063B1 (en) * 2020-12-29 2021-10-05 Kpn Innovations, Llc. Systems and methods for generating a microbiome balance plan for prevention of bacterial infection

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9970061B2 (en) * 2011-12-27 2018-05-15 Ibis Biosciences, Inc. Bioagent detection oligonucleotides
AU2016245213A1 (en) * 2015-04-09 2017-11-23 Koninklijke Philips N.V. Method and apparatus for estimating the quantity of microorganisms within a taxonomic unit in a sample
KR102349921B1 (ko) * 2018-09-05 2022-01-12 주식회사 천랩 시료 미생물의 동정 및 분류 방법
US11830580B2 (en) * 2018-09-30 2023-11-28 International Business Machines Corporation K-mer database for organism identification
US11830581B2 (en) * 2019-03-07 2023-11-28 International Business Machines Corporation Methods of optimizing genome assembly parameters
US11809498B2 (en) * 2019-11-07 2023-11-07 International Business Machines Corporation Optimizing k-mer databases by k-mer subtraction

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109082479A (zh) * 2017-06-14 2018-12-25 深圳华大基因研究院 从样本中鉴定微生物物种的方法和装置
CN108090324A (zh) * 2018-01-16 2018-05-29 深圳市泰康吉音生物科技研发服务有限公司 基于高通量基因测序数据的病原微生物鉴定方法
CN108334750A (zh) * 2018-04-19 2018-07-27 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统
CN109686408A (zh) * 2018-04-19 2019-04-26 江苏先声医学诊断有限公司 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统
WO2021180771A1 (fr) * 2020-03-12 2021-09-16 bioMérieux Technologie moleculaire de prediction d'un caractere phenotypique d'une bacterie a partir de son genome
CN111462821A (zh) * 2020-04-10 2020-07-28 广州微远基因科技有限公司 病原微生物分析鉴定系统及应用
CN111599413A (zh) * 2020-05-12 2020-08-28 江苏先声医学诊断有限公司 一种测序数据的分类单元组分计算方法
CN111951895A (zh) * 2020-07-09 2020-11-17 苏州协云基因科技有限公司 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
CN112530519A (zh) * 2020-12-14 2021-03-19 广东美格基因科技有限公司 一种检测样本中微生物和耐药基因的方法和系统
US11139063B1 (en) * 2020-12-29 2021-10-05 Kpn Innovations, Llc. Systems and methods for generating a microbiome balance plan for prevention of bacterial infection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CRISPR数据库的病原菌 CRISPR结构分析;尹随随等;《扬州大学学报》;第38卷(第2期);第96-99页 *

Also Published As

Publication number Publication date
CN114334004A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Rautiainen et al. GraphAligner: rapid and versatile sequence-to-graph alignment
CN111462821B (zh) 病原微生物分析鉴定系统及应用
CN110349630A (zh) 血液宏基因组测序数据的分析方法、装置及其应用
CN107292330A (zh) 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
CN111599413B (zh) 一种测序数据的分类单元组分计算方法
CN109272056B (zh) 基于伪负样本的数据平衡方法及提高数据分类性能的方法
Bonnici et al. PanDelos: a dictionary-based method for pan-genome content discovery
CN114334004B (zh) 一种病原微生物快速比对鉴定方法及其应用
Skoufos et al. AGAMEMNON: an Accurate metaGenomics And MEtatranscriptoMics quaNtificatiON analysis suite
CN113539369B (zh) 一种优化的kraken2算法及其在二代测序中的应用
CN105701501A (zh) 一种商标图像识别方法
Scornavacca et al. Building species trees from larger parts of phylogenomic databases
Wei et al. Comparison of methods for biological sequence clustering
Liao et al. High-resolution strain-level microbiome composition analysis from short reads
CN106557668A (zh) 基于lf熵的dna序列相似性检验方法
Utro et al. Hierarchically labeled database indexing allows scalable characterization of microbiomes
Chandrasekhar et al. Performance analysis of enhanced clustering algorithm for gene expression data
Chen et al. Dependent variable selection in phylogenetic generalized least squares regression analysis under Pagel’s lambda model
Das et al. Sketching and sampling approaches for fast and accurate long read classification
Liao et al. Accurate strain-level microbiome composition analysis from short reads
CN114496089B (zh) 一种病原微生物鉴定方法
CN117171676B (zh) 基于决策树的土壤微生物识别分析方法、系统及存储介质
CN115719614A (zh) 一种基于隐藏亚组的生信降噪分析方法及系统
Du et al. ImputeCC Enhances Integrative Hi-C-Based Metagenomic Binning Through Constrained Random-Walk-Based Imputation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant