CN108334750B - 一种宏基因组数据分析方法及系统 - Google Patents

一种宏基因组数据分析方法及系统 Download PDF

Info

Publication number
CN108334750B
CN108334750B CN201810355681.1A CN201810355681A CN108334750B CN 108334750 B CN108334750 B CN 108334750B CN 201810355681 A CN201810355681 A CN 201810355681A CN 108334750 B CN108334750 B CN 108334750B
Authority
CN
China
Prior art keywords
sequence
species
macro
identification
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810355681.1A
Other languages
English (en)
Other versions
CN108334750A (zh
Inventor
康悦
胡欢
程军
周洲
任用
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiansheng Medical Examination Laboratory Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Fuwai Hospital of CAMS and PUMC
Original Assignee
Beijing Xiansheng Medical Examination Laboratory Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiansheng Medical Examination Laboratory Co ltd, Jiangsu Xiansheng Medical Diagnosis Co ltd, Fuwai Hospital of CAMS and PUMC filed Critical Beijing Xiansheng Medical Examination Laboratory Co ltd
Priority to CN201810355681.1A priority Critical patent/CN108334750B/zh
Priority to CN201811531578.4A priority patent/CN109686408B/zh
Publication of CN108334750A publication Critical patent/CN108334750A/zh
Application granted granted Critical
Publication of CN108334750B publication Critical patent/CN108334750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种宏基因组数据分析方法及系统。本发明所述数据分析方法和系统基于k‑mer算法获得样本的初步物种鉴定结果,并基于所述初步物种鉴定结果,抽取部分或全部支持序列,采用blast算法对初步物种鉴定结果进行验证,判断初步物种鉴定结果是否为报告检出物种。本发明所述方法及系统能够降低假阳性,在短时间内快速、准确地获得样本的报告检出物种,并与多种主流测序平台兼容,适用于第二代测序技术和第三测序技术;本发明所述方法、系统还能够对样本的耐药基因和耐药突变位点进行准确的鉴定并映射到报告检出物种。进一步地,本发明所述系统可用于鉴定病原体微生物,尤其是心内膜炎病原体,克服其难以培养的缺陷。

Description

一种宏基因组数据分析方法及系统
技术领域
本发明涉及生物信息学领域,具体而言,涉及一种宏基因组数据分析方法及系统。
背景技术
宏基因组(Metagenome),又称群落基因组,是指特定小生境中全部微小生物遗传物质的总和。宏基因组学(metagenmomics)是指,直接应用基因组学技术对小生境中的微生物群落进行研究,且不需要对单一菌株进行分离培养的学科。
不同于以往的微生物学分析手段,宏基因组学分析不需要筛选得到各微生物群落的培养物,而是直接测定样品中所有微生物的核酸序列,以分析微生物群落的生长情况。宏基因组学分析可避免由于环境改变而引起的微生物序列变化所带来的偏差,特别适合用于鉴定在常规条件下难以培养的微生物,例如,极端微生物或某些难以培养的病原体。以导致心内膜炎的病原微生物为例,常规培养不仅耗时长(2~4周),而且培养成功率不高,阴性率高达30%。对于许多感染性心内膜炎患者而言,不论是血液或者是心脏赘生物样本都不能通过培养给出物种和耐药性鉴定结果,影响治疗方案和复发干预措施的指定。而宏基因组学可以通过直接对患者的生物样本进行测序,绕过培养步骤,获得生物样本的病原体群落信息。
随着测序技术的发展,宏基因组学技术已有长足发展,但其在数据分析方面仍然存在瓶颈,制约其发展和应用,具体表现为:
1)宏基因组高通量检测具有高敏感性,但检测结果中的假阳性过多,特异性差,不能满足特异性要求高的鉴定方法的需求,例如,对病原微生物的临床鉴定。
2)现有的宏基因组测序数据分析方法尚难以在保证鉴定结果准确性的基础上,大幅度加快分析速度,缩短分析时间。
3)现有的宏基因组数据分析平台兼容性差,不能普遍适用于各类测序场景。
4)现有的宏基因组分析技术尚不能将物种鉴定与功能基因分析有机地整合,无法提供更为全面、深度加工的信息分析结果。
有鉴于此,特提出本发明。
发明内容
本发明的目的在于提供宏基因组数据分析方法和系统,以解决上述技术问题中的至少一个。
为了实现本发明的上述目的,特采用以下技术方案。
一种宏基因组数据分析方法,所述方法包括:
A1、将从样本获得的宏基因组测序序列与第一核酸数据库进行比对,基于k-mer算法获得初步物种鉴定结果;
A2、针对所述初步物种鉴定结果中的每个物种,统计支持序列的总数目,如果支持序列的总数目≥预定值,则随机抽取部分支持序列,构成验证序列集,如果支持序列的总数目<预定值,则抽取全部支持序列,构成验证序列集;基于blast算法,在第二核酸数据库中对所述验证序列集中的序列进行物种鉴定,当验证序列集中50%以上序列的鉴定结果与所述初步物种鉴定结果一致,则所述初步物种鉴定结果通过验证,所述初步物种鉴定结果即为样本的报告检出物种。
本发明所述方法在鉴定样本的物种来源时,创造性地采用“两步法”对宏基因组数据进行分析。第一步,将测序序列与微生物基因组数据库进行比对,基于k-mer算法在短时间内处理大量测序数据,快速地获得初步的物种鉴定结果,该鉴定结果包含较高的假阳性结果,常规的过滤参数设置难以将其剔除。第二步,在初步鉴定结果的基础上,本发明抽取部分支持序列,采用更为准确但速度较慢的blast算法进行验证,能够大大消除k-mer算法缺陷造成的假阳性结果,同时,由于blast比对对象为初步鉴定结果中抽取的部分支持序列,计算量显著下降,能够在短时间内完成数据分析,既达到验证目的又控制计算时间。另外,在支持序列的总数目较少,低于预定值的情况下,为避免验证序列集不能满足数据统计要求,本发明所述方法还进一步限定,当支持序列的总数目小于预定值时抽取全部支持序列,用于构成验证序列集,从而确保有足够数量的支持序列用于blast算法的验证。根据实施例1~3的实验结果可知,本发明所述方法对于第二代测序数据,由于读长较短,会在同属异种的物种中出现一些错误或难以判断的情况,造成少量的假阳性结果,但对于读长更长的新一代测序数据,基本没有假阳性结果产生,能得到十分准确的鉴定结果。
在一些具体的实施方式中,所述第一核酸数据库与所述第二核酸数据库相同或不同,优选地,所述第一核酸数据库与所述第二核酸数据库不同;更优选地,所述第一核酸数据库为微生物基因组数据库,所述第二核酸数据库为NCBI的nt数据库。
在一些具体的实施方式中,为平衡数据的统计学意义和数据量带来的统计学压力,所述预定值设置为既满足验证序列集对统计数据的要求,又满足blast算法对运算速度的要求;优选地,所述预定值设置为150~250,更优选为200。
在一些具体的实施方式中,随机抽取的所述部分支持序列的数目≥预定值,优选地,随机抽取的所述部分支持序列的数目等于预定值。
在一些具体的实施方式中,所述步骤A2还包括在抽取支持序列之前对鉴定结果进行过滤,优选地,所述过滤包括将支持序列数据量占比低于0.2%、长读长支持序列数目低于2条、短读长支持序列数目低于10条的鉴定结果剔除。
在一些具体的实施方式中,所述步骤A2进行blast比对时,E value<E-30
在一些具体的实施方式中,为获取样本中各微生物的相对定量信息,本发明所述方法还包括:A3、计算每个报告检出物种的支持序列的长度总和,经所述报告检出物种的基因组大小标准化后,得到所述报告检出物种富集程度的参考值,以所述参考值为基准,计算每个报告检出物种在所述样本中的相对丰度。
本发明还涉及一种宏基因组数据分析,所述方法包括:B1、基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;B2、对所述耐药基因的初步鉴定结果进行过滤,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的的鉴定结果,即为报告检出耐药基因。
在一些具体的实施方式中,所述步骤B2在过滤前先将不符合E value<E-30的耐药基因鉴定结果剔除。
本发明上述方法不但能够鉴定样品中的微生物物种,还能鉴定样品的耐药性。并且,本发明所述方法对耐药基因数据准确性的兼容性强。对于耐药基因数据库来说,对于序列两端的注释不一定完全准确,故本发明所述方法在设计中对3’和5’端序列的比对过滤均存在一定的兼容度。这种兼容表现在两个方面。一是控制序列对基因的覆盖区域,过滤掉只有3’或5’有序列覆盖的鉴定结果,二是对3’和5’端比对的宽容,即如果中间区域有符合要求(准确度和覆盖度均满足)对3’和5’端的不准确给予宽容处理。
在一些具体的实施方式中,所述方法还包括:B1’、基于blast算法,将宏基因组测序序列与耐药基因数据库的耐药突变位点氨基酸序列进行比对,获得耐药突变位点的初步鉴定结果;B2’、对所述耐药突变位点的初步鉴定结果进行过滤,只保留长读长支持序列数目>2条或短读长支持序列数目>3条的鉴定结果,即为报告检出耐药突变位点。
在一些具体的实施方式中,所述方法还包括:B3、整合所述报告检出耐药基因和/或所述报告检出耐药突变位点,获得样本的全局耐药结果。
在一些具体的实施方式中,所述方法还包括执行权利要求1所述步骤A1~A2,或A1~A3,获得样本的报告检出物种,将B3所述全局耐药结果映射到报告检出物种。
本发明上述方法将宏基因组的物种鉴定和耐药基因/耐药突变位点的鉴定进行有机整合。其中,结合物种鉴定结果,本发明所述方法能够将耐药突变基因或耐药突变位点信息映射到报告检出物种,获得具体的耐药菌株,对微生物的培养、临床用药等具有重要的指导意义。
在一些具体的实施方式中,所述方法还包括在进行物种鉴定、耐药基因鉴定和/或耐药突变位点鉴定前,对所述宏基因组测序序列进行质量评估和/或去宿主基因组。
在一些具体的实施方式中,所述质量评估包括:根据测序平均质量分数、质量分数分布以及测序长度中的至少一种评估测序数据的可用性,对可用数据中的低质量部分进行过滤处理;优选地,所述过滤处理包括:对于长读长测序数据,保留长度>500bp且测序质量分数>6的测序数据;对于短读长测序数据保留长度>50bp且质量分数>20的测序数据。
在一些具体的实施方式中,所述去宿主基因组包括:将所述宏基因组测序序列与宿主基因组序列进行比对,剔除能比对到所述宿主基因组的序列,保留不能比对到所述宿主基因组的序列,用于后续的数据分析。
在一些具体的实施方式中,所述去宿主基因组采用bwa算法进行比对,去短读长测序序列和长读长测序序列均兼容且适宜。
在一些具体的实施方式中,所述质量评估在所述去宿主基因组之前执行。
在一些具体的实施方式中,所述方法为非诊断目的和/或非治疗目的。
在一些具体的实施方式中,所述方法中的宏基因组测序序列为长读长序列或短读长序列。
本发明前述方法对测序数据的可用性进行评估,并将可用数据中的低质量部分过滤,能够提高数据分析的准确性,进一步地,本发明前述方法在进行质量评估时能够针对不同的测序数据采用不同的过滤处理方式,对测序数据具有高度的兼容性。本发明前述方法还包括去宿主基因组步骤,该步骤能够极大程度地降低后续分析的数据量,能够加快数据分析的速度,尤其能够减轻blast算法的运算压力。
本发明还涉及用于前述宏基因组数据分析方法的系统,所述系统包括物种鉴定模块,所述物种鉴定模块包括初步鉴定模块和验证模块,其中:
所述初步鉴定模块包括接收单元和比对单元;
所述接收单元用于接收从样本中获得的宏基因组测序序列;
所述比对单元用于将所述测序序列与第一核酸数据库进行比对,基于k-mer算法获得初步物种鉴定结果;
所述验证模块包括验证序列集单元、物种鉴定单元和验证单元;
其中,所述验证序列集单元:针对每个初步的物种鉴定结果,统计支持序列的总数目,如果支持序列的总数目≥预定值,则随机抽取部分支持序列,构成验证序列集,如果支持序列的总数目<预定值,则抽取全部支持序列,构成验证序列集;
所述物种鉴定单元用于在第二核酸数据库中基于blast算法对验证序列集进行物种鉴定;
所述验证单元,用于比较初步物种鉴定结果与验证序列集的物种鉴定结果的一致性,如果验证序列集中50%以上序列的鉴定结果与初步物种鉴定结果一致,则判定通过验证,所述初步物种鉴定结果即为报告检出物种;
优选地,所述系统还包括相对丰度计算模块,所述相对丰度计算模块包括参考值计算单元和相对丰度计算单元;
其中,所述参考值计算单元,用于计算每个报告检出物种的支持序列的长度总和,并将所述支持序列的长度总和用所述报告检出物种的基因组大小标准化,获得所述报告检出物种富集程度的参考值;
所述相对丰度计算单元,用于以所述参考值为基准,计算每个报告检出物种在所述样本中的相对丰度。
本发明还涉及用于前述宏基因组数据分析方法的系统,所述系统包括耐药基因鉴定模块,所述耐药基因鉴定模块包括初步鉴定单元和过滤单元;
其中,所述初步鉴定单元,用于基于blast算法将宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;
所述过滤单元,用于过滤所述耐药基因的初步鉴定结果,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的宏基因组测序序列的鉴定结果,即为报告检出耐药基因;优选地,在过滤前先将E value<E-30的鉴定结果剔除;
优选地,所述系统还包括耐药突变位点鉴定模块,所述耐药突变位点鉴定模块包括初步鉴定单元和过滤单元;
其中,所述初步鉴定单元,用于基于blast算法将所述宏基因组测序序列与耐药基因数据库的耐药突变位点氨基酸序列进行比对,获得耐药突变位点的初步鉴定结果;
所述过滤单元,用于过滤所述耐药突变位点的初步鉴定结果,只保留长读长支持序列数目>2条或短读长支持序列>3条的鉴定结果,即为报告检出耐药突变位点;
更优选地,所述系统还包括全局耐药报告模块,所述全局耐药报告模块包括整合单元,所述整合单元用于整合所述报告检出耐药基因和/或所述报告检出耐药突变位点,获得样本的全局耐药结果;
最优选地,所述系统还包括前述物种鉴定模块和/或相对丰度计算模块,所述全局耐药报告模块还包括映射单元,所述映射单元用于将全局耐药结果映射到报告检出物种,所述报告检出物种通过执行所述物种鉴定模块获得。
在一些具体的实施方式中,所述系统还包括质量评估模块和/或去宿主基因组模块;
其中,所述质量评估模块包括评估单元和过滤单元;
所述评估单元,用于根据测序平均质量分数、质量分数分布以及测序长度中的至少一种评估测序数据的可用性;
所述过滤单元,用于过滤可用数据中的低质量部分;优选地,所述过滤处理用于:对于长读长测序数据,保留长度>500bp且测序质量分数>6的测序数据;对于短读长测序数据,保留长度>50bp、质量分数>20的测序数据;
所述去宿主基因组模块包括比对单元和过滤单元;
其中,所述比对单元用于将所述宏基因组测序序列与宿主基因组序列进行比对;
所述过滤单元用于根据比对结果,剔除能比对到所述宿主基因组的序列,保留不能比对到所述宿主基因组的序列,用于后续的数据分析。
优选地,所述系统先执行质量评估模块,再执行去宿主基因组模块。
优选地,所述系统先执行质量评估模块和去宿主基因组模块,再执行物种鉴定模块、耐药基因鉴定模块和/或耐药突变位点鉴定模块。
优选地,在一些具体的实施方式中,所述分析系统用于鉴定环境微生物或病原微生物,优选地,所述环境微生物为极端微生物,所述病原微生物为心内膜炎病原体;优选地,所述系统接收的宏基因组测序序列获取自第二代测序平台或第三代测序平台,更优选地,所述宏基因组测序序列获取自第三代测序平台。
本发明还涉及前述系统在鉴定环境微生物或病原微生物中的应用,所述环境微生物为极端微生物,所述病原微生物为心内膜炎病原体;优选地,所述系统接收的宏基因组测序序列获取自第二代测序平台或第三代测序平台,更优选地,所述宏基因组测序序列获取自第三代测序平台。
术语定义
本说明书中使用的术语具有以下定义。
术语“第一核酸数据库”是指数据库形式和数据库大小与k-mer算法兼容的核酸数据库。
术语“第二核酸数据库”是指数据库形式和数据库大小与blast算法兼容的核酸数据库。
术语“支持序列”是指物种鉴定或者耐药鉴定过程中,经算法识别或比对后,判定为与参考基因组或耐药数据库参考序列一致的序列,这个序列的集合为某一物种或耐药基因鉴定的总支持序列。
术语“长读长”是指能够产生>500bp序列的测序平台所产生的数据,例如,由Nanopore或Pacbio等测序平台产生的数据。
术语“短读长”是指由能够产生50-300bp序列的测序平台所产生的数据,例如,由Illumina,454或BGI等测序平台产生的数据。
术语“第二代测序平台或第三代测序平台”是指包含但不限于SMRT,Nanopore,Illumina,ION torrent或BGI等测序平台。
技术效果
与现有技术相比,本发明的有益效果为:
1)本发明所述方法和系统基于k-mer算法和blast算法对宏基因组数据进行分析处理,能够降低假阳性,在短时间内快速、准确地获得样本的报告检出物种;进一步,本发明所述方法和系统还能够计算报告检出物种在样本中的相对丰度,获得相对定量信息;更进一步,本发明所述方法和系统还对测序数据的质量进行评估以及去除宿主基因组,能够进一步提高数据分析的准确性、降低数据的处理量,缩短处理时间。
2)本发明所述方法和系统还能够鉴定耐药基因和耐药突变位点,获得样本的全局耐药性,并结合物种鉴定结果,映射到报告检出物种,获得具体的耐药微生物菌株;进一步地,本发明所述方法和系统在鉴定耐药基因时对耐药基因数据准确性的兼容性强,减少耐药基因数据库序列两端的注释不准确的缺陷。
3)本发明所述方法和系统通过算法的选取、流程以及参数的设计可以适用于各类主流测序平台(如SMRT,Nanopore,Illumina,ION torrent或BGI),应用场景更为普遍,并充分发挥各平台的特点和优势。
4)本发明所述方法和系统解决了难培养微生物,例如心内膜炎病原体的检测问题,检测全面,快速,可覆盖细菌、真菌、少见病原菌、单一病原体感染和混合病原体感染等各种类型。同时,本发明所述方法和系统还包括心内膜炎病原体的全局耐药基因位点检测和耐药株的鉴定结果,可以为临床的治疗提供帮助,预防手术后病人再次感染。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购买获得的常规产品。
实施例1基于Nanopore测序平台的心脏赘生物样本的宏基因组检测与数据分析
收集7例临床培养阴性的感染性心内膜炎患者瓣膜置换手术取出的心脏赘生物样本A1~A7,-80℃冰箱进行保存。
所得样本按照以下流程提取核酸:从冰箱取出赘生物样本先在室温放置30分钟,然后使用灭菌剪刀将赘生物样本剪碎,使用天根试剂盒(TIANamp Micro DNA kit)按照说明书进行核酸提取。
提取后的核酸样本按照以下流程进行建库和上机测序,建库方案选取牛津纳米孔公司提供的1D Native barcoding protocol:
1)使用g-TUBE(Covaris)将1.2μg核酸样本在5000转/分钟的条件下打断1分钟,获得片段化的DNA;
2)核酸的末端修复:在45μl片段化的DNA中加入3μl Ultra II End-prep enzymemix(NEB)、7μl Ultra II End-prep reaction buffer(NEB)和5μl nuclease-free water,0.2ml PCR管中进行混匀,20℃反应5分钟过后65℃再反应5分钟;
3)加barcode:每个样本取末端修复后的核酸500ng,各加入2.5μl NativeBarcode和25μl Blunt/TA Ligase Master Mix,混匀后21℃反应30分钟;
4)将上一步加好barcode的所有样本共取700ng,加入20μl Barcode Adapter Mix(BAM)和10μl Quick T4 DNA Ligase,混匀后室温反应10分钟;
5)构建好的文库上机(Nanopore MinION测序仪)进行测序。
7个样本中,样本A1与A2平行建库两次,有2个重复,则7个样本产生9套测序数据。测序数据的分析流程如下:
1)将Nanopore MinION测序产生数据通过开源的basecalling算法Albacore,将电信号转换为碱基信号,得到fastq格式的序列信息。随后根据添加的barcode序列拆分成属于不同样本的序列集合,同时去除接头序列。
2)测序质量鉴定。计算统计数据质量分数(quality score),对于Nanopore的长读长数据,过滤掉长度<500bp、平均测序质量<6的序列。
3)去宿主序列。通过bwa开源算法,将过滤后的序列比对到人类基因组(基因组版本HG38),保留比对失败的序列,进入下一步分析。
4)采用“两步法”对去宿主后序列进行病原体物种鉴定。在第一步中,序列被比对到构建好的包含5591种细菌以及236种真菌的微生物基因组数据库中,基因参考序列来源于NCBI的refGENE数据库。Centrifuge软件在该数据库集合中加以鉴定,并过滤掉支持序列数目≤2,富集比例<0.2%的鉴定病原体。过滤后的结果进入第二步的验证流程。在第二步的验证中,使用的验证数据库为NCBI的NT数据库。用开源算法blastn将需要验证鉴定结果的支持序列在该数据库做比对。对于每个待鉴定物种,随机筛选200条支持序列作为验证集(不足200条的,将全部支持序列作为验证集),如验证集中超过50%的序列都可以比对到目标物种上(满足E value<E-30),则通过验证。经过两次比对后的鉴定结果为最终报告检出物种。计算每个物种支持序列的长度总和,再用病原体基因组大小标准化序列长度和,得到病原体富集程度的参考数值,以该参考值为基准,计算每个鉴定物种在所述样本中的相对丰度比例。
5)耐药基因及耐药位点突变的检测。将去宿主后得到的非宿主序列数据用开源算法blast比对到耐药基因位点数据库CARD中的耐药基因核酸序列信息以及突变位点氨基酸信息,以E value<E-30为比对结果的过滤标准。过滤后的比对结果中,针对每条耐药基因及耐药位点所在基因的鉴定结果,统计测序序列对目标基因的覆盖度,保留覆盖度>30%且覆盖区域不仅仅集中在5’及3’端的结果。对于耐药突变位点的鉴定,除所在基因的比对结果符合过滤标准外,对于每个氨基酸突变位点需要有对应一致的核酸突变位点检出,且与注释信息突变一致的支持序列>2条。整合过滤后的耐药基因及耐药突变位点检出结果,根据数据库注释信息报告全局的耐药结果。再结合上一步物种鉴定信息中对序列所属物种的鉴定信息,如全局耐药基因中>2条序列对应到同一物种,则将该耐药检测结果对应到耐药株上。
数据分析结果:实施例1所述测序数据的基本信息如表1所示,病原体鉴定结果如表2所示,耐药性检测结果如表3所示。
根据表1所示结果可知,对于Nanopore平台产生的数据,测长较长,本数据集中平均长度在1k左右。
根据表2所示结果可知,7个样本均有病原体检出,平行重复数据检出物种一致。检出病原体均是临床证明与感染性心内膜炎高度相关的物种,特别是其中Coxiellaburnetii与Bartonella quintana是两种感染性心内膜炎高度相关的少见病原菌。每套数据的数据量均在100-1000M的数据水平,数据量不大,但仍可经过该方法得到准确的数据检出。
实施例1中A4,A5及A7样本的覆盖度符合耐药检出的需求,实际分析发现A5和A7样本有耐药基因检出,检出结果如表3所示。根据耐药基因检测结果,对应到药物层面,A5的Streptococcus oralis可能对链霉素、大环内酯物抗生素,以及林酰胺具有耐药性,而A7的Streptococcus anginosus可能对四环素、链霉素、大环内酯物抗生素,林酰胺具有耐药性。
表1
表2
表3
实施例2基于Ilumina测序平台的心脏赘生物样本的宏基因组检测与数据分析
以实施例1中的A1~A2为样本,提取基因组核酸并构建文库,采用Illumina HiseqPE150进行测序,所得测序数据通过去除接头和高N比例的序列后,得到fastq格式的序列信息。对各个样本分别进行如下的数据分析:
1)将Ilumina测序产生的fastq格式的数据去除接头和高N比例的序列后进入下一步的质量评估分析。
2)测序质量鉴定。该数据的建库读长为150,过滤掉长度<100bp、平均测序质量<25的序列,该数据前10个碱基GC比例较为异常则切除每条序列的前10个碱基。
3)去宿主序列。通过比对到人类基因组(基因组版本HG38),将比对失败的序列保留,进入下一步分析。比对软件使用bwa开源算法;
4)采用“两步法”对去宿主后序列进行病原体物种鉴定。在第一步中,序列被比对到构建好的包含5591种细菌以及236种真菌的微生物基因组数据库中,基因参考序列来源于NCBI的refGENE数据库。Centrifuge软件在该数据库集合中加以鉴定,并过滤掉支持序列数目≤10,富集比例<0.2%的鉴定病原体。过滤后的结果进入第二步的验证流程。在第二步的验证中,使用的验证数据库为NCBI的NT数据库。用开源算法blastn将需要验证鉴定结果的支持序列在该数据库做比对。对于每个待鉴定物种,随机筛选200条支持序列作为验证集(不足200条的,使用全部支持序列作为验证集),如验证集中超过50%的序列都可以比对到目标物种上(满足E value<E-30),则通过验证。经过两次比对后的鉴定结果为最终报告检出物种。计算每个物种支持序列的长度总和,再用病原体基因组大小标准化序列长度和,得到病原体富集程度的参考数值,以该参考值为基准,计算每个鉴定物种在样本中的相对丰度比例。
5)耐药基因及耐药突变位点的检测。将去宿主后得到的非宿主序列数据用开源算法blast比对到耐药基因位点数据库CARD中的耐药基因核酸序列信息以及突变位点氨基酸信息,以E value<E-30为比对结果的过滤标准。过滤后的比对结果中,针对每条耐药基因及耐药突变位点所在基因的鉴定结果,统计测序序列对目标基因覆盖度,保留覆盖度>30%且覆盖区域不仅仅集中在5’及3’端的结果,且支持的序列数需≥3。对于耐药突变位点的鉴定,除所在基因的比对结果符合过滤标准外,对于每个氨基酸突变位点需要有对应一致的核酸突变位点检出,且与注释信息突变一致的支持序列>5条。整合过滤后的耐药基因及耐药位点检出结果,根据数据库注释信息报告全局的耐药结果。再结合上一步物种鉴定信息中对序列所属物种的鉴定信息,如全局耐药基因中>2条序列对应到同一物种,则将该耐药检测结果对应到耐药株上。
数据分析结果:样本A1和A2的测序数据量分别为55G和54G,将此数据集用于病原体物种鉴定,其结果如表4所示,耐药性检测结果如表5所示。
根据表4所示结果可知,A1和A2两个样本虽然病原体滴度非常低,但由于数据量的优势,对检出病原菌的基因组覆盖度均超过50%,深度为3倍左右。同时,由于较高的基因组覆盖度,两样本均有较好的耐药检出(参见表5、6):由于读长较短,对于同源基因的耐药鉴定分辨率较低(参见表5),但是由于同源基因指示的耐药表型一致,故对耐药预测结果不会造成影响(参见表6)。
表4
表5
表6
耐药药物类型 A1 A2
tetracycline tetM/S/O tetM/S/O
macrolide tetM/S/O tetM/S/O
lincosamide ErmB ErmB,RlmA(II)
streptogramin ErmB ErmB
fluoroquinolone - patB,pmrA
实施例3基于BGI测序平台的后心脏赘生物样本的耐药基因检测
以实施例1中的A1~A2为样本,提取基因组核酸并构建文库,采用BGI测序平台进行测序,将BGI测序产生数据针对各个样本分别进行如下的数据分析:
1)将BGI测序产生的fastq格式的数据去除接头和高N比例的序列后进入下一步的质量评估分析。
2)测序质量鉴定。该数据的建库读长为150,过滤掉长度<100bp、平均测序质量<25的序列。
3)去宿主序列。通过比对到人类基因组(基因组版本HG38),将比对失败的序列保留,进入下一步分析。
4)采用“两步法”对测序序列进行病原体物种鉴定。在第一步中,序列被比对到构建好的包含5591种细菌以及236种真菌的微生物基因组数据库中,基因参考序列来源于NCBI的refGENE数据库。Centrifuge软件在该数据库集合中加以鉴定,并过滤掉支持序列数目≤10,富集比例<0.2%的鉴定病原体。过滤后的结果进入第二步的验证流程。在第二步的验证中,使用的验证数据库为NCBI的NT数据库。用开源算法blastn将需要验证鉴定结果的支持序列在该数据库做比对。对于每个待鉴定物种,随机筛选200条支持序列作为验证集(不足200条的,使用全部支持序列作为验证集),如验证集中超过50%的序列都可以比对到目标物种上(满足E value<E-30),则通过验证。经过两次比对后的鉴定结果为最终报告检出物种。计算每个物种支持序列的长度总和,再用病原体基因组大小标准化序列长度和,得到病原体富集程度的参考数值,以该参考值为基准,计算每个鉴定物种在所有鉴定结果中计算相对丰度比例。两步法的策略用第一步保证了快速的初步检测,而第二步保证了最终报告结果的准确性;
5)耐药基因检测。将去宿主后得到的非宿主序列数据用开源算法blast比对到耐药基因位点数据库CARD中的耐药基因核酸序列信息以及突变位点氨基酸信息,以E value<E-30为比对结果的过滤标准。过滤后的比对结果中,对每条耐药基因及耐药位点所在基因的鉴定结果统计测序序列对目标基因覆盖度,保留覆盖度>30%且覆盖区域不仅仅集中在5’及3’端的结果,且支持的序列数需≥3。对于耐药位点位点鉴定,除所在基因的比对结果符合过滤标准外,对于每个氨基酸突变位点需要有对应一致的核酸突变位点检出,且与注释信息突变一致且的支持序列>5条。报告整合过滤后的耐药基因及耐药位点检出结果,根据数据库注释信息报告全局的耐药结果。再结合上一步物种鉴定信息中对序列所属物种的鉴定信息,如全局耐药基因中>2条序列对应到同一物种,则将该耐药检测结果对应到耐药株上。
数据分析结果:样本A1~A7的测序数据的物种鉴定结果如表7所示,耐药鉴定结果如表8所示;不同平台下,样本A1~A7的耐药鉴定结果如表9所示。
根据表7所示检测结果可知,样本A1~A7在实施例3中所得的物种鉴定结果与实施例1完全一致。
根据表8~9所示结果可知,采用本发明的方法对不同数据集进行耐药基因和位点发现,虽然由于数据量和目的物种覆盖度的影响,耐药结果的检出有不稳定的现象,但不同数据集中相同样本的检出仍然十分一致。
表7
表8
表9
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (26)

1.一种宏基因组数据分析方法,其特征在于,所述方法包括:
A1、将样本的宏基因组测序序列与第一核酸数据库进行比对,基于k-mer算法获得初步物种鉴定结果;
A2、针对所述初步物种鉴定结果中的每个物种,统计支持序列的总数目,如果支持序列的总数目≥预定值,则随机抽取部分支持序列,构成验证序列集,如果支持序列的总数目<预定值,则抽取全部支持序列,构成验证序列集;基于blast算法,在第二核酸数据库中对所述验证序列集中的序列进行物种鉴定,当验证序列集中50%以上序列的鉴定结果与所述初步物种鉴定结果一致,则所述初步物种鉴定结果通过验证,所述初步物种鉴定结果即为样本的报告检出物种;
A3、计算每个报告检出物种的支持序列的长度总和,经所述报告检出物种的基因组大小标准化后,得到所述报告检出物种富集程度的参考值,以所述参考值为基准,计算每个报告检出物种在所述样本中的相对丰度。
2.根据权利要求1所述的宏基因组数据分析方法,其特征在于,所述方法还包括:
B1、基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;
B2、对所述耐药基因的初步鉴定结果进行过滤,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的鉴定结果,即为报告检出耐药基因。
3.根据权利要求2所述的宏基因组数据分析方法,其特征在于,所述方法还包括:
B1’、基于blast算法,将样本的宏基因组测序序列与耐药基因数据库的耐药突变位点氨基酸序列进行比对,获得耐药突变位点的初步鉴定结果;
B2’、对所述耐药突变位点的初步鉴定结果进行过滤,只保留长读长支持序列的数目>2条或短读长支持序列的数目>3的鉴定结果,即为报告检出耐药突变位点。
4.根据权利要求2所述的宏基因组数据分析方法,其特征在于,所述方法还包括:B3、整合所述报告检出耐药基因,获得样本的全局耐药结果。
5.根据权利要求3所述的宏基因组数据分析方法,其特征在于,所述方法还包括:B3、整合所述报告检出耐药基因和所述报告检出耐药突变位点,获得样本的全局耐药结果。
6.根据权利要求4或5所述的宏基因组数据分析方法,其特征在于,所述方法还包括B4、根据所述样本的报告检出物种,将步骤B3所述全局耐药结果映射到报告检出物种。
7.根据权利要求1所述的宏基因组数据分析方法,其特征在于,所述方法还包括在进行物种鉴定前,对所述宏基因组测序序列进行质量评估和去宿主基因组。
8.根据权利要求2所述的宏基因组数据分析方法,其特征在于,所述方法还包括在进行物种鉴定和耐药基因鉴定前,对所述宏基因组测序序列进行质量评估和去宿主基因组。
9.根据权利要求3所述的宏基因组数据分析方法,其特征在于,所述方法还包括在进行物种鉴定、耐药基因鉴定和耐药突变位点鉴定前,对所述宏基因组测序序列进行质量评估和去宿主基因组。
10.根据权利要求7~9任一项所述的宏基因组数据分析方法,其特征在于,所述质量评估包括:根据测序平均质量分数、质量分数分布以及测序长度中的至少一种评估测序数据的可用性,对可用数据中的低质量部分进行过滤处理。
11.根据权利要求10所述的宏基因组数据分析方法,其特征在于,所述过滤处理包括:对于长读长测序数据,保留长度>500 bp且测序质量分数>6的测序数据;对于短读长测序数据保留长度>50bp且质量分数>20的测序数据。
12.根据权利要求7~9任一项所述的宏基因组数据分析方法,其特征在于,所述去宿主基因组包括:将所述宏基因组测序序列与宿主基因组序列进行比对,剔除能比对到所述宿主基因组的序列,保留不能比对到所述宿主基因组的序列,用于后续的数据分析。
13.根据权利要求7~9任一项所述的宏基因组数据分析方法,其特征在于,所述质量评估在所述去宿主基因组之前执行。
14.一种宏基因组数据分析系统,其特征在于,所述系统包括物种鉴定模块,所述物种鉴定模块包括初步鉴定模块和验证模块,其中:
所述初步鉴定模块包括接收单元和比对单元;
所述初步鉴定模块的所述接收单元用于接收从样本中获得的宏基因组测序序列;
所述初步鉴定模块的所述比对单元用于将所述测序序列与第一核酸数据库进行比对,基于k-mer算法获得初步物种鉴定结果;
所述验证模块包括验证序列集单元、物种鉴定单元和验证单元;
其中,所述验证序列集单元用于:针对每个初步的物种鉴定结果,统计支持序列的总数目,如果支持序列的总数目≥预定值,则随机抽取部分支持序列,构成验证序列集,如果支持序列的总数目<预定值,则抽取全部支持序列,构成验证序列集;
所述物种鉴定单元用于在第二核酸数据库中基于blast算法对验证序列集进行物种鉴定;
所述验证单元用于比较初步物种鉴定结果与验证序列集的物种鉴定结果的一致性,如果验证序列集中50%以上序列的鉴定结果与初步物种鉴定结果一致,则判定通过验证,所述初步物种鉴定结果即为报告检出物种;
所述系统还包括相对丰度计算模块,所述相对丰度计算模块包括参考值计算单元和相对丰度计算单元;
其中,所述参考值计算单元,用于计算每个报告检出物种的支持序列的长度总和,并将所述支持序列的长度总和用所述报告检出物种的基因组大小标准化,获得所述报告检出物种富集程度的参考值;
所述相对丰度计算单元,用于以所述参考值为基准,计算每个报告检出物种在所述样本中的相对丰度。
15.根据权利要求14所述的宏基因组数据分析系统,其特征在于,所述系统还包括耐药基因鉴定模块,所述耐药基因鉴定模块包括初步鉴定单元和过滤单元;
其中,所述耐药基因鉴定模块的所述初步鉴定单元,用于基于blast算法将样本的宏基因组测序序列与耐药基因数据库的核酸序列信息进行比对,获得耐药基因的初步鉴定结果;
所述耐药基因鉴定模块的所述过滤单元,用于过滤所述耐药基因的初步鉴定结果,只保留支持序列对所述耐药基因的序列覆盖度>30%且不集中分布于所述耐药基因的3’或5’端的宏基因组测序序列的鉴定结果,即为报告检出耐药基因。
16.根据权利要求15所述的宏基因组数据分析系统,其特征在于,所述系统还包括耐药突变位点鉴定模块,所述耐药突变位点鉴定模块包括初步鉴定单元和过滤单元;
其中,所述耐药突变位点鉴定模块的所述初步鉴定单元,用于基于blast算法将所述样本的宏基因组测序序列与耐药基因数据库的耐药突变位点氨基酸序列进行比对,获得耐药突变位点的初步鉴定结果;
所述耐药突变位点鉴定模块的所述过滤单元,用于过滤所述耐药突变位点的初步鉴定结果,只保留长读长支持序列数目>2条或短读长支持序列>3条的鉴定结果,即为报告检出耐药突变位点。
17.根据权利要求16所述的宏基因组数据分析系统,其特征在于,所述系统还包括全局耐药报告模块,所述全局耐药报告模块包括整合单元,所述整合单元用于整合所述报告检出耐药基因和所述报告检出耐药突变位点,获得样本的全局耐药结果。
18.根据权利要求17所述的宏基因组数据分析系统,其特征在于,所述全局耐药报告模块还包括映射单元,所述映射单元用于将全局耐药结果映射到报告检出物种,所述报告检出物种通过执行所述物种鉴定模块获得。
19.根据权利要求14~18任一项所述的宏基因组数据分析系统,其特征在于,所述系统还包括质量评估模块和去宿主基因组模块;
其中,所述质量评估模块包括评估单元和过滤单元;
所述质量评估模块的所述评估单元,用于根据测序平均质量分数、质量分数分布以及测序长度中的至少一种评估测序数据的可用性;
所述质量评估模块的所述过滤单元,用于过滤可用数据中的低质量部分;
所述去宿主基因组模块包括比对单元和过滤单元;
其中,所述去宿主基因组模块的所述比对单元用于将所述宏基因组测序序列与宿主基因组序列进行比对;
所述去宿主基因组模块的所述过滤单元用于根据比对结果,剔除能比对到所述宿主基因组的序列,保留不能比对到所述宿主基因组的序列,用于后续的数据分析。
20.根据权利要求19所述的宏基因组数据分析系统,其特征在于,所述质量评估模块的所述过滤单元用于:对于长读长测序数据,保留长度>500 bp且测序质量分数>6的测序数据;对于短读长测序数据保留长度>50bp且质量分数>20的测序数据。
21.根据权利要求19所述的宏基因组数据分析系统,其特征在于,所述系统先执行质量评估模块,再执行去宿主基因组模块。
22.根据权利要求14~18任一项所述的宏基因组数据分析系统,其特征在于,所述系统用于鉴定环境微生物。
23.根据权利要求22所述的宏基因组数据分析系统,其特征在于,所述环境微生物为极端微生物。
24.根据权利要求14~18任一项所述的宏基因组数据分析系统,其特征在于,所述系统用于鉴定病原微生物。
25.根据权利要求24所述的宏基因组数据分析系统,其特征在于,所述病原微生物为心内膜炎病原微生物。
26.根据权利要求14~18任一项所述的宏基因组数据分析系统,其特征在于,所述系统接收的宏基因组测序序列获取自第二代测序平台或第三代测序平台。
CN201810355681.1A 2018-04-19 2018-04-19 一种宏基因组数据分析方法及系统 Active CN108334750B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810355681.1A CN108334750B (zh) 2018-04-19 2018-04-19 一种宏基因组数据分析方法及系统
CN201811531578.4A CN109686408B (zh) 2018-04-19 2018-04-19 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810355681.1A CN108334750B (zh) 2018-04-19 2018-04-19 一种宏基因组数据分析方法及系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201811531578.4A Division CN109686408B (zh) 2018-04-19 2018-04-19 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统

Publications (2)

Publication Number Publication Date
CN108334750A CN108334750A (zh) 2018-07-27
CN108334750B true CN108334750B (zh) 2019-02-12

Family

ID=62933385

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810355681.1A Active CN108334750B (zh) 2018-04-19 2018-04-19 一种宏基因组数据分析方法及系统
CN201811531578.4A Active CN109686408B (zh) 2018-04-19 2018-04-19 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201811531578.4A Active CN109686408B (zh) 2018-04-19 2018-04-19 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统

Country Status (1)

Country Link
CN (2) CN108334750B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110875082B (zh) * 2018-09-04 2022-05-31 深圳华大因源医药科技有限公司 一种基于靶向扩增测序的微生物检测方法和装置
CN109295185B (zh) * 2018-09-05 2022-03-22 暨南大学 一种适用于单细胞真核藻类基因组大小的测定方法
CN111009286B (zh) * 2018-10-08 2023-04-28 深圳华大因源医药科技有限公司 对宿主样本进行微生物分析的方法和装置
CN114807398A (zh) * 2018-10-30 2022-07-29 厦门极元科技有限公司 宏基因组中沙门氏菌的鉴定方法及装置、分型方法及装置
CN109903810A (zh) * 2018-12-10 2019-06-18 上海派森诺生物科技股份有限公司 一种宏基因组整合子和移动元件的分析方法
CN110164504B (zh) * 2019-05-27 2021-04-02 复旦大学附属儿科医院 二代测序数据的处理方法、装置及电子设备
CN110349630B (zh) * 2019-06-21 2023-03-14 深圳华大因源医药科技有限公司 血液宏基因组测序数据的分析方法、装置及其应用
CN110777154A (zh) * 2019-07-19 2020-02-11 华大生物科技(武汉)有限公司 用于结核分枝杆菌耐药检测的突变基因、及其检测方法和试剂盒
FR3099181B1 (fr) * 2019-07-23 2022-11-18 Biomerieux Sa Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur.
CN110473594B (zh) * 2019-08-22 2020-05-05 广州微远基因科技有限公司 病原微生物基因组数据库及其建立方法
CN110648720B (zh) * 2019-09-25 2020-06-19 广州微远基因科技有限公司 宏基因组测序质控预测评估方法及模型
CN111276185B (zh) * 2020-02-18 2023-11-03 上海桑格信息技术有限公司 一种基于二代高通量测序的微生物鉴定分析系统及装置
CN113621716A (zh) * 2020-05-08 2021-11-09 深圳华大因源医药科技有限公司 结核分枝杆菌多线耐药基因鉴定的方法和装置
CN111681711B (zh) * 2020-06-28 2021-03-16 江苏先声医学诊断有限公司 一种兼并引物的设计筛选方法
CN111951895B (zh) * 2020-07-09 2023-12-26 苏州协云基因科技有限公司 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
CN111816258B (zh) * 2020-07-20 2023-10-31 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN112530519B (zh) * 2020-12-14 2021-08-24 广东美格基因科技有限公司 一种检测样本中微生物和耐药基因的方法和系统
CN112614544B (zh) * 2020-12-28 2024-05-17 杭州瑞普基因科技有限公司 Kraken2软件输出结果的优化方法及鉴定样本中物种类型的方法
CN112687343A (zh) * 2020-12-31 2021-04-20 杭州柏熠科技有限公司 基于纳米孔测序的广谱病原微生物及耐药分析系统
CN112634983B (zh) * 2021-01-08 2021-07-09 江苏先声医疗器械有限公司 病原物种特异pcr引物优化设计方法
CN113096735B (zh) * 2021-03-01 2023-05-16 重庆医科大学 从离体血清中分析hbv dna整合事件的系统及方法
CN112992277B (zh) * 2021-03-18 2021-10-26 南京先声医学检验实验室有限公司 一种微生物基因组数据库构建方法及其应用
CN113096737B (zh) * 2021-03-26 2023-10-31 北京源生康泰基因科技有限公司 一种用于对病原体类型进行自动分析的方法及系统
CN113160882B (zh) * 2021-05-24 2022-11-15 成都博欣医学检验实验室有限公司 一种基于三代测序的病原微生物宏基因组检测方法
CN113257348A (zh) * 2021-05-26 2021-08-13 南开大学 一种宏转录组测序数据处理方法及系统
CN113470752B (zh) * 2021-06-18 2024-03-12 杭州圣庭医疗科技有限公司 一种基于纳米孔测序仪的细菌测序数据鉴定方法
CN113337591A (zh) * 2021-06-30 2021-09-03 清华大学深圳国际研究生院 一种基于宏转录组学和宏基因组学的环境中抗生素抗性基因的活性定量及宿主鉴定方法
CN113249507B (zh) * 2021-07-05 2021-12-10 湖南赛哲智造科技有限公司 一种病原耐药基因的存在及表达情况的共检测方法
CN113744807B (zh) * 2021-11-03 2022-03-11 微岩医学科技(北京)有限公司 一种基于宏基因组学的病原微生物检测方法及装置
CN114334004B (zh) * 2021-12-04 2024-03-15 江苏先声医学诊断有限公司 一种病原微生物快速比对鉴定方法及其应用
CN114283886A (zh) * 2021-12-22 2022-04-05 博奥生物集团有限公司 一种耐药基因鉴定方法、系统及电子设备
CN114023389B (zh) * 2022-01-05 2022-03-25 成都齐碳科技有限公司 宏基因组数据的分析方法
WO2023131795A1 (en) * 2022-01-07 2023-07-13 Earlham enterprises Ltd Method and apparatus for detecting pathogens
WO2023182929A2 (en) * 2022-03-23 2023-09-28 Agency For Science, Technology And Research Metagenomics for microorganism identification
CN116189919B (zh) * 2023-04-20 2023-07-14 杭州迪安医学检验中心有限公司 一种微生物药敏的计算机分析方法、分析系统及其应用
CN116246705B (zh) * 2023-05-10 2023-07-14 国家食品安全风险评估中心 全基因组测序数据的分析方法和装置
CN117174165B (zh) * 2023-10-25 2024-03-12 清华大学 基于宏基因组的环境耐药组分析方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186716B (zh) * 2011-12-29 2017-02-08 上海生物信息技术研究中心 基于元基因组学的未知病原快速鉴定系统及分析方法
CN103198238B (zh) * 2012-01-06 2017-04-05 深圳华大基因股份有限公司 构建药物反应相关基因标准型别数据库的方法及其应用
CN102758026B (zh) * 2012-06-29 2014-05-07 深圳华大基因科技有限公司 基于HiSeq测序技术检测乙型肝炎病毒分型和耐药基因的方法
CN102899335A (zh) * 2012-09-14 2013-01-30 中国热带农业科学院热带生物技术研究所 一种高通量Small RNA测序获得番木瓜环斑病毒基因组序列的方法
US20140257710A1 (en) * 2013-03-07 2014-09-11 Ofek Eshkolot Research And Development Ltd. Method and system for analyzing the taxonomic composition of a metagenome in a sample
WO2015022639A2 (en) * 2013-08-12 2015-02-19 Basf Se Plants having increased tolerance to herbicides
CN103902852B (zh) * 2014-03-21 2017-03-22 深圳华大基因科技有限公司 基因表达的定量方法及装置
CN105525033A (zh) * 2014-09-29 2016-04-27 天津华大基因科技有限公司 检测血液中微生物的方法及装置
CN105653899B (zh) * 2014-09-30 2018-02-09 深圳华大基因研究院 同时确定多种样本的线粒体基因组序列信息的方法和系统
CN105112569B (zh) * 2015-09-14 2017-11-21 中国医学科学院病原生物学研究所 基于宏基因组学的病毒感染检测及鉴定方法
CN105740650B (zh) * 2016-03-02 2019-04-05 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN105925664A (zh) * 2016-03-30 2016-09-07 广州精科生物技术有限公司 一种确定核酸序列的方法及系统
CN105950707A (zh) * 2016-03-30 2016-09-21 广州精科生物技术有限公司 一种确定核酸序列的方法及系统
CN106021984A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析系统
CN107103205A (zh) * 2017-05-27 2017-08-29 湖北普罗金科技有限公司 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
CN107619854B (zh) * 2017-07-19 2020-05-22 北京安普生化科技有限公司 检测hiv-1耐药突变位点的成套引物及其应用
CN107577919A (zh) * 2017-08-21 2018-01-12 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的宏基因组数据分析方法
CN107475449A (zh) * 2017-09-12 2017-12-15 中国热带农业科学院热带生物技术研究所 一种适用于矮缩病毒科和双生病毒科病毒基因组拼接的转录组测序方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
响叶杨(杨属)叶绿体基因组测序与比较分析;范李强 等;《四川大学学报(自然科学版)》;20180131;第55卷(第1期);165-171 *

Also Published As

Publication number Publication date
CN108334750A (zh) 2018-07-27
CN109686408A (zh) 2019-04-26
CN109686408B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN108334750B (zh) 一种宏基因组数据分析方法及系统
De Coster et al. Towards population-scale long-read sequencing
CN110349630B (zh) 血液宏基因组测序数据的分析方法、装置及其应用
CN111951895B (zh) 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
CN106462670B (zh) 超深度测序中的罕见变体召集
CN109767810B (zh) 高通量测序数据分析方法及装置
JP2019537780A (ja) メタゲノム試料中の病原体の同定と抗生物質の特徴づけ
CN110846411B (zh) 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法
JP2023504529A (ja) がん予測パイプラインにおけるrna発現コールを自動化するためのシステムおよび方法
WO2017127741A1 (en) Methods and systems for high fidelity sequencing
CN109559780A (zh) 一种高通量测序的rna数据处理方法
CN104346539A (zh) 从目标测序面板中寻找变异的方法
CN108796061A (zh) 用于地中海贫血突变型基因检测的引物组、试剂盒、其应用及文库构建方法
US10294518B2 (en) Methods and systems for ultra-sensitive detection of genomic alterations
CN108229103A (zh) 循环肿瘤dna重复序列的处理方法及装置
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN113160882A (zh) 一种基于三代测序的病原微生物宏基因组检测方法
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN108595918A (zh) 循环肿瘤dna重复序列的处理方法及装置
CN110875082A (zh) 一种基于靶向扩增测序的微生物检测方法和装置
CN110914456A (zh) 检测胎儿染色体异常的方法
CN108728515A (zh) 一种使用duplex方法检测ctDNA低频突变的文库构建和测序数据的分析方法
CN105303067B (zh) 用以检测染色体的非整倍性的方法及其非瞬时机器可读介质
CN116312779A (zh) 检测样本污染和识别样本错配的方法和装置
CN105765076A (zh) 一种染色体非整倍性检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant