CN113744806B - 一种基于纳米孔测序仪的真菌测序数据鉴定方法 - Google Patents

一种基于纳米孔测序仪的真菌测序数据鉴定方法 Download PDF

Info

Publication number
CN113744806B
CN113744806B CN202110699262.1A CN202110699262A CN113744806B CN 113744806 B CN113744806 B CN 113744806B CN 202110699262 A CN202110699262 A CN 202110699262A CN 113744806 B CN113744806 B CN 113744806B
Authority
CN
China
Prior art keywords
sequences
sequence
sequencing data
pathogenic fungi
species
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110699262.1A
Other languages
English (en)
Other versions
CN113744806A (zh
Inventor
谷红仓
路平
徐振宇
王云飞
车仙荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Shengting Medical Technology Co ltd
Original Assignee
Hangzhou Shengting Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Shengting Medical Technology Co ltd filed Critical Hangzhou Shengting Medical Technology Co ltd
Priority to CN202110699262.1A priority Critical patent/CN113744806B/zh
Publication of CN113744806A publication Critical patent/CN113744806A/zh
Application granted granted Critical
Publication of CN113744806B publication Critical patent/CN113744806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

本发明公开了一种基于纳米孔测序仪的真菌测序数据鉴定方法,属于分子生物领域,包括如下步骤:先构建病原真菌序列参考库,再通过测序数据样品拆分、数据质控处理、比对分析和物种分类对测序数据进行分析鉴定病原真菌;本发明的鉴定方法具有KB级的测序长度,可有效提升病原真菌物种分辨率从而保证鉴定结果的准确性,且提升病原真菌序列检索速度。

Description

一种基于纳米孔测序仪的真菌测序数据鉴定方法
技术领域
本发明涉及分子生物领域,特别是一种基于纳米孔测序仪的真菌测序数据鉴定方法。
背景技术
被感染后进行治疗的首要条件就是要快速准确的对病因进行鉴定。尽可能的进行早期诊断和早期药物干预能够尽可能的提高生存率。而对病原真菌的快速、准确的检测能够在第一时间进行诊断并给出相应的治疗药物。
目前的病原真菌检测技术分为基于分离培养和镜检的检测技术、定量PCR检测技术和基于高通量宏基因组测序的检测技术。基于分离培养和镜检的检测技术有诸多的不足,如厌氧菌离体后容易死亡;ICU分离菌株抗生素暴露后,低活性状态难以生长;部分菌落生长极其缓慢或快速难以分离;复合感染等问题,基于定量PCR的检测技术检测范围有限,同时特异性和通量低。基于高通量宏基因组测序的检测技术可实现对所有病原真菌无选择性、无偏倚、快速、全面的检测,但同样存在许多的限制。检测样本中的微生物DNA和宿主DNA极易受到干扰。测序结果需要样本完全测序完成后才可进行生信分析进行。
纳米孔测序是一种单分子、实时测序的新一代测序方法,其以单分子DNA(RNA)通过生物纳米孔的电流变化推测碱基组成而进行测序。纳米孔测序测序具有长度长、实时测序、按需测序以及灵活、可扩展等特点。相比细菌和病毒,真菌的序列长的多;在序列比对检索过程中,真菌序列检索需要更多的时间,尤其是待检索真菌序列数量庞大的时候。
市场需要一种能够进一步提升病原真菌序列检索速度的测序数据鉴定方法,本发明解决这样的问题。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种基于纳米孔测序仪的真菌测序数据鉴定方法,本发明的鉴定方法具有KB级的测序长度,可有效提升病原真菌物种分辨率从而保证鉴定结果的准确性,且提升病原真菌序列检索速度。
为了达到上述目的,本发明采用如下技术方案:
一种基于纳米孔测序仪的真菌测序数据鉴定方法,包括如下步骤:
步骤一,构建病原真菌序列参考库:
1-1,利用多个数据库的微生物rRNA序列,构建病原真菌序列参考库,通过自开发python脚本判断序列的来源出处,对重复出现的参考序列进行过滤,形成高可信度的病原真菌序列参考库;
1-2,再将病原真菌的序列根据种属进行分类建库,搜索分流提速;
步骤二:鉴定病原真菌:
通过测序数据样品拆分、数据质控处理、比对分析和物种分类对测序数据进行分析;
2-1,测序数据样品拆分的内容包括:通过Guppy软件将由测序仪产生的fast5格式文件转换成fastq格式,fastq文件中每条序列的前一段序列就是barcode序列,将这段barcode序列与测序仪提供的barcode序列库进行比对,并正确分辨每一条barcode序列对应的样品;
2-2,数据质控处理的具体内容包括:采用NanoFilt软件并根据序列的平均测序数据质量值Q进行质控,若Q值小于7的序列为不合格序列,则被去除;
2-3,比对分析的具体内容为:将质控处理后的序列采用blast、minimap2与病原真菌参考库中的参考序列进行比对,计算reads 的identity和coverage,筛选coverage大于80%、identity 大于85%作为比对质量高的结果;
2-4,物种分类的具体内容包括如下步骤:
步骤a:将序列与病原真菌序列参考库进行比对,选择比对分数最高、coverage大于80%且identity大于85%的记录作为该序列的最佳比对记录ID;
步骤b:根据物种谱系数据库中最佳比对参考序列ID及对应的物种谱系信息,获取物种分类结果。
进一步的,步骤一中的多个数据库包括:18S rRNA、ITS 、SILVA和UNITE。
进一步的,步骤一中的分类建库的具体方法是:将病原真菌序列分为常见病原真菌和非常见病原真菌分别进行建库;序列优先与常见病原真菌数据库进行比对,若无检索结果则继续在非常见病原真菌库进行比对;所述常见病原真菌库包括:念珠菌属、隐球菌属、曲霉菌属、镰刀菌属、球孢子菌属、孢子丝菌属和芽生菌属;所述非常见病原真菌库包括霉菌属、丝孢菌属和酵母菌属。
进一步的,步骤一中对重复出现的参考序列进行过滤的具体步骤为:
步骤a:将来源不同的序列合并成一个综合数据库,并剔除重复序列;
步骤b:筛选有文献支持的序列作为高可信度参考序列。
进一步的,步骤二中,计算identity和coverage的方法为:minimap2比对结果中第13列含有前缀de:f:,该列值加上identity等于1;minimap2比对结果第2列代表序列长度,第3列代表比对其实位置,第4列代表比对终止位置,将第4列与第3列的差值除以第2列等于coverage。
进一步的,步骤二中病原真菌序列参考库为NCBI taxonomy。
进一步的,步骤二中物种分类结果分为界、门、纲、目、科、属、种这7个层次进行物种判定。
采用上述技术方案后,本发明的有益之处在于:
本发明根据真菌参考序列的不同科属种分别建数据库,从而增加病原真菌序列检索的速度;
本发明根据各数据库收集的真菌常见度进行分类建库,搜索分流,从而提高病原真菌鉴定速度来增加病原真菌序列检索的速度;
本发明开发的基于纳米孔测序平台的病原真菌测序数据鉴定方法拥有KB级的测序长度,可有效提升病原真菌物种分辨率从而保证鉴定结果的准确性。
附图说明
图1是本发明的一种实施例的流程图;
图2是根据各数据库收集的真菌常见度进行分类建库和没有根据真菌常见度建库进行运行时间比较实验的结果图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,一种基于纳米孔测序仪的真菌测序数据鉴定方法,包括如下步骤:
步骤一,构建病原真菌序列参考库:
1-1,利用多个数据库的微生物rRNA序列,构建病原真菌序列参考库,通过自开发python脚本判断序列的来源出处,对重复出现的参考序列进行过滤,形成高可信度的病原真菌序列参考库;作为一种优选,多个数据库包括:18S rRNA、ITS 、SILVA和UNITE。这些数据库是目前公开发表的较为全面的数据库,需要说明的是:数据库的选取不受限制,在未来若出现更加全面的数据库也可以进行替换。
对重复出现的参考序列进行过滤的具体步骤为:
步骤a:将来源不同的序列合并成一个综合数据库,并剔除重复序列;
步骤b:筛选有文献支持的序列作为高可信度参考序列。
1-2,再将病原真菌的序列根据种属进行分类建库,搜索分流提速;
分类建库的具体方法是:将病原真菌序列分为常见病原真菌和非常见病原真菌分别进行建库;序列优先与常见病原真菌数据库进行比对,若无检索结果则继续在非常见病原真菌库进行比对;所述常见病原真菌库包括:念珠菌属、隐球菌属、曲霉菌属、镰刀菌属、球孢子菌属、孢子丝菌属和芽生菌属;所述非常见病原真菌库包括霉菌属、丝孢菌属和酵母菌属。
步骤二:鉴定病原真菌:
通过测序数据样品拆分、数据质控处理、比对分析和物种分类对测序数据进行分析;
2-1,测序数据样品拆分的内容包括:通过Guppy软件将由测序仪产生的fast5格式文件转换成fastq格式,fastq文件中每条序列的前一段序列就是barcode序列,将这段barcode序列与测序仪提供的barcode序列库进行比对,并正确分辨每一条barcode序列对应的样品;
2-2,数据质控处理的具体内容包括:采用NanoFilt软件并根据序列的平均测序数据质量值Q进行质控,若Q值小于7的序列为不合格序列,则被去除;
2-3,比对分析的具体内容为:将质控处理后的序列采用blast、minimap2与病原真菌参考库中的参考序列进行比对,计算reads 的identity和coverage,筛选coverage大于80%、identity 大于85%作为比对质量高的结果;
计算identity和coverage的方法为:minimap2比对结果中第13列含有前缀de:f:,该列值加上identity等于1;minimap2比对结果第2列代表序列长度,第3列代表比对其实位置,第4列代表比对终止位置,将第4列与第3列的差值除以第2列等于coverage;需要说明的是:这只是一种优选实施例,只要能计算reads 的identity和coverage的方法都适用于本发明。
2-4,物种分类的具体内容包括如下步骤:
步骤a:将序列与病原真菌序列参考库进行比对,选择比对分数最高、coverage大于80%且identity大于85%的记录作为该序列的最佳比对记录ID;作为一种优选,病原真菌序列参考库为NCBI taxonomy。
步骤b:根据物种谱系数据库中最佳比对参考序列ID及对应的物种谱系信息,获取物种分类结果。作为一种优选,物种分类结果分为界、门、纲、目、科、属、种这7个层次进行物种判定。
为了验证本发明的有益效果,做如下验证实验:
实验一:如下表1中的统计结果所示,本发明至今完成的573份所有病原真菌样本中,534(93.19%)份样本鉴定到了物种水平。
表 1 病原真菌鉴定水平结果统计总览
实验二:为了检验本发明的鉴定物种准确度,我们通过试验培养和一代测序进行了对比验证,结果如表2所示,15个验证结果中有13个结果与一代测序结果相同,正确率高达86.7%:
表2 病原真菌鉴定结果准确度验证
图注:√为本发明测序结果与一代测序技术验证结果完全一致。×为本发明测序结果与一代测序技术验证结果不同。
实验三:采用同样的10个样本分别根据各数据库收集的真菌常见度进行分类建库和没有根据真菌常见度建库进行运行时间比较实验,其他鉴定方法步骤一样,未分库的只是缺少步骤1-2;实验结果见图2:
如图2所示,真菌分类建库相比未分类建库流程运行速度有明显的提升。在10个样品中平均运行时间由33分钟缩短到了22分钟。
除上述优选实施例外,本发明还有其他的实施方式,本领域技术人员可以根据本发明作出各种改变和变形,只要不脱离本发明的精神,均应属于本发明权利要求书中所定义的范围。

Claims (7)

1.一种基于纳米孔测序仪的真菌测序数据鉴定方法,其特征在于,包括如下步骤:
步骤一,构建病原真菌序列参考库:
1-1,利用多个数据库的微生物rRNA序列,构建病原真菌序列参考库,通过自开发python脚本判断序列的来源出处,对重复出现的参考序列进行过滤,形成高可信度的病原真菌序列参考库;
1-2,再将病原真菌的序列根据种属进行分类建库,搜索分流提速;
步骤二:鉴定病原真菌:
通过测序数据样品拆分、数据质控处理、比对分析和物种分类对测序数据进行分析;
2-1,所述测序数据样品拆分的内容包括:通过Guppy软件将由测序仪产生的fast5格式文件转换成fastq格式,fastq文件中每条序列的前一段序列就是barcode序列,将这段barcode序列与测序仪提供的barcode序列库进行比对,并正确分辨每一条barcode序列对应的样品;
2-2,所述数据质控处理的具体内容包括:采用NanoFilt软件并根据序列的平均测序数据质量值Q进行质控,若Q值小于7的序列为不合格序列,则被去除;
2-3,所述比对分析的具体内容为:将质控处理后的序列采用blast、minimap2与病原真菌参考库中的参考序列进行比对,计算reads 的identity和coverage,筛选coverage大于80%、identity 大于85%作为比对质量高的结果;
2-4,所述物种分类的具体内容包括如下步骤:
步骤a:将序列与病原真菌序列参考库进行比对,选择比对分数最高、coverage大于80%且identity大于85%的记录作为该序列的最佳比对记录ID;
步骤b: 根据物种谱系数据库中最佳比对参考序列ID及对应的物种谱系信息,获取物种分类结果。
2.根据权利要求1所述的一种基于纳米孔测序仪的真菌测序数据鉴定方法,其特征在于,所述步骤一中的多个数据库包括:18S rRNA、ITS 、SILVA和UNITE。
3.根据权利要求1所述的一种基于纳米孔测序仪的真菌测序数据鉴定方法,其特征在于,所述步骤一中的分类建库的具体方法是:将病原真菌序列分为常见病原真菌和非常见病原真菌分别进行建库;序列优先与常见病原真菌数据库进行比对,若无检索结果则继续在非常见病原真菌库进行比对;所述常见病原真菌库包括:念珠菌属、隐球菌属、曲霉菌属、镰刀菌属、球孢子菌属、孢子丝菌属和芽生菌属;所述非常见病原真菌库包括霉菌属、丝孢菌属和酵母菌属。
4.根据权利要求1所述的一种基于纳米孔测序仪的真菌测序数据鉴定方法,其特征在于,所述步骤一中对重复出现的参考序列进行过滤的具体步骤为:
所述步骤一中对重复出现的参考序列进行过滤的具体步骤为:
步骤a:将来源不同的序列合并成一个综合数据库,并剔除重复序列;
步骤b:筛选有文献支持的序列作为高可信度参考序列。
5.根据权利要求1所述的一种基于纳米孔测序仪的真菌测序数据鉴定方法,其特征在于,所述步骤二中,计算identity和coverage的方法为:minimap2比对结果中第13列含有前缀de:f:,该列值加上identity等于1;minimap2比对结果第2列代表序列长度,第3列代表比对其实位置,第4列代表比对终止位置,将第4列与第3列的差值除以第2列等于coverage。
6.根据权利要求1所述的一种基于纳米孔测序仪的真菌测序数据鉴定方法,其特征在于,所述步骤二中病原真菌序列参考库为NCBI taxonomy。
7.根据权利要求1所述的一种基于纳米孔测序仪的真菌测序数据鉴定方法,其特征在于,所述步骤二中物种分类结果分为界、门、纲、目、科、属、种这7个层次进行物种判定。
CN202110699262.1A 2021-06-23 2021-06-23 一种基于纳米孔测序仪的真菌测序数据鉴定方法 Active CN113744806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110699262.1A CN113744806B (zh) 2021-06-23 2021-06-23 一种基于纳米孔测序仪的真菌测序数据鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110699262.1A CN113744806B (zh) 2021-06-23 2021-06-23 一种基于纳米孔测序仪的真菌测序数据鉴定方法

Publications (2)

Publication Number Publication Date
CN113744806A CN113744806A (zh) 2021-12-03
CN113744806B true CN113744806B (zh) 2024-03-12

Family

ID=78728475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110699262.1A Active CN113744806B (zh) 2021-06-23 2021-06-23 一种基于纳米孔测序仪的真菌测序数据鉴定方法

Country Status (1)

Country Link
CN (1) CN113744806B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881634B (zh) * 2023-09-06 2023-12-26 北京齐碳科技有限公司 用于清洗纳米孔信号数据的方法、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6872523B1 (en) * 2000-05-30 2005-03-29 The Board Of Regents Of The University Of Nebraska Materials and methods for molecular detection of clinically relevant pathogenic fungal species
CN104919466A (zh) * 2012-10-15 2015-09-16 丹麦技术大学 数据库驱动的原始测序数据的初步分析
CN108513589A (zh) * 2015-07-22 2018-09-07 阿瑞斯遗传股份有限公司 用于预测假单胞菌属物种对抗微生物剂的抗性的基因测试
CN111662958A (zh) * 2020-02-18 2020-09-15 武汉臻熙医学检验实验室有限公司 基于纳米孔测序平台的文库的构建方法、鉴定微生物的方法及应用
CN111951895A (zh) * 2020-07-09 2020-11-17 苏州协云基因科技有限公司 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
CN112967753A (zh) * 2021-02-25 2021-06-15 美格医学检验所(广州)有限公司 一种基于纳米孔测序的病原微生物检测系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6872523B1 (en) * 2000-05-30 2005-03-29 The Board Of Regents Of The University Of Nebraska Materials and methods for molecular detection of clinically relevant pathogenic fungal species
CN104919466A (zh) * 2012-10-15 2015-09-16 丹麦技术大学 数据库驱动的原始测序数据的初步分析
CN108513589A (zh) * 2015-07-22 2018-09-07 阿瑞斯遗传股份有限公司 用于预测假单胞菌属物种对抗微生物剂的抗性的基因测试
CN111662958A (zh) * 2020-02-18 2020-09-15 武汉臻熙医学检验实验室有限公司 基于纳米孔测序平台的文库的构建方法、鉴定微生物的方法及应用
CN111951895A (zh) * 2020-07-09 2020-11-17 苏州协云基因科技有限公司 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
CN112967753A (zh) * 2021-02-25 2021-06-15 美格医学检验所(广州)有限公司 一种基于纳米孔测序的病原微生物检测系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ITS基因测序分析对89株病原真菌鉴定的应用评价;李营;屈平华;陈东科;张伟铮;张磊;池艳琳;叶大柠;吴尚为;;临床检验杂志;20151128(第11期);全文 *

Also Published As

Publication number Publication date
CN113744806A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
Dhiman et al. Performance and cost analysis of matrix-assisted laser desorption ionization–time of flight mass spectrometry for routine identification of yeast
CN110349630A (zh) 血液宏基因组测序数据的分析方法、装置及其应用
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
CN109801680B (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
CN111599413B (zh) 一种测序数据的分类单元组分计算方法
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
CN110875082B (zh) 一种基于靶向扩增测序的微生物检测方法和装置
CN112289376A (zh) 一种检测体细胞突变的方法及装置
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
CN113744806B (zh) 一种基于纳米孔测序仪的真菌测序数据鉴定方法
Cuevas-Córdoba et al. A bioinformatics pipeline for Mycobacterium tuberculosis sequencing that cleans contaminant reads from sputum samples
Yang et al. Ultrastrain: an NGS-based ultra sensitive strain typing method for Salmonella enterica
CN115472218A (zh) 一种Olink蛋白质组学数据的分析方法
CN115188411A (zh) 一种基于单分子自适应采样测序的病原微生物和耐药基因的检测方法及系统
CN113470752A (zh) 一种基于纳米孔测序仪的细菌测序数据鉴定方法
CN114822697A (zh) 一种利用宏基因组分析溯源土壤耐药基因污染的方法
JP3936851B2 (ja) クラスタリング結果評価方法及びクラスタリング結果表示方法
Lee et al. Svm classification model of similar bacteria species using negative marker: Based on matrix-assisted laser desorption/ionization time-of-flight mass spectrometry
CN117612747B (zh) 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置
CN114708910B (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
CN114496089B (zh) 一种病原微生物鉴定方法
CN116426696B (zh) 一种基于测序技术的血浆病毒检测分析方法
CN117116351B (zh) 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant