CN111462821B - 病原微生物分析鉴定系统及应用 - Google Patents

病原微生物分析鉴定系统及应用 Download PDF

Info

Publication number
CN111462821B
CN111462821B CN202010281509.3A CN202010281509A CN111462821B CN 111462821 B CN111462821 B CN 111462821B CN 202010281509 A CN202010281509 A CN 202010281509A CN 111462821 B CN111462821 B CN 111462821B
Authority
CN
China
Prior art keywords
sequence
species
comparison
analysis
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010281509.3A
Other languages
English (en)
Other versions
CN111462821A (zh
Inventor
许腾
陈文景
张丽珍
刘足
潘秀莹
曾伟奇
秦璐
李永军
王小锐
苏杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Vision Gene Technology Co ltd
Guangzhou Weiyuan Medical Equipment Co ltd
Guangzhou Weiyuan Medical Laboratory Co ltd
Shenzhen Weiyuan Medical Technology Co ltd
Original Assignee
Guangzhou Vision Gene Technology Co ltd
Guangzhou Weiyuan Medical Laboratory Co ltd
Shenzhen Weiyuan Medical Technology Co ltd
Weiyuan Shenzhen Medical Research Center Co ltd
Guangzhou Weiyuan Medical Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Vision Gene Technology Co ltd, Guangzhou Weiyuan Medical Laboratory Co ltd, Shenzhen Weiyuan Medical Technology Co ltd, Weiyuan Shenzhen Medical Research Center Co ltd, Guangzhou Weiyuan Medical Equipment Co ltd filed Critical Guangzhou Vision Gene Technology Co ltd
Priority to CN202010281509.3A priority Critical patent/CN111462821B/zh
Publication of CN111462821A publication Critical patent/CN111462821A/zh
Application granted granted Critical
Publication of CN111462821B publication Critical patent/CN111462821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明涉及一种病原微生物分析鉴定系统及应用,属于基因检测分析技术领域。该病原微生物分析鉴定系统包括:数据获取模块:用于获取高通量测序得到的基因测序数据;数据过滤模块:用于将依次进行低质量序列过滤、宿主序列过滤;数据比对模块:用于将序列比对至病原微生物基因组数据库中;物种比对模块:用于统计待分析序列;数据分析模块:用于计算共有比对序列集中各序列对比上每一个物种的相似度S和平均相似度值SMSi;物种序列模块:用于计算物种的总比对序列数SNTi;结果输出模块:用于进行生物信息学分析,得到病原微生物分析鉴定结果。该病原微生物分析鉴定系统不仅具有分析时间短、准确性高的优点;还可准确得检测混合感染,获得具体病原体信息。

Description

病原微生物分析鉴定系统及应用
技术领域
本发明涉及基因检测分析技术领域,特别是涉及一种病原微生物分析鉴定系统及应用。
背景技术
新型冠状病毒最早是由宏转录组测序技术发现并鉴定的,宏转录组的生物信息学分析是其中极其关键的一个步骤,生物信息学分析性能的优劣决定了是否能够准确、快速地分析鉴定出新型冠状病毒。
生物信息学分析性能主要由分析时效和分析结果准确性两个方面决定。能够快速、准确鉴定出新型冠状病毒,可以有效帮助医生加快对疑似病例的排查,尽快收治确诊患者,对疫情的控制起着很大的作用。
新型冠状病毒的爆发期也正好是流感的爆发期,两者均可导致肺炎,CT影像相似,临床医生难以鉴别。而对新型冠状病毒感染和非新型冠状病毒感染的鉴别诊断是防止交叉感染和疫情扩散的关键措施,还能有效帮助医生正确救治病患。此外新型冠状病毒感染患者,特别是重症患者,很容易出现合并细菌或者真菌感染,如果未能及时检测出来,则会加大重症患者的治疗难度,然而普通的PCR试剂盒无法进行合并感染的筛查。
新型冠状病毒是一种新发病原体,发现前没有参考基因组,无法利用公共数据库进行鉴定分析,因此需要更新数据库才能鉴定新型冠状病毒。常规的PCR试剂盒可以较快检测新型冠状病毒,但病毒变异较快,容易导致PCR检测失败,并且目前市面上的PCR试剂盒都无法进行多重检测,也即无法对新型冠状病毒感染和非新型冠状病毒感染导致的肺炎做鉴别检测,更加无法进行混合感染的检测。
另外,目前普通的宏基因组学的分析方法并非针对新型冠状病毒开发,数据库里面甚至不包含新型冠状病毒的基因组,无法对新型冠状病毒进行鉴定。即使添加了新型冠状病毒基因组,普通的分析流程用时也很长,无法快速鉴定,准确性也未知。
发明内容
基于此,有必要针对上述问题,提供一种病原微生物分析鉴定系统及应用,采用该分析鉴定系统应用于新型冠状病毒的检测中,可以快速、准确鉴定新型冠状病毒,同时还可以鉴定非新型冠状病毒感染导致的肺炎的真实病原体,以及还能检测出细菌、真菌等的合并感染,具有其它检测方式无法比拟的优势。
一种病原微生物分析鉴定系统,包括:
数据获取模块:用于获取高通量测序得到的基因测序数据;
数据过滤模块:用于将上述得到的基因测序数据依次进行低质量序列过滤、宿主序列过滤;
数据比对模块:用于将上述过滤后序列比对至病原微生物基因组数据库,得到初步比对结果,再将相似度S高于阈值的序列保留,得待分析序列;所述相似度S通过以下公式计算得到:
S=M/L
其中:M为一条序列正确比对上参考序列的碱基数,L为该序列的总长度;
物种比对模块:用于统计所述待分析序列的物种比对情况,具体为,当一序列唯一对比上一个物种,则定义为该物种唯一比对序列,归为该物种唯一比对序列集SUi;当一序列比对上至少两个物种,则定义该序列为共有比对序列,分别归为至少两个所述物种的共有比对序列集SMi;其中,i∈N,N是正整数,表示某一个具体的物种;
数据分析模块:用于计算所述共有比对序列集中各序列对比上相应物种的相似度S,并计算所述共有比对序列集中各序列比对上各物种的平均相似度值SMSi,比较所述共有比对序列集比对上各物种的平均相似度值SMSi,将该共有比对序列集分配给最大SMSi所在物种,记为SMimax序列集;
所述SMSi通过以下方式计算得到:
Figure GDA0002519954860000021
其中:n为所述共有比对序列集中序列的总数;
物种序列模块:用于计算物种总比对序列数SNTi;所述SNTi通过以下方式计算得到:
SNTi=NSUi+NSMimax
其中:NSUi为该物种唯一比对序列集SUi中序列数,NSMimax为相应的SMimax序列集中序列数;
结果输出模块:用于统计分析上述得到的各物种总比对序列数SNTi,进行生物信息学分析,得到病原微生物分析鉴定结果。
上述病原微生物分析鉴定系统,首先根据相似度对测序所得微生物序列进行比对过滤,得到待分析序列,在面对序列可能唯一比对上物种,或无法唯一比对物种的难题,通过任意多个的共有比对序列集平均相似度值SMSi的计算,得到最有可能归属的物种,从而将该比对上多个物种的多重比对序列分配至该最有可能归属的物种,从而提高分析结果的准确性,降低由于序列归属错误导致的误差。
在其中一个实施例中,所述数据分析模块中,对于任意个共有比对序列集SMi,根据共有序列组成的共有比对序列集SMi计算平均相似度值SMSi,将这些序列分配给最大SMSi所在物种,直到取尽所有共有比对的序列。例如,对于物种A,可能跟物种B共有100条序列,也同时跟C共有100条序列,甚至可能同时跟B、C、D、E共有100条序列(这100条同时比对上五个物种),则需取尽所有这些可能存在的情况。
在其中一个实施例中,当至少两个物种具有相同且最大的SMSi,则将该共有比对序列集随机分配给所述至少两个相同的物种中的一个。即当一序列集无论归于物种A或物种B,所得SMSi相等,且最大,则可将该序列集随机分配至物种A或物种B。
在其中一个实施例中,所述病原微生物基因组数据库通过以下方法建立:
基因组收集:收集病原微生物的代表基因组和人类参考基因组;
基因组数据清洗:过滤长度小于1000bp的真菌和细菌contig,过滤长度小于300bp的病毒contig,过滤低质量碱基比例大于10%的contigs;
物种分类信息注释:对上述基因组过滤得到的序列重新编号命名,根据物种分类号,按照“界门纲目科属种”七级分类规则注释物种分类信息,作为物种注释,即得病原微生物基因组数据库。
可以理解的,上述病原微生物基因组数据库可以根据测序设备或测序质量、待分析目标、流行病学特点的要求进行调整。
具体的,本实施例中低质量碱基的定义为:按照通用规则,基因组序列中A、T、C、G大写字符即为质量高的碱基,若是a、t、c、g小写字符则表示为质量值小于20的碱基,在此定义为低质量碱基,除此之外其他一切字符,如N、K、R等,是模糊碱基,也定义为低质量碱基。
在其中一个实施例中,含多个contigs的基因组按照contigs的长度从长到短进行排序后连接起来,contigs间用m(m>4)个“N”字符进行连接。清洗完成后将所有基因组序列以fasta的格式合并在一起,并使用bwa构建数据库索引文件。所述“N”字符为不会与序列混淆的“ATCG”之外的字符即可。
在其中一个实施例中,所述相似度S的阈值为0.96±0.03。可以理解的,S取值范围为(0,1],具体阈值可根据具体分析条件进行调整,但在本实施例中,该阈值优选0.96±0.03,最优为0.96。
在其中一个实施例中,所述数据过滤模块中,所述低质量序列过滤按照下述方法进行:当一条序列质量值小于Q15的碱基占比大于40%;或者序列N碱基个数大于1;或者序列长度小于35;或者序列复杂度小于30%,则该序列被过滤;
所述宿主序列过滤按照下述方法进行:将上述经低质量序列过滤后的干净测序数据比对到宿主库中,得到过滤宿主后的序列。
可以理解的,上述复杂度的定义为非连续相同碱基数的占比,即如果一条序列里面,连续的相同碱基比例大于70%则被过滤,最后得到干净的测序数据进行后续分析。
在宿主序列过滤步骤中,具体的,可使用bwa软件mem模块将上述干净测序数据比对到宿主库(例如人参考基因组)中得到sam格式的比对结果文件,使用samtools view-f 4命令得到过滤宿主后的序列。
本发明还公开了上述的病原微生物分析鉴定系统在用于制备2019-nCoV诊断试剂和/或设备中的应用。
上述病原微生物分析鉴定系统用于制备2019-nCoV诊断试剂和/或设备,可以快速、准确鉴定新型冠状病毒(2019-nCoV),同时还可以鉴定非新型冠状病毒感染导致肺炎的真实病原体,以及还能检测出细菌、真菌等的合并感染。
本发明还公开了一种病原微生物分析鉴定方法,包括以下步骤:
数据获取:获取高通量测序得到的基因测序数据;
数据过滤:将上述得到的基因测序数据依次进行低质量序列过滤、宿主序列过滤;
数据比对:将上述过滤后序列比对至病原微生物基因组数据库中,得到初步比对结果,再将相似度S高于阈值的序列保留,得待分析序列;所述相似度S通过以下方式计算得到:
S=M/L
其中:M为一条序列正确比对上参考序列的碱基数,L为该序列的总长度;
物种比对:统计所述待分析序列,当一序列唯一对比上一个物种,则定义为该物种唯一比对序列,归为该物种唯一比对序列集SUi;当一序列对比上至少两个物种,则定义为该序列为共有比对序列,归为该物种共有比对序列集SMi;其中,i∈N,N是正整数,表示某一个具体的物种;
数据分析:计算所述共有比对序列集中各序列对比上每一个物种的相似度S,并计算所述共有比对序列集中各序列比对上各物种的平均相似度值SMSi,比较比对上各物种的平均相似度值SMSi,将该共有比对序列集分配给最大SMSi所在物种,记为SMimax序列集;
所述SMSi通过以下方式计算得到:
Figure GDA0002519954860000041
其中:n为所述共有比对序列集中序列的总数;
物种序列:计算物种的总比对序列数SNTi;所述SNTi通过以下方式计算得到:
SNTi=NSUi+NSMimax
其中:NSUi为该物种唯一比对序列集SUi中序列数,NSMimax为SMimax序列集中序列数;
结果输出:统计分析上述得到的各物种总比对序列数SNTi,进行生物信息学分析,即得病原微生物分析鉴定结果。
可以理解的,上述病原微生物分析鉴定方法用于非诊断治疗目的,如科学研究等。
本发明还公开了一种病原微生物分析鉴定装置,包括上述的病原微生物分析鉴定系统。
可以理解的,上述病原微生物分析鉴定装置可以为附带于测试设备上的硬件设备,也可以封装为分析软件等配合检测kit使用。
在其中一个实施例中,所述病原微生物分析鉴定装置为2019-nCoV分析鉴定装置。
与现有技术相比,本发明具有以下有益效果:
本发明的一种病原微生物分析鉴定系统,首先根据相似度对测序所得微生物序列进行比对过滤,得到待分析序列,在面对序列可能唯一比对上物种,或无法唯一比对物种的难题,通过任意多个的共有比对序列集平均相似度值SMSi的计算,得到最有可能归属的物种,从而将该比对上多个物种的多重比对序列分配至该最有可能归属的物种,从而提高分析结果的准确性,降低由于序列归属错误导致的误差。
并且,上述病原微生物分析鉴定系统,不仅具有分析时间短、准确性高的优点。还可准确得检测混合感染,获得具体病原体信息。
当上述分析鉴定系统用于2019-nCoV检测时,所建立的分析方法数据库不仅包含了新型冠状病毒(2019-nCoV),还包含了常见的感染人的病原体,同时建立了一套基于序列特征的物种鉴定的方法,能大幅提升检测准确率。不仅能快速、准确鉴定出新型冠状病毒,并且能够准确检测出其他物种,可以帮助新型冠状病毒疑似患者进行鉴别诊断,同时还可以检测混合感染,帮助医生对症下药,达到精准治疗的目的。
附图说明
图1为实施例1中病原微生物基因组数据库构建流程图;
图2为实施例2中病原微生物分析鉴定流程图;
图3为实施例3中分析用时对比示意图;
图4为实施例3中分析准确率对比示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1
病原微生物基因组数据库的建立,流程如图1所示。
一、基因组收集
收集病原微生物的代表基因组和人类参考基因组。
1、宿主库构建
在NCBI网站下载人类参考基因组(登录号:GCF_000001405.39),命名为IDhost,并使用bwa软件构建索引文件,得到可用的宿主库文件,即为宿主基因组数据库。
2、微生物基因组数据下载
下载NCBI RefSeq genome(https://ftp.ncbi.nlm.nih.gov/genomes/refseq)数据库中分类为“bacteria”、“fungi”、“viral”、“archaea”、“protozoa”的全部基因组。
每一个物种可能有多个基因组序列,对于有多个基因组序列的物种,筛选标记为“reference genome”或“representative genome”的基因组序列作为该物种的参考基因组。例如2019新型冠状病毒在RefSeq数据库种有15个基因组序列(截止至2020.3.20),其中登录号为GCF_009858895.2的基因组序列标记为“reference genome”,因此选择GCF_009858895.2这条基因组序列作为2019新型冠状病毒的代表基因组。
按照上述方法,筛选出所有微生物物种的代表基因组,得到微生物代表基因组序列库。
二、基因组数据清洗
对上述步骤得到的微生物代表基因组序列数据进行清洗,具体为“bacteria”、“fungi”、“protozoa”的基因组过滤长度小于1000bp的contigs,病毒过滤长度小于300bp的contigs,contig在此处的定义为基因组序列文件里面的每一个序列片段。
例如,2019新型冠状病毒基因组序列文件包含1条序列,即1个contig,长度为29903bp,大于300bp,应用长度过滤规则后仍保留。过滤低质量碱基比例大于10%的contig:2019新型冠状病毒的基因组序列碱基不包含除A、T、C、G以外的任何字符,即低质量碱基比例为0%,应用低质量碱基过滤规则后仍保留,2019新型冠状病毒的基因组序列清洗完毕。
对其他所有微生物基因组进行相同的清洗操作,得到清洗后的微生物基因组序列库。含多个contigs的基因组按照contigs的长度从长到短进行排序后连接起来,contigs间用m(m>4)个“N”字符进行连接。
并将全部微生物基因组序列以fasta的格式合并在一起,使用bwa index构建数据库索引文件,最终得到处理完毕的微生物基因组数据库。
三、物种分类信息注释
即物种分类层级信息注释库构建,从NCBI taxonomy(ftp://ftp.ncbi.nih.gov/pub/taxonomy)数据库中下载分类信息文件(taxdump.tar.gz),从信息文件中按照物种分类号(taxid)构建每个物种的分类层级数据库,数据库的字段格式为“taxid;界;门;纲;目;科;属;种”。
如2019新型冠状病毒的分类信息为“2697049;Viruses;;;Nidovirales;Coronaviridae;Betacoronavirus;2019-nCoV”。
最后得到物种分类层级信息注释库。
实施例2
一种病原微生物分析鉴定系统,如图2所示,执行以下程序。
一、数据获取
从2019新型冠状病毒标准品(来源于中检院)中测序得到一份基因测序下机数据,测序参数为单端测序,读长为75bp,用于新型冠状病毒的鉴定分析。
标准品由2019新型冠状病毒假病毒颗粒和人源细胞HeLa细胞按一定浓度混合而成,其中包含的物种信息如下表所示。
表1.标准品包含的微生物
拉丁名 中文名 备注
2019-nCoV 2019新型冠状病毒 目标病原体
Mycoplasma hyorhinis 猪鼻支原体 HeLa细胞培养污染物
Human papillomavirus type 18 人乳头瘤病毒18型 HeLa细胞自带病原体
二、数据过滤
1、低质量序列过滤
原始测序FASTQ文件序列数为20,308,999,过滤质量值小于Q15的碱基的占比大于40%,或N碱基个数大于1,或切除接头后长度小于35,或复杂度小于30%的序列,最后得到19,743,722条干净的序列用于后续分析。
2、宿主序列过滤
使用bwa mem将上述干净序列与实施例1中已构建好的宿主库比对,得到比对结果文件,使用samtools view-f 4处理比对结果文件,过滤比对上宿主的序列,得到非宿主序列1,449,481条。
三、数据比对
使用bwa mem将上述非宿主序列比对到实施例1中已构建好的微生物基因组数据库中,得到比对结果文件,然后过滤比对相似度S小于96%的序列,最后得到31,735条比对上微生物的序列。
所述相似度S通过以下方式计算得到:
S=M/L
其中:M为一条序列正确比对上参考序列的碱基数,L为该序列的总长度。
四、物种比对
对上述比对上微生物的序列进行物种比对序列数统计,其中,2019新型冠状病毒(2019-nCoV)唯一比对上的序列数为3,430,组成唯一比对上2019-nCoV的序列集SU(2019-nCoV),即该序列集的序列数NSU(2019-nCoV)=3,430。
此外,有85条序列同时比对上了2019新型冠状病毒和SARS冠状病毒(SARS-CoV),分别组成共有比对序列集SM(2019-nCoV)和SM(SARS-CoV),即NSM(2019-nCoV)=85,NSM(SARS-CoV)=85。
五、数据分析
统计这些同时比对上两个物种的序列在每个物种的序列相似度S,并分别计算序列集SM(2019-nCoV)和SM(SARS-CoV)的平均相似度,得到SMS(2019-nCoV)=99.91%,SMS(SARS-CoV)=97.65%,因为SMS(2019-nCoV)>SMS(SARS-CoV),所以这85条序列被分配给了2019新型冠状病毒,记为SM(2019-nCoV)max。
六、物种序列
最后2019新型冠状病毒总比对序列通过以下公式计算:
SNT(2019-nCoV)=NSU(2019-nCoV)+SM(2019-nCoV)max
即SNT(2019-nCoV)=3,430+85=3,515。
其他微生物的比对序列数统计方法与上述四至六项相同。
七、检测结果输出
最终微生物的分析鉴定结果如下表所示。
表2.标准品测序微生物分析鉴定结果
Figure GDA0002519954860000071
Figure GDA0002519954860000081
上述分析鉴定结果与该2019新型冠状病毒标准品所标识物种相吻合。
实施例3
在宏基因组测序物种分类鉴定领域,通常使用BLAST软件对比到NCBI核酸序列数据库(Nucleotide database)的方法(以下简称BLAST方法)分析得出的结果被业界称为“金标准”。为了评估本发明方法的分析性能,本发明方法将从分析用时和准确度方面与常规BLAST软件分析方法进行对比,以阐述本发明方法在分析用时和准确率上的优势。
一、数据来源
为了避免未知因素的干扰,本评估采用模拟数据的方法进行。从16种常见病原体的基因组随机抽取出100,000条长度为75的序列生成模拟FASTQ文件。16个病原体包含8种病毒、4种细菌和4种真菌,可全面综合地进行评价,结果更为客观。每个病原体的模拟数据当作一个模拟样本,命名为S1~S16,具体信息如下表所示。
表3. 16种病原体信息
Figure GDA0002519954860000082
二、分析鉴定用时分析
将上述16个病原体的模拟数据分别按照实施例2的方法分析和BLAST方法分析,为确保公正,两种方法的分析均在同一服务器上进行,并限制使用相同的CPU核数。
分析用时结果如图3所示,从图3中可以看出,本发明的分析鉴定系统,平均用时为108.3秒,中位值为110.0秒;而BLAST方法平均用时为1664.9秒,中位值为1119.5秒。BLAST方法平均用时是本发明的15倍,差异极显著(p<0.01)。
可以看出在分析用时上,本发明方法极显著优于被称为金标准的BLAST方法。
三、准确率分析
分别统计本发明方法和BLAST方法对上述16个病原体模拟样本的检测序列数和检出准确率。这里的准确率定义为“正确检出序列数/总投入序列数×100%”。
统计结果如图4所示,BLAST方法检出准确率平均值为83.4%,中位值为91.6%;而本发明检出准确率平均值为99.7%,中位值为100%。
即本发明方法检出准确率比BLAST方法平均提升了16.2%,差异极显著(p<0.01)。
实施例4
鉴别检测和混合感染检测。
新型冠状病毒感染导致的肺炎没有特异性,很多病原体都可以导致类似特征的肺炎,进行鉴别检测防控疫情至关重要。此外,感染新型冠状病毒的患者,由于免疫系统受到攻击,很可能出现其他真菌、细菌的合并感染,对新冠患者混合感染的检测可以帮助医生制定相应的用药、治疗方案。
为了评估本发明方法在鉴别检测和混合感染检测的能力,本发明采用模拟数据进行分析。模拟数据如下表所示,共模拟出6例样本,编号为M1~M6,每个物种投入序列数为100,000。
M1模拟新型冠状病毒感染肺炎样本,M2模拟RNA病毒甲型流感H1N1感染肺炎样本,M3模拟DNA病毒感染肺炎样本,M4模拟衣原体感染肺炎样本,M5、M6模拟新冠肺炎混合感染细菌、真菌样本。
表4.模拟感染不同病原体或混合感染样本信息
Figure GDA0002519954860000091
对上述模拟样本分别进行BLAST方法和本发明实施例2的方法进行检测分析,结果如下表所示。
表5.BLAST方法和本发明方法模拟样本检出结果
Figure GDA0002519954860000101
上述结果表示,BLAST方法和本发明方法均能检出投入的病原体,但BLAST方法还检出了其他未投入的病原体,即假阳性结果。其中,投入新型冠状病毒的样本(M1、M5、M6)均多检出了SARS冠状病毒,M6样本多检出了新烟曲霉、费氏曲霉、温变曲霉等。与此同时,本发明方法无一例检出假阳性结果。
即BLAST方法总体真阳性率为62.5%(10/16),这里的真阳性率定义为“检出真阳物种数/总检出物种数×100%”,本发明方法的真阳性率为100%(10/10),显著优于BLAST方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种病原微生物分析鉴定系统,其特征在于,包括:
数据获取模块:用于获取高通量测序得到的基因测序数据;
数据过滤模块:用于将上述得到的基因测序数据依次进行低质量序列过滤、宿主序列过滤;
数据比对模块:用于将上述过滤后序列比对至病原微生物基因组数据库,得到初步比对结果,再将相似度S高于阈值的序列保留,得待分析序列;所述相似度S通过以下公式计算得到:
S=M/L
其中:M为一条序列正确比对上参考序列的碱基数,L为该序列的总长度;
物种比对模块:用于统计所述待分析序列的物种比对情况,具体为,当一序列唯一对比上一个物种,则定义为该物种唯一比对序列,归为该物种唯一比对序列集SUi;当一序列比对上至少两个物种,则定义该序列为共有比对序列,分别归为至少两个所述物种的共有比对序列集SMi;其中,i∈N,N是正整数,表示某一个具体的物种;
数据分析模块:用于计算所述共有比对序列集中各序列对比上相应物种的相似度S,并计算所述共有比对序列集中各序列比对上各物种的平均相似度值SMSi,比较所述共有比对序列集比对上各物种的平均相似度值SMSi,将该共有比对序列集分配给最大SMSi所在物种,记为SMimax序列集;
所述SMSi通过以下方式计算得到:
Figure FDA0003455867520000011
其中:n为所述共有比对序列集中序列的总数;
物种序列模块:用于计算物种总比对序列数SNTi;所述SNTi通过以下方式计算得到:
SNTi=NSUi+NSMimax
其中:NSUi为该物种唯一比对序列集SUi中序列数,NSMimax为相应的SMimax序列集中序列数;
结果输出模块:用于统计分析上述得到的各物种总比对序列数SNTi,进行生物信息学分析,得到病原微生物分析鉴定结果。
2.根据权利要求1所述的病原微生物分析鉴定系统,其特征在于,所述数据分析模块中,对于任意个共有比对序列集SMi,根据共有序列组成的共有比对序列集SMi计算平均相似度值SMSi,将这些序列分配给最大SMSi所在物种,直到取尽所有共有比对的序列。
3.根据权利要求2所述的病原微生物分析鉴定系统,其特征在于,当至少两个物种具有相同且最大的SMSi,则将该共有比对序列集随机分配给至少两个相同的物种中的一个。
4.根据权利要求1所述的病原微生物分析鉴定系统,其特征在于,所述病原微生物基因组数据库通过以下方法建立:
基因组收集:收集病原微生物的代表基因组和人类参考基因组;
基因组数据清洗:过滤长度小于1000bp的真菌和细菌contig,过滤长度小于300bp的病毒contig,过滤低质量碱基比例大于10%的contigs;
物种分类信息注释:对上述基因组过滤得到的序列重新编号命名,根据物种分类号,按照“界门纲目科属种”七级分类规则注释物种分类信息,作为物种注释,即得病原微生物基因组数据库。
5.根据权利要求1所述的病原微生物分析鉴定系统,其特征在于,所述相似度S的阈值为0.96±0.03。
6.根据权利要求1所述的病原微生物分析鉴定系统,其特征在于,所述数据过滤模块中,所述低质量序列过滤按照下述方法进行:当一条序列质量值小于Q15的碱基占比大于40%;或者序列N碱基个数大于1;或者序列长度小于35;或者序列复杂度小于30%,则该序列被过滤;
所述宿主序列过滤按照下述方法进行:将上述经低质量序列过滤后的干净测序数据比对到宿主库中,得到过滤宿主后的序列。
7.根据权利要求1-6任一项所述的病原微生物分析鉴定系统在用于制备2019-nCoV诊断试剂和/或设备中的应用。
8.一种病原微生物分析鉴定方法,其特征在于,包括以下步骤:
数据获取:获取高通量测序得到的基因测序数据;
数据过滤:将上述得到的基因测序数据依次进行低质量序列过滤、宿主序列过滤;
数据比对:将上述过滤后序列比对至病原微生物基因组数据库,得到初步比对结果,再将相似度S高于阈值的序列保留,得待分析序列;所述相似度S通过以下公式计算得到:
S=M/L
其中:M为一条序列正确比对上参考序列的碱基数,L为该序列的总长度;
物种比对:统计所述待分析序列的物种比对情况,具体为,当一序列唯一对比上一个物种,则定义为该物种唯一比对序列,归为该物种唯一比对序列集SUi;当一序列对比上至少两个物种,则定义该序列为共有比对序列,分别归为至少两个所述物种的共有比对序列集SMi;其中,i∈N,N是正整数,表示某一个具体的物种;
数据分析:计算所述共有比对序列集中各序列对比上相应物种的相似度S,并计算所述共有比对序列集中各序列比对上各物种的平均相似度值SMSi,比较所述共有比对序列集比对上各物种的平均相似度值SMSi,将该共有比对序列集分配给最大SMSi所在物种,记为SMimax序列集;
所述SMSi通过以下方式计算得到:
Figure FDA0003455867520000031
其中:n为所述共有比对序列集中序列的总数;
物种序列:计算物种的总比对序列数SNTi;所述SNTi通过以下方式计算得到:
SNTi=NSUi+NSMimax
其中:NSUi为该物种唯一比对序列集SUi中序列数,NSMimax为相应的SMimax序列集中序列数;
结果输出:统计分析上述得到的各物种总比对序列数SNTi,进行生物信息学分析,即得病原微生物分析鉴定结果。
9.一种病原微生物分析鉴定装置,其特征在于,包括权利要求1-6任一项所述的病原微生物分析鉴定系统。
10.根据权利要求9所述的病原微生物分析鉴定装置,其特征在于,所述病原微生物分析鉴定装置为2019-nCoV分析鉴定装置。
CN202010281509.3A 2020-04-10 2020-04-10 病原微生物分析鉴定系统及应用 Active CN111462821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010281509.3A CN111462821B (zh) 2020-04-10 2020-04-10 病原微生物分析鉴定系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010281509.3A CN111462821B (zh) 2020-04-10 2020-04-10 病原微生物分析鉴定系统及应用

Publications (2)

Publication Number Publication Date
CN111462821A CN111462821A (zh) 2020-07-28
CN111462821B true CN111462821B (zh) 2022-02-22

Family

ID=71681730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010281509.3A Active CN111462821B (zh) 2020-04-10 2020-04-10 病原微生物分析鉴定系统及应用

Country Status (1)

Country Link
CN (1) CN111462821B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185584A (zh) * 2020-10-30 2021-01-05 柳长庆 基于现金微生物溯源分析的公共卫生安全金融预警系统
CN112967753B (zh) * 2021-02-25 2022-04-22 美格医学检验所(广州)有限公司 一种基于纳米孔测序的病原微生物检测系统和方法
CN112863599B (zh) * 2021-03-12 2022-10-14 南开大学 一种病毒测序序列的自动化分析方法及系统
CN113035277A (zh) * 2021-03-12 2021-06-25 南开大学 真菌基因组测序数据自动分析方法及系统
CN113327646B (zh) * 2021-06-30 2024-04-23 南京医基云医疗数据研究院有限公司 测序序列的处理方法及装置、存储介质、电子设备
CN113539369B (zh) * 2021-07-14 2022-03-25 江苏先声医学诊断有限公司 一种优化的kraken2算法及其在二代测序中的应用
CN113539378A (zh) * 2021-07-16 2021-10-22 明科生物技术(杭州)有限公司 一种病毒数据库的数据分析方法、系统、设备及存储介质
CN114121167B (zh) * 2021-11-30 2022-07-01 深圳零一生命科技有限责任公司 一种微生物基因数据库的构建方法及系统
CN114334004B (zh) * 2021-12-04 2024-03-15 江苏先声医学诊断有限公司 一种病原微生物快速比对鉴定方法及其应用
CN114944197A (zh) * 2022-05-18 2022-08-26 南开大学 基于测序数据的自动化血清型分析鉴定方法及系统
CN115346608B (zh) * 2022-06-27 2023-05-09 北京吉因加科技有限公司 一种构建病原生物基因组数据库的方法及装置
CN115820402A (zh) * 2022-11-29 2023-03-21 深圳市国赛生物技术有限公司 一种微生物检验的自动化系统和微生物检验的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101748213A (zh) * 2008-12-12 2010-06-23 深圳华大基因研究院 一种环境微生物检测方法和系统
CN103186716A (zh) * 2011-12-29 2013-07-03 上海生物信息技术研究中心 基于元基因组学的未知病原快速鉴定系统及分析方法
CN109416928A (zh) * 2016-06-07 2019-03-01 伊路米纳有限公司 用于进行二级和/或三级处理的生物信息学系统、设备和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020160401A1 (en) * 2001-03-29 2002-10-31 Yasuyuki Nozaki Biochip and method of designing probes
US20150032711A1 (en) * 2013-07-06 2015-01-29 Victor Kunin Methods for identification of organisms, assigning reads to organisms, and identification of genes in metagenomic sequences

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101748213A (zh) * 2008-12-12 2010-06-23 深圳华大基因研究院 一种环境微生物检测方法和系统
CN103186716A (zh) * 2011-12-29 2013-07-03 上海生物信息技术研究中心 基于元基因组学的未知病原快速鉴定系统及分析方法
CN109416928A (zh) * 2016-06-07 2019-03-01 伊路米纳有限公司 用于进行二级和/或三级处理的生物信息学系统、设备和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雉科鸟类肠道微生物的多样性与功能及其对食性的适应;沈佳斌 等;《南京师大学报(自然科学版)》;20160630;第39卷(第2期);第90-95页 *

Also Published As

Publication number Publication date
CN111462821A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111462821B (zh) 病原微生物分析鉴定系统及应用
Maljkovic Berry et al. Next generation sequencing and bioinformatics methodologies for infectious disease research and public health: approaches, applications, and considerations for development of laboratory capacity
van Dorp et al. No evidence for increased transmissibility from recurrent mutations in SARS-CoV-2
Ondov et al. Mash Screen: high-throughput sequence containment estimation for genome discovery
CN112530519B (zh) 一种检测样本中微生物和耐药基因的方法和系统
US10127351B2 (en) Accurate and fast mapping of reads to genome
García-López et al. Fragmentation and coverage variation in viral metagenome assemblies, and their effect in diversity calculations
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
Ames et al. Using populations of human and microbial genomes for organism detection in metagenomes
WO2019223502A1 (zh) 一种基于cfDNA高通量测序检测病原体的方法
CN113160882A (zh) 一种基于三代测序的病原微生物宏基因组检测方法
Acera Mateos et al. PACIFIC: a lightweight deep-learning classifier of SARS-CoV-2 and co-infecting RNA viruses
CN110875082A (zh) 一种基于靶向扩增测序的微生物检测方法和装置
WO2014136106A1 (en) Method and system for analyzing the taxonomic composition of a metagenome in a sample
Tong et al. Peripheral blood microbiome analysis via noninvasive prenatal testing reveals the complexity of circulating microbial cell-free DNA
Ruan et al. Toward accurate diagnosis and surveillance of bacterial infections using enhanced strain-level metagenomic next-generation sequencing of infected body fluids
CN113539369B (zh) 一种优化的kraken2算法及其在二代测序中的应用
Li et al. OASL as a diagnostic marker for influenza infection revealed by integrative bioinformatics analysis with XGBoost
Wyllie et al. M. tuberculosis microvariation is common and is associated with transmission: analysis of three years prospective universal sequencing in England
Uprety et al. The current state of metagenomics in infectious disease
CN114277184B (zh) 一种人冠状病毒HCoV-HKU1的MNP标记组合、引物对组合、试剂盒及其应用
Sun et al. Eliminate false positives in metagenomic profiling based on type IIB restriction sites
Han et al. Inferring infection patterns based on a connectivity map of host transcriptional responses
Xie et al. Simultaneous identification of DNA and RNA pathogens using metagenomic sequencing in cases of severe acute respiratory infection
THAKUR et al. Metagenomics and Whole Genome Sequencing in Clinical Microbiology: A Narrative Review.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201014

Address after: 510130 No. 301, building G10, South China new material innovation park, self compiled building 3, No. 31, Kefeng Road, Guangzhou high tech Industrial Development Zone, Guangdong Province

Applicant after: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Applicant after: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Applicant after: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Applicant after: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Applicant after: Weiyuan (Shenzhen) Medical Research Center Co.,Ltd.

Address before: 510130 Three South China New Materials Innovation Park G10 Building 303, No. 31 Kefeng Road, Guangzhou High-tech Industrial Development Zone, Guangdong Province

Applicant before: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Applicant before: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Applicant before: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Applicant before: Shenzhen Weiyuan Medical Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230831

Address after: Room 301, G10, South China new material innovation park, building 3, No. 31, Kefeng Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510130

Patentee after: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Patentee after: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Patentee after: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Patentee after: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Address before: Room 301, G10, South China new material innovation park, building 3, No. 31, Kefeng Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510130

Patentee before: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Patentee before: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Patentee before: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Patentee before: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Patentee before: Weiyuan (Shenzhen) Medical Research Center Co.,Ltd.