CN111276185B - 一种基于二代高通量测序的微生物鉴定分析系统及装置 - Google Patents
一种基于二代高通量测序的微生物鉴定分析系统及装置 Download PDFInfo
- Publication number
- CN111276185B CN111276185B CN202010099490.0A CN202010099490A CN111276185B CN 111276185 B CN111276185 B CN 111276185B CN 202010099490 A CN202010099490 A CN 202010099490A CN 111276185 B CN111276185 B CN 111276185B
- Authority
- CN
- China
- Prior art keywords
- analysis
- identification analysis
- sequences
- report
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 95
- 244000005700 microbiome Species 0.000 title claims abstract description 60
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 15
- 241000233866 Fungi Species 0.000 claims abstract description 11
- 241000894007 species Species 0.000 claims description 41
- 238000012163 sequencing technique Methods 0.000 claims description 33
- 238000007726 management method Methods 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 14
- 230000002906 microbiologic effect Effects 0.000 claims description 10
- 230000003321 amplification Effects 0.000 claims description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 230000035772 mutation Effects 0.000 claims description 8
- 150000007523 nucleic acids Chemical class 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000007639 printing Methods 0.000 claims description 5
- 238000012550 audit Methods 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000013508 migration Methods 0.000 claims description 4
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 108020004707 nucleic acids Proteins 0.000 claims description 3
- 102000039446 nucleic acids Human genes 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 241000894006 Bacteria Species 0.000 abstract description 13
- 238000012070 whole genome sequencing analysis Methods 0.000 abstract description 10
- 241000186361 Actinobacteria <class> Species 0.000 abstract description 5
- 230000001580 bacterial effect Effects 0.000 abstract description 4
- 230000004907 flux Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 108091093088 Amplicon Proteins 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000005842 biochemical reaction Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000813 microbial effect Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 239000013642 negative control Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010068051 Chimerism Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 241000204031 Mycoplasma Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013474 audit trail Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- XPPKVPWEQAFLFU-UHFFFAOYSA-J diphosphate(4-) Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 1
- 235000011180 diphosphates Nutrition 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Wood Science & Technology (AREA)
- Bioethics (AREA)
- Zoology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于二代高通量测序的微生物鉴定分析系统及装置,包括:任务管理模块,用于建立任务列表并对任务列表中的鉴定分析任务进行管理,将待鉴定分析数据上传到服务器,通过服务器对待鉴定分析数据进行鉴定分析;报告管理模块,用于根据鉴定分析结果生成鉴定分析报告,并根据用户的审核及批准指令完成鉴定分析报告的审核及批准流程;报表统计模块,用于根据菌种、微生物类型、菌株来源及鉴定分析报告统计共四个维度对鉴定分析报告或鉴定分析样本进行报表统计。本发明可从分子水平进行菌种或菌株鉴定,鉴定结果更准确且通量高;除常规细菌真菌外,还可鉴定霉菌和放线菌;同时可鉴定混合菌或难培养菌;且全基因组测序数据可进行溯源分析。
Description
技术领域
本发明涉及基因组测序技术领域,尤其涉及一种基于二代高通量测序的微生物鉴定分析系统及装置。
背景技术
在生物医药、食品安全、疾病诊断等领域,微生物的准确、快速鉴定具有关键作用。目前,大部分微生物鉴定方法是基于传统形态学、生理生化反应的原理,这些检测方法容易受到菌的培养条件、生长状态的影响,鉴定结果的重复性较差,对一些难培养的菌也无法鉴定。
二代高通量测序技术是在一代测序技术的基础上,以一次可以对几十万到几百万条DNA分子进行序列测定,它对一代测序产生革命性的改变,二代测序平台主要以Roche的454焦磷酸合成测序,illumina的HiSeq边合成边测序,以及ABI的SOLiD连接法测序为代表,二代测序可分为全基因组测序、全外显子测序、扩增子测序、转录组测序宏基因组测序等多种类型。
扩增子测序是一种基于高通量测序技术(NGS,next-generation sequencing)的高靶向性测序方法,通过对样本中16SrRNA/18SrRNA/ITS等保守区域进行基因扩增和测序,对序列数据经过数据拆分、去接头、去重、多序列比对等生信分析处理,从而对微生物进行鉴定。
全基因组测序是对物种中所有基因进行测序,测定其DNA的碱基序列,利用此技术可在全基因组水平上对微生物进行鉴定,并可以通过分析突变位点,根据变异位点构建进化树,进行样本的溯源分析。目前微生物高通量检测方法已应用于临床感染性疾病诊断,且它在药物研发、化妆品、工业、农业、食品检测中也发挥着重要的作用。
现有的微生物高通量检测方法有基于表型、生理生化反应原理的检测技术,许多微生物在代谢过程中会产生胞外酶,这些酶从细胞中释放出来后催化细胞外的反应,不同微生物在代谢类型上表现很大的差异,这些差异性主要表现在对大分子糖类和蛋白质的分解能力以及分解代谢的最终产物的不同。全自动细菌检测系统(VITEK2)是该类方案中具有代表性的检测方法。它以每种细菌的微量生化反应为基础,不同种类的VITEK试卡含有多种生化反应孔,将待检测的纯菌制成符合一定浊度要求的菌悬液并注入试卡内,封口后放入读数器,根据试卡各生化反应孔中的生长变化来测定各生化介质中指示剂的显色,最后与构建的微生物数据库进行比较,从而完成细菌的鉴定。
但此类检测方法,由于检测的原理是基于微生物生理生化特性,导致对霉菌、放线菌无法鉴定,对培养条件要求严格的微生物也无法鉴定;其次,鉴定结果的判定具有主观性,检测结果的重复性差;再者,有些微生物只能鉴定到属水平,无法鉴定到种水平,无法进行大规模的微生物鉴定。
发明内容
针对现有的微生物高通量检测方法,由于检测的原理是基于微生物生理生化特性,导致对霉菌、放线菌无法鉴定,对培养条件要求严格的微生物也无法鉴定;且鉴定结果的判定具有主观性,检测结果的重复性差,无法进行大规模的微生物鉴定的问题,本发明提供如下技术方案:
一种基于二代高通量测序的微生物鉴定分析系统及装置,包括:
任务管理模块,用于获取待鉴定分析数据,建立任务列表并对所述任务列表中的鉴定分析任务进行管理,将待鉴定分析数据上传到服务器,通过所述服务器根据预设生信分析方法对所述待鉴定分析数据进行鉴定分析;
报告管理模块,用于根据所述服务器对所述待鉴定分析数据进行鉴定分析的结果,依照预设报告模板生成鉴定分析报告,并根据用户的审核及批准指令完成对生成的鉴定分析报告进行审核及批准的流程;
报表统计模块,用于根据菌种、微生物类型、菌株来源以及鉴定分析报告统计共四个维度对鉴定分析报告或鉴定分析样本进行报表统计。
进一步地,所述微生物鉴定分析系统还包括首页模块,用于从模块、统计、服务器存储以及消息多个维度进行数据统计和消息提醒。
进一步地,所述基于二代高通量测序的微生物鉴定分析系统及装置还包括用户管理模块和系统设置模块;其中,
所述用户管理模块用于对所述微生物鉴定分析系统中的用户进行管理和分组,并按照分组结果对用户进行权限的配置;
所述系统设置模块,用于从样本信息管理、下机数据路径、报告模板、服务器存储、备份还原以及日志审计多个维度进行系统的管理和配置。
进一步地,所述报告管理模块在生成鉴定分析报告后,还用于根据用户的导出及打印指令对生成的鉴定分析报告进行导出和在线打印操作。
进一步地,所述预设生信分析方法,包括:
步骤一、将测序产生的BCL文件转换为fastq格式,并根据测序文库的index序列对样本数据进行拆分,得到每个样本数据的原始序列;
步骤二、利用fastp生信软件对原始序列进行质量剪切和序列清洗;
步骤三、根据reads的pair-end关系将步骤二的结果通过pear生信软件合并双端reads,然后根据扩增引物信息通过字符匹配进行进一步筛选;
步骤四、针对步骤三的结果通过vsearch生信软件去除重复序列,并统计冗余序列条数,然后通过mafft生信软件对去重后的序列进行多序列比对;
步骤五、利用修改后的deblur去噪工具对步骤四的结果进行序列去噪,然后通过vsearch软件对去噪后的序列去嵌合体;
步骤六、利用blast生信软件,用blastn方法将步骤五的结果与自建的参考数据库进行比对;
步骤七、根据步骤六的比对结果及序列占比,得出物种鉴定结果。
进一步地,所述根据扩增引物信息通过字符匹配进行进一步筛选,包括:
左端引物查找时,从左向右进行查找,存在多对引物时优先查询扩增位点在左侧的引物;右端引物查找同理,匹配方向改为从右向左,且优先查询扩增位点在右侧的引物;允许两个碱基错配:引物的兼并位点不属于错配,错配包含插入、缺失、转换、颠换四种情况;根据匹配情况,挑选双端引物都可以匹配到的序列,并截取匹配引物范围内的序列作为结果,去除掉低于50bp的序列,最终根据左右引物两两配对的原则,得到一组fasta序列。
进一步地,所述参考数据库的构建过程,包括:
步骤一、利用收集整理的环境微生物列表,根据微生物名称,去除重复以及物种相同命名不同的微生物名称;
步骤二、根据物种名单,匹配silva数据库;
步骤三、对步骤二中未匹配上的物种,匹配nt数据库;
步骤四、筛选物种名单中的真菌,匹配unite数据库;
步骤五、对合并数据库的物种分类进行人工检查,将来自不同数据库的同一物种的分类名称进行统一;
步骤六、将筛选silva数据库、nt数据库、unite数据库结果对应的核酸序列进行合并;
步骤七、使用makeblastdb程序构建所述参考数据库。
进一步地,所述根据比对结果及序列占比,得出物种鉴定结果,包括:
当存在阴性对照样本时,进行测序背景污染的扣除:在待检样本中,根据阴性对照中检测出来的物种及其占比分布进行物种信息扣除;
以物种Tax为单位分别进行评估,评估所包含的每条blast结果i所对应的比对相似度blast_ident、比对read长度blast_length、比对read覆盖度query_cov,对ident_coff、length_coff、cov_coff进行标准化处理,得到标准化的比对相似度分数ident、覆盖度分数cov和比对长度分数length;
以blast结果i的readcount数作为权重,得出此物种的置信分数conffidentTax,具体计算过程根据下列公式得出:
identi=(blast_identi/100)ident_coff
lengthi=1-20*(blast_lengthi-length_coff)-1
根据conffident转换成评价等级conffident_score,同时根据由Tax物种下总read数match_reads得到的等级match_score共同参与综合得分的评估,具体计算过程根据下列公式得出:
scoreTax=min(conffidentTax,match_scoreTax)
进一步地,所述预设生信分析方法还包括:
步骤一、将测序产生的BCL文件转换为fastq格式,并根据测序文库的index序列对样本数据进行拆分,得到每个样本数据的原始序列;
步骤二、利用fastp生信软件对原始序列进行质量剪切和序列清洗;
步骤三、对步骤二得到的序列进行组装,得到基因组contig序列;
步骤四、将不同菌株基因组的contig序列进行多序列比对;
步骤五、进行SNPCalling,获取SNP突变位点信息;
步骤六、根据多个菌株之间的变异位点信息构建进化树;
步骤七、根据基因组contig序列,计算各菌株之间的基因组平均核酸一致性,得到菌株之间的相似度矩阵,并对菌株之间的相似度矩阵进行聚类分析,获得菌株的分型和溯源信息。
进一步地,所述系统还包括加密模块和防移植模块;其中,
所述加密模块用于对数据库和程序进行加密,降低其可读性;
所述防移植模块用于在系统初次使用时,检测计算机硬件信息,并生成随机公钥,注册时基于检测到的计算机硬件信息和生成的随机公钥通过加密算法生成私钥,在每次使用系统时检验公钥与私钥的匹配情况。
本发明的技术方案相比于现有技术具有如下有益效果:
1、本发明可以从分子水平进行菌种或菌株鉴定,鉴定结果更准确;
2、本发明的通量高,一次可检测上百个样本;
3、除常规细菌真菌外,本发明还可鉴定霉菌和放线菌;
4、本发明可鉴定混合菌或难培养菌;
5、本发明的全基因组测序数据可进行溯源分析。
附图说明
图1为本发明实施例提供的基于二代高通量测序的微生物鉴定分析系统及装置的操作流程示意图;
图2为本发明实施例提供的基于扩增子测序的微生物鉴定方法流程图;
图3为本发明实施例提供的基于全基因组测序的微生物鉴定和溯源方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种基于二代高通量测序的微生物鉴定分析系统及装置,该基于二代高通量测序的微生物鉴定分析系统及装置包括:
首页模块,系统的仪表盘,用于从模块、统计、服务器存储以及消息多个维度进行数据统计和消息提醒。
任务管理模块,用于获取待鉴定分析数据,建立任务列表并对任务列表中的鉴定分析任务进行管理,可以对任务进行新建、运行、停止、重分析、异常终止等操作,不同任务状态对应不同的操作;将待鉴定分析数据上传到服务器,通过服务器根据预设生信分析方法对待鉴定分析数据进行鉴定分析;
报告管理模块,用于根据服务器对待鉴定分析数据进行鉴定分析的结果,依照预设报告模板生成鉴定分析报告,并根据用户的审核及批准指令完成对生成的鉴定分析报告进行审核及批准的流程;并且还可以根据用户的导出及打印指令对生成的鉴定分析报告进行导出和在线打印操作;
报表统计模块,用于根据菌种、微生物类型、菌株来源以及鉴定分析报告统计共四个维度对鉴定分析报告或鉴定分析样本进行报表统计。
用户管理模块,用于对微生物鉴定分析系统中的用户进行管理和分组,并按照分组结果对用户进行权限的配置;
系统设置模块,用于从样本信息管理、下机数据路径、报告模板、服务器存储、备份还原以及日志审计多个维度进行系统的管理和配置。
通过本实施例的微生物鉴定分析系统进行微生物鉴定分析的操作流程如图1所示,包括新建任务、生信分析、查看结果、报告审核以及报表统计。
其中,上述预设生信分析方法,包括:
一、基于扩增子测序的微生物鉴定方法
该基于扩增子测序的微生物鉴定方法针对下机的原始数据,通过数据拆分、质控、序列比对、去噪、物种数据库比对等分析步骤,最终结合比对结果和序列占比,得出物种鉴定的结果。如图2所示,其步骤详情如下:
步骤一、将测序产生的BCL文件转换为fastq格式,并根据测序文库的index序列对样本数据进行拆分,得到每个样本数据的原始序列;其中,本实施例是通过bcl2fastq生信软件将测序产生的BCL文件转换为fastq格式;
步骤二、利用fastp生信软件对原始序列进行质量剪切和序列清洗;
步骤三、根据reads的pair-end关系将步骤二的结果通过pear生信软件合并双端reads,然后根据扩增引物信息通过字符匹配进行进一步筛选;
具体地,在本实施例中,步骤三具体为根据reads的pair-end关系将上一步结果通过pear生信软件进行merge。去除无法merge的reads后,每个测试样品得到一个fastq序列文件。然后根据扩增引物信息(系统允许多对引物PCR,故有一组左端引物和一组右端引物)通过字符匹配进行进一步筛选,为保证筛选结果的准确性,建立筛选方法如下:1.左端引物查找时,在read从左向右进行查找,存在多对引物时优先查询扩增位点在左侧的引物。右端引物同理,匹配方向改为从右向左,且优先查询扩增位点在右侧的引物;2.允许两个碱基错配:引物的兼并位点不属于错配,错配包含插入、缺失、转换、颠换四种情况;3.根据匹配情况,挑选双端引物都可以匹配到的序列,并截取匹配引物范围内的序列(不包含引物自身)作为结果,去除掉低于50bp的序列。最终根据左右引物两两配对的原则,得到一组fasta序列;
步骤四、针对步骤三的结果通过vsearch生信软件去除重复序列,并统计冗余序列条数,然后通过mafft生信软件对去重后的序列进行多序列比对;
步骤五、利用修改后的deblur去噪工具对步骤四的结果进行序列去噪,然后通过vsearch软件对去噪后的序列去嵌合体;
具体地,在本实施例中,步骤五中对deblur去噪工具的修改为:去除其对输入的限制,修改其调用第三方工具的处理流程和输出文件的处理,只保留核心算法,也即去噪算法,然后利用修改后的deblur软件进行序列去噪,降低由测序仪产生的错误带来的影响。然后使用vsearch软件去嵌合体,消除使用引物进行PCR时的部分扩增错误;
步骤六、利用blast生信软件,用blastn方法将步骤五的结果与自建的参考数据库进行比对;
其中,在本实施例中,参考数据库的构建通过收集整理环境中常见的微生物列表,根据微生物名称与NCBI、Silva、Unite等多个数据库做关联,获取这些微生物的核酸序列,再通过去冗余、人工核对和审核等过程,最终构建微生物数据库。本实施例构建的微生物数据库共收录了五百多个属,近三千个种,十七多万个菌株,其中包括八万五千多株细菌、八万八千多株真菌和六十多株支原体。具体地,本实施例构建数据库的详细步骤如下:
1、利用收集整理的环境微生物列表,根据微生物名称,去除重复以及物种相同命名不同的微生物名称;
2、根据物种名单,匹配silva数据库;
3、对未匹配上的物种,匹配nt数据库;
4、筛选物种名单中的真菌,匹配unite数据库;
5、对合并数据库的物种分类进行人工检查,将来自不同数据库的同一物种的分类名称进行统一;
6、将筛选silva数据库、nt数据库、unite数据库结果对应的核酸序列进行合并;
7、使用makeblastdb程序构建blast比对数据库。
步骤七、根据步骤六的比对结果及序列占比,得出物种鉴定结果。
具体地,在本实施例中,上述步骤七具体包括:
1、当存在阴性对照样本时,进行测序背景污染的扣除:在待检样本中,根据阴性对照中检测出来的物种及其占比分布进行物种信息扣除;
2、以物种Tax为单位分别进行评估,评估所包含的每条blast结果i所对应的比对相似度blast_ident、比对read长度blast_length、比对read覆盖度query_cov,对上述三个指标分别不同的标准化常数,即对ident_coff、length_coff、cov_coff进行标准化处理,得到标准化的比对相似度分数ident、覆盖度分数cov和比对长度分数length;
最后以blast结果i的readcount数作为权重,得出此物种的置信分数conffidentTax,具体计算过程可根据下列公式得出:
identi=(blast_identi/100)ident_coff
lengthi=1-20*(blast_lengthi-length_coff)-1
进一步地,根据conffident转换成评价等级conffident_score,同时根据由Tax物种下总read数match_reads得到的等级match_score共同参与综合得分的评估,具体计算过程可根据下列公式得出:
scoreTax=min(conffidentTax,match_scoreTax)
二、基于全基因组测序的微生物鉴定和溯源方法
该基于全基因组测序的微生物鉴定和溯源方法将微生物全基因组测序的下机数据,进行序列质控、拼接、序列比对、SNPcalling和进化树构建、ANI计算和聚类分析,对菌株进行鉴定、分型和溯源。如图3所示,该基于全基因组测序的微生物鉴定和溯源方法的具体步骤如下:
步骤一、将测序产生的BCL文件转换为fastq格式,并根据测序文库的index序列对样本数据进行拆分,得到每个样本数据的原始序列;
步骤二、利用fastp生信软件对原始序列进行质量剪切和序列清洗,得到优化序列;
步骤三、对步骤二得到的优化序列进行组装,得到基因组contig序列;
步骤四、将不同菌株基因组的contig序列进行多序列比对;
步骤五、进行SNPCalling,获取SNP突变位点信息;
步骤六、根据多个菌株之间的变异位点信息构建进化树;
步骤七、根据基因组contig序列,计算各菌株之间的基因组平均核酸一致性(ANI),得到菌株之间的相似度矩阵,并对菌株之间的相似度矩阵进行聚类分析,获得菌株的分型和溯源信息。
此外,本实施例的系统还包括加密模块和防移植模块;其中,
加密模块用于对数据库和程序进行加密,降低其可读性;通过此手段可以避免人为修改带来的报告结果偏差。
防移植模块用于在系统初次使用时,检测计算机硬件信息,并生成随机公钥,注册时基于检测到的计算机硬件信息和生成的随机公钥通过加密算法生成私钥,在每次使用系统时检验公钥与私钥的匹配情况。
综上,本实施例的基于二代高通量测序的微生物鉴定分析系统及装置采用二代高通量测序技术,对物种进行扩增子或全基因组测序,利用本系统将下机数据路径自动挂载到服务器上,在服务器上进行测序数据的质控、比对等步骤,可以快速完成数据分析,对微生物从分子水平进行菌种鉴定,对于全基因组测序,还可进行样本的溯源分析,找到污染源头。
本实施例的基于二代高通量测序的微生物鉴定分析系统及装置的特异性和灵敏性较高;检测通量大,范围广,除常规的细菌、真菌外,还可检测传统方法无法鉴定的霉菌和放线菌等,也可鉴定混合菌和一些难培养的菌;且对微生物的鉴定可以到种或菌株水平;除此之外,本系统具有电子签名、审计追踪、数据备份、报表统计等多种功能,符合FDR、21CFR11等相关的法规规范。
此外,需要说明的是,本领域技术人员应明白,本实施例可提供为方法、装置、或计算机程序产品。因此,本实施例可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现本实施例流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
而且在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上仅为本发明优选实施例而已,并不用于限制本发明,对于本领域技术人员来说,一旦得知了本发明的基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改,也即凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于二代高通量测序的微生物鉴定分析系统,其特征在于,包括:
任务管理模块,用于获取待鉴定分析数据,建立任务列表并对所述任务列表中的鉴定分析任务进行管理,将待鉴定分析数据上传到服务器,通过所述服务器根据预设生信分析方法对所述待鉴定分析数据进行鉴定分析;
报告管理模块,用于根据所述服务器对所述待鉴定分析数据进行鉴定分析的结果,依照预设报告模板生成鉴定分析报告,并根据用户的审核及批准指令完成对生成的鉴定分析报告进行审核及批准的流程;
报表统计模块,用于根据菌种、微生物类型、菌株来源以及鉴定分析报告统计共四个维度对鉴定分析报告或鉴定分析样本进行报表统计;
所述预设生信分析方法,包括:
步骤一、将测序产生的BCL文件转换为fastq格式,并根据测序文库的index序列对样本数据进行拆分,得到每个样本数据的原始序列;
步骤二、利用fastp生信软件对原始序列进行质量剪切和序列清洗;
步骤三、根据reads的pair-end关系将步骤二的结果通过pear生信软件合并双端reads,然后根据扩增引物信息通过字符匹配进行进一步筛选;
步骤四、针对步骤三的结果通过vsearch生信软件去除重复序列,并统计冗余序列条数,然后通过mafft生信软件对去重后的序列进行多序列比对;
步骤五、利用修改后的deblur去噪工具对步骤四的结果进行序列去噪,然后通过vsearch软件对去噪后的序列去嵌合体;
步骤六、利用blast生信软件,用blastn方法将步骤五的结果与自建的参考数据库进行比对;
步骤七、根据步骤六的比对结果及序列占比,得出物种鉴定结果;
所述预设生信分析方法还包括:
步骤一、将测序产生的BCL文件转换为fastq格式,并根据测序文库的index序列对样本数据进行拆分,得到每个样本数据的原始序列;
步骤二、利用fastp生信软件对原始序列进行质量剪切和序列清洗;
步骤三、对步骤二得到的序列进行组装,得到基因组contig序列;
步骤四、将不同菌株基因组的contig序列进行多序列比对;
步骤五、进行SNPCalling,获取SNP突变位点信息;
步骤六、根据多个菌株之间的变异位点信息构建进化树;
步骤七、根据基因组contig序列,计算各菌株之间的基因组平均核酸一致性,得到菌株之间的相似度矩阵,并对菌株之间的相似度矩阵进行聚类分析,获得菌株的分型和溯源信息。
2.如权利要求1所述的基于二代高通量测序的微生物鉴定分析系统,其特征在于,所述基于二代高通量测序的微生物鉴定分析系统及装置还包括首页模块,用于从模块、统计、服务器存储以及消息多个维度进行数据统计和消息提醒。
3.如权利要求2所述的基于二代高通量测序的微生物鉴定分析系统,其特征在于,所述基于二代高通量测序的微生物鉴定分析系统及装置还包括用户管理模块和系统设置模块;其中,
所述用户管理模块用于对所述微生物鉴定分析系统及装置中的用户进行管理和分组,并按照分组结果对用户进行权限的配置;
所述系统设置模块,用于从样本信息管理、下机数据路径、报告模板、服务器存储、备份还原以及日志审计多个维度进行系统的管理和配置。
4.如权利要求1所述的基于二代高通量测序的微生物鉴定分析系统,其特征在于,所述报告管理模块在生成鉴定分析报告后,还用于根据用户的导出及打印指令对生成的鉴定分析报告进行导出和在线打印操作。
5.如权利要求4所述的基于二代高通量测序的微生物鉴定分析系统,其特征在于,所述根据扩增引物信息通过字符匹配进行进一步筛选,包括:
左端引物查找时,从左向右进行查找,存在多对引物时优先查询扩增位点在左侧的引物;右端引物查找同理,匹配方向改为从右向左,且优先查询扩增位点在右侧的引物;允许两个碱基错配:引物的兼并位点不属于错配,错配包含插入、缺失、转换、颠换四种情况;根据匹配情况,挑选双端引物都可以匹配到的序列,并截取匹配引物范围内的序列作为结果,去除掉低于50bp的序列,最终根据左右引物两两配对的原则,得到一组fasta序列。
6.如权利要求5所述的基于二代高通量测序的微生物鉴定分析系统,其特征在于,所述参考数据库的构建过程,包括:
步骤一、利用收集整理的环境微生物列表,根据微生物名称,去除重复以及物种相同命名不同的微生物名称;
步骤二、根据物种名单,匹配silva数据库;
步骤三、对步骤二中未匹配上的物种,匹配nt数据库;
步骤四、筛选物种名单中的真菌,匹配unite数据库;
步骤五、对合并数据库的物种分类进行人工检查,将来自不同数据库的同一物种的分类名称进行统一;
步骤六、将筛选silva数据库、nt数据库、unite数据库结果对应的核酸序列进行合并;
步骤七、使用makeblastdb程序构建所述参考数据库。
7.如权利要求1-6任一项所述的基于二代高通量测序的微生物鉴定分析设备,其特征在于,所述系统还包括加密模块和防移植模块;其中,
所述加密模块用于对数据库和程序进行加密,降低其可读性;
所述防移植模块用于在系统初次使用时,检测计算机硬件信息,并生成随机公钥,注册时基于检测到的计算机硬件信息和生成的随机公钥通过加密算法生成私钥,在每次使用系统时检验公钥与私钥的匹配情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099490.0A CN111276185B (zh) | 2020-02-18 | 2020-02-18 | 一种基于二代高通量测序的微生物鉴定分析系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099490.0A CN111276185B (zh) | 2020-02-18 | 2020-02-18 | 一种基于二代高通量测序的微生物鉴定分析系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111276185A CN111276185A (zh) | 2020-06-12 |
CN111276185B true CN111276185B (zh) | 2023-11-03 |
Family
ID=71003938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010099490.0A Active CN111276185B (zh) | 2020-02-18 | 2020-02-18 | 一种基于二代高通量测序的微生物鉴定分析系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111276185B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916151B (zh) * | 2020-07-21 | 2023-07-04 | 深圳海关动植物检验检疫技术中心 | 一种苜蓿黄萎病菌的溯源检测方法及应用 |
CN112164424B (zh) * | 2020-08-03 | 2024-04-09 | 南京派森诺基因科技有限公司 | 一种基于无参考基因组的群体进化分析方法 |
CN112037861A (zh) * | 2020-09-15 | 2020-12-04 | 中国科学院微生物研究所 | 微生物信息分析结果处理方法、装置、电子设备及介质 |
CN112331267A (zh) * | 2020-09-25 | 2021-02-05 | 浙江大学 | 一种基于质谱的不动杆菌数据库的构建方法及不动杆菌数据库 |
CN112349350B (zh) * | 2020-11-09 | 2022-07-19 | 山西大学 | 基于一种杜氏藻核心基因组序列进行品系鉴定的方法 |
CN112961768A (zh) * | 2021-02-04 | 2021-06-15 | 海南微氪生物科技股份有限公司 | 一种Leeuwenhoek实时选择性微生物快速检测系统 |
CN112831604B (zh) * | 2021-02-05 | 2022-02-22 | 美格医学检验所(广州)有限公司 | 基于靶向测序的病原微生物检测引物组、试剂盒及方法 |
CN113223618B (zh) * | 2021-05-26 | 2022-09-16 | 予果生物科技(北京)有限公司 | 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统 |
CN113345522B (zh) * | 2021-06-10 | 2023-11-24 | 上海美吉生物医药科技有限公司 | 基于一代测序技术的自动化菌种鉴定方法、系统、终端及介质 |
CN114420212B (zh) * | 2022-01-27 | 2022-10-21 | 上海序祯达生物科技有限公司 | 一种大肠杆菌菌株鉴定方法和系统 |
CN114937472A (zh) * | 2022-03-03 | 2022-08-23 | 上海市食品药品检验研究院 | 一种基于扩增子测序的微生物群落多样性分析方法及其系统 |
CN115148288A (zh) * | 2022-06-29 | 2022-10-04 | 慕恩(广州)生物科技有限公司 | 一种微生物识别的方法、识别装置及相关设备 |
CN115064215B (zh) * | 2022-08-18 | 2023-10-24 | 北京大学人民医院 | 一种通过相似度进行菌株溯源及属性鉴定的方法 |
CN115966259B (zh) * | 2022-12-26 | 2023-10-13 | 南京普恩瑞生物科技有限公司 | 一种基于逻辑回归建模的样本同源性检测校验方法及系统 |
CN115881225B (zh) * | 2022-12-28 | 2024-01-26 | 云舟生物科技(广州)股份有限公司 | 生物信息序列的分析方法、计算机存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106434914A (zh) * | 2016-09-26 | 2017-02-22 | 海南大学 | 一种胡椒脱皮过程中关键微生物功能基因组的检测方法 |
CN109686408A (zh) * | 2018-04-19 | 2019-04-26 | 江苏先声医学诊断有限公司 | 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080228406A1 (en) * | 2007-03-12 | 2008-09-18 | Myconostica Ltd. | System and method for fungal identification |
-
2020
- 2020-02-18 CN CN202010099490.0A patent/CN111276185B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106434914A (zh) * | 2016-09-26 | 2017-02-22 | 海南大学 | 一种胡椒脱皮过程中关键微生物功能基因组的检测方法 |
CN109686408A (zh) * | 2018-04-19 | 2019-04-26 | 江苏先声医学诊断有限公司 | 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
郑小玲 ; 王知坚 ; 李珏 ; 王征南 ; 洪利娅 ; .多种测序技术在药品检测环境微生物鉴定分析中的应用研究.药物分析杂志.2016,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111276185A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111276185B (zh) | 一种基于二代高通量测序的微生物鉴定分析系统及装置 | |
Amir et al. | Deblur rapidly resolves single-nucleotide community sequence patterns | |
Wen et al. | Evaluation of the reproducibility of amplicon sequencing with Illumina MiSeq platform | |
US10127351B2 (en) | Accurate and fast mapping of reads to genome | |
Honisch et al. | Automated comparative sequence analysis by base-specific cleavage and mass spectrometry for nucleic acid-based microbial typing | |
US20230141128A1 (en) | Molecular technology for predicting a phenotypic trait of a bacterium from its genome | |
Liu et al. | cano-wgMLST_BacCompare: a bacterial genome analysis platform for epidemiological investigation and comparative genomic analysis | |
CN112863606B (zh) | 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法 | |
CN115662516A (zh) | 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法 | |
Cuevas-Córdoba et al. | A bioinformatics pipeline for Mycobacterium tuberculosis sequencing that cleans contaminant reads from sputum samples | |
Ghaddar et al. | Denoising sparse microbial signals from single-cell sequencing of mammalian host tissues | |
Griffing et al. | Canonical single nucleotide polymorphisms (SNPs) for high-resolution subtyping of Shiga-toxin producing Escherichia coli (STEC) O157: H7 | |
CN111554349A (zh) | 一种基于高通量测序的物种鉴定系统和方法 | |
CN116497104A (zh) | 一种实验室标准菌株的质量控制评估方法及系统 | |
CN114420213B (zh) | 一种生物信息分析方法及装置、电子设备及存储介质 | |
Alvarez et al. | GTax: improving de novo transcriptome assembly by removing foreign RNA contamination | |
CN117116351B (zh) | 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统 | |
CN116153411B (zh) | 多病原体探针库组合的设计方法及应用 | |
CN117051129B (zh) | 一种微生物检测背景菌阈值设定方法及其应用 | |
Bálint et al. | Purging genomes of contamination eliminates systematic bias from evolutionary analyses of ancestral genomes | |
CN118762752A (zh) | 一种靶向病原微生物测序引物的设计方法和系统 | |
Alvarez et al. | De novo transcriptome assembly and the effect of foreign RNA contamination | |
DeWitte | LOTUS: A Web-Based Computational Tool for the Preliminary Investigation of a Novel MST Method Utilizing a Library of 16s rRNA Bacteroides OTUs | |
Rocha et al. | Simulation of 69 microbial communities indicates sequencing depth and false positives are major drivers of bias in prokaryotic metagenome-assembled genome recovery | |
Jünemann | Quality is a Myth-Assessing and Addressing Errors in Sequencing Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |