CN110517726B - 一种基于高通量测序数据的微生物成分及浓度检测方法 - Google Patents
一种基于高通量测序数据的微生物成分及浓度检测方法 Download PDFInfo
- Publication number
- CN110517726B CN110517726B CN201910637328.7A CN201910637328A CN110517726B CN 110517726 B CN110517726 B CN 110517726B CN 201910637328 A CN201910637328 A CN 201910637328A CN 110517726 B CN110517726 B CN 110517726B
- Authority
- CN
- China
- Prior art keywords
- species
- data
- variable region
- score
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 23
- 244000005700 microbiome Species 0.000 title claims abstract description 22
- 241000894007 species Species 0.000 claims abstract description 195
- 238000012163 sequencing technique Methods 0.000 claims abstract description 57
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 8
- 238000010801 machine learning Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 36
- 238000007481 next generation sequencing Methods 0.000 claims description 14
- 238000004088 simulation Methods 0.000 claims description 11
- 230000000813 microbial effect Effects 0.000 claims description 10
- 230000004071 biological effect Effects 0.000 claims description 7
- 230000003902 lesion Effects 0.000 claims description 7
- 244000052769 pathogen Species 0.000 claims description 6
- 230000001717 pathogenic effect Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 244000052616 bacterial pathogen Species 0.000 abstract description 11
- 238000011160 research Methods 0.000 abstract description 6
- 230000036285 pathological change Effects 0.000 abstract description 2
- 231100000915 pathological change Toxicity 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 108020004465 16S ribosomal RNA Proteins 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 230000001580 bacterial effect Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 241000894006 Bacteria Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 108091093088 Amplicon Proteins 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 210000003578 bacterial chromosome Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 210000003705 ribosome Anatomy 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- JEYCTXHKTXCGPB-UHFFFAOYSA-N Methaqualone Chemical compound CC1=CC=CC=C1N1C(=O)C2=CC=CC=C2N=C1C JEYCTXHKTXCGPB-UHFFFAOYSA-N 0.000 description 1
- 241000588769 Proteus <enterobacteria> Species 0.000 description 1
- 241000589517 Pseudomonas aeruginosa Species 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 241000607142 Salmonella Species 0.000 description 1
- 241000191940 Staphylococcus Species 0.000 description 1
- 241000194017 Streptococcus Species 0.000 description 1
- ZVNYJIZDIRKMBF-UHFFFAOYSA-N Vesnarinone Chemical compound C1=C(OC)C(OC)=CC=C1C(=O)N1CCN(C=2C=C3CCC(=O)NC3=CC=2)CC1 ZVNYJIZDIRKMBF-UHFFFAOYSA-N 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 230000002599 biostatic effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 102000054766 genetic haplotypes Human genes 0.000 description 1
- 244000005702 human microbiome Species 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 108020004418 ribosomal RNA Proteins 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于基因序列数据检测技术领域,公开了一种基于高通量测序数据的微生物成分及浓度检测方法;量化碱基匹配或错配指示度、比对产生的gap与特定可变区指示度信息,建立基于NGS数据的读段‑物种库的隶属关系体系,通过设置隶属分数阈值过滤掉潜在的干扰读段,为准确鉴定与估计样本中物种成分与浓度奠定基础;提取物种的覆盖率、比对的gap得分、可变区得分三个特征,使用机器学习方法进行样本中物种成分的鉴定,提高物种成分鉴定的准确度。本发明基于高通量测序数据,研究病变样本中的微生物成分与浓度,脱离了以微生物培养为核心的传统临床检测手段,实现了速度快、准确率高的临床致病菌检测。
Description
技术领域
本发明属于基因序列数据检测技术领域,尤其涉及一种基于高通量测序数据的微生物成分及浓度检测方法。
背景技术
目前,最接近的现有技术:识别样本中物种成分常用的技术有基于序列间的相似性的计算方法、基于共享系统发育树对序列的划分方法和基于序列伪比对方法。基于序列间相似性方法的核心在于计算样本中测序读段间的相似性或测序读段与物种的参考序列的相似性。早期,基于相似性的方法使用BLAST工具(Basic Local Alignment SearchTool)将测序读段局部比对到参考序列,并计算比对的相似性分数。将测序读段分配到相似性分数最高的物种下,直至测序读段全部分配完毕,物种下有测序读段表明样本中含有该物种。在此期间,很多学者在BLAST的基础上对算法加以改进,但BLAST的计算量较大,所以很多以BLAST为雏形的算法很难适应于参考数据库规模扩大或数据测序深度增大的情形。这些算法很大程度上已经被usearch、uclust[Edgar RC.Search and clustering ordersof magnitude faster than BLAST.Bioinformatics.2010;26:2460–2461.][EdgarRC.UPARSE:highly accurate OTU sequences frommicrobial amplicon reads.NatMethods.2013;10:996–998.]和其他一些基于相似性聚类的算法[Al-Ghalith GA,Montassier E,Ward HN,Knights D.NINJA-OPS:Fast Accurate Marker Gene AlignmentUsing Concatenated Ribosomes.PLoS Comput Biol.2016;12:e1004658.Albanese D,Fontana P,De Filippo C,Cavalieri D,Donati C.MICCA:a complete and accuratesoftware for taxonomic profiling of metagenomic data.Sci Rep.2015;5:9743.MaheF,Rognes T,Quince C,de Vargas C,Dunthorn M.Swarm:robust and fast clusteringmethod for amplicon-based studies.PeerJ.2014;2:e593.Kopylova E,Noe L,TouzetH.SortMeRNA:fast and accurate filtering of ribosomal RNAs inmetatranscriptomic data.Bioinformatics.2012;28:3211–3217.]所取代,它们的速度与准确率也呈现大幅度提升并且大致彼此相当[Al-Ghalith GA,Montassier E,Ward HN,Knights D.NINJA-OPS:Fast Accurate Marker Gene Alignment Using ConcatenatedRibosomes.PLoS Comput Biol.2016;12:e1004658.Kopylova E,Navas-Molina JA,Mercier C,Xu ZZ,Mahe′F,He Y,etal.Open-Source Sequence Clustering MethodsImprove the State Of the Art.mSystems.2016;1]。
基于共享系统发育树的方法通过分析样本,将测序读段准确地放置在系统发育树上,实现物种成分的识别。近年来,使用最大似然估计[Berger SA,Krompass D,StamatakisA.Performance,accuracy,and Web server for evolutionary placement of shortsequence reads under maximum likelihood.Syst Biol.2011;60:291–302]、贝叶斯后验概率[Matsen FA,Kodner RB,Armbrust EV.pplacer:linear time maximum-likelihoodand Bayesian phylogenetic placement of sequences onto a fixed referencetree.BMC Bioinformatics.2010;11:538.]或邻域连接[Price MN,Dehal PS,ArkinAP.FastTree:computing large minimum evolution trees with profiles instead ofadistance matrix.Mol Biol Evol.2009;26:1641–1650.]的系统发育算法相继被开发出来,但它们的物种识别灵敏度较低[Bazinet AL,CummingsMP.A comparative evaluationof sequence classification programs.BMC Bioinformatics.2012;13:92.]而且计算量庞大。
基于序列伪比对的物种成分识别算法有Kallisto[Reppell M,Novembre J,Mchardy A C.Using pseudoalignment and base quality to accurately quantifymicrobial community composition[J].PLoS Computational Biology,2018,14(4)],通过提取测序读段间共享的k-碱基序列[Rosen G,Garbarine E,Caseiro D,Polikar R,Sokhansanj B.Metagenome fragment classification using N-mer frequencyprofiles.Adv Bioinformatics.2008;2008:205969.McHardy AC,Martin HG,Tsirigos A,Hugenholtz P,Rigoutsos I.Accurate phylogenetic classification of variable-length DNA fragments.Nat Methods.2007;4:63–72.Wang Q,Garrity GM,Tiedje JM,ColeJR.Naive Bayesian classifier for rapid assignment ofrRNA sequences intothe new bacterial taxonomy.Appl Environ Microbiol.2007;73:5261–5267.]构建deBruijn图,计算测序读段来自于某个特定物种的可能性,进而判断样本中的物种成分。
对于物种浓度的估计,现有方法均通过统计特定物种下比对到的读段量占样本的比值作为样本中物种的相对浓度估计结果。
综上所述,现有技术存在的缺陷是:
(1)现有技术的检测方法的数据比对过程中存在大量的多比对读段,即一条读段会比对到多条物种序列的现象,该现象往往因测序错误、未知物种的干扰或生物的多样性而产生,对物种的成分识别与浓度估计带来影响。传统的三种研究未采取有效手段对多比对读段作出处理,导致物种成分鉴定结果的假阳性偏高。
(2)现有的检测方法仅使用物种下比对的读段量作为物种成分鉴定与浓度估计的唯一标准,缺乏对比对结果的空间分布形式、比对的错误类型及生物固有的遗传信息等众多方面的考虑,以致浓度估计不够准确。基于序列间的相似性的计算方法对物种识别的灵敏度较低。
(3)现有技术的计算复杂度高且存储量过大,算法的效率过低:基于序列伪比对的物种成分识别算法在构建de Bruijn图过程中会占据巨大的存储空间,基于共享系统发育树的方法在构建系统发育树时时间复杂度过高。
本发明所解决的传统方法中的缺陷:
(1)解决多比对读段问题:从比对形式而言,考虑匹配/错配(Match/MisMatch)、插入/缺失(统记为gap)情况;从测序错误而言,考虑序列比对的质量分数;从物种的生物特性而言,落在物种可变区的读段属于该物种的机率越高。该环节从比对成功的数据中量化碱基匹配或错配指示度、比对产生的gap与读段来自可变区的指示度等信息,建立测序读段到物种库的隶属关系体系,通过过滤掉比对到物种下的低隶属分数的读段来矫正测序读段的比对结果,实现较高准确度的物种浓度估计。
(2)打破仅以比对的读段量作为物种成分鉴定与浓度估计的唯一标准:从数量特征而言,考虑物种下比对的读段量;从空间特征而言,量化物种的位点覆盖与比对结果下产生gap的情况;从物种的生物特性而言,可变区是物种类型鉴定的重要信号,应从矫正结果中量化物种的可变区得分。基于以上各种角度的特征分析,构建物种存在性判别的分类器,从而实现样本中物种成分的识别。
(3)本发明的时间复杂度与空间复杂度较低:本技术的时间复杂度仅取决于物种可变区的提取、高通量测序数据的比对、读段-物种库隶属分数的计算、分类器的分类决策过程;本技术使用的分类器为基于核的支持向量机,空间复杂度仅与支持向量的个数有关。
解决上述技术问题的难度:
(1)物种可变区的提取:使用EMBOSS工具和可变区的引物文件提取物种的可变区序列,可变区的引物序列如下:
编号 | 前向引物序列 | 反向引物序列 | 可变区 |
1 | AGYGGCGNACGGGTGAGTAA | TGCTGCCTCCCGTAGGAGT | V2 |
2 | CCTACGGGAGGCAGCAG | ATTACCGCGGCTGCTGG | V3 |
3 | AYTGGGYDTAAAGNG | TACNVGGGTATCTAATCC | V4 |
4 | AGGATTAGATACCCT | CCGTCAATTCCTTTGAGTTT | V5 |
5 | TCGAtGCAACGCGAAGAA | ACATtTCACaACACGAGCTGACGA | V6 |
6 | GYAACGAGCGCAACCC | GTAGCRCGTGTGTMGCCC | V7 |
7 | ATGGCTGTCGTCAGCT | ACGGGCGGTGTGTAC | V8 |
8 | AGYGGCGNACGGGTGAGTAA | ATTACCGCGGCTGCTGG | V23 |
9 | CCTACGGGRSGCAGCAG | GGGGTATCTAATCCC | V34 |
10 | CCTACGGGAGGCAGCAG | CCGTCAATTCCTTTGAGTTT | V35 |
11 | AYTGGGYDTAAAGNG | CCGTCAATTYYTTTRAGTTT | V45 |
12 | GGATTAGATACCCTGGTAGTC | ACAGCCATGCAGCACCT | V56 |
13 | CAACGCGAAGAACCTTACC | GTAGCRCGTGTGTMGCCC | V67 |
14 | AGGTGCTGCATGGCTGT | GACGGGCGGTGWGTRCA | V78 |
一个可变区提取命令如下:
fuzznuc-sequence fa_file.fa-pattern‘forward_primer’-outfileforward.fuzznuc
fuzznuc-sequence fa_file.fa-pattern‘reverse_primer’-outfilereverse.fuzznuc
(2)基于核的支持向量机分类器的参数设定:
svm.SVC(kernel=’rbf’,C=1.0,random_state=0,gamma=0.2)
解决上述技术问题的意义:
(1)理论意义:本发明脱离传统的基于同源性的鉴定技术,提出衡量各种比对形式与判断物种存在性的全新方法,为解决现存算法中存在的类型鉴定的准确性与浓度检测灵敏度低的问题提供新思路,对微生物组学的基础研究有重要的理论意义。
(2)生物意义:本发明可揭示微生物群落中物种组成与浓度大小,为微生物群落的多样性分析、物种在环境中的依赖关系、种群数量与结构变化的规律、人类微生物组等众多方面研究提供新视角。
(3)应用价值:本技术以精确识别病变样本中致病菌与浓度为出发点,可实现临床治疗中快速、准确的致病菌诊断,避免抗生素滥用带来的病原体扩展和流行,从而使得对感染疾病的有针对性、有效和低毒副作用的精准药物治疗成为可能。
发明内容
针对现有技术存在的问题,本发明提供了一种基于高通量测序数据的微生物成分及浓度检测方法。
本发明是这样实现的,一种基于高通量测序数据的微生物成分及浓度检测方法,所述基于高通量测序数据的微生物成分及浓度检测方法量化碱基匹配或错配指示度、比对产生的gap与特定可变区指示度信息;建立基于NGS数据的读段-物种库的隶属关系体系;通过设置隶属分数阈值过滤掉潜在的干扰读段,为准确鉴定与估计样本中物种成分与浓度奠定基础;提取物种的覆盖率、比对的gap得分、可变区得分三个特征,使用机器学习方法进行样本中物种成分的鉴定。
进一步,所述基于高通量测序数据的微生物成分及浓度检测方法具体包括:
第一步,病原菌数据库选取与NGS数据预处理,对于获取到的NGS测序样本,采用FastQC工具分析数据的质量情况;基于测序读段数据及参考序列,采用BWA进行比对,保留比对成功的读段序列;
第二步,构建读段-物种库的隶属关系体系,从比对成功的数据中量化碱基匹配或错配指示度、比对产生的gap与读段来自可变区的指示度等信息,建立测序读段到物种库的隶属关系体系,通过过滤掉比对到物种下的低隶属分数的读段来矫正测序读段的比对结果;
第三步,过滤后的数据,提取物种下比对结果的位点覆盖率coverage、物种比对的gap分数记作gapscore、物种的可变区得分记作HVRScore,用于构建物种成分判别的分类器。
进一步,所述第二步的物种的参考数据库集合为F={f1,f2,…,fH},测序读段集合为R={r1,r2,…,rN};rj的长度为Lj,rj的碱基序列为rj=(rj[1],rj[2],…,rj[Lj]),rj比对到物种fi后,比对形式记作fi=(fi[1],fi[2],…,fi[Lj]);由碱基的测序质量值与错误率的关系Q=-10*lg(qj[i]),得rj的碱基测序错误率(qj[1],qj[2],…,qj[Lj]);
rj比对到fi产生的gap集合为X=(x1,x2,…,xM),其中,xi为产生gap的宽度,M为gap的数量;若读段中碱基间的测序错误是独立的,则从碱基的匹配形式与测序错误角度而言,rj来源于fk的指示度衡量如下:
使用EMBOSS工具获取物种序列的可变区范围,rj比对到fi的可变区指示度量化为wij:
综合序列的比对形式、测序错误与可变区的指示度,将rj比对到fi的隶属分数定义如下:
将所有的测序数据比对到物种库后就可构建出读段-物种库的隶属关系体系;score(rj,fi)表示读段rj隶属于fi的程度。
进一步,所述第三步的成分鉴定与浓度估计具体包括:
a)从物种的位点覆盖率而言,位点覆盖率越高则该物种存在的可能性越大,定义如下:
b)从空间特征而言,若物种比对后得到的gap集合为G={g1,g2,…,gn},gi表示第i个gap的长度,则物种比对结果下产生gap的得分如下:
c)从物种的生物特性而言,16S共包含9个可变区HVR,可变区下比对到的读段越多,则该物种存在的可能性越大;HVRi表示物种的第i个可变区,令xi为物种比对结果下HVRi产生的gap长度,令yi为物种HVRi的长度,从矫正结果中量化物种的可变区得分如下:
通过构建800×的仿真数据,计算物种库中每个物种的特征向量coverage,gapscore,HVRScore,用作SVM分类器的训练集,实现对病变样本中物种成分的鉴定。
本发明的另一目的在于提供一种应用所述基于高通量测序数据的微生物成分及浓度检测方法的基因序列数据检测系统。
本发明的另一目的在于提供一种应用所述基于高通量测序数据的微生物成分及浓度检测方法的信息数据处理终端。
综上所述,本发明的优点及积极效果为:本发明量化碱基匹配或错配指示度、比对产生的gap与特定可变区指示度信息,建立基于NGS数据的读段-物种库的隶属关系体系,通过设置隶属分数阈值过滤掉潜在的干扰读段,为准确鉴定与估计样本中物种成分与浓度奠定基础;提取物种的覆盖率、比对的gap得分、可变区得分三个特征,使用机器学习方法进行样本中物种成分的鉴定,提高物种成分鉴定的准确度。
本发明能够解决现有技术对病原菌成分检测灵敏度低的问题;能够解决现有技术对病原菌浓度估计偏差过大的问题;能够解决临床检测流程中存在的速度慢的问题。
本发明基于高通量测序数据,研究病变样本中的微生物成分与浓度,脱离了以微生物培养为核心的传统临床检测手段,实现了速度快、准确率高的临床致病菌检测;本发明构建读段-物种库的隶属关系体系,为多比对读段的重分配、传统比对结果的矫正提供新思路,这是目前众多方法中未曾考虑的;本发明构建NGS样本的预处理→构建读段-物种库隶属关系体系→物种成分鉴定与浓度估计的流程,不以物种下比对的读段量作为物种成分鉴定与浓度估计的唯一标准,脱离了传统的基于同源性比对的思想,对比对结果的空间分布形式、比对的错误类型及生物固有的遗传信息等众多方面的考虑,提高了物种成分鉴定与浓度估计的准确率。
附图说明
图1是本发明实施例提供的基于高通量测序数据的微生物成分及浓度检测方法流程图。
图2是本发明实施例提供的基于高通量测序数据的微生物成分及浓度检测方法实现流程图。
图3是本发明实施例提供的读段的多比对形式示意图。
图4是本发明实施例提供的对仿真数据中物种类型的类型与浓度检测结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术的检测方法的数据比对过程中存在大量的多比对读段,即一条读段会比对到多条物种序列的现象,该现象往往因测序错误、未知物种的干扰或生物的多样性而产生,对物种的成分识别与浓度估计带来影响。传统方法未采取有效手段对多比对读段作出处理,导致物种成分鉴定结果的假阳性偏高;现有的检测方法仅使用物种下比对的读段量作为物种成分鉴定与浓度估计的唯一标准,缺乏对比对结果的空间分布形式、比对的错误类型及生物固有的遗传信息等众多方面的考虑,以致浓度估计不够准确。本发明从物种参考序列的层面而言,提取物种的16S rDNA下读段的分布形式、位点覆盖率与可变区得分特征,构建判别物种存在性的分类器,实现样本中物种成分的精准鉴定。从测序读段的层面而言,在比对成功的数据中量化碱基匹配或错配指示度、比对产生的gap与特定可变区指示度等信息,建立测序读段到物种库的隶属关系体系,通过矫正测序读段的比对结果,实现较高准确度的物种浓度估计。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于高通量测序数据的微生物成分及浓度检测方法包括以下步骤:
S101:病原菌数据库选取与NGS数据预处理,对于获取到的NGS测序样本,采用FastQC工具分析数据的质量情况;基于测序读段数据及参考序列,采用BWA进行比对,保留比对成功的读段序列;
S102:构建读段-物种库的隶属关系体系,从比对成功的数据中量化碱基匹配或错配指示度、比对产生的gap与读段来自可变区的指示度等信息,建立测序读段到物种库的隶属关系体系,通过过滤掉比对到物种下的低隶属分数的读段来矫正测序读段的比对结果;
S103:过滤后的数据,提取物种下比对结果的位点覆盖率coverage、物种比对的gap分数(记作gapscore)、物种的可变区得分(记作HVRScore),用于构建物种成分判别的分类器。
下面结合附图对本发明的应用原理作进一步的描述。
本发明实施例提供的基于高通量测序数据的微生物成分及浓度检测方法以病原菌的16S rDNA序列为鉴定对象,从高通量测序数据出发,对病变样本中微生物成分与浓度进行准确地鉴定与估计。该方法涉及以下概念与技术:
16S rDNA:病变样本的病原体主要源于细菌,细菌rRNA按沉降系数分为3种,分别为5S、16S和23S rRNA。16S rDNA(简称作16S)是细菌染色体上编码16S rRNA相对应的DNA序列,存在于所有细菌染色体基因中。
NGS技术与高通量测序数据:NGS技术可一次性对几十万到几百万条DNA分子进行序列测定,其产生的DNA序列读段称为高通量测序数据。
序列比对技术:将DNA测序读段比对到物种的参考基因组上,可使用BWA工具实现序列比对。
16S rDNA的可变区提取:细菌的16S rDNA包含10个高度保守区和9个可变区。可变区序列因细菌不同而异,保守区序列基本保守,可通过EMBOSS工具实现细菌可变区的提取。
如图2所示,本发明实施例提供的基于高通量测序数据的微生物成分及浓度检测方法具体包括以下步骤:
(1)病原菌数据库选取与NGS数据预处理
本发明采用的病原菌参考数据库涵盖257个临床致病菌物种,除了临床常见的葡萄球菌、链球菌、绿脓杆菌、变形杆菌以及沙门氏菌等外,还包含有各种较为少见的病原菌,分布于9个门、18个纲、35个目、52个科及86个属中。对于获取到的NGS测序样本,采用FastQC工具分析数据的质量情况,若数据中含有测序接头与低质量序列,使用Trimmomatic工具去除测序接头和低质量序列。基于测序读段数据及参考序列,采用BWA进行比对,保留比对成功的读段序列,以便后续的物种成分与浓度分析。
(2)构建读段-物种库的隶属关系体系
对(1)得到的数据比对结果中往往含有大量的多比对读段,通常因测序错误、未知物种干扰或生物多样性的现象而造成,而这些现象直接反映在序列的比对形式与质量分数上。从比对形式而言,考虑匹配/错配(Match/MisMatch)、插入/缺失(统记为gap)情况;从测序错误而言,考虑序列比对的质量分数;从物种的生物特性而言,落在物种可变区的读段属于该物种的机率越高。该发明从比对成功的数据中量化碱基匹配或错配指示度、比对产生的gap与读段来自可变区的指示度等信息,建立测序读段到物种库的隶属关系体系,通过过滤掉比对到物种下的低隶属分数的读段来矫正测序读段的比对结果,实现较高准确度的物种浓度估计。
物种的参考数据库集合为F={f1,f2,…,fH},测序读段集合为R={r1,r2,…,rN}。令rj的长度为Lj,rj的碱基序列为rj=(rj[1],rj[2],…,rj[Lj]),rj比对到物种fi后,比对形式记作fi=(fi[1],fi[2],…,fi[Lj])。由于测序仪产生的测序错误是无法避免的,而碱基质量值能够定量描述碱基测序的准确性,即可表征测序的可信性。由碱基的测序质量值与错误率的关系Q=-10*lg(qj[i]),可得rj的碱基测序错误率(qj[1],qj[2],…,qj[Lj])。
表1
测序读段比对到物种的参考序列的结果如表1所示,碱基的匹配与错配、碱基的插入与缺失(统称为gap),可直观地指示读段rj来自于物种fi的的可能性。比对结果中碱基的错配数量越少,产生gap的个数与gap的宽度越小,则该读段比对到该物种的可信程度越高。令rj比对到fi产生的gap集合为X=(x1,x2,…,xM),其中,xi为产生gap的宽度,M为gap的数量。若读段中碱基间的测序错误是独立的,则从碱基的匹配形式与测序错误角度而言,rj来源于fk的指示度衡量如下:
由于微生物物种间的相似性极高,所以区分物种类型的最重要的信号就在于物种的可变区。对于一个多比对读段,若该读段比对到物种A的可变区内,同时比对到其他物种B、C的保守区,则基于物种的生物特性,认为该读段更有可能来源于物种A。读段的多比对形式如图3所示,本发明使用EMBOSS工具获取物种序列的可变区范围,rj比对到fi的可变区指示度量化为wij:
综合序列的比对形式、测序错误与可变区的指示度,将rj比对到fi的隶属分数定义如下:
将所有的测序数据比对到物种库后就可构建出读段-物种库的隶属关系体系,该体系可用于比对结果的矫正。score(rj,fi)表示读段rj隶属于fi的程度,该值越大则读段来自该物种的可能性越高,也就是比对的正确率越高。病变样本中可能含有未知的微生物或人类基因的干扰,来自这些干扰物种的读段虽然会错误地比对到物种库的某些物种上,但是它们往往存在很多的碱基错配、大量的gap,并且以很低的概率落在可变区内,以致读段到该物种的隶属分数很低。本发明通过大量仿真实验探索,将隶属分数阈值设置为0.44,过滤掉错误比对的读段,排除多比对读段的错误比对部分,实现比对结果的矫正,这对物种的成分鉴定极为重要。
(3)成分鉴定与浓度估计
针对(2)中过滤后的数据,提取物种下比对结果的位点覆盖率coverage、物种比对的gap分数(记作gapscore)、物种的可变区得分(记作HVRScore),用于构建物种成分判别的分类器。
a)从物种的位点覆盖率而言,位点覆盖率越高则该物种存在的可能性越大,其定义如下:
b)从空间特征而言,若物种比对后得到的gap集合为G={g1,g2,…,gn},gi表示第i个gap的长度,则物种比对结果下产生gap的得分如下:
c)从物种的生物特性而言,16S共包含9个可变区(HighVariable Region,HVR),可变区下比对到的读段越多,则该物种存在的可能性越大。令HVRi表示物种的第i个可变区,令xi为物种比对结果下HVRi产生的gap长度,令yi为物种HVRi的长度,从矫正结果中量化物种的可变区得分如下:
通过构建800×的仿真数据,计算物种库中每个物种的特征向量(coverage,gapscore,HVRScore),用作SVM分类器的训练集,可实现对病变样本中物种成分的鉴定。
由于在隶属分数过滤过程中,可能会错误地过滤掉某些多比对读段,这对物种的浓度估计会造成干扰,所以需要回收过滤掉的多比对读段,并将这些读段重新比对到已鉴定出的物种上,统计每个物种下比对到的读段量,计算它们在测序数据中的相对浓度,作为物种浓度的估计结果。
下面结合实验对本发明的技术效果作详细的描述。
本发明使用仿真工具ART生成800×,Insertion/deletion均为0.1的11组物种种类、浓度、干扰程度均不同仿真数据,数据内容如表1:
表1
[软件来源ARThttps://www.niehs.nih.gov/research/resources/software/biostatistics/art/]
本发明命名为PGMicroD工具,与现存的五种工具:Bwa、Harp[Kessner D,Turner TL,Novembre J.Maximum Likelihood Estimation of Frequencies of Known Haplotypesfrom Pooled Sequence Data[J].MolecularBiology and Evolution,2013,30(5):1145-1158.]、Kallisto[Bray N L,Pimentel H,Melsted,Páll,et al.Near-optimalprobabilistic RNA-seq quantification[J].Nature Biotechnology,2016.]、Karp[Reppell M,Novembre J,Mchardy A C.Using pseudoalignment and base quality toaccurately quantify microbial community composition[J].PLoS ComputationalBiology,2018,14(4).]、Mothur[Zhang Y M,Tian C F,Sui X H,et al.Robust MarkersReflecting Phylogeny and Taxonomy ofRhizobia[J].PLOS ONE,2012,7.]
对仿真数据中物种类型的类型与浓度检测结果如图4:
MaxRE=max|(ti-τi)|,其中,ti是物种的估计浓度,τi是物种的真实浓度。PGMicroD与其他五种工具对来自血液、尿液、脑脊液的25组临床样本的检测结果;在仿真数据和真实数据上的作用效果,PGMicroD均表现出较佳状态。
本实验处列举六种工具在第七组仿真数据上的物种类型与浓度检测结果如下所示,PGMicroD的结果明显优于其他五种工具。
表2真实物种类型编号与浓度
物种编号 | 浓度 |
64 | 0.035333 |
65 | 0.025563 |
66 | 0.007271 |
67 | 0.007195 |
68 | 0.00818 |
69 | 0.003295 |
70 | 0.001161 |
71 | 0 |
72 | 0 |
73 | 0 |
74 | 0 |
75 | 0 |
76 | 0 |
77 | 0 |
78 | 0 |
79 | 0 |
80 | 0 |
61 | 0.113271 |
62 | 0.091458 |
63 | 0.094531 |
表3 Harp检测的物种类型编号与浓度
物种编号 | 浓度 |
61 | 0.168566 |
62 | 0.135826 |
63 | 0.136898 |
64 | 0.074625 |
65 | 0.064214 |
66 | 0.010661 |
67 | 0.010383 |
68 | 0.012053 |
69 | 0.005206 |
70 | 0.003389 |
71 | 0.086029 |
72 | 0.051235 |
73 | 0.010019 |
74 | 0.054908 |
75 | 0.000238 |
76 | 0.00087 |
77 | 0.078043 |
78 | 0.096719 |
79 | 0.000118 |
80 | 0 |
表4 Karp检测的物种类型编号与浓度
物种编号 | 浓度 |
66 | 0.002556 |
65 | 0.015976 |
72 | 0.012307 |
70 | 0.000795 |
77 | 0.018754 |
68 | 0.002934 |
62 | 0.032872 |
79 | 7.78E-05 |
69 | 0.00129 |
76 | 0.000244 |
75 | 3.16E-05 |
61 | 0.041369 |
78 | 0.022849 |
63 | 0.033881 |
64 | 0.017379 |
71 | 0.02214 |
67 | 0.002487 |
74 | 0.013867 |
73 | 0.002438 |
表5 Kallisto检测的物种类型编号与浓度
物种编号 | 浓度 |
61 | 0.135069 |
62 | 0.091999 |
63 | 0.09434 |
64 | 0.046987 |
65 | 0.045036 |
66 | 0.008123 |
67 | 0.008035 |
68 | 0.008252 |
69 | 0.004709 |
70 | 0.010488 |
71 | 0.073654 |
72 | 0.042915 |
73 | 0.028636 |
74 | 0.06399 |
75 | 0.010298 |
76 | 0.010079 |
77 | 0.049311 |
78 | 0.084087 |
79 | 0.006296 |
表6 Bwa检测的物种类型编号与浓度
物种编号 | 浓度 |
64 | 0.048531 |
65 | 0.051353 |
66 | 0.011405 |
67 | 0.008445 |
68 | 0.010976 |
69 | 0.008174 |
70 | 0.015293 |
71 | 0.05904 |
72 | 0.046884 |
73 | 0.047995 |
74 | 0.060214 |
75 | 0.013987 |
76 | 0.023789 |
77 | 0.052142 |
78 | 0.093553 |
79 | 0.019863 |
80 | 0.010427 |
61 | 0.138985 |
表7 Mothur检测的物种类型编号与浓度
表8 PGMicroD检测的物种类型编号与浓度
物种编号 | 浓度 |
71 | 0.061754 |
61 | 0.192345 |
67 | 0.013173 |
77 | 0.053082 |
62 | 0.107849 |
63 | 0.109251 |
65 | 0.05252 |
66 | 0.011885 |
70 | 0.018948 |
68 | 0.011241 |
64 | 0.049617 |
69 | 0.012523 |
72 | 0.052129 |
73 | 0 |
74 | 0 |
75 | 0 |
76 | 0 |
78 | 0 |
79 | 0 |
80 | 0 |
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于高通量测序数据的微生物成分及浓度检测方法,其特征在于,所述基于高通量测序数据的微生物成分及浓度检测方法量化碱基匹配或错配指示度、比对产生的gap与读段来自可变区指示度信息;建立基于NGS数据的读段-物种库的隶属关系体系;通过设置隶属分数阈值过滤掉潜在的干扰读段,为准确鉴定与估计样本中物种成分与浓度奠定基础;提取物种的覆盖率、比对的gap得分、可变区得分三个特征,使用机器学习方法进行样本中物种成分的鉴定,实现物种浓度估计;
所述基于高通量测序数据的微生物成分及浓度检测方法具体包括:
第一步,病原菌数据库选取与NGS数据预处理,对于获取到的NGS测序样本,采用FastQC工具分析数据的质量情况;基于测序读段数据及参考序列,采用BWA进行比对,保留比对成功的读段序列;
第二步,构建读段-物种库的隶属关系体系,从比对成功的数据中量化碱基匹配或错配指示度、比对产生的gap与读段来自可变区的指示度信息,建立测序读段到物种库的隶属关系体系,通过过滤掉比对到物种下的低隶属分数的读段来矫正测序读段的比对结果,实现物种浓度估计;
第三步,过滤后的数据,提取物种下比对结果的位点覆盖率coverage、物种比对的gap分数记作gapscore、物种的可变区得分记作HVRScore,用于构建物种成分判别的分类器。
2.如权利要求1所述的基于高通量测序数据的微生物成分及浓度检测方法,其特征在于,第二步的物种的参考物种库集合为F={f1,f2,…,fH},测序读段集合为R={r1,r2,…,rN};rj的长度为Lj,rj的碱基序列为rj=(rj[1],rj[2],…,rj[Lj]),rj,j=1,2,...,N,比对到物种fi,i=1,2,...,H后,比对形式记作fi=(fi[1],fi[2],…,fi[Lj]);由碱基的测序质量值与错误率的关系Q=-10*lg(qj[D]),D=1,2,...,Lj,得rj的碱基测序错误率(qj[1],qj[2],…,qj[Lj]);
rj比对到fi产生的gap集合为X=(x1,x2,…,xM),其中,xb为产生gap的宽度,b=1,2,...,M,M为gap的数量;若读段中碱基间的测序错误是独立的,则从碱基的匹配形式与测序错误角度而言,rj来源于fk的指示度衡量如下:
使用EMBOSS工具获取物种序列的可变区范围,rj比对到fi的可变区指示度量化为wij:
综合序列的比对形式、测序错误与可变区的指示度,将rj比对到fi的隶属分数定义如下:
将所有的测序数据比对到物种库后就可构建出读段-物种库的隶属关系体系;score(rj,fi)表示读段rj隶属于fi的程度。
3.如权利要求1所述的基于高通量测序数据的微生物成分及浓度检测方法,其特征在于,第三步的成分鉴定具体包括:
a)从物种的位点覆盖率而言,位点覆盖率越高则该物种存在的可能性越大,定义如下:
b)从空间特征而言,若物种比对后得到的gap集合为G={g1,g2,…,gn},ga表示第a个gap的长度,a=1,2,...,n,则物种比对结果下产生gap的得分如下:
c)从物种的生物特性而言,16S共包含9个可变区HVR,可变区下比对到的读段越多,则该物种存在的可能性越大;HVRi表示物种的第i个可变区,令x'i为物种比对结果下HVRi产生的gap长度,令yi为物种HVRi的长度,从矫正结果中量化物种的可变区得分如下:
通过构建800×的仿真数据,计算物种库中每个物种的特征向量coverage,gapscore,HVRScore,用作SVM分类器的训练集,实现对病变样本中物种成分的鉴定。
4.一种应用权利要求1~3任意一项所述基于高通量测序数据的微生物成分及浓度检测方法的基因序列数据检测系统。
5.一种应用权利要求1~3任意一项所述基于高通量测序数据的微生物成分及浓度检测方法的信息数据处理终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910637328.7A CN110517726B (zh) | 2019-07-15 | 2019-07-15 | 一种基于高通量测序数据的微生物成分及浓度检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910637328.7A CN110517726B (zh) | 2019-07-15 | 2019-07-15 | 一种基于高通量测序数据的微生物成分及浓度检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110517726A CN110517726A (zh) | 2019-11-29 |
CN110517726B true CN110517726B (zh) | 2023-07-04 |
Family
ID=68623632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910637328.7A Active CN110517726B (zh) | 2019-07-15 | 2019-07-15 | 一种基于高通量测序数据的微生物成分及浓度检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517726B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881324B (zh) * | 2020-07-30 | 2023-12-15 | 苏州工业园区服务外包职业学院 | 高通量测序数据通用存储格式结构、其构建方法及应用 |
CN112509701A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 急性冠脉综合征的风险预测方法及装置 |
CN114373508B (zh) * | 2022-01-24 | 2024-02-02 | 浙江天科高新技术发展有限公司 | 一种基于16S rDNA序列的菌种鉴定方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106868116A (zh) * | 2017-01-24 | 2017-06-20 | 华南农业大学 | 一种桑树病原菌高通量鉴定及种属分类方法及其应用 |
CN107292123A (zh) * | 2016-03-31 | 2017-10-24 | 苏州普瑞森基因科技有限公司 | 一种基于高通量测序的微生物群落组成的方法和装置 |
WO2018218150A1 (en) * | 2017-05-26 | 2018-11-29 | President And Fellows Of Harvard College | Systems and methods for high-throughput image-based screening |
CN109081867A (zh) * | 2017-06-13 | 2018-12-25 | 北京大学 | 癌症特异性tcr及其分析技术和应用 |
CN109273053A (zh) * | 2018-09-27 | 2019-01-25 | 华中科技大学鄂州工业技术研究院 | 一种高通量测序的微生物数据处理方法 |
CN109757103A (zh) * | 2016-07-14 | 2019-05-14 | 百时美施贵宝公司 | 针对tim3的抗体及其用途 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111133115A (zh) * | 2017-09-20 | 2020-05-08 | 瑞泽恩制药公司 | 用于其肿瘤携带高过客基因突变负荷的患者的免疫治疗方法 |
-
2019
- 2019-07-15 CN CN201910637328.7A patent/CN110517726B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292123A (zh) * | 2016-03-31 | 2017-10-24 | 苏州普瑞森基因科技有限公司 | 一种基于高通量测序的微生物群落组成的方法和装置 |
CN109757103A (zh) * | 2016-07-14 | 2019-05-14 | 百时美施贵宝公司 | 针对tim3的抗体及其用途 |
CN106868116A (zh) * | 2017-01-24 | 2017-06-20 | 华南农业大学 | 一种桑树病原菌高通量鉴定及种属分类方法及其应用 |
WO2018218150A1 (en) * | 2017-05-26 | 2018-11-29 | President And Fellows Of Harvard College | Systems and methods for high-throughput image-based screening |
CN109081867A (zh) * | 2017-06-13 | 2018-12-25 | 北京大学 | 癌症特异性tcr及其分析技术和应用 |
CN109273053A (zh) * | 2018-09-27 | 2019-01-25 | 华中科技大学鄂州工业技术研究院 | 一种高通量测序的微生物数据处理方法 |
Non-Patent Citations (2)
Title |
---|
Error Correction and Clustering Algorithms for Next Generation Sequencing;Xiao Yang;《2011 IEEE International Symposium on Parallel and Distributed Processing Workshops and Phd Forum》;20110901;全文 * |
噬菌体展示的生物信息学研究与应用;贺碧芳;《中国博士学位论文全文数据库 (基础科学辑)》;20180930(第9期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110517726A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517726B (zh) | 一种基于高通量测序数据的微生物成分及浓度检测方法 | |
US20190130999A1 (en) | Latent Representations of Phylogeny to Predict Organism Phenotype | |
US12100479B2 (en) | Systems and methods for metagenomic analysis | |
US20180137243A1 (en) | Therapeutic Methods Using Metagenomic Data From Microbial Communities | |
JP2019537780A (ja) | メタゲノム試料中の病原体の同定と抗生物質の特徴づけ | |
CN108064272B (zh) | 用于类风湿性关节炎的生物标记物及其用途 | |
CN115719616B (zh) | 一种病原物种特异性序列的筛选方法及系统 | |
CN113160882A (zh) | 一种基于三代测序的病原微生物宏基因组检测方法 | |
CN111599413B (zh) | 一种测序数据的分类单元组分计算方法 | |
BE1024766A1 (nl) | Werkwijze voor het typeren van nucleïnezuur- of aminozuursequenties op basis van sequentieanalyse | |
CN112331268B (zh) | 目标物种特有序列的获取方法及目标物种检测方法 | |
WO2014136106A1 (en) | Method and system for analyzing the taxonomic composition of a metagenome in a sample | |
JP2016518822A (ja) | アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析 | |
Bhat et al. | A critical analysis of state-of-the-art metagenomics OTU clustering algorithms | |
Marchiori et al. | Skraken: Fast and sensitive classification of short metagenomic reads based on filtering uninformative k-mers | |
Chandrasiri et al. | CH-Bin: A convex hull based approach for binning metagenomic contigs | |
US20220259657A1 (en) | Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis | |
CN114613440A (zh) | 一种基于长读长测序数据的病原微生物分析方法 | |
CN115331737A (zh) | 一种分析肠道菌群中致病菌和量化菌群地域特征的方法 | |
EP4305191A1 (en) | Systems and methods for identifying microbial biosynthetic genetic clusters | |
Aldawiri et al. | A Novel Approach for Mapping Ambiguous Sequences of Transcriptomes | |
Nguyen et al. | Efficient and accurate OTU clustering with GPU-based sequence alignment and dynamic dendrogram cutting | |
Williams | Application of Exact Alignments with an In-memory Core Gene Database for an Improved Metagenomic Taxonomic Classification | |
CN112634983B (zh) | 病原物种特异pcr引物优化设计方法 | |
RU2709815C1 (ru) | Способ поиска молекулярных маркеров патологического процесса для дифференциальной диагностики, мониторинга и таргетной терапии |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |