CN108090324A - 基于高通量基因测序数据的病原微生物鉴定方法 - Google Patents

基于高通量基因测序数据的病原微生物鉴定方法 Download PDF

Info

Publication number
CN108090324A
CN108090324A CN201810041835.XA CN201810041835A CN108090324A CN 108090324 A CN108090324 A CN 108090324A CN 201810041835 A CN201810041835 A CN 201810041835A CN 108090324 A CN108090324 A CN 108090324A
Authority
CN
China
Prior art keywords
state
strains
bacterial strain
probability
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810041835.XA
Other languages
English (en)
Other versions
CN108090324B (zh
Inventor
苏政
肖卫民
苏闻
赵崇涛
黄瑞坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Taikang Jiyin Biological Technology Research And Development Service Co Ltd
Original Assignee
Shenzhen Taikang Jiyin Biological Technology Research And Development Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Taikang Jiyin Biological Technology Research And Development Service Co Ltd filed Critical Shenzhen Taikang Jiyin Biological Technology Research And Development Service Co Ltd
Priority to CN201810041835.XA priority Critical patent/CN108090324B/zh
Publication of CN108090324A publication Critical patent/CN108090324A/zh
Application granted granted Critical
Publication of CN108090324B publication Critical patent/CN108090324B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Toxicology (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于高通量基因测序数据的病原微生物鉴定方法,包括以下步骤:将模型中的相关元素进行定义,在隐马尔可夫模型中,微生物所属物种或亚种为隐状态,所涉及物种基因组的序列标签的比对情况为显状态;通过对菌株基因组每个位置的序列标签的比对情况,判断基因序列的来源菌株;进行隐马尔可夫模型观测点的选取;将模型中使用的隐状态初始概率进行定义;将模型中使用的隐状态转移概率进行定义;将模型中使用的隐状态到显状态的发射概率进行定义;根据建立好的模型对样本所属的菌株进行判断;可得到每个菌株基因组上每个位置的隐状态及每个菌株每个位置上是否属于菌株A的信息。

Description

基于高通量基因测序数据的病原微生物鉴定方法
技术领域
本发明涉及基因工程领域,尤其涉及一种基于高通量基因测序数据的病原微生物鉴定方法。
背景技术
临床上大量的感染病例需要对其感染病原进行检测,其中包括每年至少50万例的重症感染病人。目前临床上感染病原的检测主要通过传统的细菌培养鉴定方法,其主要分为微生物的培养及分离、物种鉴定及药敏试验三步。传统的病原检测方法有检测周期长,检测覆盖度低,部分病原无法检测或需要很长时间才能检出,以及无法得到病原的丰度信息等局限性,且这些局限性无法通过现有方法进行优化来克服。其他的方法如PCR检测法,免疫生化法等也有检测物种范围窄的缺点。近年来,高通量基因测序技术的发展,使得我们有可能通过对感染组织的直接测序,一次性在短时间内获取最全面最直观的信息,从而对病原进行鉴定。该方法有检测覆盖面广,不需要提前预知病原种类等优点,并且随着近年来测序成本的快速下降,测序速度的快速提升,其在微生物检测方面的应用显示出了巨大的潜力。
使用基因测序的方法进行病原检测的一个技术难点为对测序得到的原始数据进行分析,主要是通过与已知微生物基因组的比对,鉴定出所测样本中含有微生物所属的物种及亚种(由于大部分情况下是对细菌的菌种和菌株的鉴定,以下的讨论以菌种和菌株为例说明)。现有方法主要通过统计比对上不同菌株基因组上的测序序列标签(read)数,判断比对序列标签数最多的菌株为样本中的菌株。现有的方法存在以下不足:
不足1:
现有方法未充分利用基因组的突变概率信息,不同物种或亚种基因组的差异信息,且未考虑基因测序序列的错误,现有的分析方法对细菌菌株区分能力较弱。
不足2:
现有方法未考虑序列标签比对到基因组的错配情况,高错配的序列标签与低错配的序列标签对物种判断具有一样的权重,会对物种判断的准确率造成影响。
因此需要一种新的分析高通量基因测序数据的方法,在物种及亚种水平对微生物进行鉴定。
发明内容
针对上述技术中存在的不足之处,本发明提供一种基于高通量基因测序数据的病原微生物鉴定方法,该方法利用已比对到微生物参考基因组上的高通量测序序列数据以进行微生物物种及亚种鉴定的方法,解决了现有通过简单统计微生物基因组覆盖度进行物种鉴定方法准确率低的问题。
为实现上述目的,本发明提供一种基于高通量基因测序数据的病原微生物鉴定方法,包括以下步骤:
步骤1,将模型中的相关元素进行定义,在隐马尔可夫模型中,微生物所属物种或亚种为隐状态,所涉及物种基因组的序列标签的比对情况为显状态;通过对菌株基因组每个位置的序列标签的比对情况,判断基因序列的来源菌株;
步骤2,进行隐马尔可夫模型观测点的选取;
步骤3,将模型中使用的隐状态初始概率进行定义;
步骤4,将模型中使用的隐状态转移概率进行定义;
步骤5,将模型中使用的隐状态到显状态的发射概率进行定义;
步骤6,根据建立好的模型对样本所属的菌株进行判断;根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于菌株A的信息。
其中,所述步骤1模型中每个菌株的状态构成一条马尔可夫链,如对菌株A而言,比对成功状态是指比对所用的参数设置下,测序序列标签成功比对上菌株A的基因组的状态,比对失败状态则为测序序列标签无法比对上该基因组的状态。
其中,菌株A隐状态为样本中的菌株A在该处的基因组无结构变异或只有较少的点突变或小片段插入缺失突变的状态,而非菌株A状态为样本中的菌株A在该处的基因组有大结构变异或有较多的点突变或小片段插入缺失突变,使得序列标签比对不上基因组该位置的状态。
其中,所述步骤2中所用分析模型隐状态的观测点为该菌种所有菌株上的测序序列标签的位置的并集,由于不同菌株的基因组的大小不一,在取序列标签位置的并集之前,先用多重序列比对的方法将不同菌株基因组的同源序列对齐,测序序列标签在菌株上的位置为将菌株基因组进行多重序列比对将同源序列对齐之后的位置。
其中,多重序列比对使用的是公开的Clustalw软件,使用的参数为:开口惩值为10,开口扩大罚值为0.05,权重转移选为否,亲水开口选为否,权重矩阵为IUB。
其中,所述步骤3的具体方法为:模型中默认的初始状态的菌株A概率为P=0.999,非菌株A概率为P=0.001;来源于基因组上发生大结构变异或有较多的点突变或小片段插入缺失突变的概率默认设置为0.001。
其中,所述步骤4中隐状态改变的概率会随着测序序列标签对基因组覆盖度的减少而增加。
其中,所述步骤5模型中用到的隐状态到显状态的发射概率如下所示:
P(Oi="比对成功"|Hi="菌株A")=F(k;n,p)
P(Oi="比对失败"|Hi="菌株A")=1-F(t;n,p)
P(Oi="比对成功"|Hi="非菌株A")=F(k;n,p+m)
P(Oi="比对失败"|Hi="非菌株A")=1-F(t;n,p+m)
其中n为序列标签长度,p为测序错误或碱基突变的概率,对于Illumina测序平台的数据默认设置为0.01,k为此序列标签比对到菌株A基因组的比对错配碱基数,F(k;n,p)为进行单次成功概率为p的n次实验,而成功至多k次的累积二项分布概率;而t为序列标签比对参数中的比对错配阈值,即比对过程中,如果序列标签与参考基因组的错配碱基数超过t,则认为是比对失败。m则为基因组上发生大结构变异或有较多的点突变或小片段插入缺失突变的概率与这些变异平均大小的乘积,可默认设置为0.03。
其中,所述步骤6的具体方法为:根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,使用隐马尔可夫模型的Viterbi算法的计算,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于“菌株A”的信息;以菌株上隐状态为菌株A的位置的比例高低将物种所有菌株排序,比例最高的菌株为该样本最可能的菌株;若比例最高的菌株和第二高的菌株的菌株A隐状态的比例相差大于20%,且比例最高菌株的菌株A隐状态的比例大于90%;则判断为该菌株为样本所含有的菌株;若有多个菌株的菌株A隐状态的比例大于85%,则提供的判断为“此些菌株均为样本可能菌株”;其余情况判断为“未找到明显菌株”。
其中,初始状态概率、状态转移概率及状态发射概率的相关参数都可以是默认设置的,也可以是通过手动设置得到的。
与现有技术相比,本发明提供的基于高通量基因测序数据的病原微生物鉴定方法,其有益效果为:
1)本发明考虑了测序序列标签比对错配情况,将其概率信息整合入物种判断模型中。降低了只考虑覆盖度的现有方法由于比对序列标签数多而错配情况严重导致的物种错判的可能性;
2)本发明所使用的数学模型对不同的物种,根据其基因组特点可使用不同参数,可更好地反映基因突变率、不同亚种基因组差异及比对情况的信息,提高了物种区分的效果;
3)本模型使用隐马尔可夫模型整合不同菌株基因组之间的差异信息,可能的测序错误信息,基因组上发生大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变的概率信息及这些变异的大小信息,及比对的错配信息,可更好的利用这些信息对物种进行判断,提高物种判断的准确率;
4)本发明解决现有通过简单统计微生物基因组覆盖度进行物种鉴定方法准确率低的问题。
附图说明
图1为本发明的基于高通量基因测序数据的病原微生物鉴定方法的流程图;
图2为本发明中用于微生物物种判断的隐马尔可夫模型的隐状态和显状态图;
图3为本发明中模型中的状态观察点示意图;
图4为本发明中本隐马尔可夫模型中的隐状态转移关系及其显状态示意图。
具体实施方式
为了更清楚地表述本发明,下面结合附图对本发明作进一步地描述。
请参阅图1,本发明的基于高通量基因测序数据的病原微生物鉴定方法,包括以下步骤:
步骤S1,将模型中的相关元素进行定义,在隐马尔可夫模型中,微生物所属物种或亚种为隐状态,所涉及物种基因组的序列标签的比对情况为显状态,如图2所示;通过对菌株基因组每个位置的序列标签的比对情况,判断基因序列的来源菌株。本发明所用模型中每个菌株的状态构成一条马尔可夫链,如对菌株A而言,“比对成功”状态是指比对所用的参数设置下,测序序列标签成功比对上菌株A的基因组的状态,“比对失败”状态则为测序序列标签无法比对上该基因组的状态。“菌株A”隐状态为样本中的菌株A在该处的基因组无结构变异(如大片段缺失等)或只有较少的点突变或小片段插入缺失突变的状态,而“非菌株A”状态为样本中的菌株A在该处的基因组有大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变,使得序列标签比对不上基因组该位置的状态。
步骤S2,进行隐马尔可夫模型观测点的选取;本发明所用分析模型隐状态的观测点为该菌种所有菌株上的测序序列标签的位置的并集。由于不同菌株的基因组的大小不一,在取序列标签位置的并集之前,先用多重序列比对的方法将不同菌株基因组的同源序列对齐,多重序列比对使用的是公开的Clustalw软件(http://www.genome.jp/tools/clustalw/),使用的参数为:开口惩值(gap open penalty)为10,开口扩大罚值(gapextension penalty)为0.05,权重转移(weight transition)选为否,亲水开口(hydrophilic)选为否,权重矩阵(weight matrix)为IUB。测序序列标签在菌株上的位置为将菌株基因组进行多重序列比对将同源序列对齐之后的位置。位置取并集的示意见图3,如所研究菌种包括3个菌株,菌株A的基因组在位置1、2、4有序列标签比对上,菌株B在位置1、3、4和菌株C在位置1、2、4、5有序列标签比对上,则在研究该菌种的模型中,位置1、2、3、4、5都会成为状态观察点。位置i上的隐状态以Hi表示,显状态为Oi表示。初始的隐状态的H0。该图3中其中长直线代表不同菌株的基因组,短直线代表测序的序列标签(read)。状态观察点为不同菌株基因组上比对位置的并集,即图中位置1、2、3、4、5皆为状态观察点。
步骤S3,将模型中使用的隐状态初始概率进行定义;本发明模型中默认的初始状态的概率为P(H0="菌株A")=0.999,P(H0="非菌株A")=0.001,来源于基因组上发生大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变的概率默认设置为0.001。
步骤S4,将模型中使用的隐状态转移概率进行定义;本发明的模型中用到的隐状态转移概率如下所示,隐状态改变的概率会随着测序序列标签对基因组覆盖度的减少而增加;
P(Oi="菌株A"|Oi-1="菌株A")=0.00001/(0.05+cov)
P(Oi="非菌株A"|Oi-1=="菌株A")=1-0.00001/(0.05+cov)
P(Oi="菌株A"|Oi-1=="非菌株A")=0.01/(0.05+cov)
P(Oi="非菌株A"|Oi-1=="非菌株A")=1-0.01/(0.05+cov)
其中cov为基因组被测序测到的碱基占整个基因组所有碱基的比例,范围是[0,1]。
步骤S5,将模型中使用的隐状态到显状态的发射概率进行定义;本发明的模型中用到的隐状态到显状态的发射概率如下所示:
P(Oi="比对成功"|Hi="菌株A")=F(k;n,p)
P(Oi="比对失败"|Hi="菌株A")=1-F(t;n,p)
P(Oi="比对成功"|Hi="非菌株A")=F(k;n,p+m)
P(Oi="比对失败"|Hi="非菌株A")=1-F(t;n,p+m)
其中n为序列标签长度,p为测序错误或碱基突变的概率,对于Illumina测序平台的数据默认设置为0.01,k为此序列标签比对到菌株A基因组的比对错配碱基数,F(k;n,p)为进行单次成功概率为p的n次实验,而成功至多k次的累积二项分布概率;而t为序列标签比对参数中的比对错配阈值,即比对过程中,如果序列标签与参考基因组的错配碱基数超过t,则认为是比对失败。m则为基因组上发生大结构变异或有较多的点突变或小片段插入缺失突变的概率与这些变异平均大小的乘积,可默认设置为0.03。
步骤S6,根据建立好的模型对样本所属的菌株进行判断;根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于菌株A的信息。该步骤具体为:本发明所使用的隐马尔可夫模型的示意图可见图4,根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,使用隐马尔可夫模型的Viterbi算法的计算,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于“菌株A”的信息;以菌株上隐状态为菌株A的位置的比例高低将物种所有菌株排序,比例最高的菌株为该样本最可能的菌株;若比例最高的菌株和第二高的菌株的菌株A隐状态的比例相差大于20%,且比例最高菌株的菌株A隐状态的比例大于90%;则判断为该菌株为样本所含有的菌株;若有多个菌株的菌株A隐状态的比例大于85%,则提供的判断为“此些菌株均为样本可能菌株”;其余情况判断为“未找到明显菌株”。
本发明的要点改进如下:
1)本发明考虑并整合了不同菌株基因组之间的差异信息,可能的测序错误信息,基因组上发生大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变的概率信息及这些变异的大小信息,及比对的错配信息来对高通量测序数据中的物种信息进行判断;
2)本发明使用二项分布数学模型描述基因突变、测序错误与比对错配率之间的关系,使其能为物种判断提供更准确的信息;
3)本发明使用隐马尔可夫数学模型整合以上信息,利用了比对序列标签的位置关系信息,使用了Viterbi算法降低计算的复杂度。该模型使不同的物种可使用不同的参数,考虑了不同物种微生物突变率的特点。
相较于现有技术的情况,本发明提供的基于高通量基因测序数据的病原微生物鉴定方法,其有益效果为:
1)本发明考虑了测序序列标签比对错配情况,将其概率信息整合入物种判断模型中。降低了只考虑覆盖度的现有方法由于比对序列标签数多而错配情况严重导致的物种错判的可能性;
2)本发明所使用的数学模型对不同的物种,根据其基因组特点可使用不同参数,可更好地反映基因突变率、不同亚种基因组差异及比对情况的信息,提高了物种区分的效果;
3)本模型使用隐马尔可夫模型整合不同菌株基因组之间的差异信息,可能的测序错误信息,基因组上发生大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变的概率信息及这些变异的大小信息,及比对的错配信息,可更好的利用这些信息对物种进行判断,提高物种判断的准确率;
4)本发明解决现有通过简单统计微生物基因组覆盖度进行物种鉴定方法准确率低的问题。
在本实施例中,初始状态概率、状态转移概率及状态发射概率的相关参数等都可以是默认设置的,也可以是通过手动设置得到的。实际应用中,可对不同的物种根据物种特点设置不同的参数值。
以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,包括以下步骤:
步骤1,将模型中的相关元素进行定义,在隐马尔可夫模型中,微生物所属物种或亚种为隐状态,所涉及物种基因组的序列标签的比对情况为显状态;通过对菌株基因组每个位置的序列标签的比对情况,判断基因序列的来源菌株;
步骤2,进行隐马尔可夫模型观测点的选取;
步骤3,将模型中使用的隐状态初始概率进行定义;
步骤4,将模型中使用的隐状态转移概率进行定义;
步骤5,将模型中使用的隐状态到显状态的发射概率进行定义;
步骤6,根据建立好的模型对样本所属的菌株进行判断;根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于菌株A的信息。
2.根据权利要求1所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,所述步骤1模型中每个菌株的状态构成一条马尔可夫链,如对菌株A而言,比对成功状态是指比对所用的参数设置下,测序序列标签成功比对上菌株A的基因组的状态,比对失败状态则为测序序列标签无法比对上该基因组的状态。
3.根据权利要求2所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,菌株A隐状态为样本中的菌株A在该处的基因组无结构变异或只有较少的点突变或小片段插入缺失突变的状态,而非菌株A状态为样本中的菌株A在该处的基因组有大结构变异或有较多的点突变或小片段插入缺失突变,使得序列标签比对不上基因组该位置的状态。
4.根据权利要求1所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,所述步骤2中所用分析模型隐状态的观测点为该菌种所有菌株上的测序序列标签的位置的并集,由于不同菌株的基因组的大小不一,在取序列标签位置的并集之前,先用多重序列比对的方法将不同菌株基因组的同源序列对齐,测序序列标签在菌株上的位置为将菌株基因组进行多重序列比对将同源序列对齐之后的位置。
5.根据权利要求4所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,多重序列比对使用的是公开的Clustalw软件,使用的参数为:开口惩值为10,开口扩大罚值为0.05,权重转移选为否,亲水开口选为否,权重矩阵为IUB。
6.根据权利要求1所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,所述步骤3的具体方法为:模型中默认的初始状态的菌株A概率为P=0.999,非菌株A概率为P=0.001;来源于基因组上发生大结构变异或有较多的点突变或小片段插入缺失突变的概率默认设置为0.001。
7.根据权利要求1所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,所述步骤4中隐状态改变的概率会随着测序序列标签对基因组覆盖度的减少而增加。
8.根据权利要求1所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,所述步骤5模型中用到的隐状态到显状态的发射概率如下所示:
P(Oi="比对成功"|Hi="菌株A")=F(k;n,p)
P(Oi="比对失败"|Hi="菌株A")=1-F(t;n,p)
P(Oi="比对成功"|Hi="非菌株A")=F(k;n,p+m)
P(Oi="比对失败"|Hi="非菌株A")=1-F(t;n,p+m)
其中n为序列标签长度,p为测序错误或碱基突变的概率,对于Illumina测序平台的数据默认设置为0.01,k为此序列标签比对到菌株A基因组的比对错配碱基数,F(k;n,p)为进行单次成功概率为p的n次实验,而成功至多k次的累积二项分布概率;而t为序列标签比对参数中的比对错配阈值,即比对过程中,如果序列标签与参考基因组的错配碱基数超过t,则认为是比对失败。m则为基因组上发生大结构变异或有较多的点突变或小片段插入缺失突变的概率与这些变异平均大小的乘积,可默认设置为0.03。
9.根据权利要求1所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,所述步骤6的具体方法为:根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,使用隐马尔可夫模型的Viterbi算法的计算,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于“菌株A”的信息;以菌株上隐状态为菌株A的位置的比例高低将物种所有菌株排序,比例最高的菌株为该样本最可能的菌株;若比例最高的菌株和第二高的菌株的菌株A隐状态的比例相差大于20%,且比例最高菌株的菌株A隐状态的比例大于90%;则判断为该菌株为样本所含有的菌株;若有多个菌株的菌株A隐状态的比例大于85%,则提供的判断为“此些菌株均为样本可能菌株”;其余情况判断为“未找到明显菌株”。
10.根据权利要求9所述的基于高通量基因测序数据的病原微生物鉴定方法,其特征在于,初始状态概率、状态转移概率及状态发射概率的相关参数都可以是默认设置的,也可以是通过手动设置得到的。
CN201810041835.XA 2018-01-16 2018-01-16 基于高通量基因测序数据的病原微生物鉴定方法 Expired - Fee Related CN108090324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810041835.XA CN108090324B (zh) 2018-01-16 2018-01-16 基于高通量基因测序数据的病原微生物鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810041835.XA CN108090324B (zh) 2018-01-16 2018-01-16 基于高通量基因测序数据的病原微生物鉴定方法

Publications (2)

Publication Number Publication Date
CN108090324A true CN108090324A (zh) 2018-05-29
CN108090324B CN108090324B (zh) 2020-03-27

Family

ID=62182282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810041835.XA Expired - Fee Related CN108090324B (zh) 2018-01-16 2018-01-16 基于高通量基因测序数据的病原微生物鉴定方法

Country Status (1)

Country Link
CN (1) CN108090324B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108624669A (zh) * 2018-06-27 2018-10-09 厦门胜芨科技有限公司 一种快速微生物dna基因组测序比对检测鉴定的方法
CN111187813A (zh) * 2020-02-20 2020-05-22 予果生物科技(北京)有限公司 全流程质控的病原微生物高通量测序检测方法
CN111370057A (zh) * 2019-07-31 2020-07-03 深圳思勤医疗科技有限公司 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
CN111440847A (zh) * 2020-04-28 2020-07-24 浙江省林业科学研究院 一种高通量低成本的微量生物样品分子鉴定技术
CN112885408A (zh) * 2021-02-22 2021-06-01 中国农业大学 一种基于低深度测序检测snp标记位点的方法及装置
CN114334004A (zh) * 2021-12-04 2022-04-12 江苏先声医学诊断有限公司 一种病原微生物快速比对鉴定方法及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246714A (zh) * 2013-04-26 2013-08-14 中国科学院计算技术研究所 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统
WO2017011710A2 (en) * 2015-07-14 2017-01-19 Whitehead Institute For Biomedical Research Chromosome neighborhood structures and methods relating thereto
CN106600138A (zh) * 2016-12-09 2017-04-26 贵州大学 一种二次设备风险评估方法
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246714A (zh) * 2013-04-26 2013-08-14 中国科学院计算技术研究所 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统
WO2017011710A2 (en) * 2015-07-14 2017-01-19 Whitehead Institute For Biomedical Research Chromosome neighborhood structures and methods relating thereto
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN106600138A (zh) * 2016-12-09 2017-04-26 贵州大学 一种二次设备风险评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄宁: ""生物序列比对"", 《中国优秀硕士学位论文全文数据库(电子期刊) 基础科学辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108624669A (zh) * 2018-06-27 2018-10-09 厦门胜芨科技有限公司 一种快速微生物dna基因组测序比对检测鉴定的方法
CN111370057A (zh) * 2019-07-31 2020-07-03 深圳思勤医疗科技有限公司 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
CN111187813A (zh) * 2020-02-20 2020-05-22 予果生物科技(北京)有限公司 全流程质控的病原微生物高通量测序检测方法
CN111440847A (zh) * 2020-04-28 2020-07-24 浙江省林业科学研究院 一种高通量低成本的微量生物样品分子鉴定技术
CN111440847B (zh) * 2020-04-28 2023-06-16 浙江省林业科学研究院 一种高通量低成本的微量生物样品分子鉴定技术
CN112885408A (zh) * 2021-02-22 2021-06-01 中国农业大学 一种基于低深度测序检测snp标记位点的方法及装置
CN114334004A (zh) * 2021-12-04 2022-04-12 江苏先声医学诊断有限公司 一种病原微生物快速比对鉴定方法及其应用
CN114334004B (zh) * 2021-12-04 2024-03-15 江苏先声医学诊断有限公司 一种病原微生物快速比对鉴定方法及其应用

Also Published As

Publication number Publication date
CN108090324B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN108090324A (zh) 基于高通量基因测序数据的病原微生物鉴定方法
Olm et al. Consistent metagenome-derived metrics verify and delineate bacterial species boundaries
Tortoli et al. The new phylogeny of the genus Mycobacterium: the old and the news
Lauer et al. Single-cell copy number variant detection reveals the dynamics and diversity of adaptation
Mostowy et al. Efficient inference of recent and ancestral recombination within bacterial populations
Li et al. Single nucleotide mapping of trait space reveals Pareto fronts that constrain adaptation
Bobay et al. Recombination events are concentrated in the spike protein region of Betacoronaviruses
Faure et al. DiMSum: an error model and pipeline for analyzing deep mutational scanning data and diagnosing common experimental pathologies
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
Latorre et al. Genomic surveillance uncovers a pandemic clonal lineage of the wheat blast fungus
Pena-Gonzalez et al. Genomic characterization and copy number variation of Bacillus anthracis plasmids pXO1 and pXO2 in a historical collection of 412 strains
CN113249453B (zh) 一种检测拷贝数变化的方法
BE1024766A1 (nl) Werkwijze voor het typeren van nucleïnezuur- of aminozuursequenties op basis van sequentieanalyse
CN109949863B (zh) 一种基于随机森林模型鉴别大曲质量的方法
JP2023517903A (ja) 細菌の表現型形質をそのゲノムから予測するための分子技術
Weaver et al. New developments in the genetic evidence for modern human origins
US20230135480A1 (en) Molecular technology for detecting a genome sequence in a bacterial genome
CN105907860B (zh) 一种利用|Δ(SNP-index)|进行性状定位的QTL-seq方法及其应用
Black et al. Pyroprinting: A rapid and flexible genotypic fingerprinting method for typing bacterial strains
Wyllie et al. M. tuberculosis microvariation is common and is associated with transmission: analysis of three years prospective universal sequencing in England
Conover et al. Little Evidence for Homoeologous Gene Conversion and Homoeologous Exchange Events in Gossypium Allopolyploids
Garud et al. Pervasive selective sweeps across human gut microbiomes
CN114277163B (zh) 一种肺炎衣原体的mnp标记组合、引物对组合、试剂盒及其应用
CN114836574B (zh) 一种流行性腮腺炎病毒的mnp标记位点、引物组合物、试剂盒及其应用
CN117219157B (zh) 预测铜绿假单胞菌碳青霉烯类药物药敏表型的特征基因、试剂盒及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Su Zheng

Inventor after: Xiao Weimin

Inventor after: Su Tian

Inventor after: Zhao Chongtao

Inventor after: Huang Ruikun

Inventor before: Su Zheng

Inventor before: Xiao Weimin

Inventor before: Su Wen

Inventor before: Zhao Chongtao

Inventor before: Huang Ruikun

CB03 Change of inventor or designer information
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200327

Termination date: 20210116

CF01 Termination of patent right due to non-payment of annual fee