基于高通量基因测序数据的病原微生物鉴定方法
技术领域
本发明涉及基因工程领域,尤其涉及一种基于高通量基因测序数据的病原微生物鉴定方法。
背景技术
临床上大量的感染病例需要对其感染病原进行检测,其中包括每年至少50万例的重症感染病人。目前临床上感染病原的检测主要通过传统的细菌培养鉴定方法,其主要分为微生物的培养及分离、物种鉴定及药敏试验三步。传统的病原检测方法有检测周期长,检测覆盖度低,部分病原无法检测或需要很长时间才能检出,以及无法得到病原的丰度信息等局限性,且这些局限性无法通过现有方法进行优化来克服。其他的方法如PCR检测法,免疫生化法等也有检测物种范围窄的缺点。近年来,高通量基因测序技术的发展,使得我们有可能通过对感染组织的直接测序,一次性在短时间内获取最全面最直观的信息,从而对病原进行鉴定。该方法有检测覆盖面广,不需要提前预知病原种类等优点,并且随着近年来测序成本的快速下降,测序速度的快速提升,其在微生物检测方面的应用显示出了巨大的潜力。
使用基因测序的方法进行病原检测的一个技术难点为对测序得到的原始数据进行分析,主要是通过与已知微生物基因组的比对,鉴定出所测样本中含有微生物所属的物种及亚种(由于大部分情况下是对细菌的菌种和菌株的鉴定,以下的讨论以菌种和菌株为例说明)。现有方法主要通过统计比对上不同菌株基因组上的测序序列标签(read)数,判断比对序列标签数最多的菌株为样本中的菌株。现有的方法存在以下不足:
不足1:
现有方法未充分利用基因组的突变概率信息,不同物种或亚种基因组的差异信息,且未考虑基因测序序列的错误,现有的分析方法对细菌菌株区分能力较弱。
不足2:
现有方法未考虑序列标签比对到基因组的错配情况,高错配的序列标签与低错配的序列标签对物种判断具有一样的权重,会对物种判断的准确率造成影响。
因此需要一种新的分析高通量基因测序数据的方法,在物种及亚种水平对微生物进行鉴定。
发明内容
针对上述技术中存在的不足之处,本发明提供一种基于高通量基因测序数据的病原微生物鉴定方法,该方法利用已比对到微生物参考基因组上的高通量测序序列数据以进行微生物物种及亚种鉴定的方法,解决了现有通过简单统计微生物基因组覆盖度进行物种鉴定方法准确率低的问题。
为实现上述目的,本发明提供一种基于高通量基因测序数据的病原微生物鉴定方法,包括以下步骤:
步骤1,将模型中的相关元素进行定义,在隐马尔可夫模型中,微生物所属物种或亚种为隐状态,所涉及物种基因组的序列标签的比对情况为显状态;通过对菌株基因组每个位置的序列标签的比对情况,判断基因序列的来源菌株;
步骤2,进行隐马尔可夫模型观测点的选取;
步骤3,将模型中使用的隐状态初始概率进行定义;
步骤4,将模型中使用的隐状态转移概率进行定义;
步骤5,将模型中使用的隐状态到显状态的发射概率进行定义;
步骤6,根据建立好的模型对样本所属的菌株进行判断;根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于菌株A的信息。
其中,所述步骤1模型中每个菌株的状态构成一条马尔可夫链,如对菌株A而言,比对成功状态是指比对所用的参数设置下,测序序列标签成功比对上菌株A的基因组的状态,比对失败状态则为测序序列标签无法比对上该基因组的状态。
其中,菌株A隐状态为样本中的菌株A在该处的基因组无结构变异或只有较少的点突变或小片段插入缺失突变的状态,而非菌株A状态为样本中的菌株A在该处的基因组有大结构变异或有较多的点突变或小片段插入缺失突变,使得序列标签比对不上基因组该位置的状态。
其中,所述步骤2中所用分析模型隐状态的观测点为该菌种所有菌株上的测序序列标签的位置的并集,由于不同菌株的基因组的大小不一,在取序列标签位置的并集之前,先用多重序列比对的方法将不同菌株基因组的同源序列对齐,测序序列标签在菌株上的位置为将菌株基因组进行多重序列比对将同源序列对齐之后的位置。
其中,多重序列比对使用的是公开的Clustalw软件,使用的参数为:开口惩值为10,开口扩大罚值为0.05,权重转移选为否,亲水开口选为否,权重矩阵为IUB。
其中,所述步骤3的具体方法为:模型中默认的初始状态的菌株A概率为P=0.999,非菌株A概率为P=0.001;来源于基因组上发生大结构变异或有较多的点突变或小片段插入缺失突变的概率默认设置为0.001。
其中,所述步骤4中隐状态改变的概率会随着测序序列标签对基因组覆盖度的减少而增加。
其中,所述步骤5模型中用到的隐状态到显状态的发射概率如下所示:
P(Oi="比对成功"|Hi="菌株A")=F(k;n,p)
P(Oi="比对失败"|Hi="菌株A")=1-F(t;n,p)
P(Oi="比对成功"|Hi="非菌株A")=F(k;n,p+m)
P(Oi="比对失败"|Hi="非菌株A")=1-F(t;n,p+m)
其中n为序列标签长度,p为测序错误或碱基突变的概率,对于Illumina测序平台的数据默认设置为0.01,k为此序列标签比对到菌株A基因组的比对错配碱基数,F(k;n,p)为进行单次成功概率为p的n次实验,而成功至多k次的累积二项分布概率;而t为序列标签比对参数中的比对错配阈值,即比对过程中,如果序列标签与参考基因组的错配碱基数超过t,则认为是比对失败。m则为基因组上发生大结构变异或有较多的点突变或小片段插入缺失突变的概率与这些变异平均大小的乘积,可默认设置为0.03。
其中,所述步骤6的具体方法为:根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,使用隐马尔可夫模型的Viterbi算法的计算,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于“菌株A”的信息;以菌株上隐状态为菌株A的位置的比例高低将物种所有菌株排序,比例最高的菌株为该样本最可能的菌株;若比例最高的菌株和第二高的菌株的菌株A隐状态的比例相差大于20%,且比例最高菌株的菌株A隐状态的比例大于90%;则判断为该菌株为样本所含有的菌株;若有多个菌株的菌株A隐状态的比例大于85%,则提供的判断为“此些菌株均为样本可能菌株”;其余情况判断为“未找到明显菌株”。
其中,初始状态概率、状态转移概率及状态发射概率的相关参数都可以是默认设置的,也可以是通过手动设置得到的。
与现有技术相比,本发明提供的基于高通量基因测序数据的病原微生物鉴定方法,其有益效果为:
1)本发明考虑了测序序列标签比对错配情况,将其概率信息整合入物种判断模型中。降低了只考虑覆盖度的现有方法由于比对序列标签数多而错配情况严重导致的物种错判的可能性;
2)本发明所使用的数学模型对不同的物种,根据其基因组特点可使用不同参数,可更好地反映基因突变率、不同亚种基因组差异及比对情况的信息,提高了物种区分的效果;
3)本模型使用隐马尔可夫模型整合不同菌株基因组之间的差异信息,可能的测序错误信息,基因组上发生大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变的概率信息及这些变异的大小信息,及比对的错配信息,可更好的利用这些信息对物种进行判断,提高物种判断的准确率;
4)本发明解决现有通过简单统计微生物基因组覆盖度进行物种鉴定方法准确率低的问题。
附图说明
图1为本发明的基于高通量基因测序数据的病原微生物鉴定方法的流程图;
图2为本发明中用于微生物物种判断的隐马尔可夫模型的隐状态和显状态图;
图3为本发明中模型中的状态观察点示意图;
图4为本发明中本隐马尔可夫模型中的隐状态转移关系及其显状态示意图。
具体实施方式
为了更清楚地表述本发明,下面结合附图对本发明作进一步地描述。
请参阅图1,本发明的基于高通量基因测序数据的病原微生物鉴定方法,包括以下步骤:
步骤S1,将模型中的相关元素进行定义,在隐马尔可夫模型中,微生物所属物种或亚种为隐状态,所涉及物种基因组的序列标签的比对情况为显状态,如图2所示;通过对菌株基因组每个位置的序列标签的比对情况,判断基因序列的来源菌株。本发明所用模型中每个菌株的状态构成一条马尔可夫链,如对菌株A而言,“比对成功”状态是指比对所用的参数设置下,测序序列标签成功比对上菌株A的基因组的状态,“比对失败”状态则为测序序列标签无法比对上该基因组的状态。“菌株A”隐状态为样本中的菌株A在该处的基因组无结构变异(如大片段缺失等)或只有较少的点突变或小片段插入缺失突变的状态,而“非菌株A”状态为样本中的菌株A在该处的基因组有大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变,使得序列标签比对不上基因组该位置的状态。
步骤S2,进行隐马尔可夫模型观测点的选取;本发明所用分析模型隐状态的观测点为该菌种所有菌株上的测序序列标签的位置的并集。由于不同菌株的基因组的大小不一,在取序列标签位置的并集之前,先用多重序列比对的方法将不同菌株基因组的同源序列对齐,多重序列比对使用的是公开的Clustalw软件(http://www.genome.jp/tools/clustalw/),使用的参数为:开口惩值(gap open penalty)为10,开口扩大罚值(gapextension penalty)为0.05,权重转移(weight transition)选为否,亲水开口(hydrophilic)选为否,权重矩阵(weight matrix)为IUB。测序序列标签在菌株上的位置为将菌株基因组进行多重序列比对将同源序列对齐之后的位置。位置取并集的示意见图3,如所研究菌种包括3个菌株,菌株A的基因组在位置1、2、4有序列标签比对上,菌株B在位置1、3、4和菌株C在位置1、2、4、5有序列标签比对上,则在研究该菌种的模型中,位置1、2、3、4、5都会成为状态观察点。位置i上的隐状态以Hi表示,显状态为Oi表示。初始的隐状态的H0。该图3中其中长直线代表不同菌株的基因组,短直线代表测序的序列标签(read)。状态观察点为不同菌株基因组上比对位置的并集,即图中位置1、2、3、4、5皆为状态观察点。
步骤S3,将模型中使用的隐状态初始概率进行定义;本发明模型中默认的初始状态的概率为P(H0="菌株A")=0.999,P(H0="非菌株A")=0.001,来源于基因组上发生大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变的概率默认设置为0.001。
步骤S4,将模型中使用的隐状态转移概率进行定义;本发明的模型中用到的隐状态转移概率如下所示,隐状态改变的概率会随着测序序列标签对基因组覆盖度的减少而增加;
P(Oi="菌株A"|Oi-1="菌株A")=0.00001/(0.05+cov)
P(Oi="非菌株A"|Oi-1=="菌株A")=1-0.00001/(0.05+cov)
P(Oi="菌株A"|Oi-1=="非菌株A")=0.01/(0.05+cov)
P(Oi="非菌株A"|Oi-1=="非菌株A")=1-0.01/(0.05+cov)
其中cov为基因组被测序测到的碱基占整个基因组所有碱基的比例,范围是[0,1]。
步骤S5,将模型中使用的隐状态到显状态的发射概率进行定义;本发明的模型中用到的隐状态到显状态的发射概率如下所示:
P(Oi="比对成功"|Hi="菌株A")=F(k;n,p)
P(Oi="比对失败"|Hi="菌株A")=1-F(t;n,p)
P(Oi="比对成功"|Hi="非菌株A")=F(k;n,p+m)
P(Oi="比对失败"|Hi="非菌株A")=1-F(t;n,p+m)
其中n为序列标签长度,p为测序错误或碱基突变的概率,对于Illumina测序平台的数据默认设置为0.01,k为此序列标签比对到菌株A基因组的比对错配碱基数,F(k;n,p)为进行单次成功概率为p的n次实验,而成功至多k次的累积二项分布概率;而t为序列标签比对参数中的比对错配阈值,即比对过程中,如果序列标签与参考基因组的错配碱基数超过t,则认为是比对失败。m则为基因组上发生大结构变异或有较多的点突变或小片段插入缺失突变的概率与这些变异平均大小的乘积,可默认设置为0.03。
步骤S6,根据建立好的模型对样本所属的菌株进行判断;根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于菌株A的信息。该步骤具体为:本发明所使用的隐马尔可夫模型的示意图可见图4,根据初始状态概率、状态转移概率、状态发射概率及观察到的显状态,及序列标签“比对成功”或比对失败状态,使用隐马尔可夫模型的Viterbi算法的计算,可得到每个菌株基因组上每个位置的隐状态,及每个菌株每个位置上是否属于“菌株A”的信息;以菌株上隐状态为菌株A的位置的比例高低将物种所有菌株排序,比例最高的菌株为该样本最可能的菌株;若比例最高的菌株和第二高的菌株的菌株A隐状态的比例相差大于20%,且比例最高菌株的菌株A隐状态的比例大于90%;则判断为该菌株为样本所含有的菌株;若有多个菌株的菌株A隐状态的比例大于85%,则提供的判断为“此些菌株均为样本可能菌株”;其余情况判断为“未找到明显菌株”。
本发明的要点改进如下:
1)本发明考虑并整合了不同菌株基因组之间的差异信息,可能的测序错误信息,基因组上发生大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变的概率信息及这些变异的大小信息,及比对的错配信息来对高通量测序数据中的物种信息进行判断;
2)本发明使用二项分布数学模型描述基因突变、测序错误与比对错配率之间的关系,使其能为物种判断提供更准确的信息;
3)本发明使用隐马尔可夫数学模型整合以上信息,利用了比对序列标签的位置关系信息,使用了Viterbi算法降低计算的复杂度。该模型使不同的物种可使用不同的参数,考虑了不同物种微生物突变率的特点。
相较于现有技术的情况,本发明提供的基于高通量基因测序数据的病原微生物鉴定方法,其有益效果为:
1)本发明考虑了测序序列标签比对错配情况,将其概率信息整合入物种判断模型中。降低了只考虑覆盖度的现有方法由于比对序列标签数多而错配情况严重导致的物种错判的可能性;
2)本发明所使用的数学模型对不同的物种,根据其基因组特点可使用不同参数,可更好地反映基因突变率、不同亚种基因组差异及比对情况的信息,提高了物种区分的效果;
3)本模型使用隐马尔可夫模型整合不同菌株基因组之间的差异信息,可能的测序错误信息,基因组上发生大结构变异(如大片段缺失等)或有较多的点突变或小片段插入缺失突变的概率信息及这些变异的大小信息,及比对的错配信息,可更好的利用这些信息对物种进行判断,提高物种判断的准确率;
4)本发明解决现有通过简单统计微生物基因组覆盖度进行物种鉴定方法准确率低的问题。
在本实施例中,初始状态概率、状态转移概率及状态发射概率的相关参数等都可以是默认设置的,也可以是通过手动设置得到的。实际应用中,可对不同的物种根据物种特点设置不同的参数值。
以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。