CN105095688A

CN105095688A - 检测人体肠道宏基因组的细菌群落及丰度的方法

Info

Publication number: CN105095688A
Application number: CN201410431106.7A
Authority: CN
Inventors: 侯涛; 刘富; 刘云; 康冰; 张潇
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2014-08-28
Filing date: 2014-08-28
Publication date: 2015-11-25

Abstract

一种检测人体肠道宏基因组的细菌群落及丰度的方法，属于生物信息鉴定领域。本发明的目的是利用已测序细菌的基因组作为参考基因组，基于支持向量数据描述（SVDD）模型检测肠道宏基因组中未知DNA片段细菌群落的检测人体肠道宏基因组的细菌群落及丰度的方法。本发明利用SVDD模型对已知细菌的DNA序列进行分类训练，然后根据分类训练结果检测肠道宏基因组中包含的DNA片段来自的细菌群落及丰度。本发明优势在于不需要生物实验提取细菌的16sRNA作为物种特征标签，具有快速、方便的特点。

Description

检测人体肠道宏基因组的细菌群落及丰度的方法

技术领域

本发明属于生物信息鉴定领域。

背景技术

人体肠道定植有上百万亿细菌，这占到了人体细菌总量的绝大多数。一旦肠道菌群失调，就会产生一系列疾病。然而，99%的肠道细菌群落都是不能通过传统方法培养的，也就不能通过传统的基因组学方法获取它们的基因信息。宏基因组学技术（Metagenomics），为我们提供了充分挖掘肠道中细菌群落的技术手段，该技术不需要对菌群进行传统培养，而是直接测序肠道样品中的DNA。这种技术测序所得到的不是一种细菌的完整基因组，而是肠道中所有菌群的混杂基因，其中大量是以前无法认识的新细菌。传统的通过生物实验（提取宏基因组中微生物菌株16sRNA）来鉴定DNA片段归属的方法，无论在人力、物力还是时间上都显得力不从心。怎样设计生物信息学方法来检测人体肠道宏基因组中的细菌群落，是需要解决的一个关键问题。

发明内容

本发明的目的是利用已测序细菌的基因组作为参考基因组，基于支持向量数据描述（SVDD）模型检测肠道宏基因组中未知DNA片段细菌群落的检测人体肠道宏基因组的细菌群落及丰度的方法。

本发明的步骤是：

a、利用SVDD模型对已知细菌的DNA序列进行分类训练：从下载的每个细菌中随机切割出100段长度为1000bp的不重叠DNA片段，对每一段DNA片段，计算其k-mer频率与它们的反向互补k-mer频率之商作为数字特征向量；

设每类细菌X能描述为：，其中是从每一段DNA片段中提取的数字特征向量，N是每类细菌的样本数，l是数字特征向量的维数，提取每类细菌X的所有DNA序列片段的数字特征向量之后，利用支持向量数据描述SVDD模型对其进行分类训练，就是在核空间寻求一个包含几乎所有的且体积达到最小的超球体，用来对每类细菌X进行数据描述，所求超球可通过解如下所示的凸约束二次规划得到：

式中：为球心，r为半径，是2-范数，是对称的非线性映射函数，是一个松弛变量；

b、根据分类训练结果检测肠道宏基因组中包含的DNA片段来自的细菌群落及丰度：对每个输入的待检测DNA片段，先计算其数字特征向量x，然后用下面的函数来决定所属细菌群落：

式中、分别是是所训练的第j个细菌群落的超球球心和半径。

本发明所述的基于支持向量数据描述模型的人体肠道宏基因组细菌群落检测，是提取DNA片段的数字特征，即k-mer频率与它们的反向互补k-mer频率组合而成的综合频率，其优势在于不需要生物实验提取细菌的16sRNA作为物种特征标签。本发明所述的方法具有快速、方便的特点。是利用一种有监督的学习方法SVDD模型，对已知细菌的DNA信息进行分类训练，来完成对未知DNA片段细菌群落的检测。最终是要检测肠道宏基因组中的DNA片段来自的细菌群落及相应丰度。

附图说明

图1是本发明检测流程图。

具体实施方式

本发明的步骤是：

式中、分别是是所训练的第j个细菌群落的超球球心和半径。

以下对本发明做进一步详细描述：

本发明所述的基于支持向量数据描述模型的人体肠道宏基因组细菌群落检测，其具体流程如下：先分别从已知的细菌DNA序列和肠道宏基因组DNA序列中提取数字特征。然后利用SVDD分类器训练已知细菌的数字特征，使每个细菌可以由一个超球对其进行数据描述，并将训练结果存入数据库。在识别阶段，对来自于待鉴定肠道宏基因组的DNA序列与存储的已有细菌特征进行匹配，判断其来自的细菌群落。最后，输出肠道宏基因组中的DNA序列分别来自什么细菌群落及相应的丰度等信息。

所述的基于支持向量数据描述模型的人体肠道细菌群落检测包括如下几个步骤：

实验基因组数据的获取

实验所用的500个细菌的全基因组序列均是从美国国家生物技术信息中心(NCBI：USNationalCenterforBiotechnologyInformation)下载，实验所用的人体肠道宏基因组数据是由深圳华大基因研究所提供，可从网站http://gutmeta.genomics.org.cn/下载。

数字特征向量的提取

基因序列是由4种核苷酸A、T、G、C构成的线性序列，首先将细菌的全基因组序列切割成长度为1000bp长的不重叠DNA片段，对每一段DNA片段，计算其k-mer频率与它们的反向互补k-mer频率组合而成的综合频率，如当k参数取5时即是5-mer频率，其频率为所有5个碱基点与其反向互补序列的频率的商。因此，每一段DNA序列，都可以提取一个512维的数字特征向量。

利用SVDD模型对已知细菌的DNA序列进行分类训练

对已知细菌的DNA序列提取特征向量之后，利用向量数据描述模型(SVDD)对每个细菌的DNA片段进行分类训练。假设每类细菌X能描述为：

其中是从一段1000bp长的DNA片段中提取的数字向量，从每个细菌群落X中随机选择100段DNA片段作为训练集，也就是说有100个参与训练。通过SVDD方法，在核空间寻求一个包含几乎所有的且体积达到最小的超球体，来对每类细菌X进行数据描述。

SVDD方法概述

SVDD方法的主要思路是求解公式所示的凸约束二次规划：

(1)

式中o是球心，是球半径，是2-范数，是对称的非线性映射函数，是一个松弛变量。常数C是惩罚因子用来表示取舍这些数据点的意愿，控制着超球体体积与错误率之间的折衷。在公式(1)的约束下，引入拉格朗日乘子和构造拉格朗日函数。

(2)

在拉格朗日乘子和的约束条件下，对拉格朗日函数中的每个变量求偏导，并令其等于0，对，可得：

(3)

(4)

(5)

上述三个公式可推导得下述三个新的约束条件：

(6)

(7)

(8)

因为和，将变量从公式(8)的约束中移除，则变成这么一个约束条件。通过引入核函数，在特征空间实现更为精确的数据描述。将上述约束带入Lagrange函数，可得公式(1)的对偶规划：

(9)

解这个对偶规划即可以得到一个最优解，根据公式(7)给出的计算公式，可以得到特征空间中最小超球的球心。

分别记支持向量集和支持向量的数目为SV和。则最小超球的半径可由下列公式计算：

(10)

核参数确定及选择：

为获得较好的检测结果，本发明选择高斯核函数，它的具体表达公式为：

(11)

公式(11)中s参数为径向基核函数的核宽度，本发明取s=30。由于惩罚因子C的取值范围为[0，1]，我们通过设计小实验样本，并网格搜索来寻找能够使小实验样本取得最高分类精度的C值。小实验样本是这样设计的：对来自每一个细菌属的100段1000bp长的DNA片段，取30段作为训练集取20段作为测试集，进行种群鉴定实验，评估每一个细菌属进行SVDD训练时的最佳惩罚因子C。

根据分类训练结果检测肠道宏基因组中包含的DNA片段来自的细菌群落及丰度

对每个输入的待检测DNA片段，先计算其数字特征向量x。然后用下面的函数来决定所属细菌群落：

(12)

式中、分别是是所训练的第j个细菌群落的超球球心和半径。如果只有一个，也即有一个细菌群落接受该向量，那么向量x属于这个细菌群落；若所有的或超过两个，即是所有的细菌群落都拒绝该向量，或者超过两个细菌群落接受该向量，那么该向量x被定义为“不能分类”。

实施例：对五组荷兰人人体肠道宏基因组的DNA片段进行细菌群落检测

从美国国家生物技术信息中心(NCBI：USNationalCenterforBiotechnologyInformation)下载500个细菌全基因组作为训练基因组，它们来自50个细菌属，训练数据的详细信息见表1。将这500个训练基因组切割成DNA长度分别为1000bp的不重叠片段，再从每个细菌中随机抽取100段不重叠DNA片段创建了训练集，训练集中共有500*100=50000个DNA片段参与训练。从网站http://gutmeta.genomics.org.cn/下载了5组荷兰人的人体肠道宏基因组数据作为测试数据，测试数据的详细信息见表2。为了评估我们所设计的分类模型的分类学性能，本文选择在属的分类学层次上进行实验。

表1训练基因组数据详细信息

表2五组人体肠道宏基因组学数据详细信息

表3对人体肠道宏基因组学数据进行细菌群落检测的结果

由表3可见，利用本发明所述的方案检测本实施例中的肠道宏基因组数据的细菌群落进行检测。

Claims

1.一种检测人体肠道宏基因组的细菌群落及丰度的方法，其特征在于：

式中、分别是是所训练的第j个细菌群落的超球球心和半径。