发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明是基于发明人的下列发现而完成的:
在人类疾病包括世界上最流行的内分泌疾病II型糖尿病(T2D)中,肠道微生物的评估和鉴定已经成为主要的研究领域。为了分析II型糖尿病患者的肠道微生物组成,发明人开发了一套方案,用于宏基因组关联研究(MGWAS),并且开展两步宏基因组关联研究(MGWAS),基于对来自344位中国人的肠道微生物DNA的深度鸟枪测序。发明人鉴定并且验证了~60,000个II型糖尿病关联标记物。为了开发利用肠道微生物进行II型糖尿病分类的潜力,发明人开发了一种基于基因标记物的疾病分类系统,使用的基因标记物是利用最小冗余-最大相关特征选择法(mRMR)筛选出来的50个基因标记物,其被定义为一组最优基因集。为了直观地评价基于这50个肠道微生物基因标记物的II型糖尿病的风险,发明人计算出一个健康指数。本发明的数据为II型糖尿病相关的肠道宏基因组的特性提供了具有洞察力的见解,为未来研究肠道宏基因组在其他相关失调中的病理学作用提供了示例,为基于肠道微生物评估个体具有如此疾病的风险方法提供了潜在用途。
根据本发明的第一方面,本发明提出了一组分离的核酸,所述一组分离的核酸由具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸所构成。根据本发明的实施例,每个分离的核酸可能被当成动物异常状态的所述生物标志物。例如,异常状态是糖尿病,任选地,是II型糖尿病。本发明还进一步提出了一组分离的核酸,其由具有SEQ ID NO:1-50至少之一所示的多核苷酸序列的核酸构成。
根据本发明的第二方面,本发明提出了一种确定对象异常状态的方法。根据本发明的实施例,该方法包括步骤:确定所述对象肠道菌群中是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸。利用该方法,能够有效地确定对象是否处于异常状态。
根据本发明的一个实施例,所述确定对象异常状态的方法可能进一步具有以下附加特征:
根据本发明的一个实施例,所述异常状态是糖尿病,任选地,是II型糖尿病。
根据本发明的一个实施例,所述对象的排泄物用于分析从而确定是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的所述核苷酸。任选地,所述排泄物为粪便样本。
根据本发明的一个实施例,确定是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸进一步包括:从所述对象的所述排泄物中分离核酸样本;基于所获得的核酸样本,构建DNA文库;对所述DNA文库进行测序,以便获得测序结果;以及基于所述测序结果,确定是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸。
根据本发明的一个实施例,所述测序步骤是利用第二代测序方法或第三代测序方法进行的。
根据本发明的一个实施例,所述测序步骤是利用选自Hiseq 2000、SOLID、454和单分子测序装置的至少一种进行的。
根据本发明的一个实施例,确定是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸进一步包括:将测序结果与具有SEQ ID NO:1-50所示核苷酸序列的所述核苷酸进行比对,并基于比对结果,确定是否存在具有SEQ ID NO:1-50所示核苷酸序列的所述核苷酸。
根据本发明的一个实施例,所述比对步骤利用选自SOAP2和MAQ的至少一种进行的。
根据本发明的一个实施例,进一步包括步骤:确定具有SEQ ID NO:1-50所示多核苷酸序列的核苷酸的的相对丰度;并将所述丰度与预测出的临界值进行比较。
根据本发明的一个实施例,存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,是异常状态的指示。特别地,为糖尿病,更特别地,为II型糖尿病。
根据本发明的一个实施例,根据本发明的一个实施例,存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,是健康对象的指示。特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
根据本发明的第二方面,本发明提出了一种确定对象中异常状态的方法。根据本发明的实施例,该方法包括确定与异常状态相关的生物标志物的所述相对丰度。利用该方法,能够有效地确定所述对象是否有异常状态,并且本领域技术人员可能根据关注的所述状态筛选出生物标志物,并且还可能筛选到所述异常状态的已知生物标志物。
根据本发明的实施例,所述确定对象异常状态的方法可能进一步具有以下附加特征:
根据本发明的一个实施例,所述异常状态是糖尿病,任选地,是II型糖尿病。
根据本发明的一个实施例,所述生物标志物是在所述对象肠道微生物菌群中具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸。
根据本发明的一个实施例,存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,是糖尿病的指示。更特别地,是II型糖尿病。
根据本发明的一个实施例,存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸,是健康对象的指示。特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
根据本发明的一个实施例,具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸的所述相对丰度高于预设临界值,或具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸的所述相对丰度低于预设临界值,是糖尿病的指示。更特别地,是II型糖尿病。
根据本发明的一个实施例,具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸的所述相对丰度高于预设临界值,或具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸的所述相对丰度低于预设临界值,是健康对象的指示。特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
根据本发明的一个实施例,基于所述核苷酸的所述相对丰度,利用下面公式进一步确定肠道健康指数:
其中,
Ai是标记物i的相对丰度,,
N是在所选择的与异常状态相关的生物标志物中所有患者富集标志物的子集,
M是在所选择的与异常状态相关的生物标志物中所有对照富集标志物的子集,
|N|和|M|是两个子集的所述生物标志物数目
d代表Id是在病人组中计算的,以及
n代表In在对照组中计算的。
根据本发明的第四方面,本发明提出了一种检测对象异常状态的系统。根据本发明的一个实施例,该系统包括:核酸样本分离装置,适于从所述对象中分离核酸样本;测序装置,与核酸样本分离装置相连,适于对所述核酸样本进行测序,以便获得测序结果;以及比对装置,与测序装置相连,并且适于以这样的方式将测序结果与具有SEQ ID NO:1-50所示核苷酸序列的所述核苷酸进行比对,基于比对结果,确定是否存在具有SEQ ID NO:1-50所示多核苷酸序列的所述核苷酸。利用该系统,能够实施上述检测对象异常状态的方法,从而有效地确定所述对象中是否有异常状态。
根据本发明的实施例,所述确定对象异常状态的系统进一步具有以下附加特征:
根据本发明的一个实施例,所述测序装置适用于进行第二代测序方法或第三代测序方法。
根据本发明的一个实施例,所述测序装置适用于选自Hiseq 2000、SOLID、454和单分子测序装置的至少一种进行。
根据本发明的一个实施例,所述比对装置是SOAP2和MAQ的至少一种。
根据本发明的第五方面,本发明提出了一种检测对象异常状态的系统。根据本发明的一个实施例,该系统包括:核酸样本分离工具,适于从所述对象中分离核酸样本;核酸测序工具,与核酸样本分离装置相连,并且适于对所述核酸样本测序,以便获得测序结果;以及比对工具,与所述测序装置相连,并且适于这样的方式将测序结果与具有SEQ ID NO:1-50所示多核苷酸序列的所述核苷酸进行比对,基于比对结果,确定是否存在具有SEQ IDNO:1-50所示多核苷酸序列的所述核苷酸。利用上述系统的工具,可能能够实施上述检测对象异常状态的方法,从而有效地确定所述对象中是否有异常状态。
根据本发明的实施例,所述确定对象异常状态的系统进一步包括以下附加特征:
根据本发明的一个实施例,所述测序装置适用于进行第二代测序方法或第三代测序方法。
根据本发明的一个实施例,测序装置适用于选自Hiseq 2000、SOLID、454和单分子测序装置的至少一种进行。
根据本发明的一个实施例,所述比对装置是SOAP2和MAQ的至少一种。
根据本发明的第六方面,本发明提出了一种存储计算机指令的计算机可读介质。根据本方面的一个实施例,所述计算机指令用于确定与异常状态相关的生物标记物的所述相对丰度。利用该计算机可读介质,能够有效地检确定所述对象是否是异常状态,并且本领域技术人员可能根据关注的所述状态筛选出生物标志物,并且还可能筛选到所述异常状态的已知生物标志物。
根据本发明的一个实施例,所述计算机可读介质可能进一步包括以下附加特征:
根据本发明的一个实施例,所述异常状态是糖尿病,任选地,是II型糖尿病。
根据本发明的一个实施例,所述生物标记物是在所述对象肠道微生物菌群中具有SEQ ID NO:1-50至少一所示多核苷酸序列的核苷酸。
根据本发明的一个实施例,存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,是糖尿病的指示,更特别地,是II型糖尿病。
根据本发明的一个实施例,存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,是健康对象的指示,特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
根据本发明的一个实施例,具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸的所述相对丰度高于预设临界值,具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸的所述相对丰度低于预设临界值,是糖尿病的指示,更特别地,是II型糖尿病。
根据本发明的一个实施例,具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸的所述相对丰度高于预设临界值,或具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸的所述相对丰度低于预设临界值,是健康对象的指示,特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
根据本发明的一个实施例,于所述核苷酸的所述相对丰度,利用下面公式进一步确定肠道健康指数:
其中,
Ai是标记物i的相对丰度,
N是在所选择的与异常状态相关的生物标志物中所有患者富集标志物子集,
M是在所选择的与异常状态相关的生物标志物中所有对照富集标志物的子集,
|N|和|M|是两个子集的生物标志物数目
d代表Id在病人组中计算的,以及
n代表In在对照组中计算的。
根据本发明的第七方面,本发明提供了一种生物标记物作为靶标用于筛选治疗或预防异常状态的药物的用途。根据本发明的一个实施例,所述生物标记物是具有SEQ IDNO:1-50所示的多核苷酸序列的核苷酸,以及所述异常状态是糖尿病,任选地,是II型糖尿病。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
实施例1从344个中国个体中筛选50个生物标志物并利用肠道健康指数评价他们
的II型糖尿病风险
样品收集与DNA提取
所有344个粪便样品来自344个居住于中国南方的中国个体,由3家当地医院所收集,比如:深圳第二人民医院、中国深圳北大医院和广东省人民医院医学研究中心,包括344样本用于MWAS。根据1999年WHO发布的标准进行II型糖尿病诊断(Alberti,K.G.& Zimmet,P.Z.Definition,diagnosis and classification of diabetes mellitus and itscomplications.Part 1:diagnosis and classification of diabetes mellitusprovisional report of a WHO consultation.Diabetic medicine:a journal of theBritish Diabetic Association15,539-553,doi:10.1002/(SICI)1096-9136(199807)15:7<539::AID-DIA668>3.0.CO;2-S(1998),通过参照将其并入本文),诊断出的II型糖尿病患者作为病例组,其他非糖尿病个体作为对照组(表2)。病人和健康对照组要求提供冷冻的粪便样本。在家里获得新鲜的粪便样本,并立即将样本置于冰箱中进行冷冻。冷冻的粪便样品送到深圳华大基因研究院(BGI-shenzhen),保存于-80℃备用。
每份取200mg冷冻粪便样品,悬浮于含250μl硫氰酸胍、0.1M Tris(pH 7.5)和40μl10%月桂酰肌氨酸的溶液中。DNA提取方法与前述相同(Manichanh,C.et al.Reduceddiversity of fecal microbiota in Crohn's disease revealed by a metagenomicapproach.Gut 55,205-211,doi:gut.2005.073817[pii]10.1136/gut.2005.073817(2006),通过参照将其并入本文)。DNA浓度及分子量大小分别采用Nanodrop仪器(ThermoScientific)和琼脂糖凝胶电泳进行测定。
表2 样本采集统计
DNA文库构建以及测序
DNA文库构建按照测序仪器(Illumina Genome Analyzer IIx测序平台)制造商Illumina公司提供的操作指南进行。利用与其他地方描述的相同的流程进行簇生成、模板杂交、等温扩增、线性化、阻断变性以及与测序引物杂交等过程。
发明人针对每个样本构建具有插入长度为350bp的双末端(paired-end,PE)文库,通过高通量测序获得2000万对PE测序序列。这些测序序列的长度为75~100bp(第一期样品测序序列长度为75bp和90bp;第二期样品测序序列长度为100bp)。提取高质量的测序序列通过从Illumina的原始数据中过滤去除含‘N’的低质量序列、接头污染序列和宿主基因组污染序列。平均来说,高质量数据占全部数据的98.1%。并且,PE文库的实际插入长度介于313bp和381bp之间。
肠道宏基因组参考基因集构建
为了鉴定II型糖尿病关联的宏基因组标志物,发明人首先构建了一个全面的宏基因组参考基因集,其中包含中国个体以及II型糖尿病特异的肠道微生物,由于已有的肠道宏基因组参考基因集(MetaHIT基因集)不包含上述数据。发明人来自145个中国个体(71个患者,74个健康人)的粪便DNA样本进行全基因组测序(WGS),每个样品获得平均2.61Gb(1,580万)双末端测序序列,去除人体DNA污染和接头污染后共获得378.4Gb高质量数据。对所有145样本进行从头重装并进行宏基因预测。发明人将这些数据整合到预测来自欧洲人肠道基因集并具有330万基因的MetaHIT基因集中(Qin,J.et al.A human gut microbialgene catalogue established by metagenomic sequencing.Nature464,59-65,doi:nature08821[pii]10.1038/nature08821(2010),通过对照将其并入本文),从而得到一个包含4,267,985个预测的基因的更新的基因集。这些基因中1,090,889个基因独特地来自中国人的肠道,与MetaHIT基因集相比,测序序列覆盖度增加了10.8%。
计算基因的相对丰度
使用SOAP2将来自每个样本的高质量的测序序列与基因集进行比对,比对标准为“相似性>90%”。只有两种比对情况被接受:i).插入长度正确的双末端测序序列应该匹配到某个基因上;ii)双末端测序序列中的其中一端应该匹配到某个基因的尾部,假设测序序列另一端匹配到基因外部。在这两种情况下,匹配上的测序序列都算做一个拷贝。
对于任意一个样品S,发明人通过以下步骤计算所述相对丰度:
步骤1:计算每个基因的拷贝数
步骤2:计算基因i的相对丰度
其中
αi为基因i在样品S中的相对丰度;
Li:基因i的长度;
xi:基因i在样品S中被检测到的次数(匹配的测序序列的数目);
bi;表示在来自样品S的测序数据中基因i的拷贝数;
bj;表示在来自样品S的测序数据中基因j的拷贝数。
图谱准确性评估
发明人应用Audic和Claverie(1997)的方法(Audic,S.&Claverie,J.M.Thesignificance of digital gene expression profiles.Genome Res 7,986-995(1997),通过参照将其并入本文)对相对丰度估计(relative abundance estimate)的理论精确性进行评估。假设从基因i获得了xi个测序序列,其只占据了样本全部测序序列中的一小部分,通过泊松分布(Poisson distribution)对xi的分布进行估计。将样本中全部测序序列(reads)的数目记录为N,则N=∑ixi。假设所有的基因都是相同长度的,则基因i的相对丰度值ai可以简单地表示为ai=xi/N。进而,发明人可以按照下列公式评估从相同的基因i获得yi个测序序列的期望概率,
其中,a'i=yi/N表示由yi个测序序列计算得到的相对丰度(Audic,S.& Claverie,J.M.The significance of digital gene expression profiles.Genome Res7,986-995(1997),通过参照将其并入本文)。根据该公式,发明人通过设定ai为0.0~1e-5,设定N为0~4000万,以便计算99%置信区间的a'i,并且进一步评估检测误差率。
利用两步宏基因组关联研究鉴定标志物
为了确定II型糖尿病关联的宏基因组标志物,发明人设计并提出了一种两步宏基因组关联研究策略。发明人对145个样本的不同图谱的亚群进行了研究,之后经校正后进行群体分层分析,这可能会受到非II型糖尿病相关的因素的影响,为此,发明人采用改进的EIGENSTRAT方法对数据进行分析(Price,A.L.et al.Principal components analysiscorrects for stratification in genome-wide association studies.Naturegenetics 38,904-909,doi:10.1038/ng1847(2006),通过参考将其并入本文)。然而,与基因组关联分析(GWAS)中的亚群校正不同,发明人对微生物丰度而非基因型进行分析。利用Wilcoxon轶和检测方法对基因谱进行校正来鉴定II型糖尿病患者和对照中宏基因组基因含量的差别。分析结果显示,通过与零假设(null hypothesis)的期望分布相比,大量的微生物基因具有非常小的P值,这意味着这些基因是真正与II型糖尿病相关联的肠道微生物基因。为了验证第一期鉴定出的相关性的显著性,发明人利用另外199个中国个体进行第二期分析。在第二期,发明人还使用了全基因组测序(WGS)并且获得总共830.8Gb的测序数据,其中每个样本平均2360万双末端测序序列。然后发明人对P<0.05的第一期278,167个基因进行评估,发现在第二期研究样本中这些基因中的大多数仍然与II型糖尿病相关。发明人接着在第二期分析中对阳性错误率(FDR)进行控制,并且从对应FDR为2.5%(第二期,P<0.01)的这些基因中确定出52,484个与II型糖尿病关联的基因标志物。
基于肠道微生物的II型糖尿病分类
为了开发利用肠道微生物进行疾病分类的潜力,发明人开发了一种基于基因标记物的疾病分类系统,使用的基因标记物是利用最小冗余-最大相关特征选择法(mRMR)筛选出来的50个基因标记物,其被定义为一组最优基因集。为了直观地评价基于这50个肠道微生物基因标记物的II型糖尿病的风险,发明人计算出一个健康指数(表3和图2),这与我们群体中II型糖尿病患者的比率相吻合(图1a)。并且,ROC(receiver operatingcharacteristic)曲线下面积(AUC)为0.81(95%置信区间为:[0.76-0.85])(图1b),意味着基于肠道微生物的肠道健康指数可以用来精确分类II型糖尿病个体。当阈值为0.046时,灵敏度和特异性的总和均达到最大值,分别为0.882和0.58。