CN107208149B - 结直肠癌相关疾病的生物标志物 - Google Patents

结直肠癌相关疾病的生物标志物 Download PDF

Info

Publication number
CN107208149B
CN107208149B CN201580074167.5A CN201580074167A CN107208149B CN 107208149 B CN107208149 B CN 107208149B CN 201580074167 A CN201580074167 A CN 201580074167A CN 107208149 B CN107208149 B CN 107208149B
Authority
CN
China
Prior art keywords
mlg
seq
subject
kit
biomarker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580074167.5A
Other languages
English (en)
Other versions
CN107208149A (zh
Inventor
冯强
梁穗莎
贾慧珏
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN107208149A publication Critical patent/CN107208149A/zh
Application granted granted Critical
Publication of CN107208149B publication Critical patent/CN107208149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了用于预测与微生物相关的疾病(特别是结直肠癌和结直肠中的进展性腺癌)的风险的生物标志物和方法。

Description

结直肠癌相关疾病的生物标志物
相关申请的交叉引用
领域
本发明涉及用于预测与微生物相关的疾病,特别是结直肠癌和结直肠中的进展性腺瘤的风险的生物标志物和方法。
背景
结直肠癌(CRC)是全球前三位最常诊断的癌症之一,是癌症死亡的主要原因。其在较发达国家的发病率较高,但在诸如东亚、西班牙和东欧等历史低风险地区,由于所谓的西方生活方式,发病率正在迅速上升。在结直肠癌的发展中,遗传学改变累积了多年,通常涉及肿瘤抑制基因腺瘤性结肠息肉病基因(APC)的丧失,以及随后分别发生在KRAS、PIK3CA和TP53中的激活或失活突变(Brenner,H.,Kloor,M.&Pox,C.P.Colorectalcancer.Lancet383,1490-502(2014),通过引用并入本文)。虽然大多数CRC病例是散发性的,但在其出现之前通常发生异常腺瘤,该异常腺瘤可进展为恶性形式,这称为腺瘤-癌顺序。结直肠腺瘤和结直肠癌的早期诊断不仅有助于防止死亡,而且也有助于降低手术干预的费用。
CRC是研究最多的与肠道微生物群相关的疾病之一。然而,该疾病的因果关系通常通过施用抗生素混合剂疗法来研究,所述抗生素混合剂疗法清除肠道微生物群而无法获知起作用的确切微生物菌株和基因。相比于正常结肠组织,在结直肠癌中检测到了梭杆菌属(Fusobacterium),并且发现其富集在腺瘤中。具核梭杆菌(Fusobacterium nucleatum)(一种牙周病病原体),被发现能够促进ApcMin/+小鼠中肠道肿瘤的骨髓浸润,并与小鼠和人中的促炎基因诸如Ptgs2(COX-2)、Scyb1(IL8)、Il6、Tnf(TNFα)和Mmp3的表达上调相关(Kostic,A.D.等,Fusobacterium nucleatum potentiates intestinal tumorigenesis andmodulates the tumor-immune microenvironment.Cell Host Microbe14,207-215(2013),通过引用并入本文)。然而,目前尚不清楚,是否有更多的细菌或古细菌可作为结直肠癌病因的标志物或促成病因。
目前CRC的检测,诸如可屈性乙状结肠镜检查和结肠镜检查,都是侵入性的,并且患者可能会在该检测过程和肠道准备过程中感到不舒服或不愉快。肠道微生物群与免疫系统之间的相互作用在肠内和肠外的许多疾病中具有重要作用(Cho,I.&Blaser,M.J.Thehuman microbiome:at the interface of health and disease.Nature Rev.Genet.13,260-270(2012),通过引用并入本文)。粪便DNA的肠道微生物群分析有潜力被用作无创性检测,以发现可用作CRC患者早期诊断的筛选工具的特异性生物标志物,从而获得更长的生存时间和更好的生活质量。
概要
本公开内容的实施方案旨在至少一定程度地解决现有技术中存在的至少一个问题。
本发明基于发明人的以下发现:
肠道微生物群的评估和表征已成为人类疾病(包括结直肠癌)的主要研究领域。本发明人首次针对来自健康对照、结直肠癌和腺瘤患者的粪便样品进行宏基因组全基因组鸟枪法测序。为了对结直肠癌和腺瘤患者中的肠道微生物含量进行分析,本发明人进行了宏基因组关联分析(Metagenome-Wide Association Study)(MGWAS)方案(Qin,J.等Ametagenome-wide association study of gut microbiota in type 2diabetes.Nature 490,55-60(2012),通过引用并入本文)。为了比较健康对照组、进展性腺瘤组和癌症患者组的粪便微生物群系,鉴定了相对丰度在任意两组之间展现出显著差异的基因(p<0.05,Kruskal-Wallis检验)。随后根据其在所有样品中的丰度变化,这些标记基因被聚类形成MLG(宏基因组连锁群)(Qin等,2012,同上),并且本发明人鉴定了这些肿瘤的MLG特征。然后本发明人鉴定并验证了15个用于结直肠癌的早期和无创性诊断的MLG,以及10个用于结直肠腺瘤的早期和无创性诊断的MLG。为了利用这些基于肠道微生物群的CRC分类的潜力,本发明人通过分别基于15个MLG和10个MLG的随机森林模型计算了疾病的概率。本发明人的数据为表征与CRC风险相关的肠道宏基因组提供了具有洞察力的见解,也为以后研究肠道宏基因组在其它相关病症的病理生理学中的作用提供了一个范例,同时还揭示了基于肠道-微生物群的方法用于评估处于此类病症风险中的个体的潜在用途。
据信,上述15个MLG和10个MLG对于改善CRC的早期检测具有重要价值,原因如下。第一,与常规标志物相比,本发明的标志物更特异和灵敏。第二,粪便分析具备准确性、安全性、经济可承受性和患者依从性。粪便样品是可运输的。与需要肠道制备的结肠镜检查相比,本发明涉及舒适且无创的体外方法,因此人们更容易参与给定的筛查程序。第三,本发明的标志物也可用作CRC患者的治疗监测工具,以检测对治疗的反应。
因此,在第一方面,本发明提供了用于在受试者中预测或诊断与微生物群相关的疾病或确定受试者是否具有形成所述疾病的风险的生物标志物组。
在第二方面,本发明提供了用于在受试者中预测或诊断与微生物群相关的疾病,或确定受试者是否具有形成所述疾病的风险的试剂盒,其包含用于测定样品中的本发明的生物标志物组的每种生物标志物的水平或其量的试剂。
在第三方面,本发明提供了用于测定本发明的生物标志物组的每种生物标志物的水平或其量的试剂在制备试剂盒中的用途,所述试剂盒用于在受试者中预测或诊断与微生物群相关的疾病或用于确定受试者是否具有形成所述疾病的风险。
在第四方面,本发明提供了用于在受试者中预测或诊断与微生物群相关的疾病或确定受试者是否具有形成所述疾病的风险的方法。
附图说明
根据以下描述,并结合附图,本公开内容的各个方面及优点将变得明显并且易于理解,其中:
图1示出了肠道MLG能够将结直肠癌样品与健康对照样品进行分类。(a)随着MLG数量的增加,癌的随机森林分类中5次10折交叉验证的误差的分布情况。使用MLG(>100个基因)在对照和癌症样品(n=55和41)中的相对丰度训练该模型。黑色曲线表示5次验证的平均值(灰线)。黑色直线标示最优集中的MLG数目(15个MLG)(表2-1,表2-2)。即使将年龄和BMI因素与MLG一起考虑,仍然筛选得到相同的MLG。(b)根据(a)中的模型的交叉验证训练集中的癌的概率的盒须图(box-and-whisker plot)。(c)训练集的接受者工作曲线(ROC)。在临界值(cut-off)为0.5时,AUC为98.34%,95%的置信区间(CI)为96.29-100%。(d)由8个对照样品(黑色方块)、47个进展性腺瘤样品(空心圆)和5个癌症样品(实心黑圈)组成的测试集的分类结果。(e)测试集的ROC。在临界值为0.5时,AUC为96%,95%的CI为87.88-100%。如果癌的概率≥0.5,则该受试者处于患结直肠癌的风险中。图1的结果表明,上述15个MLG可用作诊断结直肠癌和/或确定患结直肠癌的风险的生物标志物,且具备高灵敏度和高特异性。
图2示出了肠道MLG能够将进展性腺瘤样品与健康对照样品进行分类。(a)随着MLG数量增加,进展性腺瘤的随机森林分类中5次10折交叉验证的误差的分布情况。使用MLG(>100个基因)在对照组和进展性腺瘤样品(n=55和42)中的相对丰度训练该模型。黑色曲线表示5次验证的平均值(灰线)。黑色直线标示最优集中的MLG数目(10个MLG)(表6-1,表6-2,表7)。即使将年龄和BMI因素与MLG一起考虑,仍然筛选得到相同的MLG。(b)根据(a)中的模型的交叉验证训练集中的进展性腺瘤的概率的盒须图(box-and-whisker plot)。(c)训练集的接受者工作曲线(ROC)。在临界值为0.5时,AUC为87.38%,95%的置信区间(CI)为80.21-94.55%。(d)由15个对照样品(空心圆)和15个进展性腺瘤样品(实心黑圈)组成的测试集的分类结果。(e)测试集的ROC。在最佳临界值为为0.4572时,AUC为90.67%,真阳性率(TPR)为1,假阳性率(FPR)为0.2667。如果结直肠腺瘤的概率≥0.4572(最佳临界值),则该受试者处于患结直肠腺瘤的风险中。图2的结果表明,上述10个MLG可用作诊断进展性腺瘤和/或确定患进展性腺瘤的风险的生物标志物,且具备高灵敏度和高特异性。
详述
本文使用的术语具有本发明相关领域的普通技术人员通常理解的含义。然而,为了更好地理解本发明,相关术语的定义和解释如下。
术语诸如“一个/一种(a)”、“一个/一种(an)”和“该(the)”并不旨在仅指单个实体,而且还包括可以使用具体示例来说明的一个种类。
根据本发明,术语“生物标志物”(也称为“生物学标志物”),是指受试者的生物学状态或状况的可测量指标。此类生物标志物可以是受试者中的任何物质,例如核酸标志物(例如DNA)、蛋白质标志物、细胞因子标志物、趋化因子标志物、糖类标志物、抗原标志物、抗体标志物、物种标记(种/属标志物)和功能标志物(KO/OG标志物)等,只要它们与受试者的特定生物学状态或状况(例如疾病)相关。通常通过测量和评估生物标志物以检测正常生物过程、病理过程或对治疗干预的药理学应答,并且生物标志物在许多科学领域中都是有用的。
根据本发明,术语“生物标志物组”是指一组生物标志物(即,两种或更多种生物标志物的组合)。
根据本发明,术语“与微生物群相关的疾病”是指与肠道中的微生物群的失衡相关的疾病。例如,所述疾病可由肠道中的微生物群的失衡引起、诱发或加剧。这种疾病可以是结直肠癌的进展性腺瘤或结直肠恶性肿瘤/癌。
根据本发明,术语“受试者”是指动物,特别是哺乳动物,诸如灵长类动物,优选人。
根据本发明,表述“结直肠癌(colorectal cancer)”具有与“结直肠癌(colorectal carcinoma)”相同的含义。
根据本发明,表述“进展性腺瘤”和“结直肠进展性腺瘤”具有与“结直肠癌中的进展性腺瘤”相同的含义。
根据本发明,表述“临界值(cutoff)”和“临界值(cut-off)”具有相同的含义,是指预测的临界值。可以通过常规实验(例如通过平行检测来自已知生理状态的受试者的样品中的生物标志物的相对丰度)获得该预测的临界值。
根据本发明,术语“MLG”被定义为宏基因组中的一组遗传物质,其在物理上可能连接形成一个单元而不是独立分布(参见,Qin,J.等Ametagenome-wide association studyof gut microbiota in type 2diabetes.Nature 490,55-60(2012),其全部内容通过引用并入本文)。MLG使得不再需要完全确定存在于宏基因组中的特定微生物种类,这一点是非常重要的,因为目前还存在大量未知生物并且细菌之间存在频繁的侧向基因转移(LGT)。在本发明中,MLG是指具有一致丰度水平和分类学分配的一组基因。
根据本发明,术语MLG的“特异性片段”是MLG的一个片段,其对于该MLG是独特的。可使用常规方法来确定片段对于其所源自的MLG是否是独特的。例如,可将该片段的序列输入公共数据库(诸如GenBank)并执行BLAST程序。如果该片段仅存在于数据库中的一个物种中(在这种情况下,这个MLG将代表或对应该物种),或者如果数据库中不存在与所述片段具有至少90%同一性(诸如95%同一性)的同源物(在这种情况下,该MLG将指未知物种),则该片段可被认为是独特的。如上所论述的,一个MLG通常是指一个特定的微生物物种(已知或未知的),因此MLG的“特异性片段”也可被认为是特定微生物物种的一个独特的基因组片段(即,该片段仅存在于特定微生物物种中)。
根据本发明,术语“同一性”是指两个多肽之间或两个核酸之间的匹配度。当用于比较的两个序列在某一位点具有相同的碱基或氨基酸单体亚单元时(例如,两个DNA分子的每一个中在某个位点都为腺嘌呤,或者两个多肽的每一个中的某一位点都为赖氨酸),所述两个分子在该位点是同一的。两个序列之间的百分比同一性是由两个序列共有的匹配位点的数目除以用于比较的位点总数×100的函数。例如,如果两个序列的10个位点中有6个匹配,则这两个序列具有60%的同一性。例如,DNA序列:CTGACT和CAGGTT共有50%的同一性(6个位点中有3个匹配)。通常,以产生最大同一性的方式进行两个序列的比较。这种比对可通过使用基于Needleman等人(J.Mol.Biol.48:443-453,1970)的方法的计算机程序(诸如Align程序(DNAstar,Inc.))来进行。
根据本发明,表述“用于测定生物标志物的水平或其量的试剂”是指可用于定量或测量样品中的生物标志物的水平或其量的试剂。基于本发明所提供的生物标志物的序列,这样的试剂可通过本领域公知的常规方法容易地设计或获得。例如,这样的试剂包括但不限于,可用于通过例如实时PCR来定量或测量生物标志物的水平或其量的PCR引物;可用于通过例如定量Southern印迹来定量或测量生物标志物的水平或其量的探针;可用于定量或测量生物标志物的水平或其量的微阵列(例如,基因芯片)等。另外,如本领域已知的,第二代测序方法或第三代测序方法也可用于定量或测量生物标志物的水平或其量。因此,这样的试剂也可以是可商购的用于进行第二代测序方法或第三代测序方法的试剂。
根据本发明,表述“能够特异性扩增”特定核酸或特定序列的引物是指当用于扩增(例如PCR扩增)时,所述引物与所述特定核酸或序列特异性退火,以及产生独特的扩增产物(即,不与其它核酸或序列退火或产生其他副产物)。
根据本发明,表述“能够与特定核酸或特定序列特异性杂交的探针”是指当在严格条件下用于杂交或检测时,所述探针与所述特定核酸杂交酸或序列特异性退火并与其杂交,但不与其它核酸或序列退火或与其杂交。
基于特定序列(诸如特定MLG或其特异性片段)设计所述引物或探针,是本领域技术人员的公知常识。例如,此类公知常识可见于各种教科书(参见例如,J.Sambrook等,Molecular Cloning:Laboratory Manual,第二版,Cold Spring Harbor LaboratoryPress,1989;F.M.Ausubel等,Short Protocols in Molecular Biology,第三版,JohnWiley&Sons,Inc.;以及许多论文,如Buck等(1999),Lowe等(1990),等等。
根据本发明,术语“第二代测序方法”是指近些年开发的新一代DNA测序方法,包括例如Illumina GA,Roche 454,ABI Solid;并且与传统的测序方法(诸如,Sanger测序方法)不同。第二代测序方法与传统测序方法(诸如,Sanger测序方法)的区别在于第二代测序方法通过边合成边测序的方式来分析DNA序列。第二代测序方法具有以下有利方面:1)成本低,为传统测序方法成本的1%;2)高通量,能够同时对多个样品进行测序,并且一次Solexa测序即可产生约500亿(50G)碱基的数据;3)高精度(大于98.4%),有效解决了多重重复序列读出的问题。另一方面,当要测序的序列的数量已被预先确定时,高测序通量又提高了序列的测序深度(例如,每个序列可被测序多次),从而确保测序结果的可信性。
根据本发明,术语“第三代测序方法”是指最近开发的新一代单分子测序技术。第三代测序技术提供优于当前测序技术的有利方面,包括(i)更高的通量;(ii)更短的周转时间(例如在数分钟内以高倍覆盖度测序后生动物基因组);(iii)更长的测序长度以增强从头组装(de novo assembly),并使得能够直接检测单体型(haplotypes)和甚至全染色体定相(whole chromosome phasing);(iv)更高的一致准确度,以使得能够进行稀有变异检测;(v)少量起始材料(理论上只需要单个分子即可进行测序);和(vi)低成本,其中以低于100美元的价格实现对人类基因组的高倍覆盖度测序已成为社会的合理目标。关于第三代测序方法的更多细节,参见例如,Eric E.Schadt等,A window into third-generationsequencing,Human Molecular Genetics,2010,第19卷,Review Issue 2,R227-R240,通过引用并入本文。
根据本发明,术语“相对丰度”具有本领域已知的常规含义,并且可通过本领域已知的方法计算。例如,可通过Qin,J.等A metagenome-wide association study of gutmicrobiota in type 2diabetes.Nature 490,55-60(2012)(通过引用并入本文)所公开的方法来测定或计算基因(即生物标志物)或MLG的相对丰度。
本领域技术人员将理解,提供上述术语定义以更好地理解本发明,但上述术语定义无意限定本发明,除了如权利要求中所概述的外。
在第一方面,本发明提供了用于在受试者中预测或诊断与微生物群相关的疾病或确定受试者是否具有形成所述疾病的风险的生物标志物组,其包含以下生物标志物(所有生物标志物列于表7中):
(1)MLG 317或其一个或多个特异性片段,所述MLG 317由SEQ ID NO:933-1052组成;
(2)MLG 3770或其一个或多个特异性片段,所述MLG 3770由SEQ ID NO:1053-1281组成;和
(3)MLG 3840或其一个或多个特异性片段,所述MLG 3840由SEQ ID NO:238-639组成;
任选地,所述生物标志物组还包含以下生物标志物中的一种或多种:
(4)MLG 665或其一个或多个特异性片段,所述MLG 665由SEQ ID NO:640-932组成;
(5)MLG 721或其一个或多个特异性片段,所述MLG 721由SEQ ID NO:120-237组成;
(6)MLG 1738或其一个或多个特异性片段,所述MLG 1738由SEQ ID NO:1471-2436组成;
(7)MLG 1340或其一个或多个特异性片段,所述MLG 1340由SEQ ID NO:2893-3067组成;
(8)MLG 5954或其一个或多个特异性片段,所述MLG 5954由SEQ ID NO:1-119组成;
(9)MLG 711或其一个或多个特异性片段,所述MLG 711由SEQ ID NO:1282-1470组成;和
(10)MLG 4668或其一个或多个特异性片段,所述MLG 4668由SEQ ID NO:2437-2892组成。
在优选实施方案中,本发明的生物标志物组包含如(1)-(8)中定义的生物标志物。
如本领域技术人员已知的,特异性片段可具有任何长度,只要这样的片段对于其所源自的MLG或由该MLG表示的物种是独特的(即,片段不存在于其它MLG或其它物种中)。然而,为方便起见,所述特异性片段的长度可以是至少30bp,或至少40bp,或至少50bp,或至少60bp,或至少70bp,或至少80bp,或至少90bp,或至少100bp,或至少150bp,或至少200bp,或至少250bp,或至少300bp,或至少350bp,或至少400bp,或至少450bp,或至少500bp,或至少600bp,或至少700bp,或至少800bp,或至少900bp,或至少1000bp,或至少1500bp,或至少2000bp。
例如,在优选实施方案中,本发明的生物标志物组还可由以下项中的任一项或多项表征:
(1)所述MLG 5954的一个或多个特异性片段选自SEQ ID NO:1-119或其任意组合;
(2)所述MLG 721的一个或多个特异性片段选自SEQ ID NO:120-237或其任意组合;
(3)所述MLG 3840的一个或多个特异性片段选自SEQ ID NO:238-639或其任意组合;
(4)所述MLG 665的一个或多个特异性片段选自SEQ ID NO:640-932或其任意组合;
(5)所述MLG 317的一个或多个特异性片段选自SEQ ID NO:933-1052或其任意组合;
(6)所述MLG 3770的一个或多个特异性片段选自SEQ ID NO:1053-1281或其任意组合;
(7)所述MLG 711的一个或多个特异性片段选自SEQ ID NO:1282-1470或其任意组合;
(8)所述MLG1738的一个或多个特异性片段选自SEQ ID NO:1471-2436或其任意组合;
(9)所述MLG 4668的一个或多个特异性片段选自SEQ ID NO:2437-2892或其任意组合;和
(10)所述MLG1340的一个或多个特异性片段选自SEQ ID NO:2893-3067或其任意组合。
在优选实施方案中,所述疾病是结直肠中的进展性腺瘤。
在优选实施方案中,所述受试者是哺乳动物,诸如灵长类动物,优选为人。
在优选实施方案中,本发明的生物标志物组用于区分患有进展性腺瘤的患者与健康受试者。
在第二方面,本发明提供了试剂盒,所述试剂盒用于在受试者中预测或诊断与微生物群相关的疾病,或确定受试者是否具有处于形成所述疾病的风险,其包含用于测定根据本发明的生物标志物组的每种生物标志物在样品中的水平或其量的试剂。
在优选实施方案中,用于测定所述生物标志物组的每种生物标志物的水平或其量的试剂选自:
(a)引物组,其包含:
(a1)能够特异性扩增MLG 317或其一个或多个特异性片段的一种或多种引物,所述MLG 317由SEQ ID NO:933-1052组成;
(a2)能够特异性扩增MLG 3770或其一个或多个特异性片段的一种或多种引物,所述MLG 3770由SEQ ID NO:1053-1281组成;和
(a3)能够特异性扩增MLG 3840或其一个或多个特异性片段的一种或多种引物,所述MLG 3840由SEQ ID NO:238-639组成;
任选地,所述引物组还包含以下引物的一种或多种:
(a4)能够特异性扩增MLG 665或其一个或多个特异性片段的一种或多种引物,所述MLG 665由SEQ ID NO:640-932组成;
(a5)能够特异性扩增MLG 721或其一个或多个特异性片段的一种或多种引物,所述MLG 721由SEQ ID NO:120-237组成;
(a6)能够特异性扩增MLG 1738或其一个或多个特异性片段的一种或多种引物,所述MLG 1738由SEQ ID NO:1471-2436组成;
(a7)能够特异性扩增MLG 1340或其一个或多个特异性片段的一种或多种引物,所述MLG 1340由SEQ ID NO:2893-3067组成;
(a8)能够特异性扩增MLG 5954或其一个或多个特异性片段的一种或多种引物,所述MLG 5954由SEQ ID NO:1-119组成;
(a9)能够特异性扩增MLG 711或其一个或多个特异性片段的一种或多种引物,所述MLG 711由SEQ ID NO:1282-1470组成;和
(a10)能够特异性扩增MLG 4668或其一个或多个特异性片段的一种或多种引物,所述MLG 4668由SEQ ID NO:2437-2892组成;
(b)探针组,其包含:
(b1)能够与MLG 317或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 317由SEQ ID NO:933-1052组成;
(b2)能够与MLG 3770或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 3770由SEQ ID NO:1053-1281组成;和
(b3)能够与MLG 3840或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 3840由SEQ ID NO:238-639组成;
任选地,所述探针组还包含以下探针的一种或多种:
(b4)能够与MLG 665或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 665由SEQ ID NO:640-932组成;
(b5)能够与MLG 721或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 721由SEQ ID NO:120-237组成;
(b6)能够与MLG 1738或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 1738由SEQ ID NO:1471-2436组成;
(b7)能够与MLG 1340或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 1340由SEQ ID NO:2893-3067组成;
(b8)能够与MLG 5954或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 5954由SEQ ID NO:1-119组成;
(b9)能够与MLG 711或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 711由SEQ ID NO:1282-1470组成;和
(b10)能够与MLG 4668或其一个或多个特异性片段特异性杂交的一种或多种探针,所述MLG 4668由SEQ ID NO:2437-2892组成;
(c)包含(a)的引物组和/或(b)的探针组的微阵列;
(d)进行第二代测序方法或第三代测序方法的试剂;和
(e)(a)-(d)的任意组合。
在优选实施方案中,所述引物组包含如(a1)-(a8)中定义的引物。
在优选实施方案中,所述探针组包含如(b1)-(b8)中定义的探针。
在优选实施方案中,该试剂盒通过包括以下步骤的方法,在受试者中预测或诊断与微生物群相关的疾病,或确定受试者是否具有形成所述疾病的风险:
(1)使用所述试剂盒来测定来自所述受试者的样品中的根据本发明的生物标志物组的每种生物标志物的水平或其量;
(2)通过使用多元统计模型(诸如随机森林模型)将所述样品中的每种生物标志物的水平或其量与训练数据集进行比较来计算所述疾病的概率;
其中当所述疾病的概率大于临界值时,表明所述受试者患有所述疾病或具有形成所述疾病的风险。
在优选实施方案中,所述训练数据集包含关于多个患有所述疾病的受试者和多个健康受试者的每种生物标志物的水平或其量的数据。
在优选实施方案中,所述训练数据集包含表8中的数据,并且当概率大于临界值0.4572时,表明所述受试者患有所述疾病或具有形成所述疾病的风险。
在优选实施方案中,所述受试者是哺乳动物,例如灵长类动物,优选为人。
在优选实施方案中,所述样品是粪便样品。
在优选实施方案中,所述每种生物标志物的水平或其量是所述样品中每种生物标志物的相对丰度。
在优选实施方案中,所述疾病是结直肠中的进展性腺瘤。
在优选实施方案中,所述试剂盒还包含另外的试剂,诸如用于处理所述样品的试剂(例如无菌水),用于进行PCR扩增的试剂(例如聚合酶、dNTP和扩增缓冲液),以及用于进行杂交的试剂(诸如标记缓冲液、杂交缓冲液和洗涤缓冲液)。
在第三方面,本发明提供了用于测定根据本发明的生物标志物组的每种生物标志物的水平或其量的试剂在制备试剂盒中的用途,所述试剂盒用于在受试者中预测或诊断与微生物群相关的疾病或确定受试者是否具有形成所述疾病的风险。
在优选实施方案中,所述用于测定所述生物标志物组的每种生物标志物的水平或其量的试剂是如上所定义的。
在优选实施方案中,所述试剂盒通过包括以下步骤的方法,在受试者中预测或诊断与微生物群相关的疾病,或确定受试者是否具有形成所述疾病的风险:
(1)使用所述试剂盒来测定样品中根据本发明的生物标志物组的每种生物标志物的水平或其量;
(2)通过使用多元统计模型(诸如随机森林模型)将所述样品中的每种生物标志物的水平或其量与训练数据集进行比较来计算所述疾病的概率;
其中当所述疾病的概率大于临界值时,表明所述受试者患有所述疾病或具有形成所述疾病的风险。
在优选实施方案中,所述训练数据集包含关于多个患有所述疾病的受试者和多个健康受试者的每种生物标志物的水平或其量的数据。
在优选实施方案中,所述训练数据集包含表8中的数据,并且当所述疾病的概率大于临界值0.4572时,表明所述受试者患有所述疾病或具有形成所述疾病的风险。
在优选实施方案中,所述受试者是哺乳动物,例如灵长类动物,优选为人。
在优选实施方案中,所述样品是粪便样品。
在优选实施方案中,所述每种生物标志物的水平或其量是所述样品中每种生物标志物的相对丰度。
在优选实施方案中,所述疾病是结直肠中的进展性腺瘤。
在优选实施方案中,所述试剂盒还包含另外的试剂,诸如用于处理样品的试剂(例如无菌水),用于进行PCR扩增的试剂(例如聚合酶、dNTP和扩增缓冲液),以及用于进行杂交的试剂(诸如标记缓冲液、杂交缓冲液和洗涤缓冲液)。
在第四方面,本发明提供了用于在受试者中预测或诊断与微生物群相关的疾病或确定受试者是否具有形成所述疾病的风险的方法,其包括以下步骤:
(1)测定来自所述受试者的样品中根据权利要求1至6中任一项所述的生物标志物组的每种生物标志物的水平或其量;
(2)通过使用多元统计模型(如随机森林模型)将所述样品中的每个生物标志物的水平或其量与训练数据集进行比较来计算所述疾病的概率;
其中当所述疾病的概率大于临界值时,表明所述受试者患有所述疾病或具有形成所述疾病的风险。
在优选实施方案中,所述训练数据集包含关于多个患有所述疾病的受试者以及多个健康受试者的每种生物标志物的水平或其量的数据。
在优选实施方案中,所述训练数据集包含表8中的数据,并且当所述疾病的概率大于临界值0.4572时,表明所述受试者患有所述疾病或具有形成所述疾病的风险。
在优选实施方案中,在步骤(1)中使用如上定义的试剂盒或如上定义的试剂。
在优选实施方案中,所述受试者是哺乳动物,例如灵长类动物,优选为人。
在优选实施方案中,所述样品是粪便样品。
在优选实施方案中,所述每种生物标志物的水平或其量是所述样品中每种生物标志物的相对丰度。
在优选实施方案中,所述疾病是结直肠中的进展性腺瘤。
在优选实施方案中,在体外进行所述方法。
在以下非限制性实施例中进一步举例说明本发明。除非另有说明,否则部分和百分比以重量计,度为摄氏度。所用的试剂皆是商购可得的。对于本领域普通技术人员而言显而易见的是,这些实施例虽然表示本发明的优选实施方案,但仅以说明的方式给出。
实施例
实施例1.鉴定和验证用于评估CRC相关疾病风险的生物标志物
1.样品收集和测序
1.1受试者和患者
在依照CRC国家筛选建议(Stadlmayr,A.et al.Nonalcoholic fatty liverdisease:an independent risk factor for colorectal neoplasia.J Intern Med270,41-49(2011),通过引用并入本文)进行的一个健康筛查程序中的那些参与者以及2010年至2012年期间在Oberndorf医院内科(奥地利萨尔斯堡Paracelsus医科大学的教学医院)进行过结肠镜检查(作为临床检查的部分)的那些疑似患有CRC的患者中进行研究。本研究获得当地伦理委员会(Ethikkommission des Landes Salzburg,批准号415-E/1262/2-2010)的批准,并获得所有参与者的知情同意书。
将泻药
Figure GDA0003173107060000161
(含有聚乙二醇59.0g、硫酸钠5.68g、碳酸氢钠1.68g、NaCl1.46g和氯化钾0.74g;Norgine,Marburg,德国)用于肠道准备,然后进行结肠镜检查。基于肉眼检查和组织学检测结果的组合分析,结肠镜检查结果被分为管状腺瘤、进展性腺瘤(即绒毛状或管状绒毛状特征,大小≥1cm或高度发育异常)或癌(Bond,J.H.Polyp guideline:diagnosis,treatment,and surveillance for patients with colorectal polypsACGColorectal Polyp Guideline.Am.J.Gastroenterol.95,3053-3063(2000),Winawer SJ&AG.,Z.The advanced adenoma as the primary target of screening.GastrointestEndosc Clin N Am12,1-9(2002),通过引用并入本文)。根据位置(即右结肠(包括盲肠、升结肠和横结肠),左结肠(从脾曲到乙状结肠),以及单独的直肠)对病灶进行分类。
初始分析囊括了来自147名年龄在45至86岁之间的白种人的数据,其中包括57名健康对照(24名男性,33名女性),44例进展性腺瘤患者(女性22例,男性22例)和46例癌患者(18例男性,28例女性)(表1-1)。另外9个样品(6个健康对照,3个进展性腺瘤样品,表1-1)也被用于基于MLG的癌分类器的测试集(图1d)。到目前为止,还没有研究以可比较的方式探究过上述给定的主题;因此,无法进行用于样品量计算的正式效能分析(formal poweranalysis)。但是,根据以前的16S和宏基因组鸟枪法测序对病人的粪便微生物的研究来判断,这是合理的样品量。将受试者在性别、年龄和体重指数(BMI)方面进行分层,以使得三组(对照组、进展性腺瘤组、癌组)在这些变量上可比较。在进展性腺瘤组中,14例的病灶位于右结肠(包括盲肠、升结肠和横结肠),15例的病灶位于左结肠(从脾曲至乙状结肠),15例的病灶位于直肠。在癌组中,8例的病灶位于右结肠,11例的病灶位于左结肠,27例的病灶位于直肠。结直肠癌由美国癌症联合委员会(AJCC)TNM分期系统(Greene,F.L.Current TNMstaging of colorectal cancer.Lancet.Oncol.8,572-3(2007),通过引用并入本文)进行分类。
表1-1:所有156个样品的临床资料
Figure GDA0003173107060000171
Figure GDA0003173107060000181
Figure GDA0003173107060000191
Figure GDA0003173107060000201
Figure GDA0003173107060000211
1.2粪便样品
从所有患者和受试者收集新鲜粪便样品。样品用无菌刮刀机械匀化,然后使用Sarstedt粪便取样系统(Sarstedt,Nümbrecht,德国)取4份等分试样。每个等分试样含有1g粪便并放置在无菌12ml冻存管中。然后将粪便等分试样储存在-20℃家用冰箱中,并在收集后的48小时内将其放置在冷藏包中运送至实验室,然后立即将其储存在-80℃。所有患者和受试者在过去3个月内没有接受过益生菌或抗生素。
1.3 DNA的提取
将粪便样品在冰上解冻,并按照制造商的说明书使用Qiagen QIAamp DNA StoolMini试剂盒(Qiagen)进行DNA提取。提取物用不含DNA酶的RNA酶处理以消除RNA污染。使用NanoDrop分光光度计,Qubit荧光计(使用Quant-iTTMdsDNA BR Assay试剂盒)和凝胶电泳测定DNA量。
1.4宏基因组测序和基因目录的构建
在Illumina平台(插入片段大小为350bp,读段(read)长度为100bp)上进行双末端宏基因组测序(paired-end metagenomic sequencing),并且如前所述(Qin等,2012,同上)使用SOAPdenovo v2.04(除对于-K 51-M3-F-u外,使用缺省参数)(Luo,R.等SOAPdenovo2:an empirically improved memory-efficient short-read de novoassembler.Gigascience1,18(2012),通过引用并入本文)对测序读段(read)进行质量控制并从头组装成重叠群(contig)。从头组装高质量的测序读段(平均每个样品含有5GB数据量),将鉴定的基因编入3.5M非冗余基因集,这使得平均每个样品中有76.3%的读段可以匹配上。
使用GeneMark v2.7d对组装的重叠群进行基因预测。使用BLAT(Kent,W.J.BLAT--the BLAST-like alignment tool.Genome Res.12,656-64(2002),通过引用并入本文),除去冗余基因,其中以90%重叠度和95%同一性(不允许有缺口)作为临界值。通过使用与Qin等2012(同上)中相同的程序,将高质量的测序读段与基因目录进行比对来测定基因的相对丰度。
根据IMG数据库(v400),并使用先前详述(Qin等2012,同上)的内部流程,利用80%的重叠和65%的同一性,前10%的评分(BLASTN v2.2.24,-e 0.01-b 100-K 1-F T-m 8)对预测基因进行分类学分配。分配至门时,临界值为65%的同一性,分配至属时,临界值为85%同一性,分配至种时,临界值为95%的同一性;如果存在多次命中(multiple hits),则对于存在该疑问的分类群,其临界值为≥50%的一致性。
2.宏基因组关联分析(MGWAS)
为了比较健康对照、进展性腺瘤和癌症患者的粪便微生物群系,鉴定了相对丰度在上述任意两组之间展现出显著差异的基因(Benjamin-Hochberg q值<0.1,Kruskal-Wallis检验)。然后将这些标志物基因根据其在所有三组样品中的丰度变化聚类成MLG,这使得能够鉴定每组的微生物物种特征(Qin等,2012,同上)。147个样品中有9个含有超过20%的埃希氏杆菌属(Escherichia)(2个对照、2个腺瘤、5个癌症样品),随后该样品仅用在用于基于MLG的癌分类器的测试集中(图1d)。另外9个样品(6个健康对照、3个进展性腺瘤样品,表1-1)也用在用于上述分类器的测试集中。
如前所述,根据分类学及其组成基因的相对丰度进行MLG的分类学分配和丰度特征谱表征(Qin等2012,同上)。简而言之,将MLG分配至种需要MLG中超过90%的基因能够以超过95%的同一性,以及超过70%的查询重叠度比对到该种的基因组。将MLG分配至属,需要该MLG中超过80%的基因能够在DNA和蛋白质序列上均以至少85%同一性比对到该属的基因组上。
为了探索健康或肿瘤样品中的肠道微生物群系的特征,本发明人鉴定了在三组的任意两组中均显示出显著的丰度差异的130,715个基因(Kruskal-Wallis检验,Benjamin-Hochberg q值<0.1)。除了血清铁蛋白和对红肉的摄取状况外,除肿瘤状态以外没有一种表型在对照、腺瘤和癌症患者中均显示出显著的差异(p<0.05,Kruskal-Wallis检验,表1-2)。与健康和进展性腺瘤样品相比,58.9%的基因标志物在癌症样品中显著升高,表明它们对结直肠癌是特异的;另外24.3%的基因在癌症样品中的丰度显著高于对照样品,但在进展性腺瘤样品中具有中等水平。在具有下降趋势的基因中,与健康和进展性腺瘤样品相比,5388个基因(占总数的4.1%)在癌症样品中显著降低;2601个基因(占总数的2.0%)的丰度在癌症样品中显著低于对照样品,在进展性腺瘤样品中具有中等水平。这些在对照样品中富集的基因,而非那些在腺瘤或癌样品中富集的基因,被更多地匹配至京都基因与基因组百科全书(KEGG)通路。递增和递减基因数目的差异表明,在癌发展过程中病生菌(pathobionts)的增加比有益细菌的减少更为明显。根据各个基因在所有样品中丰度的共变化,将显著不同的基因聚类成126个MLG,这使得能够鉴定每组的微生物物种特征(Qin等,2012,同上)。
3.结直肠癌或腺瘤的基于MLG的分类
为了评价结直肠癌的粪便微生物群系的诊断价值,本发明人构建了可检测癌症样品的随机森林分类器。使用训练队列(集)的MLG丰度特征谱来训练随机森林模型(R.2.14,randomForest4.6-7软件包)(Liaw,Andy&Wiener,Matthew.Classification andRegression by randomForest,RNews(2002),第2/3卷,第18页,通过引用并入本文),从而选择MLG标志物的最优集。在测试集上测试该模型,并测定了预测误差。关于该随机森林模型,通过使用R vision 2.14中的“randomForest4.6-7包”,输入训练数据集(即训练样品中所选MLG的相对丰度特征谱)、样品疾病状态(训练样品的样品疾病状态为矢量,1表示病例,0表示对照)和测试数据集(即在测试集中所选MLG的相对丰度特征谱)。然后本发明人使用R软件中的randomForest包的随机Forest函数来构建分类,并且使用预测函数来预测测试集。输出的是预测结果(患病的概率;临界值是指最佳临界值,如果疾病的概率≥最佳临界值,则受试者处于疾病的风险中)。
使用对照、进展性腺瘤或癌症样品的MLG丰度特征谱,对随机森林模型(R 3.0.2,randomForest4.6-7包)进行10折交叉验证。对获得自5次10折交叉验证的交叉验证误差曲线(每条曲线为10个测试集的平均值)进行平均,并将该平均曲线中的最小误差加上该点处的标准偏差得到的数值用作临界值。列出误差小于该临界值的MLG标志物的所有集合(≤50),并选择具有最少数目的MLG的集合作为最优集。使用该MLG集计算腺瘤或癌的概率,并绘制ROC(R 3.0.2,pROC3包)。在测试集上进一步测试该模型,并测定了预测误差。
通过对由55个对照和41个癌症样品(表1-1)组成的训练集的5次重复的10折交叉验证(即50次测试),从而获得15个MLG标志物的最优选择(表2-1,表2-2)。简而言之,在由55个对照和41个癌样品组成的训练集中进行5次重复的10折交叉验证(即50次测试)。每次测试,随机森林测试均对每个MLG的重要性进行排序。本发明人挑选了前15个重要的MLG,并按照出现次数对mlg进行了排序。上述前15个MLG用于构建分类器。表5列出了MLG的重要性的排序。
我们的研究结果表明,上述15个MLG在训练集上表现良好,接受者工作曲线的曲线下面积(AUC)为98.34%(临界值=0.5,图1a、1b、1c,表3-1,表3-2,表4和表5)。测试集(8个对照样品,47个进展性腺瘤样品和5个癌样品)的分类误差较低,接受者操作曲线的曲线下面积(AUC)为96%(进展性腺瘤被认为是非癌,临界值=0.5,图1d、1e,表4),这与他们(进展性腺瘤)大多为良性这一性质一致。上述MLG标志物当中包括可能为口腔厌氧菌的mlg-75和mlg-84,前者显示出对腺瘤的高优势比(odds ratio)(表2-2),表明其在发病机制中的早期作用。其它MLG标志物包括马赛拟杆菌(Bacteroides massiliensis),mlg-2985、mlg-121和10种另外的分类学未定义的MLG(表2-2)。因此,由癌分类器选择出的MLG显示在腺瘤和癌中导致疾病恶化的肠道微生物群系的重要特征,并对这些肿瘤的早期和无创性诊断具有很大的潜力。
另外,表5中的结果显示,对于前2个重要的MLG(MLG 5045和MLG 121)的组合,AUC为0.91751663;对于前3个重要的MLG(MLG5045、MLG 121和MLG 75)的组合,AUC为0.970731707;对于前4个MLG的组合,AUC为0.959645233;对于前5个MLG的组合,AUC为0.975609756;对于前6个MLG的组合,AUC为0.978713969;对于前7个MLG的组合,AUC为0.980044346;对于前8个MLG的组合,AUC为0.985365854;对于前9个MLG,AUC为0.984035477;对于前10个MLG,AUC为0.981818182;对于前11个MLG,AUC为0.980931264;对于前12个MLG,AUC为0.979157428;对于前13个MLG,AUC为0.987583149;对于前14个MLG,AUC为0.986696231;以及对于前15个MLG,AUC为0.983370288。这些结果表明,MLG 5045和MLG121是15个MLG中最重要的生物标志物,MLG 5045和MLG121的组合足以诊断结直肠癌和/或确定患结直肠癌的风险,且具有高灵敏度和高特异性(AUC=0.91751663);该15个MLG中的其它MLG生物标志物的并入可以在一定程度上提高诊断或预测的灵敏度和特异度。特别地,这些结果还表明,前13个MLG的组合可以被认为是最优生物标志物组,其对结直肠癌的诊断或预测具有最优灵敏度和特异性(AUC=0.987583149)。
这些结果完全支持本文所鉴定的MLG(特别是MLG 5045和MLG121,任选地与这15个MLG中另外的MLG中的一个或多个组合)可用作诊断结直肠癌和/或确定患结直肠癌的风险的生物标志物,且具有高灵敏度和高特异性。
本发明人进一步直接研究了肠道MLG用于鉴定腺瘤的效用,其比结直肠癌更难筛选,但对于早期干预是重要的。
类似地,在由55个对照和42个腺瘤样品组成的训练集中进行5次重复的10折交叉验证(即50次测试)。每次测试,随机森林测试均对每个MLG的重要性进行了排序。本发明人挑选了前10个重要的MLG,并按照出现次数对MLG进行了排序。这前10个MLG用于构建分类器。表10中列出了MLG的重要性的排序。
在5次重复的10折交叉验证之后,随机森林模型选择了允许对训练集进行最优分类(55个对照和42个进展性腺瘤,表8和表9,图2b)的10个MLG(表6-1,表6-2,图2a),AUC为0.8738(临界值=0.5,图2c)。在测试集(由15个对照和15个进展性腺瘤组成的、且未使用的新样品)中,所有进展性腺瘤样品均被正确分类(临界值=0.4572,图2d,2e,表9)。因此,粪便MLG为结直肠进展性腺瘤的无创性检测提供了新的机会。
另外,表10中的结果显示,对于前2个重要MLG(MLG 317和MLG3770)的组合,AUC为0.782251082;对于前3个重要的MLG(MLG 317、MLG 3770和MLG 3840)的组合,AUC为0.805194805;对于前4个MLG的组合,AUC为0.773160173;对于前5个MLG的组合,AUC为0.795238095;对于前6个MLG的组合,AUC为0.780952381;对于前7个MLG的组合,AUC为0.895670996;对于前8个MLG的组合,AUC为0.896536797;对于前9个MLG的组合,AUC为0.884848485;对于前10个MLG的组合,AUC为0.873809524。这些结果表明,MLG 317、MLG3770和MLG 3840是这10个MLG中最重要的生物标志物,并且MLG 317、MLG 3770和MLG 3840的组合足以诊断结直肠进展性腺瘤和/或确定患结直肠进展性腺瘤的风险,且具有高灵敏度和高特异性(AUC=0.805194805);以及这10个MLG中的其它MLG生物标志物的并入可在一定程度上提高诊断或预测的敏感度和特异性。特别地,这些结果还表明,前8个MLG的组合可被认为是最优生物标志物组,其对结直肠进展性腺瘤的诊断或预测具有最优灵敏度和特异性(AUC=0.896536797)。
这些结果完全支持本文鉴定的MLG(特别是MLG 317、MLG 3770和MLG 3840,任选地与上述10个MLG中另外的MLG中的一个或多个组合)可用作诊断结直肠进展性腺瘤和/或确定患结直肠进展性腺瘤的风险的生物标志物,且具有高灵敏度和高特异性。
Figure GDA0003173107060000271
Figure GDA0003173107060000281
Figure GDA0003173107060000291
Figure GDA0003173107060000301
Figure GDA0003173107060000311
Figure GDA0003173107060000321
Figure GDA0003173107060000331
Figure GDA0003173107060000341
Figure GDA0003173107060000351
Figure GDA0003173107060000361
Figure GDA0003173107060000371
Figure GDA0003173107060000381
Figure GDA0003173107060000391
Figure GDA0003173107060000401
Figure GDA0003173107060000411
Figure GDA0003173107060000421
Figure GDA0003173107060000431
Figure GDA0003173107060000441
Figure GDA0003173107060000451
Figure GDA0003173107060000461
Figure GDA0003173107060000471
Figure GDA0003173107060000481
Figure GDA0003173107060000491
Figure GDA0003173107060000501
Figure GDA0003173107060000511
Figure GDA0003173107060000521
Figure GDA0003173107060000531
因此,本发明人通过基于相关基因标志物的随机森林模型,鉴定并验证了用于结直肠癌的早期和无创性诊断的15个MLG和用于结直肠腺瘤的早期和无创性诊断的10个MLG。并且本发明人构建了基于这些相关肠道微生物群的评估结直肠癌和腺瘤的风险的方法。

Claims (16)

1.一种用于在受试者中预测或诊断结直肠中的进展性腺瘤或确定受试者是否具有形成结直肠中的进展性腺瘤的风险的生物标志物组,其包含以下生物标志物:
(1)MLG 317,所述MLG 317由SEQ ID NO:933-1052所示的核酸组成;
(2)MLG 3770,所述MLG 3770由SEQ ID NO:1053-1281所示的核酸组成;和
(3)MLG 3840,所述MLG 3840由SEQ ID NO:238-639所示的核酸组成;
其中,所述生物标志物组用于区分患有进展性腺瘤的患者与健康受试者;所述受试者是人。
2.权利要求1所述的生物标志物组,其中所述生物标志物组还包含以下生物标志物中的一种或多种:
(4)MLG 665,所述MLG 665由SEQ ID NO:640-932所示的核酸组成;
(5)MLG 721,所述MLG 721由SEQ ID NO:120-237所示的核酸组成;
(6)MLG 1738,所述MLG 1738由SEQ ID NO:1471-2436所示的核酸组成;
(7)MLG 1340,所述MLG 1340由SEQ ID NO:2893-3067所示的核酸组成;
(8)MLG 5954,所述MLG 5954由SEQ ID NO:1-119所示的核酸组成;
(9)MLG 711,所述MLG 711由SEQ ID NO:1282-1470所示的核酸组成;和
(10)MLG 4668,所述MLG 4668由SEQ ID NO:2437-2892所示的核酸组成。
3.权利要求2所述的生物标志物组,其中所述生物标志物组包含如(1)-(8)中定义的生物标志物。
4.一种用于在受试者中预测或诊断结直肠中的进展性腺瘤,或确定受试者是否具有形成结直肠中的进展性腺瘤的风险的试剂盒,其包含用于测定权利要求1-3任一项所述的生物标志物组中的每种生物标志物在样品中的水平的试剂;
其中,所述受试者是人;所述样品是粪便样品。
5.权利要求4所述的试剂盒,其中所述试剂选自:
(a)引物组,其包含:
(a1)能够特异性扩增MLG 317的引物,所述MLG 317由SEQ ID NO:933-1052所示的核酸组成;
(a2)能够特异性扩增MLG 3770的引物,所述MLG 3770由SEQ ID NO:1053-1281所示的核酸组成;和
(a3)能够特异性扩增MLG 3840的引物,所述MLG 3840由SEQ ID NO:238-639所示的核酸组成;
(b)探针组,其包含:
(b1)能够与MLG 317特异性杂交的探针,所述MLG 317由SEQ ID NO:933-1052所示的核酸组成;
(b2)能够与MLG 3770特异性杂交的探针,所述MLG 3770由SEQ ID NO:1053-1281所示的核酸组成;和
(b3)能够与MLG 3840特异性杂交的探针,所述MLG 3840由SEQ ID NO:238-639所示的核酸组成;
(c)包含(a)的引物组和/或(b)的探针组的微阵列;
(d)进行第二代测序方法或第三代测序方法的试剂;和
(e)(a)-(d)的任意组合。
6.权利要求5所述的试剂盒,其中所述引物组还包含以下引物的一种或多种:
(a4)能够特异性扩增MLG 665的引物,所述MLG 665由SEQ ID NO:640-932所示的核酸组成;
(a5)能够特异性扩增MLG 721的引物,所述MLG 721由SEQ ID NO:120-237所示的核酸组成;
(a6)能够特异性扩增MLG 1738的引物,所述MLG 1738由SEQ ID NO:1471-2436所示的核酸组成;
(a7)能够特异性扩增MLG 1340的引物,所述MLG 1340由SEQ ID NO:2893-3067所示的核酸组成;
(a8)能够特异性扩增MLG 5954的引物,所述MLG 5954由SEQ ID NO:1-119所示的核酸组成;
(a9)能够特异性扩增MLG 711的引物,所述MLG 711由SEQ ID NO:1282-1470所示的核酸组成;和
(a10)能够特异性扩增MLG 4668的引物,所述MLG 4668由SEQ ID NO:2437-2892所示的核酸组成。
7.权利要求6所述的试剂盒,其中所述引物组包含如(a1)-(a8)中定义的引物。
8.权利要求5所述的试剂盒,其中所述探针组还包含以下探针的一种或多种:
(b4)能够与MLG 665特异性杂交的探针,所述MLG 665由SEQ ID NO:640-932所示的核酸组成;
(b5)能够与MLG 721特异性杂交的探针,所述MLG 721由SEQ ID NO:120-237所示的核酸组成;
(b6)能够与MLG 1738特异性杂交的探针,所述MLG 1738由SEQ ID NO:1471-2436所示的核酸组成;
(b7)能够与MLG 1340特异性杂交的探针,所述MLG 1340由SEQ ID NO:2893-3067所示的核酸组成;
(b8)能够与MLG 5954特异性杂交的探针,所述MLG 5954由SEQ ID NO:1-119所示的核酸组成;
(b9)能够与MLG 711特异性杂交的探针,所述MLG 711由SEQ ID NO:1282-1470所示的核酸组成;和
(b10)能够与MLG 4668特异性杂交的探针,所述MLG 4668由SEQ ID NO:2437-2892所示的核酸组成。
9.权利要求8所述的试剂盒,其中所述探针组包含如(b1)-(b8)中定义的探针。
10.权利要求4所述的试剂盒,其中所述试剂盒还包含另外的试剂,所述另外的试剂选自用于处理所述样品的试剂,用于进行PCR扩增的试剂,以及用于进行杂交的试剂。
11.权利要求10所述的试剂盒,其中所述用于处理所述样品的试剂是无菌水。
12.权利要求10所述的试剂盒,其中所述用于进行PCR扩增的试剂选自聚合酶、dNTP和扩增缓冲液。
13.权利要求10所述的试剂盒,其中所述用于进行杂交的试剂选自标记缓冲液、杂交缓冲液和洗涤缓冲液。
14.用于测定权利要求1-3任一项所述的生物标志物组中的每种生物标志物的水平的试剂在制备试剂盒中的用途,所述试剂盒用于在受试者中预测或诊断结直肠中的进展性腺瘤或确定受试者是否具有形成结直肠中的进展性腺瘤的风险;
其中,所述受试者是人。
15.权利要求14所述的用途,其中所述试剂是如权利要求5-9任一项中所定义的。
16.权利要求14或15所述的用途,其中所述试剂盒通过包括以下步骤的方法,在所述受试者中预测或诊断结直肠中的进展性腺瘤,或确定所述受试者是否具有形成结直肠中的进展性腺瘤的风险:
(1)使用所述试剂盒测定来自所述受试者的样品中的根据权利要求1-3任一项所述的生物标志物组中的每种生物标志物的水平,所述每种生物标志物的水平是所述样品中每种生物标志物的相对丰度;
(2)通过使用多元统计模型将所述样品中的每种生物标志物的水平与训练数据集进行比较来计算结直肠中的进展性腺瘤的概率;所述多元统计模型为随机森林模型;所述训练数据集包含关于多个患有结直肠中的进展性腺瘤的受试者和多个健康受试者的每种生物标志物的水平的数据;
其中当结直肠中的进展性腺瘤的概率大于临界值时,表明所述受试者患有结直肠中的进展性腺瘤或具有形成结直肠中的进展性腺瘤的风险;
其中所述样品是粪便样品。
CN201580074167.5A 2015-01-30 2015-01-30 结直肠癌相关疾病的生物标志物 Active CN107208149B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/071895 WO2016119190A1 (en) 2015-01-30 2015-01-30 Biomarkers for colorectal cancer related diseases

Publications (2)

Publication Number Publication Date
CN107208149A CN107208149A (zh) 2017-09-26
CN107208149B true CN107208149B (zh) 2021-09-21

Family

ID=56542186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580074167.5A Active CN107208149B (zh) 2015-01-30 2015-01-30 结直肠癌相关疾病的生物标志物

Country Status (4)

Country Link
EP (1) EP3250708B1 (zh)
CN (1) CN107208149B (zh)
DK (1) DK3250708T3 (zh)
WO (1) WO2016119190A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
CN109762900B (zh) * 2019-01-14 2022-07-29 深圳微健康基因科技有限公司 结直肠癌标志物及其应用
WO2023049842A1 (en) * 2021-09-23 2023-03-30 Flagship Pioneering Innovations Vi, Llc Diagnosis and treatment of diseases and conditions of the intestinal tract

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662012A (zh) * 2012-05-08 2012-09-12 北京师范大学 筛查结直肠腺瘤的试剂盒
CN102680597A (zh) * 2012-05-08 2012-09-19 北京师范大学 区分结直肠腺瘤和结直肠癌的试剂盒
WO2014091017A2 (en) * 2012-12-13 2014-06-19 Metabogen Ab Identification of a person having risk for developing type 2 diabetes
CN104039982A (zh) * 2012-08-01 2014-09-10 深圳华大基因研究院 一种分析微生物群落组成的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140171339A1 (en) * 2011-06-06 2014-06-19 The University Of North Carolina At Chapel Hill Methods and kits for detecting adenomas, colorectal cancer, and uses thereof
US11060148B2 (en) * 2012-10-16 2021-07-13 Dana-Farber Cancer Institute, Inc. Diagnosing and treating colorectal cancer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662012A (zh) * 2012-05-08 2012-09-12 北京师范大学 筛查结直肠腺瘤的试剂盒
CN102680597A (zh) * 2012-05-08 2012-09-19 北京师范大学 区分结直肠腺瘤和结直肠癌的试剂盒
CN104039982A (zh) * 2012-08-01 2014-09-10 深圳华大基因研究院 一种分析微生物群落组成的方法和装置
WO2014091017A2 (en) * 2012-12-13 2014-06-19 Metabogen Ab Identification of a person having risk for developing type 2 diabetes

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A metagenome-wide association study of gut microbiota in type 2 diabetes;Qin Junjie等;《Nature》;20121004;第490卷(第7418期);第138-147页 *
Gut Microbiome and Colorectal Adenomas;Santosh Dulal等;《Cancer Journal》;20140630;第20卷(第3期);第1858-1868页 *
Increased rectal microbial richness is associated with the presence of colorectal adenomas in humans;Nina Sanapareddy等;《International Society for Microbial Ecology》;20120524;第6卷(第10期);第225-231页 *
Molecular characterization of mucosal adherent bacteria and associations with colorectal adenomas;Xiang Jun Shen等;《Gut Microbes》;20100501;第1卷(第3期);第55-60页 *

Also Published As

Publication number Publication date
EP3250708A4 (en) 2018-06-27
DK3250708T3 (da) 2021-09-06
EP3250708B1 (en) 2021-08-11
EP3250708A1 (en) 2017-12-06
CN107208149A (zh) 2017-09-26
WO2016119190A1 (en) 2016-08-04

Similar Documents

Publication Publication Date Title
WO2015018307A1 (en) Biomarkers for colorectal cancer
EP3245298B1 (en) Biomarkers for colorectal cancer related diseases
CN107254531B (zh) 早发性结直肠癌辅助诊断的遗传生物标志物及其应用
WO2016050110A1 (en) Biomarkers for rheumatoid arthritis and usage thereof
US10793911B2 (en) Host DNA as a biomarker of Crohn&#39;s disease
CN114164277B (zh) 外泌体arpc5、kyat3等在肺癌诊断中的应用
WO2010075579A2 (en) Methods of predicting medically refractive ulcerative colitis (mr-uc) requiring colectomy
CN107208149B (zh) 结直肠癌相关疾病的生物标志物
CN110229899B (zh) 用于结直肠癌早期诊断或预后预测的血浆标记物组合
WO2019175803A1 (en) Method for predicting progression to active tuberculosis disease
CN108064273B (zh) 结直肠癌相关疾病的生物标志物
EP2909335B1 (en) Prognostic of diet impact on obesity-related co-morbidities
US20180171408A1 (en) Characterizing Gastro-Intestinal Disease
US20150284779A1 (en) Determination of a tendency to gain weight
JP6608424B2 (ja) 前癌性結腸直腸ポリープおよび結腸直腸癌を特定するための方法およびキット
WO2015115544A1 (ja) 大腸がんの転移又は再発リスクの評価方法
EP3359682B1 (en) Method for diagnosing hepatic fibrosis based on bacterial profile and diversity
CN116377070A (zh) 预测结直肠癌或结直肠腺瘤风险的新型微生物标志物
CN116356026A (zh) 预测结直肠癌或结直肠腺瘤风险的新型微生物标志物
CN114746551A (zh) 大肠癌诊断用标志物、辅助大肠癌的诊断的方法、收集数据以用于大肠癌诊断的方法、大肠癌的诊断试剂盒、大肠癌治疗药物、大肠癌的治疗方法、大肠癌的诊断方法
CN113151512A (zh) 利用肠道细菌检测早期肺癌

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1240281

Country of ref document: HK

CB02 Change of applicant information

Address after: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Applicant after: BGI SHENZHEN

Address before: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Applicant before: BGI SHENZHEN

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant