CN107429291A - 分析微生物组的方法 - Google Patents

分析微生物组的方法 Download PDF

Info

Publication number
CN107429291A
CN107429291A CN201580073659.2A CN201580073659A CN107429291A CN 107429291 A CN107429291 A CN 107429291A CN 201580073659 A CN201580073659 A CN 201580073659A CN 107429291 A CN107429291 A CN 107429291A
Authority
CN
China
Prior art keywords
bacterium
group
microorganism group
genome
microorganism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580073659.2A
Other languages
English (en)
Inventor
E.塞加
E.埃里纳夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yeda Research and Development Co Ltd
Original Assignee
Yeda Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yeda Research and Development Co Ltd filed Critical Yeda Research and Development Co Ltd
Publication of CN107429291A publication Critical patent/CN107429291A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • C12Q1/10Enterobacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/195Assays involving biological materials from specific organisms or of a specific nature from bacteria
    • G01N2333/24Assays involving biological materials from specific organisms or of a specific nature from bacteria from Enterobacteriaceae (F), e.g. Citrobacter, Serratia, Proteus, Providencia, Morganella, Yersinia
    • G01N2333/245Escherichia (G)
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/04Endocrine or metabolic disorders
    • G01N2800/042Disorders of carbohydrate metabolism, e.g. diabetes, glucose metabolism
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/04Endocrine or metabolic disorders
    • G01N2800/044Hyperlipemia or hypolipemia, e.g. dyslipidaemia, obesity
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/06Gastro-intestinal diseases
    • G01N2800/065Bowel diseases, e.g. Crohn, ulcerative colitis, IBS
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Toxicology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

公开了评价微生物组中的细菌的生长动力学的方法。

Description

分析微生物组的方法
发明领域和背景
本发明在其一些实施方案中涉及分析微生物组的宏基因组数据以获得有关其中微生物的生长动力学的信息的方法。
人在肠中携带大量多种多样的微生物生态系统,其与我们的物种共同进化并对人类健康是必需的。哺乳动物具有位于肠中的数百万微生物基因的“扩展基因组(extendedgenome)”:微生物组。这种多基因组共生在宿主中以蛋白组和代谢水平表现,因此提出人类代表了极复杂的生物学“超有机体”,其中宿主代谢调节责任的一部分被移交给微生物共生生物。肠道微生物组的现代解释基于由高通量基因组筛选技术提供的肠的不依赖于培养的分子学视角。此外,肠道微生物组直接涉及肥胖症、循环系统疾病、炎性肠疾病(IBD)和孤独症等多种多样的许多病理状态的发病机理。肠道微生物群还影响药物代谢和毒性、饮食产热生物利用度、免疫系统调节和反应及术后恢复。这暗示着肠道微生物组及其活性的定量分析对未来个性化卫生保健策略的形成是必需的,且肠道微生物组代表了下一代治疗药物靶标开发的广阔领域。它还意味着可针对宿主生物体的益处直接调节肠道微生物组。
传统上,研究来自人皮肤、粪便或血液的微生物样品依赖于使各个生物生长并分离接着表型或基因型分析的耗时且费力的微生物学技术。单个样品中的微生物群落概况分析用这些方法是不可能的。
新一代测序技术(NGS)的出现使得包括Human Microbiome Project和MetaHIT(其使用NGS作为基础工具,发表了大量有关人类微生物组的数据)在内的几个备受瞩目的合作项目成为可能。
对微生物组的研究通常试图通过鉴定包含在其中的微生物及其遗传组成来表征微生物组。
背景技术包括Xu, J.等, Genome Biol. 13, R27 (2012)和Skovgaard, O.等,Genome Res. 21, 1388–93 (2011)。
发明概述
按照本发明一些实施方案的一个方面,提供评价微生物组中细菌的生长动力学的方法,所述方法包括:(a)对微生物组的DNA片段进行测序以获得大量核酸测序数据;(b)将大量核酸序列数据与至少一个参比序列进行比对,所述参比序列是细菌基因组的;和(c)分析位于基因组的复制起点的至少一个核苷酸的频率和位于基因组的末端的至少一个核苷酸的频率,其中频率的比率表示细菌的生长动力学。
按照本发明一些实施方案的一个方面,提供测定复制细菌的复制起点的方法,所述方法包括:
(a)对细菌基因组的DNA片段进行测序以获得大量核酸测序数据;
(b)将大量核酸序列数据与参比序列进行比对,所述参比序列是细菌基因组的;和
(c)分析跨细菌基因组的核苷酸的频率;其中对应于最高读长数目的基因组位置是细菌的复制起点。
按照本发明一些实施方案的一个方面,提供分析试验微生物组的健康状况的方法,所述方法包括:
(a)分析试验微生物组中至少一种细菌的生长动力学;
(b)将试验微生物组中至少一种细菌的生长动力学与病理微生物组中至少一种细菌的生长动力学进行比较,其中当试验微生物组中至少一种细菌的生长动力学在统计学上显著类似于病理微生物组中至少一种细菌的生长动力学时,表明该微生物组不健康。
按照本发明一些实施方案的一个方面,提供测定受试者的健康状况的方法,所述方法包括:
(a)分析受试者的微生物组样品中至少一种细菌的生长动力学;
(b)将受试者的微生物组样品中至少一种细菌的生长动力学与至少一个病理微生物组中至少一种细菌的生长动力学进行比较,其中当微生物组样品中至少一种细菌的生长动力学在统计学上显著类似于病理微生物组中至少一种细菌的生长动力学时,表明受试者不健康。
按照本发明的一些实施方案,所述方法还包括使微生物组的DNA片段化以获得微生物组的DNA片段。
按照本发明的一些实施方案,步骤(c)包括分析跨细菌基因组的每个核苷酸的频率。
按照本发明的一些实施方案,测序包括平行高通量测序。
按照本发明的一些实施方案,高通量测序包括深度测序。
按照本发明的一些实施方案,所述方法还包括通过图表显示随其基因组位置而变的核苷酸的频率。
按照本发明的一些实施方案,微生物组选自皮肤微生物组、肠道微生物组、肠微生物组、口腔微生物组和阴道微生物组。
按照本发明的一些实施方案,微生物组是人类微生物组。
按照本发明的一些实施方案,微生物组包含肠道微生物组。
按照本发明的一些实施方案,当基因组复制起点的核苷酸的频率:基因组末端的核苷酸的频率为约2:1或更大时,它表明细菌的指数生长。
按照本发明的一些实施方案,当基因组复制起点的核苷酸的频率:基因组末端的核苷酸的频率为约1:1时,它表明细菌的静止生长。
按照本发明的一些实施方案,所述方法还包括使微生物组的DNA片段化以获得微生物组的DNA片段。
按照本发明的一些实施方案,所述方法还包括通过图表显示随其基因组位置而变的核苷酸的频率。
按照本发明的一些实施方案,测序包括高通量测序。
按照本发明的一些实施方案,高通量测序包括深度测序。
按照本发明的一些实施方案,细菌包含在混合的细菌群中。
按照本发明的一些实施方案,混合的细菌群包含微生物组。
按照本发明的一些实施方案,微生物组包含肠道微生物组。
按照本发明的一些实施方案,分析生长动力学按照本文所述方法进行。
按照本发明的一些实施方案,细菌选自图4所列细菌。
按照本发明的一些实施方案,病理微生物组来源于患有代谢障碍的受试者的肠道。
按照本发明的一些实施方案,代谢障碍选自糖尿病、肥胖症、溃疡性结肠炎和克罗恩病(Crohn’s disease)。
按照本发明的一些实施方案,试验微生物组和病理微生物组是肠道微生物组。
按照本发明的一些实施方案,分析生长动力学按照本文所述方法进行。
按照本发明的一些实施方案,至少一种细菌选自图4所列细菌。
按照本发明的一些实施方案,微生物组样品包括肠道微生物组样品。
按照本发明的一些实施方案,病理微生物组来源于患有代谢障碍的受试者的肠道。
按照本发明的一些实施方案,代谢障碍选自糖尿病、肥胖症、溃疡性结肠炎和克罗恩病。
除非另有定义,否则本文所用所有技术和/或科学术语具有本发明所属领域普通技术人员通常理解的相同含义。虽然类似或等同于本文所述那些的方法和材料可用于本发明实施方案的实践或测试,但是下文描述了示例性的方法和/或材料。万一有抵触,以本专利申请(包括定义)为准。另外,材料、方法和实例只是说明性的,无意是必然限制性的。
附图简述
本文参照附图,仅通过举例描述本发明的一些实施方案。下面详细具体参照附图,强调所示细节是通过实例并且用于说明性论述本发明的实施方案的目的。在这一方面,附图随附的描述使本领域技术人员清楚可如何实施本发明的实施方案。
附图中:
图1A-C. 获自单一宏基因组样品的大肠杆菌(E. coli)生长动力学的特征。(A)用于从单一宏基因组样品的测序覆盖度分析推测细菌生长动力学的本发明方法的实例。将宏基因组样品的测序读长(Sequencing read)映射至可获得的细菌基因组,且然后将每个细菌基因组位置的测序覆盖度(映射宏基因组读长的数目)跨各细菌基因组的全长作图(图表)。可发现生长细菌群的各个细菌(上)各自处于DNA复制的不同阶段,形成在已知的复制起点(图中的绿色垂直线)附近出现峰值的覆盖度图形,并产生具有单峰和单谷的原型测序覆盖度图形。非分裂群的细菌(底)各自具有基因组的单个拷贝,产生跨基因组的平的测序覆盖度图形。(B)离体生长且在指数生长期(左)或静止期(右)提取的分离的大肠杆菌培养物的测序覆盖度。点表示非重叠10Kbp窗中各基因组位置的读长数。蓝线表示至驻留在峰和谷位置之间的点的线性分段拟合。标出了峰谷比,峰谷比通过复制起点处的测序覆盖度除以谷处的测序覆盖度计算(方法)。(C) 522个不同的人肠道宏基因组样品间大肠杆菌的测序覆盖度7,9。显示了随峰谷比(x轴)而变的宏基因组样品的数目(y轴)的直方图,按在(B)中绘制且从直方图峰谷比的不同范围截取的测序覆盖度图形的3个实例。P/T – 峰谷比。
图2A-F. 覆盖度分析准确鉴定复制起点。(A)来自1个宏基因组样品吉氏副拟杆菌(Parabacteroides distasonis)的覆盖度分析。(B)获自85个不同的人肠道宏基因组样品的P. distasonis的测序覆盖度拟合线(蓝色)。显示已知的复制起点位置(绿色垂直线)以及连同通过截取跨所有样品间的拟合峰的循环中值(circular-median)从我们的覆盖度分析预测的起点位置(红色垂直线;方法)。(C,D)与(A,B)相同,只是属于普通拟杆菌(Bacteroides vulgatus)。(E)获自文献30 (y轴)或针对168种细菌(针对其我们在346个可公开获取的宏基因组粪便样品9间鉴定了峰谷原型图形(方法))中具有已报告的起点的113种细菌通过我们的测序覆盖度分析预测(x轴)的复制起点位置。每个点表示1种细菌,并且按其文献位置及其预测位置(在细菌基因组的部分测量,见图例)之间的距离着色。显示了皮尔逊相关系数(R2)。(F)饼形图表明已知的和预测的复制起点位置之间匹配的不同类别的细菌的数目(对于距离<5%、5-10%或>10%的细菌基因组长度的3种不同的绿色色度);属于其位置可能错置的复制起点(图5A-F)和没有已知起点、通过我们的覆盖度分析预测的新的复制起点(图6A-I)。
图3A-F. 细菌动力学显示与丰度水平上的波动是异相的日间波动。(A)在连续4天内约每6小时从1个人的个体获得的宏基因组样品间卵形瘤胃球菌(Ruminococcus obeum)的相对丰度水平(红色)和峰谷比(蓝色)。峰谷比通过覆盖度分析方法(方法)计算,并以对数尺度显示。时间用授时因子时间(ZT,x轴)表示。注意峰谷比在相对丰度水平上升前6小时升至其最高值。(B-D)与(A)相同,属于惰性真杆菌(Eubacterium siraeum) (B),吉氏副拟 杆菌 (C)和副流感嗜血菌(Haemophilus parainfluenzae) (D)。
图4. 细菌动力学与若干疾病和代谢障碍有关。
如果其相对丰度或PTR与临床参数明显有关,则显示了来自中国人(N=363;Q)和欧洲人(N=396;M)组群的菌种的峰谷(PTR)比(箱形图,左;红色—中值界线25-75百分位数)。显示了门的全体成员;针对其计算PTR的样品的数目;临床参数及其PTR (左列块)或相对丰度(右列块)之间各自统计显著性(FDR校正的P小于0.5)相关的彩色条目的行。对于二元和连续临床参数分别应用Mann-Whitney U检验和皮尔森相关系数。上块:在PTR和临床参数之间有显著相关性的菌种;下块:仅在相对丰度和临床参数之间具有显著相关性的菌种。
标出各细菌的门(A-放线菌门(Actinobacteria)、B-拟杆菌门(Bacteroidetes)、F-厚壁菌门(Firmicutes)、P-变形菌门(Proteobacteria)、V-疣微菌门(Verrucomicrobia))。
图5A-F. 测序覆盖度分析鉴定出错置的复制起点位置。显示了对于分析其中表明已知复制起点是错置的6种细菌,拟合峰位置(y轴)随70Kbp的框(x轴)中的基因组位置而变化的样品数的直方图。如图2A-F一样显示了已知(绿色)和预测(红色)的复制起点位置。注意在所显示的所有实例中,峰位置在不同的人肠道宏基因组样品中彼此十分一致,但与文献报告的复制起点位置不一致,表明后者位置错误。
图6A-I. 测序覆盖度分析鉴定出新的复制起点位置。如图5A-F中一样显示了其中分析预测复制起点位置但这类起点在文献中未知的55种细菌中的9种的直方图。注意在所显示的所有实例中,峰位置在不同的人肠道宏基因组样品间十分一致,表明它们的确表示新的复制起点。
图7. 细菌生长动力学与相对丰度水平无关。显示了其中每个点表示单一宏基因组样品中1种细菌的峰谷比(y轴)和相对丰度(x轴)的点图。显示了所分析的所有709个宏基因组样品间对其进行覆盖度分析的所有207种细菌。注意在峰谷比和相对丰度水平之间有相对小的相关性,表明峰谷比提供很大程度上独立于细菌相对丰度所提供的信息。
本发明的具体实施方案的描述
本发明在其一些实施方案中涉及分析微生物组的宏基因组数据以获得有关其中微生物的生长动力学的信息的方法。
在详细解释本发明的至少一个实施方案之前,要了解,本发明不必将其应用限于以下描述或实施例列举的细节。本发明能够具有其它实施方案或以不同的方式实施或进行。
通过鸟枪法测序(shotgun sequencing)表征微生物组组成和功能提供对其在健康和疾病中的综合作用的许多见解。这采用若干分析技术实现,包括基因调用(genecalling)、功能/途径分析、全宏基因组关联研究(metagenomic-wide associationstudies)、基因组组装和宏基因组单核苷酸多态性(SNP)检测。这些方法在确立微生物组配置与对包括肥胖症、成人型糖尿病、自身炎症性病症、代谢疾病和甚至癌症在内的若干疾病的易感性之间的关联中极有价值。然而,这些方法的基本限制是它们把微生物群生态系统视作在收获点的静态快照,忽视了其高度动态性质和其许多微生物成员的差异性活性状态。
本发明人目前查询通过检测细菌基因组间测序读长覆盖度(深度)的图形,即映射至不同基因组区的宏基因组读长数的变化是否可从单一宏基因组样品探测微生物群动力学。大多数细菌带有单一环状染色体,其从单一固定区向单一终点双向复制。因此,在细菌DNA复制期间,与尚未复制区域的单一拷贝相比,已被复制叉通过的区域将具有两个拷贝。该观点在其中每个细胞可处于不同复制阶段的异步细菌群中也适用,因为跨群汇总,所以DNA区的拷贝数越高,该区域越接近复制起点,而拷贝数越低,则该区越接近末端。此外,因为DNA复制率一般是不变的,所以接近复制起点的DNA拷贝数和接近末端的DNA拷贝数之间的数量比可反映出细菌群的生长速率。这是因为在特征在于较短增代时间的较快的生长群中,较多微生物细胞参与DNA复制,因此较多活动的复制点可存在于各细胞中,导致近起点DNA和近末端DNA之间的比率高于1:1。当增代时间短于DNA复制时间时,这种起点末端比由于多叉复制所致甚至可大于2:1。
显然,通过分别将覆盖度分析应用于来自人肠道宏基因组样品的709个混合的异步微生物组群,本发明人阐明了在不同细菌和样品间的清晰的原型图形,其由单个覆盖度峰和单个谷组成,它们之间的距离大致为细菌基因组长度的一半(图1C和2A-D)。已知复制起点的位置与测序覆盖度的峰极其一致(113种细菌),而对其复制起点未知的55种其它细菌,预测了多样品间有稳固覆盖度峰的新的起点(图2E-F)。峰谷覆盖度比在不同人类个体的肠道宏基因组样品间极不同,其高比率和低比率分别与在离体生长于培养物中的指数生长期和静止期细菌群中获得的类似。在同一个体中,一些细菌的比率还显示与这些同一细菌的丰度水平上的波动是异相的日间波动,总起来表明这些比率的确反映了细菌生长动力学(图3A-F)。最后,峰谷比显示与包括HbA1C%、空腹葡萄糖水平在内的几个宿主参数和成人型糖尿病和克罗恩病的患病率的显著相关性(图4)。
因此,总的来说,通过分析细菌序列覆盖度的图形,本发明的实例提供可具有临床关联性的来自单一宏基因组样品的细菌生长的动力学的新的见解。
因此,按照本发明的一个方面,提供评价微生物组中细菌的生长动力学的方法,所述方法包括:
(a)对微生物组的DNA片段进行测序以获得大量核酸测序数据;
(b)将大量核酸序列数据与至少一个参比序列进行比对,所述参比序列是细菌基因组的;和
(c)分析位于基因组的复制起点的至少一个核苷酸的频率和位于基因组的末端的至少一个核苷酸的频率,其中频率的比率表示细菌的生长动力学。
术语“生长动力学”是指细菌的生长期(例如滞后期、静止期、指数生长、死亡期),并指生长速率本身。
在滞后期,细菌使自身适应生长条件。这是其中每个细菌成熟并且尚不能够分裂的时期。在细菌生长周期的滞后期,出现RNA、酶和其它分子的合成。
对数期(有时亦为对数期或指数期)是特征在于细胞倍增的时期。每单位时间出现的新细菌的数目与所述群成比例。如果生长不受限制,则倍增将以恒速继续,使得细胞的数目和群体增加的速率两者随各个连续的时间周期加倍。对于指数生长的这个类型,将细胞数的自然对数对时间作图产生直线。该线的斜率是生物的具体生长速率,这是每单位时间每个细胞分裂的次数的度量。这种生长的实际速率取决于生长条件,所述条件影响细胞分裂事件的频率和两个子细胞存活的概率。然而,因为培养基的营养不久被耗尽并且富含废物,所以指数生长不能无限期地继续。
静止期常常归因于生长限制因素例如必需营养的耗尽和/或抑制性产物(例如有机酸)的形成。静止期产生于其中生长率和死亡率相等的情况。所产生的新细胞数受生长因子限制,因此细胞生长的速率与细胞死亡的速率一致。
在死亡期(衰退期),细菌死亡。这可归因于缺乏营养物,太高或太低的温度,或不合要求的生存条件。
本文所用术语“微生物组”是指微生物(细菌、真菌、原生生物)、规定条件下其遗传元件(基因组)的总数。
微生物组可以是任何来源—例如肠道微生物组、口腔微生物组、肠道微生物组、支气管微生物组、皮肤微生物组或阴道微生物组。
按照一个具体的实施方案,微生物组是肠道微生物组。
为了分析微生物组,从受试者中获取样品。
受试者通常为哺乳动物受试者—例如人受试者。
因此,例如可获取粪便样品以分析肠道微生物组,可获取支气管样品以分析支气管微生物组,可获取唾液样品以分析口腔微生物组等。按照一个具体的实施方案,受试者的微生物组来源于受试者的粪便样品。
本发明人表明,进食方式的变化(例如由昼夜节奏失调所致)影响微生物组的组成。因此,优选在日间的固定时间获取样品。
待分析生长动力学的细菌可以是革兰氏阳性或革兰氏阴性细菌。
本文所用术语“革兰氏阳性细菌”是指特征在于具有肽聚糖以及多糖和/或磷壁酸作为细胞壁结构部分且特征在于在革兰氏染色程序中其蓝紫色反应的细菌。代表性革兰氏阳性细菌包括:放线菌(Actinomyces spp.)、炭疽芽孢杆菌(Bacillus anthracis)、双歧杆菌(Bifidobacterium spp.)、肉毒梭菌(Clostridium botulinum)、产气荚膜梭菌(Clostridium perfringens)、梭菌(Clostridium spp.)、破伤风梭菌(Clostridium tetani)、白喉棒状杆菌(Corynebacterium diphtheriae)、杰氏棒状杆菌(Corynebacterium jeikeium)、粪便肠球菌(Enterococcus faecalis)、屎肠球菌(Enterococcus faecium)、红斑丹毒丝菌(Erysipelothrix rhusiopathiae)、真细菌(Eubacterium spp.)、阴道加德纳氏菌(Gardnerella vaginalis)、麻疹孪生球菌(Gemella morbillorum)、明串珠菌(Leuconostoc spp.)、脓肿分枝杆菌(Mycobacterium abcessus)、鸟分枝杆菌复合体(Mycobacterium avium complex)、龟分支杆菌(Mycobacterium chelonae)、偶发分枝杆菌(Mycobacterium fortuitum)、嗜血分枝杆菌(Mycobacterium haemophilium)、堪萨斯分枝杆菌(Mycobacterium kansasii)、麻风分枝杆菌(Mycobacterium leprae)、海分枝杆菌(Mycobacterium marinum)、瘰疬分枝杆菌(Mycobacterium scrofulaceum)、耻垢分枝杆菌(Mycobacterium smegmatis)、地分枝杆菌(Mycobacterium terrae)、肺结核分枝杆菌(Mycobacterium tuberculosis)、溃疡分枝杆菌(Mycobacterium ulcerans)、诺卡菌(Nocardia spp.)、黑色消化球菌(Peptococcus niger)、消化链球菌(Peptostreptococcus spp.)、丙酸杆菌(Proprionibacterium spp.)、金黄色葡萄球菌(Staphylococcus aureus)、耳葡萄球菌(Staphylococcus auricularis)、头葡萄球菌(Staphylococcus capitis)、科氏葡萄球菌(Staphylococcus cohnii)、表皮葡萄球菌(Staphylococcus epidermidis)、溶血性葡萄球菌(Staphylococcus haemolyticus)、溶血性葡萄球菌(Staphylococcus hominis)、路邓葡萄球菌(Staphylococcus lugdanensis)、解糖葡萄球菌(Staphylococcus saccharolyticus)、腐生葡萄球菌(Staphylococcus saprophyticus)、施氏葡萄球菌(Staphylococcus schleiferi)、模仿葡萄球菌(Staphylococcus similans)、沃氏葡萄球菌(Staphylococcus warneri)、木糖葡萄球菌(Staphylococcus xylosus)、无乳链球菌(Streptococcus agalactiae) (B族链球菌)、咽峡炎链球菌(Streptococcus anginosus)、牛链球菌(Streptococcus bovis)、犬链球菌(Streptococcus canis)、马链球菌(Streptococcus equi)、米勒链球菌(Streptococcus milleri)、轻型链球菌(Streptococcus mitior)、突变链球菌(Streptococcus mutans)、肺炎链球菌(Streptococcus pneumoniae)、酿脓链球菌(Streptococcus pyogenes) (A族链球菌)、唾液链球菌(Streptococcus salivarius)、血链球菌(Streptococcus sanguis)。
本文所用术语“革兰氏阴性细菌”是指特征在于各细菌细胞周围存在双层膜的细菌。代表性革兰氏阴性细菌包括乙酸钙不动杆菌(Acinetobacter calcoaceticus)、伴放线放线杆菌(Actinobacillus actinomycetemcomitans)、嗜水气单胞菌(Aeromonas hydrophila)、木糖氧化产碱菌(Alcaligenes xylosoxidans)、拟杆菌属(Bacteroides)、脆弱拟杆菌(Bacteroides fragilis)、杆菌状巴尔通体(Bartonella bacilliformis)、博代氏菌(Bordetella spp.)、布氏疏螺旋体(Borrelia burgdorferi)、卡他布兰汉氏球菌(Branhamella catarrhalis)、布鲁氏菌(Brucella spp.)、弯曲杆菌(Campylobacterspp.)、肺炎衣原体(Chalmydia pneumoniae)、鹦鹉热衣原体(Chlamydia psittaci)、沙眼衣原体(Chlamydia trachomatis)、青紫色素杆菌(Chromobacterium violaceum)、柠檬酸菌(Citrobacter spp.)、啮蚀艾肯菌(Eikenella corrodens)、产气肠杆菌(Enterobacter aerogenes)、大肠杆菌、脑膜脓毒产黄菌(Flavobacterium meningosepticum)、梭杆菌(Fusobacterium spp.)、流感嗜血菌(Haemophilus influenzae)、嗜血菌(Haemophilusspp.)、幽门螺杆菌(Helicobacter pylori)、克雷伯氏菌(Klebsiella spp.)、军团菌(Legionella spp.)、钩端螺旋体(Leptospira spp.)、黏膜炎莫拉氏菌(Moraxella catarrhalis)、摩氏摩根氏菌(Morganella morganii)、肺炎枝原体(Mycoplasma pneumoniae)、淋病奈瑟氏球菌(Neisseria gonorrhoeae)、脑膜炎奈瑟氏球菌(Neisseria meningitidis)、多杀巴斯德氏菌(Pasteurella multocida)、类志贺邻单胞菌(Plesiomonas shigelloides)、普雷沃氏菌(Prevotella spp.)、变形菌(Proteus spp.)、雷氏普罗威登斯菌(Providencia rettgeri)、铜绿假单胞菌(Pseudomonas aeruginosa)、假单胞菌(Pseudomonas spp.)、普氏立克次氏体(Rickettsia prowazekii)、立氏立克次体(Rickettsia rickettsii)、罗克利马体(Rochalimaea spp.)、沙门氏菌(Salmonellaspp.)、伤寒沙门氏菌(Salmonella typhi)、粘质沙雷菌(Serratia marcescens)、志贺氏菌(Shigella spp.)、品他病密螺旋体(Treponema carateum)、苍白密螺旋体(Treponema pallidum)、Treponema pallidum endemicum、极细密螺旋体(Treponema pertenue)、韦荣球菌(Veillonella spp.)、霍乱弧菌(Vibrio cholerae)、创伤弧菌(Vibrio vulnificus)、小肠结肠炎耶尔森氏菌(Yersinia enterocolitica)、鼠疫耶尔森氏菌(Yersinia pestis)。
通常分析其生长动力学的细菌的基因组序列是已知的(或至少其一小部分是已知的)。已知的序列在本文称为参比序列,本文下面将进一步描述。
可采用例如公开于上文引述的Sambrook和Russell,Molecular Cloning:ALaboratory Manual的常规技术,实现从微生物组获得染色体(基因组) DNA。在某些情况下,特别如果少量的DNA用于具体步骤,每当只可获得少量的样品DNA且通过例如与容器壁等非特异性结合有损失风险时,则提供与样品DNA混合并一起使用的载体DNA (例如无关的环状合成双链DNA)是有利的。
在一个实施方案中,获得染色体DNA的长片段。使细胞裂解,可用轻缓的离心步骤将完整的核沉淀。然后基因组DNA被释放出来(例如通过蛋白酶K和RNA酶消化几小时(例如1-5小时))。例如可通过透析一段时间(即2-16小时)和/或稀释,处理产物以降低剩余细胞废物的浓度。由于这种方法不需要采用许多破坏性方法(例如乙醇沉淀、离心和涡旋),因此基因组核酸大多保持完整,得到长度超出150千碱基对的大量片段。在一些实施方案中,片段的长度为约5-约750千碱基对。在其它实施方案中,片段的长度为约150-约600、约200-约500、约250-约400和约300-约350千碱基对。
任选,通过常规技术包括酶促消化、剪切或超声处理(后两者特别用于本发明),将靶基因组DNA随后分级分离或片段化成所需大小。
靶核酸的片段大小可取决于源靶核酸、所用的文库构建方法,但对于标准全基因组测序,所述片段的长度范围可为50-600个核苷酸。在另一个实施方案中,片段的长度为300-600或200-2000个核苷酸。在又一个实施方案中,片段长度为10-100、50-100、50-300、100-200、200-300、50-400、100-400、200-400、300-400、400-500、400-600、500-600、50-1000、100-1000、200-1000、300-1000、400-1000、500-1000、600-1000、700-1000、700-900、700-800、800-1000、900-1000、1500-2000、1750-2000和50-2000个核苷酸。还考虑了较长的片段。
在另一个实施方案中,分离特定大小或特定大小范围内的片段。所述方法是本领域众所周知的。例如,可采用凝胶分级分离产生某一碱基对范围内特定大小的片段群(例如500碱基对+50碱基对)。
在许多情况下,不需要提取的DNA的酶促消化,因为溶解和提取期间产生的剪切力可产生所需范围的片段。在另一个实施方案中,使用限制性内切核酸酶,通过酶促片段化可产生较短的片段(1-5 kb)。
用于序列测定的方法一般为本领域技术人员已知。优选的测序方法是新一代测序方法或平行高通量测序方法。例如,细菌基因组序列可采用大规模平行特征测序(Massively Parallel Signature Sequencing, MPSS)获得。设想的序列方法的一个实例是焦磷酸测序(pyrosequencing),尤其例如基于Roche 454基因组序列仪(Roche 454Genome Sequencer)的454焦磷酸测序。该方法在油溶液中的水滴(其每滴含有与单个引物包被珠连接的单一DNA模板)内扩增DNA,然后形成克隆菌落。焦磷酸测序利用萤光素酶产生光用以检测加入新生DNA上的各个核苷酸,并且使用综合数据产生序列读出。又一个设想的实例是例如通过采用Illumina Genome Analyzer技术的Illumina或Solexa测序,该技术基于可逆的dye-terminator。DNA分子通常在载玻片与引物连接并扩增,使得形成局部克隆菌落。随后可一次加入一种类型的核苷酸,非掺入的核苷酸被洗掉。随后,可拍摄荧光标记的核苷酸的图像,从DNA上以化学法除去染料,允许下一个循环。另一个实例是采用AppliedBiosystems' SOLiD技术,其利用通过连接的测序。该方法基于固定长度的所有可能的寡核苷酸的库的使用,其按照测序位置标记。所述寡核苷酸经退火并连接。随后,通过DNA连接酶的优先连接用于匹配序列通常导致该位置处的核苷酸的信号信息。因为DNA通常通过乳液PCR扩增,所以所得珠粒(每个只含相同DNA分子拷贝)可沉积在玻璃载玻片上,产生量和长度与Illumina测序相当的序列。又一种方法基于Helicos' Heliscope技术,其中片段被与阵列连接的聚T寡聚体俘获。在每个测序循环中,加入聚合酶和单个荧光标记的核苷酸,并使阵列成像。随后除去荧光标签,重复循环。包括在本发明方法内的测序技术的更多实例为通过杂交的测序、通过使用纳米孔(nanopore)的测序、基于显微镜的测序技术、微流体Sanger测序或基于微晶片的测序方法。本发明还设想这些技术的进一步发展,例如序列测定的准确度或生物基因组序列测定所需时间等的进一步改进。
按照一个实施方案,测序方法包括深度测序。
本文所用术语“深度测序”是指其中靶序列是在一次试验中多次读长的测序方法。一轮深度测序由在同一靶序列上运行的多次测序反应构成,且每次产生独立的序列读出。
应认识到,本文所述分析方法的任一种可表现为多种形式。例如,它可以有形介质体现,例如用于进行方法操作的计算机。它可包括在计算机可读介质(包括用于进行方法操作的计算机可读指令)中。它还可以电子器件体现,所述电子器件具有经配置在有形介质上运行计算机程序或在计算机可读介质执行指令的能力的数字计算机。
执行本发明实施方案的分析方法的计算机程序通常可在分配介质(例如但不限于CD-ROM或闪存介质)上分配给用户。计算机程序可从分配介质拷贝到硬盘或类似中间存储介质上。在本发明的一些实施方案中,可通过允许用户通过通讯网络(例如互联网)从远程位置下载程序,而将执行本发明实施方案的方法的计算机程序分配给用户。可通过从其分配介质或其中间存储介质将计算机指令装载入计算机的执行内存,配置计算机以按照本发明的方法执行,来运行计算机程序。所有这些操作为计算机系统领域技术人员所熟知。
一旦进行测序步骤,便获得大量核酸序列数据。数据包括来自获得的所有核酸片段读长的信息。
本文所用“核酸片段读长”是指序列数据的单个短的连续信息块或段。读长可具有任何合适的长度,优选介于约30个核苷酸-约1000个核苷酸之间的长度。长度通常取决于用于获得它的测序技术。在具体的实施方案中,读长还可更长,例如2-10 kb或以上。本发明一般设想任何读长或读长长度,且不得理解为限于目前可获得的读长长度,而且还包括这个领域的进一步发展,例如长读数测序方法等的开发。
序列数据另可包括有关测序机器、采集日期、读长长度、测序方向、测序实体的起点、邻近序列或读长、重复序列的存在或本领域技术人员已知的任何其它合适的参数的信息。序列数据可存在于本领域技术人员已知的任何合适的格式、档案、编码或文件中。数据可为例如FASTQ、Qseq、CSFASTA、BED、WIG、EMBL、Phred、GFF、SAM、SRF、SFF或ABI-ABIF的格式。
优选数据或数据集以一种数据格式存在,更优选以统一的数据格式(例如fastq格式)连同其呈Phred/Phrap或改进格式的基础质量存在。还优选的是,数据格式至少涵盖序列读长及其相关基础质量。
在本发明的一个特别优选的实施方案中,大量序列数据可转化成统一格式。所述转化可通过本领域技术人员已知的任何合适的转化工具进行,例如能够将Illumina格式成Sange格式(其可被几个比对算法应用)的标准转化工具或能够将一种格式转化成本领域技术人员已知的另一种格式的任何其它的类似工具。可进行转化,使得保持至少最小量的必需数据。所述最小量的数据可包括例如序列本身、运行信息、配对末端文库信息(pairedend library information)、配偶对文库信息(mate pair library information)、单端文库信息和基准QC值。序列数可转化至其中的优选格式为任何合适的格式,其可通过参比序据列比对算法以及重新组装算法识别。优选的实例是fastq格式。或者,序列数据还可转化成cfasta/SCARF格式。本发明进一步设想能够被参比序列比对和重新组装程序利用的任何其它例如新定义或开发的格式。
数据可包括一个数据集内的单入口或多入口。数据还可包括一个或多个数据集或众多数据集。本文所用术语“众多”因此是指来自一个或多个出处或来源的一个或多个数据集。数据集或数据例如可具有相同格式和/或来自相同出处,例如同一测序机器、同一微生物组或用相同测序技术获得,或它们可具有不同的格式和/或来自不同的出处,例如不同的测序机器或不同的患者或受试者或用不同的测序技术获得。
一旦获得大量测序数据,下一步骤便包括将所述众多核酸序列数据与至少一个参比序列进行比对,所述参比序列是待分析的细菌基因组的。
本文所用术语“与参比序列进行比对”是指核酸片段读长信息及其排列与已存在的基因组或亚基因组序列的比较,优选随后是预存基因组或亚基因组序列所提供的支架内所述序列读长段的置换。
本文所用“参比序列”可以是涵盖序列段的任何合适的预存序列,其与新获得的序列数据或核酸片段读长相同或相似。
细菌基因组序列(参比序列)可来源于NCBI微生物基因组计划数据库和公开于Qin, J.等, A metagenome-wide association study of gut microbiota in type 2diabetes. Nature 490, 55–60 (2012) (通过引用予以结合)和Nielsen, H. B.等,Identification and assembly of genomes and genetic elements in complexmetagenomic samples without using reference genomes. Nat. Biotechnol. (2014).doi:10.1038/nbt.2939 (通过引用予以结合)的其它数据库。更多细节可来源于McNeil LK等, The National Microbial Pathogen Database Resource (NMPDR): a genomicsplatform based on subsystem annotation, Nucleic Acids Res., 2007; 35(Database issue): D347-53,其通过引用以其整体结合到本文中。
参比序列可以基本上是完全的或包含下文定义的基本完全的细菌基因组的亚部分。
本文所用术语“基本完全的”是指存在有关自然界存在的基因组的所有部分的序列信息。例如,基因组序列可包括丰余序列、重复序列、端粒序列等。例如约99%、98%、97%、95%、90%、85%、80%或75%基因组序列可包括在基本完全的基因组中。在其它实施方案中,参比序列可不含某些序列元件,例如重复序列、端粒序列、转座子序列、丰余序列等。
基本完全的基因组的“亚部分”可为例如完整基因组序列的任何百分比,例如10%、20%、30%、40%、60%、65%、70%、75%等或之间的任何值。亚部分还可以是单个染色体序列、染色体臂、一个以上染色体的组合、单倍体染色体组等。
在本发明的又一个优选实施方案中,上文提及的参比序列可选自与其核酸数据待组装的生物在系统发生上相关的组或分类。一般而言,系统发生上相关的生物可具有至少约50%、60%、70%、80%、90%或95%的总体基因组同一性。关于待分析的大肠杆菌序列读长,系统发生上相关的生物可为例如谷氨酸棒杆菌(C. glutamticum)或反之亦然等。在其它实施方案中,来源于系统发生上相关的生物的参比序列可包括完整基因组序列的亚部分,例如包括上文定义的某些染色体、染色体组合、染色体臂、基因组的部分等。
在优选的实施方案中,本发明方法的步骤(b)的参比序列的比对可用合适的参考比对算法实施或以之为基础。所述算法的优选实例包括算法BFAST、ELAND、GenomeMapper、GMAP、MAQ、MOSAIK、PASS、SeqMap、SHRiMP、SOAP、SSAHA或CLD。特别优选的是算法Bowtie或BWA的应用。进一步设想这些算法一个或多个的组合。例如,参考比对可先用所述算法之一进行,接着通过不同的这些算法重复。可比较两种方法的结果,适当时合并。一般而言,优选使用显示最小非匹配读长或非比对读长数目的连续核苷酸序列。
执行这些算法的详情或方式可为本领域技术人员所知,或可来源于合适的文献来源,例如来源于Bao等, Journal of Human Genetics, 28 Apr. 2011, p. 1-9,其通过引用以其整体结合到本文中。本发明进一步设想这些算法的更优化或进一步研发的版本或遵照不同的方案或算法逻辑(包括尚未获得的算法)的参考比对算法的应用,只要实现与本文所述参比序列比对的原则性目的。
在比对后,通过分析位于基因组复制起点的至少一个核苷酸的频率和位于基因组末端的至少一个核苷酸的频率,继续所述方法,其中频率之比表明细菌的生长动力学。
本文所用“复制起点”是指基因组上开始复制的特定序列。复制起点的具体结构在物种之间略有变化,但都具有某些共同特征,例如高AT含量(腺嘌呤和胸腺嘧啶)。复制起点结合预复制复合体,一种识别、解旋并开始复制DNA的蛋白质。
大多数细菌具有DNA的单个环状分子,通常每个环状染色体只有单个复制起点。
基因组的末端通常大致位于环状细菌基因组复制起点的对面。
末端区含有几个DNA复制终止子位点或“Ter”位点。
分析位于复制起点的至少一个核苷酸的频率和位于基因组的末端的至少一个核苷酸的频率可通过分析在这些位置处读长的覆盖度图形来现实。
在另一个实施方案中,分析了细菌基因组间20%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
在另一个实施方案中,分析了跨细菌基因组间30%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
在另一个实施方案中,分析了跨细菌基因组间40%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
在另一个实施方案中,分析了跨细菌基因组间50%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
在另一个实施方案中,分析了跨细菌基因组间60%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
在另一个实施方案中,分析了跨细菌基因组间70%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
在另一个实施方案中,分析了跨细菌基因组间80%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
在另一个实施方案中,分析了跨细菌基因组间90%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
在另一个实施方案中,分析了跨细菌基因组间95%的核苷酸的频率,其中所分析的核苷酸的至少一个位于复制起点,且核苷酸的至少一个位于末端。
应认识到,如果复制起点和末端的位置已知,则可通过只分析这些位置处的覆盖度(或频率),来实施本发明这个方面的方法。然而,如果复制起点和末端的位置未知,则优选分析基因组的基本上所有(或大多数)的核苷酸。这样,正如下文进一步描述的,可测定复制起点和末端的位置。
任选,核苷酸的频率可通过图表表示为随其基因组位置而变化。见本文的图2A和2C显示一个示例性图表。在这些图表中,峰与复制起点一致,谷与末端一致。
本发明人表明当基因组复制起点的核苷酸的频率:基因组末端的核苷酸的频率的比率为约2:1或更大时,表明细菌的指数生长。
此外,当基因组复制起点的核苷酸的频率:基因组末端的核苷酸的频率的比率为约1:1时,表明细菌的静止生长。
如所述,可实施本文上述方法以确定复制细菌的复制起点。该方法包括:
(a)对细菌基因组的DNA片段进行测序以获得大量核酸测序数据;
(b)将所述大量核酸序列数据与参比序列进行比对,所述参比序列是细菌基因组的;和
(c)分析跨所述细菌的基因组间的核苷酸的频率;其中对应于最高读长数目的基因组位置是细菌的复制起点。
上文描述了步骤(a) – (b)。在这种情况下,分析核苷酸的频率在全基因组内实现。可推测,对应于最高读长数目的基因组位置是细菌的复制起点。
如上所述,频率分析的结果可以图表提供(参见例如图2A和C)。在这种情况下,可推测图表的峰对应于复制起点,而图表的谷对应于末端。
按照本发明这个方面的一个实施方案,细菌包含在细菌和/或其它微生物的混合群中。细菌的混合群可包括超过1、2、3、4、5、10、20、50、100或更多个微生物物种。按照一个具体的实施方案,细菌包括在微生物组样品(例如肠道微生物组)或本文公开的任何其它微生物组中。
应认识到,一旦确定细菌的复制起点的位置,本发明方法便能够同时分析生长动力学,正如上文进一步描述的一样。
本发明人表明微生物组的细菌的生长动力学可用来评价其健康状况。
因此,按照本发明的又一方面,提供分析试验微生物组的健康状况的方法,所述方法包括:
(a)分析试验微生物组中至少一种细菌的生长动力学;
(b)将试验微生物组中的所述至少一种细菌的生长动力学与病理微生物组中的至少一种细菌的生长动力学进行比较,其中当试验微生物组中至少一种细菌的生长动力学在统计学上显著类似于病理微生物组中至少一种细菌的生长动力学时,表明该微生物组不健康。
本文所用术语“病理微生物组”是指来源于已知患有疾病(例如代谢疾病,例如糖尿病或前驱糖尿病、溃疡性结肠炎、克罗恩病、癌症或肥胖症)的受试者的微生物组。
应认识到,对相同来源的微生物组进行了比较(即如果试验微生物组是肠道微生物组,则病理微生物组也通常是肠道微生物组)。
考虑了所有来源的微生物组,例如上文公开的微生物组。
如果两种细菌归类为静止期或两种细菌归类为指数期,则两者可归类为具有统计上显著相似的生长动力学。
按照一个实施方案,生长动力学的分析采用本文所述测序方法进行。因此,例如如果来自试验微生物组的细菌的基因组复制起点的核苷酸的频率:来自试验微生物组的细菌的基因组末端的核苷酸的频率为约2:1或更大,且来自病理微生物组的细菌的基因组复制起点的核苷酸的频率:来自病理微生物组的细菌的末端核苷酸的频率为约2:1或更大,则两种细菌可被视为具有统计上显著类似的生长动力学。
此外,如果来自试验微生物组的细菌的基因组复制起点的核苷酸的频率:来自试验微生物组的细菌的基因组末端的核苷酸的频率为约1:1,且来自病理微生物组的细菌的基因组复制起点的核苷酸的频率:来自病理微生物组的细菌的末端核苷酸的频率为约1:1,则两种细菌可被视为具有统计上显著类似的生长动力学。
分析细菌生长动力学的其它方法是本领域已知的,包括例如分析细菌接种物在一段时间内的光密度。
为了将试验微生物组归类为“病理的”,通常其中细菌的至少1种、更优选至少5种、更优选至少10种、更优选至少20种、更优选至少30种、更优选至少40种、更优选至少50种、更优选至少100种、更优选至少200种、更优选至少300种、更优选至少400种、更优选至少500种具有与来源于“病理微生物组”的细菌类似的生长动力学。
按照一个具体的实施方案,分析下列细菌的至少一种的生长动力学以评价微生物组的健康状况:
鲍氏志贺氏菌(Shigella boydii)—门P;
宋内氏志贺氏菌(Shigella sonnei)—门P;
解糖梭菌(Clostridium saccharolyticum)—门F;
普通拟杆菌(Bacteroides vulgates)—门B;
多形拟杆菌(Bacteroides thetaiotaomicron)—门B;
长双歧杆菌(Bifidobacterium longum)—门A;
婴儿链球菌(Streptococcus infantarius)—门F;
肠氨基酸球菌(Acidaminococcus intestine)—门F;
咽峡炎链球菌(Streptococcus anginosus)—门F;
吉氏副拟杆菌—门B;
Odoribacter splanchnicus—门B;
卵形瘤胃球菌(Ruminococcus obeum)—门F;
副血链球菌(Streptococcus parasanguinis)—门F;
链球菌I-P16 (Streptococcus sp. I-P16)—门F;
格氏链球菌(Streptococcus gordonii)—门F;
链球菌I-G2 (Streptococcus sp. I-G2)—门F;
产丁酸细菌SM4/1—门F;
弗氏志贺氏菌(Shigella flexneri)—门P;
大肠杆菌(Escherichia coli)—门P;
副流感嗜血菌(Haemophilus parainfluenzae)—门P;
产丁酸细菌SS3/4—门F;
青春双岐杆菌(Bifidobacterium adolescentis)—门A;
Akkermansia muciniphila—门V;
布氏瘤胃球菌(Ruminococcus bromii)—门F;
尖锐粪球菌—门F;
产丁酸细菌SSC/2—门F;
直肠真杆菌(Eubacterium rectal)—门F;
Faecalibacterium prausnitzii—门F;
Roseburia intestinalis—门F;
粪球菌(Coprococcus sp.) ART55/1—门F;
Roseburia hominis—门F;
扭链瘤胃球菌(Ruminococcus torques)—门F;
动物双歧杆菌(Bifidobacterium animalis)—门A;
Eubacterium cylindroides—门F;
Alistipes shahii—门B;
惰性真杆菌(Eubacterium siraeum)—门F;
挑剔真杆菌—门F;
米酒乳杆菌(Lactobacillus sakei)—门F;
瘤胃乳杆菌(Lactobacillus ruminis)—门F;
Ruminococcus champanellensis—门F;
Adlercreutzia equolifaciens—门A;或
双歧杆菌属(Bifidobacterium)—门A。
按照一个具体的实施方案,分析了上述细菌的至少5种。按照一个具体的实施方案,分析了上述细菌的至少10种。按照一个具体的实施方案,分析了上述细菌的至少20种。按照一个具体的实施方案,分析了上述细菌的至少30种。按照一个具体的实施方案,分析了上述细菌的全部。
按照一个具体的实施方案,分析下列细菌的至少1种、至少2种、至少3种、至少4种、至少5种、至少6种或全部的生长动力学以评价微生物组的健康状况:长双歧杆菌、鲍氏志贺氏菌、宋内氏志贺氏菌、普通拟杆菌、多形拟杆菌、肠氨基酸球菌和吉氏副拟杆菌
按照又一个实施方案,将试验微生物组中所有细菌的平均生长动力学与病理微生物组中所有细菌的平均生长动力学进行比较。
按照又一个实施方案,将试验微生物组中所有细菌的中值生长动力学与学病理微生物组中所有细菌的中值生长动力进行比较。
应认识到,微生物组中细菌的生长动力学一经测试,则还可分析了其它细菌参数,例如特定基因序列的丰度和存在。
下文描述了量化不同类型的微生物水平的方法。
在一些实施方案中,测定微生物的一个或多个类型或其组分或产物的水平或一组水平包括测定一个或多个DNA序列的水平或一组水平。在一些实施方案中,一个或多个DNA序列包含可用于区分不同微生物类型的任何DNA序列。在某些实施方案中,一个或多个DNA序列包含16S rRNA基因序列。在某些实施方案中,一个或多个DNA序列包含18S rRNA基因序列。在一些实施方案中,扩增1、2、3、4、5、10、15、20、25、50、100、1,000、5,000或更多个序列。
在一些实施方案中,针对一个或多个DNA序列的水平或一组水平直接测定微生物群样品(例如粪便样品)。在一些实施方案中,DNA自微生物群样品中分离,针对一个或多个DNA序列的水平或一组水平测定分离的DNA。分离微生物DNA的方法是本领域众所周知的。实例包括但不限于苯酚-氯仿提取和各种各样的市购可获得的试剂盒,包括QIAamp DNAStool Mini Kit (Qiagen,Valencia,Calif.)。
在一些实施方案中,通过使用PCR (例如标准PCR、半定量或定量PCR)扩增DNA序列,测定一个或多个DNA序列的水平或一组水平。在一些实施方案中,通过使用定量PCR扩增DNA序列,测定一个或多个DNA序列的水平或一组水平。这些和其它基础DNA扩增方法为本领域从业人员所熟知,并描述于Ausebel等(Ausubel F M, Brent R, Kingston R E, MooreD D, Seidman J G, Smith J A, Struhl K (eds). 1998. Current Protocols inMolecular Biology. Wiley: New York)。
在一些实施方案中,使用对将各个微生物类型与其它不同微生物类型区分开来的一个或多个序列有特异性的引物扩增DNA序列。在一些实施方案中,16S rRNA基因序列或其片段使用对16S rRNA基因序列有特异性的引物扩增。在一些实施方案中,18S DNA序列使用对18S DNA序列有特异性的引物扩增。
在一些实施方案中,一个或多个16S rRNA基因序列的水平或一组水平使用phylochip技术测定。phylochip的使用是本领域众所周知的,描述于Hazen等(“Deep-seaoil plume enriches indigenous oil-degrading bacteria.” Science, 330, 204-208,2010),其整体通过引用予以结合。简单地说,来自微生物群样品中提取的DNA的16S rRNA基因序列经扩增并标记。然后使扩增DNA与含有微生物16S rRNA基因的探针的阵列杂交。然后量化与各探针结合的水平,提供相当于所探测的16S rRNA基因序列的微生物类型的样品水平。在一些实施方案中,phylochip分析由销售商进行。实例包括但不限于Second GenomeInc. (San Francisco, Calif.)。
在一些实施方案中,测定微生物的一个或多个类型或其组分或产物的水平或一组水平包括测定一种或多种微生物RNA分子(例如转录物)的水平或一组水平。量化RNA转录物水平的方法是本领域众所周知的,包括但不限于RNA印迹分析、半定量反转录酶PCR、定量反转录酶PCR和微阵列分析。
在一些实施方案中,测定微生物的一个或多个类型或其组分或产物的水平或一组水平包括测定一种或多种微生物多肽的水平或一组水平。量化多肽水平的方法是本领域众所周知的,包括但不限于蛋白质印迹分析和质谱法。这些和所有其它基础多肽检测方法描述于Ausebel等中。在一些实施方案中,测定微生物的一个或多个类型或其组分或产物的水平或一组水平包括测定一种或多种微生物代谢物的水平或一组水平。在一些实施方案中,代谢物的水平通过质谱法测定。在一些实施方案中,代谢物的水平通过核磁共振波谱法测定。在一些实施方案中,代谢物的水平通过酶联免疫吸附测定法(ELISA)测定。在一些实施方案中,代谢物的水平通过比色法测定。在一些实施方案中,代谢物的水平通过分光光度法测定。
应认识到,一旦分析微生物组的健康状况,便可采用本文上述方法诊断患有疾病的受试者。
因此,按照本发明的另外一个方面,提供测定受试者的健康状况的方法,所述方法包括:
(a)分析受试者的微生物组样品中至少一种细菌的生长动力学;
(b)将受试者的所述微生物组样品中的所述至少一种细菌的所述生长动力学与至少一个病理微生物组中的所述至少一种细菌的生长动力学进行比较,其中当所述微生物组样品中的所述至少一种细菌的所述生长动力学与所述病理微生物组中的所述至少一种细菌的所述生长动力学在统计学上显著地相似时,这表明受试者不健康。
按照本发明的这个方面,从中获得试验微生物组的受试者可按照他/她的微生物组的状况诊断。如果试验微生物组包含具有与病理微生物组中的相应细菌的生长动力学类似的生长动力学的细菌,这表明受试者患有疾病。
备选或此外,如果试验微生物组包含具有与健康微生物组中的相应细菌的生长动力学类似的生长动力学的细菌,这表明受试者未患疾病。
为了诊断受试者患有疾病,通常其中细菌的至少1种、更优选至少5种、更优选至少10种、更优选至少20种、更优选至少30种、更优选至少40种、更优选至少50种、更优选至少100种、更优选至少200种、更优选至少300种、更优选至少400种、更优选至少500种具有与来源于该疾病的病理微生物组的类似的生长动力学。
例如,当试验受试者肠道微生物组的直肠真杆菌(Eubacterium rectale)具有与溃疡性结肠炎患者肠道微生物组的直肠真杆菌类似的生长动力学时,这就表明试验受试者患有溃疡性结肠炎。
例如,当试验受试者肠道微生物组的产丁酸细菌SS3/4具有与克罗恩病患者肠道微生物组的产丁酸细菌SS3/4类似的生长动力学,这就表明试验受试者患有克罗恩病。
例如,当试验受试者肠道微生物组的大肠杆菌具有与克罗恩病患者肠道微生物组的大肠杆菌类似的生长动力学,这就表明试验受试者患有克罗恩病。
例如,当试验受试者肠道微生物组的长双歧杆菌具有与克罗恩病患者或溃疡性结肠炎肠道微生物组的长双歧杆菌类似的生长动力学,这就表明试验受试者患有克罗恩病或溃疡性结肠炎。
例如,试验受试者肠道微生物组的Eggerthella lenta的生长动力学的分析提供有关患者是患有活动形式的克罗恩病还是处于缓解期的信息。
当试验受试者肠道微生物组的肺炎克雷伯氏菌(Klebsiella peneuoiae)、Errerthella lenta、大肠杆菌、产丁酸细菌SS3/4、鲍氏志贺氏菌、宋内氏志贺氏菌、普通拟杆菌、多形拟杆菌、肠氨基酸球菌、Bifidobacerium adolscentisBeiolonella parvulaOdoribacter splanchnicusBacteroides xylasisolvensAlistipes shahii吉氏副拟 杆菌的至少一种具有与糖尿病患者肠道微生物组的那些细菌类似的生长动力学时,这就表明试验受试者患有糖尿病。
按照一个具体的实施方案,为了诊断受试者,分析了下列细菌的至少一种的生长动力学:
鲍氏志贺氏菌—门P;
宋内氏志贺氏菌—门P;
解糖梭菌—门F;
普通拟杆菌—门B;
多形拟杆菌—门B;
长双歧杆菌—门A;
婴儿链球菌—门F;
肠氨基酸球菌—门F;
咽峡炎链球菌—门F;
吉氏副拟杆菌—门B;
Odoribacter splanchnicus—门B;
卵形瘤胃球菌—门F;
副血链球菌—门F;
链球菌I-P16—门F;
格氏链球菌—门F;
链球菌I-G2—门F;
产丁酸细菌SM4/1—门F;
弗氏志贺氏菌—门P;
大肠杆菌—门P;
副流感嗜血菌- 门P;
产丁酸细菌SS3/4—门F;
青春双岐杆菌—门A;
Akkermansia muciniphila—门V;
布氏瘤胃球菌—门F;
尖锐粪球菌—门F;
产丁酸细菌SSC/2—门F;
直肠真杆菌—门F;
Faecalibacterium prausnitzii—门F;
Roseburia intestinalis—门F;
粪球菌ART55/1—门F;
Roseburia hominis—门F;
扭链瘤胃球菌—门F;
动物双歧杆菌—门A;
Eubacterium cylindroides—门F;
Alistipes shahii—门B;
惰性真杆菌—门F;
挑剔真杆菌—门F;
米酒乳杆菌—门F;
瘤胃乳杆菌—门F;
Ruminococcus champanellensis—门F;
Adlercreutzia equolifaciens—门A;或
双歧杆菌属—门A。
按照另一个实施方案,为了诊断受试者,分析了图4中出现的下列细菌的至少一种的生长动力学。按照一个具体的实施方案,分析了上述细菌的至少5种。按照一个具体的实施方案,分析了上述细菌的至少10种。按照一个具体的实施方案,分析了上述细菌的至少20种。按照一个具体的实施方案,分析了上述细菌的至少30种。按照一个具体的实施方案,分析了上述细菌的全部。
按照一个具体的实施方案,分析了下列细菌的至少1种、至少2种、至少3种、至少4种、至少5种、至少6种或全部的生长动力学以评价受试者的健康状况:长双歧杆菌、鲍氏志贺氏菌、宋内氏志贺氏菌、普通拟杆菌、多形拟杆菌、肠氨基酸球菌和吉氏副拟杆菌
按照又一个实施方案,将试验受试者微生物组中的所有细菌的平均生长动力学与病理微生物组中所有细菌的平均生长动力学进行比较。
按照又一个实施方案,将试验受试者微生物组中所有细菌的中值生长动力学与病理微生物组中所有细菌的中值生长动力学进行比较。
预期在从该申请完成的专利期内,许多相关测序技术将得以发展,且术语测序的范围欲包括推理的所有这类新技术。
本文所用术语“约”是指± 10%。
术语“包含”、“含有”、“包括”、“纳入”、“具有”及其同根词意指“包括但不限于”。
术语“由……组成”意指“包括并限于”。
术语“基本由……组成”意指组成、方法或结构可包括其它成分、步骤和/或部分,但只是其它成分、步骤和/或部分不实质性地改变所要求保护的组成、方法或结构的基本和新的特征。
如本文所用,单数形式“a”、“an”和“the”包括复数指代物,除非文中另有明确规定。例如,术语“一种化合物”或“至少一种化合物”可包括多种化合物,包括其混合物。
在这个申请中,本发明的不同实施方案可以范围格式提供。应了解,围格式的描述仅仅是为了方便和简明,不应解释为对本发明范围的硬性限制。因此,范围的描述应视为明确公开了所有可能的子范围以及该范围的各个数值。例如,范围(例如1-6)的描述应视为明确公开了子范围(例如1-3、1-4、1-5、2-4、2-6、3-6等)以及该范围的各个数值(例如1、2、3、4、5和6)。不论范围宽度这都适用。
本文所用术语“方法”是指用于实现指定任务的方式、方法、技术和流程包括但不限于化学、药理学、生物学、生物化学和医学领域从业人员已知的或由化学、药理学、生物学、生物化学和医学领域从业人员由已知的方式、方法、技术和流程容易地开发的那些方式、方法、技术和流程。
要认识到,为清楚起见在各个实施方案的情况下描述的本发明的某些特征可以在单一实施方案中组合提供。相反地,为简明起见在单一实施方案的情况下提供的本发明的不同特征也可分别地或以任何合适的亚组合或适当时以本发明的任何其它描述的实施方案提供。在不同实施方案的情况下描述的某些特征不得视为这些实施方案的必要特征,除非实施方案在没有这些要素时无效。
上文描述的和随附权利要求书部分要求保护的本发明的不同的实施方案和方面在下列实施例中得到实验支持。
实施例
下面将参照以下实施例,所述实施例以非限制性方式说明本发明的一些实施方案。
总的来讲,本文所用术语和本发明所采用的实验室规程包括分子、生物化学、微生物学和重组DNA技术。文献中对所述技术进行了充分解释。参见例如“Molecular Cloning:A laboratory Manual” Sambrook等(1989);“Current Protocols in MolecularBiology” 第I-III卷 Ausubel, R. M.编辑(1994);Ausubel等, “Current Protocols inMolecular Biology”, John Wiley and Sons, Baltimore, Maryland (1989);Perbal,“A Practical Guide to Molecular Cloning”, John Wiley & Sons, New York (1988);Watson等, “Recombinant DNA”, Scientific American Books, New York;Birren等(编辑) “Genome Analysis: A Laboratory Manual Series”, 第1-4卷, Cold SpringHarbor Laboratory Press, New York (1998)、美国专利号4,666,828、4,683,202、4,801,531、5,192,659和5,272,057中列出的方法;“Cell Biology: A Laboratory Handbook”,第I-III卷, Cellis, J. E.编辑(1994);“Culture of Animal Cells - A Manual ofBasic Technique”, Freshney, Wiley-Liss, N. Y. (1994), Third Edition;“CurrentProtocols in Immunology” 第I-III卷Coligan J. E.编辑(1994);Stites等(编辑),“Basic and Clinical Immunology” (第8版), Appleton & Lange, Norwalk, CT(1994);Mishell和Shiigi (编辑), “Selected Methods in Cellular Immunology”, W.H. Freeman and Co., New York (1980);可获得的免疫测定法广泛描述于专利和科学文献,参见例如美国专利号3,791,932、3,839,153、3,850,752、3,850,578、3,853,987、3,867,517、3,879,262、3,901,654、3,935,074、3,984,533、3,996,345、4,034,074、4,098,876、4,879,219、5,011,771和5,281,521;“Oligonucleotide Synthesis” Gait, M. J.编辑(1984);“Nucleic Acid Hybridization“ Hames, B. D.和Higgins S. J.编辑(1985);“Transcription and Translation” Hames, B. D.和Higgins S. J.编辑(1984);“AnimalCell Culture Freshney“, R. I.编辑(1986);“Immobilized Cells and Enzymes” IRLPress, (1986);“A Practical Guide to Molecular Cloning” Perbal, B., (1984)和“Methods in Enzymology” 第1-317卷, Academic Press;“PCR Protocols: A Guide ToMethods And Applications”, Academic Press, San Diego, CA (1990);Marshak等,“Strategies for Protein Purification and Characterization - A LaboratoryCourse Manual” CSHL Press (1996);其全部通过引用予以结合就像本文完全列出一样。在这个文件中提供其它一般参考文献。其中的方法被认为是本领域众所周知的并且为了读者方便而提供。其中所含的信息通过引用予以结合。
材料和方法
离体大肠杆菌培养和测序。使大肠杆菌细胞(K-12菌株)的一次性培养物在来自冷冻原液的LB培养基中生长。将培养物在以200rpm振荡的同时在37℃下培养,在24小时后在O.D.600为9时收获细胞用于从静止期培养物中纯化DNA。为了从指数生长期培养物中产生DNA,将过夜起子培养物1:600稀释,生长3小时,在O.D.600为0.2时收获细胞。DNA使用DNeasy Blood & Tissue Kit (Qiagen)纯化。对于鸟枪法测序,1µg纯化的基因组DNA用Covaris M220超声波仪剪切。然后如所述制备Illumina相容文库(Suez等),并在HiSeq2500机器上测序。
数据。复制起点位置获自Gao, F., Luo, H.和Zhang, C.-T. DoriC 5.0: anupdated database of oriC regions in both bacterial and archaeal genomes.Nucleic Acids Res. 41, D90–3 (2013)。如下获得全细菌基因组。首先,从RefSeq36和Ensembl37下载全基因组(March 2014)。滤出不完全基因组(片段、超重叠群等)或质粒,并除去重复的基因组。宏基因组数据集获自参考文献7 (363个样品)和参考文献9 (346个样品;仅检索到具有完全元数据的样品)。
测序覆盖度分析。应用GEM映射程序(GEM mapper) 38,以具有特定参数(-qoffset-33 –gem-quality-threshold 26)的配对末端方式,使样品映射至含有全细菌基因组的数据库。如有需要,应用改编自Pathoscope39的预期-最大化(expectation-maximization,EM)算法,将映射至多个物种的读长正确分配和/或分割。在读长映射至同一物种的不同菌株的通常情况下,针对各样品选择代表性菌株作为具有最高丰度的菌株。将映射至各细菌的测序读长的总数汇总至非重叠10Kbp框用于显示目的。我们之后使用平滑滤波器,其由以10Kbp的窗口大小和100bp的滑行移动总和,接着以10K框的窗口大小和100框的滑行的移动中值构成。放弃不在对称地围绕跨全细菌基因组的中值框覆盖度8倍范围内的框,并也放弃超过其废弃框40%或小于10个剩余框的细菌。
复制起点位置的预测。应用通过lmfit40执行的非线性最小平方最小化的Levenberg-Marquardt算法,将原型覆盖度函数拟合至各样品中各细菌的平滑覆盖度框。覆盖度函数是峰和谷位置和覆盖度间的部分线性函数
其中:
经约束以被细菌基因组长度的45-55%分隔。p值通过覆盖度框的排列分配,并且仅保留p < 0.05和峰谷比大于1.1的拟合。
复制起点位置的预测只针对在至少3个不同的样品中具有成功覆盖度拟合的细菌进行。预测复制起点位置为不同样品间细菌的循环中值。循环中值经设计以应付其中复制起点指定基因组列的边缘的情况,在该情况下不同样品间同一细菌的覆盖度峰可位于基因组的两个边缘,因此规则中值可能不实地将位置确定在序列的中间。它被定义为:
其中
其中为基因组长度,为不同样品覆盖度峰的向量。复制末端位置的预测以类似方式进行。
峰谷比计算各样品中每个细菌的峰谷比为预测的峰位置的平滑测序覆盖度(参见有关上述测序覆盖度分析的部分)除以预测的谷位置的平滑测序覆盖度。对于待计算的比率,需要满足两个条件:(1)针对指定细菌预测复制起点和末端位置(即存在其中对覆盖度函数拟合的至少3个样品,其p<0.05,且拟合的峰谷比> 1.1);(2)细菌在指定样品中具有足够覆盖度,在平滑滤波器用作测序覆盖度分析的部分后保留。
峰谷比和临床参数的相关性。分别计算各数据集7,9的相关性。独立计算峰谷比、相对丰度、相对丰度的线性修正后的峰谷比和不同宿主变量之间的皮尔森相关性。在该分析中只考虑在超过20个样品中计算峰谷比的细菌。遗漏的微生物数据被掩蔽,且不包括在修正中。所包括的宿主变量为Qin等人的BMI、II型糖尿病的患病率、空腹血糖、游离胰岛素、HbA1C%和体重7;和MetaHIT的BMI和克罗恩病(CD)和溃疡性结肠炎(UC)的患病率9。对于后者,与UC或CD患病率的相关性只针对属于西班牙人个人的样品进行,因为只有该亚组含有受累个体。另外,分别针对国籍(丹麦、西班牙)计算与BMI的相关性。所有相关性是FDR校正的用于多项假设检验。
文献和预测的起点位置间的相关性。图2E中的相关性是皮尔逊相关。当将指定细菌的预测的起点复制位置与存在于文献中的进行比较时,在误差大于基因组长度的50%的情况下,将其基因组长度加至最小位置,以说明细菌基因组的圆度(circularity)。
实施例1
覆盖度分析揭示在离体培养物和体内宏基因组样品两者中大肠杆菌的原型图形
因为测序覆盖度分析可提供DNA复制和生长动力学的信息的构思的概念验证,所以使大肠杆菌(K-12菌株)的离体培养物生长。在指数生长期或静止生长期采样(参见方法)。从各样品中提取DNA,其中对各所得DNA库进行新一代测序,在将其映射至大肠杆菌基因组后,对读长的覆盖度图形进行分析。实际上,在静止期,其中培养物中大多数的细胞不生长,因此具有其基因组的单一拷贝,发现基因组间的均一覆盖度(图1A,B)。相比之下,自指数生长期(其中许多细菌细胞很能处于DNA复制的不同阶段)获得的样品的覆盖度图形,显示单谷和单峰,其峰与已知的30大肠杆菌的复制起点一致(图1B)。这表明覆盖度图形来自群中各细菌具有其基因组的不同部分的不同拷贝数,反映了其DNA复制阶段。还注意到与静止期样品中的~1:1相比,指数生长样品中峰的覆盖度和谷的覆盖度间的比率为~3:1,表明这些比率代表了两种培养物的生长动力学。
显然,当对522个来自其中细菌以足够丰度存在的人粪便的可公开获取的7,9体内宏基因组样品进行大肠杆菌基因组的相同覆盖度分析时,发现相同的原型图形,其覆盖度峰和谷位置与其离体培养物中的位置一致(图1C)。此外,峰谷比在0.97-3.55的范围内大幅变化,这与跨越培养物中的静止期生长(比率=1.1)和指数期生长(比率=3.3,图1C)的大肠杆菌生长动力学惊人地一致。
总之,这些结果表明,DNA复制的过程产生可通过测序读长的覆盖度分析而检测的原型特征。此外,细菌基因组间峰和谷覆盖度的比率在培养的不同条件和不同的人类微生物组样品间大幅变化,其比率越高,可能说明复制率越高,因此所分析的细菌群的生长越快。
实施例2
覆盖度分析准确鉴定复制起点
为了将本发明方法推广到混合的微生物群,并测试覆盖度图形分析是否适用于大肠杆菌以外的菌种,本发明人将分析应用于针对其可获得全基因组(方法)并跨越346个可公开获取的宏基因组粪便样品9的所有细菌中。显然,他们发现在168种不同细菌中与大肠杆菌的类似的原型覆盖度图形,各细菌的图形由单峰和单谷组成(图2A,C)。此外,对于每种细菌,不同样品间的覆盖度图形显示在不同人类微生物组样品间峰和谷的位置十分一致(图2B,D)。
为了测试是否与大肠杆菌中一样,每种细菌的峰覆盖度的位置对应于其复制起点的位置,本发明人针对上述168种细菌的每种,计算不同样品间其峰位置的中值(循环中值,参见方法)。实际上,只根据细菌覆盖度图形的本发明分析计算的这些中值位置,与其起点是早已知的30的113种不同细菌的复制起点极为一致(Pearson-R2=0.98,p<10-98,图2E)。例如,对于吉氏副拟杆菌,预测的起点位置远离已知的起点~180kb,相当于细菌基因组长度仅~3.7%的差异。在更密切检查在中值峰位置和已知起点之间有较大不一致的几个情况之后,已知起点位置在6种细菌中或许错置,本文提出了纠正的位置(图5A-F)。例如,在Odoribacter splanchius中,已知起点位于基因组的起点,而我们的根据72个人类微生物组样品的分析,鉴定出位置3.3Mbp处的原型峰和谷图形。显然,对于针对其我们进行了我们的覆盖度分析的168种细菌的55种,起点位置是未知的,我们的分析因此提供新的起点位置(图2F,6A-I)。
我们发现在大多数细菌中在其已知复制起点和其峰位置(只是通过将覆盖度分析应用于宏基因组样品来计算)间的这种良好一致性,提供以下更多的证据,即未揭示的原型覆盖度图形实际上提供相应细菌在其嵌入的宿主中进行的DNA复制过程的信息。此外,显示了这种覆盖度分析可通过鉴定具有未知起点细菌的新的推定的复制起点和可能纠正错置的起点位置,来揭示细菌基因组的结构性质。
实施例3
峰谷比显示与丰度波动是异相的日间波动
本发明人接下来旨在测定覆盖度分析的生理关联性以评价微生物组配置内不同菌种的行为图形。在最新的工作中,发现肠道微生物群~15%的微生物成员显示日间波动,表明这些“驱动者”细菌在一日进程中丰度和功能的节律变化。还进一步表明,这些微生物节律对宿主-微生物组相互作用极其重要,并且微生物组节律的日间干扰驱使宿主对肥胖症和葡萄糖不耐症的易感性。
由于细菌丰度的这些日间波动变化可能产生于其增殖速率的日间变化,本发明人将其覆盖度分析方法应用于这些数据,假设细菌增殖的节律变化自身可表明其在每日不同时间的峰谷覆盖度比的变化。为此,他们分析了连续共4或5天约每6小时获自两个不同人类个体的宏基因组粪便样品。常用的JTK周期32算法的应用鉴定出6种细菌,其丰度水平以24小时的周期性循环且在不同的样品中具有足够丰度水平允许我们的峰谷覆盖度分析。显然,在所有6种细菌中,样品间的峰谷比还显示波动图形,在3种情况下,这些波动是统计显著性的,具有24小时周期性(P<0.05,图3A-F)。此外,6种细菌中的5种的波动与相对丰度水平的波动是异相的(图3A-F)。例如,对于卵形瘤胃球菌,在12小时的授时因子时间(ZT)下每天峰谷比最高,而在18小时的ZT下仅6小时后细菌的丰度最高(图3A)。细菌丰度和峰谷比之间当一个度量低时另一个度量高的这种反关联不是这两种度量的无意义的性质,因为在不同的人样品中,这两个度量是不相关的(图7)。
显然,对于上述6种细菌的2种(卵形瘤胃球和惰性真杆菌),文献中没有已知的复制起点30,然而本发明的分析预测了当用于覆盖度分析时产生循环峰谷比的新的起点(图3A,B)。这为我们的推定起点的正确性和我们的方法的实用性提供了进一步的独立支持。在其它情况下,例如对于P. distasonis和副流感嗜血菌,通过覆盖度分析鉴定的起点与文献起点一致,且其峰谷比还显示日间波动(图3C,D)。
这些结果提供对峰谷比反映细菌生长动力学的构思的进一步支持,表明一些细菌丰度的日间变化产生于其增殖速率的日间变化。更总括地说,本发明结果表明微生物群生态系统内细菌丰度的增加可时间上领先,因此通过细菌峰谷比的增加是可预测的。
实施例4
细菌峰谷比与多个宿主临床参数相关
为了测试细菌PTR是否与疾病和不同的临床参数有关,在来自欧洲人(N=396)和中国人(N=363)组群的样品中针对每个菌种产生PTR。在两个数据集中,发现样品间PTR的巨大变化(图4)。显然,发现20种不同的细菌的PRT和多个临床参数之间的统计学显著性关联,包括长双歧杆菌的PTR和欧洲人组群西班牙国籍中克罗恩病的发生(FDR校正的Mann-Whitney P小于0.005)图4和12种不同的细菌的PTR和中国人组群中II型糖尿病的发生之间的显著相关性。PTR和溃疡性结肠炎的发生、体重指数(BMI)、糖化血红蛋白分数、空腹血清胰岛素和空腹血糖水平间的显著相关性。
这些关联不依赖于细菌丰度,且通过检查细菌丰度无法获得,因为:(1)在将PTR与临床参数关联时,只使用其中细菌存在的样品,从而保留有关所检查细菌存在与否的信息;(2)在38个的5个中,统计显著相关性是还与相同临床参数有关的丰度水平;在将其针对相对丰度水平关联后,PTR的36或38个显著关联仍保留。只有在针对相对丰度(包括直肠真杆菌)和克罗恩病的发生相关后,一些菌种的PTR才与临床参数相关(FDR校正的Mann-WhitneyP小于10 -4)。
作为整个微生物群的生长动力学的整体度量,对于每个样品,计算存在的所有细菌的PTR的均值和中值两者。这个整体度量与空腹葡萄糖和HbA1c%水平且与克罗恩病和II型糖尿病的发生相关,表示整体微生物组生长动力学还与疾病相关(图4)。
来自MGH组群的IBD研究中的预期登记处(PRISM)的40个样品的初步分析显示对于超过一半的样品的PTR计算,仅4种细菌通过本发明严格的管理管道过滤(pipelinefilter)。然而,Eggerthella lenta在患有活动期克罗恩病的患者和处于缓解中的患者之间存在显著不同的PTR (FDR校正的Mann-Whitney P小于0.1)。E. lenta的丰度或另外3个菌种的丰度都不同。
在活动期和静止期克罗恩病患者间,强调了PTR反映微生物组对其宿主的作用的独立特征的事实。
总之,这些结果表明峰谷覆盖度比含有临床相关信息,这种信息独立于细菌丰度水平所含信息,表明对于一些细菌,其生态系统内的生长动力学比其相对丰度水平更相关。
结论和讨论
总的来说,上述实施例显示,宏基因组样品内细菌读长覆盖度的图形可用作阐明自单一静态宏基因组样品推测的微生物组细菌成员的生长动力学行为的新的方式。在将覆盖度分析应用于709个人肠道宏基因组样品7,9时,本发明人表明大多数细菌显示由跨其基因组的单峰和单谷组成的原型覆盖度图形。本文提供多个证据线索,表明这些覆盖度图形可能反映微生物群生态系统不同细菌成员的生长动力学。首先,对于已知其复制起点的大多数细菌,覆盖度图形峰极接近起点,与可从细菌生长和复制的特征预期的一致。其次,不同的人类微生物组样品间的峰谷比值的范围落入针对非生长细菌群(处于静止期)和指数期生长细菌群所观察的比率之间。第三,在其中细菌在几小时内改变其丰度的情况下,观察到与丰度的变化是异相的其峰谷覆盖度比的相应变化,反映了时间上先于细菌丰度增加的峰谷比的增加。
本发明结果表明,通过宏基因组数据的简单分析可推导的这种新的特征,可为微生物群结构和功能提供新的见解。第一,对于其复制起点未知的细菌,覆盖度分析可表明推定的起点位置(正如我们本文针对55种细菌显示的一样),而对于其它细菌,可有助于提出对错置起点的修正(本文针对6种细菌所示)。第二,发现峰谷比的变化可先于丰度的变化,表明覆盖度分析可用于预测微生物群组成的变化。最后,发现细菌的峰谷比和几个重要的临床参数之间的许多关联,例如疾病(例如克罗恩病和II型糖尿病)的患病率。显然,这些相同细菌的丰度与相同的临床参数不相关,很大程度上表明一些细菌,其生长动力学是生态系统内比其相对丰度的在临床上更相关的度量。
显然,这些研究结果获自表示极复杂的生态小生境的粪便的宏基因组样品,细菌群落是非同步的和许多细菌的基因组在不同程度上不同于目前可获得的细菌基因组的事实,使所述生态小生境进一步复杂化。
将读长覆盖度分析用于“捕捉”复杂微生物组群中的不同微生物动力学行为具有多个潜在的临床意义。可使我们对宿主-微生物群相互作用的理解从现有的静态观点延伸到动态观点,其中微生物群可视为对环境信号反应极灵敏的灵活的功能单元。因此,揭示极其复杂生态系统内的各个细菌增殖图形能够鉴定活性“驱动者”和“调节者”菌种,其对来自数千局外共生菌种之中的变化的环境条件的反应最灵敏。它能够准确找出造成多因素疾病的引起疾病或调节疾病的微生物,其固有的增殖活性可能被丰度的变化所掩蔽。此外,本发明方法能够检测、跟踪和评价引入生态系统、预期在其强毒状态是高增殖性的病原体或病理生物(pathobiont)的治疗响应性,但可能难以与类似的非强毒共生细菌菌种区分开来。
总体上,提供了宏基因组数据分析的新类型,其提供可能具有临床关联性、来自单一快照样品的微生物群的生长动力学看法。因此,覆盖度分析将新的特征引入十分需要的“功能工具箱”,使得能够利用由鸟枪法宏基因组分析产生的大量数据以推导功能性微生物性质,其可有助于探索宿主-微生物群相互作用在构成稳态和疾病易感性中的作用的机制理解。
虽然结合其具体实施方案描述了本发明,但显然许多备选方案、修改和变化对于本领域技术人员而言将是显而易见的。因此,欲包括落入随附权利要求书的精神和宽大范围内的所有这类备选方案、修改和变化。
本说明书所提及的所有出版物、专利和专利申请均通过引用以共整体结合到本说明书中,程度就像每个个别的出版物、专利和专利申请具体而单独指明通过引用予以结合一样。另外,该申请中任何参考文献的引用或认同不得解释为承认所述参考文献可作为本发明的先有技术获得。就使用的章节标题而言,不应解释为必需限制性的。
参考文献
1.Qin, J. et al. A human gut microbial gene catalogue established bymetagenomic sequencing. Nature 464, 59-65 (2010).
2.Rho, M., Tang, H. & Ye, Y. FragGeneScan: predicting genes in short anderror-prone reads. Nucleic Acids Res. 38, e191 (2010).
3.Human, T. & Project, M. Structure, function and diversity of thehealthy human microbiome. Nature 486, 207-14 (2012).
4. Turnbaugh, P. J. et al. A core gut microbiome in obese and lean twins.Nature 457, 480-4 (2009).
5. Markowitz, V. M. et al. IMG/M-HMP: a metagenome comparative analysissystem for the Human Microbiome Project. PLoS One 7, e40151 (2012).
6.Meyer, F. et al. The metagenomics RAST server - a public resource forthe automatic phylogenetic and functional analysis of metagenomes. BMCBioinformatics 9, 386 (2008).
7.Qin, J. et al. A metagenome-wide association study of gut microbiota intype 2 diabetes. Nature 490, 55-60 (2012).
8.Karlsson, F. H. et al. Gut metagenome in European women with normal,impaired and diabetic glucose control. Nature 498, 99-103 (2013).
9.Nielsen, H. B. et al. Identification and assembly of genomes andgenetic elements in complex metagenomic samples without using referencegenomes. Nat. Biotechnol. (2014). doi:10.1038/nbt.2939.
10.Schloissnig, S. et al. Genomic variation landscape of the human gutmicrobiome. Nature 493, 45-50 (2013).
11.Urban, A. E. et al. High-resolution mapping of DNA copy alterations inhuman chromosome 22 using high-density tiling oligonucleotide arrays. Proc.Natl. Acad. Sci. U. S. A. 103, 4534-9 (2006).
12.Bailey, J. A. et al. Recent segmental duplications in the humangenome. Science 297, 1003-7 (2002).
13.Cheng, Z. et al. A genome-wide comparison of recent chimpanzee andhuman segmental duplications. Nature 437, 88-93 (2005).
14.Chiang, D. Y. et al. High-resolution mapping of copy-numberalterations with massively parallel sequencing. Nat. Methods 6, 99-103(2009).
15.Alkan, C. et al. Personalized copy number and segmental duplicationmaps using next-generation sequencing. Nat. Genet. 41, 1061-7 (2009).
16.Campbell, P. J. et al. Identification of somatically acquiredrearrangements in cancer using genome-wide massively parallel paired-endsequencing. Nat. Genet. 40, 722-9 (2008).
17.McKernan, K. J. et al. Sequence and structural variation in a humangenome uncovered by short-read, massively parallel ligation sequencing usingtwo-base encoding. Genome Res. 19, 1527-41 (2009).
18.Yoon, S., Xuan, Z., Makarov, V., Ye, K. & Sebat, J. Sensitive andaccurate detection of copy number variants using read depth of coverage.Genome Res. 19, 1586-92 (2009).
19.Medvedev, P., Fiume, M., Dzamba, M., Smith, T. & Brudno, M. Detectingcopy number variation with mated short reads. Genome Res. 20, 1613-22 (2010).
20.Abyzov, A., Urban, A. E., Snyder, M. & Gerstein, M. CNVnator: anapproach to discover, genotype, and characterize typical and atypical CNVsfrom family and population genome sequencing. Genome Res. 21, 974-84 (2011).
21.Xu, J. et al. Genome-wide identification and characterization ofreplication origins by deep sequencing. Genome Biol. 13, R27 (2012).
22.Skovgaard, O., Bak, M., Løbner-Olesen, A. & Tommerup, N. Genome-widedetection of chromosomal rearrangements, indels, and mutations in circularchromosomes by short read sequencing. Genome Res. 21, 1388-93 (2011).
23.Allardet-Servent, A., Michaux-Charachon, S., Jumas-Bilak, E., Karayan,L. & Ramuz, M. Presence of one linear and one circular chromosome in theAgrobacterium tumefaciens C58 genome. J. Bacteriol. 175, 7869-74 (1993).
24.Hinnebusch, J. & Tilly, K. Linear plasmids and chromosomes inbacteria. Mol. Microbiol. 10, 917-22 (1993).
25.Wang, J. D. & Levin, P. A. Metabolism, cell growth and the bacterialcell cycle. Nat. Rev. Microbiol. 7, 822-7 (2009).
26.Cooper, S. & Helmstetter, C. E. Chromosome replication and thedivision cycle of Escherichia coli B/r. J. Mol. Biol. 31, 519-40 (1968).
27.SCHAECHTER, M., MAALOE, O. & KJELDGAARD, N. O. Dependency on mediumand temperature of cell size and chemical composition during balanced grownof Salmonella typhimurium. J. Gen. Microbiol. 19, 592-606 (1958).
28.Fossum, S., Crooke, E. & Skarstad, K. Organization of sister originsand replisomes during multifork DNA replication in Escherichia coli. EMBO J.26, 4514-22 (2007).
29.Nielsen, H. J., Youngren, B., Hansen, F. G. & Austin, S. Dynamics ofEscherichia coli chromosome segregation during multifork replication. J.Bacteriol. 189, 8660-6 (2007).
30.Gao, F., Luo, H. & Zhang, C.-T. DoriC 5.0: an updated database of oriCregions in both bacterial and archaeal genomes. Nucleic Acids Res. 41, D90-3(2013).
31.Morgan, X. C. & Huttenhower, C. Chapter 12: Human microbiome analysis.PLoS Comput. Biol. 8, e1002808 (2012).
32.Hughes, M. E., Hogenesch, J. B. & Kornacker, K. JTK_CYCLE: anefficient nonparametric algorithm for detecting rhythmic components ingenome-scale data sets. J. Biol. Rhythms 25, 372-80 (2010).
33.Le Chatelier, E. et al. Richness of human gut microbiome correlateswith metabolic markers. Nature 500, 541-6 (2013).
34.Ahn, J. et al. Human gut microbiome and risk for colorectal cancer. J.Natl. Cancer Inst. 105, 1907-11 (2013).
35.Yoshimoto, S. et al. Obesity-induced gut microbial metabolite promotesliver cancer through senescence secretome. Nature 499, 97-101 (2013).
36.Tatusova, T., Ciufo, S., Fedorov, B., O’Neill, K. & Tolstoy, I. RefSeqmicrobial genomes database: new representation and annotation strategy.Nucleic Acids Res. 42, D553-9 (2014).
37.Flicek, P. et al. Ensembl 2014. Nucleic Acids Res. 42, D749-55 (2014).
38.Marco-Sola, S., Sammeth, M., Guigó, R. & Ribeca, P. The GEM mapper:fast, accurate and versatile alignment by filtration. Nat. Methods 9, 1185-8(2012).
39.Francis, O. E. et al. Pathoscope: species identification and strainattribution with unassembled sequencing data. Genome Res. 23, 1721-9 (2013).
40. Newville, M., Ingargiola, A., Stensitzki, T. & Allen, D. B. LMFIT:Non-Linear Least-Square Minimization and Curve-Fitting for Python. (2014).doi:10.5281/zenodo.11813。

Claims (31)

1.一种评价微生物组中细菌的生长动力学的方法,所述方法包括:
(a) 对微生物组的DNA片段进行测序以获得大量核酸测序数据;
(b) 将所述大量核酸序列数据与至少一个参比序列进行比对,所述参比序列是所述细菌的基因组的;和
(c) 分析位于所述基因组的复制起点的至少一个核苷酸的频率和位于所述基因组的末端的至少一个核苷酸的频率,其中所述频率的比率表明所述细菌的生长动力学。
2.权利要求1的方法,所述方法还包括使微生物组的DNA片段化以获得所述微生物组的DNA片段。
3.权利要求1的方法,其中步骤(c)包括分析跨越所述细菌的所述基因组的所述核苷酸每个的频率。
4.权利要求1的方法,其中所述测序包括平行高通量测序。
5.权利要求4的方法,其中所述高通量测序包括深度测序。
6.权利要求1的方法,所述方法还包括通过图表显示随其基因组位置变化的所述核苷酸的所述频率。
7.权利要求1的方法,其中所述微生物组选自皮肤微生物组、肠道(gut)微生物组、肠(intestinal)微生物组、口腔微生物组和阴道微生物组。
8.权利要求1的方法,其中所述微生物组是人类微生物组。
9.权利要求1的方法,其中所述微生物组包含肠道微生物组。
10.权利要求1的方法,其中当所述基因组复制起点处的所述核苷酸的频率:所述基因组末端处的所述核苷酸的频率为约2:1或更大时,它表明细菌的指数生长。
11.权利要求1的方法,其中当所述基因组复制起点处的核苷酸的频率:所述基因组末端处的核苷酸的频率为约1:1时,它表明细菌的静止生长。
12.一种测定复制细菌的复制起点的方法,所述方法包括:
(a) 对细菌基因组的DNA片段进行测序以获得大量核酸测序数据;
(b) 将所述大量核酸序列数据与参比序列进行比对,所述参比序列是所述细菌的基因组的;和
(c) 分析跨所述细菌的基因组间的核苷酸的频率;其中对应于最高读长数目的基因组位置是细菌的复制起点。
13.权利要求12的方法,所述方法还包括使微生物组的DNA片段化以获得所述微生物组的DNA片段。
14.权利要求12的方法,所述方法还包括通过图表显示随其基因组位置变化的所述核苷酸的所述频率。
15.权利要求12的方法,其中所述测序包括高通量测序。
16.权利要求15的方法,其中所述高通量测序包括深度测序。
17.权利要求12的方法,其中所述细菌包含在混合的细菌群中。
18.权利要求17的方法,其中所述混合的细菌群包含微生物组。
19.权利要求18的方法,其中所述微生物组包含肠道微生物组。
20.一种分析试验微生物组的健康状况的方法,所述方法包括:
(a) 分析试验微生物组中至少一种细菌的生长动力学;
(b) 将试验微生物组中的所述至少一种细菌的所述生长动力学与病理微生物组中的所述至少一种细菌的生长动力学进行比较,其中当所述试验微生物组中的所述至少一种细菌的所述生长动力学与所述病理微生物组中的所述至少一种细菌的所述生长动力学在统计学上显著地相似时,表明该微生物组不健康。
21.权利要求20的方法,其中所述分析生长动力学按照权利要求1的方法进行。
22.权利要求20的方法,其中所述细菌选自图4所列的细菌。
23.权利要求20的方法,其中所述病理微生物组来源于患有代谢障碍的受试者的肠道。
24.权利要求23的方法,其中所述代谢障碍选自糖尿病、肥胖症、溃疡性结肠炎和克罗恩病。
25.权利要求20的方法,其中所述试验微生物组和所述病理微生物组是肠道微生物组。
26.一种测定受试者的健康状况的方法,所述方法包括:
(a) 分析受试者的微生物组样品中至少一种细菌的生长动力学;
(b) 将受试者的所述微生物组样品中的所述至少一种细菌的所述生长动力学与至少一个病理微生物组中的所述至少一种细菌的生长动力学进行比较,其中当所述微生物组样品中的所述至少一种细菌的所述生长动力学与所述病理微生物组中的所述至少一种细菌的所述生长动力学在统计学上显著地相似时,表明受试者不健康。
27.权利要求26的方法,其中所述分析生长动力学按照权利要求1的方法进行。
28.权利要求26的方法,其中所述至少一种细菌选自图4所列的细菌。
29.权利要求26的方法,其中所述微生物组样品包括肠道微生物组样品。
30.权利要求26的方法,其中所述病理微生物组来源于患有代谢障碍的受试者的肠道。
31.权利要求30的方法,其中所述代谢障碍选自糖尿病、肥胖症、溃疡性结肠炎和克罗恩病。
CN201580073659.2A 2014-11-17 2015-11-17 分析微生物组的方法 Pending CN107429291A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462080466P 2014-11-17 2014-11-17
US62/080466 2014-11-17
PCT/IL2015/051102 WO2016079731A2 (en) 2014-11-17 2015-11-17 Method of analyzing microbiome

Publications (1)

Publication Number Publication Date
CN107429291A true CN107429291A (zh) 2017-12-01

Family

ID=55069927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580073659.2A Pending CN107429291A (zh) 2014-11-17 2015-11-17 分析微生物组的方法

Country Status (7)

Country Link
US (1) US20190102512A1 (zh)
EP (1) EP3221470B1 (zh)
JP (1) JP2017533723A (zh)
CN (1) CN107429291A (zh)
CA (1) CA2967233A1 (zh)
IL (1) IL252253A0 (zh)
WO (1) WO2016079731A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108504750A (zh) * 2018-04-23 2018-09-07 深圳华大法医科技有限公司 确定菌群snp位点集合的方法、系统及其应用
CN110541026A (zh) * 2019-08-17 2019-12-06 昆明医科大学第一附属医院 一种检测溃疡性结肠炎的生物标志物及应用
CN114414512A (zh) * 2022-01-20 2022-04-29 深圳开悦生命科技有限公司 一种鉴定和定量分析抗癌药物的光谱分析方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2551642B (en) 2014-10-31 2020-09-23 Pendulum Therapeutics Inc Methods and compositions relating to microbial treatment and diagnosis of disorders
WO2018064226A1 (en) * 2016-09-27 2018-04-05 uBiome, Inc. Method and system for crispr-based library preparation and sequencing
CA3037631A1 (en) * 2016-09-28 2018-04-05 General Automation Lab Technologies, Inc. High resolution systems, kits, apparatus, and methods for bacterial community relationship determination and other high throughput microbiology applications
EP3593267A4 (en) * 2017-03-10 2020-12-30 Prodermiq, Inc. SKIN CARE PRODUCTS AND PERSONAL CARE PRODUCTS CUSTOMIZED BY SKIN FLORA ANALYSIS
WO2019046646A1 (en) 2017-08-30 2019-03-07 Whole Biome Inc. METHODS AND COMPOSITIONS FOR THE TREATMENT OF MICROBIOMA ASSOCIATED DISORDERS
US20200263223A1 (en) * 2017-10-13 2020-08-20 Rebiotix, Inc. Microbiome health index
EP3520799A1 (en) * 2018-02-06 2019-08-07 European Molecular Biology Laboratory In-vitro model of the human gut microbiome and uses thereof in the analysis of the impact of xenobiotics
US20210353611A1 (en) 2018-09-20 2021-11-18 Yeda Research And Development Co. Ltd. Methods of treating amyotrophic lateral sclerosis
WO2020073007A1 (en) * 2018-10-05 2020-04-09 Nantomics, Llc Molecular microbiome profiling for wound healing
WO2020176369A1 (en) * 2019-02-25 2020-09-03 Biome Health, Inc. Indices of microbial diversity relating to health
US10982283B2 (en) 2019-02-25 2021-04-20 Biome Health, Inc. Indices of microbial diversity relating to health
CN110747265A (zh) * 2019-10-30 2020-02-04 天津大学 一种评价微塑料生态毒理学影响的方法
CN116783655A (zh) * 2020-12-09 2023-09-19 塔塔顾问服务有限公司 用于同时诠释微生物群落的分类分布和复制速率的方法和系统
WO2023015258A2 (en) 2021-08-06 2023-02-09 Food Rx And Al, Inc. Methods and systems for multi-omic interventions

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL154600B (nl) 1971-02-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van specifiek bindende eiwitten en hun corresponderende bindbare stoffen.
NL154598B (nl) 1970-11-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking.
NL154599B (nl) 1970-12-28 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van specifiek bindende eiwitten en hun corresponderende bindbare stoffen, alsmede testverpakking.
US3901654A (en) 1971-06-21 1975-08-26 Biological Developments Receptor assays of biologically active compounds employing biologically specific receptors
US3853987A (en) 1971-09-01 1974-12-10 W Dreyer Immunological reagent and radioimmuno assay
US3867517A (en) 1971-12-21 1975-02-18 Abbott Lab Direct radioimmunoassay for antigens and their antibodies
NL171930C (nl) 1972-05-11 1983-06-01 Akzo Nv Werkwijze voor het aantonen en bepalen van haptenen, alsmede testverpakkingen.
US3850578A (en) 1973-03-12 1974-11-26 H Mcconnell Process for assaying for biologically active molecules
US3935074A (en) 1973-12-17 1976-01-27 Syva Company Antibody steric hindrance immunoassay with two antibodies
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4034074A (en) 1974-09-19 1977-07-05 The Board Of Trustees Of Leland Stanford Junior University Universal reagent 2-site immunoradiometric assay using labelled anti (IgG)
US3984533A (en) 1975-11-13 1976-10-05 General Electric Company Electrophoretic method of detecting antigen-antibody reaction
US4098876A (en) 1976-10-26 1978-07-04 Corning Glass Works Reverse sandwich immunoassay
US4879219A (en) 1980-09-19 1989-11-07 General Hospital Corporation Immunoassay utilizing monoclonal high affinity IgM antibodies
US5011771A (en) 1984-04-12 1991-04-30 The General Hospital Corporation Multiepitopic immunometric assay
US4666828A (en) 1984-08-15 1987-05-19 The General Hospital Corporation Test for Huntington's disease
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4801531A (en) 1985-04-17 1989-01-31 Biotechnology Research Partners, Ltd. Apo AI/CIII genomic polymorphisms predictive of atherosclerosis
US5272057A (en) 1988-10-14 1993-12-21 Georgetown University Method of detecting a predisposition to cancer by the use of restriction fragment length polymorphism of the gene for human poly (ADP-ribose) polymerase
US5192659A (en) 1989-08-25 1993-03-09 Genetype Ag Intron sequence analysis method for detection of adjacent and remote locus alleles as haplotypes
US5281521A (en) 1992-07-20 1994-01-25 The Trustees Of The University Of Pennsylvania Modified avidin-biotin technique

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108504750A (zh) * 2018-04-23 2018-09-07 深圳华大法医科技有限公司 确定菌群snp位点集合的方法、系统及其应用
CN108504750B (zh) * 2018-04-23 2021-10-15 深圳华大法医科技有限公司 确定菌群snp位点集合的方法、系统及其应用
CN110541026A (zh) * 2019-08-17 2019-12-06 昆明医科大学第一附属医院 一种检测溃疡性结肠炎的生物标志物及应用
CN114414512A (zh) * 2022-01-20 2022-04-29 深圳开悦生命科技有限公司 一种鉴定和定量分析抗癌药物的光谱分析方法

Also Published As

Publication number Publication date
IL252253A0 (en) 2017-07-31
EP3221470B1 (en) 2019-08-14
JP2017533723A (ja) 2017-11-16
EP3221470A2 (en) 2017-09-27
CA2967233A1 (en) 2016-05-26
WO2016079731A3 (en) 2016-09-15
US20190102512A1 (en) 2019-04-04
WO2016079731A2 (en) 2016-05-26

Similar Documents

Publication Publication Date Title
CN107429291A (zh) 分析微生物组的方法
Mehta et al. Stability of the human faecal microbiome in a cohort of adult men
Karstens et al. Community profiling of the urinary microbiota: considerations for low-biomass samples
Tramontano et al. Nutritional preferences of human gut bacteria reveal their metabolic idiosyncrasies
Besser et al. Next-generation sequencing technologies and their application to the study and control of bacterial infections
Chiou et al. Methylation-based enrichment facilitates low-cost, noninvasive genomic scale sequencing of populations from feces
Sun et al. Integrative analysis of multi-omics data for discovery and functional studies of complex human diseases
Franzosa et al. Relating the metatranscriptome and metagenome of the human gut
Hirsch et al. Culture-independent molecular techniques for soil microbial ecology
Fraher et al. Techniques used to characterize the gut microbiota: a guide for the clinician
Garg et al. A survey of inter-individual variation in DNA methylation identifies environmentally responsive co-regulated networks of epigenetic variation in the human genome
Boughner et al. Microbial ecology: where are we now?
CN104603283B (zh) 确定异常状态相关生物标志物的方法及系统
Khachatryan et al. Taxonomic classification and abundance estimation using 16S and WGS—A comparison using controlled reference samples
Raina et al. A polyphasic taxonomic approach for designation and description of novel microbial species
WO2014019267A1 (en) Method and system to determine biomarkers related to abnormal condition
Denef Peering into the genetic makeup of natural microbial populations using metagenomics
Westaway et al. Methods for exploring the faecal microbiome of premature infants: a review
Neelapu et al. Next-generation sequencing and metagenomics
Ceschin Toxicogenomics: new strategies for ecotoxicology studies in autochthonous species II. The'omic'era in non-model species. Transcriptome analysis for biomarker screening
Kedia et al. Human gut microbiome: A primer for the clinician
Pratt The effect of sample processing methodology on observed metagenomic and metatranscriptomic microbiome profiles from healthy human stool
Pal et al. Omics Approach to Understanding Microbial Diversity
Lee et al. Experimental promoter identification of a foodborne pathogen Salmonella enterica subsp. enterica serovar Typhimurium with near single base-pair resolution
Han et al. Metagenomics and single-cell omics data analysis for human microbiome research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171201