CN103403186A

CN103403186A - 利用小rna测序消减和组装检测微生物感染

Info

Publication number: CN103403186A
Application number: CN2012800065999A
Authority: CN
Inventors: 奥弗·伊萨科夫; 西拉·莫戴; 诺姆·舒姆隆
Original assignee: Ramot at Tel Aviv University Ltd
Current assignee: Ramot at Tel Aviv University Ltd
Priority date: 2011-01-26
Filing date: 2012-01-24
Publication date: 2013-11-20
Anticipated expiration: 2032-01-24
Also published as: US20130316331A1; CN103403186B; EP2668292B1; WO2012101643A1; EP2668292A1

Abstract

提供了一种用于检测和鉴定受试对象被微生物感染的方法，其中所述方法是基于源自小RNA的序列的使用及其消减与组装。

Description

利用小RNA测序消减和组装检测微生物感染

发明领域

本发明涉及通过使用源自小RNA的序列，用于检测受试对象（subject）被微生物感染的方法和系统。

发明背景

人类病原体感染的早期且准确的检测对治疗（treatment）和疗法（therapeutics）是关键的。大部分病原体检测方法诸如，例如，PCR扩增或微阵列，依赖于对可能的病原体的准确序列的先前知识、病原体感染的流行病学、或培养病原体的能力（例如，通过微生物培养）。然而，这些检测方法是费时的且在很多情况下是不合理的，尤其是当引起疾病或症状的病原体是未知时。

可替代的检测技术包括对被感染细胞的测序并把序列与参考病原体文库比较用于鉴定（例如，MacConaill和Meyerson（2008））。被感染的组织可含有来自宿主和感染微生物两者的核酸。已经证明，从转录本样品中针对人类基因组过滤长序列读段（reads）并分析非人类的读段具有鉴定非人类病原体基因的潜力（Xu等人（2003））。

在另一个示例中，涉及计算消减方法的美国专利号6,996,477提供了一种用于执行计算消减以检测宿主生物体内的微生物的方法和系统。

然而，为了成功地检测并鉴定极少量的感染受试对象的微生物，有必要地克服此类利用数以千计的较大核酸分子的长序列读段（>200bp）的现有技术方法的缺点。当使用较大的DNA分子序列以检测宿主的病原体感染时，背景读数可以非常高且检测水平可以是低的。由于宿主DNA数量通常比病原体DNA分子高几个数量级，属于病原体的核酸的相对水平与宿主的那些相比非常低。而且，病原体可以是某种程度上潜伏的且存在/表达很少量的其自身的序列，使得鉴定他们的存在更加困难。此外，当使用大的/长的核酸分子用于测序时，可能发生这些较长转录本的剪接事件并因此可能使得比对过程复杂。由于这些缺点，此类方法通常可适用于某些病原体，尤其是具有较高表达水平的那些并仅可推断定性的且不是定量的信息。

因此在本领域中对牢固的、更加灵敏的、准确的、可靠的、快速的、无偏差的且定量的方法有需求，其还是可重复的且可比较的并允许特定的、准确的、无偏差的且快速的检测受试对象被微生物的感染。

发明概述

本发明涉及一种用于早期且准确的检测和/或鉴定受试对象被微生物感染的方法。感染性微生物的鉴定通过从源自被感染的受试对象的样品中提取的小RNA分子的消减和组装获得。

根据一些实施方案，本发明部分地基于以下惊人的发现：小RNA分子和源自其的序列可成功地被使用并应用于受试对象被微生物感染的检测和鉴定的方法中。由该方法使用的小RNA分子可以是编码和/或非编码小RNA分子。源自小RNA分子的序列的使用克服了现有技术方法的缺点。使用用于微生物检测和/或鉴定的小RNA序列，而不是，例如，常用的cDNA和表达序列标签（EST），将微生物对受试对象核苷酸的比例最大化，其是具有最低表达水平的相对少的微生物的鉴定和分析中的主要突破。特定的短RNA提取物提供了比使用DNA或大RNA提取物更高的微生物比受试对象比例，因为，如在本文上面解释的，受试对象的DNA/RNA含量通常比微生物的DNA/RNA含量高几个数量级。微生物小RNA数量的增加归因于与宿主相比微生物中较高的RNA降解速率、和片段化的微生物序列（例如，归因于RNA干扰（RNAi）机制和其他RNA降解过程）的存在而取得的，导致普遍的较低分子量及较小/较短长度的微生物RNA。而且，由于横跨剪接点的读段的比例是微小的，精确映射短RNA至参考受试对象基因组是首选的，以避免较长转录本的剪接事件。此外，通过使用短RNA分子，排除了可能掩盖整体读段并增加不想要的背景的源于受试对象的高度丰富的RNA分子（诸如，例如，rRNA和tRNA）。

根据另外的实施方案，本发明通过使用通常源自短序列读段且特别是源自小RNA分子的测序数据还提供了一种用于多重微生物比对和感染性微生物的不确定的鉴定的混杂问题的解决方案。

根据又另外的实施方案，且相对于现有技术方法，用于检测和鉴定受试对象被微生物感染的方法可用作为定性的和/或作为定量的方法。

根据一些实施方案，使用通过从受试对象的生物样品获得的短RNA提取物的深度测序产生的短的测序读段，因此提供了一种用于检测受试对象被微生物感染的新方法。根据一些实施方案，该方法包括步骤：（i）从受试对象的生物样品中分离小RNA分子的部分；（ii）针对受试对象的参考基因组比对短读段；（iii）消减与组装剩余的未映射读段；及（iv）基于核酸数据库分类与鉴定被微生物的感染。在一些实施方案中，受试对象是哺乳动物，诸如人类。在一些实施方案中，受试对象是植物。在一些实施方案中，微生物是病毒、细菌、真菌、寄生物、或类似的、或其组合。

根据一些实施方案，提供了一种用于检测和鉴定受试对象被微生物感染的方法，该方法包括以下步骤：从受试对象的生物样品（诸如，例如，细胞/组织）中提取小RNA；确定源自小RNA的cDNA分子的序列（因此产生短读段）；针对受试对象的参考基因组比对短读段；鉴定非受试对象序列（未映射的读段）并鉴定是其比对的哪一种微生物；应用从头测序（序列组装）以从短读段样品中产生较长的共有序列（重叠群）；将重叠群与已知的微生物参考比较（通过执行比对）；及鉴定感染性微生物。

根据一些实施方案，提供了一种用于检测受试对象被微生物感染的方法，该方法包括：从受试对象生物样品中分离小RNA分子的部分；针对包括受试对象核酸基因组序列的数据库比对源自小RNA分子的核酸序列；消减并组装未映射的序列以产生重叠群；及基于针对包含核酸序列的数据库比对重叠群来鉴定微生物。

根据一些实施方案，进一步反转录经分离的小RNA分子并聚合酶链式反应（PCR）扩增以获得短的cDNA产物。根据其他实施方案，将cDNA产物进一步测序，因此产生短读段。根据其他实施方案，针对受试对象的参考基因组比对短读段并消减映射的读段。根据其他实施方案，该方法还包括应用从头测序（序列组装）的步骤以从短的未映射的读段中产生较长的共有序列（重叠群）。

根据一些实施方案，小RNA分子是编码RNA分子或其片段。根据一些实施方案，小RNA分子是非编码RNA分子或其片段。根据一些实施方案，小RNA分子包括piRNA、siRNA、miRNA、shRNA、snRNA、snoRNA、和/或为较大RNA分子的降解产物的任何其他小RNA分子。根据一些实施方案，小RNA分子具有约10-100个核苷酸的长度。例如，小RNA分子具有约10-50个核苷酸的长度。例如，小RNA分子具有约20-50个核苷酸的长度。例如，小RNA分子具有约20-35个核苷酸的长度。例如，小RNA分子具有约22-30个核苷酸的长度。

根据另外的实施方案，重叠群具有约20-500个核苷酸的长度。例如，重叠群具有约25-300个核苷酸的长度。例如，重叠群具有约50-150个核苷酸的长度。例如，重叠群具有约65-85的长度。例如，重叠群具有约85-105个核苷酸的长度。

根据其他实施方案，包括受试对象的核酸基因组序列的数据库包括受试对象的核酸基因组的至少部分序列。根据另外的实施方案，包括受试对象的核酸基因组序列的数据库包括受试对象的核酸基因组的全部序列。根据一些实施方案，包括核酸序列的数据库可选自，但不限于：GenBank CDS（编码序列数据库）、PDB（蛋白数据库）、SwissProt数据库、PIR（蛋白信息资源）数据库、PRF（蛋白序列）数据库和EMBL核苷酸序列数据库、RNA家族（Rfam）数据库的集合、或任何其它序列和信息数据库，无论是现在已知的或将来待建立的。

根据一些实施方案，读段的比对通过计算工具执行。计算工具可选自，例如，但不限于：深度测序小RNA分析流程（deep sequencing small RNAanalysis pipeline，DSAP）、miRTools、miRExpress、miRNAkey、ncRNA读取与分析（ncRNA read and analyze，RandA）、Burrows-Wheeler Aligner（BWA）比对软件（BWA）、Stampy、基本局部比对搜索工具（Basic LocalAlignment Search Tool，BLAST）、BLAT、Novoalign、Bowtie、Mosaik、Blat-like快速准确搜索工具（Blat-like Fast Accurate Search Tool，BFAST）、微读段快速比对搜索工具（Micro Read Fast Alignments Search Toll，mrFAST）、高质量映射和组装（Mapping and Assembly with Quality，MAQ）或类似的、或任何其他合适的计算工具，无论是现在已知的或将来待建立的。

根据一些实施方案，微生物是，例如，细菌、病毒、真菌、寄生物、或其组合。在示例性的实施方案中，细菌是，例如，革兰氏阴性细菌、革兰氏阳性细菌、或两者。在其他示例性的实施方案中，病毒选自dsDNA病毒、ssDNA病毒、dsRNA病毒、(+)ssRNA病毒(+)义RNA、(-)ssRNA病毒(-)义RNA、在生命周期中具有DNA中间体的ssRNA-RT病毒(+)义RNA、sDNA-RT病毒或其组合。在其他示例性实施方案中，真菌是，例如，酵母、霉菌、或两者。在又另外的示例性实施方案中，寄生物是，例如，原生动物、寄生虫、或两者。在另外的示例性实施方案中，微生物是引起肿瘤的微生物。在又另外的示例性实施方案中，微生物是引起获得性免疫缺陷综合症（AIDS）的微生物。

根据一些实施方案，受试对象是人类、动物、或植物。

根据另外的实施方案，小RNA分子可从受试对象的生物样品获得，其中生物样品包括细胞、组织、体液、或其组合。

根据另外的实施方案，该方法的至少一个步骤可使用计算系统/单元/装置执行。

根据其他实施方案，该方法还可包括计算指示微生物感染受试对象的置信水平的置信分数的步骤。根据一些实施方案，置信分数还可关联/指示被微生物的感染程度。

根据另外的实施方案，该方法可以是定量的、定性的、或两者。

根据另外的实施方案，提供了一种用于检测受试对象被微生物感染的系统，该系统包括：测序装置，被配置以确定源自从受试对象的生物样品获得的小RNA分子的核酸序列；及计算单元，被配置以：a）针对包括受试对象核酸基因组序列的数据库比对核酸序列；b）消减并组装未映射的序列以产生重叠群；及c）基于针对包含核酸序列的数据库比对重叠群来鉴定微生物。根据一些实施方案，计算单元还被配置以计算指示微生物感染受试对象的置信水平的置信分数。在一些实施方案中，测序装置是深度测序仪。在一些实施方案中，计算单元可选自任何合适的计算装置或计算系统。

根据其他实施方案，提供了具有在其中储存的用于检测受试对象被微生物感染的指令的非瞬时性计算机可读介质，其中该指令当被计算机执行时引起计算机：a）针对包括受试对象核酸基因组序列的数据库，比对来源于从受试对象的生物样品获得的小RNA分子的核酸序列；b）消减并组装未映射序列以产生重叠群；及c）基于针对包括核酸序列的数据库比对重叠群来鉴定微生物。

附图简述

在所提到的附图中阐述示例性的实施方案。附图中显示的组件的尺寸和特征，通常为了方便和展示的清晰来选择且并不一定按比例显示。附图在下面列出。

图1是根据一些实施方案，一种用于微生物感染的检测的方法的流程图；

图2是显示支原体联合人类免疫缺陷病毒（HIV）在被感染细胞（泳道1）中但不在未感染的细胞（泳道2）中存在的cDNA片段的琼脂糖凝胶的象形图。泳道3是支原体阳性对照且泳道4显示DNA大小标记。箭头指向支原体产物（270bp）。cDNA片段通过RT-PCR实验获得；

图3是显示当针对所有人类转录本联合所有细菌转录本运行深度测序输出时生物体的分布的饼状图；

图4A是显示在未感染的样品中人RNA转录本的分布的饼状图。该图仅包括具有大于20个的碱基平均值（对每一样品（条件）归一化的读取的平均计数）的转录本；

图4B是显示在感染的样品中人RNA转录本的分布的饼状图。该图仅包括具有大于20个的碱基平均值的转录本；和

图5是显示在未感染的对比感染的样品中ncRNA转录本表达的图（分别是碱基平均值1和碱基平均值2）。

发明详述

本发明涉及一种使用由短RNA提取物的深度测序产生的短读段，用于检测微生物感染的方法。该方法包括一个或多个下面的步骤：（i）从受试对象的生物样品中分离小RNA分子的部分；（ii）针对受试对象的参考基因组比对短读段；（iii）消减与组装剩余的未映射的读段；及（iv）通过使用核酸数据库和/或计算比对工具分类与鉴定微生物感染。该方法在其鉴定极少量的非宿主微生物方面超过目前已知方法是有利的。此提高的灵敏度通过使用增加微生物对宿主比例的小RNA分子而不是大RNA分子或cDNA分子提供。本发明的方法可用于临床和环境样品中微生物的早期且准确的检测。

定义

为便于本发明的理解，在下面定义了一些术语和短语。将被理解的是，这些术语和短语是用于描述的且不是限制的目的，以致鉴于本文呈现的教导和指导，并联合本领域普通技术人员的知识，本领域技术人员将解读本说明书的术语或用语。

如本文提到的，术语“核酸”、“核酸分子”、“寡核苷酸”、“多核苷酸”、及“核苷酸”可互换地被使用。该术语是指脱氧核糖核苷酸（DNA）、核糖核苷酸（RNA）的多聚物及其被修饰的形式，以分离的片段的形式、或作为较大的构建体的组成部分、线性的或分支的、单链、双链、三链、或其杂合体形式。该术语还包括RNA/DNA杂合体。多核苷酸可包括DNA或RNA的有义和反义寡核苷酸或多核苷酸序列。DNA分子可以是，例如，但不限于：互补DNA（cDNA）、基因组DNA、合成DNA、重组DNA、或其杂合体。RNA分子可以是，例如，但不限于：mRNA、tRNA、shRNA、siRNA、miRNA、snRNA、snoRNA、rRNA及类似的。该术语还包括由天然存在的碱基、糖、和共价的核苷间键组成的寡核苷酸，和具有与各自的天然存在的部分行使相似功能的非天然存在部分的寡核苷酸。

术语“测序”是指确定多核苷酸分子的核苷酸序列的过程。术语“读段”是指测序过程的输出。在一些实施方案中，读段是核酸的序列。术语“短读段”是指源自短的RNA多核苷酸的测序的读段。在一些实施方案中，短读段可包括10-100个核苷酸的序列。在一些实施方案中，短读段可包括16-50个核苷酸的序列。在一些实施方案中，短读段可包括20-30个核苷酸的序列。

如本文中所使用的术语“过滤”是指从数据库排除或消减记录（诸如序列）。

术语“未映射的读段”是指针对参考数据库不比对/匹配比对/比较读段的读段。术语“映射的读段”是指与参考数据库中的序列比对/匹配的读段。

术语“小RNA”、“小RNA分子”、“短RNA”和“短RNA多核苷酸”可互换地被使用且是指包括所有类型的具有约10-100个核苷酸长度的小/短的RNA分子。在一些实施方案中，小RNA分子具有约16-50个核苷酸范围的长度。在一些实施方案中，小RNA分子具有约20-30个核苷酸范围的长度。在一些实施方案中，小RNA分子可以是编码RNA分子或其片段。在一些实施方案中，小RNA分子可以是非编码RNA分子（ncRNA）或其片段。在一些实施方案中，ncRNA分子在包括但不限于以下的细胞功能中起着至关重要的作用：生物发生和核糖体活动的调节、基因表达的抑制、mRNA剪接的促进、转录因子的调节、细胞增殖和凋亡的改变、及参与基本功能。在一些实施方案中，小RNA分子包括这样的分子如：小干扰RNA（siRNA）、微RNA（miRNA）、小的异染色质的RNA（shRNA）、Piwi-互作RNA（piRNA）、小核RNA（snRNA）、小核仁RNA（snoRNA）、和/或较大RNA分子的片段，诸如，例如，转移RNA（tRNA）、核糖体RNA（rRNA）及类似的。在另外的实施方案中，小RNA分子可包括在约1-100核苷酸长度的任何RNA分子，其可以是较大RNA分子（诸如，例如，mRNA）的降解产物，或在约1-100个核苷酸长度内的任何其他RNA分子。在一些实施方案中，小RNA分子可以是单链RNA。在其他实施方案中，小RNA分子可以是双链RNA。可通过多种机制形成小RNA。在某些情况下，小RNA源自细胞中可在真核基因表达的序列特异性表观遗传调控期间用作指导RNA的dsRNA前体。在某些情况下，小RNA可作为细胞中RNA分子特异性切割的结果形成，其中RNA分子可源自感染细胞的微生物。在某些情况下，小RNA分子可作为较大RNA分子的降解过程形成。例如，在Sébastien Pfeffer等人2005的出版物中描述了获得和或记录在细胞或组织中表达的小RNA图谱的过程，其内容全文并入本文。

术语“重叠群”是指源自单一遗传来源的一组重叠的DNA或RNA区段。可使用重叠群以推断来源的原始DNA或RNA序列。在一些实施方案中，重叠群是从一组重叠的小RNA序列重建（组装）的RNA序列。在一些实施方案中，可通过任何算法或软件程序执行RNA序列组装。在一些实施方案中，使用velvet组装汇编程序（velvet’s assembly assembler）执行RNA序列组装。在一些实施方案中，重叠群可具有约10-500个核苷酸的长度。在一些实施方案中，重叠群可具有约50-150个核苷酸的长度。在一些实施方案中，重叠群可具有约50-100个核苷酸的长度。在一些实施方案中，重叠群可具有约70-100个核苷酸的长度。在一些实施方案中，重叠群可具有75个核苷酸的长度。在一些实施方案中，重叠群可具有91个核苷酸的长度。在一些实施方案中，组装越好，重叠群越长。

术语“比对（alignment）”和“比对（aligning）”是指第一条核苷酸序列与一条或多条另外的核苷酸序列的比较/匹配的过程。可通过本领域已知的任何方法执行比对，诸如，例如，通过使用计算分析软件。在一些实施方案中，计算分析软件是任何可获得的序列分析程序（商业上或非商业上）。在一个实施方案中，使用读取与分析（RandA）软件执行比对。在另外的实施方案中，使用Burrows-Wheeler Aligner（BWA）比对软件执行比对。在另外的实施方案中，使用TopHat比对软件执行比对。在另外的实施方案中，通过比对程序工具包括，但不限于：深度测序小RNA分析流程（DSAP）、miRTools、miRExpress、miRNAkey、ncRNA读取与分析（RandA）、BWA比对软件、Stampy、基本局部比对搜索工具（BLAST）、BLAT、Novoalign、Bowtie、Mosaik、Blat-like快速准确搜索工具（BFAST）、微读段快速比对搜索工具（mrFAST）、高质量映射和组装（MAQ）、LALIGN、BLASTN、TopHat、BWA比对软件、或类似的）执行比对且可通过多种参数调整比对，诸如，例如：被比较的核苷酸序列之间相似性/同一性的程度；被比较的核苷酸序列的长度、读段（测序）的质量。定义“最优的比对”为给出最高的同一性百分比分数的比对。在一些实施方案中，第一条核苷酸序列是源自小RNA分子序列的核苷酸序列且在第一条核苷酸序列和其序列见于数据库中的一条或多条另外的序列之间执行比对。

如本文中提到的，术语“数据库”是指可以以数字形式储存的核苷酸序列信息的有序集合。在一些实施方案中，数据库可包括任何序列信息。在一些实施方案中，数据库可包括受试对象或微生物的基因组序列。在一些实施方案中，数据库可包括表达的序列信息，诸如，例如，EST（表达序列标签）或cDNA（互补DNA）数据库。在一些实施方案中，数据库可包括非编码序列（即，非翻译序列），诸如，例如，包含关于非编码RNA基因、结构化的顺式调控元件和自我剪接RNA的信息的RNA家族（Rfam）的集合。在示例性的实施方案中，数据库可选自冗余的或非冗余的GenBank数据库（其是NIH遗传序列数据库，所有公开可用的DNA序列的带注解的集合）。示例性的数据库可选自，但不限于：GenBank CDS（编码序列数据库）、PDB（蛋白数据库）、SwissProt数据库、PIR（蛋白信息资源）数据库、PRF（蛋白序列）数据库、EMBL核苷酸序列数据库、和类似的，或其任意组合。

术语“深度测序”和“下一代测序”可互换地被使用且是指使多个核酸序列的快速并行测序成为可能的增强的测序方法。在一些实施方案中，使用深度测序以推断转录本表达水平。在一些实施方案中，深度测序是指鉴定具有低表达水平的转录本的灵敏且特异的方法。在一些实施方案中，深度测序允许新的ncRNA转录本的鉴定。在一些实施方案中，深度测序不要求关于转录本的序列的任何先前知识。

术语“受试对象”是指能够包含来自不同物种的微生物的宿主生物体。在一些实施方案中，受试对象是哺乳动物，诸如人类。在一些实施方案中，受试对象是非哺乳动物的动物（诸如，例如，鸟类、鱼、和类似的）。在一些实施方案中，受试对象是植物。

如本文中所用的术语“微生物”，是指能够寄居（栖息/感染/生存）在受试对象体内和/或受试对象细胞内的生物体。微生物可包括此类微生物如，但不限于：病毒、细菌、真菌、寄生物、变形虫和类似的。在一些实施方案中，微生物是能够在受试对象中引起疾病和/或临床上可检测的症状的病原体。在一些实施方案中，被微生物感染可以不引起临床上可检测的症状。在一些实施方案中，微生物是共生微生物。在一些实施方案中，微生物可寄居在受试对象体内、在受试对象体表上（诸如，例如，在受试对象的皮肤上）和/或在受试对象一个或多个细胞内。在一些实施方案中，所有或部分微生物基因组可整合至受试对象的基因组中。在一些实施方案中，微生物的整个基因组和部分基因组均不整合至受试对象的基因组中。在一些实施方案中，微生物是病毒，诸如，例如，dsDNA病毒（诸如，例如，腺病毒、疱疹病毒、痘病毒）、ssDNA病毒（诸如，例如，细小病毒）、dsRNA病毒（诸如，例如，呼肠孤病毒）、(+)ssRNA病毒(+)义RNA（诸如，例如，微小核糖核酸病毒、披膜病毒）、(-)ssRNA病毒(-)义RNA（诸如，例如，正粘病毒、弹状病毒）、在生命周期中具有DNA中间体的ssRNA-RT病毒(+)义RNA（诸如，例如，逆转录病毒）、dsDNA-RT病毒（诸如，例如，嗜肝DNA病毒）。在一些实施方案中，微生物是细菌，诸如，例如，革兰氏阴性细菌、革兰氏阳性细菌、和类似的。在一些实施方案中，微生物是真菌，诸如酵母、霉菌、和类似的。在一些实施方案中，微生物是寄生物，诸如，例如，原生动物和寄生虫或类似的。在其他实施方案中，微生物可选自古生菌、原生生物；微观植物（绿藻）、浮游生物、和真涡虫。在一些实施方案中，微生物是单细胞的（单细胞，single-celled）。在一些实施方案中，微生物是多细胞的。在一些实施方案中，微生物可引起肿瘤。在一些实施方案中，微生物可引起获得性免疫缺陷综合症（AIDS）。在一些实施方案中，微生物可引起感染性单核细胞增多症。

如本文中所用的术语“感染”，是指微生物在受试对象机体和/或受试对象细胞内的存在。例如，病毒可感染受试对象细胞。寄生物（诸如，例如，线虫类）可感染受试对象细胞/机体。

如本文中所用的术语“构建体”，指的是可包括一种或多种核酸序列的人工组装的或分离的核酸分子，其中核酸序列可包括编码序列（即，编码终产物的序列）、调节序列、非编码序列、或其任意组合。术语构建体包括，例如，载体，但不应被视为限制于其。

本发明的经测序的核酸可被引入或转染或进入目的细胞。如本文中所用的，术语“引入”和“转染”可互换地被使用且指的是分子的转移，诸如，例如，核酸、多核苷酸分子、载体、及类似的进入目的细胞，且更具体地进入目的细胞的膜包围空间的内部。可通过本领域技术人员已知的任何方式将分子“引入”至目的细胞内部，例如根据Sambrook等人MolecularCloning:A Laboratory Manual,Cold Spring Harbor Laboratory Press,NewYork(2001)的教导，其内容通过引用并入本文。“引入”分子至细胞内的方式包括，例如，但不限于：热激、磷酸钙转染、PEI转染、电穿孔、脂质转染、转染试剂、病毒介导的转移、和类似的、或其组合。细胞转染可对任何类型、任何来源的细胞进行，诸如，例如，人细胞、动物细胞、植物细胞、病毒细胞、和类似的。细胞可选自经分离的细胞、组织培养细胞、细胞系、存在于生物体机体内的细胞、和类似的。

术语“多肽”、“肽”和“蛋白”在本文中可互换地被使用，指的是氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是对应天然存在的氨基酸的人工化学类似物的氨基酸聚合物，和天然存在的氨基酸聚合物。

根据一些实施方案，提供了一种允许快速、准确且灵敏的检测受试对象被微生物感染的方法。而且，由于该方法无偏地面对特定的微生物，其可提供额外的置信水平，由于其可用于检测可能感染指定受试对象的所有已知的微生物。此外，可选地或除了是定性的以外，该方法可以是定量的。

根据一些实施方案，因此提供了一种用于检测和鉴定受试对象被微生物感染的方法。该方法包括以下步骤：（i）针对受试对象的参考基因组数据库比对源自小RNA分子的短读段；（ii）过滤（消减）并组装剩余的未映射读段以产生较长的重叠群；及（iii）基于核酸数据库分类和鉴定微生物感染。

如本文中所用的术语“差异表达分析”指的是每一个样品中RNA转录本的差异表达读段的分析。在一些实施方案中，分析包括转录本表达方差的计算。在一些实施方案中，转录本表达方差的计算允许不同条件（样品）之间表达差异的准确且强大的评估。在一些实施方案中，使用基于“R”的工具DESeq执行差异表达分析。在一些实施方案中，DESeq利用负二项分布模型用于方差估计。

在一些实施方案中，受试对象是哺乳动物，诸如人类。在一些实施方案中，受试对象是哺乳动物的动物。在一些实施方案中，受试对象是非哺乳动物的动物，诸如，例如，鸟类、鱼、和类似的。在一些实施方案中，受试对象是植物。

在一些实施方案中，微生物可包括病毒、细菌、真菌、寄生物、或其组合。根据一些实施方案，微生物是病毒，诸如，例如，dsDNA病毒（诸如，例如，腺病毒、疱疹病毒、痘病毒）、ssDNA病毒（诸如，例如，细小病毒）、dsRNA病毒（诸如，例如，呼肠孤病毒）、(+)ssRNA病毒(+)义RNA（诸如，例如，微小核糖核酸病毒、披膜病毒）、(-)ssRNA病毒(-)义RNA（诸如，例如，正粘病毒、弹状病毒）、在生命周期中具有DNA中间体的ssRNA-RT病毒(+)义RNA（诸如，例如，逆转录病毒）、dsDNA-RT病毒（诸如，例如，嗜肝DNA病毒）。在一些实施方案中，微生物是细菌，诸如，例如，革兰氏阴性细菌、革兰氏阳性细菌、和类似的。在一些实施方案中，微生物是真菌，诸如酵母、霉菌、和类似的。在一些实施方案中，微生物是寄生物，诸如，例如，原生动物和寄生虫或类似的。在一些实施方案中，微生物感染可对受试对象造成疾病和/或临床上可检测的症状。在一些实施方案中，微生物感染可以不引起临床上可检测的症状。在一些实施方案中，微生物是共生微生物。在其他实施方案中，微生物可包括古生菌、原生生物；微观植物（绿藻）、浮游生物、和真涡虫。在一些实施方案中，微生物是单细胞的（单细胞，single-celled）。在一些实施方案中，微生物是多细胞的。

现在参照图1，其阐述了根据一些实施方案，用于检测和鉴定受试对象被微生物感染的方法的步骤的流程图。在步骤100中，产生源自从受试对象的生物样品获得的短（小）RNA分子的短序列（短读段）。然后，在步骤102中，针对受试对象的基因组的参考数据库比对短读段。在步骤104中，重新组装（通过从头合成过程）未映射的读段（即，与受试对象基因组不匹配的源自小RNA的序列）以产生较长的重叠群（例如，约50-500个核苷酸的长度）。然后，在步骤106中，针对任何需要的序列数据库（诸如，例如，任何已知的生物体数据库）比对（匹配）重叠群并过滤掉（丢弃）非特异性重叠群（即，不特定于一种或多种生物体/微生物的重叠群）。在步骤108中，鉴定并确定唯一地/特定地匹配重叠群序列的生物体/微生物（单个或多个）。

在任选的步骤110中，将仅匹配一种特定微生物的重叠群的相对量与微生物感染的程度/严重程度相关联。

在一些实施方案中，在步骤106和108中，为了提高本方法的准确性和灵敏性，可执行结果的排序。例如，只有最高排名的比对（具有最低的E值和最高的总分）可被包括在分析中。使用比对结果（当执行时，例如，通过BLAST软件），可对每一个被检测的样品准备微生物表。为了确定唯一点击（即，被确定为仅特定于一种微生物的针对重叠群的匹配比对），并为了添加可疑微生物至表中，只有仅匹配单一微生物的最高排名的比对被使用。在其他示例性的实施方案中，对于一次查询中的所有点击，可使用普通微生物分类多重比对（BLAST）结果（例如如果序列与两种不同的病毒剂比对那么本发明的方法将其计数作为由2种不同病毒组成的“病毒”的一次唯一点击）。此外，对于匹配重叠群的每一个特定微生物，可计数多重唯一点击。通过乘以其所有唯一点击的E值还可计算微生物的总E值。此外，为了说明对特定微生物的多重点击，可通过求和对该微生物获得的每一个唯一点击的分数与每一个非唯一点击的分数，并除以每一次查询（轮）鉴定的多种微生物的数量，计算微生物总分数（本文还称为“置信水平”）。置信分数可指示微生物确实感染受试对象的置信水平。在一些实施方案中，可确定最大总E值的标准并用作临界值以排除为非唯一的点击。在一些示例性的实施方案中，可使用1*E^-200的最大总E值。

在一些实施方案中，在步骤106和108中，执行深度测序数据的差异表达分析。使用DESeq工具计算的碱基平均值描述了差异表达分析。碱基平均值（Base Mean）代表每一个条件（样品）的平均归一化读段计数。使用对于每一种条件计算大小因素的DESeq工具计算碱基平均值，通过首先构建“参考样品”，通过计算对于每一个基因，所有样品中的计数的几何平均数。随后，对每一个基因计算样品中的计数的商数除以参考样品的计数。最后，计算所有商数的中值以获得样品的相对深度。此深度被用于归一化样品中每一个基因的读段计数。归一化之后，对每一个基因、每一种条件计算平均读段计数。

根据一些实施方案，并如在下面进一步详细说明的，确定微生物的置信分数还可用于定量感染的程度/严重程度。

根据一些实施方案，组装的步骤（例如，图1中步骤104）提供了该方法的进一步优势及使得能够以高的多的可能性、灵敏性及准确性鉴定微生物感染。在一些实施方案中，组装源自小RNA分子的短序列为较大的重叠群的步骤，极大地增加了该方法的灵敏性并使得否则将不会被鉴定的微生物的准确鉴定成为可能。

在一些实施方案中，提供了一种用于分析序列的方法（在一些实施方案中，还称为ncRNA读取与分析（RandA））。该方法还可用于检测受试对象被微生物感染的方法中。在一些实施方案中，该方法包括：（i）分析源自从受试对象的生物样品获得的小RNA分子的部分的深度测序数据的输入；（ii）针对包括受试对象核酸基因组序列的数据库比对核酸序列；（iii）产生经比对的转录本的新数据库并通过减少相同的冗余序列来收缩数据库；（iv）执行唯一的且不确定的映射序列的差异表达分析；和（v）基于差异表达分析的输出鉴定微生物。在一些实施方案中，小RNA分子是非编码RNA分子。在一些实施方案中，数据库是Rfam数据库。在一些实施方案中，针对唯一地且多重映射的读段执行表达分析。在一些实施方案中，使用SEQ-EM算法分析多重映射读段。在一些实施方案中，差异表达分析还包括从一个样品或在特定条件下指定的多个重复样品获得的深度测序数据的统计分析。在一些实施方案中，使用卡方检验执行一个样品的统计分析。在一些实施方案中，执行卡方检验以获得在不同样品之间无差异表达的零假设下的P值并根据多元假设检验的Bonferroni校正修正。在一些实施方案中，使用DESeq工具执行多个重复样品的差异表达分析。在一些实施方案中，通过碱基平均值描述差异表达分析。在一些实施方案中，碱基平均值代表每一个条件（样品）的平均归一化读段计数。使用对于每一种条件计算大小因素的DESeq工具计算碱基平均值，通过首先构建“参考样品”，通过计算对于每一个基因，所有样品中的计数的几何平均数。随后，对每一个基因计算样品中的计数的商数除以参考样品的计数。最后，计算所有商数的中值以获得样品的相对深度。此深度用于归一化样品中每一个基因的读段计数。归一化之后，对每一个基因、每一个条件计算平均读段计数。

根据一些实施方案，且不希望被理论或机制束缚，在用于检测和鉴定受试对象被微生物感染的方法中使用小RNA分子导致非常灵敏的、无偏的且准确的方法（如在下文中进一步示例的）。这可以至少部分归于源自微生物的核苷酸序列比源自受试对象的核苷酸序列的高比例。此外，小RNA分子的制备和使用可排除受试对象起源的高度丰富的RNA种类（诸如，例如，rRNA和tRNA），其可提供非常高的背景并掩盖源自小RNA的序列。

根据其他实施方案，可归于小RNA分子的使用的本方法的另外的优势是除了或可选地是定性的以外，本方法可用作定量的方法。因此，在一些实施方案中，检测的方法可以是定性的。定性的是指本方法可用于检测微生物的存在，（即，提供对生物样品内特定微生物的存在的是/否回答）。在一些实施方案中，检测的方法可以是定量的。定量的是指本方法可用于定量受试对象被微生物感染的量和/或程度，并因此提供感染的严重程度的估计。例如，指示微生物存在的高拷贝的存在的结果可用于估计感染的严重程度、自感染之后已过去的时间、及类似的。在一些实施方案中，特定微生物的总分可用于感染的严重程度的定量。此类定量的方法可用作确定特定感染的治疗方案和感染的严重程度的有价值的工具。

在一些实施方案中，本发明的方法可被实施用于多种用途，诸如，例如，检测和/或鉴定受试对象被微生物感染的临床应用。在一些实施方案中，本方法可被实施用于HIV1感染的鉴定。在一些实施方案中，本方法可被实施用于CMV5的鉴定。在一些实施方案中，本方法可被实施用于HPV18的鉴定。

根据一些实施方案，可从受试对象的生物样品获得小RNA分子。生物样品可以是源自机体的任何合适的样品。例如，生物样品可选自、但不限于：流体样品诸如全血、外周血单核细胞、白细胞；多种细胞和组织；固定的和/或包埋的组织切片；生物样品可以是新鲜地提取的或冷冻的。在一些实施方案中，生物样品可从活的或死的受试对象获得。可通过本领域已知的任何方法执行获得小RNA分子（诸如，例如，在“Small RNA v1.5Sample preparation Guide，Illumina，Sept.2010版中所公开的）。在一些实施方案中，从生物样品获得小RNA分子之后，小RNA分子可进一步被处理以便适应它们在本方法中的使用。例如，小RNA分子可被连接至可特异性被修饰以靶向小RNA分子的3'适体，其具有3'羟基（由其酶的处理产生）。3'适体可用于反转录小RNA分子的步骤。小RNA分子还可进一步被连接至用于扩增小RNA区段的5'适体。

在一些实施方案中，可使用一种或多种计算系统执行该方法中的一个或多个步骤。计算系统可包括可用于本方法的硬件和/或软件。可用于本发明方法的本领域已知的示例性的软件包括，但不限于：读取与分析（RandA）软件、BLAST、LALIGN、FASTA、FASTX、BWA比对软件、Velvet组装软件、Top Hat、NCBI's E-utils(http://eutils.ncbi.nlm.nih.gov)或任意其他数据库资源、比对工具、剪切工具（clipper tools）、汇编工具或目前已知的或将来待开发的其他分析工具。在一些实施方案中，分析工具可以是商业上可获得的。在一些实施方案中，分析工具可以是专门开发的。

根据另外的实施方案，提供了一种用于检测受试对象被微生物感染的系统，该系统包括：测序装置，被配置以确定源自从受试对象的生物样品获得的小RNA分子的核酸序列；和计算单元，被配置以：i）针对包括受试对象核酸基因组序列的数据库比对核酸序列；ii）消减并组装未映射的序列以产生重叠群；和iii）基于针对包含核酸序列的数据库比对重叠群来鉴定微生物。在一些实施方案中，计算单元还被配置以计算指示微生物感染受试对象的置信水平的置信分数。在一些实施方案中，测序装置是深度测序仪。在一些实施方案中，计算单元可选自任何合适的计算装置或计算系统。

在一些实施方案中，计算单元/装置/系统可整合至少中央处理单元（CPU）、暂时储存器诸如随机存取存储器（RAM）和计算机可读的介质或物品诸如非瞬时储存器。非瞬时储存器储存一组指令，当被CPU执行时，引起CPU执行检测受试对象被微生物感染的方法中的至少一些步骤和/或根据本实施方案的其他操作。计算机可读的介质或物品可包括，例如，任何形式的盘，包括软盘、光盘、CD-ROM、只读存储器（ROM）、随机存取存储器（RAM）、闪速存储器、电可编程只读存储器（EPROM）、电可擦可编程只读存储器（EEPROM）、或适合储存电子指令、且能够被耦合到计算机系统总线的任何其它类型的介质。指令可包括任何合适形式的代码，例如，源代码、编译代码、翻译码、可执行代码、静态代码、动态代码、或类似的，且可被任何合适的高级、低级、面向对象的、可视的、编译的和/或翻译的编程语言所执行，诸如C、C++、C#、Java、BASIC、Pascal、Fortran、Cobol、汇编语言、机器代码、和/或类似的。

在一些实施方案中，提供了具有在其中储存的用于检测受试对象被微生物感染的指令的非瞬时性计算机可读介质，其中该指令当被计算机执行时引起计算机：a）针对包括受试对象核酸基因组序列的数据库，比对源自从受试对象的生物样品获得的小RNA分子的核酸序列；b）消减并组装未映射的序列以产生重叠群；和c）基于针对包含核酸序列的数据库比对重叠群来鉴定微生物。

虽然已在上面论述了一些示例性的方面和实施方案，本领域技术人员将认识到某些修改、排列、添加和其亚组合。因此意图是下面所附权利要求书及此后引入的权利要求被解读为包括所有此类修改、排列、添加和亚组合，因为在它们的实际精神和范围之内。

呈现下面的实施例为了更全面地阐述本发明的某些实施方案。然而，它们绝不应该被理解为限制本发明的宽范围。本领域技术人员可容易地设想本文公开的原理的许多变化和修改，而不偏离本发明的范围。

实施例

实施例1：受试对象细胞被微生物感染的检测/鉴定：人类免疫缺陷病毒（HIV）和支原体感染人细胞的检测/鉴定.

使用小RNA提取物的微生物检测方法据此被应用于用HIV感染的细胞。在某些情况下，在本文中可把该方法称为“短的RNA消减和组装（SRSA）”。

用HIV-1感染SupT1细胞、和RNA样品制备：

在0天时用HIV-1（HXB2毒株）感染SupT1细胞（人类白种人胸腔积液淋巴瘤，T细胞）。感染后4天，添加约50%的首次用于实验的细胞（naive cells）（对照）至培养物中且4天后收获细胞。使用TRIzol试剂（Invitrogen^TM）从细胞提取总RNA。遵循制造商的小RNA样品制备流程v1

制备10μg的每种RNA样品用于深度测序。简要地，样品在凝胶上运行并从凝胶分离10-50nt的片段。随后，样品被与3’和5’适体连接、反转录及PCR扩增。从约93-100nt的PCR产物（代表约20-30ntRNA产物）制备cDNA文库并在Illumina Genome Analyzer IIx instrument

的单独通道中测序。

比对和组装：

使用fastx clipper剪除读段的标准的短的RNA适体，丢弃所有短于16nt的读段。测序方法在剪除之后分别产生对照（HIV阴性）和检测（HIV阳性）样品的21,048,677和12,003,830个读段。随后使用Burrows-WheelerAligner（BWA）比对软件（缺省参数）针对从NCBI中检索的人类基因组（hg19）参考比对读段。使用TopHat再次比对样品，其在比对过程中考虑剪接点，以检测剪接点存在对结果的混淆影响。由于BWA展示了较高的映射准确性（83%，相对于使用TopHat的78%），对其输出进行所有的下游分析。在HIV-1阴性和阳性样品中过滤人类基因组相关的读段分别产生1,251,267（6%）和1,992,557（16.6%）的未映射读段。

为了减少针对大的数据库匹配这种短读段产生的多重生物体点击的数量，组装读段组为较长的重叠群。使用以跨用户指定的k-mer值范围的预定义的参数值进行组装的Velvet’s Assembly Assembler（v1.3）组装未映射的读段，随后利用来自所有之前组装的重叠群，作为最终的组装的输入。随后为了优化重叠群的长度，用9-31nt的散列长度的宽范围运行脚本。在某些情况下，发现最有效的长度是在约17至25nt范围之内。组装分别对HIV-1阴性和阳性样品产生具有75和91nt的平均长度的16和878个重叠群。产生的读段的量的差异可被解释为在阴性（对照、未感染的）样品中缺少非人相关的序列。

分类和鉴定：

为针对任意已知的生物体匹配组装的重叠群，针对“所有非冗余的GenBank CDS翻译+PDB+SwissProt+PIR+PRF”数据库，使用NCBI的核苷酸megablast以字长28、入选阈值E值0.01比对重叠群。使用内部开发的软件，每一次查询仅包括最高排名点击（具有最低的E值和最高的总分）用于下游的分析。使用BLAST结果，对每一个样品准备微生物表（本文表1）。当每次查询的所有最高排名的点击仅匹配单一生物体时添加唯一微生物点击（使用NCBI的E-utils(http://eutils.ncbi.nlm.nih.gov/)和分类学数据库检索生物体分类学）。对每一次查询的每一个匹配的生物体计数多重点击。通过乘以所有唯一点击的E值计算生物体的总E值（对于E<0.01，E值与P值几乎相同）。为了解释blast结果中的多重点击，通过求和每一次唯一生物体点击的分数与每一次多重点击的分数，除以每一次查询的不同生物体的数量，计算生物体总分。这种求和的方法并不增加种间区分能力，由于不同物种可具有不同数量的菌株和标注。然而，其被用于种内分析，优先考虑不同的菌株（本文表2）。针对1*E^-200的最大总E值的标准决定，在HIV-1阴性样品中没有生物体被鉴定出，最突出的是具有9次唯一点击的智人（Homo sapiens）。在HIV-1阳性样品中，鉴定出4种生物体，其中一种是智人、另外三种是猪鼻支原体（Mycoplasma Hyorhinis）HUB-1、人类免疫缺陷病毒1和猪鼻支原体（本文表1）。

使用这种方法，以非常高的确定性和极低的E=0检测出感染微生物和宿主相关的序列两者。如此高的检测准确性指示该方法的高灵敏性。还观察到，通过具有最高查询分数和最低E值的基本过滤的不同分类的数量非常高，展示了低的特异性率。385种不同的通过基本过滤的分类中，14种是支原体，其中3种是猪鼻支原体菌株。还有19种不同的人类免疫缺陷病毒分类和1种智人。只将猪鼻支原体、HIV-1和智人统计为真阳性（真阳性率；TPR=0.06），该方法展示了0.94的假阳性率（FPR）。可执行更严格的入选标准以降低FPR，同时保持高灵敏度。设置入选标准为仅包括具有唯一查询点击的分类，产生八种不同的分类，其中之一是智人、一种HIV-1及四种支原体，其中两种是猪鼻支原体，达到0.5的FPR。随后添加等于1*E^-200的最大E值阈值。这样的限制导致只有四种剩余的分类，所有都是真阳性，精氨酸支原体（Mycoplasma Arginini）是最接近的分类，对于入选具有4*E^-181。通过针对其点击的分类的数量和其每一分类的求和除以每一次检索分数计算的总分，还可作为可靠的过滤标准，尽管要求进一步检测。

表1.使用本发明方法在样品中鉴定的病原体.

生物体	唯一点击	多重点击	总E值	总分数
					猪鼻支原体HUB-1	564	51	0	48951
猪鼻支原体	12	42	0	1544
					人类免疫缺陷病毒1(HIV-1)	13	26	0	1138

表2.HIV相关的BLAST点击的分布.

实施例2-通过RT-PCR实验鉴定微生物感染的存在.

为了证实HIV感染的细胞中支原体污染物的检测（如实施例1中确定的），针对SupT1细胞执行RT-PCR实验。使用带有随机引物（15μL总反应体积中1μg RNA）的高容量反转录试剂盒（Applied Biosystems^TM）反转录来自细胞的RNA样品（50μL反应体积中50ng和200ng），并用在EZ-PCR支原体检测试剂盒（Biological Industries,Beit-Ha’Emek）中。结果呈现在图2中，其显示了在1.5%琼脂糖凝胶中的PCR产物的图片。可以看出，在泳道1（HIV感染的细胞），可鉴定出对应支原体（270bp，箭头）的单一PCR条带，然而在泳道2（对照，未感染的细胞），没有观察到支原体的存在。泳道3是支原体的阳性对照。泳道4代表标志物。因此，实施例2中呈现的结果证实了通过使用源自小RNA的序列，用于检测受试对象被微生物感染的保真度、灵敏度及无偏差的方法。

实施例3：微生物感染受试对象细胞的检测/鉴定：巨细胞病毒（CMV）和HIV感染人细胞的检测/鉴定.

用CMV与HIV感染SupT1细胞、和RNA样品制备：

从HIV-1感染的SupT1细胞中及从CMV感染的原代成纤维细胞中提取总RNA。按照实施例1中描述的制备样品的cDNA文库。根据制造商的说明/流程，汇集等量的cDNA文库且随后使用Illumina平台“MiSeq”测序。所得的测序获得总数为7,157,364的读段。

比对和组装：

使用fastq-mcf clipper剪切经测序的读段的标准的短的RNA适体。丢弃短于16nt的616,429个读段并基于纯度标签过滤465,718个读段，产生6,075,217个读段。

CMV感染人细胞的检测：

随后使用Burrows-Wheeler Aligner（BWA）比对软件（缺省参数）针对从UCSC索引10（CMV）下载的人类基因组（hg19/GRCh37）参考比对读段。比对产生2,452,378个映射的读段（80.14%）。过滤人类基因组相关的读段产生607,726（19.86%）个未映射的读段。针对CMV-AD169参考比对未映射的读段显示了CMV读段的566,280个映射的读段（93.18%）的非常高的存在。

HIV感染人细胞的检测：

针对从UCSC索引11（HIV）下载的人类基因组（hg19/GRCh37）参考的比对得到2,815,500个映射的读段（93.38%）。过滤人类基因组相关的读段产生199,613（6.62%）个未映射的读段。针对HIV参考比对未映射的读段显示13,071个映射的读段（6.548%）。当对来自CMV和HIV索引两者的所有未映射的读段使用SRSA时，获得135个重叠群，其中平均读段长度为113nt（最大读段长度为399且最小读段长度为54）。

分类和鉴定：

随后，针对“所有非冗余的GenBank CDS翻译+PDB+SwissProt+PIR+PRF”数据库，使用NCBI的核苷酸megablast以字长28、入选阈值E值0.01比对重叠群。使用内部开发的软件，每一次查询仅包括最高排名点击（具有最低的E值和最高的总分）用于下游的分析。使用BLAST结果，准备微生物表格，用于HIV感染检测的分析（表3）和CMV感染检测的分析（表4）。

表3：HIV1感染的检测

生物体	唯一生物体点击
		人类疱疹病毒5	75
HIV1	29
		灵长类慢病毒组	16
反转录（Retro-transcribing）病毒	3
		人类疱疹病毒	4
智人	3
		不常见的类群	2
猿人类免疫缺陷病毒	1
		斑马鱼	1
真核域	1

表4：CMV5感染的检测

生物体

唯一生物体点击

人类疱疹病毒5	76
		真兽亚纲	1
真核域	1

实施例4：微生物感染受试对象细胞的检测/鉴定：人乳头瘤病毒（HPV）18感染人细胞的检测.

用HPV感染Hela细胞和RNA样品制备：

用HPV18感染源自人的宫颈癌细胞（HeLa细胞）。按照实施例1中描述的制备样品的cDNA文库。根据制造商流程，随后使用Illumina平台“Genome Analyzer IIx”测序cDNA文库。

所得的测序获得总数为31,844,146的读段。

比对和组装：

使用快速Xclipper剪切经测序的读段的标准的短的RNA适体。丢弃短于16nt的964,062个读段及4,259,154个只有适体的读段。

随后使用Burrows-Wheeler Aligner（BWA）比对软件（缺省参数）针对从UCSC索引11（HPV）下载的人类基因组（hg19）参考比对读段。比对导致26,026,437个映射的读段（97.76%）和594,493未映射的读段（2.24%）。针对HPV18参考比对未映射的读段显示739（0.124%）个映射的读段。

分类和鉴定

对未映射的读段使用“SRSA”产生5个经组装的序列（重叠群）。随后，针对“所有非冗余的GenBank CDS翻译+PDB+SwissProt+PIR+PRF”数据库，使用NCBI的核苷酸megablast以字长28、入选阈值E值0.01比对重叠群。使用内部开发的软件，每一次查询仅包括最高排名点击（具有最低的E值和最高的总分）用于下游的分析。BLAST导致具有唯一微生物点击1的HPV18和具有唯一微生物点击1的智人的鉴定。

本文以上获得的结果具有重要的意义并指示，可实施本发明的方法用于临床用途。一些毒株中的HPV可引起肿瘤且因此使用本发明的方法于临床组织可提供HPV的准确的感染性毒株的检测和/或鉴定。

实施例5：使用RandA软件检测/鉴定受试对象被微生物感染.

使用HIV与支原体感染Hela细胞及RNA样品的制备：

根据实施例1中描述的制备支原体和HIV1共感染的人T细胞培养物样品的cDNA。每一个样品在深度测序仪上运行两次。使用ncRNA读取和分析（RandA）软件（http://ibis.tau.ac.il/RandA）分析经测序的数据。RandA是免费获取的具有图形用户界面的软件，其在采集深度测序数据之后进行通过RNA转录组分析中的必要步骤。RandA产生全面的分析总结文本，包括剪切、比对和差异表达总结和绘图，描述多重比对和剪切后读段长度比率。

RandA软件流程：

（i）输入和输出：输入深度测序输出文件用于分析。为每一个经测序的样品分配条件名称，允许几个样品被分配在相同的条件下（例如几个技术上的/生物上的重复可被分配在相同的条件下以便推断生物的/技术上的差异）。源自小的RNA转录本（例如miRNA）的读段通常被包括在除了转录本序列本身之外的适体序列中。使用，例如，FASTX Toolkit(http://hannonlab.cshl.edu/fastx_toolkit/)，RandA软件允许从读段的3'末端剪切此适体序列并过滤掉减少至少于一定数量的碱基的读段。

（ii）数据库准备：为了ncRNA比对和随后的标注的目的，可使用已知的ncRNA Rfam（v10.1）的大量的数据库。Rfam数据库包含近200,000不同的生物体，及超过1百万条各种RNA种类诸如rRNA、tRNA、miRNA、顺式调控元件、snRNA、snoRNA、核酶及其他记录的非编码转录本的唯一序列。由于Rfam中序列多样性和大小的高水平，RandA允许用户执行多种操作，产生新的数据库，根据相关的实验需求特异性地定制。RandA使得能够指定生物体、RNA家族，且随后收缩（连接）在序列上相同的、或共享相同的描述的转录本以进一步精炼数据库。

（iii）分析：RandA使用求和唯一地映射至每一个被标注的ncRNA序列的读段的数量的基于Burrows-Wheeler交换的比对工具（BWA）针对新形成的数据库映射读段。由于深度测序平台产生的短读段长度，及ncRNA的相同家族之间的序列相似性，大量的读段比对至几个不同的参考转录本和它们的亚型。尽管这些多重比对的读段总计可达所有映射的读段的超过50%，它们通常从分析中被排除，可能导致有偏差的且误导性的表达谱。为了避免这个问题，RandA通过执行基于期望最大化的称为SEQ-EM的算法引入多重点击处理（读段映射至参考文库的多于一个唯一的位置或RNA序列）。SEQEM算法使得这些多重点击在转录本的最终表达评估中的入选成为可能，导致更好的分析准确性和能力。随后，根据“每百万的每千碱基的读段”（RPKM）方法，将映射至每一个转录本的读段的数量根据其长度和最初的映射的读段的总数标准化。这允许样品和更精确的转录本优先之间的比较。用户可选择继续并执行在不同的条件（样品）之间差异表达，还是执行转录表达谱。如果用户选择执行在两种条件之间差异表达，RandA回顾分配至每一个条件的样品的数量。如果每一个条件只有被分配至其的一个样品（没有重复），在样品之间无差异表达的零假设下执行卡方检验以获得P值。根据多元假设检验的Bonferroni校正进一步修正这些P值。如果条件中的一个具有被分配至其的多于一个样品，可计算转录表达差异。这允许了条件之间的表达差异的更精确的且强大的评估。为了这个目的，RandA采用DESeq，一种基于“R”的针对深度测序数据执行差异表达分析、并使用负二项分布模型用于差异评估的工具。

比对和组装：

使用RandA分析从支原体和HIV共感染的人类T细胞培养物中提取的两个小RNA样品。设置RandA的数据库以包括源自智人或细菌的所有非编码转录本。排除其他生物体。新产生的数据库需要在Rfam中注册的原始的2,756,313中的793,118个转录本。由于Rfam转录本注释是高度广泛的，相同的序列可能出现在不同的登录号下。然而，RandA通过基于序列或描述一致性（每一种可能适合不同的实验问题）收缩转录本使得用户能够减少可能的冗余。通过序列一致性收缩组合的人类和细菌数据库导致394,240个唯一序列，50%的降低。

针对新的数据库剪切并比对序列读段。比对分别在未感染和感染的样品中导致88%和54%的映射的读段唯一比对至数据库。使用固有的SEQ-EM算法分配映射至多个位置的剩余的读段以产生用于每一个转录本的新的读段计数。使用DESeq工具分析每一个条件（样品）的每一个深度测序运行中的计数，以产生描述映射的转录本之间的表达差异的表格（本文表5）。表5展示了由RandA产生的输出表格的部分代表。碱基平均值1和2代表每一个条件（样品）的平均归一化读段计数。使用对于每一种条件计算大小因素的DESeq工具计算碱基平均值，通过首先构建“参考样品”，通过计算对于每一个基因，所有样品中的计数的几何平均数。随后，对每一个基因计算样品中的计数的商数除以参考样品的计数。最后，计算所有商数的中值以获得样品的相对深度。此深度用于归一化样品中每一个基因的读段计数。归一化之后，对每一个基因、每一个条件计算平均读段计数。

表5.十个最差异表达的RNA转录本.

分类和鉴定：

使用RandA，论证了感染的对比未感染样品的源自支原体的转录本的显著的差异表达。分析导致在至少一个样品中检测到的2748个不同的RNA转录本。273个转录本被认为在表达方面是显著地不同的（P值<0.01），其中148个具有超过100的碱基平均值计数。这些148个转录本中，121个是人的转录本、24个支原体且只有3个来自其他细菌转录本（图3）。

以包括病毒转录本的指定的数据库运行RandA并不导致任何HIV相关的ncRNA转录本的鉴定。这可能是由于在样品中或在数据库中HIV相关的序列的缺乏。然而，分析了HIV感染的（图4B）对比未感染的（图4A）样品的人的ncRNA转录谱。在图4A-B和图5中可以看出，观察到在感染的对比未感染的样品中miRNA转录本的表达的强烈降低（96%）。

在感染的人细胞中降低的miRNA表达在以前已被报道过。不希望被理论或机理约束，这种现象可归因于被怀疑的由HIV-1Tat蛋白和/或TARRNA施加的Dicer抑制效应。进一步观察到最显著地降低的miRNA。当检查被感染的样品中最显著地降低的miRNA的靶标基因，观察到在分裂原活化蛋白激酶（MAPK）途经中的基因的显著富集（P值<0.001）。已知MAPK途径调节并诱导HIV感染性。因此，MAPK途径基因靶向miRNA的降低可作为诱导途径活性及随后增加感染性的病毒机制。获得的分析支持超过miRNA表达水平的差异的HIV感染。观察到在感染的样品中剪接体RNA的富集（图4B标记为“其他”及图5）。由于已知HIV中断剪接体在核中的组装过程，此剪接体RNA片段的富集可能支持HIV在样品中的存在。这可以是直接的剪接体效应或通过改变剪接因子的稳定性。此外，7SK RNA展示了在感染的样品中的表达的显著的增加（改变倍数>200；P值<4*e-22），表明细胞的抗病毒防御机制提供HIV转录的中断。

参考文献

Sébastien Pfeffer,Mariana Lagos-Quintana,Thomas Tuschl,(2005).Cloning of SmallRNA Molecules.Current Protocols in Molecular Biology,Unit26.4.

Cummings和Relman,Emerg.Infect.Dis.6(5):51325(2000).

MacConaill L,Meyerson M,Adding pathogens by genomic subtraction(2008)

Weber G,Shendure J,Tanenbaum DM,Church GM,Meyerson M,Identification of foreigngene sequences by transcript filtering against the human genome(2002).

Maiwald等人,Clin.Infect.Dis.32(3):457 463(2001)

Xu Y,Stange-Thomann N,Weber G,Bo R,Dodge S,David RG,Foley K,Beheshti J,HarrisNL,Birren B,Lander ES,Meyerson M,Pathogen discovery from human tissue bysequence-based computational subtraction,2003.

Small RNA v1.5 Sample preparation Guide,Illumina,Sept.2010version.

Claims

1.一种用于检测受试对象被微生物感染的方法，所述方法包括：

i）从所述受试对象的生物样品中分离小RNA分子的部分；

ii）针对包含所述受试对象核酸基因组序列的数据库比对源自所述小RNA分子的核酸序列；

iii）消减并组装未映射的序列以产生重叠群；和

iv）基于针对包含核酸序列的数据库比对所述重叠群来鉴定所述微生物。

2.根据权利要求1所述的方法，其中所述小RNA分子具有约10-100个核苷酸的长度。

3.根据权利要求1所述的方法，其中所述小RNA分子是编码RNA分子或其片段。

4.根据权利要求1所述的方法，其中所述小RNA分子是非编码RNA分子。

5.根据权利要求1所述的方法，其中所述小RNA分子包括piRNA、siRNA、miRNA、shRNA、snRNA、snoRNA、较大RNA分子的RNA片段、或其任意组合。

6.根据权利要求1所述的方法，其中所述重叠群具有约10-500个核苷酸的长度。

7.根据权利要求1所述的方法，其中包含所述受试对象核酸基因组序列的所述数据库包括所述受试对象核酸基因组的部分序列。

8.根据权利要求1所述的方法，其中所述数据库包括：GenBankCDS(编码序列数据库)、PDB(蛋白数据库)、SwissProt数据库、PIR(蛋白信息资源)数据库、PRF(蛋白序列)数据库、RNA家族(Rfam)数据库、欧洲分子生物学实验室(EMBL)核苷酸序列数据库、或其组合。

9.根据权利要求1所述的方法，其中所述微生物选自细菌、病毒、真菌、寄生物、或其组合。

10.根据权利要求9所述的方法，其中所述细菌选自革兰氏阴性细菌、革兰氏阳性细菌、或两者。

11.根据权利要求9所述的方法，其中所述病毒选自dsDNA病毒、ssDNA病毒、dsRNA病毒、(+)ssRNA病毒(+)义RNA、(-)ssRNA病毒(-)义RNA、在生命周期中具有DNA中间体的ssRNA-RT病毒(+)义RNA、sDNA-RT病毒、或其组合。

12.根据权利要求9所述的方法，其中所述真菌选自酵母、霉菌、或两者。

13.根据权利要求9所述的方法，其中所述寄生物选自原生动物、寄生虫、或两者。

14.根据权利要求1所述的方法，其中所述受试对象是人、动物、或植物。

15.根据权利要求1所述的方法，其中所述生物样品包括细胞、组织、体液、或其组合。

16.根据权利要求1所述的方法，其中所述步骤中的至少一个步骤是使用计算系统执行的。

17.根据权利要求1所述的方法，还包括计算指示微生物已感染所述受试对象的置信水平的置信分数的步骤。

18.根据权利要求17所述的方法，其中所述置信分数还指示所述微生物感染的严重程度。

19.根据权利要求1所述的方法，其中所述方法是定量的。

20.根据权利要求1所述的方法，其中所述方法是定性的。

21.一种用于检测受试对象被微生物感染的系统，所述系统包括：

测序装置，所述测序装置被配置以确定源自从受试对象的生物样品获得的小RNA分子的核酸序列；和

计算单元，所述计算单元被配置以：

a）针对包含所述受试对象核酸基因组序列的数据库比对所述核酸序列；

b）消减并组装未映射的序列以产生重叠群；和

c）基于针对包含核酸序列的数据库比对所述重叠群来鉴定微生物。

22.根据权利要求21所述的系统，其中所述小RNA分子具有约10-100个核苷酸的长度。

23.根据权利要求21所述的系统，其中所述小RNA分子包括piRNA、siRNA、miRNA、shRNA、snRNA、snoRNA、较大RNA分子的RNA片段、或其任意组合。

24.根据权利要求21所述的系统，其中所述重叠群具有约10-500个核苷酸的长度。

25.根据权利要求21所述的系统，其中所述微生物选自细菌、病毒、真菌、寄生物、或其组合。

26.根据权利要求25所述的系统，其中所述细菌选自革兰氏阴性细菌、革兰氏阳性细菌、或两者。

27.根据权利要求25所述的系统，其中所述病毒选自dsDNA病毒、ssDNA病毒、dsRNA病毒、(+)ssRNA病毒(+)义RNA、(-)ssRNA病毒(-)义RNA、在生命周期中具有DNA中间体的ssRNA-RT病毒(+)义RNA、sDNA-RT病毒、或其组合。

28.根据权利要求25所述的系统，其中所述真菌选自酵母、霉菌、或两者。

29.根据权利要求21所述的系统，其中所述生物样品包括细胞、组织、体液、或其组合。

30.根据权利要求21所述的系统，其中所述计算单元还被配置以计算指示微生物感染所述受试对象的置信水平的置信分数。

31.根据权利要求21所述的系统，其中所述置信分数还指示所述微生物感染的严重程度。

32.根据权利要求21所述的系统，其中所述测序装置是深度测序仪。

33.一种具有在其中储存的用于检测受试对象被微生物感染的指令的非瞬时性计算机可读介质，其中所述指令当被所述计算机执行时引起所述计算机：

a）针对包含所述受试对象核酸基因组序列的数据库，比对源自从所述受试对象的生物样品获得的小RNA分子的核酸序列；

b）消减并组装未映射的序列以产生重叠群；和