CN106715768B

CN106715768B - 用于测定核酸的系统和方法

Info

Publication number: CN106715768B
Application number: CN201580052678.7A
Authority: CN
Inventors: 庄小威; 庄国豪; A·伯蒂格; J·R·莫菲特; 王思远
Original assignee: Harvard College
Current assignee: Harvard College
Priority date: 2014-07-30
Filing date: 2015-07-29
Publication date: 2020-06-16
Anticipated expiration: 2035-07-29
Also published as: US11959075B2; EP4273263A3; US20230323338A1; US20170220733A1; US10240146B2; EP3174993C0; EP3174993A1; EP4273263A2; CN106715768A; CN112029826A; US11098303B2; CN107075545A; ES2968004T3; WO2016018960A1; EP3175023A1; US20230323339A1; US20170212986A1; EP3174993A4; US20230279387A1; WO2016018963A1

Abstract

本发明总体上涉及用于成像或测定例如细胞内的核酸的系统和方法。在一些实施方案中，可测定细胞的转录组。某些实施方案涉及以相对高的分辨率测定细胞内的核酸，诸如mRNA。在一些实施方案中，可将多个核酸探针应用于样品，并例如使用荧光测定它们在样品内的结合，以测定核酸探针在样品内的位置。在一些实施方案中，代码字可基于多个核酸探针的结合，并且在一些情况下，所述代码字可定义误差校正码以减少或防止核酸的误鉴定。在某些情况下，可使用相对少量的标记，例如通过使用各种组合方法来鉴定相对大量的不同靶标。

Description

用于测定核酸的系统和方法

相关申请

本申请要求由Zhuang等于2014年7月30日提交的标题为“Systems and Methodsfor Determining Nucleic Acids”的美国临时专利申请系列第62/031,062号、由Zhuang等于2015年4月3日提交的标题为“Systems and Methods for Determining Nucleic Acids”的美国临时专利申请系列62/142,653号以及由Zhuang等于2014年9月15日提交的标题为“Probe Library Construction”的美国临时专利申请系列第62/050,636号的权益。上述每一篇通过引用并入本文。

政府资金

本发明是在由国立卫生研究院授予的基金号GM096450下的政府支持下进行的。政府对本发明具有一定的权利。

领域

本发明总体上涉及用于成像或测定例如细胞内的核酸的系统和方法。在一些实施方案中，可以测定细胞的转录组。

背景

单分子荧光原位杂交(smFISH)是用于检测细胞中个体mRNA分子的有力方法。该方法的高检测效率和大动态范围向细胞和完整组织中的表达状态、空间分布和个体mRNA的细胞间差异提供了精细的细节。此类方法对于了解基因调控和表达的许多最近的见解是必需的。然而，smFISH的基本限制是其低通量，通常一次仅几个基因。该低通量是由于缺乏用于标记细胞的可区分的探针以及产生高效染色所需的大量标记探针的成本。因此，需要改进检测mRNA分子。

概述

本发明总体上涉及用于成像或测定例如细胞内的核酸的系统和方法。在一些实施方案中，可以测定细胞的转录组。在一些情况下，本发明的主题涉及相关产品，特定问题的替代解决方案和/或一个或多个系统和/或物品的多个不同用途。

在一个方面，本发明总体上涉及组合物。根据一组实施方案，组合物包含多个核酸探针，其中至少一些包含含有靶序列的第一部分和多个阅读序列。在一些情况下，每个核酸探针包含含有靶序列的第一部分和多个阅读序列。在一些实施方案中，多个阅读序列分布在多个核酸探针上，以定义误差校正码。

在另一个方面，本发明总体上涉及一种方法。在一组实施方案中，所述方法包括以下操作：将样品暴露于多个核酸探针；对于每个所述核酸探针，测定所述核酸探针在所述样品内的结合；基于所述核酸探针的结合产生代码字(码字)(codeword)；以及对于所述代码字中的至少一些，将所述代码字与有效代码字匹配，其中如果没有找到匹配，则对所述代码字应用误差校正以形成有效代码字。

在另一组实施方案中，所述方法包括以下操作：将样品暴露于多个核酸探针，其中所述核酸探针包含含有靶序列的第一部分和包含一个或多个阅读序列的第二部分，并且其中所述多个核酸探针中的至少一些包含从取自多个阅读序列的一个或多个阅读序列的组合性组合形成的可区分的核酸探针；并且对于每个核酸探针，测定样品内的核酸探针的靶序列的结合。

在另一组实施方案中，所述方法包括以下操作：将样品暴露于多个初级核酸探针(也称为编码探针)；将多个初级核酸探针暴露于次级核酸探针(也称为读出探针)的序列，并测定样品内每个次级核酸探针的荧光；基于所述次级核酸探针的荧光产生代码字；以及对于所述代码字中的至少一些，将所述代码字与有效代码字匹配，其中如果没有找到匹配，则对所述代码字应用误差校正以形成有效代码字。

在一组实施方案中，所述方法包括以下操作：将多个初级核酸探针暴露于样品；以及将所述多个核酸探针暴露于次级核酸探针的序列，并测定样品内每个次级探针的荧光。在一些实施方案中，多个次级核酸探针中的至少一些包含从取自多个阅读序列(或读出探针序列)的一个或多个阅读序列(或读出探针序列)的组合性组合形成的可区分的次级核酸探针。

在另一组实施方案中，所述方法包括以下操作：将细胞暴露于多个核酸探针，将所述多个核酸探针暴露于包含第一信号传导实体的第一次级探针，以优于500nm的精确度测定第一信号传导实体，使所述第一信号传导实体失活，将所述多个核酸探针暴露于包含第二信号传导实体的第二次级探针，以及以优于500nm的精度测定所述第二信号传导实体。

在另一组实施方案中，所述方法包括以下操作：将细胞暴露于多个核酸探针，将多个核酸探针暴露于包含第一信号传导实体的第一次级探针，以优于100nm的分辨率测定所述第一信号传导实体，使所述第一信号传导实体失活，将所述多个核酸探针暴露于包含第二信号传导实体的第二次级探针，以及以优于100nm的分辨率测定所述第二信号传导实体。

在另一组实施方案中，所述方法包括以下操作：将细胞暴露于多个核酸探针，将所述多个核酸探针暴露于包含第一信号传导实体的第一次级探针，使用超分辨率成像技术测定所述第一信号传导实体，使所述第一信号传导实体失活，将所述多个核酸探针暴露于包含第二信号传导实体的第二次级探针，以及使用超分辨率成像技术测定所述第二信号传导实体。

在某些实施方案中，所述方法包括以下操作：将多个靶标与多个靶序列和多个代码字相关联，其中所述代码字包括多个位置和每个位置的值，并且所述代码字形成误差校验和/或误差校正码空间；将多个可区分的阅读序列与所述多个代码字相关联，以使得每个可区分的阅读序列表示所述代码字内的位置的值；和形成多个核酸探针，每个核酸探针包含靶序列和一个或多个阅读序列。

另外，在一组实施方案中，所述方法包括以下操作：将多个靶标与多个靶序列和多个代码字相关联，其中所述代码字包括多个位置和每个位置的值，并且所述代码字形成误差校验和/或误差校正码空间；形成多个核酸探针，每个核酸探针包含靶序列；以及形成包含所述多个核酸探针的组，以使得每组核酸探针对应于所述代码字内的位置的至少一个共同值。

在另一组实施方案中，所述方法包括以下操作：将多个靶标与多个靶序列和多个代码字相关联，其中所述代码字包含少于靶标数目的多个位置，并且其中每个代码字与单个靶标相关联，将多个可区分的阅读序列与所述多个代码字相关联，以使得每个可区分的阅读序列表示所述代码字内的位置的值，以及形成多个核酸探针，每个核酸探针包含靶序列和一个或多个阅读序列。

在另一组实施方案中，所述方法包括以下操作：将多个核酸探针暴露于细胞，将所述多个核酸探针暴露于次级探针的序列，并测定细胞内每个所述次级探针的荧光，并基于每个次级探针的荧光序列，测定细胞内的核酸

在另一组实施方案中，所述方法包括以下操作：将多个靶标与多个靶序列和多个代码字相关联，其中所述代码字包括多个位置和每个位置的值，并且所述代码字形成误差校验和/或误差校正码空间；形成多个核酸探针，每个核酸探针包含靶序列；以及形成包含所述多个核酸探针的组，以使得每组核酸探针对应于所述代码字内的位置的至少一个共同值。

在另一组实施方案中，所述方法包括以下操作：将细胞暴露于多个核酸探针，将所述多个核酸探针暴露于包含第一信号传导实体的第一次级探针，使用超分辨率成像技术测定第一信号传导实体，使所述第一信号传导实体失活，将所述多个核酸探针暴露于包含第二信号传导实体的第二次级探针，以及使用超分辨率成像技术测定所述第二信号传导实体。

在另一组实施方案中，所述方法包括以下操作：将细胞暴露于多个核酸探针，将所述多个核酸探针暴露于包含第一信号传导实体的第一次级探针，以优于500nm的精度测定所述第一信号传导实体，使所述第一信号传导实体失活，将所述多个核酸探针暴露于包含第二信号传导实体的第二次级探针，以及以优于500nm的精度测定所述第二信号传导实体。

在另一组实施方案中，所述方法包括以下操作：将细胞暴露于多个核酸探针，将所述多个核酸探针暴露于包含第一信号传导实体的第一次级探针，以优于100nm的分辨率测定第一信号传导实体，使所述第一信号传导实体失活，将所述多个核酸探针暴露于包含第二信号传导实体的第二次级探针，以及使用超分辨率成像技术测定所述第二信号传导实体。

在另一组实施方案中，所述方法包括以下操作：使多个核酸靶标与多个靶序列和多个代码字相关联，其中所述代码字包括多个位置和每个位置的值，并且所述代码字形成误差校验和/或误差校正码；使独特的阅读序列与所述代码字中的每个位置的每个可能值相关联，其中所述阅读序列取自一组正交序列，所述正交序列彼此之间以及与样品中的核酸种类具有有限的同源性；形成多个初级核酸探针，每个初级核酸探针包含独特地结合核酸靶标的靶序列和一个或多个阅读序列；形成多个包含信号传导实体和与所述阅读序列之一互补的序列的次级核酸探针；将样品暴露于所述初级核酸探针，以使得所述核酸探针与所述样品中的核酸靶标杂交；将样品中的初级核酸探针暴露于次级核酸探针，以使得所述次级核酸探针与所述初级核酸探针中的至少一些上的阅读序列杂交；对所述样品成像；以及重复所述暴露和成像步骤一次或多次，使用不同的次级核酸探针进行至少一些所述重复。

根据另一组实施方案，所述方法包括以下操作：使多个核酸靶标与多个靶序列和多个代码字相关联，其中所述代码字包括多个位置和每个位置的值，并且所述代码字形成误差校验和/或误差校正码空间；形成多个包含信号传导实体和与所述核酸靶标之一特异性结合的靶序列的核酸探针；将所述核酸探针分组至多个探针库中，其中每个探针库对应于所述代码字内的独特位置的特定值；将样品暴露于所述探针库之一；对所述样品成像；以及重复所述暴露和成像步骤一次或多次，使用不同的探针库进行至少一些所述重复。

在另一个方面，本发明包括制备本文所述的一个或多个实施方案的方法。在另一个方面，本发明包括使用本文所述的一个或多个实施方案的方法。

当结合附图考虑时，根据本发明的各种非限制性实施方案的以下详细描述，本发明的其它优点和新颖特征将变得明显。在本说明书和通过引用并入的文件包括冲突和/或不一致的公开内容的情况下，以本说明书为准。如果通过引用并入的两个或更多个文件包括彼此相冲突和/或不一致的公开内容，则以具有较晚生效日期的文件为准。

附图简述

将参照附图通过实例来描述本发明的非限制性实施方案，所述附图是示意性的，并且不旨在按比例绘制。在图中，所示的每个相同或几乎相同的组分通常由单个数字表示。为了清楚起见，在其中举例说明对于使本领域的普通技术人员理解本发明来说是不必要的情况下，不在每个图中标出每个组分，也不显示本发明的每个实施方案的每个组分。在附图中：

图1A-1C举例说明本发明的某些实施方案中的核酸探针的编码方案；

图2A-2G举例说明本发明的一些实施方案中的细胞中的mRNA的测定；

图3A-3B举例说明根据本发明的各种实施方案的核酸的测定；

图4A-4B是根据本发明的某些实施方案的分布在不同核酸探针的群体中的多个阅读序列的非限制性实例；

图5A-5E举例说明根据本发明的另一个实施方案的核酸的测定；

图6A-6H举例说明本发明的某些实施方案中的细胞中的多种核酸种类的同时测定；

图7A-7E显示根据本发明的一些实施方案测定的基因的表达噪声和不同基因之间的表达的共变化；

图8A-8E举例说明根据本发明的一个实施方案测定的细胞中的RNA的空间分布；

图9A-9C举例说明本发明的另一个实施方案中的细胞中的多种核酸种类的同时测定；

图10A-10B显示根据本发明的另一个实施方案测定的不同基因之间的表达；

图11是根据本发明的另一个实施方案的组合标记的示意性描述；

图12显示了本发明的另一实施方案中的汉明距离(Hamming distance)的示意性描述。

图13举例说明本发明的另一个实施方案中的探针文库的产生。

图14A-14B举例说明本发明的另一个实施方案中的荧光斑点测定；

图15A-15B举例说明在本发明的另一个实施方案中，误差校正促进RNA检测；

图16A-16B显示本发明的一个实施方案中的误鉴定率和调用率(calling rates)的表征；

图17A-17D显示本发明的另一个实施方案中的误鉴定率和调用率的表征；

图18A-18C显示根据本发明的一个实施方案的实验的比较；和

图19A-9D举例说明本发明的另一个实施方案中的解码和误差评估。

序列简述

SEQ ID NO：1为：GTTGGCGACGAAAGCACTGCGATTGGAACCGTCCCAAGCGTTGCGCTTAATGGATCATCAATTTTGTCTCACTACGACGGTCAATCGCGCTGCATACTTGCGTCGGTCGGACAAACGAGG；

SEQ ID NO:2为CGCAACGCTTGGGACGGTTCCAATCGGATC；

SEQ ID NO:3为CGAATGCTCTGGCCTCGAACGAACGATAGC；

SEQ ID NO:4为ACAAATCCGACCAGATCGGACGATCATGGG；

SEQ ID NO:5为CAAGTATGCAGCGCGATTGACCGTCTCGTT；

SEQ ID NO:6为TGCGTCGTCTGGCTAGCACGGCACGCAAAT；

SEQ ID NO:7为AAGTCGTACGCCGATGCGCAGCAATTCACT；

SEQ ID NO:8为CGAAACATCGGCCACGGTCCCGTTGAACTT；

SEQ ID NO:9为ACGAATCCACCGTCCAGCGCGTCAAACAGA；

SEQ ID NO:10为CGCGAAATCCCCGTAACGAGCGTCCCTTGC；

SEQ ID NO:11为GCATGAGTTGCCTGGCGTTGCGACGACTAA；

SEQ ID NO:12为CCGTCGTCTCCGGTCCACCGTTGCGCTTAC；

SEQ ID NO:13为GGCCAATGGCCCAGGTCCGTCACGCAATTT；

SEQ ID NO:14为TTGATCGAATCGGAGCGTAGCGGAATCTGC；

SEQ ID NO:15为CGCGCGGATCCGCTTGTCGGGAACGGATAC；

SEQ ID NO:16为GCCTCGATTACGACGGATGTAATTCGGCCG；

SEQ ID NO:17为GCCCGTATTCCCGCTTGCGAGTAGGGCAAT

SEQ ID NO:18为GTTGGTCGGCACTTGGGTGC；

SEQ ID NO:19为CGATGCGCCAATTCCGGTTC；

SEQ ID NO:20为CGCGGGCTATATGCGAACCG；

SEQ ID NO:21为TAATACGACTCACTATAGGGAAAGCCGGTTCATCCGGTGG；

SEQ ID NO:22为TAATACGACTCACTATAGGGTGATCATCGCTCGCGGGTTG；

SEQ ID NO:23为TAATACGACTCACTATAGGGCGTGGAGGGCATACAACGC；

SEQ ID NO:24为CGCAACGCTTGGGACGGTTCCAATCGGATC/3Cy5Sp/；

SEQ ID NO:25为CGAATGCTCTGGCCTCGAACGAACGATAGC/3Cy5Sp/；

SEQ ID NO:26为ACAAATCCGACCAGATCGGACGATCATGGG/3Cy5Sp/；

SEQ ID NO:27为CAAGTATGCAGCGCGATTGACCGTCTCGTT/3Cy5Sp/；

SEQ ID NO:28为GCGGGAAGCACGTGGATTAGGGCATCGACC/3Cy5Sp/；

SEQ ID NO:29为AAGTCGTACGCCGATGCGCAGCAATTCACT/3Cy5Sp/；

SEQ ID NO:30为CGAAACATCGGCCACGGTCCCGTTGAACTT/3Cy5Sp/；

SEQ ID NO:31为ACGAATCCACCGTCCAGCGCGTCAAACAGA/3Cy5Sp/；

SEQ ID NO:32为CGCGAAATCCCCGTAACGAGCGTCCCTTGC/3Cy5Sp/；

SEQ ID NO:33为GCATGAGTTGCCTGGCGTTGCGACGACTAA/3Cy5Sp/；

SEQ ID NO:34为CCGTCGTCTCCGGTCCACCGTTGCGCTTAC/3Cy5Sp/；

SEQ ID NO:35为GGCCAATGGCCCAGGTCCGTCACGCAATTT/3Cy5Sp/；

SEQ ID NO:36为TTGATCGAATCGGAGCGTAGCGGAATCTGC/3Cy5Sp/；

SEQ ID NO:37为CGCGCGGATCCGCTTGTCGGGAACGGATAC/3Cy5Sp/；

SEQ ID NO:38为GCCTCGATTACGACGGATGTAATTCGGCCG/3Cy5Sp/；以及

SEQ ID NO:39为GCCCGTATTCCCGCTTGCGAGTAGGGCAAT/3Cy5Sp/。

详述

现在论述两个示例性方法。然而，应当理解，这些方法是以解释而非限制的方式呈现的；在本文中进一步详细论述了其它方面和实施方案。在一个示例性方法中，使用初级探针(也称为编码探针)和次级探针(也称为读出探针)，其中所述初级探针编码“代码字”并结合样品中的靶核酸，并且所述次级探针用于读出来初级探针的代码字。在另一示例方法中，包含代码字的多个不同初级探针被分为与代码字中的位置一样多的单独的库，以使得每个初级探针库对应于代码字的某个位置中的某个值(例如，如在“1001”中的第一位置中的“1”)。

现参照图3A描述第一实例。如下面将更详细地论述的，在其它实施方案中，也可以使用其它配置。在该第一实例中，使用一系列核酸探针来例如定性或定量地测定细胞或其它样品内的核酸。例如，核酸可以被鉴定为存在或不存在，和/或可以在细胞或其它样品内测定某些核酸的数目或浓度。在一些情况下，可以以相对高的分辨率，以及在一些情况下，以优于可见光波长的分辨率来测定探针在细胞或其它样品内的位置。

该实例总体上涉及例如以相对高的分辨率在空间上检测细胞或其它样品内的核酸。例如，所述核酸可以是mRNA或本文所述的其它核酸。在一组实施方案中，细胞内的核酸可通过向细胞递送或施用核酸探针来测定。在一些情况下，通过使用组合方法，可使用核酸探针上相对少量的不同标记来测定相对大量的核酸。因此，例如由于核酸探针与样品中不同的核酸的同时结合，例如，可使用相对少量的实验来测定样品中相对大量的核酸。

在一组实施方案中，将能够结合怀疑存在于细胞内的核酸的初级核酸探针群体应用于细胞(或其它样品)。随后，依次添加和例如使用成像技术诸如荧光显微镜术(例如，常规荧光显微镜术)、STORM(随机光学重建显微镜术)或其它成像技术测定可以结合一些初级核酸或以其它方式与一些初级核酸相互作用的次级核酸探针。成像后，将次级核酸探针失活或去除，并向样品中添加不同的次级核酸探针。这可以用多种不同的次级核酸探针重复多次。各种次级核酸探针的结合模式可用于测定在细胞或其它样品内的位置处的初级核酸探针，其可用于测定存在的mRNA或其它核酸。

例如，如图3A所示，可将细胞内的核酸群体10(此处由核酸11、12和13表示)暴露于初级核酸探针群体20(包括探针21和22)。所述初级核酸探针可包含，例如，可识别核酸(例如，核酸11内的序列)的靶序列。探针21和22可含有相同或不同的靶向序列，其可以与相同或不同的核酸结合或与其杂交。作为实例，如图3A所示，探针21包含将探针靶向至核酸11的第一靶向序列25，而探针22包含与第一靶向序列25不同并且将探针靶向至核酸12的第二靶向序列26。所述靶序列可与靶核酸的至少一部分基本上互补，并且可存在足够的靶序列，以使得所述核酸探针与靶核酸的特异性结合可以发生。

初级核酸探针20还可含有一个或多个“阅读”序列。在此实例中使用两个这样的阅读序列，但是在其它实施方案中，在初级核酸探针中可存在1个、3个、4个或更多个阅读序列。所述阅读序列可以全部独立地相同或不同。另外，在一组实施方案中，不同的核酸探针可使用一个或多个共同的阅读序列。例如，可将不止一个阅读序列组合性组合在不同的核酸探针上，从而即使仅使用相对少量的阅读序列，亦产生可以单独鉴定的相对大量的不同核酸探针。因此，例如，在图3A中，探针21含有阅读序列27和29，而探针22包含阅读序列27和28，其中两个阅读序列27是相同的，并且不同于阅读序列28和29。

在已将初级核酸探针20引入样品并允许其与核酸11、12和13相互作用之后，可将一个或多个次级核酸探针30应用于样品以测定初级核酸探针。次级核酸探针可含有能够识别存在于初级核酸探针群体内的阅读序列之一的识别序列。例如，所述识别序列可与阅读序列的至少一部分基本上互补，以使得所述次级核酸探针能够与对应的初级核酸探针结合或杂交。例如，在此实例中，识别序列35能够识别阅读序列27。另外，次级核酸探针可含有一个或多个信号传导实体33。例如，信号传导实体可以是附接于探针的荧光实体，或可以以某种方式测定的某些核酸序列。可以例如依次使用不止一种次级序列。例如，如该图所示，可移除初始次级探针30(例如，如下所述)，并且可以添加新的次级探针31，其含有能够识别阅读序列28的识别序列36和一个或多个信号传导实体。这也可以重复多次，例如，以测定可能存在的阅读序列29或其它阅读序列。

次级核酸探针30、31等的位置可以通过测定信号传导实体33来确定。例如，如果信号传导实体是发荧光的，则可使用荧光显微术来测定信号传导实体。在一些实施方案中，可以以相对高的分辨率使用样品的成像来测定信号传导实体，并且在一些情况下，可使用超分辨率成像技术(例如，优于可见光的波长或光的衍射极限的分辨率)。超分辨率成像技术的实例包括STORM或如本文所论述的其它技术。在一些情况下，例如，在使用某些超分辨率成像技术诸如STORM的情况下，可获取不止一个样品图像。

可将不止一种类型的次级核酸探针应用于细胞或其它样品。例如，可应用可识别第一阅读序列的第一次级核酸探针，随后可将其或其附接的信号传导实体失活或去除，并且可以应用可识别第二阅读序列的第二次级核酸探针。可重复该过程多次，每次使用不同的次级核酸探针，例如，以测定存在于各种初级核酸探针中的阅读序列。因此，可基于次级核酸探针的结合模式测定样品中的初级核酸。

例如，细胞或其它样品内的第一位置可显示第一次级探针和第三次级探针的结合，但不显示第二或第四次级探针的结合，而第二位置可显示各种次级探针的不同结合模式。次级探针能够与其结合或杂交的初级核酸探针可通过考虑各种次级探针的结合模式来测定。例如，参考图3A，如果第一次级探针能够测定阅读序列27，则第二次级探针能够测定阅读序列28，并且第三次级探针能够测定阅读序列29，随后可通过所述第一和第三次级探针(但非第二次级探针)的结合来测定初级核酸25，而初级核酸26可通过第一和第二次级探针(但非第三次级探针)的结合来测定。类似地，如果已知第一探针21含有靶序列25，而第二探针22含有靶序列26，则也可基于各种次级核酸探针的结合模式例如在空间上测定样品中的核酸11和12。另外，应当注意，由于在初级核酸探针上存在不止一个阅读序列，因此即使第一探针21和第二探针22含有共同的阅读序列(阅读序列27)，也可因各种次级核酸探针的不同结合模式而区分样品中的这些探针。

在某些实施方案中，次级核酸探针的结合或杂交的这种模式可以转化为“代码字”。在此实例中，例如，对于第一探针21和第二探针22，代码字分别是“101”和“110”，其中值1表示结合，值0表示无结合。在其它实施方案中，代码字也可以具有更长的长度；仅为了清楚起见，此处仅显示三个探针。代码字可与初级核酸探针的特定靶核酸序列直接相关。因此，不同的初级核酸探针可匹配某些代码字，随后可将其用于基于次级探针的结合模式来鉴定初级核酸探针的不同靶标，即使在一些情况下，在不同次级探针的阅读序列中存在重叠亦如此，例如，如图3A所示的。然而，如果没有明显的结合(例如，对于核酸13)，则在该实例中，代码字将为“000”。

在一些实施方案中，还可以以不同的方式分配每个代码字中的值。例如，值0可以表示结合，而值1表示无结合。类似地，值1可以表示次级核酸探针与一种类型的信号传导实体的结合，而值0可以表示次级核酸探针与另一类型的可区分信号传导实体的结合。这些信号传导实体可以例如通过不同颜色的荧光来区分。在一些情况下，代码字中的值不必被限制为0和1。所述值还可以从更大的字母表诸如三进制(例如，0、1和2)或四进制(例如，0、1、2和3)系统得出。每个不同的值可以例如由不同的可区分的信号传导实体表示，包括(在一些情况下)可由信号不存在表示的一个值。

每个靶标的代码字可被依次分配，或可被随机分配。例如，参考图3A所示，可以将第一核酸靶标指定为101，而可将第二核酸靶标指定为110。另外，在一些实施方案中，可以使用误差检测系统或误差校正系统，诸如汉明系统、Golay码或扩展汉明系统(或SECDED系统，即单误差校正、双误差检测)来分配代码字。一般来说，此类系统可以用于鉴定发生了误差的位置，并且在一些情况下，此类系统也可用于误差校正并确定正确的代码字应该是什么。例如，代码字诸如001可被检测为无效的并且使用此类系统将其校正为101，例如，如果001之前未被分配给不同的靶序列。可使用多种不同的误差校正码，其中许多误差校正码以前已经被开发用于计算机工业中使用；然而，此类误差校正系统通常不在生物系统内使用。下面更详细地论述此类误差校正码的另外的实例。

还应当理解，在一些情况下不需要使用码中的所有可能的代码字。例如，在一些实施方案中，未使用的代码字可以用作阴性对照。类似地，在一些实施方案中，可以省略一些代码字，因为它们在测量中比其它代码字更容易出错。例如，在一些实现中，读取具有更多“1”的值的代码字可能比读取具有更少“1”的值的代码字更易出错。

应当理解，上述描述是本发明的一个实施方案的实例，并且初级和次级核酸探针在所有实施方案中不是必需的。例如，在一些实施方案中，使用一系列含有信号传导实体的核酸探针来测定细胞或其它样品内的核酸，而不一定需要次级探针。

例如，现在转到图3B，在此实例中，将核酸11、12和13暴露于探针21、22、23、24等的不同回合。这些探针可各自含有可识别核酸(例如，核酸11或12内的序列)的靶序列。这些探针可以各自靶向相同的核酸，但为核酸的不同区域。另外，一些或所有探针可以含有一个或多个信号传导实体，例如探针21上的信号传导实体29。例如，信号传导实体可以是附接于探针的荧光实体，或是可以以某种方式测定的某一核酸序列。

可将第一回合的探针(例如，探针21和探针22)应用于细胞或其它样品。可使探针21通过靶序列25与核酸11结合。这种结合可以通过测定信号传导实体29来确定。例如，如果信号传导实体是发荧光的，则可使用荧光显微术来例如在空间上测定细胞或其它样品内的信号传导实体。在一些但非所有实施方案中，可以以相对高的分辨率使用样品的成像以测定信号传导实体，并且在一些情况下，可以使用超分辨率成像技术。另外，也可以存在不同的探针；例如，含有靶序列26的探针22可以结合核酸12，并且通过探针22内的信号传导实体29来进行测定。这些可以例如依次或同时发生。任选地，也可例如在应用不同回合的探针之间除去探针21和22或使其失活。

接着，将第二回合的探针(例如，探针23)应用于样品。在此实例中，探针23能够通过靶向区域结合核酸11，尽管在第二回合中没有能够结合核酸12的探针。如上所论述的，允许探针的结合发生，并且结合的测定可以通过信号传导实体来进行。这些信号传导实体可与第一回合的探针相同或不同。此过程可以用不同的探针重复任何次数。例如，如图3B所示，第2回合含有能够结合核酸11的探针，而第3回合含有能够结合核酸12的探针。

在某些实施方案中，核酸探针的每回合的结合或杂交可被转化为“代码字”。在此实例中，通过使用探针21、22、23和24，可以形成代码字101或110，其中1表示结合，0表示无结合，并且第一位置对应于探针21或22的结合，而第二位置对应于探针22的结合，第三位置对应于探针24的结合。000的代码字将表示无结合，例如，如对于本实例中的核酸13所示的。通过设计合适的核酸探针，代码字可以与核酸探针的特定靶核酸序列直接相关。因此，例如，110可对应于第一靶核酸12(例如，含有能够靶向核酸11的探针的第一和第二回合核酸探针，并且这些探针可以靶向核酸11的相同或不同区域)，而101可对应于第二靶核酸(例如，含有能够靶向核酸12的探针的第一和第三回合核酸探针，并且这些探针可以靶向核酸12的相同或不同区域)。另外，应当注意，每回合探测可以含有与同一回合中的其它探针和/或不同回合中的其它探针相同或不同的信号传导实体。例如，在一组实施方案中，在所有回合的探针中仅使用一种信号传导实体。

与上文类似，可依次分配，或可随机分配每个靶标的代码字。在一些实施方案中，可以使用误差检测或误差校正系统(诸如汉明系统，Golay码或扩展汉明系统或SECDED系统(单误差校正、双误差检测))在码空间内分配代码字。一般来说，此类误差校正系统可用于鉴定误差发生的地方，并且在一些情况下，此类系统也可以用于校正误差并确定正确的代码字应当是怎样的。

与上述类似，在某些实施方案中，代码字中每个位置处的值可以被任意地分配给包含不止一个可区分的信号传导实体的探针的结合或非结合。

在一些情况下，核酸探针可以形成为共享共同特征的核酸的“库”或组。例如，具有在第一位置中包含1的代码字(例如，110和101而非011)的针对所有靶标的探针可以包括一个库，而在第二位置包含1(例如110和011而非101)的针对所有靶标的探针可以包括另一个库。也见图1C。在一些情况下，核酸探针可以是不止一个组或库的成员。除了靶序列、阅读序列和/或信号传导实体以外，核酸库的成员还可包含允许它们与其它组区分开的特征。这些特征可以是用于这些序列的扩增、产生或分离的短核酸序列。可以例如如本文所述，依次地将每个组的核酸探针应用于样品。

因此，在一些方面，本发明总体上涉及用于测定细胞或其它样品内的核酸的系统和方法。样品可以包括细胞培养物，细胞悬浮液，生物组织，活组织检查，生物体等。样品也可以是无细胞的，但仍然含有核酸。如果样品含有细胞，则细胞可以是人细胞或任何其它合适的细胞，例如哺乳动物细胞，鱼细胞，昆虫细胞，植物细胞等。在一些情况下可存在多于一种细胞。

待测定的核酸可以是例如DNA、RNA或存在于细胞(或其它样品)内的其它核酸。核酸可以是细胞内源的，或者被添加至细胞中。例如，核酸可以是病毒的或人工产生的。在一些情况下，待测定的核酸可以由细胞表达。在一些实施方案中，核酸是RNA。RNA可以是编码和/或非编码RNA。可在细胞内研究的RNA的非限制性实例包括mRNA，siRNA，rRNA，miRNA，tRNA，lncRNA，snoRNA，snRNA，exRNA，piRNA等。在一些实施方案中，例如，多个寡核苷酸中的至少一些与特定染色体序列(例如人染色体)的一部分互补。

在一些情况下，可以研究细胞内的显著部分的核酸。例如，在一些情况下，可以测定细胞内存在的足够的RNA，以便产生细胞的部分或完全转录组。在一些情况下，在细胞内测定至少4种类型的mRNA，并且在一些情况下，可以测定细胞内至少3，至少4，至少7，至少8，至少12，至少14，至少15，至少16，至少22，至少30，至少31，至少32，至少50，至少63，至少64，至少72，至少75，至少100，至少127，至少128，至少140，至少255，至少256，至少500，至少1,000，至少1,500，至少2,000，至少2,500，至少3,000，至少4,000，至少5,000，至少7,500，至少10,000，至少12,000，至少15,000，至少20,000，至少25,000，至少30,000，至少40,000，至少50,000，至少75,000或至少100,000种类型的mRNA。

在一些情况下，可以测定细胞的转录组。应当理解，转录组通常包括细胞内产生的所有RNA分子，而不仅仅是mRNA。因此，例如，转录组也可以包括rRNA、tRNA、siRNA等。在一些实施方案中，可以测定细胞的转录组的至少5％，至少10％，至少15％，至少20％，至少25％，至少30％，至少40％，至少50％，至少60％，至少70％，至少80％，至少90％或100％。

细胞或其它样品中一种或多种核酸的测定可以是定性和/或定量的。另外，测定也可以是空间上的，例如，可以在两个或三个维度上测定细胞或其它样品内的核酸的位置。在一些实施方案中，可以测定细胞(或其它样品)内的核酸的位置、数量和/或浓度。

在一些情况下，可以测定细胞的基因组的显著部分。所测定的基因组区段可以是连续的或散布在基因组上。例如，在一些情况下，在细胞内测定至少4个基因组区段，并且在一些情况下，可测定细胞内的至少3个、至少4个、至少7个、至少8个、至少12个、至少14个、至少15个、至少16个、至少22个、至少30个、至少31个、至少32个、至少50个、至少63个、至少64个、至少72个、至少75个、至少100个、至少127个、至少128个、至少140个、至少255个、至少256个、至少500个、至少1,000个、至少1,500个、至少2,000个、至少2,500个、至少3,000个、至少4,000个、至少5,000个、至少7,500个、至少10,000个、至少12,000个、至少15,000个、至少20,000个、至少25,000个、至少30,000个、至少40,000个、至少50,000个、至少75,000个或至少100,000个基因组片段。

在一些情况下，可以测定细胞的整个基因组。应当理解，基因组通常包括在细胞内产生的所有DNA分子，而不仅仅是染色体DNA。因此，例如，在一些情况下，基因组还可以包括线粒体DNA、叶绿体DNA、质粒DNA等。在一些实施方案中，可测定至少约5％、至少约10％、至少约15％、至少约20％、至少约25％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或100％的细胞基因组。

如本文所讨论的，多种核酸探针可用于测定细胞或其它样品中的一种或多种核酸。所述探针可包括诸如DNA、RNA、LNA(锁核酸)、PNA(肽核酸)或其组合的核酸(或可以例如特异性地与核酸杂交的实体)。在一些情况下，另外的组分也可存在于核酸探针内，例如，如下所述的。可将任何合适的方法用于将核酸探针引入细胞。

例如，在一些实施方案中，在引入核酸探针之前固定细胞，例如以保持核酸在细胞内的位置。用于固定细胞的技术是本领域普通技术人员已知的。作为非限制性实例，可使用化学品诸如甲醛、多聚甲醛、戊二醛、乙醇、甲醇、丙酮、乙酸等固定细胞。在一个实施方案中，可使用Hepes-谷氨酸缓冲液媒介的有机溶剂(HOPE)固定细胞。

可使用任何合适的方法将核酸探针引入细胞(或其它样品)。在一些情况下，可以充分透化细胞，以使得可通过使含有核酸探针的流体在细胞周围流动而将核酸探针引入细胞。在一些情况下，可作为固定过程的一部分来充分透化细胞；在其它实施方案中，可通过将细胞暴露于某些化学品如乙醇、甲醇，Triton等来透化所述细胞。另外，在一些实施方案中，可使用诸如电穿孔或显微注射的技术将核酸探针引入细胞或其它样品。

本发明的某些方面总体上涉及被引入细胞(或其它样品)中的核酸探针。探针可包含可以通常通过Watson-Crick碱基配对与核酸(例如DNA、RNA、LNA、PNA等，这取决于应用)杂交的多种实体中的任何实体。核酸探针通常含有能够结合(在一些情况下，特异性地)靶核酸的至少一部分的靶序列。当被引入细胞或其它系统中时，靶系统可能能够结合特异性靶核酸(例如mRNA或本文所论述的其它核酸)。在一些情况下，可使用信号传导实体(例如，如下论述的)和/或通过使用能够结合核酸探针(即，初级核酸探针)的次级核酸探针来测定核酸探针。此类核酸探针的测定在下面详细论述。

在一些情况下，可以将不止一种类型的(初级)核酸探针例如同时应用于样品。例如，可存在至少2种、至少5种、至少10种、至少25种、至少50种、至少75种、至少100种、至少300种、至少1,000种、至少3,000种、至少10,000种或至少30,000种可区分的核酸探针，可以例如同时或依次地将其施加于样品。

靶序列可以位于核酸探针(或初级核酸探针或编码核酸探针)内的任何地方。靶序列可含有与靶核酸的一部分基本上互补的区域。在一些情况下，所述部分可以是至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少92％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％互补。在一些情况下，靶序列的长度可以是至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少50个、至少60个、至少65个、至少75个、至少100个、至少125个、至少150个、至少175个、至少200个、至少250个、至少300个、至少350个、至少400个或至少450个核苷酸。在一些情况下，靶序列的长度可以不超过500个、不超过450个、不超过400个、不超过350个、不超过300个、不超过250个、不超过200个、不超过175个、不超过150个、不超过125个、不超过100个、不超过75个、不超过60个、不超过65个、不超过60个、不超过55个、不超过50个、不超过45个、不超过40个、不超过35个、不超过30个、不超过20或不超过10个核苷酸。这些中的任何一种的组合也是可能的，例如，靶序列可以具有10至30个核苷酸、20至40个核苷酸、5至50个核苷酸、10至200个核苷酸或25至35个核苷酸、10至300个核苷酸等的长度。通常，基于Watson-Crick核苷酸碱基配对测定互补性。

可以参照怀疑存在于细胞或其它样品内的靶核酸来确定(初级)核酸探针的靶序列。例如，可使用蛋白质的序列，通过测定经表达以形成蛋白质的核酸，来确定针对所述蛋白质的靶核酸。在一些情况下，仅使用编码蛋白质的核酸的一部分，例如，具有如上所述的长度的部分。另外，在一些情况下，可以使用不止一种可用于鉴定特定靶标的靶序列。例如，可以依次和/或同时地使用可与同一靶标的不同区域结合或杂交的多种探针。杂交通常是指退火过程，通过该过程，互补单链核酸通过Watson-Crick核苷酸碱基配对(例如，氢键合，鸟嘌呤-胞嘧啶和腺嘌呤-胸腺嘧啶)缔合以形成双链核酸。

在一些实施方案中，核酸探针诸如初级核酸探针，还可包含一个或多个“阅读”序列。然而，应当理解，阅读序列并非在所有情况下是必需的。在一些实施方案中，核酸探针可以包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个或更多个、20个或更多个、32个或更多个、40个或更多个、50个或更多个、64个或更多个、75个或更多个、100个或更多个、128个或更多个阅读序列。阅读序列可以位于核酸探针内的任何位置。如果存在不止一个阅读序列，则阅读序列可以彼此相邻地定位，和/或与其它序列分散开。

阅读序列(如果存在)可具有任何长度。如果使用不止一个阅读序列，则阅读序列可以独立地具有相同或不同的长度。例如，阅读序列的长度可以是至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少50个、至少60个、至少65个、至少75个、至少100个、至少125个、至少150个、至少175个、至少200个、至少250个、至少300个、至少350个、至少400个或至少450个核苷酸。在一些情况下，阅读序列的长度可以不超过500个、不超过450个、不超过400个、不超过350个、不超过300个、不超过250个、不超过200个、不超过175个、不超过150个、不超过125个、不超过100个、不超过75个、不超过60个、不超过65个、不超过60个、不超过55个、不超过50个、不超过45个、不超过40个、不超过35个、不超过30个、不超过20个或不超过10个核苷酸。这些中的任何一种的组合也是可能的，例如，阅读序列可具有10至30个核苷酸、20至40个核苷酸、5至50个核苷酸、10至200个核苷酸或25至35个核苷酸、10至300个核苷酸等的长度。

在一些实施方案中，阅读序列可以是任意的或随机的。在某些情况下，选择阅读序列以降低或最小化与细胞或其它样品的其它组分的同源性，例如以使得阅读序列本身不与怀疑存在于细胞或其它样品内的其它核酸结合或杂交。在一些情况下，同源性可以小于10％、小于8％、小于7％、小于6％、小于5％、小于4％、小于3％、小于2％或小于1％。在一些情况下，可存在少于20个碱基对、少于18个碱基对、少于15个碱基对、少于14个碱基对、少于13个碱基对、少于12个碱基对、少于11个碱基对或少于10个碱基对的同源性。在一些情况下，碱基对是序贯的。

在一组实施方案中，核酸探针群体可含有一定数目的阅读序列，其在一些情况下可以少于核酸探针的靶标数目。本领域普通技术人员将意识到，如果存在一个信号传导实体和n个阅读序列，则通常可以独特地鉴定2ⁿ-1种不同的核酸靶标。然而，不是所有可能的组合都需要使用。例如，核酸探针群体可靶向12种不同的核酸序列，但含有不超过8个阅读序列。作为另一个实例，核酸群体可靶向140种不同的核酸种类，但含有不超过16个阅读序列。可以通过使用每个探针内的阅读序列的不同组合来单独鉴定不同的核酸序列靶标。例如，每个探针可含有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15等个或更多个阅读序列。在一些情况下，核酸探针群体可各自含有相同数目的阅读序列，但在其它情况下，在各种探针上可存在不同数目的阅读序列。

作为非限制性实例，第一核酸探针可含有第一靶序列、第一阅读序列和第二阅读序列，而第二不同的核酸探针可含有第二靶序列、相同的第一阅读序列和第三阅读序列而非第二阅读序列。此类探针从而可通过测定存在的或与给定探针或位置相关的各种阅读序列来进行区分，如本文所论述的。

另外，在某些实施方案中，核酸探针(以及它们在编码探针上的对应的互补位点)可以仅使用4种碱基中的2种或3种(诸如省去探针内的所有的“G”或所有的“C”)来制备。缺少“G”或“C”的序列在某些实施方案中可以形成非常少的次级结构，并且可有助于更均匀、更快的杂交。

在一些实施方案中，核酸探针可以含有信号传导实体。然而，应当理解，信号传导实体并非在所有情况下是需要的；例如，在一些实施方案中，可使用次级核酸探针来测定核酸探针，如下面另外详细论述的。以下还将更详细地论述可以使用的信号传导实体的实例。

其它组分同样也可存在于核酸探针内。例如，在一组实施方案中，可存在一个或多个引物序列，例如以允许探针的酶促扩增。本领域普通技术人员将知道适合于诸如扩增(例如，使用PCR或其它合适的技术)的应用的引物序列。许多此类引物序列可商购获得。可存在于初级核酸探针中的序列的其它实例包括但不限于启动子序列、操纵子、鉴定序列、无义序列等。

通常，引物是用作核酸合成的起始点的单链或部分双链核酸(例如，DNA)，从而允许聚合酶诸如核酸聚合酶延伸引物并复制互补链。引物(例如，被设计为)与靶核酸互补并与其杂交。在一些实施方案中，引物是合成引物。在一些实施方案中，引物是非天然存在的引物。引物通常具有10至50个核苷酸的长度。例如，引物可具有10至40个、10至30个、10至20个、25至50个、15至40个、15至30个、20至50个、20至40或20至30个核苷酸的长度。在一些实施方案中，引物具有18至24个核苷酸的长度。

另外，核酸探针的组分可以以任何合适的顺序排列。例如，在一个实施方案中，组分可在核酸探针中排列为：引物-阅读序列-靶向序列-阅读序列-反向引物。该结构中的“阅读序列”可以各自包含任何数目(包括0)的阅读序列，只要在探针中存在至少一个阅读序列。非限制性示例性结构包括引物-靶向序列-阅读序列-反向引物、引物-阅读序列-靶向序列-反向引物、靶向序列-引物-靶向序列-阅读序列-反向引物、靶向序列-引物-阅读序列-靶向序列-反向引物、引物-靶向序列-阅读序列--靶向序列-反向引物、靶向序列-引物-阅读序列-反向引物、靶向序列-阅读序列-引物、阅读序列-靶向序列-引物、阅读序列-引物-靶向序列-反向引物等。另外，在一些实施方案中(包括在所有上述实例中)，反向引物是任选的。

根据本发明的某些方面，在将核酸探针引入细胞或其它样品后，可以通过测定信号传导实体(如果存在)来直接测定核酸探针，和/或可以通过使用一种或多种次级核酸探针来测定核酸探针。如所提及的，在一些情况下，测定可以是在空间上的(例如，在二维或三维中)。另外，在一些情况下，测定可以是定量的，例如，可以测定初级核酸探针(和靶核酸)的量或浓度。另外，取决于应用，次级探针可以包含能够与核酸(例如DNA、RNA、LNA和/或PNA等)杂交的多种实体中的任一种。以下更详细地论述信号传导实体。

次级核酸探针可包含能够与初级核酸探针的阅读序列结合或杂交的识别序列。在一些情况下，结合是特异性的，或者结合可以使得识别序列与存在的阅读序列中的仅一个序列优先结合或杂交。次级核酸探针还可以包含一个或多个信号传导实体。如果使用不止一个次级核酸探针，则信号传导实体可以相同或不同。

识别序列可具有任何长度，并且多个识别序列可具有相同或不同的长度。如果使用不止一个识别序列，则识别序列可独立地具有相同或不同的长度。例如，识别序列的长度可以为至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个或至少50个核苷酸。在一些情况下，识别序列的长度可以不超过75个、不超过60个、不超过65个、不超过60个、不超过55个、不超过50个、不超过45个、不超过40个、超过35个、不超过30个、不超过20个或不超过10个核苷酸。这些中的任何一种的组合也是可能的，例如，识别序列可以具有10至30个、20至40个或25至35个核苷酸等的长度。在一个实施方案中，识别序列具有与阅读序列相同的长度。另外，在一些情况下，识别序列可与初级核酸探针的阅读序列具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少92、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少100％的互补性。

如所提及的，在一些情况下，次级核酸探针可以包含一个或多个信号传导实体。下面更详细地论述信号传导实体的实例。

如所论述的，在本发明的某些方面，使用包含各种“阅读序列”的核酸探针。例如，初级核酸探针的群体可以含有某些“阅读序列”，其可结合某些次级核酸探针，并且使用例如包含信号传导实体的次级核酸探针测定初级探针在样品内的位置。如所提及的，在一些情况下，可在各种组合中组合阅读序列群体以产生不同的核酸探针，例如以使得相对少量的阅读序列可用于产生相对大量的不同核酸探针。

因此，在一些情况下，初级核酸探针(或其它核酸探针)群体可各自含有一定数目的阅读序列，其中一些阅读序列在不同的初级核酸探针之间共有，以使得初级核酸探针的总群体探针可包含一定数目的阅读序列。核酸探针群体可以具有任何合适数目的阅读序列。例如，初级核酸探针群体可具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个等阅读序列。在一些实施方案中，多于20个也是可能的。另外，在一些情况下，核酸探针群体可以总共具有1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个、20个或更多个、24个或更多个、32个或更多个、40个或更多个、50个或更多个、60个或更多个、64个或更多个、100个或更多个、128个或更多个等存在的可能的阅读序列，尽管一些或所有探针可以各自含有不止一个阅读序列，如本文所论述的。另外，在一些实施方案中，核酸探针群体可以具有不超过100个、不超过80个、不超过64个、不超过60个、不超过50个、不超过40个、不超过32个、不超过24个、不超过20个、不超过16个、不超过15个、不超过14个、不超过13个、不超过12个、不超过11个、不超过10个、不超过9个、不超过8个、不超过7个、不超过6个、不超过5个、不超过4个、不超过3个或不超过2个存在的阅读序列。这些阅读序列中的任何序列的组合也是可能的，例如，核酸探针群体可包含总共10至15个阅读序列。

作为从相对少量的阅读序列组合性产生相对大量核酸探针的方法的非限制性实例，在6种不同类型的核酸探针的群体中，每种核酸探针包含一个或多个阅读序列，群体内的阅读序列的总数可以不大于4种。应当理解，尽管在此实例中使用4个阅读序列以便于解释，但是在其它实施方案中，取决于应用，可以例如使用5个、8个、10个、16个、32个等或更多个阅读序列，或任何其它合适数目的本文所述的阅读序列来实现更大数目的核酸探针。现参考图4A，如果每个初级核酸探针含有两个不同的阅读序列，则通过使用4个这样的阅读序列(A、B、C和D)，可以分别鉴定多达6种探针。应当注意，在本实例中，核酸探针上的阅读序列的排序不是必需的，即“AB”和“BA”可以被视为同义的(尽管在其它实施方案中，阅读序列的排序可以是必需的，并且“AB”和“BA”可以不必是同义的)。类似地，如果在初级核酸探针群体中使用5个阅读序列(A、B、C、D和E)，则可以分别鉴定多达10种探针，如图4B所示的。例如，本领域普通技术人员将理解，假设阅读序列的排序不是必需的，对于在每个探针上具有n个阅读序列的群体中的k个阅读序列，可以产生多达

种不同的探针；因为不是所有的探针都需要具有相同数目的阅读序列，并且不需要在每个实施方案中使用阅读序列的所有组合，因此在某些实施方案中也可以使用多于或少于该数目的不同探针。另外，还应当理解，在一些实施方案中，每个探针上的阅读序列的数目不必相同。例如，一些探针可以包含2个阅读序列，而其它探针可以包含3个阅读序列。

在一些方面，样品内的核酸探针的结合模式和/或阅读序列可用于定义误差检测和/或误差校正码，例如以减少或防止核酸的误鉴定或误差，例如，如参考图3所论述的。因此，例如，如果指示结合(例如，如使用信号传导实体测定的)，则可用“1”标识该位置；相反，如果没有指示结合，则该位置可用“0”来标识(或者在某些情况下反之亦然)。随后可使用多个回合的结合测定(例如使用不同的核酸探针)来生成例如针对该空间位置的“代码字”。在一些实施方案中，可对代码字进行误差检测和/或校正。例如，可以组织代码字，以使得如果对于给定组的阅读序列或核酸探针的结合模式没有找到匹配，则匹配可以被鉴定为误差，并且任选地，可对序列进行误差校正以测定核酸探针的正确靶标。在一些情况下，代码字可具有比由所述代码字编码的核酸的总数少的“字母”或位置，例如，当每个代码字编码不同的核酸时。

此类误差检测和/或误差校正码可以采取多种形式。先前已在其它背景诸如电信行业中开发了多种这样的码，诸如Golay码或汉明码。在一组实施方案中，分配核酸探针的阅读序列或结合模式，以使得并非每种可能的组合都被分配。

例如，如果4种阅读序列是可能的，并且初级核酸探针包含2个阅读序列，则可以鉴定多达6种初级核酸探针；但所使用的初级核酸探针的数目可以小于6。类似地，对于在每个初级核酸探针上具有n个阅读序列的群体中的k个阅读序列，可以产生

种不同的探针，但所使用的初级核酸探针的数目可以是大于或小于

的任何数目。另外，这些可以被随机分配或以特定方式分配以增强检测和/或校正误差的能力。

作为另一个实例，如果使用多个回合的核酸探针，可以任意选择回合数。如果在每回合中，每个靶可以给出两种可能的结果，诸如被检测或未被检测到，对于n个回合的探针，多达2ⁿ种不同的靶可以是可能的，但是实际使用的核酸靶标的数目可以是小于2ⁿ的任何数。例如，如果在每一回合中，每个靶标可以给出多于两个可能的结果，诸如在不同颜色通道中被检测到，则对于n个回合的探针，多于2ⁿ种(例如3ⁿ、4ⁿ...)不同的靶标可以是可能的。在一些情况下，实际使用的核酸靶标的数目可以是小于该数的任何数目。另外，这些可以被随机分配或以特定方式分配以增强检测和/或校正误差的能力。

例如，在一组实施方案中，可在码空间内分配代码字或核酸探针，以使得所述分配通过汉明距离分开，所述汉明距离测量给定模式中不正确的“读取”的数目，所述不正确的读取导致核酸探针被误解为不同的有效核酸探针。在某些情况下，汉明距离可以是至少2、至少3、至少4、至少5、至少6等。另外，在一组实施方案中，所述分配可以形成为汉明码，例如汉明(7，4)码、汉明(15，11)码、汉明(31，26)码、汉明(63，57)码、汉明(127，120)码等。在另一组实施方案中，所述分配可形成SECDED码，例如SECDED(8，4)码、SECDED(16，4)码、SCEDED(16，11)码、SCEDED(22，16)码、SCEDED(39，32)码、SCEDED(72，64)码等。在另一组实施方案中，所述分配可形成扩展的二进制Golay码、完美的二进制Golay码或三进制Golay码。在另一组实施方案中，所述分配可表示取自上述任何码的可能值的子集。

例如，可通过仅使用包含固定数目(诸如4)的‘1’位的二进制字来形成具有SECDED码的相同误差校正性质的码，以对靶标进行编码。在另一组实施方案中，所述分配可表示从上述用于解决不对称读出误差的目的的码获得的可能的值的子集。例如，在一些情况下，当‘0’位被测量为‘1’或‘1’位被测量为'0'时的比率不同时，其中‘1’位的数目对于所有使用的二进制字可以是固定的码可以消除具有不同数目的‘1’的字的偏倚测量。

因此，在一些实施方案中，一旦测定了代码字(例如，如本文所论述的)，就可将代码字与已知的核酸代码字进行比较。如果找到匹配，则可鉴定或测定核酸靶标。如果没有找到匹配，则可鉴定代码字的读取中的误差。在一些情况下，也可应用误差校正来测定正确的代码字，并且因此导致核酸靶标的正确的身份。在一些情况下，可以选择代码字以使得假定只存在一个误差时，只有一个可能的正确代码字是可用的，因此，核酸靶标只可能有一个正确的身份。在一些情况下，这也可以被推广至更大的代码字间隔或汉明距离；例如，可选择代码字以使得如果存在两个、三个或四个误差(或者在一些情况下更多误差)，则只有一个可能的正确代码字是可用的，因此，核酸靶标只可能有一个正确的身份。

误差校正码可以是二进制误差校正码，或者其可基于其它编号系统，例如三进制或四进制误差校正码。例如，在一组实施方案中，可使用不止一种类型的信号传导实体，并将其分配给误差校正码内的不同数字。因此，作为非限制性实例，第一信号传导实体(或在一些情况下，不止一个信号传导实体)可以被分配为‘1’，并且第二信号传导实体(或者在一些情况下，不止一个信号传导实体)被分配为‘2’(其中‘0’指示不存在信号传导实体)，并且代码字被分配来定义三进制误差校正码。类似地，第三信号传导实体可另外被分配为“3”以产生四进制误差校正码等。

如上所述，在某些方面，测定信号传导实体，例如以测定核酸探针和/或生成代码字。在一些情况下，可以使用各种技术例如在空间上测定样品内的信号传导实体。在一些实施方案中，信号传导实体可以是荧光的，并且用于测定样品内荧光的技术(例如荧光显微镜或共聚焦显微镜)可以用于在空间上鉴定细胞内信号传导实体的位置。在一些情况下，可以在两个或甚至三个维度中确定样品内的实体的位置。另外，在一些实施方案中，可以一次(例如，具有不同颜色或发射的信号传导实体)和/或依次测定不止一个信号传导实体。

另外，在一些实施方案中，可测定鉴定的核酸靶标的置信水平。例如，可使用精确匹配的数目与具有一个或多个1-位误差的匹配的数目的比率来测定置信水平。在一些情况下，可以仅使用具有大于某一值的置信比的匹配。例如，在某些实施方案中，只有当匹配的置信比大于约0.01、大于约0.03、大于约0.05、大于约0.1、大于约0.3、大于约0.5、大于约1、大于约3、大于约5、大于约10、大于约30、大于约50、大于约100、大于约300、大于约500、大于约1000或任何其它合适的值时，才可接受匹配。另外，在一些实施方案中，只有当所鉴定的核酸靶标的置信比大于内标或假阳性对照约0.01、约0.03、约0.05、约0.1、约0.3、约0.5、约1、约3、约5、约10、约30、约50、约100、约300、约500、约1000或任何其它合适的值时，才可接受匹配。

在一些实施方案中，可以以相对高的分辨率测定实体(和从而，实体可以与其相关联的核酸探针)的空间位置。例如，可以以优于约100微米、优于约30微米、优于约10微米、优于约3微米、优于约1微米、优于约800nm、优于约600nm、优于约500nm、优于约400nm、优于约300nm、优于约200nm、优于约100nm、优于约90nm、优于约80nm、优于约70nm、优于约60nm、优于约50nm、优于约40nm、优于约30nm、优于约20nm或优于约10nm等的空间分辨率来测定位置。

存在多种能够例如使用荧光显微镜光学地测定实体的空间位置或对其成像的技术。在一些情况下，可以以超分辨率或以优于光的波长或衍射极限的分辨率来测定空间位置。非限制性实例包括STORM(随机光学重建显微镜术)、STED(受激发射耗尽显微镜术)、NSOM(近场扫描光学显微镜术)、4Pi显微镜术、SIM(结构照明显微镜术)，SMI(空间调制照明)显微镜术、RESOLFT(可逆可饱和光学线性荧光转换显微镜术)、GSD(基态耗尽显微镜术)、SSIM(饱和结构照明显微镜术)、SPDM(光谱精确距离显微镜术)、光激活定位显微镜术(PALM)、荧光光激活定位显微镜术(FPALM)、LIMON(3D光学显微镜纳米显微镜术)、超分辨率光学波动成像(SOFI)等。参见，例如，Zhuang等人于2010年11月23日发布的标题为“Sub-Diffraction Limit Image Resolution and Other Imaging Techniques”的美国专利第7,838,302号；Zhuang等人于2013年10月22日发布的标题为“Sub-diffraction LimitImage Resolution in Three Dimensions”的美国专利第8,564,792号；或Zhuang等人于2013年6月20日发布的标题为“High Resolution Dual-Objective Microscopy”的国际专利申请公布第WO 2013/090360号，每一个通过引用整体并入本文。

作为举例说明性的非限制性实例，在一组实施方案中，样品可用大数值孔径、具有100倍放大率的油浸物镜以及在电子倍增CCD相机上收集的光成像。在另一个实例中，样品可用大数值孔径、具有40倍放大率的油浸透镜和用宽场科学CMOS照相机收集的光成像。在各种非限制性实施例中，通过利用物镜和相机的不同组合，单个视场可对应于不小于40×40微米、80×80微米、120×120微米、240×240微米、340×340微米或500×500微米等。类似地，在一些实施方案中，单个相机像素可对应于不小于80×80nm、120×120nm、160×160nm、240×240nm或300×300nm等的样品区域。在另一个实例中，样品可用低数值孔径、具有10倍放大率的空气透镜和用sCMOS相机收集的光成像。在另外的实施方案中，可通过经由通过扫描镜或旋转盘产生的单个或多个扫描的衍射受限焦点照射样品来对所述样品进行光学切片，并且收集的样品通过单个或多个针孔。在另一个实施方案中，还可通过经由本领域技术人员已知的多种方法中的任何一种产生的薄层光照射样品。

在一个实施方案中，样品可由单个高斯模激光线照射。在一些实施方案中，可通过使这些激光线穿过通过压电或其它机械装置振动的多模光纤来使异形照明变平。在一些实施方案中，可通过使单模高斯光束通过各种折射光束成形器(诸如piShaper或一系列堆叠的Powell透镜)来使照明轮廓变平。在另一组实施方案中，高斯光束可以通过各种不同的漫射元件，诸如磨砂玻璃或工程漫射器，其可以在一些情况下以高速旋转以移除残余激光散斑。在另一个实施方案中，激光照射可以通过一系列小透镜阵列以产生接近平面照明场的照明的重叠图像。

在一些实施方案中，可测定实体的空间位置的质心。例如，可使用本领域普通技术人员已知的图像分析算法在图像或一系列图像内测定信号传导实体的质心。在一些情况下，可选择算法以测定样品中的非重叠单发射体和/或部分重叠单发射体。合适技术的非限制性实例包括最大似然算法、最小二乘法算法、贝叶斯算法、压缩感测算法等。在一些情况下也可以使用这些技术的组合。

另外，在一些情况下，可使信号传导实体失活。例如，在一些实施方案中，可将含有信号传导实体的第一二级核酸探针应用于可以识别第一阅读序列的样品，随后可在将第二二级核酸探针应用于样品之前使所述第一二级核酸探针失活。如果使用多个信号传导实体，则可将相同或不同的技术用于使信号传导实体失活，并且可以例如依次地或同时地使多个信号传导实体中的一些或全部失活。

可通过除去信号传导实体(例如，从样品或从核酸探针等)和/或通过以某种方式化学改变信号传导实体(例如通过光漂白信号传导实体、漂白或化学改变信号传导实体的结构(例如通过还原)等)导致失活。例如，在一组实施方案中，可通过化学或光学技术诸如氧化、光漂白、化学漂白、严格洗涤或酶促消化或通过暴露于酶的反应、将信号传导实体与其它组分(例如，探针)解离、信号传导实体的化学反应(例如，与能够改变信号传导实体的结构的反应物反应)等来使荧光信号传导实体失活。例如，漂白可通过暴露于氧、还原剂而发生，或者可从核酸探针化学切割信号传导实体并通过流体流将其冲走。

在一些实施方案中，各种核酸探针(包括一级和/或二级核酸探针)可包括一个或多个信号传导实体。如果使用不止一种核酸探针，则信号传导实体可以各自相同或不同。在某些实施方案中，信号传导实体是能够发射光的任何实体。例如，在一个实施方案中，信号传导实体是发荧光的。在其它实施方案中，信号传导实体可以是发磷光的、放射性的、吸收性的等。在一些情况下，信号传导实体是可以以相对高的分辨率(例如以优于可见光波长或衍射极限的分辨率)在样品内测定的任何实体。信号传导实体可以是例如染料、小分子、肽或蛋白质等。在一些情况下，信号传导实体可以是单分子。如果使用多个二级核酸探针，则核酸探针可以包含相同或不同的信号传导实体。

信号传导实体的非限制性实例包括荧光实体(荧光团)或发磷光实体，例如花青染料(例如，Cy2、Cy3、Cy3B、Cy5、Cy5.5、Cy7等)、Alexa Fluor染料、Atto染料、可光切换的染料、可光活化染料、荧光染料、金属纳米颗粒、半导体纳米颗粒或“量子点”、荧光蛋白诸如GFP(绿色荧光蛋白)或可光活化荧光蛋白诸如PAGFP、PSCFP、PSCFP2、Dendra、Dendra2、EosFP、tdEos、mEos2、mEos3、PAmCherry、PAtagRFP、mMaple、mMaple2和mMaple3。其它合适的信号传导实体是本领域普通技术人员已知的。参见，例如，美国专利第7,838,302号或美国专利申请系列第61/979,436号，其每个通过过引用整体并入本文。

在一组实施方案中，信号传导实体可以通过可被切割以释放信号传导实体的键附接于寡核苷酸序列。在一组实施方案中，可将荧光团通过可切割的键(诸如可光切割的键)缀合于寡核苷酸。可光切割的键的非限制性实例包括但不限于1-(2-硝基苯基)乙基、2-硝基苄基、生物素亚磷酰胺、丙烯酸亚磷酰胺、二乙基氨基香豆素、1-(4,5-二甲氧基-2-硝基苯基)乙基、环十二烷基(二甲氧基-2-硝基苯基)乙基、4-氨基甲基-3-硝基苄基、(4-硝基-3-(1-氯羰基氧基乙基)苯基)甲基-S-乙酰基硫代酸酯、(4-硝基-3-(1-氯羰基氧基乙基)苯基)甲基-3-(2-吡啶基二硫代丙酸)酯、3-(4,4'-二甲氧基三苯甲基)-1-(2-硝基苯基)-丙烷-1,3-二醇-[2-氰基乙基-(N,N-二异丙基)]-亚磷酰胺、1-[2-硝基-5-(6-三氟乙酰基己酰氨基甲基)苯基]-乙基-[2-氰乙基-(N,N-二异丙基)]-亚磷酰胺、1-[2-硝基-5-(6-(4,4'-二甲氧基三苯甲基氧基)丁酰胺基甲基)苯基]-乙基-[2-氰乙基-(N,N-二异丙基)]-亚磷酰胺、1-[2-硝基-5-(6-(N-(4,4'-二甲氧基三苯甲基))-生物素氨基己酰胺基-甲基)苯基]-乙基-[2-氰乙基-(N,N-二异丙基)]-亚磷酰胺或类似的接头。在另一组实施方案中，可通过二硫键将荧光团缀合于寡核苷酸。二硫键可以被多种还原剂切割，所述还原剂为诸如但不限于二硫苏糖醇、二硫赤藓糖醇、β-巯基乙醇、硼氢化钠、硫氧还蛋白、谷氧还蛋白、胰蛋白酶原、肼、氢化二异丁基铝、草酸、甲酸、抗坏血酸、亚磷酸、氯化锡、谷胱甘肽、巯基乙酸酯、2,3-二巯基丙醇、2-巯基乙胺、2-氨基乙醇、三(2-羧乙基)膦、双(2-巯基乙基)砜、N,N'-二甲基-N,N'-二(巯基乙酰基)肼、3-巯基己酸酯、二甲基甲酰胺、硫丙基-琼脂糖、三-正-丁基膦、半胱氨酸、硫酸亚铁、亚硫酸钠、亚磷酸盐、次磷酸盐、硫代磷酸盐等，和/或任何这些还原剂的组合。在另一个实施方案中，可通过一个或多个其中硫修饰替代桥接和/或非桥接氧的硫代磷酸酯修饰的核苷酸将荧光团缀合于寡核苷酸。在某些实施方案中，通过添加化合物诸如但不限于碘乙醇、混合在乙醇中的碘、硝酸银或氯化汞，可以从寡核苷酸切割荧光团。在另一组实施方案中，信号传导实体可通过还原或氧化而化学失活。例如，在一个实施方案中，可使用硼氢化钠将发色团诸如Cy5或Cy7还原为稳定的非荧光状态。在另一组实施方案中，可通过偶氮键将荧光团缀合于寡核苷酸，并且偶氮键可用2-[(2-N-芳基氨基)苯偶氮]吡啶切割。在另一组实施方案中，可通过合适的核酸区段将荧光团缀合于寡核苷酸，所述核酸区段可在适当地暴露于DNA酶例如外切脱氧核糖核酸酶或内切脱氧核糖核酸酶时被切割。实例包括但不限于脱氧核糖核酸酶I或脱氧核糖核酸酶II。在一组实施方案中，可通过限制性内切核酸酶进行切割。潜在合适的限制性内切核酸酶的非限制性实例包括BamHI、BsrI、NotI、XmaI、PspAI、DpnI、MboI、MnlI、Eco57I、Ksp632I、DraIII、AhaII、SmaI、MluI、HpaI、ApaI、BclI、BstEII、TaqI、EcoRI、SacI、HindII、HaeII、DraII、Tsp509I、Sau3AI、PacI等。已详细研究了超过3000种限制性酶，超过600种是商购可得的。在另一组实施方案中，可将荧光团缀合于生物素，以及将寡核苷酸缀合于抗生物素蛋白或链霉亲和素。生物素与抗生物素蛋白或链霉抗生物素蛋白之间的相互作用允许荧光团缀合于寡核苷酸，同时对过量添加的游离生物素的充分暴露可“竞争胜出”键联，从而引起切割发生。另外，在另一组实施方案中，可使用对应的“立足点探针(toe-hold-probes)”除去探针，所述立足点探针包含与所述探针相同的序列以及与编码探针具有同源性的额外数目的碱基(例如，1-20个额外碱基，例如5个额外碱基)。这些探针可通过链置换相互作用去除标记的读出探针。

如本文所用，术语“光”通常是指具有任何合适的波长(或等效地，频率)的电磁辐射。例如，在一些实施方案中，光可以包括在光学或可见范围内的波长(例如，具有在约400nm与约700nm之间的波长，即“可见光”)、红外波长(例如，具有在约300微米与700nm之间的波长)、紫外线波长(例如，具有在约400nm与约10nm之间的波长)等。在某些情况下，如下面详细论述的，可使用不止一个实体，即，在化学上不同或例如在结构上不同的实体。然而，在其它情况下，实体可以是化学上相同的或至少基本上化学上相同的。

在一组实施方案中，信号传导实体是“可切换的”，即，实体可以在两个或更多个状态之间切换，其中至少一个状态发射具有期望波长的光。在其它状态下，实体可以不发射光，或发射不同波长的光。例如，实体可以被“激活”至能够产生具有期望波长的光的第一状态，以及被“去激活”至不能发射相同波长的光的第二状态。如果实体可由合适波长的入射光激活，则该实体是“可光活化的”。作为非限制性实例，Cy5可以通过不同波长的光以受控和可逆的方式在荧光与暗状态之间切换，即633nm(或642nm、647nm、656nm)红光可使Cy5切换或去激活成稳定的暗状态，而405nm绿光可使Cy5切换或激活回荧光状态。在一些情况下，实体可以例如在暴露于适当的刺激时于两个或更多个状态之间可逆地切换。例如，第一刺激(例如，第一波长的光)可用于激活可切换的实体，而第二刺激(例如，第二波长的光)可用于去激活可切换的实体，例如，至非发光状态。可使用任何合适的方法来激活实体。例如，在一个实施方案中，合适波长的入射光可用于激活实体以发射光，即，实体是“可光切换的”。因此，可光切换的实体可通过例如不同波长的入射光在不同的发光或非发光状态之间切换。光可以是单色的(例如，使用激光产生的)或多色的。在另一个实施方案中，实体可在通过电场和/或磁场刺激时被激活。在其它实施方案中，所述实体可在暴露于合适的化学环境(例如，通过调节pH，或诱导涉及所述实体的可逆化学反应等)时被激活。类似地，可使用任何合适的方法使所述实体失活，激活和去激活实体的方法不需要是相同的。例如，实体可在暴露于合适波长的入射光时被去激活，或者实体可通过等待足够的时间而被去激活。

通常，本领域普通技术人员可以通过测定处于第一状态的实体在暴露于激发波长时可以发光的条件，将实体从第一状态切换至第二状态(例如，在暴露于切换波长的光时)，随后显示当暴露于激发波长时处于第二状态的实体不再能够发射光(或以大大减小的强度发射光)来鉴定“可切换的”实体。

在一组实施方案中，如所论述的，可切换的实体可在暴露于光时被切换。在一些情况下，用于激活可切换的实体的光可来自外部源，例如，光源诸如激光光源，接近可切换的实体的另一个发光实体等。在一些情况下，第二发光实体可以是荧光实体，并且在某些实施方案中，第二发光实体本身也可以是可切换的实体。

在一些实施方案中，可切换的实体包括第一发光部分(例如，荧光团)和激活或“切换”第一部分的第二部分。例如，在暴露于光时，可切换的实体的第二部分可激活第一部分，使得第一部分发光。激活剂部分的实例包括但不限于Alexa Fluor 405(Invitrogen)、Alexa Fluor 488(Invitrogen)、Cy2(GE Healthcare)、Cy3(GE Healthcare)、Cy3B(GEHealthcare)、Cy3.5(GE Healthcare)或其它合适的染料。发光部分的实例包括但不限于Cy5、Cy5.5(GE Healthcare)、Cy7(GE Healthcare)、Alexa Fluor 647(Invitrogen)、AlexaFluor 680(Invitrogen)、Alexa Fluor 700(Invitrogen)、Alexa Fluor 750(Invitrogen)、Alexa Fluor 790(Invitrogen)、DiD、DiR、YOYO-3(Invitrogen)、YO-PRO-3(Invitrogen)、TOT-3(Invitrogen)、TO-PRO-3(Invitrogen)或其它合适的染料。这些可以例如共价地，例如直接地或通过接头连接在一起，例如形成化合物，诸如但不限于Cy5-Alexa Fluor 405,Cy5-Alexa Fluor 488,Cy5-Cy2,Cy5-Cy3,Cy5-Cy3.5,Cy5.5-AlexaFluor 405,Cy5.5-Alexa Fluor 488,Cy5.5-Cy2,Cy5.5-Cy3,Cy5.5-Cy3.5,Cy7-AlexaFluor 405,Cy7-Alexa Fluor 488,Cy7-Cy2,Cy7-Cy3,Cy7-Cy3.5,Alexa Fluor 647-AlexaFluor 405,Alexa Fluor 647-Alexa Fluor 488,Alexa Fluor 647-Cy2,Alexa Fluor647-Cy3,Alexa Fluor 647-Cy3.5,Alexa Fluor 750-Alexa Fluor 405,Alexa Fluor750-Alexa Fluor 488,Alexa Fluor 750-Cy2,Alexa Fluor 750-Cy3,或Alexa Fluor750-Cy3.5.。本领域普通技术人员知道这些和其它化合物(其中许多是可商购的)的结构。可通过共价键或通过接头诸如下面详细描述的那些接头连接所述部分。其它发光或激活剂部分可包括具有通过聚次甲基链连接的两个季铵化氮原子的部分，其中每个氮独立地为杂芳族部分诸如吡咯、咪唑、噻唑、吡啶、喹啉、吲哚、苯并噻唑等的一部分，或非芳族胺的一部分。在一些情况下，在两个氮原子之间可以有5个、6个、7个、8个、9个或更多个碳原子。

在某些情况下，当彼此分离时，发光部分和激活剂部分各自可以是荧光团，即当暴露于刺激(例如激发波长)时可发射某一发射波长的光的实体。然而，当形成包含第一荧光团和第二荧光团的可切换的实体时，第一荧光团形成第一发光部分，并且第二荧光团形成激活剂部分，其响应于刺激激活或“切换”第一部分。例如，可切换的实体可包含直接键合至第二荧光团的第一荧光团，或者第一和第二实体可以经由接头或共同实体连接。一对发光部分和激活剂部分是否产生合适的可切换的实体可通过本领域普通技术人员已知的方法来测试。例如，可使用各种波长的光来激发该对发光部分和激活剂部分，并且可测量来自发光部分的发射光，以确定该对是否形成合适的开关。

作为非限制性实例，可将Cy3和Cy5连接在一起以形成这样的实体。在此实例中，Cy3是能够激活Cy5(发光部分)的激活剂部分。因此，在实体的激活或第二部分的吸收最大值处或附近的光(例如，对于Cy3，接近532nm的光)可使该部分激活第一发光部分，从而使第一部分发光(例如，对于Cy5，接近647nm)。参见，例如，美国专利第7,838,302号，其通过引用整体并入本文。在一些情况下，可随后通过任何合适的技术(例如，通过将647nm红光引导到分子的Cy5部分)使第一发光部分失活。

潜在合适的激活剂部分的其它非限制性实例包括1,5IAEDANS、1,8-ANS、4-甲基伞形酮、5-羧基-2,7-二氯荧光素、5-羧基荧光素(5-FAM)、5-羧基萘并荧光素、5-羧基四甲基罗丹明(5-TAMRA)、5-FAM(5-羧基荧光素)、5-HAT(羟色胺)、5-羟色胺(HAT)、5-ROX(羧基-X-罗丹明)、5-TAMRA(5-羧基四甲基罗丹明)、6-羧基罗丹明6G、6-CR 6G、6-JOE、7-氨基-4-甲基香豆素、7-氨基放线菌素D(7-AAD)、7-羟基-4-甲基香豆素、9-氨基-6-氯-2-甲氧基吖啶、ABQ、酸性品红、ACMA(9-氨基-6-氯-2-甲氧基吖啶)、吖啶橙、吖啶红、吖啶黄、吖啶黄素、吖啶黄素孚尔根SITSA、Alexa Fluor 350、Alexa Fluor 405、Alexa Fluor 430、Alexa Fluor488、Alexa Fluor 500、Alexa Fluor 514、Alexa Fluor 532、Alexa Fluor 546、AlexaFluor 555、Alexa Fluor 568、Alexa Fluor 594、Alexa Fluor 610、Alexa Fluor 633、Alexa Fluor 635、茜素复合物、茜素红色、AMC、AMCA-S、AMCA(氨基甲基香豆素)、AMCA-X、氨基放线菌素D、氨基香豆素、氨基甲基香豆素(AMCA)、苯胺蓝、硬脂酸蒽酯、APTRA-BTC、APTS、阿斯屈拉松亮红4G、阿斯屈拉松橙R、阿斯屈拉松红6B、阿斯屈拉松黄7GLL、米帕林、ATTO390、ATTO 425、ATTO 465、ATTO 488、ATTO 495、ATTO 520、ATTO 532、ATTO 550、ATTO 565、ATTO 590、ATTO 594、ATTO 610、ATTO 611X、ATTO 620、ATTO 633、ATTO 635、ATTO 647、ATTO647N、ATTO 655、ATTO 680、ATTO 700、ATTO 725、ATTO 740、ATTO-TAG CBQCA、ATTO-TAG FQ、金胺、Aurophosphine G、Aurophosphine、BAO 9(二氨基苯基噁二唑)、BCECF(高pH)、BCECF(低pH)、硫酸小檗碱、Bimane、双苯甲酰胺、双苯酰亚胺(Hoechst)、双-BTC、BlancophorFFG,Blancophor SV、BOBO-1、BOBO-3、Bodipy 492/515、Bodipy 493/503、Bodipy 500/510、Bodipy 505/515、Bodipy 530/550、Bodipy 542/563、Bodipy 558/568、Bodipy 564/570、Bodipy 576/589、Bodipy 581/591、Bodipy 630/650-X、Bodipy 650/665-X、Bodipy 665/676、Bodipy Fl、Bodipy FL ATP、Bodipy Fl-神经酰胺、Bodipy R6G、Bodipy TMR、BodipyTMR-X缀合物、Bodipy TMR-X、SE、Bodipy TR、Bodipy TR ATP、Bodipy TR-X SE、BO-PRO-1,BO-PRO-3、亮硫黄素FF、BTC、BTC-5N、钙黄绿素、钙黄绿素蓝、钙红、钙绿、钙绿-1Ca²⁺染料、钙绿-2Ca²⁺、钙绿-5N Ca²⁺、钙绿-C18Ca²⁺、钙橙、荧光增白剂、羧基-X-罗丹明(5-ROX)、级联蓝、级联黄、儿茶酚胺、CCF 2(GeneBlazer)、CFDA、色霉素A、色霉素A、CL-NERF、CMFDA、香豆素鬼笔环肽、CPM甲基香豆素、CTC、CTC甲瓒、Cy2、Cy3.1 8、Cy3.5、Cy3、Cy5.1 8、环AMP氟传感器(FiCRhR)、苯甲酰、丹磺酰、丹磺酰胺、丹磺酰尸胺、丹磺酰氯、丹磺酰DHPE、丹磺酰氟、DAPI、Dapoxyl、Dapoxyl 2、Dapoxyl3'DCFDA、DCFH(二氯二氢荧光素二乙酸酯)、DDAO、DHR(二氢罗丹明123)、Di-4-ANEPPS、Di-8-ANEPPS(非比率)、DiA(4-Di-16-ASP)、二氯二氢荧光素二乙酸酯(DCFH))、DiD-亲脂示踪剂、DiD(DiIC18(5))、DIDS、二氢罗丹明123(DHR)、DiI(DiIC18(3))、二硝基苯酚、DiO(DiOC18(3))、DiR、DiR(DiIC18(7))、DM-NERF(高pH)、DNP、多巴胺、DTAF、DY-630-NHS、DY-635-NHS、DyLight 405、DyLight 488、DyLight 549、DyLight 633、DyLight 649、DyLight 680、DyLight 800、ELF 97、Eosin、赤藓红、赤藓红ITC、溴化乙啶、乙锭同二聚体-1(EthD-1)、Euchrysin、EukoLight、氯化铕(III)、Fast Blue、FDA、孚尔根(对硝基苯胺)、FIF(甲醛诱导荧光)、FITC、Flazo Orange、Fluo-3、Fluo-4、荧光素(FITC)、荧光素二乙酸酯、Fluoro-Emerald、Fluoro-Gold(羟茋巴脒)、Fluor-Ruby、FluorX、FM1-43、FM4-46、Fura Red(高pH)、Fura Red/Fluo-3、Fura-2、Fura-2/BCECF、Genacryl亮红B、Genacryl亮黄10GF、Genacryl粉红3G、Genacryl黄5GF、GeneBlazer(CCF2)、Gloxalic Acid、Granular蓝、血卟啉、Hoechst 33258、Hoechst 33342、Hoechst 34580、HPTS、羟基香豆素、羟茋巴脒(FluoroGold)、羟色胺、Indo-1，高钙、Indo-1,低钙、Indodicarbocyanine(DiD)、吲哚三羰花青(DiR)、Intrawhite Cf、JC-1、JO-JO-1、JO-PRO-1、LaserPro、Laurodan、LDS751(DNA)、LDS 751(RNA)、Leucophor PAF、Leucophor SF、Leucophor WS、丽丝胺罗丹明、丽丝胺罗丹明B、钙黄绿素/乙锭同二聚体、LOLO-1、LO-PRO-1、萤光黄、Lyso示踪蓝、Lyso示踪蓝-白、Lyso示踪绿、Lyso示踪红、Lyso示踪黄、LysoSensor蓝、LysoSensor绿、LysoSensor黄/蓝、Mag绿、萘红(根皮红B)、Mag-Fura红色、Mag-Fura-2、Mag-Fura-5、Mag-Indo-1、镁绿、镁橙、孔雀绿、海蓝、Maxilon亮黄素10GFF、Maxilon亮黄素8GFF、Merocyanin、甲氧基香豆素、Mitotracker绿FM、Mitotracker橙、Mitotracker红、二硝基霉素、一溴代甲烷、一溴代甲烷(mBBr-GSH)、Monochlorobimane、MPS(甲基绿派罗宁芪)、NBD、NBD胺、尼罗红、硝基苯并恶二唑、去甲肾上腺素、核坚牢红、核黄、Nylosan Brilliant Iavin E8G、俄勒冈绿、俄勒冈绿488-X、俄勒冈绿、俄勒冈绿488、俄勒冈绿500、俄勒冈绿514、太平洋蓝、碱性副品红(Feulgen)、PBFI、Phloxin B(马格达拉红)、Phorwite AR、Phorwite BKL、Phorwite Rev、Phorwite RPA、磷化氢3R、PKH26(Sigma)、PKH67、PMIA、Pontochrome Blue Black、POPO-1、POPO-3、PO-PRO-1、PO-PRO-3、樱草灵、普施安黄、碘化丙啶(PI)、PyMPO、芘、派洛宁、派洛宁B、派泽尔亮黄素7GF、QSY 7、芥奎吖因、卤灵(Resorufin)、RH414、Rhod-2、罗丹明、罗丹明110、罗丹明123、罗丹明5GLD、罗丹明6G、罗丹明B、罗丹明B 200、罗丹明B额外、罗丹明BB、罗丹明BG、罗丹明绿、罗丹明Phallicidine、罗丹明鬼笔环肽、罗丹明红、罗丹明WT、玫瑰红、S65A、S65C、S65L、S65T、SBFI、5-羟色胺、斯文尼亮红2B、斯文尼亮红4G、斯文尼亮红B、斯文尼橙、斯文尼黄L、SITS、SITS(樱草灵)、SITS(均二苯乙烯异硫代磺酸)、SNAFL钙黄绿素、SNAFL-1、SNAFL-2、SNARF钙黄绿素、SNARF1、钠绿、SpectrumAqua、SpectrumGreen、SpectrumOrange、SpectrumRed、SPQ(6-甲氧基-N-(3-磺丙基)喹啉)、芪、磺酰罗丹明B canC、磺酰罗丹明Extra、SYTO 11、SYTO 12、SYTO 13、SYTO 14、SYTO 15、SYTO 16、SYTO 17、SYTO 18、SYTO 20、SYTO 21、SYTO 22、SYTO 23、SYTO 24、SYTO 25、SYTO 40、SYTO 41、SYTO42、SYTO 43、SYTO 44、SYTO 45、SYTO 59、SYTO 60、SYTO 61、SYTO 62、SYTO 63、SYTO 64、SYTO 80、SYTO 81、SYTO 82、SYTO 83、SYTO 84、SYTO 85、SYTOX蓝、SYTOX绿、SYTOX橙、四环素、四甲基罗丹明(TAMRA)、德克萨斯红、德克萨斯红-X-缀合物、噻二唑花青(DiSC3)、噻嗪红R、噻唑橙、硫磺素5、硫磺素S、硫磺素TCN、Thiolyte、噻唑橙、Tinopol CBS(荧光增白剂)、TMR、TO-PRO-1、TO-PRO-3、TO-PRO-5、TOTO-1、TOTO-3、TRITC(四甲基异氰酸异丙酯)、TrueBlue、TruRed、Ultralite、荧光素钠B、Uvitex SFC、WW 781、X-罗丹明、XRITC、二甲苯橙、Y66F、Y66H、Y66W、YO-PRO-1、YO-PRO-3、YOYO-1、YOYO-3、SYBR绿、噻唑橙(相互螯合染料)或其组合。

本发明的另一方面涉及计算机执行的方法。例如，可提供能够自动地和/或重复地执行本文描述的任何方法的计算机和/或自动化系统。如本文所用，“自动化”设备是指能够在无人指导的情况下操作的设备，即，自动化设备可以在任何人已经完成采取任何行动来促启功能(例如，通过将指令输入计算机以启动该过程)之后的一段时间期间执行该功能。通常，自动化设备可以在该时间点之后执行重复功能。在一些情况下，处理步骤也可以被记录在机器可读介质上。

例如，在一些情况下，可使用计算机来控制样品的成像，例如使用荧光显微术、STORM或诸如本文所述的那些超分辨率技术。在一些情况下，计算机还可控制操作，诸如图像分析中的漂移校正、物理配准、杂化和聚类对准、聚类解码(例如，荧光聚类解码)、误差检测或校正(例如，如本文所论述的)、噪声降低、从背景特征(诸如图像中的噪声或碎片)鉴定前景特征等。作为实例，计算机可用于控制样品内的信号传导实体的激活和/或激发，和/或信号传导实体的图像的获取。在一组实施方案中，可使用具有各种波长和/或强度的光激发样品，并且可使用计算机来将用于激发样品的光的波长序列与含有信号传导实体的样品的所获取的图像相关联。例如，计算机可向样品施加具有各种波长和/或强度的光，以在每个目标区域中产生不同平均数目的信号传导实体(例如，每个位置一个激活的实体，每个位置两个激活的实体等)。在一些情况下，如上所述，该信息可用于(在一些情况下以高分辨率)构造图像和/或测定信号传导实体的位置，如上文指出的。

在一些方面，将样品置于显微镜上。在一些情况下，显微镜可包含一个或多个通道，例如微流体通道，以引导或控制流体进入或离开样品。例如，在一个实施方案中，通过使流体通过一个或多个通道流入或流出样品，可以从样品中引入和/或除去核酸探针，诸如本文论述的核酸探针。在一些情况下，还可以有一个或多个腔室或储器用于保持流体，例如与通道和/或与样品流体连通。本领域普通技术人员将熟悉用于将流体移入或移出样品的通道，包括微流体通道。

如本文所用，“微流体”、“微观”、“微量”、“微-”前缀(例如，如“微通道”)等通常是指宽度或直径小于约1mm，在一些情况下小于约100微米(微米)的元件或制品。在一些实施方案中，对于本文所论述的任何实施方案，可使用更大的通道代替微流体通道或与微流体通道结合使用。例如，在某些情况下可使用具有小于约10mm，小于约9mm，小于约8mm，小于约7mm，小于约6mm，小于约5mm，小于约4mm，小于约3mm，或小于约2mm的宽度或直径的通道。在一些情况下，元件或制品包括流体可流过的通道。在所有实施方案中，指定的宽度可以是最小宽度(即所指定的宽度，其中，在该位置处，制品可以在不同维度中具有更大的宽度)，或最大宽度(即，其中，在该位置处，制品具有不宽于所指定的宽度，但可具有更大的长度)。因此，例如，微流体通道可具有小于约1mm，小于约500微米，小于约300微米或小于约100微米的平均横截面尺寸(例如，垂直于微流体通道中的流体的流动方向)。在一些情况下，微流体通道可以具有小于约60微米，小于约50微米，小于约40微米，小于约30微米，小于约25微米，小于约10微米，小于约5微米，小于约3微米或小于约1微米的平均直径。

如本文所用，“通道”意指至少部分地引导流体流动的制品(例如，基板)上或内的特征。在一些情况下，通道可以至少部分地由单个部件形成，例如，蚀刻基板或模制单元。通道可以具有任何横截面形状，例如圆形、椭圆形、三角形、不规则形状、正方形或矩形(具有任何长宽比)等，并且可以被覆盖或不被覆盖(即，对围绕通道的外部环境是开放的)。在通道被完全覆盖的实施方案中，通道的至少一部分可具有被完全封闭的横截面，和/或除了其入口和出口外，整个通道可以沿着其整个长度被完全封闭。

通道可以具有任何长宽比，例如至少约2:1，更通常地至少约3:1，至少约5:1，至少约10:1等的长宽比(长度对平均横截面尺寸)。如本文所用，在大致垂直于通道内的流体流动的方向上测量关于流体或微流体通道的“横截面尺寸”。通道通常将包括促进对流体传输的控制的特性，例如，结构特性和/或物理或化学特性(疏水性对比亲水性)和/或可对流体施加力(例如，包含力)的其它特性。通道内的流体可以部分地或完全地填充通道。在一些情况下，可以以某种方式例如使用表面张力(例如，以使得流体保持在弯月面(诸如凹或凸弯月面)内的通道内)将流体保持或限制在通道或通道的一部分内。在制品或基底中，一些(或全部)通道可具有特定尺寸或更小，例如，在一些情况下具有小于约5mm、小于约2mm、小于约12mm、小于约500微米、小于约200微米、小于约100微米、小于约60微米、小于约50微米、小于约40微米、小于约30微米、小于约25微米、小于约10微米、小于约3微米、小于约1微米、小于约300nm、小于约100nm、小于约30nm或小于约10nm或更小的垂直于流体流动的最大尺寸。在一个实施方案中，通道是毛细管。

根据本发明的某些方面，多种材料和方法可用于形成包含微流体通道、腔室等的装置或部件。例如，可从固体材料形成各种装置或部件，其中可通过微加工、膜沉积工艺诸如旋涂和化学气相沉积、物理气相沉积、激光制造、光刻技术、蚀刻方法(包括湿化学或等离子体工艺)、电沉积等形成通道。参见，例如，Scientific American,248:44-55,1983(Angell等)。

在一组实施方案中，各种结构或部件可由聚合物例如弹性体聚合物诸如聚二甲基硅氧烷(“PDMS”)、聚四氟乙烯(“PTFE”或

)等形成。例如，根据一个实施方案，可通过使用PDMS或其它软光刻技术(适用于此实施方案的软光刻技术的细节论述于Younan Xia和George M.Whitesides的在Annual Review of Material Science,1998，第28卷，第153-184页中公布的标题为“Soft Lithography”，以及由George M.Whitesides,EmanueleOstuni,Shuichi Takayama,Xingyu Jiang和Donald E.Ingber在Annual Review ofBiomedical Engineering,2001，第3卷，第335-373页中公开的标题为“Soft Lithographyin Biology and Biochemistry”的参考文献中，这些参考文献的每一篇通过引用并入本文)单独制造流体系统来实现通道诸如微流体通道。

潜在合适的聚合物的其它实例包括但不限于聚对苯二甲酸乙二醇酯(PET)、聚丙烯酸酯、聚甲基丙烯酸酯、聚碳酸酯、聚苯乙烯、聚乙烯、聚丙烯、聚氯乙烯、环烯烃共聚物(COC)、聚四氟乙烯、氟化聚合物、硅酮诸如聚二甲基硅氧烷、聚偏二氯乙烯、双-苯并环丁烯(“BCB”)、聚酰亚胺、聚酰亚胺的氟化衍生物等。还设想了包括上述聚合物的组合、共聚物或混合物。该设备还可以由复合材料(例如，聚合物和半导体材料的复合材料)形成。

在一些实施方案中，设备的各种微流体结构或部件由聚合物和/或柔性和/或弹性体材料制成，并且可方便地由可硬化流体形成，便于通过模制(例如复制模制、注射模制、浇铸模制等)制造。可硬化流体可以基本上是能够被诱导固化或自发固化成能够容纳和/或输送被设想用于流体网络和与流体网络一起使用的流体的固体的任何流体。在一个实施方案中，可硬化流体包含聚合物液体或液体聚合物前体(即“预聚物”)。合适的聚合物液体可包括例如加热至其熔点以上的热塑性聚合物、热固性聚合物、蜡、金属或其混合物或复合物。作为另一个实例，合适的聚合物液体可以包括一种或多种聚合物在合适溶剂中的溶液，该溶液在除去溶剂(例如通过蒸发)后形成固体聚合物材料。可从例如熔融状态或通过溶剂蒸发固化的此类聚合物材料是本领域普通技术人员公知的。对于其中一个或两个模具母模由弹性体材料组成的实施方案，多种聚合材料(其中许多是弹性体的)是合适的，并且也适合于形成模具或模具母模。此类聚合物的实例的非限制性列表包括一般类别的硅酮聚合物、环氧聚合物和丙烯酸酯聚合物的聚合物。环氧聚合物的特征在于存在通常称为环氧基、1,2-环氧化物或环氧乙烷的三元环醚基团。例如，除了基于芳族胺、三嗪和脂环族主链的化合物之外，还可使用双酚A的二缩水甘油醚。另一个实例包括公知的酚醛清漆聚合物。适用于本发明的硅酮弹性体的非限制性实例包括由包括氯硅烷诸如甲基氯硅烷、乙基氯硅烷、苯基氯硅烷等的前体形成的那些硅酮弹性体。

在某些实施方案中使用硅酮聚合物，例如，硅酮弹性体聚二甲基硅氧烷。PDMS聚合物的非限制性实例包括由Dow Chemical Co.，Midland，MI以商标Sylgard销售的那些，特别是Sylgard 182、Sylgard 184和Sylgard 186。包括PDMS的硅酮聚合物具有简化本发明的各种结构的制造的几种有益性质。例如，此类材料便宜，容易获得，并且可通过用热固化来从预聚物液体固化。例如，PDMS通常可通过将预聚物液体暴露于例如约65℃至约75℃的温度(持续例如至少约1小时的暴露时间)而固化。同样地，硅酮聚合物诸如PDMS可以是弹性体的，因此可用于形成具有相对高的长宽比的非常小的特征，这在本发明的某些实施方案中是必需的。在这方面，柔性(例如，弹性体)模具或母模可以是有利的。

从有硅酮聚合物(诸如PDMS)形成结构诸如微流体结构或通道的一个有利方面是此类聚合物被氧化的能力，例如通过暴露于含氧等离子体诸如空气等离子体，以使得氧化结构在其表面含有能够与其它氧化的硅酮聚合物表面或与多种其它聚合物和非聚合物材料的氧化表面交联的化学基团。因此，可以制造结构，随后将其氧化并且基本上不可逆地密封至其它硅酮聚合物表面，或者密封至与氧化的硅酮聚合物表面反应的其它基底的表面，而无需单独的粘合剂或其它密封装置。在大多数情况下，可以简单地通过使氧化的硅酮表面与另一表面接触完成密封，而无需施加辅助压力来形成密封。也就是说，预氧化的硅酮表面用作针对合适的配合表面的接触粘合剂。具体地，除了可不可逆地密封自身之外，氧化的硅酮诸如氧化的PDMS还可被不可逆地密封至除了自身之外的一系列氧化材料，包括例如玻璃、硅、氧化硅、石英、氮化硅、聚乙烯、聚苯乙烯、玻璃碳和环氧聚合物，所述材料以与PDMS表面类似的方式被氧化(例如，通过暴露于含氧等离子体)。在本领域中，例如在标题为“Rapid Prototyping of Microfluidic Systems and Polydimethylsiloxane”，Anal.Chem.,70:474-480,1998(Duffy等)的论文(通过引用并入本文)中描述了可用于本发明上下文中的氧化和密封方法以及整体模制技术。

以下文献各自通过引用整体并入本文：由Zhuang等于2010年11月23日发布的标题为“Sub-Diffraction Limit Image Resolution and Other Imaging Techniques”的美国专利第7,838,302号；由Zhuang等于2013年10月22日发布的标题为“Sub-diffractionLimit Image Resolution in Three Dimensions”的美国专利第8,564,792号；和由Zhuang等于2013年6月20日公布的标题为“High Resolution Dual-Objective Microscopy”的国际专利申请公开号WO 2013/090360。

另外，通过引用整体并入的是Zhuang等于2014年7月30日提交的标题为“Systemsand Methods for Determining Nucleic Acids”的美国临时专利申请系列第No.62/031,062号；Zhuang等于2014年9月15日提交的标题为“Probe Library Construction”的美国临时专利申请系列第62/050,636号；Zhuang等于2015年4月3日提交的标题为“Systems andMethods for Determining Nucleic Acids”的美国临时专利申请系列第62/142,653号；以及由Zhuang等与本申请同一日提交的标题为“Probe Library Construction”的PCT申请。

以下实施例旨在举例说明本发明的某些实施方案，但不例示本发明的全部范围。

实施例1

本实施例提供了使得能够使用新型形式的高度多重荧光原位杂交(FISH)以高效率和低误差率同时检测单个细胞内数千个不同mRNA的数目和空间组织的平台。本实施例通过集成和创新用于大规模并行探针合成、超分辨率成像和自校正误差校验码的方法来完成这些测量。

此处，这些实例提供了用于同时检测细胞中表达的数千个独特RNA中的一些或全部的方法。该方法不仅有望革新已经有效的单分子FISH(smFISH)方法的通量，而且允许研究人员从已使得其它全基因组系统方法对生物学如此有效的假设自由发现方法中受益。例如，该全基因组方法可以允许研究人员发现其表达水平和/或亚细胞定位模式在某些目标条件(诸如疾病状态)下改变的RNA，而无需先验地知道哪种mRNA将在丰度或定位上改变。在单个细胞内同时测量数百个基因还允许在一些情况下鉴定表达的基因与定位模式之间的相关性。

这可使用用于通过正交检测探针的连续杂交和超分辨率成像的高度多重化的smFISH的方法来实现，从而降低探针合成以及最小化对用户的要求的高度自动化系统的开发的成本，如本文所论述的。这提供了处理探针设计的生物信息学、误差校正码的数学运算、图像配准和分析的复杂性、以及通过简单的用户友好界面进行繁琐流体处理的集成平台。该集成允许在有限的用户训练的情况下进行容易的操作并且便于快速收集数据。

本实施例举例说明：(1)连接至细胞中所有RNA靶标的“代码字”的计算设计，其将允许具有一定程度的实验容错性的每种RNA的独特鉴定，(2)这些代码字至核苷酸序列的翻译和所需单链(ss)寡核苷酸(例如ssDNA)探针的合成，(3)样品固定和这些探针与RNA靶标的原位杂交，(4)这些代码字通过利用常规荧光显微术或超分辨荧光显微术成像的不同荧光探针的连续回合的杂交的读出，以及(5)与计算的误差校正组合以独特和鲁棒地鉴定个体mRNA的测量的代码字的自动解码。

在第一步骤中，将“代码字”分配给待标记的每个RNA。在典型的设计中，这些可以是N个二进制字母或位置的串。可以从为数字存储和通信开发的相同宽范围的现有容错或误差校正编码方案中选择代码字，例如使用汉明码等。例如，肌动蛋白-RNA可被赋予二进制代码字11001010。每个代码字可以是独特的，并且与其它代码字相隔汉明距离h，该汉明距离测量对于一个代码字被误解为不同代码字必须被错误地读取的字母或位置的数目。在所有代码字之间大于1的汉明距离允许检测一些测量误差-因为简单的误差将产生不用于编码RNA的代码字。对于大于2的汉明距离，也可能校正一些误差，因为具有一个误差的代码字在汉明距离上将最接近单个独特的代码字。待从转录组中检测的不同RNA的总数和所需的误差校正的量决定代码字的长度。信息理论提供了几种用于组装误差校正二进制代码本的高效算法。

在第二步骤中，将该编码方案翻译成一组寡核苷酸(例如DNA)探针序列，其可被称为初级探针或编码探针，其中每个序列不仅将探针靶向至目标RNA，而且还编码在一组次级结合位点内的独特二进制代码字(图1)。例如，首先设计的可以是每种靶向的mRNA的初级结合序列。这些序列是“靶序列”，其包含被计算选择来满足一组严格的杂交条件(包括靶基因组中的独特性)的其靶RNA的互补核苷酸序列。为了提高与个体mRNA杂交的效率，为每个个体RNA设计多个初级靶序列。随后，代码字的组内的每个位置被分配独特的寡核苷酸(例如DNA)序列，其被称为阅读序列。这些标签被设计为不与内源mRNA序列相互作用或不彼此相互作用。例如，对于个体mRNA的代码字中的所有值“1”，对应的阅读序列附接于针对该mRNA的初级靶向序列。通常，每个探针将含有靶序列和一个或多个阅读序列。如果必需阅读序列和初级靶序列的总长度超过合成能力，则可将阅读序列的亚组附加到不同的靶序列。例如，考虑肌动蛋白的潜在代码字11001010。该RNA的探针序列可包含对应于附接至多种肌动蛋白特异性靶序列的代码字中的位置1、2、5和7的阅读序列。在已经设计了所有序列之后，使用如下所述的方法制造和扩增独特的定制寡核苷酸(例如DNA)序列的所得复杂组。

在第三步骤中，将所得的DNA库与例如固定的透化细胞杂交。在该过程中，个体探针可以通过其对应的靶序列与RNA的杂交而附接至细胞中的每个RNA，而阅读序列保持游离以结合如下所论述的适当的次级探针。

在第四步骤-读出步骤中-将荧光标记的次级核酸探针(也称为读出探针)依次与附接至在上述步骤中结合至mRNA靶标的靶序列的阅读序列杂交。当在细胞中对大量不同的RNA种类同时成像时，标记的RNA的密度可以超过每种RNA可通过常规成像方法解析时所处的密度。因此，这可以使用超分辨率成像方法，例如STORM(随机光学重建显微镜术)来进行，以解析标记的分子。在每回合杂交和用次级探针成像后，通过化学或光学技术例如氧化、化学漂白、光漂白、严格洗涤或酶消化等淬灭或另外地灭活荧光团。随后将样品用下一个次级探针进行染色，并且继续该循环直至代码字的所有位置已被读出。在最简单的形式中，对于代码字内的每个位置将存在一个杂交步骤，例如对于8字母代码字存在8个杂交步骤(图1)。

图1显示了此实施例的示意图。图1A显示了代码字的每个位置被分配予独特的寡核苷酸序列(当该位置具有值“1”时)。随后将所有mRNA代码字翻译成附接至靶向序列的阅读序列的组合。图1B显示了本实施例的标记方案的各个步骤。在第一步中，用包含与目标RNA杂交的初级靶向序列和不与内源核苷酸序列相互作用的具有翻译的代码字的“尾”(即含有阅读序列)的多个寡核苷酸(例如ssDNA)探针标记所有mRNA(I-III)。在下一步骤中，添加第一次级探针，其可结合其尾部具有对应于第一位置中的值“1”的阅读序列的所有探针。对这些次级探针上的染料进行成像和漂白，随后添加下一个次级探针以结合附接于mRNA的探针，所述探针在其分配的代码字的第二位置处具有值“1”，以此类推。

在最后的步骤中，将来自每个染色和成像回合的显微图像进行例如计算比对(例如使用在图像采集期间跟踪的基准珠(feducial bead)或其它标志物)，并且鉴定来自不同回合的通过常规荧光显微术或超分辨率成像(例如STORM)解析的定位簇。这些定位簇从个体靶mRNA分子产生，并且其中在给定簇中检测到斑点的杂交回合对应于该mRNA的代码字中的“1”。如果在图像中不存在遗漏检测事件或假阳性信号，则该代码字将完美地匹配期望的代码字之一。图1描述了其中代码字具有三个字母，即三个位置，并且三个靶mRNA具有分配给它们的代码字110、101和011的实例。在真实的实验性实例中，代码字可包含更多数字。例如，可以为肌动蛋白的mRNA分配代码字11001010。在该情况下，在第1、第2、第5和第7杂交步骤(意指结合至该位点的第1、第2、第5和第7次级探针)中含有重叠定位信号的检测到的簇可被鉴定为个体肌动蛋白mRNA分子，因为阳性结合的模式匹配肌动蛋白的代码字(11001010)。另外，如果在图像数据中存在漏检测事件或假阳性信号，则这些偏差可通过执行的误差校正方案来校正。例如，具有与11001010仅具有一个数字偏差的检测到的代码字(诸如11000010或11101010)的定位簇也可被鉴定为肌动蛋白mRNA，因为此实施例中的所有其它有效代码字在两个或更多个位置中与检测到的模式不同。

实施例2

本实施例描述了在上述步骤的几个中不同的另一种替代方法。此方法从第一步开始，即将代码字构建成所需的mRNA靶标，如上所述的。

在此方法的第二步骤中，设计如上所述的与目标mRNA靶标独特结合的核酸探针。然而，不是将独特的阅读序列附加至这些靶序列，而是从这些靶序列构建独特的探针库或探针组。每个库包含靶向所有mRNA的全部序列或序列亚组，所述mRNA在其代码字中的给定位置处含有相同的值。例如，第一库将具有针对在其代码字的第一位置上包含1(例如，110和101而非011)的所有mRNA设计的靶序列的全部或亚组；第二库可具有针对在其代码字的第二位置上包含1(例如110和011而非101)的所有mRNA设计的靶序列的全部或亚组；第三库可具有针对在其代码字的第三位置中含有1(例如，011和101而非110)的所有mRNA设计的靶序列的全部或亚组(图1C)。作为另一个实例，考虑肌动蛋白的潜在代码字11001010。靶向此mRNA的探针将包括在库1、2、5和7中，但不包括在库3、4、6和8中。针对给定的mRNA的相同的靶标可以被包括在或不被包括在库中。例如，靶向肌动蛋白的相同区域的探针可以被包括在库1、2、5和7或这些库的任何亚组中。在已经设计了所有库之后，使用如下所述的方法制造和扩增独特的定制寡核苷酸序列的每个复杂组。

在此方法的第三步骤中，将第一探针库与例如固定的透化细胞杂交。在该过程中，附接至该库中的每个探针的荧光团结合至该库的每个靶标。随后通过荧光显微术测定这些探针的结合。如上所述，可经由包括常规荧光成像或超分辨率成像方法(诸如STORM)的一系列方法采集这些图像。在一回合的成像后，通过上述方法使来自第一库的探针失活或从样品中移除。随后对于每个连续的探针库重复该过程，直至一些或所有库已被应用于样品并且成像，以使得代码字中的所有位置已被读出。在最简单的形式中，对于代码字中的每个位置将存在一个杂交和成像步骤，例如对于具有3个位置的代码字(图1C)存在3回合的杂交和成像，或对于具有8个位置的代码字具有8回合的杂交和成像。

此方法的最后一步与上文所述的步骤相同。

实施例3

在本实施例中，使用一组(8,4)SECDED码编码14个基因(PGK1、H3F3B、PKM、ENO1、GPI、EEF2、GNAS、HSPA8、GAPDH、CALM1、RHOA、PPIA、UBA52和VCP)(图2A-2E)。为了测定这些测量的精确度，将这14种mRNA的测量丰度与从A549细胞的批量RNA-seq测量的丰度(公布的ENCODE数据)进行比较。引人注目的是，发现这两个测量之间存在极好的一致性，因为使用序贯杂交方法测量的转录物计数与使用RNA-seq测量的基因表达相关，皮尔逊相关系数r为0.75(图2F)。还测量了来自其它3个细胞的基因表达，并且发现这14个基因的基因表达在细胞间高度相关，r为0.96(图2G)。

代码本(Codebook)设计。使用单错校正双错检测(SECDED)码向靶标组中的每个mRNA分配二进制代码字。SECDED是具有附加奇偶校验位的扩展汉明代码本。简言之，Matlab的通信系统工具箱用于生成8或16个字母或位置的SECDED码。在两种情况下，仅使用包含四个1的那些代码字。这些字被随机分配给靶标组中的mRNA。[0 1 0 1 1 1 0 0]是所使用的8字母代码字的实例(即，这些代码字各自包含4个1和4个0)。[0 1 0 1 1 1 0 0 0 0 0 0 00 0 0]是所使用的16字母的代码字的实例(即，每个代码字包含4个1和12个0)。不是每个代码字都必须分配给mRNA。

ssDNA初级探针序列的计算组装。取决于实验，用于与mRNA靶标杂交的初级核酸探针的数目范围为200至2000个独特的寡核苷酸。例如，为了用靶向每个基因的28种寡核苷酸标记14种mRNA，使用392个独特序列。具有独特序列的大量寡核苷酸购自来自LC Sciences或CustomArray的库。然而，阵列合成的寡核苷酸是微量的，不足以用于原位杂交。下面描述它们的扩增方案。

每个初级探针包含三个组分：允许探针的酶促扩增的侧翼引物序列、用于与mRNA原位杂交的靶向序列以及用于代码字的顺序读出的含有一个或多个阅读序列的次级标签序列。

以下是初级探针的实例：

GTTGGCGACGAAAGCACTGCGATTGGAACCGTCCCAAGCGTTGCG

CTTAATGGATCATCAATTTTGTCTCACTACGACGGTCAATCGCGCTGCATACTTG

CGTCGGTCGGACAAACGAGG

(SEQ ID NO：1)

组分按以下序贯排列：正向引物(未加下划线)、次级阅读序列1(加下划线的)、mRNA靶向序列(未加下划线的)、次级阅读序列2(加下划线的)和反向引物(未加下划线的)。次级阅读序列是对应的次级探针的反向互补序列。由于仅使用包含四个′1′的代码字，因此在此实例中每种mRNA的初级探针需要含有4个不同的次级阅读序列。然而，为了减少初级探针的总长度，将每种mRNA靶标的靶序列库随机分成两个库。将两个次级阅读序列连接至两个库之一中的每个探针，并将另两个次级阅读序列连接至另一个库中的探针。每个组分的设计标准如下所述。

引物设计。通过正交25-bp长序列的240,000个公开的序列的收集产生特异性索引引物。将这些序列修剪至20bp，针对窄的70至80℃的解链温度、不存在3个或更多个碱基的连续重复、并且存在GC夹(即两个3'末端碱基之一必须是G或C)选择所述序列。为了进一步提高特异性，随后使用BLAST+(Camacho等2009)针对人类基因组筛选这些序列，并且消除具有14个或更多个连续碱基同源性的引物。在随后通过BLAST+的筛选中，还除去共有任何其它引物或T7启动子的11个或更多个连续碱基或超过5个3'端上的碱基的引物。

次级探针设计。通过串接上述正交引物组的片段生成30-bp长的次级探针序列。随后就与其它次级分子的正交性(不超过11个碱基对的同源性)和人基因组中的潜在脱靶结合位点(不超过14个碱基对的同源性)筛选这些次级分子。表1中提供了在本实施例中使用的次级序列。

表1

mRNA靶向序列设计。为了测定在这些细胞系中表达的所有基因的所有同种型的相对丰度，使用公众可获得的软件cufflinks，以及来自gencode v18的人类基因组注释，处理来自ENCODE项目的针对来自A549和IMR90细胞的总RNA的转录组分析数据。对应于最高表达的同种型的基因模型用于构建记录每个基因的显性同种型的FASTA格式的序列文库。从该文库中选择目标基因。将这些基因分成1kb的区段，随后使用软件OligoArray2.1来生成人转录组的初级探针序列，其具有以下限制：30-bp或40-bp的长度，这取决于实验；大于70℃的探针-靶标解链温度(可变参数)；无具有大于72℃的解链温度的交叉杂交靶标(可变参数)；无具有大于76℃的解链温度的预测的内部次级结构(可变参数)；以及无6个或更多个碱基的单核苷酸连续重复。在OligoArray探针选择后，拒绝定位至不同基因的所有潜在探针，然而保留具有与同一基因的多重对齐的所有潜在探针。从所有表达的基因的FASTA文库组装BLAST数据库以筛选探针的独特性。对于每个基因，选择在OligoArray处理期间产生的14至28个靶向序列。

探针合成-索引PCR。通过有限循环PCR从复杂寡核苷酸库中选择特异性探针组的模板。简言之，将0.5至1ng的复杂寡核苷酸库与0.5微摩尔的每种引物组合。正向引物与所需亚组的引发序列匹配，而反向引物是该序列与T7启动子的5'串接。为了避免可能难以合成的G-四联体的生成，从位于合适的引发区5'的G生成T7启动子中所需的末端G。所有引物均通过IDT合成。使用KAPA实时文库扩增试剂盒(KAPA Biosystems；KK2701)或通过包括0.8X EvaGreen(Biotum；31000-T)和热启动Phusion聚合酶(New England Biolabs；M0535S)的自制qPCR混合物扩增50微升反应体积。使用Agilent的MX300P或Biorad的CFXConnect实时进行扩增。在扩增平台期之前立即除去个体样品，以最小化由于过度扩增引起的模板丰度的扭曲。按照制造商的说明书(Zymo DNA Clean and Concentrator；D4003)用柱子纯化个体模板，并在无RNA酶的去离子水中洗脱。

通过体外转录的扩增。随后通过体外转录扩增模板。简言之，将0.5至1微克模板DNA在具有高产率RNA聚合酶(New England Biolabs；E2040S)的单个20-30微升反应中扩增至100-200微克的RNA。反应补充有1X RNA酶抑制剂(Promega RNasin；N2611)。扩增通常在37℃下进行4至16小时以最大化产率。反应后不纯化RNA，并且如下所述将其在-80℃下储存或立即转化成DNA。

逆转录。使用逆转录酶Maxima H-(Thermo Scientific；EP0751)从上述体外转录反应物产生1至2nmol的荧光标记的ssDNA探针。使用该酶是因为其具有较高的持续合成能力和耐温性，这允许在不利于次级结构形成的温度下在小体积内将大量RNA转化为DNA。用1.6mM的每种dNTP、1-2nmol的荧光标记的正向引物、300单位的Maxima H-、60单位的RNasin和最终的1X浓度的Maxima RT缓冲液补充上面生成的未纯化的RNA。将最终75微升体积在50℃下温育60分钟。

链选择和纯化。随后通过碱性水解从DNA中除去上述反应中的模板RNA。向每个逆转录反应中加入75微升0.25M EDTA和0.5N NaOH，将样品在95℃温育10分钟。通过用修饰形式的Zymo Oligo Clean和Concentrator方案纯化ssDNA探针来立即中和反应。具体地，视情况而定，将5微克容量的柱用25微克或100微克容量的DNA柱替换。按照制造商的说明书进行方案的其余部分。在100微升不含RNA酶的去离子水中洗脱探针，随后在真空浓缩器中蒸发。将最终的沉淀重悬于10微升不含RNA酶的水中，并在-20℃储存。变性聚丙烯酰亚胺凝胶电泳和吸收光谱显示该方案通常产生荧光引物至全长探针的90-100％的掺入和总荧光探针的75-90％的回收。因此，在不超过150微升反应体积的情况下，该方案可用于生成～2nmol的荧光探针。

细胞培养和固定。A549和IMR90细胞(美国典型培养物保藏中心)分别用Dulbecco改良伊格尔培养基和伊格尔最低必需培养基培养。将细胞在37℃和5％CO₂下温育36-48小时。将细胞在PBS中的3％的多聚甲醛(Electron Microscopy Sciences)中固定15分钟，用PBS洗涤，并在4℃下于70℃乙醇中透化过夜。

荧光原位杂交(FISH)-初级(编码)探针。将细胞在洗涤缓冲液(2xSSC，50％甲酰胺)中水化10分钟，在杂交缓冲液(2xSSC，50％甲酰胺，1mg/mL酵母tRNA和10％硫酸葡聚糖)中用初级寡核苷酸(0.5nM/序列)在37℃标记过夜，用洗涤缓冲液在47℃洗涤10分钟，进行两次，并用2xSSC洗涤两次。在成像之前，在2xSSC中以1:10,000的稀释度加入荧光基准珠(Molecular Probes，F-8809)。

次级探针。将次级(读出)探针(10nM)在次级杂交缓冲液(2xSSC，20％甲酰胺和10％硫酸葡聚糖)中与其主靶标在37℃杂交30分钟。在杂交期间，细胞保留在显微镜载物台上。使用物镜加热器将温度保持在37℃。用次级洗涤缓冲液(2xSSC，20％甲酰胺)洗涤细胞。

流体和STORM成像。在由流体学装置和STORM(随机光学重建显微术)显微镜组成的自动化平台上进行多个回合连续标记、洗涤、成像和漂白。流体装置包括流动室(BioptechFCS2)、蠕动泵(Rainin Dynamax RP-1)和3个计算机控制的8通阀(Hamilton MVP和Hamilton HVXM 8-5)。该系统允许次级杂交和STORM影像采集的自动化集成。

成像缓冲液包括50mM Tris(pH 8)、10％(w/v)葡萄糖、1％βME(2-巯基乙醇)或25mM MEA(具有或不具有2mM 1,5-环辛二烯)和氧清除系统(0.5mg/ml葡萄糖氧化酶(Sigma-Aldrich)和40微克/ml过氧化氢酶(Sigma-Aldrich))。使用一层矿物油来密封成像缓冲液，防止其在多次杂交过程中的酸化。

STORM设置包括配置来用于斜入射激发的Olympus IX-71倒置显微镜。用642nm二极管泵浦固态激光器(VFL-P500-642；MPB通信)连续照射样品。将405nm固态激光器(Cube405-100C；Coherent)用于染料的活化。使用Olympus(UPlanSApo 100x，1.4NA)物镜收集荧光，并使其通过定制二向色性以及四视图分束器。所有影像使用EMCCD照相机(Andor iAxon897)记录，在60Hz成像。在保存之前，将相机的512x256视场分割成单独的256x256像素影像。该视场的左半部分包含STORM数据，右半部分包含荧光基准珠的图像。在保存之前将这些后面的影像降采样至1Hz。在数据采集期间，使用自制的聚焦锁来保持恒定的焦平面。STORM影像在STORM缓冲液中包括20,000至30,000帧，而漂白影像在洗涤缓冲液中包括10,000帧。

图像分析-单分子定位的分析。使用先前公开的单发射体定位软件单独处理单分子定位和荧光基准珠的影像。

图像配准。来自每回合杂交的珠的起始位置用于对齐来自每回合的影像。使用连续杂交的珠图像之间的2D自相关，随后使用最近邻匹配来匹配图像之间的珠。具有最相似位移矢量的珠的对用于计算刚性平移-旋转弯曲以对齐珠。该对齐方法对于其中多个基元在成像期间被移位或分离和重新附接的样品是鲁棒的。

漂移校正。在图像采集期间的漂移使用基准珠的轨迹(在1Hz记录的)来行校正。在每一帧中连接珠位置。将以最相关的方式移动的两个珠的轨迹作为漂移轨迹。

mRNA簇调用。定位首先被筛选为高于阈值数目(通常为2000)的光子，并且需要在5个其它定位的32nm(可以调节参数)内。将剩余的分子定位在10×10nm箱(箱尺寸是可变参数)的2D直方图中进行分箱。所有连接的箱被视为簇的一部分(对角线接触被分类为连接的)。簇需要在所有杂交中具有超过80个全局定位(可变参数)来被称为mRNA簇。将来自2D直方图的这些簇的加权质心记录为mRNA位置。

如果在每个杂交回合中在该mRNA的质心的48nm半径(可变参数)内发现超过9个定位(可变参数)，则给定的簇被记录为单个杂交回合中的代表。

簇解码。对于每个mRNA簇，读出代码字，其包括“0”(对于其中在质心附近发现小于阈值数目的定位的所有杂交回合)和“1”(对于其中计数上述阈值数目的定位的回合)。SECDED代码本将这些解码为与靶mRNA代码字的完全匹配、可以明确映射回靶mRNA的可校正误差，或与代码本中的字相异于两个或更多个字母的不可校正的误差。

图2A显示细胞的STORM图像。图2B显示图2A中的加框区域的放大。每个斑点表示定位。差异地显示来自不同回合成像的定位。图2C显示来自图2B中的加框区域的代表性定位簇。该簇显示来自4个不同杂交的定位信号。该簇是用代码字[0 1 0 1 1 1 0 0]编码的推定的mRNA。图2D显示解码和误差校正后的14个基因的重建的细胞图像。差异地显示每个基因。图2E显示来自细胞的14个基因的测量的基因表达。图2F显示转录物计数与全体RNA测序数据的比较。图2G显示使用所述方法检测的两个细胞之间的转录物表达水平的相关性。

实施例4

以下实施例总体上涉及具有误差鲁棒性编码的多重单分子成像，其允许在单个细胞中同时测量数千个RNA种类。一般地，RNA在个体细胞中的表达谱和空间景观的知识是理解细胞行为的丰富的全部组成部分所必需的。以下实施例报道了涉及单分子成像方法的各种技术，其允许在单个细胞中测定数千个RNA种类的拷贝数和空间定位。这些技术中的一些被称为多路误差-鲁棒性荧光原位杂交或“MERFISH”。

通过使用误差鲁棒性编码方案来对抗单分子标记和检测误差，这些实例显示了成百上千的独特RNA种类在数百个个体细胞中的成像。～10⁴至～10⁶对基因的相关性分析允许对基因调控网络的约束、许多未注释基因的新功能的预测和与编码的蛋白质的性质相关的RNA的不同空间分布模式的鉴定。

单细胞中的RNA的丰度和空间组织的系统范围分析有望转变细胞和发育生物学的许多领域的理解，诸如基因调节的机制、细胞的异质行为，以及细胞命运的发展和维持。单分子荧光原位杂交(smFISH)已成为用于研究RNA在分离的或在其天然组织环境中的单个细胞中的拷贝数和空间组织的强大工具。通过利用其以高分辨率映射特定RNA的空间分布的能力，smFISH已揭示亚细胞RNA定位在不同的过程诸如细胞迁移、发育和极化中的重要性。同时，smFISH精确地测量特异性RNA的拷贝数而无扩增偏倚的能力允许定量测量基因表达中的自然波动，这进而阐明了形成这种波动的调节机制及其在多种生物过程的作用。

然而，smFISH方法在许多系统级问题中的应用仍然受限于可以在单个细胞中同时测量的RNA种类的数目。使用通过基于颜色的条形码或序贯杂交的组合标记的现有技术水平的努力已经能够在个体细胞中同时测量10-30种不同的RNA种类，但许多有趣的生物学问题将受益于单个细胞内的数百至数千RNA的测量，这是使用这样的技术不可实现的。例如，对如此大量RNA的表达谱如何随细胞而变化以及这些变异如何在不同基因之间相关的分析可用于系统地鉴定共调节的基因和对调节网络作图；许多RNA的亚细胞组织及其相关性的知识可以帮助阐明许多局部细胞结构的建立和维持背后的分子机制；以及在天然组织中的个体细胞的RNA谱表征可允许细胞类型的原位鉴定。

以下实施例通常论述称为MERFISH的某些技术，其是高度多重化的smFISH成像方法，所述方法通过使用利用误差鲁棒性编码方案的组合标记和序贯成像显著增加可以在个体细胞中同时成像的RNA种类的数目。这些实例通过使用可检测和校正误差的编码方案同时测量140种RNA种类，以及使用可以检测但不校正误差的编码方案同时测量1001种RNA种类来证明该复用成像方法。应当理解，这些数字仅是示例性的，而不是限制性的。这些基因的拷贝数变异和空间分布的相关分析允许我们鉴定被共调控的基因的组和在细胞内共享相似空间分布模式的基因的组。

使用误差鲁棒性编码方案的组合标记。通过多个(N)不同信号鉴定每个RNA种类的组合标记提供了快速增加可以在个体细胞中同时被探测的RNA种类数目的途径(图5A)。然而，将smFISH的通量按比例扩大到系统规模的此方法面临重大挑战，因为不仅可寻址RNA种类的数目随着N而呈指数增加，而且检测误差率也随N呈指数增加(图5B-5D)。想象一个概念上简单的方案来实现组合标记，其中每个RNA种类用N-位二进制字编码，并且样品用N个对应的杂交回合来探测，每回合仅靶向应当在对应位中读取'1'的RNA的亚组(图11)。N回合的杂交将允许探测2^N-1种RNA。只用16个杂交，就可以鉴定超过64,000种RNA种类，其应覆盖包括信使RNA(mRNA)和非编码RNA的整个人转录组(图5B；上部符号)。然而，随着N增加，适当检测的RNA的分数(调用率)将快速减少，并且更麻烦地，被鉴定为不正确种类的RNA的分数(误鉴定率)将快速增加(图5C，下面的符号；图5D，上面的符号)。通过使用每个杂交的实际误差率(下面测量的)，大多数RNA分子在16回合杂交后将被误鉴定！

为了解决该挑战，设计了误差鲁棒性编码方案，其中仅使用由某一汉明距离分开的2^N-1个字的亚组来编码RNA。在其中最小汉明距离为4(HD4码)的代码本中，必须不正确地读取至少4个位来将一个代码字改变为另一个代码字(图12A)。结果，每个单-位误差产生独特地接近单个代码字的字，这允许检测和校正此类误差(图12B)。双位误差产生来自多个代码字的具有相等的2的汉明距离的字，从而可被检测但不被校正(图12C)。这样的码应该显著增加调用率并减少误鉴定率(图5C和5D，中间符号)。为了进一步考虑在smFISH测量中相对于将背景斑点误鉴定为RNA(0-->1的误差)更可能错过杂交事件(1-->0的误差)的事实，设计修饰的HD4(MHD4)码，其中'1'位的数目保持恒定和相对低(每个字只有4个)，以减少误差并避免偏倚检测。该MHD4码应该进一步增加调用率并减少误鉴定率(图5C，上面的符号；图5D，下面的符号)。

除了误差考虑以外，几个实际的挑战也使得难以探测大量的RNA种类，诸如所需的大量荧光标记的FISH探针的高成本和完成许多个回合杂交所需的长时间。为了克服这些挑战，在本实施例中，设计两步标记方案以编码和读出细胞RNA(图5E)。首先，用一组编码探针(也称为初级探针)标记细胞RNA，每个探针包含RNA靶向序列和两个侧翼读出序列。基于RNA的MHD4代码字将N个独特的读出序列中的四个分配给每个RNA种类。其次，使用互补的FISH探针(读出探针(也称为次级探针))通过N回合的杂交和成像(每回合使用独特的读出探针)鉴定这N个读出序列。为了增加信号对背景的比率，每个细胞RNA用～192个编码探针标记。因为每个编码探针含有与该RNA相关的四个读出序列中的两个(图5E)，因此最多～96个读出探针可在每个杂交回合中结合每个细胞RNA。为了生成所需的大量编码探针，使用包括体外转录和随后逆转录的酶促扩增法，从包含数万个定制序列的阵列衍生的寡核苷酸库扩增它们(图13，关于探针合成参见下文)。该两步标记方法显著减少了用于实验的总杂交时间：发现与读出序列的高效杂交仅花费15分钟，而与细胞RNA的高效直接杂交需要超过10小时。

图5描述了MERFISH，一种使用组合标记和误差鲁棒性编码的高度复用smFISH法。图5A显示在N回合成像中鉴定多种RNA种类的示意性描述。每个RNA种类用N位二进制字编码，并且在每回合成像期间，只有应当在对应位读取'1'的RNA的亚组发射信号。图5B-5D显示了可寻址RNA种类的数目(图5B)，这些RNA被正确鉴定的比率(调用率)(图5C)和RNA被不正确地鉴定为不同RNA种类的比率(误鉴定率)(图5D)(作为编码RNA的二进制字中的位数(N)的函数绘制的)。在图5B和5D中，上面的点是包括所有2^N-1个可能的二进制字的简单二进制码；中间的点是其中分离字的汉明距离为4的HD4码；而下面的点是其中'1'位的数目保持为4的修饰的HD4(MHD4)码。这些在图5C中是反过来的。

以10％(对于1-->0的误差)和4％(对于0-->1的误差)的每位误差率计算调用和误鉴定率。图5E是用于RNA鉴定的MHD4码的实施的示意图。每个RNA种类首先用～192个编码探针标记，所述编码探针将RNA转化成读出序列(编码hyb)的独特组合。这些编码探针各自含有中央RNA靶向区，其侧接两个从N个不同序列的库中提取的读出序列，每个读出序列与特定杂交回合相关。用于特定RNA种类的编码探针包含N个读出序列中的4个的独特组合，其对应于其中该RNA应读为'1'的4个杂交回合。使用N个随后回合的利用荧光读出探针的杂交来探测读出序列(hyb 1，hyb 2，...，hyb N)。通过连续回合的杂交之间的光漂白使结合的探针失活。为了清楚起见，对于编码探针此处仅描述了读出序列的一种可能的配对；然而，4个读出序列的所有可能的对以相同的频率使用并且在实际实验中沿着每个细胞RNA随机分布。

图11显示基于简单二进制码的组合标记方法的示意性描述。在概念上简单的标记方法中，2^N-1个不同的RNA种类可用所有N位二进制字(不包括具有全部‘0’的字)独特地编码。在每个杂交回合中，包括被靶向至在对应位中具有'1'的所有RNA种类的FISH探针。为了增加区分RNA斑点与背景的能力，每个杂交回合用多个FISH探针寻址每个RNA。来自结合的探针的信号在下一回合杂交之前消失。对所有N个杂交回合(hyb 1，hyb 2，...)继续该过程，并且可通过每个杂交回合中的荧光信号的独特开-关模式来鉴定所有2^N-1个RNA种类。

图12显示汉明距离及其在误差的鉴定和校正中的用途的示意性描述。图12A是汉明距离为4的示意图。图12B和12C是显示利用4的汉明距离的编码方案校正单-位误差(图12B)或检测但不校正双位误差(图12C)的能力的示意图。箭头突出显示其上指示的字不同的位。如果字之一必须从‘1’至‘0’或从‘0’至‘1’翻转4个位以转换成另一个字，则两个代码字间隔4的汉明距离。单-位误差校正是可能的，因为如果测量的字与正确代码字相异仅一个位，则很可能是由于误读该代码字而产生的误差，因为所有其它RNA种类的代码字将与测量的字相异至少3位。在该情况下，测量的字可被校正为仅相异1位的代码字。如果测量的字与正确代码字相异2位，则该测量的字仍然可被鉴定为误差，但是校正不再可能，因为多于一个正确代码字与该测量的字相异2位。

图13显示编码探针文库的产生。将包含～100k个序列的阵列合成的复杂寡核苷酸库用作用于编码探针(用于不同实验)的酶促扩增的模板。寡核苷酸库中的每个模板序列含有可结合细胞RNA的中心靶区域、两个侧翼读出序列和两个侧翼索引引物。在第一步骤中，选择用于特定实验的所需模板分子，并用索引PCR反应进行扩增。为了允许通过体外转录进行扩增，在该步骤期间将T7启动子加入PCR产物中。在第二步骤中，通过体外转录从这些模板分子扩增RNA。在第三步骤中，将该RNA逆转录回DNA。在最后一个步骤中，通过碱性水解除去模板RNA，仅留下所需的ssDNA探针。该方案产生～2nmol的编码探针的复杂库，其含有用于140-基因实验的～20,000种不同的序列或用于1001-基因实验的～100,000种不同的序列。

实施例5

本实施例举例说明使用16位MHD4码，利用MERFISH测量140个基因。为了测试该误差鲁棒性复用成像法的可行性，本实施例对人成纤维细胞(IMR90)使用140-基因测量，使用16位MHD4码来编码130个RNA种类，同时留下10个代码字作为误鉴定对照(图20)。在每回合的与荧光读出探针的杂交后，通过利用斜入射照明几何的常规宽场成像对细胞进行成像。对应于个体RNA的荧光斑点被清楚地检测到，随后通过短暂的光漂白步骤被有效地熄灭(图6A)。在整个16回合的迭代标记和成像中，样品是稳定的。未观察到与基于来源于批量测序(bulk sequencing)的每回合中被靶向的RNA种类的相对丰度预测的变化匹配的回合间荧光斑点数的变化，并且未观察到随杂交回合数增加而系统性减少的趋势(图14A)。斑点的平均亮度在回合间变化，标准偏差为40％，这可能归因于读出探针对编码探针上的不同读出序列的不同结合效率(图14B)。只观察到斑点亮度随杂交回合增加的小的系统性减少的趋势，其为每回合平均4％(图14B)。

接着，二进制字从观察到的荧光斑点基于它们在16个杂交回合上的开-关模式构建(图6B-6D)。如果该字完全匹配140个MHD4代码字中的一个(精确匹配)或仅相异1位(可误差校正的匹配)，则将其分配给对应的RNA种类(图6D)。在图6A和6B中描绘的单个细胞内，在误差校正后检测到对应于130个编码的RNA种类中的87％的多于1500个RNA分子(图6E)。在来自7个独立实验的～400个细胞中进行类似的观察。平均而言，与误差校正前获得的值相比，在误差校正后每细胞检测到多至约4倍的RNA分子和多至约2倍的RNA种类(图15)。

在每种RNA种类的拷贝数测量中可出现两种类型的误差：1)未检测到该RNA种类的一些分子，从而导致调用率降低，以及2)来自其它RNA种类的一些分子被误鉴定为该RNA种类。为了评估误鉴定的程度，使用了10个误鉴定对照字，即与任何细胞RNA无关的代码字。虽然观察到与这些对照字的匹配，但它们发生的频率远低于真实的RNA编码字：130个RNA编码字中的95％比这些对照字的中值计数更频繁地被计数。此外，通常发现，对于实际RNA编码字，精确匹配数与具有1-位误差的匹配数的比率显著高于对于误鉴定对照观察到的相同比率，如所预期的(图16A和16B)。通过将该比率用作RNA鉴定的置信度的量度，发现130个RNA种类中的91％具有比对于误鉴定对照观察到的最大置信比更大的置信比(图6F)，表明RNA鉴定的高准确性。仅对这些91％的基因上进行后续分析。

为了评估调用率，使用MHD4码的误差校正能力来测定每个杂交回合的1-->0误差率(平均10％)和0-->1误差率(平均4％)(图16C和16D)。通过使用这些误差率，评估误差校正后个体RNA种类的约80％的调用率，即对应于RNA种类的约80％的荧光斑点被正确解码(图16E)。注意，尽管剩余20％的斑点导致检测效率的损失，但它们中的大多数没有引起种类的误鉴定，因为它们被解码为双位误差字并被丢弃。

为了测试这些测量中的潜在技术偏倚，通过混洗不同RNA种类间的代码字(图20)并改变编码探针序列，用不同的MHD4代码本探测相同的130个RNA种类。利用该替代码的测量给出了类似的误鉴定率和调用率(图17)。用这两个代码本测量的每个细胞的个体RNA种类的拷贝数显示优良的一致性，皮尔逊相关系数为0.94(图6G)，这表明编码方案的选择对测量的计数无偏倚。

为了验证从MERFISH实验得到的拷贝数，对130个基因中的15个(选自3个数量级的全测量丰度范围)进行常规smFISH测量。对于这些基因中的每一个，跨越许多细胞的平均拷贝数和拷贝数分布在MERFISH与常规smFISH测量之间定量地一致(图18A和18B)。通过这两种方法测定的拷贝数的比率为0.82+/-0.06(跨15个测量的RNA种类的平均值+/-SEM，图18B)，其与多路复用成像法的估计的80％调用率一致。该比率与估计的调用率之间在全测量丰度范围上的定量匹配另外地支持误鉴定误差低的评估。假定MERFISH与常规smFISH结果之间的一致性扩展到最低测量丰度的基因(每细胞<1拷贝，图18B)，估计测量灵敏度为每细胞至少1个拷贝。

作为最终验证，将在数百个细胞中平均的每个RNA种类的丰度与对相同细胞系进行的批量RNA测序测量获得的那些相比较。成像结果与批量测序结果显著相关，皮尔逊相关系数为0.89(图6H)。

图6显示使用利用16位MHD4码的MERFISH同时测量个体细胞中的140种RNA。图6A显示每个杂交回合(hyb 1-hyb 16)后IMR90细胞中的RNA分子的图像。光漂白(漂白1)后的图像证明杂交之间荧光信号的有效去除。图6B显示所有检测到的单分子在该着色的细胞中基于它们测量的二进制字的定位。插图：16个杂交回合的复合荧光图像，加框的具有编号的圆圈的亚区域指示潜在RNA分子。圆圈指示不可鉴定的分子，其二进制字即使在误差校正后也不匹配任何16位MHD4代码字。图6C显示图6B中的加框亚区域的来自每回合杂交的荧光图像，其中圆圈表示潜在的RNA分子。图6D显示图6C中鉴定的斑点的对应字。十字表示校正的位。图6E显示在该细胞中在没有(较低)或具有(较高)误差校正的情况下观察到的每个基因的RNA拷贝数。图6F显示针对从误鉴定对照(虚线)观察到的最大值标准化的针对130个RNA种类(左)和10个误鉴定对照字(右)测量的置信比。图6G是利用MHD4码的两个混洗代码本测量的每个细胞的每个RNA种类的平均拷贝数的散点图。皮尔逊相关系数为0.94，p值为1×10^-53。虚线对应于y＝x线。图6H是每个细胞的每个RNA种类的平均拷贝数相对于每百万读数每千碱基片段(FPKM)中的通过批量测序测定的丰度的散点图。两次测量的对数丰度之间的皮尔逊相关系数为0.89，p值为3x10^-39。

图14显示在漂白之前和之后的16回合杂交中检测到的荧光斑点的数目和平均亮度。图14A显示每个细胞在光漂白之前(更高)和之后(更低)观察到的荧光斑点的数目，作为在使用第一16位MHD4码的所有测量间平均的杂交回合的函数。光漂白使荧光斑点的数目减少两个或更多个数量级。没有较低条的杂交回合表示在漂白后未观察到分子的回合。还描述了基于源自批量RNA测序的每个杂交回合中被靶向的RNA种类的相对丰度预测的回合(循环)间荧光斑点的数目的预期变化。每个杂交的观察的与预测的斑点数之间的平均差异仅为斑点平均数的15％。该差异不随着杂交回合数增加而系统地增加。图14B显示在光漂白之前(上)和之后(下)在利用第一16位MHD4码的所有测量间平均的每个杂交回合中鉴定的荧光斑点的平均亮度。不同杂交回合间的亮度变化为40％(标准偏差)。变异模式在具有相同代码的实验之间是可重现的，这可能归因于读出探针与不同读出序列的结合效率的差异。存在亮度随着杂交回合的增加而减小的小的系统趋势，其为每回合平均4％。光漂白使荧光消失至与细胞的自发荧光相似的水平。

图15显示误差校正显著增加在个体细胞中检测到的RNA分子和RNA种类的数目。图15A显示在具有误差校正的情况下每个细胞检测到的分子的总数与在不具有误差校正的情况下所测量的数目的比率的直方图。图15B是在具有误差校正的情况下每个细胞中检测到的RNA种类的总数与在不具有误差校正的情况下检测到的RNA种类的总数的比率的直方图。针对～200个细胞测定两种比率，并且从这些比率构建直方图。

图16显示使用特定的16位MHD4码的140-基因实验的RNA种类的误鉴定率和调用率的表征。图16A示出了精确匹配对应于FLNA的代码字的测量的字的数目，其由圆的中心中的条表示，以及与FLNA的代码字相比较具有1-位误差的测量的字的数目，其由圆上的16个条表示。除未分配给任何RNA的代码字(即，误鉴定对照字)以外，图16B与图16A相同。实线将精确匹配与由1-->0的误差生成的1-位误差字连接。基于对于实际RNA编码字观察到精确匹配数目与可误差校正的匹配数目的比率通常显著高于对于误鉴定对照物观察到的相同比率，将该比率定义为用于RNA鉴定的置信比。使用该16位MHD4码对所有130个RNA种类(中心条)和未分配给任何RNA(外部条)的10个误鉴定对照字测量的置信比示于图6F中。图16C和16D显示每个杂交回合的1-->0的误差(图16C)和0-->1的误差(图16D)的平均误差率。图16E显示从1-->0和0-->1误差率估计的每个RNA种类的调用率。基于测量的丰度(其跨越3个数量级)，从左至右对基因进行排序。调用率很大程度上与基因的丰度无关。

图17显示第二16位MHD4码的误鉴定率和调用率的表征。在该第二编码方案中，将140个代码字在不同的RNA种类之间混洗，并改变编码探针序列。图17A显示对130个RNA种类(左)和未分配给任何RNA的10个误鉴定对照字(右)测量的经标准化的置信比。以与图6F中相同的方式测定标准化的置信比。图17B和17C显示了对于每个杂交回合的针对1-->0的误差(图17B)和0-->1的误差(图17C)测定的平均误差率。图17D显示从1-->0和0-->1误差率估计的针对每个RNA种类测定的调用率。基于测量的丰度从左到右对基因进行排序。

图18显示一个亚组的基因的MERFISH测量与常规smFISH结果的比较。图18A显示了分别在高、中和低丰度范围内的3个示例性基因KIAA1199、DYNC1H1和LMTK2在单个细胞中的RNA拷贝数分布。较浅的条：使用MHD4码在140-基因测量中从～400个细胞构建的分布。较深的条：在常规smFISH测量中从～100个细胞构建的分布。图18B显示在使用MHD4码的140-基因实验中测量的每个细胞的平均RNA拷贝数与通过常规smFISH针对15个基因测定的所述平均RNA拷贝数的比较。使用MHD4测量法测量的拷贝数与使用常规smFISH测量的拷贝数的平均比率为0.82+/-0.06(15个基因的平均值+/-SEM)。虚线对应于y＝x线。

图20显示用于140-基因实验的两个不同的代码本。分配给每个RNA种类的16位MHD4码的特定代码字在140-基因实验的两个混洗中进行研究。“基因”栏包含基因的名称。“代码字”栏包含分配给每个基因的特定二进制字。

实施例6

本实施例总体上涉及基因表达的细胞间变化的高通量分析。MERFISH法允许许多个体RNA种类的测量的并行化和不同RNA种类之间的共变化分析。在本实施例中，首先通过检查每个测量的基因的表达水平的细胞间变化来说明并行化方面(图7A)。为了定量测量的变化，计算所有测量的RNA种类的Fano因子(被定义为方差与平均RNA拷贝数的比率)。对于许多基因，Fano因子显著偏离1(对于简单泊松方法所预期的值)，并显示出随平均RNA丰度增加的趋势(图7B)。随平均RNA丰度增加Fano因子的这种趋势可以通过转录速率和/或启动子关闭转换速率的变化而不是启动子打开速率的变化来解释。

此外，几种RNA种类被鉴定为具有比该平均趋势大得多的Fano因子。例如，发现SLC5A3、CENPF、MKI67、TNC和KIAA1199显示显著高于以相似丰度水平表达的其它基因的Fano因子值的Fano因子值。这些基因中的一些的高变异性可通过它们与细胞周期的关联来解释。例如，这些特别“嘈杂的”基因中的两个基因MKI67和CENPF被注释为细胞周期相关基因，并且基于它们的双峰表达(图7C)，据信它们的转录受细胞周期强烈调控。其它高可变性基因未显示相同的双峰表达模式，并且未知与细胞周期有关。

分析不同基因的表达水平的共变化可揭示哪些基因被共调控和阐明基因调控途径。在群体水平上，这种分析通常需要应用外部刺激来驱动基因表达变化；因此，可在共享受刺激影响的共同调控元件的基因中观察相关的表达变化。在单细胞水平，可利用基因表达中的自然随机波动来进行这样的分析，并且因此可研究多个调控网络，而不必单独刺激它们中的每一个。这种共变化分析可以限制调控网络，提出新的调控途径，并基于与共变基因的关联预测未注释基因的功能。

将此方法应用于140-基因测量和～10,000个两两相关系数，其描述如何检查细胞间共变化的每对基因的表达水平。许多高度可变的基因显示出紧密相关或反相关的变化(图7C)。为了更好地理解所有基因对的相关性，采用层次聚类方法来基于它们的相关系数组织这些基因(图7D)。从簇树结构中，鉴定了具有显著相关的表达模式的7组基因(图7D)。在7个组中的每个组中，每个基因显示出与该组外的基因相比显著更强的与该组的其它成员的平均相关性。为了进一步验证和理解这些组，鉴定了在这7个组中的每一个中富集的基因本体论(GO)项。值得注意的是，每个组内富集的GO项共享相似的功能，并且对于每个组是大体上独特的(图7E)，从而验证所观察到的表达的共变化反映了这些基因的调控中的一些共同性的概念。

本实施例将这些组中的两个组描述为举例说明性实例。与组1相关的主要GO项是与细胞外基质(ECM)相关的项(图7D和7E)。该组的值得注意的成员包括ECM组分，诸如FBN1、FBN2、COL5A、COL7A和TNC，以及连接ECM与细胞膜的糖蛋白，诸如VCAN和THBS1。该组还包括未注释的基因KIAA1199，其可基于其与该簇的关联性预测在ECM代谢中起作用。事实上，该基因最近已被鉴定为参与透明质酸(ECM的主要糖组分)的调控的酶。

组6包含许多编码囊泡转运蛋白和与细胞运动性相关的蛋白质的基因(图7D和7E)。囊泡转运基因包括微管马达和相关基因DYNC1H、CKAP1以及与囊泡形成和运输相关的因子如DNAJC13和RAB3B。再一次，在该簇内发现未注释的基因KIAA1462。基于其与DYNC1H1和DNAJC13的强相关性，预测该基因可能参与囊泡转运。该组中的细胞运动性基因包括肌动蛋白结合蛋白如AFAP1、SPTAN1、SPTBN1和MYH10，以及参与粘附复合物形成的基因，如FLNA和FLNC。几个参与细胞运动、附着和收缩的调控的GTP酶相关因子也落入该组，包括DOCK7、ROCK2、IQGAP1、PRKCA和AMOTL1。一些细胞运动基因与囊泡运输基因相关的观察结果与囊泡转运在细胞迁移中的作用一致。组6的另一个令人感兴趣的特征是这些基因的亚组(特别是与细胞运动性相关的那些基因)与上文论述的ECM组的成员反相关(图7D)。该反相关性可以反映介导细胞在粘附状态与迁移状态之间的转换的调控相互作用。

图7显示从140-基因测量测定的RNA种类的细胞间变化和成对相关性。图7A显示两个个体细胞中的基因表达水平的比较。图7B显示个体基因的Fano因子。误差条表示从7个独立数据集测定的平均值的标准误差。图7C显示4对示例性基因的表达变化的Z-评分，该评分显示100个随机选择的细胞的相关(上面的两个)或反相关(下面的两个)变化。Z-评分被定义为与通过标准偏差标准化的平均值的不同。图7D是与层次聚类树一起显示的测量的基因的表达的细胞间变化的两两相关系数的矩阵。通过簇树上的特定阈值(虚线)鉴定的7个组由矩阵中的黑框和树上的线表示，树上的灰线指示未分组的基因。可对簇树进行不同的阈值选择来选择具有更紧密相关性的较小亚组或包含更弱地偶联的亚组的更大的超组。在右侧扩大7个组中的两个组。图7E显示在7个组中富集30个选择的统计学上显著富集的GO项。富集是指具有特定GO项的组内的基因的分数与具有该项的所有测量的基因的分数的比率。并非此处提供的所有GO项都位于前10列表中。

实施例7

本实施例举例说明映射RNA的空间分布。作为基于成像的方法，MERFISH还允许同时研究许多RNA种类的空间分布。从个体基因的目视检查出现几种模式，一些RNA转录物富集在核周区域，一些富集在细胞周围，并且一些散布在整个细胞中(图8A)。为了鉴定具有相似空间分布的基因，测定了所有RNA种类对的空间密度分布的相关系数，并且再次使用层次聚类法基于成对相关性组织这些RNA。相关系数矩阵显示具有相关空间组织的基因的组，并且具有最强相关性的两个最显著的组示于图8B中。组I的RNA在核周区域出现富集，而组II的RNA在细胞周围区域附近出现富集(图8C)。每个RNA分子与细胞核或细胞周边之间的距离的定量分析确实证实了这种视觉印象(图8D)。

组I含有编码胞外蛋白诸如FBN1、FBN2和THSB1、分泌型蛋白诸如PAPPA以及膜内在蛋白诸如LRP1和GPR107的基因。这些蛋白质在功能上没有明显的共性。相反，GO分析显示对于位置项诸如细胞外区域、基底膜或卵黄周空间的显著富集(图8E)。为了到达这些位置，蛋白质必须通过分泌途径，这通常需要mRNA在内质网(ER)上的翻译。因此，据信观察到的这些mRNA的空间模式反映了它们在ER上的共翻译富集。这些mRNA在粗糙ER所在的核周区域(图8C和8D，较浅的阴影)中的富集支持该结论。

组II含有编码肌动蛋白结合蛋白的基因，包括细丝蛋白FLNA和FLNC、踝蛋白TLN1和血影蛋白SPTAN1和SPTBN1；微管结合蛋白CKAP5；和动力蛋白MYH10和DYNC1H1。该组富含GO项诸如皮质肌动蛋白细胞骨架、肌动蛋白丝结合以及细胞-细胞粘附连接(图8E)。β-肌动蛋白mRNA可在成纤维细胞中的细胞周围附近富集，编码肌动蛋白结合性Arp2/3复合物的成员的mRNA亦富集在成纤维细胞中的细胞周围。在细胞周围区域中的组II mRNA的富集(图8C和8D)表明组II基因的空间分布可能与肌动蛋白细胞骨架mRNA的分布有关。

图8显示在140-基因测量中观察到的RNA的不同空间分布。图8A显示在细胞中对四种不同的RNA种类观察到的空间分布的实例。图8B是与层级聚类树一起显示的描述与每个基因对的空间分布相关的程度的两两相关系数的矩阵。两个强相关组由矩阵上的黑框和树上的阴影指示。图8C显示两个示例性细胞中的该两组中所有RNA的空间分布。较浅的符号：组I基因；较暗的符号：组II基因。图8D显示针对所有基因的平均距离标准化的组I中的基因和组II中的基因到细胞边缘或细胞核的平均距离。误差条表示跨7个数据集的SEM。图8E显示两个组中的每一组中的GO项的富集。

实施例8

本实施例举例说明用14位MHD2码测量1001个基因。本实施例通过同时对～1000个RNA种类进行成像来进一步增加MERFISH测量的通量。可通过将每个代码字的位数增加至32而同时将每个字的“1”位的数目保持为4来利用MHD4码实现该增加(图5B)。虽然样品在许多杂交回合中的稳定性(图14)表明这样的扩展是潜在可行的，但此处显示了一种替代方法，其不需要通过放宽误差校正要求来增加杂交数目，而是保持误差检测能力。例如，通过将汉明距离从4减少至2，可使用包含四个'1'位的所有14-位字来编码1001个基因，并且这些RNA仅用14回合杂交来进行探测。然而，因为单个误差可产生同等地接近两个不同代码字的字，因此对于此修改的汉明距离-2(MHD2)码不再可能进行误差校正。因此，预期调用率将较低，并且使用此编码方案的误鉴定率较高。

为了评估此14位MHD2码的性能，将1001个可能的代码字中的16个留作误鉴定对照，并使用剩余的985个字来编码细胞RNA。在这985个RNA中包括在140-基因实验中探测的107个RNA种类作为另外的对照。使用与上述相似的方法在IMR90细胞中进行1001-基因实验。为了允许从单个100,000-成员的寡核苷酸库合成所有编码探针，将每个RNA种类的编码探针的数目减少至～94。在与读出探针的每回合杂交中再次检测到对应于个体RNA分子的荧光斑点，并且基于它们的开-关模式，将这些斑点解码为RNA(图9A、19A和19B)。在图9所示的细胞中检测到430个RNA种类，并在3个独立实验中于～200个成像的细胞中获得相似的结果。

如所预期的，此方案的误鉴定率高于MHD4码的误鉴定率。77％的所有真实RNA字被检测的频率高于误鉴定对照的中值计数(而非在MHD4测量中观察到的95％的值)。通过使用与上述相同的置信比分析，发现以大于对于误鉴定对照观察到的最大值的置信比测量了985个RNA种类的73％(而不是对于MHD4测量的91％)(图19C)。从这些73％的RNA种类测量的RNA拷贝数显示与批量RNA测序结果的优良相关性(皮尔逊相关系数r＝0.76；图9B，黑色)。值得注意的是，剩余的27％的基因仍然表现出与批量RNA测序数据的良好(虽然较低)的相关性(r＝0.65；图9B，红色)，但是采用从进一步分析中排除它们的保守测量。

误差校正能力的缺乏也降低了每种RNA种类的调用率：当比较1001-基因和140-基因测量中共有的107个RNA种类时，发现这些RNA种类的每个细胞的拷贝数在1001-基因测量中较低(图9C和19D)。每个细胞的这些RNA的总计数是在140-基因测量中观察到的总数的～1/3。因此，在MHD2码中的误差校正的缺乏产生～3倍的调用率减少，这与当不应用误差校正时对于MHD4码观察到的调用率的～4倍减少一致。如从140-基因测量与常规smFISH结果之间的定量一致所预期的，1001-基因测量与10个RNA种类的常规smFISH结果的比较也表明调用率下降至约1/3(图18C)。尽管存在调用率的预期降低，但在1001-基因测量中观察到的拷贝数与在140-基因测量中以及在常规smFISH和批量RNA测序测量中观察到的拷贝数之间发现的良好相关性表明这些RNA的相对丰度可以用MHD2编码方案来进行定量。

对个体细胞中的～1000个基因同时成像显著扩大了检测被共调控的基因的能力。图10A显示从这些基因的表达水平中的细胞间变化测定的两两相关系数的矩阵。通过使用与上述相同的层次聚类分析，鉴定了～100组具有相关表达的基因。惊人地，几乎所有这～100组显示功能上相关的GO项的统计学显著的富集(图10B)。这些包括在140-基因测量中鉴定的一些组，诸如与细胞复制基因相关的组和与细胞运动性基因相关的组(图10A和10B，组7和102)，以及许多新的组。此处鉴定的组包括缺乏任何先前的GO注释的46个RNA种类，对于所述RNA种类，可假设基于它们的组关联性的功能。例如，KIAA1462是细胞运动性组的一部分，也如140-基因实验中显示的，表明该基因在细胞运动性中的潜在作用(图10A，组102)。同样，KIAA0355是在与心脏发育相关的基因中富集的新组的一部分(图10A，组79)，C17orf70是与核糖体RNA加工相关的组的一部分(图10A，组22)。通过使用这些分组，可以假设61个转录因子和其它未知功能的部分注释蛋白质的细胞功能。例如，转录因子Z3CH13和CHD8均为细胞运动性组的成员，表明它们在细胞运动性基因的转录调控中的潜在作用。

图9显示使用利用14位MHD2码的MERFISH同时测量单个细胞中的1001个基因。图9A显示基于其测量的二进制字的所有检测到的单分子在着色的细胞中的定位。插图：针对具有指示潜在RNA分子的编号的圆圈的加框的亚区域的14个杂交回合的复合假色荧光图像。圆圈表示不可鉴定的分子，其二进制字与14位MHD2代码字中的任何一个不匹配。个体杂交回合的图像示于图19A中。图9B是在1001-基因实验中测量的每个细胞的平均拷贝数相对通过批量测序测量的丰度的散点图。上面的符号是用于73％的以高于对于误鉴定对照观察到的最大比率的置信比检测的基因。皮尔逊相关系数为0.76，p值为3×10^-133。下面的符号是用于剩余的27％的基因。皮尔逊相关系数为0.65，p值为3x10^-33。图9C是在利用MHD2码的1001-基因测量和利用MHD4码的140-基因测量中共享的107个基因的平均拷贝数的散点图。皮尔逊相关系数为0.89，p值为9×10^-30。虚线对应于y＝x线。

图10显示在1001-基因测量中测量的RNA种类的共变化分析。图10A是用层次聚类树显示的测量的基因的表达的细胞间变化的所有两两相关系数的矩阵。相关基因的～100个鉴定的组由树上的阴影指示。文本中描述的组中的4个组的放大示于右侧。图10B是4个组中20个选择的统计学上显著富集的GO项的富集。

图19显示1001-基因实验的解码和误差评估。图19A显示对于14个杂交回合的每一个的图9A中的细胞的加框的亚区域的图像。最后的图是这14回合的合成图像。圆圈表示已被鉴定为潜在RNA分子的荧光斑点。合成图像中的一些圆圈表示不可鉴定的分子，其二进制字不与任何14位MHD2代码字匹配。图9B显示图9A中鉴定的每个斑点的对应的二进制字以及其被解码成的RNA种类。“未鉴定的”意味着测量的二进制字与1001个代码字中的任何一个不匹配。图19C显示对于985个RNA种类(左)和未被靶向至任何RNA的16个误鉴定对照字(右)测量的标准化的置信比。标准化的置信比是如图6F中定义的。图19D显示存在于1001-基因实验和140-基因实验中的107个基因的检测的丰度的降低的直方图。“拷贝数的倍数减少”被定义为在140-基因实验中测量的每个种类的每个细胞的RNA分子的平均数除以在1001-个基因实验中测量的对应的平均数。

图18C是使用MHD2码的1001-基因实验中测量的每个细胞的平均RNA拷贝数与通过常规smFISH测定的10个基因的所述平均RNA拷贝数的比较。使用MHD2测量法测量的拷贝数与使用常规smFISH测量的所述拷贝数的平均比率为0.30+/-0.05(10个基因的平均值+/-SEM)。虚线对应于y＝x线，点线对应于y＝0.30x线。

实施例9

上述实施例举例说明了用于单细胞中系统水平RNA成像的高度多路复用的检测方案。通过使用组合标记、序贯杂交和成像以及两种不同的误差鲁棒性编码方案，可对数百个个体人成纤维细胞中的140个或1001个基因同时成像。在此处给出的两种编码方案当中，MHD4码能够进行误差检测和误差校正，因此可以提供比MHD2码更高的调用率和更低的误鉴定率，而MHD2码只能检测但不能校正误差。另一方面，MHD2提供比MHD4更快的利用位数的多路复用度的缩放。其它误差鲁棒性编码方案也可用于这种多路复用成像，并且实验者可以基于实验的具体要求来设置检测精度与多路复用的容易性之间的平衡。

通过增加代码字中的位数，应该可能使用利用例如MHD4或MHD2码的MERFISH来进一步增加可检测的RNA种类的数目。例如，使用具有32个总位以及4个或6个'1'位的MHD4码可分别将可寻址RNA种类的数目增加至1,240或27,776。后者是人转录组的近似规模。预测的误鉴定率和调用率对于32位MHD4码仍然是合理的(对于具有4个“1”位的MHD4码，如图5C和5D所示，并且对于具有6个“1”位的MHD4码计算出相似的比率)。如果需要更精确的测量，则位数的额外增加将允许使用具有大于4的汉明距离的编码方案，从而进一步增强了误差检测和校正能力。虽然通过添加更多杂交回合来增加位数将增加数据收集时间并可能导致样品降解，但这些问题可通过在每回合杂交中利用多种颜色读出多个位来减轻。

随着复用度的增加，重要的是考虑在每回合成像中需要解析的RNA的密度的潜在增加。基于成像和测序结果，可以估计，包括IMR90细胞的整个转录组将导致～200个分子/微米³的总RNA密度。通过使用当前的成像和分析方法，每个杂交回合可以解析2-3个分子/微米³，其将在32回合杂交后达到～20个分子/微米³的总RNA密度。该密度应该允许除了前10％最多表达的基因之外的所有基因同时成像，或者包括具有甚至更高表达水平的基因的亚组。通过利用更先进的图像分析算法来更好地解析个体分子的重叠图像，诸如压缩感测，有可能将可分辨密度扩展～4倍，从而允许除了前2％的最大表达基因之外的所有基因全部一起成像。

这些实施例已通过使用共变化和相关分析揭示RNA的不同亚细胞分布模式、约束基因调控网络以及预测许多以前未注释或部分注释的具有未知功能的基因的功能来举例说明来源于高度复用RNA成像的数据的功效。鉴于其在无扩增偏倚的情况下在宽范围的丰度上定量RNA同时保留天然环境的能力，系统和方法诸如MERFISH将允许培养物或复杂组织中的个体细胞的原位转录组分析的许多应用。

实施例10

以下是在上述实施例中使用的各种材料和方法。

探针设计。给靶标组中的每个RNA种类随机分配来自16位MHD4码的所有140个可能代码字或来自14位MHD2码的所有1001个可能代码字的二进制代码字。

阵列合成的寡核苷酸库用作模板以制备编码探针。每个编码探针的模板分子包含3个组分：i)用于与靶RNA原位杂交的中心靶向序列，ii)设计来与两种不同的读出探针中的每一种杂交的两个侧翼读出序列，和iii)允许探针的酶促扩增的两个侧翼引物序列(图13)。读出序列取自16个可能的读出序列，每个读出序列对应于一个杂交回合。读出序列被分配至编码探针，以使得对于任何RNA种类，4个读出序列中的每一个沿着靶RNA的长度均匀分布并且以相同的频率出现。140-基因文库的模板分子还包括在第一PCR引物与第一读出序列之间的共同的20个核苷酸(nt)的引发区。该引发序列用于下述的逆转录步骤。

将多个实验嵌入单阵列合成的寡核苷酸库中，并且使用PCR仅选择性扩增特定实验所需的寡核苷酸。从一组正交的25-nt序列生成用于该索引PCR反应的引物序列。将这些序列修剪至20nt并就以下进行选择：i)窄的解链温度范围(70℃至80℃)，ii)不存在3个或更多个相同核苷酸的连续重复，以及iii)存在GC夹，即两个3'末端碱基中的一个必须是G或C。为了进一步提高特异性，随后使用BLAST+针对人转录组筛选这些序列，并消除具有14个或更多个连续碱基同源性的引物。最后，再次使用BLAST+来鉴定和排除在任何其它引物的3'端具有11-nt同源性区域或在T7启动子的3'端具有5-nt同源性区域的引物。如上所述测定正向引物序列(引物1)，而反向引物各自含有如上所述的20-nt序列加上20-nt T7启动子序列以促进通过体外转录的扩增(引物2)。在140-基因和1001-基因实验中使用的引物序列列于下面。

表2

通过串接上述产生的相同正交引物组的片段(通过将一个20-nt引物与另一个的10-nt片段组合)来生成30-nt长的读出序列。随后使用BLAST+筛选这些读出序列的与索引引物序列和其它读出序列的正交性(不超过11nt的同源性)和在人基因组中的潜在脱靶结合位点(不超过14nt的同源性)。使用具有与读出序列互补的序列的荧光标记的读出探针来探测这些读出序列，在每个杂交回合中探测一个读出序列。所有使用的读出探针序列列于下面。

表3

用于140-基因文库的读出探针是探针1至16。用于1001-基因实验的读出探针是探针1至14。/3Cy5Sp/表示3'Cy5修饰。

为了设计编码探针的中心靶向序列，遵照使用Cufflinks v2.1的IMR90细胞中不同转录物的丰度、来自ENCODE项目的总RNA数据和来自Gencode v18的人类基因组注释。使用具有以下约束的OligoArray2.1，从对应于最丰富的同种型的基因模型设计探针：靶序列区域的长度为30-nt；探针和细胞RNA靶标的杂交区域的解链温度大于70℃；在解链温度大于72℃时不存在交叉杂交靶标；在解链温度大于76℃时不存在预测的内部次级结构；以及不存在6个或更多个相同核苷酸的连续重复。调整解链温度以优化这些探针的特异性并使次级结构最小化，同时仍然产生足够数目的用于文库的探针。为了降低计算成本，将同种型分成1-kb区域以用于探针设计。通过使用BLAST+，拒绝映射至不止一个细胞RNA种类的所有潜在探针。保留在同一RNA上具有多个靶的探针。

对于140-基因实验中的每个基因，通过串接合适的索引引物、读出序列和靶向区域来产生198个推定的编码探针序列，如图13所示。为了解决这些序列的串接引入具有与脱靶RNA的同源性的新区域的可能性，使用BLAST+来针对所有人rRNA和tRNA序列以及高表达基因(FPKM>10,000的基因)筛选这些推定序列。除去与rRNA或tRNA具有大于14nt的同源性或与高度表达的基因具有大于17nt的同源性的探针。在这些切除之后，对于140-基因实验中使用的两个MHD4代码本，每个基因存在～192个(标准偏差为2)探针。如下使用用于1001-基因实验的相同方案：从每个基因的96个推定的靶向序列开始，在这些额外的同源性切除之后，获得每个基因～94个(标准偏差为6)编码探针。对于1001-基因实验，减少每种RNA的编码探针数目，以使得这些探针可从单个100,000-成员寡核苷酸库而非两个分开的库合成。每个编码探针被设计来包含与每个代码字相关的4个读出序列中的两个，因此在任何给定的杂交回合中，仅一半的结合的编码探针可以结合读出探针。使用每种RNA～192或～94个编码探针来获得个体RNA分子的高信号-背景比。每种RNA的编码探针的数目可被显著减少，但仍允许鉴定单个RNA分子。另外，增加每个编码探针的读出序列的数目或使用光学切片方法以减少荧光背景可允许进一步减少每种RNA的编码探针的数目。

设计了两种类型的误鉴定对照。第一对照(空白字)没有用编码探针表示。第二类型的对照(无靶标字)具有不靶向任何细胞RNA的编码探针。这些探针的靶向区域包含经受用于设计上述RNA靶向序列的相同约束的随机核苷酸序列。此外，针对人转录组筛选这些随机序列，以确保它们对任何人RNA不具有显著的同源性(>14-nt)。140-基因测量包含5个空白字和5个无靶标字。1001-基因测量包含11个空白字和5个无靶标字。

探针合成。编码探针使用以下步骤合成，并且在图13中举例说明该合成方案。

步骤1：使用特异于所需探针组的引物序列，在Bio-Rad CFX96上通过有限循环PCR扩增模板寡核苷酸库(CustomArray)。为了促进通过体外转录的随后扩增，反向引物包含T7启动子。所有引物均通过IDT合成。将该反应物进行柱纯化(Zymo DNA Clean andConcentrator；D4003)。

步骤2：随后按照制造商的说明书(New England Biolabs,E2040S)，将纯化的PCR产物进一步扩增～200倍并通过高产率的体外转录转化成RNA。每个20微升反应物含有～1微克来自上述的模板DNA、10mM的每种NTP、1x反应缓冲液、1x RNA酶抑制剂(PromegaRNasin,N2611)和2微升的T7聚合酶。将该反应物在37℃下温育4小时以最大化产率。在下列步骤之前不纯化该反应物。

步骤3：随后通过逆转录反应将来自上述体外转录反应的RNA产物转化回DNA。每个50微升反应物含有来自步骤2的未纯化的RNA产品，其补充有1.6mM的每种dNTP、2nmol的逆转录引物、300单位的Maxima H逆转录酶(Thermo Scientific,EP0751)、60单位的RNasin和最终1x浓度的Maxima RT缓冲液。将该反应物在50℃温育45分钟，并将逆转录酶在85℃灭活5分钟。140-基因文库的模板含有用于该逆转录步骤的共同引发区；因此，当生成这些探针时，将单个引物用于该步骤。其序列为CGGGTTTAGCGCCGGAAATG(SEQ ID NO:40)。对于1001-基因文库，不包括共同的引发区；因此，用正向引物：CGCGGGCTATATGCGAACCG(SEQ ID NO:20)进行逆转录。

步骤4：为了除去模板RNA，将20微升0.25M EDTA和0.5N NaOH添加至上述反应中以选择性水解RNA，并将样品在95℃下温育10分钟。随后立即使用100微克容量柱(ZymoResearch,D4030)和Zymo Oligo Clean and Concentrator方案通过柱纯化来纯化该反应物。将最终的探针在100微升不含RNA酶的去离子水中洗脱，在真空浓缩器中蒸发，随后重悬于10μL编码杂交缓冲液(见下文)中。将探针于-20℃储存。使用变性聚丙烯酰胺凝胶电泳和吸收光谱来确认探针的质量，并且揭示该探针合成方案将90-100％的逆转录引物转化为全长探针，并且在构建的探针中，70-80％在纯化步骤期间被回收。

荧光标记的读出探针具有与上文描述的读出序列互补的序列和附接在3'末端的Cy5染料。这些探针获自IDT并经HPLC纯化。

样品制备和利用编码探针的标记。将人原代成纤维细胞(美国典型培养物保藏中心，IMR90)用于此项工作。这些细胞相对大且扁平，便于宽视场成像，而无需光学切片。用伊格尔最低必需培养基培养细胞。将细胞以350,000个细胞/盖玻片接种在22-mm，#1.5盖玻片(Bioptechs，0420-0323-2)上，并在37℃下用5％CO₂在陪替氏培养皿中温育48-96小时。将细胞在室温下于1x磷酸缓冲盐水(PBS；Ambion,AM9625)中的4％多聚甲醛(ElectronMicroscopy Sciences,15714)中固定20分钟，用0.1％w/v硼氢化钠(Sigma,480886)水溶液还原5分钟以减少背景荧光，用冰冷的1x PBS洗涤三次，在室温下用在1x PBS中的0.5％v/vTriton(Sigma,T8787)透化2分钟，并用冰冷的1x PBS洗涤三次。

将细胞在包含2x盐水-柠檬酸钠缓冲液(SSC)(Ambion,AM9763)、30％v/v甲酰胺(Ambion,AM9342)和2mM氧钒核糖核苷复合物(NEB,S1402S)的编码洗涤缓冲液中温育5分钟。向含有细胞的盖玻片加入10微升的编码杂交缓冲液中的100微摩尔(140-基因实验)或200微摩尔(1001-基因实验)编码探针，并通过将另一个盖玻片放置在样品顶部来将其均匀铺展。随后将样品在37℃杂交炉内的湿室中温育18-36小时。编码杂交缓冲液包含补充有1mg/mL酵母tRNA(Life Technologies,15401-011)和10％w/v硫酸葡聚糖(Sigma,D8906-50G)的编码洗涤缓冲液。

随后用初级编码洗涤缓冲液洗涤细胞，在47℃温育10分钟，并重复该洗涤共三次。将在2xSSC中的0.2微米直径的羧酸酯修饰的橙色荧光珠(Life Technologies,F-8809)的1:1000稀释物超声处理3分钟，随后与样品温育5分钟。将珠用作基准标志物以对齐从多个连续回合的杂交获得的图像，如下所述。将样品用2xSSC洗涤一次，随后在室温下用2×SSC中的4％v/v多聚甲醛后固定30分钟。随后将样品用2xSSC洗涤三次，并立即成像或在成像前在4℃下储存不长于12小时。将所有溶液制备为不含RNA酶。

利用多个连续回合杂交的MERFISH成像。将样品盖玻片装配至Bioptech的FCS2流动室中，并且通过由三个计算机控制的8通阀(Hamilton,MVP和HVXM 8-5)和计算机控制的蠕动泵(Rainin,Dynamax RP-1)组成的自制流体系统控制通过该室的流动。将样品在围绕Olympus IX-71主体和1.45NA、100x油浸物镜构造的并配置来用于斜入射激发的自制显微镜上成像。使用Bioptechs物镜加热器将物镜加热至37℃。使用自制自动对焦系统在整个成像过程中保持恒定的对焦。使用分别用于激发Cy5标记的读出探针、基准珠和核复染剂的固态激光器(MPB通信，VFL-P500-642；Coherent,561-200CWCDRH；和Coherent，1069413/AT)在641nm、561nm和405nm提供照明。将这些线与定制的二向色(Chroma,zy405/488/561/647/752RP-UF1)组合，并用定制的二向色(Chroma,ZET405/488/561/647-656/752m)过滤发射。使用二向色T560lpxr、T650lpxr、750dcxxr(Chroma)和发射滤光片ET525/50m、WT59550m-2f、ET700/75m、HQ770lp(Chroma)，利用QuadView(Photometrics)分离荧光，并用EMCCD照相机(Andor,iXon-897)成像。这样配置相机，以使得像素对应于样品平面中的167nm。整个系统是完全自动化的，从而使得能够在无需用户干预的情况下对整个实验进行成像和流体处理。

序贯杂交、成像和漂白如下进行。将1mL的读出杂交缓冲液(2xSSC；10％v/v甲酰胺；10％w/v硫酸葡聚糖和2mM氧钒核糖核苷复合物)中的10nM的合适的荧光标记的读出探针流过样品，停止流动，并将样品温育15分钟。随后将2mL读出洗涤缓冲液(2xSSC，20％v/v甲酰胺；和2mM氧钒核糖核苷复合物)流过样品，停止流动，将样品温育3分钟。将2mL包含2xSSC、50mM TrisHCl pH 8、10％w/v葡萄糖、2mM Trolox(Sigma-Aldrich,238813)、0.5mg/mL葡萄糖氧化酶(Sigma-Aldrich,G2133)和40微克/mL过氧化氢酶(Sigma-Aldrich，C30)的成像缓冲液流过样品。随后停止流动，随后将约75至100个区域暴露于～25mW 642-nm和1mW的561-nm光并成像。每个区域为40微米×40微米。在显微镜后端口测量激光功率。因为成像缓冲液对氧气敏感，所以在实验开始时新鲜制备用于单个实验的～50mL成像缓冲液，随后在整个测量过程中将其储存在一层矿物油下方。以该方式储存的缓冲液稳定超过24小时。

成像后，读出探针的荧光通过光漂白消除。用2mL光漂白缓冲液(2xSSC和2mM氧钒核糖核苷复合物)洗涤样品，并将样品的每个成像区域暴露于200mW的641-nm光，持续3秒。为了确认该光漂白处理的功效，再次引入成像缓冲液，并且如上所述对样品成像。

对于使用MHD4码的140-基因测量重复上述杂交、成像和光漂白过程16次，或对于使用MHD2码的1001-基因测量重复所述过程14次。整个实验通常在～20小时内完成。

在成像完成后，将2mL的2×SSC中的Hoescht(ENZ-52401)的1:1000稀释物流过该室以标记细胞的细胞核。随后立即用2mL的2×SSC，随后用2mL的成像缓冲液洗涤样品。随后将样品的每个区域再次用～1mW的405nm光成像。

因为细胞使用利用斜入射照明的宽场成像进行成像而无光学切片和z扫描，所以使用常规smFISH对6个不同RNA种类定量成像几何结构的轴向范围之外的个体RNA种类的分数。为此目的，通过在通过细胞的整个深度的不同焦深处收集图像的堆叠，对这些细胞进行光学切片。将图像在连续的焦平面中对齐，随后为每个细胞计算在三维堆叠中检测的但不在基本焦平面中检测到的RNA的分数。发现只有小部分，15％+/-1％(跨6个不同的RNA种类的平均值+/-SEM)的RNA分子在没有z扫描的固定焦平面的成像范围之外。这些测量还证实，激发几何结构照射细胞的完整深度。可在MERFISH中采用任何光学切片技术来允许在较厚的细胞或组织中对RNA进行成像。

测量的字的构建。使用多高斯拟合算法(推定具有167nm的均匀宽度的高斯)，在每个图像中鉴定和定位荧光斑点。该算法用于允许区分和分别拟合部分重叠的斑点。通过设置使用该软件拟合斑点所需的强度阈值，将RNA斑点与背景信号(即由非特异性结合的探针产生的信号)区分开来。由于杂交回合之间的斑点亮度的变化，对每个杂交回合适当地调整该阈值，以使所有杂交回合中的1-->0和0-->1误差率的组合平均值最小化(140-基因测量)，或使具有4个“1”位的测量的字的数目与具有3个或5个“1”位的测量的字的数目的比率最大化(1001-基因测量)。使用更快的单高斯拟合算法在每个帧中鉴定基准珠的位置。

通过旋转和平移图像以对齐同一图像内的两个基准珠(所述两个基准珠在通过图像相关性的粗初始对齐之后在位置上最相似)来记录不同回合杂交中的同一样品区域的图像。将所有图像与由在第一回合杂交中收集的图像建立的坐标系对齐。从5个另外的基准珠之间的残留距离测定该对齐的质量，对齐误差通常为～20nm。

如果斑点之间的距离小于1个像素(167nm)，则将不同杂交回合中的荧光斑点连接至对应于潜在RNA分子的单个串中。对于每个斑点串，所有杂交回合中的荧光信号的开-关序列用于给潜在的RNA分子分配二进制字，其中'1'被分配给含有高于阈值的荧光信号的杂交回合，'0'被分配给其它杂交回合。随后使用上述16位MHD4码或14位MHD2码将测量的字解码为RNA种类。在16位MHD4码的情况下，如果测量的二进制字与特定RNA的代码字完全匹配或与所述代码字相异一个单一位，则将其分配给该RNA。在14位MHD2码的情况下，只有当测量的二进制字与特定RNA的代码字完全匹配时，才将其分配给该RNA。为了测定每个细胞的拷贝数，在每个40微米×40微米成像区域内的个体细胞中计数每个RNA种类的数目。注意，该数目占细胞内的大多数但不是所有RNA分子，因为细胞的一部分可以在成像区域或焦深之外。可采用相邻区域和相邻焦平面的平铺图像来提高计数精度。

在140-基因实验中，细胞核的一些区域偶尔含有太多的荧光信号以至不能正确地鉴定个体RNA斑点。在1001-基因实验中，细胞核通常含有太多的荧光信号以至于不能允许鉴定个体RNA分子。这些亮区被排除在所有随后的分析之外。该工作侧重于富集在细胞质中的mRNA。为了估计通过排除核区域遗失的mRNA的分数，使用常规smFISH来定量在核内部发现的6个不同mRNA种类的分子分数。发现在核中仅发现5％+/-2％(跨6个RNA种类的平均值+/-SEM)的这些RNA分子。超分辨率成像和/或光学切片的使用可能允许鉴定这些致密核区中的个体分子，这对于探测那些富集在核中的非编码RNA特别有用。

个体基因的smFISH测量。每种RNA的48个荧光标记的(Quasar 670)寡核苷酸探针的库购自Biosearch Technologies。直接从用于多路复用测量的靶向区域的随机亚组获取30-nt的探针序列。如上所述固定和透化细胞。将10微升编码杂交缓冲液(如上所述)中的250nM寡核苷酸探针添加至含细胞的盖玻片上，并通过在样品顶部放置另一个盖玻片将其均匀铺展。随后将样品在37℃杂交炉内的湿室中温育18小时。随后用编码洗涤缓冲液(如上所述)在37℃下洗涤细胞10分钟，并重复该洗涤共三次。随后将样品用2xSSC洗涤三次并使用与上文针对MERFISH所述的相同的成像几何学在成像缓冲液中成像。

批量RNA测序(Bulk RNA sequencing)。使用Zymo Quick RNA MiniPrep试剂盒(R1054)，按照制造商的说明书从如上培养的IMR90细胞中提取总RNA。随后选择polyA RNA(NEB；E7490)，并使用NEBNext Ultra RNA文库制备试剂盒(NEB；E7530)构建测序文库，用定制的寡核苷酸进行扩增，从MiSeq获得150-bp的读数。将这些序列与人基因组(Gencodev18)比对，并用cufflinks计算同种型丰度。

不同编码方案的预测缩放和误差属性的计算。针对可能的代码字的数目、调用率和误鉴定率对N的依赖性导出分析表达式。调用率被定义为被正确鉴定的RNA分子的分数。误鉴定率定义为被误鉴定为错误RNA种类的RNA分子的分数。对于具有误差检测能力的编码方案，调用率和误鉴定率加起来达不到1，因为未被正确调用的分子的分数可被检测为误差并被弃去，因此不被误鉴定为错误的种类。这些计算假定误读位的概率对于所有杂交回合是恒定的，但对于1-->0和0-->1的误差是不同的。将实验测量的平均1-->0和0-->1误差率(分别为10％和4％)用于图5B-5D所示的估算。为简单起见，未从计算中移除对应于所有'0'的字。

对于其中所有可能的N位二进制字被分配给独特RNA种类的简单二进制编码方案，可能的代码字的数目是2^N。可用于编码RNA的字的数目实际上是2^N-1，因为代码字'00...0'在任何杂交回合中不含可检测的荧光，但是为了简单起见，对应于所有'0'的字未从随后的计算中移除。由该近似引入的误差是可忽略的。对于具有m个‘1’和N-m个‘0’的任何给定的字，测量无误差的该字的概率(被正确调用的RNA的分数)是：

(1-p₁)^m(1-p₀)^N-m, (1)

其中p₁为每位1-->0的误差率，p₀为每位0-->1的误差率。因为该简单的二进制编码方案中的不同的字可具有不同数目的“1”位，因此如果p₁≠p₀，则不同字的调用率将不同。根据所有字的等式(1)的值的加权平均值测定平均调用率(如图5C中报告的)。该加权平均值为：

其中

是二项式系数并且对应于在该编码方案中具有m个‘1’位的字的数目。由于在该编码方案中，每个误差产生编码不同RNA的二进制字，所以图5D中报告的该编码方案的平均误鉴定率直接来自(2)：

为了计算扩展汉明距离4(HD4)码的缩放和误差属性，首先创建使用标准方法的期望数目的数据位的生成矩阵。生成矩阵测定在给定编码方案中存在的特定字，并且用于直接测定作为位数的函数的编码的字的数目。在该编码方案中，调用率对应于无误差情况下的测量的字的分数以及在单一位误差情况下的测量的字的分数。对于具有m个‘1’位的代码字，该分数通过以下表达式测定：

(1-p₁)^m(1-p₀)^N-m+mp₁ ¹(1-p₁)^m-1(1-p₀)^N-m+(N-m)p₀ ¹(1-p₁)^m(1-p₀)^N-m-1 (4)

其中第一项是不产生任何误差的概率，第二项对应于在m个‘1’位的任何位产生一个1-->0的误差而不造成任何其它0-->1误差的总概率，最后的项对应于在N-m个‘0’位的任何位产生一个0-->1的误差而不造成任何1-->0的误差的总概率。因为在该编码方案中‘1’位的数目在字之间可以不同，所以图5C中报告的平均调用率是根据针对m的不同值的等式(4)的加权平均值计算的。根据从上述生成矩阵测定的包含m个‘1’位的字的数目来测定每个项的权重。

因为RNA编码字被为4的最小汉明距离分开，所以需要至少4个误差来将一个字转换成另一个字。如果应用误差校正，则3或5个误差也可将一种RNA转化为另一种RNA。因此，对具有m个‘1’位的代码字估计来自3位、4位和5位误差的所有可能组合的误鉴定率。技术上，>5位误差也可将一种RNA转换为另一种RNA，但由于每位误差率较小，所以产生此类误差的概率是可以忽略的。该表达式近似为：

第一和对应于其中可产生正好4个错误的所有方式。类似地，第二及第三和对应于其中可产生正好3个或5个误差的所有方式。等式(5)提供误鉴定率的上限，因为不是所有3个、4个或5个位误差产生与另一个正确字匹配或将被校正为另一个正确字的字。再次地，因为‘1’位的数目在字之间可以不同，所以图5D中报告的平均误鉴定率被计算为针对具有m个‘1’位的字的数目的等式(5)的加权平均值。

为了产生其中每个代码字的“1”位的数目被设置为4的MHD4码，首先如上所述生成HD4码，随后去除不包含4个“1”的所有代码字。图5C中报告的该码的调用率直接根据公式(4)计算，但m＝4，因为该码中的所有代码字具有4个‘1’位。利用以下考虑通过修改等式(5)来计算图5D中报告的该码的误鉴定率：(i)‘1’位的数目m被设置为4，并且(ii)排除产生不含4个、3个或5个‘1’位的字的误差。因此，等式(5)简化为

再次地，该表达式是实际误鉴定率的上限，因为并非所有具有4个“1”的字都是有效代码字。

每个杂交回合的1-->0和0-->1的误差率的估计。为了计算在给定的杂交回合中误读位的概率，使用MHD4码的误差校正属性。简言之，以下面的方式导出1-->0或0-->1的误差的概率。假设在第i位(即第i个杂交回合)产生误差的概率为pi，并且给定种类的RNA分子的实际数目为A，则对于该RNA的精确匹配的数目将是

并且对应于第i位上的误差的对于该RNA的1-位误差校正的匹配的数目将是

p_i可以直接从比率：

导出。该比率假设1-位误差校正的计数仅从正确的字的单个位的误差产生，并且来自其它RNA字的多误差污染是可忽略的。鉴于每个杂交回合的误差率小，并且将一个RNA编码字转换为可被误鉴定为另一个RNA的字需要至少3个误差，上述近似应当是良好的近似。

为了计算16个杂交回合中的每一个的平均1-->0或0-->1误差概率，使用上述方法来计算每个基因的每个位的每位误差率，并且基于这些误差是对应于1-->0还是0-->1误差来对其进行排序，以及采用通过对于对应基因观察到的计数的数目加权的每个位的这些误差的平均值。

从实际成像数据估计个体RNA种类的调用率。通过估计如上测定的每回合杂交的1-->0或0-->1误差概率，有可能基于用于编码其的特定字来估计每个RNA的调用率。具体地，正确调用的RNA种类的分数由下式测定

其中第一项表示观察代码字的精确匹配的概率，第二项表示观察误差校正匹配(即，具有1-位误差)的概率。每个RNA种类的每位误差率pi的值通过该RNA的特定代码字和每回合杂交的测量的1-->0或0-->1的误差率来测定。如果RNA的代码字在第i位包含‘1’，则从第i个杂交回合的1-->0误差率测定p_i；如果该字在第i位包含‘0’，则从第i个杂交回合的0-->1误差率测定p_i。

RNA丰度的共变化的层次聚类分析。如下进行140-基因和1001-基因实验的基因表达的共变化的层次聚类。首先，将每对基因之间的距离测定为1减去这两种RNA种类的测量的拷贝数(两者均通过细胞中计数的总RNA标准化)的细胞间变化的皮尔逊相关系数。因此，高度相关的基因彼此“更接近”，高度反相关的基因“进一步”分开。随后使用非加权配对组算术平均法(UPGMA)从这些距离构建凝聚层次聚类树。具体来说，从个体基因开始，通过根据所有簇间基因对之间的距离的算术平均值鉴定彼此最接近的两个簇(或个体基因)来构建层次聚类。随后将具有最小距离的聚类(或个体基因)对分组在一起，并重复该过程。随后基于这些树内的基因的顺序对两两相关性的矩阵进行排序。

通过在层次聚类树上选择阈值(由图7D和10A中的虚线指示的)来鉴定具有显著共变化的基因的组，对于140-基因实验，所述层次聚类树产生约10个组的基因(其中每个组包含至少4个成员)，或对于1001-基因实验，产生约100个组的基因(其中每个组包含至少3个成员)。注意，可以改变阈值以便鉴定更紧密偶联的较小组或具有相对宽松偶联的较大组。

通过计算该基因与该组的所有其它成员之间的平均相关系数与该基因与该组外的所有其它测量的基因之间的平均相关系数之间的差异来测定基因属于特定组的置信度的概率值。使用学生氏t检验来测定该差异的显著性(p-值)。

因为层次聚类固有地是一维分析，即任何给定的基因只能是单个组的成员，所以该分析不允许鉴定所有相关的基因组。更高维度的分析，诸如主成分分析或k均值聚类，可用于鉴定更多的共变基因簇。

RNA空间分布的分析。为了鉴定具有相似空间分布的基因，将每个测量的细胞细分成2×2个区域，并计算存在于这些箱中的每一个中的每个RNA种类的分数。为了控制细胞的一些区域天然地比其它区域含有更多的RNA的事实，计算每个基因的富集，即对于给定的RNA种类在给定的区域中观察到的分数与在该同一区域中对于所有基因观察到的平均分数的比率。对于每对RNA种类，测定每个细胞的这两个RNA种类的富集的区域间差异的皮尔逊相关系数，在7个独立数据集中在超过～400个成像的细胞中取所述相关系数的平均值。随后使用上述相同的层次聚类算法基于这些平均相关系数将RNA种类聚类。由于大量细胞用于分析，因此发现粗空间分箱(每个细胞2×2个区域)足以捕获基因之间的空间相关性，而更细致的分箱不产生更显著相关的组。

为了测量基因与细胞核和与细胞边缘的距离，首先使用细胞图像上的亮度阈值来分割所鉴定的细胞核和细胞边缘。随后测定从每个RNA分子至细胞核的最近部分和细胞边缘的最近部分的距离。对于每个数据集，随后计算针对所测量的所有细胞进行平均的每个RNA种类的平均距离。对于组I基因、组II基因或所有基因取这些距离的平均值。在该分析中，仅使用每个细胞具有至少10个计数的那些RNA种类以最小化距离值的统计误差。

基因本体论(GO)分析。如上所述，从层次树中选择基因组。使用注释的GO项和紧接在所发现的注释的上游或下游的项，测定所有测量的RNA种类以及与来自最近的人GO注释的每个组相关联的RNA种类的GO项的集合。从具有该项的每个组内的基因的分数与具有该项的所有测量的基因的分数的比率计算这些注释的富集，并且通过超几何函数计算该富集的p-值。仅考虑p值小于0.05的统计学上显著富集的GO项。

虽然已在本文中描述和说明了几个本发明的实施方案，但本领域普通技术人员将容易地设想用于进行所述功能和/或获得本文所述的结果和/或一个或多个有利方面的各种其它方法和/或结构，并且这样的变化和/或修改的每一种被认为在本文所述的本发明的实施方案的范围内。更通常地，本领域技术人员将容易地理解，本文所述的所有参数、尺度、材料和构型意欲为示例性的并且实际参数、尺度、材料和/或构型将取决于对其使用本发明的教导的具体应用。本领域技术人员将认可或能够确定本文所述的特定的本发明的实施方案的许多等同物(通过使用不超过常规实验)。因此，应理解，前述实施方案仅通过举例的方式提出，并且在所附权利要求和其等同物的范围内，本发明的实施方案可按与明确描述和要求保护的方式不同的方式来实施。本发明涉及本文所述的各种个体特性、系统、物品、材料、试剂盒和/或方法。另外，如果这样的特性、系统、物品、材料、试剂盒和/或方法不是相互矛盾的，则两个或更多个这样的特性、系统、物品、材料、试剂盒和/或方法的任意组合包括在本公开内容的发明范围内。

如本文中所定义和使用的，所有定义应当被理解为优先于词典定义、通过引用并入的文献中的定义和/或所定义的术语的一般含义。

除非明确地指示与之相反，否则不定冠词“一种/一个(a)”和“一种/一个(an)”，如本文中在说明书和权利要求中所用，应当被理解为意指“至少一种/一个”。

短语“和/或”，如在本文中在说明书和权利要求中所用，应当被理解为意指所连接的元素的“任一个或两者”，即元素在一些情况下结合地存在以及在其它情况下分离地存在。利用“和/或”列出的多个元素应当以相同的方式来解释，即所连接的元素的“一个或多个”。除通过“和/或”从句明确确定的元素外，还可任选地存在其它元素，无论与明确确定的那些元素相关还是无关。因此，作为非限定性实例，对“A和/或B”的提及，当与开放性措辞诸如“包含/包括”结合使用时，在一个实施方案中可仅指A(任选地包括除B外的元素)；在另一个实施方案中可仅指B(任选地包括除A外的元素)；在另一个实施方案中，可指A和B(任选地包括其它元素)；依此类推。

如本文中在说明书和权利要求中所用，“或”应当被理解为具有与如上定义的“和/或”相同的含义。例如，当在列表中分开各项时，“或”或“和/或”应当被理解为是包含性的，即包含至少一个，但也包括许多个元素或一列元素中的多于一个，以及任选地，包括另外未列出的项。只有明确地指明相反的术语，例如“……中的仅一个”或“……中的恰好一个”或当用于权利要求中时的“由……组成”将指包含多个元素或一列元素中的正好一个元素。一般地，如本文中所用的术语“或”应当仅在冠有排他性的术语诸如“任一”、“……之一”、“……中的仅一个”或“……中的恰好一个”时被解释为表示排他性选择(即“一个或另一个但非两个”)。“基本上由……组成”，当用于权利要求中时，应当具有其在专利法领域中使用的普通含义。

如本文中在说明书和权利要求中所用，关于一列一个或多个元素的短语“至少一个”应当被理解为意指选自一列元素中的任何一个或多个元素的至少一个元素，但不一定包括元素列表内明确列出的每一个元素的至少一个并且不排除元素列表中的元素的任何组合。该定义还允许可任选地存在除短语“至少一个”所指的元素列表内明确确定的元素外的元素，无论与那些明确确定的元素相关还是不相关。因此，作为非限定性实例，“A和B的至少一个”(或，等同地，“A或B的至少一个”或，等同地“A和/或B的至少一个”)可在一个实施方案中指至少一个(任选地包括不止一个)A而无B存在(且任选地包括除B外的元素)；在另一个实施方案中指至少一个(任选地包括不止一个)B而无A存在(且任选地包括除A外的元素)；在另一个实施方案中指至少一个(任选地包括不止一个)A和至少一个(任选地包括不止一个)B(且任选地包括其它元素)；依此类推。

还应当理解，除非明确地指明与之相反，否则在包括不止一个步骤或行为的本文请求保护的任何方法中，所述方法的步骤或行为的顺序不必须地限定于其中叙述所述方法的步骤或行为的顺序。

在权利要求中，以及在上述说明书中，所有过渡短语诸如“包含”、“包括”、“携带”、“具有”、“含有”、“拥有”、“牵涉”、“持有”、“由……组成”等被理解为开放性的，即意指包括但不限于。只有过渡短语“由……组成”和“基本上由……组成”应当分别是封闭性的或半封闭性的过渡短语，如美国专利局专利审查程序手册第2111.03节中所示的。

序列表

<110> President and Fellows of Harvard College

<120> 用于测定核酸的系统和方法

<130> H0498.70509WO00

<140> Not Yet Assigned

<141> Concurrently Herewith

<150> US 62/142,653

<151> 2015-04-03

<150> US 62/050,636

<151> 2014-09-15

<150> US 62/031,062

<151> 2014-07-30

<160> 40

<170> PatentIn version 3.5

<210> 1

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 1

gttggcgacg aaagcactgc gattggaacc gtcccaagcg ttgcgcttaa tggatcatca 60

attttgtctc actacgacgg tcaatcgcgc tgcatacttg cgtcggtcgg acaaacgagg 120

<210> 2

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 2

cgcaacgctt gggacggttc caatcggatc 30

<210> 3

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 3

cgaatgctct ggcctcgaac gaacgatagc 30

<210> 4

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 4

acaaatccga ccagatcgga cgatcatggg 30

<210> 5

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 5

caagtatgca gcgcgattga ccgtctcgtt 30

<210> 6

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 6

tgcgtcgtct ggctagcacg gcacgcaaat 30

<210> 7

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 7

aagtcgtacg ccgatgcgca gcaattcact 30

<210> 8

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 8

cgaaacatcg gccacggtcc cgttgaactt 30

<210> 9

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 9

acgaatccac cgtccagcgc gtcaaacaga 30

<210> 10

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 10

cgcgaaatcc ccgtaacgag cgtcccttgc 30

<210> 11

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 11

gcatgagttg cctggcgttg cgacgactaa 30

<210> 12

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 12

ccgtcgtctc cggtccaccg ttgcgcttac 30

<210> 13

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 13

ggccaatggc ccaggtccgt cacgcaattt 30

<210> 14

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 14

ttgatcgaat cggagcgtag cggaatctgc 30

<210> 15

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 15

cgcgcggatc cgcttgtcgg gaacggatac 30

<210> 16

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 16

gcctcgatta cgacggatgt aattcggccg 30

<210> 17

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 17

gcccgtattc ccgcttgcga gtagggcaat 30

<210> 18

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 18

gttggtcggc acttgggtgc 20

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 19

cgatgcgcca attccggttc 20

<210> 20

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 20

cgcgggctat atgcgaaccg 20

<210> 21

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 21

taatacgact cactataggg aaagccggtt catccggtgg 40

<210> 22

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 22

taatacgact cactataggg tgatcatcgc tcgcgggttg 40

<210> 23

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 23

taatacgact cactataggg cgtggagggc atacaacgc 39

<210> 24

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胞嘧啶通过3’ Cy5 Sp修饰

<400> 24

cgcaacgctt gggacggttc caatcggatc 30

<210> 25

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胞嘧啶通过3’ Cy5 Sp修饰

<400> 25

cgaatgctct ggcctcgaac gaacgatagc 30

<210> 26

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 鸟嘌呤通过3’ Cy5 Sp修饰

<400> 26

acaaatccga ccagatcgga cgatcatggg 30

<210> 27

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胸腺嘧啶通过3’ Cy5 Sp修饰

<400> 27

caagtatgca gcgcgattga ccgtctcgtt 30

<210> 28

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胞嘧啶通过3’ Cy5 Sp修饰

<400> 28

gcgggaagca cgtggattag ggcatcgacc 30

<210> 29

<211> 30

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胸腺嘧啶通过3’ Cy5 Sp修饰

<220>

<223> 合成的多核苷酸

<400> 29

aagtcgtacg ccgatgcgca gcaattcact 30

<210> 30

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胸腺嘧啶通过3’ Cy5 Sp修饰

<400> 30

cgaaacatcg gccacggtcc cgttgaactt 30

<210> 31

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 腺嘌呤通过3’ Cy5 Sp修饰

<400> 31

acgaatccac cgtccagcgc gtcaaacaga 30

<210> 32

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胞嘧啶通过3’ Cy5 Sp修饰

<400> 32

cgcgaaatcc ccgtaacgag cgtcccttgc 30

<210> 33

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 腺嘌呤通过3’ Cy5 Sp修饰

<400> 33

gcatgagttg cctggcgttg cgacgactaa 30

<210> 34

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胞嘧啶通过3’ Cy5 Sp修饰

<400> 34

ccgtcgtctc cggtccaccg ttgcgcttac 30

<210> 35

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胸腺嘧啶通过3’ Cy5 Sp修饰

<400> 35

ggccaatggc ccaggtccgt cacgcaattt 30

<210> 36

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胞嘧啶通过3’ Cy5 Sp修饰

<400> 36

ttgatcgaat cggagcgtag cggaatctgc 30

<210> 37

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胞嘧啶通过3’ Cy5 Sp修饰

<400> 37

cgcgcggatc cgcttgtcgg gaacggatac 30

<210> 38

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 鸟嘌呤通过3’ Cy5 Sp修饰

<400> 38

gcctcgatta cgacggatgt aattcggccg 30

<210> 39

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<220>

<221> misc_feature

<222> (30)..(30)

<223> 胸腺嘧啶通过3’ Cy5 Sp修饰

<400> 39

gcccgtattc ccgcttgcga gtagggcaat 30

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的多核苷酸

<400> 40

cgggtttagc gccggaaatg 20

Claims

1.一种方法，其包括：

使样品中的多个核酸靶标与多个代码字相关联，其中所述代码字包括多个位置和每个位置的值，并且所述代码字形成误差校验和/或误差校正码空间；

将样品暴露于多个核酸探针，其中所述多个核酸探针中的至少一些包含含有靶序列的第一部分和含有一个或多个阅读序列的第二部分，其中每个阅读序列表示所述代码字内的位置的值；

对于所述多个核酸探针中的每个核酸探针，测定所述核酸探针在所述样品内的结合，其中结合通过Watson-Crick碱基配对发生；

生成对应于所述多个核酸探针在所述样品内的结合的代码字，其中所述代码字的数字的值基于所述核酸探针上存在的阅读序列；

对于所述代码字中的至少一些，将所述代码字与有效代码字匹配，其中如果没有找到匹配，则丢弃所述代码字或者对所述代码字应用误差校正以形成有效代码字，有效代码字成为分配给多个核酸靶标的多个代码字；和

使用对应于所述多个核酸探针在所述样品内的结合的有效代码字测定样品内核酸的丰度和/或空间分布。

2.根据权利要求1所述的方法，其包括将所述样品暴露于至少5种不同的核酸探针。

3.根据权利要求1或2中任一项所述的方法，其包括将所述样品暴露于至少10种不同的核酸探针。

4.根据权利要求1或2中任一项所述的方法，其包括将所述样品暴露于至少100种不同的核酸探针。

5.根据权利要求1或2中任一项所述的方法，其包括将所述样品同时暴露于多个核酸探针。

6.根据权利要求1或2中任一项所述的方法，其包括将所述样品依次暴露于多个核酸探针。

7.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含具有不同序列的核酸探针的组合性组合。

8.根据权利要求7所述的方法，其中所述核酸探针的组合性组合靶向所述样品中的RNA种类的组合性组合。

9.根据权利要求7所述的方法，其中所述核酸探针的组合性组合靶向所述样品中的DNA序列的组合性组合。

10.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含由取自所述一个或多个阅读序列的一个或多个阅读序列的组合性组合形成的可区分的核酸探针。

11.根据权利要求1或2中任一项所述的方法，其中所述靶序列与编码蛋白质的核酸序列基本上互补。

12.根据权利要求1或2中任一项所述的方法，其中所述靶序列与信使RNA(mRNA)基本上互补。

13.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含至少8个可能的阅读序列。

14.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含不超过32个可能的阅读序列。

15.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含不超过16个可能的阅读序列。

16.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含不超过8个可能的阅读序列。

17.根据权利要求1或2中任一项所述的方法，其中所述多个阅读序列分布在所述多个核酸探针上，以便定义误差校正码。

18.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针的靶序列具有10至200个核苷酸的平均长度。

19.根据权利要求1或2中任一项所述的方法，其中所述多个阅读序列具有5个核苷酸至50个核苷酸的平均长度。

20.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过10个阅读序列。

21.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过6个阅读序列。

22.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过4个阅读序列。

23.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过3个阅读序列。

24.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过2个阅读序列。

25.根据权利要求1或2中任一项所述的方法，其还包括将所述样品暴露于包含第一信号传导实体的第一次级探针，所述第一次级探针能够结合所述核酸探针的一些阅读序列，以及通过测定所述样品内的所述第一信号传导实体来测定所述核酸探针的结合。

26.根据权利要求25所述的方法，其中所述第一信号传导实体是发荧光的。

27.根据权利要求25所述的方法，其中所述第一信号传导实体是蛋白质。

28.根据权利要求25所述的方法，其中所述第一信号传导实体是染料。

29.根据权利要求25所述的方法，其中所述第一信号传导实体是纳米颗粒。

30.根据权利要求25所述的方法，其还包括将所述样品暴露于包含第二信号传导实体的第二次级探针，所述第二次级探针能够结合所述核酸探针的一些阅读序列，以及通过测定所述样品内的所述第二信号传导实体来测定所述核酸探针的结合。

31.根据权利要求30所述的方法，其中所述第一信号传导实体与所述第二信号传导实体相同。

32.根据权利要求30所述的方法，其中所述第一信号传导实体与所述第二信号传导实体不同。

33.根据权利要求1或2所述的方法，其中产生对应于次级探针的结合的代码字，所述次级探针结合所述核酸探针上的阅读序列。

34.根据权利要求30所述的方法，其还包括在将所述样品暴露于所述第二次级探针之前，使所述第一信号传导实体失活。

35.根据权利要求34所述的方法，其包括通过对所述第一信号传导实体中的至少一些进行光漂白来使所述第一信号传导实体失活。

36.根据权利要求34所述的方法，其包括通过对所述第一信号传导实体中的至少一些进行化学漂白来使所述第一信号传导实体失活。

37.根据权利要求34所述的方法，其包括通过将所述第一信号传导实体暴露于能够改变所述信号传导实体的结构的反应物来使所述第一信号传导实体失活。

38.根据权利要求34所述的方法，其包括通过移除所述第一信号传导实体中的至少一些来使所述第一信号传导实体失活。

39.根据权利要求34所述的方法，其包括通过将所述第一信号传导实体与所述第一次级探针解离来使所述第一信号传导实体失活。

40.根据权利要求34所述的方法，其包括通过从所述样品解离含有所述第一信号传导实体的所述第一次级探针来使所述第一信号传导实体失活。

41.根据权利要求34所述的方法，其包括通过从所述第一次级探针化学切割所述第一信号传导实体来使第一信号传导实体失活。

42.根据权利要求34所述的方法，其包括通过从所述第一次级探针酶促切割所述第一信号传导实体来使第一信号传导实体失活。

43.根据权利要求34所述的方法，其包括通过将所述信号传导实体或所述第一次级探针暴露于酶来使所述第一信号传导实体失活。

44.根据权利要求25所述的方法，其包括使用用于测定非重叠单发射体的算法来测定所述第一信号传导实体的质心。

45.根据权利要求25所述的方法，其包括使用用于测定部分重叠单发射体的算法来测定所述第一信号传导实体的质心。

46.根据权利要求44所述的方法，其包括使用最大似然算法来测定所述质心。

47.根据权利要求44所述的方法，其包括使用最小二乘法算法来测定所述质心。

48.根据权利要求44所述的方法，其包括使用贝叶斯算法来测定所述质心。

49.根据权利要求44所述的方法，其包括使用压缩感测算法来测定所述质心。

50.根据权利要求1或2中任一项所述的方法，其还包括测定所鉴定的核酸靶标的置信水平。

51.根据权利要求50所述的方法，其包括使用精确匹配的数目与对代码字具有一个或多个1位误差的匹配的数目的比率来测定所述置信水平。

52.根据权利要求51所述的方法，其包括使用精确匹配的数目与对代码字具有恰好一个1位误差的匹配的数目的比率来测定所述置信水平。

53.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含DNA。

54.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含RNA。

55.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含PNA。

56.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含LNA。

57.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针具有10至300个核苷酸的平均长度。

58.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合所述样品内的核酸。

59.根据权利要求1或2中任一项所述的方法，其中所述核酸探针与所述样品内的靶标的结合中的至少一些是特异性结合。

60.根据权利要求1或2中任一项所述的方法，其中所述核酸探针与所述样品内的靶标的结合中的至少一些是通过Watson-Crick碱基配对的。

61.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合RNA。

62.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合非编码RNA。

63.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合mRNA。

64.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合转运RNA(tRNA)。

65.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合核糖体RNA(rRNA)。

66.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合lncRNA。

67.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合snoRNA。

68.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合非编码RNA。

69.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针被构造来结合DNA。

70.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些被构造来结合基因组DNA。

71.根据权利要求1或2中任一项所述的方法，其包括以优于300nm的分辨率测定所述样品内的所述核酸探针的结合。

72.根据权利要求1或2中任一项所述的方法，其包括以优于100nm的分辨率测定所述样品内的所述核酸探针的结合。

73.根据权利要求1或2中任一项所述的方法，其包括以优于80nm的分辨率测定所述样品内的所述核酸探针的结合。

74.根据权利要求1或2中任一项所述的方法，其包括以优于50nm的分辨率测定所述样品内的所述核酸探针的结合。

75.根据权利要求1或2中任一项所述的方法，其中所述样品包含细胞。

76.根据权利要求75所述的方法，其中所述细胞是人细胞。

77.根据权利要求76所述的方法，其中所述细胞被固定。

78.根据权利要求1或2中任一项所述的方法，其包括通过对所述样品的至少一部分进行成像来测定所述核酸探针的结合。

79.根据权利要求1或2中任一项所述的方法，包括使用光学成像技术来测定所述核酸探针的结合。

80.根据权利要求1或2中任一项所述的方法，其包括使用荧光成像技术来测定所述核酸探针的结合。

81.根据权利要求1或2中任一项所述的方法，其包括使用多色荧光成像技术来测定所述核酸探针的结合。

82.根据权利要求1或2中任一项所述的方法，其包括使用超分辨率荧光成像技术来测定所述核酸探针的结合。

83.根据权利要求82所述的方法，其包括使用随机光学重建显微镜术(STORM)来测定所述核酸探针的结合。

84.根据权利要求82所述的方法，其包括使用光激活定位显微镜术(PALM)或荧光激活定位显微镜术(FPALM)来测定所述核酸探针的结合。

85.根据权利要求82所述的方法，其包括使用受激发射耗尽显微镜术(STED)来测定所述核酸探针的结合。

86.根据权利要求82所述的方法，其包括使用结构化照明显微镜术(SIM)来测定所述核酸探针的结合。

87.根据权利要求82所述的方法，包括使用可逆饱和光学线性荧光跃迁(RESOLFT)显微术来测定所述核酸探针的结合。

88.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针定义误差校正码。

89.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针定义具有至少为2的汉明距离的码空间。

90.根据权利要求89所述的方法，其中所述多个核酸探针定义具有至少为3的汉明距离的码空间。

91.根据权利要求89所述的方法，其中所述码是汉明(7,4)码、汉明(15,11)码、汉明(31,26)码、汉明(63,57)码或汉明(127,120)码。

92.根据权利要求1或2中任一项所述的方法，其中所述码是SECDED码。

93.根据权利要求92所述的方法，其中所述码是SECDED(8,4)码。

94.根据权利要求92所述的方法，其中所述码是SECDED(16,4)码。

95.根据权利要求92所述的方法，其中所述码是SECDED(16,11)码、SECDED(22,16)码、SECDED(39,32)码或SECDED(72,64)码。

96.根据权利要求92所述的方法，其中仅使用具有恒定数目的1的代码字。

97.根据权利要求92所述的方法，其中所述码是MHD4码。

98.根据权利要求92所述的方法，其中所述码是MHD2码。

99.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含不超过100个可能的阅读序列。

100.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含不超过64个可能的阅读序列。

101.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含不超过32个可能的阅读序列。

102.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含不超过16个可能的阅读序列。

103.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针包含不超过8个可能的阅读序列。

104.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针的靶序列具有10至200个核苷酸的平均长度。

105.根据权利要求1或2中任一项所述的方法，其中所述多个阅读序列具有5个核苷酸至50个核苷酸的平均长度。

106.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过10个阅读序列。

107.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过6个阅读序列。

108.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过4个阅读序列。

109.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含不超过2个阅读序列。

110.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含DNA。

111.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含RNA。

112.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含PNA。

113.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针中的至少一些包含LNA。

114.根据权利要求1或2中任一项所述的方法，其中所述多个核酸探针具有10至300个核苷酸的平均长度。