CN105899672B

CN105899672B - 用于rna-染色质相互作用分析的组合物及其用途

Info

Publication number: CN105899672B
Application number: CN201480049110.5A
Authority: CN
Inventors: 阮一骏; 郑梅珍; 罗钧洪
Original assignee: Jackson Laboratory
Current assignee: Jackson Laboratory
Priority date: 2013-09-05
Filing date: 2014-09-05
Publication date: 2020-09-11
Anticipated expiration: 2034-09-05
Also published as: KR102310441B1; US20160177380A1; CA2936089A1; IL272171A; AU2014315104B2; SG10201801779XA; EP3041952B1; US20180312908A1; CN111979229A; IL244191B; IL272171B; EP3299476B1; HK1252806A1; SG10201913362PA; IL244191A0; US11466307B2; EP3296408A1; HK1252807A1; JP6684216B2; SG11201600645SA

Abstract

本文描述的本发明提供了用于完成鉴别所有ncRNA的功能性靶标的无偏的全基因组策略的试剂(例如，试剂盒)、组合物和方法。

Description

用于RNA-染色质相互作用分析的组合物及其用途

相关申请的交叉引用

本申请要求2013年9月5日提交的美国临时申请No.61/873,928的优先权和申请日权益，其全部内容通过引用并入本文。

背景技术

目前，非编码RNA(ncRNA)据信在基因组中普遍地转录，且已经鉴别了大量的ncRNA。但是，与此不相称地，关于其功能性作用仍然知道的非常少。许多已知的ncRNA功能通过扰动实验(perturbation experiment)推导，其缺乏ncRNA与哪种特异性靶标相互作用的细节。如CLIP/RIP-Seq和ChiRP-Seq的技术提供了一些ncRNA与哪些蛋白质因子和染色质位点相互作用的大量认识。但是，当前的方法限于一次一个地检验ncRNA或相互作用靶标。因此希望的是具有无偏的全基因组策略以鉴定所有ncRNA的功能性靶标。

发明内容

本发明的一个方面提供试剂盒，包含(1)RNA接头，其包含：(i)第一多核苷酸和(ii)第二多核苷酸，其中第一和第二多核苷酸形成侧接第一连接相容末端和第一多核苷酸3’-末端的3’-悬端的第一双链区域，其中3’-悬端包含随机序列引物；和(2)DNA接头，其包含(iii)第三多核苷酸和(iv)第四多核苷酸，其中第三和第四多核苷酸形成侧接平端和第二连接相容末端的第二双链区域，其中第一和第二连接相容末端彼此连接或可适应于彼此连接。

在某些实施方式中，第一连接相容末端是第二多核苷酸3’-末端的3’-悬端，且第二连接相容末端是第三多核苷酸3’-末端的3’-悬端，其中两个3’-悬端彼此退火而连接。

在某些实施方式中，第一双链区域包含用于切割随机序列引物3’侧的第一限制性内切酶(RE)的第一识别位点。

在某些实施方式中，第二双链区域包含用于切割第三多核苷酸5’侧的第二限制性内切酶(RE)的第二识别位点。

在某些实施方式中，所述第一、第二、第三和第四多核苷酸中的一个或多个是DNA。

在某些实施方式中，所述第一、第二、第三和第四多核苷酸的一个或多个包含修饰的核苷酸。

在某些实施方式中，修饰的核苷酸是生物素化的T(胸苷)。

在某些实施方式中，第一多核苷酸包含多个多核苷酸，其中各多核苷酸仅在随机序列引物区域不同。

在某些实施方式中，第一多核苷酸包含具有相同随机序列引物的多核苷酸的同质群体。

在某些实施方式中，随机序列引物包含4、5、6、7、8或更多个核苷酸。

在某些实施方式中，第一双链区域包含区分RNA接头和DNA接头的独特序列。

在某些实施方式中，第二双链区域包含区分RNA接头和DNA接头的独特序。

在某些实施方式中，第一识别位点的最后一个核苷酸是随机序列引物5’侧的最后一个碱基配对的核苷酸。

在某些实施方式中，第二识别位点的最后一个核苷酸是平端处的碱基配对的核苷酸。

在某些实施方式中，第一和第二限制性内切酶是相同的。

在某些实施方式中，第一或第二限制性内切酶独立地选自：AarI、AceIII、AloI、BaeI、Bbr7I、BbvI、BbvII、BccI、Bce83I、BceAI、BcefI、BcgI、BciVI、BfiI、BinI、BplI、BsaXI、BscAI、BseMII、BseRI、BsgI、BsmI、BsmAI、BsmFI、Bsp24I、BspCNI、BspMI、BsrI、BsrDI、BstF5I、BtgZI、BtsI、CjeI、CjePI、EciI、Eco31I、Eco57I、Eco57MI、EcoP15I、Esp3I、FalI、FauI、FokI、GsuI、HaeIV、HgaI、Hin4I、HphI、HpyAV、Ksp632I、MboII、MlyI、MmeI、MnlI、PleI、PpiI、PsrI、RleAI、SapI、SfaNI、SspD5I、Sth132I、StsI、TaqII、TspDTI、TspGWI、TspRI或Tth111II。

在某些实施方式中，第一或第二限制性内切酶的切割位点是识别位点的最后一个核苷酸3’侧的至少约10、12、14、16、18、20、22、24、26、28、30或更多个核苷酸。

在某些实施方式中，第一和第四多核苷酸是去磷酸化的。

在某些实施方式中，试剂盒还包含交联蛋白质和多核苷酸的试剂。

在某些实施方式中，该试剂包含甲醛。

在某些实施方式中，试剂盒还包含特异性或选择性结合染色质组分(例如，组蛋白)的亲和试剂(例如，抗体或单克隆抗体)。

在某些实施方式中，试剂盒还包含将含有损伤的或不相容的5’-和/或3’-突出末端的DNA转化为5’-磷酸化的平端DNA的末端修复混合物。

在某些实施方式中，试剂盒还包含DNA连接酶(例如，T4连接酶)。

在某些实施方式中，试剂盒还包含逆转蛋白质和多核苷酸(例如，蛋白酶K)的交联的试剂。

在某些实施方式中，试剂盒还包含第一和/或第二限制性内切酶。

在某些实施方式中，试剂盒还包含用于平端双链DNA的PCR扩增的一对串联的连接体(concatenating adapter)。

在某些实施方式中，试剂盒还包含Taq DNA聚合酶。

在某些实施方式中，试剂盒还包含逆转录酶。

本发明的另一方面提供末端配对标签(paired-end tag)(PET)多核苷酸，包含含有所述RNA和DNA接头的第一和第二双链区域的中心区域，所述中心区域：(1)在接近所述第一双链区域的位点处侧接非编码RNA(ncRNA)的序列标签；和(2)在接近所述第二双链区域的位点处侧接基因组DNA的序列标签。

在某些实施方式中，非编码RNA(ncRNA)的序列标签具有由所述第一限制性内切酶的消化产生的自由端。

在某些实施方式中，非编码RNA(ncRNA)的序列标签唯一地鉴别转录ncRNA的基因组区域。

在某些实施方式中，非编码RNA(ncRNA)的序列标签长度为约8-30个碱基对。

在某些实施方式中，基因组DNA的序列标签具有由所述第二限制性内切酶的消化产生的自由端。

在某些实施方式中，基因组DNA的序列标签唯一地鉴别基因组DNA所在的基因组区域。

在某些实施方式中，基因组DNA的序列标签长度为约8-30个碱基对。

本发明的另一方面提供末端配对标签(PET)文库，包含两个或更多个所述PET多核苷酸的成员，其中PET文库的各成员包含相同的所述中心区域，及不同的所述非编码RNA(ncRNA)的序列标签或不同的所述基因组DNA的序列标签或两者。

本发明的另一方面提供包含所述PET多核苷酸的载体。

在某些实施方式中，所述载体包含多个串联的所述PET多核苷酸。

本发明的另一方面提供两个或更多个所述PET多核苷酸的串联体。

本发明的另一方面提供鉴别基因组内基因组的非编码RNA(ncRNA)的功能性相互作用位点的方法，该方法包括：(1)提供包含交联的基因组DNA片段和交联的ncRNA的染色质；(2)使用权利要求1的RNA接头和DNA接头，在用于邻位连接(proximity ligation)的条件下，将交联的基因组DNA片段的末端与交联的ncRNA的cDNA的末端连接，其中所述交联的基因组DNA片段的末端连接于DNA接头，且所述交联的ncRNA的cDNA的末端包含RNA接头；(3)分离权利要求29的PET多核苷酸用于测序分析；和(4)将各所述PET多核苷酸内的基因组DNA的序列标签和ncRNA的序列标签映射到参照基因组，从而鉴别参照基因组内参照基因组的所述非编码RNA(ncRNA)的功能性相互作用位点。

在某些实施方式中，ncRNA和基因组DNA在活细胞中通过甲醛介导的交联进行交联。

在某些实施方式中，染色质片段通过超声处理生成。

在某些实施方式中，交联的ncRNA的cDNA包含从RNA接头的随机序列引物和ncRNA模板逆转录的第一链cDNA。

在某些实施方式中，第二链cDNA合成在邻位连接之后但在步骤(3)之前进行。

在某些实施方式中，该方法还包括在步骤(2)之前将交联的基因组DNA片段的末端修复为5’-磷酸化的平端DNA。

在某些实施方式中，DNA接头的第三多核苷酸是去磷酸化的且DNA接头不自身连接。

在某些实施方式中，该方法还包括鉴别具有重叠的基因组DNA的序列标签和重叠的ncRNA的序列标签的两个或更多个PET多核苷酸的簇。

在某些实施方式中，该方法还包括排除包含rRNA的序列标签的PET多核苷酸。

在某些实施方式中，该方法还包括在步骤(2)之前分离或富集染色质片段的亚集。

在某些实施方式中，染色质片段的亚集使用对于染色质片段亚集的蛋白质组分特异性的抗体通过免疫沉淀进行分离或富集。

在某些实施方式中，蛋白质组分是组蛋白、转录因子、多梳(PcG)家族蛋白、重组参与因子(recombination involved factor)、染色质隔离子或染色质waver、甲基-CpG-结合蛋白或RNA结合蛋白。

应理解，为实施本发明的一个实施方式(如仅在实施例部分中描述的实施方式)而公开的任何说明，包括但不限于任何技术、试剂、实验条件、限制性位点、酶、载体、引物等等，也可以与本发明的其它实施方式结合使用，包括仅在本发明的一个(而非另外的任何)实施方式中详细描述的那些实施方式。本领域技术人员很清楚如何使对于其它实施方式公开的技术和材料适应于本发明的当前实施方式。

附图说明

图1A显示使用RNA接头和DNA接头对的RICh-PET方法的典型设置的示意流程图。ncRNA与染色质的相互作用通过交联，接着将染色质纤维破裂成与RNA、DNA和蛋白质组分的系留复合物而捕获。在各染色质片段复合物中的系留RNA和DNA然后通过由特别设计的RNA接头和DNA接头寡核苷酸(其也具有用于定向和特异性的独特序列条码)介导的一系列连接反应进行连接。在各染色质复合物内，RNA的3’-末端与RNA接头的随机六聚体突出部分退火，接着进行逆转录用于cDNA合成。同时，DNA接头通过连接反应添加到系留的DNA片段的平端。在洗掉过量接头寡聚物后，附接的RNA和DNA接头彼此连接，因此连接系留的RNA和DNA分子。在反交联后，杂合连接产物通过剪切或限制性消化碎裂成用于进一步扩增、测序和映射分析的所需大小以鉴别其中RNA被转录的位置和其中其在基因组中相互作用的位置。

图1B显示使用修饰的RNA接头的RICh-PET方法的典型设置的示意流程图。

图1C显示使用直接RNA接头的RICh-PET方法的典型设置的示意流程图。“App”代表第一多核苷酸5’-末端的5’腺苷酸化。

图2A-2C呈现了所选择的RICh-PET文库的统计及测序和映射数据。图2A显示单态(singleton)PET(没有与其它PET序列的重叠)和PET簇的比例。使用PET簇数据，鉴别了大约700个RNA位点和大约5000个DNA位点。图2B显示通过RICh-PET数据鉴别的RNA和DNA位点处的RNA-Seq数据强度。图2C显示限定ncRNA相互作用的大多数RICh-PET数据是反式相互作用的和染色体间的。

图3显示所述方法的可重现性和灵敏度。该图显示代表性散点图，其显示了在技术和生物学重复中鉴别的RNA相互作用位点的比较。已知的lncRNA MALAT1 (PET计数174)和NEAT1 (PET 18)在RICh-PET数据(未示出)中重复地检测。RNAPII ChIA-PET数据也表明这两个ncRNA也在可能用于共调节的相同RNAPII转录复合物内空间连接。另外，RNA-Seq和RNA-PET数据用于评估HeLa S3中ncRNA基因的表达水平(数据未示出)。两种数据都表明MALAT1高表达，NEAT1以中等水平表达和HOTAIR以非常低的水平表达。映射在HOTAIR位点的RICh-PET在这一区域中显示差的RICh-PET数据(数据未示出)。

图4A-4B显示用于验证NEAT1和MALAT1RICh-PET数据的数据。图4A显示NEAT1和MALAT1均在HeLa S3细胞中表达，且在RICh-PET数据中大量检测到。NEAT1仅限制于顺式作用，因为RNA和DNA标签两者映射在相同位点内的短距离中。MALAT1大部分是反式作用的，因为大多数DNA标签映射在相同染色体的大距离中或在不同染色体(插入体)中。图4B显示人A549和HeLa S3中的RNA-FISH实验。NEAT1探针产生很少的荧光斑(HeLa S3细胞中每细胞核1-2个)，而MALAT1探针产生多得多的斑点(HeLa S3细胞中每细胞核13个)。计数是基于100个细胞核/探针/实验。

图5A-5B表征RICh-PET数据。图5A显示基因组中RNA标签簇位置的类别的饼图，表明绝大多数的RNA标签在推定的ncRNA区域中发现，仅3％与蛋白质编码外显子重叠。检测到许多已知的ncRNA，且鉴别许多新的ncRNA。图5B显示基因组中DNA标签簇位置的类别的饼图，表明大多数的DNA标签簇映射到蛋白质编码区域，大部分在启动子或内含子中。

图6A-6B显示MALAT1相互作用的多靶标和多功能。图6A是与59个基因组位点相互作用的MALAT1的关联性图谱。图6B是显示在其启动子区域中存在MALAT1的基因比在其内含子区域具有MALAT1相互作用的基因具有更高的RNA-seq阅读的箱图。在RNAPII ChIP-Seq强度(未示出)的聚集图(aggregation plot)中，在其启动子区域中存在MALAT1的基因比在其内含子区域具有MALAT1相互作用的基因具有更高的RNA-seq阅读。

图7显示CCAT1及其lncRNA转录物作为几种靶基因的转录激活因子或共激活因子发挥作用的示意图。

图8A显示人类染色体8上对应于SEQ ID NO:9的基因组CCAT1和cDNA序列的位置。图8B显示人类染色体8上对应于SEQ ID NO:1-8(分别CCAT1_JAX_1至_8)的八个另外的CCAT1基因组和cDNA序列的位置。填充的框代表外显子序列，而连接外显子序列的线代表内含子序列。

图9A显示通过RNA-Seq数据测量的XIST(其特别地靶向女性细胞中的X染色体)的计数，其以每百万阅读每kb的阅读数(RPKM)计。

图9B显示XIST结合覆盖的各染色体的比例。

具体实施方式

1.概述

本文描述的本发明部分地基于以下认识：如果ncRNA在核空间中具有表观遗传调控作用，则其在染色体中的特定位置处必然直接或间接地与染色质相互作用，其中发生调节染色质状态和靶基因活性的功能。因此，本文描述的本发明提供通过RNA-DNA连接，接着末端配对测序(RICh-PET)来整体映射ncRNA-染色质相互作用的新途径。

简而言之，本文描述的组合物可用于包括三个主要部分的方法中：1)染色质交联以捕获活细胞(如体外培养的一种活细胞或从组织样品获得的原代细胞)中RNA、DNA和蛋白质之间(优选所有的)分子相互作用事件；2)系留的相互作用RNA与染色质DNA片段的连接(例如，通过特别设计的接头，如RNA接头和DNA接头对，或通过连接RNA 3’末端到5’腺苷酸化ssDNA或5’腺苷酸化悬端)；和3)RNA-DNA连接产物或由其来源的标签序列(例如，PET多核苷酸)的测序和映射分析以定位基因组中ncRNA的转录位点和它们的染色质靶位点。

因此，本发明的一个方面提供鉴别基因组内基因组的非编码RNA(ncRNA)的功能性相互作用位点的方法，该方法包括(1)提供包含交联的基因组DNA片段和交联的ncRNA(或其片段)的染色质片段；(2)在用于邻位连接的条件下连接交联的基因组DNA片段的末端到交联的ncRNA的末端；(3)分离用于测序分析的末端配对标签(PET)多核苷酸，其中PET多核苷酸包含非编码RNA(ncRNA)的序列标签和基因组DNA的序列标签；和(4)映射基因组DNA的序列标签和ncRNA的序列标签到参照基因组，从而鉴别参照基因组内参照基因组的非编码RNA(ncRNA)的功能性相互作用位点。

这一RNA-DNA连接途径不仅应用于所有ncRNA-染色质相互作用的整体研究，而且可应用于研究特定染色质位置的RNA-蛋白质相互作用。因此，基于染色体免疫沉淀(ChIP)的RICh-PET方法可提供RNA-蛋白质-染色质相互作用信息的额外特异性。

本发明的试剂和方法具有广泛的研究、开发、药物靶标鉴别、药物筛选、诊断、治疗/功效监测、预后等中的潜在用途。例如，本发明的试剂和方法可用于综合地表征多种建立的细胞系、干细胞、iPS细胞和来自初级组织的细胞(如源自癌症和健康组织对照的细胞)的ncRNA-染色质相互作用组；和显著地提高我们研究调节基因组输出的RNA功能的极其复杂的世界的能力。成功地完成RNA-染色质相互作用组的表征会提供大多数(如果不是所有)ncRNA种类的全面染色质地址薄，其增加了基因组信息的另一维度以帮助理解在健康和疾病状况中基因组如何发挥功能。

本发明的几种特定实施方式以下更详细地描述。

a)RNA接头和DNA接头对

在第一特定实施方式中，本发明的方法可以使用RNA接头和DNA接头对完成以连接相同染色质片段中的交联的RNA和染色体DNA。

因此，本发明的一个方面提供试剂盒，包含(1)RNA接头，其包含：(i)第一多核苷酸和(ii)第二多核苷酸，其中第一和第二多核苷酸形成侧接第一连接相容末端和第一多核苷酸3’-末端的3’-悬端的第一双链区域，其中3’-悬端包含随机序列引物；和(2)DNA接头，其包含：(iii)第三多核苷酸和(iv)第四多核苷酸，其中第三和第四多核苷酸形成侧接平端和第二连接相容末端第二双链区域，其中第一和第二连接相容末端彼此连接或可适应于彼此连接。

在某些实施方式中，第一连接相容末端是第二多核苷酸3’-末端的3’-悬端，且第二连接相容末端是第三多核苷酸3’-末端的3’-悬端，其中两个3’-悬端彼此退火用于连接。

在某些实施方式中，第一连接相容末端是第一多核苷酸5’-末端的5’-悬端，且第二连接相容末端是第四多核苷酸5’-末端的5’-悬端，其中两个5’-悬端彼此退火用于连接。

在某些实施方式中，第一和/或第二连接相容末端可适应于连接。例如，代替具有用于连接的必要3’或5’悬端，第一和/或第二连接相容末端可以包含限制性内切酶(RE)位点，其可以被RE切割以产生连接所需要的必要3’或5’悬端。但是，在通过限制性内切酶切割之前，连接相容性末端可以是平端的(例如，去磷酸化的平端以防止自身连接)，或具有防止自身连接或与其它连接相容末端连接的不相容悬端。

在某些实施方式中，相容连接末端处的两个5’-或3’-悬端不自身退火且不彼此退火。这可以例如通过设计悬端的序列以使得悬端序列不自身退火且不彼此退火(至少在使用接头的条件下)来完成。

这一设计在其中例如下游步骤包括PCR扩增的某些实施方式中可能是有利的。一种频繁观察到的非特异性扩增产物的类型是称为“引物二聚体”的扩增反应的非模板依赖性的人工制品，其是长度通常接近于两个引物长度的总和并表现为在一个引物延伸超出另一引物时出现的双链片段。所得的延伸产物形成不需要的模板，其由于其短的长度而有效地扩增。

第一、第二、第三和第四多核苷酸各自可以在单独的容器中提供，如合成的多核苷酸，其为冷冻干燥的、冻干形式或在水或合适的缓冲溶液中。可选地，第一和第二多核苷酸可以组合在相同容器中(冻干的或在溶液中)，例如，以1:1的摩尔比，以使得它们可以作为预退火的RNA接头使用。类似地，第三和第四多核苷酸可以组合在相同容器中(冻干的或在溶液中)，例如，以1:1的摩尔比，以使得它们可以作为预退火的RNA接头使用。

第二、第三和第四多核苷酸是基本上同质的或纯的(例如，同一容器中的单个多核苷酸分子是相同的)，而3’-悬端区域中第一多核苷酸3’-末端包含随机序列引物(例如，同一容器中的单个第一多核苷酸分子是相同的，除了各自在3’-悬端区域内可以具有不同的随机序列引物)。因此，第一多核苷酸可以是独特的，因为它事实上是仅在单个多核苷酸的随机序列引物区域处不同的多核苷酸的混合物。

但是，在相关的实施方式中，当对具有限定的3’-末端序列的特定ncRNA感兴趣时，本发明的第一多核苷酸可以在随机序列引物区域处同质地包含相同的匹配序列，以特别地从具有限定的3’-末端序列的特定ncRNA启动第一链cDNA合成。

随机序列引物一般具有足够的长度(例如，六聚体)，从而能够指导从非编码RNA的3’-末端的第一链cDNA合成。虽然可以使用六聚体随机序列，但也可以使用其它长度，如4、5、7、8、9、10、11、12随机序列引物。

在某些实施方式中，随机序列引物的大多数3’-末端不是脱氧胸苷(T)或尿苷(U)，或者可以与mRNA的多聚A尾中的腺嘌呤(A)碱基配对的其它核苷酸类似物。这种设计可以进一步帮助避免mRNA的多聚A尾的逆转录。

第二和第三多核苷酸3’-末端的5’-或3’-悬端(第一和第二连接相容末端)设计为互补的以使得它们彼此退火。第二和第三多核苷酸中悬端区域的长度可以是相同的，但不是必须相同的。在某些实施方式中，两个多核苷酸的悬端区域中的约2、3、4、5、6、7、8或更多个核苷酸是互补的且可以形成碱基对(Watson-Crick或摆动碱基对)。

在某些实施方式中，RNA接头上第一双链区域的长度是约6、7、8、9、10、15、20、25、30、35、40、50、60或更多个碱基对。

在某些实施方式中，DNA接头上第二双链区域的长度是约6、7、8、9、10、15、20、25、30、35、40、50、60或更多个碱基对。

在某些实施方式中，连接的RNA-DNA接头中第一和第二双链区域的总长度是约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80或更多个碱基对。

在某些实施方式中，第一双链区域可以包含用于第一限制性内切酶如II型限制性内切酶(RE)的第一识别位点。RE识别位点可以策略地布置以使得当RE切割时，它在RE位点之外、随机序列引物的3’侧进行切割。这允许产生与RNA接头连接的RNA标签。例如，MmeI识别位点可以设置在第一双链区域的末端，第一双链区域另一端的远端(在此处RNA接头和DNA接头通过其相应3’-悬端区域连接)。MmeI位点设计为其定向使得在MmeI切割时，在源自连接的ncRNA的cDNA中产生具有2bp悬端的包含18-bp片段的RNA标签。但是，RE位点的设置不需要在第一双链区域的末端处。更内部的设置相应地产生较短的RNA标签序列。

在某些实施方式中，第一识别位点(用于第一(II型)限制性内切酶)的最后一个核苷酸是随机序列引物5’侧的最后一个碱基配对的核苷酸。

同样地，在某些实施方式中，第二双链区域可以包含用于第二限制性内切酶如II型限制性内切酶(RE)的第二识别位点，其可以切割第二RE识别位点的3’侧和第三多核苷酸的5’侧。RE识别位点的定向以使得其基于连接的基因组DNA的末端序列产生DNA标签的方式排列。在某些实施方式中，RE位点的设置不需要在第二双链区域的末端处。更内部的设置相应地产生较短的DNA标签序列。

在某些实施方式中，第二识别位点(用于第二(II型)限制性内切酶)的最后一个核苷酸是平端处的碱基配对的核苷酸。

在某些实施方式中，第一和第二(II型)限制性内切酶是相同的。在其它实施方式中，第一和第二(II型)限制性内切酶是不同的。

对于产生相对长的标签序列的RE如I型或III型RE,第一和第二RE识别序列的定向可以是相反的，以使得RNA接头中的RE位点指导DNA标签的产生，而DNA接头中的RE位点指导RNA标签的产生。

对于识别两个识别位点的RE(如IIB型RE)，RE位点中的一个可以在RNA接头中，且另一个可以在DNA接头中，以使得RE仅在RNA和DNA接头如设计的正确连接以构成完全RE识别位点时进行切割。

可以根据本发明使用的合适限制性内切酶在以下更详细地描述。在某些实施方式中，第一或第二限制性内切酶的切割位点是识别位点的最后一个核苷酸3’侧的至少约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个核苷酸。

在某些实施方式中，RNA接头、DNA接头或两者不具有用于产生RNA标签或DNA标签的限制性内切酶识别位点。

在某些实施方式中，第一、第二、第三和第四多核苷酸中的一个或多个是DNA(例如，全部是DNA)，或包含DNA和RNA核苷酸两者。在其它实施方式中，它们中任一个可以是RNA。

在某些实施方式中，第一、第二、第三和第四多核苷酸中的一个或多个可以包含修饰的核苷酸。修饰的核苷酸可以是在5’-端、3’-端和/或内部位置处。

在某些实施方式中，修饰的核苷酸是生物素化的核苷酸如生物素化的dT(脱氧胸苷)。生物素化的核苷酸的存在允许例如通过使用与生物素结合伴体(如抗生物素蛋白或链霉亲和素)偶联的树脂、琼脂糖、纳米颗粒、金属或磁珠来亲和纯化包含一个或多个这种生物素化的核苷酸的多核苷酸。这类珠然后可以通过磁体分离。生物素化的核苷酸可以存在于RNA接头、DNA接头或两者中。这一技术也可以与高通量下一代测序如单分子实时测序(Pacific Bio)、离子半导体(Ion Torrent测序)、焦磷酸测序(454)、通过合成测序(Illumina)、通过连接测序(SOLiD测序)、聚合酶克隆测序(polony测序)、大规模平行签名测序(MPSS)、DNA纳米球测序、Heliscope单分子测序组合，或者可以采用有色珠或用于基于激光或FACS的分选的其它抗体与Luminex-型系统一起使用。

在某些实施方式中，修饰的核苷酸增强随机序列引物通过逆转录合成第一链cDNA的能力，如通过增强随机引物与ncRNA的3’-末端之间杂交的稳定性和/或特异性。

在某些实施方式中，随机引物序列可以包括至少一个含有天然存在的DNA和RNA中发现的常规2’-脱氧-D-核糖或D-核糖以外的糖的核苷酸，如其中糖通过侧基的添加或取代修饰的或者其中糖是天然存在的DNA和RNA中发现的常规2’-脱氧-D-核糖或D-核糖的立体异构体的核苷酸或这两者。参见美国专利No.6,794,142(通过引入并入本文)。这样的修饰的核苷酸可以在随机引物序列的3’-末端处或靠近随机引物序列的3’-末端。在一个实施方式中，修饰的随机引物序列基本上由其中三个3′末端核苷酸中的至少一个是选自2′-O-甲基-核苷酸、2′-氨基-核苷酸和2′-氟-核苷酸的修饰核苷酸的寡核苷酸组成。在一个实施方式中，修饰的引物序列基本上由其中三个3′末端核苷酸中的至少一个是选自2′-O-甲基-核糖核苷酸、2′-脱氧-2′-氨基-核苷酸和2′-脱氧-2′-氟-核苷酸的修饰核苷酸的寡核苷酸组成。这些修饰代表向2′OH添加一个部分或者2′-OH被可选的部分替代。

在某些实施方式中，随机引物序列包含一个或多个LNA或PNA。RNA中通常热力学稳定的结构片段如发夹的存在可能使得几乎不可能完成引物延伸。用LNA-修饰的引物替代DNA引物可以克服这一限制(参见Fratczak等,Biochemistry,48(3):514-6,2009；Uppuladinne等,Biomol.Struct.Dyn.,31(6):539-60,2013)。

其它修饰的核苷酸，如赋予核苷酸间键对核酸酶降解的抗性的硫代磷酸酯(或磷硫酰，具有一般化学式PS_4-xO_x ^3-(x＝0、1、2或3)的化合物和阴离子家族)修饰、吗啉代寡核苷酸、2’F-ANA、2’-O-alkyl等，也可以引入接头中以增强接头的稳定性和耐核酸酶能力。参见Verma&Eckstein,“Modified oligonucleotide:synthesis and strategy for users,”Annu.Rev.Biochem.,67:99-134,1998(通过引入并入本文)。

在某些实施方式中，RNA接头和/或DNA接头可以包含区分RNA接头与DNA接头或者区分RNA/DNA接头与其它RNA/DNA接头(例如，当一起使用两组或更多组RNA接头时)的独特序列(例如，“条码”)。例如，第一和/或第二双链区域可以包含区分RNA接头与DNA接头的独特序列。这种条码可以简单地是独特序列的小延伸片段，如2-、3-、4-、5-、6-、7-、8-、9-、10-核苷酸的序列(或更多)。在某些实施方式中，RNA接头和DNA接头的序列中的差异可能足以区分RNA接头与DNA接头。在某些实施方式中，仅RNA接头或仅DNA接头具有独特序列/条码。在某些实施方式中，RNA接头和DNA接头两者具有其相应的独特序列/条码。

在某些实施方式中，第一多核苷酸是去磷酸化的。在某些实施方式中，第二多核苷酸是去磷酸化的。在某些实施方式中，第三多核苷酸是去磷酸化的。在某些实施方式中，第四多核苷酸是去磷酸化的。去磷酸化可以帮助避免多核苷酸或DNA/RNA接头的自身连接，如通过两个DNA接头的平端的自身连接，其各自可以连接于相同染色质片段中的染色体DNA片段。另外，如果接头或接头的可连接末端去磷酸化，则预期接头不太可能连接以形成接头的二聚体或串联体。此外，预期DNA接头可以连接于染色体DNA分子的磷酸化末端，但不能连接以将染色体DNA分子的末端连接到一起，除非它们磷酸化。

在可选的实施方式中，第一和第二多核苷酸可以杂交并形成在一端具有包含第一多核苷酸的随机引物序列的3’-悬端和在另一端具有包含限制性内切酶的识别位点的第一连接相容位点的RNA接头。类似地，第三和第四多核苷酸可以杂交并形成在一端具有用于连接于染色体片段的自由端的平端和在另一端具有包含相同限制性内切酶的识别位点或者产生相容的可连接末端的相容限制性内切酶的识别位点的第二连接相容末端的DNA接头。因此，限制性内切酶和/或其相容性RE的消化产生可用于连接DNA和RNA接头的悬端(可以是3’或5’悬端)。

在这一实施方式中，在限制性内切酶消化之前，DNA和RNA接头的末端可能不是可连接的(例如，RNA接头可以具有5’悬端且DNA接头可以具有3’悬端的平端，反之亦然)，且这样的末端可以进一步去磷酸化。在RE消化后，在DNA和RNA接头末端处产生可连接的末端，具有适当的磷酸化。DNA和RNA接头的可连接末端然后可以连接。限制性消化后的可连接末端可以是平端，或具有带5'或3'悬端的粘端。特别地，可以使用很少切割的限制性内切酶以降低在不希望的位置处切割核酸材料和/或产生非常短的片段的可能性。

所述多核苷酸可以通过任何合适的方法制备，包括通过如Narang等,1979,Meth.Enzymol.,68:90-99的磷酸三酯方法、如Brown等,1979,Meth.Enzymol.,68:109-151的磷酸二酯方法、如Beaucage等,1981,Tetrahedron Lett.,22:1859-1862的二乙基亚磷酰胺方法和美国专利No.4,458,066的固相载体方法的方法进行的直接化学合成，各文献通过引入并入本文。寡核苷酸和修饰的核苷酸的偶联物的合成方法的综述提供在Goodchild,1990,Bioconjugate Chemistry,1(3):165-187中，其通过引入并入本文。

用于实施本发明的方法的一种或多种另外的试剂也可以包括在本发明的试剂盒中。

在某些实施方式中，试剂盒还包含交联蛋白质和多核苷酸的试剂，如甲醛(例如，1％甲醛)。

在某些实施方式中，试剂盒还包含特异性或选择性地结合染色质的组分(例如，组蛋白或特定的目标cRNA)的亲和试剂。例如，亲和试剂可以是抗体(如单克隆抗体)或其任何功能性抗原结合片段或衍生物。亲和试剂也可以是与染色质的多核苷酸组分杂交/结合的多核苷酸(如反义多核苷酸)。反义多核苷酸可以被标记以利于后续捕获反义多核苷酸和其互补靶序列之间形成的杂交复合物。例如，标记可以是可由抗生物素蛋白或链霉亲和素包被的珠捕获的生物素标记(如生物素化的U或T)。反义多核苷酸也可以固定在可包装在柱中或用于亲和捕获互补靶序列的批混合物中的固相载体上，如微珠或纳米颗粒的表面上。

在某些实施方式中，试剂盒还包含将含有损伤的或不相容的5’-和/或3’-突出端的DNA转化为5’-磷酸化的平端DNA的末端修复混合物。这类试剂容易商购获得，如来自Epicentre的End-It^TM DNA End-Repair Kit。

在某些实施方式中，试剂盒还包含DNA连接酶(例如，各种商业来源的T4DNA连接酶，如New England Biolabs(NEB))。

在某些实施方式中，试剂盒还包含逆转蛋白质和多核苷酸的交联的试剂(例如，各种商业来源的蛋白酶K，如New England Biolabs(NEB))。

在某些实施方式中，试剂盒还包含第一和/或第二限制性内切酶，及任选地RE消化所需的任何合适的缓冲剂或辅因子。

在某些实施方式中，试剂盒还包含用于PCR扩增平端双链DNA的一对串联的连接体。连接体可以包含可用于串联化的限制性内切酶位点，且可以包含适合用于PCR扩增的PCR引物序列。

在某些实施方式中，试剂盒还包含用于PCR扩增的Taq DNA聚合酶或其它形式的扩增(例如，滚环扩增)需要的其它DNA聚合酶。

在某些实施方式中，试剂盒还包含用于第一链cDNA合成的逆转录酶。

本发明的另一方面提供包含含有通过第一和第二连接相容末端连接的第一和第二双链区域的中心区域的末端配对标签(PET)多核苷酸，所述中心区域(1)在接近第一双链区域的位点处侧接非编码RNA(ncRNA)的序列标签；和(2)在接近第二双链区域的位点处侧接基因组DNA的序列标签。

这样的PET多核苷酸包含RNA标签和DNA标签两者。其各源自相应ncRNA和基因组DNA的末端序列(末端配对标签)。总之，末端配对标签代表所观察到的其中ncRNA和基因组DNA片段在染色体片段中彼此紧密接近的事件或事项。

在某些实施方式中，非编码RNA(ncRNA)的序列标签具有由第一限制性内切酶的消化产生的自由端。

限制性内切酶可以是以上描述的任一种，如II型RE(IIS、IIB、IIG型等)、I型RE或III型RE，其可以在它们的识别位点之外消化。可选地，自由端可以通过对应于ncRNA的cDNA上天然存在的RE位点产生。优选地，RE基于中心区域的序列进行选择以使得RE不切割中心区域内部而破坏连接的DNA接头和RNA接头的结构。

在某些实施方式中，ncRNA的RNA序列标签或基因组DNA的DNA序列标签具有由物理剪切产生的自由端，如通过超声处理、水力剪切(hydroshearing)、经皮下注射针的重复抽吸等的剪切。

在某些实施方式中，ncRNA的RNA序列标签或基因组DNA的DNA序列标签具有由非特异性核酸内切酶的有限消化产生的自由端，如Micrococcal Nuclease(NEB目录M0247S)、DNase I(NEB目录M0303S)或从双链DNA的一端逐步消化的核酸外切酶，或者核酸内切酶和核酸外切酶的组合(例如，Exonuclease III和Mung Bean Nuclease)以减小交联的基因组DNA或ncRNA的cDNA的平均长度。消化的程度可以通过限制酶或底物浓度、消化的温度和/或pH、辅因子的可用性或其组合进行控制。合适的消化条件可以使用限定长度的标准底物和在消化之前和之后检验消化产物(通过CE(毛细管电泳)的电泳等)来预测试。

RNA或DNA序列标签的长度应当足以唯一地鉴别ncRNA从其转录的或基因组DNA位于其中的基因组区域。例如，非编码RNA(ncRNA)的RNA序列标签和/或DNA序列标签长度对于高等真核生物的相对复杂的基因组可以为约10-100碱基对(或15-50bp、20-40bp、20-30bp、20-25bp)，但对于细菌或低等真核生物的相对简单的基因组可以较短(例如，6-10bp、8-10bp、8-12bp)。

在相关的方面中，本发明提供末端配对标签(PET)多核苷酸文库，包含两个或更多个所述PET多核苷酸的成员，其中PET文库的各成员包含相同的中心区域及非编码RNA(ncRNA)的不同RNA序列标签、基因组DNA的不同DNA序列标签或两者。

在再另一相关的方面中，本发明提供包含所述PET多核苷酸的载体或重组载体。

在某些实施方式中，载体包含多个串联的所述PET多核苷酸。

本发明的另一方面提供鉴别基因组内基因组的非编码RNA(ncRNA)的功能性相互作用位点的方法，该方法包括：(1)提供包含交联的基因组DNA片段和交联的ncRNA的染色质片段；(2)在用于邻位连接的条件下使用本发明的RNA接头和DNA接头连接交联的基因组DNA片段的末端与交联的ncRNA的cDNA的末端，其中交联的基因组DNA片段的末端连接于DNA接头，且交联的ncRNA的cDNA的末端包含RNA接头；(3)分离本发明的PET多核苷酸用于测序分析；和(4)将各PET多核苷酸内的基因组DNA的序列标签和ncRNA的序列标签映射到基准基因组，从而鉴别基准基因组内基准基因组非编码RNA(ncRNA)的功能性相互作用位点。

在某些实施方式中，本发明的方法使用活细胞进行，如组织培养细胞或从新切割的组织分离的细胞。在某些实施方式中，活细胞中的ncRNA和基因组DNA通过甲醛-和/或EGS(乙二醇双[琥珀酰亚胺基琥珀酸酯])-介导的交联进行交联。也可以使用适合于交联蛋白质-DNA、蛋白质-RNA和/或蛋白质-蛋白质的其它相似的双官能交联试剂(例如，具有两个或更多个适合于与酰胺和/或巯基基团反应的反应性化学基团的那些)。如果使用EGS，两个NHS-酯之间的间隔体区域可以是12-原子的间隔体，虽然也可以使用更长或更短的间隔体(例如，6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个原子的间隔体)。

如果使用甲醛或EGS(通常约1-2mM或1.5mM)，可以首先添加EGS，接着添加(约1％)甲醛。反应可以通过甘氨酸淬灭。可选地，可以使用约1％甲醛或约1％戊二醛。

在其它实施方式中，核酸通过UV交联与染色质交联。例如，组织培养细胞可以在254nm下以约150mJ/cm²UV交联(例如，通过使用UV交联剂，如

UV交联剂)。

例如，约1-2×10⁸活组织培养细胞或分离的细胞可以首先收集并在振摇条件下用EGS进行交联40min，然后用甲醛(约1％终浓度；Sigma)在室温下交联10分钟。

可以添加蛋白酶抑制剂和/或RNase抑制剂以防止非特异性的蛋白酶或RNase消化。

细胞然后在合适的裂解缓冲液(例如，50mM HEPES,1mM EDTA,0.15M NaCl,1％SDS,1％Triton X-100,0.1％脱氧胆酸钠，均来自Ambion)中裂解。

一旦交联步骤完成，各种方法可以用于产生包含交联的基因组DNA和ncRNA的染色质片段。

例如，在某些实施方式中，染色质片段通过物理剪切产生，如超声处理、水力剪切、经皮下注射针的重复抽吸。超声处理对于将染色质纤维破裂成与RNA、DNA和蛋白质组分的系留复合物而同时“摆脱”欺骗的、随机的或弱的ncRNA-染色质-DNA相互作用可能是有利的。

可选地，在某些实施方式中，染色质片段可以通过限制性内切酶消化或者在受控的条件下的部分或有限的核酸内切酶和/或核酸外切酶消化来产生，以产生合适长度的RNA和DNA标签。

为产生包含交联的基因组DNA片段和交联的ncRNA的染色质片段，染色质可以通过超声处理溶解(例如，使用以20％占空功率输出运行的Branson 450超声波细胞粉碎机，30秒，5-8次；或者使用以35％功率运行的探头超声波破碎仪1.5min，20sec开/30sec关的循环)。

其它商业可得的仪器可用于超声处理。例如，来自Covaris,Inc.的S220Focused-超声发生器利用Adaptive Focused Acoustics^TM(AFA)技术用于DNA、RNA和染色质剪切。按照制造商，其软件整合了用于标准方法如DNA剪切到特定片段长度的各种预设的方案。可选地，

UCD-200(Life Technologies Corp.)，一种台式超声设备，也可以用于超声剪切。该设备由位于水浴之下的高功率超声发生元件组成，并以20kHz频率(类似于探头超声破碎仪)运行以提供适合于标准化方案如ChIP、MeDIP等的自动化超声处理步骤。

一旦剪切，染色质稀释(例如，10倍)以降低SDS浓度(例如，到约0.1-0.5％)。提取物然后通过离心(例如，在4℃下以14,000rpm离心10分钟)澄清。这一提取物可以储存在-80℃直到使用。

如果希望免疫沉淀，约2μg的单克隆抗体(对于染色质组分特异性的)可以结合于蛋白质G琼脂糖(Pharmacia)。抗体包被的珠然后在4℃下与染色质提取物孵育16小时。珠然后洗涤(例如，用来自Sigma Chemical Company的以下试剂：洗涤缓冲液1(50mM HEPES,1mMEDTA,0.15M NaCl,0.1％SDS,1％Triton X-100,0.1％脱氧胆酸钠)；2倍洗涤缓冲液2(50mMHEPES,1mM EDTA,0.5M NaCl,0.1％SDS,1％Triton X-100,0.1％脱氧胆酸钠)；1倍洗涤缓冲液3(20mM Tris.HCl pH 8.0,1mM EDTA,0.25M LiCl,0.5％NP40,0.5％脱氧胆酸钠)；1倍洗涤缓冲液4(20mM Tris.HCl pH 8.0,1mM EDTA)。蛋白质-DNA复合物然后在65℃下用洗脱缓冲液(例如，50mM Tris.HCl pH 8.0,1mM EDTA,1％SDS)从珠洗脱20min。洗脱液然后在PBS(Ambion)中透析以除去SDS(例如，4℃下3小时)。

任选地，染色质片段也可以生物素化(例如，通过使用EZlink Iodoacetyl-PEG2-Biotin(IPB)(Thermo Scientific,cat.21334))，并作为链霉亲和素珠-结合的染色质片段分离。例如，具有链霉亲和素的

(

MyOne^TM链霉亲和素C1/T1)可以用于富集生物素化的染色质片段。

另外，具有二氧化硅样涂层的珠可以用于富集染色质片段上的交联的核酸。

在剪切或RE消化后，染色质片段可以具有损伤的末端或另外地不适合与DNA接头连接的末端。因此，末端修复可以按照制造商的建议使用例如来自Epicentre的End-It试剂盒或T4聚合酶(Promega,R0191)进行。

第一链cDNA合成可以使用逆转录酶和RNA接头(或在以下第二特定实施方式中的修饰的RNA接头)进行，如Superscript III First Strand Synthesis System(LifeTechnologies,cat.18080051)。

在其平端具有5’磷酸化的修复的染色质DNA然后可以用于与DNA接头连接。这可以使用RNA接头在用于逆转录的相同容器中完成，条件是提供用于DNA连接的适当缓冲液和其它反应条件。DNA连接酶如T4DNA连接酶可以用于这一反应。如果需要，去磷酸化的DNA接头然后可以磷酸化(例如，通过T4多核苷酸激酶)。

在某些实施方式中，使用RNA接头进行第一链cDNA合成(在DNA接头连接之前或之后或者与之同时)。

在某些实施方式中，交联的ncRNA的cDNA包含从RNA接头的随机序列引物和ncRNA模板逆转录的第一链cDNA。由于RNA接头的存在，这种第一链cDNA和ncRNA模板杂合分子可以连接于DNA接头，该DNA接头早已与染色体DNA片段的自由端连接。

一旦RNA接头和DNA接头已与其相应的靶核酸末端连接，可以进行邻位连接以连接相同染色质片段上的DNA接头和RNA接头。邻位连接通常在稀释的环境下进行以使得相同染色质片段上的RNA和DNA接头的连接与不同染色质片段上的RNA和DNA接头相比由于其彼此接近而可能性高得多。

在某些实施方式中，邻位连接相对于接头连接步骤用约2、3、4、5、6、7、8、9、10、12、13、14、15、16、70、18、19、20-倍或更高倍稀释进行。

在某些实施方式中，邻位连接对于源自约1×10⁸个人细胞的各等同量的捕获染色质片段在约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20mL或更大的总连接体积中进行。连接体积可以基于细胞类型(例如，来源物种或基因组大小)相应地调整。

邻位连接条件可以按照需要改变或调整以最大化DNA和RNA接头的连接。任何连接条件可以改变或调整，包括但不限于增加或减少连接反应的时间和/或试剂的浓度。换句话说，连接反应进行调整或改变以最大化与相同染色质片段交联的单独核酸分子的分子间连接。特别地，连接可以在非常稀的核酸分子的条件下进行以最大化不同核酸分子的末端的连接和减少循环多聚体的形成。

在某些实施方式中，该方法包括评估与不同染色质片段交联的基因组DNA和ncRNA之间的不希望的或假阳性连接事件的程度或频率。在理想的邻位连接条件下，仅与相同染色质片段交联的基因组DNA和ncRNA会连接。

例如，一组DNA和RNA接头(例如，接头组A)可以用于分别连接于一个反应容器中的基因组DNA和RNA末端。同时，第二组DNA和RNA接头(例如，接头组B)可以用于分别连接于第二反应容器中的基因组DNA和RNA末端。两个反应容器的内容物然后汇合用于邻位连接。如果接头组A中的RNA接头可以连接于两个接头组中的DNA接头(且接头组A中的DNA接头可以连接于两个接头组中的RNA接头)，则如果在组A和B的接头之间没有或有非常少见的连接(例如，组A中的RNA接头连接于组B中的DNA接头)，邻位连接条件是最佳的。相反，如果组A和B的接头之间存在显著的连接，邻位连接条件不是最佳的。

在某些实施方式中，接头组A和B中的RNA和DNA接头的比率可以进一步调节(例如，不必然是1:1)。例如，接头组A中RNA和DNA接头的摩尔比与接头组B中的摩尔比相比可以是2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1，反之亦然。

在某些实施方式中，本发明的第一、第二、第三和/或第四多核苷酸是去磷酸化的且DNA接头或RNA接头不自身连接。

第二链cDNA合成可以使用例如Superscript Double-stranded cDNA SynthesisKit(Life Technologies,cat.1197-020)在RNA接头-DNA接头连接之前或之后完成。在某些实施方式中，第二链cDNA合成在邻位连接之后但在步骤(3)之前进行。

在某些实施方式中，DNA聚合酶如T4DNA聚合酶可以在第二链cDNA合成后添加。

接下来，染色质片段的交联的核酸和蛋白质组分可以用蛋白酶K反交联。在典型的反应条件中，例如，样品可以作为20μl等分试样通过在15μl的20mg/ml蛋白酶K(Ambion)和任选地0.3％SDS(Ambion)存在下在65℃下孵育过夜来反交联。第二天，约1μL的10mg/mlRNase A(Qiagen)可以添加以降解RNA(例如，37℃下45min)，接着进行DNA的酚提取和乙醇沉淀。

任选地，至少一种连接的和反交联的核酸分子的纯化或富集可以使用包含至少两种组分的结合系统来进行，其中至少一种第一组分与接头偶联(例如，并入例如RNA或DNA接头中的生物素化的核苷酸)，且至少第二组分结合第一组分。该组分包括但不限于链霉亲和素-生物素、抗生物素蛋白-生物素、蛋白质-抗体和/或磁体/磁性材料。

特别地，生物素化接头连接的核酸材料可以使用链霉亲和素珠纯化，如链霉亲和素偶联的磁性Dynabeads^TM(Life Technologies,cat.11206D-10ML)。仅含有生物素化接头的核酸材料被固定在链霉亲和素珠上。如果另一组分与所使用的接头结合，可以使用适合于该组分的纯化核酸分子的其它系统。

可选地，可以改为使用链霉亲和素柱来捕获生物素化的珠。在再另一替代方式中，珠可以是彩色的或荧光涂覆的以使得它们可以通过FACS等在基于流动的检测仪器(例如，

100^TM、

200^TM或

型分析仪)上分选或收集。

最终释放的DNA可以用于通过例如RE酶消化产生具有配对的DNA和RNA标签的PET多核苷酸。任选地，释放的PET多核苷酸可以在测序分析之前进一步通过PCR扩增。PCR连接体可以在进行PCR扩增之前连接于PET多核苷酸的两个末端(如通过T4DNA连接酶)。仅平端的非环化核酸可以连接于连接体。自身连接的核酸分子和环状多聚体不能连接于连接体。

PCR连接体也可以包含用于PCR产物纯化的修饰的核苷酸。类似地，链霉亲和素-生物素、抗生物素蛋白-生物素、蛋白质-抗体和/或磁体/磁性材料可以用于这一目的。

PET多核苷酸(具有或不具有扩增)可以直接测序，如按照用于各种下一代测序的方案，如使用454多重测序分析仪(454life sciences)的454测序分析。该技术在Margulies等(2005)和美国申请No.20030068629中教导(两者通过引入并入本文)。任何其它高通量或下一代测序分析(NGS)方法可以用于确定PET多核苷酸的序列。

所获得的RNA/DNA标签序列到其相应的基因组位置的映射可使用多种商业可得的工具、软件或服务中的任一种来进行。

一旦PET多核苷酸的RNA和DNA标签被测序和映射到基准基因组，各连接的RNA标签和DNA标签代表推定的ncRNA-染色质相互作用。所有这类观察到的相互作用的集合构成基准基因组内基准基因组的非编码RNA(ncRNA)的功能性相互作用位点。

在某些实施方式中，该方法进一步包括鉴别具有基因组DNA的重叠序列标签和ncRNA的重叠序列标签的两个或更多个PET多核苷酸的簇。

PET簇被认为是高可信度的数据，反映了更可靠的ncRNA-染色质相互作用事件的重复检测。相反，没有RNA标签和DNA标签两者上与其它PET序列的重叠的单态PET可以代表弱连接信号，且可以与随机背景噪声区别开。

在某些实施方式中，该方法进一步包括排除包含rRNA的序列标签的PET多核苷酸。虽然一些rRNA-染色质-gDNA(基因组DNA)相互作用可以具有真正的生物学意义，大量(在一些数据集中约1/4)的rRNA-染色质-DNA相互作用的存在可能掩盖其它较不丰富的相互作用。因此，在进一步的数据分析之前的这种数字减除(digital subtraction)对于分析较低频率的ncRNA-染色质相互作用可能是希望的。

在某些实施方式中，该方法进一步包括在邻位连接步骤之前分离或富集染色质片段的亚集。例如，染色质片段的亚集可以通过使用对于染色质片段亚集的蛋白质组分特异性的抗体的免疫沉淀或通过使用对于染色质片段亚集的核酸组分特异性的(标记的)多核苷酸的杂交来分离或富集。这可能可用于鉴别已知染色质组分和ncRNA之间的特定相互作用。

在某些实施方式中，蛋白质组分是组蛋白、转录因子(如一般转录因子RNAPII、RNAPI、RNAPIII)、重构染色质的多梳(PcG)家族蛋白(如EZH2及来自昆虫、哺乳动物和植物的其它因子)；重组参与因子(如PRDM9)；染色质隔离子或染色质waver(如CTCF)；甲基-CpG-结合蛋白质(如MeCP2)或RNA结合蛋白。

在该方法的变型中，特定的标记ncRNA(如生物素化(biotyinylation))可以在交联之前添加到细胞。这类标记的ncRNA可以通过使用抗生物素蛋白或链霉亲和素包被的磁珠来分离或富集。

在该方法的再另一变型中，一种或多种特定的目标ncRNA的互补序列可以用于分离或富集与染色质片段交联的这类特定ncRNA(使用阵列或柱)。一旦分离或富集，这样的染色质片段可以经受该方法的剩余步骤以鉴别与特定ncRNA相互作用的基因组DNA的区域。

在某些实施方式中，该方法进一步包括通过例如，DNA/RNA FISH和免疫荧光分析验证一种或多种观察到的ncRNA-染色质相互作用。例如，如果特定ncRNA与特定基因组位点连接，DNA/RNA FISH和免疫荧光分析可以使用ncRNA进行以确认观察(参见，例如图4B)。

b)修饰的RNA接头

在另一/第二特定实施方式中，本发明的方法可以使用一种修饰的RNA接头(和无DNA接头)进行以连接相同染色质片段中的交联的RNA和染色体DNA。

因此，本发明的另一方面提供修饰的RNA接头，其包含：(i)第一多核苷酸和(ii)第二多核苷酸，其中第一和第二多核苷酸形成侧接基因组DNA连接相容末端和第一多核苷酸3’-末端的3’-悬端的双链区域，其中3’-悬端包含随机序列引物。

按照本发明的这一方面，第一多核苷酸3’-末端的3’-悬端具有与小节a)中描述的特定实施方式(RNA和DNA接头对)中的RNA接头相似的功能，而基因组DNA连接相容末端可用于连接与相同染色质片段交联的平端基因组DNA。

在某些实施方式中，连接相容末端可以是平端的用于直接连接于交联的基因组DNA片段的平端。

在另一实施方式中，连接相容末端可以包含限制性内切酶位点，其可以被RE切割以产生与交联的基因组DNA片段的平端连接所需的必要平端。但是，在通过限制性内切酶切割之前，连接相容末端可以是平端的(例如，去磷酸化的平端以防止自身连接)，或具有防止自身连接的不相容悬端。

在某些实施方式中，修饰的RNA接头不通过其3’-悬端或其连接相容末端自身连接。

第一和第二多核苷酸可以提供在单独容器中，如合成的多核苷酸，其为冷冻干燥的、冻干的形式或者在水或合适的缓冲溶液中。可选地，第一和第二多核苷酸可以组合在相同容器中(冻干的或在溶液中)，例如，以1:1的摩尔比，使得它们可以作为预退火的修饰的RNA接头使用。

第二多核苷酸基本上是同质的或纯的(例如，相同容器中的单个多核苷酸分子是相同的)，而3’-悬端区域中第一多核苷酸的3’-末端包含随机序列引物。

在相关的实施方式中，第一多核苷酸可以在随机序列引物区域处同质地包含相同的匹配序列，以特别地启动从具有限定的3’-末端序列的特定ncRNA的第一链cDNA合成。

在某些实施方式中，双链区域可以包含第一限制性内切酶如II型限制性内切酶(RE)的第一识别位点。RE识别位点可以策略地布置以使得当RE切割时，它在RE位点之外，随机序列引物的3’侧进行切割。这允许产生与RNA接头连接的RNA标签。例如，MmeI识别位点可以设置在双链区域的末端处，接近于包含随机序列引物的3’悬端。MmeI位点设计为其定向使得在MmeI切割时，在源自连接的ncRNA的cDNA中产生具有2bp悬端的包含18-bp片段的RNA标签。但是，RE位点的设置不需要在第一双链区域的末端处。更内部的设置产生相应更短的RNA标签序列。

在某些实施方式中，双链区域可以在连接相容末端处或靠近连接相容末端包含用于第二限制性内切酶如II型限制性内切酶(RE)的第二识别位点。RE可以切割第二RE识别位点的3’侧和第一多核苷酸的5’侧(例如，在连接的基因组DNA中)。RE识别位点的定向以使得其基于连接的基因组DNA的末端序列产生DNA标签的方式设置。在某些实施方式中，RE位点的设置不需要在双链区域的末端处。更内部的设置产生相应更短的DNA标签序列。

在某些实施方式中，第二识别位点(用于第二(II型)限制性内切酶)的最后一个核苷酸是连接相容末端/平端处的碱基配对的核苷酸。

在某些实施方式中，修饰的RNA接头不具有用于产生RNA标签或DNA标签的限制性内切酶识别位点。

在某些实施方式中，修饰的RNA接头可以包含区分修饰的RNA接头与其它修饰的RNA接头的独特序列(例如，“条码”)。

在某些实施方式中，第一和/或第二多核苷酸是去磷酸化的。

本发明的另一方面提供包含中心区域的末端配对标签(PET)多核苷酸，中心区域包含(修饰的RNA接头的)双链区域，其：(1)在接近随机序列引物的位点处侧接非编码RNA(ncRNA)的序列标签和(2)在接近连接相容末端的位点处侧接基因组DNA的序列标签。

在相关的方面中，本发明提供末端配对标签(PET)多核苷酸文库，其包含两个或更多个所述PET多核苷酸的成员，其中PET文库的各成员包含相同的中心区域及非编码RNA(ncRNA)的不同RNA序列标签、基因组DNA的不同DNA序列标签或两者。

本发明的另一方面提供鉴别基因组内基因组的非编码RNA(ncRNA)的功能性相互作用位点的方法，该方法包括：(1)提供包含交联的基因组DNA片段和交联的ncRNA的染色质片段；(2)使用本发明的修饰的RNA接头在用于邻位连接的条件下连接交联的基因组DNA片段的末端与交联的ncRNA的cDNA的末端，其中交联的基因组DNA片段的末端连接于修饰的RNA接头的连接相容末端，且交联的ncRNA的cDNA的末端包含修饰的RNA接头；(3)分离本发明的PET多核苷酸用于测序分析；和(4)映射各PET多核苷酸内的基因组DNA的序列标签和ncRNA的序列标签到基准基因组，由此鉴别基准基因组内基准基因组的非编码RNA(ncRNA)的功能性相互作用位点。

在某些实施方式中，交联的ncRNA的cDNA包含从修饰的RNA接头的随机序列引物和ncRNA模板逆转录的第一链cDNA。由于修饰的RNA接头的存在，这种第一链cDNA和ncRNA模板杂合分子可以连接于染色体DNA片段的自由端。

在某些实施方式中，修饰的RNA接头上双链区域的长度为约6、7、8、9、10、15、20、25、30、35、40、50、60或更多个碱基对。

如小节a)中描述的第一特定实施方式中所述的其它实施方式(RNA和DNA接头对)一般是可应用的，且在此引入(但不重述)。

c)直接RNA-DNA连接

在另一/第三特定实施方式中，本发明的方法可以使用将ncRNA的3’-OH基团直接连接于5’腺苷酸化单链DNA(5’App-ssDNA)(如随后与互补多核苷酸杂交的ssDNA接头)或具有用于直接连接于ncRNA的3’-OH基团的可用作酶的底物的5’腺苷酸化悬端的dsDNA的某些酶(如截短的RNA连接酶2或RNL2)来进行。

因此，本发明还提供连接相同染色质片段中交联的ncRNA的3’-末端和交联的基因组DNA片段的自由端的可选方式。根据本发明的这一方面，提供其5’预腺苷酸化的单链DNA寡核苷酸(5’App ssDNA)。RNA-DNA连接酶(如热稳定的5’AppDNA/RNA连接酶,NEB目录M0319S或M0319L)然后可以用于直接连接ncRNA的3’-OH与5’App ssDNA。

根据制造商，热稳定的5’App DNA/RNA连接酶是来自Methanobacteriumthermoautotrophicum的RNA连接酶的催化性赖氨酸的点突变体(Zhelkovsky和McReynolds,BMC Mol.Biol.,13:24,2012)。这种酶是非ATP依赖性的，但需要5’预腺苷酸的接头用于连接于RNA或单链DNA(ssDNA)的3’-OH末端。酶也具有将具有2’-O-甲基化3’末端的RNA连接于5’-腺苷酸化接头的活性(Zhelkovsky和McReynolds，同上)。突变体连接酶不能使RNA或ssDNA的5’-磷酸腺苷酸化，这减少不希望的连接产物(串联体和圆环)的形成。连接酶在65℃下发挥功能的能力可以进一步减少RNA连接反应中RNA二级结构的限制。

用于本发明的这一实施方式的另一种合适的连接酶是RNA连接酶2，如来自BiooScientific(Austin,TX)的AIR^TM RNA连接酶2(RNL2)，其特异性地将连接体的腺苷酸化5’末端连接于RNA的3’末端。类似地，酶不需要ATP来进行连接，但确实需要腺苷酸化的底物，这急剧地减少随机RNA分子之间连接的量。连接酶是T4RNA连接酶2的截短形式。与全长RNA连接酶2不同，AIR^TM连接酶在不存在腺苷酸化底物的情况下不连接RNA或DNA的磷酸化的5′末端。

可选地，T4RNA连接酶1(NEB Cat.No.M0204S或M0204L)可以用于连接ncRNA 3’-OH与5’磷酰基封端的ssDNA。

一旦ncRNA的3’-末端连接于ssDNA，互补ssDNA可以与连接的ssDNA退火以启动第二链cDNA合成和/或形成适合与相同染色质片段中交联的基因组DNA片段的自由端连接的平端。

在可选的实施方式中，在一端具有平端(或连接相容末端)和在另一端具有5’腺苷酸化悬端(其可以用作上述各种RNA连接酶的单链底物)的dsDNA接头可以首先连接于交联的基因组DNA片段的自由端，之后突出的腺苷酸化5’末端直接连接于ncRNA的3’-OH。

同样地，以上针对连接的RNA接头-DNA接头或修饰的RNA接头描述的所有实施方式或变型一般可应用于在5’App ssDNA和其互补序列之间形成的双链区域。

例如，在某些实施方式中，在5’App ssDNA和其互补序列之间形成的双链区域可以包含一个或多个RE识别位点以利于产生RNA和DNA标签序列。两个MmeI位点可以位于双链区域的两个末端且指导双链区域之外的切割以产生双链区域侧翼的18-20bp RNA和DNA标签。可选地，一个RE位点可以产生RNA标签(或DNA标签)，且DNA标签(或RNA标签)可以通过物理剪切或有限的非特异性酶消化产生(参见上文)。

因此，本发明的另一方面提供直接RNA接头，其包含：(i)第一多核苷酸和(ii)第二多核苷酸，其中第一和第二多核苷酸形成侧接基因组DNA连接相容末端和第一多核苷酸5’-末端的5’-悬端的双链区域。

5’-悬端任选地5’腺苷酸化，或可以通过5’DNA腺苷酸化试剂盒(Cat.No.E2610S或E2610L)中合适的酶如Mth RNA连接酶来腺苷酸化。如果RNA连接对于5’-悬端进行，如与作为ssDNA的第一多核苷酸(在其与第二多核苷酸退火之前)相反的，5’-悬端具有足够长度(例如，4、5、6、7、8、9、10、11、12、13、14、15个或更多个碱基)以用作用于直接RNA连接的酶的底物。

在某些实施方式中，连接相容末端可以是平端的以用于与交联基因组DNA片段的平端直接连接。

在另一实施方式中，连接相容末端可以包含限制性内切酶位点，其可以通过RE切割以产生用于连接于交联基因组DNA片段的平端所需的必要平端。但是，在通过限制性内切酶切割之前，连接相容末端可以是平端的(例如，去磷酸化的平端以防止自身连接)，或具有防止自身连接的不相容悬端。

在某些实施方式中，直接RNA接头不自身连接。例如，第一多核苷酸的3’末端可以通过双脱氧核苷酸或其它修饰的核苷酸封闭以防止第一多核苷酸的自身连接(自身环化)。在RNA-DNA连接完成时，封闭的第一多核苷酸的3’末端变成连接相容末端的部分，且可以通过RE消化切除掉以产生用于基因组DNA连接的平端。

在某些实施方式中，双链区域可以包含用于第一限制性内切酶如II型限制性内切酶(RE)的第一识别位点。RE识别位点可以策略地布置以使得当RE切割时，它在RE位点之外，第一多核苷酸的5’腺苷酸化末端的5’侧进行切割。这允许产生与直接RNA接头连接的RNA标签。例如，MmeI识别位点可以设置在双链区域的末端处，接近第一多核苷酸5’-悬端的5’末端。MmeI位点设计为其定向使得在MmeI切割时，在源自连接的ncRNA的cDNA中产生具有2bp悬端的包含18-bp片段的RNA标签。但是，RE位点的设置不需要在第一多核苷酸的末端处。更内部的设置相应地产生较短的RNA标签序列。如果第一多核苷酸用作ssDNA底物(与其5’-悬端用作底物相反)，可以产生较长的RNA标签序列，因为RE位点可以设置在第一多核苷酸的5’-端处。

因此，在某些实施方式中，第一识别位点(用于第一(II型)限制性内切酶)的最后一个核苷酸是第一多核苷酸的5’-端。

在某些实施方式中，双链区域可以在连接相容末端处或靠近连接相容末端包含用于第二限制性内切酶如II型限制性内切酶(RE)的第二识别位点。RE可以切割第二RE识别位点3’侧和第一多核苷酸的3’侧(例如，在连接的基因组DNA中)。RE识别位点的定向以使得其基于连接的基因组DNA的末端序列产生DNA标签的方式排列。在某些实施方式中，RE位点的设置不需要在双链区域的末端处。更内部的设置相应地产生较短的DNA标签序列。

在某些实施方式中，直接RNA接头不具有用于产生RNA标签或DNA标签的限制性内切酶识别位点。

在某些实施方式中，直接RNA接头可以包含区分直接RNA接头与其它直接RNA接头的独特序列(例如，“条码”)。

在某些实施方式中，第二多核苷酸是去磷酸化的。

根据本发明的这一方面产生的PET多核苷酸包含对应于在5’App ssDNA和其互补序列(即，第二多核苷酸)之间形成的双链区域的中心区域。对于该区域不具有特别的序列要求，且区域长度是灵活的(例如，短到几个bp，足够长以支持RNA-DNA连接酶的底物要求和逆转录酶的底物要求)，虽然较长的序列可以用于并入任何希望的RE识别位点、条码序列或修饰的核苷酸(例如，用于亲和纯化的生物素化的核苷酸)。

因此，本发明的另一方面提供包含中心区域的末端配对标签(PET)多核苷酸，该中心区域包含(直接RNA接头的)双链区域，其：(1)在接近第一多核苷酸(5’腺苷酸化的或适合于5’腺苷酸化的)的5’末端的位点处侧接非编码RNA(ncRNA)的序列标签；和(2)在接近连接相容末端的位点处侧接基因组DNA的序列标签。

本发明的再另一方面提供鉴别基因组内基因组的非编码RNA(ncRNA)的功能性相互作用位点的方法，该方法包括：(1)提供包含交联的基因组DNA片段和交联的ncRNA的染色质片段；(2)连接ncRNA的3’-OH与5’预腺苷酸化ssDNA；(3)提供ssDNA的互补序列以形成ssDNA和互补序列之间的双链区域；(4)如果需要，在双链区域的末端处产生平端；(5)在用于邻位连接的条件下连接平端与交联的基因组DNA片段的末端；(6)分离用于测序分析的PET多核苷酸，其中PET多核苷酸包含侧接交联的基因组DNA片段的DNA标签和ncRNA的RNA标签的双链区域；和(7)映射DNA标签和RNA标签到基准基因组，由此鉴别基准基因组内基准基因组的非编码RNA(ncRNA)的功能性相互作用位点。

本发明的可选方面提供鉴别基因组内基因组的非编码RNA(ncRNA)的功能性相互作用位点的方法，该方法包括：(1)提供包含交联的基因组DNA片段和交联的ncRNA的染色质片段；(2)连接ncRNA的3’-OH与具有双链区域的dsDNA的5’预腺苷酸化悬端；(4)如果需要，在5’预腺苷酸化悬端远端的双链区域末端处产生平端；(5)在用于邻位连接的条件下连接平端与交联的基因组DNA片段的末端；(6)分离用于测序分析的PET多核苷酸，其中PET多核苷酸包含侧接交联的基因组DNA片段的DNA标签和ncRNA的RNA标签的双链区域；和(7)映射DNA标签和RNA标签到基准基因组，由此鉴别基准基因组内基准基因组的非编码RNA(ncRNA)的功能性相互作用位点。

在某些实施方式中，ssDNA的互补序列(即，第二多核苷酸)具有与ssDNA相同的长度。在某些实施方式中，互补序列比ssDNA更长或更短，且形成具有突出的3’或5’末端的双链区域。在后一情况中，悬端可以通过酶填补以产生适合连接的平端，或通过产生平端的限制性内切酶从末端切除。RE位点可以工程化到ssDNA的序列中。

在某些实施方式中，直接RNA接头的第一多核苷酸的长度为约6、7、8、9、10、15、20、25、30、35、40、50、60个或更多个碱基。

如分别在小节a)(RNA和DNA接头对)和小节b)(修饰的RNA接头)中描述的第一和第二特定实施方式中描述的其它实施方式一般是适用的，且在此并入(但不重述)。

对于如此描述的本发明的一般方面，以下章节提供与本发明的特定实施方式相关的额外细节及特定量和参数。对于本领域技术人员显而易见的是，本发明可以在不具有这样的细节或具有少量改变的情况下实施而不脱离本发明的一般范围。

2.定义

“非编码RNA(ncRNA)”包括不翻译成蛋白质的RNA分子。较少见地，它也可以称为非蛋白质编码RNA(npcRNA)、非信使RNA(nmRNA)和功能性RNA(fRNA)。它通常是具有编码蛋白质以外的功能的功能性RNA，但一些可以是非功能性的或没有已知的功能。有时，术语小RNA(sRNA)经常用于短的细菌ncRNA。非编码RNA由其转录的DNA序列通常称为RNA基因。

非编码RNA基因包括高度丰富的和功能上重要的RNA，如转移RNA(tRNA)和核糖体RNA(rRNA)，以及如snoRNA(包括scRNA；用于RNA的核苷酸修饰)、snRNA(用于剪接和其它功能)、gRNA(向导RNA；用于mRNA核苷酸修饰)、RNase P(用于tRNA成熟)、RNase MRP(用于rRNA成熟和/或DNA复制)、Y RNA(用于RNA加工和/或DNA复制)、端粒酶RNA(用于端粒合成)、剪接前导序列RNA、SmY RNA(用于mRNA反式剪接)、反义RNA、顺式天然反义转录物、microRNA(用于基因调节)、siRNA(包括反式作用siRNA；用于基因调节)、exRNA和piRNA(包括重复相关siRNA；用于转座子防御及可能的其它功能)的RNA，7SK RNA(用于负向调节CDK9/细胞周期蛋白T复合体)及包括如Xist和HOTAIR的实例的长ncRNA。人基因组内编码的ncRNA的数目是未知的，但最近的转录组和生物信息学研究表明数千个ncRNA的存在。由于许多新鉴别的ncRNA未验证其功能，因此有可能许多是非功能性的。

在某些实施方式中，本发明的ncRNA不包括一种或多种上面提及的种类。例如，在某些实施方式中，本发明的ncRNA不包括rRNA。在某些实施方式中，本发明的ncRNA不包括tRNA。在某些实施方式中，本发明的ncRNA不包括tRNA。

“限制性内切酶(RE)”和“限制性核酸内切酶”在本文中可互换使用以包括切割双链DNA的酶。酶通常在称为“限制性位点”或“RE识别位点”的特定识别核苷酸序列处、之内或附近(例如，约几个碱基至约几千碱基)形成两个切口，一个切口通过双重螺旋的磷酸酯骨架中每一个而不损伤碱基。

限制性内切酶一般分类为三个类型，其不同在于其结构及其是否在其识别位点处切割其DNA底物，或者是否识别和切割位点彼此分离。迄今超过3000种限制性内切酶已详细研究，且它们中超过600个是商业可得的，其中许多常规地用于分子生物学中的DNA修饰和操作。

I型限制性内切酶切割与其识别位点不同且距其识别位点随机距离(至少1000bp)的位点。I型限制性内切酶识别位点是不对称的，且由被非特异性的约6-8个核苷酸的间隔体分隔的两个特定部分(一个包含3-4个核苷酸和另一个包含4-5个核苷酸)构成。这些酶是多功能的且能够具有限制性内切和修饰活性(取决于靶DNA的甲基化状态)。水解腺苷三磷酸的辅因子S-腺苷甲硫氨酸(AdoMet)和镁(Mg²⁺)因子是其完全活性所需要的。

典型的II型限制性内切酶是同型二聚体，具有通常未分开的、回文结构的4-8核苷酸长度的识别位点。它们在相同位点识别和切割DNA，且它们不使用ATP或AdoMet以获得其活性–它们通常仅需要Mg²⁺作为辅因子。最近，产生了新的亚族命名(使用字母后缀定义)以基于与II型酶的典型特征的偏离将这一大的家族分成亚类。例如，IIB型限制性内切酶(例如，BcgI和BplI)是需要AdoMet和Mg²⁺辅因子两者的多聚体，且它们在其识别位点的两侧切割DNA以切开识别位点。IIE型限制性核酸内切酶(例如，NaeI)在与两个拷贝的其识别序列相互作用后切割DNA。一个识别位点用作切割的靶标，而另一个用作加速或提高酶切割效率的变构效应子。与IIE型酶相似，IIF型限制性核酸内切酶(例如，NgoMIV)与两个拷贝的其识别序列相互作用，但同时切割两个序列。IIG型限制性核酸内切酶(Eco57I)确实具有单一亚基，如同典型的II型限制性内切酶，但需要辅因子AdoMet来使其成为活性的。IIM型限制性核酸内切酶如DpnI能够识别和切割甲基化的DNA。IIS型限制性核酸内切酶(例如，FokI)在距其非回文的不对称识别位点的限定距离处切割DNA。也就是说，IIS型酶在其识别序列之外在一侧切割。MmeI以及大多数IIS型限制性内切酶产生可变的末端长度。Dunn等(2002)证明MmeI可以1:1的大致比例切割18/20或19/21个碱基。因此，当18/20用于描述MmeI限制性切割位点时，也应考虑19/21。IIT型限制性内切酶(例如，Bpu10I和BslI)由两个不同亚基构成。一些识别回文序列，而其它的具有不对称识别位点。

III型限制性内切酶(例如，EcoP15)识别两个相反定向的单独的非回文序列。它们切割识别位点后约20-30个碱基对的DNA。这些酶包含超过一个亚基并需要AdoMet和ATP辅因子以分别实现其在DNA甲基化和限制性内切中的作用。III型酶识别短的5-6bp长度的不对称DNA序列并切割下游的25-27bp而留下短的单链5’突出物。它们需要存在两个相反定向的非甲基化识别位点来发生限制性内切。

限制性内切酶切割产物可以是平端的或具有带5’或3’悬端的粘性末端，该粘性末端片段可以不仅连接该粘性末端片段原先从其切割的片段，而且也连接具有相容的粘端或粘性末端的任何其它片段。

如本文所用的“核苷酸”包括核苷的磷酸酯-核酸(DNA或RNA)的基础结构单元。两个或更多个核苷酸(例如，2-30、5-25、10-15个核苷酸)的短链有时称为“寡核苷酸”，而较长的链称为多核苷酸，虽然这两个术语之间没有明确的长度限制。术语核苷酸可以与术语“核酸”互换地使用。多核苷酸可以是单链的，或者可以是各条链具有5’末端和3’末端的双链。核酸延伸片段的末端区域可以分别称为5’端和3’端。多核苷酸中的核苷酸可以是天然核苷酸(对于DNA是脱氧核糖核苷酸A、T、C或G，且对于RNA是核糖核苷酸A、U、C、G)，或可以包括修饰的核苷酸，其可以通过例如化学合成并入多核苷酸中。这样的修饰核苷酸可以赋予天然核苷酸中不存在或缺乏的另外的所需性质，且包含修饰的核苷酸的多核苷酸可以用于本发明的组合物和方法中。

术语“引物”或“启动序列”指的是能够在诱导与核酸链互补的引物延伸产物的合成的条件(即在适宜缓冲液中存在四种不同的核苷三磷酸和用于延伸的试剂(例如，DNA聚合酶或逆转录酶)和在合适的温度下)下用作DNA合成的启动点的寡核苷酸。引物可以是单链DNA。引物的适宜长度取决于引物的预期用途，但通常范围为10-50个核苷酸，如15-35个核苷酸。短的引物分子一般需要较低的温度以形成足够稳定的与模板的杂交复合物。引物不需要反映模板核酸的精确序列，但必须充分互补以与模板杂交。用于扩增给定靶序列的合适引物的设计是本领域中公知的且描述于例如本文中引用的文献中。

“探针”一般指的是用于检测靶序列(如CCAT1ncRNA序列或其cDNA)的cDNA或mRNA的至少一部分的存在的核酸分子或与其互补的序列。检测可以通过鉴别探针和分析的靶序列之间的杂交复合物来完成。探针可以连接于固体载体或可检测标记。探针一般是单链的。探针通常包含10-200个核苷酸。探针的特定性质取决于特定用途且在本领域技术人员的测定技能范围内。一般地，探针在高严格性杂交条件下与至少一部分靶cDNA或RNA杂交。

“连接体”指的是待连接的寡核苷酸分子，或其连接于核酸分子的末端。连接体可以用于扩增(具有PCR引物序列的PCR连接体)、测序分析(具有测序引物序列)和/或插入核酸片段到载体(具有合适的克隆序列，如RE识别位点)中。

“串联体”通常由末端-末端连接的至少两个核苷酸单体序列构成，任选地由接头或间隔体分隔。单体可以是序列上相同的或不相同的，但可以具有相似的结构元件(如本发明的RNA和DNA接头)。单体也可以处于相同或不同的定向(例如，串联体内的单体以头对头、头对尾或其混合的方式相互连接。本发明的串联体包含至少两个按照本发明的方法制备的寡核苷酸(例如，PET多核苷酸)。

“文库”包括类似核酸、寡核苷酸或多核苷酸的集合，其中文库的各成员共有一种或多种限定的特征。例如，本发明的PET多核苷酸的文库包含两个或更多个(例如，数万、数十万、数百万、数千万，等等)本发明的PET多核苷酸，其中各PET多核苷酸共有相似或相同的结构但具有不同的DNA和/或RNA标签序列。

“载体”或“重组载体”是指称噬菌体、质粒或能够从一个细胞到另一个细胞转移或扩增其内包含的遗传材料(例如，克隆的遗传信息或克隆的DNA)的其它试剂的本领域公认的术语。这样的载体根据特定的性质和特征可以通过转染和/或转化(如脂质转染、磷酸钙沉淀、逆转录病毒传送、电穿孔和基因枪转化)及本领域可得的任何其它分子生物学技术被引入不同的宿主细胞中。

合适的载体可以包括已通过插入或并入异源遗传序列操作的质粒、病毒载体或本领域中已知的其它媒介。这样的载体可以包含用于合适的宿主扩增的复制原点、可以促进克隆序列的有效转录的启动子序列、用于克隆序列的直接扩增的侧翼PCR引物。载体也可以包含允许转化细胞的表型选择的特定基因。适合用于本发明中的载体包括例如，pBlueScript(Stratagene,La Jolla,Calif.)；pBC、pZErO-1(Invitrogen,Carlsbad,CA)和pGEM3z(Promega,Madison,WI)，或其修饰的载体以及本领域技术人员已知的其它相似载体。参见，例如美国专利No.4,766,072中公开的pGEM载体，其通过引用并入本文。

“染色质”用于描述细胞核中核酸和蛋白质(主要是组蛋白)的复合物，其容易用碱性染料染色且在细胞分裂期间凝缩以形成染色体。染色质是核酸-蛋白质复合物的实例。

如本文中使用的“标签”包括可以唯一地鉴别基准基因组内的序列起源的可鉴别的核酸序列的延伸片段。标签可以具有唯一地或毫无疑义地将标签映射到基准基因组中的一个或几个位置(如一个基因的重复拷贝或具有高序列同一性的相关基因)的足够长度(通常18-20bp，但根据序列组成及基准基因组大小和复杂度等可以更短)。本发明的DNA标签来源于基因组DNA序列。它可以通过例如本发明的DNA接头和RNA接头(或本发明的修饰的RNA接头，或本发明的直接RNA接头)连接于ncRNA或ncRNA的cDNA。本发明的RNA标签来源于ncRNA或从ncRNA逆转录的cDNA。RNA标签可以通过例如本发明的DNA接头和RNA接头(或本发明的修饰的RNA接头，或本发明的直接RNA接头)连接于基因组DNA。

本发明的RNA或DNA标签可以是任何尺寸，但对于其所来源的亲本序列的大小需要是有意义的和有利的。在某些实施方式中，DNA和RNA标签的大小按照基因组复杂性决定。对于细菌基因组，约8bp至约16bp的标签可能是足够的，而对于复杂基因组如人基因组，可以考虑16-20bp的标签。

“接头”通常是对于特定目的设计的人工核酸序列，如将两个多核苷酸连接在一起。本发明的“RNA接头”设计为连接于本发明的DNA接头和连接于从RNA(如交联的非编码RNA)的自由3’-末端合成的cDNA。本发明的“DNA接头”设计为连接于本发明的RNA接头和连接于DNA(如与染色质片段交联的染色体DNA)的自由端。本发明的“修饰的RNA接头”设计为在一端(例如，平端或能够产生平端的连接相容末端)连接于基因组DNA片段和在另一端连接于从RNA(如交联的非编码RNA)的自由3’-末端合成的cDNA。本发明的“直接RNA接头”设计为通过预腺苷酸化5’-末端直接连接于ncRNA的3’-OH和在另一端(例如，平端或能够产生平端的连接相容末端)连接于基因组DNA片段。

“测序”指的是用于确定生物聚合物(在这种情况下，核酸)中成分的顺序的各种方法。可以用于本发明的合适的测序分析技术包括传统的链终止Sanger方法以及可从多个商业来源获得的所谓的下一代(高通量)测序分析，如大规模平行签名测序(或MPSS，LynxTherapeutics/Solexa/Illumina)、聚合酶克隆测序(Life Technologies)、焦磷酸测序或“454测序”(454Life Sciences/Roche Diagnostics)、通过连接的测序(SOLiD测序，Applied Biosystems/Life Technologies)、通过合成的测序(Solexa/Illumina)、DNA纳米球测序、heliscope测序(Helicos Biosciences)、离子半导体或Ion Torrent测序(IonTorrent Systems Inc./Life Technologies)和单分子实时(SMRT)测序(Pacific Bio)，等等。还开发或完善了多种其它的高通量测序方法，其也可用于测序本发明的PET多核苷酸，包括纳米孔DNA测序、通过杂交的测序分析、利用质谱的测序、微流体Sanger测序、透射电子显微镜DNA测序、RNAP测序和体外病毒高通量测序，等等。

在某些实施方式中，测序方法能够从所述PET多核苷酸两侧测序标签，因此提供末端配对标签信息。在某些实施方式中，测序方法能够在可变长度的长DNA片段(如所述PET多核苷酸的串联体)上执行阅读。

“基准基因组”指的是目标生物体的基因组或者ncRNA和基因组DNA所来源的基因组。本发明的方法和组合物应用于其中完整的或基本上完整的序列可得的任何基准基因组，包括多种古细菌或真细菌、原生生物、真菌(例如，酿酒酵母(S.cerevisae)或裂殖酵母(S.pombe))、植物、动物基因组。例如，人、小鼠及多种其它哺乳动物和非哺乳动物物种的基因组序列现在容易地在公开领域中可得。参见，例如Venter等,“The Sequence of thehuamn genome,”Science,291(5507):1304-1351,2001。其它非限制性的基准基因组包括多种非人灵长类、哺乳动物、啮齿动物(大鼠、小鼠、仓鼠、兔等)、家畜(牛、猪、马、绵羊、山羊)、鸟类(鸡)、爬行动物、两栖动物(爪蟾)、鱼(斑马鱼(Danio rerio)、河豚)、昆虫(果蝇、蚊子)、线虫类、寄生虫、真菌(例如，酵母如酿酒酵母或裂殖酵母)、各种植物、病毒(如整合到宿主基因组中的那些)等等的那些。

锁核酸(LNA)是其中LNA核苷酸的核糖部分用连接2'氧和4'碳的额外的桥进行修饰的修饰RNA核苷酸。桥“锁定”核糖在3'-内向构象中。LNA核苷酸可以在任何需要时与寡核苷酸中的DNA或RNA残基混合。这样的寡聚体是化学合成的且商业可得。锁定的核糖构象增强碱基堆叠和骨架预组织化。这显著提高寡核苷酸的杂交性能(解链温度)。

肽核酸(PNA)是与DNA或RNA类似的人工合成的聚合物。PNA寡聚体在与互补DNA的结合中显示更高的特异性，其中PNA/DNA碱基的失配比DNA/DNA双链体中的类似失配导致更高的不稳定。这种结合强度和特异性也适用于PNA/RNA双链体。

本发明的“末端配对标签(PET)多核苷酸”是在一个末端处或靠近一个末端具有源自ncRNA的RNA标签和地另一末端处或靠近另一末端具有源自基因组DNA的DNA标签的多核苷酸，其中ncRNA和基因组DNA优选与相同染色质片段交联。在这个意义上，PET多核苷酸的两个末端处的RNA和DNA标签配对并反映在交联时ncRNA和基因组DNA之间物理接近的事件。

“邻位连接条件”指的是用于多核苷酸连接反应的条件，在该条件下紧密接近的可连接的多核苷酸末端，如与相同染色质片段交联的那些基因组DNA和ncRNA，优先地连接。同时，非紧密接近的可连接多核苷酸末端，如与不同染色质片段交联的那些基因组DNA和ncRNA，不连接或基本上不连接。这样的连接条件包括大体积连接，以使得相同染色质片段上的可连接末端由于其彼此物理接近而使其连接比不同染色质片段上可连接末端之间的连接可能性高得多。

“映射(序列标签到基因组)”包括鉴别基因组中序列标签的基因组位置。

“双功能交联剂/试剂”或“交联剂/试剂”包括具有两个或更多个反应性基团的修饰试剂，各基团能够与一个部分(DNA、RNA或蛋白质)反应，因此在两个部分代表单独的分子时将两个部分交联到一起。这样的双功能交联剂是本领域中公知的(参见，例如Isalm和Dent，Bioconjugation,Chapter 5,pp.218-363,Groves Dictionaries Inc.,New York,1999)。例如，甲醛、戊二醛或其它具有醛反应性基团的类似试剂可以通过亚甲基(-CH₂-)连接来交联蛋白质中的伯氨基与蛋白质或DNA中的其它邻近氮原子。使得能够通过硫醚键实现连接的其它双功能交联剂包括N-琥珀酰亚胺基-4-(N-马来酰亚胺基甲基)-环己烷-1-羧酸酯(SMCC)以引入马来酰亚胺基基团，或者N-琥珀酰亚胺基-4-(碘代乙酰基)-氨基苯甲酸酯(SIAB)以引入碘代乙酰基基团。引入马来酰亚胺基或卤代乙酰基基团到多肽上的其它双功能交联剂是本领域中公知的(参见美国专利申请2008/0050310、2005/0169933，可获自Pierce Biotechnology Inc.P.O.Box 117,Rockland,IL 61105,USA)并包括但不限于双-马来酰亚胺基聚乙二醇(BMPEO)、BM(PEO)₂、BM(PEO)₃、N-(β-马来酰亚胺基丙氧基)琥珀酰亚胺酯(BMPS)、γ-马来酰亚胺基丁酸N-琥珀酰亚胺酯(GMBS)、ε-马来酰亚胺基己酸N-羟基琥珀酰亚胺酯(EMCS)、5-马来酰亚胺基戊酸NHS、HBVS、N-琥珀酰亚胺基-4-(N-马来酰亚胺基甲基)-环己烷-1-羧基-(6-酰胺基己酸酯)(其是SMCC的“长链”类似物(LC-SMCC))、m-马来酰亚胺基苯甲酰基-N-羟基琥珀酰亚胺酯(MBS)、4-(4-N-马来酰亚胺基苯基)-丁酸酰肼或HCl盐(MPBH)、3-(溴代乙酰氨基)丙酸N-琥珀酰亚胺酯(SBAP)、N-琥珀酰亚胺基碘乙酸酯(SIA)、κ-马来酰亚胺基十一烷酸N-琥珀酰亚胺酯(KMUA)、4-(p-马来酰亚胺基苯基)-丁酸N-琥珀酰亚胺酯(SMPB)、琥珀酰亚胺基-6-(β-马来酰亚胺基丙酰胺基)己酸酯(SMPH)、琥珀酰亚胺基-(4-乙烯砜基)苯甲酸酯(SVSB)、二硫代双-马来酰亚胺基乙烷(DTME)、1,4-双-马来酰亚胺基丁烷(BMB)、1,4双马来酰亚胺基-2,3-二羟基丁烷(BMDB)、双-马来酰亚胺基己烷(BMH)、双-马来酰亚胺基乙烷(BMOE)、4-(N-马来酰亚胺基-甲基)环己烷-1-羧酸磺基琥珀酰亚胺基酯(sulfo-SMCC)、磺基琥珀酰亚胺基(4-碘代乙酰基)氨基苯甲酸酯(sulfo-SIAB)、m-马来酰亚胺基苯甲酰基-N-羟基磺基琥珀酰亚胺酯(sulfo-MBS)、N-(γ-马来酰亚胺基丁酰氧基)磺基琥珀酰亚胺酯(sulfo-GMBS)、N-(ε-马来酰亚胺基己酰氧基)磺基琥珀酰亚胺酯(sulfo-EMCS)、N-(κ-马来酰亚胺基十一酰氧基)磺基琥珀酰亚胺酯(sulfo-KMUS)和4-(p-马来酰亚胺基苯基)丁酸磺基琥珀酰亚胺酯(sulfo-SMPB)。

可以用于交联的异源双功能交联剂可以包含胺反应性的N-羟基琥珀酰亚胺基团(NHS基团)和/或羧基反应性的肼基团。这类商业可得的异源双功能交联剂的实例包括琥珀酰亚胺基6-肼基尼克酰胺丙酮腙(SANH)、4-肼基对苯二甲酸琥珀酰亚胺酯盐酸盐(SHTH)和琥珀酰亚胺基烟酸肼盐酸盐(SHNH)。携带酸不稳定键的偶联物也可以使用本发明的携带肼的苯并二氮

衍生物制备。可以使用的双功能交联剂的实例包括琥珀酰亚胺基-p-甲酰基苯甲酸酯(SFB)和琥珀酰亚胺基-p-甲酰基苯氧基乙酸酯(SFPA)。

使得能够通过二硫键交联的其它双功能交联剂是本领域中已知的且包括N-琥珀酰亚胺基-3-(2-吡啶基二硫)丙酸酯(SPDP)、N-琥珀酰亚胺基-4-(2-吡啶基二硫)戊酸酯(SPP)、N-琥珀酰亚胺基-4-(2-吡啶基二硫)丁酸酯(SPDB)、N-琥珀酰亚胺基-4-(2-吡啶基二硫)2-磺基丁酸酯(sulfo-SPDB)以引入二硫吡啶基基团。可以用于引入二硫基团的其它双功能交联剂是本领域中已知的且公开于美国专利6,913,748、6,716,821及美国专利公开2009/0274713和2010/0129314中，其全部通过引入并入本文。可选地，也可以使用引入硫醇基基团的交联剂如2-亚氨基四氢噻吩、同型半胱氨酸硫代内酯或S-乙酰基琥珀酸酐。

上述双功能交联试剂中的两种或更多种可以一起使用以交联染色质片段中的DNA、RNA和蛋白质。

3.限制性内切酶

不需要本发明的DNA和/或RNA接头包含限制性内切酶识别位点。事实上，在某些实施方式中，可能更加希望的是本发明的DNA和/或RNA接头不包含限制性内切酶识别位点。但是，在某些实施方式中，本发明的DNA和/或RNA接头可以包含至少一个RE识别位点如II型RE识别位点(例如，IIS型RE位点)。

一般地，如果RE切割的结果产生所需长度(如10-20bp)的DNA或RNA标签，可以使用本领域中已知的任何RE及其识别位点。识别核酸分子内的至少一个识别位点且可以用于本发明的这类限制性内切酶对于本领域技术人员是明显的，特别是参照本文中提供的指导和说明性实施例时。参见，例如Current Protocols in Molecular Biology,Vol.2,1995,Ed.Ausubel等,Greene Publish.Assoc.&Wiley Interscience,Unit 3.1.15和最新的NewEngland Biolabs Catalog或网站信息，2005及其以后。

可能的限制性内切酶识别位点和识别该限制性内切酶识别位点的相应限制性内切酶的非排他性列表在以下报告。

举例来说，IIS型RE如MmeI可以用于产生侧邻连接的RNA-DNA接头的固定长度DNA或RNA标签。特别地，MmeI识别位点可以设置在RNA或DNA接头的双链区域的末端处，以使得在MmeI切割时，来源于RNA或DNA序列的17-21bp标签序列连接于当前连接的RNA接头和DNA接头。如果一个MmeI位点出现于各RNA和DNA接头中，则两个产生的标签-一个是DNA标签，另一个是RNA标签-侧邻当前连接的RNA接头和DNA接头。两个标签可以另外地通过钝化进行处理以使得可以进行进一步的下游操作如PCR扩增、串联或测序。

可以用于本发明的一些非穷尽的II型限制性内切酶的实例包括：AarI、AceIII、AloI、BaeI、Bbr7I、BbvI、BbvII、BccI、Bce83I、BceAI、BcefI、BcgI、BciVI、BfiI、BinI、BplI、BsaXI、BscAI、BseMII、BseRI、BsgI、BsmI、BsmAI、BsmFI、Bsp24I、BspCNI、BspMI、BsrI、BsrDI、BstF5I、BtgZI、BtsI、CjeI、CjePI、EciI、Eco31I、Eco57I、Eco57MI、Esp3I、FalI、FauI、FokI、GsuI、HaeIV、HgaI、Hin4I、HphI、HpyAV、Ksp632I、MboII、MlyI、MmeI、MnlI、PleI、PpiI、PsrI、RleAI、SapI、SfaNI、SspD5I、Sth132I、StsI、TaqII、TspDTI、TspGWI、TspRI和Tth111II(参见Rebase Enzymes:rebase dot neb dot com slash cgi-bin slashoutsidelist网站中的列表；也参见Szybalski,W.,1985,Gene,40:169)。也可以使用本领域中已知的或以后发现的其它合适的RE酶来实施本发明，其具有能够产生具有所需长度(例如，10-25bp至数百bp)的标签序列的类似性能。

在某些实施方式中，限制性内切酶是IIS型酶。在某些实施方式中，RE产生约10-25bp或15-20bp的DNA或RNA标签序列。在某些实施方式中，RE是MmeI或GsuI。

几种II类限制性内切酶的识别位点和切割位点的其它实例包括(括号中是识别位点和切割位点)：BbvI(GCAGC 8/12)、HgaI(GACGC 5/10)、BsmFI(GGGAC 10/14)、SfaNI(GCATC 5/9)和Bsp I(ACCTGC 4/8)。

也可以使用人工限制性核酸内切酶。这些核酸内切酶可以通过蛋白质工程制备。例如，核酸内切酶FokI已经通过插入工程化以使得其切割在DNA底物的两条链上更远离其识别位点的一个核苷酸。参见Li和Chandrasegaran,Proc.Nat.Acad.Sciences USA,90:2764-8,1993。这样的技术可以应用于制备具有所需识别序列和所需的从识别位点至切割位点的距离的限制性核酸内切酶。

因此，在某些实施方式中，可用于本发明的组合物和方法的RE酶包括人工限制性核酸内切酶，如能够在识别位点之外产生IIS型切割片段的那些。但是，在其它某些实施方式中，可用于本发明的组合物和方法的RE酶不包括人工限制性核酸内切酶。

在某些实施方式中，IIB型限制性内切酶识别位点可以并入设计的DNA和/或RNA接头中。IIB型限制性内切酶(例如，BcgI和BplI)是需要AdoMet和Mg²⁺辅因子两者的多聚体，且它们在其识别位点的两侧切割DNA以切开识别位点。因此，IIB型RE位点可以工程化以跨越或跨过连接的RNA和DNA接头(例如，RE位点的部分在RNA接头上，且RE位点的其余部分在DNA接头上，以使得连接的DNA和RNA接头重构完整的IIB型RE位点)，或完全在RNA接头或DNA接头内。在用IIB型RE消化时，可以产生RNA和DNA标签两者。

在某些实施方式中，可以使用IIG型RE(如AcuI)识别位点代替IIS型RE位点。这类IIG型RE识别连续序列并仅在一侧切割(AcuI)。

所有合适的II型RE识别位点的列表，例如，在一侧或两侧上其识别序列以外切割的II型RE，可以从各种来源获得。参见，例如Restriction Endonucleases(Nucleic Acidsand Molecular Biology),A.Pingoud编辑,Springer；2004版(December 1,2004)，其通过引入并入本文。也参见New England Biolabs’2010目录及后续更新(通过引入并入本文)。

在某些实施方式中，I型限制性内切酶也可以用于产生RNA或DNA标签，特别是DNA标签。例如，I型RE识别位点可以包括在DNA接头中以使得RE在连接的染色体DNA中随机距离处切割。

在某些实施方式中，III型RE识别位点(例如，EcoP15I位点)可以用于RNA和/或DNA接头中。III型RE酶在其识别序列之外切割并需要相同DNA分子内相反定向的两个这样的序列来完成切割。每次切割的两个需要的识别位点可以完全包含在DNA接头内或完全包含在RNA接头内，或者在两个接头中以使得仅正确连接的RNA-DNA接头再生RE识别位点。

III型限制性位点和III型酶的实例描述于例如，Matsumura等,SuperSAGE,Proc.Natl.Acad.Sci.,USA 100(26):15718-23 (Dec.2003；Moencke-Buchner等,J.Biotechnol.,114:99-106,2004；Mucke等,J.Mol.Biol,.312:687-698,2001；Rao等,J.Mol.Biol.,209:599-606,1989；Hadi等,J.Mol.Biol,.134:655-666,1979中，其全部通过引入并入本文。III型限制性内切酶也可以从New England Biolabs(NEB)购买。特别地，用于完成本发明的实施方式的示例性III型RE是III型酶EcoP15I。EcoP15I的识别位点是CAGCAG(25/27)。

任何上述限制性位点可以一起用于DNA或RNA接头中。例如，RNA接头可以包含IIS型RE位点，且相应的DNA接头可以不具有RE位点，IIG型RE位点或III型RE位点等。

4.串联体和文库

在某些实施方式中，本发明的分离的PET多核苷酸可以与其它分离的PET多核苷酸接合或串联以形成PET多核苷酸的串联体。任意数目的PET多核苷酸可以接合在一起以用于测序分析的目的或用于克隆到合适的质粒或载体中的目的。

因此，在另一方面，本发明提供包含至少两个PET多核苷酸的PET多核苷酸的串联体，各PET多核苷酸包含至少DNA标签和至少一个RNA标签，其中DNA标签从染色体或基因组DNA获得和RNA标签从ncRNA的cDNA获得，其中DNA和ncRNA的cDNA使用本发明的RNA/DNA接头和方法从交联的核酸-蛋白质复合物获得。

PET多核苷酸串联体的各PET多核苷酸因此可以具有RNA标签-RNA接头-DNA接头-DNA标签(或相反定向)的一般结构。

串联体可以通过许多本领域公认的方法中的任一种形成。特别地，可以使用长度控制的串联方法(Ruan等,美国专利申请公开US 2008/0124707A1，其通过引入并入本文)。在另一实施例中，如果需要，分离的PET多核苷酸可以在末端连接于可以被(II型)限制性内切酶消化的一个或多个连接体寡核苷酸之前在两个末端进行修整。消化产物可以具有可帮助单个PET多核苷酸的串联化的相容性粘性末端。如果RE位点对于连接于PET多核苷酸末端的所有连接体是相同的，则所有粘性末端对于连接和串联化是相容的，且单个PET多核苷酸可以独立地以头对尾方式或头对头方式连接在一起。如果连接体不同，例如，具有第一RE位点的第一连接体可以连接于RNA标签，而具有第二(不同)RE位点的第二连接体可以连接于DNA标签。在串联时，所有PET多核苷酸以头对头方式连接。

因此，PET多核苷酸串联体的各PET多核苷酸可以以头对尾方式或头对头方式独立地连接于一个(对于末端PET多核苷酸)或两个(对于中间PET多核苷酸)另外的PET多核苷酸。在某些实施方式中，串联体内的所有PET多核苷酸以头对头方式连接。

PET多核苷酸的DNA和/或RNA接头可以包含至少一个限制性内切酶识别位点，如IIS型限制性内切酶(例如，MmeI或GsuI)的RE识别位点。

PET多核苷酸的串联体可以插入或克隆到载体或细胞中；细胞可以是细菌细胞。克隆的PET多核苷酸串联体可以通过RE消化并在需要时单独地分离。

明显的是，可以串联的本发明PET多核苷酸的数目取决于PET多核苷酸的长度，这可以由本领域技术人员容易地确定而无需过度的试验。在形成串联体后，多个标签可以克隆到载体中用于序列分析，或串联体可以在没有克隆的情况下通过本领域技术人员已知的方法直接测序，如通过本文中描述或本领域中已知的所谓下一代高通量测序方法中的任何一种，包括单分子测序方法。因此，PET多核苷酸的串联允许通过测序单一载体或克隆中的多个PET多核苷酸以串联方式高效地分析核酸分子。

在相关的方面中，本发明提供包含至少两个PET多核苷酸的PET多核苷酸的文库，各PET多核苷酸包含至少DNA标签和至少一个RNA标签，其中DNA标签从染色体或基因组DNA获得且RNA标签从ncRNA的cDNA获得，其中DNA和ncRNA的cDNA使用本发明的RNA/DNA接头和方法从交联的核酸-蛋白质复合物获得。

在某些实施方式中，文库可以包含最多一千万PET多核苷酸，或者最多一百万、十万、一万、一千、一百或10个PET多核苷酸。

在某些实施方式中，文库未经过任何扩增，如PCR扩增。

在某些实施方式中，文库进行扩增以使得文库内的至少两个成员来源于扩增，如PCR扩增、滚环扩增、克隆的遗传材料的生物学扩增或任何其它已知的扩增方法。PCR引物和探针序列可以基于连接于PET多核苷酸的末端的PCR连接体的信息或基于克隆载体上侧邻克隆的PET多核苷酸或其串联体的引物序列来制备。

包含PET多核苷酸的PCR或其它扩增产物然后可以用识别侧翼RE限制性位点(连接体内)的酶分离以导致扩增的文库，其可用于许多下游分析中的任一种。

在某些实施方式中，PET多核苷酸串联体在扩增之前或之后通过任何标准方法选择合适的大小，包括凝胶电泳和凝胶切除。合适大小的选择中的主要考虑是该大小应当高于引物二聚体和未退火连接体的大小且低于特定的长线性多聚体的大小。特别地，可以选择具有大约100-1000bp或200-500bp的大小的串联体。因此，通过大小选择，优势是可以消除长的线性多聚体，因为它们的大小高于该尺寸范围。类似地，过短的未退火连接体和引物二聚体的片段也可以消除。

5.染色质免疫沉淀(ChIP)

在某些实施方式中，本发明的方法可以用于鉴别特定的ncRNA-染色质/蛋白质-DNA相互作用。例如，在某些实施方式中，可能有意义的是测定与特定染色质组分或蛋白质相关的任何ncRNA-DNA-染色质相互作用。本发明的方法可以进一步包括使用ChIP来免疫沉淀目标蛋白质。

ChIP已用于富集并因而允许鉴别与特定蛋白质如组蛋白和核酸蛋白质复合物中与核酸结合的其它蛋白质相关的基因组区域(综述于Taverner等,Genome Biol.,2004,5(3):210中)。目的是在其相互作用的位点处交联蛋白质与DNA。

这可以通过直接添加合适的固定剂如甲醛、仲甲醛、戊二醛、丙酮、甲醇或其它双功能交联试剂(或其混合物)到培养中的活细胞来快速和高效地完成。然后制备这些固定的细胞的粗提取物，并按照本发明的方法破裂染色质。例如，破裂可以通过物理剪切(例如，通过超声处理、水力剪切、经皮下注射针的重复抽吸的剪切)或通过酶促消化(如限制性内切酶消化或具有受控的时机、酶浓度、温度、pH等的核酸内切酶的消化)实现以获得希望的平均尺寸(例如，通常约1kb)。交联的和剪切的染色质片段然后用于采用针对特定目标蛋白质(例如，转录因子或组蛋白)产生的抗体进行的免疫沉淀反应中。在各免疫沉淀中富集的交联ncRNA和DNA片段随后使用本发明的DNA和RNA接头通过邻位连接来连接，然后从蛋白质组分去连接或反交联(例如，通过热和/或Protease K消化)，并纯化以允许通过本发明的方法进行它们的鉴别。

使用ChIP的优势是这一途径能够通过染色质和其它非组蛋白蛋白质的快速交联在活细胞中“冷冻”ncRNA或基因调控网络，如同这样的相互作用以其天然状态存在，由此在理论上表现在任何时间点特定ncRNA或基因调控系统的“真实”图像，例如，没有由异源表达施加的潜在伪像。

6.应用

本发明的方法和组合物允许在无偏的总体水平或在感兴趣的特定ncRNA或特定染色质组分水平上鉴别ncRNA和基因组位点之间的相互作用。使用本方法获得的信息可以用于广泛的研究和开发环境中。

例如，本发明提供鉴别特定的染色质靶标的方法，该ncRNA可以具有先前未知的或不完全理解的功能，该方法包括使用本发明的方法和组合物测定特定ncRNA及其基因组靶标序列之间的相互作用。鉴别的基因组靶标序列代表ncRNA在其上发挥其生物学功能的候选靶标。

在相关的方面中，本发明提供鉴别与特定基因或基因组区域(如携带肿瘤抑制基因或致癌基因的基因或基因组区域)相互作用的ncRNA的方法，该方法包括使用本发明的方法和组合物测定特定基因或基因组区域与基因组的ncRNA之间的相互作用。鉴别的ncRNA代表基因功能的候选调节子(例如，抑制子、增强子或共激活剂)。

在某些实施方式中，该方法进一步包括在两个或更多个样品之间比较ncRNA和基因/基因组区域之间相互作用的存在/不存在或程度。这种比较可以帮助进一步解译相互作用和任何观察到的样品间差异的生物学意义。

例如，样品之一可以是健康对照样品，且其它样品可以是疾病样品，如来自动物模型(例如，小鼠或大鼠模型)的疾病样品、在特定治疗之前和之后的疾病样品、在不同治疗阶段的疾病样品、来自对特定治疗有反应的患者或对治疗具有抗性的患者或在治疗后复发的患者的疾病样品。

在某些实施方式中，样品之一是来自患者的干细胞或诱导的多能干细胞(iPS)，且任选地其它样品可以是从这类干细胞或iPS细胞分化的细胞系。此时，特定ncRNA-染色质相互作用可以与发育或分化程序的启动相关。

在某些实施方式中，样品可以来自人、非人灵长类/哺乳动物、家畜(牛、马、猪、绵羊、山羊、鸡、骆驼、驴、猫和狗)、哺乳动物模型生物体(小鼠、大鼠、仓鼠、豚鼠、兔或其它啮齿动物)、两栖动物(例如，爪蟾)、鱼(例如，斑马鱼)、昆虫(果蝇)、线虫(例如，秀丽隐杆线虫(C.elegans))、植物、藻类、真菌(酵母，如酿酒酵母或裂殖酵母)。样品可以是建立的细胞系的组织培养物、培养的原代细胞、组织活检样品(新解剖的或冷冻的)等。

如实施例9中所示的，本发明的方法鉴别ncRNA-CCAT1(结肠癌相关转录物1)–如这一位点中具有非常复杂的转录物亚型。RICh-PET数据提供CCAT1的潜在功能和基础机制的重要认识。具体地，发现CCAT1位点本身具有显著的增强子特征，CCAT1位点在宫颈癌细胞系HeLa细胞中高度表达，且RICh-PET数据显示这一位点的转录产物靶向其它增强子和启动子区域。例如，对于CCAT1ncRNA转录物靶向的122个位点(各具有≥3RNA标签)，88个位点是增强子区域，包括六个具有RNAPII相互作用的增强子位点。另外34个位点在启动子区域内。这与CCAT1靶基因平均来说比随机选择的基因组更高地表达的观察一致。因此，lncRNA CCAT1可以用作转录辅因子以激活基因网络，包括致癌基因c-myc。

因此，本发明的另一方面提供治疗表达CCAT1的癌症的方法，该方法包括施用CCAT1编码的lncRNA的拮抗剂。

在相关的方面中，本发明提供破坏由CCAT1的基因产物(例如，转录的lncRNA)介导的转录激活或共激活的方法，包括将基因产物与CCAT1编码的lncRNA的拮抗剂接触。在某些实施方式中，癌细胞中存在转录激活或共激活。在某些实施方式中，转录激活或共激活是对于c-myc、FAN84B和/或SNX14。在某些实施方式中，转录激活或共激活通过使CCAT1基因组位点与靶基因位点物理接近来实现。

在某些实施方式中，癌症是结肠癌(例如，结肠的腺癌)、直肠癌、宫颈癌、肺癌、胃癌、肝癌及其转移。在某些实施方式中，癌症以与匹配或对照样品相比高2-倍、3-、5-、10-、15-、20-、30-、40-、50-、60-、70-、80-、90-、100-、120-、150-、175-、200-、250-、300-、500-、1000-倍的水平表达CCAT1转录物。

在某些实施方式中，拮抗剂是可以任选地包含修饰的核苷酸的反义多核苷酸以例如改善血清稳定性、药理或药代动力学特性等。修饰的核苷酸可以包含PNA、LNA、2’-O-烷基或其它2’修饰和/或糖-磷酸酯骨架上的修饰。

在某些实施方式中，拮抗剂是靶向编码的CCAT1lncRNA的siRNA或miRNA构建体。

本发明还提供CCAT1lncRNA的拮抗剂(反义、siRNA、miRNA或其编码/表达载体)。

在另一方面中，本发明提供药物筛选的方法，该方法包括建立药物功效与通过本发明的方法鉴别的所观察的特定ncRNA-染色质相互作用(如在反应性患者中但非在抗性患者中鉴别的相互作用)之间的统计学显著的相关性或关联性，从而确定多种候选药物对统计学显著的相关性或关联性的影响并鉴别促进统计学显著的相关性或关联性的候选药物。

在某些实施方式中，候选药物的效果使用来自抗性患者的样品进行测试。这可以允许鉴别恢复抗性患者中的统计学显著的相关性的候选药物。

在另一方面中，本发明提供鉴别用于治疗疾病的靶基因的方法，该方法包括：(1)使用本发明的方法鉴别(观察的ncRNA-基因组DNA相互作用中)药物的功效与特定ncRNA-基因组DNA(基因)相互作用之间的统计学显著的相关性(例如，在对治疗有反应的患者中观察到功效的任何时候，观察到特定的ncRNA-基因组DNA(基因)相互作用；在对治疗没有反应的患者中没有观察到功效的任何时候，未观察到特定的ncRNA-基因组DNA(基因)相互作用)，(2)测定涉及的ncRNA和/或DNA(基因)的表达水平；其中DNA(基因)在药物疗效与增加的ncRNA表达和DNA(表达)表达的抑制相关时鉴别为用于治疗疾病的潜在靶基因。

本发明的组合物和方法也可以用于鉴别特定基因组中迄今仍然未知的ncRNA，因为本发明的方法是用于鉴别这类ncRNA的无偏途径。如果PET多核苷酸簇始终鉴别不编码任何蛋白质的基因组一个区域中的RNA标签簇且始终将这些RNA标签与由对应DNA标签代表的(远程，例如，染色体间)位点关联，很可能RNA标签揭示ncRNA。

通过本发明的筛选方法鉴别的任何候选治疗剂或靶基因可以使用与疾病或病症相关的公知试验模型体外和/或体内验证。例如，如果特定ncRNA鉴别为促进致癌基因的表达(或鉴别为抑制肿瘤抑制基因的表达)，因此变为候选药物靶标，则使用ncRNA的拮抗剂如siRNA、miRNA反义等的潜在疗法可以进一步体外和/或体内验证，后者可以在建立的癌症模型(例如，模型动物中，如待治疗癌症的小鼠模型)中进行。

小鼠是用于药物发现和开发的公认的模型，其中可获得许多不同的种系。例如，用于研究癌症的大量可用模型可以在Mouse Models of Human Cancers Consortium找到，其已经开发了几个数据库，例如，Emice(emice dot nci dot nih dot gov)、Cancer Models数据库(cancermodels dot nci dot nih dot gov)和Cancer Images数据库(cancerimages dot nci dot nih dot gov)，或者在其它来源找到，如由The JacksonLaboratory发布的癌症研究模型(参见jaxmice dot jax dot org slash list slashrax3dot html)。使用原发癌症活检样品或细胞系的进一步的异种移植模型可用于研究癌症。

例如，为开发其中可以验证针对候选ncRNA的潜在拮抗剂的功效的肺癌模型，六至八只8周龄的雌性免疫缺陷小鼠如CB17-SCID beige小鼠(Taconic,cat.no.CBSCBG)或NOD/SCID(The Jackson Laboratory cat.001303)或NOD SCID Gamma小鼠(也称为NSG)(TheJackson Laboratory cat.5557)经由左肺皮下或经胸注射(常位的；10⁴/sup细胞/25 μL)人肺癌A549细胞(

CCL-185)。携带肿瘤的小鼠腹膜内注射中和抗-CXCL12或免疫前血清，或不接受处理。可选地，携带肿瘤的小鼠可以用Platinol(顺铂)或Abitrexate(甲氨喋呤)或紫杉醇或者其它化合物处理。肿瘤在各个时间点进行分离，其经处理或未处理。非编码RNA按照之前描述的方法鉴别。

7.CCAT1转录物、拮抗剂及其用途

在另一方面中，本发明提供通过本发明的方法鉴别的各种CCAT1转录物、其cDNA序列(两条链)、拮抗剂(例如，拮抗这些CCAT1ncRNA转录物的功能的反义序列、siRNA或miRNA构建体)。

代表CCAT1ncRNA的不同亚型的八个鉴别的cDNA序列在以下SEQ ID NO:1-8中提供。

>CCAT1_JAX_1转录物序列；基因组位置:chr8:128128655-128241571链:-

<128241571>

3'-TATAGGTATAACCAATATATATGTATAACATATATATGTCCATATATATGTATAACCAAACCACAGGTGTTTTTTTGGAAGTCATATTATACAGGGAGTTGACAGAGGTGTGAGCTGGACTTTAAGAAGCTGCACATAAGATGCTAGTATGATCAAGCTGGAATGGACTTAGACAATTTGAAACAACTTTTCTCAGTTTTCAGATGAGGAAACTGACGGGTACCAAGCTTAAATGACTTGACGAAGCTCATAGAAGATTAGCAGGTAGTAGAATAATGACTGCTGACTCCTAATTCAGTGGATCTTCCCTGGCCACCGTTTTGTATTGAGCTGCAATGCTTCCTTGACTGTTCTCCATGCCAGATTCTTATCAATGATCTTTCACCTAAGAAACAGCAAAGATTCTGGCAAGCACACGATCTAGAGATACATCTTATTGCGATTTTTCACAAAAATCAAAAGAAGAAAGAAGGCTTAGCTGGTGTTTAATTATTGTTATTTTTTTCAATAGGGAAATCTGTACACAATGATTTATCTCCAGTGATTTGCCATTGATCAATTTTTTTCTCATTTCATTTTCTATTTTTTTGTTTTTTGTTTTTCTTTATTTTTTATTTTTTTCTCCTTTTTCTTTTTTTAAATTTTCTGTTTATCACAAATGATCATGTAATTATATGTTAATACTATGTAACCCCAGTGTTTTCAACTGTTTGTGATTCAATGTTACCCAGTTTTCTTTTCTTAATTTTAAATAAATTTGAAAAATTATCTTAGAGTGTTTTGAGCCTGTGTTGGTACATTTAGTTCTAGTTCATTGTGGTAAATCCACTTCAGTTTCTAAGTTTCCACCCTTTAGTAAAGACATATTTCTAAATTTGGTTTATATCCTCAGTTACAAAAGATTCTAACTGCTAGTTTTGTGACAGCAATCACACATACCATCAAGGGATGGGGCAGGCAGTTTTGGAATGTGCTGATGCTAGCATTTTTATAAGCCTATGGCTTTTATAGTCTAAATTGTTCTTATTTCTATTAATGCTTCAATTTTTGACAAACACACAACCATAGAAACAAATAATAAATTTGTTTTTTGGGAATTATCCAGGATTCTTGGTTAAGTGGGGAATTTAGGCTTTGACAGCATAAAGGATCACGGATAAGTATTTTTCACGGTGGCTCTAATTATAATGCTGAGCATGTGGCAGGCACAGAAATATTTACTCATTGACTGAATATAGCACATCGTAATGTTGATTTTTTTCCAACATAATTTTAGAGCTAGGCATATTGTATTCTATTACACTAGACTATATATCATTCTTAAATAGAACCAGCCTTGCTAGATAACACATGTTGGAGGAGAGGCCCTTCTTCTTAGCCCTCAGTGTTTCCATCTATGGGGAAGAAGTTCCACCATACTAACATTACTATCGTCTCTCCACCTGCTCACTCACTTCTCCCCAAGGGAGGGGTGTTCGATATGGTTTCTGAGCTTGGAAAGAAAACTCAGGCATGTGTAACATGGTTCCTTCAGTCCCATGACCCACTGTCCACAAATGGGCTGCTCACAGAGTGCATGCCTTCACCCTTGTTCCTGGCCATGCAGGAAATTGTATGAAACAGTCCTAGCTGAAGCCTGAGATTTTCCTGCATTGCCTAGTCCTGGTGGGTATCTGTCTACTCCTGGAGTTTGGATTGGAAAGTCCACATGCCTGAAGGTATAAACCTATTCTACAAAGGGGTGTTTTCTAGAATGAAGGTAATATTTTTATCTTACATTTGCAGAAAGAGACAGAACAATGTTATAGGTGAGTGCATGGACAATGACCTCAAACAGCTAAGATTCAAACCCCTGCGTTGAATGATTGAATTGAAATGATTCAATGAGCTAATGTACATAAAGCATCCAGAATGTTGCCTGGCACAAGGGACTGTATTGTCTGCTAGACCATTTATTCAAAGTGGGAGGATGATGTTCTAAAAGCCAATGATAAAGCTCATGGCAATGCAGGGTATATCTGATGGCATGGAATGCTTTAGGATGGCCAAGATTGCCCATCAAATGCCAAGTCACCGAAGGGTTCTGGGAAATAAGAAATCATTAGAAAAAGATTTCTGCCTTCTAGAAGTACACAGTCTAATGGTGAGATAGGCAGGTTATTAATGGCTCTCCTACTAGGAGCCTGACATCATGGTGAGCATCGAGAAAGGAATAACCTAAGCTGAAGACACGCCTTTTCAGGAGGCCAAGTTCCACGTTCTGTGCATGCTTTTGGCGAAAGTCAGGTAAAGCCTCCAGAAATGCATGGTCTATTCTCTCGGACCATATGGCTGTGGGCAAACTCTGGCTTCTTGGAGCCTCCATTAGCCACCTAGGGAAAGGTAATTGGCTTTATGTTTGGCTCCATCACTGCTGGCGACAAGCTCCACTGCATTCTCAAGCAGTAGATGAAATACAACTGTGCTCCTGAATGCAGCAAAGGAAAGAGAACCCAACTGGACCAGTGTGAAATTGGGACCTTTGGAGGCAAGAATGCACATATTTATAAATGAATAAACATAATTTTTCTCTCTTCTTCCCATTGGCAGCATATCTGAAGGCCCTGACTCAACAGTAGTGGGTCTTAATGCTTGTGCTTGTCCACCCTTCTCGGCAGTGATTGATTTCATTGTTGGCTTGTTTTCATGACTTGAATGTGCGATCTTCAGAGGGCCTAATTCCTTGCAAGTTCCATTTGAGGGTGGAAGAGCTAGAACAAGCTATAACCAGTAGACAACTCCGTGACTCAGGAGCTTAAGCATGTGACTAATTAGTAAGAAAAAATGTGGTGAAGATTTGTAGTTAATAAGAAGGAAAGAAGAATCACTGGGGCTAGAATTATGCAAGCTTTTGTTTCCTTTTGGGACTATATCAGAACTATGAGAGAAGAAAGGCTACCTTTTACCTTTGAGGAATTTTCAAAGCCTTTTTTTTTTTTTTTGGTTGGTTTGTGACTGACAAAGGGCACAATTTCAACACCTCAGAAAAATGCCTCATCATTTCCTCTTGTGAAATCTGGGTGCTTCTGAATGAATCCATGTTAGGAATGTGTACTTCCATCCATTAAAGTCAATGTCCAGTCTCATTTTGGGCCAGAGGCTGTTACTAAGTTGTAGTACTGGTGAGAAAAGGACAGAGCATTTACCTTCCCTGGGTATCCTGTGACCTACATGTGTCCTTGCAAGGCAGGGAAATGTTACTAATTAAGAGCATAGCCTTTCGTCAGATGGGTTCAGATCCTAACACATCCTCTTTCTGGTTACAGGACAGTCCTCTCTGAGCCTCAGTTTTCTCATCTCTAAGATGAGGCTAATTATACCTACTTCCCAGGGGGGTACTAAGGATAAAGTAACAACACAAGAAAATTTTTTATCCTTGATTTTCTTAGCTGGAAAATTAGGCTAGAAAGACCTCCATCCTTGGGGTATTTAAAATAAAAGGACAAACATATGATGAGTCTAAGTGATCAATACATTGTGGCTTTTGTACTTACTATTCTGAAACATGGGTGTGGCCTAGATACTTTCCAAAATTCTGCCCTCTCCACCTAGCAAAATGACAACCAGACTTACAGATATGCCAACAAGCTAGTGTTTAATAATGGTGTTTGATGATAAATGGCATTTCTTTTCGACATTTGTCTCTTTTTAAAACTTGGTGCTCTTAAATGCATCATTGGATAAGTGATGACTGTTCCCATTCGCAAGAAGAGACCTGGAATCTAAGCATGAAGGACCTGTCCTGATGTTGAGAAGTGTGGATCACATTTATTTGTAAACTTAGCTTCTTGCTCGTCTCATGGTTGCTTTTTTTTCTTTTTCCTTTTTCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTGAGAGGGAGTCTCACTCTGTCACCCAGGCTGGAGTGCAGTGGTGTGATCCCGGCTCACTGCAACCTCCACCTCCCGGTTTCAAGCAATTCTCCTGCTTCAGCCTCCCCAGAAGCTGGGATTACAGGCACGTGCCAAGGATTTAATGGCAAGATGCCATTATAGACAAGAACAGGATTCAGACACTTTCGTGTTATGTGTTCTTGTCCAAATACTGTGTCACTCTGCACTGGCATCCCAATCCCACCAACACCTTTAGCAGGAACTTCCTGTTTCAATAACATTTCTCAATACTCTACCTGATTGCTTAGAATCCATGAGACAGCCATATTCTCCATGTCTAGGTCCCTATCTTATTTTTGTTGAGATGGTGTTAAGACTTTATTTGTGAGGCTTCTGGGGAAGAGGAGTAAGGTATTGATCCCACTGACTGGATAATTTGGGTCTCAAAATGGATAATAAATAAGCATTACATATTTTGACCACTTCCTTGGAGGAGAACTTCTTGGAATGTGCACCATGTCCGCTGCACTTTTTTTGCACAGATATCTAAGTTGGAGAAACATACTACTAGATAAATCAATTTGTTCTCTTAGTACTCATGATATGGTTCCTGGGAACTTCTGATTCACCAAATTAATCTTGGCCAGGTACATACCTGGCAGGAATCCAAAAATTCCCCAAGTCTCCTTGAAGTTCAGGATCATCATTCTTAATAAATACACCGAGGGAAAAACCATGGAGAGTTTGTCCCAGATGCTGTGAATCTGGCCCGGGGTACATGAAGAAGTCCTTAATTGCAGTCATTTACATGGTAGATTCTCTATAATCATTTAATTTGCTATAGGTCTATGATTTTTAGTCCTTCTTCTCTAAATGATTGAACATGTATAATTCCCATTTCAATCATATTACCTGGATGAACAAAAGTAACGCTAGACTCATTCATGCATTCTGGTTGCCAAGGAAAAGGAAAAAAAAACAAAACAATCAACAGGATGTTTAAACTGTCTTAGGGCAACTTCAGGCCATAGTCACTGGTGTTCTTGCAGACTATGAGATATTTTACATTCTGATAAGGGATAAAAATTCGTGCCTCACATGGCTCCCATCACACTAAGATCTTGCAACAATAACACTACTGATTCAGACATTAATCTTAAGTATCCAGGGAGCCCTAAAACATTGTATCCCACTAGCAAGGACCATGGTAATTGCCACGTAAATCCCCTCCATTATGTGGCCCTTATTATGACCAGCCAGCCAAGGCTTGCCTTTAAATCATACCAATTGAACCGAGCCTTGTAGAAACACTATCACCTACGCATACCTCTGCTTCTTTTCATTAACCTGCTATCCTCTTTACAAATGGGATTCTTCACCCACTCCCTTCTTCTAGATTAGCAATGCCCTGTTAAGTAAACGAACACGAAATTCAAAGGGAAACAGGAGCAATCATCATTACCAGCTGCCGTGTTAAGCATTGCGAAAACGCTCACGATTCACAGAAAAATCCATGCTGTTCTTTGAAGGCAT T CAAGCCTTAATAGCTAGCTGGATGAATGTTTAACTTCTAGGCCAGGCACTACTCTGTCCCAACAATAAGCCCTGTACATTGGGAAAGGTGCCGAGACATGAACTTTGGTCTTCTCTGCAATCCATCTGGAGCATTCACTGACAACATCGACTTTGAAGTTGCACTGACCTGGCCAGCCCTGCCACTTACCAGGTTGGGCTCTGTATGGCTAAGCGTTTTCTCCTAAAATCCCTTGAAAACTGTGAGAAGACCATAAGAAGATCATATCTTTAATTCTATTTCACAAGTCACACAATATTCCAATCAAATACAGATGGTTGAGAAAAGTCATCCATCTTCCCTCCCCACCCTCCCACAGCCCCTCAACCACTGCCCTGAAACTTATATGCTGTTATCCGCAGCTCCATCTGGAGCATCACAGCTACTGTCAACCCTGACGCTCTTTCTGAAAAAACACCGGATGGACATCAGAACTATTTCTTTAAGGATGTTACTGAGCCACACAGGAAAACTTGCCTTATGATTTTGAATGCACGGATCTGATTTGACTAAACATGATAACTAGAGAATCACCCAATCTACTCCCATTTTCAACTCTAAATCATCAGAGTGTCTCAAATCCAAAGCACACACAGACCAGCCTGGCCAACACGGTGAAACTCCACCCCTACTAAAAGTATAAAAATTATCCAGGTGTGGTGGCGGGCGCCTGTAATCCAAGCTACTTGGGAGTCTGGAGGCAGGAGAATCCCTTGAACCTGGGAGATGGAGGTTGCAGTGAGCAGAGATCACACCACCGCACTCTAGCCTGGGCCACAAATCAACAACAACAACAACAACAAAAAACAAAGCGCACACAGAGACTGAGGTCCTCTTTGGCATTGAGAAGATGGCTATGCAAGTCCCAACTAGCAAGTGCAAACTTCCCAGCTTCACTTCTGCCAGTGTCCCTTCACCCCTTCTCAACCCCACTGGGAGGCAGGAGGGTGCTTGACAATAACAGCCTTGGCATCACTCTGCCAGGGTGTAATAGGAACTGTTACAATTCTGAGATTCTGTGTAAGCACTGGCCTTTCTGCCTAGAATGCCTTCTCCTCTCTTTTTTAACTGCATGCTCCTATTTATCTTTCAAAGCCCGGAAAAAATAACACTGCACACGGGAAATGCTCCCTTCCTACTGCAGTCATTTAGATGACTCTATGCCATTCCATTCATTTCTCTTTCCTACCACAGAAGTGCTTTGAGATTTTGGAGTCAGACTGCTTGAACTTGAATCCTGGCCCTCTCATCAGAGACTTGACTTATTTTAGGCAAGTTATATAACCAATTTTACCTCAGTTCCTTACCCATAAAATGGGTCTAATGAGAGTACCTACCACACAGAATTTTGATGAAAACTGAATGAGATGAAGGCCTTTAAGGCAGTGGTCCCCAACCCTGGGGACACAGACAGGTACCATTTTGTGGCCTGTTAGGAACTGGGCCACACAGCAGGAGGTGAGCAGTGGGTGAGTGAGATCAGCGTTATTTACAGCTGCTCCCCATTGCTCACCTTACTGCCTGAGCTCCACCTCCTGTCAGATCAGCAGTGGCATTAAATTCTCATAGCAGCACAAACCCTGTCATGAACTGCACATGCGAGGGATCTAGGTTGTGCGCTCCTTATGAGAATCTAATGCCTAATGACCTGTCACCGTCTCCCATCACCCCTAGATGGGAGTGTCTAGTTGCAGGAAACAAGCTCAGGGCTTCCACTGATTCTACATTATGGTGAGTTGTATAATTATTTCATTATATAATACAATGTAATAATAATAGAAACACAGTGCACAACAAATGTAATGTGCTTGAATCATCCCCAAACCATCCCAGTCCACGGTCTTCCACATTTTGTCTTTTCACAAAATTGTCTTCCACAAAACTGGTCCCTGGTGCCAAAAAGGCTTGGGACCACTGCTTTAAAGCCTTTGCATAGTGCTTAGAATTGAGGGGGAAAAAAAAAACAAAAACAATGTAGCTAGTTGCTACAATCACTATATTGGTGAGTTTCAAAAGGAAAAGAATTCTGTCCCATTTATGCTTGAGCCTTGAGTTGCTAACCAAGCCTGACACAAAATTACTGTTGAAGGGATGTGTGAGTCCTAATTGAAATGAGGCCTCTTAAGGGAATTGTGGACCAAACCCCAAGCAGGCAGAAAGCCGTATCTTAATTATTGCAAGTATTTCAGGCAAGGTGTGGATGGCCATTTGAATTCAAGCAGACTAGGACCTGGGATGAGAAAGAAGGTGTGTACGTGACTTGATCTTTGAACTTTAGCTCACCATCTGGAAGAAGGCTGAGTATTCTCTGCACTCACATAGTAGCTAATGCCTACTCCCCAGCCACCCACAATTCTTTCTGTAGGAAGGCTCGCTAGAATACTTTGTGATATTGGATATTAGTTCCATATTCTACTGTGTATCTTAGTTCAACCAAATTGTAATCATCTGATATTTATTTCTTTTAATATAAATATAAGTATATTAAGTCTTGGCATGCTTGCTCAGTCTCTCTCTCTCTCCCATTCCTCCCCGCTCCCCTCTCTCTTTCCCAACAGGCTTGGAAAGCAGGCATCACCATGCCTATTTAACAGTTGGGGTCCCTTGGCCACCAGGTGCTGGAGTAGGAATCTGAGCCCGGACATGCCTGATCTGTAAATTTTGTGTTTTCCCCACTGTGCTGGGCAGATCACAGCTATCAGCGCCAAATTCATAGAAGGGGCGCCCCCTGTGGTCAATTGAGGGATTTGTGTTTGAGGTAGATCTCAAGAAGGAATGGGTGGGGAACTTAGCCTAGGACAGAGCAGAAAGGAGCCCTCACTCCCCAAGCACCAACGGCCTCAGTCCTTCCTGCTGACTCCAGCCTCTAGCTCTCACCCAGACTATCTGCATCCTTCTCTCCACCACGCTCCTTTGGAACCTGCGTAAAACACAGATTAAAGGAATTCCGCCTTACTTCCCTTTCCGCATTATGACCAAATGGTTTTACACTATCATTGAACAGTTTAGTACAAAACATGCCACCTTTTAATCTATTCATTCATTTAACAAATACTTTGGAGTGTTTACCATGTGCCAAGTGCTGTTCTAATAGACATAAGCTGTGAGGTTATGCTTATCTGATTCTCACAGCAACAGCTTTCGAGATATGAATTGGTATACTCATTTGACAGATGAGGAAATTGAATTCATGTAGTGAGAAGGAAGAGCTGCAATTCAGGGTTACTGGTTTCTCCTGCACTAAGCACTGAGCCACACTAGAAGAGAAGGCATGAGGAAGACAAAAGTGAGGCTGTGGCTTGCCTTTTCACTTCTTGTGTCCTGTTTAAGAAATATCTGCTATCCCAAGGTAAGATACTATACTTTTTTTAACATGTTATTTTGTTTTACCTTTCACATTTGGTGTATACTACATTTGTAATTAATTTGTCCATATTATATGACATATAGCCAAGATTTATTTTTTACCATACAGATACTCAATATTGCCATTTACGTAGAACATCGTTCTCTTCCTACTCAATTGCCTTGGCACCTTTGTAATAAATCAGATGATCGTGTATGTGTAGTTCAGTTTCTGGACTCTGTCTTCTGTTTCTTTAGTCTATTTGCCTATTCTTGTACCAATATGCACTGTGTTAATAATCGTAGCTTTGTAGTAGGTCTCGAAATCTGACAGTGTAATTCTTTTAGTTTCTTTCTTCTGCAAATTTTCTTTAGCTGTTTTACGTCCTTTGCATTTGTATATAAACTTCAGAATCAGCTTGTCTATTCCAAAAACAACAACAACAAATGAAAGTTTCAGAAACTTTAACTGAAATTGTATTGAATCTGTAGACAATTTTGGAGTAAATTGCATCTTAGCAATGTAGAGTCTTTCGAACCATAACCATGGTAAGTCTCTCCATTTGCTTAAATCTTCTTTAATTTATTTCAACAATGGCTTCCAATTTCCAGCGGGAGCTCTTGGAAACTACAATTTACATGAACTTCTAATTTGATATTTTTCGGTGTCATTATAAACATTGTTGTTTTAAAAGTTGTCTTCAATTTTTTGTTGTCAGGCACAGAAATACAATTATTGATAACATTTATATATAAACTGTATCCAGTGATCTTGCTAGATTCACTGATGAGTCTGATGTTGTAGATTCTTTGGGATTTTCTCCGTACATAATCATATCCTTTCTGAATAAGATAGTTTTACTTCTTCATTTTTAATATCTATGCCTTTTATTTATTTTTCTTTTGAACTTTTTGCTGACTTCATTATTCACTCTCATGTTTTTCTCTTTCATTAGACTATGACTCCTCGATGGTAGCAATTTGTAGTAATCAAATTTTTGTATTTTATTTTAGCATCTGGCATCTTTCTTGACATATGTAGCAGTTGCTTTTTGACAGCTTGCTTCTTCAGTGAATGAATAAATTAATAAAGAGAAATGTGATGTTCAGTGATCCATTTTGCAGGTAAGAAAACTGAGGCAGACAGAGGATGTTAGCAAGCAAGAGGCCTTGGCCTACAATTTAGATCACTGGACTCTTACTCCAGATGCAATCTGCAGAACCCACATACTTTTAATTAGTCCCTTTGTCTATGTTCTGCCACTGTCACTTCTAAGGAAGGTGTGTCATCCCAAATGGGGTAGTATCTTATTGGTAGACCTAAATCTGCTGTGTTCGCCATCTCACCTACATGAGTATCTATGTGTAGCATTCTGCATATTCATCTTTTCCACCTTCTGGAGGTTTTGTCTTTTTATAGGCAGCATGTGAATAACAATGGGGCCAAACTGGGGACCAGAAGGGGCCATTTTCTAGTTCTGAACATAGATAAGCATCACTAACTTTTCCCTCCTGGCAGTAATGGCCTCAAAAGTTCCAACTTAGGAGAAAAAGGCAAAACCGTCTGCCAAAGTGTGTGAAAAGTTAGAGCAAACCTTGGTTTTACCAAGAACCTGTGTCCCTCTTATGGAAATTCACACTTTCACACTTTTAGACAAATATTAAATGTGTGACATTCTATTACGTACAGTGCCTGGCACATCTAGACACGCAGCACACTTTAGCCCCCTTCTTTCTTCTTCTAACTCCAAGTTCTAAACTAGAAAAAGCCCCACTTGAGTCTGAGATTTGCTTTTTGAACTAGTTTATTTCAGATTGTAATCATGCTATCTAGGGTTGTGACAGTGTTTGCTATTTCTAGGGCACTTTGACCTGATTCTTTTTGCACAGGAAACTTGTTCTACCCTTTTGCCCACTTCACTGAAGTGAGGACTGAGACAGAGAAGGATTAAGTCACTTTTTATTTAACAAATATTTGTTCCACATTCCTCAGCATTTATTAAATACTGGTGCATAATGATGGAATAAATTTTATACCGTAAGGATAAACCAGTATTCTGGACTAAGCCAACGTGGGAGACCCTAGGAGGCCTGTTTGAGAAAGTGACATTTAAATTGAGACTTGGCGGTGGCTGTGGCTACATATCTAGTAAGTGGCTGGGTTGGGATTTGAACTCATGCCTGCTTAGCTCTAAAGATGATGCTTTTGGCTTTGTACTCTGCTCTCTCTCTAGACAAACTCTGGTCCAAAATCGTTAAAGCTAACATTTATCCCTGCCCAACTGGAATTGTCATGTTATGACAAATGGCTCTGTGGTCTCAGATGCCCAGCAGACCCATTAGTGGAATTCTATGTGCTACAGACCTGGGCAAAATGCCAGAGCCTTATACACCCATCACATTTCGTCTGGCAAAGGTCTTCAACAAAGAGAAGTAATTACAGCAATGAAAAGCAACAGGTCCAGCAACACCATAAGAACAAAATAATTAATTTCCCTAAAATAGAAGAAACCATTTATAGAGTAAGAGCCGATACAATCAATAATTGGAAGAAATAGAAGAGGCTTTAGTATTCTAGCCTTCTTTATTTGTAGATGTAAATGTCGAGCCTCAGAGAAGTTATATATCTAATTAGTGTCACTCAGGTAGATAACAACAGAATTAGGATTAGAACTTAATTCTTATGACTCCCAGAGCAGGGAAAAGACAGGATGAAGTCCCAAAACATTGCGTGTGAACTCACATCTGACTCTGAATTGAGAGTCTGCTATTTACTCCCTATGTGACCAGAATCCTTCAGAGCCCATGAGATTCCCTGTCATAGAGTAGATTTTGATCCACACTAGGCATTTTTACCTCTTGCTCTTTGAGTTGGTGCCCCATGTTTACTCAGAAATATTCCAAAGGTGTTACATCTATTGGTTTTACATGTTGAGCACAGATCATTATAAGACAAATTGAAATGAAAACATCAACAAGTCTCATTCATTGTCTAACTTACGCTGAGCAATATTTAATAACTAGAATATCAAGAGAGTCCAAAGTGTTTGCCCATCCCCTCAAGACCAATGTAATGGAATTTTACTCTTATCACCTGCTCAGGGTAGTGGCAATTCAGGATACAGAGGACAGAAATAAAGAATCATGACACACAATCCACAGAATTCACAGATGCCAAACATCTACCCTTCTCTGTCACCACACATTGGACTCACATGGTGGAAATAGGCAACACAAGCAGAGAGGTGGCTTAACCTTTCATAATTTTTCAACGACCTATGGGAAGAGAGTTTTCTTGGTTCAAATCCCAGCTTAGCCACACAGAGTGTGGTAATATTGGGCAAGTCAACCAAGCTCTCTGTGCTTCAGTTTCCTCATTATTAAAATGGGGGAAATAATAGTGCCTGCATCAGAGGGTTGTTGTGAGAACTAAACGAAATAATTTATCTGAGCTTTAGAACCCACACCATATTAGTTAAAAATTCATGCATTTTCTTTTATTATATTTCTCTACCTTAGACTGCAAACTCTAAGAGGAAAGGCCGGACTGTTATATTCATAAAGCATTACAGGAACAGTAATTAGAACTAGGAGCTTTTCAATGGCCTGCCTGAAATCTGAAAAATAGGTATATTATTTGAAATTTTGAAAAAATCAAATAATTAAAAATTAATAGATGTTAATAAAATATCTGTAATATGTAATATCAAGGTCAACTCAACTCTTAATTGTTTATATAAAATATAGTGAAGTTTAAATTGCAAAATCTTACAGAAAATGTGCTATTAAAACTCAAAAGTATAATTCTTTCTAATATGTATATATATGTATATAGTTTTATTTTAAGTTCAGGGGCACATGTGCAAGTTTGTTACCTAGGGAAACTCACGTCACAGGACTTTGTTATACAGATACTTTCATCACCCAGGTATTAAGCCTAGTGCTCATTAGTTATTTTTCCTGATCCTCTCCCTCCTCCCAACCTCCACCCTCAGGTAGGCCTCAGTATCTCTTGTTCCCCTCTATGTGTTCATGAGTTCTTATCATTTAGCTCCCACTTACAAGTGAGAACATGTGGCATTTGGTTTTCTGTTCCTGCCTTAGTTTGCTAAGGAAAGCACTGTGGCAATTTCTCAAAGGACTAAAAACGGAATTACCATTCAACCCAGCAATCCCATTACTAGTTACGTACTCAAATATTTTTAAGGCAAAACAAAGCTGCAACCAGAACACCTGGACTCCCTGAAACCCCTTCCACTGATGTTGTTGTTGTTGTTTCTTTTTCCCCAGCTTCTCAGGCCAAAATACTGGATCATCTTGGGCACTGTTCTCTCCTGCCCACCCTTTCCCATATGCAGAGTGTTGTCACTTCTCTCTGCTTCCACTGCTAACTCCCTGGTCCAAGCCGCTGCACCACTTTTCGTGATTATTGCCACAGTCTCCTCACTGGTTCCCTGCCCCCACTCTTGCTCTGAACTATCCAGTTAAAACCTGAATTAGATCATCTCATCCTCATCTCAGAGCTTTCTCGTGGCTCCTCTGCCCTCTCAGGAAAAAATCTAAATTCTAGATGACCTAAAAATCCCTTGTCTCTTACTGTTTATCTGACCTCATTTACTACCACCTTTTTCTTTGATCATTCTGTTCCAGCCACACTGGCCTCCTTACCACTCCTCAAATATGCCAAGCACAGCCCCCACCCCCCAGGGCTTTGAACTGGCTGATCCCCCTTCCTGGAATGCCTTACCCCAAATATCAACTTAGCCAACTCCCTCCTCTCCTCCAAGTGTCTGTTTAAACATGGCTTCAGTAGGAGCTGTCTTAACATCCTATTAATATTGTAATTCCTCTCATGACACTTTACACCCCCTTCCCTGATATGCTTTCCATATACCATGCAATATCTGCTGAGATAATATATAATTCACTTATTTTCTTTATTGTCATTTCAAAGAGGGCGGTGTGTTCTGTGTTTTATTTAGTGCCAAAATACTTGCTGATGAAGAGAGTTCCTGCCACATAGTAGGTGCTCAATATGTGCTTGTTGAATAAATGTGTCAATGTTTGATGTACAGACCTTTTATTATGTTTGATTTGCTGCCAGTGCTGCCTCCAAACACAGGAGTGCTTCATGAGATGTTCACAAAAGCTCTTAAAATATTCCACAAAAATCTTAAAATATTTCATGAGTTTTCTTTCCTGTATTTTTATAGCAGCATCTGGAATTTAGCCTGCATAGGACCCTCTGTAAGCTGACCCTGTTTATCTATTCAGCTTTACTTCTCCCCTCTCTCCACTTTGTATTTTATTCTCTACTACTTCCAACTGATTGTAATTTGACCAGACTCCAGACTATCTTATGCCTCTTTGCTTTTGTTTACCTGTTACTTCTCTCTGGAATTCCCTGCCCCTTCTTAATTTTTCTGGCCAATTCTCACTCTCTAGGACTCAGAGGTTTCTCCTCAGGAGACTTCCATGAGTCTCATGTTGAGTTAGGTGACCCCAATCCTCTGTTCTTCATAGTCATTCGCGCATTTATCTAGCTCAGCATTTGCCATACTACATTGAAATTATTTCCTTATGTGCCCATCACTCCCCGTAGATTGCAAACTCCTAGAGAAGGGCTCAACAGTGAGTGCTGAGGCTGCACAGAGGAGGAAGGCAGCACAATGATGGAAGGCTTCCTAAAGAGGTATGTTCCAAGAGCCCCCACTTCCTTTCATGGGAGACTCATGCTGTTACACCTAGACTATCTAGGGATACATCTAATGTAGTCGTGGAAAGAACAGAGGACTTGAGTACTAGACTGACGTGATTTTGAATCCTGGCTCCCTATTGACCAGATGTGTGTCTTGAACAAGTCCCTGAGCCTCAGTGTCTTCATCTGCACAGTGAGGATAATGATACCACACTGCATATATGAGGTATCCGGCACATGTAAATGTCCACTACATGCTGATTTCTTCACCCGCTACTCACCCCTGGGAAAGAAGTAGACTCACCTACTCTTGGTACCCATTCATTCCCCCTCAGTTGGAAGCATGAGGTGTGCAGCTGCCTGACCTGGGGGAAGGGCTGCAAGCAGTAGGTGTTGTCAGATGTGGTGGAGCTTGTTGACTTCCTCCCAGGGGCCCAGCTAACAACCTGCCTCTGTTCCTTGATAGTCAAGTTCAACTTTCACTTCTTAGCACCACAGGAAGTTGACTGAACATTAACTGAAGTCTCTCTCAAACAGGAGACATCTTTGCCAGGTCCCTGTACTTCCTAGCCTCATTCCTGCTCTCCCTAGTGAGCAGGCTGCCCTCCCTTCTCGCCCCAGCACCACTGATAGGCAAGGGTACTCAGAACTACTACCTTGTGGGCCATGTCATGTGCCAGGAGCTGCACCCAGGACTTTAATACAGTAGTTGGCTCCCACTGAATGTTCATTGTTACCCCAGGATAAAAAGGGGACACTGTGATCATTTTCTATTTTGCTGTGATCAGGCTTGGTGAGCTAAAGTCACCTACCTTCCCAGTCTCTACTAATAGAAGTCATGGATCAGTCCTATTGGTTCTTCTGTTACAAGGATTCAGAATTCATAATCATGGAGCTGCATTTACAGGCAGAAGTTTCTTTCATAGTTTTCTAAGTGTTCCTTTTAGCAACAATGGAGAAAATCAAAGAGGGCAAAGGTGAGGGGAGAAAATAACATTTCCCTTTCTGTCCTTTGCTCTTGTAGTCTTTTGCTTTAGTTTCTTTACTATGACTGTGAGGGTGAAACTAGTGATCAGAGTGGTCCAGAATGGGTTTGATGAATCTGATTCTGGTGACACAAGATGAATTGGGTATATGTTTCCCTAAAGATAGAGAGACAATATAACATAGTCTTTACATTAATAGACTCTGGAGCCAATTTTTTTAGGTTCACTCTCTTTCCTTTCATGTGTGTTGATTTTCAACAAACATCTTGCACTCGAATTCCATCTCACTGTTTTATTTTCAAAAAATTTAATTTGAGAAAGTTAGCTGTATTAATTTTTTCTTTTTCTAAAATTCTTTTACTAATTGCAATTATTTCCATTGATGCTATTCCATTGAAACCATTTTAACATGGACTCAATAACTTCATTGTATGTTAATGTTTAATTTTCATTTCTTTACCTTCTTGGTTTTCTAGCTGTGTTTAATGTGGTTGACCACTCATTCTTTGAAGCTCTATTCCTCTGGCTACTACAGTATGACACATTTTGTCTCCTTCTTCAGTCTCTGTCTTCTCCACAGTCTTCTCTTCCTTTTATATACCTTTAAATATTAATGTTTCCCAGAGATATTTTCTTAACTCACTTCTCTACTGATTCTAGGTACTTTTCTTGATCCAACTCTTCTGATTTTACCCATCTCGATGATTCTATAATTTGTATTTTCTGTTTTGATCTCTTTTCAGTCTTCCAGACCTAAATATCCAAATGCCTGATGGATAGTGCTTTCTTTTTTACTACCAAGCCCTCAAAGGCACTATGTTCAAAAGGAATTTGTCATCAGTCTCACGGCACATAAGCTTCCTCTTGTGTTCAATCTGGAGACTTGAGAGTCTTCCTGTTCCCTTCTTCTCCTTATTTTCTCCATAATCAATCACAAAGTCATGTGGATTTTGCTCCTAAATATGTTAACTTCTTTCCTCTCTCACTTTATATCCCTTACATCTAGGTATTTCAGACCCTCAGTCTCTCTCACATAGACTTTGGCAATAACCTTCTAATATCAGTCAACCTGACCAATAGGCCACCAGTGCTTCATGTAGAATCTGGACAATGTAGAGCACTGAGAATGCTCACACTGGTCATATATGTATGAGTTGGTATGACATCTAGGGAAGTTGAAGACTTACATAGCCTTTGGCCCAGCAATATACACCATAATACATTAGAGAAACTCTAGCATGTGTACACAGTGATATACACACAAGAATGTTCACAATGCCATTATTTTAATAGCAAAATTGTGGAAACAACACAAATGTTTATCAATAACAGAATGGATAAGTGAGCCATGGCATAGTCATACAATGAAAAATAATATAATAGTCAAAATGAATGATCTGAAGAGATATCATTATTGGCAATCTTATAAAAGACTGAGTTAAAAATGCAATTTGTGAAAATTTTTAATTATTTGATATTATTTAATGCAAAGTTTTAGAACATGCAAACAACTGTATATATTATTTATGTATATATGCAAATTCAGCAATAGCATTTAATCATGCCTGGGAATGATAAGTATCAAAGTCAGAAAGTGGTTACCCTTGGGAAGAGAGGTATGTATCAGCGGTGGGGCACATAGGATGTTGCAGCCATATCTGTAATGTTTCTTTGCTTTAAAAAATTTGAATCAAGCTTGGCAAAGTGTGACATTTGATTAAGCAGGATAGTGAGTGCATATCTGTTACTTATATTGTTCTTTATAATTTTCTCTATGCTAAAGCATTTTGTAATTTAAAAAACCTGACAGTGTTACTCCCATGCTTAAAATATGCCAGTGGTCAAACCAAATCCAGCAGCACATCAAAAAGCTTATCCACCATGATCAAGTGGGCTTCATCCCTGGGATGCAAGGCTGGTTCAATATAAGCAAATCAATAAATGTAATCCAGCATATAAACAGAACCAAAGACAAAAACCACATGATTATCTCAATAGATGCAGAAAAGGCCTTTGACAAAATTCAACAACTCTTCATGCCAAAAACTCTCAATAAATTAAGTATTGATGGGACGTATCTCAAAATAATAAGAGTTATCTATGAAAAACCCACAGCCAATATCATACTGAATGGGCAAAAACTGGAAGCATTCCCTTTGAAAACTGGCACAAGACAGGGATGCCCTCTCTCACCACTCCTATTCAACATGGTGTTGGAAGTTCTGGCCAGGGCAATTAGGCAGGAGAAGGAAATAAAGGGTATTCAATTAGGAAAAGAGGAAATCAAATTGTCCCTGTTTGCAGATGACATGTATATCTAGAAAACCCCATTGTCTCAGCCCAAAATCTCCTTAAGCTGATAAGCAACTTCAGCAAAGTCTCAGGATATAAAAATCAATGTACAAAAATCAGAAGCATTCTTATACACCAACAACAGACAAACAGAGAGCCAAATCATGAGTGAACTCCCATTCACAATTGCTTCAAAGAGAATAAAATACCTAGGAATCCAACTTACAAGGGACATGAAGGAACTCTTCAAGGAGAACTACAAACCACTGCTCAATGAAATAAAAGAGGATACAAACAAATGGAAGAACATTCCATGCTCATGGGTAGGAAGAATCAATATCGTGAAAATGGCCATACTGCCCAAGGTAATTTATAGATTCAATGCCATCCCCATCAAGCTACCAATGACTTTCTTCACAGAATTGGAAAAAACTGCTTTAAAGTTCATATGGCACCAAAAAAGAGCCCGCATCACCAAGTCAATCCTAAGCCAAAAGAACAAAGCTGGAGGCATCACACTACCTGACTTCAAACTATACTACAAGGCTACAGTAACCCAAACAGCATGGTACTGGTACCAAAACAGAGATATAGATCAATGGAACAGAACAGAGCCCTCAGAAATAACGCCACATATCTACAACTCTCTGATCTTTGACAAACCTGAGAAAAACAAGCAATGGGGAAAGGATTCCCTATTTAATAAATGGTGCTGGGAAAACTGGCTAGCCATATGGAGAAAGCTGAAACTGGATCCCTTCCTTACACCTTATACAAAAATTAATTCAAGATGGATTAAAGACTTAAATGTTAGACCTAAAACCATAAAAACCCTAGAAGAAAACCTAGGCATTACCATTCAGGACATAGGCATGGGCAAGGACTTCATGTCTAAAACACCAAAAGCAATGGCAACAAAAGACAAAATTGACAAAGGGGATCTAATTAAACTGAAGAGCTTCTGCACAGCAAAAGAAACTACCATCAGAGTGAACAGGCAACCTACAAAATGGGAGAAAATTTTCACAACCTACTCATCTGACAAAGGGCTAATATCCAGAATCTACAATGAACTCAAACAAATTTACAAGAAAAAAACAAACAACCCCATCAAAAAGTGGGCAAAGGACATGAACAGACACTTCTCAAAAGAAGACATTTATGCAGCCAAAAAACACATGAAAAAATGCTCATCATCACTGGCCATCAGAGAAATGCAAATCAAAACCACAATGAGATACCATCTCACACCAGTTAGAATGGCAATCATTAAAAAGTCAGGAAACAACAGGTGCTCGAGAGGATGTGGAGAAATAGGAACACTTTTACACTGTTAGTGGGACTGTAAACTAGTTCAACCATTGTGGAAGTCAGTGTGGCGATTCCTCAGGGATCTAGAACTAGAAATACCATTTGACCCAGCCATCCCATTACTGGGTATATACCCAAAGGACTATAAATCATGCTGCTATAAAGACACATGCATACGTATGTTTATTGTGGCACTATTCACAATAGCAAAGACTTGGAACCAAGCCAAATGTCCAACAATGATAGACTGGATTAAGAGAATGTGGCACATATACACCATGGAATACTATGCAGCCATAAAAAATGATGAGTTCATGTCCTTTGTAGGGACATGGATGAAATTGGAAATCATCATTCTCAGTAAACTATCGCAAGGACAAAAACCAAACACCGCATGTTCTCACTCATAGGTGGGAACTGAACAATGAAAACACATGGACACAGGAAGGGGAACATCACACTCTGGGGACTGTTGTGGGGTGGGGGGAGGGGGGAGGGATAGCATTAGGAGATATACCTAATGCTAAATGATGAGTTAATGGGTGCAGCACACCAGCATGGCACACGTATACATATGTAACTAACCTGCACATTGTGCACATGTACCCTAAAACTTAAAGTATAATAATAATTAAAAAAACCAATAGTTTATGAAACCCCCCCCAAAAAAAATATATGCCAGTGGCCTCCAGTTGCCCACCAGGTAGCATCCACATTCTTTAATGGAAAGCCCTTCCTTGCTTCGAACTTGCCAACTGGGATTGGACATTTGTAGTTGCATTTCTAAGAACTGTTCCCTTTTGTCAATGGAGCCTGATTTCCACTTGGATATCTGGGTGATTTAGGGAAACTGACCTCAAAACCCAATTCTACATTTCGACCATGTGACCTTGGCTTAATCAATTCACGCATCTTTTTCCCTCACCTCAGGGGATGATCATATGAACTAAGCCAGTTGCAATAGAGTAAACCTCATGTTCCTAATGAGAAATCCAGAACAAAATGCTTTATTTTTCTTCAATTTTTTATTAGGTCATCTCCTGAATCAATTAAAAAAAAAACCAACAGTGACAACAAAACTAAAAAATATGAAGAAGCTGAAACATGAAAGCTCTGCCAACTGCAATATGTAGCTGCTAAGGTTGCTGTATTTATTGGAATCAAGCAAGTGTTCCAGTAAAGAGCACAGAAGATGTGTCTGGGAGCCTTTATGTGTAGGTCTGCAAGTGGTGGATATCACTACTACTCACACGCCATTGGCTAGAACTGAGTTGCATGGATACACCTAATTGTAAAAGAGGCTGGGAAATAGAGACTATTGTGCCCAGAAAGAAGAGAAAATTCATTTATGGAAGAGGTAGCTAGTCTCTCACAGCCATGAAAAGAGAAGTGTTTAGCTAATTGAAGTGAATAGCAGCCATCTTGGGTCCCTAAGGCAAGTTAGACTAATATTGAAGTGGAAACCATGAGGAAAGCAGTGATACTGAAAGTAACCGCATCTTTGAGAACATGCATTCATTTCCTACAACATGAATTTATTGAGGACCTACCTTAATACAGGCAGCGTGCTAGACACCAAGAGAACTGATGTCCTCTTCCTTCCTGCCTGCCTGGAGCCTGTATTCTGGAGGGGACAGAGCTAGCAGATCAGACCTAACTGGAAATCTGCTGTGCCAGTATATATTTCAGTGATGTGAGCCAATATATCCCCTTGATTGCTCAAAGTAGTTTGGTCGATATATTTTGTTGCTTTAAATTGAACACATTCTTATGTACAGCCTCTGTCTCCTCATCTCCAACCAAGCAAAATAGCTTGTTCTCTTTATGCAGGGACACATGACATTTCCCACGTGGCTTTGTGCATATCTCCACCTCAATTTAAAATGCCTTCCAATCCCTGCTCAAAGTCAAACAGCTTAATAATGGTAGACATAGAATTTGACTTATTCTAATAATAGGTCTTTTAAACAATGCCTTCTTCTCTTCATTCTTTCCTTCTTAGAGTGGGTATTCTTTCTGGTGCATCATGTAAAGGAAGGTAACTACATGCATGTAATGATGAGAATATTTATATGTATTTATGATTATCACAAAAAAACAAAGATTCTACCATTCAAGAGGAACATTTATTTTATTTTTTTATTTGAGAAAAGTATAATTTTATTTATTTATTTATTTGTGCAAATTTATGGGGTACTTGAGAAAATGTGTTACATGTATATAATGTGTAGTGATCCAATCAGGATACTAAGGGTGTCCATCACCTGAGTGTATTACATTTTTGTTAAGTATAATCATCCTACTCCAGGAGAACATTTTAAAAACTGTTCTGTAGAGATACTACTCAAATTAAGTTCTCAGTCCTGAAACATCAGATCAGCTAGGAATCTGACAAAAATGCAAGTTCTCAGATGACAGATGAGACCACTTCAATCAGAATTTCTGGAGTGGAGCCCACACATTTGTATTTTTGCAACCTTTCCAATGATACTTATGTACATGCTCAAGCTTGAAAACCACTTTCCTAGGACATTAGTTCCTCGACAAGATTTGTGAGTAACCTTGTTTCATGAAAAAGTGTTTAGGAGATACTGATTCAATAAAAACTAATCAGGCTTTTATTGTTTGCAGGGCTTTCAAAACTTGCAATAGGCCACTGTGCATTGTTAATTTCTAAGAGGAAGATGCTTATGTCCTCAATGAATATCTTCCCACCATGAAGTACTCTTCTTCCCCCACTTTTTAAAACAATTACTAACACCTGGCAGAAGTAGGCAGACAGCTTACAGCTTAGAAAAAGTTGGCCTAAGATAATGGCTAATTTTCATACATTATTTATTTGTCATCATGCTTATCTTTCTCTCTCTAAATTGTATATTTCATCTCTGTGATCACAGATTGAGCCTCATATTTCATATCTGCCCCTGGCCTAATGGTTGTTTACAGAATGAGCTCAATGAATATTGTTAAGTGAGTAGGATTTAATTTATTTGATAAATAGATAACCTTAAGTTTTAAACGGTGGATTTCACATGAGGACATTTACTTACTATTGTTGAGCTGTAATTAATTTTTAATACTGTTTAGGTACTCATAATAAAGAACAGGATATTTGGAGAAGGAAGACAGTATCATTCCTGGTTCTTAGTCTTACCAGCTTATTGATCATGAGTATATAACCTCTCTGTGGCTCAGTGCCTTTCTCTGTAAAATGGGAACACAGTGATGTTCACCTCACAGGATTGATTTGTAAAAGGGCTGGATAAGGTTATGAGAATGTTTTGCAAAGTGATATCGAAAGATTAATTGCAAACTTCATTTGAATCTTAAATTGTTTGAGATAGGTCATGCTATGAATCAACTATGAAGTGCAGATATTGTCAAGATTCAATATTTCTTTCCCAAGAGCTGAGAGGAGGGGCTGCTTGTTTGTTTGTTTCTTTCTTTTTAGAAACATGCCAGGACAGGCTCATTTTCGGGTTTTCCTCTCACTTGCTCATCTTACTTTTTCTTTAGTTTCTCTATTCATTAGGATACAGTACTGTAAAGCTTTATGGCATTTTTATTTTGTGGGAGATGAATCTGAATAAAGAATTACAGTTAAATCATTGCTAAGTTTGATGAATGAGCACCAAAGAACTCTTCAAGATGTCATTTTTAAAGTTTTGTAAATGATTGGCTTTCAGTGGTTTCCTCTAAGGAATTTTAATTTTGAATAATGCATAGAAAAATGTGCGCACACACAAATCATTCAGTATCCACCTCGAAGGGAAATCAAAGTGCCTGTGAAGTGAAACTTTACCTTTCTATATCACCAGCTTCCTGTTAGAGCAGACTTTTTCTTTGCTCAAAGTCTAAGCATTGAAGAACTTCTTTTTAGTAGGTAGATTTTTGTGTTTTTTTGTTTGTTTTTGAGACGGAGTCTCACTCTGTCGCCCAGGCTGTGGTGCAGTGGCACGATCTCGGCCCACTGCAAGCTCTGCCTCCCGGGTTCACACCATTCTCCTGCCTCAGCCTCCCAAGTAGCTGGGACTACAGGTGCCAGCCACCACGCCTGGCTAATTTTTTTGCATTTTTTAGTAGAGATGGGGTTTCATCGTGTTAGCCAGGATGGTCTTGATCTCCTGACCTCATGATCCACCCGCCTTGGCCTGCCAGAGTGCTGGAATTACAGGCGTGATTTAGTAGGTAGTTTTGAGTAGGGAGTATACATTTAAAATGCTGAAACTCAGTTAAGGAATAATCTAATACTGTATTCAACTGAAACTCAGTTGAGAAATTTCTTTCCAATAATAAAGGAAAATCAACTGCAGTAATGAGGGAGATGATTTTGCTGCTAATTACAACAAATATTTACTACAGACCTGTTATGCACCAGGAACTGTGCTAAATGTTTTATACATATAACTTTATCTTGTGCTCCAACAACTTATTACATAGAAATTGCTATTATTCCCATTTTCTAGATTAATAAATTGGTTTAGAGGGGTCGTATAGGTGAAACAACTCACTCAATATCACAAGCTGTTATGTGGTGAAGTTTGCATGATCAGTACAGGGTTCTGGTCATCCCACTCATTGAGTGGTGCTAGTCAAGATCTGGAAGCTCTTCTGGTCTTAGTTTCTCTAGCCGTGAAGTGACAATGATTAGGTCTAATCATAGAACATGAGAGTACATGTGAAAAAATGCCTTTTTAAAGAGTATGAAAAACTTGAGTTGTAAAATTTTCTTGTGGATAATTTATTATTGCTTTTCTTTTTTAGATAACACTAACAAAGTTGACCTTAGAATTGGAGTGCCTGGGTTAGAACCCTGCTGGTACCACCTGCTTACTGGCATGCTTCTGATGTGAGTTCAGGAGAAGACACTGGCAAGGACAGCAAAGAACAGGAGAACACTCTAGCTTCCCTGATAGCATTCAAGGTGCTGTCCAAAGCTGACTGTGATGGCACCCTCCAGACAGACAGCGATGCCACATGTTCAAGATGGCAGAATCACTATCAGCTTCAATTCCTGAATGACTGCAGAGCAAAATTTCTTACCTGCAACATACACTCTATTTTCAGCCTCCCTGGACTGTTACATAATGATACATAAAAATATTTCTTGTGTTGAGGCATCCCAAATTTGATTTATTTGTCATCACAGTCTATCCTATGAATATATTTCTGATCCAAATAATGCTAGATTCATGAGAGTTTATAGTCCAGAGATTTTTTTTTTTTTTTTGAGACAGAATCTGTCTCCCAGGCTGGGGTGCAGTGGCATAATCTTAGCTCACTGCAACCTCTGCCTCCCGGGCTCAAGTGATCCTCCCTCCTTAGCCTCCATGAGTAGCTGGGACCACAGGTGTGCACCACCACACCCCGCTAATTATTTTGTATTTTTTGCAGAGGGGGGTTTCACCACATTGCCCAAGCTGGTCTCAAACTCCTAGACTTAAGGGATCTGCCTGCCTTGGCCTCCCAAAATGCTGAAATTACACTTGTTAGCCATAGTAATAGTTCCTAGCCATAGTCCGGAGATATTTTAAAAACTTTAGTGTGAGTTATTTCTCTTTGCTATAATTCTCTCATGCATTTTGAAAACCTTTTCTGCCATACAGTGGTTTTTGGGAAGTCCTTTTGGACAGACATATCACAGGATGGAGAAACTAAAAAGAGAGAATGCATTAAAGAAAAAATAGTACTTCGTATTTCAGAAATTACAAAAGGGTGTCATGCCCCACAGCATGGTGGGCAGTCATTTGTAACCCACAGAACATTGAGTTTCTAAAATTTGAGTGTTTTTAACTTACGAAGGCCAACTTTACTGATGAAGTGATTACCCCAAATATGTGAAATCCATATTTCAAGTACAATAGTAGGAAATTGGAAATGGGGCTCTTGAGTTTCTGCTTTCAAGTGACCCTCAGAAATTCCTCCATTCACTGCAGAGGTTCTGTTTCTCCTTGCTTTGTTCTGACTTTACGGCAGAACTAAGCTAATGAGTTAGTTACTATGGGTTATCACTTGGATTTGAAGAACCATCATTTCTAGGCATTGCTGCTCAGAGTGGGGTCTGCCCTCAGGGGAAGCTGTCTAACCAGAGCCTAACCCACTAGGGTTTTATCAGAACCTAACTGACCTGAGGAAAAGAAATACTCAACTCCAGCAAGCTCCAGCCTTCCAAATGGAGGAGGAGAAAACCCAACTCCAGCCCACTTCAGCTATCTTGTCCCACATAAAGGGGAAGTGGAAGAAACCTGAGAAGCAGGCATGAAGTTCACATGTATTCCACACCATTTCATATTCCATCGCATTCCATTCTACACAATTCCACATCTCCCCGGCCACATCAGCCTGAGAGTAATAAACAGACCTTGCCATCGTATCCCCTTTTGGAGACACAAGCCAGGAAGGAAGCTCTTCAGTGCAGCTGTGAATAGAGAAATGCTGGCTGAGGTTTTGGAGACACTGGGTGATCATTCCCAGTGAAATTTTTAGATCCCTGGGGACATGAGCTGCTTTGTCTTTTCCAAGGTCAGGATAAACAGAATAACTTCAGGCTTCTCTACCCAGAAAGAACATGTGGCATAAATATCAACTGCAGAATAAATATGATTAATCTGGTACATGGACGAAGATGTTTTCTAGGAGATGCTTATCCTGGGATGAGAGCTTTCATAAGCATTGATATTTACATGACTCTTACCGTGTGTCAGGAACTGTTCTAATTGTTTTACCTATGTCAATTCATTTGATAGTCACAACCACTGAAAGGAGTAAGTACTCTTATTACTTCCATTTTACAGATAGGGAAACTGAGGTATAGAGAAGTCAAGTGACTTGCCCGAGGTTATTAAACTACTTAATGTCAACACCAGGATTTGAACCCAGATCATTTGTTTCTGAAGTACATGCTCACAATCACTGCATTACTGATACACTGTTTTGTCTTTGCATACTTAAGTGGTCATAACTTAGTCTGAAACACTTTGTGAGAGCAGGAAGCAAACTGTCCCCTTATTAGGTGGACCAGTATAGTGATAATACAAAAGTGTATTGCATTTGAATTACTTGCTAATATCTTCTAATTGAGGCAATTTTGAACAGGAATATACATATCTAGCCTCTATTTTTCTAGCTAGAAGTTCTGAAATCCCTGGGCTTAATATTGTATGGCAACAATTGGCTGGAGTTGAGTTGCTGCCACTCTCTTTTAACTGAGCCATGCTCTCTCTAGTTTGCTACAGGCCCCACCACTCCCTATTGCCTCTCCAATACCAGGTCATTTGGCATCTTACTCAGCTCATTTCATGCACATGTGTTCCACAATTGGTAACATAACCCTAAAAGTATTTGAGTTTGTGGCTTCTGCTCTTGTGACAGAAGACTTTTCTCGAATTCCAAGGTCAACATATACCATATTGACTCTGGGCCACATTTTTTAATGTGCTCAAGCTCAGTTTTTCTCCTTAAAAAATGAGGGGTTAAAAATAACACTTCGTAGTTGCCTCATCTGTGGATTGGAAGAATGAATGCCTGTCATTTCTAGAGTTGTAGTAAGGGCCAGTTGGGGCAGTGCCTGTGAATATACGCAATGGGCCATCAAGCAATCTCAGGGCTTCAGGCAATGCTGGGGTTTATAAAGCACTTTATGTTTTAAGTTCACTTTTATTTCTAAAGTCTCATTGACTGCTCTGAAAATCTCTCAAGTAAAGTGGGCACTAAAGGCTTTATACTCTCTCCAATTATACCTTCCATTGTATAGATTTGGAAGCTGGGGTCCAAATGTGTTAAATGACTTGCCTAACATGGTCCATTACTGTAAGTACAGAAACGGAATGAGACCCCAAATCTGCTTCATGGAGGGACACTCTTCTAAGATACTGTGATGCTTCTTCCCAAGTAATTCCGTCTTCAGACTTCAAGGTCTCAATTCGAATGACAATTCAATATAGGACTTTCATAATCTTAAAAGCAACCTGACAGTCATTACAGTGGGCTGTGAGAAATACTAACGCAGAGCCACATACTCTGGGCTTCATGCTAGGTTTTGCCACTCACTATCTTTGCTGAAAAAGTTTTGGAAGCCCTCCTAAGCAGGTGCCAGACCCTTTTTTGGCCAGAGGACAGGATCTTACGCTGTTGCCCAGGCTGGAGTGCAATAGTGTCATCATGGCTCACTGTAGCCTGGAACTGCTGGGCTCAAGGGATCCTCCCAGCTCAGCCTCCCAAGTAGCTAGGAGTAAAGGTACATGCCATCATGCCTAGCTTTTTTTTTTTTTAATTTTTGGAGAGATAAGTTCCCATCATGTTGCCCAGGCTGGTCTCTAACTCTTGGACTCAAGTGGTCCTCCCACATCAGCCTCTCAAAGTGCTGAGATTGCAGGTGTTAGCCACTGCACTTGGCCTGGCCCCAGTATTCTTTGGGATCTGGAGTTTGCTGTTGAATGAGAAGGCAAGATGAAATTCCATGTAGTCAGACTCCTACGCTGCTGTTCTAAGCAGGGTTGGGCCTGATTAGTAGGTTATAGATGATGTTTTTCTGTGGTGCTATCTGGACCTAGTGCTCTTTGGCATCTGGGAAGGTATGGCCTTTAAAAAGCAAACTGCCATGAGAACTGCTCTACCCCAAATTTTGGTTCACAGCCTTCATTTGATTATGTATTGGGGCAAAAATAGTTTAGCCATGTGAACCTGTTTGTAAACTGGTGAGTTTCTATTGCTATTTCATAGCTAAAGTTTTGAGGTAAATGCTATTGGATCTTTGTGTCTGTGTGTGTATACATATTTAGATTTTTTTTTTTTTTTTTTTTTTGGTTCTTTGAAACATTGCTGATTCTTTTTGTTTTGTTTTTCAGAGTCTGGAGAACACTTTTTCTTTTGAGCTGTTTACAACCTTTAGCAATTGAGTAGAGTGTACTCTTGTCAATAGAATTTGAAGCACATTTCTCTCTCTGCCTGATTTCTGTAGAATTTGTAAACTATTTGTGAATATTCTTAATTTATGGCAATATGGTTGCTTACATAAGTTCAATAATAATCTGTTTTCTTTTACAATGAGACACAGTTGGAGGAACTGGTTATTTTCCCAGGGCTTTGACTGAAATGGCCTTGTGAATGGTTCCAGGAAAGCCAATTTTGGAGACCCTATGTGGATGATGATGCTTGCTGTACTTTCTGTGGGTAATCGGGCCAAGTATATGGGACTGAAGCTAATTTTGCAGGGCAACATAGAGAGACTTGAGTTCCAGGGGGAAAGTTTTAGGATGGAGAGAAGCCCTCACTGGACTGTGATGTGGGGTGAGAAAATGGAGGTCCAGAGAGAAAAGTGACTCACCCAAGCTGAAAACAGTTGCAGGAAGAAAAGCCAGGACAGAACTGGGCTGTTAGAAACCTTGGTAGTGCACTTTTGATTTCACTCTTAAAATGCTCAAATGTCTTTTTCTGACAACATGTAGGGAGACCTGAGGTTGGACCTAAAGACACCATATATTGGATTCAGTGCTTCACACAAGTTAATCTAAATTATGAAGGAGTACACTAAAGATGAGGAACTGAGTCACCGCAATGCCAAATGTAACACGCTGTGGGTCAAAATTTGGATGGTTGCGTTGGAAATTATTCTGAAGCCACAGACAGGGCTAAAAGGAGTCTAGAATGTCCTACTAGCTGTTGGAACCTGCTGGAGTTCTAAAGGCATGCGATGTCCTGAATGTGCTTGACCAATGGACACAGCAGGTATTTGAAGAGTTTTGATGCTTCCTTTCTGTTTTCAGTGCTATTTTTTTGCTTTATTTCTTTTAAAAAACTTTCCCCACAGAGGCTATTTATTACACAGCAGCAGCCAGCATGCACCAAGCAGAACTGCTTTTCATAATAAACCTATTTATCTTCTGGCATGTCAGAAATTTCTCAAATTGATACTTATAATAAATATGATTAATAACACATTGTATTTCAGTTGTTGCCGTAAAATAATTGGGAATAAATATCGTATTGTGATGTTGACAGTGTCAGGTTGGTTGGTGCCAAACAGCGGGAGCAGCCAACTGTATTTCATTAACAGCCACATTGCTACAATGCTATTAAGTTTTTCATAATCTCTTCTGCTCAAGGTTGATCATTCATTCTGTTAGACAAATTCTTGCAACAATCACACTGGAAGTAAATCTGCCAGCGACAATCTCAGCAAGATGGGTTCTCAC-5'

<128128655>(SEQ ID NO:1)

>CCAT1_JAX_2转录物序列；基因组位置:chr8:128128655-128232653链:-<128232653>

3'-AAGGATTTAATGGCAAGATGCCATTATAGACAAGAACAGGATTCAGACACTTTCGTGTTATGTGTTCTTGTCCAAATACTGTGTCACTCTGCACTGGCATCCCAATCCCACCAACACCTTTAGCAGGAACTTCCTGTTTCAATAACATTTCTCAATACTCTACCTGATTGCTTAGAATCCATGAGACAGCCATATTCTCCATGTCTAGGTCCCTATCTTATTTTTGTTGAGATGGTGTTAAGACTTTATTTGTGAGGCTTCTGGGGAAGAGGAGTAAGGTATTGATCCCACTGACTGGATAATTTGGGTCTCAAAATGGATAATAAATAAGCATTACATATTTTGACCACTTCCTTGGAGGAGAACTTCTTGGAATGTGCACCATGTCCGCTGCACTTTTTTTGCACAGATATCTAAGTTGGAGAAACATACTACTAGATAAATCAATTTGTTCTCTTAGTACTCATGATATGGTTCCTGGGAACTTCTGATTCACCAAATTAATCTTGGCCAGGTACATACCTGGCAGGAATCCAAAAATTCCCCAAGTCTCCTTGAAGTTCAGGATCATCATTCTTAATAAATACACCGAGGGAAAAACCATGGAGAGTTTGTCCCAGATGCTGTGAATCTGGCCCGGGGTACATGAAGAAGTCCTTAATTGCAGTCATTTACATGGTAGATTCTCTATAATCATTTAATTTGCTATAGGTCTATGATTTTTAGTCCTTCTTCTCTAAATGATTGAACATGTATAATTCCCATTTCAATCATATTACCTGGATGAACAAAAGTAACGCTAGACTCATTCATGCATTCTGGTTGCCAAGGAAAAGGAAAAAAAAACAAAACAATCAACAGGATGTTTAAACTGTCTTAGGGCAACTTCAGGCCATAGTCACTGGTGTTCTTGCAGACTATGAGATATTTTACATTCTGATAAGGGATAAAAATTCGTGCCTCACATGGCTCCCATCACACTAAGATCTTGCAACAATAACACTACTGATTCAGACATTAATCTTAAGTATCCAGGGAGCCCTAAAACATTGTATCCCACTAGCAAGGACCATGGTAATTGCCACGTAAATCCCCTCCATTATGTGGCCCTTATTATGACCAGCCAGCCAAGGCTTGCCTTTAAATCATACCAATTGAACCGAGCCTTGTAGAAACACTATCACCTACGCATACCTCTGCTTCTTTTCATTAACCTGCTATCCTCTTTACAAATGGGATTCTTCACCCACTCCCTTCTTCTAGATTAGCAATGCCCTGTTAAGTAAACGAACACGAAATTCAAAGGGAAACAGGAGCAATCATCATTACCAGCTGCCGTGTTAAGCATTGCGAAAACGCTCACGATTCACAGAAAAATCCATGCTGTTCTTTGAAGGCATTCAAGCCTTAATAGCTAGCTGGATGAATGTTTAACTTCTAGGCCAGGCACTACTCTGTCCCAACAATAAGCCCTGTACATTGGGAAAGGTGCCGAGACATGAACTTTGGTCTTCTCTGCAATCCATCTGGAGCATTCACTGACAACATCGACTTTGAAGTTGCACTGACCTGGCCAGCCCTGCCACTTACCAGGTTGGGCTCTGTATGGCTAAGCGTTTTCTCCTAAAATCCCTTGAAAACTGTGAGAAGACCATAAGAAGATCATATCTTTAATTCTATTTCACAAGTCACACAATATTCCAATCAAATACAGATGGTTGAGAAAAGTCATCCATCTTCCCTCCCCACCCTCCCACAGCCCCTCAACCACTGCCCTGAAACTTATATGCTGTTATCCGCAGCTCCATCTGGAGCATCACAGCTACTGTCAACCCTGACGCTCTTTCTGAAAAAACACCGGATGGACATCAGAACTATTTCTTTAAGGATGTTACTGAGCCACACAGGAAAACTTGCCTTATGATTTTGAATGCACGGATCTGATTTGACTAAACATGATAACTAGAGAATCACCCAATCTACTCCCATTTTCAACTCTAAATCATCAGAGTGTCTCAAATCCAAAGCACACACAGACCAGCCTGGCCAACACGGTGAAACTCCACCCCTACTAAAAGTATAAAAATTATCCAGGTGTGGTGGCGGGCGCCTGTAATCCAAGCTACTTGGGAGTCTGGAGGCAGGAGAATCCCTTGAACCTGGGAGATGGAGGTTGCAGTGAGCAGAGATCACACCACCGCACTCTAGCCTGGGCCACAAATCAACAACAACAACAACAACAAAAAACAAAGCGCACACAGAGACTGAGGTCCTCTTTGGCATTGAGAAGATGGCTATGCAAGTCCCAACTAGCAAGTGCAAACTTCCCAGCTTCACTTCTGCCAGTGTCCCTTCACCCCTTCTCAACCCCACTGGGAGGCAGGAGGGTGCTTGACAATAACAGCCTTGGCATCACTCTGCCAGGGTGTAATAGGAACTGTTACAATTCTGAGATTCTGTGTAAGCACTGGCCTTTCTGCCTAGAATGCCTTCTCCTCTCTTTTTTAACTGCATGCTCCTATTTATCTTTCAAAGCCCGGAAAAAATAACACTGCACACGGGAAATGCTCCCTTCCTACTGCAGTCATTTAGATGACTCTATGCCATTCCATTCATTTCTCTTTCCTACCACAGAAGTGCTTTGAGATTTTGGAGTCAGACTGCTTGAACTTGAATCCTGGCCCTCTCATCAGAGACTTGACTTATTTTAGGCAAGTTATATAACCAATTTTACCTCAGTTCCTTACCCATAAAATGGGTCTAATGAGAGTACCTACCACACAGAATTTTGATGAAAACTGAATGAGATGAAGGCCTTTAAGGCAGTGGTCCCCAACCCTGGGGACACAGACAGGTACCATTTTGTGGCCTGTTAGGAACTGGGCCACACAGCAGGAGGTGAGCAGTGGGTGAGTGAGATCAGCGTTATTTACAGCTGCTCCCCATTGCTCACCTTACTGCCTGAGCTCCACCTCCTGTCAGATCAGCAGTGGCATTAAATTCTCATAGCAGCACAAACCCTGTCATGAACTGCACATGCGAGGGATCTAGGTTGTGCGCTCCTTATGAGAATCTAATGCCTAATGACCTGTCACCGTCTCCCATCACCCCTAGATGGGAGTGTCTAGTTGCAGGAAACAAGCTCAGGGCTTCCACTGATTCTACATTATGGTGAGTTGTATAATTATTTCATTATATAATACAATGTAATAATAATAGAAACACAGTGCACAACAAATGTAATGTGCTTGAATCATCCCCAAACCATCCCAGTCCACGGTCTTCCACATTTTGTCTTTTCACAAAATTGTCTTCCACAAAACTGGTCCCTGGTGCCAAAAAGGCTTGGGACCACTGCTTTAAAGCCTTTGCATAGTGCTTAGAATTGAGGGGGAAAAAAAAAACAAAAACAATGTAGCTAGTTGCTACAATCACTATATTGGTGAGTTTCAAAAGGAAAAGAATTCTGTCCCATTTATGCTTGAGCCTTGAGTTGCTAACCAAGCCTGACACAAAATTACTGTTGAAGGGATGTGTGAGTCCTAATTGAAATGAGGCCTCTTAAGGGAATTGTGGACCAAACCCCAAGCAGGCAGAAAGCCGTATCTTAATTATTGCAAGTATTTCAGGCAAGGTGTGGATGGCCATTTGAATTCAAGCAGACTAGGACCTGGGATGAGAAAGAAGGTGTGTACGTGACTTGATCTTTGAACTTTAGCTCACCATCTGGAAGAAGGCTGAGTATTCTCTGCACTCACATAGTAGCTAATGCCTACTCCCCAGCCACCCACAATTCTTTCTGTAGGAAGGCTCGCTAGAATACTTTGTGATATTGGATATTAGTTCCATATTCTACTGTGTATCTTAGTTCAACCAAATTGTAATCATCTGATATTTATTTCTTTTAATATAAATATAAGTATATTAAGTCTTGGCATGCTTGCTCAGTCTCTCTCTCTCTCCCATTCCTCCCCGCTCCCCTCTCTCTTTCCCAACAGGCTTGGAAAGCAGGCATCACCATGCCTATTTAACAGTTGGGGTCCCTTGGCCACCAGGTGCTGGAGTAGGAATCTGAGCCCGGACATGCCTGATCTGTAAATTTTGTGTTTTCCCCACTGTGCTGGGCAGATCACAGCTATCAGCGCCAAATTCATAGAAGGGGCGCCCCCTGTGGTCAATTGAGGGATTTGTGTTTGAGGTAGATCTCAAGAAGGAATGGGTGGGGAACTTAGCCTAGGACAGAGCAGAAAGGAGCCCTCACTCCCCAAGCACCAACGGCCTCAGTCCTTCCTGCTGACTCCAGCCTCTAGCTCTCACCCAGACTATCTGCATCCTTCTCTCCACCACGCTCCTTTGGAACCTGCGTAAAACACAGATTAAAGGAATTCCGCCTTACTTCCCTTTCCGCATTATGACCAAATGGTTTTACACTATCATTGAACAGTTTAGTACAAAACATGCCACCTTTTAATCTATTCATTCATTTAACAAATACTTTGGAGTGTTTACCATGTGCCAAGTGCTGTTCTAATAGACATAAGCTGTGAGGTTATGCTTATCTGATTCTCACAGCAACAGCTTTCGAGATATGAATTGGTATACTCATTTGACAGATGAGGAAATTGAATTCATGTAGTGAGAAGGAAGAGCTGCAATTCAGGGTTACTGGTTTCTCCTGCACTAAGCACTGAGCCACACTAGAAGAGAAGGCATGAGGAAGACAAAAGTGAGGCTGTGGCTTGCCTTTTCACTTCTTGTGTCCTGTTTAAGAAATATCTGCTATCCCAAGGTAAGATACTATACTTTTTTTAACATGTTATTTTGTTTTACCTTTCACATTTGGTGTATACTACATTTGTAATTAATTTGTCCATATTATATGACATATAGCCAAGATTTATTTTTTACCATACAGATACTCAATATTGCCATTTACGTAGAACATCGTTCTCTTCCTACTCAATTGCCTTGGCACCTTTGTAATAAATCAGATGATCGTGTATGTGTAGTTCAGTTTCTGGACTCTGTCTTCTGTTTCTTTAGTCTATTTGCCTATTCTTGTACCAATATGCACTGTGTTAATAATCGTAGCTTTGTAGTAGGTCTCGAAATCTGACAGTGTAATTCTTTTAGTTTCTTTCTTCTGCAAATTTTCTTTAGCTGTTTTACGTCCTTTGCATTTGTATATAAACTTCAGAATCAGCTTGTCTATTCCAAAAACAACAACAACAAATGAAAGTTTCAGAAACTTTAACTGAAATTGTATTGAATCTGTAGACAATTTTGGAGTAAATTGCATCTTAGCAATGTAGAGTCTTTCGAACCATAACCATGGTAAGTCTCTCCATTTGCTTAAATCTTCTTTAATTTATTTCAACAATGGCTTCCAATTTCCAGCGGGAGCTCTTGGAAACTACAATTTACATGAACTTCTAATTTGATATTTTTCGGTGTCATTATAAACATTGTTGTTTTAAAAGTTGTCTTCAATTTTTTGTTGTCAGGCACAGAAATACAATTATTGATAACATTTATATATAAACTGTATCCAGTGATCTTGCTAGATTCACTGATGAGTCTGATGTTGTAGATTCTTTGGGATTTTCTCCGTACATAATCATATCCTTTCTGAATAAGATAGTTTTACTTCTTCATTTTTAATATCTATGCCTTTTATTTATTTTTCTTTTGAACTTTTTGCTGACTTCATTATTCACTCTCATGTTTTTCTCTTTCATTAGACTATGACTCCTCGATGGTAGCAATTTGTAGTAATCAAATTTTTGTATTTTATTTTAGCATCTGGCATCTTTCTTGACATATGTAGCAGTTGCTTTTTGACAGCTTGCTTCTTCAGTGAATGAATAAATTAATAAAGAGAAATGTGATGTTCAGTGATCCATTTTGCAGGTAAGAAAACTGAGGCAGACAGAGGATGTTAGCAAGCAAGAGGCCTTGGCCTACAATTTAGATCACTGGACTCTTACTCCAGATGCAATCTGCAGAACCCACATACTTTTAATTAGTCCCTTTGTCTATGTTCTGCCACTGTCACTTCTAAGGAAGGTGTGTCATCCCAAATGGGGTAGTATCTTATTGGTAGACCTAAATCTGCTGTGTTCGCCATCTCACCTACATGAGTATCTATGTGTAGCATTCTGCATATTCATCTTTTCCACCTTCTGGAGGTTTTGTCTTTTTATAGGCAGCATGTGAATAACAATGGGGCCAAACTGGGGACCAGAAGGGGCCATTTTCTAGTTCTGAACATAGATAAGCATCACTAACTTTTCCCTCCTGGCAGTAATGGCCTCAAAAGTTCCAACTTAGGAGAAAAAGGCAAAACCGTCTGCCAAAGTGTGTGAAAAGTTAGAGCAAACCTTGGTTTTACCAAGAACCTGTGTCCCTCTTATGGAAATTCACACTTTCACACTTTTAGACAAATATTAAATGTGTGACATTCTATTACGTACAGTGCCTGGCACATCTAGACACGCAGCACACTTTAGCCCCCTTCTTTCTTCTTCTAACTCCAAGTTCTAAACTAGAAAAAGCCCCACTTGAGTCTGAGATTTGCTTTTTGAACTAGTTTATTTCAGATTGTAATCATGCTATCTAGGGTTGTGACAGTGTTTGCTATTTCTAGGGCACTTTGACCTGATTCTTTTTGCACAGGAAACTTGTTCTACCCTTTTGCCCACTTCACTGAAGTGAGGACTGAGACAGAGAAGGATTAAGTCACTTTTTATTTAACAAATATTTGTTCCACATTCCTCAGCATTTATTAAATACTGGTGCATAATGATGGAATAAATTTTATACCGTAAGGATAAACCAGTATTCTGGACTAAGCCAACGTGGGAGACCCTAGGAGGCCTGTTTGAGAAAGTGACATTTAAATTGAGACTTGGCGGTGGCTGTGGCTACATATCTAGTAAGTGGCTGGGTTGGGATTTGAACTCATGCCTGCTTAGCTCTAAAGATGATGCTTTTGGCTTTGTACTCTGCTCTCTCTCTAGACAAACTCTGGTCCAAAATCGTTAAAGCTAACATTTATCCCTGCCCAACTGGAATTGTCATGTTATGACAAATGGCTCTGTGGTCTCAGATGCCCAGCAGACCCATTAGTGGAATTCTATGTGCTACAGACCTGGGCAAAATGCCAGAGCCTTATACACCCATCACATTTCGTCTGGCAAAGGTCTTCAACAAAGAGAAGTAATTACAGCAATGAAAAGCAACAGGTCCAGCAACACCATAAGAACAAAATAATTAATTTCCCTAAAATAGAAGAAACCATTTATAGAGTAAGAGCCGATACAATCAATAATTGGAAGAAATAGAAGAGGCTTTAGTATTCTAGCCTTCTTTATTTGTAGATGTAAATGTCGAGCCTCAGAGAAGTTATATATCTAATTAGTGTCACTCAGGTAGATAACAACAGAATTAGGATTAGAACTTAATTCTTATGACTCCCAGAGCAGGGAAAAGACAGGATGAAGTCCCAAAACATTGCGTGTGAACTCACATCTGACTCTGAATTGAGAGTCTGCTATTTACTCCCTATGTGACCAGAATCCTTCAGAGCCCATGAGATTCCCTGTCATAGAGTAGATTTTGATCCACACTAGGCATTTTTACCTCTTGCTCTTTGAGTTGGTGCCCCATGTTTACTCAGAAATATTCCAAAGGTGTTACATCTATTGGTTTTACATGTTGAGCACAGATCATTATAAGACAAATTGAAATGAAAACATCAACAAGTCTCATTCATTGTCTAACTTACGCTGAGCAATATTTAATAACTAGAATATCAAGAGAGTCCAAAGTGTTTGCCCATCCCCTCAAGACCAATGTAATGGAATTTTACTCTTATCACCTGCTCAGGGTAGTGGCAATTCAGGATACAGAGGACAGAAATAAAGAATCATGACACACAATCCACAGAATTCACAGATGCCAAACATCTACCCTTCTCTGTCACCACACATTGGACTCACATGGTGGAAATAGGCAACACAAGCAGAGAGGTGGCTTAACCTTTCATAATTTTTCAACGACCTATGGGAAGAGAGTTTTCTTGGTTCAAATCCCAGCTTAGCCACACAGAGTGTGGTAATATTGGGCAAGTCAACCAAGCTCTCTGTGCTTCAGTTTCCTCATTATTAAAATGGGGGAAATAATAGTGCCTGCATCAGAGGGTTGTTGTGAGAACTAAACGAAATAATTTATCTGAGCTTTAGAACCCACACCATATTAGTTAAAAATTCATGCATTTTCTTTTATTATATTTCTCTACCTTAGACTGCAAACTCTAAGAGGAAAGGCCGGACTGTTATATTCATAAAGCATTACAGGAACAGTAATTAGAACTAGGAGCTTTTCAATGGCCTGCCTGAAATCTGAAAAATAGGTATATTATTTGAAATTTTGAAAAAATCAAATAATTAAAAATTAATAGATGTTAATAAAATATCTGTAATATGTAATATCAAGGTCAACTCAACTCTTAATTGTTTATATAAAATATAGTGAAGTTTAAATTGCAAAATCTTACAGAAAATGTGCTATTAAAACTCAAAAGTATAATTCTTTCTAATATGTATATATATGTATATAGTTTTATTTTAAGTTCAGGGGCACATGTGCAAGTTTGTTACCTAGGGAAACTCACGTCACAGGACTTTGTTATACAGATACTTTCATCACCCAGGTATTAAGCCTAGTGCTCATTAGTTATTTTTCCTGATCCTCTCCCTCCTCCCAACCTCCACCCTCAGGTAGGCCTCAGTATCTCTTGTTCCCCTCTATGTGTTCATGAGTTCTTATCATTTAGCTCCCACTTACAAGTGAGAACATGTGGCATTTGGTTTTCTGTTCCTGCCTTAGTTTGCTAAGGAAAGCACTGTGGCAATTTCTCAAAGGACTAAAAACGGAATTACCATTCAACCCAGCAATCCCATTACTAGTTACGTACTCAAATATTTTTAAGGCAAAACAAAGCTGCAACCAGAACACCTGGACTCCCTGAAACCCCTTCCACTGATGTTGTTGTTGTTGTTTCTTTTTCCCCAGCTTCTCAGGCCAAAATACTGGATCATCTTGGGCACTGTTCTCTCCTGCCCACCCTTTCCCATATGCAGAGTGTTGTCACTTCTCTCTGCTTCCACTGCTAACTCCCTGGTCCAAGCCGCTGCACCACTTTTCGTGATTATTGCCACAGTCTCCTCACTGGTTCCCTGCCCCCACTCTTGCTCTGAACTATCCAGTTAAAACCTGAATTAGATCATCTCATCCTCATCTCAGAGCTTTCTCGTGGCTCCTCTGCCCTCTCAGGAAAAAATCTAAATTCTAGATGACCTAAAAATCCCTTGTCTCTTACTGTTTATCTGACCTCATTTACTACCACCTTTTTCTTTGATCATTCTGTTCCAGCCACACTGGCCTCCTTACCACTCCTCAAATATGCCAAGCACAGCCCCCACCCCCCAGGGCTTTGAACTGGCTGATCCCCCTTCCTGGAATGCCTTACCCCAAATATCAACTTAGCCAACTCCCTCCTCTCCTCCAAGTGTCTGTTTAAACATGGCTTCAGTAGGAGCTGTCTTAACATCCTATTAATATTGTAATTCCTCTCATGACACTTTACACCCCCTTCCCTGATATGCTTTCCATATACCATGCAATATCTGCTGAGATAATATATAATTCACTTATTTTCTTTATTGTCATTTCAAAGAGGGCGGTGTGTTCTGTGTTTTATTTAGTGCCAAAATACTTGCTGATGAAGAGAGTTCCTGCCACATAGTAGGTGCTCAATATGTGCTTGTTGAATAAATGTGTCAATGTTTGATGTACAGACCTTTTATTATGTTTGATTTGCTGCCAGTGCTGCCTCCAAACACAGGAGTGCTTCATGAGATGTTCACAAAAGCTCTTAAAATATTCCACAAAAATCTTAAAATATTTCATGAGTTTTCTTTCCTGTATTTTTATAGCAGCATCTGGAATTTAGCCTGCATAGGACCCTCTGTAAGCTGACCCTGTTTATCTATTCAGCTTTACTTCTCCCCTCTCTCCACTTTGTATTTTATTCTCTACTACTTCCAACTGATTGTAATTTGACCAGACTCCAGACTATCTTATGCCTCTTTGCTTTTGTTTACCTGTTACTTCTCTCTGGAATTCCCTGCCCCTTCTTAATTTTTCTGGCCAATTCTCACTCTCTAGGACTCAGAGGTTTCTCCTCAGGAGACTTCCATGAGTCTCATGTTGAGTTAGGTGACCCCAATCCTCTGTTCTTCATAGTCATTCGCGCATTTATCTAGCTCAGCATTTGCCATACTACATTGAAATTATTTCCTTATGTGCCCATCACTCCCCGTAGATTGCAAACTCCTAGAGAAGGGCTCAACAGTGAGTGCTGAGGCTGCACAGAGGAGGAAGGCAGCACAATGATGGAAGGCTTCCTAAAGAGGTATGTTCCAAGAGCCCCCACTTCCTTTCATGGGAGACTCATGCTGTTACACCTAGACTATCTAGGGATACATCTAATGTAGTCGTGGAAAGAACAGAGGACTTGAGTACTAGACTGACGTGATTTTGAATCCTGGCTCCCTATTGACCAGATGTGTGTCTTGAACAAGTCCCTGAGCCTCAGTGTCTTCATCTGCACAGTGAGGATAATGATACCACACTGCATATATGAGGTATCCGGCACATGTAAATGTCCACTACATGCTGATTTCTTCACCCGCTACTCACCCCTGGGAAAGAAGTAGACTCACCTACTCTTGGTACCCATTCATTCCCCCTCAGTTGGAAGCATGAGGTGTGCAGCTGCCTGACCTGGGGGAAGGGCTGCAAGCAGTAGGTGTTGTCAGATGTGGTGGAGCTTGTTGACTTCCTCCCAGGGGCCCAGCTAACAACCTGCCTCTGTTCCTTGATAGTCAAGTTCAACTTTCACTTCTTAGCACCACAGGAAGTTGACTGAACATTAACTGAAGTCTCTCTCAAACAGGAGACATCTTTGCCAGGTCCCTGTACTTCCTAGCCTCATTCCTGCTCTCCCTAGTGAGCAGGCTGCCCTCCCTTCTCGCCCCAGCACCACTGATAGGCAAGGGTACTCAGAACTACTACCTTGTGGGCCATGTCATGTGCCAGGAGCTGCACCCAGGACTTTAATACAGTAGTTGGCTCCCACTGAATGTTCATTGTTACCCCAGGATAAAAAGGGGACACTGTGATCATTTTCTATTTTGCTGTGATCAGGCTTGGTGAGCTAAAGTCACCTACCTTCCCAGTCTCTACTAATAGAAGTCATGGATCAGTCCTATTGGTTCTTCTGTTACAAGGATTCAGAATTCATAATCATGGAGCTGCATTTACAGGCAGAAGTTTCTTTCATAGTTTTCTAAGTGTTCCTTTTAGCAACAATGGAGAAAATCAAAGAGGGCAAAGGTGAGGGGAGAAAATAACATTTCCCTTTCTGTCCTTTGCTCTTGTAGTCTTTTGCTTTAGTTTCTTTACTATGACTGTGAGGGTGAAACTAGTGATCAGAGTGGTCCAGAATGGGTTTGATGAATCTGATTCTGGTGACACAAGATGAATTGGGTATATGTTTCCCTAAAGATAGAGAGACAATATAACATAGTCTTTACATTAATAGACTCTGGAGCCAATTTTTTTAGGTTCACTCTCTTTCCTTTCATGTGTGTTGATTTTCAACAAACATCTTGCACTCGAATTCCATCTCACTGTTTTATTTTCAAAAAATTTAATTTGAGAAAGTTAGCTGTATTAATTTTTTCTTTTTCTAAAATTCTTTTACTAATTGCAATTATTTCCATTGATGCTATTCCATTGAAACCATTTTAACATGGACTCAATAACTTCATTGTATGTTAATGTTTAATTTTCATTTCTTTACCTTCTTGGTTTTCTAGCTGTGTTTAATGTGGTTGACCACTCATTCTTTGAAGCTCTATTCCTCTGGCTACTACAGTATGACACATTTTGTCTCCTTCTTCAGTCTCTGTCTTCTCCACAGTCTTCTCTTCCTTTTATATACCTTTAAATATTAATGTTTCCCAGAGATATTTTCTTAACTCACTTCTCTACTGATTCTAGGTACTTTTCTTGATCCAACTCTTCTGATTTTACCCATCTCGATGATTCTATAATTTGTATTTTCTGTTTTGATCTCTTTTCAGTCTTCCAGACCTAAATATCCAAATGCCTGATGGATAGTGCTTTCTTTTTTACTACCAAGCCCTCAAAGGCACTATGTTCAAAAGGAATTTGTCATCAGTCTCACGGCACATAAGCTTCCTCTTGTGTTCAATCTGGAGACTTGAGAGTCTTCCTGTTCCCTTCTTCTCCTTATTTTCTCCATAATCAATCACAAAGTCATGTGGATTTTGCTCCTAAATATGTTAACTTCTTTCCTCTCTCACTTTATATCCCTTACATCTAGGTATTTCAGACCCTCAGTCTCTCTCACATAGACTTTGGCAATAACCTTCTAATATCAGTCAACCTGACCAATAGGCCACCAGTGCTTCATGTAGAATCTGGACAATGTAGAGCACTGAGAATGCTCACACTGGTCATATATGTATGAGTTGGTATGACATCTAGGGAAGTTGAAGACTTACATAGCCTTTGGCCCAGCAATATACACCATAATACATTAGAGAAACTCTAGCATGTGTACACAGTGATATACACACAAGAATGTTCACAATGCCATTATTTTAATAGCAAAATTGTGGAAACAACACAAATGTTTATCAATAACAGAATGGATAAGTGAGCCATGGCATAGTCATACAATGAAAAATAATATAATAGTCAAAATGAATGATCTGAAGAGATATCATTATTGGCAATCTTATAAAAGACTGAGTTAAAAATGCAATTTGTGAAAATTTTTAATTATTTGATATTATTTAATGCAAAGTTTTAGAACATGCAAACAACTGTATATATTATTTATGTATATATGCAAATTCAGCAATAGCATTTAATCATGCCTGGGAATGATAAGTATCAAAGTCAGAAAGTGGTTACCCTTGGGAAGAGAGGTATGTATCAGCGGTGGGGCACATAGGATGTTGCAGCCATATCTGTAATGTTTCTTTGCTTTAAAAAATTTGAATCAAGCTTGGCAAAGTGTGACATTTGATTAAGCAGGATAGTGAGTGCATATCTGTTACTTATATTGTTCTTTATAATTTTCTCTATGCTAAAGCATTTTGTAATTTAAAAAACCTGACAGTGTTACTCCCATGCTTAAAATATGCCAGTGGTCAAACCAAATCCAGCAGCACATCAAAAAGCTTATCCACCATGATCAAGTGGGCTTCATCCCTGGGATGCAAGGCTGGTTCAATATAAGCAAATCAATAAATGTAATCCAGCATATAAACAGAACCAAAGACAAAAACCACATGATTATCTCAATAGATGCAGAAAAGGCCTTTGACAAAATTCAACAACTCTTCATGCCAAAAACTCTCAATAAATTAAGTATTGATGGGACGTATCTCAAAATAATAAGAGTTATCTATGAAAAACCCACAGCCAATATCATACTGAATGGGCAAAAACTGGAAGCATTCCCTTTGAAAACTGGCACAAGACAGGGATGCCCTCTCTCACCACTCCTATTCAACATGGTGTTGGAAGTTCTGGCCAGGGCAATTAGGCAGGAGAAGGAAATAAAGGGTATTCAATTAGGAAAAGAGGAAATCAAATTGTCCCTGTTTGCAGATGACATGTATATCTAGAAAACCCCATTGTCTCAGCCCAAAATCTCCTTAAGCTGATAAGCAACTTCAGCAAAGTCTCAGGATATAAAAATCAATGTACAAAAATCAGAAGCATTCTTATACACCAACAACAGACAAACAGAGAGCCAAATCATGAGTGAACTCCCATTCACAATTGCTTCAAAGAGAATAAAATACCTAGGAATCCAACTTACAAGGGACATGAAGGAACTCTTCAAGGAGAACTACAAACCACTGCTCAATGAAATAAAAGAGGATACAAACAAATGGAAGAACATTCCATGCTCATGGGTAGGAAGAATCAATATCGTGAAAATGGCCATACTGCCCAAGGTAATTTATAGATTCAATGCCATCCCCATCAAGCTACCAATGACTTTCTTCACAGAATTGGAAAAAACTGCTTTAAAGTTCATATGGCACCAAAAAAGAGCCCGCATCACCAAGTCAATCCTAAGCCAAAAGAACAAAGCTGGAGGCATCACACTACCTGACTTCAAACTATACTACAAGGCTACAGTAACCCAAACAGCATGGTACTGGTACCAAAACAGAGATATAGATCAATGGAACAGAACAGAGCCCTCAGAAATAACGCCACATATCTACAACTCTCTGATCTTTGACAAACCTGAGAAAAACAAGCAATGGGGAAAGGATTCCCTATTTAATAAATGGTGCTGGGAAAACTGGCTAGCCATATGGAGAAAGCTGAAACTGGATCCCTTCCTTACACCTTATACAAAAATTAATTCAAGATGGATTAAAGACTTAAATGTTAGACCTAAAACCATAAAAACCCTAGAAGAAAACCTAGGCATTACCATTCAGGACATAGGCATGGGCAAGGACTTCATGTCTAAAACACCAAAAGCAATGGCAACAAAAGACAAAATTGACAAAGGGGATCTAATTAAACTGAAGAGCTTCTGCACAGCAAAAGAAACTACCATCAGAGTGAACAGGCAACCTACAAAATGGGAGAAAATTTTCACAACCTACTCATCTGACAAAGGGCTAATATCCAGAATCTACAATGAACTCAAACAAATTTACAAGAAAAAAACAAACAACCCCATCAAAAAGTGGGCAAAGGACATGAACAGACACTTCTCAAAAGAAGACATTTATGCAGCCAAAAAACACATGAAAAAATGCTCATCATCACTGGCCATCAGAGAAATGCAAATCAAAACCACAATGAGATACCATCTCACACCAGTTAGAATGGCAATCATTAAAAAGTCAGGAAACAACAGGTGCTCGAGAGGATGTGGAGAAATAGGAACACTTTTACACTGTTAGTGGGACTGTAAACTAGTTCAACCATTGTGGAAGTCAGTGTGGCGATTCCTCAGGGATCTAGAACTAGAAATACCATTTGACCCAGCCATCCCATTACTGGGTATATACCCAAAGGACTATAAATCATGCTGCTATAAAGACACATGCATACGTATGTTTATTGTGGCACTATTCACAATAGCAAAGACTTGGAACCAAGCCAAATGTCCAACAATGATAGACTGGATTAAGAGAATGTGGCACATATACACCATGGAATACTATGCAGCCATAAAAAATGATGAGTTCATGTCCTTTGTAGGGACATGGATGAAATTGGAAATCATCATTCTCAGTAAACTATCGCAAGGACAAAAACCAAACACCGCATGTTCTCACTCATAGGTGGGAACTGAACAATGAAAACACATGGACACAGGAAGGGGAACATCACACTCTGGGGACTGTTGTGGGGTGGGGGGAGGGGGGAGGGATAGCATTAGGAGATATACCTAATGCTAAATGATGAGTTAATGGGTGCAGCACACCAGCATGGCACACGTATACATATGTAACTAACCTGCACATTGTGCACATGTACCCTAAAACTTAAAGTATAATAATAATTAAAAAAACCAATAGTTTATGAAACCCCCCCCAAAAAAAATATATGCCAGTGGCCTCCAGTTGCCCACCAGGTAGCATCCACATTCTTTAATGGAAAGCCCTTCCTTGCTTCGAACTTGCCAACTGGGATTGGACATTTGTAGTTGCATTTCTAAGAACTGTTCCCTTTTGTCAATGGAGCCTGATTTCCACTTGGATATCTGGGTGATTTAGGGAAACTGACCTCAAAACCCAATTCTACATTTCGACCATGTGACCTTGGCTTAATCAATTCACGCATCTTTTTCCCTCACCTCAGGGGATGATCATATGAACTAAGCCAGTTGCAATAGAGTAAACCTCATGTTCCTAATGAGAAATCCAGAACAAAATGCTTTATTTTTCTTCAATTTTTTATTAGGTCATCTCCTGAATCAATTAAAAAAAAAACCAACAGTGACAACAAAACTAAAAAATATGAAGAAGCTGAAACATGAAAGCTCTGCCAACTGCAATATGTAGCTGCTAAGGTTGCTGTATTTATTGGAATCAAGCAAGTGTTCCAGTAAAGAGCACAGAAGATGTGTCTGGGAGCCTTTATGTGTAGGTCTGCAAGTGGTGGATATCACTACTACTCACACGCCATTGGCTAGAACTGAGTTGCATGGATACACCTAATTGTAAAAGAGGCTGGGAAATAGAGACTATTGTGCCCAGAAAGAAGAGAAAATTCATTTATGGAAGAGGTAGCTAGTCTCTCACAGCCATGAAAAGAGAAGTGTTTAGCTAATTGAAGTGAATAGCAGCCATCTTGGGTCCCTAAGGCAAGTTAGACTAATATTGAAGTGGAAACCATGAGGAAAGCAGTGATACTGAAAGTAACCGCATCTTTGAGAACATGCATTCATTTCCTACAACATGAATTTATTGAGGACCTACCTTAATACAGGCAGCGTGCTAGACACCAAGAGAACTGATGTCCTCTTCCTTCCTGCCTGCCTGGAGCCTGTATTCTGGAGGGGACAGAGCTAGCAGATCAGACCTAACTGGAAATCTGCTGTGCCAGTATATATTTCAGTGATGTGAGCCAATATATCCCCTTGATTGCTCAAAGTAGTTTGGTCGATATATTTTGTTGCTTTAAATTGAACACATTCTTATGTACAGCCTCTGTCTCCTCATCTCCAACCAAGCAAAATAGCTTGTTCTCTTTATGCAGGGACACATGACATTTCCCACGTGGCTTTGTGCATATCTCCACCTCAATTTAAAATGCCTTCCAATCCCTGCTCAAAGTCAAACAGCTTAATAATGGTAGACATAGAATTTGACTTATTCTAATAATAGGTCTTTTAAACAATGCCTTCTTCTCTTCATTCTTTCCTTCTTAGAGTGGGTATTCTTTCTGGTGCATCATGTAAAGGAAGGTAACTACATGCATGTAATGATGAGAATATTTATATGTATTTATGATTATCACAAAAAAACAAAGATTCTACCATTCAAGAGGAACATTTATTTTATTTTTTTATTTGAGAAAAGTATAATTTTATTTATTTATTTATTTGTGCAAATTTATGGGGTACTTGAGAAAATGTGTTACATGTATATAATGTGTAGTGATCCAATCAGGATACTAAGGGTGTCCATCACCTGAGTGTATTACATTTTTGTTAAGTATAATCATCCTACTCCAGGAGAACATTTTAAAAACTGTTCTGTAGAGATACTACTCAAATTAAGTTCTCAGTCCTGAAACATCAGATCAGCTAGGAATCTGACAAAAATGCAAGTTCTCAGATGACAGATGAGACCACTTCAATCAGAATTTCTGGAGTGGAGCCCACACATTTGTATTTTTGCAACCTTTCCAATGATACTTATGTACATGCTCAAGCTTGAAAACCACTTTCCTAGGACATTAGTTCCTCGACAAGATTTGTGAGTAACCTTGTTTCATGAAAAAGTGTTTAGGAGATACTGATTCAATAAAAACTAATCAGGCTTTTATTGTTTGCAGGGCTTTCAAAACTTGCAATAGGCCACTGTGCATTGTTAATTTCTAAGAGGAAGATGCTTATGTCCTCAATGAATATCTTCCCACCATGAAGTACTCTTCTTCCCCCACTTTTTAAAACAATTACTAACACCTGGCAGAAGTAGGCAGACAGCTTACAGCTTAGAAAAAGTTGGCCTAAGATAATGGCTAATTTTCATACATTATTTATTTGTCATCATGCTTATCTTTCTCTCTCTAAATTGTATATTTCATCTCTGTGATCACAGATTGAGCCTCATATTTCATATCTGCCCCTGGCCTAATGGTTGTTTACAGAATGAGCTCAATGAATATTGTTAAGTGAGTAGGATTTAATTTATTTGATAAATAGATAACCTTAAGTTTTAAACGGTGGATTTCACATGAGGACATTTACTTACTATTGTTGAGCTGTAATTAATTTTTAATACTGTTTAGGTACTCATAATAAAGAACAGGATATTTGGAGAAGGAAGACAGTATCATTCCTGGTTCTTAGTCTTACCAGCTTATTGATCATGAGTATATAACCTCTCTGTGGCTCAGTGCCTTTCTCTGTAAAATGGGAACACAGTGATGTTCACCTCACAGGATTGATTTGTAAAAGGGCTGGATAAGGTTATGAGAATGTTTTGCAAAGTGATATCGAAAGATTAATTGCAAACTTCATTTGAATCTTAAATTGTTTGAGATAGGTCATGCTATGAATCAACTATGAAGTGCAGATATTGTCAAGATTCAATATTTCTTTCCCAAGAGCTGAGAGGAGGGGCTGCTTGTTTGTTTGTTTCTTTCTTTTTAGAAACATGCCAGGACAGGCTCATTTTCGGGTTTTCCTCTCACTTGCTCATCTTACTTTTTCTTTAGTTTCTCTATTCATTAGGATACAGTACTGTAAAGCTTTATGGCATTTTTATTTTGTGGGAGATGAATCTGAATAAAGAATTACAGTTAAATCATTGCTAAGTTTGATGAATGAGCACCAAAGAACTCTTCAAGATGTCATTTTTAAAGTTTTGTAAATGATTGGCTTTCAGTGGTTTCCTCTAAGGAATTTTAATTTTGAATAATGCATAGAAAAATGTGCGCACACACAAATCATTCAGTATCCACCTCGAAGGGAAATCAAAGTGCCTGTGAAGTGAAACTTTACCTTTCTATATCACCAGCTTCCTGTTAGAGCAGACTTTTTCTTTGCTCAAAGTCTAAGCATTGAAGAACTTCTTTTTAGTAGGTAGATTTTTGTGTTTTTTTGTTTGTTTTTGAGACGGAGTCTCACTCTGTCGCCCAGGCTGTGGTGCAGTGGCACGATCTCGGCCCACTGCAAGCTCTGCCTCCCGGGTTCACACCATTCTCCTGCCTCAGCCTCCCAAGTAGCTGGGACTACAGGTGCCAGCCACCACGCCTGGCTAATTTTTTTGCATTTTTTAGTAGAGATGGGGTTTCATCGTGTTAGCCAGGATGGTCTTGATCTCCTGACCTCATGATCCACCCGCCTTGGCCTGCCAGAGTGCTGGAATTACAGGCGTGATTTAGTAGGTAGTTTTGAGTAGGGAGTATACATTTAAAATGCTGAAACTCAGTTAAGGAATAATCTAATACTGTATTCAACTGAAACTCAGTTGAGAAATTTCTTTCCAATAATAAAGGAAAATCAACTGCAGTAATGAGGGAGATGATTTTGCTGCTAATTACAACAAATATTTACTACAGACCTGTTATGCACCAGGAACTGTGCTAAATGTTTTATACATATAACTTTATCTTGTGCTCCAACAACTTATTACATAGAAATTGCTATTATTCCCATTTTCTAGATTAATAAATTGGTTTAGAGGGGTCGTATAGGTGAAACAACTCACTCAATATCACAAGCTGTTATGTGGTGAAGTTTGCATGATCAGTACAGGGTTCTGGTCATCCCACTCATTGAGTGGTGCTAGTCAAGATCTGGAAGCTCTTCTGGTCTTAGTTTCTCTAGCCGTGAAGTGACAATGATTAGGTCTAATCATAGAACATGAGAGTACATGTGAAAAAATGCCTTTTTAAAGAGTATGAAAAACTTGAGTTGTAAAATTTTCTTGTGGATAATTTATTATTGCTTTTCTTTTTTAGATAACACTAACAAAGTTGACCTTAGAATTGGAGTGCCTGGGTTAGAACCCTGCTGGTACCACCTGCTTACTGGCATGCTTCTGATGTGAGTTCAGGAGAAGACACTGGCAAGGACAGCAAAGAACAGGAGAACACTCTAGCTTCCCTGATAGCATTCAAGGTGCTGTCCAAAGCTGACTGTGATGGCACCCTCCAGACAGACAGCGATGCCACATGTTCAAGATGGCAGAATCACTATCAGCTTCAATTCCTGAATGACTGCAGAGCAAAATTTCTTACCTGCAACATACACTCTATTTTCAGCCTCCCTGGACTGTTACATAATGATACATAAAAATATTTCTTGTGTTGAGGCATCCCAAATTTGATTTATTTGTCATCACAGTCTATCCTATGAATATATTTCTGATCCAAATAATGCTAGATTCATGAGAGTTTATAGTCCAGAGATTTTTTTTTTTTTTTTGAGACAGAATCTGTCTCCCAGGCTGGGGTGCAGTGGCATAATCTTAGCTCACTGCAACCTCTGCCTCCCGGGCTCAAGTGATCCTCCCTCCTTAGCCTCCATGAGTAGCTGGGACCACAGGTGTGCACCACCACACCCCGCTAATTATTTTGTATTTTTTGCAGAGGGGGGTTTCACCACATTGCCCAAGCTGGTCTCAAACTCCTAGACTTAAGGGATCTGCCTGCCTTGGCCTCCCAAAATGCTGAAATTACACTTGTTAGCCATAGTAATAGTTCCTAGCCATAGTCCGGAGATATTTTAAAAACTTTAGTGTGAGTTATTTCTCTTTGCTATAATTCTCTCATGCATTTTGAAAACCTTTTCTGCCATACAGTGGTTTTTGGGAAGTCCTTTTGGACAGACATATCACAGGATGGAGAAACTAAAAAGAGAGAATGCATTAAAGAAAAAATAGTACTTCGTATTTCAGAAATTACAAAAGGGTGTCATGCCCCACAGCATGGTGGGCAGTCATTTGTAACCCACAGAACATTGAGTTTCTAAAATTTGAGTGTTTTTAACTTACGAAGGCCAACTTTACTGATGAAGTGATTACCCCAAATATGTGAAATCCATATTTCAAGTACAATAGTAGGAAATTGGAAATGGGGCTCTTGAGTTTCTGCTTTCAAGTGACCCTCAGAAATTCCTCCATTCACTGCAGAGGTTCTGTTTCTCCTTGCTTTGTTCTGACTTTACGGCAGAACTAAGCTAATGAGTTAGTTACTATGGGTTATCACTTGGATTTGAAGAACCATCATTTCTAGGCATTGCTGCTCAGAGTGGGGTCTGCCCTCAGGGGAAGCTGTCTAACCAGAGCCTAACCCACTAGGGTTTTATCAGAACCTAACTGACCTGAGGAAAAGAAATACTCAACTCCAGCAAGCTCCAGCCTTCCAAATGGAGGAGGAGAAAACCCAACTCCAGCCCACTTCAGCTATCTTGTCCCACATAAAGGGGAAGTGGAAGAAACCTGAGAAGCAGGCATGAAGTTCACATGTATTCCACACCATTTCATATTCCATCGCATTCCATTCTACACAATTCCACATCTCCCCGGCCACATCAGCCTGAGAGTAATAAACAGACCTTGCCATCGTATCCCCTTTTGGAGACACAAGCCAGGAAGGAAGCTCTTCAGTGCAGCTGTGAATAGAGAAATGCTGGCTGAGGTTTTGGAGACACTGGGTGATCATTCCCAGTGAAATTTTTAGATCCCTGGGGACATGAGCTGCTTTGTCTTTTCCAAGGTCAGGATAAACAGAATAACTTCAGGCTTCTCTACCCAGAAAGAACATGTGGCATAAATATCAACTGCAGAATAAATATGATTAATCTGGTACATGGACGAAGATGTTTTCTAGGAGATGCTTATCCTGGGATGAGAGCTTTCATAAGCATTGATATTTACATGACTCTTACCGTGTGTCAGGAACTGTTCTAATTGTTTTACCTATGTCAATTCATTTGATAGTCACAACCACTGAAAGGAGTAAGTACTCTTATTACTTCCATTTTACAGATAGGGAAACTGAGGTATAGAGAAGTCAAGTGACTTGCCCGAGGTTATTAAACTACTTAATGTCAACACCAGGATTTGAACCCAGATCATTTGTTTCTGAAGTACATGCTCACAATCACTGCATTACTGATACACTGTTTTGTCTTTGCATACTTAAGTGGTCATAACTTAGTCTGAAACACTTTGTGAGAGCAGGAAGCAAACTGTCCCCTTATTAGGTGGACCAGTATAGTGATAATACAAAAGTGTATTGCATTTGAATTACTTGCTAATATCTTCTAATTGAGGCAATTTTGAACAGGAATATACATATCTAGCCTCTATTTTTCTAGCTAGAAGTTCTGAAATCCCTGGGCTTAATATTGTATGGCAACAATTGGCTGGAGTTGAGTTGCTGCCACTCTCTTTTAACTGAGCCATGCTCTCTCTAGTTTGCTACAGGCCCCACCACTCCCTATTGCCTCTCCAATACCAGGTCATTTGGCATCTTACTCAGCTCATTTCATGCACATGTGTTCCACAATTGGTAACATAACCCTAAAAGTATTTGAGTTTGTGGCTTCTGCTCTTGTGACAGAAGACTTTTCTCGAATTCCAAGGTCAACATATACCATATTGACTCTGGGCCACATTTTTTAATGTGCTCAAGCTCAGTTTTTCTCCTTAAAAAATGAGGGGTTAAAAATAACACTTCGTAGTTGCCTCATCTGTGGATTGGAAGAATGAATGCCTGTCATTTCTAGAGTTGTAGTAAGGGCCAGTTGGGGCAGTGCCTGTGAATATACGCAATGGGCCATCAAGCAATCTCAGGGCTTCAGGCAATGCTGGGGTTTATAAAGCACTTTATGTTTTAAGTTCACTTTTATTTCTAAAGTCTCATTGACTGCTCTGAAAATCTCTCAAGTAAAGTGGGCACTAAAGGCTTTATACTCTCTCCAATTATACCTTCCATTGTATAGATTTGGAAGCTGGGGTCCAAATGTGTTAAATGACTTGCCTAACATGGTCCATTACTGTAAGTACAGAAACGGAATGAGACCCCAAATCTGCTTCATGGAGGGACACTCTTCTAAGATACTGTGATGCTTCTTCCCAAGTAATTCCGTCTTCAGACTTCAAGGTCTCAATTCGAATGACAATTCAATATAGGACTTTCATAATCTTAAAAGCAACCTGACAGTCATTACAGTGGGCTGTGAGAAATACTAACGCAGAGCCACATACTCTGGGCTTCATGCTAGGTTTTGCCACTCACTATCTTTGCTGAAAAAGTTTTGGAAGCCCTCCTAAGCAGGTGCCAGACCCTTTTTTGGCCAGAGGACAGGATCTTACGCTGTTGCCCAGGCTGGAGTGCAATAGTGTCATCATGGCTCACTGTAGCCTGGAACTGCTGGGCTCAAGGGATCCTCCCAGCTCAGCCTCCCAAGTAGCTAGGAGTAAAGGTACATGCCATCATGCCTAGCTTTTTTTTTTTTTAATTTTTGGAGAGATAAGTTCCCATCATGTTGCCCAGGCTGGTCTCTAACTCTTGGACTCAAGTGGTCCTCCCACATCAGCCTCTCAAAGTGCTGAGATTGCAGGTGTTAGCCACTGCACTTGGCCTGGCCCCAGTATTCTTTGGGATCTGGAGTTTGCTGTTGAATGAGAAGGCAAGATGAAATTCCATGTAGTCAGACTCCTACGCTGCTGTTCTAAGCAGGGTTGGGCCTGATTAGTAGGTTATAGATGATGTTTTTCTGTGGTGCTATCTGGACCTAGTGCTCTTTGGCATCTGGGAAGGTATGGCCTTTAAAAAGCAAACTGCCATGAGAACTGCTCTACCCCAAATTTTGGTTCACAGCCTTCATTTGATTATGTATTGGGGCAAAAATAGTTTAGCCATGTGAACCTGTTTGTAAACTGGTGAGTTTCTATTGCTATTTCATAGCTAAAGTTTTGAGGTAAATGCTATTGGATCTTTGTGTCTGTGTGTGTATACATATTTAGATTTTTTTTTTTTTTTTTTTTTTGGTTCTTTGAAACATTGCTGATTCTTTTTGTTTTGTTTTTCAGAGTCTGGAGAACACTTTTTCTTTTGAGCTGTTTACAACCTTTAGCAATTGAGTAGAGTGTACTCTTGTCAATAGAATTTGAAGCACATTTCTCTCTCTGCCTGATTTCTGTAGAATTTGTAAACTATTTGTGAATATTCTTAATTTATGGCAATATGGTTGCTTACATAAGTTCAATAATAATCTGTTTTCTTTTACAATGAGACACAGTTGGAGGAACTGGTTATTTTCCCAGGGCTTTGACTGAAATGGCCTTGTGAATGGTTCCAGGAAAGCCAATTTTGGAGACCCTATGTGGATGATGATGCTTGCTGTACTTTCTGTGGGTAATCGGGCCAAGTATATGGGACTGAAGCTAATTTTGCAGGGCAACATAGAGAGACTTGAGTTCCAGGGGGAAAGTTTTAGGATGGAGAGAAGCCCTCACTGGACTGTGATGTGGGGTGAGAAAATGGAGGTCCAGAGAGAAAAGTGACTCACCCAAGCTGAAAACAGTTGCAGGAAGAAAAGCCAGGACAGAACTGGGCTGTTAGAAACCTTGGTAGTGCACTTTTGATTTCACTCTTAAAATGCTCAAATGTCTTTTTCTGACAACATGTAGGGAGACCTGAGGTTGGACCTAAAGACACCATATATTGGATTCAGTGCTTCACACAAGTTAATCTAAATTATGAAGGAGTACACTAAAGATGAGGAACTGAGTCACCGCAATGCCAAATGTAACACGCTGTGGGTCAAAATTTGGATGGTTGCGTTGGAAATTATTCTGAAGCCACAGACAGGGCTAAAAGGAGTCTAGAATGTCCTACTAGCTGTTGGAACCTGCTGGAGTTCTAAAGGCATGCGATGTCCTGAATGTGCTTGACCAATGGACACAGCAGGTATTTGAAGAGTTTTGATGCTTCCTTTCTGTTTTCAGTGCTATTTTTTTGCTTTATTTCTTTTAAAAAACTTTCCCCACAGAGGCTATTTATTACACAGCAGCAGCCAGCATGCACCAAGCAGAACTGCTTTTCATAATAAACCTATTTATCTTCTGGCATGTCAGAAATTTCTCAAATTGATACTTATAATAAATATGATTAATAACACATTGTATTTCAGTTGTTGCCGTAAAATAATTGGGAATAAATATCGTATTGTGATGTTGACAGTGTCAGGTTGGTTGGTGCCAAACAGCGGGAGCAGCCAACTGTATTTCATTAACAGCCACATTGCTACAATGCTATTAAGTTTTTCATAATCTCTTCTGCTCAAGGTTGATCATTCATTCTGTTAGACAAATTCTTGCAACAATCACACTGGAAGTAAATCTGCCAGCGACAATCTCAGCAAGATGGGTTCTCAC-5'

<128128655>(SEQ ID NO:2)

>CCAT1_JAX_3转录物序列；基因组位置:chr8:128152989-128231094链:-<128231094>

3'-GTTGCACTGACCTGGCCAGCCCTGCCACTTACCAGGTTGGGGCTTTGACTGAAATGGCCTTGTGAATGGTTCCAGGAAAGCCAATTTTGGAGACCCTATGTGGATGATGATGCTTGCTGTACTTTCTGTGGGTAATCGGGCCAAGTATATGGGACTGAAGCTAATTTTGCAGGCAACATAGAGAGACTTGAGTTCCAGGGGGAAAGTTTTAGGATGGAGAGAAGCCCTCACTGGACTGTGATGTGGGTGAGAAAATGGAGGTCCAGAGAGAAAAGTGACTCACCCAAGCTGAAAACAGTTGCAGGAAGAAAAGCCAGGACAGAACTGGGCTGTTAGAAACCTTGATGAAGGAGTACACTAAAGATGAGGAACTGAGTCACCGCAATGCCAAATGTAACACGCTGTGGGTCAAAATTTGGATGGTTGCGTTGGAAATTATTCTGAAGCCACAGACAGGGCTAAAAG-5'<128152989>(SEQ ID NO:3)

>CCAT1_JAX_4转录物序列；基因组位置:chr8:128160497-128232653链:-

<128232653>

3'-AAGGATTTAATGGCAAGATGCCATTATAGACAAGAACAGGATTCAGACACTTTCGTGTTATGTGTTCTTGTCCAAATACTGTGTCACTCTGCACTGGCATCCCAATCCCACCAACACCTTTAGCAGGAACTTCCTGTTTCAATAACATTTCTCAATACTCTACCTGATTGCTTAGAATCCATGAGACAGCCATATTCTCCATGTCTAGGTCCCTATCTTATTTTTGTTGAGATGGTGTTAAGACTTTATTTGTGAGGCTTCTGGGGAAGAGGAGTAAGGTATTGATCCCACTGACTGGATAATTTGGGTCTCAAAATGGATAATAAATAAGCATTACATATTTTGACCACTTCCTTGGAGGAGAACTTCTTGGAATGTGCACCATGTCCGCTGCACTTTTTTTGCACAGATATCTAAGTTGGAGAAACATACTACTAGATAAATCAATTTGTTCTCTTAGTACTCATGATATGGTTCCTGGGAACTTCTGATTCACCAAATTAATCTTGGCCAGGTACATACCTGGCAGGAATCCAAAAATTCCCCAAGTCTCCTTGAAGTTCAGGATCATCATTCTTAATAAATACACCGAGGGAAAAACCATGGAGAGTTTGTCCCAGATGCTGTGAATCTGGCCCGGGGTACATGAAGAAGTCCTTAATTGCAGTCATTTACATGGTAGATTCTCTATAATCATTTAATTTGCTATAGGTCTATGATTTTTAGTCCTTCTTCTCTAAATGATTGAACATGTATAATTCCCATTTCAATCATATTACCTGGATGAACAAAAGTAACGCTAGACTCATTCATGCATTCTGGTTGCCAAGGAAAAGGAAAAAAAACAAAACAATCAACAGGATGTTTAAACTGTCTTAGGGCAACTTCAGGCCATAGTCACTGGTGTTCTTGCAGACTATGAGATATTTTACATTCTGATAAGGGATAAAAATTCGTGCCTCACATGGCTCCCATCACACTAAGATCTTGCAACAATAACACTACTGATTCAGACATTAATCTTAAGTATCCAGGGAGCCCTAAAACATTGTATCCCACTAGCAAGGACCATGGTAATTGCCACGTAAATCCCCTCCATTATGTGGCCCTTATTATGACCAGCCAGCCAAGGCTTGCCTTTAAATCATACCATTGAACCGAGCCTTGTAGAAACACTATCACCTACGCATACCTCTGCTTCTTTTCATTAACCTGCTATCCTCTTTACAAATGGGATTCTTCACCCACTCCCTTCTTCTAGATTAGCAATGCCCTGTTAAGTAAACGAACACGAAATTCAAAGGGAAACAGGAGCAATCATCATTACCAGCTGCCGTGTTAAGCATTGCGAAAACGCTCACGATTCACAGAAAAATCCATGCTGTTCTTTGAAGGCATTCAAGCCTTAATAGCTAGCTGGATGAATGTTTAACTTCTAGGCCAGGCACTACTCTGTCCCAACAATAAGCCCTGTACATTGGGAAAGGTGCCGAGACATGAACTTTGGTCTTCTCTGCAATCCATCTGGAGCATTCACTGACAACATCGACTTTGAAGTTGCACTGACCTGGCCAGCCCTGCCACTTACCAGGTTGGGCTGTGGCTTGCCTTTTCACTTCTTGTGTCCTGTTTAAGAAATATCTGCTATCCCAAGGTAAGATACTATACTTTTTTTAACATGTTATTTTGTTTTACCTTTCACATTTGGTGTATACTACATTTGTAATTAATTTGTCCATATTATATGACATATAGCCAAGATTTATTTTTTACCATACAGATACTCAATATTGCCATTTACGTAGAACATCGTTCTCTTCCTACTCAATTGCCTTGGCACCTTTGTAATAAATCAGATGATCGTGTATGTGTAGTTCAGTTTCTGGACTCTGTCTTCTGTTTCTTTAGTCTATTTGCCTATTCTTGTACCAATATGCACTGTGTTAATAATCGTAGCTTTGTAGTAGGTCTCGAAATCTGACAGTGTAATTCTTTTAGTTTCTTTCTTCTGCAAATTTTCTTTAGCTGTTTTACGTCCTTTGCATTTGTATATAAACTTCAGAATCAGCTTGTCTATTCCAAAAACAACAACAACAAATGAAAGTTTCAGAAACTTTAACTGAAATTGTATTGAATCTGTAGACAATTTTGGAGTAAATTGCATCTTAGCAATGTAGAGTCTTTCGAACCATAACCATGGTAAGTCTCTCCATTTGCTTAAATCTTCTTTAATTTATTTCAACAATGGCTTCCAATTTCCAGCGGGAGCTCTTGGAAACTACAATTTACATGAACTTCTAATTTGATATTTTTCGGTGTCATTATAAACATTGTTGTTTTAAAAGTTGTCTTCAATTTTTTGTTGTCAGGCACAGAAATACAATTATTGATAACATTTATATATAAACTGTATCCAGTGATCTTGCTAGATTCACTGATGAGTCTGATGTTGTAGATTCTTTGGGATTTTCTCCGTACATAATCATATCCTTTCTGAATAAGATAGTTTTACTTCTTCATTTTTAATATCTATGCCTTTTATTTATTTTTCTTTTGAACTTTTTGCTGACTTCATTATTCACTCTCATGTTTTTCTCTTTCATTAGACTATGACTCCTCGATGGTAGCAATTTGTAGTAATCAAATTTTTGTATTTTATTTTAGCATCTGGCATCTTTCTTGACATATGTAGCAGTTGCTTTTTGACAGCTTGCTTCTTCAGTGAATGAATAAATTAATAAAGAGAAATGTGATGTTCAGTGATCCATTTTGCAGGTAAGAAAACTGAGGCAGACAGAGGATGTTAGCAAGCAAGAGGCCTTGGCCTACAATTTAGATCACTGGACTCTTACTCCAGATGCAATCTGCAGAACCCACATACTTTTAATTAGTCCCTTTGTCTATGTTCTGCCACTGTCACTTCTAAGGAAGGTGTGTCATCCCAAATGGGGTAGTATCTTATTGGTAGACCTAAATCTGCTGTGTTCGCCATCTCACCTACATGAGTATCTATGTGTAGCATTCTGCATATTCATCTTTTCCACCTTCTGGAGGTTTTGTCTTTTTATAGGCAGCATGTGAATAACAATGGGGCCAAACTGGGGACCAGAAGGGGCCATTTTCTAGTTCTGAACATAGATAAGCATCACTAACTTTTCCCTCCTGGCAGTAATGGCCTCAAAAGTTCCAACTTAGGAGAAAAAGGCAAAACCGTCTGCCAAAGTGTGTGAAAAGTTAGAGCAAACCTTGGTTTTACCAAGAACCTGTGTCCCTCTTATGGAAATTCACACTTTCACACTTTTAGACAAATATTAAATGTGTGACATTCTATTACGTACAGTGCCTGGCACATCTAGACACGCAGCACACTTTAGCCCCCTTCTTTCTTCTTCTAACTCCAAGTTCTAAACTAGAAAAAGCCCCACTTGAGTCTGAGATTTGCTTTTTGAACTAGTTTATTTCAGATTGTAATCATGCTATCTAGGGTTGTGACAGTGTTTGCTATTTCTAGGGCACTTTGACCTGATTCTTTTTGCACAGGAAACTTGTTCTACCCTTTTGCCCACTTCACTGAAGTGAGGACTGAGACAGAGAAGGATTAAGTCACTTTTTATTTAACAAATATTTGTTCCACATTCCTCAGCATTTATTAAATACTGGTGCATAATGATGGAATAAATTTTATACCGTAAGGATAAACCAGTATTCTGGACTAAGCCAACGTGGGAGACCCTAGGAGGCCTGTTTGAGAAAGTGACATTTAAATTGAGACTTGGCGGTGGCTGTGGCTACATATCTAGTAAGTGGCTGGGTTGGGATTTGAACTCATGCCTGCTTAGCTCTAAAGATGATGCTTTTGGCTTTGTACTCTGCTCTCTCTCTAGACAAACTCTGGTCCAAAATCGTTAAAGCTAACATTTATCCCTGCCCAACTGGAATTGTCATGTTATGACAAATGGCTCTGTGGTCTCAGATGCCCAGCAGACCCATTAGTGGAATTCTATGTGCTACAGACCTGGGCAAAATGCCAGAGCCTTATACACCCATCACATTTCGTCTGGCAAAGGTCTTCAACAAAGAGAAGTAATTACAGCAATGAAAAGCAACAGGTCCAGCAACACCATAAGAACAAAATAATTAATTTCCCTAAAATAGAAGAAACCATTTATAGAGTAAGAGCCGATACAATCAATAATTGGAAGAAATAGAAGAGGCTTTAGTATTCTAGCCTTCTTTATTTGTAGATGTAAATGTCGAGCCTCAGAGAAGTTATATATCTAATTAGTGTCACTCAGGTAGATAACAACAGAATTAGGATTAGAACTTAATTCTTATGACTCCCAGAGCAGGGAAAAGACAGGATGAAGTCCCAAAACATTGCGTGTGAACTCACATCTGACTCTGAATTGAGAGTCTGCTATTTACTCCCTATGTGACCAGAATCCTTCAGAGCCCATGAGATTCCCTGTCATAGAGTAGATTTTGATCCACACTAGGCATTTTTACCTCTTGCTCTTTGAGTTGGTGCCCCATGTTTACTCAGAAATATTCCAAAGGTGTTACATCTATTGGTTTTACATGTTGAGCACAGATCATTATAAGACAAATTGAAATGAAAACATCAACAAGTCTCATTCATTGTCTAACTTACGCTGAGCAATATTTAATAACTAGAATATCAAGAGAGTCCAAAGTGTTTGCCCATCCCCTCAAGACCAATGTAATGGAATTTTACTCTTATCACCTGCTCAGGGTAGTGGCAATTCAGGATACAGAGGACAGAAATAAAGAATCATGACACACAATCCACAGAATTCACAGATGCCAAACATCTACCCTTCTCTGTCACCACACATTGGACTCACATGGTGGAAATAGGCAACACAAGCAGAGAGGTGGCTTAACCTTTCATAATTTTTCAACGACCTATGGGAAGAGAGTTTTCTTGGTTCAAATCCCAGCTTAGCCACACAGAGTGTGGTAATATTGGGCAAGTCAACCAAGCTCTCTGTGCTTCAGTTTCCTCATTATTAAAATGGGGGAAATAATAGTGCCTGCATCAGAGGGTTGTTGTGAGAACTAAACGAAATAATTTATCTGAGCTTTAGAACCCACACCATATTAGTTAAAAATTCATGCATTTTCTTTTATTATATTTCTCTACCTTAGACTGCAAACTCTAAGAGGAAAGGCCGGACTGTTATATTCATAAAGCATTACAGGAACAGTAATTAGAACTAGGAGCTTTTCAATGGCCTGCCTGAAATCTGAAAAATAGGTATATTATTTGAAATTTTGAAAAAATCAAATAATTAAAAATTAATAGATGTTAATAAAATATCTGTAATATGTAATATCAAGGTCAACTCAACTCTTAATTGTTTATATAAAATATAGTGAAGTTTAAATTGCAAAATCTTACAGAAAATGTGCTATTAAAACTCAAAAGTATAATTCTTTCTAATATGTATATATATGTATATAGTTTTATTTTAAGTTCAGGGGCACATGTGCAAGTTTGTTACCTAGGGAAACTCACGTCACAGGACTTTGTTATACAGATACTTTCATCACCCAGGTATTAAGCCTAGTGCTCATTAGTTATTTTTCCTGATCCTCTCCCTCCTCCCAACCTCCACCCTCAGGTAGGCCTCAGTATCTCTTGTTCCCCTCTATGTGTTCATGAGTTCTTATCATTTAGCTCCCACTTACAAGTGAGAACATGTGGCATTTGGTTTTCTGTTCCTGCCTTAGTTTGCTAAGGAAAGCACTGTGGCAATTTCTCAAAGGACTAAAAACGGAATTACCATTCAACCCAGCAATCCCATTACTAGTTACGTACTCAAATATTTTTAAGGCAAAACAAAGCTGCAACCAGAACACCTGGACTCCCTGAAACCCCTTCCACTGATGTTGTTGTTGTTGTTTCTTTTTCCCCAGCTTCTCAGGCCAAAATACTGGATCATCTTGGGCACTGTTCTCTCCTGCCCACCCTTTCCCATATGCAGAGTGTTGTCACTTCTCTCTGCTTCCACTGCTAACTCCCTGGTCCAAGCCGCTGCACCACTTTTCGTGATTATTGCCACAGTCTCCTCACTGGTTCCCTGCCCCCACTCTTGCTCTGAACTATCCAGTTAAAACCTGAATTAGATCATCTCATCCTCATCTCAGAGCTTTCTCGTGGCTCCTCTGCCCTCTCAGGAAAAAATCTAAATTCTAGATGACCTAAAAATCCCTTGTCTCTTACTGTTTATCTGACCTCATTTACTACCACCTTTTTCTTTGATCATTCTGTTCCAGCCACACTGGCCTCCTTACCACTCCTCAAATATGCCAAGCACAGCCCCCACCCCCCAGGGCTTTGAACTGGCTGATCCCCCTTCCTGGAATGCCTTACCCCAAATATCAACTTAGCCAACTCCCTCCTCTCCTCCAAGTGTCTGTTTAAACATGGCTTCAGTAGGAGCTGTCTTAACATCCTATTAATATTGTAATTCCTCTCATGACACTTTACACCCCCTTCCCTGATATGCTTTCCATATACCATGCAATATCTGCTGAGATAATATATAATTCACTTATTTTCTTTATTGTCATTTCAAAGAGGGCGGTGTGTTCTGTGTTTTATTTAGTGCCAAAATACTTGCTGATGAAGAGAGTTCCTGCCACATAGTAGGTGCTCAATATGTGCTTGTTGAATAAATGTGTCAATGTTTGATGTACAGACCTTTTATTATGTTTGATTTGCTGCCAGTGCTGCCTCCAAACACAGGAGTGCTTCATGAGATGTTCACAAAAGCTCTTAAAATATTCCACAAAAATCTTAAAATATTTCATGAGTTTTCTTTCCTGTATTTTTATAGCAGCATCTGGAATTTAGCCTGCATAGGACCCTCTGTAAGCTGACCCTGTTTATCTATTCAGCTTTACTTCTCCCCTCTCTCCACTTTGTATTTTATTCTCTACTACTTCCAACTGATTGTAATTTGACCAGACTCCAGACTATCTTATGCCTCTTTGCTTTTGTTTACCTGTTACTTCTCTCTGGAATTCCCTGCCCCTTCTTAATTTTTCTGGCCAATTCTCACTCTCTAGGACTCAGAGGTTTCTCCTCAGGAGACTTCCATGAGTCTCATGTTGAGTTAGGTGACCCCAATCCTCTGTTCTTCATAGTCATTCGCGCATTTATCTAGCTCAGCATTTGCCATACTACATTGAAATTATTTCCTTATGTGCCCATCACTCCCCGTAGATTGCAAACTCCTAGAGAAGGGCTCAACAGTGAGTGCTGAGGCTGCACAGAGGAGGAAGGCAGCACAATGATGGAAGGCTTCCTAAAGAGGCTGAAAAAGTTTTGGAAGCCCTCCTAAGCAGGTGCCAGACCCTTTTTTGGCCAGAGACAGGATCTTACGCTGTTGCCCAGGCTGGAGTGCAATAGTGTCATCATGGCTCACTGTAGCCTGGAACTGCTGGGCTCAAGGGATCCTCCCAGCTCAGCCTCCCAAGTAGCTAGGAGTAAAGGTACATGCCATCATGCCTAGCTTTTTTTTTTTTTAATTTTTGGAGAGATAAGTTCCCATCATGTTGCCCAGGCTGGTCTCTAACTCTTGGACTCAAGTGGTCCTCCCACATCAGCCTCTCAAAGTGCTGAGATTGCAGGTGTTAGCCACTGCACTTGGCCTGGCCCCAGTATTCTTTGGGATCTGGAGTTTGCTGTTGAATGAGAAGGCAAGATGAAATTCCATGTAGTCAGACTCCTACGCTGCTGTTCTAAGCAGGGTTGGGCCTGATTAGTAGGTTATAGATGATGTTTTTCTGTGGTGCTATCTGGACCTAGTGCTCTTTGGCATCTGGGAAGGTATGGCCTTTAAAAAGCAAACTGCCATGAGAACTGCTCTACCCCAAATTTTGGTTCACAGCCTTCATTTGATTATGTATTGGGGCAAAAATAGTTTAGCCATGTGAACCTGTTTGTAAACTGGTGAGTTTCTATTGCTATTTCATAGCTAAAGTTTTGAGGTAAATGCTATTGGATCTTTGTGTCTGTGTGTGTATACATATTTAGA-5'

<128160497>(SEQ ID NO:4)

>CCAT1_JAX_5转录物序列；基因组位置:chr8:128172634-128231094链:-<128231094>

3'-GTTGCACTGACCTGGCCAGCCCTGCCACTTACCAGGTTGGTGTATTCCACACCATTTCATATTCCATCGCATTCCATTCTACACAATTCCACATCTCCCCGGCCACATCAGCCTGAGAGTAATAAACAACCTTGCCATCGTATCCCCTTTTGGAGACACAAGCCAGGAAGGAAGCTCTTCAGTGCAGCTGTGAATAGAGAAATGCTGGCTGAGGTTTTGGAGACACTGGGTGATCATTCCCAGTGAAATTTTTAGATCCCTGGGGACATGAGCTGCTTTGTCTTTTCCAAGGTCAGGATAAACAGAATAACTTCAGGCTTCTCTACCCAGAAAGAACATGTGGCATAAATATCAACTGCAGAATAAATATGATTAATCTGGTACATGGACGAAGATGTTTTCTAGGAGATGCTTATCCTGGGATGAGAGCTTTCATAAGCATTGATATTTACATGACTCTTACCGTGTGTCAGGAACTGTTCTAATTGTTTTACCTATGTCAATTCATTTGATAGTCACAACCACTGAAAGGAGTAAGTACTCTTATTACTTCCATTTTACAGATAGGGAAACTGAGGTATAGAGAAGTCAAGTGACTTGCCCGAGGTTATTAAACTACTTAATGTCAACACCAGGATTTGAACCCAGATCATTTGTTTCTGAAGTACATGCTCACAATCACTGCATTACTGATACACTGTTTTGTCTTTGCATACTTAAGTGGTCATAACTTAGTCTGAAACACTTTGTGAGAGCAGGAAGCAAACTGTCCCCTTATTAGGTGGACCAGTATAGTGATAATACAAAAGTGTATTGCATTTGAATTACTTGCTAATATCTTCTAATTGAGGCAATTTTGAACAGGAATATACATATCTAGCCTCTATTTTTCTAGCTAGAAGTTCTGAAATCCCTGGGCTTAATATTGTATGGCAACAATTGGCTGGAGTTGAGTTGCTGCCACTCTCTTTTAACTGAGCCATGCTCTCTCTAGTTTGCTACAGGCCCCACCACTCCCTATTGCCTCTCCAATACCAGGTCATTTGGCATCTTACTCAGCTCATTTCATGCACATGTGTTCCACAATTGGTAACATAACCCTAAAAGTATTTGAGTTTGTGGCTTCTGCTCTTGTGACAGAAGACTTTTCTCGAATTCCAAGGTCAACATATACCATATTGACTCTGGGCCACATTTTTTAATGTGCTCAAGCTCAGTTTTTCTCCTTAAAAAATGAGGGGTTAAAAATAACACTTCGTAGTTGCCTCATCTGTGGATTGGAAGAATGAATGCCTGTCATTTCTAGAGTTGTAGTAAGGGCCAGTTGGGGCAGTGCCTGTGAATATACGCAATGGGCCATCAAGCAATCTCAGGGCTTCAGGCAATGCTGGGGTTTATAAAGCACTTTATGTTTTAAGTTCACTTTTATTTCTAAAGTCTCATTGACTGCTCTGAAAATCTCTCAAGTAAAGTGGGCACTAAAGGCTTTATACTCTCTCCAATTATACCTTCCATTGTATAGATTTGGAAGCTGGGGTCCAAATGTGTTAAATGACTTGCCTAACATGGTCCATTACTGTAAGTACAGAAACGGAATGAGACCCCAAATCTGCTTCATGGAGGGACACTCTTCTAAGATACTGTGATGCTTCTTCCCAAGTAATTCCGTCTTCAGACTTCAAGGTCTCAATTCGAATGACAATTCAATATAGGACTTTCATAATCTTAAAAGCAACCTGACAGTCATTACAGTGGGCTGTGAGAAATACTAACGCAGAGCCACATACTCTGGGCTTCATGCTAGGTTTTGCCACTCACTATCTT-5'

<128172634>(SEQ ID NO:5)

>_CCAT1_JAX_6转录物序列；基因组位置:chr8:128197810-128240377链:-<128240377>

3'-GCATGTGGCAGGCACAGAAATATTTACTCATTGACTGAATATAGCACATCGTAATGTTGATTTTTTTCCAACATAATTTTAGAGCTAGGCATATTGTATTCTATTACACTAGACTATATATCATTCTTAAATAGAACCAGCCTTGCTAGATAACACATGTTGGAGGAGAGGCCCTTCTTCTTAGCCCTCAGTGTTTCCATCTATGGGGAAGAAGTTCCACCATACTAACATTACTATCGTCTCTCCACCTGCTCACTCACTTCTCCCCAAGGGAGGGGTGTTCGATATGGTTTCTGAGCTTGGAAAGAAAACTCAGGCATGTGTAACATGGTTCCTTCAGTCCCATGACCCACTGTCCACAAATGGGCTGCTCACAGAGTGCATGCCTTCACCCTTGTTCCTGGCCATGCAGGAAATTGTATGAAACAGTCCTAGCTGAAGCCTGAGATTTTCCTGCATTGCCTAGTCCTGGTGGGTATCTGTCTACTCCTGGAGTTTGGATTGGAAAGTCCACATGCCTGAAGGTATAAACCTATTCTACAAAGGGGTGTTTTCTAGAATGAAGGTAATATTTTTATCTTACATTTGCAGAAAGAGACAGAACAATGTTATAGGTGAGTGCATGGACAATGACCTCAAACAGCTAAGATTCAAACCCCTGCGTTGAATGATTGAATTGAAATGATTCAATGAGCTAATGTACATAAAGCATCCAGAATGTTGCCTGGCACAAGGACTGTATTGTCTGCTAGACCATTTATTCAAAGTGGGAGGATGATGTTCTAAAAGCCAATGATAAAGCTCATGGCAATGCAGGGTATATCTGATGGCATGGAATGCTTTAGGATGGCCAAGATTGCCCATCAAATGCCAAGTCACCGAAGTTATTAATGGCTCTCCTACTAGGAGCCTGACATCATGGTGAGCATCGAGAAAGGAATAACCTAAGCTGAAGACACGCCTTTTCAGGAGGCCAAGTTCCACGTTCTGTGCATGCTTTTGGCGAAAGTCAGGCCAGGCACTACTCTGTCCCAACAATAAGCCCTGTACATTGGGAAAGGTGCCGAGACATGAACTTTGGTCTTCTCTGCAATCCATCTGGAGCATTCACTGACAACATCGACTTGAAGTTGCACTGACCTGGCCAGCCCTGCCACTTACCAGGTTGGGCTGTGGCTTGCCTTTTCACTTCTTGTGTCCTGTTTAAGAAATATCTGCTATCCCAAGATTGCAAACTCCTAGAGAAGGGCTCAACAGTGAGTGCTGAGGCTGCACAGAGGAGGAAGGCAGCACAATGATGGAAGGCTTCCTAAAGAGGTATGTTCCAAGAGCCCCCACTTCCTTTCATGGGAGACTCATGCTGTTACACCTAGACTATCTAGGGATACATCTAATGTAGTCGTGGAAAGAACAGAGGACTTGAGTACTAGACTGACGTGATTTTGAATCCTGGCTCCCTATTGACCAGATGTGTGTCTTGAACAAGTCCCTGAGCCTCAGTGTCTTCATCTGCACAGTGAGGATAATGATACCACACTGCATATATGAGGTATCCGGCACATGTAAATGTCCACTACATGCTGATTTCTTCACCCGCTACTCACCCCTGGGAAAGAAGTAGACTCACCTACTCTTGGTACCCATTCATTCCCCCTCAGTTGGAAGCATGAGGTGTGCAGCTGCCTGACCTGGGGGAAGGGCTGCAAGCAGTAGGTGTTGTCAGATGTGGTGGAGCTTGTTGACTTCCTCCCAGGGGCCCAGCTAACAACCTGCCTCTGTTCCTTGATAGTCAAGTTCAACTTTCACTTCTTAGCACCACAGGAAGTTGACTGAACATTAACTGAAGTCTCTCTCAAACAGGAGACATCTTTGCCAGGTCCCTGTACTTCCTAGCCTCATTCCTGCTCTCCCTAGTGAGCAGGCTGCCCTCCCTTCTCGCCCCAGCACCACTGATAGGCAAGGGTACTCAGAACTACTACCTTGTGGGCCATGTCATGTGCCAGGAGCTGCACCCAGGACTTTAATACAGTAGTTGGCTCCCACTGAATGTTCATTGTTACCCCAGGATAAAAAGGGGACACTGTGATCATTTTCTATTTTGCTGTGATCAGGCTTGGTGAGCTAAAGTCACCTACCTTCCCAGTCTCTACTAATAGAAGTCATGGATCAGTCCTATTGGTTCTTCTGTTACAAGGATTCAGAATTCATAATCATGGAGCTGCATTTACAGGCAGAAGTTTCTTTCATAGTTTTCTAAGTGTTCCTTTTAGCAACAATGGAGAAAATCAAAGAGGGCAAAGGTGAGGGGAGAAAATAACATTTCCCTTTCTGTCCTTTGCTCTTGTAGTCTTTTGCTTTAGTTTCTTTACTATGACTGTGAGGGTGAAACTAGTGATCAGAGTGGTCCAGAATGGGTTTGATGAATCTGATTCTGGTGACACAAGATGAATTGGGTATATGTTTCCCTAAAGATAGAGAGACAATATAACATAGTCTTTACATTAATAGACTCTGGAGCCAATTTTTTTAGGTTCACTCTCTTTCCTTTCATGTGTGTTGATTTTCAACAAACATCTTGCACTCGAATTCCATCTCACTGTTTTATTTTCAAAAAATTTAATTTGAGAAAGTTAGCTGTATTAATTTTTTCTTTTTCTAAAATTCTTTTACTAATTGCAATTATTTCCATTGATGCTATTCCATTGAAACCATTTTAACATGGACTCAATAACTTCATTGTATGTTAATGTTTAATTTTCATTTCTTTACCTTCTTGGTTTTCTAGCTGTGTTTAATGTGGTTGACCACTCATTCTTTGAAGCTCTATTCCTCTGGCTACTACAGTATGACACATTTTGTCTCCTTCTTCAGTCTCTGTCTTCTCCACAGTCTTCTCTTCCTTTTATATACCTTTAAATATTAATGTTTCCCAGAGATATTTTCTTAACTCACTTCTCTACTGATTCTAGGTACTTTTCTTGATCCAACTCTTCTGATTTTACCCATCTCGATGATTCTATAATTTGTATTTTCTGTTTTGATCTCTTTTCAGTCTTCCAGACCTAAATATCCAAATGCCTGATGGATAGTGCTTTCTTTTTTACTACCAAGCCCTCAAAGGCACTATGTTCAAAAGGAATTTGTCATCAGTCTCACGGCACATAAGCTTCCTCTTGTGTTCAATCTGGAGACTTGAGAGTCTTCCTGTTCCCTTCTTCTCCTTATTTTCTCCATAATCAATCACAAAGTCATGTGGATTTTGCTCCTAAATATGTTAACTTCTTTCCTCTCTCACTTTATATCCCTTACATCTAGGTATTTCAGACCCTCAGTCTCTCTCACATAGACTTTGGCAATAACCTTCTAATATCAGTCAACCTGACCAATAGGCCACCAGTGCTTCATGTAGAATCTGGACAATGTAGAGCACTGAGAATGCTCACACTGGTCATATATGTATGAGTTGGTATGACATCTAGGGAAGTTGAAGACTTACATAGCCTTTGGCCCAGCAATATACACCATAATACATTAGAGAAACTCTAGCATGTGTACACAGTGATATACACACAAGAATGTTCACAATGCCATTATTTTAATAGCAAAATTGTGGAAACAACACAAATGTTTATCAATAACAGAATGGATAAGTGAGCCATGGCATAGTCATACAATGAAAAATAATATAATAGTCAAAATGAATGATCTGAAGAGATATCATTATTGGCAATCTTATAAAAGACTGAGTTAAAAATGCAATTTGTGAAAATTTTTAATTATTTGATATTATTTAATGCAAAGTTTTAGAACATGCAAACAACTGTATATATTATTTATGTATATATGCAAATTCAGCAATAGCATTTAATCATGCCTGGGAATGATAAGTATCAAAGTCAGAAAGTGGTTACCCTTGGGAAGAGAGGTATGTATCAGCGGTGGGGCACATAGGATGTTGCAGCCATATCTGTAATGTTTCTTTGCTTTAAAAAATTTGAATCAAGCTTGGCAAAGTGTGACATTTGATTAAGCAGGATAGTGAGTGCATATCTGTTACTTATATTGTTCTTTATAATTTTCTCTATGCTAAAGCATTTTGTAATTTAAAAAACCTGACAGTGTTACTCCCATGCTTAAAATATGCCAGTGGTCAAACCAAATCCAGCAGCACATCAAAAAGCTTATCCACCATGATCAAGTGGGCTTCATCCCTGGGATGCAAGGCTGGTTCAATATAAGCAAATCAATAAATGTAATCCAGCATATAAACAGAACCAAAGACAAAAACCACATGATTATCTCAATAGATGCAGAAAAGGCCTTTGACAAAATTCAACAACTCTTCATGCCAAAAACTCTCAATAAATTAAGTATTGATGGGACGTATCTCAAAATAATAAGAGTTATCTATGAAAAACCCACAGCCAATATCATACTGAATGGGCAAAAACTGGAAGCATTCCCTTTGAAAACTGGCACAAGACAGGGATGCCCTCTCTCACCACTCCTATTCAACATGGTGTTGGAAGTTCTGGCCAGGGCAATTAGGCAGGAGAAGGAAATAAAGGGTATTCAATTAGGAAAAGAGGAAATCAAATTGTCCCTGTTTGCAGATGACATGTATATCTAGAAAACCCCATTGTCTCAGCCCAAAATCTCCTTAAGCTGATAAGCAACTTCAGCAAAGTCTCAGGATATAAAAATCAATGTACAAAAATCAGAAGCATTCTTATACACCAACAACAGACAAACAGAGAGCCAAATCATGAGTGAACTCCCATTCACAATTGCTTCAAAGAGAATAAAATACCTAGGAATCCAACTTACAAGGGACATGAAGGAACTCTTCAAGGAGAACTACAAACCACTGCTCAATGAAATAAAAGAGGATACAAACAAATGGAAGAACATTCCATGCTCATGGGTAGGAAGAATCAATATCGTGAAAATGGCCATACTGCCCAAGGTAATTTATAGATTCAATGCCATCCCCATCAAGCTACCAATGACTTTCTTCACAGAATTGGAAAAAACTGCTTTAAAGTTCATATGGCACCAAAAAAGAGCCCGCATCACCAAGTCAATCCTAAGCCAAAAGAACAAAGCTGGAGGCATCACACTACCTGACTTCAAACTATACTACAAGGCTACAGTAACCCAAACAGCATGGTACTGGTACCAAAACAGAGATATAGATCAATGGAACAGAACAGAGCCCTCAGAAATAACGCCACATATCTACAACTCTCTGATCTTTGACAAACCTGAGAAAAACAAGCAATGGGGAAAGGATTCCCTATTTAATAAATGGTGCTGGGAAAACTGGCTAGCCATATGGAGAAAGCTGAAACTGGATCCCTTCCTTACACCTTATACAAAAATTAATTCAAGATGGATTAAAGACTTAAATGTTAGACCTAAAACCATAAAAACCCTAGAAGAAAACCTAGGCATTACCATTCAGGACATAGGCATGGGCAAGGACTTCATGTCTAAAACACCAAAAGCAATGGCAACAAAAGACAAAATTGACAAAGGGGATCTAATTAAACTGAAGAGCTTCTGCACAGCAAAAGAAACTACCATCAGAGTGAACAGGCAACCTACAAAATGGGAGAAAATTTTCACAACCTACTCATCTGACAAAGGGCTAATATCCAGAATCTACAATGAACTCAAACAAATTTACAAGAAAAAAACAAACAACCCCATCAAAAAGTGGGCAAAGGACATGAACAGACACTTCTCAAAAGAAGACATTTATGCAGCCAAAAAACACATGAAAAAATGCTCATCATCACTGGCCATCAGAGAAATGCAAATCAAAACCACAATGAGATACCATCTCACACCAGTTAGAATGGCAATCATTAAAAAGTCAGGAAACAACAGGTGCTCGAGAGGATGTGGAGAAATAGGAACACTTTTACACTGTTAGTGGGACTGTAAACTAGTTCAACCATTGTGGAAGTCAGTGTGGCGATTCCTCAGGGATCTAGAACTAGAAATACCATTTGACCCAGCCATCCCATTACTGGGTATATACCCAAAGGACTATAAATCATGCTGCTATAAAGACACATGCATACGTATGTTTATTGTGGCACTATTCACAATAGCAAAGACTTGGAACCAAGCCAAATGTCCAACAATGATAGACTGGATTAAGAGAATGTGGCACATATACACCATGGAATACTATGCAGCCATAAAAAATGATGAGTTCATGTCCTTTGTAGGGACATGGATGAAATTGGAAATCATCATTCTCAGTAAACTATCGCAAGGACAAAAACCAAACACCGCATGTTCTCACTCATAGGTGGGAACTGAACAATGAAAACACATGGACACAGGAAGGGGAACATCACACTCTGGGGACTGTTGTGGGGTGGGGGGAGGGGGGAGGGATAGCATTAGGAGATATACCTAATGCTAAATGATGAGTTAATGGGTGCAGCACACCAGCATGGCACACGTATACATATGTAACTAACCTGCACATTGTGCACATGTACCCTAAAACTTAAAGTATAATAATAATTAAAAAAACCAATAGTTTATGAAACCCCCCCCAAAAAAAATATATGCCAGTGGCCTCCAGTTGCCCACCAGGTAGCATCCACATTCTTTAATGGAAAGCCCTTCCTTGCTTCGAACTTGCCAACTGGGATTGGACATTTGTAGTTGCATTTCTAAGAACTGTTCCCTTTTGTCAATGGAGCCTGATTTCCACTTGGATATCTGGGTGATTTAGGGAAACTGACCTCAAAACCCAATTCTACATTTCGACCATGTGACCTTGGCTTAATCAATTCACGCATCTTTTTCCCTCACCTCAGGGGATGATCATATGAACTAAGCCAGTTGCAATAGAGTAAACCTCATGTTCCTAATGAGAAATCCAGAACAAAATGCTTTATTTTTCTTCAATTTTTTATTAGGTCATCTCCTGAATCAATTAAAAAAAAAACCAACAGTGACAACAAAACTAAAAAATATGAAGAAGCTGAAACATGAAAGCTCTGCCAACTGCAATATGTAGCTGCTAAGGTTGCTGTATTTATTGGAATCAAGCAAGTGTTCCAGTAAAGAGCACAGAAGATGTGTCTGGGAGCCTTTATGTGTAGGTCTGCAAGTGGTGGATATCACTACTACTCACACGCCATTGGCTAGAACTGAGTTGCATGGATACACCTAATTGTAAAAGAGGCTGGGAAATAGAGACTATTGTGCCCAGAAAGAAGAGAAAATTCATTTATGGAAGAGGTAGCTAGTCTCTCACAGCCATGAAAAGAGAAGTGTTTAGCTAATTGAAGTGAATAGCAGCCATCTTGGGTCCCTAAGGCAAGTTAGACTAATATTGAAGTGGAAACCATGAGGAAAGCAGTGATACTGAAAGTAACCGCATCTTTGAGAACATGCATTCATTTCCTACAACATGAATTTATTGAGGACCTACCTTAATACAGGCAGCGTGCTAGACACCAAGAGAACTGATGTCCTCTTCCTTCCTGCCTGCCTGGAGCCTGTATTCTGGAGGGGACAGAGCTAGCAGATCAGACCTAACTGGAAATCTGCTGTGCCAGTATATATTTCAGTGATGTGAGCCAATATATCCCCTTGATTGCTCAAAGTAGTTTGGTCGATATATTTTGTTGCTTTAAATTGAACACATTCTTATGTACAGCCTCTGTCTCCTCATCTCCAACCAAGCAAAATAGCTTGTTCTCTTTATGCAGGGACACATGACATTTCCCACGTGGCTTTGTGCATATCTCCACCTCAATTTAAAATGCCTTCCAATCCCTGCTCAAAGTCAAACAGCTTAATAATGGTAGACATAGAATTTGACTTATTCTAATAATAGGTCTTTTAAACAATGCCTTCTTCTCTTCATTCTTTCCTTCTTAGAGTGGGTATTCTTTCTGGTGCATCATGTAAAGGAAGGTAACTACATGCATGTAATGATGAGAATATTTATATGTATTTATGATTATCACAAAAAAACAAAGATTCTACCATTCAAGAGGAACATTTATTTTATTTTTTTATTTGAGAAAAGTATAATTTTATTTATTTATTTATTTGTGCAAATTTATGGGGTACTTGAGAAAATGTGTTACATGTATATAATGTGTAGTGATCCAATCAGGATACTAAGGGTGTCCATCACCTGAGTGTATTACATTTTTGTTAAGTATAATCATCCTACTCCAGGAGAACATTTTAAAAACTGTTCTGTAGAGATACTACTCAAATTAAGTTCTCAGTCCTGAAACATCAGATCAGCTAGGAATCTGACAAAAATGCAAGTTCTCAGATGACAGATGAGACCACTTCAATCAGAATTTCTGGAGTGGAGCCCACACATTTGTATTTTTGCAACCTTTCCAATGATACTTATGTACATGCTCAAGCTTGAAAACCACTTTCCTAGGACATTAGTTCCTCGACAAGATTTGTGAGTAACCTTGTTTCATGAAAAAGTGTTTAGGAGATACTGATTCAATAAAAACTAATCAGGCTTTTATTGTTTGCAGGGCTTTCAAAACTTGCAATAGGCCACTGTGCATTGTTAATTTCTAAGAGGAAGATGCTTATGTCCTCAATGAATATCTTCCCACCATGAAGTACTCTTCTTCCCCCACTTTTTAAAACAATTACTAACACCTGGCAGAAGTAGGCAGACAGCTTACAGCTTAGAAAAAGTTGGCCTAAGATAATGGCTAATTTTCATACATTATTTATTTGTCATCATGCTTATCTTTCTCTCTCTAAATTGTATATTTCATCTCTGTGATCACAGATTGAGCCTCATATTTCATATCTGCCCCTGGCCTAATGGTTGTTTACAGAATGAGCTCAATGAATATTGTTAAGTGAGTAGGATTTAATTTATTTGATAAATAGATAACCTTAAGTTTTAAACGGTGGATTTCACATGAGGACATTTACTTACTATTGTTGAGCTGTAATTAATTTTTAATACTGTTTAGGTACTCATAATAAAGAACAGGATATTTGGAGAAGGAAGACAGTATCATTCCTGGTTCTTAGTCTTACCAGCTTATTGATCATGAGTATATAACCTCTCTGTGGCTCAGTGCCTTTCTCTGTAAAATGGGAACACAGTGATGTTCACCTCACAGGATTGATTTGTAAAAGGGCTGGATAAGGTTATGAGAATGTTTTGCAAAGTGATATCGAAAGATTAATTGCAAACTTCATTTGAATCTTAAATTGTTTGAGATAGGTCATGCTATGAATCAACTATGAAGTGCAGATATTGTCAAGATTCAATATTTCTTTCCCAAGAGCTGAGAGGAGGGGCTGCTTGTTTGTTTGTTTCTTTCTTTTTAGAAACATGCCAGGACAGGCTCATTTTCGGGTTTTCCTCTCACTTGCTCATCTTACTTTTTCTTTAGTTTCTCTATTCATTAGGATACAGTACTGTAAAGCTTTATGGCATTTTTATTTTGTGGGAGATGAATCTGAATAAAGAATTACAGTTAAATCATTGCTAAGTTTGATGAATGAGCACCAAAGAACTCTTCAAGATGTCATTTTTAAAGTTTTGTAAATGATTGGCTTTCAGTGGTTTCCTCTAAGGAATTTTAATTTTGAATAATGCATAGAAAAATGTGCGCACACACAAATCATTCAGTATCCACCTCGAAGGGAAATCAAAGTGCCTGTGAAGTGAAACTTTACCTTTCTATATCACCAGCTTCCTGTTAGAGCAGACTTTTTCTTTGCTCAAAGTCTAAGCATTGAAGAACTTCTTTTTAGTAGGTAGATTTTTGTGTTTTTTTGTTTGTTTTTGAGACGGAGTCTCACTCTGTCGCCCAGGCTGTGGTGCAGTGGCACGATCTCGGCCCACTGCAAGCTCTGCCTCCCGGGTTCACACCATTCTCCTGCCTCAGCCTCCCAAGTAGCTGGGACTACAGGTGCCAGCCACCACGCCTGGCTAATTTTTTTGCATTTTTTAGTAGAGATGGGGTTTCATCGTGTTAGCCAGGATGGTCTTGATCTCCTGACCTCATGATCCACCCGCCTTGGCCTGCCAGAGTGCTGGAATTACAGGCGTGATTTAGTAGGTAGTTTTGAGTAGGGAGTATACATTTAAAATGCTGAAACTCAGTTAAGGAATAATCTAATACTGTATTCAACTGAAACTCAGTTGAGAAATTTCTTTCCAATAATAAAGGAAAATCAACTGCAGTAATGAGGGAGATGATTTTGCTGCTAATTACAACAAATATTTACTACAGACCTGTTATGCACCAGGAACTGTGCTAAATGTTTTATACATATAACTTTATCTTGTGCTCCAACAACTTATTACATAGAAATTGCTATTATTCCCATTTTCTAGATTAATAAATTGGTTTAGAGGGGTCGTATAGGTGAAACAACTCACTCAATATCACAAGCTGTTATGTGGTGAAGTTTGCATGATCAGTACAGGGTTCTGGTCATCCCACTCATTGAGTGGTGCTAGTCAAGATCTGGAAGCTCTTCTGGTCTTAGTTTCTCTAGCCGTGAAGTGACAATGATTAGGTCTAATCATAGAACATGAGAGTACATGTGAAAAAATGCCTTTTTAAAGAGTATGAAAAACTTGAGTTGTAAAATTTTCTTGTGGATAATTTATTATTGCTTTTCTTTTTTAGATAACACTAACAAAGTTGACCTTAGAATTGGAGTGCCTGGGTTAGAACCCTGCTGGTACCACCTGCTTACTGCATGCTTCTGATGTGAGTTCAGGAGAAGACACTGGCAAGGACAGCAAAGAACAGGAGAACACTCTAGCTTCCCTGATAGCATTCAAGGTGCTGTCCAAACTGACTGTGATGGCACCCTCCAGACAGACAGCGATGCCACATGTTCAAGATGGCAGAATCACTATCAGCTTCAATTCCTGAATGACTGCAGAGCAAAATTTCTTACCTGCAACATACACTCTATTTTCAGCCTCCCTGGACTGTTACATAATGATACATAAAAATATTTCTTGTGTTGAGGCATCCCAAATTTGATTTATTTGTCA-5'

<128197810>(SEQ ID NO:6)

>CCAT1_JAX_7转录物序列；基因组位置:chr8:128186443-128240377链:-<128240377>

3'-GTAATGTTGATTTTTTTCCAACATAATTTTAGAGCTAGGCATATTGTATTCTATTACACTAGACTATATATCATTCTTAAATAGAACCAGCCTTGCTAGATAACACATGTTGGAGGAGAGGCCCTTCTTCTTAGCCCTCAGTGTTTCCATCTATGGGGAAGAAGTTCCACCATACTAACATTACTATCGTCTCTCCACCTGCTCACTCACTTCTCCCCAAGGGAGGGGTGTTCGATATGGTTTCTGAGCTTGGAAAGAAAACTCAGGCATGTGTAACATGGTTCCTTCAGTCCCATGACCCACTGTCCACAAATGGGCTGCTCACAGAGTGCATGCCTTCACCCTTGTTCCTGGCCATGCAGGAAATTGTATGAAACAGTCCTAGCTGAAGCCTGAGATTTTCCTGCATTGCCTAGTCCTGGTGGGTATCTGTCTACTCCTGGAGTTTGGATTGGAAAGTCCACATGCCTGAAGGTATAAACCTATTCTACAAAGGGGTGTTTTCTAGAATGAAGGTAATATTTTTATCTTACATTTGCAGAAAGAGACAGAACAATGTTATAGGACTGTATTGTCTGCTAGACCATTTATTCAAAGTGGGAGGATGATGTTCTAAAAGCCAATGATAAAGCTCATGGCAATGCAGGGTATATCTGATGGCATGGAATGCTTTAGGATGGCCAAGATTGCCCATCAAATGCCAAGTCACCGAAGTTATTAATGGCTCTCCTACTAGGAGCCTGACATCATGGTGAGCATCGAGAAAGGAATAACCTAAGCTGAAGACACGCCTTTTCAGGAGGCCAAGTTCCACGTTCTGTGCATGCTTTTGGCGAAAGTCAGGCCAGGCACTACTCTGTCCCAACAATAAGCCCTGTACATTGGGAAAGGTGCCGAGACATGAACTTTGGTCTTCTCTGCAATCCATCTGGAGCATTCACTGACAACATCGACTTGAAGTTGCACTGACCTGGCCAGCCCTGCCACTTACCAGGTTGGGCTCTTGAGTTTCTGCTTTCAAGTGACCCTCAGAAATTCCTCCATTCACTGCAGAGGTTCTGTTTCTCCTTGCTTTGTTCTGACTTTACGGCAGAACTAAGCTAATGAGTTAGTTACTATGGGTTATCACTTGGATTTGAAGAACCATCATTTCTAGGCATTGCTGC-5'

<128186443>(SEQIDNO:7)

>CCAT1_JAX_8转录物序列；基因组位置:chr8:128218833-128240377链＝-<128240377>

3'-GCATGTGGCAGGCACAGAAATATTTACTCATTGACTGAATATAGCACATCGTAATGTTGATTTTTTTCCAACATAATTTTAGAGCTAGGCATATTGTATTCTATTACACTAGACTATATATCATTCTTAAATAGAACCAGCCTTGCTAGATAACACATGTTGGAGGAGAGGCCCTTCTTCTTAGCCCTCAGTGTTTCCATCTATGGGGAAGAAGTTCCACCATACTAACATTACTATCGTCTCTCCACCTGCTCACTCACTTCTCCCCAAGGGAGGGGTGTTCGATATGGTTTCTGAGCTTGGAAAGAAAACTCAGGCATGTGTAACATGGTTCCTTCAGTCCCATGACCCACTGTCCACAAATGGGCTGCTCACAGAGTGCATGCCTTCACCCTTGTTCCTGGCCATGCAGGAAATTGTATGAAACAGTCCTAGCTGAAGCCTGAGATTTTCCTGCATTGCCTAGTCCTGGTGGGTATCTGTCTACTCCTGGAGTTTGGATTGGAAAGTCCACATGCCTGAAGGTATAAACCTATTCTACAAAGGGGTGTTTTCTAGAATGAAGGTAATATTTTTATCTTACATTTGCAGAAAGAGACAGAACAATGTTATAGGTTCTGGGAAATAAGAAATCATTAGAAAAAGATTTCTGCCTTCTAGAAGTACACAGTCTAATGGTGAGATAGGCAGTTATTAATGGCTCTCCTACTAGGAGCCTGACATCATGGTGAGCATCGAGAAAGGAATAACCTAAGCTGAAGACACGCCTTTTCAGGAGGCCAAGTTCCACGTTCTGTGCATGCTTTTGGCGAAAGTCAGGCCAGGCACTACTCTGTCCCAACAATAAGCCCTGTACATTGGGAAAGGTGCCGAGACATGAACTTTGGTCTTCTCTGCAATCCATCTGGAGCATTCACTGACAACATCGACTTGAAGTTGCACTGACCTGGCCAGCCCTGCCACTTACCAGGTTGGCTCTGTATGGCTAAGCGTTTTCTCCTAAAATCCCTTGAAAACTGTGAGAAGACCATAAGAAGATCATATCTTTAATTCTATTTCACAAGTCACACAATATTCCAATCAAATACAGATGGTTGAGAAAAGTCATCCATCTTCCCTCCCCACCCTCCCACAGCCCCTCAACCACTGCCCTGAAACTTATATGCTGTTATCCGCAGCTCCATCTGGAGCATCACAGCTACTGTCAACCCTGACGCTCTTTCTGAAAAAACACCGGATGGACATCAGAACTATTTCTTTAAGGATGTTACTGAGCCACACAGGAAAACTTGCCTTATGATTTTGAATGCACGGATCTGATTTGACTAAACATGATAACTAGAGAATCACCCAATCTACTCCCATTTTCAACTCTAAATCATCAGAGTGTCTCAAATCCAAAGCACACACAGACCAGCCTGGCCAACACGGTGAAACTCCACCCCTACTAAAAGTATAAAAATTATCCAGGTGTGGTGGCGGGCGCCTGTAATCCAAGCTACTTGGGAGTCTGGAGGCAGGAGAATCCCTTGAACCTGGGAGATGGAGGTTGCAGTGAGCAGAGATCACACCACCGCACTCTAGCCTGGGCCACAAATCAACAACAACAACAACAACAAAAAACAAAGCGCACACAGAGACTGAGGTCCTCTTTGGCATTGAGAAGATGGCTATGCAAGTCCCAACTAGCAAGTGCAAACTTCCCAGCTTCACTTCTGCCAGTGTCCCTTCACCCCTTCTCAACCCCACTGGGAGGCAGGAGGGTGCTTGACAATAACAGCCTTGGCATCACTCTGCCAGGGTGTAATAGGAACTGTTACAATTCTGAGATTCTGTGTAAGCACTGGCCTTTCTGCCTAGAATGCCTTCTCCTCTCTTTTTTAACTGCATGCTCCTATTTATCTTTCAAAGCCCGGAAAAAATAACACTGCACACGGGAAATGCTCCCTTCCTACTGCAGTCATTTAGATGACTCTATGCCATTCCATTCATTTCTCTTTCCTACCACAGAAGTGCTTTGAGATTTTGGAGTCAGACTGCTTGAACTTGAATCCTGGCCCTCTCATCAGAGACTTGACTTATTTTAGGCAAGTTATATAACCAATTTTACCTCAGTTCCTTACCCATAAAATGGGTCTAATGAGAGTACCTACCACACAGAATTTTGATGAAAACTGAATGAGATGAAGGCCTTTAAGGCAGTGGTCCCCAACCCTGGGGACACAGACAGGTACCATTTTGTGGCCTGTTAGGAACTGGGCCACACAGCAGGAGGTGAGCAGTGGGTGAGTGAGATCAGCGTTATTTACAGCTGCTCCCCATTGCTCACCTTACTGCCTGAGCTCCACCTCCTGTCAGATCAGCAGTGGCATTAAATTCTCATAGCAGCACAAACCCTGTCATGAACTGCACATGCGAGGGATCTAGGTTGTGCGCTCCTTATGAGAATCTAATGCCTAATGACCTGTCACCGTCTCCCATCACCCCTAGATGGGAGTGTCTAGTTGCAGGAAACAAGCTCAGGGCTTCCACTGATTCTACATTATGGTGAGTTGTATAATTATTTCATTATATAATACAATGTAATAATAATAGAAACACAGTGCACAACAAATGTAATGTGCTTGAATCATCCCCAAACCATCCCAGTCCACGGTCTTCCACATTTTGTCTTTTCACAAAATTGTCTTCCACAAAACTGGTCCCTGGTGCCAAAAAGGCTTGGGACCACTGCTTTAAAGCCTTTGCATAGTGCTTAGAATTGAGGGGGAAAAAAAAAACAAAAACAATGTAGCTAGTTGCTACAATCACTATATTGGTGAGTTTCAAAAGGAAAAGAATTCTGTCCCATTTATGCTTGAGCCTTGAGTTGCTAACCAAGCCTGACACAAAATTACTGTTGAAGGGATGTGTGAGTCCTAATTGAAATGAGGCCTCTTAAGGGAATTGTGGACCAAACCCCAAGCAGGCAGAAAGCCGTATCTTAATTATTGCAAGTATTTCAGGCAAGGTGTGGATGGCCATTTGAATTCAAGCAGACTAGGACCTGGGATGAGAAAGAAGGTGTGTACGTGACTTGATCTTTGAACTTTAGCTCACCATCTGGAAGAAGGCTGAGTATTCTCTGCACTCACATAGTAGCTAATGCCTACTCCCCAGCCACCCACAATTCTTTCTGTAGGAAGGCTCGCTAGAATACTTTGTGATATTGGATATTAGTTCCATATTCTACTGTGTATCTTAGTTCAACCAAATTGTAATCATCTGATATTTATTTCTTTTAATATAAATATAAGTATATTAAGTCTTGGCATGCTTGCTCAGTCTCTCTCTCTCTCCCATTCCTCCCCGCTCCCCTCTCTCTTTCCCAACAGGCTTGGAAAGCAGGCATCACCATGCCTATTTAACAGTTGGGGTCCCTTGGCCACCAGGTGCTGGAGTAGGAATCTGAGCCCGGACATGCCTGATCTGTAAATTTTGTGTTTTCCCCACTGTGCTGGGCAGATCACAGCTATCAGCGCCAAATTCATAGAAGGGGCGCCCCCTGTGGTCAATTGAGGGATTTGTGTTTGAGGTAGATCTCAAGAAGGAATGGGTGGGGAACTTAGCCTAGGACAGAGCAGAAAGGAGCCCTCACTCCCCAAGCACCAACGGCCTCAGTCCTTCCTGCTGACTCCAGCCTCTAGCTCTCACCCAGACTATCTGCATCCTTCTCTCCACCACGCTCCTTTGGAACCTGCGTAAAACACAGATTAAAGGAATTCCGCCTTACTTCCCTTTCCGCATTATGACCAAATGGTTTTACACTATCATTGAACAGTTTAGTACAAAACATGCCACCTTTTAATCTATTCATTCATTTAACAAATACTTTGGAGTGTTTACCATGTGCCAAGTGCTGTTCTAATAGACATAAGCTGTGAGGTTATGCTTATCTGATTCTCACAGCAACAGCTTTCGAGATATGAATTGGTATACTCATTTGACAGATGAGGAAATTGAATTCATGTAGTGAAAGGAAGAGCTGCAATTCAGGGTTACTGGTTTCTCCTGCACTAAGCACTGAGCCACACTAGAAGAGAAGGCATGAGGAAGACAAAAGT-5'

<128218833>(SEQ ID NO:8)

对于SEQ ID NO:1-8中的每一个，具有与相应CCAT1ncRNA转录物亚型相同的序列(除了RNA中U的被cDNA中的T代替)的cDNA序列“-”链从3’末端至5’末端显示。另外，也显示各cDNA“-”链的第一个和最后一个核苷酸，如它们映射到基因组序列上的对应核苷酸(例如，在SEQ ID NO:1中，5’末端的第一个cDNA核苷酸C对应于人基因组染色体8上的核苷酸128128655，且5’末端的最后一个cDNA核苷酸T对应于人基因组染色体8上的核苷酸128241571)。

此外，下表列出了8个转录物CCAT1_JAX_1至CCAT1_JAX_8(分别SEQ ID NO:1-8)的附加信息，包括由人染色体8上的核苷酸位置表示的各CCAT1转录物的各外显子的开始和结束核苷酸位置、各外显子的长度和相应的基因组序列跨度。

这些CCAT1转录物与以下NCBI参照序列:XR_133500.3中描述的CCAT1转录物不同：

因此，在一个方面中，本发明提供CCAT1ncRNA转录物的cDNA序列，其中cDNA序列由选自SEQ ID NO:1-8的序列表示。

在相关的方面中，本发明提供CCAT1ncRNA的拮抗剂序列，其中拮抗剂序列拮抗CCAT1ncRNA的功能。

在某些实施方式中，拮抗序列不拮抗对应于SEQ ID NO:9的CCAT1ncRNA的功能。

在某些实施方式中，拮抗剂序列是如SEQ ID NO:1-8中所示的任一“-”链cDNA序列的反义序列。

在某些实施方式中，反义序列在生理条件(例如，在细胞核中)下或在高严格性杂交条件(如通过引入并入本文的由Cold Spring Harbor Laboratory Press出版的Sambrook和Russell的Molecular Cloning:A Laboratory Manual,Third Edition,2001中描述的高严格性杂交条件)下与如SEQ ID NO:1-8(但非SEQ ID NO:9)中所示的任一“-”链cDNA序列杂交。一种这样的高严格性杂交条件可以包括约45℃下的6×氯化钠/柠檬酸钠(SSC)，接着50℃、55℃、约60℃或约65℃或更高温度下0.2×SSC和0.1％SDS中的一次或多次洗涤。

在某些实施方式中，反义序列与如SEQ ID NO:1-8中所示的任一“-”链cDNA序列在至少其中反义序列与cDNA序列杂交的区域中至少约40％、50％、60％、70％、80％、85％、90％、95％、97％、99％或更高程度地相同。在某些实施方式中，反义序列与SEQ ID NO:9不超过约50％、40％、30％、20％相同。

在某些实施方式中，反义序列长度为约10、12、14、16、20、22、24、26、28、30或更多个核苷酸。

在某些实施方式中，拮抗剂序列是靶向于破坏如SEQ ID NO:1-8(但非SEQ ID NO:9)中所示的“-”链cDNA序列代表的任何一个或多个CCAT1ncRNA亚型的siRNA或miRNA序列。

在某些实施方式中，拮抗剂序列是编码siRNA/miRNA的载体，或可以被加工成siRNA或miRNA的RNase III(如Dicer)的dsRNA底物。

在某些实施方式中，siRNA或miRNA包含靶向于破坏CCAT1ncRNA亚型的约20-25个核苷酸的指导序列。

在相关的方面中，本发明提供诊断癌症或前癌性病变的方法，包括测量生物样品中SEQ ID NO:1-8任一种或其片段的表达水平，其中生物样品中SEQ ID NO:1-8任一种或其片段的表达指示癌症或前癌性病变。在某些实施方式中，片段不是SEQ ID NO:9的片段。

在某些实施方式中，该方法进一步包括将生物样品中测量的表达水平与标准进行比较，其中生物样品中SEQ ID NO:1-8任一种或其片段的较高表达水平指示癌症或前癌性病变。在某些实施方式中，片段不是SEQ ID NO:9的片段。

在某些实施方式中，该方法包括：(a)从获自受试者的生物样品分离核酸；(b)使能够识别SEQ ID NO:1-8中任一种的探针在允许形成杂交复合物的条件下与核酸杂交；和(c)将杂交复合物的形成与标准进行比较；其中生物样品中较高的杂交复合物水平指示癌症或前癌性病变。在某些实施方式中，探针不与SEQ ID NO:9杂交。

在某些实施方式中，该方法包括：(a)从获自受试者的生物样品分离核酸；(b)扩增分离的核酸中SEQ ID NO:1-8任一种或其任一片段；(c)使扩增的CCAT1产物可视化；和(d)将CCAT1扩增产物的量与标准进行比较；其中较高水平CCAT1扩增产物的存在指示癌症或前癌性病变。在某些实施方式中，片段不是SEQ ID NO:9的片段。

在某些实施方式中，扩增使用对于SEQ ID NO:1-8中的一个或多个具有特异性的探针通过PCR(如实时定量PCR)进行。

在某些实施方式中，标准通过测量未患癌症的受试者中CCAT-1的表达水平来测定。在相关的实施方式中，标准通过测量相同受试者的非癌性组织中CCAT-1的表达水平来测定。

在某些实施方式中，癌症选自结肠癌(例如，结肠的腺癌)、直肠癌、宫颈癌、肺癌、胃癌、肝癌及其转移。

在某些实施方式中，前癌性病变是腺瘤性息肉。

在某些实施方式中，生物样品选自组织、血液、唾液、尿液、粪便和骨髓样品。

本发明的相关方面提供可用作探针或引物的包含SEQ ID NO:1-8任一种或其互补序列的至少8个连续核苷酸的寡核苷酸。在某些实施方式中，寡核苷酸不与SEQ ID NO:9杂交。

本发明的相关方面提供用于检测生物样品中CCAT-1的表达的方法，该方法包括：(a)从生物样品分离核酸；(b)使本发明的CCAT1寡核苷酸探针在允许形成杂交复合物的条件下与核酸杂交；和(c)将杂交复合物的形成与标准进行比较，其中生物样品中较高水平的杂交复合物指示样品中CCAT-1的表达。

本发明的另一相关的方面提供包含cDNA或其片段的载体，其中cDNA选自SEQ IDNO:1-8。在某些实施方式中，cDNA片段不与SEQ ID NO:9杂交。

本发明的另一相关的方面提供包含所述载体的宿主细胞。

本发明的另一相关的方面提供成像癌症或前癌性病变的方法，包括：(a)向受试者施用本发明的CCAT1探针，其中探针与指示分子偶联；和(b)通过成像设备检测与探针偶联的指示分子(例如，放射性同位素、荧光染料、可见光染料(visible dye)或纳米颗粒)。

本发明的进一步相关的方面提供拮抗由SEQ ID NO:1-8中的任何一个或多个代表的CCAT1ncRNA转录物的功能的方法，包括使CCAT1ncRNA与CCAT1的所述拮抗剂序列(例如，反义、miRNA或siRNA)接触。

在某些实施方式中，该方法在体外进行，且CCAT1ncRNA转录物存在于来自组织培养样品的细胞中。

在某些实施方式中，该方法在体内进行，包括向需要的受试者施用CCAT1的所述拮抗剂序列(例如，反义、miRNA或siRNA)。

本发明的再另一相关的方面提供包含CCAT1的所述拮抗剂序列(例如，反义、miRNA或siRNA)和药学上可接受的赋形剂和/或载体的药物组合物。

应当理解，本申请中描述的任何实施方式(包括仅在本发明的一个方面下描述的实施方式)可以与本发明的其它方面的其它实施方式结合。

本领域技术人员应理解，本文中未具体教导的技术可以在标准的分子生物学参考书中找到，如Sambrook和Russell的Molecular Cloning:A Laboratory Manual,ThirdEdition,2001,Cold Spring Harbor Laboratory Press出版；OligonucleotideSynthesis(M.J.Gait编辑,1984)；Nucleic Acid Hybridization(B.D.Hames和S.J.Higgins编辑,1984)；PCR Technology-principles and applications for DNAamplification,1989,(H.A.Erlich编辑)Stockton Press,New York；PCR Protocols:AGuide to Method and Applications,1990,(M.A.Innis等编辑)Academic Press,SanDiego；及PCR Strategies,1995,(M.A.Innis等编辑)Academic Press,San Diego；其全部通过引入并入本文。

实施例

以上一般描述的本发明通过参照以下仅用于说明目的的说明性实施例更容易理解，且说明性实施例不旨在在任何方面进行限制。

实施例1 一般RICh-PET方法学

使用RNA-DNA连接接着末端配对标签测序(RICH-PET)，申请人开发了以下描述的示例性方法来以无偏的和全基因组的方式研究ncRNA(非编码RNA)和染色质相互作用。

该方法背后的主要概念是基于认识到大多数ncRNA调控功能，特别是长ncRNA(lncRNA)具有的那些，很可能通过RNA-蛋白质、RNA-DNA和/或RNA-RNA相互作用的任何组合在特定染色质位点中具有直接或间接接触。因此，整个基因组中染色质位置的ncRNA接触地址的全面集合将提供大的结构框架和基因组元件的详细内容以理解整体影响以及由单个和/或集体ncRNA介导的特定功能。

通过交联，可以捕获RNA-染色质相互作用。在染色质纤维通过超声处理破碎后，通过各染色质复合物中的蛋白质粘结系留在一起的ncRNA和DNA片段然后使用所述RNA和DNA接头经历RNA-DNA连接以建立RNA分子和DNA片段的人工连接关系用于具有特异性的高通量分析。

本发明的RNA接头可以包含随机寡核苷酸序列，例如，随机六聚体核苷酸(hexonucleotide)，用于与任何系留RNA分子的3’-末端退火，和作为用于逆转录的引物以将RNA模板转化成第一链cDNA分子。同时，本发明的DNA接头连接于平端的染色质DNA片段。RNA接头和DNA接头各自具有彼此互补但不与自身互补的粘性末端。因此，一旦接头相应地连接于其预期靶标，RNA和DNA片段可以通过连接反应共价地连接。杂合连接产物然后经历末端配对标签(PET)文库构建和后续高通量测序分析。这一方法的示意图描绘于图1A中。

可选地，修饰的RNA接头可以用于完成RNA-DNA连接步骤。这一方法的示意图描绘于图1B中。

另外，直接RNA接头可以用于利用可以将RNA 3’-末端直接连接于5’腺苷酸化ssDNA或5’腺苷酸化悬端的特定酶(如截短的RNL2)进行RNA-DNA连接步骤，后一方法的示意图描绘于图1C中。

为进一步从其作为RNA或DNA的原始特性区分标签序列，特定的核苷酸条码可以合并到RNA和/或DNA接头序列设计中，其然后允许精确地调用RICh-PET文库数据集中配对的RNA-标签和DNA-标签。处理的RNA-标签和DNA-标签序列然后映射到基准基因组(例如，对于人来源的序列的基准人基因组)以鉴别ncRNA及其染色质靶位点(数据未示出)。

特定试验细节在下面提供用于说明目的。

I.细胞培养和交联

HeLa S3细胞在补充5％胎牛血清(FBS)(Life Technologies,cat.10082147)的Ham's F-12Nutrient Mix(Life Technologies,cat.11765-054)中生长。对于各批交联的细胞，EGS(间隔臂:16.1A；Thermo Scientific,cat.21565)和甲醛(间隔臂:2.0A；Merck–Calbiochem,cat.344198-250ML)用于处理细胞以获得蛋白质-DNA、蛋白质-RNA和蛋白质-蛋白质的双重交联，其可以提供比仅使用甲醛更好的连接性。

245mm方形板(Corning,cat.431110)中的约1 ×10⁸个细胞在预热的DPBS(LifeTechnologies,cat.14190250)中用45ml的1.5mM EGS交联，首先以75rpm振摇40min，然后添加1％甲醛(Merck–Calbiochem,cat.344198-250ML)并保持振摇20min，接着用0.125M甘氨酸(Promega,cat.H5071)淬灭10min，然后用冰冷的DPBS洗涤两次。然后添加包含蛋白酶抑制剂(Roche,cat.11873580001)和RNase抑制剂(如SUPERase·In^TM RNase抑制剂，LifeTechnologies,cat.AM2696)的3-5ml的冰冷DPBS，随后刮取细胞并转移到15ml-Falcon管(Life Technologies,cat.AM1250)。这一过程必要时重复以确保收集所有细胞。细胞在4℃下以2000rpm旋转5min，然后细胞团储存在-80℃直到使用。

II.细胞裂解和染色质生物素化

如之前所述进行细胞裂解(Goh等,J.Vis.Exp.,(62),e3770,doi:10.3791/3770,2012；Fullwood等,Nature,462:58-64,2009，两者通过引用并入本文)。简而言之，核团用冰冷的洗涤缓冲液(50mM Tris-HCl pH＝8.0,150mM Nacl,1mM EDTA,1％TritonX-100,0.1％SDS)洗涤两次，并悬浮在1mL的相同缓冲液中。染色质通过例如超声处理剪切至平均尺寸约500bp的片段。SDS然后添加至剪切染色质达到约0.5％的终浓度，且混合物在如之前所述(Kalhor等,Nat.Biotechnol.,30:90–98,2012，通过引入并入本文)与EZlink碘代乙酰基-PEG2-生物素(IPB)(Thermo Scientific,cat.21334)混合和在室温下旋转60min之前在37℃下孵育15min。链霉亲和素珠-结合的染色质然后进行RICh-PET文库构建。

III.RICh-PET文库构建

链霉亲和素珠-结合的染色质中存在的DNA片段使用T4聚合酶(Promega,R0191)末端修复，接着使用Superscript III First Strand Synthesis System(LifeTechnologies,cat.18080051)进行第一链cDNA合成。

简而言之，1 μg的包含侧翼MmeI位点(IDT)的生物素化的RNA接头a(管1)和RNA接头b(管2)分别添加到含有退火混合物(5μl 10mM dNTP,40μl DEPC-处理的水)的两个管，并在65℃下孵育5min，然后置于冰上至少约1min，随后与cDNA合成混合物(10μl 10×RT(逆转录)缓冲液,20μl 25mM MgCl₂,10μl 0.1M DTT,5μl RNaseOUT,5μl SuperScript III RT)混合用于在25℃下孵育10min，接着在50℃下孵育30min。

过夜连接在16℃下使用5μl的T4DNA连接酶在连接混合物(140μl具有PEG的5×T4DNA连接酶缓冲液,3.5μl RNase抑制剂,546.5μl无核酸酶水)中分别使用1μg的DNA接头A(管1)和DNA接头B(管2)进行。接头添加的DNA片段然后在PNK主混合物缓冲液(70μl 10×T4DNA连接酶缓冲液,3.5μl RNase抑制剂,612.5μl无核酸酶水)中用14μl的T4多核苷酸激酶(NEB)磷酸化，接着两个管在16℃下用反应缓冲液(1000μl 10×T4DNA连接酶缓冲液,50μl RNase,8916μl无核酸酶水)中的34μl T4DNA连接酶邻位连接过夜。

具有接头的染色质DNA片段用Superscript Double-stranded cDNA SynthesisKit(Life Technologies,cat.1197-020)进行第二链cDNA合成。具体地，染色质片段与第二链cDNA混合物(111μl DEPC-处理的水,30μl 5×第二链反应缓冲液,3μl 10mM dNTP混合物,1μl E.coli DNA连接酶,4μl E.coli DNA聚合酶I,1μl E.coli RNase H)混合，并在16℃下孵育2小时。在反应后，添加2μL的T4DNA聚合酶用于在16℃下继续孵育5min。

DNA/RNA/蛋白质复合物中的交联然后通过在65℃下用0.3％SDS(Ambion)和蛋白酶K(Ambion)孵育过夜逆转。cDNA-DNA片段通过苯酚/氯仿异丙醇沉淀来纯化。纯化的cDNA-DNA然后在37℃下通过合适的缓冲液(5μl 10×NEBuffer 4,5μl Half接头非生物素化的以淬灭过量MmeI,5μl 10×SAM)中的1μl的MmeI(NEB)消化至少2小时以释放cDNA标签-RNA接头-DNA接头-DNA标签结构(末端配对标签,PET)。

生物素化的PET然后固定在50μl的2×B&W缓冲液(10mM Tris-HCl pH 7.5,1mMEDTA,1M NaCl)中的链霉亲和素偶联的磁性Dynabeads(Life Technologies,cat.11206D-10ML)上，在室温下振荡45min。各PET结构的末端然后在16℃下伴随混合通过在连接体连接缓冲液(4μl连接体A,4μl连接体B,5μl 10×T4DNA连接酶缓冲液,36μl无核酸酶水)中的1μl的T4DNA连接酶(Thermo Scientific,cat.EL0013)连接于连接体过夜。珠然后用1×B&W缓冲液(5mM Tris-HCl pH 7.5,0.5mM EDTA,1M NaCl)洗涤三次。

缺口翻译用反应混合物(38.5μl无核酸酶水,10×NEBuffer 2,2.5μl 10mM dNTP)中的4μl的E.coli DNA聚合酶I进行，其在室温下在Intelli-Mixer(F8,30rpm,U＝50,u＝60；ELMI Ltd.,Riga,Latvia)上伴随搅拌孵育2小时。之后进行16轮的PCR以扩增PET。RICh-PET文库在Illumina HiSeq2000 (2×36bp阅读)上测序。

所有步骤在具有蛋白酶抑制剂和RNase-抑制剂的缓冲液中进行以防止或最小化蛋白质和RNA降解。

本文中使用的各种多核苷酸或引物在下面列出：

实施例2RICh-PET文库统计

三个RICh-PET文库数据集使用来自HeLa S3细胞的技术和生物学重复产生。

HeLa S3RICh-PET数据映射结果

RICh-PET数据分类为单态PET(即，RNA-标签和DNA-标签两者上没有与其它PET序列的重复)或为具有2个或更多个PET序列的PET簇(即，配对的RNA-标签和DNA-标签序列两者与其它PET重叠)。PET簇被认为更可靠，或认为是反映更可靠的ncRNA-染色质相互作用事件的重复检测的高可信数据，而单态PET可以代表弱连接信号，但可与随机背景噪音区分开。使用簇集标准，鉴定了与约5000个染色质位点关联的大约700个推定的RNA位点(图2A)。

作为快速证实，检验了这些RNA和DNA位点的RNA-seq信号，且发现RNA位点事实上具有比DNA位点显著更高的RNA计数，表明RICh-PET数据如所预期的(图2B)。

约五分之一(约22％)的所获得的RNA-DNA关联性数据可以被认为性质上是顺式作用的(即，从RNA至DNA映射位点<100kb)，而大多数RNA-DNA关联性数据是反式作用的(图2C)。

一个关注点是染色质RNA-DNA连接途径可以在转录仍在进行时捕获大部分新生的mRNA。令人惊异的是，数据显示大多数新生mRNA转录物表现为使其3’-末端隐藏在RNA聚合酶复合物的中心内，以使得本发明的方法(其部分地基于使用ncRNA分子的假定自由的3’-末端)很大程度上避免新生mRNA的干扰。

具体地，映射配对的RICh-PET数据揭示了配对的RNA和DNA标签之间的距离，因此表明可能的相互作用模式，顺式或反式。映射结果显示仅小的数据集是顺式作用的，而大多数是反式作用的和染色体间的，表明在RICh-PET方案中捕获新生转录物的可能性是低的。

RNA标签簇的进一步注释分析(参见以下)显示仅3％的RNA标签映射于mRNA外显子，而绝大多数映射于ncRNA。

另一个关注点是细胞中rRNA的丰度，这是RNA相关分析的一般问题，因为在一些细胞中，rRNA可以高达总RNA的80％。

处理rRNA的一个策略包括在开始特定分析之前使用的回避方式(avoidanceapproach)，如mRNA的polyA+选择方式和rRNA的负向耗尽。我们评估在RICh-PET文库之一中rRNA序列的丰度水平，并发现rRNA序列占总RNA标签的约26％。相反，几乎没有(0.23％)DNA标签对应于rRNA序列。因此，数字耗尽(digital depletion)方式可以用于在任何进一步的分析之前除去所有rRNA序列以降低由于rRNA导致的数据噪音。

实施例3RICh-PET方法的可重现性和灵敏度

为评估RICh-PET数据的可重现性，可以进行两个技术重复(分成两个等分试样用于平行文库构建和测序分析的相同的细胞制剂)和两个生物学重复(在不同时间收集的用于采用具有轻微改变的几乎相同的过程的文库构建中的不同细胞制剂)。所得的重复结果显示出真正的可重现性(图3)。例如，已知牵涉在癌症中的两种充分研究的lncRNA NEAT1和MALAT1在所有三个文库中可再现地检测到(数据未示出)。

值得注意的是，这两种lncRNA基因发现在RNA聚合酶II(RNAPII或RNA Pol2)介导的广泛染色质相互作用环结构中空间组织化，表明它们的表达最可能在共同的转录机构复合体下共调节。

在本文中获得的RICh-PET数据中，MALAT1和NEAT1两者在HeLa S3细胞中高度表达，且在所有三个RICh-PET数据集中丰富地检测。具体地，NEAT1与细胞中的MALAT1相比相对较低地表达，因此，对于NEAT1的RICH-PET数据计数低于MALAT1(数据未示出)。作为对照，HOTAIR是在HeLa S3细胞中以低水平表达的另一个已知lncRNA，且它在所得的RICh-PET数据中未检测到(数据未示出)。

因此，表现出的是RICh-PET数据中ncRNA的检测与ncRNA表达水平良好相关。

实施例4RICh-PET数据的验证

基于获得的RICh-PET映射数据，有趣的是，即使这两个ncRNA在相同的转录机构中共转录，它们的相互作用性质是非常不同的。具体地，NEAT1RNA限制性地处于顺式，仅结合于其被转录处；而MALAT1大部分处于反式，与基因组中的许多位点相互作用(图4A)。

为验证这一观察，使用NEAT1和MALAT1RNA作为荧光进行RNA-FISH试验以检查HeLa细胞核(图4B)。如所预期的，NEAT1探针仅产生每细胞核1或2个斑点，而MALAT1探针在所有核空间上均产生斑点，与RICh-PET数据中观察到的一致。A549细胞中对于NEAT1和MALAT1也获得相似的RNA-FISH结果。这一验证表明RICh-PET数据是定性的且在检测和区分真正的顺式和反式相互作用中是准确的。

实施例5RICh-PET数据的表征

RNA和DNA标签簇基于人基因组的Genecode V14注释进行表征。仅3％的RNA标签簇与蛋白质编码外显子重叠，且绝大多数RNA标签簇映射到非编码区，其中许多是先前已知的ncRNA(172,24％)。其余是位于蛋白质编码内含子区域、反义和基因间(inter-genetic)区域中的潜在的新ncRNA(图5A)。

在RICh-PET数据中鉴别的所有推定ncRNA具有RNA-Seq数据支持，表明它们在HeLa细胞中活跃地转录。相反，RICh-PET数据的DNA标签簇主要地映射于蛋白质编码基因且主要的部分映射于基因启动子(图5B)。

在RNA和DNA标签簇周围的一组染色质活性标志进行进一步分析。有趣的是注意到RNA标签簇的中心偏离对于开放染色质状态通过RNA Pol2和DHS信号限定的转录活性峰，且这种“中心偏离”性质是链特异性的(数据未示出)。这种链特异性的“中心偏离”性质与RICh-PET方法一致，因为其被设计为捕获RNA的3’-末端。因此，RNA标签簇预期在转录开始位点的下游。相反，染色质活性信号在DNA标签簇中心周围对称地成峰(数据未示出)，反映了超声处理对染色质纤维的随机剪切。

实施例6.MALAT1与许多基因组特征相互作用且可以发挥基因激活和基因抑制的两种功能

使用与MALAT1关联的所有RICh-PET数据(包括单态PET)，申请人产生全染色体的和全基因组的MALAT1-相互作用谱，表明MALAT1具有与基因组中的大区域相互作用的潜能(数据未示出)。超过50个高可信度的相互作用(标签计数≥2的PET簇)位点中，大约一半位于启动子中且四分之一在已知基因的内含子区域中(图6A)。来自相同细胞的RNA-Seq和RNAPol2ChIP-seq数据显示在其启动子中存在MALAT1的基因具有比在其内含子区域处具有MALAT1相互作用的那些基因显著更高的转录活性(图6B；数据未示出)。已经报告，MALAT1通过与多个剪接因子(包括SRSF2)相互作用参与调节剪接功能(Tripathi等,2011)。

申请人还发现MALAT1RNA可以通过与其启动子相互作用而直接参与调节SRSF2的表达(数据未示出)。这些观察表明MALAT1可以具有调节基因激活和抑制的多种功能性作用。

实施例7XIST在X-染色体以外的功能

最良好表征的lncRNA是XIST，其从一个拷贝的X染色体转录并结合(顺式作用)于另一拷贝的X染色体中的相同位点，且进一步延伸以覆盖整个染色体用于灭活(未示出)。RICh-PET映射数据显示与XIST的RNA标签配对的DNA标签在X染色体中高度富集，而背景噪音分散在整个基因组中，表明XIST如预期的特异性地结合X染色体。

有趣的是，它也表现出在一个非X染色体中一定水平的XIST-结合的富集及对于另一非X染色体的某种程度的耗尽。获得了更多的数据和进一步的分析以进一步验证这一观察。

实施例8ncRNA的复杂相互作用网络

此处给出的RICh-PET数据提供了关于复杂的ncRNA相互作用网络系统的第一印象。除了一个ncRNA在基因组中可以具有多个靶标(MALAT1)的经典观点，已发现许多推定的ncRNA位点具有“波动(in-and-out)”的RICh-PET数据，因为发现位点通过ncRNA发生相互作用，且由此相互作用的ncRNA也检测到与另一位点相互作用。

在许多意义上，这一ncRNA相互作用网络类似于转录因子(TF)结合网络，其中许多TF结合用于转录调节的彼此的基因。更多数据有助于进一步阐明ncRNA如何发挥功能，且ncRNA相互作用网络如何影响基因组系统。

实施例9 通过CCAT1编码的lncRNA是转录共激活因子

RICh-PET方法用于鉴别总体ncRNA-基因组DNA相互作用。在鉴别的相互作用中，一种ncRNA-结肠癌相关转录物1-具有特别的意义。

结肠癌相关转录物1(CCAT1)是目前使用代表性差异分析(RDA)、cDNA克隆和cDNA末端的快速扩增(RACE)发现的2628核苷酸长的非编码RNA(Nissan等，“Colon CancerAssociated Transcript-1:A novel RNA expressed in malignant and pre-malignant人tissues,”Int.J.Cancer,13:1598–1606,2012)。其最近发现在结肠癌(CC)中超表达，但不在正常组织中超表达，从而使其成为潜在的疾病特异性生物标志物(Nissan等,Int.J.Cancer,130(7):1598-606,2012；Alaiyan等,BMC Cancer,13:196,2013)。

基于RICh-PET数据的仔细分析揭示这一位点中亚型转录物的新的复杂模型(数据未示出)。另外，CCAT1在宫颈癌细胞系HeLa细胞中高度转录。

RICh-PET数据也揭示CCAT1lncRNA转录物靶向基因组中的许多其它位点(数据未示出)，包括所有人染色体，除染色体15、16、20、X和Y。

在具有至少2个CCAT1标签的CCAT1染色质靶标中，许多在增强子或启动子中显示出最强的lncRNA-基因组DNA相关性(数据未示出)。例如，对于与至少3个CCAT1RNA标签相关的122个CCAT1基因组靶位点，88个靶位点在增强子区域中，包括具有RNAPII相互作用的增强子位点中的6个。CCAT1的另外34个基因组靶位点在启动子中。

这些CCAT1靶基因具有比随机选择的对照基因集合高几倍的平均表达水平，表明CCAT1lncRNA促进靶基因表达。

这些CCAT1靶基因中的一种是c-myc，在广泛的癌症是过表达的致癌基因，包括约80％的乳腺癌、70％的结肠癌、90％的妇科癌症、50％的肝细胞癌和具有异常myc表达的多种血液肿瘤(如伯吉特淋巴瘤)。另外的数据表明CCAT1lncRNA通过结合CCAT1位点本身以及myc位点而发挥功能，因此使得CCAT1和myc位点密切地物理接近并允许CCAT1位点中的增强子刺激myc转录。另外，CCAT1转录的lncRNA可以结合蛋白质因子并用作转录共激活因子，因此直接增强myc以及其它CCAT1靶基因如FAM84B和SNX14的转录。

实施例10 人B-类淋巴母细胞GM12878和果蝇S2细胞中另外的应用

使用如上所述基本上相同的RICh-PET方法，申请人从人B-类淋巴母细胞GM12878和果蝇S2细胞获得另外的数据以进一步支持RICh-PET方法的一般适用性。

具体地，人GM12878细胞用于RICh-PET分析，因为ncRNA基因XIST在这一细胞系中高表达，而之前用于RICh-PET分析的HeLa细胞具有低水平的XIST表达，且HCT116源自男性，因此不具有XIST表达。因此，在使用XIST作为模型来评价RICh-PET分析检测ncRNA与染色质的相互作用的性能时，GM12878是用于RICh-PET分析的好得多的细胞类型。

如之前所述的，XIST特异性地或优先地结合X-染色体。参见图9A，其显示以每百万阅读每kb的阅读(RPKM)计的通过RNA-Seq数据测量的XIST计数；和图9B，其显示XIST结合覆盖的各染色体的比例。在GM12878细胞中，大部分染色体仅在10-20％的总染色体空间中被XIST覆盖，而X-染色体接近90％被XIST覆盖。这一覆盖率代表XIST对于其靶向染色体的特异性高于其它非特异性染色体几乎6-倍(5.9-倍)的特异性。相反，在HeLa细胞中，覆盖率代表XIST对于其靶向染色体的特异性高于其它非特异性染色体约3.4-倍的特异性，和在HCT116细胞中，如所预期的，没有观察到X-染色体富集。

类似地，在果蝇S2细胞中，ncRNA基因rox2-与人的XIST等同-显示rox2结合X-染色体的类似富集：高于其它染色体5-倍(数据未示出)。具体地，获得了全果蝇基因组中的rox2结合数据。超过80％的rox2-连接的DNA-标签结合于X-染色体，代表对于X-染色体的5-倍富集。具有在通过CHART-seq和通过RICh-PET方法在X-染色体上的rox2映射之间观察到的合理强的相关值(0.6)，证明RICh-PET方法的适合性。

大部分的RICh-PET数据的RNA-标签映射到非编码区，而仅约26％在编码区中，表明该方法具有ncRNA的富集(数据未示出)。RICh-PET数据的RNA-标签与来自果蝇S2细胞的RNA-seq数据的比较显示对于已知ncRNA的显著富集(数据未示出)。

总之，以上实施例给出的数据证明本发明的方法(例如，RICh-PET方法)如设计的发挥作用。RICh-PET数据中绝大多数的RNA标签映射到非编码区，且它们中的一些映射到已知lncRNA如MALAT1和NEAT1。这是这一方法如所预期的运行的强烈指示。更重要的是，通过RNA-DNA关联性映射数据，申请人能够鉴别全基因组的潜在ncRNA-染色质相互作用位点。迄今为止进行的几条线的初步验证已经表明RICh-PET鉴别的ncRNA相互作用是真实的。

Claims

1.一种试剂盒，包含：

(1)RNA接头，其包含：

(i)第一多核苷酸，和

(ii)第二多核苷酸，

其中所述第一和第二多核苷酸形成侧接第一连接相容末端和在所述第一多核苷酸3’-末端的3’-悬端的第一双链区域，其中所述3’-悬端包含随机序列引物；和

(2)DNA接头，其包含：

(iii)第三多核苷酸，和

(iv)第四多核苷酸，

其中所述第三和第四多核苷酸形成侧接平端和第二连接相容末端的第二双链区域，

其中所述第一和第二连接相容末端彼此连接或适应于彼此连接。

2.权利要求1的试剂盒，其中所述第一连接相容末端是所述第二多核苷酸3’-端的3’-悬端，和所述第二连接相容末端是所述第三多核苷酸3’-端的3’-悬端，其中两个3’-悬端彼此退火以连接。

3.权利要求1的试剂盒，其中所述第一双链区域包含切割所述随机序列引物3’侧的第一限制性内切酶(RE)的第一识别位点。

4.权利要求1的试剂盒，其中所述第二双链区域包含切割所述第三多核苷酸5’侧的第二限制性内切酶(RE)的第二识别位点。

5.权利要求1的试剂盒，其中所述第一、第二、第三和第四多核苷酸中的一个或多个是DNA。

6.权利要求1的试剂盒，其中所述第一、第二、第三和第四多核苷酸中的一个或多个包含修饰的核苷酸。

7.权利要求6的试剂盒，其中所述修饰的核苷酸是生物素化的胸苷。

8.权利要求1的试剂盒，其中所述第一多核苷酸包含多个多核苷酸，其中各多核苷酸仅在随机序列引物区域处不同。

9.权利要求1的试剂盒，其中所述第一多核苷酸包含具有相同随机序列引物的多核苷酸的同质群体。

10.权利要求1的试剂盒，其中所述随机序列引物包含4、5、6、7、8或更多个核苷酸。

11.权利要求1的试剂盒，其中所述第一双链区域包含区分所述RNA接头与所述DNA接头的独特序列。

12.权利要求1的试剂盒，其中所述第二双链区域包含区分所述RNA接头与所述DNA接头的独特序列。

13.权利要求3的试剂盒，其中所述第一识别位点的最后一个核苷酸是所述随机序列引物5’侧的最后一个碱基配对的核苷酸。

14.权利要求4的试剂盒，其中所述第二识别位点的最后一个核苷酸是所述平端处的碱基配对的核苷酸。

15.权利要求3或4的试剂盒，其中所述第一和第二限制性内切酶是相同的。

16.权利要求3或4的试剂盒，其中所述第一和第二限制性内切酶独立地选自：AarI、AceIII、AloI、BaeI、Bbr7I、BbvI、BbvII、BccI、Bce83I、BceAI、BcefI、BcgI、BciVI、BfiI、BinI、BplI、BsaXI、BscAI、BseMII、BseRI、BsgI、BsmI、BsmAI、BsmFI、Bsp24I、BspCNI、BspMI、BsrI、BsrDI、BstF5I、BtgZI、BtsI、CjeI、CjePI、EciI、Eco31I、Eco57I、Eco57MI、EcoP15I、Esp3I、FalI、FauI、FokI、GsuI、HaeIV、HgaI、Hin4I、HphI、HpyAV、Ksp632I、MboII、MlyI、MmeI、MnlI、PleI、PpiI、PsrI、RleAI、SapI、SfaNI、SspD5I、Sth132I、StsI、TaqII、TspDTI、TspGWI、TspRI或Tth111II。

17.权利要求3或4的试剂盒，其中所述第一或第二限制性内切酶的切割位点是所述识别位点的最后一个核苷酸3’侧的10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸。

18.权利要求1的试剂盒，其中所述第一和第四多核苷酸是去磷酸化的。

19.权利要求1的试剂盒，还包含交联蛋白质和多核苷酸的试剂。

20.权利要求19的试剂盒，其中所述试剂包含甲醛。

21.权利要求1的试剂盒，还包含特异性地或选择性地结合染色质的组分的亲和试剂。

22.权利要求21的试剂盒，其中所述亲和试剂是抗体。

23.权利要求21的试剂盒，其中所述亲和试剂是单克隆抗体。

24.权利要求21的试剂盒，其中所述染色质的组分是组蛋白。

25.权利要求1的试剂盒，还包含将含有损伤的或不相容的5’-和/或3’-突出末端的DNA转化为5’-磷酸化的平端DNA的末端修复混合物。

26.权利要求1的试剂盒，还包含DNA连接酶。

27.权利要求26的试剂盒，其中所述DNA连接酶是T4连接酶。

28.权利要求1的试剂盒，还包含逆转蛋白质和多核苷酸的交联的试剂。

29.权利要求28的试剂盒，其中所述逆转蛋白质和多核苷酸的交联的试剂是蛋白酶K。

30.权利要求3或4的试剂盒，还包含所述第一和/或第二限制性内切酶。

31.权利要求1的试剂盒，还包含用于平端双链DNA的PCR扩增的一对串联的连接体。

32.权利要求1的试剂盒，还包含Taq DNA聚合酶。

33.权利要求1的试剂盒，还包含逆转录酶。

34.一种末端配对标签(PET)多核苷酸，包含含有权利要求1的第一和第二双链区域的中心区域，所述中心区域：

(1)在接近所述第一双链区域的位点处侧接非编码RNA(ncRNA)的序列标签；和

(2)在接近所述第二双链区域的位点处侧接基因组DNA的序列标签。

35.权利要求34的PET多核苷酸，其中所述非编码RNA(ncRNA)的序列标签具有由第一限制性内切酶的消化产生的自由端。

36.权利要求34的PET多核苷酸，其中所述非编码RNA(ncRNA)的序列标签唯一地鉴别转录所述ncRNA的基因组区域。

37.权利要求34的PET多核苷酸，其中所述非编码RNA(ncRNA)的序列标签长度为8-30个碱基对。

38.权利要求34的PET多核苷酸，其中所述基因组DNA的序列标签具有由第二限制性内切酶的消化产生的自由端。

39.权利要求34的PET多核苷酸，其中所述基因组DNA的序列标签唯一地鉴别所述基因组DNA所在的基因组区域。

40.权利要求34的PET多核苷酸，其中所述基因组DNA的序列标签长度为8-30个碱基对。

41.一种末端配对标签(PET)文库，包含两个或更多个权利要求34的PET多核苷酸的成员，其中所述PET文库的各成员包含相同的所述中心区域，及不同的权利要求34的所述非编码RNA(ncRNA)的序列标签或不同的权利要求34的所述基因组DNA的序列标签或两者。

42.一种载体，包含权利要求34的PET多核苷酸。

43.权利要求42的载体，包含多个串联的权利要求34的PET多核苷酸。

44.两个或更多个权利要求34的PET多核苷酸的串联体。

45.一种鉴别基因组内基因组的非编码RNA(ncRNA)的功能性相互作用位点的方法，该方法包括：

(1)提供包含交联的基因组DNA片段和交联的ncRNA的染色质；

(2)使用权利要求1的所述RNA接头和DNA接头，在用于邻位连接的条件下，将交联的基因组DNA片段的末端与交联的ncRNA的cDNA的末端连接，其中所述交联的基因组DNA片段的末端连接于所述DNA接头，且所述交联的ncRNA的cDNA的末端包含所述RNA接头；

(3)分离权利要求34的PET多核苷酸用于测序分析；和

(4)将各所述PET多核苷酸内的所述基因组DNA的序列标签和所述ncRNA的序列标签映射到参照基因组，

从而鉴别所述参照基因组内所述参照基因组的所述非编码RNA(ncRNA)的功能性相互作用位点。

46.权利要求45的方法，其中所述ncRNA和所述基因组DNA在活细胞中通过甲醛介导的交联进行交联。

47.权利要求45的方法，其中染色质片段通过超声处理生成。

48.权利要求45的方法，其中所述交联的ncRNA的cDNA包含从所述RNA接头的随机序列引物和所述ncRNA模板逆转录的第一链cDNA。

49.权利要求45的方法，其中第二链cDNA合成在邻位连接之后但在步骤(3)之前进行。

50.权利要求45的方法，还包括在步骤(2)之前将交联的基因组DNA片段的末端修复为5’-磷酸化的平端DNA。

51.权利要求45的方法，其中所述DNA接头的第三多核苷酸是去磷酸化的且所述DNA接头不自身连接。

52.权利要求45的方法，还包括鉴别具有重叠的基因组DNA的序列标签和重叠的ncRNA的序列标签的两个或更多个PET多核苷酸的簇。

53.权利要求52的方法，还包括排除包含rRNA的序列标签的PET多核苷酸。

54.权利要求45的方法，还包括在步骤(2)之前分离或富集染色质片段的亚集。

55.权利要求54的方法，其中所述染色质片段的亚集使用对于所述染色质片段亚集的蛋白质组分特异性的抗体通过免疫沉淀进行分离或富集。

56.权利要求55的方法，其中所述蛋白质组分是组蛋白、转录因子、多梳(PcG)家族蛋白；重组参与因子；染色质隔离子；甲基-CpG结合蛋白或RNA结合蛋白。