CN116829715A - 用于治疗chd2单倍体不足的组合物及其识别方法 - Google Patents

用于治疗chd2单倍体不足的组合物及其识别方法 Download PDF

Info

Publication number
CN116829715A
CN116829715A CN202180093414.1A CN202180093414A CN116829715A CN 116829715 A CN116829715 A CN 116829715A CN 202180093414 A CN202180093414 A CN 202180093414A CN 116829715 A CN116829715 A CN 116829715A
Authority
CN
China
Prior art keywords
nucleic acid
sequence
seq
sequences
acid agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180093414.1A
Other languages
English (en)
Inventor
伊戈尔·乌利茨基
卡罗琳·简·罗斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yeda Research and Development Co Ltd
Original Assignee
Yeda Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yeda Research and Development Co Ltd filed Critical Yeda Research and Development Co Ltd
Publication of CN116829715A publication Critical patent/CN116829715A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • C12N15/1137Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing against enzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P25/00Drugs for disorders of the nervous system
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/11Antisense
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/11Antisense
    • C12N2310/113Antisense targeting other non-coding nucleic acids, e.g. antagomirs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/32Chemical structure of the sugar
    • C12N2310/3212'-O-R Modification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/32Chemical structure of the sugar
    • C12N2310/323Chemical structure of the sugar modified ring structure
    • C12N2310/3231Chemical structure of the sugar modified ring structure having an additional ring, e.g. LNA, ENA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/34Spatial arrangement of the modifications
    • C12N2310/341Gapmers, i.e. of the type ===---===

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biochemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Neurosurgery (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Virology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Neurology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Nitrogen Condensed Heterocyclic Rings (AREA)
  • Silver Salt Photography Or Processing Solution Therefor (AREA)

Abstract

提供了一种增加神经元细胞中的染色质域解旋酶DNA结合蛋白2(CHD2)的量的方法。该方法包括向细胞中引入下调人类Chaserr活性或表达的核酸试剂,其中该核酸试剂针对人类Chaserr的最后一个外显子,从而增加所述神经元细胞中CHD2的量。

Description

用于治疗CHD2单倍体不足的组合物及其识别方法
相关应用
本公开要求2020年12月18日提交的序列号为63/127,212的美国临时申请的优先权,其全部公开内容通过引用并入本文。
序列表声明
与本公开同时提交的、名为89180SequenceListing.txt的ASCII文件创建于2021年12月19日,包括61,440字节,该文件通过引用并入本文。
技术领域和背景技术
本公开在其一些实施方式中涉及用于治疗CHD2单倍体不足的组合物及其识别方法。
染色质结构域解旋酶DNA结合蛋白2(Chromodomain Helicase DNA BindingProtein 2,Chd2)基因编码一种ATP依赖染色质重塑酶,其与CHD1一起属于染色质解旋酶DNA结合(CHD)蛋白家族的亚家族I。该亚家族成员的特征是位于N-末端区域的两个染色结构域和位于中心的SNF2样ATP酶结构域[Tajul-Arifin,K.等人,小鼠转录组中含染色体结构域蛋白的鉴定与分析。基因组研究(Genome Res.),13,1416-1429(2003)],并促进核小体的分解、驱逐、滑动和间隔[Narlikar,G.J.,Sundaramoorthy,R.&Owen-Hughes,T.,ATP依赖染色质重塑酶的机制和功能,细胞(Cell)154,490-503(2013)]。
在人类中,CHD2单倍体不足与神经发育迟缓、智力障碍障碍、癫痫和行为问题有关[综述于Lamar,K.-M.J.&Carvill,G.L.,癫痫中的染色质重塑蛋白:CHD2相关癫痫的教训,分子神经科学前沿(Front.Mol.Neurosci.)11,208(2018)]。在小鼠模型和细胞系中的研究也表明Chd2与神经元功能障碍有关。
在所有描述的病例中,这些个体是CHD2是单倍体不足,因此携带CHD2的完整WT副本。因此,通过扰乱Chaserr(例如,通过使用反义寡核苷酸)增加CHD2表达可能具有治疗益处。
多种证据表明,长链非编码RNA(IncRNA)功能与染色质修饰复合物的功能之间有很强的联系[Han,P.&Chang,C.-P.,长链非编码RNA和染色质重塑,核糖核酸生物学(RNABiol.)12,1094-1098(2015)]。据报道,许多染色质修饰物与IncRNAs相互作用[Han等,同上]。此外,脊椎动物基因组中的IncRNAs富集在转录相关因子编码基因附近[Ulitsky,I.,Shkumatava,A.,Jan,C.H.,Sive,H.&Bartel,D.P.,尽管序列进化迅速,IincRNAs在脊椎动物胚胎发育中的保守性功能,细胞(Cell)147,1537-1550(2011)],包括许多染色质相关蛋白,但其中绝大多数lncRNA的功能仍然未知。
本发明人先前的工作公开了位于Chd2上游的Chaserr保守的IncRNA的存在(Rom等人,自然通讯(Nature Communications)2019 10:5092):小鼠中的1810026B05Rik(表示为Chaserr,表示CHD2邻近的抑制性调节RNA)和人类中的LINC01578/LOC100507217(CHASERR),它们几乎是完全未表征的IncRNAs,发现于Chd2的上游并从与Chd2相同的链转录。
Chaserr与CHD2蛋白协同作用,以维持适当的Chd2表达水平。在小鼠中Chaserr的缺失,导致纯合子小鼠产后早期死亡,以及杂合子小鼠的严重生长迟缓。从机理上讲,Chaserr的缺失导致Chd2 mRNA和蛋白质水平显著增加,这反过来又通过抑制高度表达基因下游发现的启动子而导致转录干扰。Chaserr的产生仅抑制了Chd2的顺式表达,当Chd2也受到干扰时,Chaserr缺失的表型结果得到了挽救。因此,针对Chaserr是增加单倍体不足个体中CHD2水平的潜在策略。
其他背景技术包括:
www.iscb.org/cms_addon/conferences/ismb2020/postersdotphp?track=RegSys%20COSI&session=B
github.com/lncLOOM/lncLOOM。
发明内容
根本公开的一些实施方式的一个方面,提供了一种增加神经元细胞中的染色质结构域解旋酶DNA结合蛋白2(CHD2)的量的方法。所述方法包括向细胞中引入下调人类Chaserr活性或表达的核酸试剂,其中所述核酸试剂针对人类Chaserr的最后一个外显子,从而增加所述神经元细胞中CHD2的量。
根据本公开的一些实施方式的一个方面,提供了一种在有需要的对象(subject)中治疗与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足相关的疾病或医学病症的方法。所述方法包括向所述对象施用治疗有效量的下调人类Chaserr活性或表达的核酸试剂,其中所述核酸试剂针对人类Chaserr的最后一个外显子,从而治疗与CHD2单倍体不足相关的所述疾病或医学病症。
根据本公开的一些实施方式的一个方面,提供了一种下调人类Chaserr活性或表达的核酸试剂,用于在需要其的对象中治疗与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足相关的疾病或医学病症的用途,其中,所述核酸试剂针对人类Chaserr的最后一个外显子。
根据本公开的一些实施方式,所述人类Chaserr包含选自由下列所组成的组的可变剪接变体:SEQ ID NO:11(NR_037600)、SEQ ID NO:12(NR_037601)和SEQ ID NO:13(NR_037602)。
根据本公开的一些实施方式,所述核酸试剂与包含SEQ ID NO:2(AUGG)的核酸序列元件杂交。
根据本公开的一些实施方式,所述核酸试剂与选自由AAGAUG(SEQ ID NO:5)和AAAUGGA(SEQ ID NO:6)所组成的组的核酸序列元件杂交。
根据本公开的一些实施方式,所述核酸试剂与包含AAGAUG(SEQ ID NO:5)和/或AAAUGGA(SEQ ID NO:6)的核酸序列元件杂交。
根据本公开的一些实施方式,所述核酸试剂抑制DHX36与Chaserr的结合。
根据本公开的一些实施方式,所述核酸试剂是反义寡核苷酸。
根据本公开的一些实施方式,所述反义寡核苷酸具有SEQ ID NO:92-99所示的核碱基序列(nucleobase sequence)(其中T被U取代)。
根据本公开的一些实施方式,所述核酸试剂是RNA沉默试剂。
根据本公开的一些实施方式,所述核酸试剂是基因组编辑试剂。
根据本公开的一些实施方式,所述核酸试剂以可诱导的方式具有活性。
根据本公开的一些实施方式,所述核酸试剂以组织或细胞特异性的方式具有活性。
根据本公开的一些实施方式,所述与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足相关的疾病或医学病症选自智力障碍、自闭症、癫痫和伦诺克斯-加斯托综合征(Lennox Gastaut syndrome,LGS)。
根据本公开的一些实施方式的一个方面,提供了一种分析描述多种同源多核苷酸的序列集合的方法,所述方法包括:
构建具有分层排列的多个节点和连接连续层的节点的多个边缘的图,其中每一层表示所述集的序列,使得第一层表示描述查询多核苷酸的序列,每一节点表示相应序列内的k-mer,并且每一边缘连接表示相同或同源k-mer的节点,k为6至12;
在所述图上搜索沿着所述图的边缘的连续不相交路径;和
生成输出,将对应于至少一条路径的k-mer识别为功能感兴趣的核酸序列。
根据本公开的一些实施方式,该方法包括:在所生成所述输出之前,每次针对较短的k-mer迭代地重复所述构建和所述搜索。
根据本公开的一些实施方式,该方法包括:在每个迭代循环,应用在前一迭代循环中获得的路径作为所述搜索的约束。
根据本公开的一些实施方式,所述搜索包括应用路径深度标准作为所述搜索的约束,使得所述搜索优先进行较深的路径而不是较浅的路径。
根据本公开的一些实施方式,所述搜索包括对所述图应用整数线性规划(ILP)。
根据本公开的一些实施方式,所述同源多核苷酸是DNA序列。
根据本公开的一些实施方式,所述同源多核苷酸是RNA序列。
根据本公开的一些实施方式,该方法包括根据预定顺序比对所述集中的所述序列,以提供具有多个比对层的多重比对,其中第一层是所述多个同源多核苷酸的所述查询多核苷酸,并且其中所述多个比对层分别对应于所述图的所述层。
根据本公开的一些实施方式,所述预定顺序是进化决定的,可选地,其中所述查询是:进化中最先进的是所述同源多核苷酸。
根据本公开的一些实施方式,所述同源k-mer之间的同源性为至少70%。
根据本公开的一些实施方式,所述同源多核苷酸包含部分序列。
根据本公开的一些实施方式,所述同源多核苷酸选自由3'UTR、IncRNA和增强子所组成的组。
除非另有限定,否则本文中使用的所有技术和/或科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。尽管可以在本公开的实施方式的实践或测试中使用与本文描述的那些类似或等同的方法和材料,但是下面描述了示例性方法和/或材料。如有冲突,以专利说明书(包括限定)为准。此外,这些材料、方法和实施例仅是说明性的,并不意味着必须是限制性的。
附图简要说明
本文仅通过示例的方式参考附图描述了本公开的一些实施方式。现在详细地具体参照附图,需要强调的是,所示的细节是示例性的,并且是为了说明性地讨论本公开的实施方式。在这点上,结合附图所作的描述使得本领域技术人员清楚如何实施本公开的实施方式。
在附图中:
图1A-B提供了用于发现被称为“LncLOOM”框架的核酸序列元件的实施方式的概述。(A)LncLOOM方法概述。LncLOOM处理序列的有序列表,并恢复一组保守到不同深度的有序基序(motif),这些基序可进一步注释为miRNA或RBP结合位点。(B)使用整数线性规划(ILP)查找长非相交路径的图构建和基序发现示意图。序列按照距顶层(人类)单调递增的进化距离排序。可用于约束边缘位置的BLAST高分对(HSPs)(参见方法)在每个序列下方被描述为粉红色和红色块。该图用于构建ILP问题,且其解决方案用于构建对应于保守同线性基序(conserved syntenic motifs)(SEQ ID NOs:29-32)的一组长路径。
图2A-F描述了在Cyrano IncRNA中保守元件的发现。(A)所选物种中Cyrano外显子的基因组组织概述。(B)通过Lnc100M识别的序列元件在Cyrano中至少有17个物种中是保守的。圈出包含在人类和斑马鱼Cyrano序列之间可通过BLAST比对的区域中发现的元素的区域。元素之间的数字表示18个物种中元素之间的距离。每个元素上方带圆圈的数字表示文本和其他面板中使用的元素编号。(C)Cyrano中预测的结合元件与miR-25/92和miR-7miRNAs之间的配对。(D)PUM1和PUM2与人类基因组中的UGUAUAG基序(阴影区域)结合的证据。编码项目CLIP数据(顶部,K562细胞)和22(下方,HCT116细胞)。如ENCODE项目所定义的,阴影基于绑定证据的强度。(E)通过Pum1/2和Rbfox1/2结合和调节小鼠Cyrano序列。顶部:Pum1/2CLIP和RNA-seq数据来自中间:来自小鼠脑和来自mESC的Rbfox1 CLIP。Pumilio和Rbfox的结合基序分别以黄色和蓝色突出显示。PhyloP序列保守性分数来自UCSC基因组浏览器。下方:小鼠脑中的Ago2结合至Cyrano的3'端附近的miR-153结合位点的区域。来自(F)左上部的CLIP数据:Cyrano 5'端附近保守的AUGGCG基序周围区域的比对。右上部和右下部:来自多个数据集的复合Ribo-seq和RNA-seq数据。来自ENCODE项目的K562细胞系中YY1的芯片seq数据。示出的是读取覆盖和IDR峰值。图中所示的序列被标记为SEQ ID NOs:33-42和53-67。
图3A-E描述了CHASERR IncRNA中保守元件的发现。(A)显示了人类CHASERR基因结构,其中至少有四个物种中保守的基序,并按其保守深度进行颜色编码。最后一个外显子的区域被放大,在文本中讨论的基序被突出显示。(B)两个最保守基序侧翼序列的序列标志,共享的AARAUGR基序用阴影表示(图中所示的序列标记为SEQ ID NO:68)。(C)顶部:小鼠Chaserr基因座,其中包含用于qRT-PCR的引物对的位置,以及突出显示的GapmeR(与中使用的相同)和ASO所靶向的区域。底部:在用指定试剂处理的N2a细胞中,用靶向Chaserr(显示在顶部)或Chd2外显子的引物进行qRT-PCR,对于ASO处理n=4,对于GapmeRs n=5。(D)火山图(volcano plot),用于比较下列Chaserr最后一个外显子和保守元件发生突变的最后一个外显子的WT序列之间的MS强度(图8A)。(E)qRT-PCR使用引物靶向IP之后的指定区域,指定抗体,n=4。右上部:使用抗DHX36抗体对指定样品进行蛋白质印迹。图中所示的序列被标记为SEQ ID NO:68。
图4示出了PUM1和PUM2 3'UTR中保守元件的识别。示出了人类序列,并且基于其保守性对至少7个物种中保守的基序进行了颜色编码。超保守UGUACAUU(SEQ ID NO:14)基序出现在方框中。图中所示的序列被标记为SEQ ID NOs:69-70。
图5A-I示出了用Lnc100M对3'UTR中保守基序的全局分析。(A)具有不同数量的直向同源序列的基因数量,这些序列与其人类序列(黑色)或其小鼠、狗和鸡序列(灰色)没有显著的比对。(B)与人类3'UTR序列不比对的指定数量的序列中保守的独特k-mer的组合的分布。(C)对LncLOOM识别的每个物种的独特k-mer(粉红色)及其总实例(深红色)的总数进行定量。广泛保守的miRNA结合位点的总数以绿色表示,与这些位点对应的独特k-mer的数量以黄色表示。包含任何k-mer的基因的数量以灰色表示,包含至少一个对应于miRNA位点的k-mer的基因的数量以黑色表示。(D)顶部:在多个基因(灰色)中与人类不可比对的第一个序列中识别的独特k-mer的分布。在无脊椎动物物种的至少一个基因中检测到的k-mer的数量以黑色表示。底部:在无脊椎动物序列中检测到的至少50个基因所共有的独特k-mers。类似ARE的k-mers是红色的,类似PAS的k-mers是蓝色的,类似PRE的k-mers是绿色的。(E)在被分析的人类基因序列中,通过LncLOOM和TargetScan检测到的含有广泛保守的miRNA结合位点的基因的比较。(F)Lnc100M检测到的每条不可比对序列中广泛保守的miRNA结合的数量;每一数量的不可排列层(黑色)中检测到的具有miRNA位点的基因的百分比,以及对应于miRNA结合位点的独特k-mer的数量(黄色)。(G)顶部:在人类序列中由LncLOOM预测的广泛保守的miRNA结合位点。由TargetScan预测并由LncLOOM回收的位点以红色表示,新的位点以蓝色表示。底部:按物种数量对这些位点的保守。(H)通过TargetScan和LncLOOM比较在指定物种中检测到至少一个miRNA位点的基因比例。仅使用TargetScanHuman中发现的位点。(I)含有由LncLOOM检测到的miRNA位点的基因占不可比对序列数的百分比:(红色)miRNA位点,其先前由TargetScan在人类序列中预测并由LncLOOM在其他序列中回收,这些位点不是TargetScan所使用的MSA的一部分;(蓝色)在人类序列中,LncLOOM预测的新miRNA位点,但TargetScan以前没有预测到。
图6示出了libra lncRNA中的保守元件。示出了人类序列,并基于其保守性对至少5个物种中保守的基序进行了颜色编码。成对的垂直线代表内含子位置。与miRNA种子位点匹配的基序用基序上方的miRNA家族名称表示。人类和斑点雀鳝序列之间的BLASTN比对(E<0.001)的部分区域用下划线标出。图中所示的序列被标记为SEQ ID NO:71。
图7示出了Chaserr IncRNA基因座中第一个外显子周围的基因组装配中的间隙。对于每个物种,示出了RNA-seq读数覆盖范围,以及基因组装配中的间隙(来自UCSC浏览器)。
图8A-D示出了Chaserr IncRNA中保守元件的功能表征。(A)小鼠Chaserr的最后一个外显子的序列。高度保守的元件是共享的。在MS诱饵中突变的保守AUGG实例是蓝色的,而所有其它AUGG实例是绿色的。ASO靶向的区域已被标记。(B)对于指定的ASO处理,如图3C中所示。(C)对具有指定基因型的HEK293细胞中指定基因的表达进行RNA-seq定量,数据来自于(D)用非靶向shRNA(shNT)或靶向ZFR的shRNA处理的THP1细胞中所示基因表达的RNA-seq定量。来自8A所示序列的数据被标记为SEQ ID NO:72。
图9示出了DICER 3'UTR中保守元件的识别。示出了人类序列,并且基于其保守性对至少八个脊椎动物物种中保守的基序进行了颜色编码(9个物种-在文昌鱼中是保守的;10个物种-在文昌鱼和海胆中是保守的)。100个保留序列同一性的随机序列不包含任何这种长度的基序的基序区域用浅黄色阴影表示。在随机序列中未发现精确基序的基序区域用浅青色阴影表示。图中所示的序列被标记为SEQ ID NO:73。
图10A-F示出了在3'UTR中识别的Lnc100M基序的其他分析。(A)直向同源3'UTR序列的分布。左上部:在不同深度分析的基因频率。右上部:包含在3'UTR序列数据集中的非羊膜序列的各种组合的分布。右下部:在所示物种中分析的基因总数。(B)3'UTR数据集中每不可比对序列数保守的独特k-mer组合的分布。考虑了与人类、小鼠、狗和鸡的比对。(C)在羊膜动物之外识别并在多个基因之间共享的独特k-mer的分布。示出了含有UUU(红线)、AUAA(绿线)或与广泛保守的miRNA位点(黄线)匹配的k-mer的数量。(D)由LncLOOM在TargetScan未报道的任何预测的基因中检测到的广泛保守miRNA位点的保守性。(上图)每个物种中检测到的具有miRNA位点的基因数量(左)和不可比对序列的数量(右)。(左下)每个物种中检测到的具有miRNA位点的基因数量。(中间)每个物种检测到的新miRNA位点的数量。(右)每个不可比对序列中检测到的新miRNA位点的数量。(E)由TargetScan和LncLOOM检测到的每个物种中具有保守性的miRNA位点的比较。只比较了以前由TargetScanHuman识别的位点。(F)LncLOOM在与人类序列没有比对的序列中检测到miRNA位点的保守性。先前由TargetScan在人类序列中预测的位点被标为红色,新的LncLOOM预测被标为蓝色。
图11A-D示出了施加在Lnc100M图上的约束。(A)LncLOOM图中的场景的示例以及这些场景如何在ILP中表示。(B)相交边缘上的条件约束。如果所有交叉点都受到约束,则在后续迭代的细化过程中可能会发生复杂路径中重复k-mer的次优排除的示例。(C)用于定义相交边缘上的条件约束的流程图:仅当来自唯一路径的至少一个其他边缘与任一边缘相交时,一对相交边缘才受到约束。(D)展示交叉点上的条件约束如何可减轻串联重复的k-mer的次优排除的示例。图中所示的序列被标记为SEQ ID NO:74。
图12示出了LncLOOM图的划分和所选重复k-mer的迭代细化。从图中最深的层开始,通过迭代过程执行基序发现,其中每一步都搜索在越来越浅的深度保守的基序。这里示出的是基序发现的一个示例,从5层的图开始。该图被求解,然后使用在解中获得的简单路径(以绿色示出)将该图划分成子图,这些子图在下一次迭代中被单独求解,该迭代在该图的顶部4层上执行。每个简单路径被立即添加到最终的解中,而复杂路径(以蓝色和红色示出)在随后的基序发现迭代期间被细化。在这种情况下,在优化过程中删除的重复的k-mer用粉红色圈出。
图13A-B示出LncLOOM框架中的处理步骤。(A)5'和3'图的构建。LncLOOM使用初级ILP(其中考虑了每个序列的全长)中识别的第一个和最后一个基序的中值位置来预测和提取相对于图中的其它序列扩展的单个序列的5'和3'末端。然后对提取的5'和3'区域的子集进行LncLOOM基序发现。在该示例中,最小深度为3,因此忽略了仅在前2个序列中保守的AUUGCU(SEQ ID NO:15,蓝色)基序,而CAUCCA(SEQ ID NO:16,深红色和下划线)被认为是第一个节点。(B)基序邻域的说明。通过组合锚定序列中的所有重叠的k-mer来确定每个邻域的参考序列。然后,在该邻域内包括所有的k-mer,这些k-mer被保存到该图中的相应深度,并被连接到该参考序列内的一个重叠的k-mer。图中所示的序列被标记为SEQ ID NO:75-87。
图14是根据本公开的各种示例性实施方式的适于分析序列集合的方法的流程图。
图15是根据本公开的各种示例性实施方式的被配置用于分析序列集合的计算平台的示意图。
图16是所示的ASOs(SEQ ID No:128和134)转染后,相对于未转染的SH-SY5Y细胞、CHASERR、CHD2和p21(CDKN1A)的基因表达变化的图示。
图17是所示的ASOs(SEQ ID Nos:128和134)转染后,CHASERR和CHD2的基因表达相对于未转染的MCF7细胞和SH-SY5Y细胞的变化的图示。
具体实施方式
本公开在其一些实施方式中涉及用于治疗CHD2单倍体不足的组合物及其识别方法。
在详细解释本公开的至少一个实施方式之前,应当理解的是,本公开在其应用中不一定局限于在下面的描述中阐述的或者由实施例示出的细节。本公开能够有其他实施方式,或者能够以各种方式实践或执行。
CHD2单倍体不足与神经发育迟缓、智力障碍、癫痫和行为问题有关。先前的结果表明CHD2表达受到Chaserr的严格调控,Chaserr是一种位于Chd2上游的保守IncRNA。Chaserr的缺失导致Chd2 mRNA和蛋白质水平显著增加,进而导致基因表达的改变,包括通过抑制在高度表达基因下游发现的启动子的转录干扰。
在构思本公开的实施方式的同时,本发明人已经设计了一种新的算法,用于检测序列中的保守元件,该保守元件已经偏离超过可比对性和/或已经积累了大量谱系特异性序列,例如转座子(transposable element)。使用该算法,或其被称为“LncLOOM”的实施方式,本发明人已经鉴定并验证了Chaserr的保守区域,其可以优先突变/靶向,以特异性抑制Cheserr与功能相关的相互作用子的相互作用,并最终补偿CHD2单倍体不足。
因此,根据本公开的一个方面,提供了一种增加神经元细胞中染色质结构域解旋酶DNA结合蛋白2(CHD2)的量的方法,该方法包括向细胞中引入下调人类Chaserr活性或表达的核酸试剂,其中该核酸试剂针对人类Chaserr的最后一个外显子,从而增加神经元细胞中CHD2的量。
如本文所用,“下调人类Chaserr活性或表达的核酸试剂”是指抑制人类Chaserr的活性或减少人类Chaserr的量的核酸分子。
根据一些实施方式,“下调人类Chaserr活性的核酸试剂”包括以下中的任何一种或多种:增加CHD2表达(蛋白质和可选的mRNA)的核酸试剂、增加CHD2 mRNA稳定性的核酸试剂、诱导CHD2 mRNA表达的核酸试剂和诱导CHD2翻译的核酸试剂。
因此,根据本公开的一个方面,提供了一种下调人类Chaserr的活性的核酸试剂,其中所述核酸试剂包含在人类Chaserr的最后一个外显子杂交(即,与其中的核苷酸序列互补)的核酸序列。
本文所用,“染色质结构域解旋酶DNA结合蛋白2(CHD2)”是指在人类中由CHD2基因编码的酶。人类中CHD2剪接变体的示例包括NCBI参考序列:NM_001271.4和NM_001042572。
剪接变体蛋白产物如NCBI参考序列中所述:NP_001262.3或NP_001036037。
本文所用,“单倍体不足”是指二倍体生物中显性基因作用的模型,其中在与变异等位基因杂合组合的基因座中,标准(所谓的野生型)等位基因的单个拷贝不足以产生标准表型。通常,与两个等位基因都是野生型形式的健康状况相比,仅产生约一半量的蛋白质。
如本文所用,“增加…的量”是指将目标蛋白质或RNA的量增加统计学上显著的量,以及可用于治疗目标蛋白质或RNA的单倍体不足的量。在各种实施方式中,“增加”目标蛋白质或RNA的“量”包括增加至少10%,或者在一些实施方式中,增加至少约20%、至少20%、20%至150%、50%至150%,例如,增加至少50%、60%、70%、80%、90%、1.2倍、1.4倍、1.5倍或更多,例如,增加至少50%、60%、70%、80%、90%、1.2倍、1.4倍、1.5倍或更多,例如至少2倍。根据一个具体的实施方式,CHD2水平恢复到在相同类型(即,神经元)和发育阶段的正常细胞(无单倍体不足)中发现的量。
本文所用,“神经元细胞”是指在对象身体内(体内)或身体外发现的细胞,例如组织活检、细胞系和原代培养物。
还考虑了其它细胞,即非神经元细胞。
神经元细胞可以是遗传修饰的或非遗传修饰的,例如,天然的。
根据一个具体的实施方式,神经元细胞位于中枢神经系统中。
根据本公开的一些实施方式,鉴定其中CHD2的水平将被或已被修饰的细胞的方法是本领域熟知的。
细胞与试剂的接触可以通过任何体内或体外条件进行,包括例如将药剂添加至来自对象的细胞(例如,原代细胞培养物、细胞系)或包含其的生物样品(例如,包含细胞的流体、液体),使得试剂与细胞直接接触。根据本公开的一些实施方式,将对象的细胞与试剂一起温育。选择用于温育细胞的条件时间段/细胞浓度/试剂浓度/细胞和试剂之间的比例等,其使得药物能够诱导细胞变化,例如CHD2水平(量)的增加或相关变化,例如特定基因的转录和/或翻译速率、增殖速率、分化、细胞死亡、坏死、细胞凋亡等的变化。
可以在将试剂引入细胞之前、同时和/或之后,分析CHD2(mRNA和/或蛋白质)的水平。附加地或可替代地,分析基因组DNA中由试剂引入的修饰,如下文进一步所述,例如在基因组编辑的情况下。
通常通过使用具有核酸骨架(nucleic acid backbone)、DNA、RNA,其模拟物或其组合的核酸试剂来实现核酸水平(即,核酸丰度降低)的下调。核酸试剂可以由DNA分子编码或提供给细胞本身。
根据具体的实施方式,下调剂是多核苷酸。
应当理解,在本文中,预期核酸试剂本身由核酸构建体编码或作为药物组合物的一部分。
根据具体的实施方式,下调剂是能够与编码CHD2的基因或mRNA杂交的多核苷酸或寡核苷酸。
根据具体的实施方式,下调剂直接与CHD2基因或RNA转录产物相互作用。
根据具体的实施方式,试剂直接结合Chaserr的最后一个外显子内的核酸序列。
本文所用,“Chaserr”是指与抑制性调节RNA.HGNC:48626Entrez基因:100507217相邻的CHD2。
Chaserr的外显子组织如下:外显子1:核苷酸1…344;外显子2:核苷酸345…538;外显子3:核苷酸539…608;外显子4:核苷酸609…694;外显子5:核苷酸695…763;外显子6:核苷酸764…1787,其中Chaserr的最后一个外显子是指SEQ ID NO:3(NR_037601)的核苷酸764…1787。
根据一个具体的实施方式,核酸试剂与包含SEQ ID NO:1(AUG)的核酸序列元件杂交。
根据另一个实施方式,核酸试剂与包含SEQ ID NO:2(AUGG)的核酸序列元件杂交。
根据一个具体的实施方式,核酸试剂与包含AAGAUGG(SEQ ID NO:4)、AAGAUG(SEQID NO:5)或AAAUGGA(SEQ ID NO:6)的核酸序列元件杂交。
根据另一个实施方式,核酸试剂与包含SEQ ID NO:3(aauaaa)的核酸序列元件杂交。
根据一个具体的实施方式,核酸试剂抑制DHX36与Chaserr的结合。
本文所用,“DHX36”是指可能的ATP依赖性RNA解旋酶DHX36,也称为DEAH盒蛋白36(DHX36)或MLE样蛋白1(MLEL1)或G4解离酶1(G4R1)或与富含AU的元件(RHAU)相关的RNA解旋酶,是一种在人类中由DHX36基因编码的酶。
根据一个具体的实施方式,核酸试剂包含与UUUUUACCU(SEQ ID NO:122)互补的核苷酸序列。
根据一个具体的实施方式,核酸试剂抑制CHD2与Chaserr的结合。
根据具体的实施方式,下调剂是反义、RNA沉默试剂或基因组编辑试剂。
根据一个具体的实施方式,所述下调剂是反义的。
反义寡核苷酸(Antisense oligonucleotide)-反义寡核苷酸是一种单链寡核苷酸,旨在与靶RNA杂交,从而抑制其功能或水平。可以使用能够与Chaserr转录物(例如,包含SEQ ID NO:1、2、4或6)特异性杂交的反义寡核苷酸来实现Chaserr RNA的下调或抑制。优选地,反义寡核苷酸的杂交阻止了效应元件与Chaserr的结合,但却使Chaserr RNA保持完整。根据一个具体的实施方式,核酸试剂不募集RNaseH。
在一些实施方式中,反义寡核苷酸不募集RNaseH。例如,反义寡核苷酸可以基本上包含RNA核苷酸。在其它实施方式中,反义寡核苷酸募集RNaseH,并因此包含至少一段DNA核苷酸。例如,反义寡核苷酸可以是间隙聚体。
根据一个具体的实施方式,对应于在随后的实施例部分中以小鼠为示例的反义寡核苷酸(ASOs)的反义序列包括但不限于:靶向AAGATGGCAGTCTACTATGG(SEQ ID NO:12)的CCATAGTAGACTGCCATCTT(SEQ ID NO:7)和靶向CACAAATGGACAGTG的(SEQ ID NO:10)的ATCCACTGTCCATTTGTG(SEQ ID NO:9)。尽管为了方便起见,核苷酸序列在本文中以完整的DNA或RNA序列呈现,但应理解,反义寡核苷酸可构建为RNA或DNA核苷酸,或其混合物。也就是说,当寡核苷酸表示核苷酸胸腺嘧啶(T)时,应当理解,核苷酸可以被其RNA对应物(尿苷或U)替代,反之亦然。此外,应当理解,DNA和RNA核苷酸修饰,如本领域熟知的那些,可用于构建反义寡核苷酸。
根据一个具体的实施方式,核酸试剂包含与UUUUUACCU(SEQ ID NO:122)互补的核苷酸序列。如本文所用,术语“互补”是指规范(A/T、A/U和G/C)的碱基配对。
根据一个具体的实施方式,核酸试剂抑制CHD2与Chaserr的结合。
根据一个具体的实施方式,反义寡核苷酸具有SEQ ID NO:140-143(对应于A40、50、51、52)所示的核碱基序列。在其修饰形式中,其提供为SEQ ID Nos:128、131、132和133。
设计可用于有效抑制或减少Chaserr量的反义分子时,必须同时考虑对反义方法重要的两个方面。第一方面是将寡核苷酸递送到适当细胞核中,而第二方面是设计一种寡核苷酸,该寡核苷酸以抑制所需功能的方式特异性结合细胞内的指定RNA。
现有技术教导了许多递送策略,可用于将寡核苷酸有效地递送至多种细胞类型中[例如,参见等人,细胞与分子生物学快报(Cell Mol Biol Lett.)(2002)7(2):236-7;Gait,分子和细胞生命科学(Cell Mol Life Sci.)(2003)60(5):844-53;Martino等人,生物医学和生物技术(J Biomed Biotechnol.)(2009)2009:410260;Grijalvo等人,治疗术专利专家评论(Expert Opin Ther Pat.)(2014)24(7):801-19;Falzarano等人,核酸疗法(Nucleic Acid Ther.)(2014)24(1):87-100;Shilakari等人,国际生物医学研究(Biomed Res Int.)(2014)2014:526391;Prakash等人,核酸研究(NucleicAcids Res.)(2014)42(13):8796-807;和Asseline等人,基因医学杂志(J Gene Med.)(2014)16(7-8):157-65]。
此外,还可以利用基于热力学循环的算法来识别那些对其靶RNA具有最高预测结合亲和力的序列,所述热力学循环解释了靶RNA和寡核苷酸中结构改变的能量学[例如,参见Walton等人,生物技术与生物工程(Biotechnol Bioeng)65:1-9(1999)]。这样的算法已经成功地用于在细胞中实施反义方法。
此外,还公开了使用体外系统设计和预测特定寡核苷酸的效率的几种方[Matveeva等人,自然生物技术(Nature Biotechnology)16:1374-1375(1998)]。
例如,靶向Chaserr RNA的合适的反义寡核苷酸可以是下表3(并且被认为是说明书的组成部分)中列出的序列,或者是SEQ ID NO:140-143中列出的任何反义寡核苷酸,或者是SEQ ID NO:128、131、132或133中列出的修饰,对应于A40、50、51、52。
根据各种实施方式,反义寡核苷酸可包含完全RNA核苷酸。这种反义寡核苷酸不会募集RNaseH,因此,Chaserr不应通过其反义抑制而降解。在其它实施方式中,反义寡核苷酸包含DNA和RNA核苷酸的混合物(例如,gapmer),其能够募集RNaseH并降解Chaserr RNA。
在一些实施方式中,反义寡核苷酸包含一种或多种含有2'至4'桥的核苷酸,例如锁核苷酸(LNA)或受限乙基(cET),以及本文所述的其它桥接核苷酸。
在一些实施方式中,反义寡核苷酸包含一种或多种(或在一些实施方式中包含全部)具有2'-O修饰(例如2'-OMe或2'-O-甲氧基乙基(2'-O-MOE))的核苷酸。
在一些实施方式中,反义寡核苷酸包含修饰的骨架,例如硫代磷酸酯或二硫代磷酸酯。在其它实施方式中,反义寡核苷酸包含吗啉代骨架。
在一些实施方式中,反义寡核苷酸包含一种或多种具有修饰碱基(例如,5-甲基胞嘧啶)的核苷酸。
可以使用的其它核苷酸修饰在本文别处描述。
或者,CHD2的下调可通过RNA沉默来实现,如本文所用,短语“RNA沉默”是指由RNA分子介导的一组调节机制[例如RNA干扰(RNAi)、转录基因沉默(TGS)、转录后基因沉默(PTGS)、基因压制(quelling)和共抑制],其导致RNA活性或可用性的抑制或“沉默”。已经在许多类型的生物体,包括植物、动物和真菌中观察到RNA沉默。
如本文所用,术语“RNA沉默试剂”是指能够特异性抑制或“沉默”靶基因的表达的RNA。在某些实施方式中,RNA沉默试剂能够通过转录后沉默机制防止mRNA分子的完全加工(例如,完全翻译和/或表达)。RNA沉默试剂包括非编码RNA分子,例如包含成对链的RNA双链体,以及可以产生这种小的非编码RNA的前体RNA。示例性的RNA沉默试剂包括dsRNA,如siRNAs、miRNAs和shRNAs。
在一个实施方式中,RNA沉默试剂能够诱导RNA干扰。
根据本公开的一个实施方式,RNA沉默试剂对靶RNA是特异性的,事实上对包括Chaserr(如上文所述,具有以下元件:例如,SEQ ID NO:1、2、4或6)的最后一个外显子的核酸区域是特异性的,并且不交叉抑制或沉默与靶基因表现出99%或更低总体同源性的其它靶(或同一靶中的其它外显子),例如,与靶基因的总体同源性低于:98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%;通过PCR、蛋白质印迹、免疫组织化学和/或流式细胞术测定。
RNA干扰是指由短干扰RNA(siRNAs)介导的动物体内序列特异性转录后基因沉默的过程。
以下是根据本公开的具体实施方式可以使用的RNA沉默试剂的详细描述。
DsRNA、siRNA和shRNA-细胞中长dsRNA的存在刺激了被称为dicer的核糖核酸酶III酶的活性。Dicer参与将dsRNA加工成被称为短干扰RNA(siRNA)的短dsRNA片段。来源于dicer活性的短干扰RNA的长度通常为约21至约23个核苷酸,并包含约19个碱基对的双链体。RNAi反应(RNAi response)也以核酸内切酶复合物为特征,通常称为RNA诱导的沉默复合物(RISC),其介导具有与siRNA双链体的反义链互补的序列的单链RNA的切割。靶RNA的切割发生在与siRNA双链体的反义链互补的区域的中间。
因此,本公开的一些实施方式考虑使用dsRNA来下调mRNA的蛋白质表达。
根据一个实施方式,使用长于30bp的dsRNA。各种研究表明,长dsRNA可用于沉默基因表达,而不诱导应激反应或引起明显的脱靶效应-例如,参见[Strat等人,核酸研究(Nucleic Acids Research),2006年,第34卷,No.13 3803-3810;Bhargava A等人,脑研究草案(Brain Res.Protoc.)2004;13:115-125;Diallo M.等人,寡核苷酸(Oligonucleotides)2003;13:381-392;Paddison P.J.等人,美国国家科学院院刊(Proc.Natl Acad.Sci.USA.)2002;99:1443-1448;Tran N.等人,欧洲生化学会联合会快报(FEBS Lett.)2004;573:127-134]。
根据本公开的一些实施方式,在干扰素途径未被激活的细胞中提供dsRNA,例如,参见Billy等人,美国科学院院报(PNAS)2001年,第98卷,第14428-14433页,和Diallo等人,寡核苷酸(Oligonucleotides),2003年10月1日,13(5):381-392,doi:10.1089/154545703322617069。
根据本公开的一个实施方式,长dsRNA被特别设计成不诱导干扰素和PKR途径来下调基因表达。例如,Shinagwa和Ishii[基因与发育(Genes&Dev.),17(11):1340-1345,2003]已经开发了一种载体,称为pDECAP,用于表达来自RNA聚合酶II(Pol II)启动子的长双链RNA。因为来自pDECAP的转录物缺乏促进ds-RNA输出到细胞质的5'-帽状结构(5'-capstructure)和3'-多(A)尾(3'-poly(A)tail),所以来自pDECAP的长ds-RNA不诱导干扰素反应。
在哺乳动物系统中规避干扰素和PKR途径的另一种方法是通过转染或内源表达引入小的抑制性RNAs(siRNAs)。
术语“siRNA”是指诱导RNA干扰(RNAi)途径的小的抑制性RNA双链体(通常在18至30个碱基对之间)。通常,siRNAs化学合成为21单体单元(mer),具有中心19bp的双链体区域和末端对称的2-碱基3’-突出端(2-base 3'-overhangs),尽管最近有报道称化学合成的25至30碱基长度的RNA双链体与相同位置的21mers相比,其效力增加了100倍。使用更长的RNAs在触发RNAi中获得的观察到的增加的效力被认为是由于向Dicer提供底物(27mer)而不是产物(21mer),这提高了siRNA双链体进入RISC的速率或效率。
已经发现,3'-突出端的位置影响siRNA的效力,并且在反义链上具有3'-突出端的不对称双链体通常比在正义链上具有3'-突出端的不对称双链体更有效(Rose等人,2005)。这可以归因于不对称的链加载到RISC中,因为当靶向反义转录物时观察到相反的功效模式。
双链干扰RNA(例如siRNA)的链可以连接,以形成发夹或茎环结构(例如shRNA)。因此,如上所述,本公开一些实施方式的RNA沉默试剂也可以是短发夹RNA(shRNA)。
本文所用的术语“shRNA”是指具有茎环结构的RNA试剂,其包含互补序列的第一区域和第二区域,这些区域的互补程度和方向足以使区域之间发生碱基配对,第一区域和第二区域通过环区域连接,该环由环区域内的核苷酸(或核苷酸类似物)之间缺乏碱基配对而产生的。环中的核苷酸数目是3至23、或5至15、或7至13、或4至9、或9至11之间,并且包括端点的数目。环中的一些核苷酸可参与与环中其它核苷酸的碱基对相互作用。可用于形成环的寡核苷酸序列的示例包括在国际专利申请WO2013126963和WO2014107763中。本领域技术人员将认识到,所得的单链寡核苷酸形成包含能够与RNAi机制相互作用的双链区的茎环或发夹结构。
适用于本公开一些实施方式的RNA沉默试剂的合成可以如下进行。首先,扫描Chaserr mRNA序列的AA二核苷酸序列。每个AA和3'相邻的19个核苷酸的出现被记录为潜在的siRNA靶位点。
其次,使用任何序列比对软件,例如可从NCBI服务器(www.ncbi.nlm.nih.gov/BLAST/)获得的BLAST软件,将潜在的靶位点与适当的基因组数据库(例如,人类、小鼠、大鼠等)进行比较。
选择合格的靶序列作为siRNA合成的模板。优选的序列是包含低G/C含量的序列,因为与G/C含量高于55%的那些序列相比,这些序列已被证明在介导基因沉默方面更有效。优选沿着靶基因的长度选择几个靶位点进行评估。为了更好地评估所选择的siRNA,优选结合使用阴性对照。阴性对照siRNA优选包括与siRNA相同的核苷酸组成,但缺乏与基因组的显著同源性。因此,优选使用siRNA的乱序核苷酸序列(scrambled nucleotide sequence),只要它不显示与任何其它基因的任何显著同源性。
应当理解,如上所述,本公开一些实施方式的RNA沉默试剂不必局限于仅含有RNA的那些分子,还包括化学修饰的核苷酸和非核苷酸。
miRNA和miRNA模拟物(mimics)-根据另一个实施方式,RNA沉默试剂可以是miRNA。
术语“微小RNA(microRNA)”、“miRNA”和“miR”是同义的,是指长度约19至28个核苷酸的非编码单链RNA分子的集合,其调节基因表达。miRNA存在于多种生物体(viruses.fwdarw.humans)中,并被证明在发育、体内平衡和疾病病因学中起作用。
miRNAs模拟物的制备可以通过本领域已知的任何方法进行,例如化学合成或重组方法。
从上文提供的描述中可以理解,细胞与miRNA的接触可以通过用例如成熟双链miRNA、前miRNA或原始miRNA转染细胞来实现。
本文还考虑核酸序列修饰以提高生物利用度、亲和力、稳定性或其组合。
根据一个实施方式,核酸试剂包括至少一个碱基(例如核碱基)修饰或取代。
本文所用,“未修饰的”或“天然的”碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G),以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。“修饰的”碱基包括但不限于其他合成和天然碱基,例如:5-甲基胞嘧啶(5-me-C);5-羟基甲基胞嘧啶;黄嘌呤;次黄嘌呤;2-氨基腺嘌呤;腺嘌呤和鸟嘌呤的6-甲基和其它烷基衍生物;腺嘌呤和鸟嘌呤的2-丙基和其它烷基衍生物;2-硫尿嘧啶、2-硫代胸腺嘧啶(2-thiothymine)和2-硫代胞嘧啶;5-氟脲嘧啶(5-halouracil)和胞嘧啶;5-丙炔基尿嘧啶和胞嘧啶;6-偶氮尿嘧啶、胞嘧啶和胸腺嘧啶;5-尿嘧啶(假尿嘧啶);4-硫尿嘧啶;8-卤素、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其它8-取代的腺嘌呤和鸟嘌呤;5-卤素,特别是5-溴、5-三氟甲基,和其它5-取代的尿嘧啶和胞嘧啶;7-甲基鸟嘌呤和7-甲基腺嘌呤;8-氮杂鸟嘌呤和8-氮杂腺嘌呤;7-脱氮鸟嘌呤和7-脱氮腺嘌呤;以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。其他修饰的碱基包括公开于以下文献中的碱基:美国专利US3,687,808;Kroschwitz,J.I.编辑(1990),“聚合物科学与工程简明百科全书(Theconcise encyclopedia of polymer science and engineering)”,第858-859页,约翰·威利父子出版公司(John Wiley&Sons);Englisch等人(1991),“德国应用化学(AngewandteChemie)”,国际版,30,613;以及Sanghvi,Y.S.,“反义研究和应用(Antisense Researchand Applications)”,第15章,第289-302页,S.T.Crooke和B.Lebleu编辑,CRC出版社,1993。这种修饰的碱对于提高本公开的低聚化合物的结合亲和力是特别有用的。这些包括5-取代的嘧啶、6-氮杂嘧啶,和N-2、N-6,及O-6-取代的嘌呤,包括2-氨基丙腺嘌呤、5-丙炔基尿嘧啶,和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已被证明可将核酸双链体稳定性提高0.6℃至1.2℃(Sanghvi,Y.S.等人(1993)“Antisense Research and Applications”,第276-278页,CRC出版社,波卡雷顿),并且是目前优选的碱基取代,尤其时与2'-O-甲氧基乙基糖修饰结合时。其他的碱基修饰描述于Deleavey和Damha,化学与生物学(Chemistry andBiology)(2012)19:937-954,其通过引用并入本文。
根据一个实施方式,修饰在主链中(即在核苷酸连接键和/或糖部分中)。
本领域已经广泛描述了核酸分子的糖修饰(参见PCT国际公开申请WO92/07065、WO93/15187、WO98/13526和WO97/26270;美国专利US5,334,711;US5,716,824;和US5,627,053;Perrault等人,1990;Pieken等人,1991;Usman&Cedergren,1992;Beigelman等人,1995;Karpeisky等人,1998;Earnshaw&Gait,1998;Verma&Eckstein,1998;Burlina等人,1997;其全部内容通过引用并入本文)。这些出版物描述了在不调节催化的情况下确定糖、碱基和/或磷酸修饰等掺入核酸分子的位置的一般方法和策略。示例性糖修饰包括但不限于2'-修饰的核苷酸,例如2'-脱氧、2'-氟(2'-F)、2'-脱氧-2’-氟、2'-O-甲基(2'-O-Me)、2'-O-甲氧基乙基(2'-O-MOE)、2'-O-氨基丙基(2'-O-AP)。2'-O-二甲基氨基乙基(2'-O-DMAOE)、2'-O-二甲基氨基丙基(2'-O-DMAP)、2'-O-二甲基氨基乙基氧基乙基(2'-O-DMAEOE)、2'-氟阿拉伯寡核苷酸(2'-Fluoroarabinooligonucleotides)(2'-F-ANA)、2'-O-N-甲基乙酰氨基(2'-O-NMA)、2'-NH2或锁核酸(LNA)。其他的糖修饰描述于Deleavey和Damha,化学与生物学(Chemistry and Biology)(2012)19:937-954,其通过引用并入本文。
因此,例如,可以通过用核酸酶抗性基团(例如,本公开的核酸试剂可以包括2'-O-甲基、2'-氟、2'-O-甲氧基乙基、2'-O-氨基丙基、2'-氨基和/或硫代磷酸酯连接键)修饰来修饰寡核苷酸,以增强其稳定性和/或增强生物活性。包含锁核酸(LNA),例如包含其中核糖环被连接2'-O原子和4'-C原子的亚甲基桥“锁定”的核酸类似物;乙烯基核酸(ENA),例如2'-4'-乙烯基-桥接的核酸;以及某些核碱基修饰,例如2-氨基-A、2-硫代(例如,2-硫代-U)、G-夹修饰(G-clamp modifications),也可以增加对靶的结合亲和力。在寡核苷酸骨架中包含吡喃糖也可以减少核酸内切切割。结合臂可以进一步包括肽核酸(PNA),其中DNA中的脱氧核糖(或核糖)磷酸主链被聚酰胺主链取代,或者可以包括聚合物主链、环状主链或非环状主链。结合区可以掺入糖模拟物,并且可以另外包括保护基团,特别是在其末端,以防止不希望的降解(如下所述)。
示例性核苷酸间连接修饰包括但不限于:硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基膦酸酯、烷基膦酸酯(包括3'-亚烷基膦酸酯)、手性膦酸酯、次膦酸酯、氨基磷酸酯(包括3'-氨基磷酸酯)、氨基烷基氨基磷酸酯、硫羰氨基磷酸酯(thionophosphoramidate)、硫羰基氨基磷酸酯(thionoalkylphosphonate)、硫羰基烷基磷酸三酯(thionoalkylphosphotriester)、硼烷磷酸酯(boranophosphate)(例如具有正3'-5'连接键,它们的2'-5'连接的类似物,以及具有相反极性的那些,其中相邻的核苷单元对连接3'-5'至5'-3'或2'-5'至5'-2')、硼膦酸硼、磷酸二酯、膦酰基乙酸酯(PACE)、吗啉代、酰胺基氨基甲酸酯、羧甲基、乙酰胺基、聚酰胺、磺酸酯、磺酰胺、氨基磺酸酯、甲缩醛、硫代甲缩醛、烷基甲硅烷基、取代、肽核酸(PNA)和/或苏糖核酸(TNA)。也可以使用上述修饰的各种盐、混合盐和游离酸形式。其他核苷酸间连接修饰描述于Deleavey和Damha,化学与生物学(Chemistry and Biology)(2012)19:937-954;Hunziker&Leumann,1995;和DeMesmaeker等人,1994;其通过引用并入本文。
根据一个具体的实施方式,修饰包括修饰的三磷酸核苷(dNTPs)。
根据一个实施方式,修饰包括边缘封闭剂寡核苷酸(edge-blockeroligonucleotide)。
根据一个具体的实施方式,边缘封闭剂寡核苷酸包括磷酸酯、反向dT和氨基-C7。
根据一个实施方式,核酸试剂被修饰以包含一个或多个保护基团,例如5'和/或3'-帽状结构。
如本文所用,短语“帽状结构”是指已经在寡核苷酸的任一端掺入的化学修饰(例如,参见,美国专利US5,998,203,通过引用并入本文)。这些末端修饰保护核酸分子免遭外切核酸酶降解,并有助于细胞内的递送和/或定位。帽状修饰可以存在于5'-末端(5'-帽)或3'-末端(3'-帽),或者可以存在于两个末端。在非限制性示例中:5'-帽选自包含反向脱碱基残基(部分)的组;4',5'-亚甲基核苷酸(4',5'-methylene nucleotide);1-(β-D-赤呋喃糖基)核苷酸、4'-硫代核苷酸;碳环核苷酸;1,5-脱水己糖醇核苷酸;L-核苷酸;α-核苷酸;修饰的碱基核苷酸;二硫代磷酸酯键;苏-呋喃戊糖基核苷酸(threo-pentofuranosylnucleotide);无环3',4'-仲核苷酸(acyclic 3',4'-seco nucleotide);无环3,4-二羟基丁基核苷酸;无环3,5-二羟基戊基核苷酸、3'-3'-反向核苷酸部分;3'-3'-反向无碱基部分;3'-2'-反向核苷酸部分;3'-2'-反向无碱基部分;1,4-丁二醇磷酸酯;3'-氨基磷酸酯;磷酸己酯;磷酸氨基己酯;3'-磷酸酯;3'-硫代磷酸酯;二硫代磷酸酯;或桥接或非桥接的甲基膦酸酯部分。
在一些实施方式中,3'-帽选自包含反向脱氧核苷酸的组,例如反向脱氧胸苷、4',5'-亚甲基核苷酸;1-(β-D-赤呋喃糖基)核苷酸;4'-硫代核苷酸;碳环核苷酸;5'-氨基-烷基磷酸酯;1,3-二氨基-2-丙基磷酸酯;3-氨基丙基磷酸酯;6-氨基己基磷酸酯;1,2-氨基十二烷基磷酸酯;羟丙基磷酸酯(hydroxypropyl phosphate);1,5-脱水己糖醇核苷酸;L-核苷酸;α-核苷酸;修饰的碱基核苷酸;二硫代磷酸酯;苏-呋喃戊糖基核苷酸;无环3',4'-仲核苷酸;3,4-二羟基丁基核苷酸;3,5-二羟基戊基核苷酸、5'-5'-反向核苷酸部分;5'-5'-反向无碱基部分;5'-氨基磷酸酯;5'-硫代磷酸酯;1,4-丁二醇磷酸酯;5'-氨基;桥接和/或非桥接的5'-氨基磷酸酯、硫代磷酸酯和/或二硫代磷酸酯,桥接或非桥接的甲基膦酸酯和5'-巯基部分(一般参见Beaucage&Iyer,1993;通过引用并入本文)。
通过包括3'阳离子基团,或通过用3'-3'键反转末端的核苷来进一步修饰核酸试剂。在另一个替代方案中,3'-末端可以用氨基烷基(例如3'C5-氨基烷基dT)封闭。其它3'缀合物可抑制3'-5'核酸外切切割(3'-5'exonucleolytic cleavage)。虽然不受理论的束缚,但3'缀合物,例如萘普生或布洛芬,可以通过空间阻断核酸外切酶与寡核苷酸的3'末端的结合来抑制核酸外切切割。即使是小的烷基链、芳基或杂环缀合物或修饰的糖(D-核糖、脱氧核糖、葡萄糖等)也可以阻断3'-5'-核酸外切酶。
根据一个实施方式,5'-末端可以用氨基烷基基团(例如5'-O-烷基氨基取代基)封闭。其它5'缀合物可抑制5'-3'核酸外切切割。虽然不受理论的束缚,5'缀合物,例如萘普生或布洛芬,可以通过空间阻断核酸外切酶与寡核苷酸的5'末端的结合来抑制核酸外切切割。即使是小的烷基链、芳基或杂环缀合物或修饰的糖(D-核糖、脱氧核糖、葡萄糖等)也可以阻断3'-5'-核酸外切酶。
根据一个具体的实施方式,修饰包括包含锁核酸(LNA)或其他桥接的核苷酸,例如cET,和/或2'-O-(2-甲氧基乙基)(缩写为2'MOE)或2'-OMe修饰,由此至少部分或全部序列在每个核苷酸的2'位被修饰。示例包括但不限于A40、A50、A51、A35、A49和A52。
本文还考虑了间隙聚体(参见下文的实施例部分,参见表5)。间隙聚体是一种嵌合反义寡核苷酸,它含有一个长度足以诱导RNase H切割的脱氧核苷酸单体的中心块。
核酸试剂(以及如上所述的其修饰)也可以在DNA水平上起作用,如下所述。
通过在基因结构中引入涉及功能丧失改变的靶向突变(例如点突变、缺失和插入),使基因(例如Chaserr)失活,也可以实现Chaserr的下调。
如本文所用,短语“功能丧失改变(loss-of-function alterations)”是指基因的DNA序列中(例如,在Chaserr的最后一个外显子中)的任何突变,其导致所表达的IncRNA产物的表达水平和/或活性的下调。这种功能丧失改变的非限制性示例包括,即,启动子序列中的突变,通常是基因的转录起始位点的5',其导致特定基因产物的下调;调节突变,即,在基因上游或下游区域中或基因内的突变,其影响基因产物的表达;缺失突变,即,缺失基因序列中任何核酸的突变;插入突变,即,将核酸插入基因序列中的突变,并且其可导致转录终止序列的插入;倒位(inversion),即,产生倒转序列的突变;剪接突变,即导致异常剪接或不良剪接的突变;以及重复突变,即导致重复序列的突变,其可以是框内(in-frame)的或可以引起移码。
根据具体的实施方式,基因的功能丧失改变可以包括基因的至少一个等位基因。
本文所用,术语“等位基因(allele)”是指基因座的一种或多种替代形式中的任何一种,所有这些等位基因都与性状或特征相关。在二倍体细胞或生物体中,给定基因的两个等位基因占据一对同源染色体上的相应基因座。
根据其它具体实施方式,基因的功能丧失改变包括基因的两个等位基因。在这种情况下,Chaserr的最后一个外显子中的突变可以是纯合形式(homozygous form)或杂合形式。
将核酸改变引入目标基因的方法是本领域熟知的[例如,参见:Menke D.创世纪(Genesis)(2013)51:-618;Capecchi,科学(Science)(1989)244:1288-1292;Santiago等人,美国国家科学院院刊(Proc Natl Acad Sci USA)(2008)105:5809-5814;国际专利申请WO2014085593、WO2009071334和WO2011146121;美国专利US8771945、US8586526、US6774279和以上专利申请公开US20030232410、US 20050026157、US20060014264,并且包括通过工程核酸酶进行的靶向同源重组、位点特异性重组酶、PB转座酶和基因组编辑。用于向目标基因引入核酸改变的试剂可以设计为可公开获得的来源或从Transposagen公司、Addgene公司和Sangamo Biosciences公司商购获得。
示例包括基因组编辑试剂,例如CRISPR-Cas、归巢核酸内切酶(Meganucleases)、锌指核酸酶(ZFNs)、转录激活因子样效应物核酸酶(TALENs)、转座子(transposons)的使用等。
使用重组腺伴随病毒(rAAV)平台的基因组编辑-该基因组编辑平台是基于rAAV载体,其能够在活的哺乳动物细胞的基因组中插入、缺失或替换DNA序列。rAAV基因组是单链脱氧核糖核酸(ssDNA)分子,是正义的或反义的,长约4.7kb。这些单链DNA病毒载体具有高转导率,并且在基因组中没有双链DNA断裂的情况下具有刺激内源同源重组的独特性质。本领域技术人员可以设计rAAV载体以靶向期望的基因组基因座,并且在细胞中进行粗略和/或细微的内源基因改变。rAAV基因组编辑的优点在于其靶向单个等位基因,并且不会导致任何脱靶基因组改变。rAAV基因组编辑技术是商业上可获得的,例如,来自HorizonTM(英国剑桥)的rAAV GENESISTM系统。
用于鉴定功效和检测序列改变的方法是本领域熟知的,包括但不限于:DNA测序;电泳;基于酶的错配检测分析和杂交分析,例如PCR、RT-PCR、核糖核酸酶保护、原位杂交、引物延伸、Southern印迹(Southern blot)Northern印迹(Northern Blot)和斑点印迹分析。
特定基因中的序列改变也可以在蛋白质水平上确定,使用例如色谱法、电泳法、免疫检测分析(例如ELISA和蛋白质印迹分析),以及免疫组织化学。
此外,本领域普通技术人员可以容易地设计一种包括阳性和/或阴性选择标记的敲入/敲除构建体,用于有效地选择与构建体经历同源重组事件的转化细胞。阳性选择提供了一种富集已摄取外源DNA的克隆群体的方法。这种阳性标记的非限制性示例包括谷氨酰胺合成酶;二氢叶酸还原酶(DHFR);赋予抗生素抗性的标记,如新霉素、潮霉素、嘌呤霉素和杀稻瘟菌素S抗性盒。阴性选择标记对于针对随机整合和/或消除标记序列(例如阳性标记)是必需的。这种阴性标记的非限制性示例包括单纯疱疹-胸苷激酶(HSV-TK),其将更昔洛韦(GCV)转化为细胞毒性核苷类似物;次黄嘌呤磷酸核糖基转移酶(HPRT)和腺嘌呤磷酸核糖基转移酶(ARPT)。
根据一个实施方式,本技术涉及使用瞬时DNA或无DNA方法(如RNA转染)引入RNA沉默分子。
根据一个实施方式,RNA沉默分子(例如反义分子)作为“裸”寡核苷酸递送,即没有另外的递送载体。根据一个实施方式,“裸”寡核苷酸包含化学修饰以促进其组织递送(例如,利用反向核苷酸、硫代磷酸酯连接键或锁核酸的整合,如上所述)。
根据本公开的教导,可以使用本领域已知的用于RNA或DNA转染的任何方法,例如但不限于:显微注射、电穿孔、脂质介导的转染,例如使用脂质体或使用阳离子分子或纳米材料(如下讨论,并在如下文献中进一步讨论:Roberts等人,自然评论药物发现(NatureReviews Drug Discovery)(2020)19:673-694,通过引用并入本文)。
根据一个实施方式,如上所述,在RNA沉默分子(例如反义)不包含化学修饰的情况下,可以将其作为表达构建体的一部分施用于靶细胞(例如衰老细胞)。在这种情况下,RNA沉默分子(例如反义分子),在能够以组成型或诱导型方式指导RNA沉默分子(例如反义)在靶细胞(例如神经元细胞)中表达的顺式作用调节元件(例如启动子)的控制下,连接在核酸构建体(本文也称为“表达载体”)中。
本公开的表达构建体还可以包括另外的序列,该序列使其适于在真核生物(例如穿梭载体)中复制和整合。典型的克隆载体含有转录和翻译起始序列(例如,启动子、增强子),以及转录和翻译终止子(例如,聚腺苷酸化信号)。本公开的表达构建体还可以包括增强子,其可以与启动子序列相邻或远离,并且可发挥上调其转录的作用。还可以将聚腺苷酸化序列加入到本公开的表达构建体中,以提高表达效率。
除了已经描述的实施方式之外,本公开的表达构建体通常可以含有旨在增加克隆的核酸的表达水平或有助于识别携带RNA沉默分子(例如反义)的细胞的其它特定元件。本公开的表达构建体可以包括或不包括真核复制子。
可以使用适当的基因递送载体/方法(转染、转导等)和适当的表达系统将核酸构建体引入本公开的靶细胞(例如神经元细胞)中。这种方法一般描述于以下文献中:Sambrook等人,分子克隆:实验室手册(Molecular Cloning:A laboratory Manual),纽约,(1989,1992);Ausubel等人,分子生物学实验(Current Protocols in MolecularBiology),约翰威立国际出版公司(John Wiley and Sons,Baltimore,Md.),巴尔的摩,马里兰州(1989);Chang等人,体细胞基因治疗(Somatic Gene Therapy),CRC出版社,密歇根州安娜堡市(1995);Vega等人,基因打靶(Gene Targeting),CRC出版社,密歇根州安娜堡市(1995);载体:分子克隆载体及其用途的综述,巴特沃斯,波士顿马萨诸塞州(1988);以及Gilboa等人,[生物技术(Biotechniques)4(6):504-512,1986];并包括,例如,稳定或瞬时转染、脂转染、电穿孔和用重组病毒载体感染。此外,用于阳性-阴性选择方法参见美国专利US5,464,764和US5,487,992。
附加地或可替代地,基于脂质的系统可用于将由此编码的构建体或核酸试剂递送到本公开的靶细胞(例如衰老细胞或癌细胞)中。脂质基系统包括例如脂质体、脂质复合物和脂质纳米颗粒(LNPS)。在一些实施方式中,反义寡核苷酸或siRNA包含缀合的脂质或胆固醇基部分。
神经元特异性启动子可用于提高该方法的特异性。神经元特异性启动子的示例包括但不限于突触蛋白。突触蛋白被认为是一种神经元特异性蛋白(DeGennaro等人,1983,冷泉港实验室出版社,Symp.Quant.Biol.337-345),因此可以利用其神经元特异性表达模式以神经元特异性方式表达转基因。最小的人类突触蛋白启动子已用于腺病毒和AAV载体中进行局部注射(Kugler等人,2003,人类突触蛋白1基因启动子在成年大鼠大脑内的腺病毒载体上根据转导区域赋予高度神经元特异性的长期转基因表达,基因治疗(Gene Ther.)10,337-347)。外周给药后可到达中枢神经系统(CNS)的AAV衣壳,例如AAV9或其它天然AAV血清型对于产生大范围表达的相对非侵入性给药是有利的。现在有几种经过改造的衣壳可以提高神经元转导效率。据报道,具有E/SYN启动子的慢病毒在神经元中表现出强的持续表达(Hioki等人,基因治疗(Gene Therapy)第14卷,第872-882页(2007))。
本公开教导可用于临床治疗与CHD2单倍体不足相关的相关疾病、综合征、病症和医学病症。
因此,根据本公开的一个方面,提供了一种在有需要的对象中治疗与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足有关的疾病或医学病症的方法,所述方法包括向所述对象施用治疗有效量的下调人类Chaserr的活性或表达的核酸试剂,其中所述核酸试剂针对人类Chaserr的最后一个外显子,从而治疗与CHD2单倍体不足相关的疾病或医学病症。
根据可选或另外的一个方面,提供了一种用于在有需要的对象中治疗与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足有关的疾病或医学病症的下调人类Chaserr的活性或表达的核酸试剂,其中所述核酸试剂针对人Chaserr的最后一个外显子。
如本文所用,“与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足有关的疾病或医学病症”是指以CHD2的表达(蛋白质和可选的mRNA)降低为特征或与CHD2的表达(蛋白质和可选的mRNA)降低有关的发病或进展的致病性病症。
根据一个具体的实施方式,与CHD2单倍体不足相关的疾病或医学病症是指CHD2相关的神经发育障碍,其典型特征为早发性癫痫脑病(即,与频繁进行的癫痫样活动相关的难治性癫痫发作和认知减缓或退化)。癫痫发作通常在六个月至四岁之间。癫痫发作类型通常包括跌倒发作、肌阵挛发作,以及与脑电图(EEG)上的泛发性棘波相关的多种癫痫发作类型的快速发作、失张力-肌阵挛-失神发作(atonic-myoclonic-absence seizures)和临床光敏性。智力障碍和/或自闭症谱系障碍很常见。
根据一个具体的实施方式,所述医学病症选自伦诺克斯-加斯托综合征、肌阵挛失神癫痫(Myoclonic absence epilepsy,MAE)、Dravet综合征、癫痫伴智力障碍(Intellectual disability with epilepsy)、自闭症谱系障碍(ASD)。
CHD2相关神经发育障碍的诊断是在一个先证者(proband)中确定的,该先证者具有杂合CHD2单核苷酸致病性变异体、小插入/缺失(indel(insertion/deletion))致病性变异体,或在分子遗传检测中检测到的部分或全部基因缺失。
CHD2基因的变异可能是种系突变或从头体细胞突变的结果。
术语“治疗”是指抑制、预防或阻止病理(疾病、病症或病状)的发展和/或引起病理的减轻、缓解或消退。本领域技术人员将理解,可以使用各种方法和测定来评估病理学发展,并且类似地,可以使用各种方法和测定来评估病理的减轻、缓解或消退。
如本文所用,术语“预防”是指防止疾病、病症或病状在可能处于患病风险但尚未被诊断患有该疾病的对象中发生。
如本文所用,术语“对象”包括哺乳动物,优选患有病理的任何年龄的人类。优选地,该术语涵盖有发生该病理的风险的个体。可以理解,哺乳动物也可以是胚胎或胎儿。或者,对象可以是儿童或至多15或18岁的青少年。
对于体内治疗,核酸试剂本身或作为药物组合物的一部分施用于对象。
本文所用的“药物组合物”是指是指本文所述的一种或多种活性成分与其它化学成分如生理学上合适的载体和赋形剂的制剂。药物组合物的目的是促进化合物对生物体的给药。
本文中,术语“活性成分”是指负责生物效应的核酸试剂。
下文中,短语“生理学上可接受的载体”和“药学上可接受的载体”可互换使用,是指不会对生物体造成显著刺激并且不会消除所施用化合物的生物活性和性质的载体或稀释剂。佐剂包括在这些短语中。
本文中,术语“赋形剂”是指加入到药物组合物中以进一步促进化合物的施用的惰性物质。赋形剂的示例包括但不限于碳酸钙、磷酸钙、各种糖和各种类型的淀粉、纤维素衍生物、明胶、植物油和聚合物如聚乙二醇。
可以在以下文献中找到药物的配制和给药技术:“雷明登氏药学全书(Remington's Pharmaceutical Sciences)”,麦克出版公司(Mack Publishing Co.),宾夕法尼亚州伊斯顿,最新版,其通过引用并入本文。
合适的给药途径可例如包括全身、口服、直肠、经粘膜,特别是经鼻、肠或肠胃外递送,包括肌内、皮下和髓内注射以及鞘内、直接心室内、心内,例如进入右心室或左心室腔、进入普通冠状动脉、静脉内、腹膜内、鼻内、肿瘤内或眼内注射。
根据一个具体的实施方式,组合物用于吸入给药模式。
根据一个具体的实施方式,组合物用于鼻内给药。
根据一个具体的实施方式,该组合物用于脑室内给药。
根据一个具体的实施方式,组合物用于鞘内给药。
根据一个具体的实施方式,组合物用于瘤内给药。
根据一个具体的实施方式,组合物用于口服给药。
根据一个具体的实施方式,组合物用于局部注射。
根据一个具体的实施方式,组合物用于全身给药。
根据一个具体的实施方式,组合物用于静脉内给药。
用于将药物递送至中枢神经系统(CNS)的常规方法包括:神经外科策略(例如,脑内注射或脑室内输注);对试剂进行分子操作(例如,生产包含转运肽的嵌合融合蛋白,所述转运肽对内皮细胞表面分子具有亲和力并且与本身不能穿过BBB的试剂组合);试图利用BBB的内源性转运途径之一;设计用于增加试剂的脂质溶解度的药理学策略(例如,将水溶性试剂与脂质或胆固醇载体缀合);以及通过高渗破坏暂时破坏BBB的完整性(由将甘露糖醇溶液输注到颈动脉或使用生物活性剂(如血管紧张素肽)引起)。然而,这些策略中的每一种都具有局限性,例如与侵入性外科手术相关的固有风险,由内源转运系统中固有的局限性所强加的尺寸限制,可与包含在CNS外部可能具有活性的载体基序的嵌合分子的全身施用相关的不希望的生物副作用,以及在BBB被破坏的脑区域内的脑损伤的可能风险,这使其成为一种次优的传递方法。
或者,可以以局部方式而不是全身方式施用药物组合物,例如,通过将药物组合物直接注射到患者的组织区域中。
本公开的一些实施方式的药物组合物可以通过本领域熟知的方法制备,例如通过常规的混合、溶解、制粒、制糖衣丸、研磨、乳化、包封(encapsulating)、包埋(entrapping)或冻干方法
因此,根据本公开的一些实施方式使用的药物组合物可以使用一种或多种生理学上可接受的载体以常规方式配制,所述载体包含赋形剂和助剂,其有助于将活性成分加工成可药用的制剂。适当的制剂取决于所选的给药途径。
对于注射,药物组合物的活性成分可以配制在水溶液中,优选配制在生理上相容的缓冲液中,例如汉克氏液(Hank’s solution)、林格氏液(Ringer’s solution)或生理盐缓冲液。对于经粘膜给药,在制剂中使用适合于待渗透的屏障的渗透剂。这种渗透剂在本领域中通常是已知的。
对于口服给药,可以通过将活性化合物与本领域熟知的药学上可接受的载体组合来容易地配制药物组合物。这种载体使得药物组合物能够配制成片剂、丸剂、糖衣丸、胶囊、液体、凝胶、糖浆、浆液、悬浮液等,以供患者口服摄入(oral ingestion)。用于口服使用的药物制剂可以使用固体赋形剂制备,可选地研磨所得混合物,如果需要,在加入合适的助剂后,加工颗粒混合物,以获得片剂或糖衣丸芯。合适的赋形剂特别是填充剂,例如糖,包括乳糖、蔗糖、甘露糖醇或山梨糖醇;纤维素制剂,例如玉米淀粉、小麦淀粉、大米淀粉、马铃薯淀粉、明胶、黄蓍胶、甲基纤维素、羟丙基甲基纤维素、羧甲基纤维素钠;和/或生理学上可接受的聚合物,例如聚乙烯吡咯烷酮(PVP)。如果需要,可以加入崩解剂,例如交联聚乙烯吡咯烷酮、琼脂或藻酸或其盐,例如藻酸钠。
糖衣丸芯具有合适的包衣。为此,可以使用浓缩的糖溶液,其可以任选地含有阿拉伯树胶、滑石、聚乙烯吡咯烷酮、卡波姆凝胶、聚乙二醇、二氧化钛、漆溶液和合适的有机溶剂或溶剂混合物。可将染料或色素添加到片剂或糖衣丸包衣中,以用于识别或表征活性化合物剂量的不同组合。
可以口服使用的药物组合物包括由明胶制成的推入配合式胶囊(push-fitcapsules)以及由明胶和增塑剂(例如甘油或山梨醇)制成的密封软胶囊。推入配合式胶囊可含有与填充剂(例如乳糖)、粘合剂(例如淀粉)、润滑剂(例如滑石或硬脂酸镁)和任选的稳定剂混合的活性成分。在软胶囊中,修饰的DNase蛋白可以溶解或悬浮在合适的液体中,例如脂肪油、液体石蜡或液体聚乙二醇。此外,可以加入稳定剂。用于口服给药的所有制剂的剂量都应适合所选的给药途径。
对于颊给药(buccal administration),组合物可以采用以常规方式配制的片剂或锭剂的形式。
对于通过鼻吸入给药,根据本公开的一些实施方式使用的活性成分方便地以气溶胶喷雾形式从加压包装或喷雾器中递送,可以使用合适的推进剂,例如二氯二氟甲烷、三氯氟甲烷、二氯四氟乙烷或二氧化碳。在加压气溶胶的情况下,剂量单位可以通过提供阀门以输送计量的量来确定。用于分配器的例如明胶的胶囊和药筒可以配制成含有化合物和合适的粉末基质(如乳糖或淀粉)的粉末混合物。
本文所述的药物组合物可以配制用于肠胃外给药,例如通过弹丸注射(bolusinjection)或连续输注(continuous infusion)。用于注射的制剂可以以单位剂型形式存在,例如在安瓿中或多剂量容器中,可选地添加防腐剂。组合物可以是在油性或水性载体中的悬浮液、溶液或乳液,并且可以含有配制试剂,例如悬浮剂、稳定剂和/或分散剂。
用于肠胃外给药的药物组合物包括水溶性形式的活性制剂的水溶液。另外,活性成分的悬浮液可以制备成适当的油基或水基注射悬浮液。合适的亲脂性溶剂或载体包括脂肪油(例如芝麻油),或合成脂肪酸酯(例如油酸乙酯),甘油三酯或脂质体。水性注射悬浮液(Aqueous injection suspensions)可含有增加悬浮液粘度的物质,例如羧甲基纤维素钠、山梨糖醇或葡聚糖。可选地,悬浮液还可以含有合适的稳定剂或增加活性成分的溶解度的试剂,以允许制备高度浓缩的溶液。
或者,活性成分可以是粉末形式,用于在使用前与合适的载体,例如无菌、无热原的水一起构成。
还可以使用例如常规栓剂基质(例如可可脂)或其它甘油酯,将本公开一些实施方式的药物组合物配制成直肠组合物,如栓剂或保留灌肠剂。
适用于本公开的一些实施方式的上下文中的药物组合物包括多个组合物,其中包含多个活性成分于一有效量,以达到预期目的。更具体地,治疗有效量是指有效预防、缓解或改善疾病(例如与CHD2单倍体不足相关)的症状或延长正在接受治疗的对象的生存的活性成分(例如,核酸试剂)的量。
治疗有效量的确定完全在本领域技术人员的能力范围内,特别是根据本文提供的详细公开内容。
对于在本公开的方法中使用的任何制剂,治疗有效量或剂量最初可以从体外和细胞培养测定估计。例如,可以在动物模型中配制剂量,以实现所需的浓度或滴度。这种信息可用于更准确地确定人体中的有用剂量。
本文所述的活性成分的毒性和治疗功效可通过体外、细胞培养物或实验动物中的标准制药程序来确定。从这些体外和细胞培养测定和动物研究获得的数据可用于配制用于人类的剂量范围。剂量可以根据使用的剂型和使用的给药途径而变化。鉴于患者状况,各个医师可以选择确切的配方、给药途径和剂量。(例如参见Fingl等人所著,1975,“治疗药理学基础(The Pharmacological Basis of Therapeutics)”,Ch.1p.1)。
剂量的量和间隔可以单独调整,以提供足以维持所需效果的活性DNase的血浆水平,成为最低有效浓度(minimal effective concentration,MEC)。MEC将因每种制剂而有差异,但可以从体外数据估算。实现MEC所需的剂量取决于个体特征和给药途径。检测分析可用于测定血浆浓度。
取决于要治疗的病症的严重性和反应性,给药可以是单次给药,治疗过程持续数天至数周,或直到治愈,或达到疾病状态的减轻。
当然,要施用的组合物的量将取决于被治疗的对象、痛苦的严重程度、给药方式、处方医师的判断等。
如果需要,本公开的组合物可以存在于包装或分配器装置中,例如美国FDA(美国食品和药物管理局批准的试剂盒,其可以包含含有活性成分的一个或多个单位剂型。举例而言,所述包装可以包括金属或塑料箔,诸如泡罩包装(blister pack)。所述包装或分配装置可附有给药说明书。所述包装或分配器也可以附有与容器相关的通知,所述通知的形式是依照监管药品生产、使用或销售的政府机构所规定,所述通知反映所述组成物的用于人体或兽医的形式授所述机构批准。举例而言,这样的通知,可能是经过美国食品和药物管理局批准的处方药标签,或批准的产品插入物。组成物包括配制在药学相容的载体中的本公开的化合物,所述组合物可以被制备,置于合适的容器中,并标记,以用于治疗本文中所述的病症,如本文中详细说明。
用本公开的核酸试剂进行的治疗可以用本领域已知的其它治疗方法来增强。例如,抗癫痫药物(AEDs)。
图14是根据本公开的各种示例性实施方式的适于分析序列的集的方法的流程图。应当理解,除非另有定义,否则下文描述的操作可以以许多组合或执行顺序同时或顺序执行。具体地,流程图的顺序不应被认为是限制性的。例如,在以下描述或流程图中,以特定顺序出现的两个或更多个操作可以以不同的顺序(例如,相反的顺序)或基本上同时执行。另外,下面描述的几个操作是可选的,并且可能不被执行。
本文描述的操作的至少一部分可以由数据处理系统(例如,专用电路或通用计算机)来实现,所述数据处理系统被配置用于接收数据并执行下文所述的操作。至少部分操作可以由远程位置处的云计算设施来实现。
实现本公开实施方式的方法的计算机程序通常可以通过通信网络或在分配介质(例如但不限于软盘、CD-ROM、闪存设备和便携式硬盘驱动器)上分配给用户。可以将计算机程序从通信网络或分布介质复制到硬盘或类似的中间存储介质。计算机程序可以通过将代码指令从它们的分布介质或它们的中间存储介质加载到计算机的执行存储器中来运行,配置计算机以根据本公开的方法进行操作。在操作期间,计算机可以将通过中间计算获得的数据结构或值存储在存储器中,并且将这些数据结构或值拉出以供在后续操作中使用。所有这些操作对于计算机系统领域的技术人员来说都是公知的。
本文描述的处理操作可以借助于处理器电路来执行,例如DSP、微控制器、FPGA、ASIC等,或者任何其它常规的和/或专用的计算系统。
本公开实施方式的方法可以以多种形式体现。例如,它可以体现在诸如用于执行方法操作的计算机之类的有形介质中。它可以体现在计算机可读介质上,包括用于执行所述方法操作的计算机可读指令。也可以体现在具有数字计算机能力的电子设备中,该电子设备被布置为在有形介质上运行计算机程序或执行计算机可读介质上的指令。
现在参考图14,该方法从10开始,可选地并且优选地继续进行到11,在11处接收序列的集。通常,该组中的每个序列描述一多核苷酸,例如但不限于DNA或RNA,其中由该组中的不同序列描述的多个多核苷酸彼此同源,如手动确定或使用生物信息学工具如Blastn、FASTA,及本领域技术人员更熟知的工具所确定的,如下文和以下实施例部分中进一步描述的。根据一个具体的实施方式,DNA是基因组DNA。根据另一个实施方式,DNA是cDNA或文库DNA。根据一个具体的实施方式,DNA代表基因座。根据另一个实施方式,DNA是编码或非编码DNA。根据一个具体的实施方式,DNA包含外显子、内含子或其组合。根据一个具体的实施方式,所述序列是RNA序列。根据一个具体的实施方式,RNA是编码RNA。根据另一个实施方式,RNA是非编码RNA。
在本公开的一些实施方式中,同源多核苷酸选自由3'UTR、IncRNA和增强子所组成的组。
该组序列中的多核苷酸可以是完整的或部分的序列。
在本公开的一些实施方式中,该方法进行到12,在该12处,该组中的序列根据预定顺序(例如,进化决定的(evolution-dictated))进行比对,以提供具有多个比对层的多重比对。
该比对可以被排序为多重比对或使用系统发育树表示-树状图(dendogram)。通常,在多重比对中,第一比对层是描述查询多核苷酸的序列。当比对是进化决定的时,第一层可选地并且优选地是描述目标物种的序列。例如,当多核苷酸中的一种是人类多核苷酸时,第一比对层可以是人类多核苷酸的序列。
比对可以通过本领域已知的任何技术进行。通常,比对技术提供分值,并且顺序取决于分值。例如,序列的顺序可以通过使用BLAST来确定。当比对技术提供分值时,第二比对层优选地是对第一比对层具有最高比对分值的序列,第三比对层优选地是对第一比对层具有第二高比对分值的序列,依此类推。这提供了一种比对,其中每一层中的序列是与前一层中的序列具有最佳比对分值的序列。在比对技术不向特定比对层提供显著比对的情况下,该特定比对层之后的层包括根据接收到的组的顺序的下一个可用序列。
然而,应当理解,不必执行操作12。例如,该方法可以使用接收到的组的顺序。或者,该方法可以允许用户(例如,通过用户接口设备)来选择或输入该方法将要使用的顺序。
该方法优选地继续进行到13,在13处构建图形。发明人发现,将序列分析问题转化为遍历图的问题是有利的,因为它允许以更结构化的方式定义问题的约束。该图优选地是分层连接的图,其中该图的每个边缘连接连续层的节点。图的层优选地表示序列,并且层内的节点表示相应序列内的k-mer。因此,例如,假设该图的第i层表示该组的特定序列(例如,狗生物体的序列)。在这种情况下,第i层的每个节点表示特定序列的k-mer。例如,第i层的第一节点可以表示该特定序列中的第一k-mer(例如,序列的基数从1到k),第i层的第二节点可以表示该特定序列中的第二k-mer(例如,序列的基数从2到k+1),依此类推。在本公开的各种示例性实施方式中,6≤k≤12。
当操作12未被执行,且该方法未接收到关于该顺序的用户输入时,该方法根据所接收到的组中的序列的顺序来构建该图的层。具体地,该图的第一层表示所接收到的组中的第一序列,该图的第二层表示所接收到的组中的第二序列,依此类推。当该方法接收到关于顺序的用户输入时,该方法根据用户输入构建该图形的层。具体地,该图的第一层表示根据用户输入将是顺序中的第一个的序列,该图的第二层表示根据用户输入将是顺序中的第二个的序列,依此类推。当执行操作12时,该方法根据对准构建图形的层。具体而言,图的第一层表示第一对准层的序列,图的第二层表示第二对准层的序列,依此类推。
在本公开的各种示例性实施方式中,图的第一层表示描述查询多核苷酸的序列。
可选地并且优选地构建该图,使得每个边缘连接表示相同或同源k-mer的节点。该实施方式的优点是它允许识别在多个多核苷酸中保守或基本上保守的基序。
根据本公开的一些实施方式,通过图的边缘连接的同源定长核苷酸串(k-mer)k-mer之间的同源性为至少60%,更优选至少70%,更优选至少80%,更优选至少90%、95%或更高。
根据本公开的一些实施方式,在图11B、11D和12中示出了典型分层图的代表性示例。在这些图示中,节点显示为对应于形成k-mer的核苷酸碱基的字符串(strings),边缘显示为直实线(straight solid lines),层表示为L1、L2等。
该方法继续进行到14,在14处,在图上搜索沿着图的边缘的连续不相交的路径。搜索可以采用任何已知的优化技术,例如但不限于线性程序(例如,整数线性程序)、混合线性程序等,或者用于找到局部最大解的任何其它方法,例如贪婪搜索算法。
路径不相交,即连接表示一个特定k-mer的节点的边缘不与连接表示与该特定k-mer不同或不同源的k-mer的节点的任何边缘相交。然而,应当注意,当存在多于一个边缘连接表示特定k-mer并且属于两个连续层的节点时,这些边缘可以但不一定相交。例如,参考图11D底部的简化图,该图包括两个k-mer:表示7-mer AGAAUCG的8个节点,和表示6-merCCGUAC的5个节点。连接(相同或同源)7-mers的边缘不与连接(相同或同源)6-mers的边缘相交。另一方面,存在连接7-mers并且彼此相交的边缘(例如,参见连接层L2的第四节点与层L3的第四节点的边缘,以及连接层L2的第五节点与层L3的第三节点的边缘)。尽管如此,连接7-mers的一些边缘不与任何其它边缘相交(例如,参见连接层L2的第四节点与层L3的第三节点的边缘,不与连接层L2的第五节点与层L3的第四节点的边相交)。
在本公开的一些实施方式中,搜索包括应用路径深度标准作为搜索的约束,使得搜索优先于较深的路径(即穿过图中更多层的路径),而不是较浅的路径(即穿过图中较少层的路径)。
该方法可选地并且优选地从14继续进行到15,在15处,k值被减小(优选地减小1),然后循环回到13,以通过在图中包括表示k-mer的节点来根据减小的k值而重新构建该图,这些k-mer比已经由该图中已经存在的节点所表示的k-mer更短。优选地,重新构建包括添加对应于较短k-mer的节点,同时保持至少一些现有节点,从而增加图的顺序(节点数)。再次参考图11D中的简化情况,该图中的最上面具有表示7-mer的八个节点,并且不包括表示k<7的k-mer的任何节点。图11D中的中间图示出了通过添加表示6-mer的5个节点来重新构建该图,使得该图的阶数从8增加到8+5=13。
一旦表示更短k-mer的节点被包括在该图中,该方法可选地并且优选地更新该图的边缘,以便连接连续层的相同或同源的k-mer。这在图11D的中间图中举例说明,其中边缘被添加到该图中以连接表示6-mers的新添加的节点。可以组合地相加,使得层Li中表示特定k-mer的任何节点连接到表示相同特定k-mer的层Li+1中的所有节点。
在每次重新构建该图之后,该方法可选地并且优选地重新执行操作14,以沿着重新构建的图的边缘提供连续的不相交路径。这种重新执行可导致排除先前获得的路径,例如,当那些先前获得的路径结果与新增加的边缘相交时。这在图11D的顶部和图形中被举例说明,其中,例如,在层L1的最左端节点处开始并且在层L3的最右端节点处结束的路径被包括在图11D的顶部图中(在重新构建之前),但是不被包括在图11D的底部图中(在重新构建之后),因为它与连接在重新构建期间添加的6-mers的边缘相交。
经由15从14到13的回送可选地并且优选地以迭代的方式继续进行。优选地,在每个迭代循环中,该方法应用在前一迭代循环中获得的路径作为搜索的约束。这种约束应用的代表性示例在图12中示出,并且在随后的实施例部分中进一步示出。可选地并且优选地迭代被重复,直到不再有k-mer要添加,或者直到不再有新的非交叉路径要查找,或者直到满足一些其它预定的停止标准。
在16处,生成输出。该输出优选地将对应于至少一条路径的k-mer识别为功能性目标核酸序列。该输出可以在显示设备上以图形地或文本显示,或者存储在计算机可读存储介质中以供将来使用。
该方法在17处结束。
图15是具有硬件处理器132的客户端计算机130的示意图,硬件处理器132通常包括输入/输出(I/O)电路134、硬件中央处理单元(CPU)136(例如,硬件微处理器),和硬件存储器138,该硬件存储器138通常包括易失性存储器和非易失性存储器。CPU 136与I/O电路134和存储器138通信。客户端计算机130优选地包括与处理器132通信的图形用户界面(GUI)142。I/O电路134优选地以适当结构化的形式向GUI 142传送信息,并从GUI 142传送信息。还示出了服务器计算机150,其可以类似地包括硬件处理器152、I/O电路154、硬件CPU156、硬件存储器158。客户端130和服务器150计算机的I/O电路134和154可以作为收发器操作,它们经由有线或无线通信彼此传送信息。例如,客户端130和服务器150计算机可以经由网络140(例如局域网(LAN)、广域网(WAN)或因特网)进行通信。在一些实施方式中,服务器计算机150可以是通过网络140与客户端计算机130通信的云计算设施的云计算资源的一部分。
GUI 142和处理器132可以一起集成在同一外壳内,或者它们可以是彼此通信的独立单元。
GUI 142可以可选地并且优选地是包括专用CPU和I/O电路(未示出)的系统的一部分,以允许GUI 142与处理器132进行通信。处理器132向GUI 142发出由CPU 136生成的图形和文本输出。处理器132还从GUI 142接收与GUI 142响应于用户输入而生成的控制命令有关的信号。GUI 142可以是本领域已知的任何类型,例如但不限于键盘和显示器、触摸屏等。在优选实施方式中,GUI 142是诸如智能手机、平板电脑、智能手表等移动设备的GUI。当GUI142是移动设备(处理器132)的GUI时,移动设备的CPU电路可以充当处理器132,并且可以执行本文描述的代码指令。
客户端130和服务器150计算机还可以分别包括一个或多个计算机可读存储介质144、164。介质144和164优选地是非暂时性存储介质,其存储用于执行本文中进一步详述的方法的计算机代码指令,处理器132和152执行这些代码指令。可以通过将相应的代码指令加载到相应处理器132和152的相应执行存储器138和158中来运行代码指令。
存储介质144和164中的每一个都可以存储程序指令,当程序指令被相应的处理器读取时,使处理器执行本文所述的方法。在本公开的一些实施方式中,处理器132通过I/O电路134接收描述多种同源多核苷酸的序列组。处理器132构建图,在图中搜索连续的非交叉路径,并产生输出,该输出将对应于至少一个路径的k-mer识别为功能性目标核酸序列,如上文进一步详述的。或者,处理器132可以通过网络140将该序列组传输到服务器计算机150。计算机150接收该组序列,构建图,在图中搜索连续的非交叉路径,并将对应于至少一个路径的k-mer识别为功能性目标核酸序列,如上文进一步详述的。计算机150通过网络140将功能性目标核酸序列传送回计算机130。计算机130接收核酸序列并将其显示在GUI 142上。
一旦识别出基序,就可以使用分子生物学方法对其进行验证,例如通过克隆到通常具有报道序列的表达载体中来验证基序。
如本文所用,术语“约(about)”是指10%。
术语“包括(comprises、comprising、includes、including)”、“具有(having)”及其同源词(conjugates)意为“包括但不限于”。
术语“由……组成(consisting of)”是为“包括并限于”。
术语“基本上由……组成(consisting essentially of)”意为组合物、方法或结构可包括另外的成分、步骤和/或部分,但前提是另外的成分、步骤和/或部分不会实质性地改变所要求保护的组合物、方法或结构的基本和新颖特性。
如本文所使用的,单数形式“一个(a、an)”和“所述(the)”包括复数,除非上下文另有明确的指示。例如,术语“化合物(a compound)”或“至少一种化合物(at least onecompound)”可以包括多种化合物,包括其混合物。
在整个申请中,本公开的各个实施方式可以以范围的形式呈现。应当理解,范围形式的描述仅仅是为了方便和简洁,不应当被解释为对本公开的范围的不可改变的限制。因此,范围的描述应当被认为已经具体公开了所有可能的子范围以及该范围内的单个数值。例如,对诸如1至6的范围的描述应当被认为已经具体公开了子范围,诸如1至3、1至4、1至5、2至4、2至6、3至6等,以及该范围内的单个数字,例如1、2、3、4、5和6。不管范围的宽度如何,都适用。
每当本文指出数值范围时,意为包括在所指出的范围内的任何引用的数字(分数或整数)。表述“第一指示数和第二指示数之间的范围”和“从第一指示数到第二指示数的范围”在本文中可互换使用,意为包括第一指示数字和第二指示数字以及它们之间的所有数和整数。
如本文所用,术语“方法”是指用于完成给定任务的方式、手段、技术和程序,包括但不限于化学、药理学、生物学、生物化学和医学领域的从业人员已知的或者容易从已知的方式、手段、技术和程序开发的那些方式、手段、技术和程序。
应当理解的是,RNA反义序列可在本文中作为DNA序列提供,其中U被T替代。
当提及特定的序列表时,这种提及应理解为还包括基本上与其互补序列相对应的序列,包括由例如测序错误、克隆错误或导致碱基替换、碱基缺失或碱基添加的其它改变引起的微小序列变异,只要这种变异的频率为50个核苷酸中少于1个;可替代地,100个核苷酸中少于1个;可替代地,200个核苷酸中少于1个;可替代地,500个核苷酸中少于1个;可替代地,1000个核苷酸中少于1个;可替代地,5000个核苷酸中少于一个;可替代地,10,000个核苷酸中少于一个。
应当理解,为了清楚起见,在单独实施方式的上下文中描述的本公开的某些特征也可以在单个实施方式中组合地提供。相反,为了简洁起见,在单个实施方式的上下文中描述的本公开的各个特征也可以单独提供,或者以任何合适的子组合提供,或者以本公开的任何其它描述的实施方式中的合适的方式提供。在各个实施方式的上下文中描述的某些特征不应被认为是这些实施方式的必要特征,除非该实施方式在没有这些元件的情况下不起作用。
如上文所述以及如以下权利要求部分所要求的本公开的各个实施方式和方面在以下实施例中得到实验支持。
实施例
现在参考下面的实施例,这些实施例与上面的描述一起以非限制性的方式说明了本公开的一些实施方式。
材料和方法
输入到LncLOOM
LncLOOM处理来自不同物种的序列组。通常,每个序列对应于来自不同物种的序列的推定同源物。目前,本发明人只对每个物种的一种序列同种型进行研究,尽管适应每个物种存在多种序列的情况是可能的,例如选择性剪接产物。输入序列通常通过人工检查RNA-序列(RNA-seq)和EST数据以及现有注释来构建。应当注意,一些输入序列可能是不完整的,根据本公开的一些实施方式,本框架包含用于适应这种情况的特定步骤。在构建图之前,对该组进行过滤以去除相同的序列。用户可以对其进行进一步调整,以去除百分比同一性高于阈值的序列-在这种情况下,LncLOOM使用MAFFT MSA来计算每对序列之间的百分比同一性,并保留在输入数据集中首先出现的序列。
序列排序
LncLOOM框架是围绕有序序列的集构建的,理想情况下,这些序列应该来自相对于锚定序列(在本文的所有实施例中都是人类)具有单调递增进化距离的物种。序列的顺序可以由用户提供,或通过使用BLAST来确定。如果使用BLAST,锚序列被定义为数据集中的第一序列。第二序列是与锚定序列具有最高比对分值的序列。然后,在尚未排序的序列中,每个后续序列都是与前一序列具有最佳比对分值的序列。如果没有发现显著的比对,则选择原始输入中的下一个可用序列。
LncLOOM方法综述
一旦建立了序列的排序,LncLOOM通过将每个核苷酸序列简化为k-mer序列来识别不同k值的一组短保守k-mer组合,每个k-mer由图中的节点表示。相邻序列中的相同k-mer在图中连接,具有额外的约束(图11A-D),并使用整数线性规划(ILP)在这些图中寻找长的不相交的路径集。每个图中标识的路径集用于在随后的迭代中定义对图的约束,并且用于划分图(图12中示出了图划分的示例)。从最大的k开始并迭代地减小它,LncLOOM为指定范围内的每个k-mer长度构建一初始主图。主图是在数据集中的所有有序序列上构建的,然后逐层(直到仅剩下顶部的两个序列)修剪为一系列子图,每个子图的ILP问题被独立地解决。在任何给定的深度,可以基于在先前迭代中找到的路径将子图划分成另外的一组较小的子图。在实践中,这种方法使我们能够优先识别深度保守和较长的基序,而不是较短和不太保守的基序,并且还将ILP程序的大小保持在1000个边缘以下,这可以快速解决,即使应用于几十个长序列,也可以将LncLOOM的总运行时间保持在几分钟。
图构建
给定来自D物种的IncRNA序列的数据集和k-mer长度k(6nt至15nt),LncLOOM构建一有向图G=(V,E),其中V是该图中所有节点的集,E是边缘的集。该图由D层组成,其中D是数据集中序列的数量。每个序列被建模为一层(L1、L2......)。层Li对应于长度为N(i)的序列,由节点(v1、v2......vN(i)-k+1)组成,其中每个节点vn表示在第i个序列中位置n处的k-mer(图1B)。表示相同k-mer并且在连续层(如果j=i+1,则是Li和Lj)中找到的所有节点对均通过边缘xuv=(u,v)连接,其中并且/>由于每个子字符串(substring)通常在序列中出现多次,因此边缘的数量可能大大超过图中节点的数量。深度保守的k-mer的有序组合对应于G中不相交(即,对于每个/>))并且在L1有一个节点的长路径。因此,一个目标是找到E中的集S,使得每个边缘可以经由S中的边缘从L1到达,并且S中没有两个边缘相交。理想情况下,希望找到最大的S,但可能受到其他约束。例如,可能不需要短路径,因此这需要S中的边缘都在到达某一层的路径上找到。/>
使用ILP识别长的不相交路径
在ILP问题中,G中各个边缘由一个变量xuv表示,如果(u,v)在s中,则该变量被赋值为1。将目标函数定义为最大化
最大化(maxumise)∑(u,v)∈Exuv
受以下条件影响:xuv∈{0,1}
对该模型施加的其他约束源自几个考虑因素。首先,LncLOOM旨在识别LncRNA序列中以相同顺序出现的短保守k-mer。然而,k-mer不太可能在每个序列中只出现一次。因此,应用于ILP模型的约束应该允许在一层或多层中包含单个k-mer的多个重复的复杂路径,前提是它不与深度不等的非匹配k-mer的路径相交(图1B和图11A)。为了确保选择不相交的路径,对在两个连续层之间相交的任何一对边缘施加以下约束:
如果:
m<n并且q>r或m>n并且q<r
um,un∈Li
j=i+1
由于上述约束仅考虑每个节点的起始位置,因此它也排除了连接在两个连续层中重复的相同k-mer的相交边缘。在k-mer在两个连续层中重复的情况下,由每个重复-重复连接(repeat-repeat connection)构建边缘网络(图11B)。该边缘网络可能会覆盖同样保守但连接较少k-mer的其它路径的选择。因此,在连接相同k-mer的边缘上施加这种约束是很重要的,因为它促进了将复路径分割成多个不相交的路径,这些路径分散着唯一出现的k-mer的路径。然而,如果连接相同重复的边缘的网络在没有任何其他路径的情况下仅相互约束,则ILP求解器可以从多个重复-重复连接中选择边缘的任何可能解决方案。这可能导致在图细化的后续迭代期间对重复k-mer的次优排除(图13B所示的情形)。为了避免这种情形,如果至少有一条具有相同深度的其他路径与重复k-mer的网络相交,则仅在连接相同k-mer的边缘上施加相交约束。
为了有利于选择深度保守的k-mer而不是重复的较浅的k-mer,对每个节点的后继节点和前趋节点施加以下两个约束:
其中z和P表示节点v的所有直接后继者和前继者的相应子集,y是最小深度要求,M是一个足够大的常数(实际上使用100)。在该约束条件下,仅选择从L1到至少Ly具有连续连接的路径。同时,该约束确实允许选择在一层或多层中包含串联重复的k-mer的连接的复杂路径(图1B)。
在图G中,每一层Li由节点(v1、v2......vN(i)-k+1)组成,这些节点开始于序列中的每个连续位置,并且长度为具有k个碱基。由此可见,从集S中,可以通过合并连接彼此重叠的相邻节点的边缘来形成集S联合(union)。一旦ILP被解出,这些重叠节点将被合并成单个更长的k-mer。该步骤可能遇到这样的情况,其中一组相邻k-mer表示包含单个重复碱基的字符串的序列的区域(例如,参见图1B)。然后,层特异性插入将可能会被包含在所得到的合并k-mer中。为了克服这一问题,对连接相邻k-mer的任一对边缘施加以下约束,这些边缘在Li或Lj中重叠,使得重叠区域的开始和长度在每层中的两个相邻节点之间相等:
如果:
n≤m+k-1并且m<n并且(m+k-1)-n≠(q+k-1)-r
r≤q+k-1并且q<r并且(m+k-1)-n≠(q+k-1)-r
j=i+1
则:
ILP是一个众所周知的NP困难问题(NP-hard problem),它对LncLOOM扩展到非常长的序列或大型数据集提出了重大挑战。为了克服这种限制,在框架中已经包括了几个步骤,这些步骤降低了每个图的ILP的复杂性,并且还有利于选择深度保守的k-mer。这包括图修剪、基于简单路径的图划分、对边缘构建的其他约束以及对不相交复杂路径的迭代细化。
图修剪
在LncLOOM框架中使用了两个修剪步骤。第一步骤涉及排除对应于在一层或多层中过度重复的k-mer的节点。每层允许的重复次数可以由用户调整,并且当使用小的k(例如,6)时,可以大大降低较长序列中边缘的密度。对于给定的k-mer长度,在数据集的所有序列上构建初始图期间执行该步骤,然后从所有得到的子图中排除任何被排除的节点。对给定级别的子图构建的每个迭代执行第二修剪步骤,并且排除不具有从L1到当前深度的连接路径的所有节点。
划分图以降低计算复杂度
对ILP问题施加的约束允许选择简单或复杂的路径,其中,简单路径被定义为每层仅包含一个节点的路径。简单路径由明确选择的边缘组成,这些边缘不应该与较浅的路径相交,因此存在这样的边界,在该边界处可以将图划分成可以独立求解的较小的子图(图12)。目前,这些图是连续求解的,但在未来,只要找到至少一条简单的路径,就有使用并行计算来处理更大数据集的空间。该划分基于在逐层迭代中的每一级处找到的当前k-mer长度的简单路径。每个子图是通过选择位于两个简单路径τa和τb(深度=y)之间的节点子集来构建的,其中,对于L1至Ly-1每一层(最后一层被移除用于下一次迭代),边界被定义为每个路径内节点的结束和开始位置。在相邻简单路径的k-mer重叠的情况下,首先合并k-mer,并在更长的合并k-mer的开始和结束位置上定义边界。
细化不相交的复杂路径
与简单路径相比,复杂路径可以包含连接重复k-mer的分支,特别是在图不受约束时的早期迭代中选择的路径中。在不受约束的图中,不可能破译每一层中偶然出现的重复。因此,在后续迭代中,不使用复杂的路径来约束图中的边缘选择。相反,在每次迭代中找到的集S被划分为:1)用于划分和边缘约束定义的简单路径的子集,以及2)单独存储并在后续迭代中不断细化的复杂路径的子集。在细化过程中,复杂路径被优化,以删除与新发现的路径相交的分支(图12)。复杂路径的细化在逐层消除过程中分两个阶段进行。首先,在求解跨越y层的子图之前,从具有深度=y的较长k-mer的子集LCd=y,以及来自具有最小深度y+1的当前k-mer长度的路径的子集Cd>y(在当前k-mer长度的先前迭代中选择的复杂路径)构建仅包含复杂路径的单个图。然后根据上述ILP问题找到细化的复杂路径的子集C细化的(refined)。但是,为了确保选择Cd>y中的所有复杂路径,而不是LCd=y中的任何较浅路径,会施加以下附加约束:
对于Cd>y中的每条路径r:
并且v∈L2
在该约束条件下,为Cd>y中的每条路径τ选择至少一个重复的k-mer。当该约束与上述约束一起被施加时,跨越至少y层的细化路将被包括在该解决方案中。一旦找到了集C细化的,就构建当前长度和深度的所有k-mer的子图。然后,将C细化的中的所有路径添加到当前子图中,并通过施加其他约束来解决ILP问题,以有利于选择C细化的中的每条路径r。然后将该解决方案划分为一组简单和复杂的路径,用于下一次迭代。LncLOOM还包括存储和细化简单路径的选项,使得具有较大深度的较短k-mer的简单路径优于较长和较浅的k-mer。然而,如果应用该选项,则不会对图进行划分,并且不会对后续迭代中的边缘构建施加任何约束。因此,该选项的计算成本很高,并且只能用于分析短序列的小数据集。
使用BLAST高分值片段对(HSPs)来降低图复杂度
BLAST也可以用作LncLOOM图构建过程中的可选步骤。BLAST HSPs是在连续层中发现的序列的具有显著相似性的片段之间的局部无缺口比对(local ungappedalignments)。本发明人使用这些HSPs来约束边缘构建,使得不包含在两个连续层之间的相同HSP内的任何节点对都不连接。BLAST发现的HSPs是冗余的,因为HSPs可以彼此重叠,并且任何片段都可能与靶序列中的多个片段匹配。对于任何一组相互重叠的HSPs,只有最显著的一对包含在用于图构建的HSPs中。类似地,在一个片段与靶序列中的多个片段比对的情况下,仅包括最高分值比对。这些来自BLAST分析的约束可以有效地减少图中可能路径的数量,并在一些序列不完整的情况下促进层之间边缘的正确放置(图1A)。
图尺寸限制
尽管已经包括了降低ILP问题复杂度的步骤,但是在某些情况下,图太大,无法在合理的时间内求解。为了解决这个瓶颈,限制了图中边缘的总数。默认情况下,ILP问题中允许的最大边缘数是1200,但这可以设置为50以上的任何数字。在任何迭代过程中,如果图G中的边缘数超过最大极限,则该图被分成一系列子簇,在这些子簇单独求解ILP问题。从具有最少边缘(最少重复k-mer)的路径开始,由G中的每个路径τ构建一个单独的图,只有C细化的中的那些路径与之相交。然后,ILP被用于优化G的该子簇中被允许的边缘,然后C细化的被更新以包含这些边缘,并从G的该子簇中移除路径τ。对保留在G中的每个路径重复该过程,直到所有路径已经相对于C细化的被单独地优化,或者G中边缘数达到最大极限,此时,G中所有剩余的路径在单个ILP问题中相对于彼此得到优化。如果由相交路径的单个子簇构建的图中的边缘数超过最大极限,则ILP不继续,仅来自C细化的的路径被保留在方案中。
在序列的扩展5'和3'区域中发现基序
Lnc100M的输入可能偶尔包含5'-或3'-不完整的序列。由于数据集由同源性排序而不是由完整性排序的,因此这些序列可能出现在图中的任何层中,并阻碍这些区域中节点的逐层连接。为了减少保守基序在这种情况下丢失的机会,基序发现分三个阶段进行。在第一阶段,LncLOOM从基于数据集中的所有序列(D序列总数)构建的主图中识别基序。然后,LncLOOM通过考虑每个序列中的第一个和最后一个基序相对于它们在所有序列中的中值位置的位置来确定哪些序列可能具有扩展5′或3′末端(图13A)。基于此,LncLOOM构建并求解数据集中更完整序列的扩展5′和3′区域的单个图。为了构建5′扩展图,LncLOOM首先计算L1至LD每一层中第一节点的起始位置的中值位置Mq。然后从每个层中提取节点子集,其中是由用户定义的某种容限。基于最后的基序相对于每个序列的长度的结束位置来提取扩展的3′图的节点。具体而言,LncLOOM计算每一层中的最后一个节点的结束位置的中值相对位置t0,其中。然后从/>每个层提取节点W={v1|n+h-1<qi}的子集,其中t是用户定义的一些容差。基于最后的基序相对于每个序列长度的结束位置,来提取延伸的3′图的节点。具体来说,LncLOOM计算L1至LD每一层中最后一个节点/>的结束位置的中位相对位置MRe,其中/>然后,从Liif Rei<MRe,(1+t)每一层中提取节点W={vn|n>q+k-1}的子集。对于5′和3′图的提取,默认t=0.5,但可以为每个图独立定义容差。仅在来自锚定序列的扩展区域的节点己包括在该图中时,才继续进行该基序发现步骤。为了避免浅层保守基序妨碍识别更深层中的5′或3′截断的情况,例如由于发现接近5′端的基序仅在前两层中保守,可以应用“最小深度”参数从保守到指定深度的基序子集中选择每个序列中第一个基序和最后一个基序的位置。如果应用最小深度参数,则所有不满足指定深度要求的图也会从方案中去除。
基序模块和邻域的计算
一旦对框架中的所有子图求解了ILP问题,就将从主图、5′扩展图和3′扩展图中选择的每组不相交路径处理成基序模块和邻域。基序模块被定义为在一组序列中保守的至少两个独特基序的有序组合,其中每个基序被允许具有任何数量的串联重复。默认情况下,通过提取跨越L1至Li所有层的路径,来计算图的每层Li|2≤l≤D的模块。如果在参数中指定最小深度t,则在每个层Li|d≤i≤D计算模块。如上所述,基序发现是通过逐层消除的迭代过程来执行的。随着序列集不断减少以包含更密切相关的序列,这会导致选择更长的同一性区域。因此,更深保守的更短的基序通常被包埋在仅在顶层之间保守的更长的基序中(图13B)。本发明人将图中的这些区域定义为基序邻域,其中每个邻居包括图中的所有节点,这些节点与每个层中的每个节点的侧翼区域一起,连接到L1中的重叠节点的单个区域。为了计算基序邻域,LncLOOM首先将L1中所有重叠的节点组合起来,形成表示每个邻域的参考k-mer的集。对于每个参考k-mer,连接到嵌入在参考k-mer内的每个较短的k-mer的所有路径随后都包含在该邻域中。对于每个层中的每个基序,侧翼区域的长度是相对于基序在参考k-mer中的位置计算的(图13B)。来自主图、5'扩展和3'扩展图中的每一个的基序模块和邻域均以HTML和纯文本(text)文件格式呈现。
基序显著性计算
通过计算两种类型的随机数据集中每个基序的经验p值来推断基序显著性。首先,对于长度为k,保守到Li的基序,本发明人确定了在真实数据集中发现的精确基序的经验概率,以及在输入序列中观察到的在连续层之间具有相同百分比同一性的一组随机序列中至少一次相同数量的相同长度或更长的任何基序的任何组合的经验概率。这是通过使用MAFFT生成输入序列的MSA,然后运行LncLOOM迭代的多次迭代(本手稿中描述的分析为100次)来实现的,其中MSA的列被随机打乱。其次,本发明人确定了发现精确基序的经验概率,以及在生成的一组随机序列的Li中至少一次发现相同数量的相同长度的任何基序的任何组合的经验概率,使得每一层与输入序列中的相应层具有相同的长度和相同二核苷酸组成(但不保留层之间的同一性%)。在本手稿中描述的分析中仅使用了以前的P值。已经实现了多重处理(multiprocessing)以并行地执行迭代。
基序的功能注释
LncLOOM具有两个可选的注释功能。首先,通过识别与来自TargetScan的保守(在哺乳动物中保守)和广泛保守(通常在脊椎动物中发现)miRNA的种子区域的完美碱基配对,可以将所发现的基序映射到miRNA的结合位点。对于每个基序,通过考虑基序以及基序两侧的直接侧翼碱基来确定每个序列中的配对(6mer、7mer、7mer-A1、7mer-M8或8mer)的类型。只有当完整的种子区域(6mer)与基序直接匹配时,才能发现匹配。其次,在HepG2或K562细胞系中表达的基因中发现的基序也可以映射到ENCODE项目中由Eclip识别的RBPs的结合位点。为了确定所选查询序列中每个基序的染色体坐标,LncLOOM使用BLAT(Kent,2002)将序列与基因组比对,然后使用pyBigWig包计算与从ENCODE bigBed文件中提取的RBP结合位点的坐标的重叠。或者,用户也可以上传bed文件,指定查询序列中每个外显子的染色体坐标和长度。对所提取的eCLIP数据进行过滤,以排除在模拟输入中富集<2的所有峰。与锚定序列的大部分结合的RBP被标记,因为它们的结合峰与任何保守基序的重叠不太可能与该特定基序在功能上相关。
LncLOOM实现和可用性
使用networkx包来执行图构建。整数规划问题(integer programming problems)使用PuLP进行建模,并通过开源COIN-OR Branch-and-Cut(CBC)求解器(www.coin-or.org/)或商用Gurobi求解器(www.gurobi.com/)来求解。LncLOOM在图构建、基序注释和基序显著性的经验评估期间利用以下比对程序:BLAST、BLAT和MAFFT。多重处理python包用于并行地计算统计迭代。
基序富集的计算
为了评估序列中特定基序的富集,本发明人生成了1000组与输入序列的二核苷酸组成相匹配的随机序列,并对基序的出现次数进行计数,以计算基序的预期数量和经验p值。
IncRNAs和3'UTRs的LncLOM分析
LncLOOM用于分析来自18个物种的Cyrano序列、来自8个物种的Libra(哺乳动物中的Nrep)、来自16个物种的Chaserr序列、来自12个物种的DICER1序列和来自16个物种的PUM1和PUM2序列。对于所有的基因,设定LncLOOM参数以搜索长度为15至6个碱基的k-mer,并通过BLAST将序列重新排序,在每种情况下将人类序列定义为锚定序列。没有施加HSPs约束。经100次迭代计算基序显著性,在Lnc100M框架中代表的每个基因的序列顺序如表1所示。
LncLOOM也用于分析2,439 3'UTR基因。数据集是根据TargetScan7.2 miRNA靶位点预测套件10生成的3’UTR MSA构建的,包括人类、小鼠、狗和鸡的300nt至3,000nt序列。根据可利用性和长度(>200个碱基),从Ensembl获得了来自蛙、鲨鱼、斑马鱼(zebrafish)、雀鳝和七鳃鳗、玻璃海鞘(cioan)和苍蝇的序列,并将其添加到它们各自的基因数据集中。对于每个数据集,使用BLASTN,截止E值为0.05,来进行分类:每个物种中哪些序列与其人类直系同源物没有可检测的比对,以及哪些序列也不与小鼠、狗和鸡的序列进行比对。由Lnc100M识别的K-mers与广泛保守的miRNA家族的种子相匹配,TargetScanHuman报道了hsa-miRNA。为了评估LncLOOM的敏感性,将由LncLOOM识别的广泛保守的miRNA结合位点与TargetScan(www.targetscan.org/cgi-bin/targetscan/data_download.vert72.cgi)报道的预测进行比较。具体地,本发明人仅比较了来自基因的miRNA位点,其中TargetScan报告了与该LncLOOM数据集中使用的相同的代表性人类转录物中的位点。这总共对应2,439个基因中的2,359个位点。
组织培养物
在37℃下,含有5% CO2的湿润培养箱中,Neuro2a细胞(ATCC)常规培养于含有10%胎牛血清和100U青霉素/0.1mg ml-1链霉素的DMEM中。细胞被常规检测支原体污染,但未经验证。
质谱样品制备
如前所述47,使用悬浮捕获(S-trap)对样品进行溶液内胰蛋白酶消化。简言之,下拉后,用50mM Tris-HCl中的5% SDS从珠中洗脱蛋白质。洗脱的蛋白质用5mM二硫苏糖醇还原,并在黑暗中用10mM碘乙酰胺烷基化。根据制造商的说明将每个样品装载到S-Trapmicrocolumn微柱(Protifi,美国)上。装载后,用90:10%甲醇/50mM碳酸氢铵洗涤样品。然后在47℃下,用胰蛋白酶消化样品1.5小时。用50mM碳酸氢铵洗脱消化的肽。将胰蛋白酶添加至该馏分,并在37℃下温育过夜。使用0.2%甲酸和0.2%甲酸的50%乙腈溶液进行另外两次洗脱。将这三个洗脱液合并在一起,并真空离心至干燥。将样品保存在-80℃直至进一步分析。
液相色谱法
所有色谱步骤均使用ULC/MS级溶剂。将干燥消化的样品溶解在97:3% H2O/乙腈+0.1%甲酸中。使用不分流的纳米超高效液相色谱(10kpsi nanoAcquity;沃特世(Waters)美国马萨诸塞州米尔福德港)。流动相为:A)H2O+0.1%甲酸,和B)乙腈+0.1%甲酸。使用反相对称C18捕集柱(内径180μm,长度20mm,粒径5μm;沃特世)。然后使用T3 HSS纳米柱(内径75μm,长度250mm,粒度1.8μm;沃特世),以0.35μL/min的速度分离肽。使用以下梯度将肽从柱洗脱到质谱仪中:在55分钟内,4%至30%B;在5分钟内,30%至90%B;维持在90%5分钟,然后回到初始条件。
质谱法
使用FlexIon纳喷雾装置(Proxeon公司),通过nanoESI发射器(10μm尖端;NewObjective公司;美国马萨诸塞州沃本)在线耦合至四极杆轨道离子阱质谱仪(Q ExactiveHF;赛默飞世尔科技(Thermo Scientific))。
使用Top10方法以数据依赖性采集技术(data dependent acquisition,DDA)方式获取数据。将MS1分辨率设定为120,000(以200m/z),质量范围为375-1650m/z,AGC为3e6,并且将最大进样时间(maximuminjection time)设定为60毫秒。MS2分辨率设定为15,000;四极杆隔离度为1.7m/z;AGC为1e5;动态排除20秒;最大进样时间为60毫秒。
质谱数据处理分析
用MaxQuant v1.6.6.0处理原始数据。使用Andromeda搜索引擎针,从Uniprot(www.uniprot.com)下载的小鼠(mouse或Mus musculus)蛋白质数据库搜索数据,并添加常见的实验室蛋白质污染物。将酶特异性设定为胰蛋白酶,并允许最多两次错过切割。固定的修饰设定为半胱氨酸的脲甲基化(carbamidomethylation),可变的修饰设定为甲硫氨酸的氧化和蛋白质N-末端乙酰化。以4.5ppm的最大质量偏差搜索肽前体离子,以20ppm的最大质量偏差搜索碎片离子。使用反相数据库策略(MaxQuant的“恢复(Revert)”模块)在1%的FDR下过滤肽和蛋白质识别。最小的肽长度是7个氨基酸,修饰的肽的最小Andromeda分值是40。使用选中的运行间匹配(match-between-runs)选项在样品之间传播肽识别。用选择的非标记定量(label-free quantification)选项进行搜索。使用Perseus v1.6.0.7计算定量比较。过滤出诱饵击中物(decoy hits)。经过对数转化后,使用学生t检验来识别生物复制品中实验组之间的显著差异。基于不同实验组的几何平均值的比率计算倍数变化。
RNA下拉试验
通过扩增合成的寡聚物(Twist Bioscience公司)并将T7启动子添加到有义序列的5'末端和反义控制序列的3'末端(完整序列参见表2),生成体外转录模板。使用MEGAscript T7体外转录反应试剂盒(Ambion公司)和生物素RNA标记混合物(Roche公司)生产生物素化转录物。通过用DNaseI(Quanta公司)处理除去模板DNA。用补充有蛋白酶抑制剂混合物(Sigma-Aldrich公司,#P8340)+100U/ml RNA酶抑制剂(#E4210-01)和1mM DTT的RIPA在冰上裂解Neuro2a细胞(ATCC)15分钟。裂解物在4℃下以21130×g离心20分钟,进行澄清。链霉亲和素磁珠(Streptavidin Magnetic Beads)(NEB#S1420S)在缓冲液A(NaOH0.1M和NaCl0.05M)中洗涤两次,在缓冲液B(NaCl 0.05M)中洗涤一次,然后重悬于两个结合/洗涤管(NaCl 1M,5mM Tris-HCl pH7.5和补充有PI+100U/ml RNA酶抑制剂的0.5mMEDT,以及1mM DTT)。将一管珠子在补充有PI和DTT(1mM)的RIPA中洗涤三次,然后加入细胞裂解物,并在4℃下以置顶旋转(overhead rotation)预澄清30分钟。对于各个RNA探针,将第二管等分成单独的管。然后将2pmol至10pmol的生物素化转录物添加至相应的管中,并在4℃下置顶旋转30分钟。然后将珠子在结合/洗涤缓冲液中洗涤三次,之后将等量的预澄清细胞裂解物加入到珠子和RNA探针的每个样品中。然后将样品在4℃下置顶旋转30分钟。旋转之后,用高盐CEB(10mM HEPES pH7.5、3mM MgCl2、250mM NaCl、1mM DTT和10%甘油)洗涤珠三次。然后在室温下用50mM Tris pH7.4的5% SDS处理10分钟,将蛋白质从珠子中洗脱出来。
反义寡核苷酸和LNA GapmeR转染
ASOs(集成DNA技术)被设计用于靶向小鼠Chaserr的最后一个外显子中由LncLOOM识别的保守ATGG位点(图8A)。所有的ASO均用2'-O-甲氧基-乙基碱进行了修饰。靶向Chaserr内含子的LNA Gapmers(Qiagen公司)用于Chaserr敲除(完整寡核苷酸序列参见表3)。转染:将2×105个Neuro2A细胞接种在六孔板中,并根据制造商的方案,使用Lipofectamine3000(Life Technologies公司,L3000-008)与LNA1-4的混合物或与ASO1、ASO2、AsO3或ASO1与AsO3或ASO1-3的混合物一起转染,直至最终浓度为25nM。所有实验的终点均为转染后48小时,之后用TRIZOL收集细胞进行RNA提取,并通过RT-qPCR分析评估。
RNA免疫沉淀(RIP)
收集Neuro2a细胞(ATCC),在4℃下,以94×g离心5分钟,并用补充有核糖核酸酶抑制剂(100U/mL,#E4210-01)和蛋白酶抑制剂混合物(Sigma-Aldrich公司,#P8340)的冰冷磷酸盐缓冲盐水(PBS)洗涤两次。接下来,在冰上用1mL裂解缓冲液(5mM PIPES、200mM KCl、1mM CaCl2、1.5mM MgCl2、5%蔗糖、0.5%NP-40,补充有蛋白酶抑制剂混合物+100U/ml RNA酶抑制剂和1mM DTT)裂解细胞10分钟。将裂解物在30%振幅下超声处理(Vibra-cell VCX-130)三次,1s开启,30s关闭,然后在4℃下以21130×g离心10分钟。然后将上清液转移到新的2mL试管中,并补充1mL IP结合/洗涤缓冲液(150mM KCl、25mM Tris(pH 7.5)、5mM EDTA、0.5% NP-40,补充有蛋白酶抑制剂混合物+100U/ml RNA酶抑制剂和0.25mM DTT)。然后将样品在4℃下旋转2-4小时,每次反应使用5μg抗体。用IP结合/洗涤缓冲液洗涤每个反应的50μL珠子(GenScript A/G beads(#L00277))三次,然后添加到裂解物中进行过夜旋转温育。温育后,将珠子在IP结合/洗涤缓冲液中洗涤三次。收集每个样品的10%,并在95℃下煮沸5分钟,以通过蛋白质印迹进一步分析。将剩余的珠子重悬于0.5mL TRIZOL中,用于RNA提取,并通过RT-qPCR分析进行评估,其中将免疫沉淀材料标准化为总细胞裂解物。
蛋白质印迹
将从RIP收集的蛋白质样品在8-10% SDS-PAGE凝胶上分离(resolved),并转移到聚偏二氟乙烯(PVDF)膜上。用含0.1%吐温-20的PBS(PBST)中的5%脱脂奶封闭后,将膜与第一抗体一起温育,随后与辣根过氧化物酶缀合的第二抗体一起温育。用Image Lab软件对印迹进行量化。使用主要抗体anti-Dhx36(Bethyl公司,#A300-525A,1:1,000稀释)和次要抗体anti-rabbit(JIR#111-035,1:10,000稀释)。
qRT-PCR
根据制造商的方案,使用TRIREAGENT(MRC)从转染的N2a细胞中提取总RNA。使用带有随机引物的qScript Flex cDNA合成试剂盒(95049,Quanta公司)合成cDNA。Fast SYBRGreen master mix(4385614)用于qPCR。将基因表达水平归一化为管家基因Actin和Gapdh。
表1由LncLOOM分析的序列顺序。
表2用于RNA下拉的寡核苷酸序列。突变的碱基加有下划线
/>
表3ASOs和LNA GapmeRs的寡核苷酸序列
表4引物序列
实施例1
LncLOOM框架
Lnc100M接收目标基因组序列的推定同源序列的集。一种实施方式集中于IncRNA和3'UTR,但是也可以容易地使用其它元件,例如增强子。对于IncRNAs,仅外显子序列用于基序识别,但LncLOOM使外显子-外显子连接的位置可视化。输入序列以一定的顺序提供(图1A),这在理想情况下与物种之间的进化距离一致,并且可以根据序列相似性自动设置。LncLOOM中使用的数据结构和算法的精确定义出现在材料和方法部分,图1A-B给出了框架的概述。LncLOOM将每个RNA序列表示为网络图(图1B)中节点的“层”,其中每个节点表示一个短k-mer(例如,k在6和15之间)。层的顺序反映了输入序列与查询序列的进化距离,查询序列放置在图的第一层(本文种描述的分析中是人类)中,来自其它物种的序列被放置在图的其他连续层中。图中的边缘连接连续层中具有相同k-mer的节点。应当理解,也可以连接“相似的”k-mer。在这些定义下,目标是识别图中彼此不相交的长“路径”的组合,从而连接在不同序列中保持相同顺序的短基序。因为人们的兴趣通常集中在顶层中存在的基序上,因此路径必需从顶层开始。识别这种路径的最大集合的问题在计算上是困难的,因为对于k=1,它与最长的公共子序列问题是相同的,但是目前的结果表明,它可以被转换成求解整数线性规划(ILP)的问题,对于该问题,在计算上很难找到最优解,但是有效的求解器是可用的(图1B和方法)。
一旦构建了该图,该过程从识别最大k值的路径开始,然后使用这些路径(如果找到的话)来约束用于较小k的路径的可能位置。这种方法不仅有利于更长的保守元件,而且可以显著识别保守的短k-mer。一旦测试了所有k值,则所得的图将合并,以获得基序及其与保守的深度的组合。为了计算基序保守性的统计显著性,生成了输入序列的MSA,并对比对列进行打乱(shuffled),从而得到具有与输入序列相似的内部相似性结构的随机序列。然后将完整的LncLOOM流水线应用于这些序列,并且对于在原始输入序列中发现的与层D保守的每个基序,或者精确地识别相同基序的经验概率,或者与层D保守的相同数目的该长度的任何基序的组合的经验概率。对于不太严格的对照,计算另外的P值,其中产生具有相同二核苷酸组成的随机序列,并且不保留序列间相似性结构。
丰富的基于HTML的套件用于以不同的方式使这些基序可视化,例如,基于保守深度对它们进行颜色编码,并且在查询序列和其他序列中都突出显示基序(LncLOOM输出的示例,参见图3A-E和4)。LncLOOM输出还包括在查询序列中识别的基序的颜色编码的自定义轨迹,其可以在UCSC基因组浏览器中查看。使用一组保守microRNA的种子位点(来自TargetScan公司)和ENCODE项目的eCLIP数据中发现的RBP结合位点对基序进行注释。
实施例2
LncLOOM识别Cyrano IncRNA中的深度保守元件
Cyrano IncRNA是广泛和高度表达的IncRNA12,13。尽管在整个脊椎动物中都是保守的,Cyrano在整个外显子序列长度上表现出约5倍的变异(青鳉鱼的2,340nt至负鼠的10,155nt,图2A)。先前在Cyrano中鉴定出的67nt高度受约束的元件是BLAST报道的在比较斑马鱼和人类序列时具有显著相似性的唯一区域。此外,在100倍全基因组比对(100-way wholegenome alignment)(UCSC基因组浏览器)中,整个Cyrano基因座在哺乳动物和鱼类之间是不可比对的。这个高度保守的元件包含异常广泛互补的miR-7结合位点,这是Cyrano降解miR-7所需的。
为了识别其他的保守元件,从可定位有用的RNA-seq数据的18个物种中筛选出Cyrano序列,包括8种哺乳动物、鸡、热带爪蟾、7种脊椎鱼类和象鲨(未示出)。LncLOOM识别了在所有物种中保守的7种,除鲨鱼之外的所有物种中保守的9种(图2B),和在哺乳动物中保守的37个基序。以下工作重点关注除鲨鱼之外的所有物种中保守的九种(在图2B中编号为1-9)。
AUGGCG(SEQ ID NO:17)
UGUGCAAUA(SEQ ID NO:18)
ACAAGU(SEQ ID NO:19)
CAACAAAAU(SEQ ID NO:20);
GUCUUCCAUU(SEQ ID NO:21);
UGUAUAG(SEQ ID NO:22)
UGCAUGA(SEQ ID NO:23)
CUAUGCA(SEQ ID NO:24)
GCAAUAAA(SEQ ID NO:25),
通过两次LncLOOM测试发现其中的7个具有统计学显著性(P<0.01)(如材料和方法部分所述)。只有3-6落在可通过BLAST识别的67nt保守区域内,包括与miR-7的5'和3'配对对应的两个(图2C),以及类似于Pumilio识别元件(Pumilio Recognition Element,PRE,元件#6)的另一个UGUAUAG(SEQ ID NO:22)。该元件确实结合了来自人类和小鼠的CLIP数据中的PUM1和PUM2(图2D-E),以及在Cyrano水平相对较高的小鼠新生脑中,PUM1和PUM2的消耗导致Cyrano表达增加(调整P值3.49×10-3,数据来自14,图2E),这与这些蛋白质在RNAdecay15中的功能一致。这种抑制很可能是由于这种高度保守的PRE和其它PRE的综合作用-来自不同物种的18个Cyrano序列平均具有3.2个共有PREs(包括小鼠序列中的两个,相比之下,1,000个随机打乱序列中有平均1.3,P<0.001,参见方法部分)。
可以将推定的生物学功能赋予由Cyrano序列中的LncLOOM识别的几个另外的保守元件。在miR-7结合位点上游约60nt处发现了所有18个输入物种保守的9mer,UGUGCAAUAUGUGCAAUA(元件#2,SEQ ID NO:35,图2B),位于可通过BLAST比对的区域之外。该元件对应于miR-25/92家族种子匹配(图2C),最近显示在小鼠胚胎心脏中受到miR-25/92家族成员的结合和调节16。在Cyrano的3'末端,一个保守元件(SEQ ID NO:25,GCAAUAAA)对应于Cyrano聚腺苷酸化信号(PAS)以及miR-137位点。在PAS上游约100nt处发现的另一个序列CUAUGCA(SEQ ID NO:24)对应于miR-153的种子匹配,并且该区域在小鼠脑中被Ago2结合(图2E)。有趣的是,转染miR-137和miR-153后,HeLa细胞中的Cyrano水平分别降低了41%和11%17。因此,除了已报道的与miR-7和miR-25/92的相互作用之外,Cyrano还受到其他microRNA的高度保守调控。
在保守的Pumilio结合位点下游约55nt处,存在与Rbfox RBPs的共识结合基序(consensus binding motif)匹配的保守WGCAUGA基序(W=A/U,SEQ ID NO:27)。该基序与小鼠中的Rbfox1/2结合,Cyrano的3'半部分中含有WGCAUGA实例的其它区域也是如此(图2E)。事实上,对18个Cyrano物种的分析显示了WGCAUGA的显著富集(9.8个实例对比偶然预期的4.5个实例,P<0.001,见方法部分)。与miRNA和Pumilio结合位点相反,对Rbfox1/2功能丧失的各种RNA-seq数据集的检查发现对Cyrano水平没有影响(未示出),表明Rbfox1/2的广泛和保守的结合可能影响Cyrano的功能,而不影响其表达。
在Cyrano的5'处发现了另一个高度保守的6mer,AUGGCG(SEQ ID NO:17)。对来自人类、小鼠和斑马鱼的Cyrano序列和Ribo-seq数据的检查表明,该6mer对应于保守的短2-3aa ORF的前两个密码子(图2F)。在Cyrano的5'末端的ORF处发现了明显的核糖体结合,在人类和斑马鱼中观察到该元件下游有非常有限数量的核糖体保护片段(图2F),表明在该短ORF处有有效的翻译和核糖体释放。ORF中AUG起始密码子的上下文与TISU基序的12个碱基完全匹配,TISU基序是影响转录和翻译的调控元件。TSIU位于转录物的5'末端,作为YY1结合位点,其可以决定转录起始位点,并作为高效并且精确的cap依赖翻译起始元件(cap-dependent translation initiator element),用于在没有扫描的情况下进行的翻译18,19。该基序的基因组区域显示与DNA的强YY1结合(图2F)。有人提出,该基序可以具有双重功能,一方面作为调节Cyrano表达的YY1元件,另一方面作为可能有助于Cyrano功能的短ORF的开始,如其它IncRNAs所提出的20。总的来说,可以假定Cyrano九种保守元素中的八种具有假定生物学功能(putative biological functions)-4种作为miRNA结合位点,2种作为RBP结合位点,1种作为保守的短ORF,还有1种作为PAS。这些元件由非保守序列的长序列间隔开(图2B),这强调了将LncLOOM与注释和正交数据结合以揭示IncRNA生物学的能力。
实施例3
LncLOOM鉴定libra IncRNA中的深度保守元件
作为LncLOOM能够在已知与miRNA生物学相关的转录本中发现保守元件的能力的另一个示例,它被应用于斑马鱼中的libra IncRNA和哺乳动物中的Nrep蛋白的八个同源物。这是为数不多的几个基因例子之一,这些基因从一个可能的祖先IncRNA演变成一个蛋白质编码基因,同时在其3'区域保留了大量的序列同源性12,21。libra通过高度保守和高度互补的位点引起斑马鱼和小鼠中miR-29b的降解21。使用BLASTN将斑马鱼libra与人类和小鼠序列进行比较,从约2.2kb的人类序列中恢复了约250nt的比对,而对于斑雀鳝,则存在额外的短显着比对(E值<0.001)。LncLOOM发现17个元件在所有物种之间是保守的,除斑马鱼之外,在所有物种中有超过25个元件是保守的(图6)。这些包括miR-29位点,以及8个另外的miRNA的保守结合位点,其中3个是通过BLAST在哺乳动物和鱼类物种之间的比对区域之外发现的(图6)。因此似乎Cyrano和Libra,这两个被证明能有效引发靶向miRNA降解(TDMD)的IncRNA含有几个另外的高度保守的miRNA结合位点,然而与TDMD介导的位点相反,这些是可能影响IncRNA水平(而不影响miRNA水平)的“常规”种子位点,。
实施例4
LncLOOM识别CHASERR IncRNA中的保守基序
为了测试LncLOOM识别不适于BLAST比较的序列中的保守模块的能力,本发明人关注CHASERR,这是一种最近被表征为小鼠生存必需的IncRNA27。基于与CHD2转录起始位点的紧密接近性(<2kb)及其特征性5-外显子基因结构,在不同物种中很容易识别CHASERR同源物27。本发明人手动从16种脊椎动物中筛选出CHASERR序列,其长度为579-1313nt,其中4个序列可能是5'-不完整的,因为在极其富含G/C的启动子和CHASERR的第一个外显子周围的一些基因组组装中存在间隙27(图7)。BLASTn发现人类CHASERR与来自羊膜的9个序列之间有显著(E-值<0.01)的比对,但与其它6种脊椎动物中的任何一个序列之间没有显著比对。相反,当使用斑马鱼序列作为查询时,BLAST仅在其它鱼类物种中和负鼠中发现同源性。当CHASERR序列被输入到Clustal0 MSA时,仅发现三个相同的位置28。因此,CHASERR的有限保守性对于使用比较基因组常用工具进行分析是一个挑战。
LncLOOM识别出在所有层中保守的两个k-mer:在3'末端的AAUAAA(SEQ ID NO:3),其对应于PAS;以及AAGAUG(SEQ ID NO:2),在所有CHASERR序列(图3A中的基序1)的最后一个外显子中发现一次或两次。AAUAAA(SEQ ID NO:1)基序,发现于CHASERR的3'末端附近,并且很可能对应于聚腺苷酸化信号(PAS),没有进行进一步测试。对CHASERR序列的观察发现AAGAUG基序(SEQ ID NO:5)明显是过表达的-CHASERR同系物平均具有2.1个实例(P<0.01),而偶然预期的仅为0.45个。在这34个实例中,基序的上下文通常也是类似的,基序后是嘌呤(图3B)。明显相关的基序AUGG(图3A中的基序2)(SEQ ID NO:2)在11个序列中是保守的。包括侧翼序列,基序2与基序1共享ARAUGR核心(图3B)。这表明这些序列与任何RBP的已知结合偏好不匹配,并且对eCLIP数据的检查没有揭示出明显的结合物候选物。因此,通过实验进一步探索了这些序列的功能。
为了测试保守元件的功能意义,设计了与小鼠Chaserr中保守基序的三个实例互补的反义寡核苷酸(ASOs)(图8A),并将其转染到小鼠Neuro2a(N2a)细胞中,此前已在该细胞中显示过Chaserr的消耗会导致Chd2 RNA和蛋白质水平增加27。对应于这些ASOs的人类序列是CCATAGTAGACTGCCATCTT(SEQ ID NO:7)靶向AAGATGGCAGTCTACTATGG(SEQ ID NO:12),以及ATCCACTGTCCATTTGTG(SEQ ID NO:9)靶向CACAAATGGACAGTGGAT(SEQ ID NO:10)。
AS01和AS03单独或混合转染导致Chd2水平的显著增加,与Chaserr敲除引起的结果相当(图3C)。有趣的是,ASO处理导致Chaserr水平的增加,通过在ASO靶向区域的上游或下游发现的RT-PCR引物对进行评估(图3C)。
为了识别可能结合保守区域的蛋白质,本发明人使用体外转录来产生生物素化的RNA,其含有Chaserr最后一个外显子的WT序列,在四个保守基序中具有AUGG→UACC突变的相同序列,以及第二个突变体,其中最后一个外显子中所有七个AUGG位点突变为UACC(图8A)。这些序列,及其反义对照,与N2a细胞的裂解物一起温育,并且使用质谱分离并识别与不同RNA变体相关的蛋白质。正如这些实验中的典型情况一样,大量的蛋白质,938个,被识别为与WT序列(未示出)相关联,其中74个与反义序列相比富集≥3倍;然而,当使用WT序列时,与两个突变体相比,只有9个具有≥2倍高的回收率(图3D)。然后,本发明人检查了公共RNA-seq数据集,并在这些蛋白质被干扰时寻找Chd2和/或Chaserr水平变化的证据。这种证据可获自与DHX36和ZFR(图8B-C)。使用RNA免疫沉淀(RIP)和特异性抗体验证了Chaserr与DHX36(与突变序列相比,显示最高富集的蛋白质)的显著关性(图3D)。有趣的是,已知DHX36可以结合G-四链体序列29,30,保守元件确实含有GG对,尽管它们彼此相距很远,典型的G-四链体含有至少3个G的序列。QGRS映射器31预测在Chaserr的最后一个外显子中有一个G四链体(图8A),但是集成不同评分系统的其他工具(包括G4RNA扫描仪32)在Chaserr的最后一个外显子中没有发现任何高分的G四联体。也有可能在该序列中形成非规范的G四链体,或者它具有不同的DHX36识别模式。
因此,LncLOOM能够识别IncRNA中的功能相关元件,这些元件可以作为设计用于干扰其功能的靶向试剂的基础,并使得能够使用蛋白质组学方法来识别特定的、功能相关的lncRNA相互作用配偶体。
实施例5
DICER1和Pumilio mRNA 3'UTR内的深度保守元件
接下来,本发明人想要评估LncLOOM在IncRNAs之外的适用性,并用于比较跨越更长进化距离的序列。3'UTR可以决定RNA稳定性和mRNA的翻译效率,并且它们通常比其它mRNA区域进化得更快34。3'UTR之间的同源性相当容易定义,基于其相邻的编码序列,这些编码序列通常在很长的进化距离上很容易进行比较。然而,脊椎动物和无脊椎动物之间的3'UTR内的功能元件的长期保存的已知案例非常少。为了使用LncLOOM研究3'UTR保守性,本发明人首先关注在转录后调节中起作用的基因,因为这些基因通常经历特别复杂的转录后调节。使用可获得的RNA-seq和表达序列标签(EST)数据,本发明人汇编了来自12个物种的编码miRNA途径的关键成分的DICER1的3'UTR序列的集合,包括8种脊椎动物、文昌鱼、七鳃鳗、海胆、肠杆菌的DICER,以及果蝇中的两种DICER。可以通过BLASTN,将人类DICER1与来自脊椎动物物种的3'UTR进行比对,但不能超出其他范围。LncLOOM识别了在所有脊椎动物序列中保守的15个元件,其中6个元件的长度在随机序列中未发现(P<0.01,图9)。8个保守基序在脊椎动物之外是保守的(并且无法通过MSAs或BLAST进行评估),在所有物种中都发现了一个对应于保守miR-219的结合位点的基序,包括蝇Dicer2 3'UTR。
然后,本发明人关注了PUM1和PUM2 mRNA的3'UTR,其编码转录后抑制基因表达的Pumilio蛋白。Pumilio蛋白是深度保守的,在脊椎动物中有两种Pumilio蛋白,PUM1和PUM2,在其他脊索动物和果蝇中只有一个直系同源蛋白。整理了来自12种脊椎动物和4种无脊椎动物(七鳃鳗、文昌鱼、肠杆菌和果蝇)的3'UTR序列。人类和斑马鱼的3'UTR容易通过BLASTN进行比对,并且人类PUM1的3'UTR与七鳃鳗和文昌鱼中的Pumilio mRNA的3'UTR之间甚至具有显著的同源性,但与苍蝇和肠杆菌中的Pumilio mRNA的3'UTR没有显著的同源性。LncLOOM识别了在整个脊椎动物PUM1 3'UTR中保守的8个元件,其中一个UGUACAUU(SEQ IDNO:14)在所有16个分析的3'UTR中一直是保守的,直至果蝇3'UTR(图4,顶部)。在PUM2中,有3个元件在整个脊椎动物中保守,还包括UGUACAUU,它在所有序列中都被发现(图4,底部)。有趣的是,该UGUACAUU基序与PRE共有序列UGUANAUA(SEQ ID NO:28)部分匹配,并且它在人类ENCODE数据中与PUM1和PUM2都结合,这表明这个古老的元件是已知的存在于PUmiliomRNA中的自动调节程序的一部分15。因此,LncLOOM能够识别3'UTR序列中的深度保守元件,包括那些相隔5亿年的元件,其中可用的工具无法检测到显著的序列保守性。
实施例6
对3'UTR种保守基序的系统分析揭示了深度保守元件
为了宽泛评估LncLOOM的预测能力,对3'UTR序列进行了综合分析。本发明人专注于基于其侧翼高度保守的编码序列而明确定义的3'UTR,从而允许构建跨越数亿年进化的高置信度输入数据集,由此可以使用Lnc100M系统地研究数千个元件。数据集基于2,439个基因,这些基因具有作为TargetScan7.2 miRNA靶位点预测套件的一部分生成的3'UTRmSA10。对于每个基因,生成3'UTR序列的数据集,用于Lnc100M分析,其种包含来自四个物种(人类、小鼠、狗和鸡)中的每个物种的TargetScan MSA的比对序列,前提是这些序列的长度为300nt至3,000nt。对于具有多个3'UTR同种型的基因,本发明人选择了最长的3'UTR。然后,在可用的情况下,本发明人将其他物种的Ensembl中注释的3'UTR的序列添加到数据集中,如果这些序列长于200个碱基的话。其中包括来自五种非羊膜脊椎动物物种(青蛙、鲨鱼、斑马鱼、雀鳝和七鳃鳗)和两种无脊椎动物(海鞘和苍蝇)的序列。主要目标是评估LncLOOM识别深度保守元件的能力,因此仅使用具有来自至少一种非羊膜动物的合适序列的基因。在图10A中给出了可以在不同深度分析的序列的数量。在2,439个3'UTR数据集中,2,117个数据集包含至少一个BLASTN未报道与人类序列的任何显著比对(E值<0.05)的序列,而2,031个数据集中包含至少一个与四个物种中的任一个都没有显著比对的序列(图5A)。因此,可以分析大量的序列,而基于MSA的方法可能无法询问完整的保存深度。
LncLOOM用于搜索最小长度为6个碱基的保守基序,在所有LncLOOM测试中P<0.05。LncLOOM在人类序列中检测到超过150,000个显著基序,其中27,826个基序(18.3%)对应于广泛保守的miRNA家族的种子位点(由TargetScan定义)。11,725个k-mer在羊膜动物之外是保守的,其中3,897个k-mer在至少一个不可比对的序列中被检测到(图5A-1和10)。LncLOOM在2,117个基因中的1,640个基因的第一不可比对层中检测到至少一个独特的k-mer,其含有与其各自的人类直向同源物不比对的序列,而在1,088个基因中发现了至少三个独特的k-mer的组合(图5B)。当仅考虑不与四种羊膜物种中的任一种比对的序列时,在1,529个数据集中的第一个不可比对序列中检测到至少一个独特的k-mer(图10A-F)。在114个基因中,在脊椎动物之外发现了保守性,在从人类到果蝇的97个基因中发现了保守性。在果蝇基因中共发现170个独特的k-mer(265个实例),其中只有两个与广泛保守的miRNA结合位点相匹配(图5C)。
接下来,本发明人考虑了多个基因的3'UTR之间共享的特定保守k-mer。在不可比对序列中检测到的k-mer中,42个是至少50个基因共享的,其中只有2个对应于广泛保守的miRNA结合位点,30个在无脊椎动物序列中是保守的(图5D)。在这30个中,18个k-mer在富含A/U的环境中包含UUU序列,类似于富含AU的元件(ARE),而5个包含AUAA,类似于PAS。其它k-mer包含UGUA核心,类似于PRE。因此,这三组与miRNA无关的元件通常在3'UTR中非常保守,可以通过LncLOOM检测到这些保守。
为了评估LncLOOM的敏感性,将LncLOOM识别的广泛保守的miRNA的结合位点与2,439个基因中的每个基因的TargetScan预测进行了比较,其TargetScan预测了人类序列中2,121个基因的结合位点。IncLOOM预测了2,330个基因中的结合位点,其中217个基因的TargetScan比对未识别出任何广泛保守的位点(图5E)。可以在github.com/Lnclom/Lnclom中找到Inclom预测的所有miRNA位点的总结。在大量案例中(2,117个基因中的29%),LncLOOM发现miRNA结合位点在3'UTR与MSA中的人类序列无法比对的物种中显著保守(图5F)。为了更精确地比较IncLOOM和TargetScan预测,本发明人关注了TargetScan在用于lncLOOM分析的相同人类转录本中预测的2,359个基因的结合位点(图5E),其中lncLOOM恢复了由TargetScan预测的所有广泛保守位点的90.24%(图5G)。在217个基因中,42个基因具有在哺乳动物之外保守的位点,并且在鱼类和果蝇物种中发现了一些基因的保守性(图10A-F)。除了回收miRNA位点之外,IncLOOM还识别了另外21,615个先前未预测到的广泛保守位点。当比较保守性深度时,Inc100M经常检测到通过TargetScan在更远端物种中恢复的位点(图5G和10A-F)。重要的是,在24%和13%的基因的不可比对序列中分别检测到831个恢复预测和331个新预测。
因此,LncLOOM也是分析3'UTR序列的有力工具,与基于MSA的方法相比,它揭示了miRNA或其他功能结合位点的更大深度的保守性,同时对灵敏度的影响有限。
实施例7
CHASERR的靶向引起神经母细胞中CHD2的上调
下文提供了序列:
人类Chaserr AAGGGGUAUCAUCUGACGGUAGAACUAA 5’(SEQ ID NO:123)
小鼠Chaserr AAGGGGUAUUACCCGACGGUAGAACUAA 5’(SEQ ID NO:124)
A40/A52 5’CCAUAGUAGACUGCCAUCUU 3’(SEQ ID NO:128/133)
A50 5’CCAUAGUAGACUGCCAUC 3’(SEQ ID NO:131)
A51 5’AUAGUAGACUGCCAUCUU 3’(SEQ ID NO:132)
A35 5’CCAUAAUGGGCUGCCAUCUU 3’(SEQ ID NO:127)
A49 5’CCAUAGUGGGCUGCCAUCUU 3’(SEQ ID NO:130)
A27 5’CGAUAGCAGGAGAAGUCUGAAG 3’(SEQ ID NO:125)
A28 5’CUCUCUCUCUUUCUAUCCCUUC 3’(SEQ ID NO:126)
靶向CHASERR的ASO
A35-与在小鼠中使用的ASO相同。该ASO与小鼠序列互补。
A40-一种ASO,其靶向小鼠中与ASO1相同但与人类序列完全互补的区域。
A49-一种类似于A35和A40的ASO,但它可能具有使用G-U配对与人类和小鼠序列进行配对的碱基。
A50-与A40相同,但是具有2’MO修饰而不是2’MOE修饰,并且在3’端被2个碱基截短
A51-与A40相同,但是具有2’MO修饰而不是2’MOE修饰,并且在5’端被2个碱基截短
A52-与A40相同,但包括LNA修饰
结果
将对CHD2mRNA和蛋白质水平的影响与非靶向的ASO A27和A28进行比较。A28引起SH-SY5Y细胞中p21和应激反应的上调(图16),因此与A27进行比较。
将细胞以2.5×105/35mm板的密度铺板。使用DharmaFECT4转染试剂(T-2004-03,horizon)用25μM的ASO转染细胞。转染后48小时提取RNA。
相对于未转染的细胞或用对照ASO转染的细胞,ASO A40、A50、A51和A52在上调CHD2方面最有效(图16)。
实施例8
CHASERR的靶向引起MCF7细胞中CHD2和SH-SY5Y的上调
反义寡核苷酸和LNA GapmeR转染
将MCF7细胞系(获自ATCC)在含有10%胎牛血清和100U青霉素/0.1mg ml-1链霉素的DMEM中培养。SH-SY5Y细胞系(获自ATCC)在含有10%胎牛血清、100U青霉素/0.1mg ml-1链霉素和2mM GlutaMAX(Thermofisher公司:35050061)的DMEM/营养混合物F-12Ham(Sigma公司:D6421)中培养。所有细胞均在37℃下在含5% CO2的加湿培养箱中培养,并常规测试支原体污染。第一组ASO:AS01(A40,SEQ ID NO:128)和AS03(A41,SEQ ID NO:134),用2'-O-甲氧基-乙基碱修饰。使用靶向人类Chaserr的第二内含子的LNA Gapmer进行Chaserr敲除。转染:将2×105MCF7或SH-SY5Y接种在六孔板中,并使用Dharmafect4(Dharmacon公司)转染试剂,按照制造商的方案,用AS01(AS040)和AS03(AS041)的混合物或用Chaserr gapmeR(表5)转染至最终浓度为50nM。所有实验的终点在转染后48小时,之后用TRIZOL收集细胞,用于RNA提取,并通过RT-qPCR分析评估。对Chasser和CHD2表达的影响如图17所示。
表5 ASOs和LNA GapmeRs的寡核苷酸序列
名称 序列/SEQ ID NO:
ASO1(ASO40) CCAUAGUAGACUGCCAUCUU/128
ASO3(ASO41) ATCCACUGUCCAUUUGTG/134
Control ASO(A28) CGAUAGCAGGAGAAGUCUGAAG/126
Chaserr GapmeR GTCGAATAAACCAGTATC/135
对照GapmeR AACACGTCTATACGC(Cat#:LG00000002)/136
尽管已经结合本公开的具体实施方式描述了本公开,但是显然,对于本领域技术人员来说,许多替代、修改和变化将是显而易见的。因此,旨在包含落入所附权利要求的精神和广泛范围内的所有这些替换、修改和变化。
申请人的意图在于,本说明书中提及的所有出版物、专利和专利申请通过引用全部并入本说明书中,结合程度如同每个单独的出版物、专利或专利申请都通过引用具体和单独地结合到本说明书中。此外,本申请中任何参考的引用或标识不应解释为承认此类参考可作为本公开的现有技术。就所使用的章节标题而言,它们不应被理解为必要的限制。此外,本公开的任何一个或多个优先权文件的全部内容过引用的方式整体并入本文。
参考文献
(文本中包括其他引用)
1.Ulitsky,I.&Bartel,D.P.,lincRNAs:基因组学、进化和机制(genomics,evolution,and mechanisms),细胞(Cell)154,26-46(2013)。
2.Iyer,M.K.等人,人类转录组中长链非编码RNA的概况,自然遗传(Nat.Genet.)47,199-208(2015)。
3.Ulitsky,I.拯救进化:使用比较基因组学来理解长非编码RNA,遗传学自然评论(Nat.Rev.Genet.)(2016)doi:10.1038/nrg.2016.85。
4.Hezroni,H.等人,直接比较17个物种转录组得出的长非编码RNA进化原理细胞研究(Cell Rep.)(2015)doi:10.1016/j.celrep.2015.04.023。
5.Wang,A.X.,Ruzzo,W.L.&Tompa,M.,全基因组多重比对中ncRNA比对的准确度如何?生物信息学(BMC Bioinformatics)8,417(2007)。
6.Bartel,D.P.,后生动物MicroRNAs.,细胞(Cell)173,20-51(2018)。
7.Dominguez,D.等人,人类RNA结合蛋白的序列、结构和上下文偏好,分子与细胞(Mol.Cell)70,854-867.e9(2018)。
8.Maier,D.,子序列和超序列一些问题的复杂性(1978)。
9.Atamtürk,A.&Savelsbergh,M.W.P.,整数编程软件系统,运筹学年刊(Ann.Oper.Res.)140,67-124(2005)。
10.Agarwal,V.,Bell,G.W.,Nam,J.-W.&Bartel,D.P.,预测哺乳动物mRNA中的有效microRNA靶位点,电子生活(Elife)4,e05005(2015)。
11.Van Nostrand,E.L.等人,人类RNA结合蛋白的大规模结合和功能图谱,预印本在线期刊(bioRxiv)179648(2017)doi:10.1101/179648。
12.Ulitsky,I.,Shkumatava,A.,Jan,C.H.,Sive,H.&Bartel,D.P.,尽管序列进化迅速,但lincRNA在脊椎动物胚胎发育中的保守功能,细胞(Cell)147,1537-1550(2011)。
13.Kleaveland,B.,Shi,C.Y.,Stefano,J.&Bartel,D.P.,哺乳动物大脑中的非编码调节RNA网络,预印本在线期刊(bioRxiv)(2018)。
14.Zhang,M.等人,Pumilio蛋白对小鼠神经发生的转录后调节,基因与发育(Genes Dev.)31,1354-1369(2017)。
15.Goldstrohm,A.C.,Hall,T.M.T.&McKenney,K.M.,哺乳动物Pumilio蛋白的转录后调节功能,遗传学趋势(Trends Genet.)34,972-990(2018)。
16.Li,X.,Pritykin,Y.,Concepcion,C.P.,Lu,Y.&La Rocca,G.,通过Halo-Enhanced Ago2 Pulldown对miRNA靶标进行高分辨率体内识别,预印本在线期刊(bioRxiv)(2019)。
17.McGeary,S.E.,Lin,K.S.,Shi,C.Y.,Bisaria,N.&Bartel,D.P.,microRNA靶向功效的生化基础doi:10.1101/414763。
18.Elfakess,R.&Dikstein,R.,特异于具有非常短5'UTR的mRNA的翻译起始元件也可调节转录,公共科学图书馆期刊(PLoS One)3,e3094(2008)。
19.Elfakess,R.等人,含有TISU元件的mRNA的独特翻译起始,核酸研究(NucleicAcids Res.)39,7598-7609(2011)。
20.Housman,G.&Ulitsky,I.,区分蛋白质编码和长非编码RNA的方法以及长非编码RNA翻译的难以捉摸的生物学目的,生物化学生物物理学报(Biochim.Biophys.Acta)(2015)doi:10.1016/j.bbagrm.2015.07.017。
21.Bitetti,A.等人,保守靶RNA降解MicroRNA可调节动物行为,自然结构与分子生物学(Nat.Struct.Mol.Biol.)25,244-251(2018)。
22.Munschauer,M.等人,NORAD lncRNA组装对基因组稳定性至关重要的拓扑异构酶复合物,自然(Nature)561,132-136(2018)。
23.Lovci,M.T.等人,Rbfox蛋白通过进化保守的RNA桥调节选择性mRNA剪接,自然结构与分子生物学(Nat.Struct.Mol.Biol.)20,1434-1442(2013)。
24.Jangi,M.,Boutz,P.L.,Paul,P.&Sharp,P.A.,Rbfox2控制RNA结合蛋白网络的自动调节,基因与发育(Genes Dev.)28,637-651(2014)。
25.Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.,Argonaute HITS-CLIP解码microRNA-mRNA相互作用图,自然(Nature)460,479-486(2009)。
26.Michel,A.M.等人,GWIPS-viz:核糖测序基因组浏览器的开发,核酸研究(Nucleic Acids Res.)42,D859-64(2014)。
27.Rom,A.等人,Chaserr长非编码RNA基因对CHD2表达的调节对于生存能力至关重要,自然通讯(Nat.Commun.)10,5092(2019)。
28.Sievers,F.等人,使用Clustal Omega快速、可扩展地生成高质量蛋白质多序列比对,分子系统生物学(Mol.Syst.Biol.)7,(2011)。
29.Chen,M.C.等人,DEAH/RHA解旋酶DHX36解折叠G-四链体的结构基础,自然(Nature)558,465-469(2018)。
30.Sauer,M.等人,DHX36可防止具有G4结构的翻译失活mRNA在非翻译区域的积累,自然通讯(Nat.Commun.)10,2421(2019).
31.Kikin,O.,D’Antonio,L.&Bagga,P.S.,QGRS Mapper:一个基于网络的服务器,用于预测核苷酸序列中的G-四链体,核酸研究(Nucleic Acids Res.)34,W676-82(2006)。
32.Garant,J.-M.,Perreault,J.-P.&Scott,M.S.,G4RNA筛选网络服务器:用于RNA G四链体预测的用户中心界面,生物化学(Biochimie)151卷,115-118(2018)。
33.Haque,N.,Ouda,R.,Chen,C.,Ozato,K.&Hogg,J.R.,ZFR协调先天免疫中RNA衰变和转录之间的串扰,自然通讯(Nat.Commun.)9,1145(2018)。
34.Shabalina,S.A.,Ogurtsov,A.Y.,Rogozin,I.B.,Koonin,E.V.&Lipman,D.J.,直系同源真核mRNA的比较分析:潜在的隐藏功能信号,核酸研究(Nucleic Acids Res.)32,1774-1782(2004)。
35.Kirk,J.M.等人,按k-mer含量对长非编码RNA进行功能分类,自然遗传(Nat.Genet.)50,1474-1482(2018)。
36.Quinn,J.J.等人,快速的进化周转是保守的lncRNA-基因组相互作用的基础,基因与发育(Genes Dev.)30,191-207(2016)。
37.Tycowski,K.T.,Shu,M.D.,Borah,S.,Shi,M.&Steitz,J.A.,多种病毒的非编码和基因组RNA中形成三螺旋的RNA稳定性元件的保守性,细胞研究(Cell Rep.)2,26-32(2012)。
38.Deveson,I.W.等人,非编码外显子的通用选择性剪接,细胞系统(Cell Syst)6,245-255.e5(2018)。
39.Katoh,K.,Misawa,K.,Kuma,K.-I.&Miyata,T.,MAFFT:一种基于快速傅里叶变换的快速多序列比对的新方法,核酸研究(Nucleic Acids Res.)30,3059-3066(2002)。
40.Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.&Lipman,D.J.,基本的局部比对搜索工具,分子生物学杂志(J.Mol.Biol.)215,403-410(1990)。
41.Karp,R.M.,计算机计算复杂性组合问题的可归约性:计算机计算复杂性研讨会论文集,1972年3月20日至22日在纽约州约克敦高地IBM Thomas J.Watson研究中心举行,赞助商由海军研究办公室、数学项目、IBM世界贸易公司和IBM研究数学科学部编写(Miller,R.E.、Thatcher,J.W.和Bohlinger,J.D.编辑)85-103(施普林格(Springer)US,1972年)。
42.Hagberg,A.,Swart,P.&S Chult,D.,使用NetworkX探索网络结构、动态和功能,www.osti.gov/biblio/960616(2008)。
43.Mitchell,S.,OSullivan,M.&Dunning,I.,PuLP:Python的线性编程工具包,奥克兰大学,新西兰奥克兰(2011)。
44.Kent,W.J.,BLAT-类似BLAST的比对工具,基因组研究(Genome Res.)12,656-664(2002)。
45.Dobin,A.等人,STAR:超快通用RNA-seq对准器,生物信息学(BMCBioinformatics)29,15-21(2013)。
46.Li,B.&Dewey,C.N.,RSEM:在有或没有参考基因组的情况下,根据RNA-Seq数据进行准确的转录本定量,生物信息学(BMC Bioinformatics)12,323(2011)。
47.Elinger,D.,Gabashvili,A.&Levin,Y.,悬浮捕获(S-Trap)与自下而上蛋白质组学的典型蛋白质提取缓冲液和洗涤剂兼容,蛋白组学研究杂志(J.Proteome Res.)18,1441-1445(2019)。
48.Cox,J.&Mann,M.,MaxQuant可实现高肽鉴定率、个性化p.p.b.范围质量精度和全蛋白质组蛋白质定量,自然生物技术(Nat.Biotechnol.)26,1367-1372(2008)。
序列表
<110> 耶达研究及发展有限公司(YEDA RESEARCH AND DEVELOPMENT CO. LTD.)
伊戈尔·乌利茨基(ULITSKY, Igor)
卡罗琳·简·罗斯(ROSS, Caroline Jane)
<120> 用于治疗CHD2单倍体不足的组合物及其识别方法(COMPOSITIONS FOR USE
IN THE TREATMENT OF CHD2 HAPLOINSUFFICIENCY
AND METHODS OF IDENTIFYING SAME)
<130> 89180
<150> US 63/127,212
<151> 2020-12-18
<160> 144
<170> PatentIn version 3.5
<210> 1
<211> 3
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 1
aug 3
<210> 2
<211> 4
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 2
augg 4
<210> 3
<211> 6
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 3
aauaaa 6
<210> 4
<211> 7
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 4
aagaugg 7
<210> 5
<211> 6
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 5
aagaug 6
<210> 6
<211> 7
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 6
aaaugga 7
<210> 7
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 7
ccatagtaga ctgccatctt 20
<210> 8
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 8
aagatggcag tctactatgg 20
<210> 9
<211> 18
<212> DNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 9
atccactgtc catttgtg 18
<210> 10
<211> 18
<212> DNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 10
cacaaatgga cagtggat 18
<210> 11
<211> 1593
<212> DNA
<213> homo sapiens
<400> 11
atggccggag aggcagcagc accccgagct gtcaggcgtt ccgccgcggc cgcgaggccc 60
gccggccggc ggggagctac gcccggacgg ccagcaggcc cgcgggagtg gggctgccgc 120
ggctgaggcg aggcgggccg cgcgcgtcgg cgtcacagcc cgcggcagag gcgcccaggg 180
cggccgggcc cacgacgccg aaagcgccgc tgcggttgcc gcctcggagg ctcccccggg 240
ccccggcggc tggacccggc gcgggcggga ggctcgggcg ggcggtccgg cccgggactc 300
gggtttgggc gaccaggagg tgccggtggc cgcgctcgga cccggtgact taagagatta 360
aaattaattt ggttgctgtt ggttctgaac aaataatgag ttcttttatt tgaggtatgc 420
cattttgaag actgagacgt tggagtttta tcctagagga taaaggaaat ctttgggaaa 480
gtcagtattt tatatagcaa aaatatgaac ctcaaactga atcctctaaa ggccccatac 540
aatgaagtag acattggtgg aaacatttac acccagtcag cttgaagagt ttcaaatgga 600
ccctaccact gagaaatcaa gatggcagtc tactatgggg aattgaggaa aaatggatta 660
atacaagagt cctgtgataa tatacaacca agacagggtt cttttaacat ggattccatg 720
cagtgaatga agacataggt ttcttaccca acacaaatgg acagtggatt tgactttcta 780
aagacttttt ttgtggacat tttgacattt ggagaagaaa gatggcacac taacccagat 840
aatagttttt atgcctggaa ttttttgcag tttgatttgt atgcgtatga cctcttgaaa 900
tgttaatttt taataaaatt tgtaacactt aaaaatttct cagtttgggt tttttttttt 960
aagtggaagt ttaattaaat gtttagtttt attttagtaa tactttggcc tttgtagttg 1020
ccgagtggta aagtgtactg aatatgaata aagctggtaa attggaaatg gtgtaatcga 1080
aaacatttta cttggtttat gaagatttac gtttttcaca aagttgtgct cttagatggt 1140
catttggttt aaatactgtt ttgtttgtgc tttcatgaaa cacctttcaa aacaactcaa 1200
tgggtaataa tagaatctga ttttaatctg ccacaagatt ttaatgaact tgaaacaaac 1260
tgcttgttgc tcgaaaattc aggatgagtg atacacatat acttctgaat tattttgtgt 1320
tgattgaaat ggtttcttaa gctttttaat actataaata catcttgcta tagaatattc 1380
atctgaatat ttaaattaat gtctcctatt gtcttactat tagaggaaga agtgttggat 1440
ttatgggtta gggtccttgg agtattcaca attttttaaa tttgaaatta tgtgtgtaat 1500
ccattttata taactttgaa gtaggattaa tatcttgtat cgtctttatt ttgtacaatt 1560
ggggatttag aataaatgaa ttgcaccctg cca 1593
<210> 12
<211> 1787
<212> DNA
<213> homo sapiens
<400> 12
atggccggag aggcagcagc accccgagct gtcaggcgtt ccgccgcggc cgcgaggccc 60
gccggccggc ggggagctac gcccggacgg ccagcaggcc cgcgggagtg gggctgccgc 120
ggctgaggcg aggcgggccg cgcgcgtcgg cgtcacagcc cgcggcagag gcgcccaggg 180
cggccgggcc cacgacgccg aaagcgccgc tgcggttgcc gcctcggagg ctcccccggg 240
ccccggcggc tggacccggc gcgggcggga ggctcgggcg ggcggtccgg cccgggactc 300
gggtttgggc gaccaggagg tgccggtggc cgcgctcgga cccggttctc caacggagga 360
gctttttaac ctctttccgg tgaggtggga actcatcttc atgatcgaat ttaaaagaac 420
aatggaaccc tgactacgtt tcaacaaaaa taaaacttgt ttttttccct cctattgggt 480
gttggctttt aactctttca aagccgattt tgaaacggct gcagtgatac atgcgaaggt 540
gacttaagag attaaaatta atttggttgc tgttggttct gaacaaataa tgagttcttt 600
tatttgaggt atgccatttt gaagactgag acgttggagt tttatcctag aggataaagg 660
aaatctttgg gaaagtcagt attttatata gcaaaaatat gaacctcaaa ctgaatcctc 720
taaaggcccc atacaatgaa gtagacattg gtggaaacat ttacacccag tcagcttgaa 780
gagtttcaaa tggaccctac cactgagaaa tcaagatggc agtctactat ggggaattga 840
ggaaaaatgg attaatacaa gagtcctgtg ataatataca accaagacag ggttctttta 900
acatggattc catgcagtga atgaagacat aggtttctta cccaacacaa atggacagtg 960
gatttgactt tctaaagact ttttttgtgg acattttgac atttggagaa gaaagatggc 1020
acactaaccc agataatagt ttttatgcct ggaatttttt gcagtttgat ttgtatgcgt 1080
atgacctctt gaaatgttaa tttttaataa aatttgtaac acttaaaaat ttctcagttt 1140
gggttttttt ttttaagtgg aagtttaatt aaatgtttag ttttatttta gtaatacttt 1200
ggcctttgta gttgccgagt ggtaaagtgt actgaatatg aataaagctg gtaaattgga 1260
aatggtgtaa tcgaaaacat tttacttggt ttatgaagat ttacgttttt cacaaagttg 1320
tgctcttaga tggtcatttg gtttaaatac tgttttgttt gtgctttcat gaaacacctt 1380
tcaaaacaac tcaatgggta ataatagaat ctgattttaa tctgccacaa gattttaatg 1440
aacttgaaac aaactgcttg ttgctcgaaa attcaggatg agtgatacac atatacttct 1500
gaattatttt gtgttgattg aaatggtttc ttaagctttt taatactata aatacatctt 1560
gctatagaat attcatctga atatttaaat taatgtctcc tattgtctta ctattagagg 1620
aagaagtgtt ggatttatgg gttagggtcc ttggagtatt cacaattttt taaatttgaa 1680
attatgtgtg taatccattt tatataactt tgaagtagga ttaatatctt gtatcgtctt 1740
tattttgtac aattggggat ttagaataaa tgaattgcac cctgcca 1787
<210> 13
<211> 1497
<212> DNA
<213> homo sapiens
<400> 13
ctcttctcgc actgcccctc cgtggtcggg ggccggctct cgccggcggg atgcgcctcg 60
gtgccctggg cccgagtcgt agggtcctgg ggtagggggc acgcggggcc ccgctgcaga 120
gcccgcgggc ggcaggtggg cggggggcag cctcgtcgcc gggactggat ccgccgggaa 180
aggggcggcg ggtgaatgcc ggcgagagcc cgaaggggat cgggcgtgga gagccccttt 240
ctgtcctggt gacttaagag attaaaatta atttggttgc tgttggttct gaacaaataa 300
tgagttcttt tatttgaggt atgccatttt gaagactgag acgttggagt tttatcctag 360
aggataaagg aaatctttgg gaaagtcagt attttatata gcaaaaatat gaacctcaaa 420
ctgaatcctc taaaggcccc atacaatgaa gtagacattg gtggaaacat ttacacccag 480
tcagcttgaa gagtttcaaa tggaccctac cactgagaaa tcaagatggc agtctactat 540
ggggaattga ggaaaaatgg attaatacaa gagtcctgtg ataatataca accaagacag 600
ggttctttta acatggattc catgcagtga atgaagacat aggtttctta cccaacacaa 660
atggacagtg gatttgactt tctaaagact ttttttgtgg acattttgac atttggagaa 720
gaaagatggc acactaaccc agataatagt ttttatgcct ggaatttttt gcagtttgat 780
ttgtatgcgt atgacctctt gaaatgttaa tttttaataa aatttgtaac acttaaaaat 840
ttctcagttt gggttttttt ttttaagtgg aagtttaatt aaatgtttag ttttatttta 900
gtaatacttt ggcctttgta gttgccgagt ggtaaagtgt actgaatatg aataaagctg 960
gtaaattgga aatggtgtaa tcgaaaacat tttacttggt ttatgaagat ttacgttttt 1020
cacaaagttg tgctcttaga tggtcatttg gtttaaatac tgttttgttt gtgctttcat 1080
gaaacacctt tcaaaacaac tcaatgggta ataatagaat ctgattttaa tctgccacaa 1140
gattttaatg aacttgaaac aaactgcttg ttgctcgaaa attcaggatg agtgatacac 1200
atatacttct gaattatttt gtgttgattg aaatggtttc ttaagctttt taatactata 1260
aatacatctt gctatagaat attcatctga atatttaaat taatgtctcc tattgtctta 1320
ctattagagg aagaagtgtt ggatttatgg gttagggtcc ttggagtatt cacaattttt 1380
taaatttgaa attatgtgtg taatccattt tatataactt tgaagtagga ttaatatctt 1440
gtatcgtctt tattttgtac aattggggat ttagaataaa tgaattgcac cctgcca 1497
<210> 14
<211> 8
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 14
uguacauu 8
<210> 15
<211> 6
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 15
auugcu 6
<210> 16
<211> 6
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 16
caucca 6
<210> 17
<211> 6
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 17
auggcg 6
<210> 18
<211> 9
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 18
ugugcaaua 9
<210> 19
<211> 6
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 19
acaagu 6
<210> 20
<211> 12
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 20
caacaaaauc ac 12
<210> 21
<211> 10
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 21
gucuuccauu 10
<210> 22
<211> 7
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 22
uguauag 7
<210> 23
<211> 7
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 23
ugcauga 7
<210> 24
<211> 7
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 24
cuaugca 7
<210> 25
<211> 8
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 25
gcaauaaa 8
<210> 26
<211> 8
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 26
gcaauaaa 8
<210> 27
<211> 7
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 27
wgcauga 7
<210> 28
<211> 8
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<220>
<221> misc_feature
<222> (5)..(5)
<223> n is a, c, g, or u
<400> 28
uguanaua 8
<210> 29
<211> 33
<212> RNA
<213> Artificial sequence
<220>
<223> nucleic acid motif cotainng conserved motifs discovered by
integer linear programming (ILP)
<400> 29
agaaagcaua ucgagaaaga ucuauuagaa agu 33
<210> 30
<211> 39
<212> RNA
<213> Artificial sequence
<220>
<223> nucleic acid motif cotainng conserved motifs discovered by
integer linear programming (ILP)
<400> 30
ugaaagccga gaagaaagcc uacugagaaa cuagaaagu 39
<210> 31
<211> 33
<212> RNA
<213> Artificial sequence
<220>
<223> nucleic acid motif cotainng conserved motifs discovered by
integer linear programming (ILP)
<400> 31
agaaagcgaa cugagaaagu ccuaguagaa agu 33
<210> 32
<211> 32
<212> RNA
<213> Artificial sequence
<220>
<223> nucleic acid motif cotainng conserved motifs discovered by
integer linear programming (ILP)
<400> 32
agaaagucga ugaugagaaa ucuaacgaaa gu 32
<210> 33
<211> 22
<212> RNA
<213> Artificial sequence
<220>
<223> hsa-miR-25 nucleic acid sequence
<400> 33
agucuggcuc uguucacguu ac 22
<210> 34
<211> 22
<212> RNA
<213> Artificial sequence
<220>
<223> hsa-miR-92a nucleic acid sequece
<400> 34
uguccggccc uguucacguu au 22
<210> 35
<211> 19
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from human
<400> 35
ccgggauaug ugcaauaga 19
<210> 36
<211> 18
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Mouse
<400> 36
cgggauaugu gcaauaua 18
<210> 37
<211> 18
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Cow
<400> 37
cgggauaugu gcaauaga 18
<210> 38
<211> 17
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Chicken
<400> 38
ggggcaugug caauaga 17
<210> 39
<211> 16
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Xenopus
<400> 39
cuggggaugu gcaaua 16
<210> 40
<211> 19
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Fugu
<400> 40
ccgggauuug ugcaauaau 19
<210> 41
<211> 19
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Medaka
<400> 41
ccgggaucug ugcaauauu 19
<210> 42
<211> 17
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Zebrafish
<400> 42
gggaaaugug caauauu 17
<210> 43
<211> 24
<212> RNA
<213> Artificial sequence
<220>
<223> hsa-miR-7 nucleic acid sequence
<400> 43
uuguuguuuu agugaucaga aggu 24
<210> 44
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Human
<400> 44
agaacaacaa aaucaccaau gucuuccauu 30
<210> 45
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Mouse
<400> 45
agaacaacaa aaucaccaau gucuuccauu 30
<210> 46
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Cow
<400> 46
agaacaacaa aaucaccaau gucuuccauu 30
<210> 47
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Chicken
<400> 47
aaaacaacaa aaucaccaau gucuuccauu 30
<210> 48
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Platypus
<400> 48
agaacaacaa aaucaccaau gucuuccauu 30
<210> 49
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Xenopus
<400> 49
agaacaacaa aaucaccaau gucuuccauu 30
<210> 50
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Fugu
<400> 50
aaagcaacaa aaucaccaau gucuuccauu 30
<210> 51
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Medaka
<400> 51
aaagcaacaa aaucaccaau gucuuccauu 30
<210> 52
<211> 30
<212> RNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Zebrafish
<400> 52
aaaacaacaa aaucaccaau gucuuccauu 30
<210> 53
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Human
<400> 53
gaagctgcga agatggcgga gtaagg 26
<210> 54
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Mouse
<400> 54
gaaggagcga agatggcgga gtgagg 26
<210> 55
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Rat
<400> 55
gaaggagcga agatggcgga gtgagg 26
<210> 56
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Rabbit
<400> 56
gaaggagcga agatggcgga gtgagg 26
<210> 57
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Cow
<400> 57
gaaagagcga agatggcgga gtgagg 26
<210> 58
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Horse
<400> 58
gaaggagcaa agatggcgga gtgagg 26
<210> 59
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Dog
<400> 59
aaaagagcga agatggcgga gtgaga 26
<210> 60
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Elephant
<400> 60
gaaggagcga agatggcgga gtgagg 26
<210> 61
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Opossum
<400> 61
aaggaagaga agatggcggc gtgagg 26
<210> 62
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Chicken
<400> 62
aaggagggga agatggcgga gtgaga 26
<210> 63
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Frog
<400> 63
aaagggtgga agatggcggc gtgaag 26
<210> 64
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Fugu
<400> 64
agcagagcga aaatggcgta gagcga 26
<210> 65
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Tetraodon
<400> 65
agcagaacga aaatggcgta gaacga 26
<210> 66
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Medaka
<400> 66
cgcggagcaa agatggcgta gagcgg 26
<210> 67
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> partial Cyrano lncRNA from Zebrafish
<400> 67
cacgggaccg aaatggcgta acgcgc 26
<210> 68
<211> 360
<212> RNA
<213> Artificial sequence
<220>
<223> CHASERR nucleic acid sequence
<400> 68
gaguuucaaa uggacccuac cacugagaaa ucaagauggc agucuacuau ggggaauuga 60
ggaaaaaugg auuaauacaa gaguccugug auaauauaca accaagacag gguucuuuua 120
acauggauuc caugcaguga augaagacau agguuucuua cccaacacaa auggacagug 180
gauuugacuu ucuaaagacu uuuuuugugg acauuuugac auuuggagaa gaaagauggc 240
acacuaaccc agauaauagu uuuuaugccu ggaauuuuuu gcaguuugau uuguaugcgu 300
augaccucuu gaaauguuaa uuuuuaauaa aauuuguaac acuuaaaaau uucucaguuu 360
<210> 69
<211> 1705
<212> DNA
<213> Artificial sequence
<220>
<223> PUM1 3' UTR nucleic acid sequence
<400> 69
ggcaguguca cccgcuguuc ccucauuccc gcugaccuca cuggcccacu ggcaaaucca 60
accagcaacc agaaauguuc uaguguagag ucugagacgg gcaagugguu gcuccaggau 120
uacucccucc uccaaaaaag gaaucaaauc cacgagugga aaagccuuug uaaauuuaau 180
uuuauuacac auaacaugua cuauuuuuuu uaauugacua auugcccugc uguuuuacug 240
guguauagga uacuuguaca uagguaacca auguacaugg gaggccacau auuuuguuca 300
cuguuguauc uauauuucac auguggaaac uuucagggug guugguuuaa caaaaaaaaa 360
aagcuuuaaa aaaaaaagaa aaaaaggaaa agguuuuuag cucauuugcc uggccggcaa 420
guuuugcaaa uagcucuucc ccaccuccuc auuuuaguaa aaaacaaaca aaaacaaaaa 480
aaccugagaa guuugaauug uaguuaaaug accccaaacu ggcauuuaac acuguuuaua 540
aaaaatatat atatatatat atatatatat aaugaaaaag guuucagagu ugcuaaagcu 600
ucaguuugug acauuaaguu uaugaaauuc uaaaaaaugc cuuuuuugga gacuauauua 660
ugcugaagaa ggcuguucgu gaggaggaga ugcgagcacc cagaacgucu uuugaggcug 720
ggcgggugug auuguuuacu gccuacugga uuuuuuucua uuaacauuga aagguaaaau 780
cugauuauuu agcaugagaa aaaaaaaucc aacucugcuu uuggucuugc uucuauaaau 840
auauagugua uacuuggugu agacuuugca uauauacaaa uuuguaguau uuucuuguuu 900
ugaugucuaa ucuguaucua uaauguaccc uaguagucga acauacuuuu gauuguacaa 960
uuguacauuu guauaccugu aauguaaaug uggagaaguu ugaaucaaca uaaacacguu 1020
uuuugguaag aaaagagaau uagccagccc ugugcauuca guguauauuc ucaccuuuua 1080
uggucguagc auauaguguu guauauugua aauuguaauu ucaaccagaa guaaauuuuu 1140
uucuuuugaa ggaauaaaug uucuuuauac agccuaguua auguuuaaaa agaaaaaaau 1200
agcuugguuu uauuugucau cuagucucaa guauagcgag auucuuucua aauguuauuc 1260
aagauugagu ucucacuagu guuuuuuuaa uccuaaaaaa guaauguuuu gauuuuguga 1320
cagucaaaag gacgugcaaa agucuagccu ugcccgagcu uuccuuacaa ucagagcccc 1380
ucucaccuug uaaaguguga aucgcccuuc ccuuuuguac agaagaugaa cuguauuuug 1440
cauuuugucu acuuguaagu gaauguaaca uacugucaau uuuccuuguu ugaauauaga 1500
auuguaacac uacacggugu acauuuccag agccuugugu auauuuccaa ugaacuuuuu 1560
ugcaagcaca cuuguaacca uauguguaua auuaacaaac cuguguaugc uuaugccugg 1620
gcaacuauuu uuuguaacuc uuguguagau ugucucuaaa caauguguga ucuuuauuuu 1680
gaaaaauaca gaacuuugga aucug 1705
<210> 70
<211> 2893
<212> DNA
<213> Artificial sequence
<220>
<223> PUM1 3' UTR nucleic acid sequence
<400> 70
auuacaggag caagagaaag aagauaauuu aaccauguga aaagaauuuu uuugugugug 60
aauuaucaaa acacaacuca acuaugaauc uucaauuuuu uuuuaaagca aaacuauuua 120
uugacuuuau ucauccauuu guaaauuuuu uaagguucuu guguauauuu gggggguggg 180
ggaugaauua uaaauuauau ucagcccuga guggagaccu aucagauugg auugcuggca 240
aagcacagaa ugccuguaua ugauguaacu guaucaaaaa uaaaaagcug ucacauauuu 300
uguaaauuuu uaccuuguaa agucacaaaa auaguuuuua aaggaaaaag uacaguauuc 360
uuuuaauaaa cuggcucaca gucugguagg ucuacaaccc cauagcacaa cagguuuaua 420
gagauguaua uagaauuaua guccuuauuu uuuuccuuug cgugaaaccu uuuauaacag 480
auuaacaauc aacugcataa atattattaa tattttaaaa agaguuaagu uguauuuuga 540
uaauucacaa acuaucaugc aaauaacgag uaaguagaca agaauaaagu gguuugagau 600
gaaaagaacc uaacauuauu uacaguagau gugguuuuaa uacaauuacu gcccuaaaau 660
gucucuggca auguacagaa auauuguaua uacuuacaua uguaauuguu guaagaguua 720
aauacaaaau cauggugaca cuuccaauua agugcacuaa augaaaaguu aagucacuua 780
uuaacuuuuc aguuugguuu gcaaugagaa agaguggaaa uuuguauuuu guuuugcuua 840
uagaauuaca gacauguuga ggaaguguug agcuuuauuu ugcuuuuuca uagaggcaga 900
aaguaggaac cagauagaga ugaaaagggg ccacugaaaa gugaauuuga uagcucagca 960
uuuaagcaug auuacauauu cagauagcuc uuuuugcuuu cuauaaauau augcauugug 1020
uguguaguaa uagauguaag uuuacacuuu gaaaggaaau cuuguuucaa uguuuauuau 1080
aaaagccuug cuaauuuagu agugaugcuu uccuugguug uacaggugua cauuuguaaa 1140
ccuucaugcu guaaauggaa uuuguuuuau cucuuuggga uacauuugca uuuuagugua 1200
cauuuacguc ccugcccucu uugaccuggc aauauagugu uguauaaugu aaauuuauuu 1260
cuccaaaucg agagugattt tttaaaaatt ttttatcttt atatgguuuc agaaguauga 1320
accagcuuuc uuuuuauuau ugugagauca uuuuguuuua uaacauaguu guugacuguu 1380
aauauggacc ugcuagaauu uggaucacuu ucaauugaag ucaggguauu gugcauaaua 1440
gaaaguauug gacugagaua uuugguuacc auggaggcca augcuuuuuu caucuuauua 1500
aaugugaugu gacuuuuuuc uuuguacaga agaguacugu auuuuugaau agccuacucc 1560
caaguaagag caaaucugua ugauaacauu uuuuccucug gacauaagac auaacaguaa 1620
cacgauguac auuuacaagc ggccuuaugu acauuuccca acaaucuuuu uaaggcaaaa 1680
uugugaccau auguguauaa uuaaaaucgu uuuuaauccu uugccuauga aaauauuuug 1740
gaaaaaaacu ugcuguguau auucaguuuc ugaaagauaa agaaagugcu uuguauuuug 1800
uugaagucag uauuuuguau aaacauuuau guugacccac uuauguucag ugcugaaaac 1860
uaaaaugaac augcuauucu gucagcugaa uauggaagag aucuuuuuuu acuagagauc 1920
ugcagaagaa acgcaaucuu cugagcacaa uauggaaucu aaagguuuua ucacuuaguu 1980
guucauauua ugaaccuaaa aauaauggca uaaaguuugg ggaugccagg cauacuuuuu 2040
cauguuuggu guugaguuau uuuacuuuuc uaacccaaca uuccuuggug agaccauuaa 2100
auccaaacac uugucaccgu uccuucucau agucacucug ggucaucagc augucccagu 2160
cacugcagca acgccuugug uuuguuucau uuuuuuaaaa cccacacaaa gccgcugucu 2220
cacuuuuucc uacuuuacca accucagagu auuucggccc guaucgaacu uuuguucuca 2280
guaucagccc augguuucag gaucaaagcu gucauguugg agauugguaa uggcuuuccu 2340
gucuuuguac aguugaauuc cuagucuucc uucauccuug cccucuguug gcacaggcau 2400
uaucucugca auuuuagaaa augacaagua gagaauacua cauugagaaa cuaaacccuc 2460
uucuuggggu ccugauacuc auucccauuu gucccagugc ugacaaccca aucuucccaa 2520
uacuuucagg ccugcucuac aaaaguaccu guucuuguag aaauuuuaca gucugccauu 2580
uugggugccc accccaauuu uuaccuuuua guaaguuggc augaaauuuu gguaaaaucu 2640
gaaaaucaca uuucagaaua aaacaauugg gcaaaacuac cuaggcuuua cucuugagug 2700
ucuccuuuug auagggauug uuucuggacc aguuugucua aguccuggcu cuuauugguu 2760
cauaugaaau aauguuaacu ucacuucuuu guauauuaug uauaaauuag aaaaugaaaa 2820
augugugaau aacauuguau gaaauaaacc uggucuugug uuuuucucua gauaaaauac 2880
cccucuguac cuc 2893
<210> 71
<211> 2201
<212> DNA
<213> Homo sapiens
<400> 71
acgcgcagcc acaggaccuc ugggcccggc cuucaggggc gcuccccgcc ccgggcuucc 60
ccgcggaagg gaguggggcg cgcguaccca gcugaggggc aggguccgac ccgaggccgu 120
gugcaaaugc auccuucgcg gacucuuugu gugucugagc gcggcuccgc gccgccgcag 180
gcaccauuuu cugcuucgcu caggacaggc acauaaaagg aaggcggcug ccgcccgucg 240
ccguccucuu uuccucagau gcccucugcu gcagguguag agaggagaga gagugaacag 300
ggagcggggc uuuugucugu uggucucccu ggacugaaga gagggagaau agaagcccaa 360
gacuaagauu cucaaaaugg uuuauuaccc agaacucuuu gucuggguca gucaagaacc 420
auuuccaaac aaggacaugg agggaaggcu uccuaaggga agacuuccug ucccaaagga 480
agugaaccgc aagaagaacg augagacaaa cgcugccucc cugacuccac ugggcagcag 540
ugaacuccgc uccccaagaa ucaguuaccu ccacuuuuuu uaaucguaac accuccauuu 600
guauuacaua ugguguaugg guauugauga ggucauggua ucauauaugg gauuuuuuuc 660
uguguaaauc aucaaguaua agaagaaacu augggacucu gagccuugcu uuagagaauu 720
uacaguggac aaauaggugu caucaaacca guuuuuaauc auucugacuc aagugaaaac 780
gcucagaauu ucacacugug aauccacguu uacaacccuu acaggugggc cuucaggccu 840
gguucgcuac aacaaugucu uccacaacuc aaacucccac cgcgcucaca caaccggucc 900
acuccugccu uuucacucac acagcucccg acugcuucuu gcagaggcug agaguccccc 960
ccccaccuuu uuuuucauuu agauguaaca aaccuaguag uuuauguuca ucaauugucu 1020
guauaucucu auauuuuauc cauguacucu uuugauguau agaaguaguu ugaaacucau 1080
uguuuccuug ugguaaguga ccgagaugcu gccacaggac cugagacacu gaugaauggu 1140
gcuauuuugg acuuucaaca ugcuccuugg cgagguagcu cugauggagu uauuuuuuau 1200
uuccauguuc uaagaaggug uugguacucu guuucccuga auguuguucu cuagacugga 1260
uugacuuguu uuccuugugu cuucagugug gcuuucuucc ucaguguugu agguugagcg 1320
aaugcuacca gagugugaga gaccauuguc ucguuggcug gcgcucacgg acaugcaguc 1380
acgguagcgg gagcaaucac aaaacuguaa uuuacuuacc aaaucucuuc cuuuccguag 1440
ccucgccugc cugacuuaga gaaagaaaag caauaauuuu acaggcauuu ugaggugucu 1500
cuuuggguuc uuucuguuug aaaggauauu ugucgaaaaa aagagcaaaa ccguuuuaaa 1560
uaaacucccc cuggaaaaaa acccaaaaca cuggcaucug agugggaaua ugaaaaugac 1620
accuuuucca aauauuaaau uggaaaacaa ggucuacaaa aucaugauac uuuuuuaaaa 1680
ggcagagcau ucuuuuuucg gcaauuuuga uaagcaaggu guagauuuac auuuuugucc 1740
uugcucccaa cgaaauggau aaacaaaaau aaauuaccau cuacucaugg aauguuguug 1800
uguuagccag ucugaaagcc caccuuaauu uuuauauaac ugucuuuagc ucuucuuuug 1860
acagggcagg ccuuguucug aacuguuucg cuucugacug uuaaacaccg augacgcaug 1920
cacugcacuu cuucguuuuc uucuugcucc cccauuggcc ugaguuucuu gugcauuacu 1980
ccucucccuc cuucguuaga auagguauau cagcugugua aauagagcaa gaaaacagua 2040
uucugcaucu guggcauuua uguagaguug caguugugua cugcugaaaa ugcaggcuuu 2100
uguaacagug ugaucuuuac ugaugcacuc augacaagua cccaauguau uuuagcuauu 2160
uuaguaguau uuguucaaua aauacgcaag cuguaaggua a 2201
<210> 72
<211> 331
<212> DNA
<213> Mus musculus
<400> 72
caccccgcuu gaagaguuug aaauggacuu uaccacugag aaaucaagau ggcagcccau 60
uauggggaau ugaggaaaau ggauuaaugc aagaaugcug uaauauuaua caaccaacac 120
aggauucuuu uaauguggau uccaugaaau gaaugauucu uacccaacac aaauggacag 180
uggaauuuac uuccuaaaga cuuguuacau gucauguaca uuuuugacau cuggagaaga 240
cucuacaauu cuacaaaugg uaguuuguau uccuggaauu ucuugcaguu ugaucugaag 300
ugaccuuaug gaauguuaac uuuaauaaaa u 331
<210> 73
<211> 4269
<212> DNA
<213> Homo sapiens
<400> 73
aaccgcuuuu uaaaauucaa aacaagaaac aaaacaaaaa aaauuaaggg gaaaauuauu 60
uaaaucggaa aggaagacuu aaaguuguua gugaguggaa ugaauugaag gcagaauuua 120
aaguuugguu gauaacagga uagauaacag aauaaaacau uuaacauaug uauaaaauuu 180
uggaacuaau uguaguuuua guuuuuugcg caaacacaau cuuaucuucu uuccucacuu 240
cugcuuuguu uaaaucacaa gagugcuuua augaugacau uuagcaagug cucaaaauaa 300
uugacagguu uuguuuuuuu uuuuuugagu uuaugucagc uuugcuuagu guuagaaggc 360
cauggagcuu aaaccuccag cagucccuag gaugauguag auucuucucc aucucuccgu 420
gugugcagua gugccagucc ugcaguaguu gauaagcuga auagaaagau aagguuuucg 480
agaggagaag ugcgccaaug uugucuuuuc uuuccacguu auacugugua aggugauguu 540
cccggucgcu guugcaccug auaguaaggg acagauuuuu aaugaacauu ggcuggcaug 600
uuggugaauc acauuuuagu uuucugaugc cacauagucu ugcauaaaaa aggguucuug 660
ccuuaaaagu gaaaccuuca uggauagucu uuaaucucug aucuuuuugg aacaaacugu 720
uuuacauucc uuucauuuua uuaugcauua gacguugaga cagcgugaua cuuacaacuc 780
acuaguauag uuguaacuua uuacaggauc auacuaaaau uucugucaua uguauacuga 840
agacauuuua aaaaccagaa uauguagucu acggauauuu uuuaucauaa aaaugaucuu 900
uggcuaaaca ccccauuuua cuaaaguccu ccugccaggu aguucccacu gauggaaaug 960
uuuauggcaa auaauuuugc cuucuaggcu guugcucuaa caaaauaaac cuuagacaua 1020
ucacaccuaa aauaugcugc agauuuuaua auugauuggu uacuuauuua agaagcaaaa 1080
cacagcaccu uuacccuuag ucuccucaca uaaauuucuu acuauacuuu ucauaauguu 1140
gcaugcauau uucaccuacc aaagcugugc uguuaaugcc gugaaaguuu aacguuugcg 1200
auaaacugcc guaauuuuga uacaucugug auuuagguca uuaauuuaga uaaacuagcu 1260
cauuauuucc aucuuuggaa aaggaaaaaa aaaaaaacuu cuuuaggcau uugccuaagu 1320
uucuuuaauu agacuuguag gcacucuuca cuuaaauacc ucaguucuuc uuuucuuuug 1380
caugcauuuu uccccuguuu ggugcuaugu uuauguauua ugcuugaaat tttaattttt 1440
ttttttttgc acuguaacua uaauaccucu uaauuuaccu uuuuaaaagc ugugggucag 1500
ucuugcacuc ccaucaacau accaguagag guuugcugca auuugccccg uuaauuaugc 1560
uugaaguuua agaaagcuga gcagaggugu cucauauuuc ccagcacaug auucugaacu 1620
ugaugcuucg uggaaugcug cauuuauaug uaagugacau uugaauacug uccuuccugc 1680
uuuaucugca ucauccaccc acagagaaau gccucugugc gagugcaccg acagaaaacu 1740
gucagcucug cuuucuaagg aacccugagu gaggggggua uuaagcuucu ccaguguuuu 1800
uuguugucuc caaucuuaaa cuuaaauuga gaucuaaauu auuaaacgag uuuuugagca 1860
aauuagguga cuuguuuuaa aaauauuuaa uuccgauuug gaaccuuaga ugucuauuug 1920
auuuuuuaaa aaaccuuaau guaagauaug accaguuaaa acaaagcaau ucuugaauua 1980
uauaacugua aaagugugca guuaacaagg cuggauguga auuuuauucu gagggugauu 2040
ugugaucaag uuuaaucaca aaucucuuaa uauuuauaaa cuaccugaug ccaggagcuu 2100
agggcuuugc auugugucua auacauugau cccaguguua cgggauucuc uugauuccug 2160
gcaccaaaau cagauuguuu ucacaguuau gauucccagu gggagaaaaa ugccucaaua 2220
uauuuguaac cuuaagaaga guauuuuuuu guuaauacua agauguucaa acuuagacau 2280
gauuagguca uacauucuca gggguucaaa uuuccuucua ccauucaaau guuuuaucaa 2340
cagcaaacuu cagccguuuc acuuuuuguu ggagaaaaau aguagauuuu aauuugacuc 2400
acaguuugaa gcauucugug auccccuggu uacugaguua aaaaauaaaa aaguacgagu 2460
uagacauaug aaaugguuau gaacgcuuuu gugcugcuga uuuuuaaugc uguaaaguuu 2520
uccuguguuu agcuuguuga aauguuuugc aucugucaau uaaggaaaaa aaaaaucacu 2580
cuauguugcc ccacuuuaga gcccugugug ccacccugug uuccugugau ugcaauguga 2640
gaccgaaugu aauauggaaa accuaccagu gggguguggu ugugcccuga gcacgugugu 2700
aaaggacugg ggaggcgugu cuugaaaaag caacugcaga aauuccuuau gaugauugug 2760
ugcaaguuag uuaacaugaa ccuucauuug taaatttttt aaaatttctt ttataatatg 2820
cuuuccgcag uccuaacuau gcugcguuuu auaauagcuu uuucccuucu guucuguuca 2880
uguagcacag auaagcauug cacuugguac caugcuuuac cucauuucaa gaaaauaugc 2940
uuaacagaga ggaaaaaaau gugguuuggc cuugcugcug uuuugauuua uggaauuuga 3000
aaaagauaau uauaaugccu gcaauguguc auauacucgc acaacuuaaa uaggucauuu 3060
uugucugugg cauuuuuacu guuugugaaa guaugaaaca gauuuguuaa cugaacucuu 3120
aauuauguuu uuaaaauguu uguuauauuu cuuuucuuuu uucuuuuaua uuacgugaag 3180
ugaugaaauu uagaaugacc ucuaacacuc cuguaauugu cuuuuaaaau acugauauuu 3240
uuauuuguua auaauacuuu gcccucagaa agauucugau acccugccuu gacaacauga 3300
aacuugaggc ugcuuugguu caugaaucca gguguucccc cggcagucgg cuucuucagu 3360
cgcucccugg aggcaggugg gcacugcaga ggaucacugg aauccagauc gagcgcaguu 3420
caugcacaag gccccguuga uuuaaaauau uggaucuugc ucuguuaggg ugucuaaucc 3480
cuuuacacaa gauugaagcc accaaacuga gaccuugaua ccuuuuuuua acugcaucug 3540
aaauuauguu aagagucuuu aacccauuug cauuaucugc agaagagaaa cucaugucau 3600
guuuauuacc uauaugguug uuuuaauuac auuugaauaa uuauauuuuu ccaaccacug 3660
auuacuuuuc aggaauuuaa uuauuuccag auaaauuucu uuauuuuaua uuguacauga 3720
aaaguuuuaa agauauguuu aagaccaaga cuauuaaaau gauuuuuaaa guuguuggag 3780
acgccaauag caauaucuag gaaauuugca uugagaccau uguauuuucc acuagcagug 3840
aaaaugauuu uucacaacua acuuguaaau auauuuuaau cauuacuucu uuuuuucuag 3900
uccauuuuua uuuggacauc aaccacagac aauuuaaauu uuauagaugc acuaagaauu 3960
cacugcagca gcagguuaca uagcaaaaau gcaaagguga acaggaagua aauuucuggc 4020
uuuucugcug uaaauaguga aggaaaauua cuaaaaucaa guaaaacuaa ugcauauuau 4080
uugauugaca auaaaauauu uaccaucaca ugcugcagcu guuuuuuaag gaacaugaug 4140
ucauucauuc auacaguaau caugcugcag aaauuugcag ucugcaccuu auggaucaca 4200
auuaccuuua guuguuuuuu uuguaauaau uguagccaag uaaaucucca auaaaguuau 4260
cgucuguuc 4269
<210> 74
<211> 11
<212> RNA
<213> Artificial Sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 74
auuuuuuuca g 11
<210> 75
<211> 536
<212> RNA
<213> Artificial Sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 75
auugcucgag acguguaacc ccauccagau acugaugccu gcagugaaug aauuacugac 60
ugugaacgau ugcuuagauc gugcuauacu gauacaucca augccugcca ggucugauga 120
uuacgcauau gaaucaucca agcgugcgca ccugauggca aucugacugc augaaucgga 180
agacugucua gugguuuacu gauuauugcu gagacuacga gcauacaucc aacuugcaau 240
uuagcuugac gcucccacgc augaauaagc gucauccauc gcacgugcaa ucugaugccg 300
uugacuauga aucugcgcac ugacuguaaa cuguguauug cucaugcgaa uguauccauc 360
caaacggauc guacuguggu uuacgcuauu ggaugaauca aucgaugcca uccaacagau 420
gacccaugac uugaugauac cgauaugaau gacugacugu cugcauacuu uugcucauug 480
cuuguacuaa cggaucguac agcauccauu ucacugaagg cacgacugug guuuac 536
<210> 76
<211> 21
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 76
auugcucgag acguguaacc c 21
<210> 77
<211> 26
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 77
auugcuuaga ucgugcuaua cugaua 26
<210> 78
<211> 26
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 78
auugcuuaga ucgugcuaua cugaua 26
<210> 79
<211> 21
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 79
uauugcucau gcgaauguau c 21
<210> 80
<211> 62
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 80
uugcucauug cuuguacuaa cggaucguac aguuucacug aaggcacgac ugugguuuac 60
ac 62
<210> 81
<211> 15
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 81
uacugacugu gaacg 15
<210> 82
<211> 23
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 82
cggaagacug ucuagugguu uac 23
<210> 83
<211> 23
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 83
cugcgcacug acuguaaacu gug 23
<210> 84
<211> 20
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 84
gacugacugu cugcauacuu 20
<210> 85
<211> 582
<212> RNA
<213> Artificial sequence
<220>
<223> Algorithm derived nucleic acid sequences
<400> 85
cgaagagucu agaucaguaa cacacagaua ccgaugacug auaaacugua gacuauuagg 60
agauggcgac aauccaagcg uuuagaucag uaacacacac augccguuga cugccggagg 120
uuagacuauu aggauguggu cgacuaccag cguuagguuc aguaacacuu acaugccugc 180
cggacuacgu acucugacua uuagcaugac ugugguuuac uugcggaugu ccaguaacug 240
auuacuugca auguacugcc ggaacuugua cuucuauuag uuugacugug aguaacgauu 300
acuugcaaug uacaguaacu gccggaacgg aucguacuuu guacgcuauu aggcacgacu 360
gugcagcugc aauguacagu aacugccgga acgguuugua cguauuaggc acgacugugg 420
uuuacgcuau uagauccgau ggagccagaa guaacgccuu augaugauac cauaacugca 480
uacuauuagc cuagauggca uacacaugac uuaauaggcg aguaguaacu ccuaaugauu 540
gccgaugcga ugauaacugc auacgauuca ccuaguuaug gc 582
<210> 86
<211> 24
<212> RNA
<213> Artificial sequence
<220>
<223> conservation scoring of Fig 8A element 1
<220>
<221> misc_feature
<222> (1)..(1)
<223> N= A, G OR U
<220>
<221> misc_feature
<222> (2)..(3)
<223> n is a, c, g, or u
<220>
<221> misc_feature
<222> (4)..(4)
<223> N= A OR U
<220>
<221> misc_feature
<222> (5)..(5)
<223> n is a, c, g, or u
<220>
<221> misc_feature
<222> (6)..(6)
<223> N= A, G OR U
<220>
<221> misc_feature
<222> (7)..(7)
<223> n is a, c, g, or u
<220>
<221> misc_feature
<222> (8)..(8)
<223> N= A, C OR G
<220>
<221> misc_feature
<222> (15)..(15)
<223> N= A OR G
<220>
<221> misc_feature
<222> (16)..(16)
<223> N= A , C, OR U
<220>
<221> misc_feature
<222> (17)..(17)
<223> N= A, C OR G
<220>
<221> misc_feature
<222> (18)..(18)
<223> n is a, c, g, or u
<220>
<221> misc_feature
<222> (19)..(19)
<223> N= C, G OR U
<220>
<221> misc_feature
<222> (20)..(21)
<223> n is a, c, g, or u
<220>
<221> misc_feature
<222> (22)..(22)
<223> N= A , C, OR U
<220>
<221> misc_feature
<222> (23)..(24)
<223> n is a, c, g, or u
<400> 86
nnnnnnnnaa gaugnnnnnn nnnn 24
<210> 87
<211> 27
<212> RNA
<213> Artificial sequence
<220>
<223> conservation scoring of Fig 8A element 2
<220>
<221> misc_feature
<222> (1)..(1)
<223> N= A, G OR C
<220>
<221> misc_feature
<222> (3)..(3)
<223> N= U OR A
<220>
<221> misc_feature
<222> (4)..(4)
<223> n is a, c, g, or u
<220>
<221> misc_feature
<222> (5)..(5)
<223> N= G, U OR C
<220>
<221> misc_feature
<222> (6)..(6)
<223> n is a, c, g, or u
<220>
<221> misc_feature
<222> (7)..(7)
<223> N= G, A OR U
<220>
<221> misc_feature
<222> (8)..(8)
<223> N= G, U OR C
<220>
<221> misc_feature
<222> (9)..(9)
<223> N= A, G OR C
<220>
<221> misc_feature
<222> (10)..(10)
<223> N= A OR U
<220>
<221> misc_feature
<222> (18)..(18)
<223> N= U, C OR G
<220>
<221> misc_feature
<222> (19)..(20)
<223> N= U, A OR G
<220>
<221> misc_feature
<222> (21)..(21)
<223> N= A OR U
<220>
<221> misc_feature
<222> (22)..(22)
<223> N= U, C OR G
<220>
<221> misc_feature
<222> (23)..(23)
<223> N= A, G OR C
<220>
<221> misc_feature
<222> (24)..(24)
<223> N= A, C OR G
<220>
<221> misc_feature
<222> (25)..(25)
<223> n is a, c, g, or u
<220>
<221> misc_feature
<222> (26)..(26)
<223> N= A OR U
<220>
<221> misc_feature
<222> (27)..(27)
<223> N= U, A OR G
<400> 87
nannnnnnnn aaauggannn nnnnnnn 27
<210> 88
<211> 331
<212> DNA
<213> Artificial sequence
<220>
<223> WT sequence of Mouse Chaserr Exon 5
<400> 88
caccccgctt gaagagtttg aaatggactt taccactgag aaatcaagat ggcagcccat 60
tatggggaat tgaggaaaat ggattaatgc aagaatgctg taatattata caaccaacac 120
aggattcttt taatgtggat tccatgaaat gaatgattct tacccaacac aaatggacag 180
tggaatttac ttcctaaaga cttgttacat gtcatgtaca tttttgacat ctggagaaga 240
ctctacaatt ctacaaatgg tagtttgtat tcctggaatt tcttgcagtt tgatctgaag 300
tgaccttatg gaatgttaac tttaataaaa t 331
<210> 89
<211> 331
<212> DNA
<213> Artificial sequence
<220>
<223> Mouse Chaserr Exon 5 with four ATGG->TACC mutations. All four are
located within conserved motif identified by LncLOOM
<400> 89
caccccgctt gaagagtttg aaatggactt taccactgag aaatcaagta cccagcccat 60
ttaccggaat tgaggaaata ccattaatgc aagaatgctg taatattata caaccaacac 120
aggattcttt taatgtggat tccatgaaat gaatgattct tacccaacac aataccacag 180
tggaatttac ttcctaaaga cttgttacat gtcatgtaca tttttgacat ctggagaaga 240
ctctacaatt ctacaaatgg tagtttgtat tcctggaatt tcttgcagtt tgatctgaag 300
tgaccttatg gaatgttaac tttaataaaa t 331
<210> 90
<211> 331
<212> DNA
<213> Artificial sequence
<220>
<223> Mouse Chaserr Exon 5 with all ATGG sites mutated to TACC. In
total 7 ATGG->TACC mutations.
<400> 90
caccccgctt gaagagtttg aataccactt taccactgag aaatcaagta cccagcccat 60
ttaccggaat tgaggaaata ccattaatgc aagaatgctg taatattata caaccaacac 120
aggattcttt taatgtggat tccatgaaat gaatgattct tacccaacac aataccacag 180
tggaatttac ttcctaaaga cttgttacat gtcatgtaca tttttgacat ctggagaaga 240
ctctacaatt ctacaatacc tagtttgtat tcctggaatt tcttgcagtt tgatctgaag 300
tgacctttac caatgttaac tttaataaaa t 331
<210> 91
<211> 22
<212> DNA
<213> Artificial sequence
<220>
<223> Antisense Oligonucleotide
<400> 91
ctctctctct ttctatccct tc 22
<210> 92
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Antisense Oligonucleotide
<400> 92
ccataatggg ctgccatctt 20
<210> 93
<211> 18
<212> DNA
<213> Artificial sequence
<220>
<223> Antisense Oligonucleotide
<400> 93
gcattaatcc attttcct 18
<210> 94
<211> 18
<212> DNA
<213> Artificial sequence
<220>
<223> Antisense Oligonucleotide
<400> 94
ttccactgtc catttgtg 18
<210> 95
<211> 15
<212> DNA
<213> Artificial sequence
<220>
<223> locked nucleic acid (LNA) gapmers
<400> 95
aacacgtcta tacgc 15
<210> 96
<211> 16
<212> DNA
<213> Artificial sequence
<220>
<223> locked nucleic acid (LNA) gapmers
<400> 96
atagcgtgca taaatt 16
<210> 97
<211> 16
<212> DNA
<213> Artificial sequence
<220>
<223> locked nucleic acid (LNA) gapmers
<400> 97
gcagaatgaa gacaaa 16
<210> 98
<211> 16
<212> DNA
<213> Artificial sequence
<220>
<223> locked nucleic acid (LNA) gapmers
<400> 98
atcaatgaat tcacat 16
<210> 99
<211> 16
<212> DNA
<213> Artificial sequence
<220>
<223> locked nucleic acid (LNA) gapmers
<400> 99
caacgactga tcctaa 16
<210> 100
<211> 22
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 100
gccattttga agactgagac ca 22
<210> 101
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 101
tctatggtgc aggcctttca 20
<210> 102
<211> 24
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 102
tgacatctgg agaagactct acaa 24
<210> 103
<211> 22
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 103
aggtcacttc agatcaaact gc 22
<210> 104
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 104
ggagatcata gaacgggcca 20
<210> 105
<211> 23
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 105
aaaagggttt gagttggatc ttc 23
<210> 106
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 106
ttgggtatgg aatcctgtgg 20
<210> 107
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 107
cttctgcatc ctgtcagcaa 20
<210> 108
<211> 19
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 108
gtcggtgtga acggatttg 19
<210> 109
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 109
gaatttgccg tgagtggagt 20
<210> 110
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 110
gttaccagcc caaacctcaa 20
<210> 111
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 111
cacttgtggg gagaccttgt 20
<210> 112
<211> 36
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 112
taatacgact cactataggg caccccgctt gaagag 36
<210> 113
<211> 28
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 113
aagttaacat tccataaggt cacttcag 28
<210> 114
<211> 48
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 114
taatacgact cactataggg aagttaacat tccataaggt cacttcag 48
<210> 115
<211> 16
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 115
caccccgctt gaagag 16
<210> 116
<211> 36
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 116
taatacgact cactataggg caccccgctt gaagag 36
<210> 117
<211> 28
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 117
aagttaacat tggtaaaggt cacttcag 28
<210> 118
<211> 48
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 118
taatacgact cactataggg aagttaacat tggtaaaggt cacttcag 48
<210> 119
<211> 16
<212> DNA
<213> Artificial sequence
<220>
<223> Single strand DNA oligonucleotide
<400> 119
caccccgctt gaagag 16
<210> 120
<211> 9
<212> PRT
<213> Artificial Sequence
<220>
<223> recognition sequence amino acid sequence
<400> 120
Leu Ala Gly Leu Ile Asp Ala Asp Gly
1 5
<210> 121
<211> 6
<212> PRT
<213> Artificial Sequence
<220>
<223> recognition sequence amino acid sequence
<400> 121
Gly Ile Tyr Tyr Ile Gly
1 5
<210> 122
<211> 9
<212> RNA
<213> Artificial sequence
<220>
<223> element that inhibits binding of CHD2 to Chaserr
<400> 122
uuuuuaccu 9
<210> 123
<211> 28
<212> RNA
<213> Artificial sequence
<220>
<223> Human Chaserr target sequence
<400> 123
aagggguauc aucugacggu agaacuaa 28
<210> 124
<211> 28
<212> DNA
<213> Artificial sequence
<220>
<223> Mouse Chaserr target sequence
<400> 124
aagggguauu acccgacggu agaacuaa 28
<210> 125
<211> 22
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(22)
<223> O-methoxy-ethyl (MOE) base (2'MOE)
<220>
<221> misc_feature
<222> (1)..(22)
<223> Phosphorothioate bonds
<400> 125
cgauagcagg agaagucuga ag 22
<210> 126
<211> 22
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(22)
<223> Phosphorothioate bonds
<220>
<221> misc_feature
<222> (1)..(22)
<223> O-methoxy-ethyl (MOE) base (2'MOE)
<400> 126
cucucucucu uucuaucccu uc 22
<210> 127
<211> 20
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(20)
<223> Phosphorothioate bonds
<220>
<221> misc_feature
<222> (1)..(20)
<223> O-methoxy-ethyl (MOE) base (2'MOE)
<400> 127
ccauaauggg cugccaucuu 20
<210> 128
<211> 20
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(20)
<223> O-methoxy-ethyl (MOE) base (2'MOE)
<220>
<221> misc_feature
<222> (1)..(20)
<223> Phosphorothioate bonds
<400> 128
ccauaguaga cugccaucuu 20
<210> 129
<211> 20
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(20)
<223> O-methoxy-ethyl (MOE) base (2'MOE)
<220>
<221> misc_feature
<222> (1)..(20)
<223> Phosphorothioate bonds
<400> 129
ccauaguggg cugccaucuu 20
<210> 130
<400> 130
000
<210> 131
<211> 18
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(18)
<223> Phosphorothioate bonds
<220>
<221> misc_feature
<222> (1)..(18)
<223> 2'-O-methyl RNA base (2扥me )
<400> 131
ccauaguaga cugccauc 18
<210> 132
<211> 18
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(18)
<223> 2'-O-methyl RNA base (2扥me )
<220>
<221> misc_feature
<222> (1)..(18)
<223> Phosphorothioate bonds
<400> 132
auaguagacu gccaucuu 18
<210> 133
<211> 20
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(20)
<223> Phosphorothioate bonds
<220>
<221> misc_feature
<222> (1)..(3)
<223> Affinity Plus locked nucleic acid base
<220>
<221> misc_feature
<222> (14)..(15)
<223> 5-Methyl dC
<220>
<221> misc_feature
<222> (14)..(15)
<223> n= 5-Methyl dC
<220>
<221> misc_feature
<222> (18)..(20)
<223> Affinity Plus locked nucleic acid base
<220>
<221> misc_feature
<222> (18)..(18)
<223> Affinity Plus locked nucleic acid base
<400> 133
ccauaguaga cugnnaucuu 20
<210> 134
<211> 18
<212> RNA
<213> Artificial Sequence
<220>
<223> antisense oligonucleotide (ASO)
<220>
<221> misc_feature
<222> (1)..(18)
<223> Phosphorothioate bonds
<220>
<221> misc_feature
<222> (1)..(18)
<223> O-methoxy-ethyl (MOE) base (2MOE)
<400> 134
auccacuguc cauuugug 18
<210> 135
<211> 18
<212> DNA
<213> Artificial Sequence
<220>
<223> Chaserr GapmeR
<400> 135
gtcgaataaa ccagtatc 18
<210> 136
<211> 15
<212> DNA
<213> Artificial Sequence
<220>
<223> Control GapmeR
<400> 136
aacacgtcta tacgc 15
<210> 137
<211> 22
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<400> 137
cgauagcagg agaagucuga ag 22
<210> 138
<211> 22
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<400> 138
cucucucucu uucuaucccu uc 22
<210> 139
<211> 20
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<400> 139
ccauaauggg cugccaucuu 20
<210> 140
<211> 20
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<400> 140
ccauaguaga cugccaucuu 20
<210> 141
<211> 18
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<400> 141
ccauaguaga cugccauc 18
<210> 142
<211> 18
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<400> 142
auaguagacu gccaucuu 18
<210> 143
<211> 20
<212> RNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<400> 143
ccauaguaga cugccaucuu 20
<210> 144
<211> 18
<212> DNA
<213> Artificial sequence
<220>
<223> antisense oligonucleotide (ASO)
<400> 144
auccacuguc cauuugug 18

Claims (33)

1.一种增加神经元细胞中的染色质结构域解旋酶DNA结合蛋白2(CHD2)的量的方法,所述方法包括向细胞中引入下调人类Chaserr活性或表达的核酸试剂,其中所述核酸试剂针对人类Chaserr的最后一个外显子,从而增加所述神经元细胞中CHD2的量。
2.一种在有需要的对象中治疗与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足相关的疾病或医学病症的方法,所述方法包括向所述对象施用治疗有效量的下调人类Chaserr活性或表达的核酸试剂,其中所述核酸试剂针对人类Chaserr的最后一个外显子,从而治疗与CHD2单倍体不足相关的所述疾病或医学病症。
3.一种下调人类Chaserr活性或表达的核酸试剂,用于在需要其的对象中治疗与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足相关的疾病或医学病症的用途,其中,所述核酸试剂针对人类Chaserr的最后一个外显子。
4.一种具有人类Chaserr活性或表达的核酸试剂,其中,所述核酸试剂包括在人类Chaserr的最后一个外显子杂交的核酸序列。
5.根据权利要求1至4中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述人类Chaserr包含选自由下列所组成的组的可变剪接变体:SEQ ID NO:11(NR_037600)、SEQID NO:12(NR_037601)和SEQ ID NO:13(NR_037602)。
6.根据权利要求1至5中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂包含与SEQ ID NO:2(AUGG)互补的序列。
7.根据权利要求1至5中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂包含与AAGAUG(SEQ ID NO:5)或AAAUGGA(SEQ ID NO:6)互补的序列。
8.根据权利要求1至5中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂包含与UUUUUACCU(SEQ ID NO:122)互补的序列。
9.根据权利要求1至8中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂抑制DHX36与Chaserr的结合。
10.根据权利要求1至8中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂抑制CHD2与Chaserr的结合。
11.根据权利要求1至9中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂是反义寡核苷酸。
12.根据权利要求1至11中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂包含一种或多种具有2'至4'桥的核苷酸,和/或一种或多种具有2'-O修饰的核苷酸。
13.根据权利要求9所述的方法或核酸试剂,或使用的核酸试剂,其中,所述反义寡核苷酸如SEQ ID NO:92-99所示。
14.根据权利要求10或12所述的方法或使用的核酸试剂,或核酸试剂,其中,所述反义寡核苷酸如SEQ ID NO:128、SEQ ID NO:131、SEQ ID NO:132、SEQ ID NO:133、SEQ ID NO:140、SEQ ID NO:141、SEQ ID NO:142或SEQ ID NO:143所示。
15.根据权利要求11、12和13中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述反义寡核苷酸包含至少2个反义寡核苷酸。
16.根据权利要求15所述的方法或使用的核酸试剂,或核酸试剂,其中,所述至少2个反义寡核苷酸包含SEQ ID NO:140或SEQ ID NO:128的ASO40和SEQ ID NO:144或SEQ ID NO:134的ASO41。
17.根据权利要求1至10中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂是RNA沉默试剂。
18.根据权利要求1至10中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂是基因组编辑试剂。
19.根据权利要求1至18中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂以可诱导的方式具有活性。
20.根据权利要求1至10中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述核酸试剂以组织或细胞特异性的方式具有活性。
21.根据权利要求2至20中任一项所述的方法或使用的核酸试剂,或核酸试剂,其中,所述与染色质结构域解旋酶DNA结合蛋白2(CHD2)单倍体不足相关的疾病或医学病症选自智力障碍、自闭症、癫痫和伦诺克斯-加斯托综合征(LGS)。
22.一种分析描述多种同源多核苷酸的序列集合的方法,所述方法包括:
构建具有分层排列的多个节点和连接连续层的节点的多个边缘的图,其中每一层表示所述集合的序列,使得第一层表示描述查询多核苷酸的序列,每一节点表示相应序列内的k-mer,并且每一边缘连接表示相同或同源k-mer的节点,k为6至12;
在所述图上搜索沿着所述图的边缘的连续不相交路径;和
生成输出,将对应于至少一条路径的k-mer识别为功能感兴趣的核酸序列。
23.根据权利要求22所述的方法,包括:在所生成所述输出之前,每次针对较短的k-mer,迭代地重复所述构建和所述搜索。
24.根据权利要求23所述的方法,包括:在每个迭代循环,应用在前一迭代循环中获得的路径作为所述搜索的约束。
25.根据权利要求22至24中任一项所述的方法,其中,所述搜索包括应用路径深度标准作为所述搜索的约束,使得所述搜索优先进行较深的路径而不是较浅的路径。
26.根据权利要求22至25中任一项所述的方法,其中,所述搜索包括对所述图应用整数线性规划(ILP)。
27.根据权利要求22至25中任一项所述的方法,其中,所述同源多核苷酸是DNA序列。
28.根据权利要求22至25中任一项所述的方法,其中,所述同源多核苷酸是RNA序列。
29.根据权利要求22至28中任一项所述的方法,包括根据预定顺序比对所述集合中的所述序列,以提供具有多个比对层的多重比对,其中第一层是所述多个同源多核苷酸的所述查询多核苷酸,并且其中所述多个比对层分别对应于所述图的所述层。
30.根据权利要求29所述的方法,其中,所述预定顺序是进化决定的,可选地,其中所述查询是:进化中最先进的是所述同源多核苷酸。
31.根据权利要求22至30中任一项所述的方法,其中,所述同源k-mer之间的同源性为至少70%。
32.根据权利要求22至31中任一项所述的方法,其中,所述同源多核苷酸包含部分序列。
33.根据权利要求22至32中任一项所述的方法,其中,所述同源多核苷酸选自由3'UTR、IncRNA和增强子所组成的组。
CN202180093414.1A 2020-12-18 2021-12-19 用于治疗chd2单倍体不足的组合物及其识别方法 Pending CN116829715A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063127212P 2020-12-18 2020-12-18
US63/127,212 2020-12-18
PCT/IL2021/051503 WO2022130388A2 (en) 2020-12-18 2021-12-19 Compositions for use in the treatment of chd2 haploinsufficiency and methods of identifying same

Publications (1)

Publication Number Publication Date
CN116829715A true CN116829715A (zh) 2023-09-29

Family

ID=79830820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180093414.1A Pending CN116829715A (zh) 2020-12-18 2021-12-19 用于治疗chd2单倍体不足的组合物及其识别方法

Country Status (9)

Country Link
US (1) US20240124881A1 (zh)
EP (1) EP4263832A2 (zh)
JP (1) JP2024500804A (zh)
KR (1) KR20230132472A (zh)
CN (1) CN116829715A (zh)
AU (1) AU2021400235A1 (zh)
CA (1) CA3202382A1 (zh)
IL (1) IL303753A (zh)
WO (1) WO2022130388A2 (zh)

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3687808A (en) 1969-08-14 1972-08-29 Univ Leland Stanford Junior Synthetic polynucleotides
US5464764A (en) 1989-08-22 1995-11-07 University Of Utah Research Foundation Positive-negative selection methods and vectors
DE69123979T2 (de) 1990-10-12 1997-04-30 Max Planck Gesellschaft Abgeänderte ribozyme
DE4216134A1 (de) 1991-06-20 1992-12-24 Europ Lab Molekularbiolog Synthetische katalytische oligonukleotidstrukturen
US5652094A (en) 1992-01-31 1997-07-29 University Of Montreal Nucleozymes
US5627053A (en) 1994-03-29 1997-05-06 Ribozyme Pharmaceuticals, Inc. 2'deoxy-2'-alkylnucleotide containing nucleic acid
US5716824A (en) 1995-04-20 1998-02-10 Ribozyme Pharmaceuticals, Inc. 2'-O-alkylthioalkyl and 2-C-alkylthioalkyl-containing enzymatic nucleic acids (ribozymes)
US5998203A (en) 1996-04-16 1999-12-07 Ribozyme Pharmaceuticals, Inc. Enzymatic nucleic acids containing 5'-and/or 3'-cap structures
EP1108724B1 (en) 1996-01-16 2007-09-19 Sirna Therpeutics, Inc. Synthesis of methoxy nucleosides and enzymatic nucleic acid molecules
US5849902A (en) 1996-09-26 1998-12-15 Oligos Etc. Inc. Three component chimeric antisense oligonucleotides
US6774279B2 (en) 1997-05-30 2004-08-10 Carnegie Institution Of Washington Use of FLP recombinase in mice
US20030232410A1 (en) 2002-03-21 2003-12-18 Monika Liljedahl Methods and compositions for using zinc finger endonucleases to enhance homologous recombination
ES2328696T3 (es) 2003-09-16 2009-11-17 Astrazeneca Ab Derivados de quinazolina.
US20060014264A1 (en) 2004-07-13 2006-01-19 Stowers Institute For Medical Research Cre/lox system with lox sites having an extended spacer region
EP2067402A1 (en) 2007-12-07 2009-06-10 Max Delbrück Centrum für Molekulare Medizin (MDC) Berlin-Buch; Transponson-mediated mutagenesis in spermatogonial stem cells
JP6208580B2 (ja) 2010-05-17 2017-10-04 サンガモ セラピューティクス, インコーポレイテッド 新規のdna結合タンパク質及びその使用
WO2013126963A1 (en) 2012-02-29 2013-09-06 Benitec Biopharma Limited Pain treatment
PT3502240T (pt) 2012-11-27 2021-08-11 Childrens Medical Ct Corp Elementos reguladores distais de bcl11a como alvo para a reindução de hemoglobina fetal
US8697359B1 (en) 2012-12-12 2014-04-15 The Broad Institute, Inc. CRISPR-Cas systems and methods for altering expression of gene products
KR20150103280A (ko) 2013-01-08 2015-09-09 베니텍 바이오파마 리미티드 연령-관련 황반 변성 치료
CA3099522A1 (en) * 2017-09-19 2019-03-28 Children's National Medical Center Gapmers and methods of using the same for treatment of muscular dystrophy

Also Published As

Publication number Publication date
IL303753A (en) 2023-08-01
KR20230132472A (ko) 2023-09-15
US20240124881A1 (en) 2024-04-18
WO2022130388A3 (en) 2022-11-10
EP4263832A2 (en) 2023-10-25
JP2024500804A (ja) 2024-01-10
WO2022130388A2 (en) 2022-06-23
CA3202382A1 (en) 2022-06-23
AU2021400235A1 (en) 2023-07-20
AU2021400235A9 (en) 2024-05-02

Similar Documents

Publication Publication Date Title
US20220403380A1 (en) RNA Interactome of Polycomb Repressive Complex 1 (PRC1)
JP6718872B2 (ja) 標的化rna編集
Dönertas et al. Drosophila Gtsf1 is an essential component of the Piwi-mediated transcriptional silencing complex
CN102239260B (zh) 通过抑制针对载脂蛋白‑a1的天然反义转录物治疗载脂蛋白‑a1相关疾病
JP6025567B2 (ja) 膜結合転写因子ペプチダーゼ、部位1(mbtps1)に対する天然アンチセンス転写物の阻害によるmbtps1関連性疾患の治療
US8288354B2 (en) Natural antisense and non-coding RNA transcripts as drug targets
US20160264934A1 (en) METHODS FOR MODULATING AND ASSAYING m6A IN STEM CELL POPULATIONS
CA3064601A1 (en) Crispr/cas-adenine deaminase based compositions, systems, and methods for targeted nucleic acid editing
WO2016164463A1 (en) Methods for reactivating genes on the inactive x chromosome
US20220049255A1 (en) Modulating the cellular stress response
Gainetdinov et al. Relaxed targeting rules help PIWI proteins silence transposons
KR20200141470A (ko) 체세포 재프로그래밍 및 각인의 조정을 위한 조성물 및 방법
CN116829715A (zh) 用于治疗chd2单倍体不足的组合物及其识别方法
US20200157537A1 (en) Modulating RNA Interactions with Polycomb Repressive Complex 1 (PRC1)
US9540644B2 (en) Small interference RNA for inhibiting intracellular expression of ribosomal protein S3
US11357853B2 (en) Inhibition of a lncRNA for treatment of neuroblastoma
Pai Studying sequence effects of mRNA 5'cap juxtapositions on translation initiation rate using randomization strategy of the extreme 5'end of mRNA
Pai Studying sequence effects of mRNA 5'cap juxtapositions on translation
Yiu Investigating the role of non-coding RNAs in doxorubicin-induced cardiotoxicity
Elguindy Regulation of Pumilio RNA Binding Proteins by Long Noncoding RNA NORAD
Putzbach Toxicity Mediated by Seed-Dependent Off-Target Effects in RNA Interference
KR20240032998A (ko) 신경근육장애를 위한 올리고뉴클레오티드 및 이의 조성물
Li Investigation of the cellular significance of long non-coding RNA NEAT1 and paraspeckles
Scamborova Determination of the sequence of Drosophila melanogaster U12 snRNA: Insights from splicing of the unique prospero twintron
Abbas et al. Rustbelt RNA Meeting 2019

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination