CN101120099A - 使用由互补于靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法 - Google Patents

使用由互补于靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法 Download PDF

Info

Publication number
CN101120099A
CN101120099A CNA2005800478328A CN200580047832A CN101120099A CN 101120099 A CN101120099 A CN 101120099A CN A2005800478328 A CNA2005800478328 A CN A2005800478328A CN 200580047832 A CN200580047832 A CN 200580047832A CN 101120099 A CN101120099 A CN 101120099A
Authority
CN
China
Prior art keywords
sirna
section
bound energy
value
dsrna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800478328A
Other languages
English (en)
Other versions
CN101120099B (zh
Inventor
崔泳哲
朴翰浯
郑素林
金永柱
金尚洙
朴城敏
金相喆
尹圭晚
崔庆玉
姜孝晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bioneer Corp
Original Assignee
Bioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bioneer Corp filed Critical Bioneer Corp
Publication of CN101120099A publication Critical patent/CN101120099A/zh
Application granted granted Critical
Publication of CN101120099B publication Critical patent/CN101120099B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/14Type of nucleic acid interfering N.A.
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/10Applications; Uses in screening processes
    • C12N2320/11Applications; Uses in screening processes for the determination of target sites, i.e. of active nucleic acids

Abstract

一种抑制靶mRNA表达的方法,包括:(a)获得包含与随机靶mRNA互补的核苷酸的dsRNA序列所有组合的双链组合段的结合能;(b)在每种组合的dsRNA序列上,将该结合能划分为四个段,获得各段之间的平均结合能差异,并将其转化为相对结合能模式的分值;(c)通过将转化的分值与可影响siRNA效率的其他因子应用到dsRNA序列,筛选那些预计对靶RNA具有高抑制效率的siRNA;以及(d)利用筛选的siRNA抑制靶mRNA的表达。结果研究人员或实验人员无需进行实际的实验,能够通过未知siRNA碱基序列对相对结合能模式进行分析,从而快速确定siRNA是有效还是无效,因此可以使siRNA的设计和制备效率最大化,并且通过对靶mRNA有效的siRNA有效抑制靶mRNA的表达。

Description

使用由互补于靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法
技术领域
本发明一般涉及使用小分子干扰RNA(以下称为“siRNA”)抑制靶mRNA表达的方法,更具体而言,本发明涉及一种使用siRNA抑制靶mRNA表达的方法,该方法包含通过分析候选siRNA的核苷酸序列的相邻和非相邻部分之间的相对结合能模式,筛选预测的显示最大靶向抑制效率的互补siRNA的步骤,以及使用筛选的siRNA抑制靶mRNA表达的步骤。
背景技术
RNA干扰(以下称为“RNAi”)是指通过具有互补于靶mRNA的核苷酸序列的双链RNA(以下称为“dsRNA”)分解细胞质中的靶mRNA的现象。1998年,Fire和Mello首次在线虫(C.elegans)中发现RNA干扰现象后,在果蝇、锥虫(鞭毛虫纲的一种)和脊椎动物中也报道了RNAi现象的存在(Tabara H,Grishok A,Mello CC,Science,282(5388),430-1,1998)。对人类来说,由于将dsRNA导入时诱导抗病毒干扰素途径,因而难以获得RNAi作用。2001年,Elbashir和Tuschl等人报道了将21个核苷酸长度的小分子dsRNA导入人细胞没有引起这种干扰素途径,却特异地分解互补的靶mRNA(Elbashir,S.M.,Harborth,J.,Lendeckel,W.,Yalcin,A.,Weber,K.,Tuschl,T.,Nature,411,494-498,2001;Elbashir,S.M.,Lendeckel,W.,Tuschl,T.,Genes&Dev.,15,188-200,2001;Elbashir,S.M.,Martinez,J.,Patkaniowska,A.,Lendeckel,W.,Tuschl,T.,EMBO J.,20,6877-6888,2001)。此后,21nt长度的dsRNA作为一种新的功能基因组学工具引起人们的注意,并被命名为小分子干扰RNA(以下称为“siRNA”)。该小分子干扰RNA(siRNA和microRNA)被认为是Science期刊在2002年度的最大突破(Jennifer Couzin,BREAKTHROUGH OF THE YEAR:Small RNAs Make Big Splash,JenniferCouzin,Science 20 December 2002:2296-2297)。
作为一种治疗学和功能基因组学的工具,siRNA比传统的反义RNA具有一些优势。首先,反义RNA需要合成许多种类的反义RNA,需要投入大量的时间和费用进行实验以获得有效的靶序列,而siRNA的效果可以通过一些算法进行预测,从而通过较少量的实验筛选更有效的siRNA。第二,与反义RNA相比,已知siRNA可在更低浓度有效抑制基因的表达。这意味着可使用较少量的siRNA进行研究并且有望获得更好的治疗效果。第三,通过RNAi的基因表达抑制是体内的自然机制,其作用非常特异。
通常,RNAi实验包括siRNA设计(靶点筛选)、细胞培养实验(细胞培养试验、靶mRNA降解速率、最有效siRNA的筛选)、动物实验(稳定性、修饰、输送、药代动力学、毒理学)和临床测试。这些实验中,最重要的步骤是筛选有效的siRNA序列,以及将筛选的siRNA输送到靶组织(药物输送)。筛选高效率的siRNA序列很重要,因为不同的siRNA显示不同的效率,而只有高效的siRNA才会带来准确的实验结果,并能用于治疗。通过计算机辅助评分法和实验方法筛选有效的核苷酸序列。所述实验方法的目的在于筛选与体外转录合成的靶mRNA具有良好结合的核苷酸序列。然而,由体外转录获得的mRNA结构可能不同于细胞中mRNA的结构,并且很多蛋白质可结合于细胞中的mRNA,从而使得利用体外转录的mRNA获得的实验结果不能反映真实的结果。因此,开发一种筛选有效siRNA序列的算法很重要,其可以通过考虑影响siRNA序列有效性的各种要素实现。
通常,按照Tuschl规则进行传统的siRNA设计,其考虑到3′突出端的类型、GC比值、特异核苷酸的重复、序列中的SNP(单核苷酸多态性)、RNA的二级结构、与非靶mRNA序列的同源性(S.M.Elbashir,J.Harborth,W.Lendeckel,A.Yalcin,Klaus Weber,T.Tuschl,Nature,411,494-498,2001a;S.M.Elbashir,W.Lendeckel,T.Tuschl,Genes&Dev.,15,188-200,2001b;S.M.Elbashir,J.Martinez,A.Patkaniowska,W.Lendeckel,T.Tuschl,EMBO J.,20,6877-6888,2001c)。然而,最近在siRNA设计中,考虑siRNA双链部分的结合能态(Khvorova,A.,Reynolds,A.,Jayasena,S.D.,Cell,115(4),505,2003;Reynolds,A.,Leake,D.,Boese,Q.,Scaringe,S.,Marshall,W.S.,Khvorova,A.,Nat.Biotechnol.,22(3),326-330,2004)。例如,考虑到双链siRNA中与RISC(RNAi诱导的沉默复合体(silencing complex))结合的链可决定性地影响siRNA的效率,通过计算候选siRNA的5′端和3′端之间的能量差可预测siRNA的效率(Schwarz DS,Hutvagner G,Du T,Xu Z,Aronin N,Zamore PD.,Cell,115(2),199-208,2003,参见图1)。
使用统计学方法,本发明者更准确和精确地研究了siRNA效率和siRNA整个双链部分结合能态之间的关系。迄今,仅仅报道了siRNA的局部部分的上述关系。结果我们发现:通过对候选siRNA相对结合能模式进行分析,可预测候选siRNA对靶mRNA的抑制效率,并且利用筛选的siRNA可有效抑制靶mRNA的表达。
发明内容
本发明的目的在于提供一种使用siRNA有效抑制靶mRNA表达的方法,其中通过分析候选siRNA的相对结合能模式而无需进行任何实验筛选所述siRNA。
根据本发明的一个实施方式,使用siRNA抑制靶mRNA表达的方法,包括:
(1)获得dsRNA序列的所有组合,其中每个RNA序列都由n个与预定靶mRNA互补的核苷酸(n为整数)组成;
(2)获得每个dsRNA的EA、EB、EC和ED,其为所述dsRNA碱基序列中的第1-2位结合能位置构成的段(A)、第3-7位结合能位置构成的段(B)、第8-15位结合能位置构成的段(C)和第16-18位结合能位置构成的段(D)的平均结合能数值;
(3)根据下列方程,对于dsRNA序列的每种组合,将Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)分配到(A)至(D)的各段,
对于(A-B)段
i)如果
E f ( A - B ) - 1.96 S f ( A - B ) N f < X ( A - B ) < E f ( A - B ) + 1.96 S f ( A - B ) N f
那么Y(A-B)=10分,
ii)如果
E n ( A - B ) - 1.96 S n ( A - B ) N n < X ( A - B ) < E n ( A - B ) + 1.96 S n ( A - B ) N n
那么Y(A-B)=0分,
iii)如果X(A-B)不属于所述范围,则Y(A-B)=5分,
同样,将Y(B-C)、Y(C-D)和Y(A-D)分配到(B-C)段、(C-D)段和(A-D)段,
其中Ei(A-B)是每个(A-B)段平均能量值差异的平均值,
Si(A-B)是Ei(A-B)的分布值,
Ni是siRNA的实验数据的数目,
X(A-B)是对应于与(A)段平均结合能EA和(B)段平均结合能EB之间的差值,同样适用于Y(B-C)、Y(C-D)和Y(A-D)
(4)根据下述方程4,分配每个dsRNA的相对结合能Y值
[方程4]
Y = W ( A - B ) Y ( A - B ) + W ( B - C ) Y ( B - C ) + W ( C - D ) Y ( C - D ) + W ( A - D ) Y ( A - D ) 10 ( W ( A - B ) + W ( B - C ) + W ( C - D ) + W ( A - D ) ) &times; 100
其中W(A-B)是(A-B)段的加权;
(5)通过下述方程5,分配每个dsRNA的Z值
[方程5]
Z = 100 &times; &Sigma; i W i Z i M i &Sigma; i W i
其中i为整数,代表影响siRNA对靶mRNA抑制效率的因子,其中至少有一个是siRNA的相对结合能,
Zi是给予每个因子的分值,假设Z1=Y,代表步骤(4)的相对结合能,
Mi是分配给每个因子的预定最大值,和
Wi是基于W1分配给每个因子的预定加权;
(6)将在步骤(5)获得的每个dsRNA的Z值降序排列,从而筛选dsRNA的预定前%;以及
(7)应用筛选的dsRNA抑制靶mRNA表达。
所述siRNA是包含21-23个、优选为21个核苷酸的dsRNA,并具有由19个核苷酸组成的双链中心区域结构,以及在该双链中心区域的两个3′端突出1-3个核苷酸、优选突出2个核苷酸(参见图3)。
通过分析抑制靶mRNA表达的候选siRNA的相对结合能模式以优化用于靶mRNA的siRNA设计,本发明者依据siRNA的双链区域的相对结合能模式对siRNA进行评分和分类。
为了获知某种siRNA对靶mRNA的抑制效率,本发明者研究了siRNA的结合能态和抑制效率之间的相关性。本发明者并没有关注双链siRNA特定区域的绝对结合能值,而是关注siRNA的相邻和非相邻部分之间的相对结合能变化(参见图2)。
根据本发明的一个实施方式,使用siRNA的基因表达抑制数据采集自两篇论文。一篇是Khvorova的论文(Khvorova A,Reynolds A,JayasenaSD,Cell,115(4),505,2003),另一篇是Amarzguioui的论文(AmarzguiouiM,Prydz H,Biochem.Biophys.Res.Commun.,316(4),1050-8,2004)。Khvorova的论文公开了由SEQ.ID.NO:1表示的核苷酸序列,其对应于人亲环蛋白基因(hCyPB)的第193-390位核苷酸序列,由SEQ.ID.NO:2表示的核苷酸序列,其对应于萤火虫荧光素酶基因((pGL3)的第1434-1631位核苷酸序列,以及抑制这些基因的siRNA。Amarzguioui的论文公开了用于抑制不同基因(AA)的siRNA。从采集到的数据中,获得用于数据分析的siRNA碱基序列和所述siRNA的基因表达抑制作用。
表1显示从Khvorova的论文中获得的部分实验数据。INN-HB最近邻模型使得碱基序列信息转化为结合能的数据(Xia T,SantaLucia J Jr,BurkardME,Kierzek R,Schroeder SJ,Jiao X,Cox C,Turner DH,Biochemistry,37(42),14719-35,1998,参见图3和图4)。
表1
  基因   位置   序列*   SEQ ID NO.   基因抑制%
  hCyPB   5(+192)   CAAAAACAGTGGATAATTT   3   >90
  M60857   27(+192)   GGCCTTAGCTACAGGAGAG   4   >90
  35(+192)   CTACAGGAGAGAAAGGATT   5   >90
  41(+192)   GAGAGAAAGGATTTGGCTA   6   >90
  43(+192)   GAGAAAGGATTTGGCTACA   7   >90
  45(+192)   GAAAGGATTTGGCTACAAA   8   >90
  65(+192)   ACAGCAAATTCCATCGTGT   9   >90
  69(+192)   CAAATTCCATCGTGTAATC   10   >90
  95(+192)   TCATGATCCAGGGCGGAGA   11   >90
  99(+192)   GATCCAGGGCGGAGACTTC   12   >90
  131(+192)   GCACAGGAGGAAAGAGCAT   13   >90
  139(+192)   GGAAAGAGCATCTACGGTG   14   >90
  159(+192)   GCGCTTCCCCGATGAGAAC   15   >90
  7(+192)   AAAACAGTGGATAATTTTG   16   <50
  9(+192)   AACAGTGGATAATTTTGTG   17   <50
  11(+192)   CAGTGGATAATTTTGTGGC   18   <50
  17(+192)   ATAATTTTGTGGCCTTAGC   19   <50
  23(+192)   TTGTGGCCTTAGCTACAGG   20   <50
  31(+192)   TTAGCTACAGGAGAGAAAG   21   <50
  51(+192)   ATTTGGCTACAAA AACAGC   22   <50
  61(+192)   AAAAACAGCAAATTCCATC   23   <50
  63(+192)   AAACAGCAAATTCCATCGT   24   <50
  73(+192)   TTCCATCGTGTAATCAAGG   25   <50
  97(+192)   ATGATCCAGGGCGGAGACT   26   <50
  101(+192)   TCCAGGGCGGAGACTTCAC   27   <50
  103(+192)   CAGGGCGGAGACTTCACCA   28   <50
  113(+192)   ACTTCACCAGGGGAGATGG   29   <50
  115(+192)   TTCACCAGGGGAGATGGCA   30   <50
  119(+192)   CCAGGGGAGATGGCACAGG   31   <50
  149(+192)   TCTACGGTGAGCGCTTCCC   32   <50
  151(+192)   TACGGTGAGCGCTTCCCCG   33   <50
  171(+192)   TGAGAACTTCAAACTGAAG   34   <50
  173(+192)   AGAACTTCAAACTGAAGCA   35   <50
  179(+192)   TCAAACTGAAGCACTACGG   36   <50
*代表在SEQ ID NO:1中,从指定位置到第21位核苷酸所记载的碱基序列。
根据图3,所述siRNA包括l8个结合能模式。从步骤(a)中获得的具有特异碱基序列的siRNA的18个结合能模式与基因表达抑制率之间的相互关系取决于上述18个结合能模式如何被划分为段,从而控制结合能的整体模式。结果,在从(a)获得的140个siRNA抑制基因表达的实验数据集中,本发明者计算了第1-18位置的每个结合能模式的平均值,然后给出x轴为第1-18位置、y轴为结合能(-ΔG)的图,如图5所示。
本发明者设定段使具有如下现象:某段和其相邻段之间的平均结合能差异在有效siRNA(超过90%的基因抑制)和无效siRNA(低于50%的基因抑制)之间发生最大程度地逆转。即:将18个结合能位置划分为很多段,优选划分为A、B、C和D四段,每段的平均能量定义为EA、EB、Ec和ED,并设定这些段使有效siRNA和无效siRNA的各段中平均结合能差(即EA-EB、EB-Ec、Ec-ED)最大程度地远离0以显示最大变化。
为此,将siRNA基因表达抑制的实验数据分成有效组和无效组。通过t-检测,证实了该两组在第1-18结合能位置上没有差异的无效假说。即,在该两组中,p-值小于O.05的结合能位置,其结合能具有接近5%显著水平的差异。图6表示表示x轴为结合能位置、y轴为p-值的结果图,图7是x轴为结合能位置、y轴为通过下列方程l得到的t-值的平滑曲线图。
[方程1]
Figure A20058004783200151
此处,
有效组的平均结合能;
Figure A20058004783200153
无效组的平均结合能;
Sx:有效组的分布;
Sy:无效组的分布;
Nx:有效组的变化数(the number of variation);
Ny:无效组的变化数。
本发明的优选实施方式中使用了三个数据集。来自Khvorova的论文的两个数据集包括对pGL3和hCyPB的基因抑制实验结果,这些实验结果被划分为有效组(超过90%的抑制)和无效组(低于50%的抑制)。来自Amarzguioui的论文的一个数据集包括对各种基因(AA)的实验结果,这些实验结果被一并划分为有效组(超过70%的抑制)和无效组(低于70%的抑制)。Khvorova的论文包括对萤火虫荧光素酶基因(pGL3)的40个有效的结果和20个无效的结果,以及对人亲环蛋白(hCyPB)的13个有效的结果和21个无效的结果。Amarzguioui的论文包括对各种基因(AA)的21个有效的结果和25个无效的结果。
本发明者注意到所显示的三个数据集的t-值变化类型是如图7所示的相同模式。与其余数据集中的划分相比,预计在Amarzguioui论文的数据集中,有效组和无效组的划分更不明确,这表明:比其余数据集相比,Amarzguioui论文的数据集具有更小的t-值变化幅度。这意味着在有效siRNA和无效siRNA之间,具有特定的结合能模式划分。
当有效siRNA组和无效siRNA组之间的结合能差异非常大时,t-值具有最大值或最小值,或者p-值变为接近0。即:如果以某部分为中心的邻近区域设定为段时,邻近区域之间的结合能偏差可被最大化。如果即使t-值具有最大值或最小值,但当t-值的最大值和最小值的偏差并不大时,即认为p-值不具有差别,因此可不将它们指定为段。
在本发明的优选实施方式中,利用图6的p-值指定所述段的中心位置。此处运用下列标准:
①当Khovorova两个数据集中的一个或多个的p-值为0.1或更小;
②当Khovorova两个数据集中的所有为0.4或更小。
适合标准①和②的位置包括第1结合能位置、第5-6结合能位置、第14结合能位置和第17-18结合能位置。
下文中,只使用Khvorova的两个数据集,因为Amarzguioui数据集的组划分标准不同于Khvorova的两个数据集的组划分标准,并且根据本发明,在建立用于评价siRNA效率的方法之后,再验证其性能。
随后,以上面四个位置作为中心确定段。确定段的基础在于使确定段的平均结合能与其他邻近段的结合能之间的差异变化最大化。优选地,随后的步骤可分为以下两种情况:
(1)邻近段之间没有任何空置区域,连续实施该步骤的情况;
(2)邻近段之间存在空置区域,断续实施该步骤的情况。
上述两种情况各有优缺点。尽管情况(1)可对所有的结合能状态进行研究,但由于部分段不能区分而使预测能力降低。另一方面,尽管情况(2)排除了不能区分的段而使预测值最大化,但其不能对位置进行评价。
优选地,将(1)段设定为如下:
(a)段分为A、B、C和D四段,包括分别基于标准①和②的四个位置集,也包括不侵占其他位置区域的所有结合能位置,从而获得如表2所示的20种组合。
表2
  A段   B段   C段   D段   A段   B段   C段   D段
  1-2   3-7   8-14   15-18   1-3   4-7   8-14   15-18
  1-2   3-8   9-14   15-18   1-3   4-8   9-14   15-18
  1-2   3-9   10-14   15-18   1-3   4-9   10-14   15-18
  1-2   3-10   11-14   15-18   1-3   4-10   11-14   15-18
  1-2   3-11   12-14   15-18   1-3   4-11   12-14   15-18
  1-2   3-7   8-15   16-18   1-3   4-7   8-15   16-18
  1-2   3-8   9-15   16-18   1-3   4-8   9-15   16-18
  1-2   3-9   10-15   16-18   1-3   4-9   10-15   16-18
  1-2   3-10   11-15   16-18   1-3   4-10   11-15   16-18
  1-2   3-11   12-15   16-18   1-3   4-11   12-15   16-18
此处,有效siRNA的数目为Nf,无效siRNA的数目为Nn,效率为i(‘f’表示有效组的siRNA的情况,‘n’表示无效组的siRNA的情况)。将第j个(其值为1-Nf或1-Nn中的数值)siRNA在k段(A、B、C和D其中之一)具有的每一结合能位置的平均结合能定义为Eijk。例如:在有效组的第三siRNA的B段中,用Ef3B代表每一结合能位置的平均结合能。利用实验数据获得每个Eijk
按照下列方程2,利用每个Eijk获得平均结合能变化,其成为A-B段(Ei(A-B)),B-C段(Ei(B-C)),C-D段(Ei(C-D))的代表。
[方程2]
E i ( A - B ) = E iA - E iB = 1 N i &Sigma; j ( E ijA - E ijB )
可利用方程2得到Ei(B-C)和Ei(C-D)。此处,Ef(A-B)为一个数值,其代表有效组siRNA的A段和B段中,每一结合能位置的结合能,En(A-B)是代表无效组的数值。即:如果筛选一个段以增加Ef(A-B)-En(A-B)的绝对值,那么在A段和B段中,有效siRNA组和无效siRNA组之间的平均结合能差异变大。结果就可以利用上述特点筛选段。同样也适用于B-C和C-D。本发明者仅筛选了在Ef(A-B)-En(A-B)、Ef(B-C)-En(B-C)和Ef(C-D)-En(C-D)中具有0.1或更大绝对值的段的组合。在本发明的优选实施方式中,筛选了四个段,表3显示了所筛选段的信息。
表3
  A段   B段   C段   D段
  1-2   3-7   8-15   16-18
  1-2   3-8   9-15   16-18
  1-3   4-7   8-15   16-18
  1-3   4-8   9-15   16-18
在所筛选的四个段中,对Ef(A-B)和En(A-B)、Ef(B-C)和En(B-C)、Ef(C-D)和En(C-D)进行t-检测,得到t-值和p-值。通过这种方法,在基因hCyPB和pGL3的p-值<0.05和t-值>2的所有段中,确定用于区分有效siRNA组和无效siRNA组的段。这些段是A(1-2)、B(3-7)、C(8-15)和D(16-18),图8显示了这些段的信息。
优选地,将(2)段设定为如下:
由于允许段断续并且互相重叠,因此除了使用不同的方法设定段宽度,基本上重复与段(1)相同的方法。表4显示了包括基于标准①和②设定的4个结合能位置在内的2个结合能位置的所有段的组合。
表4
  A段   1   1-2   1-3
  B段   3-6   4-6   5-6   3-7   4-7   5-7   3-8   4-8   5-8
  C段   12-14   13-14   14   12-15   13-15   14-15   12-16   13-16   14-16
  D段   15-18   16-18   17-18
选择表4中的A段、B段、C段和D段的其中之一,并进行必要段的组合。结果可能出现729(=3×9×9×3)种组合。由于几乎不可能通过方程2的方法和t-检测在729种组合中仅仅筛选出一个段的一个组合,因此优选引入新的变量R(稳健性的缩写)。R表示除根据标准①和②设定的4个结合能位置外,位于该段中的结合能位置的数目。例如,如果设定A段是1-2、B段是4-7,那么A段的R值为1、B段的R值为2。当考虑到该两段的R值,比如A段(1-2)和B段(4-7)的(1)Ef(A-B),就将该两段的R值相加,使得A-B段的R值设定为3。
从表4所示的A、B、C和D段的所有组合中分别获得(1)中提到的Eijk。由方程2计算表4的所有组合的Ei(A-B)、Ei(B-C)和Ei(C-D)值,并且进行t-检测,分别得到t-值和p-值。此处应用上述R值。图9显示在具有特定R值的A-B段、B-C段和C-D段的所有组合中,p-值小于0.05的组合的比例图。随着R值变大,则p-值趋于变小。结果,在p-值急剧变小之前,计算R值以获得包含期望p-值的最大范围的段。根据图9,当R值为3或4或更小时,p-值<0.05的段的比例显示为更高。因此,在本发明的优选实施方案中,适宜的段仅包括具有R=3或4的段。
由R值和t-检测结果确定最终的段。由于要求两段的R值为3或4,在B段和C段中加入两个结合能位置,其中在两端都加入段;在A段和D段中,加入一个结合能位置,其中在一端加入段。结果,A-B中R=3,B-C中R=4和C-D中R=3。当得到所有符合该条件的段组合后,对这些组合进行t-检测从而筛选具有极低p-值的一个段组合。筛选出的段是A(1-2)、B(3-6)、C(14-16)和D(16-18)。表5显示这些段的信息。
表5
  A-B段   B-C段   C-D段
  1-2   3-6   14-16
  3-6   14-16   16-18
  hCyPB   t-值   3.175553   -3.4246   5.915552
  p-值   0.00165   0.000853   0.000001
  pGL3   t-值   2.68004   -2.32939   3.217273
  p-值   0.004783   0.011671   0.001059
  AA   t-值   1.887835   -0.89566   1.266718
  p-值   0.032827   0.18765   0.10596
表6
  A段   B段   C段   D段
  1-2   3-7   8-15   16-18
  A-B段   B-C段   C-D段   A-C段   A-D段   B-D段
  hCyPB   t-值   3.15303   -2.25399   3.27599   1.38792   5.40182   1.00611
  p-值   0.00175   0.01559   0.00127   0.08737   0.00000   0.16095
  pGL3   t-值   2.42243   -2.40223   2.13573   0.42633   2.31082   -0.15585
  p-值   0.00928   0.00976   0.01847   0.33572   0.01221   0.42834
  AA   t-值   1.87483   -1.02960   1.09863   1.41229   1.94585   0.22186
  p-值   0.03373   0.15441   0.13895   0.08245   0.02904   0.41273
  A段   B段   C段   D段
  1-2   3-6   14-16   16-18
  A-B段   B-C段   A-C段   A-D段   B-D段
  hCyPB   t-值   3.16461   -3.42274   5.92078   0.65134   5.40182   0.82726
  p-值   0.00340   0.00172   0.00000   0.51948   0.00001   0.41421
  pGL3   t-值   2.69174   -2.32867   3.20424   0.17064   2.31082   -0.32109
  p-值   0.00464   0.01169   0.00110   0.43255   0.01221   0.37465
  AA   t-值   1.89671   -0.91889   1.27660   1.29998   1.94585   0.16337
  p-值   0.03222   0.18158   0.10422   0.10019   0.02904   0.43549
在本发明的优选实施方式中,通过区别邻近段的相对结合能模式,筛选由(1)和(2)设定的段(参见图10)。然而,由于在非邻近段之间的结合能存在足够的差异,对由A、B、C、D四段的差异获得A-B、B-C、C-D、A-C、A-D和B-D的六种组合进行t-检测。表6显示t-检测结果。
如表6所示,在A-C段和B-D段之间没有大的差异。A-D组合符合非邻近段的p-值<0.05的条件。此处,通过其它实验结果,已知A段5′端和B段3′端之间的结合能差异影响siRNA的效率(Schwarz,D.S.,Hutvagner,G,Du,T.,Xu,Z.,A ronin,N.,Zamore,P.D.,Cell,115(2),199-20,2003)。
本发明者利用采集的实验数据和筛选的段计算未知siRNA的相对结合能。为了建立一个评分系统,将来自Khvorova论文的两个数据集,即萤火虫荧光素酶(pGL3)和人亲环蛋白(hCyPB)的实验结果包括在采集的数据中从而获得更大的数据集。在用于建立评分系统的数据中,排除通过基于70%的基因表达抑制率进行划分而获得的、来自Amarzguioui论文的一个数据集,因为它的划分标准不同于Khvorova论文中的数据分类标准,后者认为90%或更高为有效,而50%或更少为无效。将获得的数据分为有效组(90%或更高的基因表达抑制率:功能的或f)和无效组(50%或更低的基因表达抑制率:非功能的或n)。
将获得的数据划分到上述方法得到的段中,从而由方程2得到Ei(A-B)、Ei(B-C)、Ei(C-D)和Ei(A-D)。这些是通过对平均能量差异值进行平均化而获得的平均能量值。在该方法中,每个值都具有分布值,即Si(A-B)、Si(B-C)、Si(C-D)和Si(A-D)。将siRNA实验数据的数目定义为Ni。表7显不Ei(A-B)、Ei(B-C)、Ei(C-D)、Ei(A-D)值、Si(A-B)、Si(B-C)、Si(C-D)、Si(A-D)、Ni值,以及t-检测的t-值和p-值。
如表7所示,由于数据集中所有段的p-值<0.05,其可用于划分有效siRNA和无效siRNA的评分系统中。
如果在有效siRNA组中,特定siRNA的A段和B段之间的平均结合能差异为Xf(A-B),根据方程3,X在p-值<0.05的显著水平内变化。
[方程3]
E f ( A - B ) - 1.96 S f ( A - B ) N f < X f ( A - B ) < E f ( A - B ) + 1.96 S f ( A - B ) N f
表7
  A段   B段   C段   D段
  1-2   3-7   8-15   16-18
  A-B段   B-C段   C-D段   A-D段
  平均值(Ef)   0.18   -0.15   0.18   0.22
  有效   分布(Sf)   0.55   0.28   0.41   0.32
  Nf=53   标准偏差   0.74   0.53   0.64   0.57
  Nf   53   53   53   53
  平均值(Ef)   -0.42   0.25   -0.28   -0.45
  无效   分布(Sf)   0.49   0.43   0.4   0.53
  Nn=41   标准偏差   0.7   0.65   0.63   0.73
  Nn   41   41   41   41
  t-值   4.026342   -3.16981   3.489798   4.826898
  p-值   0.000058   0.001036   0.000372   0.000003
  A段   B段   C段   D段
  1-2   3-6   14-16   16-18
  A-B段   B-C段   C-D段   A-D段
  平均值(Ef)   0.2   -0.21   0.23   0.22
  有效   分布(Sf)   0.56   0.57   0.34   0.32
  Nf=53   标准偏差   0.75   0.75   0.59   0.57
  Nf   53   53   53   53
  平均值(Ef)   -0.42   0.3   -0.33   -0.45
  无效   分布(Sf)   0.47   0.45   0.21   0.53
  Nn=41   标准偏差   0.69   0.67   0.46   0.73
  Nn   41   41   41   41
  t-值   4.166805   -3.49839   5.207057   4.826898
  p-值   0.000035   0.000362   0.000001   0.000003
方程3能用于所有的Xi(A-B)、Xi(B-C)、Xi(C-D)和Xi(A-D),也能获得如图11所示的Xi(A-B)、Xi(B-C)、Xi(C-D)和Xi(A-D)的每个范围。
通过相对结合能模式,考虑如下结果,对未知siRNA的效率进行评分:
(1)获得平均结合能值,即得到未知siRNA的A-B、B-C、C-D和A-D段的X(A-B)、X(B-C)、X(C-D)和X(A-D)
(2)确定X(A-B)所属范围并且按以下给予分值:
i)如果
E f ( A - B ) - 1.96 S f ( A - B ) N f < X ( A - B ) < E f ( A - B ) + 1.96 S f ( A - B ) N F
则给10分;
ii)如果
E n ( A - B ) - 1.96 S n ( A - B ) N n < X ( A - B ) < E n ( A - B ) + 1.96 S n ( A - B ) N n
则给0分;
iii)当所述范围不属于i)或ii),给5分。
以同样的方法对X(B-C)、X(C-D)和X(A-D)给予分值。
每个分值定义为Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)
参考图11,对于连续段,如果-0.02<X(A-B)<0.38、-0.29<X(B-C)<-0.01、0.00<X(C-D)<0.35、0.07<X(A-D)<0.37,那么分别给予Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)10分。如果-0.63<X(A-B)<-0.21、0.05<X(B-C)<0.44、-0.47<X(C-D)<-0.09、-0.67<X(A-D)<-0.23,那么分别给予Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)0分。当X(A-B)、X(B-C)、X(C-D)和X(A-D)不属于所述范围时,分别给予Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)5分。
对于断续段,如果0.00<X(A-B)<0.40、-0.41<X(B-C)<-0.01、0.07<X(C-D)<0.39、0.07<X(A-D)<0.37,那么分别给予Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)10分。如果-0.63<X(A-B)<-0.21、0.10<X(B-C)<0.51、-0.47<X(C-D)<-0.19、-0.67<X(A-D)<-0.23,那么分别给予Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)0分。当X(A-B)、X(B-C)、X(C-D)和X(A-D)不属于所述范围时,分别给予Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)5分。
3)当Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)的加权因子定义为W(A-B)、W(B-C)、W(C-D)和W(A-D)时,利用方程4,基于满分100,将相对结合能模式的Y分值进行转化:
[方程4]
Y = W ( A - B ) Y ( A - B ) + W ( B - C ) Y ( B - C ) + W ( C - D ) Y ( C - D ) + W ( A - D ) Y ( A - D ) 10 ( W ( A - B ) + W ( B - C ) + W ( C - D ) + W ( A - D ) ) &times; 100
根据如何设定各个段中的加权因子W(A-B)、W(B-C)、W(C-D)和W(A-D),对siRNA的结合能模式进行评分。为了优化加权因子的组合,使加权因子以0.01的递增从0增加到1,考察有效siRNA组和无效siRNA组之间的t-值。图12显示按照降序排列的前100个t-值中,依据每个加权因子值的组合的分布。参考图12的分布,可以获得使t-值最大化的位置,即获得使有效siRNA组和无效siRNA组之间的结合能变化差异最大化的位置。用于使上述两组之间t-值最大化的W(A-B)、W(B-C)、W(C-D)和W(A-D)组合在连续段为0.90-1.00、0.2-0.4、0.2-0.3和0.7-0.9,优选1.00、0.37、0.20、0.90,以及在断续段为0.5-0.7、0.3-0.5、0.3-0.5和0.9-1.0,优选0.65、0.48、0.48和0.90。如果每种情况中将其设定在阈值之外,该评分方法中,t-值会快速下降甚至降到用于区分的不显著水平。
最后,本发明者考虑到如何将相对结合能模式与其它因子(GC含量、Tm、结合能的绝对分值、与其它mRNA的同源性、RNA的二级结构)相结合以获得预测siRNA总效率的系统。使用下列线性方程作为评分方法,其以基本同样的方式对相对结合能模式进行评分。
S t = &Sigma; i W i S i
如果将每个因子的分值定义为Zi(Z1、Z2、Z3、...、Zn),每个因子的满分定义为Mi(M1、M2、M3、...、Mn),以及将每个因子的效率,即每一分值的加权因子定义为Wi(W1、W2、W3、...、Wn),那么根据方程5,代表siRNA效率的分值Z可基于满分100分而表示:
[方程5]
Z = 100 &times; &Sigma; i W i Z i M i &Sigma; i W i
其中i是从1到n的整数,包含许多影响靶mRNA的抑制作用的因子的Zi,包括作为必需因子的相对结合能、以及选自3′端5个碱基中的A/U数、第1位置G/C的存在、第19位置A/U的存在、G/C含量、Tm、RNA的二级结构、与其它mRNA的同源性等的一个或多个因子作为任选因子。这些任选因子并不必然包括在Z值分配中,但是可以不加限制地包括那些与相对结合能一起更好地进行预测的因子。对因子的结合也没有特殊的限制。在本发明的优选实施方案中,选择下列因子作为Zi:Z1-相对结合能分值(Y),Z2-3′端5个碱基中的A/U数,Z3-第1位置G/C的存在,Z4-第19位置A/U的存在,Z5-G/C含量的分值。各自的Mi值如下:M1=100,M2=5,M3=1,M4=1,M5=10。
在本发明的优选实施方案中,Z1为计算出的Y值,Z2为3′端5个碱基中的A/U数,Z3为当5′端碱基为G/C时是1,否则是0,Z4为当3′端碱基为A/U是1,否则是0,以及Z5为当G/C含量范围为36-53%时是10,不属于此范围时是0。
与图12对相对结合能进行评分的方式相同,图13为对每个分值优化加权因子Wi的图。通过该方法优化的W1、W2、W3、W4和W5的结合的范围为0.9-1.0、0.0-0.2、0.1-0.3、0.0-0.4和0.0-0.2,优选为0.90、0.07、0.15、0.19和0.11。
通过上述方法得到的Z值可作为区别未知siRNA具有何种相对结合能模式的指标。结果只有分析碱基序列可以评价结合能,从而使siRNA的设计和制备效率最大化。
根据本发明,可以预测未知siRNA对靶mRNA的抑制效率。结果通过使用上述方法筛选的具有优异抑制效率的siRNA可有效抑制靶mRNA的表达,优选使用筛选的对靶mRNA的Z值在前10%以内的siRNA。上述数值可以是任何值,其可按照候选siRNA组的样本大小、实验条件等灵活选择。
附图说明
图1表示siRNA基因表达抑制效率随RISC酶结合模式的变化图。
图2表示基因表达抑制效率和siRNA结合能之间相互关系的评分方法的图。
图3表示在INN-HB最近邻模型中,siRNA结合能的分布图。
图4表示在INN-HB最近邻模型中的结合能值。
图5表示在采集的siRNA数据的每个位置的结合能的平均值图:
X轴:第1-18位置,
Y轴:结合能的平均值(-ΔG),
实线:当基因表达抑制率为90%或更高时,
点线:当基因表达抑制率低于50%时。
图6表示在采集的siRNA数据的每个位置的结合能的t-检测结果图:
X轴:第1-18位置,
Y轴:p-值,
实线:pGL3基因,
点线:hCyPB基因
点划线:Amarzguioui论文中的复合基因。
图7表示在采集的siRNA数据的每个位置的结合能的t-检测结果图:
X轴:第1-18位置,
Y轴:t-值,
实线:pGL3基因,
点线:hCyPB基因
点划线:Amarzguioui论文中的复合基因。
图8表示通过方法(1)分析结合能数据得到关于A(1-2)段、B(3-7)段、C(8-15)段和D(16-18)段的各种信息的图。
图9表示在具有特定R值的A-B、B-C和C-D的组合中,p-值<0.05的比例的分布图。
图10表示通过方法(1)和方法(2)筛选的段的图。
图11表示图(A)显示通过方法(1)筛选出的A-B段、B-C段、C-D段和A-D段中,无效siRNA和有效siRNA平均结合能之间的相对差异的可靠段;以及图(B)显示通过方法(2)筛选出的A-B段、B-C段、C-D段和A-D段中,有效siRNA和无效siRNA平均结合能之间的相对差异的可靠段。
图12表示相对结合能模式的评分中,加权因子和t-值之间的关系,其中将加权因子的组合按照t-值降序排列,从而显示每段中前100个组合的加权因子数。此处,A是连续段中加权因子的分布,B是断续段中加权因子的分布。
图13表示与图12对相对结合能进行评分的方式相同,对每个分值优化加权因子Wi的图。
具体实施方式
本发明将参考以下实施例进行详细描述,但本发明并不限于此。
实施例1与传统siRNA设计方法的比较
为了检测本发明使用相对结合能模式优化siRNA设计方法的性能,将siRNA设计优化方法与专利号WO2004/045543(Functional andHyperfunctional siRNA,2004年6月3日公开)公开的siRNA设计评分方法进行比较。专利号WO2004/045543的许多算法中所公开的siRNA效率评分方法根据下列方程6进行:
[方程6]
siRNA的相对函数性=-(GC/3)+(AU15-19)-(Tm20℃)*3-(G13)*3-(C19)+(A19)*2+(A3)+(U10)+(A13)-(U5)-(A11)
来自Khvorova和Amarzguioui的论文的三个数据集中,将Amarzguioui论文中的一个数据集,而不是Khvorova论文中用于评价相对结合能模式的的两个数据集用作试验数据,从而比较这两种评分方法的预测能力。首先,使用两种方法计算包括在有效组/无效组中的siRNA的每个分值。通过LDA(线性判别分析)和QDA(二次方程判别分析),计算确定任意siRNA是有效还是无效。优选地,可利用统计程序R得到上述值(http://www.R-project.org)([1]Richard A.Becker,John M.Chambers,and Allan R.Wilks.The New S Language.Chapman&Hall,London,1988;[2]John M.Chambers and Trevor J.Hastie.StatisticalModels in S.Chapman&Hall,London,1992;[3]John M.Chambers.Programming with Data.Springer,New York,1998.ISBN 0-387-98503-4;[4]William N.Venables and Brian D.Ripley.Modern Applied Statistics with S.Fourth Edition.Springer,2002.ISBN 0-387-95457-0;[5]William N.Venables and Brian D.Ripley.S Programming.Springer,2000.ISBN0-387-98966-8;[6]Deborah Nolan and Terry Speed.Stat Labs:MathematicalStatistics Through Applications.Springer Texts in Statistics.Springer,2000.ISBN 0-387-98974-9;[7]Jose C.Pinheiro and Douglas M.Bates.Mixed-Effects Models in S and S-Plus.Springer,2000.ISBN 0-387-98957-0;[8]Frank E.Harrell.Regression Modeling Strategies,with Applications to
Linear Models,Survival Analysis and Logistic Regression.Springer,2001.ISBN 0-387-95232-2;[9]Manuel Cast eion Limas,Joaquin Ordieres Mere,Fco.Javier de Cos Juez,and Fco.Javier Martinez de Pison Ascacibar.Control de Calidad.Metodologia para el analisis previo a la modelizacion dedatos en procesos industrials.Furndamentos teoricos y aplicaciones con R.Servicio de Publicaciones de la Universidad de la Rioja,2001.ISBN84-95301-48-2;[10]John Fox.An R and S-Plus Companion to AppliedRegression.Sage Publications,Thousand Oaks,CA,USA,2002.ISBN0761922792;[11]Peter Dalgaard.Introductory Statistics with R.Springer,2002.ISBN 0-387-95475-9;[12]Stefano Iacus and Guido Masarotto.Laboratorio di statistica con R.McGraw-Hill,Milano,2003.ISBN88-386-6084-0;[13]John Maindonald and John Braun.Data Analysis andGraphics Using R.Cambridge University Press,Cambridge,2003.ISBN0-521-81336-0;[14]Giovanni Parmigiani,Elizabeth S.Garrett,Rafael A.Irizarry,and Scott L.Zeger.The Analysis of Gene Expression Data.Springer,New York,2003.ISBN 0-387-95577-1;[15]Sylvie Huet,Annie Bouvier,Marie-Anne Gruet,and Emmanuel Jolivet.Statistical Tools for NonlinearRegression.Springer,New York,2003.ISBN 0-387-40081-8;[16]S.Mase,T.Kamakura,M.Jimbo,and K.Kanefuji.Introduction to Data Science forengineers-Data analysis using free statistical software R(in Japanese).Suuri-Kogaku-sha,Tokyo,April 2004.ISBN 4901683128;[17]Julian J.Faraway.Linear Models with R.Chapman&Hall/CRC,Boca Raton,FL,2004.ISBN 1-584-88425-8;[18]Richard M.Heiberger and Burt Holland.Statistical Analysis and Data Display:An Intermediate Course withExamples in S-Plus,R,and SAS.Springer Texts in Statistics.Springer,2004.ISBN 0-387-40270-5;[19]John Verzani.Using R for Introductory Statistics.Chapman&Hall/CRC,Boca Raton,FL,2005.ISBN 1-584-88450-9;[20]Uwe Ligges.Programmieren mit R.Springer-Verlag,Heidelberg,2005.ISBN 3-540-20727-9,in German;[21]Fionn Murtagh.CorrespondenceAnalysis and Data Coding with JAVA and R.Chapman&Hall/CRC,BocaRaton,FL,2005.ISBN 1-584-88528-9;[22]Paul Murrell.R Graphics.Chapman&Hall/CRC,Boca Raton,FL,2005.ISBN 1-584-88486-X;[23]Michael J.Crawley.Statistics:An Introduction using R.Wiley,2005.ISBN0-470-02297-3;[24]Brian S.Everitt.An R and S-Plus Companion toMultivariate Analysis.Springer,2005.ISBN 1-85233-882-2;[25]Richard C.Deonier,Simon Tavare,and Michael S.Waterman.Computational GenomeAnalysis:An Introduction.Springer,2005.ISBN:0-387-98785-1;[26]Robert Gentleman,Vince Carey,Wolfgang Huber,Rafael Irizarry,andSandrine Dudoit,editors.Bioinformatics and Computational BiologySolutions Using R and Bioconductor.Statistics for Biology and Health.Springer,2005.ISBN:0-387-25146-4;[27]Terry M.Therneau and PatriciaM.Grambsch.Modeling Survival Data:Extending the Cox Model.Statisticsfor Biology and Health.Springer,2000.ISBN:0-387-98784-3)。
与Khvorova论文不同,根据70%的表达抑制率,将Amarzguioui论文中的数据集划分有效组/无效组。即:比较两种评分方法的预测成功率,该数据集中的差异有望更为准确地得以显示。结果如表所示。
表8
  相对结合能模式   Dharmacon
  LDA   0.652   0.586
  QDA   0.657   0.521
根据表8,在LDA和QDA两种情况下,与传统的siRNA效率评分方法相比,本发明的利用相对结合能模式的结合能评分方法中,显示预测成功率提高了10%。
实施例2存活素基因表达的抑制实验
通过本发明的相对结合能模式优化siRNA设计的方法,设计出36个抑制存活素基因表达的siRNA,然后进行存活素基因表达的抑制实验。根据75%的表达抑制率,将得到的数据集划分为有效组/无效组。此处,将Khvorova和Amarzguioui论文中的三个数据集用作训练集,存活素数据集用作测试集。如实施例1相同的方法,给siRNA打分,利用统计程序R,通过LDA(线性判别分析)和QDA(二次方程判别分析)计算siRNA效率的预测成功率。结果LDA和QDA两种情况的预测成功率都为0.64,显示与实施例1几乎相同的结果(参见表9)。
表9
序号 实验序号 序列(3′突出端:TT)   SEQ IDNO 基因抑制(%) Z分值 精确预测
  1   570(D)   GCAAUGUCUUAGGAAAGGA   37   >90   62.83   0
  2   1106(D)   AGAAUAHCACAAACUACAA   38   >90   53.31   0
  3   1189(D)   GAGACAGAAUAGAGUGAUA   39   >90   72.15   0
  4   1212(Q)   GCGUCUGGCAGAUACUCCU   40   >90   68.48   0
  5   299(AS)   UGCGCUUUCCUUUCUGUCA   41   75-90   40.89
  6   319(G)   GAAGCAGUUUGAAGAAUUA   42   75-90   64.37   0
  7   574(Q)572   UGUCUUAGGAAAGGAGAUC   43   75-90   50.92   0
  8   783(Q)   GGCAGUGUCCCUUUUGCUA   44   75-90   57.52   0
  9   1099(AS)   AAUUCACAGAAUAGCACAA   45   75-90   46.80
  10   1133(D)   AAGCACAAAGCCAUUCUAA   46   75-90   53.35   0
  11   1305(Q)   GGCAGUGGCCUAAAUCCUU   47   75-90   69.63   0
  12   1480(G)   GGCUGAAGUCUGGCGUAAG   48   75-90   50.20   0
  13   1481(G)   GCUGAAGUCUGGCGUAAGA   49   75-90   45.91
  14   1585(G)   CGGCUGUUCCUGAGAAAUA   50   75-90   72.72   0
  15   92(D)   AAGGACCACCGCAUCUCUA   51   50-75   41.57   0
  16   94(Q)92   GGACCACCGCAUCUCUACA   52   50-75   71.82
  17   294(G)   CCGGUUGCGCUUUCCUUUC   53   50-75   44.18   0
  18   693(D)   GCUGCUUCUCUCUCUCUCU   54   50-75   63.54
  19   1021(G)   GUGAUGAGAGAAUGGAGAC   55   50-75   57.86
  20   1188(G)   GGAGACAGAAUAGAGUGAU   56   50-75   57.44
  21   1394(Q)   CCUUCACAUCUGUCACGUU   57   50-75   57.48
  22   1546(G)   GAUUGUUACAGCUUCGCUG   58   50-75   57.37
  23   90(AS)   UCAAGGACCACCGCAUCUC   59   <50   29.75   0
  24   95(G)   GACCACCGCAUCUCUACAU   60   <50   55.86
  25   294(Q)282   AAGCAUUCGUCCGGUUGCG   61   <50   18.86   0
  26   289(D)   UUCGUCCGGUUGCGCUUUC   62   <50   39.01   0
  27   428(Q)426   ACUGCGAAGAAAGUGCGCC   63   <50   23.96   0
  28   780(Q)778   GAAGGCAGUGUCCCUUUUG   64   <50   56.04
  29   807(G)   GACAGCUUUGUUCGCGUGG   65   <50   43.89   0
  30   846(Q)   UGUGUCUGGACCUCAUGUU   66   <50   47.41   0
  31   1130(Q)   ACUAAGCACAAAGCCAUUC   67   <50   47.75   0
  32   1141(Q)   AGCCAUUCUAAGU CAUUGG   68   <50   33.49   0
  33   1142(Q)   GCCAUUCUAAGUCA UUGGG   69   <50   37.58   0
  34   1236(D)   CACUGCUGUGUGAUUAGAC   70   <50   35.92   0
  35   1325(D)   UUAAAUGACUUGGCUCGAU   71   <50   52.86
  36   1390(G)   CCAACCUUCACAUCUGUCA   72   <50   63.50
  总的预测成功率(23/36)=64%   23
工业实用性
如上所述,根据本发明的方法,结果研究人员或实验人员无需进行实际的实验,能够通过未知siRNA碱基序列对相对结合能模式进行分析,从而快速确定siRNA是有效还是无效,因此可以使siRNA的设计和制备效率最大化,并且通过对靶mRNA有效的siRNA有效抑制靶mRNA的表达。
序列表
<110>BIONEER CORPORATION
<120>Method of Inhibiting Expression of Target mRNA Using siRNAConsisting of Nucleotide Sequence Complementary to Said TargetmRNA
使用由互补于所述靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法
<160>72
<170>Kopatent In 1.71
<210>1
<211>208
<212>DNA
<213>Homo sapiens
人类
<400>1
gttccaaaaa cagtggataa ttttgtggcc ttagctacag gagagaaagg atttggctac     60
aaaaacagca aattccatcg tgtaatcaag gacttcatga tccagggcgg agacttcacc    120
aggggagatg gcacaggagg aaagagcatc tacggtgagc gcttccccga tgagaacttc    180
aaactgaagc actacgggcc tggctggg                                       208
<210>2
<211>200
<212>DNA
<213>Drosophila sp.
果蝇
<400>2
tgaacttccc gccgccgttg ttgttttgga gcacggaaag acgatgacgg aaaaagagat     60
cgtggattac gtcgccagtc aagtaacaac cgcgaaaaag ttgcgcggag gagttgtgtt    120
tgtggacgaa gtaccgaaag gtcttaccgg aaaactcgac gcaagaaaaa tcagagagat    180
cctcataaag gccaagaagg                                       200
<210>3
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophil in gene starting at5 position of Seq.ID.No.1
起始于Seq.ID.No.1的5位的人亲环蛋白基因的功能siRNA序列
<400>3
caaaaacagt ggataattt                                               19
<210>4
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at27 position of Seq.ID.No.1
起始于Seq.ID.No.1的27位的人亲环蛋白基因的功能siRNA序列
<400>4
ggcctt agct acaggagag                                            19
<210>5
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at
35 position of Seq.ID.No.1
起始于Seq.ID.No.1的35位的人亲环蛋白基因的功能siRNA序列
<400>5
ctacaggaga gaaaggatt                                          19
<210>6
<211>19
<212>DNA
<213>Artifici al Sequence
人工序列
<220>
<223>funct ional siRNA sequence for human cyclophilin gene starting at41 posifion of Seq.ID.No.1
起始于Seq.ID.No.1的41位的人亲环蛋白基因的功能siRNA序列
<400>6
gagagaaagg atttggcta                                              19
<210>7
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at43 position of Seq.ID.No.1
起始于Seq.ID.No.1的43位的人亲环蛋白基因的功能siRNA序列
<400>7
gagaaaggat ttggctaca                                                19
<210>8
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at45 position of Seq.ID.No.1
起始于Seq.ID.No.1的45位的人亲环蛋白基因的功能siRNA序列
<400>8
gaaaggattt ggctacaaa                                             19
<210>9
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at65 position of Seq.ID.No.1
起始于Seq.ID.No.1的65位的人亲环蛋白基因的功能siRNA序列
<400>9
acagcaaatt ccatcgtgt                                               19
<210>10
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at69 position of Seq.ID.No.1
起始于Seq.ID.No.1的69位的人亲环蛋白基因的功能siRNA序列
<400>10
caaattccat cgtgtaatc                                             19
<210>11
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at95 position of Seq.ID.No.1
起始于Seq.ID.No.1的95位的人亲环蛋白基因的功能siRNA序列
<400>11
tcatgatcca gggcggaga                                               19
<210>12
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at99 position of Seq.ID.No.1
起始于Seq.ID.No.1的99位的人亲环蛋白基因的功能siRNA序列
<400>12
gatccagggc ggagacttc                                               19
<210>13
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at131 position of Seq.ID.No.1
起始于Seq.ID.No.1的131位的人亲环蛋白基因的功能siRNA序列
<400>13
gcacaggagg aaagagcat                                             19
<210>14
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at139 position of Seq.ID.No.1
起始于Seq.ID.No.1的139位的人亲环蛋白基因的功能siRNA序列
<400>14
ggaaagagca tctacggtg                                              19
<210>15
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>functional siRNA sequence for human cyclophilin gene starting at159 position of Seq.ID.No.1
起始于Seq.ID.No.1的159位的人亲环蛋白基因的功能siRNA序列
<400>15
gcgcttcccc gatgagaac                                             19
<210>16
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 7 position of Seq.ID.No.1
起始于Seq.ID.No.1的7位的人亲环蛋白基因的非功能siRNA序列
<400>16
aaaacagtgg ataattttg                                         19
<210>17
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 9 positionof Seq.ID.No.1
起始于Seq.ID.No.1的9位的人亲环蛋白基因的非功能siRNA序列
<400>17
aacagtggat  aattttgtg                                         19
<210>18
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 11 position of Seq.ID.No.1
起始于Seq.ID.No.1的11位的人亲环蛋白基因的非功能siRNA序列
<400>18
cagtggataa ttttgtggc                                    19
<210>19
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 17 position of Seq.ID.No.1
起始于Seq.ID.No.1的17位的人亲环蛋白基因的非功能siRNA序列
<400>19
ataattttgt ggccttagc                                     19
<210>20
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 23 posiftion of Seq.ID.No.1
起始于Seq.ID.No.1的23位的人亲环蛋白基因的非功能siRNA序列
<400>20
ttgtggcctt agctacagg                                      19
<210>21
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 31 position of Seq.ID.No.1
起始于Seq.ID.No.1的31位的人亲环蛋白基因的非功能siRNA序列
<400>21
ttagctacag gagagaaag                                    19
<210>22
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunct ional siRNA sequence for human cyclophilin gene startingat 51 position of Seq.ID.No.1
起始于Seq.ID.No.1的51位的人亲环蛋白基因的非功能siRNA序列
<400>22
atttggctac aaaaacagc                                      19
<210>23
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 61 position of Seq.ID.No.1
起始于Seq.ID.No.1的61位的人亲环蛋白基因的非功能siRNA序列
<400>23
aaaaacagca aattccatc                                       19
<210>24
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 63 position of Seq.ID.No.1
起始于Seq.ID.No.1的63位的人亲环蛋白基因的非功能siRNA序列
<400>24
aaacagcaaa ttccatcgt                                       19
<210>25
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 73 positionof Seq.ID.No.1
起始于Seq.ID.No.1的73位的人亲环蛋白基因的非功能siRNA序列
<400>25
ttccatcgtg taatcaagg                                    19
<210>26
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 97 position of Seq.ID.No.1
起始于Seq.ID.No.1的97位的人亲环蛋白基因的非功能siRNA序列
<400>26
atgatccagg gcggagact                                        19
<210>27
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 101 position of Seq.ID.No.1
起始于Seq.ID.No.1的1 01位的人亲环蛋白基因的非功能siRNA序列
<400>27
tccagggcgg agacttcac                                         19
<210>28
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 103 position of Seq.ID.No.1
起始于Seq.ID.No.1的103位的人亲环蛋白基因的非功能siRNA序列
<400>28
cagggcggag acttcacca                                         19
<210>29
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 113 position of Seq.ID.No.1
起始于Seq.ID.No.1的113位的人亲环蛋白基因的非功能siRNA序列<400>29
acttcaccag gggagatgg                                      19
<210>30
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 115 position of Seq.ID.No.1
起始于Seq.ID.No.1的11 5位的人亲环蛋白基因的非功能siRNA序列
<400>30
ttcaccaggg gagatggca                                          19
<210>31
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 119 position of Seq.ID.No.1
起始于Seq.ID.No.1的119位的人亲环蛋白基因的非功能siRNA序列
<400>31
ccaggggaga tggcacagg                                       19
<210>32
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 149 position of Seq.ID.No.1
起始于Seq.ID.No.1的149位的人亲环蛋白基因的非功能siRNA序列
<400>32
tctacggtga gcgcttccc                                       19
<210>33
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 151 position of Seq.ID.No.1
起始于Seq.ID.No.1的151位的人亲环蛋白基因的非功能siRNA序列
<400>33
tacggtgagc gcttccccg                                        19
<210>34
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 171 position of Seq.ID.No.1
起始于Seq.ID.No.1的171位的人亲环蛋白基因的非功能siRNA序列
<400>34
tgagaacttc aaactgaag                                        19
<210>35
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 173 position of Seq.ID.No.1
起始于Seq ID.No.1的173位的人亲环蛋白基因的非功能siRNA序列
<400>35
agaacttcaa actgaagca                                          19
<210>36
<211>19
<212>DNA
<213>Artificial Sequence
人工序列
<220>
<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 179 position of Seq.ID.No.1
起始于Seq.ID.No.1的179位的人亲环蛋白基因的非功能siRNA序列
<400>36
tcaaactgaa gcact acgg                                      19
<210>37
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>37
gcaaugucuu aggaaagga                                       19
<210>38
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA对存活素mRNA特异的siRNA
<400>38
agaauagcac aaacuacaa                                           19
<210>39
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>39
gagacagaau agagugaua                                      19
<210>40
<211>19
<212>RNA
<213>Artifici al Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>40
gcgucuggca gauacuccu                                        19
<210>41
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>41
ugcgcuuucc uuucuguca                                        19
<210>42
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>42
gaagcaguuu gaagaauua                                       19
<210>43
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>43
ugucuuagga aaggagauc                                     19
<210>44
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>44
ggcagugucc cuuuugcua                                      19
<210>45
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>45
aauucacaga auagcacaa                                       19
<210>46
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>46
aagcacaaag ccauucuaa                                        19
<210>47
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>47
ggcaguggcc uaaauccuu                                      19
<210>48
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>48
ggcugaaguc uggcguaag                                       19
<210>49
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>49
gcugaagucu ggcguaaga                                       19
<210>50
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>50
cggcuguucc ugagaaaua                                       19
<210>51
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>51
aaggaccacc gcaucucua                                       19
<210>52
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>52
ggaccaccgc aucucuaca                                       19
<210>53
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>53
ccgguugcgc uuuccuuuc                                       19
<210>54
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>54
gcugcuucuc ucucucucu                                       19
<210>55
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>55
gugaugagag aauggagac                                       19
<210>56
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>56
ggagacagaa uagagugau                                       19
<210>57
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>57
 ccuucacauc ugucacguu                                      19
<210>58
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>58
gauuguuaca gcuucgcug                                       19
<210>59
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>59
ucaaggacca ccgcaucuc                                       19
<210>60
<211>19
<212>RNA
<213>Artifici al Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>60
gaccaccgca ucucuacau                                       19
<210>61
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>61
aagcauucgu ccgguugcg                                       19
<210>62
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>62
uucguccggu ugcgcuuuc                                       19
<210>63
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>63
acugcgaaga aagugcgcc                                       19
<210>64
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>64
gaaggcagug ucccuuuug                                        19
<210>65
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>65
gacagcuuug uucgcgugg                                       19
<210>66
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>66
ugugucugga ccucauguu                                       19
<210>67
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>67
acuaagcaca aagccauuc                                       19
<210>68
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>68
agccauucua agucauugg                                       19
<210>69
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>69
gccauucuaa gucauuggg                                       19
<210>70
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>70
cacugcugug ugauuagac                                       19
<210>71
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>71
uuaaaugacu uggcucgau                                       19
<210>72
<211>19
<212>RNA
<213>Artificial Sequence
人工序列
<220>
<223>siRNA specific for survivin mRNA
对存活素mRNA特异的siRNA
<400>72
ccaaccuuca caucuguca                                       19

Claims (16)

1.一种使用siRNA抑制靶mRNA表达的方法,包括步骤:
(1)获得ds(双链)RNA序列的所有组合,其中每个RNA序列都由n个与预定靶mRNA互补的核苷酸(n为整数)组成;
(2)获得每个dsRNA的EA、EB、EC和ED,其分别为所述dsRNA碱基序列中的第1-2位结合能位置构成的段(A)、第3-7位结合能位置构成的段(B)、第8-15位结合能位置构成的段(C)和第16-18位结合能位置构成的段(D)的平均结合能数值;
(3)根据下列方程,将Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)分配到(A)至(D)的各段,
i)如果-0.02<EA-EB<0.38、-0.29<EB-EC<-0.01、0.00<EC-ED<0.35、0.07<ED-EA<0.37,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为10分,
ii)如果-0.63<EA-EB<-0.21、0.05<EB-EC<0.44、-0.47<EC-ED<-0.09、-0.67<ED-EA<-0.23,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为0分,
iii)如果EA-EB、EB-EC、EC-ED和ED-EA不属于(i)和(ii)限定的范围内,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为5分;
(4)根据下述方程4,分配每个dsRNA的相对结合能值Y:
[方程4]
Y = W ( A - B ) Y ( A - B ) + W ( B - C ) Y ( B - C ) + W ( C - D ) Y ( C - D ) + W ( A - D ) Y ( A - D ) 10 ( W ( A - B ) + W ( B - C ) + W ( C - D ) + W ( A - D ) ) &times; 100
其中W(A-B)、W(B-C)、W(C-D)和W(A-D)分别是(A-B)段、(B-C)段、(C-D)段和(A-D)段的加权,其范围分别为0.90-1.00、0.2-0.4、0.2-0.3和0.7-0.9;
(5)根据下述方程5,分配每个dsRNA的Z值:
[方程5]
Z = 100 &times; &Sigma; i W i Z i M i &Sigma; i W i
其中i为整数,代表影响siRNA对靶mRNA抑制效率的因子,其中至少有一个是siRNA的相对结合能,
Zi是给每个因子的分值,假设Z1=Y,代表相对结合能,
Mi是分配给每个因子的预定最大值,和
Wi是基于W1分配给每个因子的预定加权;
(6)将在步骤(5)获得的每个dsRNA的Z值降序排列,从而筛选dsRNA的预定前%;以及
(7)应用筛选的dsRNAs抑制靶mRNA表达。
2.根据权利要求1所述的方法,其中所述siRNA为21个核苷酸的双链RNA,n为21。
3.根据权利要求1或2所述的方法,其中所述siRNA在dsRNA部分和19个核苷酸的两个3′端具有1-3个核苷酸的突出结构。
4.根据权利要求1所述的方法,其中所述加权因子W(A-B)、W(B-C)、W(C-D)和W(A-D)分别为1.00、0.37、0.20和0.90。
5.根据权利要求1所述的方法,其中在步骤(5)中影响siRNA对靶mRNA抑制效率的因子包括作为必需因子的相对结合能以及选自3′端5个碱基中的A/U数、第1位置G/C的存在、第19位置A/U的存在、G/C含量、Tm、RNA的二级结构、与其它mRNA的同源性的一个或多个因子作为任选因子。
6.根据权利要求1或5所述的方法,其中步骤(5)的方程5的特征是i=5;Z1=相对结合能分值(Y),Z2=分配给3′端5个碱基中的A/U数的分值,Z3=分配给第1位置G/C存在的分值,Z4=分配给第19位置A/U存在的分值,Z5=分配给G/C含量的分值;M1-M5分别为100、5、1、1、10;W1-W5分别为0.90、0.07、0.15、0.19、0.11。
7.根据权利要求1所述的方法,其中步骤(5)的预定%是前10%。
8.一种使用siRNA抑制靶mRNA表达的方法,包括步骤:
(1)获得ds(双链)RNA序列的所有组合,其中每个RNA序列都由n个与预定靶mRNA互补的核苷酸(n为整数)组成;
(2)获得每个dsRNA的EA、EB、EC和ED,其分别为所述dsRNA碱基序列中的第1-2位结合能位置构成的段(A)、第3-6位结合能位置构成的段(B)、第14-16位结合能位置构成的段(C)和第16-18位结合能位置构成的段(D)的平均结合能数值;
(3)根据下列方程,将Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)分配到(A)至(D)的各段,
i)如果0.00<EA-EB<0.40、-0.41<EB-EC<-0.01、0.07<EC-ED<0.39、0.07<ED-EA<0.37,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为10分,
ii)如果-0.63<EA-EB<-0.21、0.10<EB-EC<0.51、-0.47<EC-ED<-0.19、-0.67<ED-EA<-0.23,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为0分,
iii)如果EA-EB、EB-EC、EC-ED和ED-EA不属于(i)和(ii)限定的范围内,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为5分;
(4)根据下述方程4,分配每个dsRNA的相对结合能值Y:
[方程4]
Y = W ( A - B ) Y ( A - B ) + W ( B - C ) Y ( B - C ) + W ( C - D ) Y ( C - D ) + W ( A - D ) Y ( A - D ) 10 ( W ( A - B ) + W ( B - C ) + W ( C - D ) + W ( A - D ) ) &times; 100
其中W(A-B)、W(B-C)、W(C-D)和W(A-D)分别是(A-B)段、(B-C)段、(C-D)段和(A-D)段的加权,其范围分别为0.5-0.7、0.3-0.5、0.3-0.5和0.9-1.0;
(5)根据下述方程5,分配每个dsRNA的Z值:
[方程5]
Z = 100 &times; &Sigma; i W i Z i M i &Sigma; i W i
其中i为整数,代表影响siRNA对靶mRNA抑制效率的因子,其中至少有一个是siRNA的相对结合能,
Zi是给每个因子的分值,假设Z1=Y,代表相对结合能,
Mi是分配给每个因子的预定最大值,和
Wi是基于W1分配给每个因子的预定加权;
(6)将在步骤(5)获得的每个dsRNA的Z值降序排列,从而筛选dsRNA的预定前%;以及
(7)应用筛选的dsRNAs抑制靶mRNA表达。
9.根据权利要求8所述的方法,其中siRNA为21个核苷酸的双链RNA,n为21。
10.根据权利要求8或9所述的方法,其中所述siRNA在dsRNA部分和19个核苷酸的两个3′端具有1-3个核苷酸的突出结构。
11.根据权利要求8的方法,其中加权因子W(A-B)、W(B-C)、W(C-D)和W(A-D)分别为0.65、0.48、0.48和0.90。
12.根据权利要求8所述的方法,其中在步骤(5)中影响siRNA对靶mRNA抑制效率的因子包括作为必需因子的相对结合能以及选自3′端5个碱基中的A/U数、第1位置G/C的存在、第19位置A/U的存在、G/C含量、Tm、RNA的二级结构、与其它mRNA的同源性的一个或多个因子作为任选因子。
13.根据权利要求8或12所述的方法,其中步骤(5)的方程5的特征是i=5;Z1=相对结合能分值(Y),Z2=分配给3′端5个碱基中的A/U数的分值,Z3=分配给第1位置G/C的存在的分值,Z4=分配给第19位置A/U的存在的分值,Z5=分配给G/C含量的分值;M1-M5分别为100、5、1、1、10;W1-W5分别为0.90、0.07、0.15、0.19、0.11。
14.根据权利要求8所述的方法,其中步骤(5)的预定%是前10%。
15.一种优化siRNA设计的方法,包括步骤:
(1)获得ds(双链)RNA序列的所有组合,其中每个RNA序列都由n个与预定靶mRNA互补的核苷酸(n为整数)组成;
(2)获得每个dsRNA的EA、EB、EC和ED,其分别为所述dsRNA碱基序列中的第1-2位结合能位置构成的段(A)、第3-7位结合能位置构成的段(B)、第8-15位结合能位置构成的段(C)和第16-18位结合能位置构成的段(D)的平均结合能数值;
(3)根据下列方程,将Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)分配到(A)至(D)的各段,
i)如果-0.02<EA-EB<0.38、-0.29<EB-EC<-0.01、0.00<EC-ED<0.35、0.07<ED-EA<0.37,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为10分,
ii)如果-0.63<EA-EB<-0.21、0.05<EB-EC<0.44、-0.47<EC-ED<-0.09、-0.67<ED-EA<-0.23,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为0分,
iii)如果EA-EB、EB-EC、EC-ED和ED-EA不属于(i)和(ii)限定的范围内,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为5分;
(4)根据下述方程4,分配每个dsRNA的相对结合能值Y:
[方程4]
Y = W ( A - B ) Y ( A - B ) + W ( B - C ) Y ( B - C ) + W ( C - D ) Y ( C - D ) + W ( A - D ) Y ( A - D ) 10 ( W ( A - B ) + W ( B - C ) + W ( C - D ) + W ( A - D ) ) &times; 100
其中W(A-B)、W(B-C)、W(C-D)和W(A-D)分别是(A-B)段、(B-C)段、(C-D)段和(A-D)段的加权,其范围分别为0.90-1.00、0.2-0.4、0.2-0.3和0.7-0.9;
(5)根据下述方程5,分配每个dsRNA的Z值:
[方程5]
Z = 100 &times; &Sigma; i W i Z i M i &Sigma; i W i
其中i为整数,代表影响siRNA对靶mRNA抑制效率的因子,其中至少有一个是siRNA的相对结合能,
Zi是给每个因子的分值,假设Z1=Y,代表相对结合能,
Mi是分配给每个因子的预定最大值,和
Wi是基于W1分配给每个因子的预定加权;
(6)将在步骤(5)获得的每个dsRNA的Z值降序排列,从而筛选dsRNA的预定前%。
16.一种优化siRNA设计的方法,包括步骤:
(1)获得ds(双链)RNA序列的所有组合,其中每个RNA序列都由n个与预定靶mRNA互补的核苷酸(n为整数)组成;
(2)获得每个dsRNA的EA、EB、EC和ED,其分别为所述dsRNA碱基序列中的第1-2位结合能位置构成的段(A)、第3-6位结合能位置构成的段(B)、第14-16位结合能位置构成的段(C)和第16-18位结合能位置构成的段(D)的平均结合能数值;
(3)根据下列方程,将Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)分配到(A)至(D)的各段,
i)如果0.00<EA-EB<0.40、-0.41<EB-EC<-0.01、0.07<EC-ED<0.39、0.07<ED-EA<0.37,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为10分,
ii)如果-0.63<EA-EB<-0.21、0.10<EB-EC<0.51、-0.47<EC-ED<-0.19、-0.67<ED-EA<-0.23,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为0分,
iii)如果EA-EB、EB-EC、EC-ED和ED-EA不属于(i)和(ii)限定的范围内,那么每个Y(A-B)、Y(B-C)、Y(C-D)和Y(A-D)为5分;
(4)根据下述方程4,分配每个dsRNA的相对结合能值Y:
[方程4]
Y = W ( A - B ) Y ( A - B ) + W ( B - C ) Y ( B - C ) + W ( C - D ) Y ( C - D ) + W ( A - D ) Y ( A - D ) 10 ( W ( A - B ) + W ( B - C ) + W ( C - D ) + W ( A - D ) ) &times; 100
其中W(A-B)、W(B-C)、W(C-D)和W(A-D)分别是(A-B)段、(B-C)段、(C-D)段和(A-D)段的加权,其范围分别为0.5-0.7、0.3-0.5、0.3-0.5和0.9-1.0;
(5)根据下述方程5,分配每个dsRNA的Z值:
[方程5]
Z = 100 &times; &Sigma; i W i Z i M i &Sigma; i W i
其中i为整数,代表影响siRNA对靶mRNA抑制效率的因子,其中至少有一个是siRNA的相对结合能,
Zi是给每个因子的分值,假设Z1=Y,代表相对结合能,
Mi是分配给每个因子的预定最大值,和
Wi是基于W1分配给每个因子的预定加权;
(6)将在步骤(5)获得的每个dsRNA的Z值降序排列,从而筛选dsRNA的预定前%。
CN2005800478328A 2004-12-08 2005-12-08 使用由互补于靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法 Expired - Fee Related CN101120099B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2004-0103283 2004-12-08
KR1020040103283 2004-12-08
KR20040103283 2004-12-08
PCT/KR2005/004207 WO2006062369A1 (en) 2004-12-08 2005-12-08 Method of inhibiting expression of target mrna using sirna consisting of nucleotide sequence complementary to said target mrna

Publications (2)

Publication Number Publication Date
CN101120099A true CN101120099A (zh) 2008-02-06
CN101120099B CN101120099B (zh) 2010-12-15

Family

ID=36578152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800478328A Expired - Fee Related CN101120099B (zh) 2004-12-08 2005-12-08 使用由互补于靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法

Country Status (6)

Country Link
US (1) US20090155904A1 (zh)
EP (1) EP1828415A4 (zh)
JP (1) JP4672021B2 (zh)
KR (1) KR101007346B1 (zh)
CN (1) CN101120099B (zh)
WO (1) WO2006062369A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105063048A (zh) * 2015-08-13 2015-11-18 吉林大学 一种抑制Survivin基因表达的siRNA及其应用
CN105176999A (zh) * 2015-08-13 2015-12-23 吉林大学 抑制survivin基因表达的双链siRNA、其应用及包含其的表达质粒及传递体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015026513A2 (pt) 2013-04-17 2017-07-25 Pfizer derivados de n-piperidin-3-ilbenzamida para tratar as doenças cardiovasculares
CN112951322B (zh) * 2021-03-08 2023-09-26 深圳市新合生物医疗科技有限公司 一种基于网格搜索的规则权重分配siRNA设计方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427008A (zh) * 2001-12-14 2003-07-02 殷冬生 设计与选择天然的siRNA作为基因药物的方法及药物配方
US20040002083A1 (en) * 2002-01-29 2004-01-01 Ye Ding Statistical algorithms for folding and target accessibility prediction and design of nucleic acids
EP2314691A3 (en) 2002-11-14 2012-01-18 Dharmacon, Inc. Fuctional and hyperfunctional siRNA

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105063048A (zh) * 2015-08-13 2015-11-18 吉林大学 一种抑制Survivin基因表达的siRNA及其应用
CN105176999A (zh) * 2015-08-13 2015-12-23 吉林大学 抑制survivin基因表达的双链siRNA、其应用及包含其的表达质粒及传递体

Also Published As

Publication number Publication date
WO2006062369A1 (en) 2006-06-15
JP2008522613A (ja) 2008-07-03
EP1828415A4 (en) 2009-07-01
US20090155904A1 (en) 2009-06-18
EP1828415A1 (en) 2007-09-05
CN101120099B (zh) 2010-12-15
KR101007346B1 (ko) 2011-01-13
KR20070094601A (ko) 2007-09-20
JP4672021B2 (ja) 2011-04-20

Similar Documents

Publication Publication Date Title
Riolo et al. miRNA targets: from prediction tools to experimental validation
Townshend et al. High-throughput cellular RNA device engineering
CN1926551B (zh) 用于基因沉默的siRNA的设计方法
Alexiou et al. Lost in translation: an assessment and perspective for computational microRNA target identification
Bandyopadhyay et al. TargetMiner: microRNA target prediction with systematic identification of tissue-specific negative examples
Birmingham et al. 3′ UTR seed matches, but not overall identity, are associated with RNAi off-targets
Ichihara et al. Thermodynamic instability of siRNA duplex is a prerequisite for dependable prediction of siRNA activities
US8178503B2 (en) Ribonucleic acid interference molecules and binding sites derived by analyzing intergenic and intronic regions of genomes
Wulff et al. Elucidating the inosinome: global approaches to adenosine-to-inosine RNA editing
Sætrom et al. A comparison of siRNA efficacy predictors
Anderson et al. Experimental validation of the importance of seed complement frequency to siRNA specificity
Joung et al. Discovery of microRNA–mRNA modules via population-based probabilistic learning
Paicu et al. miRCat2: accurate prediction of plant and animal microRNAs from next-generation sequencing datasets
Wang et al. Challenges for microRNA microarray data analysis
Chen et al. Predicting RNA 5-methylcytosine sites by using essential sequence features and distributions
US20190249262A1 (en) Leveraging the presence or absence of mirna isoforms for recommending therapy in cancer patients
CN108182346B (zh) 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用
Loong et al. Unique folding of precursor microRNAs: quantitative evidence and implications for de novo identification
Wang et al. Predicting siRNA potency with random forests and support vector machines
Erhard et al. Classification of ncRNAs using position and size information in deep sequencing data
CN101120099A (zh) 使用由互补于靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法
Rajendiran et al. Computational approaches and related tools to identify MicroRNAs in a species: A Bird’s Eye View
Calin et al. Investigation of microRNA alterations in leukemias and lymphomas
Saito et al. A two-step site and mRNA-level model for predicting microRNA targets
Endo et al. Numerical operations in living cells by programmable RNA devices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101215

Termination date: 20171208

CF01 Termination of patent right due to non-payment of annual fee