CN101120099A

CN101120099A - 使用由互补于靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法

Info

Publication number: CN101120099A
Application number: CNA2005800478328A
Authority: CN
Inventors: 崔泳哲; 朴翰浯; 郑素林; 金永柱; 金尚洙; 朴城敏; 金相喆; 尹圭晚; 崔庆玉; 姜孝晋
Original assignee: Bioneer Corp
Current assignee: Bioneer Corp
Priority date: 2004-12-08
Filing date: 2005-12-08
Publication date: 2008-02-06
Anticipated expiration: 2025-12-08
Also published as: WO2006062369A1; JP2008522613A; EP1828415A4; US20090155904A1; EP1828415A1; CN101120099B; KR101007346B1; KR20070094601A; JP4672021B2

Abstract

一种抑制靶mRNA表达的方法，包括：(a)获得包含与随机靶mRNA互补的核苷酸的dsRNA序列所有组合的双链组合段的结合能；(b)在每种组合的dsRNA序列上，将该结合能划分为四个段，获得各段之间的平均结合能差异，并将其转化为相对结合能模式的分值；(c)通过将转化的分值与可影响siRNA效率的其他因子应用到dsRNA序列，筛选那些预计对靶RNA具有高抑制效率的siRNA；以及(d)利用筛选的siRNA抑制靶mRNA的表达。结果研究人员或实验人员无需进行实际的实验，能够通过未知siRNA碱基序列对相对结合能模式进行分析，从而快速确定siRNA是有效还是无效，因此可以使siRNA的设计和制备效率最大化，并且通过对靶mRNA有效的siRNA有效抑制靶mRNA的表达。

Description

使用由互补于靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法

技术领域

本发明一般涉及使用小分子干扰RNA(以下称为“siRNA”)抑制靶mRNA表达的方法，更具体而言，本发明涉及一种使用siRNA抑制靶mRNA表达的方法，该方法包含通过分析候选siRNA的核苷酸序列的相邻和非相邻部分之间的相对结合能模式，筛选预测的显示最大靶向抑制效率的互补siRNA的步骤，以及使用筛选的siRNA抑制靶mRNA表达的步骤。

背景技术

RNA干扰(以下称为“RNAi”)是指通过具有互补于靶mRNA的核苷酸序列的双链RNA(以下称为“dsRNA”)分解细胞质中的靶mRNA的现象。1998年，Fire和Mello首次在线虫(C.elegans)中发现RNA干扰现象后，在果蝇、锥虫(鞭毛虫纲的一种)和脊椎动物中也报道了RNAi现象的存在(Tabara H，Grishok A，Mello CC，Science，282(5388)，430-1，1998)。对人类来说，由于将dsRNA导入时诱导抗病毒干扰素途径，因而难以获得RNAi作用。2001年，Elbashir和Tuschl等人报道了将21个核苷酸长度的小分子dsRNA导入人细胞没有引起这种干扰素途径，却特异地分解互补的靶mRNA(Elbashir，S.M.，Harborth，J.，Lendeckel，W.，Yalcin，A.，Weber，K.，Tuschl，T.，Nature，411，494-498，2001；Elbashir，S.M.，Lendeckel，W.，Tuschl，T.，Genes&Dev.，15，188-200，2001；Elbashir，S.M.，Martinez，J.，Patkaniowska，A.，Lendeckel，W.，Tuschl，T.，EMBO J.，20，6877-6888，2001)。此后，21nt长度的dsRNA作为一种新的功能基因组学工具引起人们的注意，并被命名为小分子干扰RNA(以下称为“siRNA”)。该小分子干扰RNA(siRNA和microRNA)被认为是Science期刊在2002年度的最大突破(Jennifer Couzin，BREAKTHROUGH OF THE YEAR：Small RNAs Make Big Splash，JenniferCouzin，Science 20 December 2002：2296-2297)。

作为一种治疗学和功能基因组学的工具，siRNA比传统的反义RNA具有一些优势。首先，反义RNA需要合成许多种类的反义RNA，需要投入大量的时间和费用进行实验以获得有效的靶序列，而siRNA的效果可以通过一些算法进行预测，从而通过较少量的实验筛选更有效的siRNA。第二，与反义RNA相比，已知siRNA可在更低浓度有效抑制基因的表达。这意味着可使用较少量的siRNA进行研究并且有望获得更好的治疗效果。第三，通过RNAi的基因表达抑制是体内的自然机制，其作用非常特异。

通常，RNAi实验包括siRNA设计(靶点筛选)、细胞培养实验(细胞培养试验、靶mRNA降解速率、最有效siRNA的筛选)、动物实验(稳定性、修饰、输送、药代动力学、毒理学)和临床测试。这些实验中，最重要的步骤是筛选有效的siRNA序列，以及将筛选的siRNA输送到靶组织(药物输送)。筛选高效率的siRNA序列很重要，因为不同的siRNA显示不同的效率，而只有高效的siRNA才会带来准确的实验结果，并能用于治疗。通过计算机辅助评分法和实验方法筛选有效的核苷酸序列。所述实验方法的目的在于筛选与体外转录合成的靶mRNA具有良好结合的核苷酸序列。然而，由体外转录获得的mRNA结构可能不同于细胞中mRNA的结构，并且很多蛋白质可结合于细胞中的mRNA，从而使得利用体外转录的mRNA获得的实验结果不能反映真实的结果。因此，开发一种筛选有效siRNA序列的算法很重要，其可以通过考虑影响siRNA序列有效性的各种要素实现。

通常，按照Tuschl规则进行传统的siRNA设计，其考虑到3′突出端的类型、GC比值、特异核苷酸的重复、序列中的SNP(单核苷酸多态性)、RNA的二级结构、与非靶mRNA序列的同源性(S.M.Elbashir，J.Harborth，W.Lendeckel，A.Yalcin，Klaus Weber，T.Tuschl，Nature，411，494-498，2001a；S.M.Elbashir，W.Lendeckel，T.Tuschl，Genes&Dev.，15，188-200，2001b；S.M.Elbashir，J.Martinez，A.Patkaniowska，W.Lendeckel，T.Tuschl，EMBO J.，20，6877-6888，2001c)。然而，最近在siRNA设计中，考虑siRNA双链部分的结合能态(Khvorova，A.，Reynolds，A.，Jayasena，S.D.，Cell，115(4)，505，2003；Reynolds，A.，Leake，D.，Boese，Q.，Scaringe，S.，Marshall，W.S.，Khvorova，A.，Nat.Biotechnol.，22(3)，326-330，2004)。例如，考虑到双链siRNA中与RISC(RNAi诱导的沉默复合体(silencing complex))结合的链可决定性地影响siRNA的效率，通过计算候选siRNA的5′端和3′端之间的能量差可预测siRNA的效率(Schwarz DS，Hutvagner G，Du T，Xu Z，Aronin N，Zamore PD.，Cell，115(2)，199-208，2003，参见图1)。

使用统计学方法，本发明者更准确和精确地研究了siRNA效率和siRNA整个双链部分结合能态之间的关系。迄今，仅仅报道了siRNA的局部部分的上述关系。结果我们发现：通过对候选siRNA相对结合能模式进行分析，可预测候选siRNA对靶mRNA的抑制效率，并且利用筛选的siRNA可有效抑制靶mRNA的表达。

发明内容

本发明的目的在于提供一种使用siRNA有效抑制靶mRNA表达的方法，其中通过分析候选siRNA的相对结合能模式而无需进行任何实验筛选所述siRNA。

根据本发明的一个实施方式，使用siRNA抑制靶mRNA表达的方法，包括：

(1)获得dsRNA序列的所有组合，其中每个RNA序列都由n个与预定靶mRNA互补的核苷酸(n为整数)组成；

(2)获得每个dsRNA的E_A、E_B、E_C和E_D，其为所述dsRNA碱基序列中的第1-2位结合能位置构成的段(A)、第3-7位结合能位置构成的段(B)、第8-15位结合能位置构成的段(C)和第16-18位结合能位置构成的段(D)的平均结合能数值；

(3)根据下列方程，对于dsRNA序列的每种组合，将Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)分配到(A)至(D)的各段，

对于(A-B)段

i)如果

E_{f (A - B)} - 1.96 \sqrt{\frac{S_{f (A - B)}}{N_{f}}} < X_{(A - B)} < E_{f (A - B)} + 1.96 \sqrt{\frac{S_{f (A - B)}}{N_{f}}}

那么Y_(A-B)＝10分，

ii)如果

E_{n (A - B)} - 1.96 \sqrt{\frac{S_{n (A - B)}}{N_{n}}} < X_{(A - B)} < E_{n (A - B)} + 1.96 \sqrt{\frac{S_{n (A - B)}}{N_{n}}}

那么Y_(A-B)＝0分，

iii)如果X_(A-B)不属于所述范围，则Y_(A-B)＝5分，

同样，将Y_(B-C)、Y_(C-D)和Y_(A-D)分配到(B-C)段、(C-D)段和(A-D)段，

其中E_i(A-B)是每个(A-B)段平均能量值差异的平均值，

S_i(A-B)是E_i(A-B)的分布值，

N_i是siRNA的实验数据的数目，

X_(A-B)是对应于与(A)段平均结合能E_A和(B)段平均结合能E_B之间的差值，同样适用于Y_(B-C)、Y_(C-D)和Y_(A-D)；

(4)根据下述方程4，分配每个dsRNA的相对结合能Y值

[方程4]

Y = \frac{W_{(A - B)} Y_{(A - B)} + W_{(B - C)} Y_{(B - C)} + W_{(C - D)} Y_{(C - D)} + W_{(A - D)} Y_{(A - D)}}{10 (W_{(A - B)} + W_{(B - C)} + W_{(C - D)} + W_{(A - D)})} \times 100

其中W_(A-B)是(A-B)段的加权；

(5)通过下述方程5，分配每个dsRNA的Z值

[方程5]

Z = 100 \times \frac{\underset{i}{Σ} W_{i} \frac{Z_{i}}{M_{i}}}{\underset{i}{Σ} W_{i}}

其中i为整数，代表影响siRNA对靶mRNA抑制效率的因子，其中至少有一个是siRNA的相对结合能，

Z_i是给予每个因子的分值，假设Z₁＝Y，代表步骤(4)的相对结合能，

M_i是分配给每个因子的预定最大值，和

W_i是基于W₁分配给每个因子的预定加权；

(6)将在步骤(5)获得的每个dsRNA的Z值降序排列，从而筛选dsRNA的预定前％；以及

(7)应用筛选的dsRNA抑制靶mRNA表达。

所述siRNA是包含21-23个、优选为21个核苷酸的dsRNA，并具有由19个核苷酸组成的双链中心区域结构，以及在该双链中心区域的两个3′端突出1-3个核苷酸、优选突出2个核苷酸(参见图3)。

通过分析抑制靶mRNA表达的候选siRNA的相对结合能模式以优化用于靶mRNA的siRNA设计，本发明者依据siRNA的双链区域的相对结合能模式对siRNA进行评分和分类。

为了获知某种siRNA对靶mRNA的抑制效率，本发明者研究了siRNA的结合能态和抑制效率之间的相关性。本发明者并没有关注双链siRNA特定区域的绝对结合能值，而是关注siRNA的相邻和非相邻部分之间的相对结合能变化(参见图2)。

根据本发明的一个实施方式，使用siRNA的基因表达抑制数据采集自两篇论文。一篇是Khvorova的论文(Khvorova A，Reynolds A，JayasenaSD，Cell，115(4)，505，2003)，另一篇是Amarzguioui的论文(AmarzguiouiM，Prydz H，Biochem.Biophys.Res.Commun.，316(4)，1050-8，2004)。Khvorova的论文公开了由SEQ.ID.NO：1表示的核苷酸序列，其对应于人亲环蛋白基因(hCyPB)的第193-390位核苷酸序列，由SEQ.ID.NO：2表示的核苷酸序列，其对应于萤火虫荧光素酶基因((pGL3)的第1434-1631位核苷酸序列，以及抑制这些基因的siRNA。Amarzguioui的论文公开了用于抑制不同基因(AA)的siRNA。从采集到的数据中，获得用于数据分析的siRNA碱基序列和所述siRNA的基因表达抑制作用。

表1显示从Khvorova的论文中获得的部分实验数据。INN-HB最近邻模型使得碱基序列信息转化为结合能的数据(Xia T，SantaLucia J Jr，BurkardME，Kierzek R，Schroeder SJ，Jiao X，Cox C，Turner DH，Biochemistry，37(42)，14719-35，1998，参见图3和图4)。

表1

基因	位置	序列^*	SEQ ID NO.	基因抑制％
基因	位置	序列^*	SEQ ID NO.	基因抑制％	hCyPB	5(+192)	CAAAAACAGTGGATAATTT	3	＞90
M60857	27(+192)	GGCCTTAGCTACAGGAGAG	4	＞90	hCyPB	5(+192)	CAAAAACAGTGGATAATTT	3	＞90
M60857	27(+192)	GGCCTTAGCTACAGGAGAG	4	＞90		35(+192)	CTACAGGAGAGAAAGGATT	5	＞90
	41(+192)	GAGAGAAAGGATTTGGCTA	6	＞90		35(+192)	CTACAGGAGAGAAAGGATT	5	＞90
	41(+192)	GAGAGAAAGGATTTGGCTA	6	＞90		43(+192)	GAGAAAGGATTTGGCTACA	7	＞90
	45(+192)	GAAAGGATTTGGCTACAAA	8	＞90		43(+192)	GAGAAAGGATTTGGCTACA	7	＞90
	45(+192)	GAAAGGATTTGGCTACAAA	8	＞90		65(+192)	ACAGCAAATTCCATCGTGT	9	＞90
	69(+192)	CAAATTCCATCGTGTAATC	10	＞90		65(+192)	ACAGCAAATTCCATCGTGT	9	＞90
	69(+192)	CAAATTCCATCGTGTAATC	10	＞90		95(+192)	TCATGATCCAGGGCGGAGA	11	＞90
	99(+192)	GATCCAGGGCGGAGACTTC	12	＞90		95(+192)	TCATGATCCAGGGCGGAGA	11	＞90
	99(+192)	GATCCAGGGCGGAGACTTC	12	＞90		131(+192)	GCACAGGAGGAAAGAGCAT	13	＞90
	139(+192)	GGAAAGAGCATCTACGGTG	14	＞90		131(+192)	GCACAGGAGGAAAGAGCAT	13	＞90
	139(+192)	GGAAAGAGCATCTACGGTG	14	＞90		159(+192)	GCGCTTCCCCGATGAGAAC	15	＞90
	7(+192)	AAAACAGTGGATAATTTTG	16	＜50		159(+192)	GCGCTTCCCCGATGAGAAC	15	＞90
	7(+192)	AAAACAGTGGATAATTTTG	16	＜50		9(+192)	AACAGTGGATAATTTTGTG	17	＜50
	11(+192)	CAGTGGATAATTTTGTGGC	18	＜50		9(+192)	AACAGTGGATAATTTTGTG	17	＜50
	11(+192)	CAGTGGATAATTTTGTGGC	18	＜50		17(+192)	ATAATTTTGTGGCCTTAGC	19	＜50
	23(+192)	TTGTGGCCTTAGCTACAGG	20	＜50		17(+192)	ATAATTTTGTGGCCTTAGC	19	＜50
	23(+192)	TTGTGGCCTTAGCTACAGG	20	＜50		31(+192)	TTAGCTACAGGAGAGAAAG	21	＜50
	51(+192)	ATTTGGCTACAAA AACAGC	22	＜50		31(+192)	TTAGCTACAGGAGAGAAAG	21	＜50
	51(+192)	ATTTGGCTACAAA AACAGC	22	＜50		61(+192)	AAAAACAGCAAATTCCATC	23	＜50
	63(+192)	AAACAGCAAATTCCATCGT	24	＜50		61(+192)	AAAAACAGCAAATTCCATC	23	＜50
	63(+192)	AAACAGCAAATTCCATCGT	24	＜50		73(+192)	TTCCATCGTGTAATCAAGG	25	＜50
	97(+192)	ATGATCCAGGGCGGAGACT	26	＜50		73(+192)	TTCCATCGTGTAATCAAGG	25	＜50
	97(+192)	ATGATCCAGGGCGGAGACT	26	＜50		101(+192)	TCCAGGGCGGAGACTTCAC	27	＜50
	103(+192)	CAGGGCGGAGACTTCACCA	28	＜50		101(+192)	TCCAGGGCGGAGACTTCAC	27	＜50
	103(+192)	CAGGGCGGAGACTTCACCA	28	＜50		113(+192)	ACTTCACCAGGGGAGATGG	29	＜50
	115(+192)	TTCACCAGGGGAGATGGCA	30	＜50		113(+192)	ACTTCACCAGGGGAGATGG	29	＜50
	115(+192)	TTCACCAGGGGAGATGGCA	30	＜50		119(+192)	CCAGGGGAGATGGCACAGG	31	＜50
	149(+192)	TCTACGGTGAGCGCTTCCC	32	＜50		119(+192)	CCAGGGGAGATGGCACAGG	31	＜50
	149(+192)	TCTACGGTGAGCGCTTCCC	32	＜50		151(+192)	TACGGTGAGCGCTTCCCCG	33	＜50
	171(+192)	TGAGAACTTCAAACTGAAG	34	＜50		151(+192)	TACGGTGAGCGCTTCCCCG	33	＜50
	171(+192)	TGAGAACTTCAAACTGAAG	34	＜50		173(+192)	AGAACTTCAAACTGAAGCA	35	＜50
	179(+192)	TCAAACTGAAGCACTACGG	36	＜50		173(+192)	AGAACTTCAAACTGAAGCA	35	＜50

^*代表在SEQ ID NO：1中，从指定位置到第21位核苷酸所记载的碱基序列。

根据图3，所述siRNA包括l8个结合能模式。从步骤(a)中获得的具有特异碱基序列的siRNA的18个结合能模式与基因表达抑制率之间的相互关系取决于上述18个结合能模式如何被划分为段，从而控制结合能的整体模式。结果，在从(a)获得的140个siRNA抑制基因表达的实验数据集中，本发明者计算了第1-18位置的每个结合能模式的平均值，然后给出x轴为第1-18位置、y轴为结合能(-ΔG)的图，如图5所示。

本发明者设定段使具有如下现象：某段和其相邻段之间的平均结合能差异在有效siRNA(超过90％的基因抑制)和无效siRNA(低于50％的基因抑制)之间发生最大程度地逆转。即：将18个结合能位置划分为很多段，优选划分为A、B、C和D四段，每段的平均能量定义为E_A、E_B、E_c和E_D，并设定这些段使有效siRNA和无效siRNA的各段中平均结合能差(即E_A-E_B、E_B-E_c、E_c-E_D)最大程度地远离0以显示最大变化。

为此，将siRNA基因表达抑制的实验数据分成有效组和无效组。通过t-检测，证实了该两组在第1-18结合能位置上没有差异的无效假说。即，在该两组中，p-值小于O.05的结合能位置，其结合能具有接近5％显著水平的差异。图6表示表示x轴为结合能位置、y轴为p-值的结果图，图7是x轴为结合能位置、y轴为通过下列方程l得到的t-值的平滑曲线图。

[方程1]

此处，

有效组的平均结合能；

无效组的平均结合能；

S_x：有效组的分布；

S_y：无效组的分布；

N_x：有效组的变化数(the number of variation)；

N_y：无效组的变化数。

本发明的优选实施方式中使用了三个数据集。来自Khvorova的论文的两个数据集包括对pGL3和hCyPB的基因抑制实验结果，这些实验结果被划分为有效组(超过90％的抑制)和无效组(低于50％的抑制)。来自Amarzguioui的论文的一个数据集包括对各种基因(AA)的实验结果，这些实验结果被一并划分为有效组(超过70％的抑制)和无效组(低于70％的抑制)。Khvorova的论文包括对萤火虫荧光素酶基因(pGL3)的40个有效的结果和20个无效的结果，以及对人亲环蛋白(hCyPB)的13个有效的结果和21个无效的结果。Amarzguioui的论文包括对各种基因(AA)的21个有效的结果和25个无效的结果。

本发明者注意到所显示的三个数据集的t-值变化类型是如图7所示的相同模式。与其余数据集中的划分相比，预计在Amarzguioui论文的数据集中，有效组和无效组的划分更不明确，这表明：比其余数据集相比，Amarzguioui论文的数据集具有更小的t-值变化幅度。这意味着在有效siRNA和无效siRNA之间，具有特定的结合能模式划分。

当有效siRNA组和无效siRNA组之间的结合能差异非常大时，t-值具有最大值或最小值，或者p-值变为接近0。即：如果以某部分为中心的邻近区域设定为段时，邻近区域之间的结合能偏差可被最大化。如果即使t-值具有最大值或最小值，但当t-值的最大值和最小值的偏差并不大时，即认为p-值不具有差别，因此可不将它们指定为段。

在本发明的优选实施方式中，利用图6的p-值指定所述段的中心位置。此处运用下列标准：

①当Khovorova两个数据集中的一个或多个的p-值为0.1或更小；

②当Khovorova两个数据集中的所有为0.4或更小。

适合标准①和②的位置包括第1结合能位置、第5-6结合能位置、第14结合能位置和第17-18结合能位置。

下文中，只使用Khvorova的两个数据集，因为Amarzguioui数据集的组划分标准不同于Khvorova的两个数据集的组划分标准，并且根据本发明，在建立用于评价siRNA效率的方法之后，再验证其性能。

随后，以上面四个位置作为中心确定段。确定段的基础在于使确定段的平均结合能与其他邻近段的结合能之间的差异变化最大化。优选地，随后的步骤可分为以下两种情况：

(1)邻近段之间没有任何空置区域，连续实施该步骤的情况；

(2)邻近段之间存在空置区域，断续实施该步骤的情况。

上述两种情况各有优缺点。尽管情况(1)可对所有的结合能状态进行研究，但由于部分段不能区分而使预测能力降低。另一方面，尽管情况(2)排除了不能区分的段而使预测值最大化，但其不能对位置进行评价。

优选地，将(1)段设定为如下：

(a)段分为A、B、C和D四段，包括分别基于标准①和②的四个位置集，也包括不侵占其他位置区域的所有结合能位置，从而获得如表2所示的20种组合。

表2

A段	B段	C段	D段	A段	B段	C段	D段
A段	B段	C段	D段	A段	B段	C段	D段	1-2	3-7	8-14	15-18	1-3	4-7	8-14	15-18
1-2	3-8	9-14	15-18	1-3	4-8	9-14	15-18	1-2	3-7	8-14	15-18	1-3	4-7	8-14	15-18
1-2	3-8	9-14	15-18	1-3	4-8	9-14	15-18	1-2	3-9	10-14	15-18	1-3	4-9	10-14	15-18
1-2	3-10	11-14	15-18	1-3	4-10	11-14	15-18	1-2	3-9	10-14	15-18	1-3	4-9	10-14	15-18
1-2	3-10	11-14	15-18	1-3	4-10	11-14	15-18	1-2	3-11	12-14	15-18	1-3	4-11	12-14	15-18
1-2	3-7	8-15	16-18	1-3	4-7	8-15	16-18	1-2	3-11	12-14	15-18	1-3	4-11	12-14	15-18
1-2	3-7	8-15	16-18	1-3	4-7	8-15	16-18	1-2	3-8	9-15	16-18	1-3	4-8	9-15	16-18
1-2	3-9	10-15	16-18	1-3	4-9	10-15	16-18	1-2	3-8	9-15	16-18	1-3	4-8	9-15	16-18
1-2	3-9	10-15	16-18	1-3	4-9	10-15	16-18	1-2	3-10	11-15	16-18	1-3	4-10	11-15	16-18
1-2	3-11	12-15	16-18	1-3	4-11	12-15	16-18	1-2	3-10	11-15	16-18	1-3	4-10	11-15	16-18

此处，有效siRNA的数目为N_f，无效siRNA的数目为N_n，效率为i(‘f’表示有效组的siRNA的情况，‘n’表示无效组的siRNA的情况)。将第j个(其值为1-N_f或1-N_n中的数值)siRNA在k段(A、B、C和D其中之一)具有的每一结合能位置的平均结合能定义为E_ijk。例如：在有效组的第三siRNA的B段中，用E_f3B代表每一结合能位置的平均结合能。利用实验数据获得每个E_ijk。

按照下列方程2，利用每个E_ijk获得平均结合能变化，其成为A-B段(E_i(A-B))，B-C段(E_i(B-C))，C-D段(E_i(C-D))的代表。

[方程2]

E_{i (A - B)} = E_{iA} - E_{iB} = \frac{1}{N_{i}} \underset{j}{Σ} (E_{ijA} - E_{ijB})

可利用方程2得到E_i(B-C)和E_i(C-D)。此处，E_f(A-B)为一个数值，其代表有效组siRNA的A段和B段中，每一结合能位置的结合能，E_n(A-B)是代表无效组的数值。即：如果筛选一个段以增加E_f(A-B)-E_n(A-B)的绝对值，那么在A段和B段中，有效siRNA组和无效siRNA组之间的平均结合能差异变大。结果就可以利用上述特点筛选段。同样也适用于B-C和C-D。本发明者仅筛选了在E_f(A-B)-E_n(A-B)、E_f(B-C)-E_n(B-C)和E_f(C-D)-E_n(C-D)中具有0.1或更大绝对值的段的组合。在本发明的优选实施方式中，筛选了四个段，表3显示了所筛选段的信息。

表3

A段	B段	C段	D段
A段	B段	C段	D段	1-2	3-7	8-15	16-18
1-2	3-8	9-15	16-18	1-2	3-7	8-15	16-18
1-2	3-8	9-15	16-18	1-3	4-7	8-15	16-18
1-3	4-8	9-15	16-18	1-3	4-7	8-15	16-18

在所筛选的四个段中，对E_f(A-B)和E_n(A-B)、E_f(B-C)和E_n(B-C)、E_f(C-D)和E_n(C-D)进行t-检测，得到t-值和p-值。通过这种方法，在基因hCyPB和pGL3的p-值＜0.05和t-值＞2的所有段中，确定用于区分有效siRNA组和无效siRNA组的段。这些段是A(1-2)、B(3-7)、C(8-15)和D(16-18)，图8显示了这些段的信息。

优选地，将(2)段设定为如下：

由于允许段断续并且互相重叠，因此除了使用不同的方法设定段宽度，基本上重复与段(1)相同的方法。表4显示了包括基于标准①和②设定的4个结合能位置在内的2个结合能位置的所有段的组合。

表4

A段	1	1-2	1-3
A段	1	1-2	1-3							B段	3-6	4-6	5-6	3-7	4-7	5-7	3-8	4-8	5-8
C段	12-14	13-14	14	12-15	13-15	14-15	12-16	13-16	14-16	B段	3-6	4-6	5-6	3-7	4-7	5-7	3-8	4-8	5-8
C段	12-14	13-14	14	12-15	13-15	14-15	12-16	13-16	14-16	D段	15-18	16-18	17-18

选择表4中的A段、B段、C段和D段的其中之一，并进行必要段的组合。结果可能出现729(＝3×9×9×3)种组合。由于几乎不可能通过方程2的方法和t-检测在729种组合中仅仅筛选出一个段的一个组合，因此优选引入新的变量R(稳健性的缩写)。R表示除根据标准①和②设定的4个结合能位置外，位于该段中的结合能位置的数目。例如，如果设定A段是1-2、B段是4-7，那么A段的R值为1、B段的R值为2。当考虑到该两段的R值，比如A段(1-2)和B段(4-7)的(1)E_f(A-B)，就将该两段的R值相加，使得A-B段的R值设定为3。

从表4所示的A、B、C和D段的所有组合中分别获得(1)中提到的E_ijk。由方程2计算表4的所有组合的E_i(A-B)、E_i(B-C)和E_i(C-D)值，并且进行t-检测，分别得到t-值和p-值。此处应用上述R值。图9显示在具有特定R值的A-B段、B-C段和C-D段的所有组合中，p-值小于0.05的组合的比例图。随着R值变大，则p-值趋于变小。结果，在p-值急剧变小之前，计算R值以获得包含期望p-值的最大范围的段。根据图9，当R值为3或4或更小时，p-值＜0.05的段的比例显示为更高。因此，在本发明的优选实施方案中，适宜的段仅包括具有R＝3或4的段。

由R值和t-检测结果确定最终的段。由于要求两段的R值为3或4，在B段和C段中加入两个结合能位置，其中在两端都加入段；在A段和D段中，加入一个结合能位置，其中在一端加入段。结果，A-B中R＝3，B-C中R＝4和C-D中R＝3。当得到所有符合该条件的段组合后，对这些组合进行t-检测从而筛选具有极低p-值的一个段组合。筛选出的段是A(1-2)、B(3-6)、C(14-16)和D(16-18)。表5显示这些段的信息。

表5

		A-B段	B-C段	C-D段
		A-B段	B-C段	C-D段			1-2	3-6	14-16
		3-6	14-16	16-18			1-2	3-6	14-16
		3-6	14-16	16-18
hCyPB	t-值	3.175553	-3.4246	5.915552
hCyPB	t-值	3.175553	-3.4246	5.915552		p-值	0.00165	0.000853	0.000001
						p-值	0.00165	0.000853	0.000001
					pGL3	t-值	2.68004	-2.32939	3.217273
	p-值	0.004783	0.011671	0.001059	pGL3	t-值	2.68004	-2.32939	3.217273
	p-值	0.004783	0.011671	0.001059
AA	t-值	1.887835	-0.89566	1.266718
AA	t-值	1.887835	-0.89566	1.266718		p-值	0.032827	0.18765	0.10596

表6

A段	B段	C段	D段
A段	B段	C段	D段					1-2	3-7	8-15	16-18
		A-B段	B-C段	C-D段	A-C段	A-D段	B-D段	1-2	3-7	8-15	16-18
		A-B段	B-C段	C-D段	A-C段	A-D段	B-D段
hCyPB	t-值	3.15303	-2.25399	3.27599	1.38792	5.40182	1.00611
hCyPB	t-值	3.15303	-2.25399	3.27599	1.38792	5.40182	1.00611		p-值	0.00175	0.01559	0.00127	0.08737	0.00000	0.16095
									p-值	0.00175	0.01559	0.00127	0.08737	0.00000	0.16095
								pGL3	t-值	2.42243	-2.40223	2.13573	0.42633	2.31082	-0.15585
	p-值	0.00928	0.00976	0.01847	0.33572	0.01221	0.42834	pGL3	t-值	2.42243	-2.40223	2.13573	0.42633	2.31082	-0.15585
	p-值	0.00928	0.00976	0.01847	0.33572	0.01221	0.42834
AA	t-值	1.87483	-1.02960	1.09863	1.41229	1.94585	0.22186
AA	t-值	1.87483	-1.02960	1.09863	1.41229	1.94585	0.22186		p-值	0.03373	0.15441	0.13895	0.08245	0.02904	0.41273
									p-值	0.03373	0.15441	0.13895	0.08245	0.02904	0.41273
								A段	B段	C段	D段
1-2	3-6	14-16	16-18					A段	B段	C段	D段
1-2	3-6	14-16	16-18								A-B段	B-C段	A-C段	A-D段	B-D段
											A-B段	B-C段	A-C段	A-D段	B-D段
								hCyPB	t-值	3.16461	-3.42274	5.92078	0.65134	5.40182	0.82726
	p-值	0.00340	0.00172	0.00000	0.51948	0.00001	0.41421	hCyPB	t-值	3.16461	-3.42274	5.92078	0.65134	5.40182	0.82726
	p-值	0.00340	0.00172	0.00000	0.51948	0.00001	0.41421
pGL3	t-值	2.69174	-2.32867	3.20424	0.17064	2.31082	-0.32109
pGL3	t-值	2.69174	-2.32867	3.20424	0.17064	2.31082	-0.32109		p-值	0.00464	0.01169	0.00110	0.43255	0.01221	0.37465
									p-值	0.00464	0.01169	0.00110	0.43255	0.01221	0.37465
								AA	t-值	1.89671	-0.91889	1.27660	1.29998	1.94585	0.16337
	p-值	0.03222	0.18158	0.10422	0.10019	0.02904	0.43549	AA	t-值	1.89671	-0.91889	1.27660	1.29998	1.94585	0.16337

在本发明的优选实施方式中，通过区别邻近段的相对结合能模式，筛选由(1)和(2)设定的段(参见图10)。然而，由于在非邻近段之间的结合能存在足够的差异，对由A、B、C、D四段的差异获得A-B、B-C、C-D、A-C、A-D和B-D的六种组合进行t-检测。表6显示t-检测结果。

如表6所示，在A-C段和B-D段之间没有大的差异。A-D组合符合非邻近段的p-值＜0.05的条件。此处，通过其它实验结果，已知A段5′端和B段3′端之间的结合能差异影响siRNA的效率(Schwarz，D.S.，Hutvagner，G，Du，T.，Xu，Z.，A ronin，N.，Zamore，P.D.，Cell，115(2)，199-20，2003)。

本发明者利用采集的实验数据和筛选的段计算未知siRNA的相对结合能。为了建立一个评分系统，将来自Khvorova论文的两个数据集，即萤火虫荧光素酶(pGL3)和人亲环蛋白(hCyPB)的实验结果包括在采集的数据中从而获得更大的数据集。在用于建立评分系统的数据中，排除通过基于70％的基因表达抑制率进行划分而获得的、来自Amarzguioui论文的一个数据集，因为它的划分标准不同于Khvorova论文中的数据分类标准，后者认为90％或更高为有效，而50％或更少为无效。将获得的数据分为有效组(90％或更高的基因表达抑制率：功能的或f)和无效组(50％或更低的基因表达抑制率：非功能的或n)。

将获得的数据划分到上述方法得到的段中，从而由方程2得到E_i(A-B)、E_i(B-C)、E_i(C-D)和E_i(A-D)。这些是通过对平均能量差异值进行平均化而获得的平均能量值。在该方法中，每个值都具有分布值，即S_i(A-B)、S_i(B-C)、S_i(C-D)和S_i(A-D)。将siRNA实验数据的数目定义为N_i。表7显不E_i(A-B)、E_i(B-C)、E_i(C-D)、E_i(A-D)值、S_i(A-B)、S_i(B-C)、S_i(C-D)、S_i(A-D)、N_i值，以及t-检测的t-值和p-值。

如表7所示，由于数据集中所有段的p-值＜0.05，其可用于划分有效siRNA和无效siRNA的评分系统中。

如果在有效siRNA组中，特定siRNA的A段和B段之间的平均结合能差异为X_f(A-B)，根据方程3，X在p-值＜0.05的显著水平内变化。

[方程3]

E_{f (A - B)} - 1.96 \sqrt{\frac{S_{f (A - B)}}{N_{f}}} < X_{f (A - B)} < E_{f (A - B)} + 1.96 \sqrt{\frac{S_{f (A - B)}}{N_{f}}}

表7

A段	B段	C段	D段
A段	B段	C段	D段			1-2	3-7	8-15	16-18
		A-B段	B-C段	C-D段	A-D段	1-2	3-7	8-15	16-18
		A-B段	B-C段	C-D段	A-D段		平均值(Ef)	0.18	-0.15	0.18	0.22
有效	分布(Sf)	0.55	0.28	0.41	0.32		平均值(Ef)	0.18	-0.15	0.18	0.22
有效	分布(Sf)	0.55	0.28	0.41	0.32	Nf＝53	标准偏差	0.74	0.53	0.64	0.57
	Nf	53	53	53	53	Nf＝53	标准偏差	0.74	0.53	0.64	0.57
	Nf	53	53	53	53		平均值(Ef)	-0.42	0.25	-0.28	-0.45
无效	分布(Sf)	0.49	0.43	0.4	0.53		平均值(Ef)	-0.42	0.25	-0.28	-0.45
无效	分布(Sf)	0.49	0.43	0.4	0.53	Nn＝41	标准偏差	0.7	0.65	0.63	0.73
	Nn	41	41	41	41	Nn＝41	标准偏差	0.7	0.65	0.63	0.73
	Nn	41	41	41	41		t-值	4.026342	-3.16981	3.489798	4.826898
	p-值	0.000058	0.001036	0.000372	0.000003		t-值	4.026342	-3.16981	3.489798	4.826898
	p-值	0.000058	0.001036	0.000372	0.000003
A段	B段	C段	D段
A段	B段	C段	D段			1-2	3-6	14-16	16-18
		A-B段	B-C段	C-D段	A-D段	1-2	3-6	14-16	16-18
		A-B段	B-C段	C-D段	A-D段		平均值(Ef)	0.2	-0.21	0.23	0.22
有效	分布(Sf)	0.56	0.57	0.34	0.32		平均值(Ef)	0.2	-0.21	0.23	0.22
有效	分布(Sf)	0.56	0.57	0.34	0.32	Nf＝53	标准偏差	0.75	0.75	0.59	0.57
	Nf	53	53	53	53	Nf＝53	标准偏差	0.75	0.75	0.59	0.57
	Nf	53	53	53	53		平均值(Ef)	-0.42	0.3	-0.33	-0.45
无效	分布(Sf)	0.47	0.45	0.21	0.53		平均值(Ef)	-0.42	0.3	-0.33	-0.45
无效	分布(Sf)	0.47	0.45	0.21	0.53	Nn＝41	标准偏差	0.69	0.67	0.46	0.73
	Nn	41	41	41	41	Nn＝41	标准偏差	0.69	0.67	0.46	0.73
	Nn	41	41	41	41		t-值	4.166805	-3.49839	5.207057	4.826898
	p-值	0.000035	0.000362	0.000001	0.000003		t-值	4.166805	-3.49839	5.207057	4.826898

方程3能用于所有的X_i(A-B)、X_i(B-C)、X_i(C-D)和X_i(A-D)，也能获得如图11所示的X_i(A-B)、X_i(B-C)、X_i(C-D)和X_i(A-D)的每个范围。

通过相对结合能模式，考虑如下结果，对未知siRNA的效率进行评分：

(1)获得平均结合能值，即得到未知siRNA的A-B、B-C、C-D和A-D段的X_(A-B)、X_(B-C)、X_(C-D)和X_(A-D)；

(2)确定X_(A-B)所属范围并且按以下给予分值：

i)如果

E_{f (A - B)} - 1.96 \sqrt{\frac{S_{f (A - B)}}{N_{f}}} < X_{(A - B)} < E_{f (A - B)} + 1.96 \sqrt{\frac{S_{f (A - B)}}{N_{F}}}

则给10分；

ii)如果

E_{n (A - B)} - 1.96 \sqrt{\frac{S_{n (A - B)}}{N_{n}}} < X_{(A - B)} < E_{n (A - B)} + 1.96 \sqrt{\frac{S_{n (A - B)}}{N_{n}}}

则给0分；

iii)当所述范围不属于i)或ii)，给5分。

以同样的方法对X_(B-C)、X_(C-D)和X_(A-D)给予分值。

每个分值定义为Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)。

参考图11，对于连续段，如果-0.02＜X_(A-B)＜0.38、-0.29＜X_(B-C)＜-0.01、0.00＜X_(C-D)＜0.35、0.07＜X_(A-D)＜0.37，那么分别给予Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)10分。如果-0.63＜X_(A-B)＜-0.21、0.05＜X_(B-C)＜0.44、-0.47＜X_(C-D)＜-0.09、-0.67＜X_(A-D)＜-0.23，那么分别给予Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)0分。当X_(A-B)、X_(B-C)、X_(C-D)和X_(A-D)不属于所述范围时，分别给予Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)5分。

对于断续段，如果0.00＜X_(A-B)＜0.40、-0.41＜X_(B-C)＜-0.01、0.07＜X_(C-D)＜0.39、0.07＜X_(A-D)＜0.37，那么分别给予Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)10分。如果-0.63＜X_(A-B)＜-0.21、0.10＜X_(B-C)＜0.51、-0.47＜X_(C-D)＜-0.19、-0.67＜X_(A-D)＜-0.23，那么分别给予Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)0分。当X_(A-B)、X_(B-C)、X_(C-D)和X_(A-D)不属于所述范围时，分别给予Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)5分。

3)当Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)的加权因子定义为W_(A-B)、W_(B-C)、W_(C-D)和W_(A-D)时，利用方程4，基于满分100，将相对结合能模式的Y分值进行转化：

[方程4]

Y = \frac{W_{(A - B)} Y_{(A - B)} + W_{(B - C)} Y_{(B - C)} + W_{(C - D)} Y_{(C - D)} + W_{(A - D)} Y_{(A - D)}}{10 (W_{(A - B)} + W_{(B - C)} + W_{(C - D)} + W_{(A - D)})} \times 100

根据如何设定各个段中的加权因子W_(A-B)、W_(B-C)、W_(C-D)和W_(A-D)，对siRNA的结合能模式进行评分。为了优化加权因子的组合，使加权因子以0.01的递增从0增加到1，考察有效siRNA组和无效siRNA组之间的t-值。图12显示按照降序排列的前100个t-值中，依据每个加权因子值的组合的分布。参考图12的分布，可以获得使t-值最大化的位置，即获得使有效siRNA组和无效siRNA组之间的结合能变化差异最大化的位置。用于使上述两组之间t-值最大化的W_(A-B)、W_(B-C)、W_(C-D)和W_(A-D)组合在连续段为0.90-1.00、0.2-0.4、0.2-0.3和0.7-0.9，优选1.00、0.37、0.20、0.90，以及在断续段为0.5-0.7、0.3-0.5、0.3-0.5和0.9-1.0，优选0.65、0.48、0.48和0.90。如果每种情况中将其设定在阈值之外，该评分方法中，t-值会快速下降甚至降到用于区分的不显著水平。

最后，本发明者考虑到如何将相对结合能模式与其它因子(GC含量、T_m、结合能的绝对分值、与其它mRNA的同源性、RNA的二级结构)相结合以获得预测siRNA总效率的系统。使用下列线性方程作为评分方法，其以基本同样的方式对相对结合能模式进行评分。

S_{t} = \underset{i}{Σ} W_{i} S_{i}

如果将每个因子的分值定义为Z_i(Z₁、Z₂、Z₃、...、Z_n)，每个因子的满分定义为M_i(M₁、M₂、M₃、...、M_n)，以及将每个因子的效率，即每一分值的加权因子定义为W_i(W₁、W₂、W₃、...、W_n)，那么根据方程5，代表siRNA效率的分值Z可基于满分100分而表示：

[方程5]

Z = 100 \times \frac{\underset{i}{Σ} W_{i} \frac{Z_{i}}{M_{i}}}{\underset{i}{Σ} W_{i}}

其中i是从1到n的整数，包含许多影响靶mRNA的抑制作用的因子的Z_i，包括作为必需因子的相对结合能、以及选自3′端5个碱基中的A/U数、第1位置G/C的存在、第19位置A/U的存在、G/C含量、T_m、RNA的二级结构、与其它mRNA的同源性等的一个或多个因子作为任选因子。这些任选因子并不必然包括在Z值分配中，但是可以不加限制地包括那些与相对结合能一起更好地进行预测的因子。对因子的结合也没有特殊的限制。在本发明的优选实施方案中，选择下列因子作为Z_i：Z₁-相对结合能分值(Y)，Z₂-3′端5个碱基中的A/U数，Z₃-第1位置G/C的存在，Z₄-第19位置A/U的存在，Z₅-G/C含量的分值。各自的M_i值如下：M₁＝100，M₂＝5，M₃＝1，M₄＝1，M₅＝10。

在本发明的优选实施方案中，Z₁为计算出的Y值，Z₂为3′端5个碱基中的A/U数，Z₃为当5′端碱基为G/C时是1，否则是0，Z₄为当3′端碱基为A/U是1，否则是0，以及Z₅为当G/C含量范围为36-53％时是10，不属于此范围时是0。

与图12对相对结合能进行评分的方式相同，图13为对每个分值优化加权因子W_i的图。通过该方法优化的W₁、W₂、W₃、W₄和W₅的结合的范围为0.9-1.0、0.0-0.2、0.1-0.3、0.0-0.4和0.0-0.2，优选为0.90、0.07、0.15、0.19和0.11。

通过上述方法得到的Z值可作为区别未知siRNA具有何种相对结合能模式的指标。结果只有分析碱基序列可以评价结合能，从而使siRNA的设计和制备效率最大化。

根据本发明，可以预测未知siRNA对靶mRNA的抑制效率。结果通过使用上述方法筛选的具有优异抑制效率的siRNA可有效抑制靶mRNA的表达，优选使用筛选的对靶mRNA的Z值在前10％以内的siRNA。上述数值可以是任何值，其可按照候选siRNA组的样本大小、实验条件等灵活选择。

附图说明

图1表示siRNA基因表达抑制效率随RISC酶结合模式的变化图。

图2表示基因表达抑制效率和siRNA结合能之间相互关系的评分方法的图。

图3表示在INN-HB最近邻模型中，siRNA结合能的分布图。

图4表示在INN-HB最近邻模型中的结合能值。

图5表示在采集的siRNA数据的每个位置的结合能的平均值图：

X轴：第1-18位置，

Y轴：结合能的平均值(-ΔG)，

实线：当基因表达抑制率为90％或更高时，

点线：当基因表达抑制率低于50％时。

图6表示在采集的siRNA数据的每个位置的结合能的t-检测结果图：

X轴：第1-18位置，

Y轴：p-值，

实线：pGL3基因，

点线：hCyPB基因

点划线：Amarzguioui论文中的复合基因。

图7表示在采集的siRNA数据的每个位置的结合能的t-检测结果图：

X轴：第1-18位置，

Y轴：t-值，

实线：pGL3基因，

点线：hCyPB基因

点划线：Amarzguioui论文中的复合基因。

图8表示通过方法(1)分析结合能数据得到关于A(1-2)段、B(3-7)段、C(8-15)段和D(16-18)段的各种信息的图。

图9表示在具有特定R值的A-B、B-C和C-D的组合中，p-值＜0.05的比例的分布图。

图10表示通过方法(1)和方法(2)筛选的段的图。

图11表示图(A)显示通过方法(1)筛选出的A-B段、B-C段、C-D段和A-D段中，无效siRNA和有效siRNA平均结合能之间的相对差异的可靠段；以及图(B)显示通过方法(2)筛选出的A-B段、B-C段、C-D段和A-D段中，有效siRNA和无效siRNA平均结合能之间的相对差异的可靠段。

图12表示相对结合能模式的评分中，加权因子和t-值之间的关系，其中将加权因子的组合按照t-值降序排列，从而显示每段中前100个组合的加权因子数。此处，A是连续段中加权因子的分布，B是断续段中加权因子的分布。

图13表示与图12对相对结合能进行评分的方式相同，对每个分值优化加权因子W_i的图。

具体实施方式

本发明将参考以下实施例进行详细描述，但本发明并不限于此。

实施例1与传统siRNA设计方法的比较

为了检测本发明使用相对结合能模式优化siRNA设计方法的性能，将siRNA设计优化方法与专利号WO2004/045543(Functional andHyperfunctional siRNA，2004年6月3日公开)公开的siRNA设计评分方法进行比较。专利号WO2004/045543的许多算法中所公开的siRNA效率评分方法根据下列方程6进行：

[方程6]

siRNA的相对函数性＝-(GC/3)+(AU_15-19)-(T_m20℃)*3-(G₁₃)*3-(C₁₉)+(A₁₉)*2+(A₃)+(U₁₀)+(A₁₃)-(U₅)-(A₁₁)

来自Khvorova和Amarzguioui的论文的三个数据集中，将Amarzguioui论文中的一个数据集，而不是Khvorova论文中用于评价相对结合能模式的的两个数据集用作试验数据，从而比较这两种评分方法的预测能力。首先，使用两种方法计算包括在有效组/无效组中的siRNA的每个分值。通过LDA(线性判别分析)和QDA(二次方程判别分析)，计算确定任意siRNA是有效还是无效。优选地，可利用统计程序R得到上述值(http://www.R-project.org)([1]Richard A.Becker，John M.Chambers，and Allan R.Wilks.The New S Language.Chapman&Hall，London，1988；[2]John M.Chambers and Trevor J.Hastie.StatisticalModels in S.Chapman&Hall，London，1992；[3]John M.Chambers.Programming with Data.Springer，New York，1998.ISBN 0-387-98503-4；[4]William N.Venables and Brian D.Ripley.Modern Applied Statistics with S.Fourth Edition.Springer，2002.ISBN 0-387-95457-0；[5]William N.Venables and Brian D.Ripley.S Programming.Springer，2000.ISBN0-387-98966-8；[6]Deborah Nolan and Terry Speed.Stat Labs：MathematicalStatistics Through Applications.Springer Texts in Statistics.Springer，2000.ISBN 0-387-98974-9；[7]Jose C.Pinheiro and Douglas M.Bates.Mixed-Effects Models in S and S-Plus.Springer，2000.ISBN 0-387-98957-0；[8]Frank E.Harrell.Regression Modeling Strategies，with Applications to

Linear Models，Survival Analysis and Logistic Regression.Springer，2001.ISBN 0-387-95232-2；[9]Manuel Cast eion Limas，Joaquin Ordieres Mere，Fco.Javier de Cos Juez，and Fco.Javier Martinez de Pison Ascacibar.Control de Calidad.Metodologia para el analisis previo a la modelizacion dedatos en procesos industrials.Furndamentos teoricos y aplicaciones con R.Servicio de Publicaciones de la Universidad de la Rioja，2001.ISBN84-95301-48-2；[10]John Fox.An R and S-Plus Companion to AppliedRegression.Sage Publications，Thousand Oaks，CA，USA，2002.ISBN0761922792；[11]Peter Dalgaard.Introductory Statistics with R.Springer，2002.ISBN 0-387-95475-9；[12]Stefano Iacus and Guido Masarotto.Laboratorio di statistica con R.McGraw-Hill，Milano，2003.ISBN88-386-6084-0；[13]John Maindonald and John Braun.Data Analysis andGraphics Using R.Cambridge University Press，Cambridge，2003.ISBN0-521-81336-0；[14]Giovanni Parmigiani，Elizabeth S.Garrett，Rafael A.Irizarry，and Scott L.Zeger.The Analysis of Gene Expression Data.Springer，New York，2003.ISBN 0-387-95577-1；[15]Sylvie Huet，Annie Bouvier，Marie-Anne Gruet，and Emmanuel Jolivet.Statistical Tools for NonlinearRegression.Springer，New York，2003.ISBN 0-387-40081-8；[16]S.Mase，T.Kamakura，M.Jimbo，and K.Kanefuji.Introduction to Data Science forengineers-Data analysis using free statistical software R(in Japanese).Suuri-Kogaku-sha，Tokyo，April 2004.ISBN 4901683128；[17]Julian J.Faraway.Linear Models with R.Chapman&Hall/CRC，Boca Raton，FL，2004.ISBN 1-584-88425-8；[18]Richard M.Heiberger and Burt Holland.Statistical Analysis and Data Display：An Intermediate Course withExamples in S-Plus，R，and SAS.Springer Texts in Statistics.Springer，2004.ISBN 0-387-40270-5；[19]John Verzani.Using R for Introductory Statistics.Chapman&Hall/CRC，Boca Raton，FL，2005.ISBN 1-584-88450-9；[20]Uwe Ligges.Programmieren mit R.Springer-Verlag，Heidelberg，2005.ISBN 3-540-20727-9，in German；[21]Fionn Murtagh.CorrespondenceAnalysis and Data Coding with JAVA and R.Chapman&Hall/CRC，BocaRaton，FL，2005.ISBN 1-584-88528-9；[22]Paul Murrell.R Graphics.Chapman&Hall/CRC，Boca Raton，FL，2005.ISBN 1-584-88486-X；[23]Michael J.Crawley.Statistics：An Introduction using R.Wiley，2005.ISBN0-470-02297-3；[24]Brian S.Everitt.An R and S-Plus Companion toMultivariate Analysis.Springer，2005.ISBN 1-85233-882-2；[25]Richard C.Deonier，Simon Tavare，and Michael S.Waterman.Computational GenomeAnalysis：An Introduction.Springer，2005.ISBN：0-387-98785-1；[26]Robert Gentleman，Vince Carey，Wolfgang Huber，Rafael Irizarry，andSandrine Dudoit，editors.Bioinformatics and Computational BiologySolutions Using R and Bioconductor.Statistics for Biology and Health.Springer，2005.ISBN：0-387-25146-4；[27]Terry M.Therneau and PatriciaM.Grambsch.Modeling Survival Data：Extending the Cox Model.Statisticsfor Biology and Health.Springer，2000.ISBN：0-387-98784-3)。

与Khvorova论文不同，根据70％的表达抑制率，将Amarzguioui论文中的数据集划分有效组/无效组。即：比较两种评分方法的预测成功率，该数据集中的差异有望更为准确地得以显示。结果如表所示。

表8

	相对结合能模式	Dharmacon
	相对结合能模式	Dharmacon	LDA	0.652	0.586
QDA	0.657	0.521	LDA	0.652	0.586

根据表8，在LDA和QDA两种情况下，与传统的siRNA效率评分方法相比，本发明的利用相对结合能模式的结合能评分方法中，显示预测成功率提高了10％。

实施例2存活素基因表达的抑制实验

通过本发明的相对结合能模式优化siRNA设计的方法，设计出36个抑制存活素基因表达的siRNA，然后进行存活素基因表达的抑制实验。根据75％的表达抑制率，将得到的数据集划分为有效组/无效组。此处，将Khvorova和Amarzguioui论文中的三个数据集用作训练集，存活素数据集用作测试集。如实施例1相同的方法，给siRNA打分，利用统计程序R，通过LDA(线性判别分析)和QDA(二次方程判别分析)计算siRNA效率的预测成功率。结果LDA和QDA两种情况的预测成功率都为0.64，显示与实施例1几乎相同的结果(参见表9)。

表9

序号	实验序号	序列(3′突出端：TT)	SEQ IDNO	基因抑制(％)	Z分值	精确预测
序号	实验序号	序列(3′突出端：TT)	SEQ IDNO	基因抑制(％)	Z分值	精确预测	1	570(D)	GCAAUGUCUUAGGAAAGGA	37	＞90	62.83	0
2	1106(D)	AGAAUAHCACAAACUACAA	38	＞90	53.31	0	1	570(D)	GCAAUGUCUUAGGAAAGGA	37	＞90	62.83	0
2	1106(D)	AGAAUAHCACAAACUACAA	38	＞90	53.31	0	3	1189(D)	GAGACAGAAUAGAGUGAUA	39	＞90	72.15	0
4	1212(Q)	GCGUCUGGCAGAUACUCCU	40	＞90	68.48	0	3	1189(D)	GAGACAGAAUAGAGUGAUA	39	＞90	72.15	0
4	1212(Q)	GCGUCUGGCAGAUACUCCU	40	＞90	68.48	0	5	299(AS)	UGCGCUUUCCUUUCUGUCA	41	75-90	40.89
6	319(G)	GAAGCAGUUUGAAGAAUUA	42	75-90	64.37	0	5	299(AS)	UGCGCUUUCCUUUCUGUCA	41	75-90	40.89
6	319(G)	GAAGCAGUUUGAAGAAUUA	42	75-90	64.37	0	7	574(Q)572	UGUCUUAGGAAAGGAGAUC	43	75-90	50.92	0
8	783(Q)	GGCAGUGUCCCUUUUGCUA	44	75-90	57.52	0	7	574(Q)572	UGUCUUAGGAAAGGAGAUC	43	75-90	50.92	0
8	783(Q)	GGCAGUGUCCCUUUUGCUA	44	75-90	57.52	0	9	1099(AS)	AAUUCACAGAAUAGCACAA	45	75-90	46.80
10	1133(D)	AAGCACAAAGCCAUUCUAA	46	75-90	53.35	0	9	1099(AS)	AAUUCACAGAAUAGCACAA	45	75-90	46.80
10	1133(D)	AAGCACAAAGCCAUUCUAA	46	75-90	53.35	0	11	1305(Q)	GGCAGUGGCCUAAAUCCUU	47	75-90	69.63	0
12	1480(G)	GGCUGAAGUCUGGCGUAAG	48	75-90	50.20	0	11	1305(Q)	GGCAGUGGCCUAAAUCCUU	47	75-90	69.63	0
12	1480(G)	GGCUGAAGUCUGGCGUAAG	48	75-90	50.20	0	13	1481(G)	GCUGAAGUCUGGCGUAAGA	49	75-90	45.91
14	1585(G)	CGGCUGUUCCUGAGAAAUA	50	75-90	72.72	0	13	1481(G)	GCUGAAGUCUGGCGUAAGA	49	75-90	45.91
14	1585(G)	CGGCUGUUCCUGAGAAAUA	50	75-90	72.72	0	15	92(D)	AAGGACCACCGCAUCUCUA	51	50-75	41.57	0
16	94(Q)92	GGACCACCGCAUCUCUACA	52	50-75	71.82		15	92(D)	AAGGACCACCGCAUCUCUA	51	50-75	41.57	0
16	94(Q)92	GGACCACCGCAUCUCUACA	52	50-75	71.82		17	294(G)	CCGGUUGCGCUUUCCUUUC	53	50-75	44.18	0
18	693(D)	GCUGCUUCUCUCUCUCUCU	54	50-75	63.54		17	294(G)	CCGGUUGCGCUUUCCUUUC	53	50-75	44.18	0
18	693(D)	GCUGCUUCUCUCUCUCUCU	54	50-75	63.54		19	1021(G)	GUGAUGAGAGAAUGGAGAC	55	50-75	57.86
20	1188(G)	GGAGACAGAAUAGAGUGAU	56	50-75	57.44		19	1021(G)	GUGAUGAGAGAAUGGAGAC	55	50-75	57.86
20	1188(G)	GGAGACAGAAUAGAGUGAU	56	50-75	57.44		21	1394(Q)	CCUUCACAUCUGUCACGUU	57	50-75	57.48
22	1546(G)	GAUUGUUACAGCUUCGCUG	58	50-75	57.37		21	1394(Q)	CCUUCACAUCUGUCACGUU	57	50-75	57.48
22	1546(G)	GAUUGUUACAGCUUCGCUG	58	50-75	57.37		23	90(AS)	UCAAGGACCACCGCAUCUC	59	＜50	29.75	0
24	95(G)	GACCACCGCAUCUCUACAU	60	＜50	55.86		23	90(AS)	UCAAGGACCACCGCAUCUC	59	＜50	29.75	0
24	95(G)	GACCACCGCAUCUCUACAU	60	＜50	55.86		25	294(Q)282	AAGCAUUCGUCCGGUUGCG	61	＜50	18.86	0
26	289(D)	UUCGUCCGGUUGCGCUUUC	62	＜50	39.01	0	25	294(Q)282	AAGCAUUCGUCCGGUUGCG	61	＜50	18.86	0
26	289(D)	UUCGUCCGGUUGCGCUUUC	62	＜50	39.01	0	27	428(Q)426	ACUGCGAAGAAAGUGCGCC	63	＜50	23.96	0
28	780(Q)778	GAAGGCAGUGUCCCUUUUG	64	＜50	56.04		27	428(Q)426	ACUGCGAAGAAAGUGCGCC	63	＜50	23.96	0
28	780(Q)778	GAAGGCAGUGUCCCUUUUG	64	＜50	56.04		29	807(G)	GACAGCUUUGUUCGCGUGG	65	＜50	43.89	0
30	846(Q)	UGUGUCUGGACCUCAUGUU	66	＜50	47.41	0	29	807(G)	GACAGCUUUGUUCGCGUGG	65	＜50	43.89	0
30	846(Q)	UGUGUCUGGACCUCAUGUU	66	＜50	47.41	0	31	1130(Q)	ACUAAGCACAAAGCCAUUC	67	＜50	47.75	0
32	1141(Q)	AGCCAUUCUAAGU CAUUGG	68	＜50	33.49	0	31	1130(Q)	ACUAAGCACAAAGCCAUUC	67	＜50	47.75	0
32	1141(Q)	AGCCAUUCUAAGU CAUUGG	68	＜50	33.49	0	33	1142(Q)	GCCAUUCUAAGUCA UUGGG	69	＜50	37.58	0
34	1236(D)	CACUGCUGUGUGAUUAGAC	70	＜50	35.92	0	33	1142(Q)	GCCAUUCUAAGUCA UUGGG	69	＜50	37.58	0
34	1236(D)	CACUGCUGUGUGAUUAGAC	70	＜50	35.92	0	35	1325(D)	UUAAAUGACUUGGCUCGAU	71	＜50	52.86
36	1390(G)	CCAACCUUCACAUCUGUCA	72	＜50	63.50		35	1325(D)	UUAAAUGACUUGGCUCGAU	71	＜50	52.86
36	1390(G)	CCAACCUUCACAUCUGUCA	72	＜50	63.50				总的预测成功率(23/36)＝64％				23

工业实用性

如上所述，根据本发明的方法，结果研究人员或实验人员无需进行实际的实验，能够通过未知siRNA碱基序列对相对结合能模式进行分析，从而快速确定siRNA是有效还是无效，因此可以使siRNA的设计和制备效率最大化，并且通过对靶mRNA有效的siRNA有效抑制靶mRNA的表达。

序列表

<110>BIONEER CORPORATION

<120>Method of Inhibiting Expression of Target mRNA Using siRNAConsisting of Nucleotide Sequence Complementary to Said TargetmRNA

使用由互补于所述靶mRNA的核苷酸序列组成的siRNA抑制靶mRNA表达的方法

<160>72

<170>Kopatent In 1.71

<210>1

<211>208

<212>DNA

<213>Homo sapiens

人类

<400>1

gttccaaaaa cagtggataa ttttgtggcc ttagctacag gagagaaagg atttggctac 60

aaaaacagca aattccatcg tgtaatcaag gacttcatga tccagggcgg agacttcacc 120

aggggagatg gcacaggagg aaagagcatc tacggtgagc gcttccccga tgagaacttc 180

aaactgaagc actacgggcc tggctggg 208

<210>2

<211>200

<212>DNA

<213>Drosophila sp.

果蝇

<400>2

tgaacttccc gccgccgttg ttgttttgga gcacggaaag acgatgacgg aaaaagagat 60

cgtggattac gtcgccagtc aagtaacaac cgcgaaaaag ttgcgcggag gagttgtgtt 120

tgtggacgaa gtaccgaaag gtcttaccgg aaaactcgac gcaagaaaaa tcagagagat 180

cctcataaag gccaagaagg 200

<210>3

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophil in gene starting at5 position of Seq.ID.No.1

起始于Seq.ID.No.1的5位的人亲环蛋白基因的功能siRNA序列

<400>3

caaaaacagt ggataattt 19

<210>4

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at27 position of Seq.ID.No.1

起始于Seq.ID.No.1的27位的人亲环蛋白基因的功能siRNA序列

<400>4

ggcctt agct acaggagag 19

<210>5

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at

35 position of Seq.ID.No.1

起始于Seq.ID.No.1的35位的人亲环蛋白基因的功能siRNA序列

<400>5

ctacaggaga gaaaggatt 19

<210>6

<211>19

<212>DNA

<213>Artifici al Sequence

人工序列

<220>

<223>funct ional siRNA sequence for human cyclophilin gene starting at41 posifion of Seq.ID.No.1

起始于Seq.ID.No.1的41位的人亲环蛋白基因的功能siRNA序列

<400>6

gagagaaagg atttggcta 19

<210>7

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at43 position of Seq.ID.No.1

起始于Seq.ID.No.1的43位的人亲环蛋白基因的功能siRNA序列

<400>7

gagaaaggat ttggctaca 19

<210>8

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at45 position of Seq.ID.No.1

起始于Seq.ID.No.1的45位的人亲环蛋白基因的功能siRNA序列

<400>8

gaaaggattt ggctacaaa 19

<210>9

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at65 position of Seq.ID.No.1

起始于Seq.ID.No.1的65位的人亲环蛋白基因的功能siRNA序列

<400>9

acagcaaatt ccatcgtgt 19

<210>10

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at69 position of Seq.ID.No.1

起始于Seq.ID.No.1的69位的人亲环蛋白基因的功能siRNA序列

<400>10

caaattccat cgtgtaatc 19

<210>11

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at95 position of Seq.ID.No.1

起始于Seq.ID.No.1的95位的人亲环蛋白基因的功能siRNA序列

<400>11

tcatgatcca gggcggaga 19

<210>12

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at99 position of Seq.ID.No.1

起始于Seq.ID.No.1的99位的人亲环蛋白基因的功能siRNA序列

<400>12

gatccagggc ggagacttc 19

<210>13

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at131 position of Seq.ID.No.1

起始于Seq.ID.No.1的131位的人亲环蛋白基因的功能siRNA序列

<400>13

gcacaggagg aaagagcat 19

<210>14

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at139 position of Seq.ID.No.1

起始于Seq.ID.No.1的139位的人亲环蛋白基因的功能siRNA序列

<400>14

ggaaagagca tctacggtg 19

<210>15

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>functional siRNA sequence for human cyclophilin gene starting at159 position of Seq.ID.No.1

起始于Seq.ID.No.1的159位的人亲环蛋白基因的功能siRNA序列

<400>15

gcgcttcccc gatgagaac 19

<210>16

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 7 position of Seq.ID.No.1

起始于Seq.ID.No.1的7位的人亲环蛋白基因的非功能siRNA序列

<400>16

aaaacagtgg ataattttg 19

<210>17

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 9 positionof Seq.ID.No.1

起始于Seq.ID.No.1的9位的人亲环蛋白基因的非功能siRNA序列

<400>17

aacagtggat aattttgtg 19

<210>18

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 11 position of Seq.ID.No.1

起始于Seq.ID.No.1的11位的人亲环蛋白基因的非功能siRNA序列

<400>18

cagtggataa ttttgtggc 19

<210>19

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 17 position of Seq.ID.No.1

起始于Seq.ID.No.1的17位的人亲环蛋白基因的非功能siRNA序列

<400>19

ataattttgt ggccttagc 19

<210>20

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 23 posiftion of Seq.ID.No.1

起始于Seq.ID.No.1的23位的人亲环蛋白基因的非功能siRNA序列

<400>20

ttgtggcctt agctacagg 19

<210>21

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 31 position of Seq.ID.No.1

起始于Seq.ID.No.1的31位的人亲环蛋白基因的非功能siRNA序列

<400>21

ttagctacag gagagaaag 19

<210>22

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunct ional siRNA sequence for human cyclophilin gene startingat 51 position of Seq.ID.No.1

起始于Seq.ID.No.1的51位的人亲环蛋白基因的非功能siRNA序列

<400>22

atttggctac aaaaacagc 19

<210>23

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 61 position of Seq.ID.No.1

起始于Seq.ID.No.1的61位的人亲环蛋白基因的非功能siRNA序列

<400>23

aaaaacagca aattccatc 19

<210>24

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 63 position of Seq.ID.No.1

起始于Seq.ID.No.1的63位的人亲环蛋白基因的非功能siRNA序列

<400>24

aaacagcaaa ttccatcgt 19

<210>25

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 73 positionof Seq.ID.No.1

起始于Seq.ID.No.1的73位的人亲环蛋白基因的非功能siRNA序列

<400>25

ttccatcgtg taatcaagg 19

<210>26

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 97 position of Seq.ID.No.1

起始于Seq.ID.No.1的97位的人亲环蛋白基因的非功能siRNA序列

<400>26

atgatccagg gcggagact 19

<210>27

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 101 position of Seq.ID.No.1

起始于Seq.ID.No.1的1 01位的人亲环蛋白基因的非功能siRNA序列

<400>27

tccagggcgg agacttcac 19

<210>28

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 103 position of Seq.ID.No.1

起始于Seq.ID.No.1的103位的人亲环蛋白基因的非功能siRNA序列

<400>28

cagggcggag acttcacca 19

<210>29

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 113 position of Seq.ID.No.1

起始于Seq.ID.No.1的113位的人亲环蛋白基因的非功能siRNA序列<400>29

acttcaccag gggagatgg 19

<210>30

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 115 position of Seq.ID.No.1

起始于Seq.ID.No.1的11 5位的人亲环蛋白基因的非功能siRNA序列

<400>30

ttcaccaggg gagatggca 19

<210>31

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 119 position of Seq.ID.No.1

起始于Seq.ID.No.1的119位的人亲环蛋白基因的非功能siRNA序列

<400>31

ccaggggaga tggcacagg 19

<210>32

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 149 position of Seq.ID.No.1

起始于Seq.ID.No.1的149位的人亲环蛋白基因的非功能siRNA序列

<400>32

tctacggtga gcgcttccc 19

<210>33

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 151 position of Seq.ID.No.1

起始于Seq.ID.No.1的151位的人亲环蛋白基因的非功能siRNA序列

<400>33

tacggtgagc gcttccccg 19

<210>34

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 171 position of Seq.ID.No.1

起始于Seq.ID.No.1的171位的人亲环蛋白基因的非功能siRNA序列

<400>34

tgagaacttc aaactgaag 19

<210>35

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 173 position of Seq.ID.No.1

起始于Seq ID.No.1的173位的人亲环蛋白基因的非功能siRNA序列

<400>35

agaacttcaa actgaagca 19

<210>36

<211>19

<212>DNA

<213>Artificial Sequence

人工序列

<220>

<223>nonfunctional siRNA sequence for human cyclophilin gene startingat 179 position of Seq.ID.No.1

起始于Seq.ID.No.1的179位的人亲环蛋白基因的非功能siRNA序列

<400>36

tcaaactgaa gcact acgg 19

<210>37

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>37

gcaaugucuu aggaaagga 19

<210>38

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA对存活素mRNA特异的siRNA

<400>38

agaauagcac aaacuacaa 19

<210>39

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>39

gagacagaau agagugaua 19

<210>40

<211>19

<212>RNA

<213>Artifici al Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>40

gcgucuggca gauacuccu 19

<210>41

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>41

ugcgcuuucc uuucuguca 19

<210>42

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>42

gaagcaguuu gaagaauua 19

<210>43

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>43

ugucuuagga aaggagauc 19

<210>44

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>44

ggcagugucc cuuuugcua 19

<210>45

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>45

aauucacaga auagcacaa 19

<210>46

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>46

aagcacaaag ccauucuaa 19

<210>47

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>47

ggcaguggcc uaaauccuu 19

<210>48

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>48

ggcugaaguc uggcguaag 19

<210>49

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>49

gcugaagucu ggcguaaga 19

<210>50

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>50

cggcuguucc ugagaaaua 19

<210>51

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>51

aaggaccacc gcaucucua 19

<210>52

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>52

ggaccaccgc aucucuaca 19

<210>53

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>53

ccgguugcgc uuuccuuuc 19

<210>54

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>54

gcugcuucuc ucucucucu 19

<210>55

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>55

gugaugagag aauggagac 19

<210>56

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>56

ggagacagaa uagagugau 19

<210>57

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>57

ccuucacauc ugucacguu 19

<210>58

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>58

gauuguuaca gcuucgcug 19

<210>59

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>59

ucaaggacca ccgcaucuc 19

<210>60

<211>19

<212>RNA

<213>Artifici al Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>60

gaccaccgca ucucuacau 19

<210>61

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>61

aagcauucgu ccgguugcg 19

<210>62

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>62

uucguccggu ugcgcuuuc 19

<210>63

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>63

acugcgaaga aagugcgcc 19

<210>64

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>64

gaaggcagug ucccuuuug 19

<210>65

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>65

gacagcuuug uucgcgugg 19

<210>66

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>66

ugugucugga ccucauguu 19

<210>67

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>67

acuaagcaca aagccauuc 19

<210>68

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>68

agccauucua agucauugg 19

<210>69

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>69

gccauucuaa gucauuggg 19

<210>70

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>70

cacugcugug ugauuagac 19

<210>71

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>71

uuaaaugacu uggcucgau 19

<210>72

<211>19

<212>RNA

<213>Artificial Sequence

人工序列

<220>

<223>siRNA specific for survivin mRNA

对存活素mRNA特异的siRNA

<400>72

ccaaccuuca caucuguca 19

Claims

1.一种使用siRNA抑制靶mRNA表达的方法，包括步骤：

(1)获得ds(双链)RNA序列的所有组合，其中每个RNA序列都由n个与预定靶mRNA互补的核苷酸(n为整数)组成；

(2)获得每个dsRNA的E_A、E_B、E_C和E_D，其分别为所述dsRNA碱基序列中的第1-2位结合能位置构成的段(A)、第3-7位结合能位置构成的段(B)、第8-15位结合能位置构成的段(C)和第16-18位结合能位置构成的段(D)的平均结合能数值；

(3)根据下列方程，将Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)分配到(A)至(D)的各段，

i)如果-0.02＜E_A-E_B＜0.38、-0.29＜E_B-E_C＜-0.01、0.00＜E_C-E_D＜0.35、0.07＜E_D-E_A＜0.37，那么每个Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)为10分，

ii)如果-0.63＜E_A-E_B＜-0.21、0.05＜E_B-E_C＜0.44、-0.47＜E_C-E_D＜-0.09、-0.67＜E_D-E_A＜-0.23，那么每个Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)为0分，

iii)如果E_A-E_B、E_B-E_C、E_C-E_D和E_D-E_A不属于(i)和(ii)限定的范围内，那么每个Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)为5分；

(4)根据下述方程4，分配每个dsRNA的相对结合能值Y：

[方程4]

Y = \frac{W_{(A - B)} Y_{(A - B)} + W_{(B - C)} Y_{(B - C)} + W_{(C - D)} Y_{(C - D)} + W_{(A - D)} Y_{(A - D)}}{10 (W_{(A - B)} + W_{(B - C)} + W_{(C - D)} + W_{(A - D)})} \times 100

其中W_(A-B)、W_(B-C)、W_(C-D)和W_(A-D)分别是(A-B)段、(B-C)段、(C-D)段和(A-D)段的加权，其范围分别为0.90-1.00、0.2-0.4、0.2-0.3和0.7-0.9；

(5)根据下述方程5，分配每个dsRNA的Z值：

[方程5]

Z = 100 \times \frac{\underset{i}{Σ} W_{i} \frac{Z_{i}}{M_{i}}}{\underset{i}{Σ} W_{i}}

Z_i是给每个因子的分值，假设Z₁＝Y，代表相对结合能，

M_i是分配给每个因子的预定最大值，和

W_i是基于W₁分配给每个因子的预定加权；

(7)应用筛选的dsRNAs抑制靶mRNA表达。

2.根据权利要求1所述的方法，其中所述siRNA为21个核苷酸的双链RNA，n为21。

3.根据权利要求1或2所述的方法，其中所述siRNA在dsRNA部分和19个核苷酸的两个3′端具有1-3个核苷酸的突出结构。

4.根据权利要求1所述的方法，其中所述加权因子W_(A-B)、W_(B-C)、W_(C-D)和W_(A-D)分别为1.00、0.37、0.20和0.90。

5.根据权利要求1所述的方法，其中在步骤(5)中影响siRNA对靶mRNA抑制效率的因子包括作为必需因子的相对结合能以及选自3′端5个碱基中的A/U数、第1位置G/C的存在、第19位置A/U的存在、G/C含量、T_m、RNA的二级结构、与其它mRNA的同源性的一个或多个因子作为任选因子。

6.根据权利要求1或5所述的方法，其中步骤(5)的方程5的特征是i＝5；Z₁＝相对结合能分值(Y)，Z₂＝分配给3′端5个碱基中的A/U数的分值，Z₃＝分配给第1位置G/C存在的分值，Z₄＝分配给第19位置A/U存在的分值，Z₅＝分配给G/C含量的分值；M₁-M₅分别为100、5、1、1、10；W₁-W₅分别为0.90、0.07、0.15、0.19、0.11。

7.根据权利要求1所述的方法，其中步骤(5)的预定％是前10％。

8.一种使用siRNA抑制靶mRNA表达的方法，包括步骤：

(2)获得每个dsRNA的E_A、E_B、E_C和E_D，其分别为所述dsRNA碱基序列中的第1-2位结合能位置构成的段(A)、第3-6位结合能位置构成的段(B)、第14-16位结合能位置构成的段(C)和第16-18位结合能位置构成的段(D)的平均结合能数值；

i)如果0.00＜E_A-E_B＜0.40、-0.41＜E_B-E_C＜-0.01、0.07＜E_C-E_D＜0.39、0.07＜E_D-E_A＜0.37，那么每个Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)为10分，

ii)如果-0.63＜E_A-E_B＜-0.21、0.10＜E_B-E_C＜0.51、-0.47＜E_C-E_D＜-0.19、-0.67＜E_D-E_A＜-0.23，那么每个Y_(A-B)、Y_(B-C)、Y_(C-D)和Y_(A-D)为0分，

(4)根据下述方程4，分配每个dsRNA的相对结合能值Y：

[方程4]

Y = \frac{W_{(A - B)} Y_{(A - B)} + W_{(B - C)} Y_{(B - C)} + W_{(C - D)} Y_{(C - D)} + W_{(A - D)} Y_{(A - D)}}{10 (W_{(A - B)} + W_{(B - C)} + W_{(C - D)} + W_{(A - D)})} \times 100

其中W_(A-B)、W_(B-C)、W_(C-D)和W_(A-D)分别是_(A-B)段、(B-C)段、(C-D)段和(A-D)段的加权，其范围分别为0.5-0.7、0.3-0.5、0.3-0.5和0.9-1.0；

(5)根据下述方程5，分配每个dsRNA的Z值：

[方程5]

Z = 100 \times \frac{\underset{i}{Σ} W_{i} \frac{Z_{i}}{M_{i}}}{\underset{i}{Σ} W_{i}}

Z_i是给每个因子的分值，假设Z₁＝Y，代表相对结合能，

M_i是分配给每个因子的预定最大值，和

W_i是基于W₁分配给每个因子的预定加权；

(7)应用筛选的dsRNAs抑制靶mRNA表达。

9.根据权利要求8所述的方法，其中siRNA为21个核苷酸的双链RNA，n为21。

10.根据权利要求8或9所述的方法，其中所述siRNA在dsRNA部分和19个核苷酸的两个3′端具有1-3个核苷酸的突出结构。

11.根据权利要求8的方法，其中加权因子W_(A-B)、W_(B-C)、W_(C-D)和W_(A-D)分别为0.65、0.48、0.48和0.90。

12.根据权利要求8所述的方法，其中在步骤(5)中影响siRNA对靶mRNA抑制效率的因子包括作为必需因子的相对结合能以及选自3′端5个碱基中的A/U数、第1位置G/C的存在、第19位置A/U的存在、G/C含量、T_m、RNA的二级结构、与其它mRNA的同源性的一个或多个因子作为任选因子。

13.根据权利要求8或12所述的方法，其中步骤(5)的方程5的特征是i＝5；Z₁＝相对结合能分值(Y)，Z₂＝分配给3′端5个碱基中的A/U数的分值，Z₃＝分配给第1位置G/C的存在的分值，Z₄＝分配给第19位置A/U的存在的分值，Z₅＝分配给G/C含量的分值；M₁-M₅分别为100、5、1、1、10；W₁-W₅分别为0.90、0.07、0.15、0.19、0.11。

14.根据权利要求8所述的方法，其中步骤(5)的预定％是前10％。

15.一种优化siRNA设计的方法，包括步骤：

(4)根据下述方程4，分配每个dsRNA的相对结合能值Y：

[方程4]

Y = \frac{W_{(A - B)} Y_{(A - B)} + W_{(B - C)} Y_{(B - C)} + W_{(C - D)} Y_{(C - D)} + W_{(A - D)} Y_{(A - D)}}{10 (W_{(A - B)} + W_{(B - C)} + W_{(C - D)} + W_{(A - D)})} \times 100

(5)根据下述方程5，分配每个dsRNA的Z值：

[方程5]

Z = 100 \times \frac{\underset{i}{Σ} W_{i} \frac{Z_{i}}{M_{i}}}{\underset{i}{Σ} W_{i}}

Z_i是给每个因子的分值，假设Z₁＝Y，代表相对结合能，

M_i是分配给每个因子的预定最大值，和

W_i是基于W₁分配给每个因子的预定加权；

(6)将在步骤(5)获得的每个dsRNA的Z值降序排列，从而筛选dsRNA的预定前％。

16.一种优化siRNA设计的方法，包括步骤：

(4)根据下述方程4，分配每个dsRNA的相对结合能值Y：

[方程4]

Y = \frac{W_{(A - B)} Y_{(A - B)} + W_{(B - C)} Y_{(B - C)} + W_{(C - D)} Y_{(C - D)} + W_{(A - D)} Y_{(A - D)}}{10 (W_{(A - B)} + W_{(B - C)} + W_{(C - D)} + W_{(A - D)})} \times 100

其中W_(A-B)、W_(B-C)、W_(C-D)和W_(A-D)分别是(A-B)段、(B-C)段、(C-D)段和(A-D)段的加权，其范围分别为0.5-0.7、0.3-0.5、0.3-0.5和0.9-1.0；

(5)根据下述方程5，分配每个dsRNA的Z值：

[方程5]

Z = 100 \times \frac{\underset{i}{Σ} W_{i} \frac{Z_{i}}{M_{i}}}{\underset{i}{Σ} W_{i}}

Z_i是给每个因子的分值，假设Z₁＝Y，代表相对结合能，

M_i是分配给每个因子的预定最大值，和

W_i是基于W₁分配给每个因子的预定加权；