JP4790619B2 - 遺伝子サイレンシングのためのsiRNAを設計する方法 - Google Patents

遺伝子サイレンシングのためのsiRNAを設計する方法 Download PDF

Info

Publication number
JP4790619B2
JP4790619B2 JP2006538215A JP2006538215A JP4790619B2 JP 4790619 B2 JP4790619 B2 JP 4790619B2 JP 2006538215 A JP2006538215 A JP 2006538215A JP 2006538215 A JP2006538215 A JP 2006538215A JP 4790619 B2 JP4790619 B2 JP 4790619B2
Authority
JP
Japan
Prior art keywords
sirna
sequence
sirnas
target
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006538215A
Other languages
English (en)
Other versions
JP2007512808A (ja
JP2007512808A5 (ja
Inventor
ジャクソン,エイミー,エル.
バーツ,スティーヴン,アール.
バーチャード,ジュリア
リンズリー,ピーター,エス.
ゲー,ウェイ
カベット,ガイ,エル.
Original Assignee
ロゼッタ インファーマティクス エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ロゼッタ インファーマティクス エルエルシー filed Critical ロゼッタ インファーマティクス エルエルシー
Publication of JP2007512808A publication Critical patent/JP2007512808A/ja
Publication of JP2007512808A5 publication Critical patent/JP2007512808A5/ja
Application granted granted Critical
Publication of JP4790619B2 publication Critical patent/JP4790619B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/14Type of nucleic acid interfering N.A.
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/10Applications; Uses in screening processes
    • C12N2320/11Applications; Uses in screening processes for the determination of target sites, i.e. of active nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2330/00Production
    • C12N2330/30Production chemically synthesised
    • C12N2330/31Libraries, arrays
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Description

この出願は、35 U.S.C 119条(e)下で、それぞれ参照によりその全体を本明細書に組み入れる、米国仮特許出願第60/572,314号(出願日2004年5月17日)、及び米国仮特許出願第60/515,180号(出願日2003年10月27日)の利益を主張するものである。
1.発明の分野
本発明は転写産物中のsiRNA標的モチーフを同定する方法に関する。本発明はまた、siRNAの標的外遺伝子を同定する方法に関する。本発明はさらに、より高いサイレンシング効果及び特異性を有するsiRNAを設計する方法に関する。本発明はまた、高いサイレンシング効果及び特異性を有するsiRNAを含むsiRNAのライブラリーに関する。
2.発明の背景
RNA干渉(RNAi)は、哺乳類細胞における遺伝子発現を抑制する強力な方法であり、科学界を非常に騒がせてきた(Couzin, 2002, Science 298: 2296-2297; McManusら, 2002, Nat. Rev. Genet. 3,737-747 ; Hannon, G. J., 2002, Nature 418,244-251 ; Paddisonら, 2002, CancerCell 2, 17-23)。RNA干渉は進化を通じて線虫からヒトまで保存されており、RNAウイルスによる進入から細胞を保護する際に機能すると信じられている。細胞がdsRNAウイルスによって感染される際、dsRNAが認識され、ダイサーと称するRNアーゼIII型酵素による切断の標的とされる。ダイサー酵素はRNAを、siRNA又は低分子干渉RNAと称する21ntの短い二本鎖(各鎖の3'末端に対を形成していない2つのヌクレオチドと完全に対合した19ntのリボヌクレオチドからなる)に「切断(dice)」する。これらの短い二本鎖はRISCと称する多タンパク質複合体と会合して、この複合体をsiRNAと類似の配列を有するmRNA転写産物に導く。結果として、RISC複合体に存在するヌクレアーゼがmRNA転写産物を切断して、この遺伝子産物の発現を破壊する。ウイルス感染の場合、この機構はウイルス転写産物の破壊を生じるため、ウイルス合成を防止するだろう。siRNAは二本鎖であるため、いずれかの鎖がRISCと会合する可能性を有し、配列類似性を有する転写産物のサイレンシングに導く。
特定の遺伝子のサイレンシングは、遺伝子機能を解明し、薬剤標的を同定し、そしてより具体的な治療学を開発するための、ヒトゲノムデータの利用可能性を期待させる。これらの用途の多くは、その意図される標的に対するsiRNAの高度な特異性を前提とする。siRNA配列と、これと部分的に同一な転写産物とのクロスハイブリダイゼーションは、標的の遺伝子に加えて、意図的でない転写産物のサイレンシングを反映する表現型を発現させる。これは、表現型に関わる遺伝子の同定を混乱させ得る。文献中の非常に多くの報告において、siRNAの厳正な特異性を主張され、これはsiRNA配列とほぼ完全な同一性が要求されることを示唆している(Elbashirら, 2001. EMBO J. 20: 6877-6888; Tuschlら, 1999, Genes Dev. 13: 3191-3197; Hutvagnerら, Sciencexpress 297: 2056-2060)。ある最近の報告は、完全な配列相補性がsiRNAに標的化される転写産物の切断に必要であるが、一部相補性がマイクロRNAの様式で転写産物の分解無く翻訳抑制を導き得ることを示唆している(Hutvagnerら, Sciencexpress 297: 2056-2060)。
siRNA及びmiRNAを含む、調節小RNAの生物学的機能は十分には理解されていない。1つの一般的な疑問は、これらの2つのクラスの調節RNAの固有のサイレンシング経路が決定される機構に関する。miRNAはゲノムから発現される調節RNAであり、前駆体ステムループ構造からプロセシングされて、標的mRNAの3'UTR中の配列に結合する一本鎖核酸を生じる(Leeら, 1993, Cell 75 : 843-854; Reinhartら, 2000, Nature 403: 901-906; Leeら, 2001, Science 294: 862-864; Lauら, 2001, Science 294: 858-862; Hutvagnerら, 2001, Science 293: 834-838)。miRNAは部分的な相補性のみを有する転写産物配列と結合し(Zengら, 2002,Molec. Cell 9 : 1327-1333)、定常状態のRNAレベルに影響することなく翻訳を抑制する(Leeら, 1993, Cell75 : 843-854 ; Wightmanら, 1993,Cell 75 : 855-862)。miRNA及びsiRNAは共にダイサーによってプロセシングされ、RNA誘導型サイレンシング複合体の成分と会合する(Hutvagnerら, 2001, Science 293: 834-838; Grishokら, 2001,Cell 106 : 23-34; Kettingら, 2001, Genes Dev. 15: 2654- 2659; Williamsら, 2002, Proc. Natl. Acad. Sci. USA 99: 6889-6894; Hammondら, 2001, Science 293: 1146-1150; Mourlatosら, 2002, Genes Dev. 16: 720-728)。最近の報告(Hutvagnerら, 2002, Sciencexpress 297: 2056-2060)は、siRNA経路を介した遺伝子調節対miRNA経路を介した遺伝子調節が、単に標的転写産物に対する相補性の程度によって決定されると仮定している。mRNA標的に対する部分的な同一性のみを有するsiRNAは、RNA分解を誘発するというよりむしろ、miRNAと同様に翻訳抑制において機能し得ることが推測される。
また、siRNA及びshRNAがin vivoで遺伝子をサイレンシングすることに使用できることも示されてきた。in vivoでの遺伝子サイレンシングにsiRNA及びshRNAを使用する能力は、治療上の使用のためのsiRNAの選択及び開発を可能にする潜在性を有する。最近の報告はsiRNAの潜在的な治療上の用途を強調している。生存が肝細胞のアポトーシス死を阻害することによって確保され得る場合、Fas仲介アポトーシスは広範囲の肝疾患に関わる。Song(Songら. 2003, Nat. Medicine 9,347-351)はFas受容体を標的とするsiRNAをマウスに静脈内注射した。マウス肝細胞において、Fas遺伝子はmRNA及びタンパク質レベルでサイレンシングされ、アポトーシスが防止され、肝炎に誘導される肝臓損傷からマウスが保護された。したがって、Fas発現のサイレンシングは、細胞毒性から肝細胞を保護することによって肝臓損傷を防止する治療上の保証を支える。別の例として、TNA-aを標的とするsiRNAがマウスに腹腔内注射された。リポ多糖誘導型TNF-a遺伝子発現が阻害され、これらのマウスは敗血症から保護された。全体として、これらの結果はsiRNAがin vivoで機能することができ、治療薬剤としての潜在性を有し得ることを示唆する(Sorensenら, 2003, J. Mol. Biol. 327,761-766)。
Martinezらは、RNA干渉が発癌突然変異の選択的な標的化に使用できることを報告した(Martinezら, 2002, Proc. Natl. Acad. Sci. USA 99: 14849-14854)。この報告において、点突然変異を含むp53のR248W突然変異の領域を標的化するsiRNAが、突然変異型p53の発現をサイレンシングするが、野生型p53の発現はサイレンシングしないことが示された。
Wildaらは、M-BCR/ABL融合mRNAを標的化するsiRNAが白血病細胞中のM-BCR/ABL mRNAとM-BRC/ABL癌タンパク質とを消耗させるのに使用し得ることを報告した(Wildaら, 2002, Oncogene 21: 5716-5724)。しかし、この報告はまた、小分子ABLチロシンキナーゼ阻害剤であるImatinibとの組み合わせたsiRNAの白血病細胞への適用が、アポトーシスの誘導をさらに増加しないことを示した。
米国特許第6,506,559号は、細胞中の標的遺伝子の発現を阻害するためのRNA干渉方法を開示する。この方法は、標的遺伝子中の配列と同一の配列を二本鎖領域に有する部分的な又は完全な二本鎖RNAを細胞又は細胞外環境に導入することを含む。標的配列に対して挿入、欠失及び単一点突然変異を含むRNA配列も発現阻害に有効であることがわかる。
米国特許出願公開第US 2002/0086356は、21〜23ヌクレオチド(nt)の長さのRNAセグメントを用いた、ショウジョウバエのin vitro系でのRNA干渉を開示する。この特許出願公開は、これらの21〜23nt断片が精製され、ショウジョウバエの抽出物に逆添加される際に、これらが長いdsRNAの不在下で配列特異的なRNA干渉を仲介することを教示する。この特許出願公開はまた、化学的に合成された同一又は類似の性質のオリゴヌクレオチドも、哺乳類細胞において特定のmRNAを分解の標的とするために使用することができることを教示する。
PCT公開WO 02/44321は、19〜23ntの長さの二本鎖RNA(dsRNA)が、in vitro系でショウジョウバエの配列特異的な転写後遺伝子サイレンシングを誘導することを開示する。このPCT公開は、長いdsRNAからRNアーゼIII様プロセシング反応によって作製された短い干渉RNA(siRNA)又は3'突出末端を有する化学的に合成されたsiRNAが、溶菌液中で効率的な標的RNAの切断を仲介すること、及び切断部位が誘導(guiding)siRNAで補われた(spanned)領域の中心近くに位置することを教示する。このPCT公開はまた、dsRNAプロセシングの方向(direction)が、センス又はアンチセンスと同一の標的RNAが、産生されたsiRNA複合体によって切断され得るか否かを決定する証拠を提供する。
米国特許出願公開第US 2002/016216はまた、培養細胞中の標的遺伝子の発現を、標的遺伝子のヌクレオチド配列とストリンジェント条件下でハイブリダイズするヌクレオチド配列を含む二本鎖RNA(dsRNA)を、標的遺伝子の発現を弱めるのに十分な量で細胞に導入することによって弱める方法を開示する。
PCT公開WO 03/006477は、細胞中で発現される際に細胞によってプロセシングされて、細胞自身のRNA干渉(RNAi)経路を用いて(特定のmRNAを切断することによって)選択的に標的遺伝子をサイレンシングする、小さな標的干渉RNA(siRNA)を産生する操作型RNA前駆体を開示する。このPCT公開は、これらの操作型RNA前駆体をコードする核酸分子を適当な調節配列と共にin vivoで細胞に導入することによって、操作型RNA前駆体の発現が時間的にも空間的にも(すなわち、特定の時間で及び/又は特定の組織、器官若しくは細胞中で)選択的に制御し得ることを教示する。
Elbashirらは、RNAi用のsiRNAの長さ、二次構造、糖骨格及び配列特異性の組織分析を開示した(Elbashirら, 2001. EMBOJ. 20: 6877-6888)。この分析に基づき、ElbashirはsiRNAを設計するための規準を提案した。
Aza-Blancらは、サイレンシング効果と19bpの標的配列の5'及び3'領域のCG含量との相関関係を報告した(Aza-Blancら, 2003, Mol. Cell 12: 627- 637)。GCに富む5'とGCが乏しい3'とを有するsiRNA標的化配列が最も良く機能することが見出された。
本明細書中の参照の議論又は引用は、そのような参照が本発明に対する先行技術であることを自認するものと解釈すべきではない。
3.発明の概要
一態様において、本発明は複数の異なるsiRNAから生物中の標的遺伝子をサイレンシングするための1以上のsiRNAを選択する方法であって(該複数の異なるsiRNAはそれぞれ標的遺伝子の転写産物中の異なる標的配列を標的化する)、該方法が(a)転写産物中の対応する標的配列モチーフの位置塩基組成(positional base composition)に従って該複数の異なるsiRNAを順位付けすること(ここで、各標的配列モチーフは対応するsiRNAの標的配列の少なくとも一部分、及び/又は標的配列にフランキングする配列領域中の第2配列を含む);並びに(b)順位付けしたsiRNAから1以上のsiRNAを選択することを含む、上記方法を提供する。好適な実施形態では、各配列モチーフは標的化siRNAの標的配列を含む。他の実施形態では、順位付け工程は(a1)異なる各siRNAについてスコアを決定すること(ここで、該スコアは位置特異的スコア行列を用いて算出される);及び(a2)該スコアに従って複数の異なるsiRNAを順位付けすること、によって実施される。
一実施形態では、各配列モチーフはLヌクレオチドのヌクレオチド配列であり(Lは整数である)、位置特異的スコア行列は{log(eij/pij)}(ここで、eijは位置jにおけるヌクレオチドiの重みであり、pijはランダム配列中の位置jにおけるヌクレオチドiの重みであり、i=G,C,A,U(T)、j=1,…,Lである)である。他の実施形態では、各配列モチーフはLヌクレオチドのヌクレオチド配列であり(Lは整数である)、位置特異的スコア行列は{log(eij/pij)}(eijは位置jにおけるヌクレオチドiの重みであり、pijはランダム配列中の位置jにおけるヌクレオチドiの重みであり、i=G又はC,A,U(T)、j=1,…,Lである)である。
一実施形態では、各siRNAのスコアは式:
Figure 0004790619
[ここで、etとptはそれぞれ、位置特異的スコア行列に従って決定された配列モチーフ中の、及びランダム配列中の、位置tにおけるヌクレオチドの重みである]
に従って算出される。
他の実施形態では、各配列モチーフは標的化siRNAの標的配列と少なくとも1つのフランキング配列とを含む。各配列モチーフが標的化siRNAの標的配列、5'フランキング配列及び3'フランキング配列を含むことが好ましい。一実施形態では、5'フランキング配列と3'フランキング配列はそれぞれDヌクレオチドの配列である(Dは整数である)。特定の実施形態では、各標的配列は19ヌクレオチドの配列であり、5'フランキング配列と3'フランキング配列はそれぞれ10ヌクレオチドの配列である。他の特定の実施形態では、各標的配列は19ヌクレオチドの配列であり、5'フランキング配列と3'フランキング配列はそれぞれ50ヌクレオチドの配列である。
1以上のsiRNAが少なくとも3つのsiRNAから構成されることが好ましい。他の実施形態では、この方法は、脱重複(de-overlapping)工程をさらに含む(該工程は、少なくとも3つのsiRNAの中から複数のsiRNAを、該複数のsiRNAが配列多様性の測度において十分に異なるように選択することを含む)。一実施形態では、多様性の測度は定量化可能な測度であり、そして脱重複工程中の選択には選択した異なるsiRNA間で所与の閾値を超える配列多様性の測度における差異を有するsiRNAを選択することが含まれる。一実施形態では、配列多様性の測度はsiRNAの全体GC含量である。一実施形態では、所与の閾値は5%である。他の実施形態では、配列多様性の測度は、転写産物の配列に沿うsiRNA間の間隔である。一実施形態では、この閾値は100ヌクレオチドである。さらに別の実施形態では、配列多様性の測度はsiRNAの誘導ダイマー(leading dimer)の同一性である(ここで、16個の可能な誘導ダイマーにそれぞれ1〜16のスコアが割り付けられる)。一実施形態では、この閾値は0.5である。
別の実施形態では、この方法は、サイレンシング特異性に基づいて1以上のsiRNAを選択する工程をさらに含む。サイレンシング特異性に基づいて選択する工程は、(i)複数の各siRNAについて、複数の遺伝子の中からsiRNAの標的外遺伝子(off-target genes)を予測すること(その際、該標的外遺伝子は標的遺伝子以外でかつ、そのsiRNAによって直接サイレンシングされる遺伝子である);(ii)それぞれの標的外遺伝子の数に従って複数のsiRNAを順位付けすること;及び(iii)所与の閾値未満の標的外遺伝子の数について1以上のsiRNAを選択すること、をさらに含む。
一実施形態では、前記予測は、(i1)複数の各遺伝子の配列を規定のsiRNA配列適合パターンに基づいて評価すること;及び(i2)遺伝子が配列適合パターンに基づいてsiRNAと適合する配列を含む場合に、その遺伝子を標的外遺伝子として予測することを含む。一実施形態では、評価の工程は、低ストリンジェントなFastAアライメントによる、siRNAの遺伝子中の配列とのアライメントの同定を含む。
一実施形態では、各siRNAはその二本鎖領域中にLヌクレオチドを有し、適合パターンは位置適合位置特異的スコア行列(pmPSSM)によって表される。この位置適合位置特異的スコア行列は、標的外転写産物中の転写産物配列位置に適合する、siRNA中の各位置の重み{Pj}からなる(ここで、j=1,…,Lであり、Pjは位置jにおける適合の重みである)。
他の実施形態では、工程(i1)は式:
Figure 0004790619
[ここで、位置iが適合する場合はEi=Piであり、位置iが適合しない場合はEi=(1-Pi)/3である]
に従って位置適合スコアpmScoreを算出することを含み、そして工程(i2)は位置適合スコアが所与の閾値を超える場合に遺伝子を標的外遺伝子として予測することを含む。
好適な実施形態では、Lは19であり、pmPSSMは表Iで得られる。
複数の遺伝子が、生物固有の、標的遺伝子以外の既知の全ての遺伝子を含むことが好ましい。
一実施形態では、位置特異的スコア行列(PSSM)は、(aa)19ヌクレオチドの二本鎖領域を有し、かつ選択した閾値を超えるサイレンシング効果を有するsiRNAからなる、複数のN siRNAを同定すること;(bb)各siRNAについて機能的配列モチーフを同定すること(該機能的配列モチーフは19ヌクレオチドのsiRNAの標的配列と10ヌクレオチドの5'フランキング配列と10ヌクレオチドの3'フランキング配列とを含む);(cc)頻度行列{fij}(ここでi=G,C,A,U(T);j=1,2,…,Lであり、fijはj番目の位置におけるiヌクレオチドの頻度である)を、式:
Figure 0004790619
(ここで、δik(j)は、kとiが等しい場合は1、kとiが等しくない場合は0である)に従って、siRNA機能的配列モチーフに基づいて算出すること;及び(d)式:
Figure 0004790619
に従ってeijを算出することによってPSSMを決定すること、を含む方法によって決定される。
他の実施形態では、位置特異的スコア行列(PSSM)は、(aa)ランダムな重みでPSSMを初期化すること;(bb)(aa)で得た重みwijをランダムに選択すること;(cc)選択した重みの値を変えて、改変した値を有する該選択した重みを含む試験psPSSMを作成すること;(dd)複数のsiRNA機能的配列モチーフの各スコアを、試験PSSMを用いて、式:
Figure 0004790619
[ここで、wkとpkはそれぞれ、機能的配列モチーフ及びランダム配列中の、位置kにおけるヌクレオチドの重みである]
に従って算出すること;(ee)複数のsiRNA機能的配列モチーフ間で、該スコアとsiRNAの特徴の測定基準との相関関係を算出すること;(ff)選択した重みの複数の異なる値について所与の範囲で工程(cc)〜(ee)を繰り返し、選択した重みの最大相関に対応する値を保持すること;及び(gg)工程(bb)〜(ff)を選択した回数繰り返してPSSMを決定すること、を含む方法によって得られる。
一実施形態では、この方法は、(i)測定基準において異なる値を有するsiRNAからなる複数のsiRNAを同定すること;(ii)それぞれが複数のsiRNA中の1つのsiRNAに対応する、複数のsiRNA機能的配列モチーフを同定すること、をさらに含む方法によって複数のsiRNA機能的配列モチーフを選択することをさらに含む。好適な実施形態では、前記特徴はサイレンシング効果である。
一実施形態では、複数のN siRNAは、細胞中で異なる転写産物量で存在する、複数の異なる遺伝子を標的化する。
一実施形態では、工程(b)は最大スコアを有する1以上のsiRNAを選択することによって実施される。別の実施形態では、工程(b)は規定の値に最も近接したスコアを有する1以上のsiRNAを選択することによって実施される(ここで、該規定の値は複数のsiRNA配列モチーフの最大中央値サイレンシング効果に対応するスコア値である)。好適な実施形態では、複数のsiRNA配列モチーフは、細胞当たり約3〜5コピー未満の存在レベルを有する転写産物中の配列モチーフである。
他の実施形態では、工程(b)は規定の範囲内のスコアを有する1以上のsiRNAを選択することによって実施される(ここで、規定の範囲は、所与のレベルのサイレンシング効果を有する複数のsiRNA配列モチーフに対応するスコア範囲である)。一実施形態では、サイレンシング効果は、約100nMのsiRNA用量で50%、75%又は90%を超える。
好適な実施形態では、複数のsiRNA配列モチーフは、細胞当たり約3〜5コピー未満の存在レベルを有する転写産物中の配列モチーフである。
他の好適な実施形態では、複数のN siRNAは少なくとも10、50、100、200又は500個の異なるsiRNAを含む。
別の実施形態では、位置特異的スコア行列(PSSM)はwkを含む(k=1,…,Lである)。wkは、第1型のsiRNAと第2型のsiRNA間の、配列位置kでヌクレオチドG又はCを発見する確率の差異であり、各鎖のスコアは式:
Figure 0004790619
に従って算出される。
一実施形態では、第1型のsiRNAは第1の閾値以上のサイレンシング効果を有する1以上のsiRNAからなり、第2型のsiRNAは第2の閾値未満のサイレンシング効果を有する1以上のsiRNAからなる。
一実施形態では、確率の差異はガウス曲線の和によって記述される(各ガウス曲線は各配列位置でG又はCを発見する確率の差異を表す)。
一実施形態では、第1及び第2の閾値は100nMのsiRNA用量で共に75%である。
別の態様では、本発明は、複数の異なるsiRNAから生物中の標的遺伝子をサイレンシングするための1以上のsiRNAを選択する方法を提供する(複数の異なる各siRNAは、標的遺伝子の転写産物中の異なる標的配列を標的化する)。この方法は、(a)siRNAのセンス鎖の逆相補配列の位置塩基組成に従って、複数の異なるsiRNAを順位付けすること;及び(b)順位付けしたsiRNAから1以上のsiRNAを選択することを含む。
一実施形態では、順位付け工程は、(a1)異なる各siRNAについてスコアを決定すること(ここで該スコアは位置特異的スコア行列を用いて算出される);及び(a2)該スコアに従って複数の異なるsiRNAを順位付けすることによって実施される。
一実施形態では、siRNAはその二本鎖領域中にLヌクレオチドのヌクレオチド配列を有し(Lは整数である)、その際、位置特異的スコア行列はwkを含み、k=1,…,Lであり、wkは第1型のsiRNAのセンス鎖の逆相補体と第2型のsiRNAのセンス鎖の逆相補体との間の、配列位置kでヌクレオチドG又はCを発見する確率の差異であり、各逆相補体のスコアは式:
Figure 0004790619
に従って算出される。
一実施形態では、第1型のsiRNAは第1の閾値以上のサイレンシング効果を有する1以上のsiRNAからなり、第2型のsiRNAは第2の閾値未満のサイレンシング効果を有する1以上のsiRNAからなる。
別の実施形態では、確率の差異はガウス曲線の和によって記述される(各ガウス曲線は各配列位置でG又はCを発見する確率の差異を表す)。
一実施形態では、第1及び第2の閾値は100nMのsiRNA用量で共に75%である。
さらに別の態様では、本発明は、複数の異なるsiRNAから生物中の標的遺伝子をサイレンシングするための1以上のsiRNAを選択する方法を提供する(複数の異なるsiRNAはそれぞれ標的遺伝子の転写産物中の異なる標的配列を標的化する)。この方法は、(i)複数の異なるsiRNAのそれぞれについて、複数の遺伝子の中からsiRNAの標的外遺伝子を予測すること(ここで、標的外遺伝子は標的遺伝子以外の遺伝子であり、その
siRNAによって直接サイレンシングされる);(ii)複数の異なるsiRNAを標的外遺伝子の数によって順位付けすること;及び(iii)所与の閾値未満の標的外遺伝子の数について1以上のsiRNAを選択することを含む。
一実施形態では、予測は、(i1)規定のsiRNA配列適合パターンに基づき、複数の遺伝子のそれぞれの配列を評価すること;(i2)遺伝子が配列適合パターンに基づいてsiRNAに適合する配列を含む場合に、遺伝子を標的外遺伝子として予測することを含む。
一実施形態では、各siRNAはその二本鎖領域にLヌクレオチドを有し、配列適合パターンは位置適合位置特異的スコア行列(pmPSSM)によって表される(該位置特異的スコア行列は、標的外転写産物中の転写産物配列位置に適合する、siRNA中の各位置の重み{Pj}からなり、その際、j=1,…,Lであり、Pjは位置jにおける適合の重みである)。
別の実施形態では、工程(i1)は式:
Figure 0004790619
[ここで、位置iが適合する場合はEi=Piであり、位置iが適合しない場合はEi=(1-Pi)/3である]
に従って位置適合スコアpmScoreを算出することを含み、工程(i2)は位置適合スコアが所与の閾値より大きい場合に遺伝子を標的外遺伝子として予測することを含む。
好適な実施形態では、Lは19であり、pmPSSMは表Iで得られる。
一実施形態では、前記複数の遺伝子は、生物固有の、標的遺伝子以外の既知の全ての遺伝子を含む。
さらに別の態様では、本発明は、生物の異なる複数の各遺伝子に対する複数のsiRNAを含むsiRNAのライブラリーであって、各siRNAがその標的遺伝子のサイレンシングを少なくとも75%、少なくとも80%又は少なくとも90%で達成する、上記ライブラリーを提供する。一実施形態では、複数のsiRNAは少なくとも3個、少なくとも5個又は少なく10個のsiRNAからなる。他の実施形態では、前記複数の異なる遺伝子は、少なくとも10、少なくとも100、少なくとも500、少なくとも1000、少なくとも10000又は少なくとも30000個の異なる遺伝子からなる。
さらに別の態様では、本発明は、転写産物中のLヌクレオチドのsiRNA機能的配列モチーフの塩基組成位置特異的スコア行列(bsPSSM){log(eij/pij)}を決定する方法を提供する(ここで、i=G,C,A,U(T)であり、j=1,2,…,Lであり、各siRNA機能的配列モチーフは、対応する標的化siRNAの標的配列の少なくとも一部分、及び/又は標的配列にフランキングする配列領域中の配列を含む)。この方法は、(a)選択した閾値を超えるサイレンシング効果を有するsiRNAからなる、複数の異なるN siRNAを同定すること;(b)異なる各siRNAについて、対応する複数のN siRNA機能的配列モチーフを同定すること;(c)頻度行列{fij}(ここでi=G,C,A,U(T)であり;j=1,2,…,Lであり、fijはj番目の位置におけるiヌクレオチドの頻度である)を、複数のN siRNA機能的配列モチーフに基づき、式:
Figure 0004790619
[ここでδij(j)は、kとiが等しい場合は1であり、kとiが等しくない場合は0である]
に従って算出すること;及び(d)式:
Figure 0004790619
に従ってeijを算出することによってpsPSSMを決定することを含む。
一実施形態では、各siRNA機能的モチーフは、対応する標的化siRNAの標的配列及び標的配列のフランキング配列の一方又は双方を含む。
一実施形態では、各siRNAはその二本鎖領域にMヌクレオチドを有し、各siRNA機能的配列モチーフは、MヌクレオチドのsiRNA標的配列、D1ヌクレオチドの5'フランキング配列及びD2ヌクレオチドの3'フランキング配列からなる。
特定の実施形態では、各siRNAはその二本鎖領域に19ヌクレオチドを有し、各siRNAは、19ヌクレオチドのsiRNA標的配列、10ヌクレオチドの5'フランキング配列及び10ヌクレオチドの3'フランキング配列からなる。別の特定の実施形態では、各siRNAはその二本鎖領域に19ヌクレオチドを有し、各siRNA機能的配列モチーフは、19ヌクレオチドのsiRNA標的配列、50ヌクレオチドの5'フランキング配列及び50ヌクレオチドの3'フランキング配列からなる。
一実施形態では、複数のN siRNAはそれぞれ、その転写産物量が所与の範囲内である遺伝子を標的化する。一実施形態では、その範囲は細胞当たり少なくとも約5、10又は100分子の転写産物である。他の実施形態では、その範囲は細胞当たり約3〜5分子未満の転写産物である。
別の実施形態では、サイレンシングの閾値は、約100nMのsiRNA用量で50%、75%又は90%である。さらに別の実施形態では、複数のN siRNAは10、50、100、200又は500個の異なるsiRNAを含む。
さらに別の態様では、本発明は、Lヌクレオチドの複数の異なるsiRNA機能的配列モチーフを表す塩基組成パターンを表すために、塩基組成位置特異的スコア行列(bsPSSM){wij}を決定する方法を提供する(ここで、i=G,C,A,U(T)であり、j=1,2,…,Lであり、各siRNA機能的配列モチーフは、対応する標的化siRNAの標的配列の少なくとも一部分、及び/又はsiRNA標的配列にフランキングする配列領域中の配列を含む)。この方法は、(a)ランダムな重みでbsPSSMを初期化すること;(b)(a)で得た重みwijをランダムに選択すること;(c)選択した重みの値を変えて、改変値を有する、選択した重みを含む試験psPSSMを作成すること;(d)式:
Figure 0004790619
[ここで、wkとpkはそれぞれ、機能的配列モチーフ中の及びランダム配列中の、位置kにおけるヌクレオチドの重みである]
に従って、試験psPSSMを用いて、複数のsiRNA機能的配列モチーフの各スコアを算出すること;(e)複数のsiRNA機能的配列モチーフ間で、該スコアとsiRNAを特徴付ける測定基準との相関関係を算出すること;(f)選択した重みの異なる複数の値について所与の範囲で工程(c)〜(e)を繰り返し、選択した重みの最大相関に対応する値を保持すること;及び(g)工程(b)〜(f)を選択した回数繰り返して、psPSSMを決定することを含む。
本発明はまた、Lヌクレオチドの複数の異なるsiRNA機能的配列モチーフを表す塩基組成パターンを表すために、塩基組成位置特異的スコア行列(bsPSSM){wij}を決定する方法を提供する(ここで、i=G/C、A、U(T)であり、j=1,2…,Lであり、そして各siRNA機能的配列モチーフは、対応するsiRNAの標的配列の少なくとも一部分、及び/又はsiRNA標的配列にフランキングする配列領域中の配列を含む)。この方法は、(a)ランダムな重みでbsPSSMを初期化すること;(b)(a)で得た重みwijをランダムに選択すること;(c)選択した重みの値を変えて、改変値を有する、選択した重みを含む試験psPSSMを作成すること;(d)式:
Figure 0004790619
[ここで、wkとpkはそれぞれ、機能的配列モチーフ中の及びランダム配列中の、位置kにおけるヌクレオチドの重みである]
に従って、試験psPSSMを用いて複数のsiRNA機能的配列モチーフの各スコアを算出すること;(e)複数のsiRNA機能的配列モチーフ間で、該スコアとsiRNAの特徴の測定基準との相関関係を算出すること;(f)選択した重みの複数の異なる値について所与の範囲で工程(c)〜(e)を繰り返し、選択した重みの最大相関に対応する値を保持すること;及び(g)工程(b)〜(f)を選択した回数繰り返して、psPSSMを決定することを含む。
一実施形態では、各siRNA機能的モチーフは対応する標的化siRNAの標的配列及び標的配列のフランキング配列の一方又は両方を含む。
別の実施形態では、この方法は、(i)測定基準に異なる値を有するsiRNAからなる、複数のsiRNAを同定すること;(ii)それぞれが複数のsiRNA中の1つのsiRNAに対応する、複数のsiRNA機能的配列モチーフを同定することを含む方法によって、複数のsiRNA機能的配列モチーフを選択することをさらに含む。
一実施形態では、各siRNAはその二本鎖領域にMヌクレオチドを有し、各siRNA機能的配列モチーフは、MヌクレオチドのsiRNA標的配列、D1ヌクレオチドの5'フランキング配列及びD2ヌクレオチドの3'フランキング配列からなる。
特定の実施形態では、各siRNAはその二本鎖領域に19ヌクレオチドを有し、各siRNA機能的配列モチーフは、19ヌクレオチドのsiRNA標的配列、10ヌクレオチドの5'フランキング配列及び10ヌクレオチドの3'フランキング配列からなる。別の具体的な実施形態では、各siRNAはその二本鎖領域に19ヌクレオチドを有し、各siRNA機能的配列モチーフは、19ヌクレオチドのsiRNA標的配列、50ヌクレオチドの5'フランキング配列及び50ヌクレオチドの3'フランキング配列からなる。
一実施形態では、前記測定基準はサイレンシング効果である。
一実施形態では、複数のN siRNAはそれぞれ、転写産物量が所与の範囲内である遺伝子を標的化する。一実施形態では、その範囲は、細胞当たり少なくとも約5、10又は100個の転写産物である。別の実施形態では、その範囲は細胞当たり約3〜5個未満の転写産物である。別の実施形態では、前記閾値は約100nMのsiRNA用量で50%、75%又は90%である。
別の実施形態では、この方法は、psPSSM曲線の非特異性に対する該psPSSMの感度のROC(受信者動作特性)曲線を用いて該psPSSMを評価することをさらに含む。PSSMの感度は、psPSSMを用いて真陽性の合計の比として検出した真陽性の割合であり、PSSMの非特異度はpsPSSMを用いて偽陽性の合計の比として検出した偽陽性の割合である。
一実施形態では、複数のsiRNA機能的配列モチーフは少なくとも50、少なくとも100又は少なくとも200個の異なるsiRNA機能的配列モチーフからなる。
さらに別の実施形態では、この方法は他の複数のsiRNA機能的配列モチーフを用いてpsPSSMを試験することをさらに含む。
この方法はまた、LヌクレオチドのsiRNAの、転写産物中のその標的配列との位置適合パターンを表すために、位置適合位置特異的スコア行列(pmPSSM){Ei}を決定する方法を提供する(ここでEiは位置iにおける適合のスコアであり、i=1,2…,Lである)。この方法は、(a)複数のN siRNA標的外配列を同定すること(ここで各標的外配列は、siRNAがサイレンシング活性を示す配列である);(b)位置適合重み行列{Pi}を、式:
Figure 0004790619
[ここで、δk(j)は、kが適合する場合は1であり、kが適合しない場合は0である]
に従って、複数のN siRNA標的外配列に基づいて算出すること(ここでi=1,2,…,Lである);(c)位置iが適合する場合にEi=Piであり、かつ位置iが適合しない場合にEi=(1-Pi)/3となるように、Eiを算出することによってpsPSSMを決定することを含む。
好適な実施形態では、L=19である。他の好適な実施形態では、位置適合重み行列は表Iで得られる。
本発明はまた、標的外遺伝子サイレンシングにおけるsiRNAの2つの鎖の相対的活性を評価する方法であって、siRNAのセンス鎖の位置特異的塩基組成と、siRNAのアンチセンス鎖の又はsiRNAのセンス鎖の逆相補鎖の位置特異的塩基組成とを比較することを含み、その際、アンチセンス鎖が目的の標的配列を標的化するための誘導(guiding)鎖である、上記方法を提供する。
一実施形態では、比較は、(a)siRNAのセンス鎖のスコアを決定すること(ここで、該スコアは位置特異的スコア行列を用いて算出される);(b)siRNAのアンチセンス鎖の又はsiRNAのセンス鎖の逆相補鎖のスコアを、位置特異的スコア行列を用いて決定すること;及び(c)センス鎖のスコアと、アンチセンス鎖又はセンス鎖の逆相補鎖のスコアとを比較して、siRNAの鎖選好(strand preference)を評価することを含む方法によって実施される。
一実施形態では、siRNAはその二本鎖領域にLヌクレオチドのヌクレオチド配列を有し(Lは整数である)、その際、位置特異的スコア行列は{wij}である(ここで、wijは位置jにおけるヌクレオチドiの重みであり、i=G,C,A,U(T)、j=1,…,Lである)。
別の実施形態では、siRNAはその二本鎖領域にLヌクレオチドのヌクレオチド配列を有し(Lは整数である)、位置特異的スコア行列は{wij}である(ここで、wij位置jにおけるヌクレオチドiの重みであり、i=G又はC,A,U(T)、j=1,…,Lである)。
別の実施形態では、位置特異的スコア行列は、(a)ランダムな重みで位置特異的スコア行列を初期化すること;(b)(a)で得た重みwijをランダムに選択すること;(c)選択した重みの値を変えて、改変値を有する、選択した重みを含む、試験位置特異的スコア行列を作成すること;(d)式:
Figure 0004790619
[ここで、wj及びpjはそれぞれ、siRNA中の及びランダム配列中の、位置jにおけるヌクレオチドの重みである]
に従って、試験位置特異的スコア行列を用いて複数のsiRNAのそれぞれのスコアを算出すること;(e)複数のsiRNA間で、該スコアとsiRNAの特徴の測定基準との相関関係を算出すること;(f)選択した重みの異なる複数の値について工程(c)〜(e)を繰り返して、選択した重みの最大相関に対応する値を保持すること;及び(g)工程(b)〜(f)を選択した回数繰り返して、位置特異的スコア行列を決定すること、を含む方法によって得られる。
一実施形態では、測定基準はsiRNAサイレンシング効果である。
一実施形態では、siRNAはその二本鎖領域に19ヌクレオチドを有する。
他の実施形態では、siRNAはその二本鎖領域にLヌクレオチドのヌクレオチド配列を有し(Lは整数である)、その際、位置特異的スコア行列はwkを含み(ここでk=1,…,Lである)、wkは、第1型のsiRNAと第2型のsiRNAとの間の、配列位置kにおいてヌクレオチドG又はCを発見する確率の差異であり、各鎖のスコアは式:
Figure 0004790619
に従って算出される。
一実施形態では、第1型のsiRNAは第1の閾値以上のサイレンシング効果を有する1以上のsiRNAからなり、第2型のsiRNAは第2の閾値未満のサイレンシング効果を有する1以上のsiRNAからなり、そしてsiRNAは、工程(a)で決定したスコアが工程(b)で決定したスコアより大きい場合にアンチセンス選好を有するものと判定され、又は工程(b)で決定したスコアが工程(a)で決定したスコアより大きい場合にセンス選好を有すると判定される。
別の実施形態では、確率の差異はガウス曲線の和によって記述される(ここで、各ガウス曲線は、異なる配列位置でG又はCを発見する確率の差異を表す)。
一実施形態では、第1及び第2の閾値は約100nMのsiRNA用量で共に75%である。
さらに別の態様では、本発明は、処理装置及び該処理装置に結合しかつ1以上のプログラムをコード化する記憶装置を含むコンピューター・システムであって、該1以上のプログラムが該処理装置に本発明の方法のいずれか1つを実行させる、上記コンピューター・システムを提供する。
さらに別の態様では、本発明は、処理装置と、該処理装置と接続した記憶装置とを有するコンピュータと連動して使用するためのコンピュータープログラム製品を提供する。このコンピュータープログラム製品は、コンピュータープログラム機構を自身にコード化するコンピュータ読取り可能な記憶媒体であって、該コンピュータープログラム機構がコンピュータの記憶装置に読み込まれ、該コンピュータに本発明の方法のいずれか1つを実行させる、上記コンピュータ読取り可能な記憶媒体を含む。
4.図面の簡単な説明
図1A-Cは、siRNA標的配列中の及び該標的配列周辺の塩基組成がsiRNAのサイレンシング効果に影響することを示す。合計377つのsiRNAを、HeLa細胞へのトランスフェクションの24時間後に、Taqman分析によってその標的配列をサイレンシングする能力について試験した。中央値標的サイレンシングは約75%であった。このデータセットを、中央値未満である小集団と中央値サイレンシング能と同等であるか又はそれ以上であるサブセットに2分割した(それぞれ「粗悪な(bad)」及び「良好な」(good)」siRNAと称する)。ここに示されるのは、良好なsiRNAと粗悪なsiRNA間の、標的配列の各相対的位置での、GC含量(図1A)、A含量(図1B)及びU含量(図1C)における5のウインドウ内の平均差(すなわち5塩基全てにわたって平均化した)である。
図2A-C(A)良好なsiRNA及び粗悪なsiRNAのGC含量;(B)良好なsiRNA及び粗悪なsiRNAのA含量;(C)良好なsiRNA及び粗悪なsiRNAのU含量。この図は、各塩基の平均組成を示す。例えば、y軸上の0.5は50%の平均塩基含量に対応する。
図3は、本発明のsiRNA設計方法に用いた実際のsiRNA塩基組成モデルの性能を示す。siRNA効果データはトレーニングセットと試験セットの2対に再分割した。それぞれのPSSMを各トレーニングセットで最適化し、試験セットで検証した。各PSSMの性能は、PSSMスコアによって順位付けしたリストから選択されたsiRNAの数が増加する際に、良好なsiRNA(真陽性)と粗悪なsiRNA(偽陽性)を区別するその能力によって評価した。受信者動作特性(ROC)曲線が、各トレーニングセット及び試験セットにおける2つの異なるPSSMの性能を立証していることが示される(それぞれ黒い太線と灰色の点線)。ランダム化したデータで予想されたPSSMの性能(すなわち、選択能に改善が無い、45℃線)が対照用に示される。
図4は、独立の実験データセットに対するPSSMの予測能力を立証する。新規siRNAを、この出願で開示される特異性予測方法を加えたElbashirら., 2001, Nature 411:494-8に記載される標準的な方法によって、及び本発明のPSSMに基づく効果及び特異性予測方法によって、5つの遺伝子について設計した。遺伝子毎に順位付けした上位3つのsiRNAを各方法のために選択し、Dharmaconから購入した。次いで、5つの各遺伝子について、6個全てのsiRNAをその標的配列をサイレンシングする能力について試験した。それぞれの標的遺伝子を特定の量でサイレンシングするsiRNAの数のヒストグラムが示される。実線、本発明によって設計したsiRNAによるサイレンシング;破線、標準的な方法によって設計したsiRNAによるサイレンシング;灰色点線、377個のsiRNAのデータセットによるサイレンシング。
図5A-Cは、それぞれセット1及びセット2中のsiRNAでトレーニングしかつ試験した2つの塩基組成PSSMのアンサンブルからの、GC、A又はUの平均重みを示す。図5AはGCの平均重み、図5BはAの平均重み、図5CはUの平均重みである。セット1及びセット2中のsiRNAは表IIに示される。
図6は、標的外遺伝子の転写産物の、siRNAコア配列のコア19merとのアライメントの一例を示す。標的外遺伝子は、ヒト25kv2.2.1μアレイから、siRNAオリゴの直接的効果と一致した転写産物量の動的パターンを選択することによって選択した。左側のカラムは、転写産物配列の識別子を列挙する。アライメントはFASTAで作成し、手動で編集した。黒四角及び灰色領域は、アライメントの3'側半分の高レベルの配列同一性を示す。
図7は、標的外効果を予測するための位置適合位置特異的スコアリング行列を示す。この図は、siRNAオリゴと標的外転写産物との間のアライメントを表す行列中の各位置と関連する重みを示す。重みは、siRNAオリゴ及び観察した標的外転写産物との間のアライメントに沿う各位置iで適合が観察されるであろう確率を示す。
図8は、siRNAの標的外効果を予測するための、閾値スコアの最適化を示す。R2値は閾値を超えるアライメントスコアリングの数と、観察された標的外効果との相関に由来する。
図9は、遺伝子をサイレンシングする際に使用するためのsiRNAを選択する方法の例示的な実施形態のフローチャートを示す。
図10は、良好なsiRNAと粗悪なsiRNAとを区別することに使用できる配列領域を示す。PSSMをsiRNA 19merの上流の50塩基から下流の50塩基まで、10+塩基の配列長のチャンク(chunk)でトレーニングし、独立の試験セットで試験した。目的のチャンクでトレーニングしたモデルの性能を、ランダム配列でトレーニングしたモデルと比較した。位置1は21nt siRNAの二本鎖領域の最初の5'塩基に対応する。
図11A-Bは、PSSMの曲線モデルを示す。11A:PSSMの曲線モデルの例示的セット。11B:トレーニングセット及び試験セットにおけるモデルの性能。
図12は、本発明の方法を実現するのに有用なコンピューター・システムの例示的実施形態を図示する。
図13は、本発明の方法を用いて設計した30 siRNA(黒丸)及び標準的な方法で設計したsiRNA(白丸)間の、siRNAのサイレンシング効果の分布の比較を示す。x軸:1、KIF14;2、PLK;3、IGF1R;4、MAPK14;5、KIF11。y軸:RNAレベル。標準的な方法を用いて5つの遺伝子に対して設計したsiRNAは広範なサイレンシング能の分布を示したが、本発明の方法で設計したものは、遺伝子間のみならず各遺伝子内でもより一貫したサイレンシングを示す。制限的な分布はsiRNAを用いて機能的ゲノム学に非常に重要である。
図14A-Bは、siRNAおよびその逆相補体のGC含量と、粗悪なsiRNAのGC含量との比較を示す。結果は、粗悪なsiRNAは良好なsiRNAと類似のセンス鎖を有するが、良好なsiRNAは粗悪なsiRNAと類似のセンス鎖を有することを示す。RC:siRNA標的配列の逆相補体。
図15は、効果の劣るsiRNAが活性のあるセンス鎖を有することを示す。61 siRNAの鎖偏向(strand bias)を3'偏向法によって発現プロファイルから、及びsiRNAとその逆相補体とのGC PSSMスコアの比較から予測した。鎖偏向の予測はsiRNAサイレンシング効果によって保存した(binned)。
図16は、サイレンシング効果が転写産物の発現レベルに関連することを示す。合計222個のsiRNA(74種の遺伝子につき3種のsiRNA)を、bDNA又はTaqman分析によって、HeLa細胞へのトランスフェクションの24時間後に標的配列をサイレンシングする能力について試験した。サイレンシング%(y軸)を、マイクロアレイ上の強度として測定した転写産物量の割合(x軸)としてプロットした。先のsiRNA設計アルゴリズムによって選択した遺伝子当たり3種のsiRNAで観察された中央値標的サイレンシングが示される。サイレンシングの遺伝子発現レベルへの依存度は、2つのアレイ型からの強度の平均として、74種の遺伝子について示される。TaqManアッセイは8種の遺伝子で用いた。b-DNAデータは残存する66種の遺伝子について示される。
図17は、siRNAのサイレンシング効果がその塩基組成に関連することを示す。低発現型遺伝子に対するsiRNAを、bDNA分析によって、その標的配列をサイレンシングする能力について試験した。データを75%未満のサイレンシングを有するサブセットと、75%と同等か又はこれより大きいサイレンシングを有するサブセットに分けた(それぞれ良好なsiRNAと粗悪なsiRNA)。ここに、良好なsiRNAと粗悪なsiRNAとの間(y軸)の、siRNAセンス鎖の各位値(x軸)でのGC含量の差異が示される。このデータセットには、Tuschlの規準又はランダム選択による33種の低発現型遺伝子及び44種の高発現型遺伝子に対して選択した570種のsiRNAに由来する、低発現型及び高発現型遺伝子の両方が含まれる。siRNA配列は表IVに列挙される。低発現型遺伝子に対する良好なsiRNAのGCプロファイル(灰色点線)は、十分に発現される遺伝子に対する良好なsiRNAといくらか類似する組成選好を示すが(黒線)、いくらかの違いも示す。
図18は、新たに設計したsiRNAの効果を示す。siRNAは標準的な方法及び新規アルゴリズムによって18種の低発現型遺伝子について設計した。標準的パイプライン:最大pssmスコアの選択;長い標的外適合用のミニマックスフィルター。改善型パイプライン:センス19mer塩基2〜7、塩基1及び19非対称、−300<pssmスコア<+200、16未満のblast適合の選択、19merのいずれかの側の200塩基は反復又は低コンプレキシティ配列ではない。遺伝子毎に、順位付けした上記3つのsiRNAを各方法用に選択した。ついで、5種の遺伝子のそれぞれに対する6種全てのsiRNAをその標的配列をサイレンシングする能力について試験した。特定の量で標的遺伝子をサイレンシングするsiRNAの数のヒストグラムが示される。点線、新規アルゴリズムで設計したsiRNAによるサイレンシング;実線、標準的な方法で設計したsiRNAによるサイレンシング。中央値サイレンシングは60%(標準的なアルゴリズム)から80%(新規アルゴリズム)に改善した。
図19.有効なsiRNAの設計上の特徴。siRNAサイレンシング効果と相関する設計基準の研究は、効果を予測する特徴の数を表してきた。これらには、アンチセンス(誘導)鎖をRISCへ導く2つの末端で非対称な塩基、転写産物の効果的な切断のための第10位置のU、切断の増強のための誘導鎖の中心及び3'末端を含む低GCストレッチ、及び転写産物の結合に関るアンチセンス鎖の5'末端の「シード(seed)」領域が含まれる。二本鎖の上の灰色線は鎖選好を示し、二本鎖の下の薄い灰色の線は機能的属性を示す。
図20は371個のsiRNAにおける発現対中央値サイレンシングを示す。これらは377個のsiRNAの本来のトレーニングセットに由来するsiRNAである。6個のsiRNAは、その標的配列の発現レベルが利用可能なものでなかったため、分析に含ませなかった。
5.発明の詳細な説明
本発明は、位置特異的スコア行列アプローチを用いて転写産物中のsiRNA標的モチーフを同定する方法を提供する。本発明はまた、位置特異的スコアマトリックアプローチを用いてsiRNAの標的外遺伝子を同定するための及びsiRNAの特異性を予測するための方法を提供する。本発明はさらに、より高いサイレンシング効果及び特異性を有するsiRNAを設計する方法を提供する。本発明はまた、高いサイレンシング効果及び特異性を有するsiRNAを含むsiRNAのライブラリーを提供する。
この出願中、siRNAは遺伝子を標的化すると度々いわれる。かかる記載がなされる際に、これが、siRNAが遺伝子の転写産物を標的化しかつ分解を引き起こすように設計されることを意味することは理解されよう。そのような遺伝子はsiRNAの標的遺伝子とも称され、そしてsiRNAが作用する転写産物中の配列は標的配列とも称される。例えば、siRNAの二本鎖領域のセンス鎖中の19ヌクレオチド配列の配列と同一の、転写産物中の19ヌクレオチド配列は、siRNAの標的配列である。siRNAのアンチセンス鎖(すなわち、標的配列に作用する鎖)は、誘導(guiding)鎖とも称する。上の例において、siRNAの19ヌクレオチドの二本鎖領域のアンチセンス鎖は誘導鎖である。この出願中、siRNAの特徴はしばしばその配列(例えば位置塩基組成)を参照して言及される。特に指摘しない限り、siRNAのセンス鎖の配列が参照されることが理解されよう。この出願中、siRNA中のヌクレオチド又はヌクレオチドの配列は、しばしばsiRNAの5'又は3'末端に関連して記載される。そのような記載が採用される際に、これがsiRNAのセンス鎖の5'又は3'末端を指すことも理解されよう。siRNAの3'末端が参照される際に、これがsiRNAの3'二本鎖領域を指す(すなわち、3'突出部の2つのヌクレオチドはヌクレオチドの番号付けに含まれない)ことも理解されよう。この出願中、siRNAはオリゴとも称される。
この開示において、siRNAの設計はセンス鎖の標的(すなわちsiRNAのセンス鎖に対応する転写産物の標的配列)のサイレンシングに関連して議論される。本発明の方法が、アンチセンス標的のサイレンシング用のsiRNAの設計に適用可能であることも当業者に理解されよう。
5.1. 低分子干渉RNAによって標的化するための、遺伝子中の配列モチーフの同定方法
本発明は、転写産物の分解のためにsiRNAによって標的化し得る、転写産物中の配列モチーフ(例えば非常に効果的な標的化部位でありそうな配列モチーフ)を同定する方法を提供する。かかる配列モチーフはsiRNA感受性(susceptible)モチーフとも称する。この方法は、おそらくsiRNAによる標的化が所望でない、転写産物中の配列モチーフ(例えば効果の乏しいsiRNA標的化部位でありそうな配列モチーフ)を同定するために使用することもできる。かかる配列モチーフはsiRNA耐性モチーフとも称する。
一実施形態では、機能的配列モチーフ(例えばsiRNA感受性配列モチーフ)の特徴的な配列の特徴が同定され、かつ機能的モチーフのプロファイルが、例えばサイレンシング効果が決定されているsiRNAのライブラリーを用いて確立される。
一実施形態では、目的の配列領域が、機能的モチーフのプロファイルと適合する配列を同定するために走査される。
5.1.1. 配列プロファイル及び標的のサイレンシング効果
好適な実施形態では、機能的配列モチーフのプロファイルは位置特異的スコア行列(PSSM)を用いて表される。PSSMの一般的な議論は、例えばR. Durbin、S. Eddy、A. Krogh及びG. Mitchisonによる「Biological Sequence Analysis」(Cambridge Univ. Press, 1998)及びHenikoffら, 1994, J Mol Biol. 243: 574-8で見つけることができる。PSSMは、機能的配列モチーフの特徴を捕獲する、配列モチーフの記述子である。この開示において、PSSMは本発明の配列モチーフ(例えば感受性又は耐性モチーフ)を記載するために使用される。siRNA感受性(耐性)モチーフのPSSMは感受性(耐性)PSSMとも称される。当業者は、位置特異的スコア行列が位置特異的スコアリング行列、位置重み行列(PWM)又はプロファイルとも称されることを理解するだろう。
本発明では、機能的モチーフはsiRNA標的配列中に1以上の配列を含み得る。例えば、siRNA標的配列中の1以上の配列は標的配列の5'末端の配列であってもよいし、標的配列の3'末端の配列であってもよい。siRNA標的配列中の1以上の配列は2ストレッチ(stretch)の配列(標的配列の5'末端の配列と標的配列の3'末端の配列)であってもよい。機能的モチーフは、siTNA標的配列にフランキングする配列領域中の1以上の配列を含むこともできる。かかる1以上の配列は、siRNA標的配列に直接隣接することができる。かかる1以上の配列は、介在配列によってsiRNA標的配列と分離することもできる。図10は機能的モチーフの幾つかの例を図示する。
一実施形態では、機能的配列モチーフ(例えば、感受性又は耐性配列モチーフ)は、siRNAによって標的化される配列の少なくとも一部分を含む。一実施形態では、機能的モチーフは標的配列の少なくとも7ヌクレオチドの連続ストレッチを含む。好適な実施形態では、連続ストレッチは標的配列の3'領域(例えば、3'末端の3塩基内から始まる)にある。別の実施形態では、連続ストレッチは標的配列の5'領域にある。別の実施形態では、機能的モチーフは標的配列の3'領域中の少なくとも3、4、5、6又は7ヌクレオチドの連続ストレッチを含み、かつ標的配列の5'領域中の少なくとも3、4、5、6又は7ヌクレオチドの連続ストレッチを含む。さらに別の実施形態では、機能的モチーフは標的配列の中央領域中の少なくとも11ヌクレオチドの連続ストレッチを含む。siRNA標的配列を全長未満で含む配列モチーフは、siRNAと部分的な配列同一性のみを示すsiRNA標的転写産物を評価するために使用することができる(参照によりその全体を本明細書に組み入れる、Jacksonらによる国際出願第PCT/US2004/015439号(出願日2004年5月17日))。好適な実施形態では、機能的モチーフは全長siRNA標的配列を含む。
機能的モチーフはまた、フランキング配列を含んでもよい。本発明者らは、かかるフランニング領域の配列が、サイレンシングの効率を決定する際に役割を果たすことを見出した。一実施形態では、機能的配列モチーフ(例えば、感受性又は耐性配列モチーフ)は、siRNAによって標的化される配列の少なくとも一部分と、一方又は両方のフランキング領域中の1以上の配列とを含む。したがって、配列モチーフは、MヌクレオチドのsiRNA標的配列、siRNA標的配列の片側におけるD1ヌクレオチドのフランキング配列及びsiRNA標的配列の反対側におけるD2ヌクレオチドのフランキング配列を含むことができる(M、D1及びD2が適切な整数である)。一実施形態では、D1=D2=Dである。一実施形態では、M=19である。一部の好適な実施形態では、D1、D2又はDは少なくとも5、10、20、30、50ヌクレオチドの長さである。具体的な実施形態では、感受性又は耐性配列モチーフは、19ヌクレオチドのsiRNA標的配列と、siRNA標的配列のいずれかの側の10ヌクレオチドのフランキング配列とからなる。他の具体的な実施形態では、感受性又は耐性配列モチーフは、19ヌクレオチドのsiRNA標的配列と、siRNA標的配列のいずれかの側の50ヌクレオチドのフランキング配列とからなる。
別の実施形態では、配列モチーフはMヌクレオチドのsiRNA標的配列、及び以下の1以上を含むことができる:標的配列の5'末端にフランキングするD1ヌクレオチドの連続ストレッチ、標的配列の3'末端にフランキングするD2ヌクレオチドの連続ストレッチ、標的配列の5'末端の上流の約35ヌクレオチドを起点とするD3ヌクレオチドの連続ストレッチ、標的配列の3'末端の下流の約25ヌクレオチドを起点とするD4ヌクレオチドの連続ストレッチ、及び標的配列の3'末端の下流の約60ヌクレオチドを起点とするD5ヌクレオチドの連続ストレッチ(D1、D2、D3、D4及びD5は適切な整数である)。一実施形態では、D1=D2=Dである。一部の好適な実施形態では、D1、D2、D3、D4及びD5はそれぞれ少なくとも5、10又は20ヌクレオチドの長さである。機能的モチーフの長さは、L=M+D1+D2+D3+D4+D5である。具体的な実施形態では、配列モチーフは19ヌクレオチドのsiRNA標的配列、標的配列の5'末端にフランキングする約10ヌクレオチドの連続ストレッチ、標的配列の3'末端にフランキングする約10ヌクレオチドの連続ストレッチ、標的配列の5'末端の上流の約35ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチ、標的配列の3'末端の下流の約25ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチ、及び標的配列の3'末端の下流の約60ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチ(図10参照)を含む。
他の実施形態では、機能的配列モチーフ(例えば感受性又は耐性配列モチーフ)は、siRNA標的配列の一方又は両方のフランキング領域中の1以上の配列を含むが、siRNA標的配列は一切含まない。一実施形態では、機能的モチーフは標的配列の5'末端にフランキングする約10ヌクレオチドの連続ストレッチを含む。別の実施形態では、機能的モチーフは標的配列の3'末端にフランキングする約10ヌクレオチドの連続ストレッチを含む。好適な実施形態では、機能的モチーフは標的配列の5'末端にフランキングする約10ヌクレオチドの連続ストレッチと、標的配列の3'末端にフランキングする約10ヌクレオチドの連続ストレッチとを含む。一実施形態では、機能的モチーフは標的配列の5'末端の上流の約35ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチを含む。別の実施形態では、機能的モチーフは標的配列の3'末端の下流の約25ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチを含む。さらに別の実施形態では、機能的モチーフは標的配列の3'末端の下流の約60ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチを含む。好適な実施形態では、機能的モチーフは、標的配列の5'末端にフランキングする約10ヌクレオチドの連続ストレッチ、標的配列の3'末端にフランキングする約10ヌクレオチドの連続ストレッチ、標的配列の5'末端の上流の約35ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチ、標的配列の3'末端の下流の約25ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチ、及び標的配列の3'末端の下流の約60ヌクレオチドを起点とする約10ヌクレオチドの連続ストレッチを含む。したがって、配列モチーフは、標的配列の5'末端にフランキングするD1ヌクレオチドの連続ストレッチ、標的配列の3'末端にフランキングするD2ヌクレオチドの連続ストレッチ、標的配列の5'末端の上流の約35ヌクレオチドを起点とするD3ヌクレオチドの連続ストレッチ、標的配列の3'末端の下流の約25ヌクレオチドを起点とするD4ヌクレオチドの連続ストレッチ、及び標的配列の3'末端の下流の約60ヌクレオチドを起点とするD5ヌクレオチドの連続ストレッチを含むことができる(D1、D2、D3、D4及びD5は適切な整数である)。一部の好適な実施形態では、D1、D2、D3、D4及びD5は少なくとも5、10又は20ヌクレオチドの長さである。機能的モチーフの長さは、L=D1+D2+D3+D4+D5である。
一実施形態では、機能的配列モチーフの特徴は、配列モチーフ沿いの各位置で観察されるG、C、A、U(又はT)のそれぞれの頻度を用いて特徴付けられる。この開示において、U(又はT)あるいは時には単純なU(T)は、ヌクレオチドU又はTを示すために用いられる。頻度のセットは頻度行列を形成する(その際、各要素は、所与のヌクレオチドが所与の位置で観察された回数を示す)。長さLの配列モチーフを表す頻度行列は、4 L行列{fij}である(ここで、i=G,C,A,U(T)、j=1,2,…,Lであり、fijはj番目の位置におけるiヌクレオチドの頻度である)。配列モチーフの頻度行列は、所望の質(例えば、siRNAサイレンシングに対する選択したレベルの感受性又は耐性)を示すN siRNA標的配列のセットに由来するか又は該セットから構築することができる。
Figure 0004790619
Figure 0004790619
機能的配列モチーフが、MヌクレオチドのsiRNA標的配列、siRNA標的配列の片側のD1ヌクレオチドのフランキング配列及びsiRNA標的配列の反対側のD2ヌクレオチドのフランキング配列からなる実施形態では、L=M+D1+D2である。機能的モチーフがMヌクレオチドのsiRNA標的配列、標的配列の5'末端にフランキングするD1ヌクレオチドの連続ストレッチ、標的配列の3'末端にフランキングするD2ヌクレオチドの連続ストレッチ、標的配列の5'末端の上流の約35ヌクレオチドを起点とするD3ヌクレオチドの連続ストレッチ、標的配列の3'末端の下流の約25ヌクレオチドを起点とするD4ヌクレオチドの連続ストレッチ、及び標的配列の3'末端の下流の約60ヌクレオチドを起点とするD5ヌクレオチドの連続ストレッチからなる実施形態では、L=D1+D2+D3+D4+D5である。
別の実施形態では、機能的配列モチーフの特徴は、重み(モチーフ中の1つの位置で生じている各ヌクレオチドの重み)のセットを用いて特徴付けられる。かかる実施形態では、重み行列{eij}を、長さLの機能的配列モチーフを表すために用いることができる(ここでi=G,C,A,U(T)、j=1,2,…,Lであり、eijはj番目の位置でiヌクレオチドを発見する確率である)。一実施形態では、重みeijは、機能的配列モチーフ中のj番目の位置でiヌクレオチドを発見する確率である。確率が重みに使用される場合、この行列は確率行列とも称する。配列モチーフの確率行列は式:
Figure 0004790619
に従って頻度行列から誘導することができる。
好適な実施形態では、位置特異的スコア行列は機能的配列モチーフを特徴付けることに使用される。PSSMはlog尤度値log(eij/pij)を用いて構築することができる(eijが位置jでヌクレオチドiを発見する重みであり、pijがランダム配列中の位置jでヌクレオチドiを発見する重みである)。一部の実施形態では、機能的配列モチーフ中のj番目の位置でヌクレオチドiを発見する確率はeijとして使用され、ランダム配列中の位置jでヌクレオチドiを発見する確率はpijとして使用される。重み又は確率pijは「推測的な」重み又は確率である。一部の実施形態では、pijは、各位置jで可能なヌクレオチドi(G,C,A,U(T)が含まれる)についてそれぞれ0.25である。したがって、長さLの所与の配列について、全ての位置におけるlog尤度比の和は、所与の配列がランダム配列と適合するよりも機能的モチーフと適合しそうであるか又は適合しそうにないかを評価するためのスコアとして使用することができる:
Figure 0004790619
[ここで、wjとpjはそれぞれ、機能的配列モチーフ中の及びランダム配列中の、位置jにおけるヌクレオチドの重みである]。例えば、かかるスコアが0である際に、この配列はランダム配列と適合する確率と同じ配列モチーフと適合する確率を有する。配列は、比率が0より大きい場合に、配列モチーフとより適合する可能性が高い。
別の実施形態では、2以上の異なるヌクレオチドが区別されない場合は、次元を低減してPSSMを使用することができる。例えば、配列モチーフ中のG及びCの相対的塩基組成が区別されない場合は、PSSMは3・L行列{log(Eij/Pij)}であり得る(ここで、i=G/C,A, U(T);J=1,2,…,Lであり、Eijは、例えば位置jでヌクレオチドiを発見する重み(例えば確率)であり、pijは、ランダム配列中の位置jでヌクレオチドiを発見する重み(例えば確率)である)。したがって、そのような場合では、PSSMは3セットの重み(GC特異的、A特異的及びU特異的)を有する。例えば、ある位置の塩基がG又はCである場合に、その位置におけるGC重みとG又はCを発見する不変確率との比の自然対数は、その位置におけるGC特異的重みとして使用され、それぞれの塩基(A及びT)の不変確率で割算した位置特異的A及びT重みの自然対数は、その位置におけるA及びT特異的重みとして使用される。log尤度比のスコアは式(5)で表される:
Figure 0004790619
[ここで、Eijは位置jで塩基(A,U又はG/C)に割り付けられた重みであり、A又はUについてはpj=0.25であり、G/Cについてはpj=0.5である]。
さらに別の実施形態では、配列モチーフ中のG及びCの相対的塩基組成が区別されず、かつ該配列モチーフ中のA及びTの相対的塩基組成が区別されない場合は、PSSMは1・L行列{log(Eij/pij)}であり得る(ここで、i=G/C;j=1,2,…,Lであり、Eijは位置jでヌクレオチドiを発見する重み(例えば確率)であり、pijはランダム配列中の位置jでヌクレオチドiを発見する重み(例えば確率)である)。したがって、かかる場合では、PSSMはGC特異的重みの1セットを有する。ある位置の塩基がG又はCである場合には、その位置のGC重みとG又はCを発見する不変確率との比の自然対数は、その位置に対するGC特異的重みとして使用される。log尤度比のスコアは、Ejが位置jにおける塩基(G/C)に割り付けられた重みであり、pj=50であることを除き、式(5)で表される。
5.1.2 プロファイルを決定する方法
本発明は、siRNAを特徴付けるいくつかの数量が測定されている複数のsiRNAに基づいて、機能的配列モチーフのPSSMを決定する方法を提供する。例えば、サイレンシング効果が測定されている複数のsiRNAを、siRNA感受性又は耐性配列モチーフのPSSMの決定に使用することができる。この開示において、簡便化のために、この効果はしばしばsiRNAを分類するための測度として使用される。siRNAの効果は標的配列をサイレンシングするために設計された他のsiRNAの不在下で測定される。本発明の方法が、siRNAが他の測度に基づいて分類された場合にも等しく適用可能であることは当業者に明らかであろう。そのような複数のsiRNAはsiRNAのライブラリーとも称される。目的の機能的配列モチーフが、一方又は両方のフランキング領域中の1以上の配列を含む場合には、複数のsiRNA機能的モチーフ(すなわち、転写産物中にsiRNA標的配列とフランキング配列中の配列とを含む配列)を機能的モチーフのPSSMの決定に使用することができる。好適な実施形態では、siRNA機能的配列モチーフは、19ヌクレオチドのsiRNA標的配列と、siRNA標的配列のいずれかの側の10ヌクレオチドのフランキング配列からなる。簡便化のために、この開示において指定がない限り、「siRNAのライブラリー」という用語は、しばしばsiRNAのライブラリーとsiRNA機能的モチーフのライブラリーの両方を指すために使用される。後者において、siRNAの効果に言及する場合に、そのモチーフを標的化するsiRNAの効果を指すことは理解されるだろう。複数のsiRNA又はsiRNA標的モチーフが少なくとも10、50、100、200、500、1000又は10000個の異なるsiRNA又はsiRNA標的モチーフを含むことが好ましい。
複数のsiRNA若しくはsiRNA機能的モチーフ又はこれらのライブラリー中の異なる各siRNAは、異なるレベルの効果を有し得る。一実施形態では、複数のsiRNA又はsiRNAのライブラリーは選択したレベルの効果を有するsiRNAからなる。別の実施形態では、複数のsiRNA又はsiRNAのライブラリーは異なるレベルの効果を有するsiRNAを含む。かかる実施形態では、siRNAは、それぞれが選択したレベルの効果を有するsiRNAからなるサブセットにグループ分けし得る。
一実施形態では、siRNA機能的モチーフのPSSMは、所与の効果を有する複数のsiRNAを用いて決定される。一実施形態では、選択した閾値を超えるサイレンシング効果を有するsiRNAからなる複数のN siRNAが、siRNA感受性モチーフのPSSMの決定に用いられる。PSSMはある位置で出現したヌクレオチドの頻度に基づいて決定される(節5.1.1を参照)。選択される閾値は50%、75%、80%又は90%であり得る。別の実施形態では、選択した閾値未満のサイレンシング効果を有するsiRNAからなる複数のN siRNAがsiRNA感受性モチーフのPSSMの決定に使用される。選択される閾値は5%、10%、20%、50%、75%又は90%であり得る。好適な実施形態では、PSSMはG/Cに関する重みで次元が低減される。
好適な実施形態では、感受性又は耐性モチーフのPSSMは、N配列のセット用いた分類子アプローチを用いて誘導又は構築される。かかる実施形態では、異なるレベルの効果を有するsiRNAを含むsiRNAのライブラリーが使用される。一実施形態では、ライブラリー中のsiRNAは、それぞれが異なるレベルの効果を有するsiRNAからなるサブセットにランダムにグループ分けされる(一方のサブセットはPSSMを決定するためのトレーニングセットとして使用され、他方はPSSMを確認するための試験セットとして使用される)。異なる基準が、既存のsiRNAライブラリーをトレーニングセットと試験セットとに分けるために用いることができる。siRNAオリゴの大部分が標準な方法(19merのオリゴ配列の直前にAA二量体が必要である)で設計されているsiRNAライブラリーについては、幾つかの仕切り(partition)が使用され、(単一のPSSMというよりむしろ)2以上のトレーニングしたPSSMを組み合わせて試験オリゴにスコアを割り付けた。例示的なsiRNAライブラリー、並びにトレーニング及び試験セットへのライブラリーの分割は表IIに示される。
好適な実施形態では、配列モチーフは転写産物配列中の39塩基からなる(19merのsiRNA標的配列の上流の10塩基から19merの下流の10塩基まで)。かかる配列モチーフを特徴付けるPSSMは節5.1.1.に記載される。
好適な実施形態では、PSSMは反復的工程によって決定される。全ての位置の全ての塩基について、PSSMがランダムな重み{eij}又は{Eij}で所与の検索範囲内で初期化される。他の好適な実施形態では、PSSMは、トレーニングセット中の良好なsiRNA及び粗悪なsiRNA間の平滑化平均塩基組成差異(the smoothed mean base composition difference)に初期化される。一例として、39ヌクレオチドの配列モチーフを記述するPSSMは117個の要素を有し得る。他の実施形態では、重みは、生じたスコアと目的の数量(例えばサイレンシング効果)との相関関係を比較すること、及びその数量に対応する最大スコアのPSSMを選択することによって最適化される。PSSM性能の改善は、ある任意の位置での重みにおける変化の前後に相関値を比較することによってスコア付けされる。一実施形態では、相関関係における変化に最低必要条件は存在しない。総合的な改善は、最終的な相関関係と最初の相関関係との差異として算出される。一実施形態では、39merの配列モチーフを特徴付けるPSSMについて、最適化が終了する117サイクル後の総合的な改善の閾値は0.01の差異である。
一実施形態では、重みは良好なsiRNA(すなわち少なくとも中央値効果を有するsiRNA)と粗悪なsiRNA(すなわち中央値未満の効果を有するsiRNA)との間の塩基組成差異を反映するために、重みについて許容される値の範囲で最適化される。PSSMが頻度行列で初期化される場合、許容される値の範囲は頻度行列要素+/−0.05に相当する。不偏検索(unbiased search)が用いられる場合、重みについて許容される値の範囲はG/Cについては0.45〜.55であり、A又はUについては0.2〜0.3である。一実施形態では、重みは初期値から+/−0.05で変化し得る。不偏検索が用いられる場合、PSSMの重みは、上述されるように不偏検索範囲内のランダムな初期値に設定され得る。
一実施形態では、PSSMはランダムな山登り突然変異最適化手順によって決定される。この手順の各工程において、1つの位置の一塩基が最適化のためにランダムに選択される。例えば、39ヌクレオチドの配列モチーフを記載するPSSMのために、39塩基は117個の重み(39個のG/C重み、39個のA重み及び39個のU重み)のベクトルとなる。これら117個の重みの1つを各工程において最適化のために選択し、この工程で検索範囲内の全ての値を通過させる。検索範囲内の各値について、siRNAのトレーニングセットのスコアが算出される。次いで、これらのスコアとsiRNAのサイレンシング効果との相関関係が算出される。スコアとサイレンシング効果との間の最大相関を生じる位置の重みは、その位置における新たな重みとして保持される。
一実施形態では、トレーニング及び試験の有効性を測定するために使用される測定基準は、ROC曲線に基づく合計過誤検出率(FDR)であり、トレーニングされたPSSMによって得たスコアによって分類された上位33%のオリゴのFDRスコアの平均として計算される。FDRスコアを計算する際、中央値未満のサイレンシングレベルを有するオリゴは偽性と考慮され、中央値レベルより高いサイレンシングレベルを有するものは真性と考慮される。「過誤検出率」は、選択した偽陽性を真陽性の総数で割算した数である(リスト中の順位付けした各位置で測定される)。過誤検出率は選択した全てのsiRNAの比の関数であり得る。一実施形態では、選択したリストの33%で曲線下面積は単一の数として性能を表す。一実施形態では、少なくとも中央値のsiRNAの全てが「陽性」と呼ばれ、中央値より劣るsiRNAの全ては「陰性」と呼ばれる。したがって、データの半分は陽性であり、もう半分は「偽陽性」である。理想的な順位付けにおいて、曲線下面積は選択されたリストの33%又はちょうど50%で0であるべきである。一方、ランダムな順位付けは、同数の選択されるべき真陽性及び偽陽性を生じるだろう。これは選択されたリストの33%で0.17の曲線下面積又は選択されたリストの50%で0.25の曲線下面積に相当する。
サイレンシング%とPSSMスコアとの相関関係は当技術分野で公知の方法に従って算出される(例えばApplied Multivariate Statistical Analysis,第4版., R. A. Johnson & E. W. Wichern, Prentice-hall, 1998を参照)。
この方法は、複数回の反復によって総合的な改善が閾値未満に下がるまで続けられる。
好適な実施形態では、複数のPSSMがsiRNAトレーニングセットを用いて機能的配列モチーフについて取得される。この開示において、複数のPSSMはPSSMの「アンサンブル」とも称する。各ラウンドの最適化は、全域的最適値と異なる局所最適値で停止し得る。到達した特定の局所最適値は最適化のために選択したランダムな位置の変遷(history)に左右される。より高い改善閾値は、全域的最適値により近接した局所最適値に最適化されたPSSMを生じないかもしれない。したがって、1度の長期最適化よりも複数の最適化を実行することがより効果的である。追加の実行(例えば200回まで)により性能が増強されることが見出された。200回を超えて最適化を実行することは性能の更なる増強を提供しないように思われた。経験的に、複数の実行の平均を介したsiRNAのスコア付けは、各実行とその後のスコアの加算によって生じたPSSMで候補siRNAをスコア付けするよりも効果的ではない。したがって、一実施形態では、複数のPSSMは、各配列適合の複合スコア(composite score)を生じさせるために、個々に使用されるか又は加算される。複数の行列は、配列モチーフを同定する実用性及びsiRNA設計における実用性を評価するために、個々に又は既知のサイレンシング効果とは独立のsiRNA標的モチーフのセットの複合体として試験することができる。好適な実施形態では、複数のPSSMは少なくとも2、10、50、100、200又は500個のPSSMからなる。
好適な実施形態では、1以上の異なるsiRNAトレーニングセットが1以上のPSSMのアンサンブルを取得するために使用される。これらの異なるPSSMのアンサンブルは配列モチーフのスコアを決定する際に一緒に使用し得る。
配列の重み付け方法は、多数の配列アライメント及び検索用途における重複性を低減しかつ多様性を強調すべく当技術分野で使用されてきた。これらの方法はそれぞれ、1つの配列と1つの祖先配列又は一般化配列との間の距離の概念を基礎としている。ここでは、配列の距離測定というよりむしろ、アライメント中の各位置で観察される多様性及び塩基組成と観察されたsiRNAの相関関係に対する重み付けを基礎とする、異なるアプローチが提供される。
さらに別の実施形態では、PSSMは、「曲線モデル」と称する、その隣接する位置における任意の一箇所の塩基組成の依存関係を仮定した方法によって生じる。
一実施形態では、曲線モデルは正規曲線(すなわちガウス)の和として生じる。他の適切な曲線関数(例えば多項式)も使用することができることは当業者に明らかであろう。各曲線は、特定の領域中で特定の塩基を発見する確率を表す。加算した正規曲線の各位置における値は、曲線で表された塩基についてその位置に与えられた重みである。各塩基の重みは各siRNA中の各位置に存在し、後に、siRNAのスコア(すなわち、そのスコアはΣwiである)を生ずるべくそのフランキング配列が加算される。スコアの算定はまた、曲線モデルにおいて、重みを含む、配列中の塩基含量の内積として記載することができる。それ自体、目的の配列とこのモデルとの相関関係を表す一つの方法である。
例えば図1A-C及び5A-Cに記載されるように、曲線モデルは良好なsiRNAと粗悪なsiRNAとの間の平滑化塩基組成差異に存在する主要なピーク及び谷間に対応するよう初期化することができる。一実施形態では、G/C、A及びUについての曲線モデルが取得される。一実施形態では、初期モデルは3ピークG/C曲線について以下のように設定することができる:
ピーク1
平均: 1.5
標準偏差: 2
振幅: 0.0455
ピーク1の平均、標準偏差及び振幅は、Set1トレーニングセット及び試験セットにおいて、siRNA標的部位の塩基−2〜5内に生じる、良好なsiRNAと粗悪なsiRNAとの間のGC含量の平均差のピークに対応するように設定される。
ピーク2
平均: 11
標準偏差: 0.5
振幅: 0.0337
ピーク2の平均、標準偏差及び振幅は、Set1トレーニングセット及び試験セットにおいて、siRNA標的部位の塩基10〜12内に生じる、良好なsiRNAと粗悪なsiRNAとの間のGC含量の平均差のピークに対応するよう設定される。
ピーク3
平均: 18.5
標準偏差: 4
振幅: -0.0548
ピーク3の平均、標準偏差及び振幅は、Set1トレーニングセット及び試験セットにおいて、siRNA標的部位の塩基12〜25内に生じる、良好なsiRNAと粗悪なsiRNAとの間のGC含量の平均差のピークに対応するよう設定される。
配列中のピーク高(振幅)、中心位置及び曲線モデルにおけるピークの幅(標準偏差)は調節することができる。曲線モデルは、各ピークの振幅、平均及び標準偏差を調節することによって予め設定したグリッドの値にわたって最適化される。一実施形態では、曲線モデルは数種のトレーニングセットで最適化され、数種の試験セットで試験される(例えば、表IIに記載されるようなトレーニングセット及び試験セット)。それぞれの塩基(G/C、A及びU(又はT))は別々に最適化され、その後、最適化モデルの組合せが最大性能について選択される。
曲線モデルの最適化基準が(1)スコアの上位10%、15%、20%及び33%中の良好なオリゴの比、(2)選択したsiRNAの33%及び50%での過誤検出率、及び(3)タイ・ブレーカーとして使用されるsiRNAサイレンシング対siRNAスコアの相関係数であることが好ましい。
このモデルがトレーニングされる際に、各ピークの振幅、平均及び標準偏差の可能な値のグリッドが調査される。上記基準のいずれかについての最大値を有するか又は値の最大範囲内のモデルが選択され、さらに調査される。
好適な実施形態では、G/Cモデルが3又は4ピークで最適化され、Aモデルが3ピークで最適化され、そしてUモデルが5ピークで最適化される。曲線モデル用に最適化されたパラメーターの例示的な範囲は実施例3(下記)に示される。
取得したPSSMの性能が評価されることが好ましい。一実施形態では、PSSMはROC(受信者動作特性)を用いて評価される。ROC曲線は、非特異性の関数としての、診断能の感度のプロットである。ROC曲線は試験の診断能の真性特性を示し、競合する手順の相対的長所を比較することに使用できる。一実施形態では、PSSMの感度は、総真陽性の比として検出された真陽性の割合として算出されるが、PSSMの非特異性は総偽陽性の関数として検出された偽陽性の割合として算出される(G. Chambell, 1994, Statistics in Medicine 13: 499-508; Metz, 1986, Investigative Radiology 21: 720-733; Gribskovら, 1996, Computers Chem. 20: 25-33)。図3は本発明の現在の最良実施例で選択した2つのPSSMのROC曲線を示す。
別の実施形態では、PSSMの性能は、PSSMを用いて同定された複数の配列モチーフを複数の参照配列モチーフと比較することによって評価される。PSSMは、例えば1以上の転写産物を走査すること、及び(例えば閾値を上回るスコアを有する)PSSMに適合する配列モチーフを同定することによって複数の配列モチーフを取得するために使用される。複数には少なくとも3、5、10、20又は50個の異なる配列モチーフが含まれる。参照配列モチーフは、適切な任意の供給源に由来し得る。一実施形態では、複数の参照配列モチーフは、標準的な方法を用いて取得される(例えばElbashirら, 2001, Nature. 411: 494-8)。次いで、上記2種の複数の配列モチーフが、これらが同一であるかについて判定するために当技術分野で公知の任意の標準的な方法を用いて比較される。
好適な実施形態では、上記2種の複数の配列モチーフはウイルコクソンの順位和検定を用いて比較される。ウイルコクソンの順位和検定は2種の複数の配列モチーフの測定値が同一であるかを試験する(Snedecor及びCochran, Statistical Methods, Eighth Edition, 1989, Iowa State University Press, pp. 142-144; McClave andSincich, 2002, Statistics, Ninth Edition, Prentice Hall, 14章)。ウイルコクソンの順位和検定は、対応のないt検定のノンパラメトリックな同等物と考えることができる。これは2つの独立のサンプルが同一集団に由来しているという仮説を試験するために使用される。これはノンパラメトリックであるため、データの分布についての仮定のみに限定される。これは分布の形状が2つのグループで類似していると仮定する。これは中央値がグループ間で有意に異なることの証拠として試験が使用されるべき場合に特に適切である。
この試験は両グループからの全てのデータを順位付けする。最小値には1の順位が与えられる、2番目に小さな値には2の順位が与えられ、以下同様である。値が同じ場合、これらには平均の順位が与えられる。各群の順位は加算される(以下、順位和検定と称する)。順位の和はp値を生じさせるために一覧表にした臨界値と比較される。ウイルコクソンの順位和検定では、p(X、Y及びαの関数)は、帰無仮説が真である場合にデータ(X及びY)を用いたものよりも等しいか又は極端な結果を観察する確率である。P値は、2つの独立のサンプル(XとY)を生じる集団が同一であるという帰無仮説を試験することにとっての重要性を示す。XとYはベクトルであるが、異なる長さを有することができる(すなわちサンプルは異なる数の要素を有し得る)。代替的な仮説は、X集団の中央値が0以外の量だけY集団の中央値から移動するというものである。αは与えられる有意性のレベルであり、0〜1のスカラーである。一部の実施形態では、αのデフォルト値は0.05に設定される。Pが0に近似している場合、帰無仮説は棄却し得る。
一実施形態では、本発明のPSSMアプローチを、高い効果を有するsiRNAを同定する際の、その性能について標準的な方法(Elbashirら, 2001, Nature 411: 494-8)と比較した。各方法によって選択した3つのsiRNAを用いて得た結果は図3に示される。PSSMを用いた方法によって選択したsiRNAは、優れた中央値効果(標準的な方法のsiRNAの78%と比較して88%)を示し、その性能はより均一であった。最小効果は大きく改善された(標準的な方法の12%と比較して75%)。PSSMに基づくアルゴリズムを用いて設計したsiRNAのサイレンシング効果の分布は、同一の遺伝子について標準的な方法を用いて設計したsiRNAのものより有意に優れていた(p=0.004、ウイルコクソン順位和検定)。
5.1.3. siRNAのサイレンシング効果を評価するための代替法
位置特異的スコアリング行列アプローチはsiRNA機能的モチーフ(例えば、siRNA感受性及び耐性モチーフ)を表す好適な方法である。しかし、PSSMで表された情報は、特定の位置における塩基組成の重みをも提供する別の方法によって表すこともできる。この節はsiRNA機能的モチーフを評価するための上記方法を提供する。
5.1.3.1. 配列ウインドウに基づく方法
配列中の位置で塩基組成を重み付けする共通の方法は、配列位置の「ウインドウ」中で特定の塩基又は塩基のセットの数を集計することである。あるいは、集計は割合として表される。ウインドウスコアとも称されるそのようなスコアの値の数はウインドウの大きさに左右される。例えば、G/C含量についてサイズ5のウインドウをスコア付けすることは、0、1、2、3、4若しくは5の値;又は0%、20%、40%、60%、80%又は100%の値を与え得る。
ウインドウをスコア付けする代替的な方法は、そのウインドウ中の塩基について二本鎖融解温度又はΔGを算出することである。これらの熱力学量は、ウインドウ中の全ての塩基の組成及びその特定の序列を反映する。これらの熱力学量は、各ウインドウの塩基組成に直接左右され、ウインドウのG/C含量に支配されるが、塩基の序列と共にいくつかの変異を示すことは、当業者に容易に明らかである。
一実施形態では、塩基組成差異によって表される情報は、例えば図1A、1B及び1Cにおいて、特定の塩基の組成の増加又は減少のピークの位置に対応する塩基組成のウインドウによって表される。これらのウインドウは、siRNAの標的化に多かれ少なかれ機能的又は耐性である配列に対応する塩基組成の増加又は減少により、特定の塩基の含量についてスコア付けすることができる。例えば、19merのsiRNA二本鎖に対する塩基−1〜塩基3のG/C含量が増加した5塩基ウインドウ、及び19merのsiRNA二本鎖に対する塩基14〜29のG/C含量が減少した16塩基ウインドウは、図1Aに反映されたsiRNA機能的モチーフの一部を表すために使用することができる。
このスコアは分類子として直接使用し得る(5塩基ウインドウの例では、5パートの分類子が自動的に利用可能である)。スコアはまた、2パートの分類子としてウインドウを使用するために、算出した閾値又は経験に基づく閾値と比較することができる。ウインドウは組合せて用いることもできる。複数のウインドウにわたる各配列のスコアは、標準化若しくは重み付けしながら、又は標準化若しくは重み付けなしに加算することができる。一実施形態では、各ウインドウのスコアは、スコアのセット中の平均スコアを引き算し、その後、スコアのセット中の標準偏差で割算することによって標準化される。別の実施形態では、スコアは、ウインドウのスコアと測定したsiRNAのセットの効果とを比較することによって取得されるピアーソン相関係数によって重み付けされる。別の実施形態では、スコアは標準化され、その後加算前に重み付けされる。
siRNA機能的モチーフを表すためのウインドウの使用の一例として、以下のパラメーターのリストをsiRNA効果の予測に考慮した:
1.直接的なパラメーター
ATG_Dist‐開始コドンまでの距離
STOP_Dst‐コード領域の末端までの距離
Cording_Percent‐コード領域の長さの割合としてのATG_Dist
End_Dist‐転写産物の末端までの距離
Total_Percent‐転写産物配列の長さの割合としての開始位置
2.ウインドウベースのパラメーター
転写産物配列上の119塩基を考慮した(19mer+下流50塩基及び上流50塩基)。サイズ3〜10のウインドウを、119塩基チャンクの初めから終わりまで各位置について調査した。以下の項目を各ウインドウ位置についてカウントした:
a.塩基(A、C、G又はU)の数
b.塩基対(M(A又はC)、R(A又はG)、W(A又はU)、S(C又はG)、Y(C又はU)及びK(G又はU))の数
c.様々な序列の二量体(AC、AT、AG、MM、RY、KM、SW等)の数
d.上記1塩基又は2塩基ユニットの最長ストレッチ
3.モチーフベースのパラメーター
これらのパラメーターも119塩基チャンクを基礎とする。文字は塩基(A、C、G、U)及び塩基対(M、R、W、S、Y、K)を含む。
(1)位置特異的な単量体、二量体又は三量体
(2)4つの広い領域(上流50塩基、19merプロパー(proper)、下流50塩基、及び全体119mer領域)中の単量体〜7量体の数
4.構造パラメーター
構造パラメーターは以下の領域を基礎とする
19merオリゴプロパー(接頭辞:proper)
オリゴの即上流の20mer(接頭辞:up20)
オリゴの即上流の40mer
オリゴの即上流の60mer
オリゴの即下流の20mer(接頭辞:down20)
オリゴの即下流の40mer
オリゴの即下流の60mer
RNA構造によって予測される塩基対合を調査し、以下のパラメーターを算出した:
バルジ・ループの総数(パラメーター:bulge)
バルジ・ループ中の総塩基(bulge_b)
内部ループの総数(internal)
内部ループ中の総塩基(internal_b)
ヘアピンの総数(hairpin)
ヘアピン中の総塩基(hairpin_b)
他のモチーフ領域の総数(other)
他のモチーフ領域中の総塩基(other_b)
対合塩基の合計(total_pairs_b)
非対合塩基の合計(total_nonpairs_b)
対合塩基の最長ストレッチ(longest_pairs_b)
非対合塩基の最長ストレッチ(longest_nonpairs_b)
こうして、合計127=84パラメーターを各siRNAの二次構造について計算した。
5.標的外予測におけるパラメーター
10個の異なるパラメーターを、節5.2で議論される重み付きFASTAスコア、節5.4で議論されるミニマックススコア及び予測の二本鎖ΔGを用いて、異なる条件を用いて計算した。
パラメーターは、前記スコアと、調査したsiRNAのサイレンシング効果とのピアーソン相関係数によって標準化し、重み付けした。様々な方法をsiRNA効果の最大予測力を有するパラメーターを選択することに使用した。この様々な方法は1750個のパラメーターの選択について合致した。これらの1190個はウインドウベースの塩基組成パラメーターであり、559個はモチーフベースの塩基組成パラメーターであり、わずか1個の構造パラメーターを選択した。他のパラメーターは選択しなかった。
5.1.3.2. 配列ファミリーのスコア付け方法
配列コンセンサスパターン、隠れマルコフモデル及びニューラルネットワークもPSSMの代用としてsiRNA機能的モチーフ(例えば、siRNA感受性又は耐性モチーフ)を表すために使用することができる。
第1に、siRNA機能的モチーフ(例えばsiRNA感受性又は耐性モチーフ)は、遠縁の配列のファミリー(例えば機能的siRNA標的部位のファミリー)に対する緩い(loose)コンセンサス配列として理解することができる。ファミリーコンセンサスとの類似性について配列をスコアリングすることは当技術分野で周知である(Gribskov, M., McLachlan, A. D.,及びEsienberg, D. 1987. Profile analysis: detection of distantly related proteins. PNAS 84 : 4355-4358; Gribskov, M., Luthy, R.,及びEisenberg, D. 1990. Profile analyisis. Meula. Erazymol. 183: 146-159)。かかるスコア付け方法は最も一般的には「プロファイル」と称されるが、「テンプレート」若しくは「フレキシブルパターン」又はこれらの類似用語としても称され得る。かかる方法は、多かれ少なかれ、配列中の挿入又は欠失についての位置特異的スコア行列だけでなく、特定の塩基又はアミノ酸の位置特異的行列を用いた、複数の配列アライメントのコンセンサスの統計的記述である。重みは各位値における保存の程度から導くことができる。コンセンサスプロファイルとPSSMとの間の差異は、本文中で間隔がコンセンサスプロファイル中でフレキシブルであり得る用語として使用される(siRNA機能的モチーフ(例えばsiRNA感受性また耐性モチーフ)の不連続な部分を、許容されかつ塩基と同じようにスコア付けされる挿入又は欠失によって互いに異なる間隔で見出し得る)。
プロファイル隠れマルコフモデルは、配列のファミリーのコンセンサスを表すこともできる統計モデルである。Krogh及びその共同研究者(Krogh, A., Brown, M., Mian, I. S., Sjolander, K.及びHaussler, D. 1994. Hidden Markov models in computational biology: Applications to protein modeling. J. Mol Biol. 235: 1501-1531)は、音声認識研究からの技術を採用するHMM技術を配列プロファイルのモデル化に適用した(Rabiner, L. R. 1989. A tutorial on hidden Markov models and selected applications to speech recognition. Proc.IEEE 77:257-286)。生物学的配列の分析のために隠れマルコフモデルを使用することは、現在当技術分野で周知であり、隠れマルコフモデルの計算用のアプリケーション(例えばプログラムHMMER)は容易に入手できる(http://hmmer. wustl. edu)。
プロファイル隠れマルコフモデルは、プロファイル隠れマルコフモデルが各位置における各塩基、挿入又は欠失に重み付けを設定するための形式的な確率基盤(probabilistic basis)を有する点で、上述されるコンセンサスプロファイルと異なる。隠れマルコフモデルは、モチーフの位置特異的重みを決定することのみならず、モチーフの発見のために未知の配列のアライメントを実行することもできるが、コンセンサスプロファイルは一般的には既に整列された配列から導かれる。
コンセンサスプロファイル及びプロファイル隠れマルコフモデルは、特定の位置における塩基組成が他の全ての位置の塩基組成から独立であると仮定することができる。これは本発明のランダムな山登りPSSMと類似するが、ウインドウ及び曲線モデルのPSSMとは異なる。
特定の位置における塩基組成の、隣接する位置の組成に対する依存状態を捉えるために、マフコフモデルは固定型序列の(fixed-order)マルコフ連鎖及び補間マルコフモデルとして使用することができる。Salzber及びその共同研究者は、固定型序列のマルコフ連鎖以上の進歩として、微生物ゲノム中の遺伝子の発見に補間マルコフモデルを適用した(Salzberg, S. L., Delcher, A. L., Kasif, S., 及びWhite, O. 1998.Nucl. Acids Res. 26: 544-548)。固定型序列のマルコフ連鎖は、その位置に先行する固定数の塩基の関数として配列の各塩基を予測する。次の塩基を予測することに使用される先行塩基の数は、マルコフ連鎖の序列として知られる。補間マルコフモデルは、特定の位置における塩基組成を予測するために、フレキシブルな先行塩基数を用いる。これはより小さな配列セットのトレーニングを可能にする。十分な予測データを、後続の塩基をいくらか予想可能にするようにトレーニングセットにおいて様々なn-merの長さで利用し得るが、不十分なデータはあらゆる固定長のオリゴマーに使用し得る。したがって、補間マルコフモデルは、長いオリゴマーがトレーニングセットにおいて十分な頻度である際に、固定型序列マルコフ連鎖よりも、好ましいより長いオリゴマーの予測に使用する自由を有する。補間マルコフモデルは各塩基の分類のために、複数のオリゴマー長からの重み付けした確率の組合せを採用する。
固定型序列マルコフ連鎖及び補間マルコフモデルは、特定の位置における塩基組成の、先行する位置の組成への依存状態の観点で、siRNA機能的モチーフ(例えばsiRNA感受性又は耐性モチーフ)を表すことができる。補間マルコフモデルの構築方法は、siRNA機能的又は非機能的モチーフを最も予示するオリゴマーを発見するだろう。
ニューラルネットワークも、配列のファミリーの同一性について配列をスコア付けするために使用される。ニューラルネットワークは、繰り返し学習プロセスを介してモデルを構築するために使用される統計学的分析ツールである。トレーニングされたネットワークはその後分類作業を実施し、これは所望のアウトプット及びそのアウトプットと最初に関連するトレーニングインプットに依存する。典型的なニューラルネットワークパターン又は計算手段は、配列のトレーニングセットが与えられて、これらの配列を表す状態を設定する。次いで、ニューラルネットワークが配列の試験セットでその性能について試験される。ニューラルネットワークはsiRNA機能的モチーフ(例えば、siRNA感受性及び耐性モチーフ)を予測しかつモデル化するために使用することができる。ニューラルネットワークの欠点は、モチーフの実際の配列の特徴が、トレーニングしたネットワークの状態の調査から決定することが困難又は不可能であり得ることである。
5.1.4.siRNAによる標的化のために遺伝子中の配列モチーフを同定する方法
本発明は転写産物中の1以上の配列モチーフ(siRNA感受性又は耐性モチーフ)を同定する方法を提供する。そのためこれに対応する機能的又は非機能的siRNAもこの方法によって提供される。一実施形態では、目的の配列領域が、機能的モチーフのプロファイルと適合する配列を同定するために走査される。一実施形態では、複数の可能なsiRNA配列モチーフは、その領域にわたって規定の塩基区間のステップ(step)でタイル状に存在するsiRNA配列モチーフを含み、これはプロファイルと適合した配列を同定するために評価される。好適な実施形態では、1、5、10、15又は19塩基の間隔のステップが用いられる。好適な実施形態では、完全な転写産物配列が走査される。スコアは節5.1.1.〜5.1.3.に記載されるPSSMを用いて各別個の配列モチーフについて算出される。次いで、配列はこのスコアに従って順位付けされる。次いで、1以上の配列が順位リストから選択される。一実施形態では、最高スコアを有するsiRNA配列モチーフがsiRNA感受性モチーフとして選択される。別の実施形態では、最低スコアを有するsiRNA配列モチーフがsiRNA耐性モチーフとして選択される。
本発明者らは、siRNA機能的モチーフのサイレンシング効果と塩基組成プロファイルとの相関関係が、1以上の因子(例えば標的転写産物の存在度)に依存し得ることを見出した。例えば、本発明者らは低発現型遺伝子(例えば転写レベルが細胞当たり約5コピー未満である遺伝子)をサイレンシングするために、標的配列の2つの末端で高GC含量非対称性を有するsiRNA機能的モチーフと、標的配列にフランキングする配列領域に高いGC含量を有するsiRNA機能的モチーフとが、標的配列の2つの末端で適度なGC含量非対称性を有するsiRNA機能的モチーフ及びフランキング領域中に低いGC含量を有するsiRNA機能的モチーフよりも低いサイレンシング効果を有することを見出した。サイレンシング効果に対する標的転写産物量の効果は実施例6で説明される。
いかなる理論によっても限定されるべきではないが、本発明者らは、特定のsiRNA機能的モチーフのサイレンシング効果が多くの工程(RISC形成及びsiRNA二本鎖の巻き戻し、RISC及び標的mRNAの拡散、RISC/標的複合体の反応(これには標的mRNAに沿ったRISCの拡散、切断反応及び産物の分離等が含まれ得る)を含む)の相互作用の結果であると推理する。したがって、転写産物の存在度、siRNAの塩基組成プロファイル、標的配列及び負ランニング配列の塩基組成プロファイル、並びに細胞中のsiRNA及びRISCの濃度は全てサイレンシング効果に影響し得る。異なる工程には、siRNA又はsiRNA配列モチーフの異なる配列領域が関与し得る、すなわち、siRNA又はsiRNA配列モチーフの異なる配列領域が転写産物の認識、切断及び産物の放出において異なる機能を有することがあり、siRNAはそのような特徴の1以上を考慮した基準に基づいて設計し得る。例えば、誘導鎖の5'末端付近の塩基は転写産物(オン及び標的外転写産物の両者)の結合に関係があるとされ、標的RNA結合エネルギーに十分であることが示されてきた。アンチセンス鎖の5'末端(二本鎖の3'末端)での弱い塩基対形成は、アンチセンス鎖とRISCとの好ましい相互作用を、RISCの5'−3'ヘリカーゼ成分によるsiRNA二本鎖の巻き戻しを容易化することによって増強する。siRNAのセンス鎖の第10位置におけるUの好選が大部分のエンドヌクレアーゼでそうであるようにRISCによる切断効率の改善と関連してした。切断部位にフランキングする低GC含量の配列は、切断のためのRISC/ヌクレアーゼ複合体の接近可能性又は切断された転写産物の放出を増強することができ、これはsiRNA誘導鎖の中心及び3'領域で形成された塩基対が触媒作用に必要ならせん状幾何学配置を与えることを立証する最近の研究と一致する。したがって、本発明は、1以上の配列領域に最適な配列組成を有し、その結果、1以上のsiRNA機能的工程において最適化されるsiRNAを取得することによって、siRNA配列モチーフ(及びしたがってsiRNA)を同定する方法を提供する。一実施形態では、この方法は、その全体の配列及び/又は異なる配列領域が所望の組成プロファイルを有するsiRNA配列モチーフを同定することを含む。この方法は、特定の領域に所望の配列組成を有し、その結果1つの機能的工程が最適化されるsiRNAモチーフを同定することに使用することができる。この方法はまた、多くの領域中に所望の配列組成を有し、その結果多くの機能的工程が最適化されるsiRNAを同定することにも使用できる。
好適な実施形態では、単一のsiRNA機能的プロファイル(例えばPSSMのセットによって表されたプロファイル)は、例えば節5.1.2.又は節5.1.3.に記載される方法を用いて、異なる転写産物量を有する遺伝子を標的化する複数のsiRNAのサイレンシング効果のデータでトレーニングすることによって取得され、存在度を有する遺伝子転写産物中のsiRNA配列モチーフを全ての範囲で評価するために使用される。一実施形態では、任意の範囲の存在度を有する遺伝子転写産物中のsiRNA配列モチーフが、その配列塩基組成プロファイルとPSSMのセットによって表されるプロファイルとの類似性の程度に基づいて評価される。一実施形態では、目的の遺伝子のsiRNA機能的モチーフのPSSMスコアが節5.1.1.に記載される方法によって取得される。規定のPSSMスコアの参照値又はPSSMスコアの値の参照範囲は、異なる範囲で発現レベルを有する遺伝子を標的化するsiRNAに基づいて決定される。参照値又は参照値の範囲を決定する方法は下記に記載される。次いで、特定の遺伝子中のsiRNA機能的モチーフが、規定の参照値に対するスコア又は参照範囲内のスコアの近接性に基づいて順位付けされる。その後、規定の値に最も近いスコア又は参照範囲内のスコアを有する1以上のsiRNAが選択される。別の実施形態では、PSSMスコアの規定の参照値又はPSSMスコアの参照範囲が、所与の範囲の発現レベルを有する遺伝子に用いられる。参照値又は参照範囲は、その範囲の発現レベルを有する遺伝子を標的化するsiRNAに基づいて決定される。次いで、規定の値に最も近いスコア又は参照範囲内のスコアを有する1以上のsiRNAが選択される。
参照値又は参照範囲は様々な方法で決定することができる。好適な実施形態では、1以上の特徴を有する(例えば、1以上のsiRNA機能的工程において特定の効果を有する)複数のsiRNAのPSSMスコアと、サイレンシング効果との相関関係が評価される。好適な実施形態では、特徴は、複数のsiRNAが低発現型遺伝子を標的化することである。最大中央値サイレンシングに対応するスコアの値は参照値として使用される。特定の実施形態では、参照値は0である。参照スコアと最も近接するPSSMスコアを有する1以上のsiRNAが選択される。
別の実施形態では、所与のレベルのサイレンシング効果(例えば75%を上回る効果)を有するsiRNAに対応するスコアの範囲が参照値の範囲として使用される。一実施形態では、効果的なsiRNAが、塩基2〜7のGC含量が制御される限り、−300〜+200のスコアを有することが見出される。その範囲内のPSSMスコアを有する1以上のsiRNAが選択される。
別の好適な実施形態では、1以上の特徴を有する(例えば、1以上のsiRNA機能的工程において特定の効果を有する)複数のsiRNAのPSSMの範囲内の特定のスコア範囲が、参照値の範囲として使用される。好適な実施形態では、特徴は、複数のsiRNAが低発現型遺伝子を標的化することである。一実施形態では、PSSMスコアの範囲の特定の百分位数は、参照値の範囲として使用される(例えば、90%、80%、70%又は60%)。特定の実施形態では、
トレーニングセット中の組合せPSSMスコア範囲は、200の最大値を有する(スコアの97%は0以下であり、スコアの60%は−300以下である)。
さらに別の好適な実施形態では、複数のPSSMのセットに由来するスコアの和が参照スコアとして使用される。特定の実施形態では、複数のセットは予め記載されたPSSMの2つのセットからなる。PSSMの2つのセットは、siRNAを選好する塩基組成(特に19mer及びフランキング配列のGC含量に関して)の点で異なる。0の組合せスコアで、PSSMセットはsiRNAに対する選好は平衡状態にある。
別の好適な実施形態では、PSSMスコアに加えて、siRNA配列モチーフも対応するsiRNAの位置2〜7に対応する位置におけるGC含量に従って順位付けされ、その領域中で約0.15〜0.5のGC含量を有する(1〜3個のG又はCに相当する)1以上のsiRNA配列モチーフが選択される。
さらに別の実施形態では、対応する19mer siRNAの位置1に対応する位置でG又はCを有するsiRNA配列モチーフ、及び対応する19mer siRNAの位置19に対応する位置でA又はTを有するsiRNA配列モチーフが選択される。さらに別の好適な実施形態では、19mer標的領域のいずれかの側の200塩基が繰返し配列又は低コンプレキシティー配列ではないsiRNAが選択される。
特定の実施形態では、siRNA配列モチーフは以下の様式で選択される:(1)siRNA配列モチーフは、最初に、対応するsiRNAの位置2〜7に対応する位置におけるGC含量に従って順位付けされ、この領域で約0.15〜0.5のGC含量を有する(1〜3個のG又はCに対応する)1以上のsiRNA配列モチーフが選択される;(2)次に、対応する19mer siRNAの位置1に対応する位置にG又はCを有するsiRNA配列モチーフ、及び対応する19mer siRNAの位置19に対応する位置にA又はTを有するsiRNA配列モチーフが選択される;(3)次いで、−300〜200の範囲の又は0に最も近接するPSSMスコアを有するsiRNAが選択される;(4)次いで、16未満の標的外Blast適合の数が選択される;そして(5)19mer標的領域のいずれかの側の200塩基が繰り返し又は低コンプレキシティー配列ではないsiRNAモチーフが選択される。
別の実施形態では、複数の異なる存在度範囲のぞれぞれに対する参照値又は参照範囲が決定される。目的の遺伝子中のsiRNA機能的モチーフの選択は、目的の遺伝子が範囲内である存在度範囲に対する、適当な参照値又は参照範囲を用いることによって達成される。一実施形態では、複数の異なる存在度の範囲は2つの範囲からなる(細胞当たり約3〜5コピー未満、低発現型遺伝子に相当する;細胞当たり5コピー以上、高発現型遺伝子に相当する)。参照値又は参照範囲は、上述される方法のいずれか1つを用いて各存在度の範囲について決定することができる。
別の実施形態では、複数のsiRNA機能的モチーフのプロファイルは、節5.1.2及び5.1.3(前掲)に記載される方法を用いて、所与の範囲の発現レベルを有する遺伝子(すなわち転写産物の存在度が所与の範囲である遺伝子)を標的化するsiRNAのサイレンシング効果データに基づいて決定される。一実施形態では、所与の範囲の発現レベルを有する遺伝子の1以上のPSSMのセットが、その範囲の発現レベルを有する遺伝子を標的化するsiRNAを用いて、節5.1.2.に記載されるようにトレーニングされる。次いで、PSSMは、発現レベルが所与の範囲である標的遺伝子中のsiRNA機能的モチーフを、例えば節5.1.1.に記載される方法を用いて取得したPSSMスコアに従って順位付けすることによって同定するために使用される。好適な実施形態では、転写産物存在度の範囲は2つの範囲に分けられる(細胞当たり約3〜5コピー未満、低発現型遺伝子に相当する;細胞当たり5コピー以上、高発現型遺伝子に相当する)。PSSMの2つのセットは各存在度の範囲で取得される。目的の遺伝子中のsiRNA機能的モチーフは、目的の遺伝子の存在度に適切であるPSSMのセットを用いて同定することができる。
本発明はまた、異なるsiRNA濃度下でsiRNA配列モチーフのサイレンシング効果を評価する方法を提供する。例えば、異なる存在度を有する転写産物中のsiRNA配列モチーフのサイレンシング効果を評価する上記方法は、存在度パラメーターを濃度パラメーターに置き換えることによってそのような目的に使用することができる。一実施形態では、複数のsiRNA機能的モチーフのプロファイルは、複数の異なるsiRNA濃度範囲について決定される。そのような各プロファイルは、異なる発現レベルを有するか又は異なる範囲の発現レベルを有する遺伝子を標的化する、異なるsiRNA濃度のサイレンシング効果データに基づいて決定することができる。一実施形態では、そのようなプロファイルは、所与の存在度を有するか又はある存在度の範囲内の存在度を有する転写産物について決定される。そのような各プロファイルは、その発現レベルを有するか又はその範囲の発現レベルを有する遺伝子を標的化する、異なるsiRNA濃度のサイレンシング効果データに基づいて決定することができる。一実施形態では、所与のsiRNA濃度範囲の1以上のPSSMが、その範囲の濃度を有するsiRNAのサイレンシング効果データに基づいてトレーニングされる。次いで、PSSMは、その濃度範囲の濃度で高い効率を有するsiRNAを選択するために使用することができる。好適な実施形態では、転写産物存在度の範囲は細胞当たり5コピー未満であるように選択される。別の実施形態では、転写産物存在度の範囲は細胞当たり5コピー以上であるように選択される。したがって、本発明は、所与の濃度のsiRNAによって標的化するための1以上のsiRNA機能的モチーフを選択する方法を提供する。
この方法は、所望のサイレンシング効果を有する所与の濃度のsiRNAによって標的化することができる1以上のsiRNA機能的モチーフを同定するために使用することができる。所与の濃度が低ナノモル〜サブナノモルの範囲、より好ましくはピコモル範囲であることが好ましい。特定の実施形態では、所与の濃度は50nmol、20nmol、10nmol、5nmol、1nmol、0.5nmol、0.1nmol、0.05nmol、又は0.01nmolである。所望のサイレンシング効果は所与の濃度下で少なくとも50%、75%、90%又は99%である。かかる方法は治療上のsiRNAの設計に特に有用である。治療上の使用のために、サブナノモル〜ピコモル濃度で、高い効果で標的遺伝子をサイレンシングできるsiRNAを同定することがしばしば望まれる。したがって、本発明は治療上のsiRNAを設計する方法も提供する。
本発明はまた、遺伝子が治療上のsiRNAによる標的化に適当であるかを判定する方法を提供する。一実施形態では、所望のsiRNA濃度及び所望のサイレンシング効果が最初に決定される。遺伝子の転写産物中の複数の可能なsiRNA配列モチーフが本発明の方法を用いて評価される。最高の効果を示す(例えば、上記の判定基準又は基準を満たすPSSMスコアを有する)1以上のsiRNA配列モチーフが同定される。1以上のsiRNA配列モチーフを所望の効果を超えるか又はこれと同じサイレンシング効果を有する対応のsiRNAによって標的化できる場合に、治療上のsiRNAによる標的化に適当であるとして遺伝子が判定される。一実施形態では、複数の可能なsiRNA配列モチーフは、転写産物の一部分若しくは完全な転写産物にまたがる又はこれらにわたって規定の塩基間隔のステップ(例えば、1、5、10、15又は19塩基の間隔のステップ)でタイル状に存在するsiRNA配列モチーフを含む。好適な実施形態では、連続的な重複siRNA配列モチーフは完全な転写産物配列を横切ってタイル状に存在する。別の好適な実施形態では、連続的な重複siRNA配列モチーフは、転写産物配列の一領域又は全体にわたって、1塩基間隔のステップでタイル状に存在した。
5.2. siTNAの標的外遺伝子を同定する方法
本発明はまた、siRNAの標的外遺伝子を同定する方法を提供する。本明細書で使用される「標的外」遺伝子は、他の遺伝子を標的化するよう設計されたsiRNAによって直接的にサイレンシングされる遺伝子である(参照によりその全体を本明細書に組み入れる、Jacksonらによる国際特許出願第PCT/US2004/015439(出願日2004年5月17日)を参照)。標的外遺伝子は、siRNAのセンス鎖又はアンチセンス鎖のいずれかによってサイレンシングされ得る。
5.2.1. 配列適合プロファイル及び標的外サイレンシング
マイクロアレイ実験は、大部分のsiRNAオリゴがsiRNAと標的外転写産物との間の直接的な相互作用を介して標的外遺伝子の下流制御を引き起こすことを示唆する。dsRNAと転写産物との間の配列同一性は、どの標的外遺伝子が影響を受けるかを判定する際に役割を果たしていると思われるが、配列同一性検索はハイブリダイゼーションの熱力学モデルと組合わせても標的外効果を正確に予測するのに不十分である。しかし、標的外転写産物と原因(offending)siRNA配列とのアライメントは、両者間での一部の塩基対形成による相互作用が他塩基対形成よりもより重要らしいことを明らかにする(図6)。
本発明は、siRNAと標的外遺伝子の配列との間の配列適合パターン(pmPSSM)を記述するPSSMを用いて、siRNAの可能な標的外遺伝子を同定する方法を提供する。一実施形態では、配列適合パターンは、標的外転写産物中の対応する標的位置に適合する、siRNA中の各位置の重み{Pi}によって表される(ここで、Piは位置iにおける適合の重みであり、i=1,2,…,Lであり、LはsiRNAの長さである)。かかる適合パターンは、siRNA中の各位置が、発現プロファイルの動態解析を介して、目的の標的との同時下流制御によるsiRNAの直接的な標的として同定された、影響型標的外転写産物と適合することが見出される頻度に基づいて決定することができる(Jacksonらによる国際出願第PCT/US2004/015439(出願日2004年5月17日)を参照)。pmPSSMは、{Ei}であり得る(ここでアライメント中の位置iが適合する場合はEi=Piであり、位置iが適合しない場合はEi=(1-Pi)/3である)。19merのsiRNA配列についての例示的な{Pi}は図7にプロットされ、表Iに列挙される
Figure 0004790619
一実施形態では、標的外転写産物の配列適合パターンはpmPSSMを取得するために使用される。siRNAの標的外遺伝子は、参照によりその全体を本明細書に組み入れる、Jacksonらによる国際出願第PCT/US2004/015439(出願日2004年5月17日)に開示される方法を用いて同定することができる。例えば、siRNAの標的外遺伝子はサイレンシング反応速度論(silencing kinetics)に基づいて同定される(例えば、Jacksonらによる国際出願第PCT/US2004/015439(出願日2004年5月17日)を参照)。次いで、pmPSSMは各位置について見出された適合の頻度を用いて作成することができる。一実施形態では、図6に示されるアライメントと他のsiRNAについての類似データとを組合せて、標的外効果を予測する際に使用するための例示的な位置特異的スコアリング行列を作成した。
siRNAと転写産物中の配列との間の適合の度合いは、以下の式:
Figure 0004790619
[ここで、Lはアライメントの長さ(例えば19)である]
によるスコアを用いたpmPSSM(位置適合スコア、pmScoreとも称される)で評価することができる。所与の閾値を超えるpmScoreは、可能な標的外遺伝子として配列を同定する。
本発明者らは、所与のsiRNAについて、閾値を超えるスコアを有するアライメントの数が、観察される標的外効果の数を予示することを見出した。スコアの閾値は、予測の標的外効果の数と観察された標的外効果の数との相関を最大化することによって最適化することができる(図8)。最適化された閾値は、比較的少数の予測された標的外効果を有するsiRNAの選択を支持するように使用することができる。
5.2.2. siRNAの標的外遺伝子を同定する方法
所与のsiRNAの標的外遺伝子は、最初にsiRNAと整列する標的外転写産物配列を同定することによって同定することができる。ペアワイズアライメントに適切なあらゆる方法(非限定的にBLAST及びFASTA等)を使用することができる。次いで、位置特異的スコアリング行列は、これらのアライメントの位置適合スコアを算出するために使用される。好適な実施形態では、アライメントは低ストリンジェントなFASTA検索を用いて確立され、各アライメントのスコアは式6に従って算出される。所与の閾値を超えるスコアは、可能な標的外遺伝子としての配列を含む転写産物を同定する。
したがって、本発明はsiRNAのサイレンシング特異性を評価する方法を提供する。一実施形態では、siRNAの潜在的な標的外遺伝子が同定される。次いで、ゲノム又はゲノムの一部分中の上記標的外遺伝子の総数が、siRNAのサイレンシング特異性の測度として使用される。
5.3. siRNAの鎖選好の予測方法
本発明は、siRNAの位置特異的塩基組成に基づいて、siRNAの鎖選好及び/又は効果又は特異性を予測する方法を提供する。本発明者らは、塩基組成PSSMスコア(節5.1.を参照されたい)がその逆相補体の塩基組成PSSM(G/C PSSM)スコアより大きいsiRNAは、そのセンス鎖よりも活性であるアンチセンス鎖を有すると予測されることを見出した。対照的に、塩基組成PSSMスコアがその逆相補体の塩基組成PSSMスコア未満であるsiRNAは、そのアンチセンス鎖よりも活性であるセンス鎖を有すると予測される。
センスと同一の標的遺伝子をサイレンシングする際のsiRNA効果の増加は、アンチセンス鎖のより大きな活性及びセンス鎖のより小さな活性に対応することが示されてきた。本発明者らは、塩基組成PSSMは、粗悪なsiRNAとして強力なセンス鎖を有するsiRNAを、良好なsiRNAとして弱いセンス鎖を有するsiRNAから区別することに使用できることを見出した。粗悪なsiRNAの逆相補体は、良好なsiRNAよりも、粗悪なsiRNA自身となお一層異なることがわかった。概して、粗悪なsiRNAの逆相補体は、5'末端で良好なsiRNAよりも一層多くのG/C含量を有し、3'末端では良好なsiRNAとG/C含量において類似した。対照的に、良好なsiRNAの逆相補体は、実質的には、良好なsiRNAよりも粗悪なsiRNAとより類似することがわかった。概して、良好なsiRNAの逆相補体は5'末端のG/C含量において粗悪なsiRNAとほとんど異ならず、粗悪なsiRNAよりも3'末端におけるG/C富度がわずかに劣るのみであった。これらの結果は、G/C PSSMは粗悪なsiRNAとして強力なセンス鎖を有するsiRNAを良好なsiRNAとしての弱いセンス鎖を含むsiRNAと区別することを示す。
図14Aは、19mer siRNA二本鎖領域内の、粗悪なsiRNAの逆相補体の平均G/C含量と粗悪なsiRNA自体の平均G/C含量との差異を示す。比較のために、良好なsiRNAと粗悪なsiRNAの平均G/C含量間の差異が示される。曲線は5のウインドウ(又は5のウインドウの一部分、配列の端で)にわたって平滑化される。
図14Bは、19mer siRNA二本鎖領域内の、良好なsiRNAの逆相補体の平均G/C含量と粗悪なsiRNAの平均G/C含量との間の差異を示す。比較のために良好なsiRNA及び粗悪なsiRNAの平均G/C含量間の差異が示される。曲線は5のウインドウ(又は5のウインドウの一部分、配列の端で)にわたって平滑化される。
図15において、siRNAを測定したサイレンシング効果によって保存し(binned)、3'偏向法及びG/C PSSM法によるセンス活性の呼出し(call)の頻度を比較した。これらの技術は異なる分析に基づくが、かなり良好に一致する。いずれも、より高い割合の、低サイレンシングsiRNA対高サイレンシングsiRNAは、センス活性であることが予想されることを示す。siRNA G/C PSSMスコア(逆相補体G/C PSSMスコア)対log10(センス同一性スコア/アンチセンス同一性スコア)の相関係数は、図15で保存した(binned)61 siRNAについては0.59である。
したがって、一実施形態では、本発明は、siRNAの位置特異的塩基組成に基づいて、siRNAの鎖選好(すなわち2つの鎖のどちらが活性を作動するか)を予測する方法を提供する。一実施形態では、本発明は、siRNAのセンス鎖とアンチセンス鎖の塩基組成を比較することによって、遺伝子サイレンシングにおけるsiRNAの鎖選好を評価することを含む。別の実施形態では、本発明は、siRNAの標的配列のセンス及び逆相補体の塩基組成を比較することによって、遺伝子サイレンシングにおけるsiRNAの鎖選好を評価することを含む。
一実施形態では、siRNAのアンチセンス鎖の配列又は転写産物中のsiRNAの標的配列の逆相補体の配列が、PSSMアプローチ(節5.1.を参照)を用いて標的配列と比較される。siRNA及びその逆相補体は、二本鎖領域内の良好なsiRNA及び粗悪なsiRNA間の平滑化G/C含量差異に基づき、重み行列としてPSSMを用いてスコア付けされる。一実施形態では、図14Aに記載される塩基組成重み行列が重み行列として使用される。好適な実施形態では、各鎖のPSSMスコアは、(曲線モデルPSSMのスコア算出方法として)G/C含量差異行列によりsiRNA鎖G/C含量の内積として算出することができる。一実施形態では、siRNAは、その逆相補体PSSMスコアがその固有のPSSMスコアを上回った場合にセンス活性として同定される。
別の実施形態では、参照によりその全体を本明細書に組み入れるJacksonらによる国際出願第PCT/US2004/015439(出願日2004年5月17日)に記載される3'偏向法が、siRNAの鎖選好を判定するためにPSSMスコアと併せて用いられる。かかる実施形態では、siRNAは、アンチセンス同一スコアがセンス同一スコアを上回る場合に、鎖選好判定の3'偏向法によってセンス活性として同定される。
鎖偏向の予測のためにsiRNA及びその逆相補体のG/C PSSMの比較を基礎とする方法は、3'偏向法による、siRNA発現プロファイルからの鎖偏向の推定との比較によって試験した。
本発明はまた、良好なサイレンシング効果を有するsiRNAを同定する方法を提供する。この方法は、(センス同一標的をサイレンシングするための)良好なサイレンシング効果及び特異性を有するsiRNAとして優性アンチセンス鎖活性を有するsiRNA(「アンチセンス活性」siRNA)を同定することを含む。一実施形態では、節5.1.に記載される方法は、良好なセンス鎖を同定すること(すなわち、アンチセンス同一標的に対して良好なサイレンシング効果を有するsiRNAを同定すること)に使用される。次いで、かかるsiRNAは、センス同一標的をサイレンシングする際の使用から除かれる。この方法はまた、優性センス鎖活性を有するsiRNA(「センス活性」siRNA)をセンス同一標的をサイレンシングするための効果及び特異性に劣るsiRNAとして排除することに使用することができる。一実施形態では、参照によりその全体を本明細書に組み入れるJacksonらによる国際出願第PCT/US2004/015439(出願日2004年5月17日)に記載される方法が、siRNAの鎖選好を判定するために使用される。
概して、粗悪なsiRNAの逆相補体は、良好なsiRNAのGC含量プロファイルが粗悪なsiRNAのものと異なることと同様に、粗悪なsiRNAのものと異なるGC含量プロファイルを有すると考えられる。しかし、粗悪なsiRNAの逆相補体は、良好なsiRNAよりも、粗悪なsiRNAとさらにより極端な差異を示す。
この観察は、多くの粗悪なsiRNAが活性センス鎖を有するというsiRNA発現プロファイルにおける証拠と一致する。
したがって、データ及び分析の組合せは、粗悪なsiRNAの逆相補体が、良好なsiRNAよりも効果的なsiRNAの、代替的な又はおそらくはなお一層有利なモデルを形成することを示唆する。したがって、本発明は、siRNAのセンス鎖の逆相補体の配列の塩基組成に基づいてsiRNAを選択する方法も提供する。一実施形態では、生物中の標的遺伝子を、標的遺伝子の転写産物の個別の標的配列でサイレンシングするために設計された複数の異なるsiRNAが、そのセンス鎖の逆相補配列の位置塩基組成に従って順位付けされる。次いで、逆相補体配列の位置塩基組成が所望のsiRNAの位置塩基組成に適合する1以上のsiRNAを選択することができる。siRNAの順位付けが、最初に位置特異的スコア行列を用いて別個の各siRNAについてスコアを決定することによって実施されることが好ましい。次いで、siRNAは前記スコアに従って順位付けされる。節5.1.に記載されるあらゆる方法(前掲)は逆相補配列をスコア付けすることに使用できる。一実施形態では、二本鎖領域中にLヌクレオチドのヌクレオチド配列を有するsiRNAについて(Lは整数である)、位置特異的スコア行列は、第1型のsiRNAの逆相補体と第2型のsiRNAの逆相補体との間の、配列位置kでヌクレオチドG又はCを発見する確率の差異(wkで示される、k=1,…,Lである)を含む。各逆相補体のスコアは式:
Figure 0004790619
に従って算出される。
第1型のsiRNAは、適切な用量(例えば100nM)で第1の閾値(例えば、75%、80%又は90%)以上のサイレンシング効果を有する1以上のsiRNAから構成することができ、第2型のsiRNAは、適切な用量(例えば100nM)で第2の閾値(例えば25%、50%又は75%)未満のサイレンシング効果を有する1以上のsiRNAから構成することができる。好適な実施形態では、確率の差異は、ガウス曲線の和によって記述される(前記ガウス曲線はそれぞれ異なる配列位置でG又はCを発見する確率の差異を表す)。
この発明の方法はまた、siRNA機能的モチーフの発展モデル(例えばPSSM)に、位置特異的スコアリングマトリクスをトレーニングして粗悪なsiRNAとその逆相補体とを区別することによって適用することができる(例えば節5.1.を参照)。この分析の制限は、粗悪なsiRNAの逆相補体が指定の標的を有さない点である。したがって、一実施形態では、19merのsiRNA二本鎖配列の位置特異的スコアリング行列は、粗悪なsiRNAとその逆相補体とを区別するためにトレーニングされる。
フランキング配列のトレーニングは、siRNAの任意の2グループ間を区別する場合のみならず、粗悪なsiRNAとその逆相補体とを区別する場合に、標的外遺伝子で実施することができる。すなわち、siRNAの標的外活性は、オンターゲット活性として同一のフランキング配列要求を有すると仮定することができる。というのも、同一のRNA-タンパク質複合体が両工程に関与すると考えられるからである。
したがって、標的外適用法がsiRNAによって直接的に下流制御される遺伝子を(すなわち、同一の半減期を有する下流制御された遺伝子群を目的の標的として同定するために下流制御の動態解析を介して)同定するために使用される場合、直接的に制御される標的外遺伝子を含むsiRNAのアライメントにフランキングする領域は、フランキング配列要求のモデルをトレーニングしかつ試験することに使用できる。これらのモデルはこの発明の任意の方法(無作為な山登りPSSM、曲線モデルPSSM、良好‐粗悪差異頻度行列、良好‐組成頻度行列、及び/又は粗悪‐組成頻度行列等)によって開発することができる。
5.4. 遺伝子サイレンシングのためのsiRNAを設計する方法
本発明は、遺伝子サイレンシングのためのsiRNAを設計する方法を提供する。この方法は、標的遺伝子中の各標的配列との完全な配列同一性を有するsiRNAを設計するために使用することができる。この方法はまた、標的遺伝子と部分的な配列同一性のみを有するsiRNAを設計するために使用することもできる。標的遺伝子中の標的配列との部分的な配列同一性のみを有するsiRNAを用いて標的遺伝子をサイレンシングするための方法及び組成物は、参照によりその全体を本明細書に組み入れる、Jacksonらによる国際出願第PCT/US2004/015439(出願日2004年5月17日)に開示される。例えば、標的配列の転写産物の配列と同一であるが、転写産物の任意の配列との完全長の同一性を有しない、11〜18ヌクレオチドのセンス鎖連続的ヌクレオチド配列を含むsiRNAは、転写産物のサイレンシングに使用し得る。かかる連続的ヌクレオチド配列はsiRNA分子の中心領域にあることが好ましい。siRNAの中心領域中の連続的ヌクレオチド配列は、3'末端を起点としない、siRNA中のヌクレオチド配列の任意の連続ストレッチであり得る。例えば、11ヌクレオチドの連続的ヌクレオチド配列は、2〜12、3〜13、4〜14、5〜15、6〜16、7〜17、8〜18又は9〜19のヌクレオチド配列であり得る。好適な実施形態では、連続的ヌクレオチド配列は、11〜16、11〜15、14〜15、11、12又は13ヌクレオチドの長さである。あるいは、標的遺伝子の転写産物の配列と同一であるが、転写産物中の任意の連続配列と完全長の同一性を有しない、9〜18ヌクレオチドの3'センス鎖連続ヌクレオチド配列を含むsiRNAも、転写産物をサイレンシングすることに使用し得る。3'の9〜18ヌクレオチドの配列は、最初の塩基対を起点とするヌクレオチドの連続ストレッチである(すなわち、3'突出部の2塩基を含まない)。好適な実施形態では、連続的ヌクレオチド配列は9〜16、9〜15、9〜12、11、10又は9ヌクレオチドの長さである。
好適な実施形態では、節5.1.の方法が、複数のsiRNAの中から高サイレンシング効果を有する1以上のsiRNAを同定するために使用される。一実施形態では、複数のsiRNA中の各siRNAは、塩基組成PSSMによってサイレンシング効果について評価される。一実施形態では、この工程は、各siRNAについて1以上のPSSMスコアを算出することを含む。次いで、複数のsiRNAが前記スコアに基づいて順位付けされ、1以上のsiRNAが節5.1.4.に記載の方法を用いて選択される。
他の好適な実施形態では、節5.2の方法が、複数のsiRNAの中から高サイレンシング効果を有する1以上のsiRNAを同定するために使用される。一実施形態では、各siRNAと複数の非標的転写産物の各配列とのアライメントがpmPSSMアプローチ(節5.2.参照)により同定されかつ評価される。pmScoreは各アライメントについて算出される。所与の閾値を超えるpmScoreは、潜在的な標的外遺伝子として配列を同定する。かかるpmScoreはアライメントスコアとも称される。例えば、FASTAがアライメントに使用される場合、pmScoreは重み付けしたFASTAアライメントスコアであり得る。潜在的な標的外配列を含む転写産物は潜在的な標的外転写産物として同定される。ゲノム中の又はゲノムの一部分中のかかる標的外転写産物の総数は、siRNAのサイレンシング特異性の測度として使用される。その後、標的外転写産物が少ない1以上のsiRNAを選択し得る。
転写産物に対して所望のレベルの効果及び特異性を有するsiRNAは配列多様性についてさらに評価することができる。この開示において、配列多様性は、「配列多様度」又は単に「多様性」若しくは「多様度」と称される。配列多様性は、いくつかの配列特性に基づいて表す又は測定することができる。siRNAは、遺伝子を標的化する複数のsiRNAが、かかる多様性特性の1以上に十分な差異を示すsiRNAを含むように選択することができる。
本発明の方法で使用される配列多様性特性が定量化可能であることが好ましい。例えば、配列多様性は、GC含量、標的転写産物に沿うsiRNA標的配列の位置、又はsiRNA二本鎖の上流の2塩基(すなわち、誘導ダイマー、16個の異なる可能な誘導ダイマーを伴う)に基づいて測定することができる。2つのsiRNAの差異は、配列多様性の測度値間の差異として測定することができる。複数のsiRNAの多様性又は多様度は、複数のsiRNA中の別個のsiRNA間の配列多様性測度における最小差異又は間隔によって定量的に表すことができる。
本発明のsiRNA設計方法において、多様性又は多様度に関するsiRNAの選択工程は、「脱重複」工程とも称される。好適な実施形態では、定量可能な配列特異性の測度のために、脱重複により、所与の閾値を超える2つのsiRNA間で配列多様性測度の差異を有するsiRNAを選択する。例えば、位置による脱重複は、転写産物配列に沿う選択したオリゴ間の最小距離を確立する。一実施形態では、転写産物中で少なくとも100塩基の間隔に位置するsiRNAが選択される。GC含量による脱重複はGC含量における最小差異を確立する。一実施形態では、GC含量における最小差異は1%、2%又は5%である。誘導ダイマーによる脱重複は、選択したsiRNAの間で、16個の可能な誘導ダイマーの全て又は一部の確率を確立する。一実施形態では、16個の可能な各ダイマーに1〜16のスコアが割り付けられ、同等の確率を有する選択された可能な全ての誘導ダイマーに対して0.5が使用される。
一部の実施形態では、候補がGC含量(5%の最小間隔、100の各GC%値の二倍の最大数及び選択された少なくとも200候補)で脱重複されることが好ましく;より好ましくはこれらがGC含量(5%の最小間隔、80の各GC%値の二倍の最大数及び選択された少なくとも200候補)で脱重複され;なお一層好ましくはこれらがGC含量(5%の最小間隔、60の各GC%値の二倍の最大数及び選択された少なくとも200候補)で脱重複される。
siRNAは追加の選択基準に基づいてさらに選択することができる。
一実施形態では、実証された全てのスプライス形態と共通しない配列を標的化するsiRNAが排除される。
別の実施形態では、単純な又は点在した反復要素と重複する配列を標的化するsiRNAが排除される。
さらに別の実施形態では、翻訳開始コドンの下流の少なくとも75塩基に位置する配列を標的化するsiRNAが選択される。
別の実施形態では、終止コドンと重複するか又はその下流の配列を標的化するsiRNAが排除される。これにより立証されていない代替的なポリアデニル化形態には存在しない配列の標的化を回避する。
さらに別の実施形態では、50%に近似するGC含量を有するsiRNAが選択される。一実施形態では、GC<20%及び>70%のsiRNAが排除される。別の実施形態では、10%<GC%<90%、20%<GC%<80%、25%<GC%<75%、30%<GC%<70%が保持される。
さらに別の実施形態では、4つの連続したグアノシン、シトシン、アデニン又はウラシル残基を含む配列を標的化するsiRNAが排除される。さらに別の実施形態では、19merの二本鎖領域中の5'末端の第1の位置にグアニン又はシトシン残基を有する配列を標的化するsiRNAが選択される。かかるsiRNAはRNAポリメラーゼIIIによって効果的に転写される配列を標的化する。
さらに別の実施形態では、1以上の所与の制限エンドヌクレアーゼ(例えばXhoI又はEcoRI制限エンドヌクレアーゼ)の認識部位を含む配列を標的化するsiRNAが排除される。この実施形態は、shRNAベクターの構築のためのsiRNA配列を選択することに使用し得る。
さらに別の実施形態では、siRNAは結合エネルギーについて評価される。結合エネルギーを測定する例示的な方法についてはWO 01/05935を参照されたい。好適な実施形態では、結合エネルギーは隣接する21merのΔGを算出することによって評価される。
さらに別の実施形態では、siRNAは結合特異性について評価される。21merの結合特異性を決定する例示的な方法についてはWO 01/05935を参照されたい。好適な実施形態では、結合特異性は、生物の遺伝子の代表的な固有配列のセット(例えば、Homo sapiens Unigene build 161(http://www. ncbi. nlm. nih. gov/entrez/query. fcgi? db=unigene)の各クラスターを代表する固有配列のセット)に対する21merのミニマックススコアを算出することによって評価される。
さらに別の実施形態では、節5.3に記載されるsiRNAの位置特異的塩基組成に基づいて鎖選好及び/又は効果及び特異性を予測する方法を、siRNA候補を評価することに使用できる。
siRNAを選択することに使用される方法における例示的実施形態のフローチャートは図9に示される。
ステップ101で、転写産物を標的化するsiRNA配列が選択される。一実施形態では、転写産物の全ての19mer部分配列が考慮される。各siRNA配列の適当なフランキング配列も取得されかつ考慮される。siRNAは以下のフィルターに対して評価される:(1)実証された全てのスプライシング型と共通でない配列を標的化するsiRNAの排除;(2)単一の又は散在する反復要素と重複する配列を標的化するsiRNAの排除;(3)翻訳開始コドンの下流の75塩基内に位置する配列を標的化するsiRNAの排除;及び(4)終止コドンに重複するsiRNA又は終止コドンの下流のsiRNAの排除。
shRNA選択のために、以下のステップも行われる:(5)4つの連続したグアノシン、シトシン、アデニン又はウラシル残基を含む配列を標的化するsiRNAの排除;(6)19mer二本鎖領域の5'末端の最初の位置にグアニン又はシトシン残基を有する配列を標的化するsiRNAの保持;及び(7)siRNA配列がshRNAベクターの構築に使用される場合、1以上の所与の制限酵素(例えば、XhoI又はEcoRI制限エンドヌクレアーゼ)の認識部位を含む配列を標的化するsiRNAの排除。
ステップ102で、siRNAは塩基組成PSSMによってサイレンシング効果について評価される。一実施形態では、ステップ102は、siRNAについての第1 PSSMスコア(すなわち、PSSM-1スコア)と第2 PSSMスコア(すなわちPSSM-2スコア)とを算出することを含む。第2スコアは、siRNAの組合せPSSM-1+PSSM-2スコアを算出するために加算される。一実施形態では、使用されるPSSMはその性能が図2に示されるものである。組合せスコアが所与の閾値を超える場合に、siRNAは保持される。
次いで、siRNAは、隣接する21merのΔGを算出することによってその結合エネルギーについて評価される。次いで、siRNAは生物の遺伝子を代表する固有の配列のセット(例えば、Homo sapiens Unigene build 161の各クラスターを代表する固有配列のセット)に対する21merのミニマックススコアを算出することによってその結合特異性について評価される。ΔG及びミニマックススコアを算出する方法についてはWO 01/05935を参照されたい。一実施形態では、ミニマックススコアを計算するために使用されるBLASTアライメント及びBLASTアライメントに基づく隣接ΔG算出のパラメーターは以下の通りである:-p blastn-e 100-F F-W 11-b 200-v 10000-S 3;及びΔG:温度66℃;塩 1M;濃度 lpM ;核酸のタイプ、RNA。一実施形態では、(21merΔG‐21merミニマックス)<0.5である場合にsiRNAが排除される。
ステップ103では、siRNAが総GC含量について選別される。一実施形態では、50%から著しく逸脱するGC含量(例えば、GC%<20%及び>70%)を有するsiRNAが排除される。
ステップ104では、siRNAが多様性又は多様度について選別される。位置は単純に転写産物配列中のオリゴの位置を指し、オリゴを同定することによって自動的に与えられる。多様度はこの方法の1以上の「脱重複」工程で強調される。簡潔に言うと、脱重複は、一部の算出可能なパラメーターにおいて、選択したオリゴ間の閾値を超える間隔について選択する。脱重複のために、オリゴは最初に低い性能と良い性能とを区別すると考えられるいくつかのパラメーターに従って順位付けされ、次いで、他のいくつかのパラメーターに従ってオリゴ間の間隔について選択される。まず最高順位のオリゴが選択される。次いで、順位リストが調査され、選択したオリゴから少なくとも最低限必要な間隔を有する次善オリゴが選択される。この工程は、所望の数のオリゴが選択されるまで続けられる。一実施形態では、複数のオリゴはパラメーターがわずかな値である場合には同一の値を共有することがあり、同一の値を共有するオリゴの数は設定閾値によって制限される。一実施形態では、不十分な数のオリゴが脱重複の第1パスで選択され、間隔要件は、所望数のオリゴ又は残存する利用可能な全てのオリゴのセットが選択されるまで緩和することができる。
例えば、位置による脱重複は転写産物配列に沿う選択したオリゴ間の最小距離を確立する。一実施形態では、siRNAはPSSMによって順位付けされ、転写産物において少なくとも100塩基の間隔で位置する順位付けしたsiRNAが選択される。GC含量による脱重複は、GC含量の最小差異を確立する。一実施形態では、GC含量の最小差異は1%、2%又は5%である。倍化は、19merのGC%等、値がわずかなパラメーターについては許容される。誘導ダイマーによる脱重複は、選択したsiRNA内の可能な16個の誘導ダイマーの全て又は一部の確率を確立する。一部の実施形態では、可能な16個のダイマーにそれぞれ1−16のスコアが割り付けられ、同一の確率を有する選択された可能な全ての誘導ダイマーに対して0.5が使用される(すなわち、可能な全ての誘導ダイマーの値にわたって候補siRNAを分類するため)。
異なるパラメーターによる脱重複を組み合わせてもよい。
ステップ105では、siRNAの標的外活性が節5.2に記載される方法に従って評価される。各siRNAと複数の各非標的転写産物中の配列とのアライメントは、式(6)に従って算出したpmScoreを用いたpmPSSMで同定かつ評価される。所与の閾値を超えるpmScoreは、潜在的な標的外配列として配列を同定する。潜在的な標的外配列を含む転写産物は潜在的な標的外転写産物として同定される。ゲノム又はゲノムの一部分中のかかる標的外転写産物の総数は、siRNAのサイレンシング特異性の測度として使用される。少数の標的外転写産物を含む1以上のsiRNAが選択される。
一実施形態では、遺伝子の転写産物はFASTAを用いて以下のパラメーターで走査される:KTUP 6-r 3/-7-g-6-f-6-d 14000-b 14000-E 7000。pmScoreは節5.2に記載されるように各アライメントについて決定される。FASTA重み付けスコアは(1)候補siRNAと適合する直近配列を定量すること;及び(2)閾値以上の重み付けスコアを有する候補siRNAとの総適合をカウントすることに使用される。次いで、ゲノム又はゲノムの一部分中のかかる標的外遺伝子の総数がsiRNAのサイレンシング特異性の測度として使用される。
好適な実施形態では、選択したsiRNAは多様度についての第2ラウンドの選択に供され(ステップ106)、その塩基組成PSSMスコアによって再度順位付けされる(ステップ107)。所望の数のsiRNAがその最終的な順位付けの最高位から保持される(ステップ108)。
本発明はまた、複数の異なる遺伝子のそれぞれに対する複数のsiRNA(各siRNAはその標的遺伝子のサイレンシングを少なくとも75%、少なくとも80%又は少なくとも90%で達成する)を選択する方法を提供する。上記の方法は、複数の遺伝子のそれぞれに対する複数のsiRNAを選択することに使用される。複数のsiRNAが少なくとも3、5又は10分子のsiRNAから構成されることが好ましい。複数の異なる遺伝子が少なくとも100、500、1000、5000、10000又は30000個の異なる遺伝子から構成されることが好ましい。
本発明はまた、複数の異なる遺伝子のそれぞれに対する複数のsiRNA(各siRNAはその標的遺伝子のサイレンシングを少なくとも75%、少なくとも80%又は少なくとも90%で達成する)を含むsiRNAのライブラリーも提供する。標準的な条件は、100nM siRNAでのサイレンシングであり、トランスフェクション後24時間でTaqMan24によってアッセイされる。複数のsiRNAが少なくとも3、少なくとも5又は少なくとも10分子のsiRNAから構成されることが好ましい。複数の異なる遺伝子が少なくとも10、100、500、1000、5000、10000又は30000個の異なる遺伝子から構成されることが好ましい。
5.5.RNA干渉と細胞アッセイのための方法及び組成物
例えば本発明に記載される方法によって設計したsiRNAを用いた遺伝子サイレンシングを実施するために、遺伝子サイレンシングのためのあらゆる標準的な方法を本発明と組合せて用いることができる(例えばGuoら, 1995, Cell 81: 611-620; Fireら, 1998, Nature 391:806-811 ; Grant, 1999, Cell 96: 303-306; Tabaraら, 1999, Cell 99: 123-132; Zamoreら, 2000, Cell 101 :25-33 ; Bass, 2000, Cell 101 :235-238 ; Petcherskiら, 2000, Nature 405: 364-368; Elbashirら, Nature 411: 494-498; Paddisonら, Proc. Natl. Acad. Sci. USA 99: 1443-1448参照)。一実施形態では、遺伝子サイレンシングは、細胞にダイサー切断の産物を模倣するsiRNAを与えることによって誘導される(例えば、参照によりその全体を本明細書に組み入れるElbashirら, 2001, Nature 411, 494-498; Elbashirら, 2001, Genes Dev. 15,188-200参照)。合成siRNA二本鎖はRISCと会合する能力を維持し、mRNA転写産物のサイレンシングに導く。siRNAは化学的に合成するか、又は組み換えダイサーによる二本鎖RNAの切断から誘導することができる。細胞は当技術分野で公知の標準的な方法を用いてsiRNAでトランスフェクトすることができる。
一実施形態では、siRNAトランスフェクションは以下のように実施される:トランスフェクションの1日前に、DMEM/10%ウシ胎児血清(Invitrogen, Carlsbad, CA)中で約90%コンフルエンシーまで増殖させた100μlの選択細胞(例えば、子宮頸癌HeLa細胞(ATCC, Cat. No. CCL-2))を96ウェル組織培養プレート(Corning, Coming, NY)にウェル当たり500細胞で蒔く。各トランスフェクションにつき、85μlのOptiMEM(Invitrogen)を20μmolのストックに由来する連続希釈された5μlのsiRNA(Dharma on, Denver)と混合する。各トランスフェクションにつき、5μlのOptiMEMを5μlのOligofectamine試薬(Invitrogen)と混合し、室温で5分間インキュベートする。10μlのOptiMEM/オリゴフェクタミン混合液をOptiMEM/siRNA混合液を含む各チューブに分配し、混合し、そして室温で15〜20分インキュベートする。10μlのトランスフェクション混合液を96ウェルプレートの各ウェルに等分し、4時間インキュベートする(37℃、5% CO2)。
一実施形態では、RNA干渉はsiRNAのプールを用いて実施される。好適な実施形態では、異なる配列領域で標的遺伝子を標的化する少なくともk(k=2、3、4、5、6又は10)個の異なるsiRNAを含むsiRNAプールが細胞のトランスフェクトに使用される。別の好適実施形態では、2以上の異なる標的遺伝子を標的化する少なくともk(k=2、3、4、5、6又は10)個の異なるsiRNAを含むsiRNAプールが細胞のスーパートランスフェクト(supertransfect)に使用される。好適な実施形態では、このプールの総siRNA濃度は、個別に使用される際の単一のsiRNAの濃度とほぼ同じである(例えば100nM)。siRNAのプールの総濃度は、目的の標的遺伝子をサイレンシングするのに最適な濃度であることが好ましい。最適な濃度は、更なる濃度の増加が実質的にサイレンシングのレベルを増加しない濃度である。一実施形態では、最適な濃度は、更なる濃度の増加がサイレンシングのレベルを5%、10%又は20%以上増加しない濃度である。好適な実施形態では、プールの組成(プール中の異なるsiRNAの数及び異なる各siRNAの濃度を含む)は、siRNAのプールが、任意の標的外遺伝子のサイレンシングを30%、20%、10%若しくは5%未満で、1%、0.1%又は0.01%で引き起こすように選択される。別の好適な実施形態では、異なるsiRNAのプール中の異なる各siRNAの濃度はほぼ同じである。さらに別の好適な実施形態では、プール中の異なるsiRNAの各濃度は、5%、10%、20%又は50%未満で互いに異なる。さらに別の好適な実施形態では、異なるsiRNAのプール中の少なくとも1つのsiRNAは、プール中の総siRNA濃度の90%、80%、70%、50%又は20%以上を構成する。さらに別の好適な実施形態では、異なるsiRNAのプール中のsiRNAがプール中の総siRNA濃度の90%、80%、70%、50%又は20%以上を構成することはない。他の実施形態では、プール中の各siRNAは、個々に使用される際の最適な濃度より低い濃度を有する。好適な実施形態では、プール中の異なる各siRNAは、他のsiRNAの不在下で又は遺伝子をサイレンシングするために設計された他のsiRNAの不在下で使用される際に、少なくとも30%
、50%、75%、80%、85%、90%又は95%のサイレンシングを達成するのに効果的なsiRNAの濃度より低い濃度を有する。別の好適な実施形態では、プール中の異なる各siRNAは、他のsiRNAの不在下で又は遺伝子をサイレンシングするために設計された他のsiRNAの不在下で使用される際に、30%、20%、10%又は5%未満の遺伝子サイレンシングを引き起こす濃度を有する。好適な実施形態では、各siRNAは単独で使用される際に30%、20%、10%又は5%未満の標的遺伝子のサイレンシングを引き起こすが、複数のsiRNAが標的遺伝子の少なくとも80%又は90%のサイレンシングを引き起こす濃度である。
遺伝子サイレンシングのための別の方法は、細胞に、細胞中でsiRNAにプロセシングされるshRNA(ショートヘアピンRNA)を導入することである(例えばPaddisonら, 2002, Genes Dev. 16,948-958 ; Brummelkampら, 2002, Science 296,550-553 ; Sui, Gら. 2002, Proc. Natl. Acad. Sci. USA 99, 5515-5520、これらは全て参照によりその全体を本明細書に組み入れる)。この方法では、所望のsiRNA配列が、介在ループ状配列を含む逆方向反復としてプラスミド(又はウイルス)から発現され、ヘアピン構造を形成する。その後、生じたヘアピン構造を含むRNA転写産物がダイサーによりプロセシングされてサイレンシング用のsiRNAが産生される。プラスミドベースのshRNAは細胞中で安定的に発現することができ、in vitro及びin vivoのいずれにおいても細胞(例えば動物)中で長期遺伝子サイレンシングを可能にする(McCaffreyら. 2002, Nature 418, 38-39 ; Xiaら, 2002, Nat. Biotech. 20, 1006-1010 ; Lewisら, 2002, Nat. Genetics 32, 107-108 ; Rubinsonら, 2003, Nat. Genetics 33, 401-406;Tiscorniaら, 2003, Proc. Natl. Acad. Sci. USA 100, 1844-1848、これらは全て参照によりその全体を本明細書に組み入れる)。したがって、一実施形態では、プラスミドベースのshRNAが使用される。
好適な実施形態では、shRNAは、導入された組み換えベクター(一過的に又は安定的にゲノム内に組み込まれる)から発現される(例えばPaddisonら, 2002, Genes Dev 16: 948-958; Suiら, 2002, Proc Natl Acad Sci U S A 99: 5515-5520; Yuら, 2002,Proc Natl Acad Sci U S A 99: 6047-6052; Miyagishiら, 2002, Nat Biotechnol 20: 497-500; Paulら, 2002, Nat Biotechnol 20 : 505-508; Kwakら, 2003, J Pharmacol Sci 93: 214-217; Brummelkampら, 2002, Science 296: 550-553; Bodenら, 2003, Nucleic Acids Res 31: 5033-5038; Kawasakiら, 2003, Nucleic Acids Res 31: 700-707)。標的遺伝子を破壊するsiRNAは、shRNAをコードする任意の適切なベクターによって(shRNAを介して)発現することができる。ベクターはまた、ベクター又はその効果的部分がshRNAが発現されるように宿主ゲノム中に組み込まれているクローンを選択するために使用することができる。当技術分野で公知のあらゆる標準的な方法が、細胞にベクターを送達することに使用できる。一実施形態では、shRNAを発現する細胞は、適切な細胞をベクターを含むプラスミドでトランスフェクトすることによって作製される。次いで、細胞は適切なマーカーによって選択することができる。次いでクローンは取り上げられ、ノックダウンについて試験される。好適な実施形態では、siRNAの発現レベルが所与の値を上回ることができるように、複数の組換えベクターがゲノム内に導入される。かかる実施形態は、その転写レベルが細胞中で低い遺伝子をサイレンシングするのに特に有用である。
好適な実施形態では、shRNAはその標的遺伝子のサイレンシングを所望な時に開始し得る誘導性プロモーターの制御下で発現される。siRNAの誘導性発現は不可欠な遺伝子の標的化に特に有用である。一実施形態では、shRNAは標的遺伝子のサイレンシングレベルの切り替えを可能にする調節型プロモーターの制御下で発現される。これは、標的遺伝子が部分的にノックアウトされている細胞に抗う選択を可能にする。本明細書で使用される「調節型プロモーター」は、適当な誘発剤が存在する際に活性化し得るプロモーターを指す。「誘発剤」は、調節型プロモーターを活性化することによって転写を活性化することに使用できる任意の分子であり得る。誘発剤は、これに限定されるものではないが、ペプチド若しくはポリペプチド、ホルモン又は有機小分子であり得る。誘発剤のアナログ(すなわち誘発剤のように調節型プロモーターを活性化する分子)も使用することができる。異なるアナログによって誘導される調節型プロモーターの活性レベルは異なってもよく、その結果、調節型プロモーターの活性レベルを切り替える際によりフレキシブルであることができる。ベクター中の調節型ベクターは、当技術分野で公知のあらゆる哺乳動物転写制御系であり得る(Gossenら, 1995, Science 268: 1766-1769; Lucasら, 1992, Annu. Rev. Biochem. 61: 1131; Liら, 1996, Cell 85: 319-329; Saezら, 2000, Proc. Natl. Acad. Sci. USA 97: 14512-14517;及びPollockら, 2000, Proc. Natl. Acad. Sci. USA 97: 13221-13226)。好適な実施形態では、調節型プロモーターは用量及び/又はアナログ依存的な様式で調節される。一実施形態では、調節型プロモーターの活性レベルは、調節型プロモーターが反応する誘発剤の濃度を調整することを含む方法によって、所望レベルに切り替えられる。特定の濃度の誘発剤を適用することによって取得された調節型プロモーターの所望レベルの活性は、標的遺伝子の所望のサイレンシングレベルに基づいて決定することができる。
一実施形態では、テトラサイクリン調節型遺伝子発現系が使用される(例えばGossenら, 1995, Science 268: 1766-1769; 米国特許第6,004, 941号参照)。tet調節型の系は、真核細胞における遺伝子発現を調節するために、原核生物のtetレセプター/オペレーター/インデューサー系の成分を利用する。したがって、本発明は1以上のtetオペレーター配列と結合したshRNAの発現を調節するためのtet調節系の使用方法を提供する。この方法は、転写を活性化する融合タンパク質をコードするベクターを細胞に導入することを含む。融合タンパク質は、細胞中で転写を活性化する第2ポリペプチドと機能的に連結したテトラサイクリン又はテトラサイクリンアナログの存在下でtetオペレーター配列に結合する第1ポリペプチドを含む。テトラサイクリン又はテトラサイクリンアナログの濃度をモジュレートすることによって、tetオペレーター結合型shRNAの発現が調節される。
他の実施形態では、エクジソン調節型遺伝子発現系(例えばSaezら, 2000, Proc. Natl. Acad. Sci. USA 97: 14512-14517参照)又はMMTVグルココルチコイド応答因子調節型遺伝子発現系(例えばLucasら, 1992, Annu. Rev. Biochem. 61:1131参照)をshRNAの発現を調節することに使用し得る。
一実施形態では、ピューロマイシン耐性マーカーをコードしかつH1(RNA Pol III)からのshRNA発現を駆動するpRETRO-SUPER(pRS)ベクターが使用される。pRS-shRNAプラスミドは当技術分野で公知のあらゆる標準的な方法によって作製することができる。一実施形態では、pRS-shRNAは、細菌を選択した遺伝子に対するライブラリープラスミドプール(library plasmid pool)で形質転換し、目的のプラスミドのみを含むクローンを探索することによって、該ライブラリーからコンピュータ解析(deconvoluted)される。19mer siRNA配列が配列特異的なPCRに適当な正方向及び逆方向プライマーと共に使用されることが好ましい。プラスミドは配列特異的なPCRによって同定され、配列決定によって確認される。shRNAを発現する細胞は、適当な細胞をpRS-shRNAプラスミドでトランスフェクトすることによって作製される。細胞は適当なマーカー(例えば、ピューロマイシン)によって選択され、コロニーが明らかになるまで維持される。次いで、クローンが取り上げられ、ノックダウンについて試験される。別の実施形態では、shRNAはプラスミド(例えばpRS-shRNA)によって発現される。pRS-shRNAプラスミドによるノックダウンは、Lipofectamine 2000(Invitrogen)を用いて細胞をトランスフェクトすることによって達成することができる。
さらに別の方法では、siRNAは動物(ヒト等)の器官又は組織にin vivoで送達することができる(例えばSongら. 2003, Nat. Medicine 9,347-351 ; Sorensenら, 2003,J. Mol. Biol. 327,761-766 ; Lewisら, 2002, Nat. Genetics 32,107-108を参照、これらは全て参照によりその全体を本明細書に組み入れる)。この方法では、siRNAの溶液が動物に静脈内注射される。その後、siRNAは目的の器官又は組織に到達することができ、動物の器官又は組織中の標的遺伝子の発現を効果的に低減する。
siRNAは遺伝子療法アプローチを用いて器官又は組織に送達することもできる。当技術分野で利用可能な遺伝子療法のためのあらゆる方法がsiRNAの送達に使用できる。遺伝子療法の方法の一般評論については、Goldspielら, 1993, Clinical Pharmacy 12: 488-505; Wu及びWu, 1991, Biotherapy 3: 87-95;Tolstoshev, 1993, Ann. Rev. Pharmacol. Toxicol. 32: 573-596; Mulligan, 1993, Science 260: 926-932;並びにMorgan及びAnderson, 1993, Ann. Rev. Biochem. 62: 191-217; May, 1993, TIBTECH 11 (5): 155-215を参照されたい。好適な実施形態では、治療には発現ベクターの一部としてsiRNAをコードする核酸が含まれる。特に、かかる核酸は、siRNAコード領域と機能的に連結したプロモーターであって、誘導性又は構成性の、及び場合により組織特異的な上記プロモーターを有する。他の特定の実施形態では、siRNAコード配列がゲノム中の所望部位で相同的組換えを促進する領域にフランキングする核酸分子が使用される(Koller及びSmithies, 1989, Proc. Natl. Acad. Sci. U.S.A. 86 :8932-8935 ; Zijlstraら, 1989, Nature 342: 435-438)。
特定の実施形態では、核酸はin vivoで直接投与される。これは当技術分野で公知の非常に多くの方法、例えば核酸を適切な核酸発現ベクターの一部として構築すること、及び細胞内に生じるようにこれを投与すること(例えば不完全な又は弱毒化したレトロウイルスベクター若しくは他のウイルスベクター(米国特許第4,980,286号参照)を用いた感染)、又は裸のDNAの直接的な注射、又は微粒子衝突(例えば、遺伝子銃;Biolistic, Dupont)、又は脂質若しくは細胞表面レセプター若しくはトランスフェクト試薬によるコーティング、リポソームのカプセル化、微粒子若しくはマイクロカプセル、又は核酸に移入することが知られるペプチドと結合した核酸を投与すること、又は(レセプターを特異的に発現する細胞型を標的化することに使用することができる)レセプター仲介エンドサイトーシスをし易いリガンドと結合した核酸を投与すること(例えば, Wu及びWu, 1987, J. Biol. Chem. 262: 4429-4432を参照)等によって行うことができる。別の実施形態では、リガンドがエンドソームを破壊する融合ウイルスペプチドを含む、核酸-リガンド複合体を形成することができ、核酸にリソソーム分解を回避させる。さらに別の実施形態では、核酸は細胞特異的な取り込み及び発現のために、特定のレセプターを標的化することによってin vivoで標的化することができる(例えば, PCT公開WO 92/06180(1992年4月16日付、Wuら); WO 92/22635(1992年12月23日付、Wilsonら);W0 92/20316(1992年11月26日付、Findeisら);W0 93/14188(1993年7月22日付、Clarkeら)、WO 93/20221(1993年10月14日付、Young))。あるいは、核酸は、相同的組み換えによって、発現のために細胞内に導入し、宿主細胞DNA内に組み込むことができる(Koller及びSmithies, 1989, Proc. Natl. Acad. Sci. U.S.A. 86: 8932-8935; Zijlstraら, 1989, Nature 342: 435-438)。
特定の実施形態では、siRNAコード核酸を含むウイルスベクターが使用される。例えば、レトロウイルスベクターを使用することができる(Millerら, 1993, Meth. Enzymol. 217: 581-599参照)。これらのレトロウイルスベクターは、ウイルスゲノムのパッケージング及び宿主細胞DNAへの組込みに必要ではないレトロウイルス配列を欠くように改変されている。遺伝子療法に使用されるべきsiRNAコード核酸は、患者への遺伝子の送達を促進するベクター中にクローニングされる。より詳細なレトロウイルスベクターについては、化学療法により耐性である幹細胞を作製するためにmdr1遺伝子を造血幹細胞に送達するレトロウイルスベクターの使用を記載する、Boesenら, 1994, Biotherapy 6: 291-302で見出すことができる。遺伝子療法におけるレトロウイルスベクターの使用を例証する他の参考文献はClowesら, 1994, J. Clin. Invest. 93:644-651 ; Kiemら, 1994, Blood 83: 1467-1473; Salmons及びGunzberg, 1993, Human Gene Therapy 4: 129-141;並びにGrossman及びWilson, 1993, Curr. Opin. Genet. and Devel. 3: 110-114である。
アデノウイルスは遺伝子療法に使用することができる他のウイルスベクターである。アデノウイルスは呼吸上皮への遺伝子の送達に特に興味深いビヒクルである。アデノウイルスはこれらが軽い病態を引き起こす呼吸上皮に自然感染する。アデノウイルスベースの送達系の他の標的は、肝臓、中枢神経系、内皮細胞及び筋肉である。アデノウイルスは非分裂細胞に感染することが可能であるという利点を有する。Kozarsky及びWison(1993, Current Opinion in Genetics and Development 3: 499-503)はアデノウイルスベースの遺伝子療法の総説を提供する。Boutら(1994, Human Gene Therapy 5: 3-10)は、アカゲザルの呼吸上皮に遺伝子を送るためのアデノウイルスベクターの使用を証明した。遺伝子療法におけるアデノウイルスの使用の他の例は、Rosenfeldら, 1991, Science 252: 431-434; Rosenfeldら, 1992, Cell 68: 143-155;及びMastrangeliら, 1993, J. Clin. Invest. 91: 225-234中で見出すことができる。アデノ関連ウイルス(AAV)も遺伝子療法において使用し得る(Walshら, 1993, Proc. Soc. Exp. Biol. Med. 204: 289-300)。
サイレンシングの程度は当技術分野で知られる任意の標準的なRNA又はタンパク質定量法を用いて測定することができる。例えば、RNAの定量はリアルタイムPCR(例えばAP Biosystems TaqMan pre-developed assay reagent(No. 4319442)を用いる)を用いて実施することができる。適切な遺伝子に対するプライマープローブを当技術分野で知られる任意の標準的な方法を用いて(例えばPrimer Expressソフトウェアを用いて)設計することができる。RNA値はアクチンのRNA(No. 432315)に標準化される。タンパク質レベルは、適切な抗体及び標識した二次抗体による染色後に、フローサイトメトリーによって定量することができる。タンパク質レベルはまた、適当なモノクローナル抗体による細胞溶解物のウエスタンブロットに続く化学発光免疫ブロットによって定量することもできる。タンパク質レベルもアクチンレベルに標準化することができる。
細胞に対する遺伝子サイレンシングの影響は既知の任意のアッセイによって評価することができる。例えば、細胞増殖を当技術分野で知られる適切な任意の増殖又は増殖阻害アッセイを用いてアッセイすることができる。好適な実施形態では、細胞の増殖を阻害する際の1以上の作用物質の影響をアッセイするために、MTT増殖アッセイ(例えば, van de Loosdrechetら, 1994, J. Immunol. Methods 174: 311-320; Ohnoら, 1991, J. Immunol. Methods 145: 199-203; Ferrariら, 1990, J. Immunol. Methods 131: 165-172; Alleyら, 1988, Cancer Res. 48: 589-601; Carmichaelら, 1987, Cancer Res. 47: 936-942; Gerlierら, 1986, J. Immunol. Methods 65: 55-63; Mosmann, 1983, J. Immunological Methods 65: 55-63)が使用される。細胞は、選択した期間(例えば4〜72時間)、選択した濃度の1以上の候補作用物質で処理される。次いで、細胞は、生育可能な細胞がMTTを不溶性ホルマザンの細胞内沈殿物に変換するように、適当な量の3-(4,5-ジメチルチアゾール-2-イル)-2,5-ジフェニルテトラゾリウムブロマイド(MTT)と共に選択した期間(例えば1〜8時間)インキュベートされる。上清に含まれる過剰なMTTを除去した後、適当なMTT溶剤(例えばDMSO溶液)がホルマザンを溶解するために添加される。次いで、生育可能な細胞数に比例するMTTの濃度が、例えば570nmで、光学密度を測定することによって測定される。複数の異なる濃度の候補作用物質は、50%阻害を生じる候補作用物質又は作用物質の濃度の決定を可能にすべくアッセイすることができる。
別の好適な実施形態では、細胞の増殖を阻害するために使用することができる1以上の候補作用物質を選別するために、細胞増殖のためのalamarBlueTMアッセイが使用される(例えば, Pageら, 1993, Int. J. Oncol. 3: 473-476参照)。alamarBlueTMアッセイは細胞呼吸を測定し、これを生存細胞数の測定値として用いる。増殖性細胞の内部環境は非増殖性細胞のものよりも還元される。例えば、NADPH/NADP、FADH/FAD、FMNH/FMN及びNADH/NAFの比率は増殖中に増加する。alamarBlueはこれらの代謝中間体によって還元され得、その結果、細胞増殖をモニターすることに使用できる。alamarBlueによって測定される処理サンプルの細胞数は、未処理の対照サンプルのものとの相対的な割合で表現することができる。alarmBlue還元は、吸光測定法又は蛍光分光法のいずれかで測定することができる。一実施形態では、alamarBlue還元は吸光度によって測定され、下記の式:
Figure 0004790619
[ここで、λ1=570 nm、
λ2=600 nm、
redλ1)=155,677(570nmでの、還元型alamarBlueのモル吸光計数)
redλ2)=14,652(600nmでの、還元型alamarBlueのモル吸光計数)
oxλ1)=80,586(570nmでの、酸化alamarBlueのモル吸光計数)
oxλ2)=117,216(600nmでの、酸化alamarBlueのモル吸光計数)
(Aλ1)=570nmでの、試験ウェルの吸光度
(Aλ2)=600nmでの、試験ウェルの吸光度
(A'λ1)=培地+alamarBlueを含むが細胞に添加されていないネガティブコントロールウェルの570nmでの吸光度
(A'λ2)=培地+alamarBlueを含むが細胞に添加されていないネガティブコントロールウェルの600nmでの吸光度
細胞を含まないウェルの還元%は、バックグラウンドを超える還元%を測定するために、サンプルを含むェルの還元%から差し引いた]
を用いて還元された割合が算出される。
細胞周期分析は当技術分野で公知の標準的な方法を用いて実施することができる。一実施形態では、各ウェルからの上清がトリプシン処理によって回収されている細胞と混合される。次いで、混合液は適当な測度で遠心分離される。その後細胞は、例えば氷冷した70%エタノールで、適当な時間で(例えば約30分)固定される。固定した細胞はPBSで1回洗浄し、例えばヨウ化プロピジウム(10μg/ml)及びRNアーゼ(1mg/ml)を含む0.5mlのPBS中で、再懸濁し、そして適当な温度(例えば37℃)で、適当な時間(例えば30分)インキュベートすることができる。次いで、フローサイトメトリー分析がフローサイトメーターを用いて実施される。一実施形態では、G1細胞集団が細胞死の測度として使用される。例えば、作用物質で処理された細胞由来のG1集団が作用物質で処理されていないサンプルのG1集団よりも多い場合に、細胞は作用物質に感作されていると言われる。
5.6.実施系及び方法
本発明の分析方法は、以下のプログラム及び方法に従って、コンピューター・システム(この説に記載されるコンピューター・システム等)を用いて実施することができるのが好ましい。かかるコンピューター・システムはまた、本発明の分析方法を用いて実施されるコンピューター・システムによって使用することができる、様々な実験で得た測定シグナルを蓄積しかつ操作できることが好ましい。したがって、かかるコンピューター・システムも本発明の一部であると考慮される。
本発明の分析方法の実施に適切な例示的コンピューター・システムが図12に図示される。コンピューター・システム1021はここで内部コンポーネントを含みかつ外部コンポーネントと連結されているものとして図示される。このコンピューター・システムの内部コンポーネントは、主記憶装置1203と相互連結した1以上のプロセッサ要素を含む。例えば、コンピューター・システム1201は2GHZ又はそれ以上のクロック測度のIntel Pentium IV(登録商標)ベースの処理装置であり、256MB以上の主記憶装置を有し得る。好適な実施形態では、コンピューター・システム1201は、1つのヘッド「ノード」及び8つのシブリング「ノード」を含む(各ノードは中央演算処理装置(「CPU」)を有する)、複数のコンピューターのクラスターである。さらに、クラスターはヘッド・ノードに少なくとも128MBのランダム・アクセス・メモリ(RAM)及び8つの各シブリング・ノードに少なくとも256MBのRAMも有する。したがって、本発明のコンピューター・システムは、単一の記憶ユニット又は単一の処理ユニットから構成されるものに限定されない。
外部コンポーネントは大容量記憶装置1204を含むことができる。この大容量記憶装置は、典型的には処理装置と記憶装置と共にパッケージングされる1以上のハードディスクであり得る。そのようなハードディスクは典型的には10GB又はそれ以上の記憶容量であり、少なくとも40GBの記憶容量を有することがより好ましい。例えば、上述される好適な実施形態では、本発明のコンピューター・システムがいくつかのノードを含み、各ノードが固有のハード・ドライブを有する。ヘッド・ノードが少なくとも10GBの記憶容量をのハード・ドライブを有することが好ましいが、各シブリング・ノードが少なくとも40GBの記憶容量のハード・ドライブを有することが好ましい。本発明のコンピューター・システムは別の大容量記憶ユニット(例えば、1以上のフロッピー・ドライブ、もう1つのCD-ROMドライブ、1以上のDVDドライブ又は1以上のDATドライブを含む)をさらに含むことができる。
他の外部コンポーネントは、典型的にはユーザー・インターフェースデバイス1025を含み、これは最も代表的にはモニターと、図形入力装置(「マウス」等)を伴うキーボードである。コンピューター・システムは他のコンピューター・システム及び/又は広域ネットワーク(「WAN」)(インターネット等)の一部に対するローカル・エリア・ネットワーク(「LAN」)の一部であり得、典型的には、ネットワーク接続部1207と連結されて、他のリモート・コンピューターと接続される。例えば、コンピューター・システムが複数のノードを含む上述の好適な実施形態では、コンピューター・システムのノードが互いに通信するために、及び場合によりネットワークによって他のコンピューター・システムと連絡するために、ネットワーク(好ましくはNFSネットワーク)と接続され、その結果、互いにデータ及び処理作業を共有することができるのが好ましい。
図12に概略的に示されるいくつかのソフトウェアが、上記コンピューター・システムの操作中にメモリーに読み込まれる。ソフトウェア・コンポーネントには、当技術分野で標準的なソフトウェア・コンポーネントと、本発明に特有のコンポーネントの両方が含まれる。これらのソフトウェア・コンポーネントは典型的にはハード・ドライブ1204などの大容量記憶装置に蓄積されるが、他のコンピュータ読取り可能な媒体(さらに、例えば1以上のフロッピー・ディスク、1以上のCD-ROM、1以上のDVD又は1以上のDAT)には蓄積できない。ソフトウェア・コンポーネント1210は、コンピューター・システムとそのネットワークの相互接続とを管理することに関与するオペレーティング・システムを示す。オペレーティング・システムは、例えばMicrosoft WindowsTMのファミリー(Windows 95、Windows 98、Windows NT、Windows 2000又はWindows XP等)であり得る。あるいは、オペレーティング・ソフトウェアはMacintoshオペレーティング・システム、UNIXオペレーティング・システム又はLINUXオペレーティング・システムであり得る。ソフトウェア・コンポーネント1211は、共通言語及び機能を含み、これらが本発明に特有の方法を実行するプログラムを補助するためにこのシステム中に存在することが好ましい。本発明の分析方法をプログラム化するために使用できる言語には、例えばC及びC++、FORTRAN、PERL、HTML、JAVA、並びにUNIX又はLINUXシェル・コマンド言語のいずれか(Cシェル・スクリプト言語等)が含まれる。本発明の方法は、式の記号入力及び処理の高レベル規定(specification)を可能にする数学ソフトウェアパッケージ中でプログラム化又はモデル化され、使用されるべき特定のアルゴリズムを含むことで、個々の式及びアルゴリズムを手続き型に(procedurally)プログラム化することが必要なユーザーに開放する。そのようなパッケージには、例えばMathworksのMatlab(Natick, MA)、Wolfram ResearchのMathematica(Champaign, IL)又はMathSoftのS-Plus(Seattle, WA)が含まれる。
ソフトウェア・コンポーネント1212は、好ましくは手続き型言語又は記号型パッケージでプログラム化された、上述される本発明の任意の分析方法を含む。例えば、ソフトウェア・コンポーネント1212が、処理装置に複数の測定シグナルを収受する工程及び測定シグナルを記憶装置に蓄積する工程を実行させるプログラムを含むことが好ましい。例えば、コンピューター・システムはユーザーによって(例えばユーザー・インターフェースによって)手動で入力される測定シグナルを収受することができる。しかし、プログラムがコンピューター・システムにデーターベースから測定シグナルを検索させることがより好ましい。そのようなデータベースは大容量記憶装置(例えば、ハード・ドライブ)若しくは他のコンピューター読取り可能な媒体に蓄積させ、コンピューターのメモリーにロードすることができるか、又はその一覧はネットワーク1207を利用するコンピューター・システムによってアクセスし得る。
本明細書に記載される例示的なプログラム構造及びコンピューター・システムに加えて、他の代替的なプログラム構造及びコンピューター・システムが当業者に容易に明らかであろう。したがって、上述のコンピューター・システム及びプログラム構造から精神又は範囲を逸脱しないそのような代替的なシステムも、添付の特許請求の範囲の範囲内であることが意図される。
6.実施例
以下の実施例は本発明を説明するために提供され、いかなる場合も本発明を限定することを意図しない。
6.1 実施例1:高サイレンシング効果のsiRNAの設計
700種を超える遺伝子を標的化するsiRNAのライブラリーを構築した。このライブラリー中のsiRNAは、科学文献から利用可能な制限的な設計原理(Elbashirら, 2001, Nature 411: 494-8)及び節5.2に記載される配列同一性のスコア付けによって標的外効果を予測する方法の組合せに基づく、「標準的な」アプローチの使用によって設計した。377個のsiRNAのセットを、Taqman分析によって、それぞれの標的遺伝子をサイレンシングする能力について試験した。377個のsiRNAのセットは表IIに列挙される。表IIは377個のsiRNAについて以下の情報を列挙する:siRNAのID番号、標的遺伝子の登録番号、標的配列の開始位置、標的配列、サイレンシング%、Set1に属するセット(すなわち、トレーニング又は試験)、Set2に属するセット、及び配列番号。この試験の結果は、ほとんどのsiRNAはその標的遺伝子のサイレンシングに成功したことを示したが(中央値サイレンシング、約75%)、個々のsiRNAは依然として広範囲のサイレンシング能を示した。良好な(又は弱い)サイレンシング能力は任意の位置における特定の塩基、総GC含量、標的転写産物内のsiRNA配列の位置又は標的転写産物の選択的スプライシングのいずれとも一貫して関連しなかった。
標的遺伝子のサイレンシングと、siRNA及び標的配列の塩基組成、熱力学並びに二次構造との間の潜在的な関係は識別子アプローチを用いて調査した。siRNAを、中央値サイレンシング能未満のもの(「粗悪な」siRNA)と中央値サイレンシング能以上のもの(「良好な」siRNA)を含む群に分割した。多くの行列を良好なsiRNAと粗悪なsiRNAとを区別する能力について評価した(19merのsiRNA二本鎖配列及びそのフランキング標的領域のウインドウにおける塩基組成、様々なプログラムによる二次構造予測及び熱力学性質を含む)。これらの試験は、siRNA効果は、siRNA及び標的遺伝子の塩基組成と十分に相関するが、二次構造予測及び熱力学性質との相関は不十分に相関することを明らかにした。特に、良好なsiRNAのGC含量は位置特異的な様式で粗悪なsiRNAのものと実質的に異なった(図1〜3)。例えば、良好なsiRNA二本鎖は特定の配列との会合が観察されなかったが、5'末端がGCに富み、3'末端がGCに乏しいという傾向があった。このデータは、良好なsiRNA二本鎖が、その3'末端がGCに乏しいことによってアンチセンス鎖の優先的な相互作用を促進し、その5'末端がGCに富むことによってセンス鎖の相互作用を阻止することを示す。このデータは、位置特異的な配列優先がsiRNA標的配列の境界を越えて隣接する配列にまで及ぶことをさらに立証する。これは、RNAサイレンシング中にsiRNA二本鎖の巻き戻し以外の工程が位置特異的塩基組成優先により影響を受けていることを示唆する。
図1と2に示される良好なsiRNAと粗悪なsiRNAとの間のGC含量差異を用いて、良好なsiRNAを選択する方法を開発した。最良の結果は位置特異的スコアリング行列(PSSM)アプローチによって得た。PSSMは、siRNA二本鎖の先端上流の10塩基から末端下流の10塩基にわたる標的遺伝子配列のセンス鎖の全ての位置での、GC、A又はUについての重みを提供する。siRNA効果のデータを2つのセットに分割した(一つはトレーニングに使用され、他方は独立の試験に使用される)。ランダム突然変異山登り検索アルゴリズムを用いて、PSSMの各位値における各塩基の重みを同時に最適化した。最適化の基準は、siRNAの標的サイレンシングとそのPSSMスコアとの相関係数であった。トレーニングデータセットに対する複回の最適化ランを平均化して各PSSMを完成させた。次いで、各PSSMをsiRNAの独立(試験)セットで試験した。これらのトレーニング及び試験データセットに対する2つのPSSMの性能は図2で立証される。
siRNAの設計方法は位置特異的スコア行列(PSSM)に基づいて開発した。スコア付け計画がsiRNAオリゴの効果を予測するために使用される。このスコアは下記の式:
Figure 0004790619
[ここで、Piは任意の塩基のランダムな確率(すなわち0.25)に等しく、Eiは位置iで塩基A、U、G又はCに割り付けられた重みである]
の通りに計算された39塩基(19merの上流の10塩基、siRNAプロパーの19塩基、及び下流の10塩基)の加重和である。したがって、割り付け及び最適化に合計117の重みが必要である(39の位置で3つの塩基型−G又はC、A、U)。
ランダム突然変異山登り(RMHC)検索アルゴリズムを利用して、トレーニングオリゴセットに基づく重みを最適化して、生じたプロファイルを基準(オリゴのノックダウン(KD)レベルと計算したPSSNスコアとの間の相関係数である)を最適化して試験セットに適用した。トレーニング及び試験の効果を測定する測度は、ROC曲線に基づく合計過誤検出率(FDR)であり、トレーニングした予測値から生じたスコアで分類した上位33%のオリゴのFDRスコアの平均として計算される。FDRスコアを計算する際に、中央値未満のサイレンシングレベルを有するオリゴは過誤であると考慮され、中央値サイレンシングレベル以上のものは真であると考慮される。
異なる基準を用いて既存のsiRNA性能のデータをトレーニングセット及び試験セットに分割した。理想的な分配に対する最大の障害は、圧倒的多数のsiRNAオリゴは、19merオリゴ配列の直前にAAダイマーが必要である標準的な方法で設計される点である。この制限は設計プロセスに有用というよりむしろ不利益であることが後に判り、廃止した。トレーニング手順に対するこの影響を制限するために、様々な分配を用いて、(単一の予測値というよりむしろ)トレーニングした2以上の予測値、すなわちPSSMを組合せて試験オリゴにスコアを割り付けた。
最終的に、最先端のsiRNAオリゴ設計手順(「パイプライン」とも称される)を設計した。これは異なるデータセットでトレーニングしかつ試験したsiRNAオリゴの効果予測値の2つのアンサンブル及び標的外予測手順を組み込む。合計30個のsiRNAオリゴ(5つの遺伝子のそれぞれにつき6オリゴ)を選択し、試験した。結果は、既に存在する任意のパイプラインよりも有意に優れていた。
最初のトレーニング結果及び試験結果は、PSSMがsiRNAオリゴのオンターゲット効果を予測する際に非常に効果的であることを示した。典型的には、トレーニングについての合計FDRスコアは0.02〜0.08であり、試験についての合計FDRスコアは0.05〜0.10である。参照として、ランダムな予測は、0.17の平均合計FDRを有する(標準偏差は0.02である(データはランダムに生じた1000個の予測値で計算した))。図3は、約200個のランダムに最適化した予測値のアンサンブルから作成される典型的なROC曲線を図示する。トレーニングの性能は試験セットよりも優れていることが理解でき、これは全く驚きではない。いずれの曲線もランダムよりも有意に優れている。
図5は、数種の異なるオリゴセットのトレーニング及び試験から生じた配列プロファイルを図示する。このプロファイルは、G又はC塩基は、19mer配列の先頭(すなわち5'末端)で非常に好ましく、かつ末端(すなわち3'末端)では非常に好ましくないことを説明する。この所見を確認するために、先頭及び末端にG/C又はA/Uを含むオリゴに対する平均ノックダウンレベルが計算され、先頭にG/Cを含みかつ末端にA/Cを含むオリゴが他の3つのカテゴリーよりも遥かに優れた最高性能を有する。別個の位置における重みを比較するだけで、GCGTTAATGTGATAATATA(配列番号1)の配列を有する19merオリゴ及びこの配列に最も類似するオリゴが高サイレンシング効果を有し得るsiRNAとして同定される。
設計方法は図3に示される両PSSMを組み込んだ。なぜならこの組合せはいずれか一方のPSSMを単独で用いるものと比較して良い性能を与えたからである。改善型siRNA設計方法は以下の4つの原則に基づいてオリゴヌクレオチドを選択した:塩基組成、標的外同一性、転写産物中の位置及び配列多様度。非翻訳領域、反復又はホモポリメリック・ラン(homopolymeric run)等の特徴に由来する配列を含む特定のオリゴヌクレオチドを排除した。残存するオリゴヌクレオチドをそのPSSMスコアによって順位付けした。最高順位のオリゴヌクレオチドをsiRNA 19mer二本鎖のGC含量、開始位置及び上流の2塩基における多様度について選択した。次いで、選択したオリゴヌクレオチドを予測した標的外活性(これは位置重み付けFASTAアライメントスコアとして算出した)についてフィルター解析した。残存するオリゴヌクレオチドをPSSMスコアによって順位付けし、多様度に関する第2ラウンドの選択に供し、最後にPSSMスコアによって再度順位付けした。所望数のsiRNAをこの最終的な順位付けの最高位から保持した。
改良法と標準的な方法とを、それぞれによって選択した新規siRNAの比較試験によって比較した。各方法によって選択した3つのsiRNAによって得た結果は図3に示される。改良型アルゴリズムによって設計したsiRNAは優れた中央値効果(標準的な方法のsiRNAの78%と比較して、88%)を示し、その性能はより均一であった。改良型アルゴリズムのsiRNAのサイレンシング効果の分布は、同一の遺伝子に対する標準的な方法のsiRNAのものより有意に優れていた(p=0.004、ウイルコクソンの順位和検定)。
新規パイプラインを用いた30個の実験オリゴの試験結果は好結果であることを証明した。表IIIは30個のsiRNAを列挙する。従来、標準的な方法によるsiRNA設計は75%の中央値サイレンシングレベルを有した。30個の実験オリゴの内、28個は75%と同等又はこれを超えるサイレンシングレベルを有し、26個は80%を超えるか又はこれと同等であり、37%は90%を超えた(標準的な方法を用いた場合90%を超えるものはわずかに10%であった)。2種の標的遺伝子(KIF14及びIGF1R)はsiRNAによるサイレンシングが非常に困難であった(以前のオリゴは従来、わずか40%〜70%及びわずか80%のサイレンシングレベルに過ぎない)。これらの遺伝子を標的化する12個の新規オリゴは全て、少なくとも80%でサイレンシングを達成し、6個は90%レベルで達成した。75%未満のサイレンシングレベルを有する30個のオリゴ中の2個のオリゴは、ある標的転写産物配列に対して固有であるが、同一遺伝子の他の全ての代替的なスプライス形態には見られないエクソンを標的化することが判った。したがって、これらの2つのオリゴの欠点は、PSSM法というよりむしろ不適切なインプット配列に起因していた。したがって、不適切なインプット配列を与えた場合、このパイプラインは、100%の標的遺伝子について、標的遺伝子を少なくとも75%でノックダウンできるオリゴを取り上げることができるようである。
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
6.2.実施例2:サイレンシング特異性に関するsiRNAの選択
siRNA及びshRNA配列の標的外効果の重要性が示されてきた。マイクロアレイ実験は、大部分のsiRNAオリゴが、dsRNAと標的外転写産物との間の直接的な相互作用を介して標的外遺伝子の下流制御を生じさせることを示唆している。dsRNAと転写産物との間の配列同一性が、どの標的外遺伝子に作用するかを決定する際に役割を果たすようであるが、配列同一性検索は、ハイブリダイゼーションの熱力学モデルと組み合わせても正確に標的外効果を予測するには不十分である。しかし、標的外転写産物の、有害な(offending)siRNA配列とのアライメントは、その2つの間の一部の塩基対相互作用が他の塩基対相互作用よりも重要らしいことを表す(図6)。
図6は、標的外遺伝子の転写産物と、siRNAオリゴ配列の中心の19merとのアライメントの一例を示す。標的外遺伝子は、siRNAオリゴの直接的な効果と一致する転写産物の存在度の動的パターンを選択することによって、ヒト25kv2.2.1マイクロアレイから選択した。アライメントはFASTAを用いて作成し、手動で編集した。黒四角及び灰色の領域は、アライメントの3'側半分におけるより高レベルの配列同一性を示す。
図6に示されるアライメント、及び他のsiRNAについての同一性データを組合せて、標的外効果を予測する際に使用するための位置特異的スコアリング行列を作成した。作用する標的外転写産物と適合することが見出される、オリゴ中の各位置の頻度を反映するこの行列は図7に表わされる。
位置特異的スコアリング行列は、候補RNAi配列と標的外転写産物配列とのアライメントのスコアを算出するために使用される。目的のアライメントは、低ストリンジェントなFASTA検索によって確立され、各アライメントのスコアは式6:
Figure 0004790619
[ここで、nはアライメントの長さ(一般的には19)である;アライメント中の位置iが適合する場合には図7からEi=Piであり、位置iが適合しない場合はEi=(1-Pi)/3である]
を用いて算出される。スコアが閾値を超える所与のsiRNAのアライメント数が、観察される標的外効果を予示することが観察された。スコアの閾値を、効果の予測数と観察数との間の相関が最大になるように最適化した(図8)。選択パイプラインは、予測される標的外効果が比較的少数である配列を好むようにこの最適化した閾値を使用する。
6.3.実施例3:曲線モデルPSSM
PSSMを、ある任意の位置の塩基組成の、その隣接する位置への依存性を仮定する方法(「曲線モデル」と称する)によって作成した。
曲線モデルは正規曲線の和として作成した。各曲線は、特定の領域で特定の塩基を発見する確率を表す。加算した正規曲線中の各位置における値は、この曲線で表される塩基の、その位置で与えられた重みである。各塩基の重みは各siRNA中の各位置に存在し、そのフランキング配列を加算してsiRNAのスコア(すなわち、このスコアはΣwiである)を生じさせた。スコア算出は、曲線モデルにおいて重みを有する配列中の塩基含量の内積として記載することもできる。このように、これは目的の配列とこのモデルとの相関関係を表す一つの手段である。
曲線モデルは、例えば図1A-C及び5A-Cに記載されるように、良好なsiRNAと粗悪なsiRNAとの間の平滑化塩基組成差異に存在する主要ピーク及び谷間に対応するように初期化することができる。初期モデルは3−ピークG/C曲線モデルについて以下のように設定することができる:
ピーク1
平均: 1.5
標準偏差: 2
振幅: 0.0455
ピーク1の平均、標準偏差及び振幅は、Set1トレーニングセット及び試験セット中の、siRNA標的部位の塩基−2〜5内に生じる、良好なsiRNAと粗悪なsiRNAとの間のGC含量における平均差のピークに対応するように設定される。
ピーク2
平均: 11
標準偏差: 0.5
振幅: 0.0337
ピーク2の平均、標準偏差及び振幅は、Set1トレーニングセット及び試験セット中の、siRNA標的部位の塩基10〜12内に生じる、良好なsiRNAと粗悪なsiRNAとの間のGC含量における平均差のピークに対応するように設定される。
ピーク3
平均: 18.5
標準偏差: 4
振幅: −0.0548
ピーク3の平均、標準偏差及び振幅は、Set1トレーニングセット及び試験セット中の、siRNA標的部位の塩基12〜25内に生じる、良好なsiRNAと粗悪なsiRNAとの間のGC含量における平均差のピークに対応するように設定される。
曲線モデルにおけるピーク高(振幅)、配列中の中心位置(平均)及びピークの幅(標準偏差)は調節することができる。曲線モデルを、予め設定したグリッドの値を超える各ピークの振幅、平均及び標準偏差を調節することによって最適化した。曲線モデルは数個のトレーニングセットで最適化され、数個の試験セットで試験される(例えばトレーニングセット及び試験セットは表IIに記載される)。各塩基(G/C、A又はU)を別々に最適化し、その後、最適化したモデルの組合せを最高性能について選択した。
曲線モデルの最適化の基準は、(1)スコアの上位10%、15%、20%及び33%中の良好なオリゴの比率、(2)選択したsiRNAの33%及び50%での過誤検出率、及び(3)タイ・ブレイカーとして使用されるsiRNAサイレンシング対siRNAスコアの相関係数。
このモデルがトレーニングされる際に、各ピークの振幅、平均及び標準偏差についての可能な値のグリッドが調査される。上記基準のいずれかについての最高値を含むモデル又は最高値の範囲内のモデルを選択し、さらに調査した。
G/Cモデルは3又は4ピークで最適化した。Aモデルは3ピークで最適化した。Uモデルは5ピークで最適化した。
このモデルについての例示的な最適化範囲が下記に列挙される:
3ピークG/Cモデル:
ピーク1:
振幅:gc1=0−0.091
平均:gc1=-2.5−1.5
標準偏差:gc1=2.5−4
ピーク2:
振幅:gc2=0.0337−0.1011
平均:gc2=11−11.5
標準偏差:gc2=0.5−0.9
ピーク3:
振幅:gc3=-0.1644−-0.0822
平均:gc3=18.75−20.75
標準偏差:gc3=2.5−3.5
4ピークG/Cモデル:
ピーク0:
振幅:gc0=0−0.091
平均:gc0=-5.5−-3.5
標準偏差:gc0=1−2.5
ピーク1:
振幅:gc1=0−0.091
平均:gc1=-2.5−-1.5
標準偏差:gc1=2.5−4
ピーク2:
振幅:gc2=0.0337−0.1011
平均:gc2=11−11.5
標準偏差:gc2=0.5−0.9
ピーク3:
振幅:gc3=-0.1644−-0.0822
平均:gc3=18.75−20.75
標準偏差:gc3=2.5−3.5
5ピークUモデル:
Uピーク1:
振幅:u1=-0.2−0.0
平均:u1=1−2
標準偏差:u1=.75−1.5
Uピーク2:
振幅:u2=0.0−0.16
平均:u2=5−6
標準偏差:u2=.75−1.5
Uピーク3:
振幅:u3=0.0−0.1
平均:u3=10−11
標準偏差:u3=1−2
Uピーク4:
振幅:u4=0.0−0.16
平均:u4=13−14
標準偏差:u4=.75−1.5
Uピーク5:
振幅:u5=0.0−0.16
平均:u5=17−18
標準偏差:u5=1−3
3ピークAモデル:
Aピーク1:
振幅:a1=0.0442−0.2210
平均:a1=5.5−6.5
標準偏差:a1=1−2
Aピーク2:
振幅:a2=-0.5−0
平均:a2=10−12.5
標準偏差:a2=2.5−4.5
Aピーク3:
振幅:a3=0.0442−0.2210
平均:a3=18−20
標準偏差:a3=4−6
PSSMの曲線モデルの例示的なセットは図11Aに示される。図11Bはトレーニングセット及び試験セットに対するこのモデルの性能を示す。
6.4.実施例4:siRNAの鎖選好を予測するための塩基組成モデル
良好なsiRNAと粗悪なsiRNAとの間のG/C含量の平均差は、siRNA機能的モチーフ及びsiRNA耐性モチーフを分類するために使用できる、G/C PSSMのモデルを提供する。siRNAのいずれの鎖も活性であり得ることが知られるため(例えば、Elbashirら,2001, Genes Dev. 15: 188-200を参照)、siRNAのセンス鎖及びアンチセンス鎖のG/C含量が、良好なsiRNAと粗悪なsiRNAとの間のG/C含量の平均差から誘導されるsiRNA機能的標的モチーフのG/C含量のモデルといかに良く適合するかを発見することに興味があった。このために、良好なsiRNA及び粗悪なsiRNAの逆相補体を調査した。これらの逆相補体はsiRNA二本鎖のセンス鎖に憶測上完全に適合する標的部位に相当する。逆相補体を、siRNA二本鎖のアンチセンス鎖の実際に完全に適合する標的部位によって表された、実際の良好なsiRNA及び粗悪なsiRNAと比較した。
図14Aは、19mer siRNA二本鎖領域内の、粗悪なsiRNAの逆相補体の平均G/C含量と粗悪なsiRNA自体の平均G/C含量との間の差異を示す。良好なsiRNA及び粗悪なsiRNAの平均G/C含量間の差異は比較のために示される。曲線は5のウインドウ(又は5のウインドウの一部分、配列の端で)にわたって平滑化した。
図14Bは、19mer siRNA二本鎖領域内の、良好なsiRNAの逆相補体の平均G/C含量と粗悪なsiRNAの平均G/C含量との間の差異を示す。良好なsiRNA及び粗悪なsiRNAの平均G/C含量間の差異は比較のために示される。曲線は5のウインドウ(又は5のウインドウの一部分、配列の端で)にわたって平滑化した。
粗悪なsiRNAの逆相補体は、良好なsiRNAよりも粗悪なsiRNA自身とよりいっそう異なるように見えた。概して、粗悪なsiRNAの逆相補体は、良好なsiRNAよりも5'末端でより多数のG/C含量を有し、3'末端で良好なsiRNAとG/C含量において類似した。対照的に、良好なsiRNAの逆相補体は、良好なsiRNAよりも粗悪なsiRNAと実質的に類似しているように見えた。概して、良好なsiRNAの逆相補体は、G/C含量において5'末端で粗悪なsiRNAとほとんど異ならず、3'末端で粗悪なsiRNAよりもわずかにG/C富度が劣るだけであった。
これらの結果は、G/C PSSMが、良好なsiRNAとして弱いセンス鎖を有するsiRNAから、粗悪なsiRNAとして強いセンス鎖を有するsiRNAを区別していることを意味する。G/C PSSMスコがその逆相補体のG/C PSSMスコアよりも大きいsiRNAは、そのセンス鎖よりも活性であるアンチセンス鎖を有することが予測される。対照的に、G/C PSSMスコアがその逆相補体のG/C PSSMスコア未満であるsiRNAは、そのアンチセンス鎖よりも活性であるセンス鎖を有することが予測される。
効果の増加が、アンチセンス鎖の活性がより大きいこと及びセンス差の活性がより低いことに対応することが示されてきた。したがって、本発明のG/C PSSMは、優性センス鎖活性を有するsiRNA(「センス活性型」siRNA)から、優性アンチセンス鎖活性に起因するより大きな効果を有する良好なsiRNA(「アンチセンス活性型」siRNA)を区別するようである。
鎖偏向の予測のための、siRNA及びその逆相補体のG/C PSSMの比較の妥当性を、3'偏向法(3'-biased method)によるsiRNA発現プロファイルに由来する鎖偏向の評価との比較によって試験した。
siRNA及びその逆相補体は、19mer内で、良好なsiRNAと粗悪なsiRNAとの間の平滑化G/C含量差異を用いて重み行列としてスコア付けした(図14Aに示される)。各鎖のG/C PSSMスコアは、曲線モデルPSSMのスコア算出法による、G/C含量差異行列を含むsiRNA鎖G/C含量の内積である。
siRNAは、アンチセンス同一スコアがセンス同一スコアを上回った場合に、発現プロファイル分析の3'偏向法によってセンス活性と呼ばれた。siRNAは、その逆相補体のG/C PSSMスコアがその固有のG/C PSSMスコアを上回った場合に、G/C PSSM法によってセンス活性と呼ばれた。
図15では、siRNAを測定したサイレンシング効果によって保存し(binned)、発現プロファイル及びG/C PSSM法によるセンス活性呼び出しの頻度を比較した。これらの技術は異なる分析に基づくが、非常に良好に一致する。いずれも、低サイレンシングsiRNA対高サイレンシングsiRNAの割合がより高いことにより、センス鎖活性であることが予測されることを示す。siRNA G/C PSSMスコア(逆相補体のG/C PSSMスコア)対log10(センス同一性スコア/アンチセンス同一性スコア)の相関係数は、図15で保存された61個のsiRNAのセットについて0.59である。
6.5. 実施例5:低転写産物レベルを有する遺伝子をサイレンシングするためのsiRNAの設計
先の実施例では、より大きくかつより均一なサイレンシング能を有するsiRNAの選択を可能にする改良型siRNA設計アルゴリズムを記載した。この劇的な改良にも関わらず、一部の遺伝子は高い効果のサイレンシングが困難なままである。低発現型遺伝子(マイクロアレイ上で-0.5未満の強度;細胞当たり<5コピー;図16)は、より低いサイレンシングに向かうという一般的な傾向を観察した。この実施例は、siRNAのサイレンシング効果が低発現型遺伝子に対して影響するパラメーターの同定を記載する。
24種の低発現型遺伝子を、siRNAサイレンシング効果に影響するパラメーターの詳細な分析のために選択した。多くの基準(19mer siRNA二本鎖配列及びフランキング標的領域の塩基組成を含む)を良好なsiRNAと粗悪なsiRNAとを区別する能力について評価した。さらに、標的転写産物のGC含量の貢献を考慮した。これらの試験は、siRNA効果がsiRNA及び標的遺伝子の塩基組成とかなり相関することを明らかにした。特に、良好なsiRNAのGC含量は、粗悪なsiRNAのGC含量と領域特異的な様式で実質的に異なった(図17)。図17を作成する際に使用されたsiRNAの配列は表IVに列挙される。良好なsiRNA二本鎖はセンス鎖の5'末端の位置2〜7でGCが乏しい傾向があり、3'末端(位置18〜19)でGCに乏しい傾向があった。さらに、siRNA効果はsiRNA結合部位にフランキングする転写産物配列における低GC含量と相関した。siRNA効果の決定要素としての低GC含量要件は、低発現型転写産物は全体的にGCに富む傾向があるので、これらの転写産物をサイレンシングする際の困難性を説明し得る。siRNA二本鎖の塩基組成も低発現型遺伝子のサイレンシングに影響する。特に、良好なsiRNAのGC含量は粗悪なsiRNAのものと領域特異的な様式で実質的に異なった(図17)。良好なsiRNA二本鎖は、センス鎖の5'末端の最初の位置でGCに富み、5'末端の位置2〜7でGCに乏しく、3'末端(位置18〜19)でGCに乏しい傾向があった。調査した基準のうち、センス鎖の位置2〜7における低GC含量(図17、点線)がサイレンシング効果の最大の改善をもたらした。これは転写産物サイレンシングの触媒作用ステップに関与すると考えられるsiRNAの領域と一致する。この領域の低GC含量は、切断を増強するための、接近可能性又は最適ならせん状幾何構造を提供し得る。siRNAのこの領域中に低GC含量を必要とすることにより、低GC含量を含む、結合部位にフランキングする標的部位(これもサイレンシング効果と相関する)についても選択し得る。
低発現型遺伝子に対する良好なsiRNAの塩基組成は、高発現型遺伝子(well-expressed genes)に対する良好なsiRNAについて本発明者らが既に推論した塩基組成基準とは幾分異なる(図17、実線)。両タイプの遺伝子に対して良好なsiRNAは、位置1における高GCと3末端における低GCの選好を示す。しかし、高発現型遺伝子用のsiRNAは2つの末端間でGC含量において極端な非対称性を示すが、低発現型遺伝子用のsiRNAはより適度な非対称性を好む。本発明者らが以前に設計したアルゴリズムは、高発現型遺伝子に対する良好なsiRNAに見られる特徴に従って、非対称性を最大にすることを求める。本発明者らの現在の結果は、siRNAの2以上の領域の塩基組成が効果に影響することができることを示す。siRNAの異なる領域が、おそらくは発現レベル又は全体GC含量等の標的転写産物の特徴に依存して、異なる標的のサイレンシングに対してより重要であり得る。この考えと一致して、異なる市販の設計アルゴリズムが遺伝子の異なるサブセットに有効である。
新規siRNA設計アルゴリズムを低発現型遺伝子に対して誘導されたGC組成に基づいて開発した。新規アルゴリズムは以前のアルゴリズムに対する以下の調整を含む:
(1)センス19merの塩基2〜7における1〜3 G+Cの選択、
(2)センス19merの塩基1及び19の非対称性(位置1、G又はC;位置19、A又はT)、
(3)−300<pssmスコア<+200
(4)わずか16の最大標的外BLAST適合、及び
(5)19merのいずれかの側における200塩基が繰り返し又は低コンプレキシティー配列ではない。
新規アルゴリズムを先の実施例に記載されるアルゴリズムと、それぞれによって選択した新規siRNAの比較試験によって比較した。各方法によって選択した3つのsiRNAで得た結果は図18に示される。本実施例の新規アルゴリズムによって設計したsiRNAは優れた中央値効果を示し(標準的な方法のsiRNAの60%と比較して80%)、その性能はより均一であった。新規アルゴリズムによって得たsiRNAのサイレンシング効果の分布は、同一遺伝子に対する先のアルゴリズムのものより有意に優れていた(p=10-5、ウイルコクソンの順位和)。新規設計アルゴリズムを用いて設計したsiRNAも、12種の高発現型遺伝子の調査に基づき、より高発現型の転写産物のサイレンシングに効果的であるように見える。
新たな設計基準は、概して、siRNAの機能性に重要な特徴を捉え、siRNAの異なる領域が転写産物の認識、切断及び産物の放出において異なる機能を有することを強調する。誘導鎖の5'末端付近の塩基が転写産物結合(オン及び標的外転写産物の両方)に関与すると考えられ、そして近年、標的RNA-結合エネルギーに十分であることが示されてきた。設計の基準はまた、siRNAがRISC(RNAサイレンシングを仲介するタンパク質-RNA複合体である)といかに相互作用するかに関する利用可能なデータと一致する。これらの研究は、アンチセンス鎖の5'末端(二本鎖の3'末端)での弱い塩基対形成が、おそらくはRISCの5'-3'らせん状成分によるsiRNA二本鎖の巻き戻しを促進することによって、アンチセンス鎖とRISCとの好ましい相互作用を助長することを示す。先の設計で見られるように、本発明者らの新たな設計は、アンチセンス鎖の好ましい相互作用を助長する塩基組成の非対称性を維持する。これは、低発現型転写産物をサイレンシングする以前の非能率が、RISCとの不十分な会合に起因せず、むしろRISC複合体による標的転写産物の不十分な標的化、又は標的転写産物の不十分な切断及び放出に起因しそうであることを示唆する。これらの実施例で記載される設計は、センス鎖の位置10におけるUの選好を含み、これはほとんどのエンドヌクレアーゼでそうであるように、RISCによる切断効果の改善に関連してきた。観察された切断部位にフランキングする低GC含量の選好は、切断、又は切断した転写産物の放出のための、RISC/ヌクレアーゼ複合体の接近可能性を増強することができ、これはsiRNA誘導鎖の中心及び3'領域に形成された塩基対が触媒作用に要求されるらせん状幾何構造を提供することを立証する最近の研究と一致する。新しい設計基準は、RNAi経路におけるこれらの及び追加の工程の効果を増加することもでき、その結果、発現のレベルが異なる転写産物の効果的なサイレンシングを提供する。
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
Figure 0004790619
7. 引用文献
本明細書で引用された全ての参考文献は、各個別の刊行物又は特許若しくは特許出願があらゆる目的のためにその全体を参照により組み込まれるべきであると具体的かつ個別に示されたのと同程度に、あらゆる目的のためにその全体を参照により本明細書に組み入れる。
本発明の多くの改変及び変形は、当業者に明らかであるように、その精神及び範囲を逸脱することなく作製することができる。本明細書に記載された特定の実施形態は例示のみを目的として提示され、本発明は、添付の特許請求の範囲の用語のみによって限定されるべきであり、権利付与されるそのような特許請求の範囲に対する同等物の全範囲を伴う。
図1Aは、良好なsiRNAと粗悪なsiRNA間の、標的配列の各相対的位置での、GC含量における平均差を示す。 図1Bは、良好なsiRNAと粗悪なsiRNA間の、標的配列の各相対的位置での、A含量における平均差を示す。 図1Cは、良好なsiRNAと粗悪なsiRNA間の、標的配列の各相対的位置での、U含量(図1C)における平均差を示す。 図2Aは、良好なsiRNAのGC含量及び粗悪なsiRNAのGC含量を示す。 図2Bは、良好なsiRNAのA含量及び粗悪なsiRNAのA含量を示す。 図2Cは、良好なsiRNAのU含量及び粗悪なsiRNAのU含量を示す。 図3は、本発明のsiRNA設計方法に用いた実際のsiRNA塩基組成モデルの性能を示す。 図4は、独立の実験データセットに対するPSSMの予測能力を示す。 図5Aは、それぞれセット1及びセット2中のsiRNAでトレーニングしかつ試験した2つの塩基組成PSSMのアンサンブルからの、GCの平均重みを示す。 図5Bは、それぞれセット1及びセット2中のsiRNAでトレーニングしかつ試験した2つの塩基組成PSSMのアンサンブルからの、Aの平均重みを示す。 図5Cは、それぞれセット1及びセット2中のsiRNAでトレーニングしかつ試験した2つの塩基組成PSSMのアンサンブルからの、Uの平均重みを示す。 図6は、標的外遺伝子の転写産物の、siRNAコア配列のコア19merとのアライメントの一例を示す。 図7は、標的外効果を予測するための位置適合位置特異的スコアリング行列を示す。 図8は、siRNAの標的外効果を予測するための、閾値スコアの最適化を示す。 図9は、遺伝子をサイレンシングする際に使用するためのsiRNAを選択する方法の例示的な実施形態のフローチャートを示す。 図10は、良好なsiRNAと粗悪なsiRNAとを区別することに使用できる配列領域を示す。 図11Aは、PSSMの曲線モデルの例示的なセットを示す。 図11Bは、トレーニングセット及び試験セットに対するモデルの性能を示す。 図12は、本発明の方法を実現するのに有用なコンピューター・システムの例示的実施形態を図示する。 図13は、本発明の方法を用いて設計した30 siRNA(黒丸)及び標準的な方法で設計したsiRNA(白丸)間の、siRNAのサイレンシング効果の分布の比較を示す。 図14A-Bは、siRNAおよびその逆相補体のGC含量と、粗悪なsiRNAのGC含量との比較を示す。 図15は、効果の劣るsiRNAが活性のあるセンス鎖を有することを示す。 図16は、サイレンシング効果が転写産物の発現レベルに関連することを示す。 図17は、siRNAのサイレンシング効果がその塩基組成に関連することを示す。 図18は、新たに設計したsiRNAの効果を示す。 図19は、有効なsiRNAの設計上の特徴を示す。 図20は、371個のsiRNAにおける発現対中央値サイレンシングを示す。

Claims (16)

  1. 複数の異なるsiRNAから生物中の標的遺伝子をサイレンシングするための1以上のsiRNAを選択する方法であって、該複数の異なるsiRNA中の異なる各siRNAは標的遺伝子の転写産物中の異なる標的配列を標的化するものであり、該方法が、(a) 該複数の異なるsiRNA中の異なる各siRNAについて、該転写産物中の対応する標的配列モチーフのスコアを算出する工程であって、該スコアは位置特異的スコア行列(PSSM)を用いて算出され、該配列モチーフのそれぞれが、Lヌクレオチドのヌクレオチド配列であり、Lは整数であり、該PSSMが{log(eij/pij)}であり[ここで、eijは位置jにおけるヌクレオチドiの重みであり、pijはランダム配列中の位置jにおけるヌクレオチドiの重みであり、そしてi=G又はC、A、U(T)であり、j=1,…,Lである]、該標的配列モチーフのそれぞれは、対応するsiRNAの標的配列の少なくとも一部分、及び/又は標的配列にフランキングする配列中の第2配列を含むものである、上記工程;(b) 該スコアに従って該複数の異なるsiRNAを順位付けする工程;並びに(c)該順位付けしたsiRNAから1以上のsiRNAを選択する工程、を含み、該工程(a)、(b)並びに(c)が好適にプログラムされたコンピューターを用いて実施される、上記方法。
  2. 前記標的配列モチーフのそれぞれが、前記対応するsiRNAの標的配列を含む、請求項1に記載の方法。
  3. 前記標的配列モチーフのそれぞれが、Lヌクレオチドのヌクレオチド配列であり、Lは整数であり、前記位置特異的スコア行列が{log(eij/pij)}である、[ここで、eijは位置jにおけるヌクレオチドiの重みであり、pijはランダム配列中の位置jにおけるヌクレオチドiの重みであり、そしてi=G、C、A、U(T)であり、j=1,…,Lである]請求項1に記載の方法。
  4. 前記標的配列モチーフのそれぞれが、前記対応するsiRNAの標的配列と少なくとも1つのフランキング配列とを含む、請求項1〜のいずれか1項に記載の方法。
  5. 前記標的配列モチーフのそれぞれが、前記対応するsiRNAの標的配列と5'フランキング配列と3'フランキング配列とを含む、請求項に記載の方法。
  6. 前記5'フランキング配列と前記3'フランキング配列とが、それぞれDヌクレオチドの配列であり、Dが整数である、請求項に記載の方法。
  7. 前記標的配列のそれぞれが19ヌクレオチドの配列であり、前記5'フランキング配列と3'フランキング配列とが、それぞれ10ヌクレオチドの配列である、請求項に記載の方法。
  8. 前記標的配列のそれぞれが19ヌクレオチドの配列であり、前記5'フランキング配列と3'フランキング配列とが、それぞれ50ヌクレオチドの配列である、請求項に記載の方法。
  9. 前記位置特異的スコア行列(PSSM)を、(aa)19ヌクレオチドの二本鎖領域と選択した閾値を超えるサイレンシング効果とを有するsiRNAからなる複数のN siRNAを同定すること;
    (bb)前記N siRNAのそれぞれについて機能的配列モチーフを同定すること、ここで、該機能的配列モチーフは、前記N siRNAのそれぞれの19ヌクレオチドの標的配列と、10ヌクレオチドの5'フランキング配列と、10ヌクレオチドの3'フランキング配列とを含むものである;
    (cc)式:
    Figure 0004790619
    [ここで、δik(j)は、kとiが等しい場合には1であり、kとiが等しくない場合には0である]に従って、該機能的配列モチーフに基づいて頻度行列{fij}を算出すること、ここでi=G、C、A、U(T)であり、j=1,2,…,Lであり、そしてfijは第j番目の位置におけるiヌクレオチドの頻度である、及び
    (dd)式:
    Figure 0004790619
    に従ってeijを算出することでPSSMを決定すること、を含む方法によって取得する、請求項1〜7のいずれか1項に記載の方法。
  10. 前記複数のN siRNAが、細胞中の異なる転写産物量を示す複数の異なる遺伝子を標的化する、請求項に記載の方法。
  11. 前記順位付け工程を、前記異なる各siRNAについてスコアを決定することによって実施し、前記工程(c)を、最大スコアを有する1以上のsiRNAを選択することによって実施する、請求項1〜10のいずれか1項に記載の方法。
  12. 前記工程(c)を、規定の値に最も近似する前記スコアを有する1以上のsiRNAを選択することによって実施し、その際、該規定の値が、細胞当たり3〜5コピー未満の存在レベルを有する転写産物中の複数のsiRNA配列モチーフの最大中央値サイレンシング効果に対応するスコア値である、請求項1〜10のいずれか1項に記載の方法。
  13. 前記工程(c)を、規定の範囲内の前記スコアを有する1以上のsiRNAを選択することによって実施し、該規定の範囲は所与のレベルのサイレンシング効果をそれぞれが有する複数のsiRNA配列モチーフに対応するスコア範囲である、請求項1〜10のいずれか1項に記載の方法。
  14. 前記サイレンシング効果が100nMのsiRNA濃度で50%、75%又は90%を超える、請求項13に記載の方法。
  15. 前記複数のsiRNA配列モチーフが、細胞当たり3〜5コピー未満の存在レベルを有する転写産物中の配列モチーフである、請求項13又は14に記載の方法。
  16. 前記複数のN siRNAが少なくとも10、50、100、200又は500個の異なるsiRNAを含む、請求項15のいずれか1項に記載の方法。
JP2006538215A 2003-10-27 2004-10-27 遺伝子サイレンシングのためのsiRNAを設計する方法 Active JP4790619B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US51518003P 2003-10-27 2003-10-27
US60/515,180 2003-10-27
US57231404P 2004-05-17 2004-05-17
US60/572,314 2004-05-17
PCT/US2004/035636 WO2005042708A2 (en) 2003-10-27 2004-10-27 METHOD OF DESIGNING siRNAS FOR GENE SILENCING

Publications (3)

Publication Number Publication Date
JP2007512808A JP2007512808A (ja) 2007-05-24
JP2007512808A5 JP2007512808A5 (ja) 2007-12-13
JP4790619B2 true JP4790619B2 (ja) 2011-10-12

Family

ID=34555961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006538215A Active JP4790619B2 (ja) 2003-10-27 2004-10-27 遺伝子サイレンシングのためのsiRNAを設計する方法

Country Status (8)

Country Link
US (2) US7962316B2 (ja)
EP (1) EP1692262B1 (ja)
JP (1) JP4790619B2 (ja)
CN (1) CN1926551B (ja)
AU (1) AU2004286261B2 (ja)
CA (1) CA2543954C (ja)
ES (1) ES2687645T3 (ja)
WO (1) WO2005042708A2 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7199107B2 (en) * 2002-05-23 2007-04-03 Isis Pharmaceuticals, Inc. Antisense modulation of kinesin-like 1 expression
EP1628993A4 (en) 2003-05-16 2010-04-07 Rosetta Inpharmatics Llc METHOD AND COMPOSITIONS FOR RNA INTERFERENCE
JP4747245B2 (ja) * 2003-12-31 2011-08-17 謙造 廣瀬 RNAiライブラリーの酵素的構築方法
JP4938451B2 (ja) * 2004-03-23 2012-05-23 オンコセラピー・サイエンス株式会社 非小細胞肺癌の診断のための方法
EP1931789B1 (en) 2005-09-20 2016-05-04 BASF Plant Science GmbH Methods for controlling gene expression using ta-siran
US9200275B2 (en) 2006-06-14 2015-12-01 Merck Sharp & Dohme Corp. Methods and compositions for regulating cell cycle progression
AU2008215432B2 (en) * 2007-02-16 2013-03-21 Oncotherapy Science, Inc. Vaccine therapy for choroidal neovascularization
AU2008287542C1 (en) 2007-06-01 2015-01-22 The Trustees Of Princeton University Treatment of viral infections by modulation of host cell metabolic pathways
WO2009042115A2 (en) * 2007-09-24 2009-04-02 Rosetta Inpharmatics Llc Methods of designing short hairpin rnas (shrnas) for gene silencing
WO2010019446A1 (en) * 2008-08-09 2010-02-18 University Of Iowa Research Foundation Nucleic acid aptamers
US20120072123A1 (en) 2009-05-29 2012-03-22 Merck & Co., Inc. Methods of Predicting The Probability of Modulation of Transcript Levels By RNAI Compounds
TW201109029A (en) 2009-06-11 2011-03-16 Oncotherapy Science Inc Vaccine therapy for choroidal neovascularization
EP2329854A3 (de) * 2009-12-04 2014-02-19 Biotronik VI Patent AG Implantatbeschichtung mit Nukleinsäuren
US9453261B2 (en) 2011-09-20 2016-09-27 The George Washington University Alternative splicing variants of genes associated with prostate cancer risk and survival
CN102643815A (zh) * 2012-03-12 2012-08-22 中国水产科学研究院东海水产研究所 一种抗RNA病毒siRNA分子的设计方法
CA2906663A1 (en) * 2013-03-15 2014-09-18 Techulon Inc. Antisense molecules for treatment of staphylococcus aureus infection
US10137143B1 (en) * 2014-07-30 2018-11-27 The Administrators Of The Tulane Educational Fund Preventing tumor development and metastasis
SG11201703419UA (en) 2014-11-14 2017-05-30 Voyager Therapeutics Inc Modulatory polynucleotides
EP3218484A4 (en) 2014-11-14 2018-05-30 Voyager Therapeutics, Inc. Compositions and methods of treating amyotrophic lateral sclerosis (als)
CN107090596B (zh) * 2016-02-18 2020-08-28 中国科学院分子细胞科学卓越创新中心 建立克服基因功能冗余的全基因组功能缺失筛选方法
WO2017201258A1 (en) 2016-05-18 2017-11-23 Voyager Therapeutics, Inc. Compositions and methods of treating huntington's disease
EP3458588A4 (en) 2016-05-18 2020-01-15 Voyager Therapeutics, Inc. MODULATING POLYNUCLEOTIDES
CN108182346B (zh) * 2016-12-08 2021-07-30 杭州康万达医药科技有限公司 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用
US10597438B2 (en) 2016-12-14 2020-03-24 Janssen Biotech, Inc. PD-L1 binding fibronectin type III domains
EP3554561B1 (en) 2016-12-14 2023-06-28 Janssen Biotech, Inc. Cd137 binding fibronectin type iii domains
CA3046963A1 (en) 2016-12-14 2018-06-21 Janssen Biotech, Inc. Cd8a-binding fibronectin type iii domains
JP2020518258A (ja) 2017-05-05 2020-06-25 ボイジャー セラピューティクス インコーポレイテッドVoyager Therapeutics,Inc. 筋萎縮性側索硬化症(als)治療組成物および方法
WO2018204803A1 (en) 2017-05-05 2018-11-08 Voyager Therapeutics, Inc. Compositions and methods of treating huntington's disease
WO2019079242A1 (en) 2017-10-16 2019-04-25 Voyager Therapeutics, Inc. TREATMENT OF AMYOTROPHIC LATERAL SCLEROSIS (ALS)
AU2018352236A1 (en) 2017-10-16 2020-04-23 The Curators Of The University Of Missouri Treatment of amyotrophic lateral sclerosis (ALS)
TWI709188B (zh) 2018-09-27 2020-11-01 財團法人工業技術研究院 基於機率融合的分類器、分類方法及分類系統
CN110295171B (zh) * 2019-06-26 2022-07-22 中山大学附属第六医院 用于抑制NPC1基因表达的siRNA的应用
CN114786682A (zh) 2019-10-14 2022-07-22 Aro生物疗法公司 结合cd71的纤维粘连蛋白iii型结构域
WO2021076574A2 (en) * 2019-10-14 2021-04-22 Aro Biotherapeutics Company Fn3 domain-sirna conjugates and uses thereof
WO2023122805A1 (en) 2021-12-20 2023-06-29 Vestaron Corporation Sorbitol driven selection pressure method
CN116798513B (zh) * 2023-02-21 2023-12-15 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统
CN116825199A (zh) * 2023-02-21 2023-09-29 王全军 筛选siRNA序列以降低脱靶效应的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065281A1 (en) * 2002-01-29 2003-08-07 Health Research, Inc. Statistical algorithms for folding and target accessibility prediction and design of nucleic acids
WO2003070193A2 (en) * 2002-02-20 2003-08-28 Sirna Therapeutics, Inc RNA INTERFERENCE MEDIATED INHIBITION OF HIV GENE EXPRESSION USING SHORT INTERFERING NUCLEIC ACID (siNA)

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US650659A (en) * 1899-08-28 1900-05-29 Marie Jean-Baptiste Joseph Schmitt Sound-indicator.
US4980286A (en) 1985-07-05 1990-12-25 Whitehead Institute For Biomedical Research In vivo introduction and expression of foreign genetic material in epithelial cells
CA2092323A1 (en) 1990-10-01 1992-04-02 George Y. Wu Targeting viruses and cells for selective internalization by cells
JPH06510524A (ja) 1991-05-14 1994-11-24 ユニバーシティ オブ コネチカット 免疫原性タンパク質をコードする遺伝子の標的への配達
DK0587738T3 (da) 1991-06-05 2000-12-18 Univ Connecticut Destineret levering af gener, som koder for sekretionsproteiner
AU3434393A (en) 1992-01-17 1993-08-03 Regents Of The University Of Michigan, The Targeted virus
WO1993020221A1 (en) 1992-04-03 1993-10-14 Young Alexander T Gene therapy using targeted viral vectors
US6004941A (en) 1993-06-14 1999-12-21 Basf Aktiengesellschaft Methods for regulating gene expression
US6506559B1 (en) 1997-12-23 2003-01-14 Carnegie Institute Of Washington Genetic inhibition by double-stranded RNA
US20020016216A1 (en) 1999-06-08 2002-02-07 Kenji Kobayashi Golf club
US7013221B1 (en) 1999-07-16 2006-03-14 Rosetta Inpharmatics Llc Iterative probe design and detailed expression profiling with flexible in-situ synthesis arrays
CA2403397A1 (en) 2000-03-16 2001-09-20 Genetica, Inc. Methods and compositions for rna interference
WO2001075164A2 (en) 2000-03-30 2001-10-11 Whitehead Institute For Biomedical Research Rna sequence-specific mediators of rna interference
TR200401292T3 (tr) 2000-12-01 2004-07-21 Max@Planck@Gesellschaft�Zur�F�Rderung�Der�Wissenschaften RNAÁgirişimineÁyolÁaçanÁküçükÁRNAÁmolekülleri
US20030143597A1 (en) 2000-12-28 2003-07-31 Finney Robert E. Methods for making polynucleotide libraries, polynucleotide arrays, and cell libraries for high-throughput genomics analysis
CA2921821A1 (en) 2001-07-12 2003-01-23 University Of Massachusetts In vivo production of small interfering rnas that mediate gene silencing
WO2003043580A2 (en) * 2001-11-19 2003-05-30 Proteologics, Inc. Methods for identifying and validating potential drug targets
EP1572902B1 (en) * 2002-02-01 2014-06-11 Life Technologies Corporation HIGH POTENCY siRNAS FOR REDUCING THE EXPRESSION OF TARGET GENES
AU2003281288A1 (en) * 2002-07-04 2004-01-23 Imperial College Innovations Limited Method for identifying hypersensitive site consensus sequences
CN1440814A (zh) * 2002-11-28 2003-09-10 张辰宇 特异性爱滋病病毒rna降解剂及其制备方法
US8005620B2 (en) * 2003-08-01 2011-08-23 Dna Twopointo Inc. Systems and methods for biopolymer engineering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065281A1 (en) * 2002-01-29 2003-08-07 Health Research, Inc. Statistical algorithms for folding and target accessibility prediction and design of nucleic acids
WO2003070193A2 (en) * 2002-02-20 2003-08-28 Sirna Therapeutics, Inc RNA INTERFERENCE MEDIATED INHIBITION OF HIV GENE EXPRESSION USING SHORT INTERFERING NUCLEIC ACID (siNA)

Also Published As

Publication number Publication date
EP1692262B1 (en) 2018-08-15
US8457902B2 (en) 2013-06-04
ES2687645T3 (es) 2018-10-26
WO2005042708A2 (en) 2005-05-12
CN1926551A (zh) 2007-03-07
AU2004286261A1 (en) 2005-05-12
CA2543954A1 (en) 2005-05-12
EP1692262A2 (en) 2006-08-23
AU2004286261B2 (en) 2010-06-24
US20110250591A1 (en) 2011-10-13
CN1926551B (zh) 2010-06-16
US20080234941A1 (en) 2008-09-25
WO2005042708A3 (en) 2006-10-26
JP2007512808A (ja) 2007-05-24
EP1692262A4 (en) 2008-07-09
US7962316B2 (en) 2011-06-14
CA2543954C (en) 2016-11-08

Similar Documents

Publication Publication Date Title
JP4790619B2 (ja) 遺伝子サイレンシングのためのsiRNAを設計する方法
Shao et al. Effect of target secondary structure on RNAi efficiency
Li et al. Defining the optimal parameters for hairpin-based knockdown constructs
Boyerinas et al. Identification of let-7–regulated oncofetal genes
Horn et al. Design and evaluation of genome-wide libraries for RNA interference screens
Sun et al. Asymmetric RNA duplexes mediate RNA interference in mammalian cells
Laganà et al. Computational design of artificial RNA molecules for gene regulation
Paddison et al. Short hairpin activated gene silencing in mammalian cells
Li et al. miRNA arm selection and isomiR distribution in gastric cancer
Okamura et al. The regulatory activity of microRNA* species has substantial influence on microRNA and 3′ UTR evolution
Boden et al. Enhanced gene silencing of HIV‐1 specific siRNA using microRNA designed hairpins
Ui-Tei et al. Functional dissection of siRNA sequence by systematic DNA substitution: modified siRNA with a DNA seed arm is a powerful tool for mammalian gene silencing with significantly reduced off-target effect
Suzuki et al. MCPIP1 ribonuclease antagonizes dicer and terminates microRNA biogenesis through precursor microRNA degradation
Chen et al. A universal plasmid library encoding all permutations of small interfering RNA
Cambronne et al. Capturing microRNA targets using an RNA-induced silencing complex (RISC)-trap approach
JP2011004763A (ja) Rna干渉の方法と組成物
EP1559785A1 (en) Oligo- or polynucleotides for achieving RNA interference in mammalian cells
Monteys et al. Single nucleotide seed modification restores in vivo tolerability of a toxic artificial miRNA sequence in the mouse brain
Iribe et al. Chemical modification of the siRNA seed region suppresses off-target effects by steric hindrance to base-pairing with targets
Crotty et al. In vivo RNAi screens: concepts and applications
Przanowska et al. Distinct MUNC lncRNA structural domains regulate transcription of different promyogenic factors
Du et al. Validating siRNA using a reporter made from synthetic DNA oligonucleotides
van Es et al. Biology calls the targets: combining RNAi and disease biology
Ui-Tei et al. Guidelines for the selection of effective short-interfering RNA sequences for functional genomics
Strat et al. Specific and nontoxic silencing in mammalian cells with expressed long dsRNAs

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100922

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110425

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110720

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4790619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250