JP6621820B2 - ゲノムでプログラマブルヌクレアーゼの非標的位置を検出する方法 - Google Patents

ゲノムでプログラマブルヌクレアーゼの非標的位置を検出する方法 Download PDF

Info

Publication number
JP6621820B2
JP6621820B2 JP2017526125A JP2017526125A JP6621820B2 JP 6621820 B2 JP6621820 B2 JP 6621820B2 JP 2017526125 A JP2017526125 A JP 2017526125A JP 2017526125 A JP2017526125 A JP 2017526125A JP 6621820 B2 JP6621820 B2 JP 6621820B2
Authority
JP
Japan
Prior art keywords
target
positions
seq
digenome
target position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017526125A
Other languages
English (en)
Other versions
JP2017533724A (ja
Inventor
ジンス キム
ジンス キム
デシク キム
デシク キム
サンス ペ
サンス ペ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Basic Science
Original Assignee
Institute for Basic Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Basic Science filed Critical Institute for Basic Science
Publication of JP2017533724A publication Critical patent/JP2017533724A/ja
Application granted granted Critical
Publication of JP6621820B2 publication Critical patent/JP6621820B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Description

本発明は、ゲノムでプログラマブルヌクレアーゼの非標的位置(off‐target site)を検出する方法に関し、より詳細には、インビトロ(in vitro)で分離されたゲノム(cell‐free genomic DNA)にプログラマブルヌクレアーゼを処理してゲノムを切断した後、それを全ゲノムシーケンシング(whole genome sequencing)し、データを分析することで非標的位置を検出する方法、並びにその方法を用いて非標的効果を最小化するプログラマブルヌクレアーゼの標的位置選別方法に関する。
ZFN(zinc finger nuclease)、TALEN(transcriptional activator‐like effector nuclease)、及び第II型CRISPR/Cas(clustered regularly interspaced repeat/CRISPR‐associated)原核生物獲得免疫システム由来のRGEN(RNA‐guided engineered nuclease)など、プログラマブルヌクレアーゼ(programmable nucleases)は培養された細胞及び個体のゲノム編集に広く用いられている。前記プログラマブルヌクレアーゼを用いたゲノム編集技術は、生命科学、生命工学、及び医学分野などで様々な目的のために利用される非常に有用な技術である。例えば、幹細胞または体細胞で標的化された遺伝子改変を起こすことで、様々な遺伝的疾患または後天的疾患に対する遺伝子/細胞治療が可能となっている。しかし、前記プログラマブルヌクレアーゼは、標的位置(on‐target site)だけでなく、それと相同性を有する非標的位置(off‐target site)に対しても、突然変異を引き起こす恐れがある(Nucleic acids research,2013,41(20):9584‐9592)。
代表的な一例として、S.pyogenes由来Cas9タンパク質及びsgRNA(small guide RNA)で構成されるRGENは、sgRNAとハイブリダイズされる20‐bp(base pair)配列及びCas9により認識されるPAM(protospacer‐adjacent motif)配列である5´‐NGG‐3´で構成される23‐bpの標的DNA配列を認識するが、一部のヌクレオチド配列が一致しない場合にも働くことがある(Genome Res,2014,24:132‐141)。さらに、RGENは、sgRNA配列に比べて追加の塩基配列を有するか(DNA bulge)、または1つの塩基がない(RNA bulge)非標的DNA配列も切断し得る。これと類似に、ZFNとTALENも一部塩基の異なる配列を切断し得る。これは、ゲノムにプログラマブルヌクレアーゼを適用する場合、標的位置以外に相当数の非標的位置を有し得ることを示唆する。
非標的DNAの切断は、プロトオンコジーン(proto‐oncogene)や癌抑制遺伝子(tumor suppressor gene)のように不所望の遺伝子で突然変異を引き起こす恐れがあり、転位(translocation)、欠失(deletion)、及び逆位(inversion)などのゲノム組換えを増加させ得るため、研究分野及び医学分野などにおけるプログラマブルヌクレアーゼの利用に深刻な問題となり得る(Proc Natl Acad Sci,2009,106:10620‐10625)。そこで、プログラマブルヌクレアーゼの非標的効果を低減するための様々な戦略が報告されてはいるものの、全体ゲノムレベルで非標的効果なしに標的位置にのみ特異的に働くプログラマブルヌクレアーゼは未だに報告されていない。このような問題点に応えるべく、プログラマブルヌクレアーゼの特異性をゲノムレベルで確認できる方法を開発することが重要である。
本発明者らは、ゲノムレベルでプログラマブルヌクレアーゼの標的及び非標的位置を検出し分析することができるシステムを開発するために鋭意研究した結果、ゲノムをプログラマブルヌクレアーゼで切断した後、次世代シーケンシング(next generation sequencing、NGS)を行うことでプログラマブルヌクレアーゼの非標的位置を検出することができる方法(Digenome‐seq、nuclease‐digested genomic DNA sequencing)を開発し、本発明を成すに至った。
本発明の一目的は、(a)分離されたゲノム(genomic)DNAを標的特異的プログラマブルヌクレアーゼ(programmable nuclease)で切断するステップと、(b)前記切断されたDNAに対する次世代シーケンシング(next generation sequencing)を行うステップと、(c)前記シーケンシングにより得た塩基配列データ(sequence read)で前記切断された位置を決定するステップと、を含む、プログラマブルヌクレアーゼの非標的位置(off‐target site)を検出する方法を提供することにある。
本発明の他の目的は、プラスミド(plasmid)を鋳型としてインビトロ(in vitro)転写されたガイドRNAを細胞に導入するステップを含む、ゲノム編集における非標的効果を低減する方法を提供することにある。
本発明のDigenome‐seqは、高度の再現性を有してゲノムレベルでプログラマブルヌクレアーゼの非標的位置を検出することができるため、標的特異性の高いプログラマブルヌクレアーゼの製作及びそのための研究に用いられることができる。
インビトロ(in vitro)におけるRGEN‐媒介ゲノムDNAの切断に関する図であって、インビトロにおけるRGEN‐媒介ゲノムDNAの切断を示す模式図である。 インビトロ(in vitro)におけるRGEN‐媒介ゲノムDNAの切断に関する図であって、標的位置及び4個の潜在的非標的位置でHBBを標的とするRGENによりゲノムDNAが切断されるかを確認した図である。1X反応で、Cas9タンパク質(40ug、300nM)及びsgRNA(30ug、900nM)を8μgのHAP1ゲノムDNAと8時間反応させた。Cas9及びsgRNAは10倍〜10,000倍に漸次的に希釈した。切断されなかったDNAをqPCRにより測定した。下側には、標的位置及び4個の潜在的非標的位置のDNA配列を示している。一致しないヌクレオチドを赤色で示し、PAM配列は青色で示した。 インビトロ(in vitro)におけるRGEN‐媒介ゲノムDNAの切断に関する図であって、標的位置及び潜在的非標的位置で、RGENによる突然変異の頻度をT7E1分析により測定したものである。 インビトロ(in vitro)におけるRGEN‐媒介ゲノムDNAの切断に関する図であって、インデル(indel)頻度を測定するために標的化ディープシーケンシング(deep sequencing)を行って示したものである。 非標的位置を探すためのRGENにより誘導されたDigenome‐seqに関する図であって、非標的位置を確認するためのヌクレアーゼ‐切断の全ゲノムシーケンシング(whole genome sequencing、WGS)を示す模式図である。非形質転換またはRGEN形質転換細胞から分離したゲノムDNAをRGENで切断し、WGSを行った。塩基配列データ(sequence read)を標準塩基配列(reference genome、hg19)に対して整列し、IGVプログラムを用いて視覚化した。正方向の塩基配列データはオレンジ色で、逆方向の塩基配列データは空色で示した。赤色の三角形及び垂直点線は切断位置を示す。 非標的位置を探すためのRGENにより誘導されたDigenome‐seqに関する図であって、標的位置でHBB特異的RGENを用いて得た代表的なIGVデータである。インデルは矢印で示した。 非標的位置を探すためのRGENにより誘導されたDigenome‐seqに関する図であって、ヌクレオチド位置による同一の5´末端を有する塩基配列データの絶対的及び相対的数字を示したものである。 非標的位置を探すためのRGENにより誘導されたDigenome‐seqに関する図であって、潜在的非標的位置であるOT1でHBB特異的RGENを用いて得た代表的なIGVデータである。インデルは矢印で示した。 非標的位置を探すためのRGENにより誘導されたDigenome‐seqに関する図であって、潜在的非標的位置であるOT3でHBB特異的RGENを用いて得た代表的なIGVデータである。インデルは四角形で示した。 非標的位置を探すためのRGENにより誘導されたDigenome‐seqに関する図であって、潜在的非標的位置であるOT7でHBB特異的RGENを用いて得た代表的なIGVデータである。 非標的位置を探すためのRGENにより誘導されたDigenome‐seqに関する図であって、潜在的非標的位置であるOT12でHBB特異的RGENを用いて得た代表的なIGVデータである。 ゲノム上の特定位置における5´末端個数のプロット(plot)を示した図であって、ヌクレアーゼ切断位置におけるIGVデータを示したものである。 ゲノム上の特定位置における5´末端個数のプロット(plot)を示した図であって、OT1位置でヌクレオチド位置による同一の5´末端を有する塩基配列データの絶対的及び相対的数字を示す5´末端プロットを示したものである。 ゲノム上の特定位置における5´末端個数のプロット(plot)を示した図であって、OT3位置でヌクレオチド位置による同一の5´末端を有する塩基配列データの絶対的及び相対的数字を示す5´末端プロットを示したものである。 Digenome‐seqにより確認され標的ディープシーケンシングにより検証されたHBB RGENの非標的位置を示した図であって、非形質転換またはRGEN形質転換細胞でHBB RGENを用いてDigenome‐seqにより確認された標的位置と非標的位置の数を示すベン図である。 Digenome‐seqにより確認され標的ディープシーケンシングにより検証されたHBB RGENの非標的位置を示した図であって、標的位置とDigenome‐seqにより確認された位置を比較したヒートマップ(heatmap)を示したものである。 Digenome‐seqにより確認され標的ディープシーケンシングにより検証されたHBB RGENの非標的位置を示した図であって、Digenome‐seqにより確認された位置で、DNA配列を用いてWebLogoにより得た配列ロゴ(logo)を示したものである。 Digenome‐seqにより確認され標的ディープシーケンシングにより検証されたHBB RGENの非標的位置を示した図であって、Digenome‐seq及び標的化ディープシーケンシングの結果を要約したものである。N.D.は、確認されなかったことを意味する。 Digenome‐seqにより確認され標的ディープシーケンシングにより検証されたHBB RGENの非標的位置を示した図であって、標的化ディープシーケンシングにより検証された非標的位置を示したものである。青色のバーは非形質転換HAP1細胞、赤色のバーはHBB RGEN形質転換HAP1細胞を用いて得たインデル頻度を示したものである。左側には、標的位置及び非標的位置のDNA配列を示しており、不一致塩基は赤色で示し、PAM配列は青色で示した。右側のP値はフィッシャー直接検定(Fisher exact test)で計算したものである。 完全なゲノム配列で確認された偽陽性位置を示した図であって、HAP1細胞で自然的に発生するインデルの結果として示される偽陽性位置周辺の代表的なIGVデータである。 新しく検証された非標的位置でHBB RGENにより誘導されたインデル配列を示した図であって、標的化ディープシーケンシングにより非標的インデルを検出したものである。挿入されたヌクレオチドは赤色で示し、PAM配列は青色で示した。 Digenome‐seqにより確認されたVEGF‐A RGENの非標的位置を示した図であって、VEGF‐A非標的位置のうち1つで5´末端個数のプロットを示したものである。 Digenome‐seqにより確認されたVEGF‐A RGENの非標的位置を示した図であって、標的位置とDigenome‐seqにより確認された位置を比較したヒートマップである。与えられた位置で、暗い赤色は100%、暗い青色は0%一致することを示す。 Digenome‐seqにより確認されたVEGF‐A RGENの非標的位置を示した図であって、Digenome‐seqにより確認された位置で、DNA配列を用いてWebLogoにより得た配列ロゴを示したものである。 Digenome‐seqにより確認されたVEGF‐A RGENの非標的位置を示した図であって、Digenome‐seq及び標的ディープシーケンシングの結果を要約したものである。N.D.は、確認されなかったことを意味する。 Digenome‐seqにより確認されたVEGF‐A RGENの非標的位置を示した図であって、標的化ディープシーケンシングにより検証された非標的位置を示したものである。青色のバーは非形質転換HAP1細胞、赤色のバーはVEGF‐A RGEN形質転換HAP1細胞を用いて得たインデル頻度を示す。左側には、標的位置及び非標的位置のDNA配列を示しており、不一致塩基は赤色で、PAM配列は青色で示した。右側のP値は、フィッシャー直接検定(Fisher exact test)で計算したものである。 VEGF‐A RGENの非標的位置を確認するためのRGEN誘導Digenome‐seqを示した図であって、標的位置においてヌクレオチド位置による同一の5´末端を有する塩基配列データの絶対的及び相対的数字を示す5´末端プロットを示したものである。 VEGF‐A RGENの非標的位置を確認するためのRGEN誘導Digenome‐seqを示した図であって、非標的位置においてヌクレオチド位置による同一の5´末端を有する塩基配列データの絶対的及び相対的数字を示す5´末端プロットを示したものである。 VEGF‐A RGENの非標的位置を確認するためのRGEN誘導Digenome‐seqを示した図であって、非標的位置においてヌクレオチド位置による同一の5´末端を有する塩基配列データの絶対的及び相対的数字を示す5´末端プロットを示したものである。 VEGF‐A RGENの非標的位置を確認するためのRGEN誘導Digenome‐seqを示した図であって、非標的位置においてヌクレオチド位置による同一の5´末端を有する塩基配列データの絶対的及び相対的数字を示す5´末端プロットを示したものである。 新しく検証された非標的位置でVEGF‐A RGENにより誘導されたインデル配列を示した図であって、非標的インデルは、標的化ディープシーケンシングにより検出した。挿入されたヌクレオチドは赤色で示し、PAM配列は青色で示した。 Digenome‐seq分析に対するインビトロDNA切断点数付与システムを示したものである。 向上したDigenome‐seq分析を示した図であって、インビトロDNA切断点数のゲノムレベルのCircosプロットを示したものである。ヒトゲノムDNA(赤色)及びRGENで切断されたゲノムDNA(緑色)を用いて全ゲノムシーケンシング(whole genome sequencing、WGS)を行った。 向上したDigenome‐seq分析を示した図であって、オリゴヌクレオチド二本鎖またはプラスミドから転写されたsgRNAを用いたDigenome‐seqを示す模式図である。 向上したDigenome‐seq分析を示した図であって、オリゴヌクレオチド二本鎖またはプラスミドから転写されたsgRNAを用いて得た配列ロゴを示したものである。 インビトロDNA切断点数付与システムの再現性を示した図である。 オリゴヌクレオチド二本鎖から転写されたsgRNAを用いたDigenome‐seqにより確認されたバルジ型(bulge‐type)非標的位置を示したものである。 複合(multiplex)Digenome‐seqを示した図であって、複合Digenome‐seqを示す模式図である。 複合(multiplex)Digenome‐seqを示した図であって、単一及び複合Digenome‐seq分析により確認されたインビトロ切断位置の数字をベン図で示したものである。 複合(multiplex)Digenome‐seqを示した図であって、単一または複合Digenome‐seqにより得たX染色体上のインビトロDNA切断点数を示したものである。 複合Digenome‐seqにより確認された位置を分析した図であって、Digenome‐seq、GUIDE‐seq及びHTGTSにより確認した位置の数字をベン図で示したものである。 複合Digenome‐seqにより確認された位置を分析した図であって、総不一致数(上側)及びシード部位(seed region)における不一致数(下側)による、Digenome‐seqにより確認された位置の割合を示したものである。 複合Digenome‐seqにより確認された位置を分析した図であって、ヒトゲノムで6以下のヌクレオチド不一致を有する位置の数及びDigenome‐seqにより確認された位置の数を散布図(scatterplot)で示したものである(上側)。11個のRGEN標的位置をG1(ヒトゲノムで6以下のヌクレオチド不一致を有する位置が13,000個未満)及びG2(ヒトゲノムで6以下のヌクレオチド不一致を有する位置が16,000個以上)の2つのグループに分けた(下側)。エラーバーはSEMを示す。P値はスチューデントt検定(Student`s t‐test)で計算したものである。 複合Digenome‐seqにより確認された位置を分析した図であって、GUIDE‐seqにより確認された位置の数及びDigenome‐seqにより確認された位置の数を散布図で示したものである。 GUIDE‐seq陽性位置の数及びヒトゲノムで6以下のヌクレオチド不一致を有する相同性位置の数との相関関係が不十分であることを示したものである。 HTGTS及びGUIDE‐seqによっては確認されたが、Digenome‐seqによっては確認されなかった2個のEMX1非標的位置を示したものである。 Digenome‐seq及びCHIP‐seqにより確認された位置の数をベン図で示したものである。 RNF2‐特異的sgRNAによって形質転換されたHeLa細胞で確認された標的及び非標的位置におけるインデル頻度をlog scaleで示したものである。 非標的位置で標的化ディープシーケンシング(deep sequencing)を用いてインデル頻度を確認したものであって、一般的なsgRNA(gX19 sgRNA)及び変形されたsgRNA(ggX20 sgRNA)を模式的に示したものである。 非標的位置で標的化ディープシーケンシング(deep sequencing)を用いてインデル頻度を確認したものであって、NGSにより検証されたEMX1の標的及び非標的位置におけるインデル頻度を示したものである。 非標的位置で標的化ディープシーケンシング(deep sequencing)を用いてインデル頻度を確認したものであって、NGSにより検証されたHEK293‐3の標的及び非標的位置におけるインデル頻度を示したものである。 非標的位置で標的化ディープシーケンシング(deep sequencing)を用いてインデル頻度を確認したものであって、NGSにより検証されたRNF2 sgRNAの標的及び非標的位置におけるインデル頻度を示したものである。 非標的位置で標的化ディープシーケンシング(deep sequencing)を用いてインデル頻度を確認したものであって、EMX1の標的位置におけるインデル頻度を非標的位置におけるインデル頻度で除して計算した特異性比(specificity ratios)を示したものである。 非標的位置で標的化ディープシーケンシング(deep sequencing)を用いてインデル頻度を確認したものであって、HEK293‐3の標的位置におけるインデル頻度を非標的位置におけるインデル頻度で除して計算した特異性比(specificity ratios)を示したものである。 非標的位置で標的化ディープシーケンシング(deep sequencing)を用いてインデル頻度を確認したものであって、RNF2 sgRNAの標的位置におけるインデル頻度を非標的位置におけるインデル頻度で除して計算した特異性比(specificity ratios)を示したものである。 NGSにより検証された非標的位置及びNGSにより検証されなかった非標的位置を分析したものであって、全体20‐nt配列で示された不一致による非標的位置での相対的なインデル頻度(log scale)プロットを示したものである。NGSにより確認した位置(図22a)は、検証された位置(図22b)及び検証されなかった位置(図22c)の2つのグループに分けた。 NGSにより検証された非標的位置及びNGSにより検証されなかった非標的位置を分析したものであって、10‐ntシード配列で示された不一致による非標的位置での相対的なインデル頻度(log scale)プロットを示したものである。 NGSにより検証された非標的位置及びNGSにより検証されなかった非標的位置を分析したものであって、10‐ntシード配列で示された不一致による非標的位置での相対的なインデル頻度(log scale)プロットを示したものである。 100個の標的位置に対してDigenome‐seqを行った結果を示したものであって、試験過程を模式的に示したものである。 100個の標的位置に対してDigenome‐seqを行った結果を示したものであって、Digenome‐seqに基づいて非標的位置を予測するプログラムと他のプログラム(Crop‐it)を比較した結果を示したものである。 Digenome‐seqによりZFN(zinc finger nuclease)の非標的効果をゲノムレベルで確認したものであって、ZFN‐224処理前/後の標的位置の代表的なIGV写真である。 Digenome‐seqによりZFN(zinc finger nuclease)の非標的効果をゲノムレベルで確認したものであって、未処理ゲノムDNA(赤色)、ZFN‐224(WT FokI)で切断したDNA(緑色)、及びZFN‐224(KK/EL FokI)で切断したDNA(青色)のゲノムレベルでインビトロDNA切断点数を示すCircosプロットを示したものである。 Digenome‐seqによりZFN(zinc finger nuclease)の非標的効果をゲノムレベルで確認したものであって、ZFN‐224(WT FokI)での非標的候補位置を用いて得た配列ロゴ(sequence logo)を示したものである。 Digenome‐seqによりZFN(zinc finger nuclease)の非標的効果をゲノムレベルで確認したものであって、ZFN‐224(KK/EL FokI)での非標的候補位置を用いて得た配列ロゴ(sequence logo)を示したものである。 ZFNのDigenome‐seqにより非標的位置を検出した結果を示したものであって、ZFN‐224(KK/EL FokI)の非標的候補位置で標的化ディープシーケンシングを用いてインデル頻度を測定したものである。 ZFNのDigenome‐seqにより非標的位置を検出した結果を示したものであって、Digenome‐seq、ILDV、及びインビトロ選択により検出した非標的候補位置の数を示したベン図である。 ZFNのDigenome‐seqにより非標的位置を検出した結果を示したものであって、Digenome‐seq、ILDV、及びインビトロ選択により検出した、検証された標的位置の数を示したベン図である。
上記の目的を達成するための一様態として、本発明は、(a)分離されたゲノム(genomic)DNAを標的特異的プログラマブルヌクレアーゼ(programmable nuclease)で切断するステップと、(b)前記切断されたDNAに対する次世代シーケンシング(next generation sequencing)を行うステップと、(c)前記シーケンシングにより得た塩基配列データ(sequence read)で前記切断された位置を決定するステップと、を含む、プログラマブルヌクレアーゼの非標的位置(off‐target site)を検出する方法を提供する。本発明者らは、上記の方法を「Digenome‐seq」と命名し、これは、ヌクレアーゼにより切断されたゲノムシーケンシング(nuclease‐digested genomic DNA sequencing)を意味する。
ゲノム編集/遺伝子編集技術は、ヒト細胞を始めとする動植物細胞のゲノム塩基配列に標的指向型変異を導入できる技術であって、特定遺伝子をノックアウト(knock‐out)またはノックイン(knock‐in)したり、タンパク質を生成しないノンコードDNA配列にも変異を導入したりすることができる。本発明の方法は、前記ゲノム編集/遺伝子編集技術に用いられるプログラマブルヌクレアーゼの非標的位置を検出することであって、これは、標的位置にのみ特異的に働くプログラマブルヌクレアーゼの開発に有用に用いられることができる。
(a)ステップは、分離されたゲノム(genomic)DNAを標的特異的プログラマブルヌクレアーゼ(programmable nuclease)で切断するステップであって、換言すれば、分離されたゲノムDNAを、インビトロ(in vitro)で特定標的に特異的に働くプログラマブルヌクレアーゼを用いて切断するステップである。但し、プログラマブルヌクレアーゼは、標的特異的に製作したとしても、特異性によって、他の部位、すなわち、非標的位置も切断し得る。したがって、前記(a)ステップにより、用いられた標的特異的プログラマブルヌクレアーゼが、ゲノムDNAに対して活性を有し得る位置である標的位置及び多数の非標的位置を切断することで、特定位置が切断されたゲノムDNAが得られる。前記ゲノムDNAの種類は特に制限されず、野生型細胞または形質転換された細胞のゲノムDNAであってもよい。また、前記形質転換された細胞は、Digenome‐seqの目的によって、特定プログラマブルヌクレアーゼを発現するように形質転換されたものであってもよい。
本発明において、用語「プログラマブルヌクレアーゼ(programmable nuclease)」は、目的とするゲノム上の特定位置を認識して切断することのできる全ての形態のヌクレアーゼを意味する。これに制限されるものではないが、特に、ゲノム上の特定標的配列を認識するドメインである植物病原性遺伝子由来のTALエフェクター(transcription activator‐like effector)ドメインと切断ドメインが融合されたTALEN(transcription activator‐like effector nuclease)、ジンクフィンガーヌクレアーゼ(zinc‐finger nuclease)、メガヌクレアーゼ(meganuclease)、微生物免疫システムであるCRISPR由来のRGEN(RNA‐guided engineered nuclease)、Cpf1、アゴホモログ(Ago homolog、DNA‐guided endonuclease)などが含まれてもよい。
前記プログラマブルヌクレアーゼは、ヒト細胞を始めとする動植物細胞のゲノムで特定塩基配列を認識し、二本鎖切断(double strand break、DSB)を起こす。前記二本鎖切断は、DNAの二本鎖を切断して鈍端(blunt end)または付着末端(cohesive end)を形成することを全て含む。DSBは、細胞内で相同組換え(homologous recombination)または非相同末端結合(non‐homologous end‐joining、NHEJ)機構により効率的に修復されるが、この過程で、研究者が所望の変異を標的部位に導入することができる。前記プログラマブルヌクレアーゼは、人工的な、もしくは操作された非天然発生(non‐naturally occurring)のものであってもよい。
本発明において、用語「標的位置(on‐target site)」とは、前記プログラマブルヌクレアーゼを用いて変異を導入しようとする位置を意味し、その目的に応じて任意に選択できるものであって、特定遺伝子内に存在してもよく、タンパク質を生成しないノンコードDNA配列であってもよい。
前記プログラマブルヌクレアーゼは配列特異性(specificity)を有するため標的位置に作用するが、標的配列によって非標的位置(off‐target site)に作用することもある。本発明において、用語「非標的位置(off‐target site)」とは、プログラマブルヌクレアーゼの標的配列と同一ではない配列を有する位置で前記プログラマブルヌクレアーゼが活性を有する位置を意味する。すなわち、プログラマブルヌクレアーゼにより切断される標的位置以外の位置を意味する。特に、本発明において非標的位置は、特定のプログラマブルヌクレアーゼに対する実際の非標的位置だけでなく、非標的位置となる可能性のある位置も含む概念であって、前記非標的位置は、これに制限されるものではないが、インビトロ(in vitro)でプログラマブルヌクレアーゼにより切断される位置である。
プログラマブルヌクレアーゼが標的位置以外の位置でも活性を有することは、様々な原因により引き起こされ得る現象であるが、特に、標的位置に対して設計された標的配列とヌクレオチド不一致(mismatch)を有する、標的位置と配列相同性が高い非標的配列である場合に、プログラマブルヌクレアーゼが働く可能性がある。前記非標的位置は、これに制限されるものではないが、標的配列と1以上のヌクレオチド不一致(mismatch)を有する位置である。
これは、ゲノム内で不所望の遺伝子の突然変異を引き起こす恐れがあるため、前記プログラマブルヌクレアーゼを用いるにおいて深刻な問題となり得る。したがって、プログラマブルヌクレアーゼの標的位置での活性なみに非標的位置を正確に検出して分析する過程も非常に重要であり、これは、非標的効果なしに標的位置にのみ特異的に働くプログラマブルヌクレアーゼを開発するにおいて有用に用いられることができる。
前記プログラマブルヌクレアーゼは、メガヌクレアーゼ(meganuclease)、ZFN(zinc finger nuclease)、TALEN(transcription activator‐like effector nuclease)、RGEN(RNA‐guided engineered nuclease)、Cpf1、及びAgoホモログからなる群から選択されるものであってもよいが、これに制限されるものではなく、標的遺伝子の特定配列を認識し、ヌクレオチド切断活性を有して、標的遺伝子でインデル(insertion and deletion、Indel)を引き起こすことができるものであれば、何れも本発明の範囲に含まれることができる。
前記メガヌクレアーゼは、これに制限されるものではないが、自然発生のメガヌクレアーゼであってもよく、これらは、15‐40個の塩基対の切断部位を認識する。これは、通常、LAGLIDADGファミリー、GIY‐YIGファミリー、His‐Cystボックスファミリー、及びHNHファミリーの4つのファミリーに分類される。メガヌクレアーゼとしては、例えば、I‐SceI、I‐CeuI、PI‐PspI、PI‐SceI、I‐SceIV、I‐CsmI、I‐PanI、I‐SceII、I‐PpoI、I‐SceIII、I‐CreI、I‐TevI、I‐TevII、及びI‐TevIIIが挙げられる。
自然発生のメガヌクレアーゼ、主に、LAGLIDADGファミリーに由来するDNA結合ドメインを用いて、植物、酵母、ショウジョウバエ(Drosophila)、哺乳動物細胞及びマウスで位置‐特異的ゲノム変形が促進されていたが、このようなアプローチは、メガヌクレアーゼ標的配列が保存された相同性遺伝子の変形(Monet et al.(1999)Biochem.Biophysics.Res.Common.255:88‐93)であって、標的配列が導入される前に操作されたゲノムの変形には限界があった。したがって、医学的または生命工学的に係わる部位において新規な結合特異性を示すようにメガヌクレアーゼを操作しようとする試みがあった。また、メガヌクレアーゼに由来する自然発生または操作されたDNA結合ドメインが、異種性ヌクレアーゼ(例えば、FokI)に由来する切断ドメインに働くように連結された。
前記ZFNは、選択された遺伝子、及び切断ドメインまたは切断ハーフ‐ドメインの標的部位に結合するように操作されたジンクフィンガータンパク質を含む。前記ZFNは、ジンクフィンガーDNA結合ドメイン及びDNA切断ドメインを含む人工的な制限酵素であってもよい。ここで、ジンクフィンガーDNA結合ドメインは、選択された配列に結合するように操作されたものであってもよい。例えば、Beerli et al.(2002)Nature Biotechnol.20:135‐141;Pabo et al.(2001)Ann.Rev.Biochem.70:313‐340;Isalan et al,(2001)Nature Biotechnol.19:656‐660;Segal et al.(2001)Curr.Opin.Biotechnol.12:632‐637;Choo et al.(2000)Curr.Opin.Struct.Biol.10:411‐416が本明細書の参照資料として含まれることができる。自然発生のジンクフィンガータンパク質に比べて、操作されたジンクフィンガー結合ドメインは新規な結合特異性を有することができる。操作方法は、合理的設計及び様々なタイプの選択を含むが、これに限定されない。合理的設計は、例えば、三重(または四重)ヌクレオチド配列、及び個別ジンクフィンガーアミノ酸配列を含むデータベースの利用を含み、この際、それぞれの三重または四重ヌクレオチド配列は、特定の三重または四重配列に結合するジンクフィンガーの1つ以上の配列と連合される。
標的配列の選択、融合タンパク質(及びそれを暗号化するポリヌクレオチド)の設計及び構成は、当業者に公知となっており、参照資料として米国特許出願公開2005/0064474及び2006/0188987の全文に詳細に説明されており、前記公開特許の全文が本発明の参照資料として本明細書に含まれる。また、このような参考文献及び当業界における他の文献に開示されているように、ジンクフィンガードメイン及び/または多重‐フィンガージンクフィンガータンパク質が任意の適切なリンカー配列、例えば、5個以上のアミノ酸長のリンカーを含むリンカーによってともに連結され得る。6個以上のアミノ酸長のリンカー配列の例は、米国登録特許6,479,626;6,903,185;7,153,949を参考とする。これに説明されたタンパク質は、タンパク質の各ジンクフィンガーの間に適切なリンカーの任意の組合せを含むことができる。
また、ZFNのようなヌクレアーゼは、ヌクレアーゼ活性部分(切断ドメイン、切断ハーフ‐ドメイン)を含む。周知のように、例えば、ジンクフィンガーDNA結合ドメインと異なるヌクレアーゼからの切断ドメインのように、切断ドメインは、DNA結合ドメインに異種性であってもよい。異種性の切断ドメインは、任意のエンドヌクレアーゼやエキソヌクレアーゼから得られる。切断ドメインが由来可能な例示的なエンドヌクレアーゼは、制限エンドヌクレアーゼ及びメガヌクレアーゼを含むが、これに限定されない。
類似に、切断ハーフ‐ドメインは、前記で提示されているように、切断活性のために二量体化を必要とする任意のヌクレアーゼまたはその一部に由来してもよい。融合タンパク質が切断ハーフ‐ドメインを含む場合、一般に、2つの融合タンパク質が切断に必要とされる。代案として、2つの切断ハーフ‐ドメインを含む単一タンパク質が用いられてもよい。2つの切断ハーフ‐ドメインは、同じエンドヌクレアーゼ(またはその機能的断片)に由来してもよく、もしくは、各切断ハーフ‐ドメインが異なるエンドヌクレアーゼ(またはそれの機能的断片)に由来してもよい。また、2つの融合タンパク質の標的部位は、2つの融合タンパク質とその各標的部位の結合により切断‐ハーフドメインが相互に対して空間的に配向して位置することで、切断ハーフ‐ドメインが、例えば二量体化により機能性切断ドメインを形成するようにするといった関係で配置されることが好ましい。したがって、一様態において、3〜8個のヌクレオチドまたは14〜18個のヌクレオチドにより標的部位の隣接した端部が分離される。しかし、任意の定数のヌクレオチドまたはヌクレオチド対が2個の標的部位の間に介在されてもよい(例えば、2〜50個のヌクレオチド対またはそれ以上)。一般に、切断部位は標的部位の間に置かれる。
制限エンドヌクレアーゼ(制限酵素)は多くの種に存在し、DNAに配列‐特異的に結合して(標的部位で)、その結合部位やその付近でDNAを切断することができる。ある制限酵素(例えば、Type IIS)は、認識部位から除去された部位でDNAを切断し、分離可能な結合と切断可能なドメインを有する。例えば、Type IIS酵素FokIは、一本鎖上の認識部位から9個のヌクレオチドにおいて、そして残りの一本鎖上の認識部位から13個のヌクレオチドにおいて、DNAの二本鎖の切断を触媒する。したがって、一様態において、融合タンパク質は少なくとも1個のType IIS制限酵素からの切断ドメイン(または切断ハーフ‐ドメイン)と1つ以上の亜鉛‐フィンガー結合ドメイン(操作されてもよく、そうでなくてもよい)を含む。
本発明において、用語「TALEN」は、DNAのターゲット領域を認識及び切断できるヌクレアーゼをいう。TALENは、TALEドメイン及びヌクレオチド切断ドメインを含む融合タンパク質をいう。本発明において、「TALエフェクターヌクレアーゼ」及び「TALEN」という用語は互換可能である。TALエフェクターは、キサントモナス(Xanthomonas)バクテリアが様々な植物種に感染した際に、それらのタイプIII分泌システムにより分泌されるタンパク質として知られている。前記タンパク質は、宿主植物内のプロモーター配列に結合してバクテリアの感染を助ける植物遺伝子の発現を活性化することができる。前記タンパク質は、34個以下の様々な数のアミノ酸の繰り返しからなる中心繰り返しドメインによって植物DNA配列を認識する。したがって、TALEは、ゲノム工学の道具のための新規なプラットフォームとなり得ると考えられる。但し、ゲノム‐編集活性を有する機能TALENを製作するためには、次のように今まで知られていない少数の主要媒介変数が定義されるべきである。i)TALEの最小DNA‐結合ドメイン、ii)1つのターゲット領域を構成する2つの半分‐部位の間のスペーサーの長さ、及びiii)FokIヌクレアーゼドメインをdTALEに連結するリンカーまたは融合接合(fusion junction)。
本発明のTALEドメインは、1つ以上のTALE‐繰り返しモジュールにより配列‐特異的方式でヌクレオチドに結合するタンパク質ドメインをいう。前記TALEドメインは、少なくとも1個のTALE‐繰り返しモジュール、より具体的には1〜30個のTALE‐繰り返しモジュールを含むが、これに限定されない。本発明において、「TALエフェクタードメイン」及び「TALEドメイン」という用語は互換可能である。前記TALEドメインは、TALE‐繰り返しモジュールの半分を含むことができる。前記TALENについては、国際公開特許WO/2012/093833号または米国公開特許2013‐0217131号に開示の内容全文が本明細書に参照資料として含まれる。
本発明において、用語「RGEN」は、標的DNA特異的ガイドRNA及びCasタンパク質を構成要素として含むヌクレアーゼを意味する。
本発明において、前記RGENは、標的DNA特異的ガイドRNA及び分離されたCasタンパク質の形態でインビトロで分離されたゲノムDNAに適用可能であるが、これに制限されない。
前記ガイドRNAは、インビトロ(in vitro)転写された(transcribed)ものであってもよく、特にオリゴヌクレオチド二本鎖またはプラスミド鋳型から転写されたものであってもよいが、これに制限されない。
本発明において、用語「Casタンパク質」は、CRISPR/Casシステムの主要タンパク質構成要素であって、活性化したエンドヌクレアーゼまたはニッカーゼ(nickase)を形成することができるタンパク質である。
前記Casタンパク質は、crRNA(CRISPR RNA)及びtracrRNA(trans‐activating crRNA)と複合体を形成し、その活性を示すことができる。
Casタンパク質または遺伝子情報は、NCBI(National Center for Biotechnology Information)のGenBankのような公知のデータベースから得ることができる。具体的に、前記Casタンパク質はCas9タンパク質であってもよい。また、前記Casタンパク質は、ストレプトコッカス(Streptococcus)属、より具体的に、溶連菌(Streptococcus pyogens)由来のCasタンパク質、より具体的にはCas9タンパク質であってもよい。また、前記Casタンパク質は、ナイセリア(Neisseria)属、より具体的に、ナイセリアメニンギチジス(Neisseria meningitidis)由来のCasタンパク質、より具体的にはCas9タンパク質であってもよい。また、前記Casタンパク質は、パスツレラ(Pasteurella)属、より具体的に、パスツレラマルトシダ(Pasteurella multocida)由来のCasタンパク質、より具体的にはCas9タンパク質であってもよい。また、前記Casタンパク質は、フランシセラ(Francisella)属、より具体的に、フランシセラノビシダ(Francisella novicida)由来のCasタンパク質、より具体的にはCas9タンパク質であってもよい。また、前記Casタンパク質は、カンピロバクター(Campylobacter)属、より具体的に、カンピロバクタージェジュニ(Campylobacter jejuni)由来のCasタンパク質、より具体的にはCas9タンパク質であってもよい。しかし、上記の例に本発明が制限されるものではない。
また、前記Casタンパク質は、天然型タンパク質の他にも、ガイドRNAと協動して活性化されたエンドヌクレアーゼまたはニッカーゼ(nickase)として作用可能な変異体を全て含む概念として本発明で用いられる。前記Cas9タンパク質の変異体は、触媒的アスパラギン酸残基(catalytic aspartate residue)が任意の他のアミノ酸に変更されたCas9の突然変異形態であることができる。具体的に、他のアミノ酸はアラニン(alanine)であってもよいが、これに制限されない。
本発明において、前記Casタンパク質は組換えタンパク質であってもよい。
前記用語「組換え」は、例えば、細胞、核酸、タンパク質またはベクターなどを言及しながら用いられる際に、異種(heterologous)核酸またはタンパク質の導入または天然型(native)核酸またはタンパク質の変更、または変形された細胞に由来した細胞によって変形された細胞、核酸、タンパク質、またはベクターを示す。したがって、例えば、組換えCasタンパク質は、ヒトコドン表(human codon table)を用いてCasタンパク質を暗号化する配列を再構成することで作製することができる。
前記Casタンパク質またはそれをコードする核酸は、Casタンパク質が核内で作用できるようにする形態であってもよい。
前記分離されたCasタンパク質は、また、細胞内に容易に導入される形態であってもよい。その例として、Casタンパク質は、細胞浸透ペプチドまたはタンパク質導入ドメイン(protein transduction domain)と連結されることができる。前記タンパク質導入ドメインは、ポリ‐アルギニンまたはHIV由来のTATタンパク質であってもよいが、これに制限されない。細胞浸透ペプチドまたはタンパク質導入ドメインは、上述の例の他にも種々のものが当業界に公知となっているため、当業者であれば、前記例に制限されずに様々な例を本発明に適用することができる。
また、前記Casタンパク質をコードする核酸は、核移行シグナル(nuclear localization signal、NLS)配列をさらに含むことができる。したがって、前記Casタンパク質をコードする核酸を含む発現カセットは、前記Casタンパク質を発現させるためのプロモーター配列などの調節配列の他にもNLS配列を含むことができる。しかし、これに制限されない。
Casタンパク質は、分離及び/または精製に有利なタグと連結されることができる。その例として、Hisタグ、Flagタグ、Sタグなどのような小さいペプチドタグ、またはGST(Glutathione S‐transferase)タグ、MBP(Maltose binding protein)タグなどを目的に応じて連結することができるが、これに制限されない。
本発明において、用語「ガイドRNA(guide RNA)」は、標的DNA特異的なRNAを意味し、Casタンパク質と結合してCasタンパク質を標的DNAに導くことができる。
本発明において、ガイドRNAは、2つのRNA、すなわち、crRNA(CRISPR RNA)及びtracrRNA(trans‐activating crRNA)を構成要素として含むデュアルRNA(dual RNA);または標的DNA内の配列と相補的な配列を含む第1部位と、Casタンパク質と相互作用する配列を含む第2部位と、を含む形態、より具体的に、crRNA及びtracrRNAの主要部分が融合された形態である単鎖ガイドRNA(single‐chain guide RNA;sgRNA)であってもよい。
前記sgRNAは、標的DNA内の配列と相補的な配列を有する部分(これをSpacer region、Target DNA recognition sequence、base pairing regionなどと命名することもある)及びCasタンパク質の結合のためのhairpin構造を含むことができる。より具体的に、標的DNA内の配列と相補的な配列を有する部分、Casタンパク質の結合のためのhairpin構造及びTerminator配列を含むことができる。上述の構造は、5´から3´の順に順次に存在するものであってもよい。しかし、これに制限されるものではない。
前記ガイドRNAがcrRNA及びtracrRNAの主要部分及び標的DNAの相補的な部分を含む場合であれば、如何なる形態のガイドRNAも本発明で用いられることができる。
前記crRNAは、標的DNAとハイブリダイズされたものであってもよい。
RGENは、Casタンパク質及びdual RNAで構成されてもよく、Casタンパク質及びsgRNAで構成されてもよいが、これに制限されない。
前記ガイドRNA、具体的にcrRNAまたはsgRNAは、標的DNA内の配列と相補的な配列を含み、crRNAまたはsgRNAの上流部位、具体的にsgRNAまたはdualRNAのcrRNAの5´末端に1つ以上の追加のヌクレオチドを含むことができる。前記追加のヌクレオチドはグアニン(guanine、G)であってもよいが、これに制限されるものではない。
本発明の目的上、前記RGENはインビボ(in vivo)、そしてインビトロ(in vitro)でヌクレアーゼ活性を有することができる。したがって、インビトロでゲノムDNAの非標的位置を検出するのに用いられることができ、これをインビボで適用した時に、前記検出された非標的位置と同一の位置でも活性を有すると予想される。
前記ゲノムDNAは、非形質転換細胞または標的特異的プログラマブルヌクレアーゼがヌクレアーゼ活性を有するように形質転換された細胞から分離されたものであり、プログラマブルヌクレアーゼの非標的位置を検出しようとする目的に応じて、その由来が制限されることなく用いられることができる。
本発明において、用語「Cpf1」は、前記CRISPR/Casシステムとは区別される新しいCRISPRシステムのプログラマブルヌクレアーゼであって、Cpf1のプログラマブルヌクレアーゼとしての役割は、最近報告された(Cell,2015,163(3):759‐71)。前記Cpf1は単一RNAにより駆動されるプログラマブルヌクレアーゼであって、tracrRNAが不要であり、Cas9に比べて相対的に大きさが小さい特徴を有する。また、チミン(thymine)が豊かなPAM(protospacer‐adjacent motif)配列を用いてDNAの二本鎖を切断し付着末端(cohesive end)を作る。前記Cpf1は、これに制限されるものではないが、特にカンジダタスパセイバックター(Candidatus Paceibacter)、ラクノスピラ(Lachnospira)属、ブチリビブリオ(Butyrivibrio)属、ペレグリニバクテリア(Peregrinibacteria)、アシダミノコッカス(Acidominococcus)属、ポルフィロモナス(Porphyromonas)属、プレボテラ(Prevotella)属、フランシセラ(Francisella)属、カンジダタスメタノプラズマ(Candidatus Methanoplasma)、またはユーバクテリウム(Eubacterium)属由来であってもよい。
本発明の具体的な一実施例では、HBB遺伝子を標的としたRGENを、インビトロ(in vitro)で分離されたゲノムDNAに処理した結果、標的位置及び一部の非標的予想位置が切断され、インビボ(in vivo)では、前記部位にインデル(insertion and deletion、Indel)が誘導されることを確認した(図1)。しかし、全ての非標的予想位置が切断されるのではなかった。
(b)ステップは、前記(a)ステップで切断されたDNAを用いて次世代シーケンシング(next generation sequencing、NGS)を行うステップであって、標的位置の配列と相同性を有する配列を探して非標的位置であろうと予測する間接的な方法と異なって、全体ゲノムレベルで実質的にプログラマブルヌクレアーゼにより切断される非標的位置を検出するために行うステップである。
本発明において、用語「全ゲノムシーケンシング(whole genome sequencing)」は、次世代シーケンシング(next generation sequencing)による全長ゲノム配列を10X、20X、40Xの形式で様々な倍数でゲノムを読む方法を意味する。「次世代シーケンシング」は、チップ(Chip)ベース、そしてPCRベースのペアエンド(paired end)形式で全長ゲノムを切り、その断片を、化学的な反応(hybridization)に基づいてシーケンシングを超高速で行う技術を意味する。
(c)ステップは、前記次世代シーケンシング(next generation sequencing、NGS)により得た塩基配列データ(sequence read)で、DNAが切断された位置を決定するステップであって、シーケンシングデータを分析することで、プログラマブルヌクレアーゼの標的位置及び非標的位置を簡便に検出することができる。前記塩基配列データから、DNAが切断された特定位置を決定することは様々なアプローチ法により行われることができ、本発明では、前記位置を決定するための様々な合理的な方法を提供する。しかし、これは本発明の技術的思想に含まれる例示に過ぎず、本発明の範囲がこれら方法により制限されるものではない。
例えば、前記切断された位置を決定するための一例として、全ゲノムシーケンシングにより得た塩基配列データを、分析プログラム(例えば、BWA/GATKまたはISAAC)を用いてゲノム上の位置に応じて整列した場合、5´末端が垂直整列された位置が、DNAが切断された位置を意味することができる。換言すれば、本発明において、用語「垂直整列」とは、BWA/GATKまたはISAACなどのプログラムで全ゲノムシーケンシングの結果を分析した際に、隣接したワトソン鎖(Watson strand)とクリック鎖(Crick strand)のそれぞれに対して、2個以上の塩基配列データの5´末端がゲノム上の同一の位置(nucleotide position)から始まる配列をいう。これは、プログラマブルヌクレアーゼにより切断されて同一の5´末端を有することになるDNA断片がそれぞれシーケンシングされて現われるものである。
すなわち、プログラマブルヌクレアーゼが標的位置及び非標的位置でヌクレアーゼ活性を有して前記部位を切断する場合、塩基配列データを整列すると、共通的に切断された部位は、それぞれその位置が5´末端から始まるため垂直整列されるが、切断されなかった部位には5´末端が存在しないため、整列時にスタッガード(staggered)方式で配列され得る。そのため、垂直整列された位置を、プログラマブルヌクレアーゼにより切断された部位であるとみなすことができ、これは、プログラマブルヌクレアーゼの標的位置または非標的位置を意味し得る。
前記整列は、標準塩基配列(reference genome)に塩基配列データをマッピングした後、ゲノムで同一位置を有する塩基を各位置に応じて配列することを意味する。したがって、塩基配列データを上記のような方式で整列することができれば、如何なるコンピュータプログラムも利用可能であって、これは、当業界において公知のプログラムであってもよく、目的に応じて製作されたプログラムであってもよい。本発明の一実施例では、ISAACを用いて整列を行ったが、これに制限されるものではない。
整列結果、上述のように5´末端が垂直整列された位置を探すなどの方法によって、プログラマブルヌクレアーゼによりDNAが切断された位置を決定することができ、前記切断された位置が標的位置(on‐target site)ではないと、非標的位置(off‐target site)であると判断することができる。換言すれば、プログラマブルヌクレアーゼの標的位置として設計した塩基配列と同一の配列は標的位置であり、前記塩基配列と同一ではない配列は非標的位置と判断することができる。これは、上述の非標的位置の定義から自明なことである。前記非標的位置は、特に、標的位置の配列と相同性を有する配列で構成されたものであり得る。具体的には、標的位置と1個以上のヌクレオチド不一致(mismatch)を有する配列、より具体的には、標的位置と1〜6個のヌクレオチド不一致を有するものであり得るが、これに特に制限されるものではなく、プログラマブルヌクレアーゼが切断可能な位置であれば本発明の範囲に含まれ得る。この際、前記標的位置は、ガイドRNAと相補的な15〜30ヌクレオチド配列であってもよく、ヌクレアーゼが認識する配列(例えば、Cas9の場合、Cas9が認識するPAM配列)をさらに含んでもよい。
非標的位置は、5´末端が垂直整列された位置を探す方法の他にも、5´末端プロットで二重ピークパターンを示す場合、その位置が標的位置ではないと、非標的位置であると判断することができる。ゲノム内の各位置に対して、同一の塩基の5´末端を構成しているヌクレオチドの数を数えてグラフを描く場合、特定位置で二重ピークパターンが示されることになるが、前記二重ピークは、プログラマブルヌクレアーゼにより切断された二本鎖のそれぞれの鎖によって示されるものであるためである。
本発明の具体的な一実施例では、ゲノムDNAをRGENで切断してから、全体ゲノムを分析した後、それをISAACを用いて整列し、切断された位置では垂直整列、切断されなかった位置ではスタッガード方式で整列されるパターンを確認した。これを5´末端プロットで示した際に、切断部位で二重ピークの独特のパターンが示されることを確認した(図2〜図4)。
さらには、これに制限されるものではないが、具体例として、ワトソン鎖(Watson strand)とクリック鎖(Crick strand)に該当する塩基配列データ(sequence read)がそれぞれ2つ以上ずつ垂直整列される位置を非標的位置であると判断することができる。また、20%以上の塩基配列データが垂直整列され、それぞれのワトソン鎖及びクリック鎖で同一の5´末端を有する塩基配列データの数が10以上である位置が非標的位置、すなわち、切断される位置であると判断することができる。
本発明の具体的な一実施例では、両鎖で同一の5´末端を有する塩基配列データの数が10以上であり、少なくとも19%の塩基配列データが垂直整列される位置を検索した。その結果、既存に検証された標的及び非標的位置を含む125個の位置を検出することで、Digenome‐seqが高度の再現性を有することを確認した(図5〜図7)。
本発明の他の具体的な一実施例では、他の標的遺伝子であるVEGF‐Aに対してもDigenome‐seqにより非標的位置を検出できることを確認した(図8〜図10)。また、他の具体的な一実施例では、Digenome‐seqが、RGENでなくZFNの非標的位置も検出できることを確認した(図24)。結論的に、前記結果から、本発明のDigenome‐seqは、標的位置及びプログラマブルヌクレアーゼの種類にかかわらずプログラマブルヌクレアーゼの非標的位置を検出することができる方法であることが分かる。
前記非標的位置の検出は、インビトロ(in vitro)でプログラマブルヌクレアーゼをゲノムDNAに処理して行うことができる。したがって、前記方法により検出された非標的位置に対して、実質的にインビボ(in vivo)でも非標的効果があるかを確認することができる。但し、これは追加的な検証過程に過ぎないため、本発明の範囲に必ずしも伴われるステップであるわけではなく、必要に応じて追加的に行われるステップに過ぎない。本発明において、用語「非標的効果(off‐target effect)」は、非標的位置(off‐target site)とは区別される概念である。すなわち、上述のように、本発明において非標的位置という概念は、プログラマブルヌクレアーゼが働くことができる位置のうち標的位置ではない位置を意味するものであって、ヌクレアーゼにより切断される位置を意味するが、非標的効果は、細胞内の非標的位置でプログラマブルヌクレアーゼによりインデル(Insertion and deletion)が発生する効果を意味する。本発明において、用語「インデル」は、DNAの塩基配列において一部の塩基が中間に挿入(insertion)または欠失(deletion)された変異を通称するものである。また、プログラマブルヌクレアーゼによって前記インデルが発生した非標的位置を、非標的インデル位置と言う。結論的に、本発明の非標的位置は、非標的インデル位置を含む概念であり、プログラマブルヌクレアーゼが活性を有することができる可能性のある位置であればよく、必ずしもプログラマブルヌクレアーゼによるインデルが確認されなければならないのではない。一方、本発明における非標的位置は非標的候補位置(candidate off‐target site)であって、非標的インデル位置は、検証された非標的位置(validated off‐target site)とも命名される。
具体的に、前記検証過程は、これに制限されるものではないが、前記非標的位置に対するプログラマブルヌクレアーゼが発現された細胞からゲノムDNAを分離し、前記DNAの非標的位置でインデルを確認することで、非標的位置での非標的効果を確認することであることができる。これは、T7E1分析、Cel‐I酵素を用いた突然変異検出分析または標的化ディープシーケンシング(targeted deep sequencing)などの当業界に公知のインデル確認方法を行うことで、非標的効果を確認することであることができる。前記非標的効果を確認するステップは、非標的位置でインデルが発生したかを直接的に確認することであることができる。但し、このようなインビボ検証過程でインデルが発生しなかったとしても、これは検出可能なレベル以下の頻度でインデルが発生した場合まで確認したわけではないため、あくまでも補助的な手段としてみなすべきである。
上述のように、垂直整列された位置を確認するか、または5´末端プロットで二重ピークを確認するだけでも、非標的位置を十分に検出することができ、これは高度の再現性を有する。しかし、不均一な切断パターンまたは低いシーケンシング深さ(depth)を有する一部位置が漏れる恐れがあるという問題がある。そこで、本発明者らは、塩基配列データの整列パターンに基づいて、各ヌクレオチドの位置にDNA切断点数を算出する数式を開発(図11)し、これは次のとおりである:
前記数式により、既存のDigenome‐seqによっては検出されなかった多数の追加的な位置を検出することができ、これにより、偽陽性位置を簡単にフィルタリングすることができる。前記数式においてC値は、当業者が任意の定数を適用できるものであって、本発明の実施例によって制限されるものではない。特に、これに制限されるものではないが、例えば、C値を100として前記算出された点数が25,000点以上である場合、非標的位置であると判断することができる。但し、前記点数の基準は、目的に応じて当業者が適宜調整および変更することができる。
本発明の具体的な一実施例では、既存のDigenome‐seq方式に前記DNA切断点数を導入して非標的位置を検出しており、その結果、単純に垂直整列位置を探す方式に比べて追加的な位置を検出することができ、これは高度の再現性を有することを確認した(図12及び図13)。本発明の他の具体的な一実施例では、RGENのsgRNAにおいて、プラスミド鋳型から転写されたものとオリゴヌクレオチド二本鎖から転写されたものとを比較し、プラスミド鋳型から転写されたsgRNAを使用した場合に、検出された非標的位置が標的位置とさらに高度の相同性を有することを確認した(図14、表1及び表2)。
さらに、本発明のDigenome‐seqは複数のプログラマブルヌクレアーゼを用いて行ってもよく、本発明者らはこれを「複合Digenome‐seq」と命名した。この場合、前記プログラマブルヌクレアーゼは、2個以上、具体的には2〜100個の標的に対するプログラマブルヌクレアーゼを混合したものであってもよいが、これに制限されるものではない。
前記複合Digenome‐seqの場合、それぞれのプログラマブルヌクレアーゼによってゲノムDNAが切断されるため、切断位置がどのプログラマブルヌクレアーゼによって切断されたかを確認することが重要である。これは、標的位置との編集距離(edit distance)に応じて非標的位置を分類することで行うことができ、非標的位置の塩基配列が標的位置と相同性を有するということを前提とする。これにより、それぞれのプログラマブルヌクレアーゼに対する標的及び非標的位置が明確に区分されることができる。
本発明の具体的な一実施例では、Digenome‐seqに11個のそれぞれ異なる標的位置に対するsgRNAを用いた複合Digenome‐seqを行っており、確認された964個の位置を標的位置との編集距離(edit distance)に応じて分類し、それぞれの標的位置に対する非標的位置を確認した(図15〜図19)。
他の具体的な一実施例では、100個のそれぞれ異なる標的位置に対するsgRNAを用いて複合Digenome‐seqを行っており、この場合にも、特に制限されずに非標的位置を確認することができた(図23)。これにより、本発明のDigenome‐seqは、標的位置の数にかかわらず適用可能であることを確認した。
本発明の具体的な一実施例では、特定位置を標的とするRGEN(RNA‐guided engineered nuclease)において、全体ゲノムでDigenome‐seqにより検出された非標的位置のうち標的位置とのヌクレオチド不一致が6個以下である相同性位置が13,000個以下であり、ヌクレオチド不一致が2個以下である相同性位置を有しない場合、前記特定位置をRGENの標的位置として選別することが、非標的効果を最小化することができることを確認した。これは、本発明のDigenome‐seqを用いて標的位置を選別する好ましい基準を確立していく過程を示す一例であって、Digenome‐seqによりプログラマブルヌクレアーゼの非標的効果を最小化できると期待される。
本発明の他の具体的な一実施例では、標的位置の配列と相同性を有する位置の数は、ヌクレオチド不一致のレベルが増加するほど、Digenome‐seqによって少ない比率で検出されることを確認した(図16)。
これは、RGENの標的位置を選別するにおいて、標的配列とゲノム内で相同性を有するヌクレオチド配列が少ないほど、特に、高度の相同性を有するヌクレオチド配列が少ないほど、相対的にさらに特異的であるためである。これにより選別されたRGENの標的位置は、非標的効果が最小化したものであることができる。
また、他の様態として、本発明は、プラスミド(plasmid)を鋳型としてインビトロ(in vitro)転写されたガイドRNAを細胞に導入するステップを含む、ゲノム編集において非標的効果を低減する方法を提供する。
前記非標的効果の低減は、プラスミドを鋳型として用いる際に、バルジ型(bulge‐type)の非標的位置にインデルが発生することを防ぐことによると判断される。すなわち、ガイドRNAをインビトロ転写過程により製造する場合、オリゴヌクレオチド二本鎖を鋳型として用いると、バルジ型非標的位置が多く検出されるが、プラスミド鋳型を用いると、殆どのバルジ型非標的位置がなくなる。そのため、Digenome‐seqにおいてだけでなく、RGENを用いてゲノムDNAを切断してインデルを誘導する際にも、オリゴヌクレオチド二本鎖に代えてプラスミドを鋳型とすることで、非標的効果を低減することができる。これは、オリゴヌクレオチドに(n‐1)merと呼ばれるfailed sequenceが含まれているためであると判断される。
以下、本発明を実施例を挙げてさらに詳細に説明する。しかし、これら実施例は、本発明を例示的に説明するためのものに過ぎず、本発明の範囲がこれら実施例によって制限されるものではない。
実施例1:Cas9及びインビトロ(in vitro)sgRNA
組換えCas9タンパク質は、大腸菌(E.coli)から精製するか、またはToolgen(South Korea)から購入した。sgRNAは、T7 RNA重合酵素を用いてインビトロ転写により合成した。具体的に、sgRNA鋳型を反応緩衝液(40mMのTris‐HCl、6mMのMgCl、10mMのDTT、10mMのNaCl、2mMのspermidine、NTP、及びRNase inhibitor)でT7 RNA重合酵素とともに37℃で8時間反応させた。転写されたsgRNAから鋳型DNAを除去するために、DNaseIとともにインキュベーションした後、PCR purification kit(Macrogen)を用いて精製した。
実施例2:細胞培養及び形質転換条件
HeLa細胞は、10%のFBSを含有するDMEM培地で培養した。lipofectamine 2000(Life Technologies)を用いて、Cas9発現プラスミド(500ng)及びsgRNAをコードするプラスミド(500ng)を8x10個のHeLa細胞に導入した。48時間後、製造社の指針に従ってDNeasy Tissue kit(Qiagen)でゲノムDNAを分離した。
実施例3:ゲノムDNAのインビトロ切断
DNeasy Tissue kit(Qiagen)を用いて、HAP1細胞からゲノムDNAを精製した。Digenome‐seqのために、ゲノムDNAのインビトロ切断を行った。具体的に、RNP(ribonucleoprotein)を形成するために、常温で10分間Cas9タンパク質及びsgRNAをインキュベーションした。次に、前記RNP複合体とゲノムDNAを、反応緩衝液(100mMのNaCl、50mMのTris‐HCl、10mMのMgCl、及び100μg/mlのBSA)で37℃で8時間反応させた。sgRNAを分解するために、前記過程で切断されたゲノムDNAにRNase A(50ug/mL)を処理し、DNeasy Tissue kit(Qiagen)でさらに精製した。
実施例4:全ゲノムシーケンシング(whole genome sequencing)及びDigenome‐seq(digested genome sequencing)
全ゲノムシーケンシング(whole genome sequencing、WGS)のために、切断されたDNAをソニケータ(sonicator)で破砕し、ライブラリを作るためにアダプタ(adaptor)とライゲーション(ligation)した。前記ライブラリを用いて、Macrogen(South Korea)でIllumina HiSeq X Ten Sequencerを用いてWGSを行った。次に、ヒト標準塩基配列(reference genome)hg19に対して配列ファイルを整列するためにIsaacを用いた。切断点数付与システムを用いてDNA切断位置を確認した。
複合Digenome‐seqの場合、検出位置結果を編集距離(edit distance)に応じて11個のグループに分類した。前記インビトロRGEN切断位置を検出するのに用いられたコンピュータプログラム及びDigenome検出位置の分類に用いられたコンピュータプログラムは、別に製作した。
実施例5:標的化ディープシーケンシング(deep sequencing)
Phusion重合酵素(New England biolabs)を用いて標的位置及び潜在的非標的位置を増幅した。NaOHでPCR増幅産物を変性させ、Illumina MiSeqを用いてペアエンド(paired‐end)シーケンシングを行った後、インデル(insertion and deletion、Indel)頻度を計算した。
実験例1:インビトロ(in vitro)でRGENを用いたゲノムDNAの切断
プログラマブルヌクレアーゼの非標的位置を検出することができる方法を開発するために、本発明者らは、代表的にRGEN(RNA‐guided engineered nuclease)を用いて実験を行った。但し、これは本発明の技術を説明するための一実施例に過ぎず、適用可能なプログラマブルヌクレアーゼの種類がRGENに限定されるものではない。本発明のゲノムでプログラマブルヌクレアーゼの非標的位置を検出する方法は、インビトロでゲノムを特定標的のためのプログラマブルヌクレアーゼで切断した後、全ゲノムシーケンシング(whole genome sequencing、WGS)を行い、それを分析することで前記プログラマブルヌクレアーゼの非標的位置を検出する方法であって、本発明者らはこれをDigenome‐seq(nuclease‐digested genomic DNA sequencing)と命名した。
本発明者らは、Digenome‐seqにより、大規模細胞集団でプログラマブルヌクレアーゼにより誘導された非標的位置を確認することができると思った。
インビトロ(in vitro)で高濃度のRGENをゲノムに処理して非標的DNA配列を効果的に切断することができ、これにより、5´末端が同一である多数のDNA断片を生産した。前記RGENで切断されたDNA断片は、ヌクレアーゼ切断位置が垂直整列された塩基配列データ(sequence read)が生成された。これに対し、RGENで切断されなかった塩基配列データは、スタッガード方式(staggered manner)で整列された。非標的位置に対応する垂直整列を有する塩基配列データを探すために、コンピュータプログラムを開発した。
先ず、本発明者らは、インビトロゲノムでRGENが潜在的非標的DNA配列を効果的に切断できるかを確認した。そのために、RGENの標的位置と高度の相同性を有する位置(OT1位置と命名)で非標的突然変異を誘導できるHBB遺伝子‐特異的RGENを選択した。前記位置に加えて、前記RGENの標的位置と3個のヌクレオチドが異なる3種類の他の潜在的非標的位置(OT3、OT7及びOT12位置と命名)も分析した。
0.03nM〜300nM範囲の濃度のHBB特異的sgRNAとともに予めインキュベーションしたCas9タンパク質を用いて、野生型HAP1細胞から分離されたゲノムDNAを切断した(図1a)。次に、前記位置でDNA切断を確認するために、定量的PCRを用いた。HBB標的位置及びOT1位置の何れも、非常に低いRGEN濃度でも略完全に切断された(図1b)。これに対し、OT3位置では高濃度のRGENでのみ完全に切断され、残りのOT7及びOT12位置では最高濃度でも殆ど切断されなかった。
次に、HAP1細胞に前記RGENを形質転換させた後、前記位置で誘導されたインデル(insertion and deletion、Indel)を検出するために、T7エンドヌクレアーゼI(T7E1)及び標的化ディープシーケンシング(targeted deep sequencing)を用いた。
T7E1分析のために、製造社の指針に従って、DNeasy Tissue kit(Qiagen)を用いてゲノムDNAを分離し、標的位置をPCRで増幅させた。次に、増幅されたPCR産物をサーモサイクラ(thermocycler)を用いて熱で変性させ、ゆっくりと冷却させた。冷却した産物を37℃で20分間T7エンドヌクレアーゼI(ToolGen)とインキュベーションし、アガロースゲル電気泳動によりサイズ別に分離した。
標的化ディープシーケンシングのために、標的位置または非標的位置を包括するゲノムDNA断片をPhusion重合酵素(New England biolabs)を用いて増幅した。Illumina MiSeqを用いてPCR増幅産物をペアエンド(paired‐end)シーケンシングした。
結果を解釈するにあたり、PAM(protospacer‐adjacent motif)配列において3‐bp上流に位置したインデルは、RGENにより誘導された突然変異として見なした。期待したとおり、HBB RGENはHBB標的及びOT1非標的位置で高い活性を示し、それぞれ71%及び55%の頻度(T7E1)でインデルが発生した(図1c)。OT3位置では、3.2%(T7E1)または4.3%(ディープシーケンシング)の頻度で非標的インデルが誘導された(図1c及び図1d)。一方、インビトロで殆ど切断されなかった他の2つの潜在的非標的位置では、T7E1(検出制限、〜1%)及びディープシーケンシング(検出制限、〜0.1%)によりインデルが検出されなかった。OT7位置では、シード部位(seed region、PAM配列の10‐〜12‐nt上流)でヌクレオチド不一致がなかったが、インビトロまたは細胞内で切断が起こらず、このようなことから、PAM‐遠位部位(distal region)の重要性が分かった。
前記結果は、RGENがインビトロで非標的DNA配列を切断することができるが、細胞内では同一の位置にインデルを誘導できないことがあるという既存結果とも一致する。したがって、RGENは、細胞内でより、インビトロで標的特異性がさらに低下する。これは、細胞内RGENにより起こる殆どのDNA二本鎖切断(double strand break、DSB)がNHEJ(non‐homologous end‐joining)またはHR(homologous recombination)に修正されるためであると判断される。
実験例2:塩基配列データの分析
インビトロでRGENを用いてゲノムDNAを切断した場合、切断位置で垂直整列された塩基配列データ(sequence read)を作ることができるかを確認するために、4種類のゲノムDNAセットを用いて全ゲノムシーケンシング(whole genome sequencing、WGS)を行った。
RGEN形質転換または非形質転換(mock‐transfected)HPA1細胞から分離したゲノムDNAを、300nMのCas9とHBB遺伝子を標的する900nMのsgRNAでインビトロで完全に切断した。これとともに、前記細胞から分離されたゲノムDNAを用いて、インビトロRGEN切断なしにWGSを行った(図2a)。標準塩基配列(reference genome)に塩基配列データをマッピングした後、標的位置及び4個の相同性位置で配列パターンを観察するためにIGV(intergrative genomics viewer)を用いた。
先ず、対照群HAP1細胞から分離されたDigenome(digested genome)を調べた時に、標的位置、OT1及びOT3位置で垂直整列の一般的ではないパターンが観察され(図2b、3a及び3b)、切断位置を包括する塩基配列データは殆ど示されなかった。これに対して、RGENを処理していない完全なゲノムでは、前記位置で垂直整列が観察されなかった。OT7及びOT12位置では、殆どの塩基配列データが潜在的切断位置(PAM配列で3‐bp上流)を包括しており、結果としてスタッガード整列が示された(図3c及び3d)。
次に、RGENによって形質転換した細胞から分離されたDigenomeと、それに対応する完全なゲノムとを比較した。5個の全ての位置で、完全なゲノムは一般的なパターンのスタッガード整列を示した(図2b及び図3)。これに対して、標的位置及びOT‐1位置で、Digenomeは垂直整列及びスタッガード整列の両方のパターンを示した。前記2個の位置で、スタッガード整列に対応する略全ての塩基配列データはインデルを含んでいた(図2b、3a及び3b)。すなわち、RGENは、それらにより誘導されるインデル配列を切断することができなかった。一方、T7E1及びディープシーケンシングの結果と類似に、OT7及びOT12で切断位置を包括する塩基配列データではインデルが発見されなかった。OT3位置では、Digenomeが少数の切断位置を包括する塩基配列データを有し、全体的にはストレート整列パターンを示した。特に、一塩基配列データではRGENにより誘導されたインデルが確認された(図3b)。
前記結果は、Digenome‐seqが極少数の非標的突然変異を確認するに十分な程度の敏感性を有し、塩基配列データが垂直整列されたパターンが、インビトロでRGEN切断の独特の特徴であるということを示唆する。
実験例3:単一ヌクレオチドレベルで5´末端プロット
ゲノムレベルで潜在的RGEN非標的位置を確認するために、塩基配列データの垂直整列を探すためのコンピュータプログラムを開発した。先ず、単一ヌクレオチドレベルで、HBBの標的位置及び検証された2個の非標的位置(OT1及びOT3)の付近のヌクレオチド位置から始まる5´末端を有する塩基配列データの数を表示した(図4a)。ワトソン鎖(Watson strand)及びクリック鎖(Crick strand)の両方が配列分析されたため、それぞれの鎖に対応する略同一の数の塩基配列データが切断位置で互いにすぐ横で観察され、二重ピークが生成されると推測した。予測したとおり、Digenomeは前記3個の切断位置(標的位置、OT1及びOT3)で二重ピークを生成した(図2c、4b及び4c)。インビトロでRGENを処理していない完全なゲノムは、前記位置で二重ピークパターンを生成しなかった。
次に、上記のようなアプローチ方式を、全体RGEN形質転換Digenome、非形質転換Digenome、完全なRGEN形質転換ゲノム及び完全な非形質転換ゲノムに適用した。先ず、sgRNAのない条件、またはRGEN濃度が100倍低い条件(3nMのCas9)で、インビトロで非形質転換ゲノムDNAにCas9タンパク質を処理し、WGS及びDigenome分析を行った。両鎖で同一の5´末端を有する塩基配列データの数が10以上であり、少なくとも19%の塩基配列データが垂直整列される位置を検索した。標的位置及び2個の検証された非標的位置を含んで、非形質転換Digenomeに3nMのRGENを処理した場合には17個、300nMのRGENを処理した場合には78個の位置を確認した(図5a)。これらは、5´末端プロットで二重ピークパターンを示し、IGVイメージで垂直整列を示した。前記位置のうち、3nMのRGENを処理したDigenomeで1個、300nMのRGENを処理したDigenomeで2個の位置は、自然的に発生するインデルの結果として示される偽陽性である。また、RGEN形質転換Digenomeでは、検証された3個の標的及び非標的位置を含んで総125個の位置で前記パターンが観察された。一方、前記3個のDigenomeで検証されなかったOT7及びOT12位置では、二重ピークパターンが示されなかった。さらに、前記3つのDigenomeで殆どの位置が共通的に確認されたが、これは、Digenome‐seqが高度の再現性を有することを示唆する。
具体的に、非形質転換Digenome(3nMのRGEN)で発見された16個のうち15個(94%)の候補位置(1個の偽陽性を除く)は、他の2つのDigenomeでも確認された。また、非形質転換Digenome(300nM)で発見された76個のうち74個(97%)の候補位置が、RGEN形質転換Digenomeでも発見された(図5a)。RGEN形質転換Digenomeで検証された3個の切断位置を除き、残りの122個の位置では、RGEN形質転換Digenomeでインデルが示されなかった。これは、前記候補位置では突然変異が殆ど起こらないことを示唆する。一方、完全なゲノムで2個の位置、完全なRGEN形質転換ゲノムで3個の位置、そしてCas9(300nM)単独処理非形質転換ゲノムで1個の位置で二重ピークパターンが観察されたが、前記3個の完全なゲノムで確認された全ての位置は、標準塩基配列に対するHAP1ゲノムで自然的に起こるインデルの結果として示された偽陽性である(図6a〜6c)。したがって、二重ピークパターンまたは塩基配列データの垂直整列は、Digenomeで発見される独特の特徴であると考えられる。
次に、20‐bp標的位置配列とRGEN形質転換及び非形質転換Digenomeで確認された74個の共通的な位置のDNA配列を比較した結果、20個のヌクレオチドの5´末端で、1個を除いた全ての塩基が保存されていることを確認した(図5b)。さらに、標的配列ではない他の74個の位置でDNA配列を比較して得た配列ロゴ(sequence logo)またはデノボモチーフ(de novo motif)は、5´末端の最初の2個のヌクレオチドを除き、全ての位置で標的配列と完全に付合した(図5c)。また、二重ピーク位置のうち70個(95%)は、切断予想位置から正確に3ヌクレオチドの下流に5´‐NGG‐3´ PAM配列を有していた。たった6.25%(=1/16)の位置で偶然にPAMが示されたと予想される。2個の位置は5´‐NAG‐3´PAMを含む。ある位置は、DNAまたはRNAバルジ(bulge)または一般的ではないPAMである5´‐NGA‐3´形態で標的位置に付合した。5´‐NGA‐3´が細胞でPAMとして作用できるか否かは不明であるが、本発明の強いインビトロ切断条件でRGENが前記位置を切断したと判断される。他の位置は標的配列と配列相同性を有していなかったが、これは、その位置が偽陽性であることを示唆する。
また、相同性位置でヌクレオチド不一致が少ないほど、Digenome‐seqにより検出される可能性が高いということを確認した。すなわち、標的位置に比べて3ヌクレオチドが異なる相同性位置15個のうち7個(47%)及び4ヌクレオチドが異なる相同性位置142個のうち14個(10%)がDigenome‐seqにより検出された。また、5ヌクレオチドが異なる1,191位置のうち15個(1.2%)、6ヌクレオチドが異なる7,896位置のうち1個(0.013%)が検出された(図5d)。
まとめると、前記結果は、二重ピークパターンの殆どがインビトロでRGEN切断によって引き起こされ、Digenome‐seqによりゲノムレベルでヌクレアーゼ切断位置を探すことができることを示唆する。
実験例4:ディープシーケンシングにより候補位置で非標的効果(off‐target effect)を確認
前記2つのDigenomeで確認された74個の共通位置で、非標的効果を立証するためにディープシーケンシングを行った(図5e)。さらに、標的位置と3ヌクレオチドが異なって、Digenome‐seqにより検出されなかったその他の8個の位置も試験した。前記8個の位置では、少なくとも0.1%の頻度で非標的インデルが検出されなかった。これは、陰性対照群より大きい値である(Fisher exact test、p<0.01)(図5d)。インデルは、0.11%〜87%の頻度で74個の位置のうち既に検証された標的位置、OT1及びOT3位置を含む総5個の位置で観察された(図5e、7a及び7b)。新しく検証された他の2個の非標的位置のうち、HBB_48では0.11%の頻度で、HBB_75では2.2%の頻度でインデルが検出された。前記2つの位置は、標的位置と3ヌクレオチドが異なった。標的位置と5´末端で1個のヌクレオチドが異なる20‐nt sgRNA配列に比べて、HBB_48位置は3個のヌクレオチド、HBB_75位置では2個のヌクレオチドが一致しなかった。20‐nt sgRNA配列に比べて、前記検証された非標的位置はDNAまたはRNAバルジを有しておらず、5´‐NGA‐3´または5´‐NAG‐3´のように一般的ではないPAM配列も有していなかった。前記2個の新しい非標的位置及びその他の3個の位置がそれぞれの3つのDigenomeで共通的に確認された。前記結果から、Digenome‐seqが、ゲノムレベルのヌクレアーゼ非標的効果を確認することができる、敏感で再現可能な方法であることが分かる。
実験例5:VEGF‐A特異的RGENに対するDigenome‐seq
次に、本発明者らは、HBB遺伝子以外に他の遺伝子でもDigenome‐seqが適用可能であるかを確認しようとした。VEGF‐A位置で標的突然変異を引き起こし、追加的に4個の相同性位置で非標的突然変異を引き起こす他のRGENに対するDigenome‐seqを行った。標的位置及び既に検証された4個の非標的位置を含む総81個の位置で二重ピークパターンを確認した(図8a及び図9)。前記81個の位置で、全てのDNA配列が一般的な5´‐NGG‐3´PAM配列を含むことを確認した。標的配列と前記配列を比較して、全てのヌクレオチド位置が一致することを確認した。さらに、デノボモチーフを得るために前記配列を互いに比較した。その結果、配列ロゴも略全てのヌクレオチド位置で標的配列と一致したが、これは、20‐nt sgRNA配列で全てのヌクレオチドがRGENの特異性に寄与することを示唆する(図8b及び8c)。
次に、Digenome‐seqにより確認された81個の位置、及びDigenome‐seqによっては確認されなかったが、標的位置と3個以下のヌクレオチドが異なる28個の位置で、標的及び非標的効果を確認するために標的化ディープシーケンシングを用いた。前記RGENはHAP1細胞で非常に活性化され、標的位置で87%の頻度、既に検証された4個の非標的位置で0.32%〜79%の頻度でインデルが発生した。また、0.065±0.021%〜6.4±1.2%の頻度でインデルが誘導された4個の非標的位置を追加的に確認した(図8e及び図10)。RGENを用いて得た前記位置でのインデル頻度は、空ベクター対照群を用いた場合に比べて非常に増加した(Fisher exact test、p<0.01)。前記非標的位置は、20‐nt標的配列と1〜6ヌクレオチドが一致せず、PAM近位シード部位(proximal seed region)で少なくとも1つの不一致を含む。ヒトゲノムで6‐nt不一致を有する位置は13,892個であるが、Digenome‐seqにより確認された位置はたった6個であり(0.043%)、これらのうちディープシーケンシングにより検証された位置はたった1個である(図8d及び8e)。現在まで、標的位置と6個のヌクレオチド不一致を有するRGEN非標的位置は報告されていない。Digenome‐seqにより確認された81個のうち40個の位置が20‐nt標的配列と比較してヌクレオチドが欠失されているかまたは追加的なヌクレオチドを含むが、DNAまたはRNAバルジを含む非標的位置は存在しなかった。Digenome‐seqにより確認されなかった全ての位置で、RGENにより得たインデル頻度は0.05%以下であるか、空ベクター対照群を用いて得たものより低いかまたは統計的に差がなかった。
前記実験例1〜5から、本発明のDigenome‐seqは、プログラマブルヌクレアーゼの非標的位置を検出するにおいて非常に高度の再現性を有する方法であることが分かった。
実験例6:向上したDigenome‐seq
先ず、本発明者らは、ヒトゲノムに対するWGS(whole genome sequencing)データを用いてインビトロ切断位置を確認することができる点数付与システムを開発した。前記実験例1〜5で確認したDigenome‐seq分析は、高度の再現性を有するが、不均一な切断パターンまたは低いシーケンシング深さ(depth)を有する一部位置が漏れる恐れがあるという問題がある。本発明者らは、Cas9タンパク質が鈍端に1つまたは2つのヌクレオチドオーバーハング(overhang)を生成する場合を推正することで、前記位置を確認することができるということを見出した。そこで、塩基配列データの整列パターンに基づいて、各ヌクレオチド位置にDNA切断点数を付与した(図11)。前記プログラムを用いて、既存のDigenome‐seqによっては検出されなかった多数の追加的な位置を検出した。切断点数のゲノムレベルプロット(plot)は、切断されなかったゲノムDNAで偽陽性位置が殆ど発見されないということを示す(図12a)。全体ゲノムで確認された少数の偽陽性位置はゲノムDNAで自然的に発生するインデル(insertion and deletion、Indel)を含むが、これは容易にフィルタリングすることができる。2つの独立したDigenome‐seq分析で見られるように、ヒトゲノムに対する切断点数は高度の再現性を有する(R=0.89)(図13)。
本発明者らは、また、Digenome‐seq分析でプラスミド鋳型から転写されたsgRNAは、オリゴヌクレオチド二本鎖を用いて転写されたものから検出される、標的位置でヌクレオチドが欠損された如何なる偽陽性のバルジ型(bulge‐type)非標的位置も切断しないことを確認した(図12b及び図14)。これは、オリゴヌクレオチド二本鎖から転写されたsgRNAは、合成に失敗したオリゴヌクレオチドから転写された不完全な分子を含んで、均一成分ではないためであると判断される。結果的に、プラスミド鋳型から転写されたsgRNAを用いて確認された切断位置は、オリゴヌクレオチド鋳型から転写されたsgRNAを用いて確認した場合より、標的位置とさらに高度の相同性を有し(表1及び表2)、これは、切断位置周辺のDNA配列を互いに比較して得た配列ロゴ(sequence logo)で確認することができる(図12c)。
したがって、本発明の切断点数付与システムを用いることで偽陰性位置の数を非常に減少させることができ、プラスミド鋳型から転写されたsgRNAを用いて偽陽性位置の数を非常に減少させることができる。
実験例7:複合Digenome‐seq
他の方法とは異なって、Digenome‐seqは、ヌクレアーゼの数に比例してシーケンシング深さを増加させることなく複合的に用いられることができる。本発明者らは、IDLV検出及びその他の方法に比べてより敏感性を有するGUIDE‐seqを用いて個別的に分析された10個のsgRNAを選定した。本発明者らは、Cas9タンパク質、10個のsgRNA、及びHBB遺伝子を標的とする1つの追加的なsgRNAの混合物でヒトゲノムDNAを切断し、2つの独立したWGS分析を行った(図15a)。次に、前記点数付与システムを用いて、ゲノムレベルでインビトロ切断位置を叩いた。その結果、ヒトゲノムで総964個の位置を確認した(表3〜表12)。次に、前記位置を標的位置との編集距離(edit distance)に応じて分類した(図15a及び表3〜表12)。
GUIDE‐seq及び他の方法は、標的位置との相同性が不十分な90%程度の検出位置を除去するフィルタリングステップが要求されるが、複合Digenome‐seqは、位置をフィルタリングすることなく編集距離に基づいて整列することができる。前記964個の位置は、11個のグループに明確に区分された。さらに、インビトロ切断位置に対する各11個のグループは、11個の標的配列のうち1つと高度の相同性を有する。したがって、各グループ内で配列を比較して得たデノボモチーフ(de novo motif)または配列ロゴ(sequence logo)は、略全てのヌクレオチド位置で標的配列と付合した(図15a)。前記結果は、Cas9により認識されるPAM(protospacer‐adjacent motif)配列及びPAM‐近位(proximal)10‐nt「シード(seed)」部位ほどではないが、23‐nt標的配列で5´‐末端の10‐nt部位がRGENの特異性に寄与することを意味する。さらに、前記11RGENで切断される964個の位置のうち1個を除いた全ての位置が、5´‐NGG‐3´のPAM配列または5´‐NNG‐3´/5´‐NGN‐3´のPAM類似配列を有することを確認した。したがって、複合Digenome‐seqは、相同性配列に対するプログラム検索を行わなくても、インビトロ切断位置を正確に探すことができて簡便であり、複数のプログラマブルヌクレアーゼに適用可能であるという点で、GUIDE‐seq及びHTGTSなどの既存に公知の他の方法に比べて多くの利点を有する。
次に、各sgRNAが標的及び非標的位置を切断することができるかを確認した。HBB‐特異的sgRNAを高濃度(900nM)でCas9(300nM)とともに処理した時に、切断された30個の位置のうち17個の位置(=57%)では、同一のsgRNAを低濃度(82nM)で用いて複合Digenome‐seqを行った場合にも検出された(図15b及び16c)。前記結果は、11個のsgRNAそれぞれが互いに独立して自分の標的及び非標的位置にCas9を導くことができることを示唆し、これにより、Digenome‐seqが複合性を有することが分かる。
実験例8:インビトロ切断位置
前記11個のsgRNAは、ゲノムレベルで広範囲の特異性を示した。ヒトゲノムで、sgRNA1つ当りの切断位置の数は13〜302個であることが確認された(図16a及び表3〜表12)。期待したとおり、Cas‐OFFinderを用いてヒトゲノムで確認された標的位置の全て、そして前記それぞれの標的位置と1または2個のヌクレオチド不一致を有する位置の殆どが、複合Digenome‐seqを行った時に検出された(図16b)。しかし、3個以上のヌクレオチド不一致を有する位置は殆ど検出されなかった。すなわち、Digenome‐seqにより検出された位置の比率は、ヌクレオチド不一致の数が3から6に増加するにつれて幾何級数的に減少した(図16b)。また、シード部位(seed region)で2個以上のヌクレオチド不一致を有する位置は、0または1個の不一致を有する位置よりもインビトロで切断されなかった(P<0.01、Student´s t‐test)。
一方、Digenome‐seqにより検出された位置の数及びヒトゲノムで6個以下のヌクレオチド不一致を有する相同性位置(「orthogonality」と定義される)の数が、非常に相関関係(R=0.93)を有することを確認した(図16c)。すなわち、ヒトゲノムで16,000個以上の相同性位置を有する5個のsgRNAが、インビトロで63個以上(sgRNA当り平均161個)を切断するのに比べて、13,000個未満の相同性位置を有する6個のsgRNAは、インビトロで46個以下(sgRNA当り平均28個)を切断して、相対的にさらに特異的であることが分かった(P<0.01、Student´s t‐test)(図16c)。前記結果は、GUIDE‐seq陽性位置の数とヒトゲノムに対する標的位置のorthogonalityとの間で観察される相関関係不足(R=0.29)とは対照的である(図17)。しかし、細胞内で10個以下の位置を切断する、GUIDE‐seqにより確認された5個の最も特異的なsgRNAは、Digenome‐seqにより確認された最も特異的なsgRNAと一致した。
前記結果は、ヒトゲノムでヌクレオチド不一致が6個以下である相同性位置が13,000個より少なく、ヌクレオチド不一致が2個以下である相同性位置がない特定位置が、非標的効果を最小化するにおいて好適であることを示唆する。これに関連して、本発明で試験した4個の遺伝子に対して5´‐NGG‐3´PAM配列を含む1715個の標的可能な位置のうち、368個の位置(=21.5%)が前記概念に付合する(表13)。
実験例9:Digenome‐seq vs.その他の方法
平均的に、複合Digenome‐seqは、既存のGUIDE‐seqにより検出した位置のうち80±8%の位置を成功的に叩いた(図16a)。例えば、VEGFA1、RNF2、及びHEK293‐3位置に特異的な3個のsgRNAを用いてGUIDE‐seqにより検出した全ての位置が、Digenome‐seqによっても確認された。また、複合Digenome‐seqは、GUIDE‐seqによっては検出されなかった総703個の新しい位置(sgRNA当り平均70個)を検出した(図16a)。結果的に、GUIDE‐seqは、複合Digenome‐seqにより検出した位置の25±6%を検出したのである。RNF2特異的sgRNAは、Digenome‐seqの利点をみせる良い事例である。先行研究によると、2回の独立したGUIDE‐seq分析を行ったが、このsgRNAに対する非標的位置を検出することができなかった。しかし、Digenome‐seqは、標的位置に加えて、12個の切断位置を叩いた。さらに、Digenome‐seqの陽性位置の数とGUIDE‐seqの陽性位置の数との間に相関関係不足(R=0.20)が観察された(図16d)。
Digenome‐seqは、10個のsgRNAのうち9個に対して、GUIDE‐seqよりも多くの非標的位置候補を得ることができるが、これは包括的な結果ではない。すなわち、HBB sgRNAはGUIDE‐seqにより分析されなかった。全体的に、GUIDE‐seqは、Digenome‐seqにより検出されなかった総168個の位置を検出した。
一方、VEGFA1及びEMX1位置を標的とする2個のsgRNAに対しては、HTGTSもともに行った(図16a)。他の2つの方法(GUIDE‐seq及びHTGTS)の少なくとも1つにより検出された殆どの位置(VEGFA1は40個のうち31個、EMX1は19個のうち17個)もDigenome‐seqにより叩かれたが、VEGFA1は9個、EMX1は2個が検出されなかった。これは、前記位置のうち一部がPCRプライマーによる人為的結果(artifact)またはGUIDE‐seq及びHTGTSが有する内在的限界である自然的に発生したDSBから発生する偽陽性であるためであると判断される。しかし、前記位置において殆ど、特に他の2つの方法で共通的に確認された2個のEMX1非標的位置は、前記特定位置での低いシーケンシング深さ(depth)(図18)または低濃度(82nM)のsgRNAのため、複合Digenome‐seqで確認されなかったものである。このような問題点は、平均シーケンシング深さを増加させるためにWGSを複数回行い、単一分析で高濃度のsgRNAを用いて得た塩基配列データと併合することで克服することができる。
VEGFA2特異的sgRNAは、Digenome‐seqがGUIDE‐seqより多くの候補位置を検出できるという規則から唯一に例外される場合である。すなわち、GUIDE‐seqは、Digenome‐seqによっては検出されなかった122個の位置を確認した。前記標的配列は、シトシンストレッチ(cytosine stretch)からなる一般的ではない配列である。単独重合体(homopolymer)位置でWGSにより得た多数の塩基配列データは、地図作成プログラムで除去されることができる。一方、GUIDE‐seqは、検出されたオリゴヌクレオチド位置を増幅させるためにPCRを用いるため、前記位置を検出することができるであろう。
次に、ChiP‐seq(chromatin immunoprecipitation sequencing)により検出したものと、本発明で確認された切断位置とを比較した。先ず、本発明で用いられた4個のsgRNAに対してChiP‐seqを行った。Digenome‐seqにより確認された大体のCas9‐切断位置(288個、98%)にはdCas9が結合しなかった(図19)。前記結果は、Cas9のDNA結合はDNA切断とは分離される概念であり、dCas9を用いたChiP‐seqは、dCas9ベースの転写因子及びエピゲノム(epigenome)モジュレータの特異性を調べるには有用であるが、Cas9 RGENのゲノムレベル特異性を分析するには適しないことを示唆する。
実験例10:細胞内非標的位置の確認
次に、NGS(next‐generation sequencing)プラットフォームを用いて、Digenome‐seq及びGUIDE‐seqにより確認された位置(表14〜表23)のうち一部位置に対して、それぞれのsgRNAとCas9タンパク質がヒト細胞内で非標的インデルを誘導することができるかを確認した。
Digenome‐seq及びGUIDE‐seqにより共通的に検出される132個の位置のうち116個の位置(=88%)で、シーケンシングエラーによって引き起こされるバックグラウンドノイズレベル以上でインデルが検出された。これに対し、Digenome‐seqのみにより検出された位置及びGUIDE‐seqのみにより検出された位置の殆どは、標的化ディープシーケンシングによりインデルが確認されなかった。すなわち、Digenome‐seqのみにより検出された127個の位置のうち21個(=17%)、GUIDE‐seqのみにより検出された45個の位置のうち23個(=51%)が、ノイズレベル以上でインデルが誘導され、2つの方法は両方とも包括的な方法ではないということが確認された。検証された位置の殆どで、インデル頻度は1%未満であって、対応する標的位置で確認されたものより著しく低いレベルを示した。例えば、RNF2標的sgRNAは、本発明で検証された標的位置及び2個の非標的位置でインデルを誘導したが、これらは、それぞれ68%、0.25%、及び0.09%の頻度を示した(図20)。このようなことから、NGSにより確認されなかった位置では、インデルがノイズレベルより低い頻度(位置に応じて0.001%〜4%)で誘導され得ることが分かった。
非標的効果を低減するために、5´末端にさらに2つのグアニンを含むsgRNA(ggX20 sgRNAと命名する)を用いた(図21a)。前記変形されたsgRNAは、対応するGX19 sgRNAよりも598倍までさらに特異性を示した(図21b〜22g)。RNF2特異的ggX20 sgRNAは、ノイズレベル以上の非標的インデルが検出されなかった(図21d)。
実験例11:非標的位置でのインデル頻度
NGSにより検証された非標的位置(=160)及び検証されなかった非標的位置(=144)でのインデル頻度から、具体的に非標的効果を確認しようとした。不一致ヌクレオチドの数及び標的位置に対する非標的位置でのインデル頻度のプロットで、2個以下のヌクレオチド不一致を有する非標的位置が細胞内で効果的に切断されることを確認し(平均インデル頻度=5.38%)、3個以上のヌクレオチド不一致を有する場合、切断されにくいことを確認した(平均インデル頻度=0.14%以下)(図22a)。標的位置でのインデル頻度は60±7%と示された。検証または非検証位置でヌクレオチド不一致は、PAM‐遠位及びPAM‐近位の部位に略均一に分布されていた。3個以上のヌクレオチド不一致を有する検証または非検証位置は、PAM‐遠位部位がシード部位ほど重要であった(図22b及び23c)。すなわち、シード部位で0または1個のヌクレオチド不一致を有する位置でのインデル頻度は、2個以上の不一致を有する位置ほど低かった。
前記結果から、ゲノムで潜在的非標的位置の数、Digenome‐seqにより確認された位置の比(図16a)、及び前記位置の平均インデル頻度(図20a)から算出される非標的点数(表24)を計算することができる。
前記結果をまとめると、本発明者らは、プログラマブルヌクレアーゼ(programmable nuclease)の非標的位置を検出することができるDigenome‐seq方法を開発し、これは、既存の他の方法に比べて高度の再現性を有して便利に非標的位置を検出することができる。さらに、本発明者らは、インビトロDNA切断点数付与システムを開発し、合成オリゴヌクレオチド二本鎖よりはプラスミド鋳型から転写されたsgRNAを用いて、偽陽性及び偽陰性位置の数を減少させることのできる、向上したDigenome‐seqを開発した。また、11個のsgRNA混合物を用いてゲノムDNAを切断することで複合Digenome‐seqを行い、これにより、GUIDE‐seqによっては検出されなかった、sgRNA当り平均70個の追加的な切断位置を確認した。RGEN形質転換ヒト細胞において、前記位置のうち多数で非標的インデルが誘導された。そこで、数百個の非標的位置でのインデル頻度、ヌクレオチド不一致の数、及び不一致の位置を調べて、RGEN特異性においてPAM‐遠位部位がシード部位ほど重要であることを確認した。また、シード部位で2個以上のヌクレオチド不一致を有する位置は、全体不一致ヌクレオチドの数がないか1個であるものに比べて、インビトロで切断されないことを確認した。
実験例12:大規模複合Digenome‐seq
本発明者らは、複合Digenome‐seqの標的を大規模に拡張した場合にも、非標的位置を効果的に検出することができるかを確認しようとした。
具体的に、総100個のそれぞれ異なる標的位置に対する複合Digenome‐seqを行った。標的配列を100個に拡張したにもかかわらず、Digenome‐seqにより前記100個の標的に対する非標的位置を効果的に検出することができた。
そこで、コンピュータプログラムを用いて、標的位置に対する6個以下のヌクレオチド不一致を有する位置を求めた後、この部分をRGENによって切断された位置と切断されなかった位置とに分類した。次に、ニューラルネットワーク(Neural network)に基づく機械学習(machine learning)により、切断された位置の配列と切断されなかった位置の配列との違いを分析し、これを用いて、標的位置に対する非標的位置を予測できるプログラムを製作した。前記プログラムを用いて、既存に開発された他のプログラム(crop‐it)と比較したところ、より多数の非標的位置を検出することができることが分かった(図23)。
実験例13:ZFNに対するDigenome‐seq
さらに、本発明者らは、同一のアプローチ法により、RGENに代えて ZFNの非標的位置も検出することができるかを確認しようとした。
RGENと同様に、ZFNタンパク質をインビトロ(in vitro)で分離されたゲノム(cell‐free genomic DNA)に処理して切断した後、WGSを行った。ZFNの場合、それをIGVにより標的位置を調べた時に垂直整列が起こることを確認し(図24a)、全体ゲノムレベルで切断点数を付与した(図24b)。インビトロ切断位置周辺のDNA配列を比較して得た配列ロゴ(sequence logo)は、殆どの位置で標的配列と付合することを確認した(図24c及び図24d)。Digenome‐seqの結果として出た標的位置と非標的位置候補のうちヌクレオチド不一致領域が4個以下である部分に対して、ZFNを用いて形質転換させた後、標的化ディープシーケンシング(targeted deep sequencing)を行った(表25)。
その結果、62個の非標的位置候補のうち35個の標的及び非標的位置でインデルがあることが確認され、具体的には、0.028%から5.9%まで誘導されることを確認することができた(表25)。これは、Digenome‐seq方法が、ZFNの非標的位置も予測することができることを示唆する。FokI位置に変形(KKまたはEL)させて作ったZFNの場合、特異性が増加することが確認された(図24)。このようにFokIが変形されたZFNを用いてDigenome‐seqを行った時にも、総16個の非標的位置候補を探すことができた。FokIが変形されたZFNを用いて形質転換させた細胞でも、16個の非標的位置候補のうち15個の位置でインデルが起こることが確認され、このことから、既存の他の方法(ILDV、In vitro selection)に比べて多数の非標的位置を探すことができることが確認された(図25)。
結論的に、前記結果は、本発明のDigenome‐seqが、RGEN、ZFNだけでなく、標的位置及び非標的位置を有することのできる如何なるプログラマブルヌクレアーゼ(programmable nuclease)にも適用可能であることを示唆する。
以上の説明から、本発明が属する技術分野の当業者であれば、本発明がその技術的思想や必須特徴を変更することなく他の具体的な形態で実施され得ることを理解できるであろう。これに関連して、上述の実施例は、全ての点で例示的なものにすぎず、限定的なものではないと理解すべきである。本発明の範囲は、前記詳細な説明よりは、添付の特許請求の範囲の意味及び範囲、そしてその等価概念から導出される全ての変更または変形された形態が本発明の範囲に含まれると解釈されるべきである。

Claims (22)

  1. (a)分離されたゲノムDNAを標的特異的プログラマブルヌクレアーゼ(programmable nuclease)で切断するステップと、
    (b)前記切断されたDNAに対する次世代シーケンシング(next generation sequencing)を行うステップと、
    (c)前記シーケンシングにより得た塩基配列データ(sequence read)を整列して、切断されたDNAの5´末端が垂直整列された位置、または、切断されたDNAの同一の5´末端を有する塩基配列データの数を数えて描いた5´末端プロットで、プログラマブルヌクレアーゼにより切断された二本鎖のそれぞれの鎖によって示される二重ピークパターンを示す位置を、切断された位置として決定するステップと、
    (d)前記切断された位置が標的位置(on‐target site)ではない場合、非標的位置として判断するステップと、
    を含む、プログラマブルヌクレアーゼの非標的位置(off‐target site)を検出する方法。
  2. 前記ゲノムDNAは、標的特異的プログラマブルヌクレアーゼが発現される細胞、または発現されない細胞から分離された物である、請求項1に記載の方法。
  3. 前記整列は標準塩基配列(reference genome)に塩基配列データをマッピングした後、BWA/GATKまたはISAACを用いて行う、請求項1に記載の方法。
  4. ワトソン鎖(Watson strand)とクリック鎖(Crick strand)に該当する塩基配列データ(sequence read)がそれぞれ2つ以上ずつ垂直整列される位置を非標的位置であると判断するステップをさらに含む、請求項1に記載の方法。
  5. 20%以上の塩基配列データが垂直整列され、それぞれのワトソン鎖及びクリック鎖で同一の5´末端を有する塩基配列データの数が10以上である位置が非標的位置であると判断するステップをさらに含む、請求項1に記載の方法。
  6. 前記分離されたゲノムDNAはプログラマブルヌクレアーゼが発現された細胞から分離されたものであって、前記DNAの非標的位置でインデルを確認するステップをさらに含む、請求項1に記載の方法。
  7. 前記インデルを確認することは前記非標的位置に対するT7E1分析及びCel‐I酵素を用いた突然変異検出分析または標的化ディープシーケンシング(targeted deep sequencing)を行うことによる、請求項に記載の方法。
  8. 前記非標的位置は、標的位置と一個以上のヌクレオチド不一致を有する、請求項1に記載の方法。
  9. 前記非標的位置は標的位置と1〜6個のヌクレオチド不一致を有する、請求項1に記載の方法。
  10. 前記(c)ステップは、切断された各々の位置に下記式を適用して、切断点数を算出して行う請求項1に記載のプログラマブルヌクレアーゼの非標的位置を検出する方法。
  11. 前記式でC値が100として、算出された点数が25,000点以上である場合、非標的位置であると判断するステップをさらに含む、請求項10に記載の方法。
  12. 前記プログラマブルヌクレアーゼは2個以上の標的に対するプログラマブルヌクレアーゼを混合したものである、請求項1に記載の方法。
  13. 前記プログラマブルヌクレアーゼは2〜100個の標的に対するプログラマブルヌクレアーゼを混合したものである、請求項1に記載の方法。
  14. 標的位置との編集距離(edit distance)により、非標的位置を分類するステップをさらに含む、請求項12に記載の方法。
  15. 前記プログラマブルヌクレアーゼは、メガヌクレアーゼ(meganuclease)、ZFN(zinc finger nuclease)、TALEN(transcription activator‐like effector nuclease)、RGEN(RNA‐guided engineered nuclease)、及びCpf1からなる群から選択される、請求項1に記載の方法。
  16. 前記RGENは、標的遺伝子の特定配列に特異的に結合するガイドRNA及びCasタンパク質を含む、請求項15に記載の方法。
  17. 前記ガイドRNAは、オリゴヌクレオチド二本鎖またはプラスミド鋳型から転写されたものである、請求項16に記載の方法。
  18. 前記ガイドRNAは、crRNA(CRISPR RNA)及びtracrRNAを含む二重RNA(dualRNA)または一本鎖ガイドRNAの形態のものである、請求項16に記載の方法。
  19. 前記Casタンパク質はCas9タンパク質またはこれの変異体である、請求項16に記載の方法。
  20. 前記Casタンパク質は、ストレプトコッカス(Streptococcus)属、ナイセリア(Neisseria)属、パスツレラ(Pasteurella)属、フランシセラ(Francisella)属及びカンピロバクター(Campylobacter)属からなる群より選択される一つの由来である、請求項16に記載の方法。
  21. 前記メガヌクレアーゼは、I‐SceI、I‐CeuI、PI‐PspI及びPI‐SceIからなる群より選択される、請求項15に記載の方法。
  22. 前記Cpf1は、カンジダタスパセイバックター(Candidatus Paceibacter)、ラクノスピラ(Lachnospira)属、ブチリビブリオ(Butyrivibrio)属、ペレグリニバクテリア(Peregrinibacteria)、アシダミノコッカス(Acidominococcus)属、ポルフィロモナス(Porphyromonas)属、プレボテラ(Prevotella)属、フランシセラ(Francisella)属、カンジダタスメタノプラズマ(Candidatus Methanoplasma)及びユーバクテリウム(Eubacterium)属からなる群より選択される一つの由来である、請求項15に記載の方法。
JP2017526125A 2014-11-14 2015-11-13 ゲノムでプログラマブルヌクレアーゼの非標的位置を検出する方法 Active JP6621820B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462079945P 2014-11-14 2014-11-14
US62/079,945 2014-11-14
KR20150135702 2015-09-24
KR10-2015-0135702 2015-09-24
PCT/KR2015/012255 WO2016076672A1 (ko) 2014-11-14 2015-11-13 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법

Publications (2)

Publication Number Publication Date
JP2017533724A JP2017533724A (ja) 2017-11-16
JP6621820B2 true JP6621820B2 (ja) 2019-12-18

Family

ID=55954673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017526125A Active JP6621820B2 (ja) 2014-11-14 2015-11-13 ゲノムでプログラマブルヌクレアーゼの非標的位置を検出する方法

Country Status (5)

Country Link
EP (1) EP3219810B1 (ja)
JP (1) JP6621820B2 (ja)
KR (1) KR101828933B1 (ja)
CN (1) CN107109486B (ja)
WO (1) WO2016076672A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6261500B2 (ja) 2011-07-22 2018-01-17 プレジデント アンド フェローズ オブ ハーバード カレッジ ヌクレアーゼ切断特異性の評価および改善
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US9340800B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College Extended DNA-sensing GRNAS
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US11053481B2 (en) 2013-12-12 2021-07-06 President And Fellows Of Harvard College Fusions of Cas9 domains and nucleic acid-editing domains
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
WO2017070632A2 (en) 2015-10-23 2017-04-27 President And Fellows Of Harvard College Nucleobase editors and uses thereof
WO2018027078A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
CA3033327A1 (en) 2016-08-09 2018-02-15 President And Fellows Of Harvard College Programmable cas9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
KR102026421B1 (ko) 2016-09-13 2019-09-27 주식회사 툴젠 시토신 디아미나제에 의한 dna에서의 염기 교정 확인 방법
GB2573062A (en) 2016-10-14 2019-10-23 Harvard College AAV delivery of nucleobase editors
KR102067810B1 (ko) * 2016-11-25 2020-01-20 서울대학교산학협력단 크로마틴 dna를 이용한 유전체 서열분석 방법 및 유전체 교정 확인 방법
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
WO2018135838A2 (ko) 2017-01-17 2018-07-26 기초과학연구원 Dna 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
WO2018165629A1 (en) 2017-03-10 2018-09-13 President And Fellows Of Harvard College Cytosine to guanine base editor
KR20190130613A (ko) 2017-03-23 2019-11-22 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵산 프로그램가능한 dna 결합 단백질을 포함하는 핵염기 편집제
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
CN111801345A (zh) 2017-07-28 2020-10-20 哈佛大学的校长及成员们 使用噬菌体辅助连续进化(pace)的进化碱基编辑器的方法和组合物
WO2019139645A2 (en) 2017-08-30 2019-07-18 President And Fellows Of Harvard College High efficiency base editors comprising gam
WO2019079347A1 (en) 2017-10-16 2019-04-25 The Broad Institute, Inc. USES OF BASIC EDITORS ADENOSINE
CN107967411B (zh) * 2017-11-21 2021-09-10 南方科技大学 一种脱靶位点的检测方法、装置及终端设备
EP3814493A4 (en) * 2018-06-27 2022-03-30 Altius Institute For Biomedical Sciences NUCLEIC ACID BINDING DOMAINS AND METHODS OF USE THEREOF
EP3628748A1 (en) 2018-09-25 2020-04-01 Albert-Ludwigs-Universität Freiburg Method for characterization of modifications caused by the use of designer nucleases
CN109295186B (zh) * 2018-09-30 2023-10-03 中山大学 一种基于全基因组测序检测腺嘌呤单碱基编辑系统脱靶效应的方法及其在基因编辑中的应用
KR20210143230A (ko) 2019-03-19 2021-11-26 더 브로드 인스티튜트, 인코퍼레이티드 뉴클레오티드 서열을 편집하기 위한 방법 및 조성물
EP3812472B1 (en) 2019-10-21 2022-11-23 Albert-Ludwigs-Universität Freiburg A truly unbiased in vitro assay to profile off-target activity of one or more target-specific programmable nucleases in cells (abnoba-seq)
CN111028885B (zh) * 2019-12-31 2023-05-30 西南民族大学 一种检测牦牛rna编辑位点的方法及装置
CN116096873A (zh) 2020-05-08 2023-05-09 布罗德研究所股份有限公司 同时编辑靶标双链核苷酸序列的两条链的方法和组合物
CN111893170B (zh) * 2020-08-07 2022-08-19 珠海舒桐医疗科技有限公司 一种在全基因组范围内体外检测CRISPR-Cas脱靶效应的方法
KR102497690B1 (ko) 2020-09-22 2023-02-10 (주)지플러스생명과학 신규한 crispr 연관 단백질 및 이의 용도
KR20220039189A (ko) 2020-09-22 2022-03-29 (주)지플러스생명과학 신규한 crispr 연관 단백질 및 인핸서를 포함하는 유전체 편집용 조성물, 및 이의 용도
WO2022124839A1 (ko) * 2020-12-09 2022-06-16 재단법인 아산사회복지재단 온-타겟 활성이 유지되고 오프-타겟 활성이 감소된 가이드 rna 및 이의 용도
KR20230107750A (ko) * 2022-01-07 2023-07-18 주식회사 툴젠 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법
KR20230149744A (ko) 2022-04-19 2023-10-27 서울대학교산학협력단 태그멘테이션을 이용한 벡터 삽입위치 검출 및 클론 정량 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012149470A1 (en) * 2011-04-27 2012-11-01 Amyris, Inc. Methods for genomic modification
WO2013169398A2 (en) * 2012-05-09 2013-11-14 Georgia Tech Research Corporation Systems and methods for improving nuclease specificity and activity
EP2912175B1 (en) * 2012-10-23 2018-08-22 Toolgen Incorporated Composition for cleaving a target dna comprising a guide rna specific for the target dna and cas protein-encoding nucleic acid or cas protein, and use thereof
EP3865586A1 (en) * 2013-03-15 2021-08-18 The General Hospital Corporation Increasing specificity for rna-guided genome editing

Also Published As

Publication number Publication date
KR101828933B1 (ko) 2018-02-14
EP3219810A1 (en) 2017-09-20
EP3219810B1 (en) 2022-01-05
EP3219810A4 (en) 2018-03-28
CN107109486A (zh) 2017-08-29
KR20160058703A (ko) 2016-05-25
JP2017533724A (ja) 2017-11-16
WO2016076672A1 (ko) 2016-05-19
CN107109486B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
JP6621820B2 (ja) ゲノムでプログラマブルヌクレアーゼの非標的位置を検出する方法
US11920181B2 (en) Nuclease profiling system
JP6784601B2 (ja) シークエンシングによって評価されるゲノムワイドでバイアスのないDSBの同定(GUIDE−Seq)
Kim et al. Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells
JP2019526271A (ja) シトシンデアミナーゼによるdnaでの塩基編集確認方法
JP2020505062A (ja) Dna一本鎖切断による塩基編集非標的位置確認方法
KR20180053748A (ko) 시퀀싱(circle-seq)에 의한 절단 반응의 포괄적인 시험관내 보고
WO2019147073A1 (ko) 아데노신 디아미나아제를 이용한 염기 교정 확인 방법
US11352666B2 (en) Method for detecting off-target sites of programmable nucleases in a genome
KR102067810B1 (ko) 크로마틴 dna를 이용한 유전체 서열분석 방법 및 유전체 교정 확인 방법
Kim Genome-wide CRISPR/Cas9 off-target profiling via Digenome-seq
Kleinstiver et al. Genome-wide specificity profiles of CRISPR-Cas Cpf1 nucleases in human cells

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191120

R150 Certificate of patent or registration of utility model

Ref document number: 6621820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250