JP6612220B2

JP6612220B2 - 核酸における化学修飾の検出

Info

Publication number: JP6612220B2
Application number: JP2016521773A
Authority: JP
Inventors: エムウイークスケビン; ジークフリードナタン; ホマンフィリップ; ブサンスティーブン; ブイファボロフオレグ
Original assignee: University of North Carolina at Chapel Hill
Current assignee: University of North Carolina at Chapel Hill
Priority date: 2013-10-07
Filing date: 2014-10-07
Publication date: 2019-11-27
Anticipated expiration: 2034-10-07
Also published as: EP3055413A4; EP3055413B1; US20160244818A1; ES2791873T3; US10240188B2; JP2016535983A; WO2015054247A1; EP3055413A1

Description

この発明は、2013年10月7日に出願された米国仮特許出願61/887614に基づき、その優先権の利益を主張し、その開示全体が参照により本明細書に組み込まれる。
本発明は、NIHグラント番号AI068462及びGM064803の下で米国政府の支援によりなされたものであり、米国政府は本発明に一定の権利を有する。
この発明は、RNA分子のような核酸分子の構造を分析するための技術と方法に関する。この発明は、より具体的には、いくつかの実施態様において、RNAなどの核酸について、RNAなどの核酸の完全に折り畳まれた機能的な三次構造を安定化させる化学的修飾のような化学修飾を検出する方法に関する。

RNAなどの核酸の生物学的機能は、その構造により媒介される。例えば、mRNAは、一般に、リボヌクレオチド配列内にタンパク質の合成を指示するための情報が含まれている直鎖状分子と考えられている。いままでの研究により、mRNAの機能にとって重要なmRNA中のいくつかの二次及び三次構造が明らかになっている(Tinoco et al. (1987) Symp. Quant. Biol. 52:135)。RNAにおける二次構造要素は、主に同じRNA分子の異なる領域間のワトソン−クリック型相互作用により形成される。重要な二次構造要素には、分子内二重鎖領域、ヘアピンループ、二本鎖RNAのバルジ及び内部ループが含まれる。三次構造要素は、二次構造要素が互いに接触したとき又は二次構造要素が一本鎖領域と接触したときに形成され、より複雑な三次元構造を形成する。
特定のRNAを含む核酸の正確な三次元構造については極僅かしか知られていない。しかし、多くの研究努力がなされ、一本鎖、二次及び三次構造を含むRNA構造が、単に線形配列中でタンパク質を作るための情報をコードしているだけでなく、重要な生物学的機能を有することを示してきた(Resnekov et al. (1989) J. Biol. Chem. 264:9953; Tinoco et al. (1987) Symp. Quant. Biol. 52:135; Tuerk et al. (1988) PNAS USA 85:1364; and Larson et al. (1987) Mol. Cell. Biochem. 74:5)。

従って、RNAなどの核酸分子の構造を評価するための手法の開発が、当該技術分野で現在継続的に必要とされている。
本発明の目的は、RNA構造分析を含む核酸構造解析のための方法を提供することである。
本明細書に記載又は開示された発明により全体的に又は部分的にこれが達成された本発明の目的及びその他の目的は、下記にその最良として記載された図面を参照して明細書の記載が進むにつれて明らかになるであろう。

本発明のいくつかの実施態様によれば、核酸中の1又はそれ以上の化学修飾を検出するための方法が提供される。いくつかの実施態様において、この方法は、化学的修飾を有することが疑われる核酸を提供する段階、ポリメラーゼ及びテンプレートとして提供される核酸を用いて、核酸を合成する段階であって、この合成が、該ポリメラーゼが提供される核酸中の化学修飾を読み飛ばし（リードスルー）、その結果合成された核酸において該化学修飾部位に非相補的なヌクレオチドを生成するように行われる段階、及び該非相補的なヌクレオチドを検出する段階、から成る。

本発明のいくつかの実施態様によれば、核酸中の構造データを検出するための方法が提供される。いくつかの実施態様において、この方法は、化学的修飾を有することが疑われる核酸を提供する段階、ポリメラーゼ及びテンプレートとして提供される核酸を用いて、核酸を合成する段階であって、この合成が、該ポリメラーゼが提供される核酸中の化学修飾を読み飛ばし、その結果合成された核酸において該化学修飾部位に非相補的なヌクレオチドを生成するような条件下で行われる段階、該非相補的なヌクレオチドを検出する段階、及び提供される核酸の構造データから成る出力ファイルを生成する段階、から成る。

本発明のいくつかの実施態様において、提供される核酸はRNAである。いくつかの実施態様では、この方法は、二又はそれ以上の化学修飾を検出する。いくつかの実施態様では、このポリメラーゼは、複数の化学修飾を読み飛ばし、複数の非相補的なヌクレオチドを生成し、更にこの方法は、各非相補的なヌクレオチドを検出することを含む。
いくつかの実施態様において、この核酸は化学修飾をもたらす試薬に曝露されていた、又はこの核酸中に化学修飾が予め存在していた。いくつかの実施態様において、この予め存在していた化学修飾は、２'−Ｏ−メチル基である、及び／又はこの核酸が由来する細胞により生成された、エピジェネティックのような修飾（但し、これに限定されない）、及び／又は前記修飾が、１−メチルアデノシン、３−メチルシトシン、６−メチルアデノシン、３−メチルウリジン又は２−メチルグアノシンである。

いくつかの実施態様において、この試薬は求電子剤を含む。いくつかの実施態様において、任意に該求電子剤はこのＲＮＡ中の非拘束ヌクレオチドを選択的に修飾し、共有結合性リボース２'−Ｏ−付加物を形成する。いくつかの実施態様において、この試薬は、１Ｍ７、１Ｍ６、ＮＭＩＡ、ＤＭＳ又はそれらの組み合わせである。いくつかの実施態様において、この核酸は、生物学的試料中に存在する、又は生物学的試料に由来する。
いくつかの実施態様において、このポリメラーゼは逆転写酵素である。いくつかの実施態様において、このポリメラーゼは、天然ポリメラーゼ又は変異型ポリメラーゼである。いくつかの実施態様において、この合成された核酸はｃＤＮＡである。
いくつかの実施態様において、この非相補的なヌクレオチドを検出する段階は、この核酸の配列を決定する段階を含む。いくつかの実施態様において、この配列情報は前記提供された配列に整列される。いくつかの実施態様において、この非相補的なヌクレオチドを検出する段階は、この核酸の超並列配列決定法(MPS)を用いることを含む。いくつかの実施態様において、この方法は核酸を増幅する段階を含む。いくつかの実施態様において、この方法は、特異的プライマーを用いる部位特異的アプローチを用いて核酸を増幅する段階、ランダムプライミングを用いて全ゲノムを増幅する段階、又はランダムプライミングを用いて全トランスクリプトームを増幅する段階、又はこれらの組み合わせを含む。

いくつかの実施態様において、この方法は、この１又はそれ以上の化学修飾を検出することにより、患者における疾患又は障害の診断を容易にする、又はその予後を予測する、段階を含む。いくつかの実施態様において、この方法は、正規化し、比較し、及び／又は、ＲＮＡ構造情報のような（但し、これに限定されさない）核酸構造情報を含む別のデータセットと結合する、段階を含む。いくつかの実施態様において、この構造は、プライマー結合部位、タンパク質結合部位、小分子結合部位、又はそれらの組合せを含む。いくつかの実施態様において、この方法は、プライマー、タンパク質、小分子又はそれらの組み合わせの存在下及び不存在下で核酸構造を解析し、プライマー結合部位、タンパク質結合部位、小分子結合部位又はそれらの組み合わせを同定することを含む。
本発明のいくつかの実施態様によれば、上記実施態様の方法のいずれかの段階を含む段階を実行する、コンピュータ可読媒体に具現化されたコンピュータ実行可能命令を含むコンピュータプログラム製品が提供される。本発明のいくつかの実施態様によれば、上記実施態様のいずれかの方法により製造された核酸ライブラリが提供される。

本発明のいくつかの実施態様によれば、本発明の実施態様を実行するための少なくとも１つの試薬及び任意のそのための容器を含むキットが提供される。本発明のいくつかの実施態様によれば、本発明の実施態様を実行するため使用説明書を含むキットが提供される。
本発明のいくつかの実施態様によれば、ここで提供される情報に示され、及び／又は明示的に記載され、及び／又は示唆される、自明な及び／又は本開示を参照した当業者に理解されてもよい特徴を含む（但し、これに限定されない）、如何なる又は全ての方法、道具、システム、キット、装置、組成物及び／又は使用法が提供される。

SHAPEデータ有り無しの、5SrRNAの代表的な二次構造のモデル（配列番号１）を示す図である。塩基対の予測を、従来の二次構造表示（上）と円プロット（下）上に線で示す（それぞれ、正確塩基対、不正確塩基対、欠落塩基対を表す。）。ヌクレオチドは、SHAPE反応性の弱、中、強に応じて、黒、ライトグレー、濃いグレーで表示されている。NMIAに対して強力な優先反応性（>0.3単位）を示すヌクレオチドはデルタ記号（Δ）で示されている。超並列配列決定法(MPS)による単分子RNAの構造解析を示す図である。RNA分子は、局所的な構造変動及び「休息(breathing)」を経験し、この領域においてRNAは相関の方法で化学プローブに対して反応性になる（図2A）。相互作用するヌクレオチドは、相関する反応性を示す。統計的関連分析を用いて、これらの相互依存性の強さを検出し、定量化した。RNA分子は、溶液内で複数の立体配座をとることができる（図2B）。塩基反応性パターンの類似性に基づくスペクトラルクラスタリング分析を用いて、個々のRNAストランドのデータを異なる立体配座に分離した。 RNA構造のRING分析を示す図である。逆転写により検出した転写物あたりの変異の数を、DMS修飾の有（灰色）無（黒）で示す（図A）。DMS修飾により誘導される変異頻度を、ヌクレオチド位置の関数として示す（図B）。DMS処理サンプルからのデータを灰色で示し、無試薬対照を黒で示す。TPPリボスイッチ、P546ドメイン、及びRNase P RNA（配列番号5-7）のRING分析は、強及び中程度の相関関係を示す（図C）。天然構造で反応性のある位置（黒丸）の間、又は「休息」動作中に反応性になる位置（白丸）の間で相関が発生し、これは反応性の相互依存の構造的「休息」成分に反映する。相関係数0.025と0.035は、第二のヌクレオチドの変異に起因するある塩基における変異の確率において、それぞれ中央値の2.5倍と2.8倍の増加に対応している。二次構造は、公知の構造に基づいて、三次元空間での相対的な螺旋の向きに近似するように描かれている。チアミンピロリン酸(TPP)リガンドの存在下及び不存在下の、TPPリボスイッチ（配列番号5）のRING分析及びクラスタリング分析を示す図である。図4Aは、飽和リガンド存在下のRING分析、図4Bは、リガンド不存在下のRING分析を示す。ヌクレオチド間の強及び中程度の関連を示す。小さいクラスター内で、より少なく又はより多く構成されているヌクレオチドを、それぞれ、白丸と黒丸で強調する。図4Cと図4Dは、飽和リガンド存在下（図4C）及びリガンド不存在下（図4D）でのスペクトラルクラスタリング解析を示す。各状態において2つのクラスターがある。飽和リガンド存在下では、主要なクラスターは完全に折り畳まれたリボスイッチに相当する。リガンド不存在下では、主要なクラスターは、ヌクレオチド間で相互作用が少ない構造化されていない状態を反映する。飽和リガンドサンプル中のマイナークラスターは、主要なクラスターに比べて、より少なく構造化されて、リガンド不存在の構造に似ている。リガンド不存在サンプル中のマイナークラスターは、特にチアミン結合ポケット領域において、主要なクラスターに比べて、より高度に構造化されている（黒丸）。部分飽和リガンド濃度200nMにおける、TPPリボスイッチ（配列番号5）のスペクトラルクラスタリング分析を示す図である。図5Aは、ヌクレオチド間の関連相互作用のRING分析を示す。この相互作用は、リガンド飽和条件下のRNAよりも数が少なく弱い（図4Aと比較）。32、31及び37％の集団画分の3つのクラスターが同定された(図5B)。これらの各クラスターは、飽和リガンド濃度又はリガンド不存在で特定された、リガンドに結合した構造又は無リガンド構造に対応するヌクレオチドを有する状態に相当する。 SHAPE-MaPの概要を示す図である。RNAは、立体構造的ダイナミックヌクレオチドにおいて反応するSHAPE試薬で処理される。逆転写の間に、ポリメラーゼは、RNAの化学的付加物を読み飛ばし、元の配列に非相補的なヌクレオチドをcDNAに結合する。その結果得られたcDNAは、任意の超並列的アプローチを用いて配列決定され、変異プロファイル（MaP）を生成する。決定した配列は、参照配列に対して整列され、ヌクレオチド分析の変異率が計算され、バックグラウンドについて補正され、正規化されて、標準SHAPE反応性プロファイルが生成する。SHAPE反応性は、その後、二次構造をモデル化し、競合又は代替構造を視覚化し、又はローカルヌクレオチドRNAダイナミクスを調節する任意のプロセス若しくは機能を定量化するために使用することができる。 SHAPE-MaP向け二次構造モデリングの精度を示す図である。図7Aは、実験的な制約なしで（図中「NO DATA」で示す）、従来のキャピラリー電気泳動データを用いて（図中「CE」で示す）、及び1M7試薬を用いて得られたSHAPE-MaPデータを用いて、又は３試薬微分データを用いて（図中「Diff」で示す）行われた計算について、感度の関数（SENS）及び陽性予測値（PPV）として報告された二次構造のモデリング精度を示す。結果は、モデリング精度の低〜高を反映して、スケールに網掛けされている。図7Bは、シーケンシング読み取り深さ、ヒットレベル、及びRNA構造モデリングの精度の間の関係を示す。モデル精度（縦軸）は、受け入れたモデルに関する予測構造のSENSとPPVの幾何平均として示されている。ボックスプロットは、シミュレートされたSHAPE-MaP読み取り深さに対する、16SリボソームRNAの二次構造をモデル化をまとめたものである。各深さにおいて、100折り畳み軌跡をサンプリングした。ボックスの中心の線は中央値を示し、ボックスは四分位範囲を示す。ウィスカは1.5倍四分位範囲内のデータポイントを含み、外れ値は（+）記号で示す。ヒットレベルは、転写産物のヌクレオチドあたりの正規化されたバックグラウンド以上の全シグナルを示す。 HIV-1 NL4-3ゲノムのSHAPE-MaP解析結果を示す図である。図8Aは、NL4-3 HIV-1ゲノムRNAについて、SHAPE反応性、シャノンエントロピー及びペアリング確率を示す。反応性は、グローバル中央値に対する中心55-ntの中央値ウィンドウとして表示される。ラインの上又はラインの下の領域は、それぞれ、中央値よりもより柔軟性なもの又はより拘束されているものを示す。ベースペアを表す図中のアーク（弧）は、それぞれのペアリング確率により標識されている。多くの重複するアーク（弧）を持つ領域は、複数の潜在的な構造を持つ。シュードノット（PK）は、黒アーク（弧）で示されている。示されたデータは、単一の代表的な実験に対応し、提案シュードノットを含む個々の領域は、独立した反復により確認された。図8Bは、生物学的機能を有すると同定されたRNA領域を示す。ブラケットは、決定領域を囲み、ウイルスゲノムに関連して既知のRNA機能に対応するこれらの領域の位置を強調するように描かれている。この領域は、低SHAPE-低シャノンエントロピーのドメインに対応し、最低予測自由エネルギーの二次構造のすべての交差ヘリックスを含むように拡張されている。5'及び3'UTR；各スプライスアクセプター及びドナー；ポリプリントラクト；可変ドメイン；フレームシフト及びRREドメインが示されている。これらの要素は、確率により予想された頻度（p = 0.002）よりもはるかに頻繁に、低SHAPE及び低シャノンエントロピーを有する領域内に収まる。図8Cは、低SHAPE及び低シャノンエントロピーを有する領域（デノボで同定された）についての二次構造モデルを示す。ヌクレオチドは、SHAPE反応性により示され、シュードノット構造が標識されている。サンプル分析のために遺伝子特異的プライマー又はランダム断片化のいずれかを使用して行ったSHAPE-MaP実験及び配列決定ライブラリの準備の方法を示す図である。遺伝子特異的プライマー（大型のRNA中の低分子RNA又は標的領域のため、及び稀及び低濃度のRNAの分析のため）又はランダムプライマー（大型のRNAの包括的解析又は完全トランスクリプトームのため）を用いてSHAPE-MaPを行い、最初のcDNAプールを作成する。両方のアプローチのために、RNAを、所定の条件下で、SHAPE試薬又は溶媒で処理し、RNAサンプルを変性条件下で修飾する。遺伝子特異的プライマーを使うほうのサンプルについては、逆転写及びPCRプライマーを、既知の標的配列に基づいて設計した。また、大型RNAを緩衝Mg^{2 +}溶液中でランダムに断片化した。易変異逆転写を利用して一本鎖cDNAを合成した。初期cDNA中の誤組み込み事象について、対象RNA中のSHAPE付加物の位置に印をつけた。PCR（遺伝子特異的アプローチ）又は第二ストランドの合成（ランダムに断片化されたサンプル）のいずれかにより、二本鎖cDNAを作成した。第二PCRを介して（遺伝子特異的アプローチ）又はアダプタ配列のDNA-DNAライゲーション（ランダム断片化されたサンプル）のいずれかにより、配列プラットフォーム特異的配列（多重バーコードを含む）をdsDNAライブラリに加えた。これらいずれかの方法により調製したライブラリについて、配列決定を行い、構造モデリングアプリケーションで使用されるSHAPE反応性プロファイルで加工されるデータを生成した。SHAPE-MaPはシーケンシングプラットフォーム及びライブラリ生成方式とは完全に独立している（初期cDNAが合成された後）。従って、任意のプラットフォーム及びライブラリの生成方式を使用することができる。 SHAPE-MaPのためのプライマーの設計を示す図である。HIV-1配列を分析するために使用するための新規に設計されたLNAベースのプライマーから、低又は偏在GC含量の利益を有する配列を得た。

RNA二次構造モデリングなどの核酸構造モデリングは困難な問題であり、最近の成功例により、その正確さ、一貫性、取り扱いやすさの基準は上がってきている。化学プローブに反応性に関するデータを含ませることにより正確さの大幅な改善が達成された。即ち、mfoldクラスのアルゴリズムに1M7 SHAPE反応データを組み入れることにより、塩90％を超える基対予測の中央値精度が得られた。しかし、RNA構造を含む多くの核酸構造は、有意に低い精度でモデル化されている。NMIAと1M6試薬(非標準の三次相互作用を検出する)からの差異(ディファレンシャル)反応性を、予測アルゴリズムに組み入れ、その結果、従来のモデル化が困難とされてきた、RNAなどの核酸の高精度な二次構造モデルをもたらす、いくつかのアプローチが、本明細書のいくつかの実施態様において開示される。例えば、RNAについて、受け入れられた標準の塩基対の93％がSHAPE指示モデルで取り出された。受け入れ構造とモデル化された構造の間の不一致は小さく、本物の構造の違いを反映するように表示された。３試薬SHAPE指示モデリングは、構造的に複雑な核酸（RNAを含む）に簡潔に描き、RNAを含む多くのクラスの核酸の溶液内の二次構造解析における問題を解決する。

複雑な高次RNA構造のような複雑な核酸構造体は、遺伝子発現のすべての面で重要な役割を果たすことができる。しかし、三次構造を定義し、複数の立体配座のサンプリングを支配する、空間を介する相互作用ネットワークはほとんど理解されていない。RNAの構造解析アプローチのような複数の単分子の核酸構造解析アプローチが、本明細書のいくつかの実施態様において開示される。そこでは、単一核酸鎖における化学修飾の複数の部位が超並列配列決定法（MPS)により同定され、次いで、相関しクラスター化された相互作用が分析される。従って、いくつかの実施態様において、この戦略は、変異プロファイリングにより相互作用するグループを識別し（RING-MaP）、可能な複数の拡張アプリケーションを作る。例えば、いくつかの実施態様において、空間相互作用を介する、80〜265ヌクレオチドにわたる、RNAなどの核酸の3Dモデルの特定と作成、及びRNAなどの核酸を安定化する広範なクラスの分子内相互作用の評価が開示される。さらに、いくつかの実施態様では、溶液全体の中の明確な立体配座を区別し、従来検出されない隠れ状態及び天然状態と比較して折り畳まれていない核酸で発生する大規模な構造の再構成を解明する、複数のアプローチが開示される。RING-MaP単分子の核酸構造を調べることにより、RNAなどの核酸の機能を支配する全体的な構造及び複数の立体配座を、簡潔かつ容易に分析することが可能になる。

また、いくつかの実施態様において、RNAなどの核酸中の機能的モチーフのデノボで大規模な同定を可能にする、プライマー伸長により分析される選択的な2'-ヒドロキシルアシル化及び変異プロファイル（SHAPE-MaP）が開示される。いくつかの実施態様では、SHAPEによる2'-ヒドロキシルアシル化の部位は、cDNA合成中に非相補的なヌクレオチドとしてコードされ、例えば、超並列配列決定法(MPS)により測定される。例えば、SHAPE-MaP誘導モデル化により、既知の構造の複合RNAの中の、受け入れられた塩基対の90％以上が同定され、それはHIV-1 RNAゲノムのための新しいモデルを確定するために使用された。このHIV-1モデルは、すべての既知の構造モチーフ及び実験的に検証されたシュードノットを含む従来未知の要素を含む。SHAPE-MaPは、正確かつ高分解能の二次構造モデルを生成し、低存在量の核酸（低存在量RNAを含む）の分析を可能にし、一回の実験で配列多型を解明し、最終的にRNA構造分析を含む核酸構造解析の利用を容易にする。

本発明の一又はそれ以上の実施態様の詳細は、以下の説明に記載されている。本発明の他の特徴、目的及び有利な効果は、その詳細な説明及び特許請求の範囲から明らかになるであろう。本明細書で言及される全ての刊行物、特許出願、特許、その他の参考文献は、その全体が参考として本明細書に取り込まれる。本明細書に開示されたポリヌクレオチド及びポリペプチドの配列の一部は、GENBANK（登録商標）アクセッション番号と相互参照されている。この相互参照されたGENBANKの配列は、GENBANK又は他の公的データベースに存在する同等及び関連する配列として、参考として本明細書に明確に取り込まれる。また、そこに開示された配列に関連してGENBANKデータベースに存在しているすべての注釈も明示的に参照により本明細書に組み込まれる。これらが矛盾する場合、定義を含む本明細書の記載が優先する。
別途定義しない限り、本明細書中で使用される全ての技術的及び科学的用語は、本発明が属する分野の当業者に理解されるのと同じ意味を有する。本明細書に記載の方法、デバイス及び材料と類似又は同等の如何なる方法、デバイス及び材料が本発明の実施又は試験に用いることができるが、以下、代表的な方法、デバイス及び材料が記載される。

長年の特許法慣習に従い「ａ（１つ、ある）」、「ａｎ（１つ、ある）」及び「ｔｈｅ（その、この）」は、特許請求範囲を含めて本出願で用いる際「１又はそれ以上」を表す。従って、例えば、「a cell（ある細胞）」は、複数のこのような細胞を含む。
特に断らない限り、明細書及び特許請求の範囲で使用される成分の量、反応条件などを表す全ての数字は、「約」により全ての場合において修飾されるものとして理解されるべきである。従って、特にそうではないと記載されていない限り、本明細書及び添付の特許請求の範囲に記載された数値パラメータは、本発明により得ようとする所望の特性に応じて変化することのできる近似値である。
本明細書で使用される「約」という用語は、値又は質量、重量、時間、容量、濃度若しくはパーセンテージの量に言及する場合、特定された量の、いくつかの実施態様では±20％、いくつかの実施態様では±10％、いくつかの実施態様では±5％、いくつかの実施態様では±1％、いくつかの実施態様では±0.5％、いくつかの実施態様では±0.1％の変動を包含することを意味し、このような変動は本発明の方法を実施するために適当である。

「comprising（から成る）」は、「including（含む）」、「containing（含む）」又は「characterized by(により特徴付けられる)」と同様に、包含的又は制約が無く、付加的な、非列挙の要素又は方法段階を排除しない。「comprising（から成る）」は、名付けられた要素は必須であるが、他の要素も加えることが可能であり、それでも特許請求の範囲の構成物を形成することができることを意味する技術用語である。
本明細書で用いる成句「consisting of（のみから成る）」は、請求の範囲に明記してない全ての要素、段階又は内容物を除外する。成句「consist of（のみから成る）」が、プレアンブルに直ちに続かないで、請求の範囲の本体に現れる場合、示された要素のみに限定されるが、他の要素は、全体として請求の範囲から排除されない。
本明細書で用いる成句「consisting essentially of(本質的に、から成る)」は、請求範囲を、明記した材料又は段階に限定して、さらに請求範囲の発明事項の基本的及び新規の特徴に実質的に影響しない材料又は段階を限定する。
「comprising（から成る）」、「consisting of（のみから成る）」及び「consisting essentially of(本質的に、から成る)」に関して、これらの３種の用語の１種が本明細書で用いられた時、本発明は、他の２種の用語のいずれかの使用を含めることができる。

本明細書で使用される「及び/又は」は、実在物をリストする場合に使用される場合、単独で又は組み合わせて存在する実在物を意味する。従って、例えば、「A、B、C、及び/又はD」と記載されている場合、個別のA、B、C、及びDを含むだけでなく、A、B、C、及びDの任意の及び全ての組み合わせ及びサブコンビネーションを含む。
米国特許第8,318,424号は、その全体が参照により本明細書に組み込まれる。また本明細書に引用される全ての参考文献は、本明細書にその全体が参考として組み込まれる。

Ｉ．方法、システム及びキット
RNA構造解析のような、高精度な核酸分析を用いた次世代（next-gen）配列決定法を用いる方法が、本明細書のいくつかの実施態様において開示される。いくつかの実施態様において、SHAPE-MaP法が提供される。このような方法には、付加物を含むヌクレオチドを読み飛ばし、逆転写酵素又は他のポリメラーゼに化学修飾の部位に不正確な（非相補的な）ヌクレオチドを組み込ませることにより、RNA中の化学的修飾を検出する方法が含まれる。このような方法の他の例には、付加物を含むヌクレオチドを読み飛ばし、変異体逆転写酵素に化学修飾の部位に不正確な（非相補的な）ヌクレオチドを組み込ませることにより、RNAなどの核酸中の化学修飾を検出する方法が含まれる。このような方法の更に別の例には、超並列配列決定法(MPS)を使用して、RNAなどの核酸中の化学修飾を検出する方法がある。このような方法の更に他の例には、超並列配列決定法(MPS)を使用し、合成されたRNAなどの相補核酸中で配列変化として読み出すことにより、RNAなどの核酸中の化学修飾を検出する方法が含まれる。

また、試薬1M7、1M6及びNMIAを用いたSHAPE-MaPを使用することが、本明細書に開示される（実施例に開示される例示的な実施態様）。実際、任意の化学剤を用いたSHAPE-MaPを使用することが、本発明に従って提供される。
いくつかの実施態様において、RING-MaP法が開示される。このような方法の例には、逆転写酵素又は他のポリメラーゼを使用して複数のサイトを読み飛ばし、特に変異の各部位に、非相補的なヌクレオチドを組み込ませることにより、RNAなどの核酸中の複数の化学修飾を検出する方法が含まれる。このような方法の例には、RNAなどの核酸中の複数の化学修飾を検出することから、RNAなどの核酸の構造を推定する方法が含まれる。
また、本明細書には、DMSによるRING-MaPの使用が開示される。実際、任意の化学剤によるRING-MaPの使用が本発明に従って提供される。

本明細書及び特許請求の範囲で使用される、ヌクレオチドの取り込みに関する、「不正確な」とは、元の配列中に存在するヌクレオチドに、非相補的なヌクレオチド（ワトソン-クリックの規則（A-U、A-T、G-C）による）を組み込むことをいう。これは配列内の少数の欠失を含む。
RNAの化学修飾の分析及び/又はRNA構造分析に関する本発明には、この方法及び分析を行うためのキットが含まれる。また、RNAの化学修飾の分析及び/又はRNA構造分析に関する本発明には、この方法及び分析を行うためのキットが含まれる。この分析を用いたアプローチ及び方法が含まれる。
いくつかの実施態様において、この化学修飾は、2'-O-メチル基のような、RNAなどの核酸中に既存の化学修飾である。従って、この化学修飾は、任意の化学試薬により作成されることができ、又は細胞により作成されることができ（エピジェネティックな修飾の場合）、いくつかの実施態様において、天然及び/又は変異ポリメラーゼを使用して作成されることができる。エピジェネティックな修飾の検出は、例えば、診断アプローチにおいて使用することができる。いくつかの実施態様において、この修飾は、1-メチルアデノシン及び/又は3-メチルシトシンである（いずれも、DMS修飾から検出可能である。）。他のエピジェネティックな修飾として、6-メチルアデノシン、3-メチルウリジン、2-メチルグアノシン、及びその他本開示を検討することにより当業者に明らかであるような修飾がある。

RNAなどの核酸の化学修飾の分析及び/又はRNAなどの核酸の構造解析に関する本発明は、コンピュータ可読媒体に具現化されたコンピュータ実行可能命令を含むコンピュータプログラム製品を用いて実施することができる。本発明を実施するために適当な例示的コンピュータ可読媒体には、チップメモリデバイス、ディスク記憶装置、プログラマブルロジックデバイス、及び特定用途向け集積回路が含まれる。更に、本発明を実施するコンピュータプログラム製品は、単一のデバイス又はコンピューティングプラットフォーム上に設置することができ、又は複数のデバイス又はコンピューティングプラットフォーム間に分散させることができる。従って、本発明は、コンピュータにより実行される場合、RNA等の核酸の構造解析について特異的機能を発揮するコンピュータ説明書のセットを含むことができる。

RNAなどの核酸は、生物学的サンプル中に存在してもよい。試薬−溶媒溶液を、RNAなどの核酸を含む複雑な生体液に添加する。この溶液は、異なる濃度及び量のタンパク質、細胞、ウイルス、脂質、単糖及び多糖類、アミノ酸、ヌクレオチド、DNA、並びに種々の塩及び代謝産物を含有してもよい。この試薬の濃度は、RNAなどの核酸中の所望の修飾の程度を達成するように調整してもよい。

「非プロトン性溶媒」は、プロトンの受け入れ又は供与のいずれもすることができない溶媒分子を意味する。典型的な非プロトン性溶媒として、アセトン、アセトニトリル、ベンゼン、ブタノン、ブチロニトリル、四塩化炭素、クロロベンゼン、クロロホルム、1,2-ジクロロエタン、ジクロロメタン、ジエチルエーテル、ジメチルアセトアミド、N,N-ジメチルホルムアミド（DMF）、ジメチルスルホキシド（DMSO）、1,4-ジオキサン、酢酸エチル、エチレングリコールジメチルエーテル、ヘキサン、N-メチルピロリドン、ピリジン、テトラヒドロフラン（THF）及びトルエンが挙げられるが、これらに限定されない。特定の非プロトン性溶媒は、極性溶媒である。極性非プロトン性溶媒の例として、アセトン、アセトニトリル、ブタノン、N,N-ジメチルホルムアミド及びジメチルスルホキシドが挙げられるが、これらに限定されない。特定の非プロトン性溶媒は、非極性溶媒である。非極性非プロトン性溶媒の例として、ジエチルエーテル、ヘキサンなどの脂肪族炭化水素、ベンゼンやトルエンなどの芳香族炭化水素、及び四塩化炭素などの対称ハロゲン化炭化水素類が挙げられるが、これらに限定されない。

更に、RNAなどの核酸は、タンパク質又は他の低分子及び高分子の生物学的リガンドの存在下で修飾することができる。求電子剤及びホルムアミドやDMSOなどの有機共溶媒と直接反応溶液成分は、十分に許容することができるが、その試薬濃度を調整することが必要になることがある。求電子剤の反応性はpHに強く依存することができるので、そのpHを、例えば、7.5〜8.0の範囲、但しこれに限定されない、に維持してもよい。最大の反応性（柔軟）と最小の反応性（制限）ヌクレオチドを区別する機能範囲は、典型的には20〜50倍に及ぶ。

更に、この核酸はDNAであってもよい。応用として、標的DNA中の化学修飾を越えてDNAを合成する際に、不正確又は非相補ヌクレオチドを組み込むポリメラーゼ又は逆転写酵素を用いて、DNA中のエピジェネティックな修飾を検出することができる。また、DNAが、DNAアプタマーなどの合成分子である方法が含まれる。この実施態様では、DNAに結合する分子又はタンパク質を検出するための診断法として、DNAに、SHAPE-MaP又はRING-MaP法を適用する方法を使用することができる。

ＩＩ．ＳＨＡＰＥ（プライマー伸長により分析される選択的2'-ヒドロキシルアシル化）求電子剤
本発明のいくつかの実施態様において開示されるように、SHAPE化学は、リボース2-ヒドロキシル基の求核反応性が、局所ヌクレオチドの柔軟性により制限されるという発見の利点を有する。塩基対形成又は三次の相互作用により制限されるヌクレオチドにおいて、3-ホスホジエステルアニオン及び他の相互作用が、2-ヒドロキシル基の反応性を低下させる。対照的に、柔軟性の立場では、NMIA（N-メチルイサト酸無水物）を含むがこれらに限定されない求電子剤と反応して2-O-付加物を形成する立体配座を優先的に採用する。一例として、NMIAは一般的に4つ全てのヌクレオチドと反応し、この試薬は並列自己不活性化加水分解反応を受ける。実際、本発明は、上記のように核酸と反応することができる任意の分子を、本発明のいくつかの実施態様に従って、使用することができるということを提供する。

追加のSHAPE試薬が開発されている。このSHAPE試薬には、イサト酸無水物誘導体が含まれるが、これらに限定されない。いくつかの実施態様において、このSHAPE方法での使用に適したイサト酸無水物誘導体は下記で示される（式中、X及びYは任意の官能基であってよく、反応性炭素の中心を円で囲む。）。

イサト酸無水物誘導体とRNAヌクレオチドとの間で形成される付加物は、以下の構造を有することができる。

いくつかの実施態様において、このイサト酸無水物誘導体は、1-メチル-7-ニトロイサト酸無水物（1M7）であってもよい。

いくつかの実施態様において、このイサト酸無水物のX置換基として、アルキル、置換アルキル、シクロアルキル、アリール、置換アリール、ヘテロアリール、アルコキシ、アリールオキシ、アラルキル、アラルコキシル、ジアルキルアミノ、ニトロ、カルボキシル、ハロゲン原子、アシル、ヒドロキシアルキル、アミノアルキルを含む官能基が挙げられるが、これらに限定されない。いくつかの実施態様において、Yとして、アルキル、置換アルキル、シクロアルキル、アリール、置換アリール、ヘテロアリール、ヒドロキシアルキル、及びアミノアルキルを含む官能基が挙げられるが、これらに限定されない。
「X」、「Y」又はある場合には「R」官能基という名称は、本明細書において他に指定がない限り、一般的に、その名称を有する基に対応するものとして当該技術分野において認識されている構造を有する。例示のために、ある代表的名称「X」、「Y」又はある場合には「R」官能基を以下に定義する。これらの定義は、本明細書の開示を検討するに際し当業者に明らかであろう定義を、補足かつ例示するが、排除するものではないことを意図している。

SHAPE試薬として、上記の分子に加えてDMS（硫酸ジメチル）もまた用いることができる。実際、本発明は、本発明のいくつかの実施態様に従って、RNA又はDNAと反応して永久的化学修飾を残すことができる任意の分子を用いることができるということを提供する。

本明細書で用いる「アルキル基」は、例えば、メチル基、エチル基、プロピル基、イソプロピル基、ブチル基、イソブチル基、tert-ブチル基、ペンチル基、ヘキシル基、オクチル基、エテニル基、プロペニル基、ブテニル基、ペンテニル基、ヘキセニル基、オクテニル基、ブタジエニル基、プロピニル基、ブチニル基、ペンチニル基、ヘキシニル基、ヘプチニル基及びアレニル基を含む、線状（即ち、「直鎖」）、分枝状又は環状、飽和又は少なくとも部分的に飽和、及び幾つかの場合、完全不飽和の（即ち、アルケニル基及びアルキニル基）炭化水素鎖を含む、Ｃ_１〜２０を表わす。「分枝状」は、メチル基、エチル基、又はプロピル基のような、低級アルキル基が、直鎖アルキル鎖に付加したアルキル基を表す。「低級アルキル基」は、１から８炭素原子（即ちＣ_１〜８アルキル基）例えば、１，２，３，４，５，６，７又は８炭素原子、を有するアルキル基を表す。「高級アルキル基」は、約１０から約２０炭素原子、例えば、１０，１１，１２，１３，１４，１５，１６，１７，１８，１９又は２０炭素原子、を有するアルキル基を表わす。ある態様において、「アルキル基」は、特に、Ｃ_１〜８直鎖アルキル基を表す。他の態様において、「アルキル基」は、特に、Ｃ_１〜８分枝状鎖アルキル基を表す。

アルキル基を、任意に、同一又は異なる、１以上のアルキル置換基により置換することができる（「置換アルキル基」）。「アルキル基の置換基」は、アルキル基、置換アルキル基、ハロ基、アリールアミノ基、アシル基、ヒドロキシル基、アリールオキシル基、アルコキシル基、アルキルチオ基、アリールチオ基、アラルキルオキシル基、アラルキルチオ基、カルボキシル基、アルコキシカルボニル基、オキソ基、及びシクロアルキル基を含むが、これ等に限定されない。これ等は、任意に、アルキル鎖に沿って、１以上の酸素原子、イオウ原子又は置換又は非置換窒素原子、を挿入することができて、ここで窒素置換基は、水素原子、低級アルキル基（本明細書では、「アルキルアミノアルキル基」とも表わす）又はアリール基である。
従って、本明細書で用いる「置換アルキル基」は、本明細書で定義した、アルキル基を含み、このアルキル基中で、アルキル基の官能基の１以上の原子が、例えば、アルキル基、置換アルキル基、ハロゲン、アリール基、置換アリール基、アルコキシル基、ヒロドキシル基、ニトロ基、アミノ基、アルキルアミノ基、ジアルキルアミノ基、硫酸基、及びメルカプト基を含む、他の原子又は官能基に置換される。

本明細書で用いられる「アリール基」は、共有結合により結合した、又はメチレン基又はエチレン基部分のような、しかしこれ等に限定されない、一般的な置換基に結合した、単一芳香族環又は互いに融合した多芳香族環であることができる芳香族置換基を表すために用いられる。一般的な結合置換基はまた、ベンゾフェノンのようなカルボニル基、ジフェニルエーテルにおける様な酸素、ジフェニルアミンにおける様な窒素であることができる。「アリール基」は、特に、複素環芳香族化合物を包含する。芳香族環（複数もあり）は、とりわけ、フェニル基、ナフチル基、ビフェニル基、ジフェニルエーテル基、ジフェニルアミン基、及びベンゾフェノン基を含むことができる。特別の態様において、「アリール基」は、約５から約１０炭素原子、例えば、５，６，７，８，９又は１０炭素原子、を含む、及び５−及び６−員炭化水素及び複素環芳香族環基を含む、環状芳香族基を意味する。

アリール基は、任意に同一又は異なる１以上の「アリール基の置換基」で置換されることができ、この「アリール基の置換基」には、アルキル基、置換アルキル基、アリール基、置換アリール基、アラルキル基、ヒドロキシル基、アルコキシル基、アリールオキシル基、アラルキルオキシル基、カルボキシル基、アシル基、ハロ基、ニトロ基、アルコキシカルボニル基、アリールオキシカルボニル基、アラルコキシカルボニル基、アシルオキシ基、アシルアミノ基、アロイルアミノ基、カルバモイル基、アルキルカルバモイル基、ジアルキルカルバモイル基、アリールチオ基、アルキルチオ基、アルキレン基、及びNR'R''（ここでR'及びR''は、独立してハロゲン基、アルキル基、置換アルキル基、アリール基、置換アリール基及びアラルキル基であることができる）が含まれる。
従って、本明細書で用いる「置換アリール基」は、１以上の原子又はアリール基の官能基が、例えば、アルキル基、置換アルキル基、ハロゲン、アリール基、チカンアリール基、アルコキシル基、ヒドロキシル基、ニトロ基、アミノ基、アルキルアミノ基、ジアルキルアミノ基、硫酸基、及びメルカプト基を含む、他の原子又は官能基と、置換される、本明細書で定義した、アリール基を含む。
アリール基の特別の例は、シクロペンタジエニル基、フェニル基、フラン基、チオフェン基、ピロール基、ピラン基、ピリジン基、イミダゾール基、ベンズイミダゾール基、イソチアゾール基、イソキサゾール基、ピラゾール基、ピラジン基、トリアジン基、ピリミジン基、キノリン基、イソキノリン基、インドール基、カルバゾール基、等々を含むが、これ等に限定されない。

本明細書で用いられる以下：

の化学式により一般的に代表される構造は、例えば、３−炭素、４−炭素、５−炭素、６−炭素等々の、脂肪族及び／又は芳香族環状化合物の、しかしこれ等に限定されない、環構造を表し、この環状化合物は、置換基Ｒ基（ここでＲ基は、存在又は不在であることができて、存在する場合は、１以上のＲ基は、それぞれ環状構造の１以上の可能な炭素原子上で置換されることができる）を含む。Ｒ基の存在又は不在、及びＲ基の数は、整数ｎ値により決定される。１以上の場合、各Ｒ基は、他のＲ基上ではなく、環状構造の可能な炭素原子上で置換される。例えば、以下の構造

（式中、ｎは０から２の整数）は、以下：

を含むが、これ等に限定されない化合物を含む。

いくつかの実施態様において、本発明により示される化合物は、連結基を含む。本明細書で使用する場合、「連結基」は、安定な構造を形成するために、特にアリール基では、2又はそれ以上の他の化学的部分に結合する、フラニル、フェニレン、チエニル、及びピロリルラジカルなどの化学的部分を含む。
芳香族環又は複素環式芳香族環の指定原子が「なし又はない(absent)」と定義される場合、この指定原子は直接結合に置き換えられる。この連結基又はスペーサー基が「なし又はない(absent)」と定義される場合、この連結基又はスペーサー基は直接結合で置き換えられる。

「アルキレン」は、1〜約20個の炭素原子、例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19又は20個の炭素原子を有する直鎖又は分岐の2価の脂肪族炭化水素基を意味する。このアルキレン基は、直鎖状、分岐状又は環状であってもよい。このアルキレン基はまた、必要に応じて、不飽和であっても及び/又は1若しくはそれ以上の「アルキル置換基」で置換されてもよい。このアルキレン基には、必要に応じて、一若しくはそれ以上の酸素、硫黄又は置換若しくは非置換の窒素原子（「アルキルアミノアルキル」とも呼ぶ）が挿入されていてもよく、この窒素の置換基は、上記のようにアルキルである。典型的なアルキレン基としては、メチレン(-CH₂-)、エチレン(-CH₂-CH₂-)、プロピレン(-(CH₂)₃-)、シクロヘキセン(-C₆H₁₀-）、-CH=CH-CH=CH-、-CH=CH-CH₂-、-(CH₂)_q-N(R)-(CH₂)_r-（式中、q及びrはそれぞれ独立に0〜約20の整数、例えば、0、1、2、3、4、5、6、7 、8、9、10、11、12、13、14、15、16、17、18、19、又は20であり、Rは水素原子又は低級アルキルである。）、メチレンジオキシ(-O-CH₂-O-)、及びエチレンジオキシ(-O-(CH₂)₂-O-)が挙げられる。アルキレン基は、約2〜約3個の炭素原子を有してもよく、さらに、6〜20個の炭素を有してもよい。

本明細書で使用される「アシル」は、カルボキシル基のOHが他の置換基で置換されている有機カルボン酸基を指す（即ち、RCO-（式中、Rは上記アルキル又はアリール基を表す。）で表される。）。このように、「アシル」という用語は、アセチルフラン及びフェナシル基などのアリールアシル基を含む。アシル基の具体例としてはアセチル基及びベンゾイル記が挙げられる。

「環状」及び「シクロアルキル基」は、約３から約１０炭素原子、例えば、３，４，５，６，７，８，９又は１０炭素原子の、非芳香性単一環式−又は非芳香性多環式リングシステムを表す。シクロアルキル基は、任意に、部分的に不飽和であることができる。また、シクロアルキル基は、任意に、本明細書で定義された、オキソ基及び／又はアルキレン基などの、アルキル基の置換基で置換することができる。この環状アルキル鎖に沿って、１以上の酸素、硫黄、又は置換又は非置換の窒素原子を挿入することができるが、ここで窒素置換基は、水素原子、アルキル基、置換アルキル基、アリール基、又は置換アリール基であり、従って、複素環基を提供する。代表的な単環シクロアルキル環は、シクロペンチル基、シクロヘキシル基及びシクロヘプチル基を含む。多環シクロアルキル環は、アダマンチル基、オクタヒドロナフチル基、デカリン基、カンファー基、カンファン基及びノルアダマンチル基を含む。

「アルコキシル基」はアルキル−Ｏ−基を表し、ここでアルキル基は前述の通りである。本明細書で用いる「アルコキシル基」は、例えば、メトキシル基、エトキシル基、プロポキシル基、イソプロポキシル基、ブトキシル基、ｔ−ブトキシル基、及びペントキシル基を表すことができる。「オキシアルキル基」は、「アルコキシル基」と互換性を持って用いることができる。
「アリールオキシル」は、アリール−Ｏ−基を意味する（式中、アリールは置換アリールを含む上記のアリール基である。）。本明細書で使用する「アリールオキシ」は、フェニルオキシル又はヘキシルオキシル、及びアルキル、置換アルキル、ハロゲン原子又はアルコキシル基で置換されたフェニルオキシル又はヘキシルオキシルを表してもよい。
「アラルキル基」はアリール−アルキル−基を表し、ここでアリール基及びアルキル基は前述の通りであり、また置換アリール基及び置換アルキル基を含む。アラルキル基の例としては、ベンジル基、フェニルエチル基、及びナフチルメチル基がある。
「アラルキルオキシル」は、アラルキル-O-基を意味する（式中、アラルキル基は上記のとおりである。）。例示的なアラルキルオキシル基はベンジルオキシ基である。

「ジアルキルアミノ」は、-NRR'を意味する（式中、R及びR'は、それぞれ独立して、上記のようなアルキル基及び/又は置換されたアルキル基を表す。）。例示的なジアルキルアミノ基として、エチルメチルアミノ、ジメチルアミノ及びジエチルアミノが挙げられる。
「アルコキシカルボニル」は、アルキル-O-CO-基を意味する。例示的なアルコキシカルボニル基として、メトキシカルボニル、エトキシカルボニル、ブチルオキシカルボニル及びt-ブチルオキシカルボニルが挙げられる。
「アリールオキシカルボニル」は、アリール-O-CO-基を意味する。例示的なアリールオキシカルボニル基としては、フェノキシ−及びナフトキシ−カルボニル基が挙げられる。
「アラルコキシカルボニル」は、アラルキル-O-CO-基を意味する。例示的なアラルコキシカルボニル基はベンジルオキシカルボニル基である。
「カルバモイル」は、H₂N-CO-基を意味する。
「アルキルカルバモイル」は、R'RN-CO-基を意味する（式中、R及びR'の一方が水素原子を表し、他方は上記のようなアルキル及び/又は置換アルキルを表す。）。
「ジアルキルカルバモイル」とは、R'RN-CO-基を意味する（式中、各R及びR'は、独立して、上記のようなアルキル及び/又は置換アルキルを表す。）。
「アシルオキシル」は、アシル-O-基を意味する（式中、アシルは上記のとおりである。）。
「アシルアミノ」は、アシル-NH-基を意味する（式中、アシルは上記のとおりである。）。

「アミノ」は-NH₂基を意味する。
「カルボニル」を-(C=O)-基を意味する。
「カルボキシル」は、-COOH基を意味する。
本明細書中で使用される「ハロゲン原子」、「ハロ」、「ハロゲン化物」又は「ハロゲン」は、フルオロ、クロロ、ブロモ、及びヨード基を意味する。
「ヒドロキシル」は、-OH基を意味する。
「ヒドロキシアルキル」は-OH基で置換されたアルキル基を意味する。
「アミノアルキル」は、-NH2基で置換されたアルキル基を意味する。従って、「アミノアルキル」基は、NH₂₍CH₂)_n基であってもよい（式中、nは1〜6の整数、すなわち、1、2、3、4、5又は6を表す。）。
「メルカプト」は、-SH基を意味する。
「オキソ」は、炭素原子が酸素原子に置換されている上記の化合物を意味する。
「ニトロ」は、-NO₂基を意味する。
「チオ」は、炭素又は酸素原子が硫黄原子に置換されている上記の化合物を意味する。
「スルフェート」は-SO₄基を意味する。
「独立して選択される」とは、置換基に関する限り（例えば、R₁及びR₂のようなR基、又はX及びYのような基）、置換基が同一であっても又は異なっていてもよいということである。例えば、X及びYの両方が置換アルキルであるか、又はXが水素原子でありかつYが置換アルキル基である、又はその逆などであってもよい。

ＩＩＩ．ＲＮＡの折り畳み
本発明は、インビトロ転写を含む、但しこれに限定されない、方法により生成したＲＮＡ、及び細胞及びウイルス内で生成したＲＮＡを用いて実施される。いくつかの実施態様において、このRNAは、ゲル電気泳動を変性して精製し、生物学的に関連する立体配座を達成するために再生させることができる。更に、RNAを所望のpH（例えば、約pH8）で所望の立体配座に折り畳む任意の手順で置換することができる。このRNAを、多量体形態を排除するために、まず加熱し、続いて急いで低イオン強度緩衝液中で冷却することができる。続いて、フォールディング溶液を加えて、RNAが正確な立体配座を達成し、構造に感度が良い求電子剤で探るための準備とすることができる。いくつかの実施態様において、このRNAは、単一の反応で折り畳むことができ、その後（＋）及び（−）求電子反応に分けることができる。いくつかの実施態様において、RNAは、修飾前には自然には折り畳まれていない。RNAが熱及び/又は低塩条件により変性されている間に、修飾が行われる。

ＩＶ．重合剤
重合剤は、例えば、酵素を含む、核酸を合成するように機能する任意の化合物又はシステムであってもよい。ポリメラーゼは、天然ポリメラーゼ及び/又は変異ポリメラーゼであってもよい。この目的のために適当な酵素として、大腸菌DNAポリメラーゼI、大腸菌DNAポリメラーゼのクレノウ断片、ポリメラーゼ変異タンパク質、逆転写酵素、例えば、マウス又は鳥類の逆転写酵素のような熱安定性酵素を含むその他の酵素が挙げられるが、これらに限定されない。
新たに合成された鎖及びその相補的核酸鎖は、本明細書に記載のハイブリダイゼーション条件下で二本鎖分子を形成することができ、このハイブリッドはこの方法の後続の段階で使用される。

以下の実施例は、当業者に本発明の代表的な実施態様を実施するための指針を提供するために記載されている。本開示及び当業者の一般的レベルに照らせば、当業者は、以下の実施例が例示のみを意図しているものであり、本発明の範囲から逸脱することなく、多くの変更、修正、及び改変を行うことができることを理解するであろう。

実施例１ SHAPE-MPプロトコル
総括：
1. A. SHAPE修飾
B.エタノールppt/G25又は50/RNEasy（登録商標）
2. A. 逆転写（3時間、Mg^{2 +}無し、6 mMのMn²⁺）
（一晩放置でよい）
B. G25/50スピンカラム
3.A. GSPプライマーを用いた第1段階PCR --- ほんの数サイクル（3）
B. PCRクリーンアップ（PureLink（登録商標） PCRマイクロクリーンアップ）
（後に、密封されたPCRプレート中でフリーズしてもよい）
4.A. プレミックス、インデックス特異的プライマーを用いた第2段階PCR ---前段階よりも多くのサイクル（27）
B. PCRクリーンアップ（PureLink（登録商標）PCRマイクロクリーンアップ）
（後に、密封されたPCRプレート中でフリーズしてもよい）
5. Ampure（登録商標）ビーズサイズ選択
6. バイオアナライザ/量子ビット解析
7. プールサンプル、配列
材料必要量：
1. A. RNA（100ng〜1μg*）（100μl rxn）
B.エタノールppt/G25又は50カラム/RNEasy（登録商標）キット
2. A. 逆転写（3時間、Mg^{2 +}無し）（1〜500 ng）（〜20μL）
B. G25/50スピンカラム（アウトプット50μL）

１．ＳＨＡＰＥ修飾：
下表に、反応後の容積100μLが精製に便利であるとして、従来のSHAPE修飾と比較した、修飾プロセスの概要を記載する。エタノール沈殿が計画されている場合には（推奨しない）、水、エタノール及び塩を追加する。RNeasy（登録商標）キット（〜200bps）を使用するにはRNAの量が少なすぎる場合、スピンカラムを用いればより効果的にRNAのより高い収量をもたらす。

RNAが> 200bpsである場合、SHAPE試薬と小断片を除去するためにRNeasy（登録商標）カラムを使用し、250μLのアリコートに小さく分割した場合、G50スピンカラムを通過させる。必要に応じて、エタノール沈殿を組み合わせる。水又はトリス（pH8.0での適度な容量に再懸濁する。

２．逆転写、GSP（3時間、Mg ²⁺ なし）：
MgCl₂を含まず、その代わりに活性二価としてMnCl₂を使用したバッファ中で、42℃で3時間この逆転写反応を行う。たとえば、Mg²⁺なしで2倍の421バッファを作製する（これを「421^-, 2x」と記す）。
まず、10倍の第一ストランドバッファを作製する。
5 mLの1Mトリス、pH8（最終500 mM）
3.75 mLの2M KCl（最終750 mM）
1.25mLの水
合計10 mL

DTT： DTTの1 Mストックを0.2 Mに希釈
dNTP：それぞれ20mMの混合物を作る。

421 ^- , 2x
800μLのFSB-、10倍
400μLの0.2 M DTT
200μLの20mMのdNTPミックス

逆転写：
1〜500 ngのRNA; 例えば150〜500 ng
1μLのGSPプライマー = 2pmol（RTプライマー）
水11μLに
→ 65℃で5分間、次に氷
3.5μLの421^-, 2x
0.24μLの500 mM Mn2+
5.26μLの水
→ 42℃で2分間
1μLのSSII
42℃で180分間インキュベート
70℃で15分間インキュベート
→ 4℃に維持
50μLに調整し、G50カラムを通過させる。
溶出は〜50μL
**注：これらの容積は柔軟であってよく、RNAが大きな容積を占める場合は、421^-, 2xの添加の前又は後に、水を減らす。マスター混合物は、0.24μLのMnCl₂のピペッティングを避けて、通常は一貫して作られている。

３．GSPプライマーを用いた第一段階PCR：
Phusion（登録商標）又はQ5（登録商標）ポリメラーゼの説明書に従って反応を行う。Q5（登録商標）ポリメラーゼは高いGC含量で行うことができる。両方とも、高忠実度の酵素であり、十分な時間が与えられた場合、一本鎖プライマーを劣化させる。従って、このポリメラーゼは最後に添加され、直ちに予備加熱サーモサイクラー上で反応を行うことが推奨される。NEBプライマー計算機を用いて計算されたアニール温度を使用されたい：

最終サンプルは、2つのPCR増幅の産物なので、サイクルの総数は2つのPCRの間で30を超えないことが好ましい。各15サイクルが正常に使用されてきた。前段階からの2-3μl のcDNAが使用されてきたが、これは変更可能である。PCR汚染を避けるために、この時点でARTチップ(ATR tip)の使用を開始することが重要である。以下代表的な50μLの反応を示す：

最終濃度：
各dNTP 200μM
各プライマー 0.5μM
ゲノム鋳型 50〜500 ng
1ｘQ5反応緩衝液
（1ｘ高GCエンハンサー - 任意）
98℃で変性
72℃で20s/kb拡張
1単位 Q5ハイフィデリティDNAポリメラーゼ

反応は氷上に設定する必要がある。PCRの後、PureLinkマイクロPCRクリーンアップキットを用いて精製する。溶出は約9〜10μLである。

４．予め混合したインデックス特異的プライマーを用いた第二段階PCR：
この反応は、DNA産物の末端に、インデックス配列を含むイルミナ特異的配列を付加する。予め混合した第二段階PCRプライマーを使用されたい。これらのプライマーは、10μMの濃度で保存され、インデックス番号で標識される。60℃のアニール温度を使用して、上記のように正確に反応を行われたい。

PureLink(登録商標)PCRでクリーンアップキット（非マイクロ）を用いて精製する。溶出は約50μLである。

５．Ampure（登録商標）ビーズクリーンアップ：
Ampure（登録商標）-XPビーズを室温に加温する。ビーズの1.8mLのアリコートは、この状態に達するのに約15分かかる。ビーズが十分に混合されていることを確認し、それらをボルテックスする。サンプルを96ウェルプレートに移す。
この精製のために新鮮な80％エタノールを準備する。
１．ビーズ結合：ボルテックスされたビーズ50μLをサンプル50μLに添加し、ピペットを上下に10回に揺らして混合する。
２．ベンチトップ上で室温で15分間インキュベートする。
３．プレートを96ウェル磁気スタンド上に置き、5分間のそのままにする。
４．各サンプルの透明な上清の95 μLを除去する。チップを変更しないように注意する。プレートを磁気スタンド上に置く。
５．洗浄：ビーズを乱すことなく、200μLの80％エタノールを追加し、ピペットでウェルの反対側に移す。
６．30秒間インキュベートし、続いて上清をすべて除去し、廃棄する。
７．上記５と６段階を繰り返し、ビーズを二回洗浄する。
８．プレートを磁気スタンド上に置いたままにして、ビーズを15分間乾燥させる。プレートの上に大きなプラスチックのふたを置き、サンプルをほこりや隙間風の影響から防ぐ。
９．材料の溶出：プレートを磁気スタンドから慎重に取り外し、その後、10 mMトリス（pH7.5〜8.0）32.5μL中にビーズを再懸濁する。
１０．室温で2分間インキュベートし、磁気スタンド上に置く。
１１．5分後に、上清30μLを取り除き、各エッペンドルフチューブに入れる。

実施例２ SHAPE-MPプロトコル
総括：
1. A. SHAPE修飾
B.エタノールppt/G25又は50/RNEasy（登録商標）
2. A. 3xFSBのフラグメント
B. G25/50スピンカラム
3. A. 逆転写（3時間、Mg^{2 +}無し、6 mMのMn²⁺）
（一晩放置でよい）
B. G25/50スピンカラム
4. A. 第二ストランド合成
B. PCRクリーンアップ（PureLink（登録商標） PCRマイクロクリーンアップ）
（後に、密封されたPCRプレート中でフリーズしてもよい）
5. A. 末端修復
B. Ampure（登録商標） XPビーズクリーンアップ
（後に、密封されたPCRプレート中でフリーズしてもよい）
6. A. Aオーバーハングの追加
B. フォークされたアダプタのライゲーション
C. Ampure（登録商標）XPビーズクリーンアップ
D. Ampure（登録商標）XPビーズクリーンアップ
7. A. エマルジョンPCR
B. エーテル抽出
C. PCRクリーンアップ（PureLink（登録商標） PCRクリーンアップ）
8. Ampure（登録商標）ビーズサイズ選択
9. Bioanalyzer（登録商標）/Qubit（登録商標）分析
10. プールサンプル、配列

材料必要量：
1. A. RNA（100ng〜1μg*）（100μl rxn）
B. G25又は50カラム/RNEasy（登録商標）キット
2. A. 3xFSBのフラグメント（50μL rxn）
B. G25/50スピンカラム（アウトプット50μL）
3. A. 逆転写（3時間、Mg^{2 +}無し）（1〜500 ng）（〜20μL）
B. G25/50スピンカラム（アウトプット50μL）
4. A. 第二ストランド合成（10〜100 ng）
B. PCRクリーンアップ（PureLink（登録商標） PCRマイクロクリーンアップ）（アウトプット10μL）
5. A. 末端修復（前のアウトプット）
B. Ampure（登録商標）XPビーズクリーンアップ
6. A. Aオーバーハングの追加（前のアウトプット）
B. フォークされたアダプタのライゲーション
C. Ampure（登録商標）XPビーズクリーンアップ
D. Ampure（登録商標）XPビーズクリーンアップ（アウトプット30μL）
7. A. エマルジョンPCR (変動有、前の7〜30μL）
B. エーテル抽出
C. PCRクリーンアップ（PureLink（登録商標） PCRクリーンアップ）
8. Ampure（登録商標）ビーズサイズ選択
9. Bioanalyzer（登録商標）/Qubit（登録商標）分析
10. プールサンプル、配列（全体で20 nM DNA 10μL）
*この量は、下限についてさえも慎重に探査されたものではないが、下限値を用いることができることが期待される。

１．ＳＨＡＰＥ修飾：
対象のRNAを、100mMのSHAPE試薬ストック、10mMの試薬、最終反応条件を使用して、一度修飾する。簡便のため、100μLの反応体積を用いる（10×標準SHAPE）。
エタノール沈殿を用いる場合にのみ手順4、5及び6を行う。G25/50又はRNeasy（登録商標）キットを使用するには、適宜容積を調整し、製造元の説明書を利用されたい。
50％ホルムアミド最終中で変性した対照を実施する。150mMのHEPES及び12mMのEDTAを含み、ホルムアミドを含まない3ｘDC対照緩衝液を作成する。

下表に、従来のSHAPE修飾と比較した、SHAPE修飾プロセスの概要を示す。

RNAが> 200bpである場合、SHAPE試薬、小断片を除去するためにRNeasy（登録商標）列を使用する。より小さい場合には、rxn量を合計で50μLに減らし、G25カラムを通過させる。エタノール沈殿を使用してもよいが、より時間がかかり、サンプルのより大きな損失が生じる可能性がある。

２．3xFSBのフラグメント：
機能的二価として9 mMのMg²⁺を用いて断片化を行う。これは、Superscript酵素と共に提供される3x FSBと同等である。例えば、94℃で4分間のインキュベーションを行う。この消化は一つのPCRプレート中で行われるので、全てのサンプルは正確に同じ時間加熱されることができる。
プロトコル：
PCRプログラムを、加熱した蓋を用いて選択した時間インキュベートし、まず94℃に維持し、最後に4℃に維持することで終わるようにする。消化時間が終わったら、直ちに氷上にプレート上に置くようにする。
RNA XμL
5x FSB（FSB + Mg²⁺）YμL --- SS酵素と共に提供される
必要に応じて、水で総容量を50μLに調整し、G25/50スピンカラムを通過させる。溶出は約50μLである。

３．逆転写、GSP（3時間、Mg ²⁺ なし）：
MgCl₂を含まず、その代わりに活性二価としてMnCl₂を使用したバッファ中で、42℃で3時間この逆転写反応を行う。たとえば、Mg²⁺なしで2倍の421バッファを作製する（これを「421^-, 2x」と記す）。
まず、10倍の第一ストランドバッファを作製する。
5 mLの1Mトリス、pH8（最終500 mM）
3.75 mLの2M KCl（最終750 mM）
1.25mLの水
合計10 mL

DTT： DTTの1 Mストックを0.2 Mに希釈
dNTP：それぞれ20mMの混合物を作る。

421 ^- , 2x
800μLのFSB-、10倍
400μLの0.2 M DTT
200μLの20mMのdNTPミックス

逆転写：
1〜500 ngのRNA; 例えば150〜500 ng
1μLのランダムノナマー（50〜250 ng）例えば200 ng
水11μLに
→ 65℃で5分間、次に氷
3.5μLの421^-, 2x
0.24μLの500 mM Mn2+
5.26μLの水
→ 25℃で2分間
1μLのSSII
→ 25℃で10分間
42℃で180分間インキュベート
70℃で15分間インキュベート
→ 4℃に維持
50μLに調整し、G25カラムを通過させる。
溶出は〜50μL
**注：これらの容積は柔軟であってよく、RNAが大きな容積を占める場合は、421^-, 2xの添加の前又は後に、水を減らす。マスター混合物は、0.24μLのMnCl₂のピペッティングを避けて、通常は一貫して作られている。

４．第二ストランドの合成：
前の段階のRNA/DNAハイブリッドを用いて、更に、例えば、NEB＃1 E6111S/Lのキットを使用して、DNAの第二ストランドが作成され、DNA中のニックは修復される。投入DNAは、体積20μL中の第一ストランドDNA 1〜100ngである。このプロトコルの次段階では、逆転写反応の残りのバッファを希釈するため、48μLの水が追加される。何も無いので、投入は、68μLの水中10〜100ngである。
追加：
DNA/RNA 68μL
10倍の第二ストランド合成バッファ 8μL
酵素ミックス 4μL
総容量 80μL
これらを混合し、160℃で2.5時間インキュベートする。PureLink（登録商標）マイクロPCRクリーンアップキットを用いて精製する。溶出は約9-10μLである。

５．末端修復：
ここから先は、96ウェルPCRプレートを使用し、例えば、一時に一列使用して一つの反応を行い、ビーズを精製して、次の列に移る。交差汚染を回避するために以前に使用されたウェルを密封する。プレートは高価であるが、全てのサンプルをほとんど同様に処理することが可能で、高速なビーズ分離に最も適している。この段階では、オーバーハングしたエッジを取り除き、環状リン酸塩を修復し、その後のライゲーションの段階のために二本鎖DNAを生成する。得られた二本鎖DNAは、平滑末端を有している。
このNEBNext末端修復モジュール（E6050 S又はL）は、断片化したDNA 1〜5μgに対して、総容量が100μLの反応を行うことを推奨する。例えば、断片化DNAの理論投入量0.5〜2.5μgのために50μLの反応を行う。Ampure（登録商標）XPビーズを取り出し、それらを30分間で室温に到達させる。
以下を混合する：
二本鎖DNA X μL
NEBNext（登録商標）末端修復バッファ（10倍） 5μL
NEBNext（登録商標）酵素ミックス 2.5μL
水 X μL
総容積 50μL
これを20℃で30分間インキュベートする。トリス50μL（pH8.0）を加えて100μLに調整する。

１．Ampure（登録商標）XPのビーズ160μLを加えて、ピペットで200μLに調整し、上下に混する。これを室温で15分間インキュベートする。
２．磁気スタンド上にプレートを置き、5分待って、その後上清127.5μLを除去し、廃棄する。
３．段階2を一度繰り返し、磁気スタンド上にプレートを放置する。
４．各ウェルに新たに作製した80％エタノール200μLを加える。ビーズは洗浄しない。
５．30秒待ってから、すべての上清を除去し、2回の洗浄を一回繰り返す。
６．磁気スタンド上にプレートを15分間放置し、ビーズを乾燥する。
７．磁気スタンドからプレートを取り外し、10mMトリス17.5μLを加え、pH8.0でビーズを再懸濁する。再懸濁したビーズを室温で2分間インキュベートする。
８．磁気スタンド上にプレートを置き、5分待って、15μLを除去して新たなウェルに入れる。

６．末端テーリング：
NEBNext dA-テーリングモジュールE6053 S/L、末端修復されたブラントDNA（100〜1000bp）1-5μg。以下を混合する：
DNA 15μL
10倍のdAテーリングバッファ 2.0μL
クレノウフラグメント 1.2μL
水 1.8 μL
総容量 20.0μL
サーモサイクラーで37℃で30分間インキュベートする。ライゲーションに進む、又はビーズ精製を行う（1.8ボリュームビーズを加える）。23μLの水又は10mMトリス（pH8.0）で溶出する。その1μLを、Agilent（登録商標）バイオアナライザーチップ（DNA高感度チップ）上に走らせ、ライゲーションに使用するためのアダプタの相対濃度を決定する。製造業者イルミナにより示唆されたものと比較して、非常に少ない量のアダプタを次の段階で使用することができる可能性がある。

７．アダプタライゲーション：
以下を混合する：
前段階で得られたDNA 20.0μL
NEBNextクイックライゲーションRxnバッファ(5X)(2Xではない) 7.5 μL
DNAアダプタ 2.5μL
クイックT4 DNAリガーゼ 3.75μL
水 3.75μL
総容積 37.5μL
これを20℃で15分間インキュベートする。水5μLを加えて合計容積を42.5μLにする。Ampure（登録商標） XPビーズのクリーンアップに進む。

第一のクリーンアップ：
１．各サンプルにビーズ42μLを加える。
２．ピペットで85μLに調整し、各サンプルを10回混合する。
３．室温で15分間インキュベートする。
４．プレートを磁気スタンド上に置き、5分間そのままにする。
５．上清の79.5μLを除去し、廃棄する。
６．各ウェルに新たに調製した80％エタノール200μLを加える。
７．ビーズを30秒間インキュベートする。
８．すべての上清を除去し、廃棄する。
９．段階６〜８をもう一度繰り返す（洗浄2回）
１０．ビーズを磁気スタンド上で15分間乾燥する。
１１．スタンドから取り除き、52.5μLの水又は10mMトリス中で再懸濁する。
１２．室温で2分間インキュベーする。
１３．磁気スタンドに5分間置く。
１４．各サンプルから上清50μL除去し、その96ウェルプレート中の新しいウェルに入れる。

第二のクリーンアップ：
１．各サンプルにビーズ50μLを加える。
２．ピペットで100μLに調整し、各サンプルを10回混合する。
３．室温で15分間インキュベートする。
４．プレートを磁気スタンド上に置き、5分間そのままにする。
５．上清の95μLを除去し、廃棄する。
６．各ウェルに新たに調製した80％エタノール200μLを加える。
７．ビーズを30秒間インキュベートする。
８．すべての上清を除去し、廃棄する。
９．段階６〜８をもう一度繰り返す（洗浄2回）
１０．ビーズを磁気スタンド上で15分間乾燥する。
１１．スタンドから取り除き、22.5μLの水又は10mMトリス中で再懸濁する。
１２．室温で2分間インキュベーする。
１３．磁気スタンドに5分間置く。
１４．各サンプルから上清20μL除去し、その96ウェルプレート中の新しいウェルに入れる。

８．エマルジョンPCR：
この段階では、組換え事象が起こらないようにしてcDNAライブラリを増幅する。油性界面活性剤混合物中で水性PCR反応のエマルジョンを作成すると、無数の小さな気泡が生成し、それが反応チャンバとして機能する。その結果、組換え事象はほとんど起こらない。プロトコルは文献（Williams et al, Nature Methods vol. 3 no.7, 2006 pg 545）に従い、油性混合物を以下のように準備する：
このプロトコルへの変更点は下記の通り：
１．Pfuではなく、Q5（登録商標）ポリメラーゼを用いる。従って、Q5（登録商標）サイクル条件に加えて、Q5（登録商標）プライマー及び別のdNTP濃度を使用する。
２．ホットスタートQ5（登録商標）を使用しない限り、水相を滴下する直前に、酵素をエマルジョンミックスに加える。これにより、プライマーがポリメラーゼにより分解されることを防ぐことができる。
３．サイクルの間に95℃の変性段階を採用する。
４．スピードバックプレースチューブを使用する前に、約65℃のヒートブロック中で約5分間の開放し、余分なエーテルを追い出す。
1x enx、Q5を使用する（GC促進剤は使用しない）
DNAテンプレート 10μL
Q5バッファ 52μL
BSA 26μL
プライマー1 13μL
プライマー2 13μL
dNTP（10mMの） 5.2μL
Q5ポリメラーゼ 2.6μL
水 138.2μL

DNA鋳型及び酵素を除いたマスターミックスが作られるべきである。PureLink（登録商標） PCRクリーンアップキット（非マイクロ）を使用して破棄されたスピードvacエマルジョンの精製を行う。最終ビーズクリーンアップは、サンプル：ビーズ（イルミナプロトコル）体積比が1：1又はより大容量（アイオワプロトコル）で行われる。
Ampureクリーンアップ−増副産物−アイオワプロトコル
１．Ampure（登録商標） XPビーズを室温にする。
２．新しい70％エタノールを用意する（サンプルあたり約3ml必要）。
３．TE/EB中にDNA45μL（約200ng）を用意し、それを1.5mlの低バインド管に入れる。
４．Ampure（登録商標）XPビーズをよく混合し、72μLのビーズを45μLのDNAに加える（1.6：1.0の比）。
５．これを撹拌し、静置し、5分間室温でインキュベートする。
６．これを磁気スタンド上に置く（推奨：Invitrogen Dynal(登録商標), Red-Silver）。
７．ペレットが形成されるのを待ち、上清を除去する。
８．磁石の反対側に70％エタノール500μlを加える（ビーズを乱さないこと）。
９．30秒待って、エタノールを除去する。
１０．段階８〜９を一回繰り返す。
１１．ビーズを完全に乾燥させる。（これにより、磁石から取り外し、37℃のヒートブロック上に3〜4分間置くことができる）。ビーズが乾燥していると、時々ペレット中に目に見える亀裂が生じることがある。
１２．45μL TE（又はキアゲンEB）を加えて溶出し、撹拌し、静置し、磁気スタンド上に置く。
１３．ペレット形成後、溶出したDNAを含む45μLを新しいチューブに移す。
１４．段階４〜１３を更に１又は２回繰り返す。
１５．その1μLを、Agilent（登録商標）バイオアナライザーチップ（DNA高感度チップ）上に走らせる。

実施例３
差異SHAPEを使用した一貫性高精度のRNA二次構造モデリング
RNAは、生物学における中心の情報媒体である(Sharp 2009)。この情報は、2つの異なるレベルでRNAにコードされる。即ち、その一次配列について、及びより高次の構造に折り畳むその能力について(Leontis et al. 2006; Dethoff et al. 2012)。この高次構造の最も基本的なレベルは、塩基対形成又は二次構造のパターンである。またRNAの立体構造の決定は、三次構造モデリングにおける重要な第一歩である(Hajdin et al. 2010; Weeks 2010; Bailor et al. 2011)。このRNA分子の構造は、スプライシング、翻訳及び他の調節機構において、RNAとタンパク質、小分子、及び他のRNAとの間の相互作用を調節する(Mauger et al. 2013)。RNA二次構造の正確なデノボモデリングは挑戦的な課題である：実験的な制約を除いて、現在のアルゴリズムは、二次構造中に標準ペア（G-C、A-U及びG-U）を平均で50％〜70％含む塩基対形成パターンを予測する。これは系統解析又は高解像度実験法を介して確立されている(Mathews et al. 2004; Hajdin et al. 2013)。このモデリングは、RNAヌクレオチドが4つだけしか存在しないという事実に由来する。そして、多くのRNAは単一又は少数の構造を有しているが、これらのヌクレオチドは、多くの、但しエネルギー的に類似している、RNA二次構造の中に配置される可能性を持っている(Tinoco and Bustamante 1999)。運動経路、タンパク質促進因子、リガンド結合などの配列のみから抽出することが困難な特徴もまた、RNAの折り畳みに影響する。

RNAの長さが長くなると、RNA二次構造を正確に同定することもより困難になる。SHAPE（プライマー伸長により分析される選択的2'-ヒドロキシルアシル化）試薬は、RNA中のほぼ全てのヌクレオチドの柔軟性を調べるために使用することができる(Merino et al. 2005; McGinnis et al. 2012).。試薬1-メチル-7-ニトロイサト酸無水物（1M7）に対する2'-ヒドロキシルに基における反応性により、特定のヌクレオチドの柔軟性を測定することができる。また塩基対のヌクレオチドは構造的に制限されているので、SHAPE反応性は、ヌクレオチドが対になる確率にほぼ反比例する。SHAPE反応性の情報をRNA折り畳みアルゴリズムに組み入れることにより、単一シュードノットを有するRNAを含むほとんどのRNAについて> 90％の精度をもたらす(Deigan et al. 2009; Hajdin et al. 2013)。SHAPEは、HIV-1(Watts et al. 2009)やSTMV (Archer et al. 2013)のウイルスゲノムのヌクレオチド解像モデルを作成するため、及びHIV-1 (Wilkinson et al. 2008)やモロニーマウス白血病ウイルス(Grohman et al. 2013)の立体構造変化を分析するために使用されてきた。SHAPE指示折り畳みは、多くのRNAのほぼ完全なモデルを生じるが、その構造を単一構造プロービング実験を使用して回復することが困難ないくつかのRNAが残っている(Cordero et al. 2012; Leonard et al. 2013)。これらの「ハード」RNAは75〜85％の範囲の感度でモデル化されている。

異なる精度の二次構造モデルの有用性は以下のように要約することができる：予測感度が<60％のモデルは、全体構造に大きな誤りが含まれており、生物学的仮説を立てるために一般的に有用ではない。コンピュータ専用のアルゴリズムは、中央値が約70％の予測精度を実現する。受け入れられた塩基対の70％を回復する個々のモデルは、いくつかの正しいヘリックスを有しているが、重大な誤りも有している。受け入れられた塩基対の70％を回復するアプローチは、正しい塩基対と誤った塩基対の両方を含むが、どのヘリックスが正しくて、どのヘリックスが誤っているかを、決定することは一般に困難である。SHAPE指示モデルを使用して、最も挑戦的なRNAの予測構造は、受け入れられた塩基対の80％〜85％を含む。いくつかの例では、誤って（不正確に）予測された塩基対は、モデル全体が非常に良好であるようなRNAに散在している。他の場合には、誤り（不正確性）が、機能的に重要であることが知られている構成要素に存在している。

SHAPE指示モデリングは、現在、平均して、RNA分子の挑戦的なセットで受け入れられた塩基対の約93％を回復している。この感度レベルは、強固な生物学的仮説を立て、三次元構造のモデル化のためには、十分である。このレベルの精度で生成されたモデルの多くは、いくつかの塩基対により受け入れられたモデルとは異なり、ほぼ完全であると考えられるべきである。すべてのRNAについて> 90％のレベルまで精度を向上させることが、実験的に指向された二次構造モデリングにおける現在の課題である。追加の包括的かつ情報豊富な生化学的情報を含むことにより、さらに、このRNA二次構造のモデリング問題に潜在的に影響を与えこれを解決することができる。

「差異（ディファレンシャル）」SHAPEと呼ばれるアプローチは、単純な生化学的プロービング実験に基づいて、特定の非標準かつ三次構造の相互作用を明らかにする。この戦略において、2つの試薬、N-メチルイサト酸無水物（NMIA）及び1-メチル-6-ニトロイサト酸無水物（1M6）、の位置特異的反応性を比較する。最初の試薬（NMIA）は、溶液中で比較的長い半減期を有しており、ゆっくりしたダイナミクスを経験するヌクレオチドと優先的に反応する。多くの場合、これらのヌクレオチドは、稀なC2'-エンドリボース立体配座にあり、大型のRNAにおいて折り畳みを支配することのできる分子タイマーとして関与する(Gherghe et al. 2008; Mortimer and Weeks 2009)。次の試薬（1M6）のニトロ基は、二環系を電子不足にし、この試薬（1M6）は、RNA構造中の他のヌクレオチドとの相互作用により保護されていないRNA核酸塩基とスタックすることが可能である(Steen et al. 2012)。ほとんどの核酸塩基は、他の塩基と両面でスタックするので、この立体配座は珍しい(Leontis et al. 2006)。これら二つの2'-ヒドロキシル基選択的試薬に対する反応プロファイルの違いを利用することにより、RNA構造内の構造独特の相互作用に関与するヌクレオチドを同定することができる。差異SHAPE解析は、RNAにおける非標準かつ三次元の相互作用に特に感度が良いため(Steen et al. 2012)、このアプローチは、制限され（従って1M7-SHAPEに反応しない）、標準的な塩基対形成に関与しないヌクレオチドを識別するのに有用である。本発明により、任意のサイズのRNAについて簡潔な実験で、ほぼ完全な二次構造モデルを生成するための、ゆっくりしたスタッキング−差異SHAPE反応性からの情報を含む、擬似自由エネルギー項が提供される。

結果
挑戦的なテスト・セットの選択
モデリング・アルゴリズムに差異SHAPEデータを組み込むことの有用性を評価するために、その二次構造は十分に確立されているが、単一の試薬SHAPE指示二次構造予測が未だに挑戦的であるような、多様なRNAのセット（表７）を選択した。これらには、次のものが含まれる：即ち、それらの受け入れ構造を折り畳むために、結合するリガンドを必要とする６つのリボスイッチアプタマードメイン（チアミンピロリン酸(TPP)、アデニン、グリシン、サイクリック-ジ-GMP、M-ボックス、及びリシン−リボスイッチ）；300ヌクレオチド（nt）より長く、大腸菌の16S及び23SリボソームRNAのいくつかのドメインを含む４つのRNA；シュードノットを含む４つのRNA；並びに、単一試薬1M7モデリング精度が<90％の一つのシュードノットまで含む公知の他のすべてのRNA(Cordero et al. 2012; Hajdin et al. 2013; Leonard et al. 2013; Table 1)。

二次構造のモデリングへの差異SHAPEの組み込み
SHAPE実験を、適当であれば同族リガンドの存在下で、但し、タンパク質なしで、プレインキュベートしたRNAに対して、1M7、NMIA及び1M6を用いて行った。３つの短鎖RNAについて行ったパイロット研究によれば、NMIAと1M6からSHAPE反応シグナルは、ほとんどの位置で強く相関する(Steen et al. 2012)。ウィンドウ化スケーリングアルゴリズムを用いて、NMIAと1M6のSHAPEプロファイルを互いに局所的に正規化し（下記「材料と方法」を参照）、正規化されたプロファイルを差し引いて、差異SHAPE反応性トレースを生成した。

差異SHAPEシグナルを評価するために、統計的潜在的アプローチを用いた(Rohl et al. 2004; Cordero et al. 2012)。このアプローチは、対の及び非対のヌクレオチドの分布の違いから自由エネルギーを推定する。エネルギー関数は、線形であり、リーブ・ワン・アウトジャックナイフ分析を行ったところ、強固であった。適合時に、NMIAと1M6からの負の差異シグナルを評価した。1M6からの負の振幅シグナルは、反応性の異なるサイトにおける一本鎖の特性と、正の振幅シグナルのようには、高度に相関はしていなかった。 NMIAと1M6との反応から正規化されたSHAPE反応性を評価し、最初に移動ウィンドウ上のNMIA反応性に1M6反応性のスケールを合わせ、NMIA反応性から1M6反応性を差し引くことにより、差異SHAPE反応性(Steen et al. 2012)を算出した。強い差異反応性の強化（>|0.3|SHAPE単位）がNMIAと1M6について観察された。これらのサイトは、それぞれ、ダイナミクスが遅いヌクレオチド及びスタッキングのために利用可能な面を有するヌクレオチドに相当する。強い正の大きさ（NMIAに有利）の差異反応性を示すヌクレオチド位置には、53、58、62、66、69及び108の位置が含まれる。

各ヌクレオチドについての差異反応性擬似自由エネルギー変化は次のように得られる：
ΔG_Diff = ｄ×（正の振幅差異シグナル）（1）
（式中、dは2.11 kcal/モルである。）ShapeKnots (Low and Weeks 2010; Hajdin et al. 2013)で行われるように、このエネルギーペナルティを標準1M7ベースの疑似自由エネルギーに加える。このペナルティを含めることにより、多くのRNAについての予測が改善された。各RNAモデルについて、感度（sens: 正確に予測された受け入れ構造内の塩基対の割合）及び正の予測値（ppv: 受け入れ構造内で生じる予測ペアの割合）で表された二次構造の正確性を表７に示す。

構造のモデリングに対するΔG _Diff の影響
実験的な制限がない場合、このmfold アルゴリズムは、大腸菌5S rRNA（配列番号1；図1左）の受け入れ構造において、その35塩基対のうち僅か10塩基対（29％）と予測する。1M7-SHAPE制限の追加は、実質的な改善をもたらした。このSHAPE指示モデルに、受け入れ塩基対の86％が存在した。このレベルの精度で予測するために一般的であるように、構造の大部分は正確にモデル化される。その例外は、一つの要素内の塩基対である、丁字路(three way junction)におけるヘリックス（図1、中央の構造、102〜107の位置）である。差異SHAPEデータを制限として追加したときに、実質的に改善された構造モデルが得られた（図1、右）。差異SHAPEベースのモデルにおけるエラーは僅かであり、ヌクレオチド約30の構造の第2ヘリックス中のいくつかの塩基対の追加を含む。これらの塩基対は、実際、リボソームサブユニット及びタンパク質の不在下でこのRNAが探査（プローブ）されるという、プロービング条件下で生成したのかもしれない。

差異SHAPE情報の追加は、グリシンリボスイッチ構造（配列番号2）の予測の精度を向上させた。1M7のみからのデータを用いた、グリシンリボスイッチの予測モデルの、sensは55％、ppvは49％であった。このモデルの主要なエラーは、誤ったシュードノット（PK）の予測であり、これは他のエラーに伝播する。この差異SHAPEペナルティを含めると、sensとppvは95％となった。この場合、差異反応ペナルティを使用することにより、主要な誤差が修正され（例えば、位置12〜13及び112における差異反応性）、誤った正のシュードノット（PK）が除去された。また、小さい差異反応性が、ヌクレオチド39〜49の折り畳みをシフトさせ、その結果、予測構造と受け入れ構造の一致をもたらした。

M-ボックスリボスイッチの予測構造は、sensが83％（表８）であり、最初試験したセットの内で最低品質のモデルだった。差異反応性の制限は、1M7データ（配列番号3）のみを用いて予測された構造と比べて、単一塩基対による予測を改善した。M-ボックスRNAの全体的なトポロジーは、差異SHAPE情報を含めることとは無関係に、おおむね正確である。この3ヘリックス接合及びすべての主要なヘリックスは、正しく予測されている。モデル化構造と受け入れ構造の間の最大の差は、RNAの5 '末端と3'末端とを連結するP1ヘリックスで起こる。このヘリックス中のヌクレオチドは、SHAPE試薬に対して適度に反応性であり、構造探査に使用される条件下で、P1ヘリックスが特に安定していないことを示唆する。受け入れモデルの基礎となる結晶構造において、P1ヘリックスは、SHAPEにより解析された転写物には存在しなかった3つのG-C塩基対により安定化される。SHAPEデータは、天然配列P1ヘリックスが、立体構造的に動的であることを示唆している。この実験で探査されたRNAの配列について、SHAPE制限構造が基本的に正しいことが推測される。

応答性及び非応答性RNA
テストセット内のRNAについて、予測は、差異SHAPEデータに追加により顕著に改善された、又は控えめに影響された、のいずれかであった。感度（sens）若しくはppv又は両方が少なくとも3％増加した場合に、構造改善は"顕著"であると定義される。このデータセットの７つのRNAは、この基準で顕著な改善を示した（表７、上段、応答性RNA）。これらのRNAの予測構造の感度（sens）は、均84.5%から平均93.4%に増加した。陽性予測値（ppv）の改善は、より実質的であり、78.1%から91.2%に増加した。低応答性カテゴリ内のRNAのうち、8つのうちの4つは、感度（sens）又は陽性予測値（ppv）が僅かな改善を示し（表７、中段）、最低の自由エネルギー構造の変化は、1M7データのみを用いて予測された構造に関係して、塩基対形成に比較的マイナーな調整を含んでいる。特に、複数のRNAについての予測は、差異SHAPEの制限を加えることにより改善されたが、これらの予測のいずれも、TetrahymenaグループIイントロンを除いて、実質的に悪化していない（表７）。
TetrahymenaグループIイントロンのモデル化構造は、差異反応情報を含める際に受け入れ構造のようにはならなかった：その感度（sens）は93％から85％へ減少した（配列番号4、表７）。P7のヘリックスは受け入れRNA構造における偽シュードノットを備えます。P7のヘリックスの一つの鎖は、SHAPEにより反応性であり、SHAPE指示モデルには存在しない。これらのデータは、P7ヘリックスが、この実施例で使用される溶液プロービング条件下で、立体配座的に動的であることを示唆している。

ディスカッション
長いRNAの正確な二次構造モデルを開発することは、遺伝子調節のほとんどの段階におけるRNA構造とRNA−リガンド相互作用の役割を理解するために望ましい前提条件である(Mauger et al. 2013)。更に、正確な二次構造モデルは、三次構造のモデリングを容易にすることができる(Hajdin et al. 2010; Bailor et al. 2011)。RNA構造モデリングの望ましいアプローチは、高精度と実験が簡潔かつサイズが調整可能であることとの間のバランスをとる必要がある。Turnerらにより開発された最隣接熱力学モデルは、二次構造のモデリングのための基盤を提供する(Mathews and Turner 2006)。しかし、配列から、リガンドとタンパク質結合効果、非標準及び長距離三次構造の相互作用、及びRNA折り畳み反応の動的履歴を含む、RNA折り畳みの特徴を抽出することは難しい。単一の試薬実験構造探査データを含めることは、多くのRNAにとってモデリング精度の大幅な改善をもたらすが(Deigan et al. 2009; Hajdin et al. 2013)、この改善は、本テストセット内のすべてのRNAの正確な二次構造モデルを生成するには十分ではなかった（例えば、図１）。ここに、差異SHAPE実験の情報を含めることにより、できるだけ挑戦するように設計されたRNAテストセットの二次構造モデルの感度（sens）と陽性予測値（ppv）を実質的に増加させることが示されている（表７）。

３試薬SHAPE指示RNAの構造モデルの情報内容は、従前の化学プローブによるアプローチを超えるものである。6つの低分子RNAのデータセットにおいて、硫酸ジメチル（DMS）とCMCTの反応情報の追加により、一つのRNAにおけるほぼ3つの塩基対の改善が得られた(表８、Kladwang et al. 2011b; Cordero et al. 2012)。これとは対照的に、差異SHAPE実験により、単一試薬1M7指向モデリングに比べて、7つのRNAにおいて大規模で構造的に顕著な改善がもたらされ（表７、上段）、他の4つのRNAにおいてはより小さな改善がもたらされた（表７、中段）。5S rRNAについて大きな改善が観察されたが、これはDMSとCMCTデータを加えても改善されなかったものである(Cordero et al. 2012)。更に、３試薬SHAPEプロービングを使用して開発されたモデルの予測正確性は、変異体の包括的なセットをプロービングすることを含むアプローチの予測正確性と同じまたはそれ以上である(Kladwang et al. 2011a)。従って、この差異SHAPEデータは、大規模RNAに容易にサイズを調整できる簡潔な実験で得られた高い情報内容を有している。

RNA二次構造予測のために差異SHAPEを使用することは、RNA構造のモデリングにおける顕著な進歩を示す。差異SHAPE情報を用いると、従来最も困難と見られていた、5S rRNA、グリシンリボスイッチ、及びいくつかのリボソームドメインを含む、RNA分子のいくつかの構造が、受け入れ構造とほぼ完全に一致してモデル化された（表７）。差異反応性ペナルティに最も応答性であったRNAが、差異SHAPE情報なしに最も不十分に予測された構造を有するものであったということは、興味をそそる傾向である。このクラスのRNAは、おそらく不完全最隣接アルゴリズム又は単一の試薬のデータにより不完全に記述された非標準的な相互作用を有している。SHAPE指示モデルが受け入れ構造と一致しないいくつかのケース（Mboxのリジンリボスイッチ及びTetrahymenaグループIイントロン）では、「エラー」はこれらのRNAの結晶中と溶液中の立体構造の違いを反映しているように見える。

現在、明確に定義された受け入れ構造を持つRNAの小さなデータベースのみが利用可能である(Rivas et al. 2012; Leonard et al. 2013)。その構造が良く検証されている複雑な構造を持つ大型RNAは現在非常に少ない。また、シュードノットをモデル化するためのアプローチは、顕著に進歩してきたが(Hajdin et al. 2013)、複雑なRNAにおける単一シュードノット以上の正確なモデリングは未だ困難である。それは、現在のエネルギーモデルの制限、及び多くのアルゴリズムについてコンピュータの要求によるためである。本発明は、これらの問題に対処するための努力の一部として使用することができる。
本発明は、標準的な塩基対に焦点を当てて、非標準的な塩基対を明示的にモデル化するものではなかったが、多くの場合、これらは、1M7に対する反応性の欠如から推測することができる。また、SHAPE指示折り畳みアルゴリズムは、現在の600nt以内の塩基対形成のパートナーを含む。一般的に、これは、良好な仮定であり、例えば、完全長のリボソームRNAを高精度でモデル化することを可能にする(Deigan et al. 2009)。しかし、1000nt以上の距離にわたって重要なRNA-RNA相互作用が発生する(Alvarez et al. 2005; Jin et al. 2011)。最後に、SHAPE反応性はプロービング時の溶液中に存在する構造的調和体を反映している。もしRNAの折り畳みに部分的にミスがあったり、サンプルに複数の立体配座がある場合には、得られたSHAPEプロファイルにはこれらの影響が反映される。
ここで報告された高精度のRNA二次構造のモデリングは、3試薬1M7、1M6及びNMIAを用いた簡単な実験を含む。3800ntより多いヌクレオチドを含む、複雑なRNA構造を検討し、これらのRNAに特異的に焦点を当てた、本発明者らの仕事は、最も困難なモデリングの課題を含むと考えられる。３試薬SHAPE構造プロービングは、実験的に簡潔であり、正確なRNAの構造モデルを堅実に生成し、完全なウイルスゲノムや完全トランスクリプトームの構成要素を含む、任意の複雑さと任意のサイズを有するRNAに適用することができる。

材料及び方法
大腸菌チアミンピロリン酸（TPP）リボスイッチ、Vibrio vulnificusアデニンリボスイッチ、及びThermotoga maritimeリシンリボスイッチのアプタマードメインについての、差異SHAPEデータを用いた化学プロービングは、既に報告されている(Steen et al. 2012)。大腸菌5S rRNA及びtRNAPhe、Fusobacterium nucleatumグリシンリボスイッチ、Bacillus subtilis M-Boxリボスイッチ、Tetrahymena thermophilaグループIイントロン、及びOceanobacillus iheyensisグループIIイントロンRNAsについてのDNAテンプレート（IDT）は、5 '及び3 '隣接構造カセットに関連してコード化され(Wilkinson et al. 2006)、PCRにより増幅され、T7 RNAポリメラーゼを用いてRNAに転写された。RNAを、変性ポリアクリルアミドゲル電気泳動を用いて精製し、ゲルから切り出し、受動的に4℃で一晩溶出させた。16S及び23SリボソームRNAを、非変性条件を用いて、中間ログフェーズの間DH5α細胞から単離した(Deigan et al. 2009)。RNAは、100mMのHEPES、pH8.0、100mMのNaCl、及び10mMのMgCl₂中で、折り畳まれた(Steen et al. 2012)。グリシンアプタマーRNAを、折り畳み時に5μM最終グリシンを用いてインキュベートした。折り畳み後、全てのRNAを8 mMのSHAPE試薬の存在下で変性し、37℃で3分間（1M6及び1M7）又は22分間（NMIA）インキュベートした。SHAPE試薬ではなくニートDMSOを含む無試薬対照を並行して実施した。

エタノールを用いた変性及び沈殿の後、試薬及び対照RNAを、3 '構造カセットを標的とする蛍光標識したプライマー(VIC dye, Invitrogen)を用いて、SUPERSCRIPT III（登録商標）キット(Invitrogen)で逆転写を行った(Wilkinson et al. 2006)。次に、グループIIイントロンについて内部プライマーを使用して、RNAの末端を読み飛ばした。ddC及びNEDで標識されたプライマーを用いて、逆転写配列決定反応を行い、アラインメントの配列を決定した。試薬又は無試薬対照反応を、配列決定反応と組み合わせて、ABI 3500キャピラリー電気泳動装置を用いて分析した。得られたデータをQuShapeを用いて処理した(Karabiber et al. 2013)。

このリボソームRNAを、以下の明細書に記載する新しいアプローチ（SHAPEMaP）で分析した。全てのRNAについて、ボックスプロットアプローチを使用して、1M7のSHAPE反応性を正規化した(Hajdin et al. 2013)。このアプローチでは、反応性を最初に整列させ、1.5×四分位範囲又は90パーセンタイルのいずれかより大きい（いずれかが大きい）反応性を、外れ値として除外した。次に、SHAPE反応性の次の10％を平均することにより正規化係数を計算した。次に、最終処理されたデータを得るために、元のデータセットを、新しく計算された正規化係数で割った。

差異SHAPEデータ解析
NMIAと1M6のSHAPE反応性を、反応性の上位2％を除き、次の8％の反応性の平均で割って、正規化した。次に、51ntのスライディングウィンドウ上で反応性の差を最小化することにより、1M6の反応性をNMIA反応性により正確に縮尺を合わせた。NMIA反応性から、この縮尺を合わされた1M6の反応性を差し引いて、差異SHAPEプロファイルを生成した。Pythonプログラムで実施された、このアルゴリズムは、本明細書の他の箇所に記載されている。

差異SHAPE擬似自由エネルギー変化のペナルティ
高分解能法（結晶学又はNMR）で得られた二次構造を有するRNAを用いて、対形成（G-C、A-U、又はG-U）又は非対形成のいずれかとして、ヌクレオチドの立体配座を分類した。次に、各カテゴリについて、0.2 SHAPE単位のビン幅を使用して、差異反応性（NMIA反応から1M6反応性を差し引いたもの）のヒストグラムを作成した。正と負の差異SHAPE反応性を別々に処理した。その後、タンパク質モデリング(Rohl et al. 2004)で広く使用され、近年RNAモデリング(Cordero et al. 2012)で使用されたものに類似のアプローチを使用して、ΔG_Diff統計的エネルギーポテンシャルを合わせた。対形成と非対形成の差異ヌクレオチドのヒストグラムをプールし、γ分布に合わせた。310Kの温度（T）における自由エネルギーを、ギブスの関係を用いて計算した。

式中、P（x）対形成及びP（x）非対形成は、ヌクレオチドが、SHAPE反応性xにおいて、それぞれ対形成又は非対形成される確率を示し、kbはボルツマン定数を表し、ΔG_Diffは、特定の差異SHAPE反応性xに適用されるべき、得られたフリー変化エネルギーペナルティを表す。この得られた関数は、ゼロに近い切片を有する直線的関係であった。この計算を簡単にするため、及びすべての差異反応性についてのエネルギー関数を連続させるために、ΔG_Diffをゼロの切片を有する線形方程式に当てはめた。この当てはめの標準誤差は、リーブワンアウトジャックナイフ法により推定した。その結果得られた当てはめは、2.11 kcal/モルの傾きと、ゼロの切片を有する、直線であった。

より簡易な差異SHAPEエネルギーポテンシャルの探索
1M6の実験を省略し、1M7とNMIAの実験のみに基づいて差異SHAPE反応性を計算する可能性が検討された。上記で概説した差異減算アルゴリズムを使用して、各ヌクレオチドについて、NMIAと1M7との間の反応性の違いを計算した。この関係は、2.91Kcal/モルの傾きで直線的であった。リーブ・ワンアウトジャックナイフ分析から得られた標準誤差は、NMIAと1M6の反応性との間の関係に対する標準誤差と同等の大きさであった。差異SHAPE実験のこの2試薬バージョンは、RNA二次構造のモデリングに顕著な改善をもたらした（表７）。しかし、３試薬の分析は最終的にはより正確な構造モデルをもたらした（表７及び表９参照）。NMIA-1M6の差異解析の高い情報コンテンツにより、二次構造モデリングにおいてより高い精度を達成するためには、3つの試薬（1M7、1M6及びNMIA）を使用することが示唆される。新しい差異SHAPEデータのフィッティング（適合）過程において、統計的ポテンシャルと以前に発表されたRNAのデータセットを用いて、1M7自由エネルギーポテンシャルをまた再適合させた。対形成及び非対形成ヌクレオチド分布を、二つのγ分布の混合に適合し、ギブスの関係を用いて、自由エネルギー変化を計算した。得られた自由エネルギー変化の関数は、以前のグリッド検索最適化ログ機能と同等の大きさとx切片を有していた。そのため、1M7データをSHAPE指示構造のモデリングに組み込むために、オリジナルのログ機能を選択して使用した。

ＲＮＡstructureにおける実施とShapeKnots
ＲＮＡstructureフォールド(Reuter and Mathews 2010)及びShapeKnots(Hajdin et al. 2013)に使用するために、修正されたSHAPEエネルギーファイルが作成され、差異SHAPE情報に組み込まれた。正の振幅差異反応性（ｄ）から、各ヌクレオチド用についての差異擬似自由エネルギー変化値（ΔG_Diff）が計算された。

ログ形式SHAPE式を用いて1M7反応性から、SHAPE擬似自由エネルギーの変化を算出した(Hajdin et al. 2013)：

上記フォールド又はShapeKnotsに使用するために、1.0の勾配と-1.0の切片で使用する場合、折り畳みアルゴリズムが正確な擬似自由エネルギー変化に適用するように、これらの2つの自由エネルギーを合計して、修正されたSHAPE反応性ファイルを算出した。

ShapeKnotsと上記フォールドの将来のバージョンは、この段階を簡素化し、1M7と差異-SHAPEの大きさを、データファイルから直接入力できるようになるであろう。ShapeKnotsについては、最適化されたシュードノットパラメータ（P1 = 3.5、P2 = 6.5）(Hajdin et al. 2013)を使用した。maxtracebacksオプションを100に設定し、ウィンドウのオプションを、ポテンシャルで同定された構造の数を最大にするために、0に設定した。差異試薬として1M6ではなく1M7を使ったRNAの折り畳みの計算を、差異勾配が2.91であったことを除き、同様の方法で行った。その結果得られた折り畳みを、表９に要約する。一般的に、シュードノットを予測するその能力のため、RNA二次構造モデル化のためにShapeKnotsの使用が示唆される(Hajdin et al. 2013)。実用レベルにおいて、このプログラムは、長さが約700nt以下のRNAに限定される。

プロット及び図
二次構造のプロットをVARNA(Darty et al. 2009)を用いて構築し、円プロットをRNAstructureの一部であるCircleCompareを用いて作成した(Reuter and Mathews 2010)。正しい塩基対の数を、受け入れ構造内の塩基対の総数で割って、モデルのsensを算出し、正しい塩基対の数を、予測された塩基対の総数で割って、ppvを算出した。リボソームドメインのsensとppvの数値は、SHAPE反応性が受け入れ二次構造モデルにおける塩基対形成のパターンと明確に一致しなかった領域(Deigan et al. 2009)を省略して計算された。

表７：1M7及び差異SHAPE情報を用いたRNA二次構造のモデリング精度
発明者が知る、シュードノット一つまでを含むよく折り畳まれたRNAの全てが、この表に含まれており、それらの単一試薬1M7に拘束された二次構造予測は90％未満の感度である。モデリングが差異反応性情報に応答性であるかどうかに基づいて、RNAはリストに載せられている：（上）改善された予測及び（下）小さな変化を示す又は全く変化を示さない予測。sens又はppvが少なくとも3％変化した場合、RNAは差異SHAPEデータに応答性であると判断された。平均値は、各クラス及び全てのRNAについて別々に計算された。

表８：3試薬差異SHAPEのRNA二次構造のモデリング精度と最近の関連報告との比較
シュードノットを可能にするアプローチをアスタリスク(*)で示す。小データセットを使用して最適化されたパラメータを使用する方法をダガーで示す。

表９：1M7とNMIAを使用した、2試薬差異SHAPE実験の RNA二次構造のモデリング精度
構造予測がNMIA-1M7差異反応性に情報に感度が良いかどうかに基づいて、RNAはリストに載せられている。２試薬の実験は1M7データのみを用いた予測に比べて大幅なモデリングの改善をもたらしたが、推奨する3試薬実験（表７）の改善ほどは大きくはない。

実施例４
RNAの単分子相関化学プロービング
RNA分子は、生物学における情報伝達の中心的な仲介物として機能する。RNA分子は、これを行うために、その配列及びその高次構造の両方に情報をコード化する。RNAの高次構造を理解することは依然として困難な課題である。本実施例は、広く使用されている超並列配列決定法を、空間を介する相互作用と複数の立体配座を検出するために容易に実施できる単分子実験に改造した、高次RNA構造を調べるための、簡単で、実験的には簡潔で、正確なアプローチである。そして、このアプローチを用いて、高次RNA構造を分析し、生物学的に重要な隠れた状態を検出し、そして正確な三次元構造モデルを洗練する。

RNAの機能は、情報の階層化された複数のレベルにより媒介される：最も簡単なものは一次配列であり、最も複雑なものは、リガンド、タンパク質及び他のRNAとの相互作用を支配する高次構造である(Sharp PA (2009). Cell 136:577-5802; Leontis NB, et al. (2006) Curr Opin Struct Biol 16:279-287)。多くのRNAは、一つ以上の安定した構造を形成することができ、これらの異なる立体配座は、しばしば、異なる生物学的活性を有する(Montange RK, Batey RT (2008) Riboswitches: emerging themes in RNA structure and function. Annu Rev Biophys 37:117-133; Dethoff EA, Chugh J, Mustoe AM, Al-Hashimi HM (2012) Functional complexity and regulation through RNA dynamics. Nature 482:322-330)。現在、新たなRNA配列を記述する速度は、それらの構造を調べるための能力をはるかに超えている。

本実施例では、化学プロービング及び超並列配列決定法による、単一RNA内の空間を介する相互作用と複数の立体配座の特徴評価を開示する。超並列配列決定法は単一のテンプレートの配列を報告するため、それぞれの読み取りは、根本的に単分子の観察である(Shendure J, Ji H (2008) Next-generation DNA sequencing. Nat Biotechnol 26:1135-1145)。発明者らは、まず基礎をなすRNA構造に感度が良い試薬でRNAを変性し、次に各RNA鎖の複数の付加物を検出した（図2A及び図2B）。化学的付加物は、逆転写酵素による鋳型ヌクレオチドの効率的誤読を誘導する能力に基づいて、配列変異として検出された。このアプローチは、変異プロファイル又はMaP（本明細書の他の箇所に記載される）と呼ばれる。単分子プロービングデータは2つの異なる方法で使用される：ひとつは高次の空間を介する相互作用を反映する相関RNA修飾を検出すること（図2A）、もう一つは単一の溶液内の調和体中の複数の立体配座を調べること（図2B）である。

結果と考察
RNAの多部位の硫酸ジメチル反応性
発明者らは、3つのRNAの構造を検出するために硫酸ジメチル（DMS）を使用した：大腸菌チアミンピロリン酸（TPP, Escherichia coli thiamine pyrophosphate）リボスイッチ（79 nt）(Serganov A, et al. (2006). Nature 441:1167-1171)、TetrahymenaグループIイントロンP546ドメイン（160nt）(Cate JH et al. (1996). Science 273:1678-1685)、及びバチルス・ステアロサーモフィルス(Bacillus stearothermophilus) RNase P触媒ドメイン（265 nt）(Kazantsev AV, et al. (2009). RNA 15:266-276)。異なるRNA折り畳み機能を説明するため、及びますます困難になる分析の課題を強調するために、これらのRNAを選択した。

このTPPリボスイッチは、遺伝子調節に機能するためにTPPリガンドと結合する。このP546ドメインは、約45塩基対にまたがる長距離三次相互作用により安定化されたU字型構造をしている。このRNasePドメインは、自動化モデリングが求められる最大のRNAの一つである。DMSは、アデノシンのN1位置、及びシトシンのN3位置で付加物を形成する。発明者らは、ネイティブのRNA折り畳みを乱すことなく、RNA鎖中に複数の修飾を得るために条件を最適化した。RNAサンプルを、10mMのMg²⁺及び300 mMのカコジル酸緩衝液中で、170 mMのDMSにより、pH7で6分間処理した。この反応は、過剰の2-メルカプトエタノールの添加により終結した。シトシン及びアデノシンヌクレオチドは、同じ効率でメチル化され、ヌクレオチドの約12％がこれらの条件下で修飾された。

発明者らは、DMSメチル化の部位を、完全長cDNAにおいて逆転写中に生成された付加物に誘導された変異として直接検出した（図2A及び図2B）。発明者らは、各RNAの2D変異頻度プロファイルの全体的反応パターンを視覚化した（図3B）。これらRNAの高分解能構造(Serganov A, et al., (2006) Nature 441(7097):1167-1171; Cate JH, et al., (1996) Science 273(5282):1678-1685; Kazantsev AV, Krivenko AA, Pace NR (2009) RNA 15(2):266-276)と比較すると、高レベルで修飾されたヌクレオチドは、塩基対形成又は三次相互作用には関与していないことを示している（図3C）。予想されていたように、ヌクレオチド修飾は、試薬濃度、反応時間、及びRNA構造の安定性に依存していた。変異頻度がバックグラウンドを超えて高いので、バックグラウンドの補正を必要とせずに、DMSにより誘発される変異を分析することができた（図3B）。

TPPのリボスイッチ、P546ドメイン及びRNase Pドメインについて、各配列読みにおいて、それぞれ２、５及び7の付加物の平均を検出した（図3A）。各RNA中の一本鎖のAとCのヌクレオチドの約15％がDMSにより修飾され、これはこれらの条件下の遊離ヌクレオチドの修飾のレベルに匹敵する。複数の化学修飾の事象は、単一のRNA鎖の配列読み取りで検出されたので、発明者らは反応性における相関相互依存性を定量化することができた。相関様式で修飾されたヌクレオチドは、RNA相互作用グループ（又はRING）を含む。相関反応性を変異プロファイリング（MaP）により測定した（本明細書の他の箇所で記載）。それはRING-MaP実験をもたらす。

統計関連分析により検出された空間を介するRNA相互作用
空間を介する相互作用に関与するヌクレオチドは、RNAのヌクレオチドが修飾のため一時的にアクセス可能となるような「休息」機構を反映する、相関化学反応性を表示す。この「休息」機構は、相関プロービングが、静的な構造的相違ではなく、過渡的な動的相互作用について、選択的であることを示唆している（図2A）。
発明者らは、統計的に有意な相関関係を有する反応性ヌクレオチド対を特定し、これらの相関の強さを定量化するために、2部分から成る戦略を用いた。まず、単一RNA鎖内の任意の2つの位置に対するDMSの反応性の相互依存性を、χ2テストを用いて評価した。次に、相関ヌクレオチドの各対間の相互作用の強さをピアソンphi計量法を使用して定量した。

TPPリボスイッチ、P546イントロンドメイン及びRNase P RNAのRNA相互作用グループ（RING）（図3C）は、高解像度構造(Serganov A, et al., (2006) Nature 441(7097):1167-1171; Cate JH, et al., (1996) Science 273(5282):1678-1685; Kazantsev AV, Krivenko AA, Pace NR (2009) RNA 15(2):266-276)に基づいて相互作用することが知られているヌクレオチドを含む。例えば、TPPリボスイッチ内の相関位置は、L5ループとP3ヘリックス間の相互作用のドッキングとリガンド結合ポケットの形成に関与する、ヌクレオチドに対応する。P546ドメインでは、相関の修飾は、J5のヒンジ領域内のP5AとP5Bヘリックスの長さ全体にわたって、相互作用をドッキングするL5BループとP6Aヘリックスのヌクレオチドで観察された。RNaseP RNAにおいて、RNA相互作用グループ（RING）は、L5とL15.1ループ間の及び構造コア内の三次相互作用を報告している。発明者らはまた、RNasePのP19要素内に第2のセットの相互作用を観察した。

RINGの高次及び三次RNAの相互作用報告
発明者らは、さまざまな溶液条件下、又は変異体のRNAにおいて、RINGにより報告されるような、三次相互作用の違いを評価した。P546ドメインはMg^{2 +}の存在下でU字状の構造を形成し、そこでは、L5bとP6aとの間にテトラループ−受容体相互作用が形成され、J5領域はヒンジとして機能する(Murphy FL, Cech TR (1994) J Mol Biol 236(1):49-63; Szewczak AA, Cech TR (1997) RNA 3(8):838-849)。これらの相互作用は、これらの構成要素内の複数の相関化学修飾により正確に報告された。Mg²⁺の不存在下でRNAを折り畳むことによるこの立体構造の破壊は、観察された相互作用の大部分を排除した。また、このP546ドメインの三次構造は、P6Aヘリックス及びJ5ヒンジ内の変異により乱され得る。P6Aヘリックス中のC223-G250の塩基対のA-Uへの変異は、L5-P6a相互作用を破壊する(Murphy FL, Cech TR (1994) J Mol Biol 236(1):49-63)。この変異体のRING分析は、L5とP6bの間の相関関係が失われ、RNAの他の部分も重要な再構成を受けていることをことを示した。ヒンジに関連する相互作用は、強化されたように見え、より強い相関がP5aとP5bのヘリックスドメイン内で観察された。

J5ヒンジ中のヌクレオチドの塩基対形成を引き起こす変異は、このP546ドメインに対して線形立体配座をもたらすようである(Szewczak AA, Cech TR (1997) RNA 3(8):838-849.)。このJ5変異体のRING分析は、J5領域内の相関ヌクレオチドの予想された喪失と、これに続くL5b-P6a相互作用の喪失を示した。このP5bヘリックス中のヌクレオチド間の相関は、野生型RNAで観察された相関に比べて、この変異体で強化されたが、P5Aヘリックス中のヌクレオチド間の相関関係については何の変化も見られなかった。P546ドメインのこの分析は、RINGが、ヌクレオチド分析において大型RNA分子の構造の相互作用を正確に反映していることを実証した。

複数の隠れたRNA立体配座の検出
RINGMaPアプローチでは、各RNA鎖は、超並列配列決定法により独立して配列決定される。異なる立体配座のRNA鎖は、共反応性ヌクレオチドの別個のグループを示す傾向がある（図2B）。このようなグループは、スペクトラルクラスタリングにより検出することができ、溶液中で異なる比較的安定した各構造を反映する。スペクトラルクラスタリングは、クラスターの数の客観的な推定値を生成し、従って、溶液中の特定のRNAにより採用された立体配座の数の客観的な推定値を生成する。

TPPリボスイッチ及びRNase PのRNAで得られた修飾データのスペクトラルクラスタリング分析は、各RNAがプロービング実験で使用された条件下で複数の異なる立体配座を形成していることを示した。飽和リガンドを用いてTPPリボスイッチについて特定されたRINGは、L5-P3でドッキングされた構造中及びリガンド結合ポケット中の相互作用を明らかにした（図4A）。TPPリガンドの不存在下においては、TPPリガンドの存在下より、ヌクレオチド三次相互作用が有意に少なかった。しかし、J2-4における特異的相互作用はまだが観察された（図4B）。スペクトラルクラスタリングは、飽和リガンドRNAと非リガンドRNAの両方が、構成する主要な立体構造とマイナーな立体構造の複合状態であることを明らかにした（図4C及び4D）。飽和リガンドRNA中のマイナーなクラスターは、リガンドが結合しない場合に反応性になる位置でDMS反応性が増加することにより特徴付けられる（図4A及び図4C、白丸）。このため、飽和リガンドの条件下においてさえ、TPPリボスイッチRNAサンプルは、両方のリガンド結合及び非結合の両方の状態に特徴的な立体配座を持つ。リガンドの不存在下では、主要なクラスターは、リガンドの存在下でより少なく構成された状態に似たDMS反応パターンを有する。これとは対照的に、リガンドの不存在下で検出されたマイナークラスターは、チアミン結合ポケットにおいて正確にDMS反応性が低下しており、主要なクラスターよりもより高度に構造化された立体構造を示唆する（図4B及び図4D）。発明者らは、リボスイッチのチアミン結合ポケットサンプルは、リガンドの不存在下では、リガンド結合の際に形成されたものと同様の「隠れた」予め折り畳んだ構造を有すると推測する。

次に、亜飽和濃度のリガンドの存在下でTPPリボスイッチRNAをプローブした（200 nMのTTP; Kd 〜50-200 nM (Kulshina N, Edwards TE, Ferre-D'Amare AR (2010) RNA 16(1):186-196.)。この化学反応性データのクラスター解析は、比が1:1:1.2の良く定義された３つのクラスターを生成した。これらは、(i) 完全に折り畳まれ、リガンドが結合した状態、(ii) リガンド結合ポケットが構成されているが、残りのRNAが弱いヌクレオチド間の相互作用を示す状態、及び(iii) 僅かの相互作用するヌクレオチドのみによる比較的構造化されていない状態（図5A及び図5B）、である。これらのクラスターは、それぞれ、飽和リガンド又はリガンド不存在のRNAのいずれかで以前に同定された状態に相当する。スペクトラルクラスタリング解析は、このようにして、リガンド結合ポケットが折り畳まれ、以前に特徴評価されていない状態を含む、単一溶液内のRNA調和体から複数の異なる立体配座を同定した。この部分的に折り畳まれた状態は、TPPリガンドを認識するために重要であるようである。

最後に、発明者らは、RNaseP RNAの構造を、Mg²⁺の関数として、調べた。相互作用のネットワークは、Mg2 +の存在下及び不存在下で著しく異なっていた。L5とL15.1との間及び構造コア内の相互作用の強いネットワークは、Mg^{2 +}の不存在下で消失し、P5.1とP2との間及びP7内の相互作用により置き換えられた。スペクトラルクラスタリングは、プラスのMg²⁺状態の２つのクラスターを同定した。プラスのMg²⁺サンプル中のマイナーなクラスターは、完全に折り畳まれたRNA及び無のMg²⁺構造の両方とは全く異なる。このマイナーなクラスター内の反応性ヌクレオチドは、L5-L15.1及び構造コア相互作用を含み、これらの相互作用がこの状態で弱められていることを示している。単分子のスペクトラルクラスタリング分析は、決定的に、TPPリボスイッチ及びRNase P RNAは、元々、単一構造の形成を促進するために一般的に想定した条件下であっても、複数のユニークな状態を採用していることを示している。

RNA折り畳みの原理
局所的に形成され、ワトソン・クリックペアリングによって安定化された安定なヘリックスが、より長い範囲の三次相互作用によって3D構造に編成されている、と仮定することにより、RNA構造の形成を近似することができる。上記3つのRNAのRING分析結果は、この十分に確立された構造的階層と一致している。例えば、発明者らは、非標準的な塩基対及びループ・ヘリックス反映したRING並びに従来の構造研究で広く知られていたループ−ループ三次相互作用を観察した(Butcher SE, Pyle AM (2011) Acc Chem Res 44(12):1302-1311; Brion P, Westhof E (1997) Annu Rev Biophys Biomol Struct 26:113-137.)。

また、RING分析は、従来その普及が十分に理解されなかった相互作用を同定した。全相関相互作用の約3分の1は、個々のヘリックスの両端に一本鎖又はループのヌクレオチドを有する。これら貫通へリックス相互作用は、RNAの構造通信が長距離にわたることができることを意味する。いくつかの場合において、貫通ヘリックス構造的カップリングは、複数の積み重ねられたヘリックスを貫通して延びている。更に、RING分析は、三次相互作用が独立ではなく、他の構成要素に強く依存することを示している。発明者らは、TPPリボスイッチ及びP546ドメインRNAの両方で、明確に定義された個々の三次構造モチーフの間で結合した相互作用を観察した。リガンドの除去又は変異による、いずれかの三次相互作用の破壊は、第三モチーフ自体の欠失をもたらし、また、他の相互作用を破壊した。またRINGデータは、近接したヘリックス状パッキングの重要性を支持している。これらの相互作用は、TPPリボスイッチ及びRNase P RNAの構造的コアにおいて特に明白である。

TPPリボスイッチ、P546ドメイン及びRNase Pドメインの解析結果は、変異又はリガンド（図4及び図5）若しくは二価イオンの喪失が、単に構造から相互作用を「引く」のではなく、RNAの折り畳みの大規模な再編成を引き起こすことを示している。解析された折り畳まれていない状態又は少ししか折り畳まれていない状態のいずれも、単に完全に折り畳まれた状態が少ない構造化バージョンではない。発明者らは、そうではなくて、あまり構造化されていない状態が、従来、一般的に、調和体又は単分子の研究では検出されなかった、相互依存性の相互作用のユニークなセットにより安定化されていることを見出した。

三次元RNAの構造の改良
RING分析は、RNA三次構造を反映したヌクレオチド相互依存関係の濃密配列を特定するが、発明者らは、これらの相互作用を、3D RNAの折り畳みをモデル化するための制限として使用することができるかどうか検討した。高品質の構造モデルを生成するためには、しばしば、空間を介するRNA構造を反映する少数の制限で十分である(Gherghe CM, et al., (2009) J Am Chem Soc 131(7):2541-2546; Lavender CA, et al., (2010) Biochemistry 49(24):4931-4933.)。発明者らは、離散分子の動力学シミュレーションの間、成分ヌクレオチドが近くに来たときに、自由エネルギーの特別手当を導入するために、2段階の相互作用ポテンシャルを使用した(Gherghe CM, et al., (2009) J Am Chem Soc 131(7):2541-2546; Lavender CA, et a., (2010) Biochemistry 49(24):4931-4933.; Ding F, et al. (2008) RNA 14(6):1164-1173)。RING制限の導入は、シミュレーション中に、各RNAが優先的に折り畳まれた状態を試すことを引き起こした。回転半径によるフィルタリングに続いて、階層的クラスタリングにより、代表的な構造を選択した。特徴評価された各RNAについて、発明者らは、高解像度の構造解析(Serganov A, et al., (2006) Nature 441(7097):1167-1171; Cate JH, et al. (1996) Science 273(5282):1678-1685; Kazantsev AV, Krivenko AA, Pace NR (2009) RNA 15(2):266-276)によって定義されたRNAの構造を正確に再現した、高品質かつ統計的に有意なモデル(Hajdin CE, et al., (2010) RNA 16(7):1340-1349)を得た。

発明者らは、RNaseP RNAについて、その分子の2/3に及ぶ重複RINGと、P19の第二の非重複セットを観察した（図3C）。これは、P3-P2-P19要素が、RNA構造の残りの部分に構造的にリンクしていないことを示している。RNaseP RNAについてのこの3次元モデルの精度は、結晶構造と比較すると、構造のコア（P3-P2-P19要素は除く）については、14.4Å平均二乗偏差(rmsd)（P<10-6）であり、特に高い。ここで研究した3つのRNAについて、多くの化学修飾、従って多くのヌクレオチドの相互作用が、より大型RNAで検出されるため（図3A）、構造モデルの相対的な統計的有意性は、実際には、サイズと共に増加した。従って、RING−ネットワークの相互作用は、大型RNAについて、構造要素のデノボ同定と、折り畳まれたドメインのモデリングの両方を可能にする。

展望
配列決定により検出されるような、プロービング相関化学による単分子構造解析は、機能的に重要なRNA又はDNAの全体的な構造の分析のための非常に簡単で汎用的なアプローチを提示する。単に同じRNA又はDNA鎖における複数の事象を記録することにより単分子の実験を作成することができるという基本的な洞察は、完全に一般的であり、多くの新しいクラスの実験の開発と生物学的発見を鼓舞する。RING-MaPは、そのシンプルさと実験簡潔さにおいてユニークであり、変異を導入したり、生物物理学的分析のために最適化したり、又は人工的な構造のプローブを導入する必要なしに、事実上すべての生物学的RNAに適用することができる。ここに記載されたDMSを使用する単分子変異プロファイリング（MaP）アプローチは、他のRNA修飾剤、同時にすべての4つのヌクレオチドを調べる実験、RNA−タンパク質間の架橋、及び変異体の複雑なライブラリの分析、に容易に拡張することができる。タンパク質−RNA、RNA−RNA及びDNA媒介相互作用を同時に研究する単分子MaP実験は明らかに実現可能である。
高次構造は生物学的機能に密接に関連している。従って、二次構造の特徴付けに基づく新規発見（実施例5）に類似して、大型RNA及びトランスクリプトームにおける空間を介するRINGのクラスターを特定することは、広範囲の生物学的機能モチーフの発見を可能にする。

方法
RING-MaP法、統計的関連分析、スペクトラルクラスタリング、及び構造モデリングの詳細な説明を以下に示す。処理されたデータ及びソフトウェアは、対応する著者のWebサイト（chem.unc.edu/rna）で無料で利用可能である。配列決定データは、バイオテクノロジー情報配列読み取りアーカイブのための国立センター（National Center for Biotechnology Information Sequence Read Archive）で利用可能である。

硫酸ジメチルとRNA核酸塩基との間の反応のSI法キャラクタリゼーション
硫酸ジメチル（DMS）（Sigma-Aldrich社）と[γ-32P]でラベルされたATP、CTP及びUTPとの間の付加物形成は、37℃で、1×反応緩衝液[9μL、10mMのMgCl₂及び300mMのカコジル酸ナトリウム（pH7.0）]中で、[γ-32P]でラベルされたNTPに10％（体積/体積）DMS（無水エタノール中で1μL：1.7 M）を添加することにより行った。反応を、10、30、60、120、180、360及び900秒後に、等量のニート2-メルカプトエタノール（2ME）を加えてクエンチした。予めクエンチした対照反応については、まず、等容積のニート2-メルカプトエタノールに1.3 M DMS溶液[DMS：エタノール：水が1:2:5（容量/容量）]を加えた。次に、この混合液（2.8μL、625 mMのDMS）を直ちに1.4×反応緩衝液[7.2μL、14mMのMgCl₂及び417mMのカコジル酸ナトリウム（pH7.0）]中で、[γ-32P]でラベルされたNTPに添加し、この反応液を30℃で12分間インキュベートした。クエンチした反応液をゲル電気泳動（30％ポリアクリルアミド；アクリルアミド:ビスアクリルアミド 29:1；0.4mm×28.5cm×23cmゲル；30W、45分）により分離し、蛍光イメージングにより定量した。データは、DMSがアデノシンのN1位置とシトシンのN3位置のN1位置で付加物を形成し、ウリジンとは反応しないメカニズムと一致した。DMS付加物形成の間、NTPなしの反応液中のpHの変化を、37℃でAccument 25 pHメーターを用いて測定した。シトシン及びアデノシンのDMS付加物形成の直接的な測定は、これらの２つのヌクレオチドにおいてほぼ同じ反応性を示している。この観察は、アデノシンがよりシトシンよりも迅速にDMSと反応するという、広まっている見方とは異なる。発明者らは、この誤解が、N3-メチルシトシンが逆転写酵素を阻害する能力が比較的非効率的であることによるものと考えている。

RNA構築物
PCRにより、それぞれ5'及び3'構造カセット隣接配列内に埋め込まれた、大腸菌のチアミンピロリン酸（TPP）リボスイッチ、TetrahymenaグループIイントロンP546ドメイン、及びバチルス・ステアロサーモフィルス(Bacillus stearothermophilus) RNase P触媒ドメインのためのDNAテンプレートを作成した(Wilkinson, KA, et al., (2006) Nat Protoc 1(3):1610-1616)。これらのRNAを、in vitroで転写し[1mL；40mMのトリス（pH8.0）、10mMのMgCl₂、10mMのDTT、2mMのスペルミジン、0.01％（体積/体積）のTriton X-100、4％（wt/vol）のポリエチレングリコール8000、2mMの各NTP 、50μLのPCRで生成したテンプレート、0.1mg/mlのT7 RNAポリメラーゼ、37℃、4時間]、変性ポリアクリルアミドゲル電気泳動により精製した（8％アクリルアミド、7 M 尿素、アクリルアミド：ビスアクリルアミド 29:1、0.4mm×28.5cm×23cmゲル、32W、1.5時間）。RNAをゲルから切り取り、4℃で一晩受動溶出して回収し、エタノールで沈殿させた。精製したRNAを、50μLの10 mMトリス（pH7.5）、1mMのEDTA（TE）に再懸濁し、−20℃で保存した。

RNA折り畳み及びDMS修飾
RNA構造プロービング実験を、10mMのMgCl₂及び300mMのカコジル酸中、pH 7.0で行った。RNA[5pmol、5μL 5mMのTris (pH 7.5),及び0.5mM EDTA (1/2× TE)中]を95℃で2分間変性させ、4μLの2.5×フォールディング緩衝液で処理し、37℃で30分間インキュベートし、氷上で冷却した。折り畳み後、上記P546ドメインおよびRNase P触媒ドメインのRNAを、DMS（1μL；無水エタノール中1.7 M）で処理し、37℃で6分間反応させた。無試薬対照反応を、1μL無水エタノールを用いて行った。これらの反応物に等容量のニート2MEを添加してクエンチし、直ちに氷上に置いた。無Mg²⁺の実験を、2.5×フォールディング緩衝液からMg²⁺を除いた以外は同様にして行った。TPPリボスイッチRNAを、フォールディング緩衝液中で37℃で10分間インキュベートし、その後、TPPリガンドを所望の濃度で加え、サンプルを37℃で20分間インキュベートした。（注：DMSは既知の発がん性物質であり、ニート2MEは非常に強い臭気を持つ。DMSと2MEを伴う操作は化学ドラフト内で行うべきである。DMSを含む溶液は5N NaOHで中和する必要がある。DMS又は2MEを含む溶液は化学廃棄物として廃棄されるべきである。）

逆転写と付加物の検出
逆転写及び付加物検出の戦略に、SHAPE変異プロファイリング（MaP）アプローチ（実施例5）を用いた。DMSで処理した後、G-50スピンカラム（GE Healthcare）を用いてRNAを精製した。逆転写反応を、SuperScript II逆転写酵素（Invitrogen）を用いて、42℃で3時間行った[0.5mMの予備混合したdNTP、50mMのトリスHCl（pH8.0）、75mMのKCl、6mMのMnCl₂、及び10mMのDTT]。反応液を、G-50スピンカラム（GE Healthcare）を用いて脱塩した。この条件下で（Mn²⁺の存在下で長時間インキュベーションする）、逆転写酵素は、アデノシン及びシトシンのそれぞれN1とN3の位置でメチル付加物を読み飛ばし、付加物部位における変異をもたらす。アダプタとイルミナベースのシーケンシングに相当する指数を有する二本鎖DNAライブラリをPCRにより作製した。得られたライブラリをプールし、ペアエンドモードで読み取る最初の配列決定が関心対象のRNA配列をカバーするように、イルミナMiSeq（登録商標）装置（500サイクルキット）を用いて配列決定した。得られたFASTQデータファイルを参照配列に整列させ、自前の経路（実施例5）でヌクレオチド毎の変異率を算出した。変異をカウントするために用いたPhredスコアは20以上であることが必要であった。

統計関連分析によるヌクレオチド間相互作用の測定
ヌクレオチド反応性の相互依存性を検出するために、ヌクレオチドのすべての可能なペアに、関連性に対する独立性のピアソンのχ2テストのYatesの修正バージョンを適用した(Yates F (1934) Supp J Roy Stat Soc 1:217-235)。Yatesの修正カイ二乗統計値は、次のように計算した：

式中、N=（A+ B+ C+ D）はデータセットの全ストランドの数、a, b,c及びdは、4つの可能な同時発生の観察された数の下記2×2分割表により定義される：

χ_Yates ²が20より大きい場合（p <0.00001）、ヌクレオチド対は統計的に有意な関連を有するものとされる。個々のヌクレオチド対についてこの高い合格しきい値を用いて、発明者らは、少なくとも最大500nt長までのRNAについて1以上の偽正決定をしないことを期待している。
統計関連のχ2の有意差テストをパスしたヌクレオチド対について、ピアソンの相関係数ρを計算することにより、統計関連のサインと強度を決定した。2つのバイナリ変数について、ρは関連のピアソン尺度phi係数に等しい。相関係数とカイ二乗統計は関連している：

相関係数は典型的には0.05よりも小さかったが、係数は非常に有意であった。χ2統計によると、相関ヌクレオチドを識別した確率は、独立して0.00001未満であった。

また、下記のガイドラインは、ヌクレオチドの関連解析とクラスタリングのために課された。１回の読みあたり検出された修飾の平均数は、一本鎖ヌクレオチドの推定数の約15％であることが必要であり、それは１回の読みあたり２又はそれ以上の変異を生じる。無修飾対照において変異率が0.05より大きいとヌクレオチドはχ2計算から除外した。相関係数の標準偏差(SD)が20％（ブートストラッピングすることにより推定される）を超える関連ヌクレオチド対は、RNA相互作用グループ（RING）制限としては使用されなかった。ブートストラップと計算の間の相関係数の差の絶対値が1％未満となるようにブートストラップ反復を十分に大きくした。

単一RNA調和体内の複数の立体配座のスペクトラルクラスタリング
RNAを構成するヌクレオチドは、理論上の高次元空間のディメンションを規定する。そこにおいて、RNA鎖のいずれかの単一の読み取りは、その座標がそのヌクレオチドの化学試薬との反応性によって定義されるようなポイントによって表される（各座標は、ヌクレオチドが反応性か又はそうではないかによって１又は０にセットされる。）。この空間では、類似の構造立体配座を持つRNA鎖は、各立体配座のついての修飾プロファイルの頻度の違いを反映して、集まる傾向がある。発明者らは、スペクトラルクラスタリングを使用した(Shi J, Malik J (2000) IEEE Trans Pattern Anal Mach Intell 22:888-905; Ng AY, Jordan MI, Weiss Y (2002) Advances in Neural Information Processing Systems 14, eds Dietterich TG, Becker S, Ghahramani Z (MIT Press, Cambridge, MA), pp 849-856; Luxburg von U (2007) Stat Comput 17:395-416)。これは、データクラスターの形について仮定をすることなく、任意の形状のクラスターを見つけて、RNA構造的クラスターを定義するために、特に効果的である。

スペクトラルクラスタリングを使用して、RNAプール内の複数の高次構造の存在を検出するために、発明者らは、M RNA鎖中の化学試薬による修飾されたヌクレオチドの一次配列（長さNヌクレオチド）中の位置を、「ヒット」したマトリックスにおいてHM×Nとして、まとめた。このデータセットを、簡単で、完全で、無目的の、加重されたグラフとして処理した。このグラフにおいて、各ヌクレオチドは、頂点として表され、N個の頂点のすべてはエッジにより連結されている。各エッジは、両方のヌクレオチドが修飾されたデータセットにおける読み取り数として測定された、2つのヌクレオチドの反応性パターンの類似性に従って重みを割り当てられた。

この類似度マトリックスSを、正規化グラフラプラシアンマトリックスを構築するために使用した。

式中、Dは対角マトリックスであり、Ｄ_ｉｉは下式で表される。

マトリックスL_NCutの固有ベクトルは、切断エッジの重みの和を最小化し、保存されたエッジの重みの合計を最大化するように、頂点間のエッジをカットすることにより、データセットをクラスターに正規化カット分割を行うために使用された(Shi J, Malik J (2000) IEEE Trans Pattern Anal Mach Intell 22:888-905; Ng AY, Jordan MI, Weiss Y (2002) Advances in Neural Information Processing Systems 14, eds Dietterich TG, Becker S, Ghahramani Z (MIT Press, Cambridge, MA), pp 849-856; Luxburg von U (2007) Stat Comput 17:395-416)。発明者らのRNA変異データへの応用において、正規化されたグラフラプラシアンマトリックスL_NCutの固有値および固有ベクトルを、(i) 研究されたRNAのプールに、どれだけ多くの構造的立体配座が存在しているかを決定するため、(ii) 試料中の異なる立体配座の相対的画分を見積るため、及び(iii) 個々の立体配座について変異頻度プロファイルを再構築するために、使用した。これらの手順は、以下の段落に詳細に記載される。スペクトラルクラスタリングを、0.01よりも高い頻度で修飾されたアデノシン及びシトシンヌクレオチドに適用した。変更なしのRNA鎖は、何の情報もないので、スペクトラルクラスタリングから除外した。

固有値は、最小の固有値（λ1）から最大の固有値（λN）へ昇順にソートされた。最初の固有値（λ1）は常にゼロである。固有値は、各頂点の正規化カット分割の効果を表す。より効果的な特定のカットは、同様の頂点間のエッジ（例えば、同じクラスターに属するもの）、より小さい固有値、を維持しながら、異なる種頂点間のエッジ（例えば、異なるクラスターに属するもの）で行う。従って、データセットがK個の明確なクラスターを持っている場合、最初のK個の固有値は、K +1の固有値と残りの固有値よりも明らかに小さい。このように、発明者らは、クラスターの数（Ｋ）を推定するために、すべての固有値λ2、λ3 ---λKが比較的小さく、固有値λK+ 1が比較的大きくなるように、Kを選んだ。連続した固有値間のジャンプをより明らかにするために、固有値ではなく「固有ギャップ」（Δλi = λi+1−λiで定義され、最初の固有ギャップ（Δλ1）は０にセットされる。）を評価した(Luxburg von U (2007) Stat Comput 17:395-416)。一般に、データセットがK個のクラスターを持っている場合、固有ギャップのプロットは、Kの位置（ΔλK）で、その左側ではなくその右側に、顕著な固有ギャップを持つ可能性が高い。

RNAサンプルの異なる立体配座の相対的な画分の評価
データセットがK個のクラスターを持っている場合、固有ベクトル〜x2 --- 〜xKを、個々のRNA鎖をクラスターに割り当てるために使用することができる。特に、M RNA鎖のデータセットがK個のクラスターを持つと認識された場合、この鎖のスコアは以下のように計算される：

式中、下記の値

は、２番目からK番目の固有ベクトルである。このスコアは、K−1個のディメンションを有し、ＲＮＡ鎖は、K-1ディメンションのスコア空間におけるのM個のデータ点のK平均クラスタリングを行うことにより、K個のクラスターに分割される。

１つのRNAサンプル中の個々の立体配座の修飾頻度プロファイルの再構築
一旦RNA鎖が異なる立体配座を反映するクラスターに割り当てられると、各立体配座について、修飾頻度プロファイルを具体的に計算することができる。このようなプロファイルの再構築の精度は、別途以下の手順を用いて各ヌクレオチドの修飾頻度を計算することにより、改善された。ヌクレオチドｉの修飾頻度を計算するために、このヌクレオチドを、最初のヒットマトリックスHから除去し、この減少したマトリックスについて（この塩基は寄与しない）、K平均クラスタリングによりスペクトラルクラスタリング及び鎖分割を行った。次に、ヌクレオチドの修飾頻度ｉを、ＲＮＡ鎖の各分割グループについて別々に計算し、異なる立体配座の推定値を得る。

三次元RNA構造のモデリング
対のヌクレオチド相関に基づく自由エネルギーの特別手当を組み込んだ拘束分子動力学アプローチを用いて、三次元RNA折り畳み構造の再構成を行った (Gherghe CM, et al., (2009) J Am Chem Soc 131(7):2541-2546; Lavender CA, et al., (2010) Biochemistry 49(24):4931-4933).。リン酸、糖及び塩基基に対応する3つの擬似原子として、各ヌクレオチドをモデル化した。塩基対形成、塩基スタッキング、パッキング相互作用、及び静電反発を含む、対での相互作用を、平方ウェルポテンシャルを用いて近似する(Ding F, et al. (2008) RNA 14(6):1164-1173)。モデリングを制限するために、受け入れられた塩基対の配列を用いた(Serganov A, et al., (2006) Nature 441(7097): 1167-1171; Cate JH, et al. (1996) Science 273(5282):167801685; Kazantsev AV, Krivenko AA, Pace NR (2009) RNA 15(2):2660276)。

RING分析からの情報を組み込むために、自由エネルギーのポテンシャルを、相互作用することが見出されるヌクレオチド対の間の、離散分子動力学（DMD）のシミュレーションに適用した。絶対相関係数が0.025より大きい場合、相互作用する塩基対に自由エネルギーの特別手当を含めた。2ヌクレオチドが一次配列中に近接するか、共通の二次構造要素に関与することにより、接触していることが示唆される場合、自由エネルギーポテンシャルは含まれなかった。一次配列で近接する場合、配列内の11箇所内のヌクレオチドの間には、自由エネルギーポテンシャルは含まれかった。二次構造で近接する場合、同じ構造要素内のヌクレオチドにつては、ポテンシャルは追加されなかった。下記値が

11ヌクレオチドと同じ又はそれ以下の場合、構造要素は、RING対中のｎ_ｉとｎ_ｊの位置のヌクレオチドとして、及び任意の所与の塩基対中のｍ_ｉとｍ_ｊの位置のヌクレオチドとして定義された。この11-ntの閾値は、A型RNAヘリックスの単回転における塩基対の数に基づいて選択された。

シミュレーション中に、構成ヌクレオチド間の空間を介する距離に基づいて、RING-相関塩基対の間に自由エネルギーポテンシャルを課した。相関ヌクレオチド間の36Åと23Åの内の距離については、適用される特別手当はそれぞれ、-0.3及び-0.6Kcal/モルであった。最大-0.6Kcal/モルの特別手当は、分子動力学の力場において単一RNAスタッキング相互作用によりもたらされる安定化と等価である。
レプリカ交換を備えたDMDエンジンを用いて、分子動力学シミュレーションを行った(Ding F, et al., (2012) Nat Methods 9(6):603-608)。0.1000、0.1375、0.1750、0.2125、0.2500、0.2875、0.3250及び0.3625のレプリカ温度係数値を用いて、８つのレプリカを平行してそれぞれ100万回単位処理した。各レプリカから、100回単位ごとに、モデルを取り出した。次に、このモデルのリストを、回転半径に基づいて濾過した。これらのモデルの回転半径を、RINGベースのポテンシャルが組み込まれない対照シミュレーションと比較した。RING依存性モデルと対照モデルの両方について、回転半径のヒストグラムを構築した。対照ヒストグラムの大きさを、実験ヒストグラムからの差を最小化するようにスケーリングし、対照ヒストグラムの頻度を、実験のものから差し引いた。この差ヒストグラムについて、対数正規分布を、制限依存崩壊構造に対する回転半径の分布を記載する最小二乗フィッティングにより得た。さらなる考慮のために、RING-依存モデルは、このフィット分布により記述される幾何平均の幾何学的標準偏差（SD）の範囲内でなければならない。
回転半径によるフィルタリングに続いて、最低エネルギーを有する250のモデルを、階層的クラスタリングにより解析した(Lavender CA, et al., (2010) Biochemistry 49(24):4931-4933)。クラスタリングは、分析モデル間の平均二乗偏差(rmsd)値を考慮して行った。クラスタリングは、クラスターの任意の2の構成メンバー間の最大平均二乗偏差(rmsd)が、分析構造について予測される平均値と平均二乗偏差(rmsd)分布の標準偏差(SD)の合計よりも小さくなるように、制限された。最も分布が多いクラスターのメドイド(medoid)を、予測構造とした。

実施例５
SHAPE及び変異プロファイリング（SHAPE-MaP）によるRNAモチーフの発見
結果
MaP戦略
SHAPE実験は、簡素化溶液条件下(Wilkinson, K.A. et al. PLoS Biol. 6, e96 (2008), Merino, E.J., et al., J. Am. Chem. Soc. 127, 4223-4231 (2005))及び細胞中(Tyrrell, J., et al., Biochemistry 52, 8777-8785 (2013); McGinnis, J.L. & Weeks, K.M. Biochemistry 53, 3237-3247 (2014); Spitale, R.C. et al. Nat. Chem. Biol. 9, 18-20 (2013))の両方で、立体配座的に柔軟なRNAヌクレオチドにおいて、反応して共有結合2'-O-付加物を形成する2'-ヒドロキシル基選択試薬を使用する。構造的に複雑なRNAの二次構造の非常に正確なモデルを提供するために、RNA構造を予測するためのアルゴリズムにおける制約として、SHAPEデータを使用することができる(実施例３; Hajdin, C.E. et al. Proc. Natl. Acad. Sci. USA 110, 5498-5503 (2013)。この実施例では、RNAにおけるSHAPE化学修飾を、超並列配列決定法による単一の直接工程で定量する（図6）(Mortimer, S.A. & Weeks, K.M. J. Am. Chem. Soc. 129, 4144-4145 (2007); 実施例３; Merino, E.J., et al. J. Am. Chem. Soc. 127, 4223-4231 (2005); Steen, K.-A., Rice, G.M. & Weeks, K.M. J. Am. Chem. Soc. 134, 13160-13163 (2012))。このアプローチは、SHAPE修飾ヌクレオチドの読み違え及び新規合成cDNAにおける元の配列と非相補的なヌクレオチドの組み込み、を引き起こす条件を利用する。

SHAPE付加物の位置と相対頻度は、このように、直ちに、直接的に、及び恒久的に、cDNAの一次配列中の変異として記録され、そによりSHAPE-MaPを作成する。SHAPE-MaP実験では、RNAは、SHAPE試薬で処理されるか、又は溶媒のみで処理され、付加物により誘導される変異の検出において、配列特異的なバイアスを制御するために、RNAは変性条件下で修飾される。各実験条件のRNAを逆転写し、得られたcDNAを超並列配列決定法(MPS)にかける。未処理サンプルについて得られたデータから、処理されたサンプルについてのデータを差し引き、変性対照についてのデータを正規化することにより、反応位置を特定する（図6及び9）。

構造モデリング：検証
大腸菌チアミンピロリン酸（TPP）リボスイッチのアプタマードメインの構造を、まず、TPPリガンドの飽和濃度の存在下及び不存在下で調べた。SHAPE-MaPは、折り畳まれリガンドに結合したRNAの既知の反応性パターン、及びリガンド結合の際に生じるヌクレオチド分析の反応性の正確に報告されている違いを再現した。これらの結果及び1542nt大腸菌16S rRNAの分析結果は、SHAPE-MaPが、ヌクレオチド分析における明確なRNA立体配座の構造の詳細を、正確に、再現性で、かつヌクレオチドのタイプから独立に、把握することができることを示す。SHAPEプロファイルはすべての配列の読み込みに由来する変異頻度から再構築されるため、SHAPE反応性の不確実性は、変異事象のポアソン分布から推定することができる。

SHAPEデータを二次構造のモデリングを制限するための擬似自由エネルギー変化の用語としての使用することは、従来の二次構造のモデリングに対する挑戦として特に選択されたRNAのテストセットを使用するベンチマークとして広く行われている(実施例３；Hajdin, C.E. et al. Proc. Natl. Acad. Sci. USA 110, 5498-5503 (2013))。SHAPE-MaPの精度を評価するために、これらのRNAのサブセットを、よく検証された1M7試薬を用いて、78〜2904ntの範囲で、プローブした。また、２つの追加の試薬である1M6とNMIAを使用する「差異」SHAPE実験を、特に挑戦的なRNAについてであっても、非標準および三次相互作用を検出するために、及び一貫性のある高精度のRNA構造モデルを生成するために、評価した(実施例３：Steen, K.-A., Rice, G.M. & Weeks, K.M. Fingerprinting noncanonical and tertiary RNA structures by differential SHAPE reactivity. J. Am. Chem. Soc. 134, 13160-13163 (2012)。感度及び陽性適中率で測定された、差異反応性を用いた、RNA構造のSHAPE-MaP指向モデリングの全体的な精度は、キャピラリー電気泳動により検出されたプライマー伸長の付加物媒介終結に基づいた従来のSHAPE反応性の精度と比べて、同等又はしばしばそれより優れていた。受け入れられた標準的な塩基対の回収精度は90％を超えた（図7A）。

MaP戦略を使用して得られたSHAPE反応性は、超並列配列決定法による、多くの個々の事象として測定される。その信頼性は、変異率の適正な測定に依存する。2,000〜5,000のヌクレオチド毎の読み込み深さを使用した、16S rRNAの構造の正確なモデル化が達成された。これは、平均して、リボソームヌクレオチドあたりのバックグラウンドを超える6-15の修飾に対応している（図7B）。いくつかの先行研究では、与えられたトランスクリプトーム内のRNAの全てが、その実験のプロービングの間に物理的に存在するという条件で行われたが(Kertesz, M. et al. Nature 467, 103-107 (2010); Ding, Y. et al. Nature 505, 696-700 (2014); Rouskin, S., et al. Nature 505, 701-705 (2014))、このヒットレベルの分析結果は、各ケースにおけるわずか数千ヌクレオチドが、根本的な構造情報の完全な回復を可能にするであろう深さでサンプリングされたことを示している。正確なSHAPE-MaP指向モデリングは、元々、キャピラリー電気泳動に基づく実験のために定義されたと同じパラメータを使用して達成され、匹敵する高い精度は、RNA特異的およびランダムプライミングされた実験の両方を用いて達成された。異なる人により数ヶ月離れて実行された複数の完全な生物学的複製の間で、再現性があり、これはSHAPE-MaPのロバスト性を強調する。

HIV-1 RNAゲノムの最新の高解像度モデル
約2週間にわたって行われた実験とデータ解析により、全体の確実なHIV-1ゲノムRNA（NL4-3株、〜9200 nt）について、単一ヌクレオチド分析の構造情報が得られた。効率的かつ完全に自動化されたアルゴリズムを使用し、1M7と差異SHAPE-MaPデータを処理して、SHAPE反応性プロファイル及び二次構造のモデルを得た（図8及び図9）。この例で実施されたMaPアプローチは、従来のゴールドスタンダードであるキャピラリー電気泳動データに等しいか又はそれより優れた、大型のRNAについてヌクレオチド分析の反応性データを生成する（図7A）。従って、ここに提示されたHIV-1ゲノムの構造は、このRNAでよく定義された要素について、新しくてより高い解像度のモデルを構成する。

よく決定された構造のデノボ識別
ほとんどすべての長いRNA配列は複数の二次構造を形成するが(Doty, P., et al. Proc. Natl. Acad. Sci. USA 45, 482-499 (1959)、これらの構造の全てが、生物学的に重要または明確に定義されているわけではない。従って、HIV-1 RNAについて予測されるボルツマン調和体内のすべての可能な構造にわたる各塩基対の確率を計算するために、SHAPE指示モデリングを使用した。このSHAPE指示モデリングの基礎となるエネルギー関数は、よく定義された二次構造を有するRNAについて高精度モデルをもたらす（図7A及び7B）。この確率を用いて、シャノンエントロピーを計算した(Huynen, M., Gutell, R. & Konings, D. J. Mol. Biol. 267, 1104-1112 (1997); Mathews, D.H. RNA 10, 1178-1190 (2004)) (図8)。高いシャノンエントロピーを有する領域は、別の構造を形成する可能性があり、低シャノンエントロピーを有する領域は、SHAPE反応性によって決定されるような、明確に定義されたRNA構造を持つか、または永続的な単鎖性を有する領域に対応する。全HIV-1ゲノムにわたるペアリング確率のプロットは、HIV-1ゲノムRNAにおける、十分に決定されたRNA構造と可変な構造の両方を明らかにする（図8A）。5 '非翻訳領域（UTR）、Rev応答要素（RRE）、フレームシフト要素及びポリプリントラクトのような、従来特徴評価された構造領域は、このモデルでよく決定される。対照的に、高いSHAPE反応性と高いシャノンエントロピーを有し、その結果多くの立体配座をサンプリングする可能性がある大型領域（例えば、ヌクレオチド3,200-4,500及び6,100-6,800）もまた存在する。この可視化アプローチは、ユニークで安定した構造を有する領域と、複数の構造が平衡状態にあるこれらの領域を、強調する。

シャノンエントロピーとSHAPE反応性の分析は、大型RNA中の明確に定義された構造を持つ領域のデノボの発見のためのアプローチを提供する。HIV-1ゲノムRNA中の15の領域は、低SHAPE反応性（高度のRNA構造を示す）と低シャノンエントロピー（単一優勢な二次構造の信頼性を提供する）の両方を持っていた（図8A及び8B）。ヌクレオチド分析構造モデルは、これらの領域ごとに作成された（図8C）。既知の機能的に重要な調節構造（RRE、5 'トランス作用性応答要素（TAR）、プライマー結合部位、パッケージング要素（PSI）、二量体化開始部位、リボソームフレームシフト要素、及び3' TAR）のモデルは、これらの領域について先に提案したモデルと密接に合致した。また、最長連続ヘリックス、ポリプリントラクト隣接するヘアピン、及びその他の特徴は、従来のモデル(Watts, J.M. et al. Nature 460, 711-716 (2009))と現在のモデル（表11）との間で一貫性を維持する。

次に、RNAモチーフ（図8B及び表12）を介して機能する可能性が高いすべての調節要素のリストが得られた。そして、これらのRNA構造要素の位置を、SHAPE-MaPによるデノボ識別された高度に構造化され低エントロピーの領域と比較した。機能性RNA要素は、低SHAPE、低シャノンエントロピー領域で圧倒的に起こり（図8、P = 0.002）、これは、ほとんどのRNA媒介性機能は、基礎となるRNAの構造との関連で機能することを示す。このHIV-1ゲノム中の低SHAPE、低シャノンエントロピー領域のいくつかは、従来、既知のRNAの機能要素に関連付けられていない領域で発生する。これらの領域は、新しいRNAモチーフの発見のための価値の高い標的である。

構造多型のモチーフの発見とデコンボリューション
シュードノットは、大型RNA中では稀であり、それを特定するのは困難であるが、これらのモチーフは、多くのRNAの機能的に重要な領域で過剰に表現されるように見える(Staple, D.W. & Butcher, S.E. PLoS Biol. 3, e213 (2005); Brierley, I., Pennell, S. & Gilbert, R.J.C. Nat. Rev. Microbiol. 5, 598-610 (2007))。現在のSHAPE指示構造のモデリングの累積的進歩及び高スループットSHAPE-MaPデータの厳格なテストとして、HIV-1 RNAゲノムにおける新しいシュードノットの探索を行った(Hajdin, C.E. et al. Proc. Natl. Acad. Sci. USA 110, 5498-5503 (2013))。この例のモデルでは、低SHAPE反応性及び低シャノンエントロピーの領域に4つのシュードノットがある（図8C）。HIV-1 RNAの5 'ポリアデニル化シグナル（5'_PK）に隣接するシュードノットは、既に検証されている(Wilkinson, K.A. et al. PLoS Biol. 6, e96 (2008); Paillart, J.-C., et al. J. Biol. Chem. 277, 5995-6004 (2002))。その他の3つの新しいシュードノットは、逆転写酵素のコード領域（RT_PK）中の、ENV（ENV_PK）の先頭で、3 'ポリアデニル化シグナル（U3_PK）に隣接したU3領域で、形成すると予測されている。陰性対照として、高いSHAPE反応性と高いシャノンエントロピーの領域にあるShapeKnotsアルゴリズムにより予測された追加のシュードノットを分析した（CA_PKは、961-1,014のヌクレオチド）。

各偽シュードノットを破壊するように設計されたサイレント変異を、全長HIV-1ゲノムに導入した。U3_PK領域の特殊な機能は、MaPアプローチの力を示している。U3配列は、プロウイルスHIV-1 DNA中のウイルスゲノムの5'及び3 '末端の両方で起こるが、このウイルスRNAでは3 '末端のみで起こる。プロウイルスをコードするプラスミドのトランスフェクション時に、これらの配列は、組換えを受け得る。プロウイルスDNAの5 '末端の天然配列U3を用いた変異がU3配列（3 '末端）のみに導入されたとき、SHAPE-MaP実験は、ネイティブ配列及び変異体配列の両方が、変異U3_PKを含むサンプル中の個々のゲノムRNAの3'末端に存在することを明らかにした。ヌクレオチドは、MaPプローチでフラグメント化されていないRNA領域に関連して、分析されているため、両方の対立遺伝子は、同じ実験中で独立してモニターされ、コンピュータにより分離され、天然RNA及び変異体RNAについて個々のSHAPEプロファイルが構築されることができる。天然及び変異U3との間で、互いの直接競争の中でウイルスにより生じ、U3_PK構造の正確な崩壊と矛盾しない、SHAPE反応性の顕著な違いが観察された。U3_PKシュードノットヘリックスの5'側に導入された変異は、100ヌクレオチド以上離れて位置する3'ペアリングパートナー中に、変異を誘発した。このように、SHAPE-MaPは、RNAの複雑な混合物を含むシステムにおける構造解析やモチーフを発見するため、及び及び単一ヌクレオチド及び他の対立遺伝子多型の構造的影響を検出しデコンボリューションするために、特に有用である。

SHAPE-MaPを用いて、ウイルス適応度について細胞ベースのアッセイにより、すべての変異体構築物を分析した。U3_PKの変異は、Jurkat細胞におけるウイルスの拡散を、NL4-3に比べて約十倍低減し、NL4-3と直接競合するウイルス適応性を、NL4-331に対する平均相対適合性差で-0.32、減少させた。U3_PK中の変異によるウイルス適合性に対するこの大きな影響は、mRNAの安定性と翻訳を調節する際の3 'のUTRの一般的な重要性(Matoulkova, E., et al. RNA Biol. 9, 563-576 (2012))、より具体的には、ポリ（A）シグナルとポリアデニル化機能の集合体中の上流配列要素の特定の高次空間組織に対する役割(Gilmartin, G.M., et al. EMBO J. 11, 4419-4428 (1992); Klasens, B.I., et al. Nucleic Acids Res. 27, 446-454 (1999)).、と一致する。また、RTPK変異体におけるSHAPE変化も、シュードノットヘリックスの中又はそのすぐ隣に直接位置した。RT_PKの変異は、NL4-3に比べて、小さいが、再現性があり、ウイルスの拡散及びウイルス適合性は、平均相対適応度-0.14で、減少を示した。また、このシュードノットヘリックスから5延長する変化を含む、「長距離」ENV_PK変異体についての5 '及び3'配列の両方で、SHAPE反応性の変化が観察された。これは、この偽シュードノットの破壊により引き起こされる局所的折り畳みを示唆する。ENV_PK変異体について、ウイルスの拡散及びウイルスの適合性は減少しなかった。これは、細胞培養におけるHIV-1複製のいくつかの特徴を検出する課題を反映しているかもしれない。陰性対照として分析されたCA_PK中の変異は、SHAPE-MaP解析によるこの位置におけるシュードノット構造の存在をサポートしておらず、高シャノンエントロピープロファイルと一致している。

ディスカッション
変異プロファイリングを用いて、核酸構造情報は、直接かつ簡潔に相補的なcDNA配列に記録され、ライブラリの準備と超並列配列決定法(MPS)におけるバイアスに対して無感受性にされる。MaPは、こうして逆転写又はDNA合成を、核酸構造発見のための直接エンジンに変換する。MaPは、配列決定戦略から完全に独立であり、従って、逆転写により検出可能な任意の低存在量RNAにおける化学的修飾を定量するための、ベースコールエラー率が十分に低い任意の配列決定法に使用することができる。直接読み飛ばしを介したRNAとDNAの両方における化学付加物の検出を、多種多様の転写後及びエピジェネティック修飾を、変異プロファイル又はMaPとして、記録するためのポリメラーゼを選択するための戦略と結び付けることができる(Ghadessy, F.J. & Holliger, P. et al. Methods Mol. Biol. 352, 237-248 (2007); Chen, T. & Romesberg, F.E. FEBS Lett. 588, 219-229 (2014)。

SHAPE-MaPデータは、誤差予測を含み、構造モデリング及び転写産物全体のモチーフ発見のための完全に自動化され、調べられたアルゴリズムに容易に統合される。RNA構造の大規模でゲノム規模の研究において、任意の大型RNA中で形成される複雑な構造の調和体の背景の中で、真の機能的要素を特定することができる。SHAPE-MaP解析を、大型RNA領域にわたって計算された、対形成の確率の分析と組み合わせることにより、保存された構造を持っているように見える中央ポリプリントラクトを除く、HIV-1ゲノム中のほぼすべての既知の大規模な機能要素が特定された(Pollom, E. et al. PLoS Pathog. 9, e1003294 (2013))。従って、SHAPE-MaPによる機能要素の検出感度は非常に高い。更に、HIV-1ゲノムは、科学の歴史の中で最も集中的に研究されたRNAの一つであるという事実にも拘らず、定量的かつ高解像度SHAPE-MaP解析は、新規の機能モチーフ、特に3シュードノット、伝統的に予測することが挑戦であったモチーフ、の迅速でデノボな発見と直接的な検証を可能にした。ここで開発されたアプローチの陽性予測値もそれに応じて高くなる。SHAPE-MaPは、実験の簡潔さと構造的な精度を提供し、任意のサイズと複雑さを持つRNAシステムに合わせることができる。

方法
SHAPE-MaP実験の概要
SHAPE-MaP実験は、SHAPE付加物の位置で、RNAに非相補的なヌクレオチドを初期cDNAに取り込むことを促進する、逆転写の条件を使用する。従って、RNA付加物のサイトは、SHAPE試薬で処理していないRNAから転写されたcDNAと比較して、このcDNAの内部変異又は欠失に対応する。逆転写は、遺伝子特異的プライマー又はランダムプライマーを用いて行うことができる（図9）。この両方のアプローチは以下に記載される。cDNA合成が完了すると、RNAの構造情報は、本質的に永久的にその配列に記録され、従って、任意の多段階のライブラリ構築スキームの間に導入されるバイアスから独立している。ライブラリの調製は、RNA配列決定実験（RNA-seq）におけるものと同様であり、任意のシークエンシング・プラットフォームに容易に適合させることができ、配列バーコードを使用する多重化を可能にする。一本鎖切断と背景の劣化は、配列読み飛ばし時にこれらが検出されないように、本質的に、SHAPE-MaP実験に干渉しない（従来のSHAPE及び他の逆転写酵素の停止に依存するアッセイとは対照的に）。また、MaPアプローチにおいては、複雑で部分的にヒューリスティックな補正を必要とする、シグナルの減衰又はドロップオフがない。

SHAPE-MaPの開発と効率
いくつかのケースで、逆転写酵素は、酵素が一時停止した後、異例の2'-O-結合と付加物を読み過ごすことができる(Lorsch, J.R., Bartel, D.P. & Szostak, Nucleic Acids Res. 23, 2811-2814 (1995); Patterson, J.T., Nickens, D.G. & Burke, D.H. RNA Biol. 3, 163 (2006))。この読み飛ばしは、逆転写酵素活性部位における構造の歪みを引き起こし、その結果、一時停止を誘導するSHAPE付加物の位置においてヌクレオチド誤組み込みの割合が高くなる、と仮定される。SHAPE-MaPにおいて、ヌクレオチド濃度、反応時間、緩衝液条件及び二価金属イオンの同定の機能として使用するために、複数の逆転写酵素をスクリーニングした。付加物により誘発される逆転写停止を最小限にし、最大限の完全長cDNA産物を可能にするように、酵素条件を検索した。試験した二価金属イオン（マグネシウム、マンガン、銅、コバルト、ニッケル及び鉛を含む）の中で、Mn²⁺は、特に、モロニーマウス白血病ウイルス逆転写酵素（SUPERSCRIPT（登録商標） II、Invitrogen社）を用いた場合に、バルキーな2'-O-付加物の部位における酵素の読み飛ばしを、最も効果的に促進した。この観察は、Mn²⁺中でモロニー逆転写酵素が高活性であること(Roth, M.J., Tanese, N. & Goff, S.P. J. Biol. Chem. 260, 9326-9335 (1985))、及びこのイオンがDNAポリメラーゼの変異行動を促進するという能力(Beckman, R.A., Mildvan, A.S. & Loeb, L.A. Biochemistry 24, 5810-5817 (1985))と一致する。付加物により誘発される誤組み込み事象の正確な種類を、16S rRNA中の非対形成と対形成のヌクレオチド位置における置換及び欠失の割合を比較することにより決定した。

誤組み込みの傾向は、3つSHAPE試薬、即ち、1M7 (Mortimer, S.A. & Weeks, K.M. J. Am. Chem. Soc. 129, 4144-4145 (2007))、「差異（ディファレンシャル）」NMIA及び1M6（実施例３）、の全てで同等であった。一般的に、SHAPE付加物の存在は、他の誤組み込み事象においては確固たる情報があるが、ヌクレオチドが、A又はTとして、又は削除事象として誤って読み取られることを引き起こす。単一の反応位置（AddC）を有する２ヌクレオチドモデル基質における柔軟なヌクレオチドは、ここで使用された条件と同様の条件下で、NMIAまたは1M7により、約2％の効率で修飾される(Mortimer, S.A. & Weeks, K.M. J. Am. Chem. Soc. 129, 4144-4145 (2007))。16S rRNAの中で柔軟な位置でのバックグラウンドを超える変異率は、0.5％以上であり、最も反応性の位置の多くでは2％以上である。これらの境界値を考えると、MaP戦略は、50％以上の効率でSHAPE付加物を検出すると推定された。

モデルRNAのRNA折り畳み及びSHAPEプロービング
tRNA^Phe、TPP リボスイッチ、大腸菌5S、C型肝炎ウイルスIRESドメイン、T. thermophilaグループIイントロン又はO. iheyensis グループIIイントロンRNAについて、隣接5'及び3'構造カセットに関連して、DNAテンプレート（IDT）を合成した。テンプレートをPCRにより増幅し、T7 RNAポリメラーゼを用いてRNAに転写した(Wilkinson, K.A., et al. Nat. Protoc. 1, 1610-1616 (2006))。RNAを変性PAGEにより精製し、適切な領域を切除し、ゲルからRNAを4℃で一晩受動的に溶出した。非変性条件を用いて中間ログインフェーズの間、DH5α細胞から16S及び23S rRNAを単離した(Deigan, K.E., et al. Proc. Natl. Acad. Sci. USA 106, 97-102 (2009))。各サンプルについて、100mMのHEPES、pH8.0、100mMのNaCl及び10mMのMgCl2、最終容量10μl中で、5pmolのRNAが折り畳みされた。折り畳み後、RNAは、10mMのSHAPE試薬の存在下で修飾され、37℃で3分（1M6と1M7）又は22分（NMIA）インキュベートされた。SHAPE試薬の代わりにニートDMSOを含む無試薬対照を並行して実施した。付加物の検出における配列特異的な偏り（バイアス）を考慮して、強い変性条件下（95℃、50mMのHEPES（pH8.0）、4 mMのEDTA及び50％ホルムアミド中）で、NMIA、1M7又は1M6を使用してRNAを修飾した。修飾後、RNAアフィニティーカラム（RNeasy（登録商標）、MinElute（登録商標）；Qiagen）又はG-50スピンカラム（GE Healthcare）のいずれかを用いて、RNAを単離した。

HIV-1ゲノムRNAののRNA折り畳み及びSHAPEプロービング
HIV-1（NL4-3株；グループM、サブタイプB）の全ゲノムSHAPE-MaPのために、文献記載に従って(Watts, J.M. et al. Nature 460, 711-716 (2009))、ウイルスを作製し、精製した。ウイルスRNAを、タンパク質から穏やかに抽出し、精製した後、300mMのNaClを含有する溶液からエタノール沈殿させた。このようにして調製される場合(Watts, J.M. et al. Nature 460, 711-716 (2009))、ゲノムRNAの約30％は完全長であり、ネイティブHIV-1ゲノムサンプルの断片化は、カラム精製（RNeasy（登録商標）、MinElute（登録商標）；Qiagen）中にサンプル回収の減少をもたらした。従って、サンプルあたり約1μgのHIV-1 RNAが使用された。より完全なRNAを用いたSHAPE-MaP実験のためには250 ngより多くのRNAが必要とされる。FuGene6（登録商標）（プロメガ社）又はXtremeGene（登録商標）HP（Roche）を用いて、 293T細胞のトランスフェクションにより、変異ウイルスを作製した。ウイルスの上清を、遠心濃縮機(Vivaspin^TM 20, Sartorius)を用いて濃縮し、続いて、沈殿させ(Lenti-X^TM Concentrator, Clontech)、ウイルス粒子を濃縮した。ペレット化したウイルス粒子を、ウイルス溶解緩衝液（50mMのHEPES（pH 8.0）、200 mMのNaCl及び3mMのMgCl₂）に再懸濁し(Watts, J.M. et al. Nature 460, 711-716 (2009))、1％（w/v）のSDS及び100μg/mlのプロテイナーゼK（25℃、30分）を用いて溶解した。RNAを、フェノール：クロロホルム：イソアミルアルコールを用いて少なくとも3回抽出し、クロロホルムを用いて2回の抽出し、エタノール沈殿を行った。
約1μgのHIV-1ゲノムRNAを、修飾用の緩衝液（50mMのHEPES（pH8.0）、200mMの酢酸カリウム（pH8.0）、3mMのMgCl₂）に懸濁させ、37℃で15分間インキュベートした（SHAPE用修飾及び非処理サンプル）、又は変性用緩衝液（50mMのHEPES（pH8.0）、4 mMのEDTA、50％ホルムアミド）に懸濁させし、95℃で2分間インキュベートした。次いで、サンプルをSHAPE試薬（最終10mM）又はニート溶媒で処理した。

断片化されたサンプルを用いたSHAPE-MaP
SHAPE修飾及び精製の後、HIV-1、グループIIイントロン、HCV IRES及びrRNAの各サンプルを、9mMのMgCl₂、225mMのKCl及び150mMのトリスHCl（pH 8.3）を含む緩衝液中で94℃で4分間インキュベートすることによりで断片化した（その結果、長さ250〜350nt）。このRNA断片をG-50スピンカラムを用いて脱塩した。断片化されたサンプル（全質量250〜500ng）を、42℃で3時間逆転写に供した（SuperScript（登録商標） II、Invitrogen社製、を使用）。リボソーム、グループIIイントロン及びHCV IRES RNAについては200 ngのランダム九量体プライマー（NEB）を用い、HIV-1 RNAゲノムについてはカスタムLNAプライマー（図10）を用いて、反応液をプライミングした。逆転写酵素緩衝液は、0.7 mMの予混合dNTP、50mMのトリス塩酸（pH 8.0）、75mMのKCl、6 mMのMnCl₂及び14 mMのDTTを含有した。逆転写後、反応液を、G-50スピンカラム（GE Healthcare）を用いて脱塩した。この条件下（長いインキュベーション時間、二価イオンとして6ｍMのMn^{2 +}のみを使用）で、逆転写酵素は、SHAPEの試薬による2'-O-修飾部位を読み飛ばし、付加物の位置で非相補的ヌクレオチドを組み込んだ。

イルミナ用のNEBNext（登録商標）サンプル調製モジュールを使用して、超並列配列決定法(MPS)のための二本鎖DNAライブラリを生成した。100ngの入力DNAを用いてcDNAライブラリの第二ストランド合成（NEB E6111）を行い、このライブラリを、PureLink（登録商標）マイクロPCRクリーンアップキット（K310250、Invitrogen）を用いて精製した。NEBNext（登録商標）末端修復モジュール（NEB E6050）を用いて、この二本鎖DNAライブラリの末端修復を行った。反応容量を100μlに調整し、クリーンアップ工程（Agencourt AMPure（登録商標）XPビーズA63880、ビーズ対サンプル比1.6:1）にかけ、d(A)（NEB E6053）末端処理し、クイックライゲーションモジュール（NEB M2200）を用いて、イルミナ互換性のフォークされたアダプタ（TruSeq（登録商標））とライゲートした。ライブラリサンプルの多様性を維持するために、Q5ホットスタート高忠実度ポリメラーゼ（NEB M0493）を用いて、エマルジョンPCR44（30サイクル）を行った。得られたライブラリをを定量し（Qubit（登録商標）蛍光光度計、Life Technologies社）、Bioanalyzer（登録商標）（Aglient）を用いて検証し、プールし、イルミナMiSeq（登録商標）又はHiSeq（登録商標）プラットフォームを使用して配列決定に供した。グループII及びHCV IRES RNAの単一の複製を得た。そのSHAPE-MaPの反応性は、SHAPE-CE由来の従前に得られた反応性とよく一致した。HIV-1 RNAゲノムについて、異なる試薬濃度で2つの完全な生物学的複製物を得た。ここに提示する分析は、主に、これらの複製物の一つに基づいている（配列決定の特徴は、表１２に要約されている）。すべてのシュードノット領域を含む選択された個々のセグメントは、断片化及び指向（遺伝子特異的）アプローチの両方によりプローブされ、優れた一致を示した。

標的遺伝子特異的プライマーを用いたSHAPE-MaP
tRNAPhe、TPPリボスイッチ、5S rRNA、グループIイントロン及び変異HIV-1構築物の各RNAを、上記の緩衝液及び反応条件を使用して、低分子RNAについて3 '構造カセット（5'-GAA CCG GAC CGA AGC CCG-3'）（配列番号8）又はシュードノットに隣接する特定のHIV-1配列のいずれかに特異的なDNAプライマーを用いて逆転写を行った。多くの異なるRNA標的について安価で効率的にデータを生成することができる、モジュール式の標的化二段階PCR法を用いて、シーケンシングライブラリを作製した。PCR反応は、Q5ホットスタート高忠実度DNAポリメラーゼを用いて行った。フォワードPCRプライマー（5'-GAC TGG AGT TCA GAC GTG TGC TCT TCC GATC NNNNN−遺伝子特異的プライマー−3 '）（配列番号9）は、5'末端にイルミナ特異的領域を含み、MiSeq（登録商標）機器上でクラスターの識別を最適化するために、５つのランダムなヌクレオチドが続き、標的RNAの5 '末端に相補的な配列で終わる。リバースプライマー（5'-CCC TAC ACG ACG CTC TTC CGA TCT NNNNN−遺伝子特異的プライマー−3'）（配列番号10）は、5つのランダムヌクレオチドが続くイルミナ特異的領域及び標的RNAの3 '末端に逆相補的な逆の配列を含む。cDNAライブラリは、アンプリコンについては制限された5サイクルのPCRにより、又は非常に低いRNA濃度を使用した場合より長い25サイクルのPCRにより、タグ付けされた。最初の数サイクルで使用されていない過剰なプライマーは除去された（インビトロジェンPureLink（登録商標）マイクロPCRクリーンアップキット）。PCRの第二ラウンドは、オンフローセル増幅のために必要な残りのイルミナ特異的配列を付加し、多重化のためサンプルをバーコード化した。フォワードプライマー（CAA GCA GAA GAC GGC ATA CGA GAT（バーコード）GT GAC TGG AGT TCA GAC）（配列番号11）はバーコードを含み、PCR1（第一ラウンドのPCR）のフォワードプライマー中の配列を標的とする。リバースプライマー（AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTT T CCC TAC AC GAC GCT CTT CCG）（配列番号12）は、イルミナ特異的配列を含有し、PCR1（第一ラウンドのPCR）の逆プライマーを標的とする。PCR2（第二ラウンドのPCR）は、配列決定のための最終的なライブラリーを生成するために、25または5サイクル行った（全部で30サイクルを超えない）。変異ウイルスの典型的なSHAPE-MaP実験は、実験条件あたり約150ng〜200 ngのRNAを使用した。しかし、材料が制限されている場合、わずか50 ngのRNAでも十分である。

SHAPE-MaPデータ解析経路
ほとんどのUnixベースのプラットフォーム上で実行することができ、FASTQ形式の配列読み取りファイル、FASTA形式の参照配列、及びユーザーが編集した構成ファイルを、入力として受け入れる、ShapeMapperと呼ばれるデータ解析経路を作製した。追加のユーザーの介入なしに、このソフトウェアは、各参照配列のSHAPE反応性プロファイルと標準誤差推定値を作成する。変異数、シーケンシングの深さ及び二次構造の予測を含む、他の有用な出力も提供される。解析ソフトウェアは、いくつかのサードパーティのプログラムを組み込む。Python 2.7（python.org/）が必要である。Bowtie（登録商標）2ソフトウェアを読み取り配列の整列に使用する(Langmead, B. & Salzberg, S.L. Nat. Methods 9, 357-359 (2012))。Pythonのライブラリmatplotlibを使用して反応性プロファイルを作成する(Hunter, J.D. Comput. Sci. Eng. 9, 90-95 (2007))。二次構造の予測にはRNAstructure（登録商標）ソフトウェアを使用した(Reuter, J.S. & Mathews, D.H. BMC Bioinformatics 11, 129 (2010))。（ロイター、J.S.＆マシューズ、D.H. BMCバイオインフォマティクス11、129（2010））。二次構造の描画にはPseudoviewer（登録商標）Webサービスを使用したByun, Y. & Han, K. Nucleic Acids Res. 34, W416-W422 (2006))。

構成
構成ファイルは、各サンプル中に存在する参照配列、及び反応性プロファイルを作成するためにどのサンプルを結合すべきか、を指定するために使用される。フォーマットは柔軟であり、各サンプルを複数の配列標的に位置合わせすることだけでなく、統一された分析において複数のサンプルの処理を可能にする。分析の各段階のパラメータは、カスタマイズすることができる。

品質トリミング
入力された読み取り配列は、シーケンシングバーコードにより各ファイルに分離された（この段階は、ほとんどのシークエンシング・プラットフォームに組み込まれている）。最初の分析段階は、ベースコール品質により読み取り配列をトリミングする。各読み取り配列を、90％の予想精度に相当するPHREDクオリティースコア10以下で、第一のベースコール下流でトリミングした。25又はそれ以上の残りのヌクレオチドの読み取り配列を、位置合わせのための新しいFASTQファイルにコピーした。

読み取り配列の整列（アライメント）
Bowtie（登録商標）2を使用して、読み取り配列を参照配列に整列させた(Langmead, B. & Salzberg, S.L. Nat. Methods 9, 357-359 (2012)。高感度を提供するため、単一ヌクレオチドのミスマッチを検出するため、及び約200ヌクレオチドまでの欠失を可能にするために、パラメータを選択した。シード長(Seed Length)（-L）は15ヌクレオチドであった。シード（-N）あたり一つのミスマッチが許される。最大シードアテンプツ(Seed Attenpts)（-D）を20に設定した。最大「再シード(Re-seed)」アテンプツ(Attenpts)（-R）を3に設定した。ダイナミックプログラミングパディング（Dynamic programming padding）（-dpad）を100ヌクレオチドに設定した。マッチボーナス(match bonus)（-ma）は2であった。最大と最小のミスマッチペナルティ(mismatch penalties)（-mp）はそれぞれ6と2であった。ギャップオープン(Gap open)と拡張パラメータ（-rdg、-rfg）はそれぞれ5と1であった。デフォルトの最小アラインメントスコア関数を使用した。ソフトクリッピングをオンに合わせた。ペアエンドアライメントをデフォルトで使用した。Bowtie（登録商標）2の出力は、読み取り配列をSAMファイルとして整列させた。

アライメント解析、曖昧なアライメントの除去、及び変異カウント
SAMファイル中のペアエンド読み取り配列を結合し、読み取り配列の対が不一致のところで、高品質ベースコールを選択した。ミスマッチ及び欠失は、変異カウントに貢献する。挿入は無視した。エラーが発生しやすい逆転写は、各読み取り配列における変異のほとんどを生成するので、発明者らは、複数の隣接するヌクレオチドをカバーする配列変化を、最も3 '側のヌクレオチドに位置する単一の変異事象として処理した。ランダムプライマーを使用した場合、プライマーの長さよりも１ヌクレオチドだけ長い領域を、各読み取り配列の3 '末端から除外した。マッピング品質が＜30の読み取り配列は除外した。欠失は変異シグナルの重要な部分であるが、曖昧に整列している欠失は、このシグナルを不明瞭にし、一塩基解析を妨げる。この問題を解決するには、単純な局所的再整列を行い、曖昧に整列した欠失を識別して除去した。欠失を取り囲む参照配列は保存した。その後、この欠失を、上流又は下流へ、一時に１ヌクレオチドから最大欠失の長さに等しいオフセットに、スライドさせた。各オフセットで、周囲の参照配列を保存された配列と比較した。任意のオフセットの配列が一致する場合、これは代替可能な整列を示し、欠失を除外した。このアルゴリズムは、ホモポリマー領域の曖昧な欠失を正しく特定するだけでなく、反復配列を特定した。

反応性プロファイルの作成
所定のヌクレオチドにおける変異率（mutr）は、単純にその場所において、変異数（ミスマッチ及び曖昧でなく整列された欠失）を読み取り回数で割ったものである。下式を用いて各ヌクレオチドについて生の反応性を算出した。式中、SはSHAPE修飾サンプル、Uは非処理サンプル、Dは修飾条件下の反応を示す。

S、U又はDのサンプル中の所定のヌクレオチドにおける変異率に関連する標準誤差（stderr）は下式で算出される。

所定のヌクレオチドにおける反応性の最終的な標準誤差は、次のとおりである。

反応性を、文献に記載されているように、ゼロ（反応性なし）から2（高SHAPE反応性）にわたる標準スケールに正規化した(Hajdin, C.E. et al. Proc. Natl. Acad. Sci. USA 110, 5498-5503 (2013))。無試薬対照サンプル中で5％以上の変異率を有するヌクレオチドは、任意のサンプルにおける配列決定深さが10未満のヌクレオチドと同様に、分析から除外した。高品質のデータと構造モデルには、これよりはるかに大きい深さがに必要とされる（図7A及び7B）。

最終的なデータ出力
SHAPE反応性プロファイル（.shape）は、ヌクレオチド番号を示す第1コラムと反応性を示す第2コラムを備えた、タブ区切りのテキストファイルとして出力された。また、SHAPE-MaP反応性ファイルも出力（.map）された。このファイルは、追加の2つのコラム（標準誤差と塩基配列）を有するSHAPEファイル形式である。SHAPE修飾、未処理及び変性サンプルについて、読み取り深さ、変異率、生の反応性、正規化された反応性及び標準誤差を含む、別のファイル（.csv）も作成された。変異率ヒストグラム、シーケンシングの深さ及び反応性プロファイルを示す図を含むファイルを（.pdf）を作成してもよい。これらは、潜在的な実験的な問題（不十分なシーケンシング深さや低効率の変異誘発を含む）を診断するのに有用である。

SHAPEMaP経路による自動RNA折り畳み及び構造図作成
約4000ヌクレオチドより短く、十分な読み取り深さの配列について、この自動化された経路は、この実施例においてRNAには使用されなかったが、RNAstructure（登録商標）ソフトウェアを使用して二次構造を自動的にモデル化することができる。FASTA配列ファイルは、RNAstructure（登録商標）ソフトウェアにより必要とされる配列ファイルに変換される。SHAPE反応性を、1M7試薬のための標準的なパラメータを用いて、擬似的な自由エネルギーとしてRNAstructure（登録商標）に組み込む(Hajdin, C.E. et al. Proc. Natl. Acad. Sci. USA 110, 5498-5503 (2013))（傾き（-sm）1.8、切片（-si）-0.6）。差異SHAPE試薬は、RNAstructure（登録商標）ソフトウェアでサポートされており、自動化された経路のバージョンに組み込まれている。予測された構造は、.ctファイルに書き込まれる。二次構造から予測される最低エネルギーは、SHAPE反応性から導かれ、注釈を付けられることができる。このステージはアクティブなインターネット接続を介してPseudoviewer（登録商標） Webサービスに照会する(Byun, Y. & Han, K. Nucleic Acids Res. 34, W416-W422 (2006))。カスタムクライアント（pvclient.py）は、サーバ要求を送信し、応答を取得する。このクライアントはまた、反応性によりヌクレオチドの着色を処理する。着色された構造図面は、ベクトル.espファイルである。また、構造は自動的にオプションの手動編集用の.xrnaファイルに変換される（rna.ucsc.edu/rnacenter/xrna/）。

差異SHAPEデータのためのZ係数によるフィルタリング
SHAPE-MaPは、SHAPE反応性測定における誤差を、各ヌクレオチドで測定された変異率を記述するポアソン分布から推定することを可能にする。このポアソン推定SHAPE反応誤差は、二つのSHAPEシグナルを比較する際に、統計的有意性を評価するために使用することができる。NMIAと1M6の反応性の間の有意差は、Z-因子テストを用いて同定された(Zhang, J., Chung, T. & Oldenburg, K. J. Biomol. Screen. 4, 67-73 (1999))。このヌクレオチド分析のテストは、平均値の絶対差を関連する測定誤差と比較する。

SHAPE-MaP実験中の各ヌクレオチドは、算出された反応性μ及び関連する標準誤差σを有する。Z因子の有意性の閾値をZ＞0に設定した。これは、1M6とNMIAについてのSHAPE反応の差である、少なくとも3標準偏差（s.d.）に相当する。この重要な基準を満たさない差異ヌクレオチド反応性は0に設定された。

構造モデリング
長さが700nt未満のRNAの二次構造のモデリングを、記載したように行った(実施例３；Hajdin, C.E. et al. Proc. Natl. Acad. Sci. USA 110, 5498-5503 (2013))。差異SHAPEデータを、Z係数によるフィルタリングの後に組み込んだ。HIV-1 RNAゲノムについて、発明者らは、SHAPE-MaP折り畳み経路中で実施される自動ウィンドウモデリングアプローチを開発した。そこでは、構造計算が、計算効率を増加させ、現実的なRNA構造を生成し、ウィンドウの内部折り畳みから誤った5 '又は3'末端を選択することにより引き起こされる末端の影響を低減するように設計された複数のステージに分割された。このアプローチは、シュードノットの発見、可能な塩基対の同定、及び最小自由エネルギー構造の生成を促進した。リボソームサブユニットの折り畳みについての代表的な計算は、ウィンドウ付き折り畳みアプローチのための一般的なデスクトップワークステーションを使用して、一段階折り畳み及び匹敵するウィンドウ折り畳みの両方を用いて行われ、高精度と計算「ウォール時間」の大幅な減少を示した。16S rRNAのような短いRNAについては、このRNAをより小さなウィンドウに分割するために適度なパフォーマンスペナルティがある。しかし、約2000ヌクレオチドより長いRNAについて、計算時間はその長さにほぼ直線的に比例して長くなる。

ほぼすべてが知られていて十分に検証された機能性RNAの構造は、本研究及びそれ以前の研究で同じようにモデル化された(Watts, J.M. et al. Nature 460, 711-716 (2009)及び表１１)。デジタル（MaP）データ収集、改善されたSHAPEベースのエネルギー関数（実施例３；Hajdin, C.E. et al. Proc. Natl. Acad. Sci. USA 110, 5498-5503 (2013)）及び自動化されたデータ解析（図9）における実質的な改善は、以前のモデルと不一致の領域では、現在のHIV-1の構造モデルを支持する。また、この例は、他の技術革新や分析を反映しており、特に、RNAのすべての領域が単一の明確に定義された構造を形成するわけではない。その結果、本実施例の一態様は、単一の明確に定義された構造を形成しないHIV-1 RNAゲノム中の領域の特定である。

シュードノットの予測
最初の段階では、完全長HIV-1 RNAゲノムは、傾き、切片、P1及びP2のパラメータを、1M7形状データを用いて以前に定義された値(1.8, -0.6, 0.35, 0.65)に設定した、ShapeKnotsを使用して、100-nt単位で移動した600-ntのスライディングウィンドウ中に折り畳まれた(実施例３；Hajdin, C.E. et al. Proc. Natl. Acad. Sci. USA 110, 5498-5503 (2013))。末端配列をカバーするウインドウの数を増加させるために、さらなる折り畳みを、そのゲノムの末端で計算した。その構造がウインドウの大半に登場し、シュードノットヘリックスの両側が低SHAPE反応性であるならば、予測されたシュードノットは保持された。シュードノットのこのリストは、モデリングのすべての後の段階で使用した。

分配関数モデリング
分配関数を、Partition（登録商標）ソフトウェアを用いて、自由エネルギーのペナルティに1M7と差異SHAPEデータの両方を含ませて、計算した(Mathews, D.H. RNA 10, 1178-1190 (2004); Reuter, J.S. & Mathews, D.H. BMC Bioinformatics 11, 129 (2010))。最大ペアリング距離を500ntに設定した。分配は、1,600-ntのウィンドウ中で375ntのステップサイズで、で実行された。二つの余分なウィンドウ（長さが1,550nt及び1,500nt）が、真の端部でのサンプリングを増加させ、非最適な切断部位の選択の影響を低減するために、5 '及び3'末端配列について実行された。分配関数の計算時に、6つの配列（プライマー結合部位、二量体化配列、及び非標準又は特別な相互作用に関与することが知られている４つのシュードノット）を一本鎖として拘束した。個々の分配関数ファイルから、塩基対形成のシャノンエントロピーを次のように計算した：

式中、p_i,jは、潜在的な全てのjパートナーについて、ヌクレオチドiとjのペアリングの可能性を示す(Huynen, M., et al. J. Mol. Biol. 267, 1104-1112 (1997))。この計算に続いて、RNAの真の5'及び3'末端に隣接していない各ウィンドウの5'及び3'末端から300ntが削除された。この計算は、より一貫性のある内部値を維持し、末端の影響により歪んだ値を廃棄した。複数のシャノンエントロピーウィンドウを平均化することにより結合し、単一のエントロピーファイルを作成した。

その後、各ウィンドウからの個々の可能性の高いペアを、シャノンエントロピーについて概説したものと同じアプローチを用いてトリミングした。10^-4未満の確率で形成された塩基対を、計算時間を減少させるために除去した。複数のウィンドウを結合し、残りのすべてのペアを、それらが登場している可能性があったすべてのウィンドウについて平均した。最終構造に現れるペアの相対的な可能性を示すために、結合された分配ファイルから、ヒューリスティックカラースケールを展開した。得られたペアを、円弧でプロットした（図8）。確率が0.99を超える塩基対を、次の段階で、二本鎖の制限として使用した。

最小自由エネルギーモデリング
最小自由エネルギー構造を、Fold（登録商標）、1M7 SHAPEデータ、及び差異SHAPEデータを使用して作成した(Reuter, J.S. & Mathews, D.H. BMC Bioinformatics 11, 129 (2010))。ステップサイズが300ntのサイズが3,000ntのウィンドウを用いて、各ウィンドウにわたる潜在的な複数の構造を生成した。また、末端で構造モデルの数を増やすために、４つの折り畳み（端から3,100nt、3,050nt、2,950nt及び2,900nt）を作成した。重なったウィンドウから得たこれらの折り畳みを、各ウィンドウに共通の塩基対を比較して、最終的な構造体におけるペアは、潜在的なウインドウの大部分に現れることを必要とすることにより、一つの完全な構造に結合した。最後の段階として、擬ノットヘリックスを導入した。

RNA構造を正確にモデル化するのに必要なエラーの分析及び読み取り配列の最小数の決定
個々の読み取り配列からの別々の事象がシグナル全体に貢献するので、貢献する各シグナル（SHAPE修飾、未処理、変性）のそれぞれについての変異率を、ポアソン分布を用いてモデル化した。ポアソン分布の分散は、観測の数に等しい。したがって、「真の」率の標準誤差（SE）は、以下のようにモデル化することができる。

式中、λは、事象の数（観察された変異）、readsは、モデル化されたヌクレオチドの読み取り深さ（変異と非変異の両方）、及びrateは、読み取り配列あたりの事象数を表す。予想されるように、SHAPE反応の標準誤差のブートストラップは、読み取り深さの関数として、X-1/2の関係を示した。

深く読み取られ配列決定されたRNA（各ヌクレオチドについて50,000以上の読み取り）を使用して、はるかに低い読み取り深さで予想された多くの変異事象が高精度で知られるようになった。変異事象はRNA全体を横切るポアソン分布からサンプリングされ、真実味のあるSHAPEデータのプロファイルが作成されることができる。二次構造の正確なSHAPE指示モデリングに必要な読み取り数の最小しきい値を決定するために、発明者らは、16S rRNAを検討した。それは、実験データ（感度約50％）が無い条件下で不十分にモデル化されているためである。各シミュレートされた読み取り深度について、発明者らは、RNA構造Fold（登録商標）ソフトウェアを使用してモデル化された、シミュレートされたリード深さにおける予想ポアソン分散に基づいて、100のSHAPE軌道を作成した（図7B）。予想されたように、読み深さが増加するにつれて、モデリング精度は向上する。ヌクレオチド分析の構造モデリングを正確にするためには、少なくとも5,000の読み取りが勧められる。しかし、500の読み取りであっても、その測定は、構造モデリングのために有用である（図7B）。

ヒットレベルの計算及び他の報告との比較
超並列配列決定法(MPS)により読み取られたようなSHAPE-MaP構造解析は、単一ヌクレオチドレベルでのRNAの構造を調べるために、貴重なツールを提供する。同様の目的で、いくつかの他の方法が開発されてきた。SHAPE-MaP（及びその変異プロファイリング読み取り）の読み取り深度の要件を、他のアプローチと比較するために、ヒットレベルを計算した。ヒットレベルの計量法は、転写産物の塩基あたりの総バックグラウンドを差し引いたシグナルを定量化する：

式中、添字S及びBは、それぞれ、実験サンプル及びバックグラウンド対照を示す。事象は、が読み取り方式に応じて、ライゲーションで検出されたシークエンシング停止又は変異を示す。読み深さは、転写産物内の各ヌクレオチドが重複する読み取り数の中央値に相当する。16S rRNAについて、ヒットレベル160が得られた。SHAPE-MaP内の変異数は読み取り深さに比例するので、シーケンシング読み取り深さとヒットレベルの関係を、観察されたヒットレベルを、実験条件の読み取り深さの中央値で割ることにより推定した。低ヒットレベル5であっても非常に有用な構造モデルが得られるが、SHAPEにより調べられたものとしてRNA構造情報を完全に取り出すためには、ヒットレベル約15が必要である（図7B）。高精度RNA構造のプロービング及びモデル化は、RNAの全て又は大部分が高いヒットレベルで調べられることを必要とする。低ヒットレベルでプローブされた個々の領域は、全体の平均ヒットレベルが5以上であっても、顕著な誤差を含む可能性が高い。RNA構造（PARS）実験の平行分析において、転写産物のヌクレオチドあたり最小平均1の読み取り停止のしきい値が必要とされ(Kertesz, M. et al. Nature 467, 103-107 (2010); Wan, Y. et al. Nature 505, 706-709 (2014))、これは、酵素開裂データのバックグラウンドを０と仮定すると、ヒットレベル1に相当する。同様に、DMSの化学プロービング、構造-seqを記載した報告は、AまたはCヌクレオチド10あたり同様の平均１以上の閾値を用いたが、これは、シグナル：バックグラウンド比が1.7(Ding, Y. et al. Nature 505, 696-700 (2014); extended data figure 1dからの予測)であり、全転写産物のヌクレオチドの半分がAまたはCである、と仮定すると、ヒットレベル0.2（本明細書で定義される）に相当する。DMS-seq11のクリエイターにより、AまたはCあたり最低平均15の読み取りが必要とされた。これは、シグナル：バックグラウンド比が1.8(Rouskin, S., et al. Nature 505, 701-705 (2014) figure 1cからの予測)と仮定すると、ヒットレベル3.3に相当する。ここで報告されたモデリング精度についてのベンチマークとブートストラップ解析（図7B）は、以前の超並列配列決定法に基づくRNA構造解析では実施されていなかった(Kertesz, M. et al. Nature 467, 103-107 (2010), Underwood, J.G. et al. Nat. Methods 7, 995-1001 (2010), Lucks, J.B. et al. Proc. Natl. Acad. Sci. USA 108, 11063-11068 (2011), Ding, Y. et al. Nature 505, 696-700 (2014), Rouskin, S., et al. Nature 505, 701-705 (2014), Wan, Y. et al. Nature 505, 706-709 (2014))。いくつかの先行研究は、実験のプロービング段階で、与えられたトランスクリプトーム内のRNAの完全な補完が存在する条件で行われているが、このヒットレベルの分析は、それら各場合において、わずか数千ヌクレオチドが、DMS又は酵素プローブを用いて得ることができる基礎構造情報を取り出す場合と一致する深さでサンプリングされたこと、を示している(Underwood, J.G. et al. Nat. Methods 7, 995-1001 (2010))。

低シャノンエントロピー及び低SHAPE反応性を有するHIV-1領域のアルゴリズム発見
低SHAPE反応性及び低シャノンエントロピーの両方を有する領域の重なりを用いて、単一のよく決定された構造を有している可能性が高い領域を同定した。まず、SHAPE反応性とシャノンのエントロピーの局所的中央値を、中心スライド55-ntのウインドウ上で計算した。次に、局所的中央値が40nt以上についてのシャノンエントロピーとSHAPE反応性の両方における全体中央値を下回るような複数の領域を選択した。10nt未満で分離された場合、その複数の領域を結合した。最後に、複数の領域を、最小自由エネルギーモデル予測からその中に潜む二次構造を含むように拡張した。アルゴリズム的に発見された構造化領域が単に偶然に既知のRNA要素をオーバーラップしている可能性を除外するために、セグメントの無作為プールを生成し、重複ヌクレオチドの予想される分布を計算した（表11）。同じ数と長さのセグメントが維持されたが、9,173ntのゲノム中のそれらの位置をランダム化した。105の試験のうち219のみは、P値0.002に対応する、観察より大きなオーバーラップを示した。

HIV-1変異誘発
関心領域に及ぶHIV-1 pNL4-3のサブクローンに、部位特異的変異誘発（QuikChange (登録商標)XL、Agilent）により変異を導入し、配列決定により検証した。変異したサブクローン断片を、全長pNL4-3プラスミド(Adachi, A. et al. J. Virol. 59, 284-291 (1986))に再導入した。この完全長変異体ゲノム配列を、16又はそれ以上の重複プライマーを使用して従来の自動配列決定により検証した。上記のように変異体及び野生型NL4-3プラスミドからトランスフェクションによりウイルスを作製した（1mlウイルス上清あたり約12ngのウイルスRNAを生成する）。ウイルス粒子産生を、P24アッセイにより測定した(AlphaLISA^TM HIV p24 kit, PerkinElmer AL207C)。ウイルスについてTZM-BLインジケータcells53で感染性を測定した(Glo Lysis^TM buffer and the Luciferase Assay System; Promegaを使用)。

変異を、一次シュードノット配列を破壊するが、コード配列中のアミノ酸同一性を維持するように、設計した。U3_PK中の一次シュードノット（PK）ヘリックスは、部分的に転写因子SP1の結合部位と重なる。全体で3つの連続するSP1結合部位がHIV-1に存在する。U3_PKの構築物に導入された2つの点変異は、この３番目のSP1結合部位と重複する。以前の研究は、完全なウイルス機能のためには、単一の結合部位が必要であることを実証した(Harrich, D. et al. J. Virol. 63, 2585-2591 (1989)。SP1タンパク質は、結合コンセンサス配列内のいくつかの場所における変動を許容し、ここで導入された変異は標準的なSP1結合部位を維持した。SP1変異に起因するウイルス産生への影響を分析するために、pNL4-3クローンの5' U3領域に、同じU3変異を導入した（付随する3'変異の有り及び無し）。得られたウイルスは、何の表現型（5 '単独U3変異）も有していないか、またはU3_PK変異体と同じ表現型（5'および3 'U3変異の両方を含む）を有していた。これは、SP1結合部位の改変がウイルスRNAの生産を破壊しなかったことを示唆している。後述するように、ウイルスの拡散及び競合アッセイのために、この二重変異種を用いた。

変異体U3PK及び野生型NL4-3 SHAPE-MaPデータの分離
U3_PK（3'U3のみが変異した構築物）の遺伝子特異的プライマーSHAPE-MaPデータは、変異配列に整列させたとき、変異誘発の標的の3つのヌクレオチドが、異常に高い変異率を示したことを明らかにした。これは複数の配列集団の存在を示唆する。各変異体配列の相対的存在量を定量化することにより、読み取り配列の61.8%は天然配列を含み、その36.0%はこの設計変異配列を含み、残り（2.2％）は他の配列を含むことが示された。これらの割合は、天然配列と変異U3領域の間の組換えがトランスフェクション中に発生し、ウイルス培養中に変異ウイルスよりも急速に成長するフィッターHIV-1ウイルスが産生される、ことを示唆している。この変異体ウイルスを、RNA抽出及びSHAPEMaP試験前の3週間、H9細胞(ATCC, Manassas, Virginia, United States of America)中で増殖させた。この設計変異体及び野生型の配列について、アライメント後に計算上で読み取り配列を分離することにより、反応性プロファイルを生成した。更に、野生型または変異型のメンバーシップを割り当てるために、一度に2つの変異ヌクレオチドを標的とする読み取り配列を選択することにより、3つの変異ヌクレオチドのSHAPE-MaP反応性のデータを得た。これは、変異率を決定するために、3番目のヌクレオチドにおける変化を可能にする。このアプローチは、各配列部分が、期待される逆転写により誘導されるヌクレオチドあたりの変異率（この研究で約1％）よりも大きい、RNA集団を化学的にプロービングするために広く適用可能である。

HIV複製アッセイ
ウイルスの、Jurkat細胞（ATCC）及びH9 T細胞株中で細胞から細胞への伝播を試験した。これらの細胞が生物学的汚染物質を含まないことを確認した。ウイルス接種材料を、感染前に、低感染低多重度（0.01未満）でTZM-BL感染により正常化した。これを用いて、12ウェルプレート内で1mLのRPMI-1640培地中で5×10⁵細胞を感染させた。感染は二度行った。感染3日後（d.p.i.）に完全な培地交換を行い、各ウェルの培地を4 d.p.i.で回収し、5 d.p.i.及び6 d.p.i.で交換した。ウイルス濃度を、P24アッセイにより定量した(AlphaLISA^TM HIV; PerkinElmer)。

HIV競合アッセイ
変異体及び天然配列ウイルスを10:1で混合し、これを使用して12ウェルプレートで全体積1 ml中で5×10⁵ Jurkat細胞を感染させた。感染は、複製アッセイに比べて、変異体を半分、野生型ウイルスを20倍少なく、使用して行った。競合実験を二重に行った。培地を最初2 d.p.i.で回収し、初期接種とした。培地を3 d.p.i.、4 d.p.i.、5 d.p.i. 及び6 d.p.i.で回収し、培地(AlphaLISA^TM HIV p24 kit)中でp24（カプシド蛋白質）を定量した。発明者らは、感染すべき非感染細胞が過剰に存在していることを確実にするために、p24のレベルが6日目まで指数関数的に増大することを必要とした。培地(QIAamp^TM viral RNA mini kit, Qiagen)からウイルスRNAを精製し、プライマーIDプライマー(Jabara, C.B., et al. Proc. Natl. Acad. Sci. USA 108, 20166-20171 (2011)を使用して、スーパースクリプトIII（Life Technologies）を用いた逆転写を行い、各cDNAをバーコード化し、PCRの間に導入される集団バイアスを排除した。上記SHAPE-MaPについて記載したように、標的遺伝子特異的プライマーを用いて、引き続いてサンプル調製を行った。配列決定後、ペアエンドの読み取り配列を、短読み取り高速長さ調整法（FLASH）を使用して、より長い統合された読み取り配列に融合した(Magoc, T. & Salzberg, S.L. Bioinformatics 27, 2957-2963 (2011))。次に、Bowtie（登録商標）2(Langmead, B. & Salzberg, Nat. Methods 9, 357-359 (2012))ソフトウェア（デフォルトパラメータを使用）を使用して、統合された読み取り配列を、標的領域について予想されるNL4-3配列に整列させた。Phredスコアに基づいて、各PrimerIDについて、コンセンサス読み取り配列を作製した。すべての場所で予想される点変異を有するために、ネイティブまたは変異体のいずれかの配列に一致する識別子（ID）が必要とされた。変異体IDの部分を、変異体及びネイティブIDの合計の中の変異体IDの数として表した。変異体ウイルスの相対的適合性を、経時的に測定されたNL4-3に対する変異の比の変化率から決定した(Resch, W., et al. J. Virol. 76, 8659-8666 (2002))。

偽シュードノット変異体におけるSHAPE反応性の差の計算
ポアソン分布から推定されるSHAPE反応性の標準誤差の測定は、各サンプルに対して得られた読み取り数に依存する。標準誤差が読み取り深さの逆二乗で減少するという観察事実を、サンプル間の配列決定深さの違いを考慮して読み取り8000の一般的な深さに正規化したスケーリング等式を導出するために使用した。各サンプルについて、標準誤差スケーリング因子(f₀)を、SHAPE反応性プロファイルに貢献する最も低い配列決定しされたコンポーネント（SHAPE修飾、未処理及び変性の条件）の平均読み取り深さ(r_ave)に基づいて、計算した：

共通の読み取り深さに対する標準誤差をスケーリングした後、各ポイントの重要性を、標準誤差の合計の1.96倍よりも大きい差を必要とする、修正Z係数(Z_factor)検定を用いて計算した(Zhang, J., et al. J. Biomol. Screen. 4, 67-73 (1999))。ゼロより大きいZ係数が有意であると考えられた。

単離された反応性変化は、シュードノットの破壊に起因するグローバル構造のずれに関連するノイズとみなすことができる。従って、Z係数の検定に加えて、差が連続している必要があった。

参考文献：
Adachi, A. et al. 1986. J. Virol. 59, 284-291.
Alvarez DE, et al. 2005. J Virol 79: 6631-6643.
Archer EJ, et al. 2013. Biochemistry 52: 3182-3190.
Bailor MH, et al. 2011. Curr Opin Struct Biol 21: 296-305.
Beckman, R. A., et al.Biochemistry 24, 5810-5817 (1985).
Brierley, I., et al. 2007. Nat Rev Micro 5, 598-610.
Bustamante C. 1999. J Mol Biol 293: 271-281.
Byun, Y. & Han, K. Nucleic Acids Res. 34, W416-22 (2006).
Chen, T. & Romesberg. 2014. FEBS Lett. 588, 219-229.
Cordero P, et al. 2012. Biochemistry 51: 7037-7039.
Dann CE, et al. 2007. Bioinformatics 25: 1974-1975.
Deigan KE, et al. 2009. Proc Natl Acad Sci 106: 97-102.
Derdeyn, C. A. et al. 2000. J. Virol. 74, 8358-8367.
Dethoff EA, et al. 2012. Nature 482:322-330.
Ding Y et al. 2014. Nature 505:696-700.
Doty P et al. 1959. Proc. Natl. Acad. Sci. 45: 482-499
Ghadessy, FJ & Holliger. 2007. Methods Mol. Biol. 352: 237-248.
Gherghe CM, et al. 2008. J Am Chem Soc 130: 8884-8885.
Gherghe C et al. Proc. Natl. Acad. Sci. 107, 19248-19253 (2010).
Gilmartin, GM, et al. 1992. EMBO J. 11: 4419-4428.
Grohman JK, et al. 2013. Science 340: 190-195.
Hajdin CE, et al. 2010. RNA 16: 1340-1349.
Hajdin CE, et al. 2013. Proc Natl Acad Sci 110:5498-5503.
Harrich, D. et al. J. Virol. 1989. 63, 2585-2591.
Hunter, J. D. Matplotlib: Comput. Sci. Eng. 90-95 (2007).
Huynen M, et al. 1997. J. Mol. Biol. 267: 1104-1112.
Jabara, C. B., et al. 2011. Proc. Natl. Acad. Sci. 108, 20166-20171.
Jin Y, Yang Y, Zhang P. 2011. RNA Biol 8: 450-457.
Karabiber F, et al. 2013. RNA 19: 63-73.
Kertesz, M. et al. 2010. Nature 467: 103-107.
Kladwang W, et al. 2011a. Nat Chem 3: 954-962.
Kladwang W, et al. 2011b. Biochemistry 50: 8049-8056.
Klasens, BI, et al. 1999. Nucleic Acids Res. 27: 446-454.
Leonard CW, et al. 2013. Biochemistry 52: 588-595.
Leontis NB, Lescoute A, Westhof E. 2006. Curr Opin Struct Biol 16: 279-287.
Low JT, Weeks KM. 2010. Methods 52: 150-158.
Lorsch, J.R, et al. 1995. Nucleic Acids Res. 23: 2811-2814.
Lucks, J. B. et al. 2011. Proc. Natl. Acad. Sci. 108: 11063-11068..
Magoc, T. & Salzberg. 2011. Bioinformatics 27, 2957-2963.
Matathias, A., Fox, D. & Crouse, J. 1999. SuperScript II RNase H- reverse transcriptase. 18064-3, (Focus On, Life Technologies).
Mathews DH, Turner DH. 2006. Curr Opin Struct Biol 16: 270-278.
Mathews DH, et al. 2004. Proc Natl Acad Sci 101: 7287-7292.
Mathews DH. 2004. RNA 10: 1178-1190.
Matoulkova, E, et al. 2012. RNA Biol 9: 563-576
Mauger DM, Siegfried NA, Weeks KM. 2013. FEBS Lett 587: 1180-1188.
Mauger, DM & Weeks, KM. 2010. Nat. Biotechnol 28: 1178-1179.
McGinnis JL, et al. 2012. J Am Chem Soc 134: 6617-6624.
McGinnis JL & Weeks, K. M. 2014. Biochemistry. 53: 3237-3247.
Merino EJ, et al. 2005. J Am Chem Soc 127:4223-4231.
Mortimer SA, Weeks KM. 2007. J Am Chem Soc 129: 4144-4145.
Mortimer SA, Weeks KM. 2009. Proc Natl Acad Sci 106: 15622-15627.
Munroe R. 2012. Star Ratings. http://xkcd.com/1098/.
Paillart JC., et al. 2002. J. Biol. Chem. 277: 5995-6004.
Patterson, JT, et al. 2006. RNA Biol 3: 163.
Pollom, E. et al. 2013. PLoS Pathog. 9: e1003294..
Resch, W, et al. 2002. J. Virol. 76, 8659-8666..
Reuter JS, Mathews DH. 2010. BMC Bioinformatics 11: 129.
Rice GM, et al. 2014. RNA 20: 846-854.
Rivas E et al. 2012. RNA 18: 193-212.
Rohl CA, et al. 2004. Methods Enzymol/Numerical Computer Methods 383: 66-93.
Rouskin S, et al. 2014. Nature 505: 701-705.
Sharp PA. 2009. Cell 136: 577-580.
Spitale, RC et al. 2013. Nat. Chem. Biol. 9: 18-20.
Steen KA, Rice GM, Weeks KM. 2012. J Am Chem Soc 134: 13160-13163.
Staple DW & Butcher SE. 20015. PLoS Biol. 3: e213..
Staple, DW. et al. 2012. Nat. Meth. 9, 357-359 (2012).
Talkish, J, et al. RNA 20, 713-720 (2014).
Tyrrell, J, et al. 2013. Biochemistry 52, 8777-8785.
Underwood, J. G. et al. 2010.Nat. Meth. 7: 995-1001.
Wan, Y. et al. Nature. 2014. 505, 706-709.
Watts JM, et al. 2009. Nature 460: 711-716.
Weeks KM. 2010. Curr Opin Struct Biol 20: 295-304.
Weeks, KM, 2011. Proc. Natl. Acad. Sci. 108: 10933-10934.
Weeks, KM & Mauger, DM. 2011. Acc. Chem. Res. 44: 1280-1291.
Wilkinson KA, et al. 2006. Nat Protoc 1:1610-1616.
Wilkinson KA, et al. 2008. PLoS Biol 6: e96
Williams, R. et al. Nat. Meth. 3, 545-550 (2006).
Zhang, J., et al. 1999. J. Biomol. Screen. 4, 67-73..

クレームされている発明を、その発明の範囲を逸脱することなく、変更することができることは理解されるであろう。また、上記の記載は、単に発明を例証するためのもであり、発明を限定するためのものではない。

Claims

核酸中の構造データを検出するための方法であって、
（ａ）化学修飾をもたらす試薬に曝露されていたＲＮＡを提供する段階であって、
該試薬が求電子剤を含み、該求電子剤が該ＲＮＡ中の非拘束ヌクレオチドを選択的に修飾し、共有結合性リボース２'−Ｏ−付加物を形成する、
又は該試薬が硫酸ジメチル（DMS）であって、該試薬がアデノシンのＮ１位置、及びシトシンのＮ３位置で付加物を形成する、段階、
（ｂ）逆転写酵素及びテンプレートとして段階（ａ）で提供されるＲＮＡを用いて、核酸を合成する段階であって、この合成が、該逆転写酵素が段階（ａ）で提供されるＲＮＡ中の化学修飾を読み飛ばし、その結果合成された核酸において該化学修飾部位に、テンプレートヌクレオチドに非相補的なヌクレオチド又は欠失（但し、相補的なヌクレオチドがあったサイトの欠失も含む。）を生じるＭｎ^２＋の存在下で行われる段階、
（ｃ）配列情報が段階（ａ）で提供されるＲＮＡの配列に整列されて、該核酸の配列を決定することにより、該非相補的なヌクレオチド又は該欠失を検出する段階、及び
（ｄ）段階（ａ）で提供されるＲＮＡの一次、二次及び／又は三次構造データから成る出力ファイルを生成する段階、
から成る方法。
二又はそれ以上の化学修飾を検出する請求項１に記載の方法。
前記逆転写酵素が、複数の化学修飾を読み飛ばし、複数の非相補的なヌクレオチド又は欠失を生成し、前記検出が各非相補的なヌクレオチド又は欠失を検出することを含む、請求項２に記載の方法。
前記核酸が化学修飾をもたらす２種の試薬に曝露され、これら２つの試薬に対する反応プロファイルの違いを利用することにより、ＲＮＡの一次、二次及び／又は三次構造内の構造独特の相互作用に関与するヌクレオチドを同定する、請求項１〜３のいずれか一項に記載の方法。
前記試薬が、１Ｍ７、１Ｍ６、ＮＭＩＡ、ＤＭＳ又はそれらの組み合わせである、請求項１に記載の方法。
前記２種の試薬が１Ｍ６及びＮＭＩＡである請求項４に記載の方法。
前記段階（ａ）で提供されるＲＮＡが、生物学的試料中に存在する、又は生物学的試料に由来する、請求項１〜６のいずれか一項に記載の方法。
前記逆転写酵素が、天然逆転写酵素である、請求項１〜７のいずれか一項に記載の方法。
前記逆転写酵素が、変異型逆転写酵素である、請求項１〜７のいずれか一項に記載の方法。
前記（ｃ）非相補的なヌクレオチドを検出する段階が、前記核酸の超並列配列決定法(MPS)を用いることを含む、請求項１〜９のいずれか一項に記載の方法。
更に、正規化し、比較し、及び／又は、ＲＮＡの一次、二次及び／又は三次構造情報を含む別のデータセットと結合する、段階を含む請求項１〜１０のいずれか一項に記載の方法。
前記段階（ａ）で提供されるＲＮＡの構造が、プライマー結合部位、タンパク質結合部位、小分子結合部位、又はそれらの組合せを含む、請求項１〜１１のいずれか一項に記載の方法。
プライマー、タンパク質、小分子又はそれらの組み合わせの存在下及び不存在下で核酸構造を解析し、プライマー結合部位、タンパク質結合部位、小分子結合部位又はそれらの組み合わせを同定することを含む、請求項１〜１２のいずれか一項に記載の方法。
請求項１〜１３のいずれか一項に記載の方法を実施することから成る、核酸ライブラリの製法。