JP2022177068A

JP2022177068A - 変異プロファイリングのためのｒｎａプローブ及びその使用

Info

Publication number: JP2022177068A
Application number: JP2022139711A
Authority: JP
Inventors: リチャード馨小松; Richard Kaoru Komatsu; クリスティアンゲオルグウルテル; Christian Urtel Georg; エフゲニイアエデレヴァ; Edeleva Evgeniia
Original assignee: Xforest Therapeutics Co Ltd
Current assignee: Xforest Therapeutics Co Ltd
Priority date: 2020-11-18
Filing date: 2022-09-02
Publication date: 2022-11-30
Also published as: WO2022107814A1; US20240052339A1; CA3200114C; EP4202056A4; JP7141165B1; CN116234903A; EP4202056A1; CA3200114A1; JPWO2022107814A1; IL301876B2; CN116234903B; IL301876B1; IL301876A

Abstract

【課題】ＲＮＡライブラリを用いて変異プロファイリングを行う場合に、導入された塩基の変異、挿入及び欠失等の検出精度を改善する。【解決手段】（ａ）解析対象ＲＮＡにバーコード配列を付加した１又は複数のＲＮＡプローブを調製する工程、（ｂ）ＲＮＡプローブとＲＮＡ修飾剤とを接触させる工程、及び（ｃ）工程（ｂ）で得られたＲＮＡプローブの配列中で修飾を受けた塩基の位置と頻度を検出する工程、を含み、バーコード配列はＲＮＡ修飾剤との反応が抑制される構造を有する、ＲＮＡの高次構造を解析するための方法。【選択図】図３

Description

本発明は、変異プロファイリングのためのＲＮＡプローブに関し、より詳細には、解析対象ＲＮＡに構造化バーコード配列を付加したＲＮＡプローブ及びそれを用いてＲＮＡの高次構造を解析する方法に関する。

ＲＮＡはタンパク質合成の鋳型として機能する生体分子であるが、一方で、ＲＮＡ自身が密に折りたたまれた高次構造を形成し、遺伝子発現、転写産物の細胞内局在及びスプライシング機構などを制御している。これらの機能性ＲＮＡの多くは、一次配列としての塩基が構造形成にて立体的に特定の配置をとることで規定されている。このＲＮＡ高次構造は、ステム（ＳＴＥＭ）、ステムループ（ＳＴＥＭ－ＬＯＯＰ）、キッシングループ（ＫＩＳＳＩＮＧ－ＬＯＯＰ）、マルチジャンクション（ＭＵＬＴＩ－ＪＵＮＣＴＩＯＮ）、キンクターン（ＫＩＮＫ－ＴＵＲＮ）、シュードノット（ＰＳＥＵＤＯＫＮＯＴ）、４重鎖（ＱＵＡＤＲＵＰＬＥＸ）などの多様な構造モチーフの組み合わせから形成される。これらの構造モチーフの種類と組み合わせの数は膨大である上に、複数の平衡状態をとり得るため予測が困難である。これに対し、特定の塩基に対する化学的な修飾反応と、次世代シーケンシングによって得られた配列データを組み合わせてＲＮＡ高次構造を決定する技術が開発されている。

例えば、選択的に核酸の糖の２位の炭素に修飾を加えるＳＨＡＰＥ－ＭａＰ法（特許文献１参照）や、硫酸ジメチル（ＤＭＳ）を用いるＤＭＳ－ＭａＰｓｅｑ法（非特許文献１参照）などの変異プロファイリング（ＭｕｔａｔｉｏｎａｌＰｒｏｆｉｌｉｎｇ：ＭａＰ）が、ＲＮＡの二次構造を推定するために使用されている。化学修飾の分布はＲＮＡの二次構造と相関しており、相補ＤＮＡの塩基配列を決定する際に、位置特異的な逆転写終結、置換、挿入又は欠失による変異として記録される。

変異プロファイリングは次世代シーケンシングとの統合によって、より広範な種類のＲＮＡを同時解析可能である。例えばＤＭＳ－ＭａＰｓｅｑ法やＳＨＡＰＥ－ＭａＰ法においては、変異が導入されたＲＮＡ由来のＤＮＡ断片をコンピュータ上にてリファレンスゲノムに対してマッピングする。この操作によって複数種類が混合された条件において配列が仕分けされ、複数領域や異なる分子のＲＮＡに対して構造特異的な変異を同時カウントできる。またＰＯＲＥ－ｃｕｐｉｎｅ法などにおいてはナノポアシーケンサーによって修飾種が与える直接的な電位の変化の検出により、同一分子内の変異を複数種類カウントできる（例えば、非特許文献２参照）。しかしながら、これらは配列の仕分けにリファレンスゲノムに対するマッピング操作を使用しているため、類似する配列が存在している場合にどのゲノム位置由来かどうかわからなくなる欠点が存在する。例えば、遺伝子ファミリー、アリル特異的なＲＮＡなどがあげられる。さらに、ＲＮＡ修飾試薬による変異導入は類似する配列の多様性を増加させるため、この効果を増長する。

ＭｅｇａｎＺｕｂｒａｄｔｅｔａｌ．ＤＭＳ－Ｍａｐｓｅｑｆｏｒｇｅｎｏｍｅ－ｗｉｄｅｏｒｔａｒｇｅｔｅｄＲＮＡｓｔｒｕｃｔｕｒｅｐｒｏｂｉｎｇｉｎｖｉｖｏ．ＮａｔＭｅｔｈｏｄｓ．１４，７５－８２（２０１７）Ａｗ，Ｊ．Ｇ．Ａ．，Ｌｉｍ，Ｓ．Ｗ．，Ｗａｎｇ，Ｊ．Ｘ．ｅｔａｌ．Ｄｅｔｅｒｍｉｎａｔｉｏｎｏｆｉｓｏｆｏｒｍ－ｓｐｅｃｉｆｉｃＲＮＡｓｔｒｕｃｔｕｒｅｗｉｔｈｎａｎｏｐｏｒｅｌｏｎｇｒｅａｄｓ．ＮａｔＢｉｏｔｅｃｈｎｏｌ（２０２０）．ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１０３８／ｓ４１５８７－０２０－０７１２－ｚ

特許第６６１２２２０号公報

多種類のＲＮＡを含むＲＮＡライブラリを用いて上述した化学修飾による変異プロファイリングを行う場合、１つ又は数個の塩基のみが異なる配列からなるＲＮＡについては、化学修飾により生じた変異と、ライブラリ中に含まれ得る天然の多様な配列とを相補ＤＮＡの整列により識別することが難しいという問題があった。

本発明は、ＲＮＡライブラリを用いて変異プロファイリングを行う場合に、解析対象のＲＮＡ高次構造に影響を与えることなく、導入された塩基の変異、挿入及び欠失等の検出精度を改善することを課題とする。

本発明は、かかる課題を解決するためになされたものであって、変異プロファイリングを行う際に、ＲＮＡライブラリに含まれるそれぞれのＲＮＡに、異なる固有の配列であって化学修飾剤との反応が抑制されるような構造を有するバーコード配列を付加するようにした。

すなわち、本発明の第一の視点において、ＲＮＡの高次構造を解析するための方法は、（ａ）解析対象ＲＮＡにバーコード配列を付加した１又は複数のＲＮＡプローブを調製する工程、（ｂ）ＲＮＡプローブとＲＮＡ修飾剤とを接触させる工程、及び（ｃ）工程（ｂ）で得られたＲＮＡプローブの配列中で修飾を受けた塩基の位置と頻度を検出する工程、を含む。このバーコード配列はＲＮＡ修飾剤との反応が抑制される構造を有することと解析対象ＲＮＡと高次構造を形成しないことを特徴とする。上記検出工程（ｃ）は、以下の工程を含むことが好ましい。
（ｃ１）工程（ｂ）で得られたＲＮＡプローブの混合物を鋳型として逆転写酵素により相補ＤＮＡを合成する工程、（ｃ２）相補ＤＮＡの塩基配列を決定し、バーコード配列を含む塩基配列を整列させる工程、及び（ｃ３）整列させた塩基配列に生じた変異の位置と頻度を検出する工程。

本発明の他の視点では、複数の塩基対を含む構造を形成するバーコード配列が付加された解析対象ＲＮＡを含むＲＮＡプローブ及び、このＲＮＡプローブの複数を含むＲＮＡプローブライブラリが提供される。さらなる実施形態では、このＲＮＡプローブライブラリの２以上の複製物からなるＲＮＡプローブライブラリ群が提供される。複製されたすべてのＲＮＡプローブは、さらに第２のバーコード配列を含み、この第２のバーコード配列は、１つのライブラリ内ではすべて同一配列であるが他のライブラリとの間では識別可能である。

本発明によれば、ＲＮＡライブラリを用いて変異プロファイリングを行う場合に、解析対象のＲＮＡ高次構造に影響を与えることなく、導入された塩基の変異、挿入及び欠失等の検出精度を改善することができる。

図１は、一実施形態におけるＲＮＡの高次構造の解析方法を示すフロー図である。図２は、別の実施形態におけるＲＮＡの高次構造の解析方法を示すフロー図である。図３は、第１のライブラリの作製に用いたバーコード配列（ａ）及びライブラリ構造の概要（ｂ）を表した模式図である。図４は、３７種類の第１のバーコード配列と、４種類の第２のバーコード配列(バッチバーコード)を用いて作製したライブラリ構造の概要を表した模式図である。図５は、第１のライブラリに含まれるＲＮＡプローブのうち、個別のストランドとして合成した２つのサンプル（ＩＤ１及びＩＤ３２）の塩基配列である。図６は、第２のライブラリを用いて行った変異プロファイリング操作の流れを示す模式図である。図７は、ＮＡＩ又はＤＭＳで化学修飾されたサンプルのバーコード内のすべてのヌクレオチドのデルタ変異率の絶対値を示す。結果は、第１のライブラリにおけるＲＮＡプローブ中の構造化バーコード（ＩＤ１－２８）と非構造化バーコード（ＩＤ２９－３７）に分けて示した。図８は、各ライブラリをＮＡＩ又はＤＭＳで化学修飾したときの、各ヌクレオチドについてのデルタ変異率を示した結果である。Ｘ軸は、ＩＤ１の目的ＲＮＡの配列及びドット・ブラケット表記法による推定構造を示す。（ａ）は、第１のライブラリ及び４種類の第２のライブラリをＮＡＩで処理したときの結果であり、（ｂ）は、第１のライブラリ及び４種類の第２のライブラリをＤＭＳで処理したときの結果であり、（ｃ）は、第２のライブラリをそれぞれ個別に又はプールしてＮＡＩで処理したときの結果であり、（ｄ）は、第２のライブラリをそれぞれ単独で又はプールしてＤＭＳで処理したときの結果である。図９は、第２のライブラリをそれぞれ個別に又はプールしてＮＡＩ又はＤＭＳで化学修飾したときの、各ＩＤのデルタ変異率を、塩基対を形成する領域（黒い部分）及び形成しない領域（灰色の部分）と予測されるヌクレオチドのデルタ変異率のカーネル密度分布を示すバイオリンプロットである。（ａ）は、ＮＡＩで処理したサンプル、（ｂ）は、ＤＭＳで処理したサンプルである。それぞれの「バイオリン」の左側は、一緒に取得された４つの個別のサンプルの分布、右側はプールされたサンプルの分布である。ＤＭＳで処理したサンプルの場合、数値計算ではＣとＡのみの変異を考慮した。図１０は、構造化バッチバーコードを付加したＲＮＡプローブライブラリ群を用いて修飾剤なしで変異プロファイリングを行い、ＩＤ１が付与されたＲＮＡプローブライブラリの次世代シーケンスで得られたすべてのリードを、ＩＤ１から９６のバーコードが付与されたＲＮＡプローブライブラリ群のファイルについてマッピングしたときのリード数を各ＩＤについてプロットしたグラフである。図１１は、構造化バッチバーコードを付加したＲＮＡプローブライブラリ群を用いてＤＭＳによる変異プロファイリングを行い、ＩＤ２が付与されたＲＮＡプローブライブラリの次世代シーケンスで得られたすべてのリードを、ＩＤ１から９６のバーコードが付与されたＲＮＡプローブライブラリ群のファイルについてマッピングしたときのリード数を各ＩＤについてプロットしたグラフである。図１２は、構造化バッチバーコードを付加したＲＮＡプローブライブラリ群を用いて修飾剤なしで変異プロファイリングを行い、夫々のＲＮＡごとに正しいＩＤと判定された割合をプロットした結果を示す。図１３は、構造化バッチバーコードを付加したＲＮＡプローブライブラリ群を用いてＤＭＳによる変異プロファイルリングを行い、夫々のＲＮＡごとに正しいＩＤと判定された割合をプロットした結果を示す。図１４は、構造化バッチバーコードを用いて変異プロファイリングを行った後、複数のインデックスと組み合わせて次世代シーケンシングを行い、ＩＤ７が付与されたＲＮＡプローブライブラリから得られたすべてのリードを、ＩＤ１から９６のバーコードが付与されたＲＮＡプローブライブラリ群についてマッピングしたときのリード数を各ＩＤについてプロットしたグラフである。図１５は、構造化バッチバーコードに1対1で対応するインデックスを付与して行った次世代シーケンシングの結果、インデックスＩＤに対してマッピングされた構造化バッチバーコードＩＤのリード数をプロットしたグラフである。図１６は、図１５において、各構造化バッチバーコードＩＤが付与されたＲＮＡプローブライブラリの中で誤判定されたＲＮＡの種類(ＲＮＡＩＤ)数をプロットしたグラフである。図１７は、構造化バッチバーコードに1対1で対応するインデックスを付与して次世代シーケンシングを行い、構造化バッチバーコードのＩＤの判定における正確性をインデックスごとにプロットした結果である。図１８は、実施例４で用いた構造化バッチバーコード配列の例（ＩＤ１２及びＩＤ２８）を示す図である。

次に、本発明の各実施形態について、図面を参照して説明する。なお、以下に説明する各実施形態は、特許請求の範囲に係る発明を限定するものではなく、また、各実施形態の中で説明されている諸要素及びその組み合わせの全てが本発明の解決手段に必須であるとは限らない。

（定義）
本明細書において、「解析対象ＲＮＡ」又は「目的ＲＮＡ」とは、互換的な意味を有し、生体内で低分子化合物やタンパク質と相互作用する可能性がある配列を有するＲＮＡ分子をいう。この解析対象ＲＮＡは、生体から抽出して得られた生物学的試料をそのまま用いてもよく、あるいは人工的に合成したＲＮＡであってもよい。人工的に合成する場合は、ＲＮＡの配列情報に基づいて抽出した、ＲＮＡの機能構造単位であるモチーフ領域を含むことが好ましい。「モチーフ領域」とは、ＲＮＡが対象となる物質と相互作用するための機能構造単位を意味する。このＲＮＡモチーフの構成要素であるステム－ループやシュードノットなどを構造モチーフと称し、この構造モチーフの組み合わせによってＲＮＡの高次構造が形成される。本発明のＲＮＡプローブに含まれるモチーフ領域は、単一のステム－ループ構造（ヘアピンループ構造）からなる場合もあれば、複数のステム－ループ構造（多分岐ループ構造）を含む場合もある。また１つ以上のキンクターン（ｋｉｎｋ－ｔｕｒｎ）、シュードノット（ｐｓｅｕｄｏｋｎｏｔ）、グアニン４重鎖（Ｇ－ｑｕａｄｒｕｐｌｅｘ）などを含む場合もある。また構造モチーフはワトソンクリック塩基対だけでなくフーグスティーン塩基対によっても構成され得る。

「ＲＮＡプローブ」とは、解析対象ＲＮＡを含む核酸分子、好ましくは、ＲＮＡからなる核酸分子であって、増幅のためのプライマー結合部位やバーコード配列などが付加された核酸分子をいう。また、「ライブラリ」とは、複数（２つ以上）種類の異なる分子（例えば、複数の異なるＤＮＡ分子又は複数の異なるＲＮＡ分子など）の集合を指す。本実施形態に係る方法では、必要に応じて、多数のＲＮＡプローブを用いて解析を行うことができるため、用語、「ライブラリ」は、好ましくは１０個以上、より好ましくは１０^２個以上、１０^３個以上、又は１０^４個以上、さらに好ましくは１０^６個以上の異なるＲＮＡ分子を含み得る。

「ＲＮＡの高次構造」とは、溶液中において、主に、分子内での塩基対の形成に基づく部分的な二本鎖形成（ステム構造ともいう）と、該塩基対形成のない部分の１本鎖構造、又は環状１本鎖構造（ループ構造という）と、またはそれらの組み合わせをいうものとする。このような構造は、溶液の状態（温度、塩濃度等）により特定の平衡状態にありＲＮＡ分子の運動とともに変動するものである。「ステム構造」とは、ＲＮＡに含まれる任意の核酸配列と当該核酸配列に対して相補的な配列とにより形成される二重らせん構造を意味する。本明細書において、「相補的」とは、２つの核酸配列がハイブリダイズする能力を意味し、２つの配列がハイブリダイズすればよいことから、ステム構造を構成する２つの核酸配列は、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９９％、または１００％の配列相補性を有していればよい。

「バーコード配列」とは、核酸分子に対して１種類毎に又は１分子毎に付加される固有の配列を有するタグである。「インデックス」又は「固有分子識別子（ＵｎｉｑｕｅＭｏｌｅｃｕｌａｒＩｄｅｎｔｉｆｉｅｒ：ＵＭＩ）」などとも呼ばれる。ＵＭＩは、典型的には溶液中の各分子にランダム配列を割り当てることで増幅バイアスの軽減による定量性の向上を目的としている。複数の解析対象ＲＮＡに対して、１種類のＲＮＡ毎に異なる固有の配列を有するバーコード配列が付加されるようにすると、複数のＲＮＡを同時に修飾処理及び増幅処理した後に、付加されたバーコードの種類に基づいて、夫々のＲＮＡを識別して解析することができることとなる。また、反応溶液、反応条件毎に異なるバーコードに基づいて各実験系列を識別することで、同一の次世代シーケンスデータから複数の実験データを分別して得られ、効率的なデータ解析が可能となる。

バーコード配列は、例えば、ランダムな塩基を有する核酸群として提供しうる。バーコード配列は、その配列の種類の数が重要なため、配列がランダム（配列が多様であり、かつ、配列の内容を認識する必要がないように）に合成されたものであったとしてもよい。あるいは、バーコード配列は、十分な多様性が得られるように設計された配列既知の核酸群であってもよい。

（ＲＮＡの高次構造を解析する方法）
図１は、本発明の一実施形態における、ＲＮＡの高次構造の解析方法を示すフロー図である。この方法は、解析対象ＲＮＡにバーコード配列を付加した１又は複数のＲＮＡプローブを調製する工程（Ｓ１０）と、ＲＮＡプローブとＲＮＡ修飾剤とを接触させる工程（Ｓ２０）と、工程Ｓ２０で得られたＲＮＡプローブの配列中で修飾を受けた塩基の位置と頻度を検出する工程（Ｓ３０）と、さらに必要に応じて、検出結果を表示する工程（Ｓ４０）と、を含む。ここで、バーコード配列は、ＲＮＡ修飾剤との反応が抑制される構造を有することを特徴とする。

また、別の実施形態におけるＲＮＡの高次構造を解析する方法は、図２に示すように、上記検出工程（Ｓ３０）が、工程Ｓ２０で得られたＲＮＡプローブの混合物を鋳型として逆転写酵素により相補ＤＮＡを合成する工程（Ｓ３１）と、相補ＤＮＡの塩基配列を決定し、バーコード配列を含む塩基配列を整列させる工程（Ｓ３２）と、整列させた塩基配列に生じた変異の位置と頻度を検出する工程（Ｓ３３）と、からなることが好ましい。以下、これらの各工程について詳細に説明する。

＜ＲＮＡプローブの調製工程（Ｓ１０）＞
解析対象ＲＮＡは、生体内での機能を発揮するためのモチーフ領域を含むことが好ましい。このモチーフ領域は、単一のステム－ループ構造（ヘアピンループ構造）からなる場合もあれば、複数のステム－ループ構造（多分岐ループ構造）を含む場合もある。本実施形態では、ステム構造を基準としてモチーフ領域を抽出することが好ましい（例えば、ＷＯ２０１８／００３８０９明細書参照）。これにより、モチーフ領域を分断することなく、ＲＮＡ中に実在する機能構造単位を反映したＲＮＡプローブを調製することができる。モチーフ領域は、その機能が維持されていることを限度として、任意の配列長であってよく、例えば１０００塩基以下、９００塩基以下、８００塩基以下、７００塩基以下、６００塩基以下、５００塩基以下、４００塩基以下、３００塩基以下、２００塩基以下、１５０塩基以下、１００塩基以下、５０塩基以下であってよい。

上記解析対象ＲＮＡを含むＲＮＡプローブの調製方法において、ＲＮＡ中のステム構造は、例えばＣｅｎｔｒｏｉｄＦｏｌｄ（Ｈａｍａｄａ，Ｍ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｖｏｌ．２５，ｐｐ４６５－４７３，２００９）やＩＰｋｎｏｔ（Ｓａｔｏ，Ｋ．ｅｔａｌ．，ＭｅｔｈｏｄｓＢｉｏｃｈｅｍ．Ａｎａｌ．，Ｖｏｌ．２７，ｐｐ．ｉ８５－ｉ９３，２０１１）などのＲＮＡ二次構造予測ソフトを用いて認識することができる。また、ＲＮＡの配列情報には任意のものを使用することができ、例えば、ＵＴＲｄｂ（Ｇｒｉｌｌｏ，Ｇ．ｅｔａｌ．，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．，Ｖｏｌ．３８，Ｄ７５－Ｄ８０，２０１０）、ＩＲＥＳｉｔｅ（Ｍｏｋｒｅｊｓ，Ｍ．ｅｔａｌ．，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．，Ｖｏｌ．３８，Ｄ１３１－Ｄ１３６，２０１０）、ＧｅｎＢａｎｋ（Ｂｅｎｓｏｎ，Ｄ．ｅｔａｌ．，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．，Ｖｏｌ．４１，Ｄ３６－Ｄ４２，２０１３）、ＲＮＡｃｅｎｔｒａｌ（ＲＮＡｃｅｎｔｒａｌＣｏｎｓｏｒｔｉｕｍ，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．，Ｖｏｌ．４３，Ｄ１２３－Ｄ１２９，２０１５）などのＲＮＡ配列データベースからダウンロードしたものを使用することができる。また、ＲＮＡの配列情報だけでなく構造情報も含むデータベースからＲＮＡの配列情報を入手してもよく、例えば、Ｒｆａｍ（Ｎａｗｒｏｃｋｉ，Ｅ．Ｐ．ｅｔａｌ．，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．，Ｖｏｌ．４３，Ｄ１３０－Ｄ１３７，２０１５）、ＳｔｒｕｃｔｕｒｅＳｕｒｆｅｒ（Ｂｅｒｋｏｗｉｔｚ，Ｎ．Ｄ．ｅｔａｌ．，ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｖｏｌ．１７，ｐ．２１５，２０１６）などからダウンロードしたものを使用することができる。また種々の手法によって決定されたＲＮＡの三次元構造データを使用してもよく、例えば、ＰｒｏｔｅｉｎＤａｔａｂａｎｋ（ｈｔｔｐｓ：／／ｗｗｗ．ｒｃｓｂ．ｏｒｇ／）などからダウンロードしたものを使用することができる。また自身で設計をしたＲＮＡ高次構造でもよく、例えば、ＲＮＡｉｎｖｅｒｓｅなどのソフトウェアで設計されたデータを使用しても良い。

本工程では、解析対象ＲＮＡに付加されるバーコード配列が構造化されていることを特徴とする。「構造化」とは、ＲＮＡが溶液中で折りたたまれて二次、三次構造を形成するか、あるいは一次構造（配列）の状態に留めることをいい、それによりＲＮＡ修飾剤との反応が抑制される。例えば、ＲＮＡ修飾剤が、ＲＮＡプローブ中の一本鎖領域のような非拘束ヌクレオチドを選択的に修飾する化合物であるとき、バーコード配列は、このような修飾を受けにくい複数の塩基対を含む構造を形成するように設計することができる。複数の塩基対とは、連続又は離間する２以上の塩基がバーコード配列内の他の塩基との間で水素結合を形成することを意味し、ワトソン－クリック型塩基対又はフーグスティーン型塩基対等のいずれでもよい。ワトソン－クリック型塩基対と同程度の熱力学的安定性を有するＧ－Ｕゆらぎ塩基対でもよい。生体内と同様の環境又は条件において、２以上の塩基対があれば少なくとも一時的には安定な構造を形成しうるが、より安定な構造を形成するためには３個以上の塩基対が好ましく、４個以上の塩基対がさらに好ましく、５個以上の塩基対がさらになお好ましい。塩基対の個数の上限は特に制限されないが、１０個程度の塩基対があれば十分に安定な構造が得られるため、コスト的な観点から３０個以下の塩基対が好ましく、２０個以下の塩基対がより好ましく、１５個以下の塩基対がさらに好ましい。一方、ＲＮＡ修飾剤が、ＲＮＡプローブ中で二本鎖を形成するような拘束ヌクレオチドを選択的に修飾するときは、バーコード配列は、塩基対を形成しない配列、すなわち、一本鎖の構造を維持するように設計されていることが好ましい。さらに、この構造を有するバーコード配列は解析対象のＲＮＡに影響を与えないように計算機的に配列を最適化することが好ましい。これはバーコード配列の付与自体が解析対象のＲＮＡと分子内相互作用により元来のＲＮＡ構造とはかけ離れた構造を形成するか、あるいは構造の安定性に影響がある問題を回避するためである。計算機的な配列最適化は、ＶｉｅｎｎａＲＮＡパッケージ等の公知のプログラムを用いて行うことができる。

＜ＲＮＡプローブの修飾工程（Ｓ２０）＞
本工程（Ｓ２０）におけるＲＮＡの修飾反応は、前工程（Ｓ１０）で調製したＲＮＡプローブと、所望のＲＮＡ修飾剤とを接触させることでＲＮＡプローブの修飾反応を起こさせるものである。１つの実施形態として、このＲＮＡ修飾剤は、ＲＮＡプローブ中の一本鎖領域のような非拘束ヌクレオチドを選択的に修飾する化合物が挙げられる。このような化合物は、典型的には、ＳＨＡＰＥ試薬として知られる、リボース－２’－ヒドロキシ基と反応するイサト酸無水物誘導体、例えば、１－メチル－７－ニトロイサト酸無水物（１Ｍ７）、１－メチル－６－ニトロイサト酸無水物（１Ｍ６）、ＮＭＩＡ（Ｎ－メチルイサト酸無水物）及び２－メチルニコチン酸イミダゾリド（ＮＡＩ）を含むがこれらに限定されない。ＳＨＡＰＥ試薬の他に、硫酸ジメチル（ＤＭＳ）は、アデノシンのＮ１位置、シトシンのＮ３位置、及びウリジンのＮ３位置、グアノシンのＮ１位置で付加物を形成するため、ＲＮＡ修飾剤として用いることができる。一例として、ＮＡＩは一般的に４つ全てのヌクレオチドと反応し、ＤＭＳは、アデニンとシトシンのみと反応する。一方で、ＤＭＳは塩基性に偏ったｐＨ（例えばｐＨ８．０）条件下にてグアニンとウリジンにも反応できる。

他の実施形態として、ＲＮＡ修飾剤は、ＲＮＡプローブ中で二本鎖を形成するような拘束ヌクレオチドを選択的に修飾するものであってもよい。このＲＮＡ修飾剤は、例えば、二本鎖ＲＮＡを分解する酵素であるＲＮＡＳＥＶ１や、ＲＮＡＳＥＩＩＩファミリーのＤＩＣＥＲ、または二本鎖結合タンパク質とＲＮＡ修飾タンパク質との融合タンパク質などが含まれるがこれらに限定されない。

このようなＲＮＡ修飾剤を含む溶媒溶液を、ＲＮＡプローブを含む溶液に添加して、ＲＮＡプローブとＲＮＡ修飾剤とを接触させる。この溶液は、異なる濃度及び量のタンパク質、細胞、ウイルス、脂質、単糖及び多糖類、アミノ酸、ヌクレオチド、ＤＮＡ、並びに種々の塩及び代謝産物を含有する生体溶液であってもよい。また異なる濃度及び量の低分子、中分子薬剤を含有する溶液であっても良い。また種々の界面活性剤、ポリマー、オズモライトを含有しても良い。ＲＮＡ修飾剤の濃度は、ＲＮＡに所望の修飾の程度を達成するように調整することができる。

さらに、解析対象ＲＮＡは、タンパク質又は他の低分子及び高分子の生物学的リガンドの存在下で修飾することができる。ＲＮＡ修飾剤の反応性がｐＨに依存する場合には、そのｐＨを、例えば、７．５～９．０の範囲、但しこれに限定されない、に維持してもよい。最大の反応性と最小の反応性ヌクレオチドを区別する機能範囲は、典型的には２０～５０倍に及ぶ。ＲＮＡを所望のｐＨ（例えば、約ｐＨ８）で所望の立体配座に折り畳む任意の手順で置換することができる。このＲＮＡを、多量体形態を排除するために、まず加熱し、続いて急いで低イオン強度緩衝液中で冷却することができる。続いて、フォールディング溶液を加えて、ＲＮＡが正確な立体配座を達成し、構造に感度が良いＲＮＡ修飾剤で探るための準備とすることができる。いくつかの実施態様において、ＲＮＡは、修飾前には自然には折り畳まれていない。ＲＮＡが熱及び／又は低塩条件により変性されている間に、修飾が行われ得る。

＜修飾塩基の検出工程（Ｓ３０）＞
本工程は、上記修飾工程（Ｓ２０）で得られたＲＮＡプローブの配列中で、修飾を受けた塩基の位置と頻度を検出する工程である。ＲＮＡ配列中における修飾塩基を読み取る方法であれば特に限定されず、例えば、修飾塩基に特異的な抗体を用いるプルダウン法や直接ＲＮＡの電位を読み取るナノポアシーケンス法であってもよい。この直接ＲＮＡナノポアシーケンス法は、単一分子レベルでＲＮＡの修飾部位を検出するための技術である。現在、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓが開発及び市販している直接ＲＮＡシーケンシングプラットフォームでは、膜に懸濁された生物学的ナノポアを介してモータータンパク質と結合したＲＮＡが移動する。ＲＮＡが電圧バイアス下で細孔を通過するとき、細孔狭窄部を通過する短い配列（５ヌクレオチド）の化学的同一性（つまりシーケンス）に依存して、ピコアンペアのイオン電流の変化が観察される（Ｇａｒａｌｄｅ，Ｄ．Ｒ．，ｅｔａｌ．（２０１８）ＨｉｇｈｌｙｐａｒａｌｌｅｌｄｉｒｅｃｔＲＮＡｓｅｑｕｅｎｃｉｎｇｏｎａｎａｒｒａｙｏｆｎａｎｏｐｏｒｅｓ．Ｎａｔ．Ｍｅｔｈｏｄｓ，及びＷｏｒｋｍａｎ，Ｒ．Ｅ．，ｅｔａｌ．（２０１９）ＮａｎｏｐｏｒｅｎａｔｉｖｅＲＮＡｓｅｑｕｅｎｃｉｎｇｏｆａｈｕｍａｎｐｏｌｙ（Ａ）ｔｒａｎｓｃｒｉｐｔｏｍｅ．Ｎａｔ．Ｍｅｔｈｏｄｓ，１６，１２９７－１３０５．参照）。ＳＨＡＰＥ試薬の１つである、１－アセチルイミダゾール（Ａｃｌｍ）により修飾されたヌクレオチドを、この方法で検出しうることが報告されている（ＷｉｌｌｉａｍＳｔｅｐｈｅｎｓｏｎｅｔａｌ．，ＤｉｒｅｃｔｄｅｔｅｃｔｉｏｎｏｆＲＮＡｍｏｄｉｆｉｃａｔｉｏｎｓａｎｄｓｔｒｕｃｔｕｒｅｕｓｉｎｇｓｉｎｇｌｅｍｏｌｅｃｕｌｅｎａｎｏｐｏｒｅｓｅｑｕｅｎｃｉｎｇ．ｂｉｏＲｘｉｖｄｏｉ：ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１１０１／２０２０．０５．３１．１２６７６３，ＰｏｓｔｅｄＪｕｎｅ０１，２０２０）。

好ましい実施形態において、修飾塩基の検出工程（Ｓ３０）は、図２に示すように、ＲＮＡから相補ＤＮＡ（ｃＤＮＡ）への変換を含む変異プロファイリングである。この実施形態では、最初に、工程Ｓ２０で得られたＲＮＡプローブの混合物を鋳型として、逆転写酵素又は他のポリメラーゼによりｃＤＮＡを合成する（Ｓ３１）。逆転写酵素とは、ＲＮＡからｃＤＮＡを合成する酵素であり、例えば、マウス又は鳥類の逆転写酵素のような熱安定性酵素が挙げられるが、これらに限定されない。あるいは、原核生物や真菌などのレトロトランスポゾン内に存在する逆転写酵素ＴＧＩＲＴ（ＴｈｅｒｍｏｓｔａｂｌｅＧｒｏｕｐＩＩｉｎｔｒｏｎｒｅｖｅｒｓｅｔｒａｎｓｃｒｉｐｔａｓｅ）であってもよい。ＩｎＧｅｘ社のＴＧＩＲＴ－ＩＩＩは，従来のレトロウィルス由来の逆転写酵素に比べて，熱安定性や処理性，正確性が優れている。またＤＭＳによる修飾箇所において逆転写時に変異を誘発する性質が知られている（ＤＭＳ－ＭａＰｓｅｑ法）。

これらの酵素は、付加物を含むヌクレオチドを読み飛ばし、化学修飾の部位に不正確な（非相補的な）ヌクレオチドを組み込ませることにより、ＲＮＡ中の化学的修飾を検出する方法が含まれる。本明細書で使用される、ヌクレオチドの取り込みに関する、「不正確な」とは、元の配列中に存在するヌクレオチドに、非相補的なヌクレオチド（ワトソン－クリックの規則に反するヌクレオチド）を組み込むことをいう。これは配列内の少数の欠失を含む。

続いて、ｃＤＮＡの塩基配列を決定し、バーコード配列を含む塩基配列を整列させる（Ｓ３２）。ｃＤＮＡは、多種類のＲＮＡプローブの混合物に由来するライブラリを用いることにより、超並列配列決定法（ＭＰＳ）を使用して、ＲＮＡなどの核酸中の化学修飾を効率よく検出することができる。一例として、イルミナ社の次世代シーケンサーでは、数千万～数億のＤＮＡ断片の両端部のアダプターを介して５’末端側をフローセル上に固定させる。次に、フローセル上に予め固定された５’末端側のアダプターと、ＤＮＡ断片の３’末端側のアダプター配列とをアニールさせて、ブリッジ状のＤＮＡ断片を形成させる。この状態でＤＮＡポリメラーゼによる核酸増幅反応を行うことで、多数の１本鎖ＤＮＡ断片を局所的に増幅して固定することができる。そして、次世代シーケンサーでは、得られた１本鎖ＤＮＡを鋳型として、シーケンシングを行うことで、２０２０年現在、１回の解析において約３Ｔｂという膨大な配列情報を得ることができる。核酸を高速かつ並列に判読するこれらの技術は「次世代シーケンシング（Ｎｅｘｔ－ＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇ（ＮＧＳ）」、「超並列シーケンシング」、「超高処理量遺伝子シーケンシング（Ｕｌｔｒａ－Ｈｉｇｈ－ＴｈｒｏｕｇｈｐｕｔＳｅｑｕｅｎｃｉｎｇ）」又は「大規模並列シーケンシング」などとも呼ばれる。

１つの実施形態では、次世代シーケンサーによって得られた配列データ（リード）を、バーコード配列を含んだ形で整列させる。個々のバーコード配列ごとに配列データを整列させることにより、多種類のＲＮＡプローブを含むサンプルを同時にシーケンスすることができるからである。また、解析対象ＲＮＡが類似する配列、例えば、遺伝子ファミリー、一塩基多型などを含む場合であっても、それらを識別して解析することが可能となる。

あるいは、すべてのｃＤＮＡを一緒に整列させた後、信頼度の低い整列物に関して、バーコードの変異情報を加味することでその整列を評価しても良い。いずれの方法においても、バーコード配列とともに解析対象ＲＮＡ配列を整列させることで配列情報の正確性を向上することができる。

このように整列させた塩基配列に基づいて、生じた変異の位置と頻度を検出する（Ｓ３３）。所定のヌクレオチドにおける変異率は、単純にその場所において、変異数（ミスマッチ、欠失及び挿入）を読み取り回数で割ったものである。各ヌクレオチドについて生の反応性を算出したデータは、種々の基準を用いて正規化することができる。シーケンスの読み取り深度や標準誤差を考慮することでデータの品質管理が可能である。

＜検出結果の表示（Ｓ４０）＞
上記工程で検出された変異の位置と頻度は、変異ヒストグラム、シーケンスの深さ及び反応性プロファイルなどの当業者に既知の方法で図示することができる。変異位置と頻度の解析はＢＷＡ、ＳＴＡＲなどの整列用ソフトウェア（アラインメントソフトウェア）を使用することができる。それらのデータは変異カウントとして数値化、ベクトル化され種々の演算を実施できる。また、統計的優位な反応性を示した変異に対してアノテーションをつけることができる。

本工程におけるこれらの解析は、コンピュータ読取り可能媒体に保存されたコンピュータプログラム製品を用いて実施することができる。本発明を実施するために適当な例示的コンピュータ読取り可能媒体には、チップメモリデバイス、ディスク記憶装置、プログラマブルロジックデバイス、及び特定用途向け集積回路が含まれる。更に、本工程を実施するコンピュータプログラム製品は、単一のデバイス又はコンピューティングプラットフォーム上に設置することができ、又は複数のデバイス又はコンピューティングプラットフォーム間に分散させることができる。従って、本実施形態の方法により取得したＲＮＡの高次構造をコンピュータと接続されたディスプレイ上に表示することができる。

（作用効果）
本実施形態で開示した構造化バーコードは、いくつかの有利な作用効果を有する。１つは、ＲＮＡ修飾剤との反応において、バーコード配列が修飾される可能性が低く、バーコードとして正しく識別することが可能となる。またバーコード部分が解析対象ＲＮＡ又は他のＲＮＡ分子と相互作用することが抑制される。これにより、構造化バーコード配列は、ライブラリ内の類似配列と識別できるだけでなく、同じライブラリの異なるバッチを区別することも可能である。例えば、図４は、３７種類の第１のバーコード配列と、４種類の第２のバーコード配列を用いてライブラリ群を作製する方法を表す。最初に作製された３７種類のＤＮＡからなるライブラリを４種類の異なるプライマーを用いて増幅することで、１つのライブラリ内では同じ配列であるが、異なるバッチのライブラリでは異なる配列を有する第２のバーコード配列が付加される。これらを用いてインビトロ転写反応を行うことで、２種類のバーコード配列が付加されたＲＮＡライブラリ群を作製することができる。

（ＲＮＡプローブ及びＲＮＡプローブライブラリ）
本発明の他の実施形態としては、構造化されたバーコード配列を含むＲＮＡプローブ及び複数の当該ＲＮＡプローブを含むＲＮＡプローブライブラリが提供される。１つの実施形態において、構造化バーコード配列とは、複数の塩基対を含む構造を形成するバーコード配列である。本実施形態のバーコード配列としては、例えば、相補的な二本鎖構造、三重鎖構造又は四重鎖構造を含み、具体的には、ステム－ループ構造、シュードノット構造などを挙げることができる。ステム部分は相補的な二本鎖を形成するが、配列の多様性を増やすために、ワトソン－クリック型塩基対と同程度の熱力学的安定性を有するＧ－Ｕ、Ｉ－Ｕ、Ｉ－Ａ及びＩ－Ｃのゆらぎ塩基対（ｗｏｂｂｌｅｂａｓｅｐａｉｒ）を含んでいてもよい。Ｉは、イノシンを表し、その塩基であるヒポキサンチンはウラシル、アデニン、シトシンと塩基対形成が可能である。ウラシルはグアニンとアデニンという２種類の塩基と対合することが可能である。

他の実施形態では、複数の塩基対を含む構造が、ステム－ループ構造であり、ステム部位に１つ以上のバルジ及び／又は内部ループ構造を有する。これにより構造化バーコードがとり得る高次構造の多様性、種類を向上させることができる。また、構造特異的な変異のネガティブコントロール、ポジティブコントロールとなる塩基を同時に搭載することができる。また１本鎖ＲＮＡ修飾剤のうち、末端ループには修飾を行うが、バルジや内部ループには修飾をしない分子種に対して構造化バーコードがコントロールとして機能する。

いくつかの実施形態としては、複数の塩基対を含む構造が、ＰＤＢ（ＰｒｏｔｅｉｎＤａｔａＢａｎｋ）に登録されているＲＮＡ構造又はその改変体である。これによりワトソン－クリック型ではないＲＮＡ高次構造をバーコード化することができる。例えば、これにより非ワトソン－クリック型塩基対でないＲＮＡ高次構造に対する修飾剤に対する構造化バーコードとして有用である。

本実施形態のＲＮＡプローブ中における構造化バーコード配列の位置は特に制限されず任意の位置に配置することができる。例えば、解析対象ＲＮＡの５’末端側であっても３’末端側であってもよい。あるいは、相補鎖を形成するバーコード配列の一方の鎖が解析対象ＲＮＡの５’末端側に位置し、他方の鎖が３’末端側に位置してこれらが解析対象ＲＮＡを挟むように二本鎖を形成してもよい。また、構造化バーコード配列の数も特に限定されず、同一又は異なる配列の構造化バーコードが複数個存在してもよい。

本実施形態のＲＮＡプローブには、解析対象ＲＮＡとして少なくとも１つの構造モチーフを含むＲＮＡモチーフが含まれる。このモチーフ領域には、任意のＲＮＡ配列情報から抽出したものを用いることができる。または、本発明のＲＮＡプローブに含まれるモチーフ領域には、ＲＮＡストラクチュローム研究によりすでに特定された任意のＲＮＡ二次構造データから選択されたものを用いてもよい。

さらに、このＲＮＡプローブは、検出のために、蛍光色素（例えば、ＦＩＴＣ、ＰＥ、Ｃｙ３、Ｃｙ５など）、放射性同位体、ジゴキシゲニン（ＤＩＧ）、ビオチンなどにより標識されてよい。標識は、予め標識した核酸をプローブ合成時に取り込ませることによって行うことができ、例えば、５’側に標識された人工核酸を取り込ませることができる。またＲＮＡ全長に標識された人工核酸を取り込ませることができる。３’側には例えばＴ４ＲＮＡｌｉｇａｓｅ１を用いて標識された人工核酸を標識することができる。標識は、クリック反応などによって多段階的に行われてもよい。例えば、ｐＣｐ－Ｎ３をＴ４ＲＮＡｌｉｇａｓｅ１を用いて３‘末端に付与したＲＮＡに対して、ＤＢＣＯ－ｂｉｏｔｉｎ、ＤＢＣＯ－Ｃｙ３を反応させることでＲＮＡに蛍光色素やビオチンを取り込ませることができる。これら標識の割合は１０，２０，３０，４０，５０，６０，７０，８０，９０，９９，１００％でも良い。

本実施形態のＲＮＡプローブは、従来公知の任意の遺伝子工学的方法により合成することができる。好ましくは、ＲＮＡプローブは、合成の受託業者に委託して合成された鋳型ＤＮＡを転写することによって作製することができる。ＤＮＡからのＲＮＡへの転写を行うため、ＲＮＡプローブの配列を含むＤＮＡは、プロモーター配列を有していても良い。特に限定されないが、好ましいプロモーター配列として、Ｔ７プロモーター配列が例示される。Ｔ７プロモーター配列を用いた場合、例えば、ライフテクノロジーズ社より提供されるＭＥＧＡｓｈｏｒｔｓｃｒｉｐｔ（商標）Ｔ７ＴｒａｎｓｃｒｉｐｔｉｏｎＫｉｔを用いて所望のＲＮＡプローブ配列を有するＤＮＡよりＲＮＡを転写行うことができる。本発明において、ＲＮＡは、アデニン、グアニン、シトシン、ウラシルのみならず、修飾ＲＮＡであってもよい。修飾ＲＮＡは、例えば、プソイドウリジン、５－メチルシトシン、５－メチルウリジン、２’－Ｏ－メチルウリジン、２－チオウリジン、およびＮ６－メチルアデノシンが例示される。

１つの実施形態において、それぞれ異なる配列の解析対象ＲＮＡを含む複数のＲＮＡプローブを含むＲＮＡプローブライブラリを提供する。本実施形態では、多種類のＲＮＡプローブを同時に用意することが好ましく、効率的にＲＮＡプローブの鋳型を含有するオリゴ核酸ライブラリ合成（ＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＬｉｂｒａｒｙＳｙｎｔｈｅｓｉｓ）技術を用いて行うことが好ましい。これは、スライド上の規定した位置に個々の塩基をプリントするインクジェット技術を用いて、一度に１塩基ずつ合成して、指定の長さの鋳型ＤＮＡを伸長させる。次に、構築されたオリゴはスライドから切断され、プール化された後、乾燥し、１本のチューブに入れて保存される。オリゴライブラリは、その後、再溶解、増幅後、インビトロ転写反応によりＲＮＡプローブライブラリを調製することができる。本発明において特に限定されないが、ＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＬｉｂｒａｒｙＳｙｎｔｈｅｓｉｓは、アジレントテクノロジー社やツイスト・バイオサイエンス社に委託することによって作製することができる。

さらに他の実施形態では、複数のＲＮＡプローブを含む本実施形態のＲＮＡプローブライブラリを、第２のバーコード配列を含む複数のプライマーを用いて増幅することにより、２以上の複製物からなるＲＮＡプローブライブラリ群を調製することができる。複製されたすべてのＲＮＡプローブは、第１及び第２のバーコード配列を含み、この第２のバーコード配列は、１つのライブラリ内ではすべて同一配列であるが他のライブラリとの間では識別可能である。後述する実施例によれば、複数のＲＮＡプローブライブラリを混合して変異プロファイリングを行った場合でもそれぞれのＲＮＡプローブライブラリを用いて行った場合と同じ結果が得られたことから、各ＲＮＡプローブライブラリを用いてそれぞれ異なる変異プロファイリングを行った後、これらを混合して次世代シーケンシングを行った後、第２のバーコード配列を用いてそれぞれの変異プロファイリングを識別することができると考えられる。したがって、第２のバーコード配列を付与することで、反応条件の異なる変異プロファイリングを行った場合でも同一条件で次世代シーケンシング用ライブラリを調製することができ、変異のプロファイリング工程の格段の効率化が可能となる。この第１及び第２のバーコード配列を含むＲＮＡプローブライブラリ群に、さらに異なるバーコード配列を付加することで３種類又はそれ以上のバーコード配列を含むＲＮＡプローブライブラリ群を作製することも可能である。

本実施形態のＲＮＡライブラリは、ＲＮＡの化学修飾の分析及び／又はＲＮＡ構造分析を行うためのキットとして使用することができる。このようなキットの使用方法として、本発明に係るＲＮＡの高次構造解析方法が含まれる。次に実施例を挙げ、本発明を更に詳しく説明するが、本発明はこれら実施例に何ら制約されるものではない。

[実施例１]
材料と方法
（バーコード配列の設計）
本実施例におけるバーコード配列は、異なる長さのステムとループを使用した。正規の塩基対とＧＵゆらぎ塩基対を含む、長さ６、７又は８塩基対（ｂｐ）のステムをランダムに生成した。ステムの長さごとに、３つの異なる長さのループを使用した。各バーコードに対して、４つのテトラループ（ＵＵＣＧ、ＧＡＧＡ、ＧＣＵＵ、ＧＵＡＡ）のいずれか１つ、又は３もしくは５塩基長の配列（ＵＣＧ、ＡＧＡ、ＣＵＵ、ＵＡＡ、ＵＵＡＣＧ、ＧＡＡＧＡ、ＧＣＵＡＵ、ＡＧＵＡＡ）のいずれか１つを選択した。ＶｉｅｎｎａＲＮＡパッケージを使用して、バーコードを正しく折りたたむように制御した。コントロールとして、構造化されていない１０、１５及び２１塩基長のバーコードを生成した。

（目的ＲＮＡ配列）
構造化バーコードの有用性を実証するために、目的ＲＮＡとして以下の配列：
５’－ＧＵＧＵＡＵＧＡＵＧＡＡＡＣＵＡＣＡＵＵＡＡＧＵＵＡＡＣＵＣＧＵＧＣＡＣ－３’（配列番号１）を用いた。この配列から、塩基対を形成しない１２カ所の位置を選択し、各位置において、他の３つすべての塩基に変えた点変異体を作成することにより、３６個の点変異体を得た。これにより、合計３７個の配列が得られた。この３７個の配列の任意のペアは、１又は２塩基のみが相違する。

（第１のライブラリ設計）
第１のライブラリに用いたバーコード配列及びライブラリ構造の概要を図３に示す。図３（ａ）は、１つのＲＮＡプローブ（ＩＤ１）のバーコード配列であり、７ｂｐのステムと４ヌクレオチドのループで構成されている。第１のライブラリ配列は、５’から３’の方向に以下の４つの部分を有する：
ｉ）インビトロ転写（ＩＶＴ）によるＲＮＡライブラリの生成と、シーケンス用ライブラリの調製に必要な５’カセット（図３（ｂ）における５’側の破線）；
ｉｉ）個々の配列ごとに異なるバーコード配列（図３（ｂ）の構造化バーコードを含むＩＤ１～２８及び非構造化バーコードを含むＩＤ２９～３７）；
ｉｉｉ）両側に２塩基のスペーサーが隣接する目的ＲＮＡ配列（図３（ｂ）の実線、なお、配列中の点変異を三角形で示す。）；
ｉｖ）インビトロ転写（ＩＶＴ）によるＲＮＡライブラリの生成、逆転写及びシーケンス用ライブラリの調製に必要な３’カセット（図３（ｂ）における３‘側の破線）。

（第２のライブラリ設計）
第２のライブラリに用いたバーコード配列及びライブラリ構造の概要を図４に示す。この設計によるＲＮＡは、ライブラリ内バーコード(第１のバーコード)とバッチバーコード(第２のバーコード)の２つのバーコードを含む。５’から３’の方向に以下の４つの部分に分けることができる：
ｉ）第１のライブラリ設計で用いたものと同じ５’カセット；
ｉｉ）第１のライブラリ設計で用いたものと同じバーコード配列；
ｉｉｉ）両側に２塩基のスペーサーが隣接する目的ＲＮＡ配列；
ｉｖ）プライマー結合を強化する１２塩基のリンカー配列。

インビトロ転写（ＩＶＴ）を行う前に、さらに以下の２つの部分をポリメラーゼ連鎖反応（ＰＣＲ）によって取り付けた。
ｖ）４種類のバッチバーコード。このバーコードは、１つのバッチ内のすべての目的ＲＮＡで同じ配列である。
ｖｉ）第１のライブラリ設計で用いたものと同じ３’カセット。

第２のライブラリの増幅のために用いたプライマーの塩基配列は以下のとおりである。

（ＤＮＡ鎖の合成）
上述したライブラリ及びプライマーは、ＤＮＡの形でＩｎｔｅｇｒａｔｅｄＤＮＡＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．（ＩＤＴ社）に依頼して合成した。コントロールとして、第１のライブラリで設計した構造化又は非構造化バーコード配列を持つ２つの個別のＲＮＡプローブ（それぞれＩＤ１及びＩＤ３２）を合成した。

（ＤＮＡからＲＮＡの合成）
まず、Ｐｌａｔｉｎｕｍ^ＴＭＳｕｐｅｒＦｉ^ＴＭＰＣＲＭａｓｔｅｒＭｉｘ（サーモフィッシャーサイエンティフィック株式会社製）を使用して、ライブラリをＰＣＲで増幅した。第１のライブラリと、このライブラリ中の２つの個別の一本鎖ＲＮＡ用には、Ｔ７ＲＮＡポリメラーゼプロモーター配列（ＩＶＴの認識サイト：５’－ＴＡＡＴＡＣＧＡＣＴＣＡＣＴＡＴＡＧ－３’（配列番号６））の下流に５’カセット配列を有するフォワードプライマーと、３’カセット配列に相補的な配列を有するリバースプライマーを使用した。第２のライブラリを調製するためのリバースプライマーとしては、Ｐｒ＿ｄ２ａ（配列番号２）、Ｐｒ＿ｄ２ｂ（配列番号３）、Ｐｒ＿ｄ２ｃ（配列番号４）及びＰｒ＿ｄ２ｄ（配列番号５）を使用して４つの異なるバッチを作成し、バーコードを付加した。すべての反応において、各プライマーは、最終濃度５００ｎＭになるように添加し、テンプレートは総濃度０．４ｎＭで提供した。反応容量は２５μＬであった。すべてのＰＣＲはサーモフィッシャーサイエンティフィック株式会社のＰｒｏＦｌｅｘ^ＴＭＰＣＲシステムで行った。

３０秒間９８℃に最初に加熱した後、９８℃で１０秒間、６８℃で１０秒間、７２℃で１５秒間の３ステップＰＣＲを行った。最後のサイクルの後、温度は７２℃で５分間保持され、その後４℃に冷却した。２．５μＬのエキソヌクレアーゼＩ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓＩｎｃ．）を各チューブに加え、３７℃で１５分間インキュベートした後、再び４℃に冷却した。精製には、Ｍｏｎａｒｃｈ（登録商標）ＰＣＲ＆ＤＮＡＣｌｅａｎｕｐＫｉｔ（５μｇ）（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓＩｎｃ．）のＤＮＡクリーンアップおよび濃縮プロトコルを使用した。最終溶出には、１０μＬのＤＮＡ溶出バッファーを使用した。サーモフィッシャーサイエンティフィック株式会社のＮａｎｏＤｒｏｐ^ＴＭＯｎｅを使用して、最終濃度を測定した。

調製された二本鎖ＤＮＡは、ＭＥＧＡｓｈｏｒｔｓｃｒｉｐ^ＴＭＴ７転写キット（サーモフィッシャーサイエンティフィック株式会社）を使用したＩＶＴ反応のテンプレートとして使用した。反応はマニュアルに従って調製した。反応容量は２０μＬ、テンプレート濃度は１００ｎＭである。反応物を３７℃で６時間インキュベートした後、ＴＵＲＢＯＤＮａｓｅ（キットに付属）で、３７℃で１５分間処理した。次に、ＲＮＡをＺｙｍｏＲｅｓｅａｒｃｈのＲＮＡＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒ－２５で精製した。

インビトロ転写反応により合成した第１のライブラリに含まれるＲＮＡプローブのうち、個別のストランドとして合成したＩＤ１（配列番号７）及びＩＤ３２（配列番号８）の塩基配列を図５に示す。図５において、それぞれのバーコード配列部分を四角で囲み、目的ＲＮＡ配列には下線を付した。

（構造プロファイリング用のＲＮＡの調製）
ＲＮＡ修飾には２つの異なる化学修飾剤を使用した。シグマアルドリッチから購入したメチル化剤の硫酸ジメチル（ＤＭＳ）、及びＳＨＡＰＥ試薬２－メチルニコチン酸イミダゾリド（ＮＡＩ）である。両方の修飾剤を用いた実験では、同じＲＮＡ調製物を使用した。６μＬの水に溶解した２５０ｎｇのＲＮＡ（一本鎖またはプール）を９５℃で２分間インキュベートし、氷上で少なくとも２分間急冷した。次に、３μＬの３．３×フォールディングバッファーを加え、サンプルを３７℃で２０分間インキュベートした（１×フォールディングバッファーは、１００ｍＭＨＥＰＥＳ（ｐＨ８．０），１００ｍＭＮａＣｌ，１０ｍＭＭｇＣｌ_２で構成されている）。

（ＮＡＩによる構造プロファイリング修飾）
１０００ｍＭのＮＡＩ溶液１μＬを、空の０．２ｍＬのＰＣＲチューブに加えた。ＲＮＡを加える直前まで、チューブを氷上で維持した。３７℃で、ＲＮＡを含む９μＬのサンプルをＮＡＩに加え、溶液を上下にピペッティングして混合した。サンプルは３７℃で１０分間放置した。

反応停止後、ＲＮＡをＺｙｍｏＲｅｓｅａｒｃｈ社のＲＮＡＣｌｅａｎａｎｄＣｏｎｃｅｎｔｒａｔｏｒ－５キットで精製し、最終溶出量を１５μＬにした。ＮＡＩで修飾された各ＲＮＡサンプルについて、ＮＡＩの代わりに１μＬのＤＭＳＯを使用して同じ方法で処理したコントロールサンプルを調製した。

（ＤＭＳによる構造プロファイリング修飾）
３７℃で、エタノールを含む１μＬの５０％ＤＭＳを、先に調製したＲＮＡを含む９μＬのサンプルに加えた。サンプルを３７℃で６分間放置した。５μＬのβ－メルカプトエタノールで反応を停止し、完全に混合した後、３７℃で２分間インキュベートした。次に、ＲＮＡをＺｙｍｏＲｅｓｅａｒｃｈのＲＮＡＣｌｅａｎａｎｄＣｏｎｃｅｎｔｒａｔｏｒ－５キットで精製し、最終溶出量を１５μＬにした。ＤＭＳで修飾された各ＲＮＡサンプルについて、ＤＭＳの代わりに１μＬの５０％エタノール水溶液を用いて同じ方法で処理したコントロールサンプルを調製した。

（変異プロファイリングのための逆転写）
修飾されたＲＮＡサンプルは、３’カセット配列に相補的な配列を有するリバースプライマーを使用して逆転写反応を行った。ＮＡＩ修飾ＲＮＡの場合、マンガンの存在下で酵素ＳｕｐｅｒＳｃｒｉｐｔ^ＴＭＩＩ逆転写酵素（サーモフィッシャーサイエンティフィック株式会社）を使用した。ＤＭＳ修飾ＲＮＡの場合、ＴＧＩＲＴ^ＴＭ－ＩＩＩ酵素（ＩｎＧｅｘ）を使用した。どちらの場合も、１μＬの２μＭリバースプライマーを２μＬの１０ｍＭｄＮＴＰ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）と７μＬの先に修飾したＲＮＡと混合した。サンプルは、サーモフィッシャーサイエンティフィック株式会社のＰｒｏＦｌｅｘ^ＴＭＰＣＲシステムでアニールされ（８５℃、１分→６５℃、１０分→４℃で保持）、これは逆転写ステップにも使用した。次に、９μＬの２．２２×ＭａＰバッファーを添加して、室温で２分間インキュベートし、１μＬの酵素を加え、サンプルをサイクラーに入れて逆転写した（表２を参照）。

逆転写が終了したら、１μＬのＲＮａｓｅＨを加え、サンプルを３７℃で２０分間インキュベートした。精製には、ＡＭＰｕｒｅＸＰ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ製）、使用してプロトコルに従って精製した。溶出のために、乾燥したビーズに１４μＬの水を加え、十分に混合し、室温で１０分間インキュベートし、１２．５μＬの上澄みを回収した。

（次世代シーケンシング用ライブラリの調製）
ライブラリの準備には、アンプリコンＰＣＲとインデックスＰＣＲの２つのＰＣＲを行った。アンプリコンＰＣＲ用１ｎｇの逆転写生成物は、２５μＬの反応容量で使用した。その他の反応コンポーネントは、１ｘＰｌａｔｉｎｕｍ^ＴＭＳｕｐｅｒＦｉ^ＴＭＰＣＲＭａｓｔｅｒＭｉｘと１×ＳｕｐｅｒＦｉＧＣＥｎｈａｎｃｅｒ（どちらもサーモフィッシャーサイエンティフィック株式会社製）、５００ｎＭのフォワードプライマー及びリバースプライマーを用いた。サンプルをＰｒｏＦｌｅｘ^ＴＭＰＣＲシステムに移した。最初に、３０秒間９８℃に加熱した後、９８℃で１０秒間、６４℃で１０秒間、７２℃で２０秒間の３ステップＰＣＲを行った。最後のサイクルの後、温度は７２℃で５分間保持され、その後４℃に冷却した。精製には、Ｍｏｎａｒｃｈ（登録商標）ＰＣＲ＆ＤＮＡＣｌｅａｎｕｐＫｉｔ（５μｇ）（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓＩｎｃ．）のＤＮＡクリーンアップおよび濃縮プロトコルを使用した。最終溶出には、８μＬのＤＮＡ溶出バッファーを使用した。これで、次世代シーケンシング用のインデックスを付ける準備ができた。

次に、２５μＬの反応容量で１ｎｇのアンプリコンＰＣＲ産物を用いてインデックスＰＣＲを行った。その他の反応コンポーネントは、１ｘＰｌａｔｉｎｕｍ^ＴＭＳｕｐｅｒＦｉ^ＴＭＰＣＲＭａｓｔｅｒＭｉｘとＮｅｘｔｅｒａＸＴＩｎｄｅｘＫｉｔｖ２（Ｉｌｌｕｍｉｎａ）の１μＭインデックスプライマーである。サンプルをＰｒｏＦｌｅｘ^ＴＭＰＣＲシステムに移した。３０秒間９８℃に最初に加熱した後、９８℃で１０秒間、５５℃で１０秒間、７２℃で２０秒間の３サイクルＰＣＲを６サイクル行った。最後のサイクルの後、温度は７２℃で５分間保持され、その後４℃に冷却した。精製には、ＡＭＰｕｒｅＸＰ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ製）を使用してクリーンアップした。溶出のために、乾燥したビーズに１３μＬの水を加え、十分に混合し、室温で１０分間インキュベートし、１２μＬの上澄みを回収した。その後、サンプルは次世代シーケンシングのために一緒に混合した。

（次世代シーケンシング）
シーケンシングには、ペアエンドリードと標準リードプライマーを使用したＮｅｘｔＳｅｑ５００／５５０ミッドアウトプットキットｖ２．５（イルミナ社、１５０サイクル）を使用した。

（アラインメントとデータ分析）
ＦＡＳＴＱファイルのアダプターは最初にトリミングされ、次に、アラインメントソフトウェアを使用して生成されたＦＡＳＴＱファイルのリードを、アラインメントソフトウェアを使用して参照配列が含まれたファイル (リファレンスファイル)に対してマッピングを行った。本解析ではＳＴＡＲアライナーソフトウェアを用いてマッピングした。さらなる分析のために、変異、欠失および挿入をカウントした。

図６は、第２のライブラリを用いて行った変異プロファイリング操作の流れを示す模式図である。それぞれ別々に化学修飾を行った４つのライブラリを１本のチューブにまとめて逆転写反応を行った。一方で比較対照用のサンプルとして前記４つのライブラリに対して別々に逆転写反応を行った４本のチューブを用意した。

結果と考察
（ＲＮＡライブラリ内の配列を区別するためのバーコード）
バーコードが変異プロファイリング実験で類似の配列を区別するのに役立つかどうかをテストするために、第１の設計によるライブラリを使用した。文字列の類似度を測る指標としてレーベンシュタイン距離を使用して、２つの配列の類似性を測定した。この距離は、ある配列を別の配列に変換するための挿入、削除、変異の最小数を示す。バーコードを付加しなければ、ライブラリ内の配列の任意のペアに対して、この数は１又は２となる。バーコードを付加すると、レーベンシュタイン距離は７以上である。したがって、変異プロファイリング実験で予想される変異率の増加があっても、シーケンスを正しく識別することができる。完全なライブラリに加えて、ライブラリの２つの単一シーケンス（ＩＤ１とＩＤ３２）をコントロールとして用いた。ＩＤ１は構造化バーコードを含むが、ＩＤ３２は非構造化バーコードを含む（図５参照）。

３つのＲＮＡサンプル（ライブラリ及び２つコントロール）を、上述したようにＮＡＩ又はＤＭＳで修飾した。ＮＡＩ／ＤＭＳで処理しないコントロール実験を含め、合計１２サンプルとなる。単一配列を含め上記サンプルを第１のライブラリのすべての配列に整列させた。データは、それぞれのＩＤについて、各ヌクレオチドの変異（Ｍ）、削除（Ｄ）及び挿入（Ｉ）をカウントすることによって分析した。変異率（ｍｕｔ）は、Ｍ、Ｄ、Ｉを合計し、ある塩基位置での読み取りの総数で割ることによって計算した。配列固有の変異によるノイズを減らすために、未修飾サンプルの変異率をＮＡＩ／ＤＭＳ修飾サンプルの変異率から差し引いて、下記式（１）のデルタ変異率を求めた。
デルタ変異率＝修飾変異率－未修飾変異率（１）

その結果を図７に示す。図７（ａ）は、ＮＡＩで修飾した第１のライブラリのバーコード配列中のすべてのヌクレオチドに関するデルタ変異率絶対値を示す箱ひげ図である。図７（ｂ）は、ＤＭＳで処理したサンプルを同様に分析した結果である。図７において、ノッチは中央値を示し、ボックスは四分位範囲を示す。また、ひげは、ボックスの端からボックスの高さの１．５倍のスパン内にある最大値又は最小値まで上下する。外れ値は円で示した。これらの結果は、ＮＡＩ又はＤＭＳのいずれの修飾剤で処理した場合でも、構造化バーコード配列（ＩＤ１～２８）のデルタ変異率の絶対値が、非構造化バーコード配列（ＩＤ２９～３７）のデルタ変異率の絶対値よりも有意に低いことを示している。つまりバーコードの構造化によって変異を防ぐことができることを示している。

（異なるＲＮＡライブラリを区別するためのバーコード）
第２のライブラリを使用して、バーコードがすべてのバージョンの共通プール内のＲＮＡライブラリの異なるバージョンを区別するのに役立つかどうかを実験した。このため、第２のライブラリは、インビトロ転写の前にプライマーＰｒ＿ｄ２ａ、Ｐｒ＿ｄ２ｂ、Ｐｒ＿ｄ２ｃ、Ｐｒ＿ｄ２ｄを使用してバッチバーコード(第２のバーコード)をＲＮＡに付与し４つの異なるバージョンに区別した。図６に示したように、ＲＮＡライブラリの４つの異なるバージョンが、ＮＡＩ又はＤＭＳで修飾されるか、又はそれぞれのコントロールとして取り扱われた。精製ステップの後、ライブラリの４つのバージョンの等量を混合することにより、プールされたサンプルが各処理条件に対して作成された。ライブラリの４つの異なるバージョンとプールされたサンプルのそれぞれは、連続したステップで同じ方法で処理された。

これらのデルタ変異率を、ＩＤ１の対象シーケンスをＸ軸としてプロットした図８（ａ）及び図８（ｂ）に示す。デルタ変異率は、第１のライブラリ及び第２のライブラリの４つの群すべてを示した（データはプールされたサンプルからのデータである。）。ＮＡＩ（図８（ａ））の場合、第１のライブラリと第２のライブラリのデルタ変異率はわずかに異なるが、いずれのライブラリについても非拘束ヌクレオチド領域では変異率が高く、構造プロービングが二次構造に関する情報を反映していることを示している。予測には、ＶｉｅｎｎａＲＮＡパッケージを使用した。ＤＭＳ（図８（ｂ））の場合、ライブラリ間の違いはそれほど顕著ではないが、ＮＡＩと同様に、構造情報は、拘束されていないことが予測される領域のデルタ変異率がより高い値を示している。実験を行った条件ではＤＭＳは塩基ＧおよびＵの修飾効率が低いため、塩基ＣおよびＡのみがより高い変異率を示す。プールされたサンプルの結果と個別に処理されたサンプルの結果を比較すると、グラフの曲線間に良好なオーバーラップが見られる（図８（ｃ）及び図８（ｄ））。したがって、プーリングは実験の結果に大きな影響を与えないと考えられ、バーコードとしての機能を果たしている。

（第２の設計によるＲＮＡライブラリの２次構造情報）
図８は、単一ＩＤの変異プロファイルのみを示している。次にすべてのＩＤの変異プロファイルを分析し、ＶｉｅｎｎａＲＮＡパッケージで予測した二次構造と比較した。図９は、第２のライブラリをそれぞれ単独で又はプールしてＮＡＩ又はＤＭＳで化学修飾したときの、塩基対を形成すると予測された領域（図９の黒い領域）と非結合であると予測された領域（図９の灰色の領域）のデルタ変異率の絶対値を別々にプロットしたバイオリンプロットである。図９（ａ）は、ＮＡＩで処理したサンプル、図９（ｂ）は、ＤＭＳで処理したサンプルであり、それぞれのｘ軸に示したＩＤのうち、ＩＤ１～２８は構造化バーコード配列を、ＩＤ２９～３７は非構造化バーコード配列を含む。この結果は、４つの個別のサンプル（図９の「バイオリン」の左側）とプールされたサンプル（図９の「バイオリン」の右側）の分布が非常に似ていることも示している。ＤＭＳの場合、塩基ＡとＣの位置のみが考慮される。

この結果は、各ＩＤのサンプルについて、ＮＡＩ（図９（ａ））又はＤＭＳ（図９（ｂ））を使用すると、非結合領域のデルタ変異率の絶対値が高くなることを示しており、ライブラリ内の各シーケンスについて、二次構造情報を取得できることを示している。さらに、プールされたサンプルとプールされていないサンプルでは、平均値と分布の幅（標準偏差）に大きな違いは認められなかった。ＤＭＳで修飾した場合は、Ｓ／Ｎ比が向上し、修飾されたＲＮＡと修飾されていないＲＮＡの分布のオーバーラップは少なくなることを示している。一方で構造化バーコード（ＩＤ１～２８）に対して非構造化バーコード（ＩＤ２９～３７）においては分布の顕著なオーバーラップが観察されることが多い。これは非構造化バーコードにおいてＲＮＡ構造予測によるデータと一致しないことを意味しており、非構造化バーコードが解析対象のＲＮＡの構造に影響を与えたことを示している。

[実施例２]構造化バーコードの使用によるバーコード識別の正確性
全体で５４種類のＲＮＡ構造が混在するマルチプレックス化されたライブラリ（ＲＮＡプローブライブラリ）に対して、９６種類の構造化バッチバーコードを用意した。その後マッピングのために、ライブラリに含まれる５４種類すべてのＲＮＡ構造に異なるバーコードを付与し、９６×５４種類のリファレンスファイルを作成した。実際にそのうちＩＤが異なる２種類のバッチバーコードを付加したＲＮＡプローブライブラリを試験管内合成し、ＤＭＳによる変異プロファイル実験を行った。検証実験のために異なる構造化バッチバーコードに対して対応したインデックスを付与し、次世代シーケンシング解析を行った。その後、得られたすべてのリードをリファレンスファイルにマッピングをした。本解析ではＳＴＡＲアライナーソフトウェアを用いてマッピングした。その結果を図１０及び図１１に示す。

図１０は構造化バッチバーコード１を用いた実験であり、横軸にシーケンスとマッピングにより実際に判定されたＩＤ、縦軸にリード数の合計（Ｄｅｐｔｈ＿ｓｕｍ）を示す。構造化バッチバーコード１を用いた変異プロファイル反応系では修飾剤を用いておらず、ＲＮＡ構造選択的な変異導入の効果がない。実際に構造化バッチバーコード１のほとんどはＩＤ１と正しい判定を受けている。１８種類のＩＤにマッピングが間違って行われたという判定がされているが、正解のＩＤ１に対して、その他のＩＤのリード数では１／１０００～１／１００００以下と非常に小さいため、変異プロファイルのデータの解釈に影響を与えない。

図１１は構造化バッチバーコード２を用いた実験であり、横軸にシーケンスとマッピングにより実際に判定されたＩＤ、縦軸にリード数の合計（Ｄｅｐｔｈ＿ｓｕｍ）を示す。構造化バッチバーコード２を用いた変異プロファイル反応系では修飾剤を用いており、ＲＮＡの高次構造選択的に変異導入が行われる。図１０に対して図１１では、変異導入のため一定以上のリード数の検出が行われたＩＤが増えた現象が確認されたものの、図１０と同様に大多数のリード数はＩＤ２と正解の判定を受けた。加えて、正しいＩＤ（ＩＤ２と判定されたもの）に比して間違って判定されたＩＤ（ＩＤ２以外と判定されたもの）のリード数の総和は１／１００～１００００以下と非常に小さいため、変異プロファイルのデータの解釈に影響を与えない。

実際にライブラリ中の５４種類のＲＮＡごとに正確性（正しいＩＤと判定された割合）を確認した（図１２、１３）。その結果、非修飾条件における正確性は平均９９．９１％、変異導入条件では平均９９．４４％であり、変異導入条件においても高い正確性を維持していた。

以上より、構造化バッチバーコードは変異プロファイルにおいて、マッピングの正確性を損なわずに正解のバーコードＩＤを他の間違ったＩＤと明確に区別できるため、複数の異なる条件を同時に混ぜるマルチプレックス化に有用である。

[実施例３]バーコードと他のバーコード（インデックス）との組み合わせによるマルチプレックス化の効果
ＲＮＡを用いた変異プロファイル反応を終え、ＤＮＡに変換したのちに市販のインデックスプライマー（例、ＮｅｘｔｅｒａＸＴＩｎｄｅｘＫｉｔ＜イルミナ社＞）などと組み合わせることで、サンプルの由来や条件の複雑性を上げることができる。図１４は縦軸にイルミナ社の配列に基づいたインデックスプライマー（バーコードとして機能する）、横軸に実施例２で調製した構造化ＲＮＡＩＤ７のサンプルをマッピングした際に判定されたＩＤを示す。カラースケールはリード数の平均値を示す。

上記より、どのインデックスプライマーにおいても構造化バッチバーコード（ＩＤ）は高い正確性を保って識別可能であることがわかった。つまり、バッチバーコードに加え、複数の形態のＤＮＡバーコードを組み合わせることで検体数を大規模に拡張可能と言える。例えば、１０種類のインデックスプライマーと９６種類の構造化バーコードを使用することで１０×９６の９６０通りの条件を設定できる。

[実施例４]構造化バーコードを用いた次世代シーケンス解析における直交性
全体で異なる１５００種類のＲＮＡプローブが混在するマルチプレックス化されたライブラリ（ＲＮＡプローブライブラリ）に対して、３２種類の構造化バッチバーコードを用意した。その後マッピングのために、１５００種類すべてのＲＮＡに異なるバッチバーコードを付与し、３２×１５００種類（４８０００種類）のリファレンスファイルとともに実際にＲＮＡプローブライブラリを試験管内合成した。次に、構造化バッチバーコードが付与されたＲＮＡプローブライブラリ群を用いたプロファイル解析を行った。検証実験のために３２の異なる構造化バッチバーコードに対してすべて３２種類異なるインデックスプライマーを用いてインデックス（ＩｎｄｅｘＩＤ）を付与し、次世代シーケンサー（ＭｉＳｅｑ＜イルミナ社＞）によるシーケンシング解析を行った。その後、インデックスにより３２種類のファイルに分配した。バーコードが正しく機能すれば、インデックスＩＤ１に相当するファイルには構造化バッチバーコードＩＤ１が付与されたＲＮＡプローブライブラリが含まれる。その後、得られたすべてのリードをリファレンスファイルにマッピングをした。本解析ではＳＴＡＲアライナーソフトウェアを用いてマッピングした。

図１５では、横軸に正しいインデックス（ＩｎｄｅｘＩＤ）、縦軸に実際にシーケンスとマッピングにより判定された構造化バッチバーコードＩＤ（ＢａｔｃｈＢａｒｃｏｄｅＩＤ）を示す。ヒートマップの色はマッピングされたリード数のＲＮＡプローブライブラリ内での平均値（Ｄｅｐｔｈ＿ｍｅａｎ）を示す。図１５に示す通り、すべての構造化バーコードについて、正しいＩＤへと割り振られることを確認した。さらに、図１６に示す通り、誤判定はライブラリ中の１５００種類ＲＮＡに対してほとんどが０または１０種類未満に対して発生することがわかり、ライブラリ全体のＲＮＡに対して影響はごく小さい。

加えてこれらの誤判定されたＲＮＡ種類に対してのリード数は正しいＩＤに比しておよそ１／１００～１００００以下であるため、さらに影響が小さく、誤判定がプロファイルの結果への解釈に影響を与えないと言える（図１７）。このため、構造化バッチバーコードは意図した通り高い直交性を有していると言え、バーコードとして機能したことを示す。なお、図１６にて、一部８００種類、１３０種類程度の混在が確認されたデータ点があるが、それは隣り合ったチューブ間で連続して発生していることやバーコードにおける類似性がないため、人為的ミスによるコンタミネーションと判断され、特定の構造化バーコードによる問題ではない。

なお、本実施例で用いた構造化バーコード配列の例（ＩＤ１２及びＩＤ２８）を図１８に示す。ＩＤ１２の構造化バーコードＲＮＡは、２２塩基長：５’－ＧＣＵＡＧＡＡＧＡＵＵＵＧＵＣＵＵＣＵＧＧＵ－３’（配列番号９）で４塩基のループ構造を含む。一方、ＩＤ２８の構造化バーコードＲＮＡは、１９塩基長：５’－ＵＵＧＣＧＡＧＡＵＡＵＵＣＵＣＧＣＧＡ－３’（配列番号１０）で３塩基のループ構造を含む。このように、構造化バーコードは塩基配列のみならず長さと高次構造を変更することもできるため、その組み合わせをさらに拡大することが可能である。

以上のように、構造化バーコードは複数の反応条件での構造プロービング試験の多重化（マルチプレックス化）が可能である。応用としては異なる反応組成、実験環境条件を複数揃えた上で構造プロービング試験を行うことができ、それらの異なる条件がＲＮＡ構造に与える影響を大規模にスクリーニングすることができる。例えば、以下の参考文献［１］～［３］に例示される方法などを用いて、構造変化をきたすことが知られている分子や条件の評価を一度に複数種類行うスクリーニングへと拡張することができる。

参考文献
[1] Komatsu, K. R., Taya, T., Matsumoto, S., Miyashita, E., Kashida, S., & Saito, H. (2020). RNA structure-wide discovery of functional interactions with multiplexed RNA motif library. Nature communications, 11(1), 1-14.
[2] Tapsin, S., Sun, M., Shen, Y., Zhang, H., Lim, X. N., Susanto, T. T., ... & Wan, Y. (2018). Genome-wide identification of natural RNA aptamers in prokaryotes and eukaryotes. Nature communications, 9(1), 1-10.
[3] Corley, M., Flynn, R. A., Lee, B., Blue, S. M., Chang, H. Y., & Yeo, G. W. (2020). Footprinting SHAPE-eCLIP Reveals Transcriptome-wide Hydrogen Bonds at RNA-Protein Interfaces. Molecular Cell, 80(5), 903-914.

Claims

明細書に記載の発明。