JP2023156389A

JP2023156389A - Ｒｎａの直接配列決定で使用するための方法およびシステム

Info

Publication number: JP2023156389A
Application number: JP2023126160A
Authority: JP
Inventors: ジャンシェンロン; Shenglong Zhang; ゼット．ワントム; Z Wang Tom; トニーゼット．ジア; Z Jia Tony; リウェンジア; Wenjia Li
Original assignee: New York Institute of Technology
Current assignee: New York Institute of Technology
Priority date: 2018-05-25
Filing date: 2023-08-02
Publication date: 2023-10-24
Also published as: WO2019226976A1; EP3802818A4; US20210217494A1; JP2021525859A; EP3802818A1

Abstract

【課題】ＲＮＡ分子のヌクレオチドの順番を決定するためのシステムおよび方法を提供すること。【解決手段】本方法は、ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データを受け取るステップ、質量に基づいてＬＣ－ＭＳデータをフィルタリングするステップであって、フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ、フィルタリングされたＬＣ－ＭＳデータを分析して、複数のＲＮＡ配列を決定するステップ、および残存するＬＣ－ＭＳデータ中に残存する有効なヌクレオチドがないことを決定した後、ＲＮＡ配列を読み出すステップを含む。フィルタリングされたＬＣ－ＭＳデータを分析するステップは、少なくとも２つの隣接するラダー断片間の質量差を決定すること、および質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドに等しいかどうかを決定することを含む。【選択図】なし

Description

関連出願の相互参照
本出願は、その全体が参照により本明細書に組み込まれる２０１８年５月２５日に出願された米国仮出願第６２／６７６，７５４号の利益および優先権を主張する。

本発明の開示は、一般的に、配列決定されるＲＮＡの末端標識付けと、第１のリボヌクレオチドから最後のリボヌクレオチドへの完全な一式のラダー断片をカバーするＲＮＡの断片化したラダーとをベースとする、液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）ベースのＲＮＡ配列決定技術のために開発された新規のアルゴリズムに関する。アルゴリズムは、単一ヌクレオチド分解能で標的ＲＮＡ配列を同時に読み、広範な標的ＲＮＡ修飾の存在、タイプ、位置、および量を決定する。開示されるアルゴリズムは、実験データとシミュレートしたデータとの間の相互の検証をもたらすコンピューターによるシミュレーションを導入する。シミュレーションは、増加した長さを有するＲＮＡ分子、加えて、増加した鎖および集団多様性を有するＲＮＡ試料を配列決定するための手段を提供する。

質量分析（ＭＳ）は、タンパク質修飾を研究するためのツールであり、それにおいて、ペプチド断片化によって、様々なアミノ酸修飾の正体および位置を解明する「ラダー」が生産される。これまで、十分な配列カバー率をもたらすｉｎｓｉｔｕの断片化技術は存在しないため、核酸に対する類似のアプローチは実現できていない。異常な核酸修飾、特に、ＲＮＡにおけるメチル化およびシュードウリジル化は、それぞれ世界中の数百万人もの人々に影響を及ぼす乳がん、２型糖尿病、および肥満症のような主要疾患の発症との相関が示された。それらの重要性にもかかわらず、ＲＮＡ中の修飾を確実に同定する、位置決定する、および定量するための利用可能なツールは、極めて限定的である。

したがって、ＲＮＡ分子の効率的な配列決定を容易にするために、新しい方法が必要である。

ＬＣ／ＭＳデータが、複数回切断されたＲＮＡ断片からのデータを含有し、そのことが、特に、より小さい分解されたＲＮＡ断片の位置が特定されるより低い質量の領域から生成される配列の場合、分析を難しくすることを考えれば、ＲＮＡの自動化直接配列決定を可能にするために、改善された精度を有するアルゴリズムが望ましい。本発明の開示は、質量ＲＮＡラダーリング配列決定方法と使用するためのアルゴリズムの開発に関する。

本発明の開示の態様によれば、ＲＮＡ分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法が提示される。本方法は、ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データを受け取るステップ、質量に基づいてＬＣ－ＭＳデータをフィルタリングするステップ、フィルタリングされたＬＣ－ＭＳデータを分析して、ＲＮＡ配列を決定するステップ、および残存するＬＣ－ＭＳデータ中に残存する有効なヌクレオチドがないことを決定することに基づいて、ＲＮＡ配列を、配列リードとして読み出すステップを含む。ＲＮＡ配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列の順番を含む。ＬＣ－ＭＳデータは、質量、保持時間（ＲＴ）、体積、および品質スコア（ＱＳ）を含む。フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む。配列決定は、少なくとも２つの隣接するラダー断片間の質量差を決定すること、および質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも１つに等しいかどうかを決定することを含む。

本発明の開示の一態様において、本方法は、配列決定されたＬＣ－ＭＳデータ中に何らかのギャップがあるかどうかを決定するステップ、ギャップに基づく有効なヌクレオチドを生じなかった何らかの残存するＲＮＡ断片があるかどうかを決定するステップ、化合物に対して階層クラスタリングアルゴリズムを実行して、その関連する質量付加物から、可能性のあるヌクレオチドを同定するステップ、同定された質量付加物と質量のクラスターとの間の項目ごとの比較に基づいて、各クラスターにつきＲＮＡ断片の質量を決定するステップ、各クラスターにつき決定された質量に基づいて、ラダー断片を予測するステップ、予測されたラダー断片に基づいて、ＲＮＡ配列を読み出すステップ、およびＲＮＡ配列を報告するステップをさらに含んでいてもよい。階層クラスタリングアルゴリズムは、ＲＮＡ断片の質量とＲＴに基づいて距離メトリック（ｄｉｓｔａｎｃｅｍｅｔｒｉｃ）を決定すること；および各断片が真のラダー断片の可能性のある質量付加物を含むように、ＲＮＡ断片を、その質量の関係に基づいて、質量のクラスターにグループ分けすることを含む。報告するために選択されるＲＮＡ配列は、あらゆる質量付加物から同定されたヌクレオチドを含み得る。

本発明の開示の別の態様において、ＲＮＡ分子の長さは、２０ヌクレオチドより大きい。

本発明の開示の一態様において、１つまたは複数のＲＮＡ分子は、配列決定されるＲＮＡ試料中に存在する。

本発明の開示のさらに別の形態において、ＲＮＡ試料は、精製されたＲＮＡ試料を含む。

本発明の開示のさらなる態様において、ＲＮＡ試料は、治療用ＲＮＡ分子を含む。

本発明の開示の一態様において、ＲＮＡ配列は、ＭＳデータ出力と公知のリボヌクレオチドの質量の相関によって決定される。

本発明の開示のさらなる態様において、質量分析（ＭＳ）データ出力を公知の修飾されたリボヌクレオチドの質量と相関させることに基づいて、修飾されたリボヌクレオチドのタイプ、位置、および量を決定することを含む。

本発明の開示のさらに別の形態において、フィルタリングされたＬＣ－ＭＳデータの配列決定は、ＲＮＡ断片の固有の特性に基づく。本発明の開示のさらなる態様において、ＲＮＡ断片の固有の特性は、電子的または光学的なシグネチャーシグナルの少なくとも１つを含む。

本発明の開示の態様によれば、ＲＮＡ分子のヌクレオチドの順番を決定するためのシステムが提示される。システムは、プロセッサーおよびメモリーを含む。メモリーは、命令を保存しており、命令は、１つまたは複数のプロセッサーによって遂行されると、システムに、ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データを受け取るステップであって、ＬＣ－ＭＳデータは、質量、保持時間（ＲＴ）、体積、および品質スコア（ＱＳ）を含む、ステップ；質量に基づいてＬＣ－ＭＳデータをフィルタリングするステップであって、フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ；フィルタリングされたＬＣ－ＭＳデータを分析して、複数のＲＮＡ配列を決定するステップ、および残存するＬＣ－ＭＳデータ中に残存する有効なヌクレオチドがないことを決定した後、ＲＮＡ配列を、配列リードとして読み出すステップを実施させる。ＲＮＡ配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列を含む。フィルタリングされたＬＣ－ＭＳデータを分析するステップは、少なくとも２つの隣接するラダー断片間の質量差を決定すること；および質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも１つに等しいかどうかを決定することを含む。

本発明の開示の態様によれば、ＲＮＡ分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法が提示される。本方法は、ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データにアクセスするステップであって、ＲＮＡ試料は、ＲＮＡラダー断片を含む、ステップ；塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量を含むデータベースにアクセスするステップ；ＬＣ－ＭＳデータに、アンカーベースのサブセッティングを実行するステップであって、アンカーベースのサブセッティングは、データゾーンを選択することを含む、ステップ；ＬＣ－ＭＳデータの選択されたサブセットに塩基コールを実行して、タプルのデータセットを生成するステップ；データセット中のタプルを連結するトラジェクトリを構築して、ＲＮＡラダー断片のドラフトリードを生成するステップ；およびドラフトリードストラテジーを実行するステップを含む。

本発明の開示のよりさらなる態様において、ドラフトリードストラテジーは、リード長さ、平均体積、平均ＱＳ、または平均百万分率（ＰＰＭ）の少なくとも１つに基づいて、スコア付けすることを含む。

本発明の開示のさらに別の形態において、ＰＰＭは、以下の通り決定される：

式中、質量_{ｅｘｐｅｒｉｍｅｎｔａｌ}は、分子タグに対応する実験上の質量であり、質量_{ｔｈｅｏｒｅｔｉｃａｌ}は、理論上の質量である。

本発明の開示のさらなる態様において、平均ＰＰＭは、ドラフトリードに含有されるデータポイントに関連する全てのＰＰＭ値の合計をリード長さで割った値である。

本発明の開示のよりさらなる態様において、トラジェクトリを構築することは、深さ優先探索（ＤｅｐｔｈＦｉｒｓｔＳｅａｒｃｈ）（ＤＦＳ）アルゴリズムを実行して、考えられる全てのドラフトリードが、ＬＣ－ＭＳデータから確実に見出されるようにすることをさらに含む。

本発明の開示のさらに別の形態において、本方法は、ＲＮＡ試料の生化学的な標識付けをさらに含む。

本発明の開示のさらなる態様において、ドラフトリードストラテジーは、グローバル階層ランク付けストラテジー（ｇｌｏｂａｌｈｉｅｒａｒｃｈｉｃａｌｒａｎｋｉｎｇ
ｓｔｒａｔｅｇｙ）を含む。

本発明の開示の一態様において、ドラフトリードストラテジーは、ローカルベストスコアストラテジーを含む。本発明の開示の別の態様において、本方法は、ＲＮＡ分子の異なる断片から完全なＲＮＡ配列をアセンブルするように構成されたアライメント／アセンブリアルゴリズムを実行することをさらに含む。

本開示の例示的な実施形態のさらなる詳細および態様は、添付の図面を参照しながら以下でより詳細に記載される。本開示の上記の態様および実施形態はいずれも、本開示の範囲から逸脱することなく組み合わせることができる。

ＲＮＡ配列決定およびアルゴリズムのための本発明の方法の様々な実施形態は、図面を参照しながら本明細書に記載される。
本発明の実施形態において、例えば以下の項目が提供される。
（項目１）
ＲＮＡ分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法であって、
ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データを受け取るステップであって、前記ＬＣ－ＭＳデータは、質量、保持時間（ＲＴ）、体積、および品質スコア（ＱＳ）を含む、ステップ；
質量に基づいて前記ＬＣ－ＭＳデータをフィルタリングするステップであって、前記フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ；
フィルタリングされた前記ＬＣ－ＭＳデータを分析して、複数のＲＮＡ配列を決定するステップであって、前記フィルタリングされたＬＣ－ＭＳデータを分析することは、
少なくとも２つの隣接するラダー断片間の質量差を決定すること；および
前記質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも１つに等しいかどうかを決定すること
を含む、ステップ；ならびに
残存するＬＣ－ＭＳデータ中に残存する有効なヌクレオチドがないことを決定した後、ＲＮＡ配列を、配列リードとして読み出すステップであって、前記ＲＮＡ配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列の順番を含む、ステップ
を含む、方法。
（項目２）
配列決定されたＬＣ－ＭＳデータ中に何らかのギャップがあるかどうかを決定するステップ；
前記ギャップに基づく有効なヌクレオチドを生じなかった何らかの残存するＲＮＡ断片があるかどうかを決定するステップ；
前記ＲＮＡ断片に対して階層クラスタリングアルゴリズムを実行して、その関連する質量付加物から、可能性のあるヌクレオチドを同定するステップであって、前記階層クラスタリングアルゴリズムは、
化合物の質量とＲＴに基づいて距離メトリックを決定すること；および
各断片が真のラダー断片の可能性のある質量付加物を含むように、ＲＮＡ断片を、その質量の関係に基づいて、質量のクラスターにグループ分けすること
を含む、ステップ；
同定された前記質量付加物と前記質量のクラスターとの間の項目ごとの比較に基づいて、各クラスターにつきＲＮＡ断片の質量を決定するステップ；
各クラスターにつき決定された前記質量に基づいて、ラダー断片を予測するステップ；および
予測された前記ラダー断片に基づいて、ＲＮＡ配列を読み出すステップであって、前記ＲＮＡ配列は、あらゆる同定された質量付加物を含む、ステップ
をさらに含む、項目１に記載のコンピューターにより実装される方法。
（項目３）
前記ＲＮＡ分子の長さが、２０ヌクレオチドより大きい、項目１に記載のコンピューターにより実装される方法。
（項目４）
１つまたは複数のＲＮＡ分子が、配列決定される前記ＲＮＡ試料中に存在する、項目１に記載のコンピューターにより実装される方法。
（項目５）
前記ＲＮＡ試料が、精製されたＲＮＡ試料を含む、項目１に記載のコンピューターにより実装される方法。
（項目６）
前記ＲＮＡ試料が、治療用ＲＮＡ分子を含む、項目１に記載のコンピューターにより実装される方法。
（項目７）
前記ＲＮＡ配列が、ＭＳデータ出力と公知のリボヌクレオチドの質量の相関によって決定される、項目１に記載のコンピューターにより実装される方法。
（項目８）
質量分析（ＭＳ）データ出力を公知の修飾されたリボヌクレオチドの質量と相関させることに基づいて、修飾されたリボヌクレオチドのタイプ、位置、および量を決定するステップをさらに含む、項目１に記載のコンピューターにより実装される方法。
（項目９）
前記フィルタリングされたＬＣ－ＭＳデータの配列決定が、ＲＮＡ断片の固有の特性に基づく、項目１に記載のコンピューターにより実装される方法。
（項目１０）
前記ＲＮＡ断片の前記固有の特性が、電子的または光学的なシグネチャーシグナルの少なくとも１つを含む、項目９に記載のコンピューターにより実装される方法。
（項目１１）
ＲＮＡ分子のヌクレオチドの順番を決定するためのシステムであって、
１つまたは複数のプロセッサー；および
命令を保存する１つまたは複数のメモリー
を含み、
前記命令は、前記１つまたは複数のプロセッサーによって遂行されると、前記システムに、
ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データを受け取るステップであって、前記ＬＣ－ＭＳデータは、質量、保持時間（ＲＴ）、体積、および品質スコア（ＱＳ）を含む、ステップ；
質量に基づいて前記ＬＣ－ＭＳデータをフィルタリングするステップであって、前記フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ；
フィルタリングされた前記ＬＣ－ＭＳデータを分析して、複数のＲＮＡ配列を決定するステップであって、前記フィルタリングされたＬＣ－ＭＳデータを分析することは、
少なくとも２つの隣接するラダー断片間の質量差を決定すること；および
前記質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも１つに等しいかどうかを決定すること
を含む、ステップ；ならびに
残存するＬＣ－ＭＳデータ中に残存する有効なヌクレオチドがないことを決定した後、ＲＮＡ配列を、配列リードとして読み出すステップであって、前記ＲＮＡ配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列の順番を含む、ステップ
を実施させる、システム。
（項目１２）
ＲＮＡ分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法であって、
ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データを受け取るステップであって、前記ＲＮＡ試料は、ＲＮＡラダー断片を含む、ステップ；
塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量を含むデータベースにアクセスするステップ；
前記ＬＣ－ＭＳデータに、アンカーベースのサブセッティングを実行するステップであって、前記アンカーベースのサブセッティングは、データゾーンを選択することを含む、ステップ；
ＬＣ－ＭＳデータの前記サブセットに塩基コールを実行して、タプルのデータセットを生成するステップ；
前記データセット中のタプルを連結するトラジェクトリを構築して、前記ＲＮＡラダー断片のドラフトリードを生成するステップ；および
ドラフトリードストラテジーを実行するステップ
を含む、方法。
（項目１３）
前記ドラフトリードストラテジーが、リード長さ、平均体積、平均品質スコア（ＱＳ）、または平均百万分率（ＰＰＭ）の少なくとも１つに基づいて、スコア付けすることを含む、項目１２に記載のコンピューターにより実装される方法。
（項目１４）
ＰＰＭが、

に従って決定され、式中、
質量_{ｅｘｐｅｒｉｍｅｎｔａｌ}は、分子タグを含むラダー断片に対応する実験上の質量であり；
質量_{ｔｈｅｏｒｅｔｉｃａｌ}は、理論上の質量である、項目１３に記載のコンピューターにより実装される方法。
（項目１５）
平均ＰＰＭが、ドラフトリードに含有されるデータポイントに関連する全てのＰＰＭ値の合計をリード長さで割った値である、項目１２に記載のコンピューターにより実装される方法。
（項目１６）
トラジェクトリを構築することが、深さ優先探索（ＤＦＳ）アルゴリズムを実行して、考えられる全てのドラフトリードが、前記ＬＣ－ＭＳデータから確実に見出されるようにすることをさらに含む、項目１２に記載のコンピューターにより実装される方法。
（項目１７）
前記ＲＮＡ試料の生化学的な標識付けをさらに含む、項目１２に記載のコンピューターにより実装される方法。
（項目１８）
前記ドラフトリードストラテジーが、グローバル階層ランク付けストラテジーまたはローカルベストストラテジーを含む、項目１２に記載のコンピューターによる方法。
（項目１９）
前記ドラフトリードストラテジーが、ローカルベストストラテジーを含む、項目１２に記載のコンピューターにより実装される方法。
（項目２０）
前記ＲＮＡ分子の異なる断片から完全なＲＮＡ配列をアセンブルするように構成されたアライメント／アセンブリアルゴリズムを実行するステップをさらに含む、項目１２に記載のコンピューターにより実装される方法。

図１は、本発明の開示によるアルゴリズムの配列決定ワークフローのためのフローチャートを示す。

図２は、本発明の開示による質量差に基づく塩基マッチングのためのアルゴリズムを実証する。

図３は、本発明の開示による質量付加物によって隠されたラダー断片の質量を決定するための式を示す。

図４は、本発明の開示による３つのホモポリマーの３’－質量ラダー断片の同時の塩基コールのコンピューターによるシミュレーションを実証する。

図５は、本発明の開示による、その質量、クロマトグラフのＲＴおよび存在度によって定義されるコンピューターアルゴリズムを使用した、５’－ビオチンを標識付けするがビーズ分離を行わない、２０ｎｔのＲＮＡの直接ＬＣ－ＭＳ配列決定を実証する。

図６は、本発明の開示による修飾されたリボヌクレオチドの公知の質量を示す。図６は、本発明の開示による修飾されたリボヌクレオチドの公知の質量を示す。図６は、本発明の開示による修飾されたリボヌクレオチドの公知の質量を示す。図６は、本発明の開示による修飾されたリボヌクレオチドの公知の質量を示す。

図７は、本発明の開示による２次元の質量－保持時間ベースのＲＮＡの直接配列決定のワークフローを示す。

図８は、本開示によるＲＮＡ分子のヌクレオチドの順番を決定するための方法のフローチャートである。

図９は、本発明の開示によるグローバル階層ランク付けアルゴリズムを使用したデータ分析のワークフローを示す。

図１０は、本発明の開示によるローカルベストスコアアルゴリズムを使用したデータ分析のワークフローを示す。

図１１Ａは、本発明の開示によるＬＣ／ＭＳによって検出されたｔＲＮＡのＲＮアーゼＴ１消化による３つの主要な断片、断片Ｉ、ＩＩ、およびＩＩＩの生成を示す。

図１１Ｂは、本発明の開示による試験ｔＲＮＡ配列決定出力データセットの２－ＤＲＴ対質量プロットにおけるデータゾーンの選択を示す。

図１２は、本発明の開示による塩基コールの疑似コードを示す。

図１３は、本発明の開示によるトラジェクトリを構築することによる配列生成の疑似コード／ワークフローを示す。

図１４は、本発明の開示による、最終的なリードとしての最良の全体的なスコア付けドラフトリードの階層ランク付けおよび選択によるドラフトリード選択の疑似コード／ワークフローを示す。

図１５は、本発明の開示によるローカルベストスコアアルゴリズムの疑似コード／ワークフローを示す。

図１６は、本発明の開示による２－ＤＬＣ／ＭＳによる断片ＩＩＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。図１６は、本発明の開示による２－ＤＬＣ／ＭＳによる断片ＩＩＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。

図１７は、本発明の開示による２－ＤＬＣ／ＭＳによる断片ＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。図１７は、本発明の開示による２－ＤＬＣ／ＭＳによる断片ＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。図１７は、本発明の開示による２－ＤＬＣ／ＭＳによる断片ＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。

図１８は、本発明の開示による２－ＤＬＣ／ＭＳによる断片ＩＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。図１８は、本発明の開示による２－ＤＬＣ／ＭＳによる断片ＩＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。

図１９は、本発明の開示による、グローバル階層ランク付けストラテジーとローカルランク付けストラテジーの両方を適用することによる、ｔＲＮＡの断片Ｉの同じデータからの最終的な配列読み出し間の比較を示す。図１９は、本発明の開示による、グローバル階層ランク付けストラテジーとローカルランク付けストラテジーの両方を適用することによる、ｔＲＮＡの断片Ｉの同じデータからの最終的な配列読み出し間の比較を示す。

図２０は、本開示によるＲＮＡ分子のヌクレオチドの順番を決定するための方法のフローチャートである。

図２１は、完全な配列のためにオーバーラップする領域による配列断片／セクションアセンブリを示す。

本発明の開示は、具体的な実施形態に関して記載されることになるが、本発明の開示の趣旨から逸脱することなく様々な修飾、再構成、および置換をなすことができることが当業者には容易に理解されよう。本発明の開示の範囲は、ここに添付される特許請求の範囲によって定義される。

本発明の開示の原理の理解を促進する目的で、ここで図面で例証された例示的な実施形態について述べるが、それを説明するために特定の言語が使用される。しかしながら、それによって本発明の開示の範囲の限定は意図されないことが理解されるものとする。本明細書において例示された発明の特性のあらゆる変更およびさらなる修飾、ならびに本明細書で例示される本発明の開示の原理のあらゆる追加の適用は、関連分野の当業者およびこの開示の所有権を有する者であれば考え付くものと予想され、これらは本発明の開示の範囲内であるとみなされるものとする。

ＲＮＡ配列決定の自動化のために、精度が改善されたアルゴリズムが必要である。本発明の開示は、質量ＲＮＡラダーリング配列決定方法（例えば、その全体が参照により本明細書に組み込まれる米国特許第６２／８３３，９６４号に記載されるもの）と使用するためのアルゴリズムの開発に関する。ＬＣ／ＭＳベースのＲＮＡ配列決定の詳細な議論に関して、米国特許第６２／８３３，９６４号および“A general LC/MS-based RNA sequencing method for direct analysis of multiple-base modifications in RNA
mixtures,” Zhang et. al.（https://doi.org/10.1101/643387で入手可能）を参照することができ、これらの全内容は、参照により本明細書に組み込まれる。

ＲＮＡ配列決定は、核酸配列、すなわちＲＮＡ中のヌクレオチドの順番を決定するプロセスである。これは、４種の塩基：アデニン、グアニン、シトシン、およびウラシルの順番を決定するのに使用されるあらゆる方法または技術を含む。核酸配列を決定することに加えて、本明細書で開示される方法は、核酸配列内のＲＮＡ修飾を同定する、位置決定する、および定量することもできる。

開示されるアルゴリズムは、実験データとシミュレートしたデータとの間の相互の検証をもたらすコンピューターによるシミュレーションを含む。シミュレーションは、増加した長さを有するＲＮＡ分子に加えてＲＮＡの混合物を有する多様なＲＮＡ試料をプローブするための手段を提供する。階層クラスタリングアルゴリズムは、例えばＡｇｉｌｅｎｔの分子フィーチャアルゴリズムから得られたモノアイソトピック質量データからＲＮＡ配列生成を自動操作するために使用されてきた。例えばＰｙｔｈｏｎベースのアルゴリズムは、短いＲＮＡには十分機能するが、ｔＲＮＡからのＬＣ／ＭＳデータを流すと、顕著に速度が落ち、アルゴリズムによって生成されたＲＮＡ配列中の誤り率が増加したことが見出され、これは、コンピューターによるデータセットからの作業負荷の増加とｔＲＮＡ試料の複雑さに起因する可能性がある。７６ヌクレオチドの長さのｔＲＮＡは、このアルゴリズムが元々誘導された２０ｎｔのＲＮＡより実質的に長い。さらに、ｔＲＮＡは、１１個の異なる化学修飾（以下の表１を参照）を有する。化学修飾とＲＮＡ長さの両方における増加は、Ｐｙｔｈｏｎベースのアルゴリズムの能力に対する挑戦であっただけでなく、誤り率の問題を著しくする。約２０ヌクレオチドの長さを有する短いＲＮＡの場合、２つの隣接するラダー成分間の質量差を手作業で計算して、アルゴリズムからの各配列読み出しの精度を検証することができる。それより長いＲＮＡの場合、この手作業での検証は、より課題が多くなり、より効率が低くなる。ＲＮＡ配列生成および修飾分析の自動化のために、よりロバストな方法を開発することが、特に、より高い複雑さでより長い細胞ＲＮＡ試料の配列決定が進行する場合の、ＭＳベースの配列決定データの精度を検証するための手段を提供することになる。本明細書で開示されるアルゴリズムは、より優れた精度のために、二方向の配列決定再確認を介してＲＮＡ配列決定方法の精度を改善するように設計される。アルゴリズムは、（ｉ）ＭＳデータから提唱されたドラフト配列リードに読み出すステップ、（ｉｉ）提唱されたドラフト配列リードから理想的なラダーパターンにシミュレーションするステップ、および（ｉｉｉ）どの程度よくそれらがフィットするかを見るために再確認するステップを含む。

表1. LC/MSによるtRNAの配列決定を介して同定された修飾された塩基の要約

ＭＳベースのＲＮＡ配列決定方法は、分解条件を制御して、配列決定のための明確な質量ラダーを生成するが、化学的／酵素分解ステップにおけるラダー断片を生成するプロセスが、３’または５’末端を有さない内部断片の産出を引き起こす可能性がある。本明細書で開示されるアルゴリズムの使用は、望ましくないＲＮＡオリゴヌクレオチド断片をクラスタリングすることを介してそれらを一緒につなぎ合わせること、およびコンピューターによるシミュレーションによって、配列アライメントのための内部断片を利用するための手段を提供する。本開示のアルゴリズムはまた、例えばＭＳベースの配列決定で使用するためのより短いＲＮＡを生産するのに断片化が利用される場合、長い配列を有するＲＮＡのための配列アライメントの精度を増加させることも助ける。

一態様において、本開示のアルゴリズムは、様々なＲＮＡ配列決定方法と共に使用することができる。１つのこのような非限定的な方法は、（ｉ）ＲＮＡ分子の５’および３’末端を親和性により標識付けするステップ；（ｉｉ）標識されたＲＮＡをランダムに分解するステップ；（ｉｉｉ）必要に応じて、５’および３’末端が標識された断片を分離するステップ；（ｉｖ）逆相高速液体クロマトグラフィー（ＨＰＬＣ）を使用して、得られた標的ＲＮＡ断片を分離するステップ；および（ｉｖ）配列／修飾同定のために、高分解能質量分析で、得られた質量ラダーを逐次的に分析するステップを含む。このようなＲＮＡ配列決定方法は、本明細書では５’および３’ラダープールと称される、分解されたＲＮＡ断片の２つのラダープールの形成および逐次的な物理的分離に基づき、これは次いで、ＲＮＡ配列に加えて、ＲＮＡ修飾の存在、タイプ、位置および量のＨＰＬＣおよびＭＳ決定のために、ＬＣ／ＭＳに供される。有利には、本明細書で開示されるアルゴリズムは、得られたＬＣ／ＭＳ誘導されたデータを分析するために利用される。

一態様において、本発明の開示のアルゴリズムは、様々なＲＮＡ配列決定方法と共に使用することができる。１つのこのような非限定的な方法は、（ｉ）ＲＮＡ分子の５’および３’末端を異なるタグで化学的に標識付けするステップ；（ｉｉ）標識されたＲＮＡをランダムに分解するステップ；（ｉｉｉ）逆相高速液体クロマトグラフィー（ＨＰＬＣ）を使用して、得られた標的ＲＮＡ断片を分離するステップ；および（ｉｖ）配列／修飾同定のために、高分解能質量分析で、得られた質量ラダーを逐次的に分析するステップを含む。

開示されるアルゴリズムは、全てのタイプのヌクレオチドがＬＣ－ＭＳデータにおいてそれらの固有の質量および保持時間（ＲＴ）の特性を有するという事実に基づいて、４種の正規のリボヌクレオチドの正体および位置だけでなく、異なるタイプの修飾されたリボヌクレオチドの正体および位置も、それぞれ個々に、および／またはそれらの逐次的な順番で認識する。アルゴリズムは、広範な異なるＲＮＡ修飾の存在、タイプ、位置および量を明らかにした配列を自動的に生成する。アルゴリズムは、配列リードを生成するための、質量および保持時間（ＲＴ）、体積、および品質スコアなどのＬＣ／ＭＳの特徴的な特性を利用し、各正規のリボヌクレオチドおよび非正規の塩基修飾の正体および位置を明らかにするＲＮＡ配列をｄｅｎｏｖｏ生成することができる。質量、ＲＴ、体積および品質スコア（ＱＳ）などのアルゴリズム開発のために使用されるデータは、他のいかなる処理も用いずに、ＬＣ／ＭＳワークステーションから直接エクスポートされた。アルゴリズムを、ｔＲＮＡ（ｔＲＮＡ（醸造酵母由来のフェニルアラニン特異的なもの）で試験したところ、その配列読み出しが正確であることが検証された。

図１を参照すれば、本発明の開示によるアルゴリズムの配列決定ワークフローのためのフローチャートが示される。本明細書で開示されるアルゴリズムにおいて（図１）、有利にＬＣ／ＭＳデータ１０２の強度を使用するため、およびデータ中に存在し得る「ノイズ」の量を明らかにするために、数々のステップが採用される。第１のステップ１０４において、データを質量に基づきフィルタリングし、配列決定において有用であるには小さすぎる質量を消去する。次いで、ステップ１０６において、残存するデータポイントは、ＲＴにおいて近い隣接するラダー断片化合物間の質量差に基づいて配列決定される。ランダムな化合物から開始して、アルゴリズムは、ＲＴにおいて近接している隣接する化合物を同定し、２つの化合物間の質量差を計算する（図２を参照）。ＲＮＡ断片またはラダー断片という用語は、本明細書で使用される場合、ＬＣ／ＭＳによって測定された１つの化合物であり、これはまた、２－Ｄ質量－ＲＴプロットにおける１つのドットでもある。ステップ１０８において、質量差が、４種の正規のヌクレオチド：Ａ、Ｕ、Ｃ、Ｇ、または１１０種を上回る公知の修飾されたＲＮＡ塩基のデータベースからの修飾された塩基の１つの質量と一致する場合、その塩基は、配列決定リードの一部として保存される。次いでアルゴリズムは、有効な化合物がもはや見出されなくなるまで、または有効な正規のヌクレオチドまたは修飾されたヌクレオチドをもたらす質量差を生じると予想される化合物がもはや見出されなくなるまで、次の化合物を見出すための同じセットのルールに従い続ける。アルゴリズムが塩基対の全てを読み出すことができる場合（１２２）、その配列が報告される（１１６）。好ましい実施形態において、天然全長ＲＮＡ配列が決定される。配列中に何らかのギャップがある場合、アルゴリズムは補助ステップに進む。

補助ステップにおいて、階層クラスタリングアルゴリズム１２８は、関連する質量付加物を同定するのに使用される。様々な実施形態において、質量に加えてＲＴを考慮に入れる距離メトリックを使用して、階層クラスタリングアルゴリズム１２８は、各クラスターが真のラダー断片の可能性のある質量付加物を含有するように、それらの質量関係に基づいて化合物をグループ分けする。データの複雑さを下げるために、すでに以前のステップで配列決定されたポイント、したがって引き続きそれらの関連する質量クラスターは、階層クラスタリングステップから排除されることになる。ステップ１３０において、一旦質量クラスターが同定されたら、質量を付加物の質量に対して試験して、異なる質量付加物断片を生じさせるラダー断片の真の質量を決定することになる。アルゴリズムは、図３中の式により同定されたラダー断片の質量に等しい質量、およびその質量クラスターにおけるＲＴの平均に等しいＲＴを有する新しいデータポイントを産出することになる。クラスタリングステップを介して新しい質量を同定した後、配列決定アルゴリズムを再度試行して（１３２）、新しい配列決定リードを生成する。最後に、２ステップからの配列決定リードを合わせて、配列１３４の完全な読み出しを生成する。

図３を参照すれば、本発明の開示による質量付加物によって隠されたラダー断片の質量を決定するための式が示される。最初に、ステップ３０２において、質量のクラスターを決定する。例えば質量のクラスターは、質量Ａ、Ｂ、およびＣを含んでいてもよい。次に、ステップ３０４において、付加物を決定する。例えば、０、ａ１、およびａ２。次に、ステップ３０６において、質量差を決定する。次に、ステップ３０８において、質量差を比較する。例えば、Ａ－ａ１＝Ｂ－ａ２＝Ｃ－ａ３は、およそ１０ｐｐｍの差以内である。ステップ３１０において、質量は、ステップ３０８により同定されたラダー断片の質量に等しい。例えば、Ａ－ａ１は、ラダー断片の質量である。

酸分解をブロックする２’－ヒドロキシル基にＲＮＡ修飾がある事象において、２’－Ｏ位におけるブロッキング基によって生じるギャップを埋めるために、異なるアプローチが採用されると予想される。ＲＮＡ修飾、例えば、ＲＮＡの２’－ヒドロキシル基におけるメチル化は、隣接する３’－５’－ホスホジエステル結合を非加水分解性にし、１つより多くのヌクレオチドである５’－および３’－質量ラダーファミリーの両方において質量ギャップを産出する。結果として、２’－Ｏ位における単一の修飾と２つのヌクレオチドの組合せが存在することが決定されるが、それらの順番は不明である。このような曖昧さを解消するために、シミュレートされた２’－Ｏで修飾された配列に対して観察されたＬＣ／ＭＳデータ１０２を一致させるのにコンピューターによるシミュレーションが使用され、したがってこれらの分析からの結果は、２’－Ｏ位に修飾が存在する場合、よく一致すると予想される。加えて、従来のＲＮＡ配列決定プラットフォームを介して、完全なヌクレオチド配列をアセンブルすることができる。代替として、ジヌクレオチド断片の構造を解明するために、２’－Ｏで修飾された二量体断片に、衝突誘導解離（ＣＩＤ）ＭＳを実行することができる。

様々な実施形態において、配列決定プロセスの最後のステップは、新しい配列または最終的な配列のためのチェックとして機能するように、データ中の複数の内部断片の存在を関連付けることである。質量クラスター中に含まれない、または配列決定リードで使用される質量を４種の正規の塩基の平均値で割り、それらの配列長さを推測する。様々な実施形態において、長さが３から６塩基の配列を、長さが３から６塩基の内部断片の生成した質量のリストと比較して、正確な一致ｔを見出す。これらの短い断片は、配列中のギャップを埋めたり、または配列の精度を確認したりするのに使用することができる。

様々な実施形態において、望ましい断片および／または１つより多くの切断を有する望ましくない断片のｍ／ｚデータを含有するＬＣ－ＭＳから誘導された生データは、ＭａｓｓＨｕｎｔｅｒ（商標）ソフトウェアに内蔵されたＡｇｉｌｅｎｔの分子フィーチャアルゴリズムを使用して、全ＬＣの試行にわたりデコンボリューションしてもよく、これは、その後、配列アライメントのために使用される。質量付加物は、デコンボリューションされたデータから除去でき、その配列は、質量および保持時間データの両方を使用して予測／生成されることになる。保持時間と組み合わされた断片に関するｍ／ｚデータを分析し、開発されたサポートベクターマシン（ＳＶＭ）分類器アルゴリズムを使用して分類して、どのデータポイントが「有効」であり、それに続く配列決定のために使用されるべきか、およびどのデータポイントがフィルタリングで除外されるべきかを決定する。データ整理ステップの後、２つの隣接するＲＮＡラダー断片間の質量差（ｍ）は、ｍ＝ｍ（ｉ）－ｍ（ｉ－１）、１＜ｉ＜ｎ、ｎ＝ＲＮＡ長さであり、式中、ｍ（ｉ）は、任意のラダー断片の質量であり、ｍ（ｉ－１）は、その前のより低い質量のラダー断片であり、正規のヌクレオチドおよびそれらの修飾の正体を決定するために、質量差に基づいて誘導されたＲＮＡ配列決定情報を相関させるように設計された探索アルゴリズムを使用して、このような質量差を、公知のヌクレオチド断片の正確な質量と一致させる。ＲＮＡヌクレオシドにおける構造的な修飾が質量を変更するものである限り、探索アルゴリズムおよびダイナミックプログラミング方法は共に、ＲＮＡ配列の同定およびその修飾の同定を許容すると予想される。様々な実施形態において、公知の修飾されたリボヌクレオチドの質量は、公知のＲＮＡ修飾データベースから、または図６に示される表の使用を介してうまく検索することができる。

図４を参照すれば、本発明の開示による３つのホモポリマーの３’－質量ラダー断片の同時の塩基コールのコンピューターによるシミュレーションが示される。配列アライメントのための１つより多くのカットを有する望ましくない断片の利用に加えて、配列決定精度を増加させるために、ＲＮＡ配列生成の自動化のためのアルゴリズムをトレーニングするシミュレーションが導入される。実験室とｉｎｓｉｌｉｃｏの両方におけるランダムな配列を有するＲＮＡのＭＳライブラリーを構築し、配列生成についてアルゴリズムを試験した。例えば化学修飾および複数のＲＮＡ鎖が導入されることによって、困難さが段階的に増加した（図４）。加えて、実験室とｉｎｓｉｌｉｃｏの両方において、混成のＲＮＡ試料の配列決定が可能になるようにリード長さおよびスループットについてアルゴリズムを試験し、理論上／シミュレーションおよび実験データからの配列読み出しを比較した。

図８を参照すれば、本発明の開示によるＲＮＡ分子のヌクレオチドの順番を決定するための方法８００を例示する流れ図が示される。最初に、ステップ８０２において、システムは、ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データを受け取る。ＬＣ－ＭＳデータは、質量、保持時間（ＲＴ）、および体積を含む。様々な実施形態において、ＲＮＡ分子の長さは、２０ヌクレオチドより大きい。様々な実施形態において、１つまたは複数のＲＮＡ分子は、配列決定されるＲＮＡ試料中に存在する。様々な実施形態において、ＲＮＡ試料は、多様性が限定された精製されたＲＮＡ試料を含んでいてもよい。様々な実施形態において、ＲＮＡ試料は、治療用ＲＮＡ分子を含んでいてもよい。

次に、ステップ８０４において、システムは、質量に基づいてＬＣ－ＭＳデータをフィルタリングし、フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む。様々な実施形態において、データは、質量に基づいてフィルタリングされ、配列決定において有用であるには小さすぎる質量を消去する。

次に、ステップ８０６において、システムは、フィルタリングされたＬＣ－ＭＳデータを配列決定して、ＲＮＡ配列を生成する。配列決定は、ステップ８０８～８１２を含む。ステップ８０８において、システムは、２つの隣接する化合物がＲＴにおいて近いかどうかを決定する。次に、ステップ８１０において、システムは、２つの隣接するラダー断片間の質量差を決定する。様々な実施形態において、システムは、ランダムな化合物から開始して、ＲＴにおいて近接している隣接する化合物を同定し、２つの化合物間の質量差を計算することができる（図２を参照）。

次に、ステップ８１２において、システムは、質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも１つに等しいかどうかを決定する。様々な実施形態において、システムは、質量差が、４種の正規のヌクレオチド：Ａ、Ｕ、Ｃ、Ｇ、または１１０種を上回る公知の修飾されたＲＮＡ塩基のデータベースからの修飾された塩基の１つの質量と一致するかどうかを決定する。次に、ステップ８１４において、システムは、メモリー中に、配列決定リードの一部として、決定された質量差に基づき有効なヌクレオチドとして結果を保存する。

次に、ステップ８１６において、システムは、有効なヌクレオチドをもたらす質量差を生じると予想されるいずれか２つの隣接する化合物がＬＣ－ＭＳデータ中に残存しているかどうかを決定する。様々な実施形態において、次いでアルゴリズムは、有効な化合物がもはや見出されなくなるまで、または有効な正規のヌクレオチドまたは修飾されたヌクレオチドをもたらす質量差を生じると予想される化合物がもはや見出されなくなるまで、次の化合物を見出すためのステップ８０８～８１２のための同じセットのルールに従い続ける。様々な実施形態において、システムは、それが塩基対の全てを読み出すことができるかどうかを決定する。様々な実施形態において、配列中に何らかのギャップがある場合、アルゴリズムは補助ステップに進む。

様々な実施形態において、補助ステップにおいて、システムは、ギャップに基づく有効なヌクレオチドを生じなかった何らかの残存する化合物があるかどうかを決定する。何らかのギャップがある場合、システムは、化合物に対して階層クラスタリングアルゴリズムを実行して、関連する質量付加物を同定する。様々な実施形態において、階層クラスタリングアルゴリズムは、化合物の質量とＲＴに基づいて距離メトリックを決定すること、各断片が真のラダー断片の可能性のある質量付加物を含むように、化合物を、その質量の関係に基づいて、質量のクラスターにグループ分けすることを含む。様々な実施形態において、すでに以前のステップで配列決定されたポイント、したがって引き続きそれらの関連する質量クラスターは、階層クラスタリングステップから排除されることになる。

様々な実施形態において、システムは次いで、同定された質量付加物と質量のクラスターとの間の項目ごとの比較に基づいて、各クラスターにつき断片の質量を決定する。様々な実施形態において、システムは次いで、各クラスターにつき、決定された質量に基づいてラダー断片を予測する。様々な実施形態において、システムは次いで、予測されたラダー断片に基づいてＲＮＡ配列を読み出し、ＲＮＡ配列を報告する。

次に、ステップ８１８において、システムは、残存するＬＣ－ＭＳデータ中に残存する有効なヌクレオチドがないことを決定することに基づいて、ＲＮＡ配列を読み出す。次に、ステップ８２０において、システムは、ＲＮＡ配列を報告する。様々な実施形態において、システムは、ディスプレイ上にＲＮＡ配列を表示することができる。

様々な実施形態において、液体クロマトグラフィー－質量分析（本明細書ではＬＣ－ＭＳと称される）ベースのＲＮＡ配列決定方法は、単一ヌクレオチド分解能で標的ＲＮＡ分子のヌクレオチド配列を同時に決定する、加えて、標的ＲＮＡ修飾の存在を検出するのに使用することができる。開示される方法は、標的ＲＮＡ試料内の各修飾のタイプ、位置および量を決定するのに使用することができる。このような技術は、あらゆる所与のＲＮＡ分子の生物学的機能とその関連する修飾との相関を示すために、さらに、ＲＮＡベースの治療剤の品質管理のために、有利に使用することができる。

様々な実施形態において、図８の上記の方法８００は、その末端の５’末端またはその末端の３’末端のいずれかにおける、ビオチンのような疎水性タグでの配列決定されるＲＮＡの末端標識付けとそれに続く断片化したラダーＲＮＡの生成に依拠する、液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）ベースのＲＮＡ配列決定技術を含んでいてもよい。様々な実施形態において、方法８００は、各正規のリボヌクレオチドおよび非正規の塩基修飾の正体および位置を明らかにするＲＮＡ配列をｄｅｎｏｖｏ生成するために、質量および保持時間（ＲＴ）、体積、ならびに品質スコアなどの特徴的なＬＣ／ＭＳの特性を利用する。方法８００は、広範な異なるＲＮＡ修飾の存在、タイプ、位置および量を明らかにした配列を生成することを含んでいてもよい。

図９および１０を参照すれば、ドラフトリードストラテジーを実行するための方法が示される。様々な実施形態において、アルゴリズムは、データの前処理、塩基コール、配列生成、および具体的な方式でフォーマット化されたＬＣ－ＭＳからの出力である入力データセットにおける出力のフィルタリングを実行する。例えば、ＭａｓｓＨｕｎｔｅｒ（商標）取得ソフトウェア（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ（商標）、ＵＳＡ）を使用して、試料データを取得した。ＬＣ－ＭＳ実験から収集されたデータから関連する液体クロマトグラフおよび質量スペクトル（ＬＣ－ＭＳ）情報を抽出するために、ＭａｓｓＨｕｎｔｅｒ（商標）定性分析（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ（商標）、ＵＳＡ）における分子フィーチャ抽出（ＭＦＥ）ワークフローを使用した。この権利化された分子フィーチャ抽出（ＭＦＥ）アルゴリズムは、それぞれその固有の質量および保持時間の範囲を有する全ての可能性のある化合物を見出す標的化されないフィーチャを実行する。ソフトウェアのＭＦＥ設定を、実験に使用されるＲＮＡの量に応じて変更した。本発明者らが適用したＭＦＥ設定は以下の通りであった：「質量中心データフォーマット、小分子（クロマトグラフ）、５００以上、最大１０００までの高さを有するピーク、品質スコア≧３０」。それぞれグローバル階層ランク付けストラテジーおよびローカルベストスコアストラテジーを実装するアルゴリズムの２つのバリエーションがある（図９および図１０）。他のソフトウェアを使用できることが企図される。

図１１Ａを参照すれば、本発明の開示によるＬＣ／ＭＳによって検出されたｔＲＮＡのＲＮアーゼＴ１消化による３つの主要な断片、断片Ｉ、ＩＩ、およびＩＩＩの生成が示される。図１１Ａを参照すれば、本発明の開示による試験ｔＲＮＡ配列決定出力データセットの２－ＤＲＴ対質量プロットにおけるデータゾーン９０６の選択が示される。データの前処理９０４は、アルゴリズムが、データゾーン９０６、例えば全ての質量ラダー成分がビオチンタグを有するトップゾーンの選択によって、入力データセットの特定のサブセットに同時に焦点を当てるためのステップである。ビオチン標識の疎水性は、標識されていないラダー成分と比較して、ラダー成分のＲＴ値の有意な増加をもたらす。

様々な実施形態において、アルゴリズムで解析する前に、データセット９０４をサブセット化する理由が少なくとも２つある。第１の理由は、配列決定に必要な質量ラダーを同定し、データセットからノイズデータを消去するためである。第２の理由は、完全なデータセットというより部分的なデータセットを処理するために、アルゴリズムを簡単にするためである。様々な実施形態において、これは、本発明者らは、実験的に配列決定されるＲＮＡにビオチンまたはＣｙ３のような疎水性タグを導入したため、可能である。標識の疎水性は、標識されていないラダー成分と比較して、ラダー成分のＲＴ値の有意な増加をもたらし、本発明者らが２－Ｄ質量－ＲＴプロットにおいて標識された質量ラダーを容易に同定できるように、全ての標識された質量ラダー成分をトップゾーンにシフトアップすることを助ける。ここで本発明者らは、試験ｔＲＮＡ配列決定からのデータポイントの図式的な分布を示す（図１１Ａおよび１１Ｂ）。アルゴリズムは、同時に１つの断片の配列を読み出すために、１つの群に「ズームイン」する。データセットのサブセット化は、ウィンドウ中の入力データセットのＲＴおよび質量値をリファインすること、および各断片の開始データポイントを特定することによって実装される。これは、分子タグは各断片の末端に付加されており、タグのＲＴおよび質量特性は公知であることから実現可能である。それゆえに、分子タグに対応する開始データポイントを特定することによって、データセット全体からの断片に対応するデータポイントが捕まえられるため、アルゴリズムはアンカーベースと呼ばれる。

図１２を参照すれば、本発明の開示による塩基コール９０８の疑似コードが示される。データセットをサブセット化した後、アルゴリズムは、塩基コール９０８を実行する。塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量は、Ｍ_ＢＡＳＥのリストとして保存される。第１の反復適用において、アルゴリズムは、分子タグ（アンカー）９１０に対応する質量を見出し、この質量に等しいＭ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｉ}を設定する。アルゴリズムは、リストからの各Ｍ_ＢＡＳＥを、Ｍ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｉ}にそれを加え、理論上の合計質量Ｍ_{ｔｈｅｏｒｅｔｉｃａｌ＿ｊ}を得ることによって試験する。アルゴリズムは、Ｍ_{ｔｈｅｏｒｅｔｉｃａｌ＿ｊ}と一致する質量値のためのデータセットにわたり検索する。一致する質量値Ｍ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｊ}が存在する場合、結果セットＶ中に、タプル（Ｍ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｉ}、塩基、Ｍ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｊ}）が保存される。アルゴリズムはリスト中の全てのＭ_ＢＡＳＥを試験し、考えられる全ての一致を探すため、セットＶ中に、同じＭ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｉ}を有するが異なる塩基正体およびＭ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｊ}を有する複数のタプルが保存される。アルゴリズムが、一致が存在するかどうかを決定する場合、実験上の質量が同じリボヌクレオチドの理論上の質量からわずかに逸脱する可能性がある実験誤差を考察に入れる。本発明者らは、カスタマイズ可能な範囲内でＭ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｊ}をＭ_{ｔｈｅｏｒｅｔｉｃａｌ＿ｊ}と一致させることができる計算されたパラメーターであるＰＰＭ（百万分率）を実装した。ＰＰＭのための式は、

である。アルゴリズムは、考えられる全てのタプルがセットＶに保存されるまで、全てのデータポイントに対して塩基コールを実行する。ここで留意すべきことに、セットＶ中の各タプルは、個々の塩基コールの可能性を表す。

図１３を参照すれば、本発明の開示によるトラジェクトリを構築することによる配列生成の疑似コード／ワークフローが示される。様々な実施形態において、塩基コールの後、アルゴリズムは、セットＶ中のタプルを連結するトラジェクトリを構築して、ＲＮＡ断片の配列を生成する。セットＶからのタプルを頂点として採用して、アルゴリズムは、所与のタプルの対（Ｍ_ｉ、塩基、Ｍ_ｊ）および（Ｍ_ｋ、塩基、Ｍ_ｌ）につきＭ_ｋ＝Ｍ_ｊになるように、タプルの対を検査することによって全てのエッジを見出し、保存する。アルゴリズムは、エッジを見出しながらグラフＧ＝（Ｖ、Ｅ）を生成する。グラフＧが完成したら、アルゴリズムは、深さ優先探索（ＤＦＳ）によってグラフＧ中の全てのパスを見出す。全てのパスは、頂点のセットとして保存される。パス中に含有される頂点はタプル（Ｍ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｉ}、塩基、Ｍ_{ｅｘｐｅｒｉｍｅｎｔａｌ＿ｊ}）であるため、塩基は、ＲＮＡ配列のドラフトリード９１２として出力することができる。

様々な実施形態において、ＬＣ－ＭＳからの出力は膨大な数のデータポイントを含有するため、グラフＧは、同じ数の頂点を含有し、さらには膨大な数のエッジも含有し、結果として、それぞれドラフトリードを表す莫大な数の総パスをもたらす。正しい配列を報告するためにドラフトリードを効果的にフィルタリングするために、２つのドラフトリード選択ストラテジー、すなわちグローバル階層ランク付けストラテジー９００およびローカルベストスコアストラテジー１０００が開発された。それでもなお、どちらのストラテジーも、ドラフトリード９１４をスコア付けするのに、ＰＰＭ、ＲＴ、体積、品質スコア（ＱＳ）、リード長さを含む、ＬＣ－ＭＳデータセットから取得された同じパラメーターを使用する。

図１４を参照すれば、本発明の開示による、最終的なリードとしての最良の全体的なスコア付けドラフトリードの階層ランク付けストラテジー９００および選択によるドラフトリード選択の疑似コード／ワークフローが示される。様々な実施形態において、グローバル階層ランク付けストラテジーでは、ドラフトリードは、以下の基準：リード長さ、平均体積、平均ＱＳ、および平均ＰＰＭを用いて、配列生成ステップの後にスコア付けされる。リード長さは、ドラフトリード中の塩基の数である。平均体積は、ドラフトリード中の各データポイントに関連する体積を合計し、その合計をリード長さで割ることによって計算される。平均ＱＳは、各ドラフトリードにつきＱＳの合計をリード長さで割ることによって計算される。平均ＰＰＭは、ドラフトリードに含有されるデータポイントに関連する全てのＰＰＭ値の合計をリード長さで割った値である。グローバル階層ランク付けストラテジーの第１のステップは、全てのドラフトリードを、それらのリード長さに基づいてクラスターにグループ分けし、各クラスターは、リード長さに応じたランク付けスコアが割り当てられる。最も高いランク付けを受け取るクラスターは、トップのリード長さを有するドラフトリードを含有し、アルゴリズムは、それに続くステップで、このクラスターに焦点を当てる。このクラスター内で、ドラフトリードは、平均体積値に基づいてその次にランク付けされるスコアが割り当てられ、ここで、より高い平均体積を有するドラフトリードは、より高いランク付けを受け取る。１つより多くのドラフトリードが同じリード長さおよび平均体積値を有し、したがって同じランク付けを受け取る場合では、アルゴリズムは、これらのドラフトリードを再びランク付けするのに平均ＱＳ値を使用し、ここで、より高い平均ＱＳ値は、より高いランクをもたらす。それでもなお同じランクを受け取る複数のドラフトリードがある場合、アルゴリズムは、これらのドラフトリードを再びランク付けするのに平均ＰＰＭ値を使用するが、ＰＰＭは、観察された質量値と、ＬＣ－ＭＳからの質量ラダー成分の各データポイントに関連するその理論上の質量値との差を反映するため、より高いランクは、より低い平均ＰＰＭ値を有するドラフトリードに割り当てられる。最終的に、階層ランク付け手順において、最も長いリード長さ、最も大きい平均体積、最も高い平均ＱＳおよび最も低い平均ＰＰＭを有するドラフトリードが、全ての他のドラフトリードに勝り、それが、配列の最終的なリードとして出力されることになる。

図１５を参照すれば、本発明の開示によるローカルベストスコアストラテジー１０００の疑似コード／ワークフローが示される。代替として、ローカルベストスコアストラテジー１０００は、塩基コールのステップからの以前のストラテジーとは異なる。様々な実施形態において、ローカルベストスコアストラテジー１０００のアルゴリズムは、アンカーベースの方法１０１０を適用して、質量の順番を昇順にすることによって予備的にソートされたＬＣ－ＭＳデータセットの具体的なサブセットに焦点を当てる。様々な実施形態において、これは、ユーザー定義のアンカー質量によって開始のリボヌクレオチドを突き止め、断片全体からのデータポイントをアンカーによって配置する。様々な実施形態において、これらのデータポイントに焦点を当てることで、アルゴリズムはここで、塩基コールを実行し、同時に各データポイントを評価する。様々な実施形態において、望ましいゾーン中の全てのデータポイントはここでノードとみなされ、アルゴリズムは、各ノードの評価に基づいて、最終的なリードとして単一のパスを完成させる。現時点でのノードに対して、以前のノード（アンカーとして初期設定された）からのその質量差を、正体の一致に関して全ての公知のリボヌクレオチドの質量のリストと比較する。一致は、このノードのＰＰＭ値が、ある特定の閾値未満である場合にのみ承諾される。ｔＲＮＡ試料を含む試験データにおいて、この閾値は１０と特定されたが、常に実際のＬＣ－ＭＳデータセットに対してカスタマイズされるべきである。一致（またはそれ以外の場合、ミスマッチ）を承諾または拒絶した後、アルゴリズムは、一致したリボヌクレオチドの正体を保存し、次のノードに進む。それらのＲＴに基づいて、常に数々の可能性のある次のノードが存在する。最も大きい体積を有するノードが選択されることになるが、例外として、ノードが著しく小さいＰＰＭ値（０に近い）を有する場合、このノードは、より高い体積を有する他のノードを超えて選択されることになる。アルゴリズムはここで、選択されたノードの正体の一致について検索し、その一致を評価し、リボヌクレオチドの正体を保存する。このプロセスは、望ましいデータゾーン中の配列が読み出されるまで繰り返される。酵母からのｔＲＮＡ^ＰｈｅのｄｅｎｏｖｏＭＳ配列決定の一例。

図１６は、２－ＤＬＣ／ＭＳによる断片ＩＩＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。ａ）断片ＩＩＩの３’末端を、Ａ（５’）ｐｐ（５’）Ｃｐ－ＴＥＧ－ビオチン－３’およびＴ４ＲＮＡリガーゼの使用によってビオチンタグで標識した。ストレプトアビジンがカップリングされたビーズの助けによる捕捉および放出の後、得られた断片ＩＩＩを、酸分解とそれに続くＬＣ／ＭＳ分析に供した。概略図は、ラダー成分の全ての３’末端に導入されたビオチンタグによって引き起こされた可能性のあるｔ_Ｒ－質量シフトを示す／予測する。ｂ）配列決定のために、２－ＤＬＣ／ＭＳデータ１０２からの断片ＩＩＩの３’－ビオチン標識質量ラダーを同定する。一番上の曲線（点線の赤色のラインの上）における配列を、ローカルベストスコアストラテジー（ＳＩ）を使用するＰｙｔｈｏｎでコードされたアルゴリズムによって自動的にｄｅｎｏｖｏ生成した。Ｋ：ｍ^１Ａ。

図１７は、２－ＤＬＣ／ＭＳによる断片ＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。ａ）断片Ｉの５’末端を脱リン酸化し、その後ビオチンタグで標識した。ストレプトアビジンがカップリングされたビーズの助けによる捕捉および放出の後、得られた断片Ｉを、酸分解とそれに続くＬＣ／ＭＳ分析に供した。概略図は、ラダー成分の全ての５’末端に導入されたビオチンタグによって引き起こされた可能性のある質量－ＲＴシフトを示す／予測する。ｂ／ｅ）配列決定のために、２－ＤＬＣ／ＭＳデータ（一番上の赤色の点線の上）からの断片Ｉの５’－ビオチン標識質量ラダーを同定する。一番上の曲線における配列を、ローカルベストスコアストラテジーを使用するＰｙｔｈｏｎでコードされたアルゴリズム（ｂ）またはグローバル階層ランク付けストラテジーを使用するＪＡＶＡ（登録商標）でコードされたアルゴリズム（ｅ）のいずれかによって自動的にｄｅｎｏｖｏ生成した。ｃ）ＬＣ／ＭＳ分析のために、断片Ｉを、まったく標識付けせずに直接酸分解したが、これは、その５’末端に末端ＰＯ_４ ^－を有し、これは、ローカルベストスコアストラテジーを使用するＰｙｔｈｏｎでコードされたアルゴリズム（ｄ）を自動的に使用する断片Ｉの配列のｄｅｎｏｖｏ生成のための質量タグとしてプログラム化することができる。

図１８は、２－ＤＬＣ／ＭＳによる断片ＩＩのＤｅｎｏｖｏ配列決定のためのストラテジーを示す。ａ）断片ＩＩの５’末端を、方法のセクションで説明した化学を用いてビオチンタグで標識した。ストレプトアビジンがカップリングされたビーズの助けによる捕捉および放出の後、得られた断片ＩＩを、酸分解とそれに続くＬＣ／ＭＳ分析に供した。概略図は、ラダー成分の全ての５’末端に導入されたビオチンタグによって引き起こされた可能性のあるｔ_Ｒ－質量シフトを示す／予測する。ｂ～ｃ）配列決定のために、２－ＤＬＣ／ＭＳデータからの断片ＩＩの５’－ビオチン標識質量ラダーを同定する。一番上の曲線における配列を、ローカルベストスコアストラテジーを使用するＰｙｔｈｏｎでコードされたアルゴリズム（ｂ）およびグローバル階層ランク付けストラテジーを使用するＪＡＶＡ（登録商標）でコードされたアルゴリズム（ｃ）によって自動的にｄｅｎｏｖｏ生成した。

図１９は、グローバル階層ランク付けストラテジーとローカルランク付けストラテジーの両方を適用することによる、ｔＲＮＡの断片Ｉの同じデータからの最終的な配列読み出し間の比較を示す。ａ）最終的な配列リードは、５’末端からのｔＲＮＡの断片Ｉの配列と完全に一致しており、これは、両方のグローバル階層ランク付けが、効果的に配列を生成できることを意味する。ｂ）グローバル階層ランク付けを使用するＪＡＶＡ（登録商標）でコードされたアルゴリズムを、自動的に断片Ｉの配列のｄｅｎｏｖｏ生成に適用した。

図２０を参照すれば、本発明の開示によるＲＮＡ分子のヌクレオチドの順番を決定するための方法２０００を例示する流れ図が示される。最初に、ステップ２００２において、システムは、ＲＮＡ試料の液体クロマトグラフィー－質量分析（ＬＣ－ＭＳ）データを受け取る。ＬＣ－ＭＳデータは、質量、保持時間（ＲＴ）、および体積を含む。ＲＮＡ試料は、ＲＮＡ断片を含む。様々な実施形態において、コンピューターにより実装される方法は、ＲＮＡ試料の生化学的な標識付けをさらに含む。

次に、ステップ２００４において、システムは、塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量を含むデータベースにアクセスする。次に、ステップ２００４において、システムは、ＬＣ－ＭＳデータに、アンカーベースのサブセッティングを実行し、アンカーベースのサブセッティングは、データゾーンを選択することを含む。

次に、ステップ２００６において、システムは、ＬＣ－ＭＳデータのサブセットに塩基コールを実行して、タプルのデータセットを生成する。次に、ステップ２００８において、システムは、データセット中のタプルを連結するトラジェクトリを構築して、ＲＮＡ断片のドラフトリードを生成する。様々な実施形態において、ドラフトリードストラテジーは、グローバル階層ランク付けストラテジーまたはローカルベストストラテジーを含む。様々な実施形態において、ドラフトリードストラテジーは、ローカルベストストラテジーを含む。様々な実施形態において、トラジェクトリを構築することは、深さ優先探索（ＤＦＳ）アルゴリズムを実行して、考えられる全てのドラフトリードが、ＬＣ－ＭＳデータから確実に見出されるようにすることをさらに含む。

次に、ステップ２０１０において、システムは、ドラフトリードストラテジーを実行する。図２１を参照すれば、選択されたドラフトリードストラテジーを実行した後、断片のオーバーラップする領域に基づいてｔＲＮＡの配列をアセンブルする。１つの断片のリーディング配列を別の断片の終わりの配列と５ｋｍｅｒのサイズでアライメントする場合、これらの２つの断片がアセンブルされる。５ｋｍｅｒのサイズは、試料調製物からの不完全な断片化の設計の結果である、試験ｔＲＮＡ試料の断片の配列決定リードが長さが少なくとも５ｂｐのオーバーラップを含有する実験データの観察に基づいて選択される。５ｋｍｅｒのサイズは、断片のサイズが小さいことを考慮すれば、断片アセンブリの精度を保証するのに十分である。またｋｍｅｒのサイズは、ｔＲＮＡの配列決定以外の異なる適用ごとに調整も可能である。

様々な実施形態において、ドラフトリードストラテジーは、リード長さ、平均体積、平均ＱＳ、または平均ＰＰＭの少なくとも１つに基づいて、スコア付けすることを含む。

また本明細書に記載されるシステムは、様々な情報を受け取り、受け取った情報を変換して、出力を生成するための１つまたは複数のコントローラーを利用してもよい。コントローラーは、あらゆるタイプのコンピューティングデバイス、計算回路、またはメモリー中に保存される一連の命令を遂行することが可能なあらゆるタイプのプロセッサーもしくは処理回路を含み得る。コントローラーは、複数のプロセッサーおよび／またはマルチコア中央処理装置（ＣＰＵ）を含んでいてもよく、さらに、あらゆるタイプのプロセッサー、例えばマイクロプロセッサー、デジタルシグナルプロセッサー、マイクロコントローラー、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などを含んでいてもよい。コントローラーはまた、データおよび／または命令を保存するためのメモリーを含んでいてもよく、これらのデータおよび／または命令は、１つまたは複数のプロセッサーによって遂行されると、１つまたは複数のプロセッサーに、１つまたは複数の方法および／またはアルゴリズムを実施させる。

本明細書において記載された方法、プログラム、アルゴリズムまたはコードはいずれも、１つまたは複数の機械可読な媒体またはメモリーに含有されていてもよい。用語「メモリー」は、プロセッサー、コンピューター、またはデジタル処理デバイスなどの機械によって読み取り可能な形態で情報を提供する（例えば、保存するおよび／または送信する）メカニズムを含み得る。例えば、メモリーは、読み出し専用メモリー（ＲＯＭ）、ランダムアクセスメモリー（ＲＡＭ）、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリーデバイス、または他のあらゆる揮発性もしくは不揮発性メモリー保存デバイスを含み得る。そこに含有されるコードまたは命令は、搬送波シグナル、赤外線シグナル、デジタルシグナルによって表すことができ、さらに、他の類似のシグナルによっても表すことができる。

本明細書で開示される実施形態は、本開示の例であり、様々な形態で具体化することができる。例えば、本明細書に記載のある特定の実施形態は、別個の実施形態として記載されるが、本明細書に記載の実施形態のそれぞれは、本明細書に記載の他の実施形態の１つまたは複数と組み合わせてもよい。本明細書で開示される具体的な構造的および機能的な詳細は、限定として解釈されるのではなく、特許請求の範囲の基礎として、さらに実質的に全ての適切に詳述された構造で本発明の開示を様々に採用するための当業者への教示の代表的な基準として解釈されるものとする。

句「一実施形態において」、「実施形態において」、「様々な実施形態において」、「一部の実施形態において」、または「他の実施形態において」はそれぞれ、本発明の開示による同じおよび／または異なる実施形態の１つまたは複数を指し得る。「ＡまたはＢ」という形態での句は、「（Ａ）、（Ｂ）、または（ＡおよびＢ）」を意味する。「Ａ、Ｂ、またはＣの少なくとも１つ」という形態での句は、「（Ａ）；（Ｂ）；（Ｃ）；（ＡおよびＢ）；（ＡおよびＣ）；（ＢおよびＣ）；または（Ａ、Ｂ、およびＣ）」を意味する。

本明細書に記載の説明は、本発明の開示の単なる例示であることが理解されるものとする。様々な代替物および改変が、本開示から逸脱することなく当業者によって考案できる。したがって、本発明の開示は、このような全ての代替物、改変および変化を包含することが意図される。記載された実施形態は、単に本開示のある特定の例を実証するために提示される。上記および／または添付の特許請求の範囲に記載されたものから実質的に異なっていない他の要素、ステップ、方法、および技術も、本発明の開示の範囲内であることが意図される。

Claims

本明細書に記載の発明。