JP2014146318A

JP2014146318A - インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法

Info

Publication number: JP2014146318A
Application number: JP2014008608A
Authority: JP
Inventors: Plattner Hasso; プラットナーハッソ; Schapranow Matthieu-Patrick; シャプラナウマシュー−パトリック; Ziegler Emanuel; ジーグラーエマニュエル
Original assignee: Hasso Plattner Institut fuer Softwaresystemtechnik GmbH
Current assignee: Hasso Plattner Institut fuer Softwaresystemtechnik GmbH
Priority date: 2013-01-28
Filing date: 2014-01-21
Publication date: 2014-08-14
Also published as: EP2759953A1; EP2759953B1

Abstract

【課題】個別化医療の過程でのゲノムデータの解析及び評価を可能とするコンピューターベースのシステム及びコンピューター実施方法を提供する。
【解決手段】個別化医療の過程での総合的プロセスとしてゲノムデータを処理し、リアルタイムで解析する、インメモリ技術上に構築される研究雛形であり、クラウドアプリケーションは、医師及び研究者をサポートして、癌疾病等の、ゲノム変異又は突然変異に相関する疾病の治療において或る特定の腫瘍型の遺伝的な根源を識別し、分散した国際研究及び文献データソースの全ての配置を長期にわたって手動検索する必要性をなくしながら、最新の国際研究結果を患者固有のゲノムデータに結合する。
【選択図】図１

Description

本発明は、ヌクレオチド配列データを処理するインメモリデータベースを用いるコンピューターベースのシステム及びコンピュータープログラムを実施する方法に関する。

本発明は、現在、利用可能なプラットフォーム及びバイオインフォマティクス並びに見込まれる将来のプラットフォーム及びバイオインフォマティクスを特に参照して、ゲノミクスでの次世代シーケンシング（ＮＧＳ：Next-Generation Sequencing）技術に対処する。ＮＧＳ技術は、かつてない速度でＤＮＡを配列する能力を示し、それにより、個別化医療等の以前は想像できなかった科学的成果並びに新規の生物的応用及び医学的応用を可能にする。しかし、ＮＧＳによって生成される大量のデータはまた、データの記憶、解析、及びデータ処理に大きな問題を提示する。ゲノムデータを処理するために、ゲノムデータ処理パイプラインとも呼ばれるコンピューター実施処理ステップの通常のワークフローが確立されている。正確性のため、及び高品質の結果を素早く提供するために、（アラインメント）結果から偽陽性をなくすことが極めて重要である。さらに、とりわけ重複をフィルタリングするか、無効なエントリを除去するか、又はＮＧＳデータのサブセットを再整列する更なる処理ツールをパイプラインに統合することが極めて重要である。

しかしながら、既知の手法に基づき、更なるツール及び処理ステップをパイプラインに追加することは難しい。なぜなら、その追加により処理時間が大幅に増大するためである。

別の問題は、結果の品質が、注釈が検討される程度に強く依存することであり、注釈は一般に、最新の研究結果に基づき、世界中の多くの様々なデータベースに分散して記憶される。可能な限り多くの注釈情報を集めるために、或る特定の注釈データベースに別個にアクセスしなければならない。しかしながら、これは全体結果の処理時間に悪影響を及ぼす。

したがって、本発明の目的は、可能な限り高速で高品質の結果を提供し、様々な注釈データベースのクエリ結果を更に自動的に統合することである。

この目的は、特に、インメモリデータベースシステムによってゲノム配列データを処理するコンピューターベースのシステム及び方法の添付の独立クレームによって解決される。

本発明によるコンピューターベースのシステムは、リードとして提供されるヒト又は非ヒトのヌクレオチド配列データを処理するように構成され、ヌクレオチド配列データを処理するプロセス論理及びインメモリデータベースシステムを保持するプラットフォームレイヤーを備え、プラットフォームレイヤーは、プロセスとして実施される複数のワーカーを有するワーカーフレームワークであって、各ワーカーは、複数のコアからなるクラスターの計算ノードで実行されており、複数のワーカーは並列で処理しており、全ての結果及び中間結果はインメモリデータベースに記憶される、ワーカーフレームと、注釈更新（関連する研究文献を含む場合がある）を外部ソースから自動的にダウンロードしてインメモリデータベースにインポートするアップデーターフレームワークと、を備える。

好ましい実施形態によれば、本システムは、少なくともゲノムブラウザーを有するユーザーインターフェースを更に備え、ユーザーインターフェースは、ヌクレオチド配列と複数の参照される細胞株／ゲノム及び／又は参照配列との比較を表示するセクションと、複数の外部データベースからの結合された解析情報を表示するセクションと、特にゲノム配列データのアラインメントの特定のパイプライン構成のデータ処理の命令を選択するセクションと、を備える。

更に好ましい実施形態によれば、本システムはアラインメントコーディネーターを更に備え、アラインメントコーディネーターは、インメモリデータベースシステムに変更されたアラインメント機能を提供するように構成される。

以下に、本願内で用いられる用語の手短な定義を与える。

ヌクレオチド配列データは、ヒト又は非ヒトであることができ、ＤＮＡ配列データ又はＲＮＡ配列データであることができる。本発明の別の実施形態では、システムは、例えば、アミノ酸配列のような他のゲノム配列データを処理するように構成することもできる。しかしながら、ゲノム配列は主に、文字Ｃ、Ｇ、Ａ、Ｔ、及びＵを含むアルファベットにそれぞれマッピングすることができる配列を指す。なぜなら、主な核酸塩基が、Ｃ、Ｇ、Ａ、Ｔ、及びＵとしてそれぞれ略されるシトシン、グアニン、アデニン（ＤＮＡ及びＲＮＡ）、チミン（ＤＮＡ）、及びウラシル（ＲＮＡ）であるためである。以下で、これらの核酸塩基は通常、（遺伝学での通常使用に従って）単に塩基と呼ばれる。

シーケンシング機は、ＤＮＡ分子内のヌクレオチドの精密な順序を自動的に特定するように構成される実験デバイスである。シーケンシング機は、次世代シーケンシング（ＮＧＳ）デバイスであることが好ましい。シーケンシング機は、システムにインポートされるリードを提供する。ＮＧＳ機は通常、システムの一部ではない。シーケンシング機は、ＤＮＡ鎖内の４つの塩基、すなわち、アデニン、グアニン、シトシン、及びチミンの順序の特定に用いられる任意の方法又は技術を含む。一般に、ＤＮＡシーケンシングを用いて、個々の遺伝子、より大きな遺伝領域（すなわち、単一の規制信号若しくはプロモーターの制御下で遺伝子のクラスターを含むゲノムＤＮＡの機能単位としての遺伝子のクラスター若しくはいわゆるオペロン）、全染色体、又はゲノム全体の配列を特定することができる。結果として生成される配列は、分子生物学又は遺伝学の研究者によって用いられて、科学的進歩を促進することができるか、又は個別化医療に用いることができる。例えば、癌ゲノムシーケンシングは、癌細胞の単一の同種群又は異種群の全ゲノムシーケンシングである。癌ゲノムシーケンシングは、癌細胞（複数の場合もある）のＤＮＡ配列又はＲＮＡ配列を特徴付け同定する生化学実験室的方法である。通常は血液細胞、唾液、上皮細胞、又は骨からのものである全ゲノム（ＷＧ：Whole Genome）シーケンシングとは異なり、癌ゲノムシーケンシングは、原発腫瘍組織、隣接する正常組織若しくは遠位正常組織、線維芽細胞／間質細胞等の腫瘍微小環境、又は転移性腫瘍部位のダイレクトシーケンシングを含む。全ゲノムシーケンシングと同様に、この技法から生成される情報は、ヌクレオチド塩基の同定（ＤＮＡ又はＲＮＡ）、コピー数及び配列変異体、突然変異ステータス、並びに染色体転座及び融合遺伝子等の構造変更を含む。癌ゲノムシーケンシングは、ＷＧシーケンシングに限定されず、エキソーム、トランスクリプトーム、マイクロノーム（micronome）シーケンシングを含むこともできる。これらの方法を用いて、配列データの他に、遺伝子発現、ｍｉＲＮＡ発現を定量化し、代替スプライシングイベントを同定することができる。本発明によって処理される入力データは、ＦＡＳＴＱフォーマットファイルとして提供することができる。

「変更されたアラインメント機能」という語は、特定のアラインメントアルゴリズム（理想的には、そのための追加のパイプライン構成を含む）を適用することができるように、複数の異なるアラインメントアルゴリズムのうちの少なくとも１つがインメモリデータベースに統合されることとして解釈されるべきである。「変更されたアラインメント機能」の別の態様は、アラインメントアルゴリズムがインメモリデータベース使用に向けて最適化されるように構成されることを指す。ファイルシステム内の入力ファイル及び出力ファイルにアクセスする従来のアルゴリズムとは対照的に、変更されたアラインメントアルゴリズムは、インメモリデータベースシステムに直接記憶されたか、又は直接記憶されるデータを利用することもできる。その結果、メディアブレークは低減し、スループットは増大し、現在のように、抽出、変換、及び専用ＯＬＡＰシステムへのロードの必要なく、解析クエリをインメモリデータベースに記憶された全てのデータ上で実行することができる。

「ＣＰＵ」という語は、コンピューター又はコンピューターのクラスターの中央演算処理デバイスを指す。一般に、コンピューターは２つ以上のＣＰＵを有することができる。この場合、計算システムはマルチ処理と呼ばれる。幾つかのマイクロプロセッサは、単一チップ上に複数のＣＰＵを含むことができ、これらはマルチコアプロセッサと呼ばれる。分散され相互接続されたプロセッサセットを提供することも可能である。

プラットフォームレイヤーは、ゲノムシーケンシングデータの処理をインメモリデータベースに統合するコンピューターに基づくアーキテクチャを指す。本発明によれば、全ての処理結果及び中間結果がもはや、ファイルとしてファイルシステムに記憶されず、その代わり、インメモリデータベースシステムで提供されることを指摘しなければならない。したがって、専用ツールがファイルに対して実行する全ての演算、例えばソート、マージ等は、演算トランザクション（ＯＬＴＰシステム）及び解析トランザクション（ＯＬＡＰシステム）によってネイティブインメモリデータベーストランザクションに置き換えられる。

インメモリデータベースは、結合された列ストア及び行ストアがデータセットに対して作業することができるような、列指向データ構造と組み合わせたメインメモリ技術の利用に基づく。したがって、このインメモリ技術はもはやディスク記憶機構に基づかない。解析システム及びトランザクションシステムが統合され結合される。本発明の一態様によれば、ＯＬＴＰクエリを入力データに対して実行することができる。入力データは特に、シーケンシングデータ（ＮＧＳ機によって提供される）、注釈データ（アップデーターフレームワークによって提供され、全ての外部登録された分散注釈ソース又はデータベースから統合される）、及び他のゲノムデータを含むことできる。中間結果及び最終結果を含む本発明による処理結果は、行指向又は列指向のデータベースフォーマットのいずれかでインメモリデータベースシステムに記憶することができる。カラムナデータベースフォーマットは、ＯＬＡＰ演算が対話的な応答時間挙動から恩恵を受けるようにＯＬＡＰクエリをサポートする。列指向データベースフォーマットに記憶されるデータは、入力データ及び結果の両方によって定期的に更新することができ、これは、インメモリデータベースにより、いかなる待ち時間もなく（すなわち、リアルタイムで）ＯＬＡＰクエリを列指向データフォーマットに対して実行できるようにする利点と組み合わせられる。本発明の基礎をなすインメモリデータベースの特徴及び利点については、インメモリデータベースの詳細を記述する特許出願である欧州特許第２０４０１８０号が参照される。

ワーカーフレームワークは、インメモリデータベース（以下、ＩＭＤＢ（In-Memory Database）と略す）と対話し、様々なアプリケーション（アプリケーションレイヤー）とデータ（データレイヤー）との間の中間アクターである。ワーカーフレームワークは、入力シーケンシング要求に関して、要求されるタスク及びサブタスク並びに当分野で既知のマッピング低減手法に相当する順序を指定する。ワーカーフレームワークはまた、これらのタスクを計算ノード等の計算リソースに送り、それらのステータスを観測し、部分結果セットを結合して、最終結果セットを取得する。

アップデーターフレームワークも、インメモリデータベースと対話し、様々なアプリケーション（アプリケーションレイヤー）とデータ（データレイヤー）との間の中間手段である。アップデーターフレームワークは、国際研究結果を結合するベースである。アップデーターフレームワークは、注釈の更新及び新たに追加された注釈について、例えば、データベースエクスポート又はＣＳＶ、ＴＳＶ、ＶＣＦ等の特性ファイルフォーマットについて、公開ＦＴＰサーバー又はウェブページ等のインターネットソースを定期的にチェックする。新しいデータは自動的にダウンロードされ、ＩＭＤＢにインポートされ、知識ベースを拡張する。アップデーターフレームワークはまた、ＰｕｂＭｅｄ等の関連する文献ソースをパーズし、データベース内の参照を更新する。新しいデータがインポートされると、そのデータは、いかなる待ち時間もなくゲノムデータのリアルタイム解析に利用可能である。例えば、アップデーターフレームワークによって処理される選択された研究データベースは、全米バイオテクノロジー情報センター（ＮＣＢＩ）、サンガー（Sanger）、カリフォルニア大学サンタクルーズ校（ＵＣＳＣ）等である。特定の使用事例に対して関連する研究文献を選択するために、選択プロセスを実施可能なことが好ましい（例えば、特別なデータベースを含むことができ、他のデータベースを無視することができる）。

処理パイプラインは、固定してプログラムされず、本発明の一態様によれば、例えばビジネスプロセスモデル及び表記（ＢＰＭＮ：Business Process Model and Notation）等の一般表記を用いてグラフィック的にモデル化される。したがって、様々なパイプライン、例えば異なるアラインメントアルゴリズムを実施するパイプラインを構成することができる。これらのパイプラインは並列処理することができる。これは、並列データ処理に起因して主要な性能増強である。さらに、個々のパイプライン構成は、様々な研究グループによって得られる結果の比較可能性を保証する。

別の基本的な態様は、様々な分散した注釈ソースから注釈結果を収集し集約することに鑑みて、本発明によって達成される主な改善に見られる。アップデーターフレームワークの提供に起因して、最新の研究結果をＩＭＤＢに提供し、最新の研究結果をリアルタイム解析に用いることが可能である。提供される解析は、即座に生成することができる。既存のシステムでは、例えば、ＮＣＢＩによって注釈のメタ検索エンジンが提供されるが、ピーク時間中に性能ボトルネックという欠点を有し、正規のツール又は手動実行を必要とし、特定の研究の問いに答えるための個々の応用での使用において非トランスペアレントである。

別の主要な態様は、処理レイヤーをウェブサービスとして提供することができるという点で見られる。このウェブサービスは、インターネットとイントラネットとの境界である。ウェブサービスにより、ユーザーは、様々なエンドデバイス、特にモバイルデバイスでＦＡＳＴＱファイルを整列し、結果を示し、遺伝子を閲覧し、突然変異についての情報を表示することができる。

好ましい実施形態によれば、ウェブアプリケーションフレームワークは、ルビーオンレイルズ（ruby on rails）に基づく。ブラウザーに表示される大半のデータは、ＡＪＡＸ要求を用いて動的にロードされる。その結果、ウェブブラウザーアプリケーション又はモバイルアプリケーションとしてのｉＰａｄ（登録商標）及びＡｎｄｒｏｉｄデバイス等の様々なユーザーインターフェース（ＵＩ）を介してアクセスされるように、全てのクラウドアプリケーションを構成することができる。したがって、アクセス結果又は実行に固有の解析はもはや、単一のロケーション、例えば、医師のオフィス内のデスクトップコンピューターに制限されない。全てのアプリケーション演算には、インターネットアクセスを有するように構成される任意のデバイスからアクセスすることができ、ユーザーの生産性が増大する。

ウェブサービスは、ログイン機能を提供するユーザー固有のデータも処理する。ウェブサービスはプライベートの機密データを処理するため、トランスペアレントなセキュリティ拡張を用いての構築が要求される。システムは複雑なプロジェクトに統合しなければならず、また、計算の一部を行わなければならないため、システムそれ自体が非常に複雑である。この複雑性を管理するために、全体システムはモデル−ビュー−コントローラーアーキテクチャパターン（ＭＶＣ：Model-View-Controller Architecture Pattern）に基づく。ウェブサービス内で、ユーザーインターフェース（ＵＩ）上のビューに、モデル（データベースであることが既知）からのデータが提供される。これに関連して、ウェブサービスは、データベースができない機能を提供する。例えば、ユーザーセッション及びユーザー固有のデータは、データベースによって厳密には異なり得ないため、ウェブサービスはデータベースの機能を拡張する。さらに、ウェブサービスは新しいＦＡＳＴＱファイルのファイルアップロードを担当する。それらのファイルは巨大なサイズを有するとともに、インターフェース全体を妨害せずに、並列に、又は次々とアップロードしなければならない。最後に述べるが重要なことには、ウェブサービスは、見つかった突然変異についての追加のデータをユーザーに提供し、見つかった現象についての更なる知識を有するウェブサイトへのリンクを生成する。これらの情報は全て、静的であることはできず、それゆえ、動的にロードしなければならない。これらの全てのタスクはウェブサービスによって処理される。

上記のタスクを取得するために、以下のコントローラーが用いられる。アラインメント結果コントローラーは、アラインメント結果テーブルから選ばれたタスクの詳細ビューをロードする。タスクコントローラーは、実行の進行度を表示し、終了したタスクをロードする。ＦＡＳＴＱファイルコントローラーは、現在ログインしているユーザーに新しいファイルをアップロードし、既存のファイルをロードする機能を提供する。ブラウザー要求コントローラーは、ウェブサイト内部の「第２のタブ」を参照して、ブラウザー要求の処理に必要とされる機能を提供する。細胞株メタデータコントローラーは、整列された患者の螺旋構造についてのデータを処理する。ユーザーセッションコントローラーは、ユーザーセッションを作成し、ユーザーセッションにアクセスし、ユーザーセッションを破棄する機能を提供する。ユーザーコントローラーは、ユーザーを作成し、表示し、編集する機能を提供する。ページをリロードする場合、ウェブサービスは、処理中のタスク及び実行中のタスク、並びに完了したタスクに関して、利用可能なＦＡＳＴＱファイルのようなユーザー固有の情報を表示するいくつかの関数を呼び出す。

本発明の別の態様によれば、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法が提供される。本方法は、それぞれが複数のＣＰＵコアを備える計算ノードのセットを有するクラスターを提供する方法ステップであって、各計算ノードは、並列データ処理のためにワーカーを実施する、方法ステップと、ヌクレオチド配列データをリードとしてインメモリデータベースに提供し、（好ましくはシーケンシングと同時に）配列データを処理する方法ステップと、を含み、データ処理は、計算ノードのセットにおいてリードのチャンクを並列に整列し、部分的なアラインメント結果をマージされたアラインメント結果に集約することと、計算ノードのセットにおいて変異コールを並列に実行し、部分的な変異コール結果をマージされた変異コール結果に集約することと、変異コール結果を複数の異なる外部注釈ソース（例えば、ＰｕｂＭｅｄからの研究文献を含む可能性がある）と結合することによって変異コール結果を自動的に解析することであって、複数の異なる外部注釈ソースは、アップデーターフレームワークによって定期的かつ自動的にチェックされ、更新され、インメモリデータベースに統合されることと、を含む。

本発明の別の実施形態において、アラインメント結果及び／又は変異コール結果は、外部システムによって提供することもできる。これらの結果は、システムの入力インターフェースによって受信することができ、インメモリシステムに記憶される。

本発明の別の態様によれば、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法が提供される。本方法は、それぞれが複数のコアを備える計算ノードのセットを有するクラスターを提供する方法ステップであって、各計算ノードは、並列データ処理のためにワーカーを実施する、方法ステップと、ヌクレオチド配列データをリードとして塩基対配列とともにインメモリデータベースに提供し、シーケンシングと同時に、リードを構成可能な量のチャンクに均等にセグメント化することと、チャンクのそれぞれをコンピューターコアクラスターの選択されたワーカーに割り振り、並列に部分的なアラインメント結果を提供し、全ての部分的なアラインメント結果をインメモリデータベースに記憶することによって、それぞれのチャンクを参照配列に整列することと、全ての選択されたワーカーの部分的なアラインメント結果を集約し、アラインメント結果を生成し、アラインメント結果をインメモリデータベースに記憶することと、アラインメント結果に基づいて変異コールアルゴリズムを実行し、変異コールの結果をインメモリデータベースのタスク固有のデータベーステーブルに記憶することと、アップデーターフレームワークによって変異コールの結果を自動的に解析することによって最終結果を生成して表示することであって、アップデーターフレームワークは、更新について全ての外部注釈ソースを定期的かつ自動的にチェックし、更新を自動的にダウンロードしてインメモリデータベースにインポートすることと、によってデータを処理する方法ステップと、を含む。

本発明の好ましい実施形態によれば、変異コールは、複数のノードでのアラインメント結果アイテムに対しても並列で実行される。全ての変異コール後、手順は終わっており、最終結果もインメモリデータベースに記憶することができる。また、変異コールの中間部分結果もインメモリデータベースに記憶される。これには、可能な限りすぐに、他の部分（変異コール）プロセスがまだ実行中であっても、配列データの処理を実行する（終了させて表示する）ことができるという技術的利点がある。

複数の注釈ソースが、更新について自動的にチェックされ、次に、更新はインメモリデータベースに自動的にインポートされ、アップデーターフレームワークによって処理される。可能な限り多くの異なる注釈ソースが検討されることが好ましい。特定のソースへのリンクが利用可能な場合、このソースは「登録された」ソースであると見なされ、アップデーターフレームワークによってアクセスされる。

主要な態様は、予め定義される静的なパイプライン構成セットを有するのではなく、パイプライン構成を動的にモデル化する柔軟性に見られる。例えば、特に殆ど知られていないゲノム差に対して、単一又は複数のアラインメントアルゴリズムをアラインメントアルゴリズムセットから選択し、組み合わせて、結果の精度を改善することができる。さらに、特定のパイプライン構成を選択して適用し、例えば、同種の土台で異なるゲノムデータセットを比較するベースを提供することができる。

本発明による方法及びシステムの好ましい実施形態は、従属クレームにおいて定義される。この点に関して、一般に、本発明をハードウェア又はソフトウェアモジュールと組み合わせられたハードウェアモジュールで実施することも可能なことに留意しなければならない。その場合、ハードウェアモジュールは、上述した方法のステップの機能を実行するように構成される。したがって、ハードウェアモジュールとソフトウェアモジュールとの組み合わせを有することも可能である。モジュールは、既存のバイオテクノロジー環境又は医療環境、例えばシーケンシング環境に統合されることが好ましい。方法に関して説明するか、又は説明した特徴、代替実施形態、及び利点は、各方法ステップの機能が構成されるハードウェアモジュールによってシステムにも同様に当てはめることができ、逆の場合も同様である。

本発明をより完全に理解するために、添付図面と組み合わせて解釈される以下の詳細な説明を参照する。

本発明の好ましい実施形態によるシステムアーキテクチャの概略全体図を示す。アラインメントコーディネーターのユーザーインターフェースの例示的な図である。アラインメントコーディネーターのユーザーインターフェースの例示的な図である。アラインメントコーディネーターのユーザーインターフェースの例示的な図である。アラインメントコーディネーターのユーザーインターフェースの例示的な図である。アラインメントコーディネーターのユーザーインターフェースの例示的な図である。ゲノムブラウザーのユーザーインターフェースの例示的な図である。ゲノムブラウザーのユーザーインターフェースの例示的な図である。ゲノムブラウザーのユーザーインターフェースの例示的な図である。ゲノムブラウザーのユーザーインターフェースの例示的な図である。ゲノムブラウザーのユーザーインターフェースの例示的な図である。本発明の好ましい実施形態による、インメモリデータベースに統合されたゲノムデータ処理パイプラインである。本発明の好ましい実施形態による、インメモリデータベースに統合されたゲノムデータ処理パイプラインである。本発明の好ましい実施形態による、インメモリデータベースに統合されたゲノムデータ処理パイプラインである。全ゲノムアラインメント及び変異コールからなるデータ処理パイプラインのスループットの比較を示す図である。本発明の好ましい実施形態によるパイプラインの別の全体図である。ノードと組み合わせられたインメモリデータベースの全体図である。本発明の好ましい実施形態による処理パイプラインの別の図である。汎用アーキテクチャ内のワーカーを示す図である。ワーカーのアーキテクチャをより詳細に示す図である。本発明の好ましい実施形態による方法のフローチャートを示す図であり、図の最初の部分を示す。本発明の好ましい実施形態による方法のフローチャートを示す図であり、最後の部分を示す。

パーソナルコンピューター、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサに基づくか又はプログラミング可能な消費者電子機器、ネットワークＰＣ、ミニコンピューター、メインフレームコンピューター等を含め、多くのタイプのコンピューターシステム構成を有するネットワーク計算環境において本発明を実施可能なことを当業者は理解するであろう。本発明は、タスクが通信ネットワークを通してリンクされる（ハードワイヤードリンク、無線リンク、又はハードワイヤードリンク若しくは無線リンクの組み合わせによって）ローカル処理デバイス及びリモート処理デバイスによって実行される分散計算環境で実施することもできる。分散計算環境では、プログラムモジュールは、ローカルメモリ記憶装置及びリモートメモリ記憶装置の両方に配置することができる。

ヒトゲノム（ＨＧ：Human Genome）プロジェクトは、１９９０年に公式に開始され、この基礎研究をサポートする数百もの機関が関わり、全ＨＧをシーケンシングしデコードするのに１０年を超える年数がかかった。処理速度の改善及びコストの低減により、今日、いわゆる次世代シーケンシング（ＮＧＳ）デバイスはゲノム全体を数時間以内に処理する。現在では、ＮＧＳデバイスは研究環境及び臨床環境で用いられ、癌等の特定の疾病の治療をサポートしている。個別化医療は、特に個人の性質、例えば、遺伝子因子又は環境因子に基づいて患者を治療することを目的としている。しかしながら、これは、増大しつつある量の診断データから関係するデータを識別するのにツールのサポートを必要とする。

インメモリデータベース（ＩＭＤＢ）技術は最初、大企業データの解析のために研究された。本願は、研究プロジェクトである高性能インメモリゲノム（ＨＩＧ：High-Performance In-memory Genome）プロジェクトの過程で、ゲノムデータのリアルタイム解析を可能にするのに、ＩＭＤＢ技術を適用することでわかったことを開示する。医師及び研究者のフィードバックに基づいて、本願は、癌患者の個別化医療の過程内で、総合的なプロセスとしてゲノムデータの処理及び解析を結合する特定の研究雛形を開示する。

図１は、基本モデル化概念（ＦＭＣ：Fundamental Modeling Concepts）ブロック図としてモデル化されるリアルタイム解析を可能にする炉床（hearth piece）としてＩＭＤＢを用いるシステムアーキテクチャのデータレイヤー、プラットフォームレイヤー、及びアプリケーションレイヤーを示す。プラットフォームレイヤーでは、ＩＭＤＢは、国際研究データベースからのデータを結合し、リアルタイム解析能力をクラウドアプリケーションに対して露出する。

関連研究
ゲノムデータ処理パイプラインの分野での関連研究は、結果の正確性及びＮＧＳ結果セットからの偽陽性の除去に焦点を合わせている。これらの手法は、例えば、データを事前処理し、複製をフィルタリングし、無効エントリを除去し、又はＮＧＳデータのサブセットを再整列する更なるツール及び処理ステップが追加されるため、結果としてパイプラインの複雑性を増大させる。

本願は、ゲノム処理パイプラインに更に多くのツールを統合して、将来、結果の精度を改善することを可能にする。そのため、本発明は、ゲノムデータ処理に複数のツールをスムーズに統合することを重視する。

ゲノム処理パイプラインの重要なステップは、最新の研究結果を用いて得られた結果に注釈を付けることである。公開注釈データベースの助けにより、個人の遺伝的性質を解釈することができる。多くの注釈データベースが、インターネット検索エンジン及び特定のウェブサービスを介してそれらのコンテンツを提供している。このデータをリンクするには、データ処理パイプラインへの手動での統合が必要である。さらに、提供されるウェブサービスの品質は、パイプラインの全体的なスループットに直に影響し、例えば、ネットワーク輻輳により注釈データベースの応答時間が長くなる場合、クエリの処理スループットは直に影響される。しかし、プライベート注釈データベースを統合し共有することもできる。アクセス権を制限し制御する手段が提供され、プライベート注釈データベースの知的財産は、特定のアクセス制御メカニズム、例えば履歴に基づくアクセス制御によって保護される。

本願によれば、注釈データベースの更新ダンプについて定期的にチェックするアップデーターフレームワークが開示される。新しいデータベースバージョンが検出されると、新たに検出された注釈データベースのコンテンツ及び更新は、ローカルシステムと同期される。したがって、知識データベースは、ネットワーク負荷を低減しながら、信頼できる品質の注釈サービスを提供する。知識データベースは、注釈の更新及び新たに追加された注釈について様々な（全て登録された）インターネットソースを定期的にチェックする。新しいデータは自動的にダウンロードされ、ＩＭＤＢにインポートされ、知識ベースを拡張する。新しいデータがインポートされると、そのデータは、いかなる待ち時間もなくゲノムデータのリアルタイム解析に利用可能になる。本願は、時間のかかるメディアブレーク及び手動ステップ、例えば、特定の変更についての検索をなくすことにも焦点を合わせている。例えば、後述するゲノムブラウザーは、或る特定の突然変異を調べる際、ローカル知識ベースからの関連データを自動的にリンクする。

ファイル記憶システムに基づく従来技術のシステムよりも優れた主な利点は、並列データ処理を可能にすることによって処理性能を改善するとともに、アラインメント及び変異コールにこれらの技法を利用することが可能なことである。ＩＭＤＢ及びＩＭＤＢの固有のデータベース機能についての詳細について以下に概説する。

アーキテクチャ
ＩＴの観点から、本願は、アーキテクチャレイヤー、すなわち、データ、プラットフォーム、及びアプリケーションを含む。以下に、全てのレイヤーについて詳細に説明する。

データレイヤー
データレイヤーは、ヒト参照ゲノム及び注釈等のゲノム参照データを保持する。これらのデータは、特定のゲノム発見の解析のベースである。さらに、データレイヤーは、ＮＧＳデバイスによって生成される患者固有のゲノムデータを保持する。患者固有のゲノムデータは、個別化医療の過程で解析する必要があり、プラットフォームレイヤーによって処理され、アプリケーションレイヤーのアプリケーションによって結合される。

プラットフォームレイヤー
プラットフォームレイヤーは、好ましくは、完全なプロセス論理及びＩＭＤＢシステムを保持し、ゲノムデータのリアルタイム解析を可能にする。図１の右側に、プラットフォームレイヤーのアプリケーション拡張であるワーカーフレームワーク及びアップデーターフレームワークが例示的に示される。

ワーカーフレームワークは、入力シーケンシング要求に関して、要求されるタスク及びサブタスク並びにその順序を指定する。ワーカーフレームワークはまた、これらのタスクを計算ノード等の計算リソースに送り、それらのステータスを観測し、部分結果セットを結合して、最終結果セットを取得する。

アップデーターフレームワークは、上述したように、分散したデータセット、すなわち国際研究結果を自動的に結合するためのベースである。

アプリケーションレイヤー
アプリケーションレイヤーは、汎用アプリケーションではなく、医療及び研究の問いに答える専用アプリケーションからなることができる。これらのアプリケーション（例えば、医療及び研究の問いに関連する）は、限られた使用事例のみに使用可能であるが、これらの非常に特殊なタスクの解決に高度に最適化されている。全てのアプリケーションは、データベースレイヤーとのウェブサービスインターフェースを介するデータ交換フォーマットとして、例えば、非同期Ａｊａｘ呼び出し及びＪａｖａＳｃｒｉｐｔ（登録商標）オブジェクト表記を介して通信する。主な利点として、全てのクラウドアプリケーションは、ウェブブラウザーアプリケーション又はモバイルアプリケーションとしてのｉＰａｄ（登録商標）及びＡｎｄｒｏｉｄデバイス等の様々なユーザーインターフェース（ＵＩ）を介してアクセスされるように構成することができる。

アプリケーション
以下において、本願は選択されたクラウドアプリケーションを開示し、クラウドアプリケーションをいかに結合して、個別化医療に対してエンドツーエンドプロセスを実施するかを概説する。その方法は、ＦＡＳＴＱフォーマットとしてＩｌｌｕｍｉｎａ、Ｒｏｃｈｅ、ＬｉｆｅＴｅｃｈｎｏｌｏｇｙ等のＮＧＳデバイスの出力を取得することから開始され、遺伝子突然変異及び実際の疾病の原因についての関連情報の識別を含む。

アラインメントコーディネーター
図２、図２ａ、図２ｂ、図２ｃおよび図２ｄに示されるアラインメントコーディネーターを用いて、新しいゲノムデータを発行し、既存のゲノムデータを監督し、ゲノムデータ処理の完了した実行の結果を検索する。入力は、ＦＡＳＴＱファイルと、特定のアラインメントアルゴリズム及び変異コールステップからなる選択されたパイプライン構成と、使用する参照ゲノムと、パイプライン固有パラメーターとである。図２、図２ａ、図２ｂ、図２ｃおよび図２ｄでは、上から下に、データ処理のパラメーターを構成することができる。最近のタスクのステータスは左側に見られる。さらに、右側で、選択されたタスクの結果セットを調べることが可能である。

アラインメントコーディネーターは、ワーカーフレームワークに統合することができる。単一のアラインメントタスクは、整列すべきファイルのアップロード中、いくつかのサブタスクに分割される。そこから、パイプライン内のあらゆるステップはサブタスクに分割され、サブタスクはワーカー又は処理デバイスによってランダムに取られて、処理される。

左側にあるタスクリストからエントリを選択すると、右側のテーブルに変異コールの結果が表示される。結果テーブルの属性は個々に構成することができ、例えば、関連付けられた疾病、影響を受ける遺伝子、又は同様の事例をテーブルに含めることができる。或る特定の突然変異をクリックすることによって、特定の染色体位置が、ゲノムブラウザーアプリケーションを用いて詳細に表示される。

好ましい実施形態によれば、ゲノムブラウザーに示される最終結果は追加の情報を含み、その情報は直接比較することができる。追加の情報は、１つ又は複数の細胞株の参照塩基対と実在する塩基対との関係、遺伝子、代替スプライシング変異体、遺伝子名の別名、及び選択された遺伝子座に利用可能な注釈（遺伝子、ＳＮＰ、挿入欠失注釈を含む）等を指す。追加の情報は、オンザフライでの注釈データベースコンテンツの直接統合も指す。

ゲノムブラウザー
図３、図３ａ、図３ｂ、図３ｃおよび図３ｄは、ゲノムブラウザーの画面例を示す。ゲノムブラウザーは、特定のアプリケーションであり、或る特定の細胞株又は患者のゲノムの特定の突然変異の互いとの解析を可能にする。或る特定の細胞株及び参照ゲノムの塩基対、アミノ酸、遺伝子スプライシング変異体等を詳細に比較することができる。したがって、細胞に対する突然変異の影響を調べることができ、ＤＮＡの抜粋を様々な患者の間で比較することができる。突然変異は、世界中の注釈データベースを自動的に結合することによって強調表示される。さらに、或る特定の突然変異が選択されると、関連する詳細情報（detail）及びｄｂＳＮＰ、ＤＧＶ、サンガー等の既存のデータベースへのリンクが表示される。

ユーザーインターフェースは２つのセクション、すなわち、解析ページ及びブラウザーページに分けられる。このインターフェース全体の主な用途は、ＤＮＡアラインメントへの命令の選択（図２の左側に示される解析ページ）と、アラインメント結果の表示、比較、及び解析（図２の右側に示されるブラウザーページ）とである。このユーザーインターフェースＵＩの重要な特徴は、特定の部分についてのオンデマンド情報を提示する、様々な詳細レベルの選択されたゲノムを示すことである。本発明の好ましい実施形態では、ユーザーインターフェースはＨＴＭＬ５に構築される。

解析ページでは、ユーザーはＦＡＳＴＱファイルをアップロードし、適するアルゴリズム及び参照ゲノム（例えば、ＢＷＡ）とのリードのアラインメントを実行することが可能である。要求が送信された後、ユーザーは、アラインメントタスクテーブルを用いてアラインメントの進行度を観測することができる。さらに、完了したタスク時間及び結果の量がこのテーブルに示される。したがって、ユーザーは、処理の進み具合をオンラインで見ることができ、中間結果も表示される。特定のタスクを選択すると、結果タスクテーブルがもたらされる。このテーブルは、突然変異の位置及び見つかった突然変異の、結果として生じる疾病についての情報を提供する。１つの突然変異を選ぶことによって、ウェブサイトはブラウザーページに切り替わり、その突然変異についての詳細情報を与える。ＣＰＵ負荷及び消費メモリを示すチャートも与えられる。

ブラウザーページは、現在のゲノムの大域的ビューを与えることによって、特定の突然変異があると疑われるゲノムの抽出を示す。ユーザーは、塩基対、アミノ酸、及び遺伝子のセクションを閲覧することができる。既に整列された細胞株を元のゲノムと比較することができる。塩基配列及びアミノ酸配列の両方での突然変異に起因する変化が強調表示される。突然変異した塩基をクリックすることによって、臨床的有意性及び検証ステータス等の詳細情報が問い合わせられ、表示される。遺伝子及びそのスプライシング変異体も同様に示される。

このブラウザーページには、解析ページを通すか、又はゲノム、染色体、及び開始／終了位置についての情報を記入することによって直接入ることができる。

データ処理パイプライン
図４、図４ａおよび図４ｂは、現在、ビジネスプロセスモデル化及び表記（ＢＰＭＮ）としてモデル化される通常のゲノム処理パイプラインを示す。図４、図４ａおよび図４ｂは、ＢＰＭＮにおいてモデル化されるこの研究雛形に統合されるゲノムデータ処理パイプラインを示す。入力されたＦＡＳＴＱファイルは、１０００のコアクラスターでの並列データ処理に向けて最高で２５のチャンクに分割される。最初に、特定のアラインメントアルゴリズム、ここではＢＷＡが並列に呼び出され、結合ＢＡＭファイルが作成されるまで、変換ステップが実行される。次に、ＢＡＭファイルは、染色体ごとに１つずつ、個々のチャンクに分割され、変異コールが並列処理される。結果はＩＭＤＢにインポートされ、結果のリアルタイム解析を可能にする。

個別化医療の過程でのＤＮＡの統合は、２つの主なステップ、すなわち、ＤＮＡシーケンシング及びゲノムデータの解析からなる。ＤＮＡシーケンシングは、試料、例えば血液又は組織の生物学的準備及びＮＧＳデバイスを用いてのそのシーケンシングに及ぶ。ゲノムデータの解析は、ＮＧＳデバイスからのＦＡＳＴＱファイルを処理するＩＴ駆動ステップであり、アラインメント、変異コール、及び結果の解析を含む。

アラインメントは、取得されたリード配列を選択された参照ゲノムに結合することによる特定の全ゲノムの再構築である。

変異コールは、再構築されたゲノム内の異常を検出し、これらが生じる可能性のある変異、例えば、或る特定の対立遺伝子の発現であるか否かをチェックする。最後の最も時間集約的なステップは、世界中の注釈データベースを用いての変異コールからの全ての結果の解析及びその解釈である。本願のゲノムブラウザーは、時間のかかる手動でのインターネット検索の必要なく、結果のその場での解析に対応する。

並列データ処理
本願は、ワーカーセットを提供するＰｙｔｈｏｎでの専用データ処理フレームワークを開示する。各計算ノードには専用ワーカーが備えられる。専用ワーカーは複雑なタスク、すなわち、複数のジョブ又は全ゲノムのリードの配列アラインメント等の長時間実行非反復的バッチプロセスからなるタスクを処理する。複雑ではない反復的タスクは、ウェブサービスによって直接実行され、ワーカーフレームワークを伴わない。複雑なタスクは、並列データ処理のために、ワーカーフレームワークによって作業の原子部分に分割される。原子ジョブは分散して実行することができる。ワーカーが利用可能になると、ワーカーはジョブキューから次のジョブをフェッチして自動的に実行する。

ジョブ及びワーカーの同期は、ジョブデータベーステーブルを介して実行され、ジョブデータベーステーブルは、新しいジョブ、現在処理中のジョブ、及び終了したジョブ、並びにそれらのステータス、例えば、新規、進行中、終了、失敗等を含む。全てのワーカーは、ローカルデータベースインスタンスを介してジョブテーブルに直接アクセスし、次の適切なタスクを自己割り当てする。同時制御はＩＭＤＢによって保証することができ、例えば、属性ＴＡＳＫ−ＩＤ、ＪＯＢ−ＩＤ、及びＳＴＡＴＵＳ上のプライマリキーが、単一のワーカーのみがタスクのＳＴＡＴＵＳ（ステータス）属性をＮＥＷ（新規）からＩＮＰＲＯＧＲＥＳＳ（進行中）に変更することができることを保証する。更新されたステータスがデータベースシステムによって確認された直後、ワーカーはジョブ処理を開始する。

ジョブ実行は、モジュール式Ｐｙｔｈｏｎスクリプトを介して処理することができ、これらのスクリプトはワーカーフレームワークによって要求に応じてロードされる。ワーカーモジュールは、割り当てられていないジョブをキューから選択する。ジョブの特定のサブセットのジョブ従属性及び同期は、ジョブデータベーステーブルのコンテンツを評価する専用ジョブによって自己調整される。

全てのＰｙｔｈｏｎジョブモジュールは、ステータス更新又はエラーの記録等の一般的方法を提供するスーパーモジュールジョブから継承される。ジョブによって実行されるコード、例えば、未処理のＤＮＡリードのアラインメント又はデータベースへのＣＳＶファイルのインポートは、各ジョブモジュール内に配置される。

本願は、ジョブごとに個々のツール及びスクリプトの使用を可能にする。その結果、既存のツール、例えば、ｓａｍｔｏｏｌｓ、ｂｃｆｔｏｏｌｓ、ｖｃｆｔｏｏｌｓ、及び高度に最適化されたインメモリ固有のツールをパイプラインに統合することが可能である。本願は、Ｂｕｒｒｏｗｓ−ＷｈｅｅｌｅｒＡｌｉｇｎｅｒ（ＢＷＡ）、Ｂｏｗｔｉｅ、Ｂｏｗｔｉｅ２、ＳＮＡＰ等の様々な事実上の業界標準であるアラインメントアルゴリズムをパイプラインに統合することに成功した。

配列アラインメント及び変異コール
アラインメントタスクの入力は、数千又は数百万の未処理ＤＮＡリード又はスニペットを含むＦＡＳＴＱファイルである。ＦＡＳＴＱファイルは、時間集約的なプロセスでＮＧＳデバイスによって生成される。処理は、単一の巨大なＦＡＳＴＱファイルを待つのではなく、可能な限り早く、すなわち、例えば２５６ＭＢのファイルサイズを有するＦＡＳＴＱチャンクがＮＧＳデバイスによって生成されると開始される。その結果、シーケンシング実行がまだ進行中である間に既にデータ処理は開始される。変異コールの結果は、変異コールフォーマット（ＶＣＦ：Variant Calling Format）と両立するタスク固有のデータベーステーブルに記憶される。

パイプライン処理ステップは、現行の技術水準によるパイプラインと同様の全体機能を有するが、全ての処理ステップ及びツールはＩＭＤＢに転送される。したがって、全ての中間結果はデータベースに記憶され、選択された演算がＩＭＤＢのネイティブデータベース演算で置き換えられる。したがって、本システムは、既存のツール及びパイプラインと、高度に最適化されたアルゴリズム、例えばＨＡＮＡアラインメントの開発プラットフォームとの統合プラットフォームを指す。図４、図４ａおよび図４ｂのＦＭＣ図（基本モデル化概念−ＦＭＣ）及び下記に引用する以下のステップは、配列アラインメントの一般的な手順を示す。ステップ２から４は、いくつかのノードでＦＡＳＴＱファイルの全ての分割に対して実行される。ステップ５から８は、１つのノードのみで実行することができ、一方、分割後、ステップ９及び１０は再び、多くとも２４の異なるノードで実行される。
１．ＦＡＳＴＱファイルは複数のチャンクに分割され、いくつかのノードでの並列処理を可能にする。
２．特定のアラインメントアルゴリズムは、ＳＡＭフォーマットでゲノムを再構築する。アラインメントアルゴリズムは、選択するか、又は選ぶことができる（ＢＷＡ、Ｂｏｗｔｉｅ等）。
３．ＳＡＭファイルは、後続する変異コールのために、バイナリ表現、すなわち、ＢＡＭフォーマットに変換される。
４．ＢＡＭファイルは、ステップ５（マージする）の準備ステップとしてソートされる。
５．ＢＡＭファイルは単一のＢＡＭファイルにマージされる。
６．蓄積されたＢＡＭファイルが、インデックス付けに向けてソートされる。
７．ＢＡＭファイルはインデックス付けされる。
８．ＢＡＭファイルは、並列処理のために染色体ごとに個々のチャンクに分割される（２４の分割）。
９．例えばｓａｍツール等の変異コールが実行され、ＶＣＦファイルが作成される。
１０．ＶＣＦファイルはマージされ、累積された結果セットが、リアルタイム解析のためにデータベースＩＭＤＢにインポートされる。

ＩＭＤＢ技術用に最適化されたパイプラインでは、ソート、マージ、及びインデックス付けの処理ステップは、特定のツールによって実行されない。これらのステップは、ファイルシステムにおいて中間ファイルを作成する必要なく、ＩＭＤＢによって直接実行される。

データベース機能
以下に、特定のデータベース拡張がいかに実施され、通常のＳＱＬ機能を拡張するかを概説する。

組み込まれたＩＭＤＢは、ゲノム固有のプロシージャである、Ｌ、ＳＱＬスクリプト、又はＣ＋＋の言語で書かれたストアドプロシージャによって拡張される。これらのプロシージャは、データベース内に記憶されるデータに対して直接実行される。すなわち、データ転送の必要はない。

例えば、アプリケーションは、ストアドプロシージャＴＲＩＰＬＥＴＳ＿ＩＮ＿ＲＡＮＧＥを実施して、所与のＤＮＡ遺伝子座から関連付けられたアミノ酸を導出した。

特定の細胞株のアミノ酸配列を計算する場合、関連するゲノムは対応するＶＣＦテーブルから再構築される。ストアドプロシージャは、ゲノム内の間隔を入力として用い、トリプレットを導出し、各トリプレットをＡＭＩＮＯＡＣＩＤＳ（アミノ酸）データベーステーブルの対応するコンテンツと結合する。

ベンチマーク結果
図５は、様々なメディアブレークを有する従来のデータ処理パイプラインと、統合プラットフォームとしてＩＭＤＢを組み込む最適化されたパイプラインとを比較するベンチマーク結果を示す。ＩＭＤＢに最適化されたパイプラインのスループットは、従来のパイプラインのスループットよりも約８倍良い。従来のパイプラインのスループットは約０．５Ｍｂｐ／ｓで停滞を示す。

逆に、ＩＭＤＢ用に最適化されたパイプラインは、２倍の入力ファイルサイズで約１．０４から１．１０の一定の倍率を示す。すなわち、ベンチマークファイルの処理飽和には決して到達しなかった。さらに、ベンチマークは、ＩＭＤＢ最適化パイプラインが、高カバレッジＦＡＳＴＱファイルを数分で処理可能なことを示す。例えば、約１１０００Ｍｂｐを有する最大入力ファイルは約４５分でシーケンシングされた。比較のために、従来のデータ処理パイプラインでは、同じファイルの処理に５時間を超える時間がかかった。

ベンチマークセットアップ
ベンチマークを、２５の同一の計算ノードによって形成される１０００の物理的コアを有するクラスターで実行した。各ノードは、クロック速度２．４０ＧＨｚで実行され、クイックパス相互接続（ＱＰＩ：Quick Path Interconnect）速度６．４ＧＴ／ｓを提供する４つのＩｎｔｅｌＸｅｏｎＣＰＵＥ７−４８７０中央演算処理デバイス（ＣＰＵ）を備える。各ＣＰＵは、３０ＭＢのＩｎｔｅｌのスマートキャッシュ、１０のコア、及び２０のスレッドを備える。

上記で概説したアラインメント及び変異コールを、１０００のゲノムプロジェクトから選択されたファイルに対して実行した。エンドツーエンド処理時間を、未処理のＦＡＳＴＱファイルから開始して、変異コールが完了するまで測定し、スループットレートを、１秒あたりで処理される塩基対数として測定した。本願は、従来のパイプラインのスループットレートとＩＭＤＢ用に最適化されたパイプラインのスループットレートとを比較した。従来のパイプラインの中間プロセスステップは非常に類似しており、各ステップは、共有ネットワークファイルシステム（ＮＦＳ：Network File System）において入力ファイルを受け取り、データを処理し、別の出力ファイルを生成する。例えば、ＦＡＳＴＱ入力ファイルは、ＢＷＡアルゴリズムを用いて整列され、ＳＡＭ出力ファイルが生成され、ＢＡＭファイル等に変換される。ＩＭＤＢに最適化されたパイプラインは、妥当な場合、例えばファイルのマージ、ソート中、データベースサポートを用いる。

図５は、全ゲノムアラインメント及び変異コールからなるデータ処理パイプラインのスループットの比較を示す。ＩＭＤＢ技術用に最適化されたバージョンは、中間結果をファイルに記憶する従来のパイプライン構成と比較して約９倍、スループットを改善する。

図６は再び、ゲノムデータ処理を提供するために、ＯＬＡＰトランザクション及びＯＬＴＰトランザクションからなるインメモリに基づく全体アーキテクチャを示す。図６に見ることができるように、ヌクレオチド配列は、図６の左側に示されるシーケンシング機Ｍによって提供される。パイプラインによれば、リードセットが提供される。各リードは、構成可能な量のチャンク、特に２５のチャンクにセグメント化され、各チャンクは、ノードクラスターのワーカーに関連付けられるか、又は割り振られる。図６に見ることができるように、チャンクへの処理デバイスとしてのワーカーの割り振りはまた、動的に構成可能であり、それにより、ここの例では、チャンク１はワーカー２に割り当てられ、チャンク２はワーカー１に割り当てられる。なぜなら、おそらくはチャンク１が処理電力の点で最も需要が高く、ワーカー２がこの瞬間に最大程度の空きリソースを有するためである。次に、各ワーカーは、構成可能なアラインメントアルゴリズムを実行することによって部分的なアラインメント結果ＡＲ_１、ＡＲ_２、・・・、ＡＲ_ｎを提供し、部分結果はそれぞれＩＭＤＢデータベースに記憶される。異なるアラインメントアルゴリズムを用いて各チャンクを処理し得る（ユーザーがそうすることを望む場合）ことに留意されたい。したがって、異なるアラインメントアルゴリズムを異なるリードに用いることも可能である。主な態様は、シーケンシングがまだ計算されているか、又は処理されている間にそのアラインメントが開始されることに見られる。したがって、この方法は、最初のシーケンス結果が利用可能になるとすぐに実施することができる。全ての部分的なアラインメント結果ＡＲ_ｉが集約された後、部分結果ＡＲ_ｉ及び全体的な集約結果はＩＭＤＢデータベースに記憶される。

この後、いくつかのデータベーストランザクションを実行すべきであり、全体のアラインメント結果が提供され、次に、この結果はまた、変異コールアルゴリズムによって、並列処理のためにアイテムに分割され、変異コールアルゴリズムはここでも、パイプラインの各使用事例用に構成することができる。各ワーカーは、変異コールの中間結果ＶＣＲ_１、ＶＣＲ_２、・・・、ＶＣＲ_ｎを提供する。これらの部分結果ＶＣＲ_ｉはＩＭＤＢデータベースに記憶され、集約されて、全体的な結果を構築し、この全体的な結果もＩＭＤＢデータベースに記憶される。同時に、結果はユーザーインターフェースＵＩに表示することができる。

図７は、分散インメモリデータベースランドスケープＨＡＮＡＩＭＤＢを示す。図７に見ることができるように、少なくとも１つのワーカーが処理ノードで実施され、ワーカーはＨＡＮＡインスタンスと対話する。

図８は再び、処理パイプラインを示し、ＦＡＳＴＱファイル（リード）が入力として機能する。さらに、処理パラメーターは、ユーザーによって構成することができる（アルゴリズムを選択し、参照ゲノムを選択する等であるが、図８に示されていない）。図に見ることができるように、アラインメント及び変異コールを複数のワーカーノードで並列に実行して、処理時間を節減する。必要な演算（マージ、ソート、インデックス付け等）は、データベーストランザクションとして直接実行される。

システムアーキテクチャの概略全体図を図９に与える。ここでは、インターネットとイントラネットとの区別が示される。ユーザーはＨＩＧウェブサービス（Ｔｏｍｃａｔ）によって対話する。

ディスパッチャーは、負荷平衡化、故障処理、タスク作成、及び実行中のタスクの監督を担当する。その結果、ディスパッチャーは複雑なタスク、例えばシーケンスアラインメントを原子タスクに分割し、並列に実行するためにワーカーに分配する。染色体の部分配列（subsequence）を返す等の単純な要求は処理されず、ウェブサービスによってＳＱＬステートメントとして直接実行される。

タスクの作成及び調整
処理する全ての複雑なタスクは、ディスパッチャーによって原子タスク（＝ジョブ）に分割される。この構成要素は、各アラインメントアルゴリズム及び全ての他のタスク、例えば、データソース更新の異なるパイプラインについて知っている。ワーカーが、ジョブを終了したことを通知する場合、ディスパッチャーは、後続するジョブを作成し、そのジョブを次のワーカーに割り当てることを担当する。ジョブが同期を要求する場合、すなわち、ジョブを、特定の他のジョブが先に終了した後でのみ実行可能な場合、ディスパッチャーは、これらの条件が満たされるように取り計らう。ジョブの実行中にエラーが生じる場合、ディスパッチャーは、タスクの実行を再スケジュールするか、又は停止し、エラーをアラインメントコーディネーターに報告することによってエラーを処理しなければならない。

負荷平衡化
新しいジョブを作成する場合、ディスパッチャーは、このジョブを特定のワーカーに直接割り当てるが、又は指定されていない状態のままにしてランダムなワーカーが自身をこのジョブに自律的に割り当てるようにすることができる。ジョブを割り当てる場合、ディスパッチャーは、ワーカーの現在の作業負荷及び計算能力を追跡して、どのワーカーがジョブを得るかを決定しなければならない。幾つかのワーカーがアイドルである場合、作業負荷が複数のワーカー間で最適に平衡されるように、すなわち、ジョブが、別のワーカーがアイドルである間、ビジー状態のワーカーによる実行を待つことがないように、新しい複数のジョブをそれらのワーカーに分配することがディスパッチャーの担当である。

故障処理
ディスパッチャーは、ワーカーのアクセス可能性に関して全てのワーカーを監視する。ワーカーが故障する場合、ディスパッチャーはそれに対応しなければならず、必要な場合、ジョブの実行を再スケジュールしなければならない。この耐故障性を達成するために、ディスパッチャーは、例えば、分毎に全てのワーカーにｐｉｎｇを送信し、応答を待つことによって、全てのワーカーがまだ利用可能であるか否かを定期的にチェックしなければならない。ワーカーが応えない場合、ディスパッチャーは、そのワーカーが故障しており、未来のジョブの割り当てに利用可能ではないことを知る。それに加えて、ディスパッチャーはまた、故障時、このワーカーがジョブに対して作業中であったか否かをチェックしなければならない。これが当てはまる場合、ジョブをロールバックしなければならない。これは、生じ得る中間結果又は最終結果を削除することのみならず、ジョブを別のワーカーに割り振りし直すことを含む。

図１０は、クラスターの各ノードで実行中のワーカープロセスと、ワーカープロセスによって実行されるジョブとを示す。ワーカーは、クラスター（＝２５のワーカープロセス）の各ノードで実行されるプロセスである。ワーカーは一緒になって、ウェブサービスによって作成される複雑なタスクを処理するフレームワークを構築する。複雑なタスクとは、配列アラインメント等の、幾つかのより小さなサブタスクに分解することができ、全体的な計算時間がより長くかかるタスクである。ＳＱＬステートメントの実行等のより単純なタスクは、ウェブサービスによって直接実行され、計算にワーカーフレームワークを必要としない。ワーカーフレームワークで複雑なタスクを処理する場合、複雑なタスクはより小さな原子タスクに分解され、原子タスクは幾つかのワーカーに分配され、並列に実行される。これらの原子タスクはジョブと呼ばれ、図１０の左側に概略的に示され、実際のジョブインスタンスを有する。ワーカーの担当は、ジョブが利用可能なったらすぐにジョブを自律的に実行することである。

ジョブ調整
全てのワーカーは並列に処理しているため、ジョブスケジューリングは、２つのワーカーが同じジョブを実行していないように調整されなければならない。そのために、データベースに記憶されるタスクテーブルを介して同期が実現される。このテーブルは、存在する全てのジョブを含み、各ジョブの現在のステータス、すなわち、まだ割り当てられていない、ワーカーが現在作業中、正常に完了した、又は失敗した、を維持する。全てのワーカーはこのテーブルに同時にアクセスして、割り振られていないジョブセットからジョブをランダムに選び、ジョブのステータスを更新する。

ジョブ実行は、ワーカーによって要求に応じてインポートされるモジュールを介して処理される。ワーカーモジュールは、タスクテーブルから割り当てられていないタスクを選択することを担当する。これは現在、例えば、現在のジョブが実行可能になる前に、特定量の特定のジョブを終了していることをチェックするために、ジョブ従属性及び同期の処理も含む。実際のジョブ実行は、各ジョブモジュールにおいて行われる。

これらのモジュールは全て、ジョブと呼ばれるスーパーモジュールから継承される。このモジュールは、全てのジョブ、例えば、ジョブのステータスの記録に関連する実施を含む。ジョブ、例えば、配列の整列又はｃｓｖファイルのデータベースへのインポート等の実際の実施は、各ジョブモジュールに配置される。

図１１ａおよび図１１ｂは、ユーザー、アプリケーション、ウェブサービス、ディスパッチャー、ワーカー、及びＩＭＤＢデータベースの間でのパイプライン対話のｕｍｌシーケンス図である。対話の第１の部分は図１１ａに示され、後続部分は図１１ｂに示される。

以下の動作が実行される。
−ユーザーがパラメーター（すなわち、参照ゲノム、患者ＩＤ等）を選択する。
−アプリケーションがｈｔｔｐアドレスを要求する。
−ウェブサービスがアラインメントを開始する。
−ディスパッチャーがリードテーブルを解決し、作業リストを作成し、ワーカーでアラインメントを開始する。
−ワーカーが、アラインメントを選択し、ＩＭＤＢにアクセスし、結果をＩＭＤＢデータベースに記憶する。
−そして、ワーカーは部分結果ＡＲを収集し、参照ゲノムをＩＭＤＢデータベースからフェッチする。
−ディスパッチャーは、アラインメント結果をウェブサービスに提供する。
−ウェブサービスは、アラインメント結果を列挙し、結果をアプリケーション、ひいてはユーザーに対して可視化する。

好ましい実施形態によれば、ＩＭＤＢデータベースは以下のインメモリ主要概念を用いる。
・バルク負荷
・パーティション化
・マルチコア及び並列化
・軽量圧縮
・ノード内の動的マルチスレッド
・結合された行ストア及び列ストア
・挿入のみ
・レイヤーの低減

ゲノムブラウザーは、参照ゲノム及び整列された配列の両方の所与の塩基配列のアミノ酸を表示する。そのために、ウェブサービスは、ＳＱＬスクリプトプロシージャをデータベースで呼び出す。結果は同じであるが、２つの事例（参照及びアラインメントのアミノ酸を示す）で計算に２つの異なるプロシージャを必要とする。

参照配列のアミノ酸を表示する単純な事例は、関数「Ｔｒｉｐｌｅｔｓ＿ｉｎ＿Ｒａｎｇｅ」において計算される。この関数は、入力パラメーターとして参照配列及び参照ゲノムの塩基開始位置及び塩基終了位置を受け取る。次に、この関数は、所与の位置から塩基配列を計算し、塩基トリプレットに分割する。これらのトリプレットごとに、プロシージャはコードされたアミノ酸をＡｍｉｎｏｓｏｎｎｅテーブルにおいて調べる。突然変異した塩基配列のアミノ酸配列を計算する場合、「Ｔｒｉｐｌｅｔｓ＿ｉｎ＿Ｒａｎｇｅ２」と呼ばれるより複雑な関数が必要とされる。アラインメントごとに、実際の塩基配列ではなく、突然変異情報のみが与えられるため、塩基トリプレットを上記プロシージャのように構築することが可能になる前に、参照ゲノムの塩基配列及び所与の突然変異情報から実際の塩基配列を手動で再構築する必要がある。したがって、塩基開始位置、塩基終了位置、及び参照ゲノムの他に、関数は、タスクＩＤも入力として受け取る。このタスクＩＤの助けにより、どの突然変異が、検索された塩基配列にあるかを見つけ出し、元の塩基配列を再構築することができる。

考察
ＩＭＤＢ用に最適化されたパイプラインは、中間結果をファイルシステム内のファイルではなくＩＭＤＢに記憶する。ＩＭＤＢは、特定のプロセスステップも直接実行し、特定のツールの必要性をなくす。例えば、ｓａｍツールは、データが分散処理されるとき、中間結果のマージ、ソート、及びインデックス付けを要求する。ＩＭＤＢ用に最適化されたパイプラインは、その代わりにこれらのステップをネイティブＩＭＤＢ演算として実行する。

例えば、マージは、全てのノードからの中間結果を単一のデータベーステーブルに挿入することによって達成される。この結果テーブルは、全てのノードにわたって分配され、それにより、データ転送の待ち時間を低減する。ネイティブＳＱＬ「並べ替え（ＯＲＤＥＲＢＹ）」ステートメントはソートを達成し、インデックス付けは、新しい値の挿入中、ＩＭＤＢによって自動的に実行される。したがって、アプリケーションは、或る特定の中間プロセスステップの時間を低減することが可能である。

本願は、完全なパイプラインのスループットを大幅に改善することができることを開示する。ＩＭＤＢのパイプラインは、既存のアラインメントツール及び変異コールツールの統合を最適化する。その結果、中間結果ファイルをローカルファイルシステム又はＮＦＳから読み出す／に書き込むことによる遅延をなくす。

結言及び展望
本発明は、ゲノムデータ処理の様々な特定の態様に対処する。アラインメント及び変異コールのオープンソースツールのしっかりとした統合が、ゲノム処理パイプラインの全体スループットを改善することが示された。しかしながら、この統合は特定の技術プラットフォームを必要とする。本願は、ＩＭＤＢ技術を、ゲノム処理ツールを統合するプラットフォームとして開示している。

さらに、本願は、研究雛形アーキテクチャにおいて、ゲノム及び国際注釈を統合するプラットフォームを提供する詳細な洞察を共有した。本願は、最新の国際注釈データベースを用いて知識データベースを自動的に更新するようにＩＭＤＢ技術を拡張した。その結果、最新の世界中の研究結果が、特定の突然変異の解釈中に自動的に検討され、個別化医療の過程での治療判断をサポートする。

最終的に、特定の研究の問いに答えるアプリケーションがプラットフォーム上にどのように構築されるかが示された。例えば、ゲノムブラウザーの助けを用いたアラインメントタスクと特定の突然変異のリアルタイム解析との調整は、任意のインターネットブラウザーを介してアクセスすることができる。したがって、全てのアプリケーションはプライベートクラウド又はパブリッククラウドのいずれかで実行することができ、それにより、バイオインフォマティクスの専門家がいない研究所が、個別化医療を実施し、独力でゲノムデータのリアルタイム解析を実行できるようにする。

将来の研究は、ツール、例えばアラインメント又は突然変異予測効果をＩＭＤＢ技術に統合することによって処理パイプラインのスループットを更に改善するであろう。その結果、本願は、ゲノムデータ処理パイプラインの全体スループットがこれらの適応を用いて更に改善すると予想する。

最後に、実施形態例の説明が、原理上、本発明の特定の物理的な実施に関して限定として理解されるべきではないことを指摘すべきである。特に、本発明の実施形態を部分的又は全体的にソフトウェアで、複数の物理的な製品、特にコンピュータープログラム製品にわたって分散した形態で実施可能なことが当業者には明らかである。

さらに、任意の上記方法はプログラムの形態で具現することができる。プログラムは、コンピューター可読媒体に記憶することができ、コンピューターデバイス（プロセッサを含むデバイス）で実行されると、上記方法の任意の１つを実行するように構成される。したがって、記憶媒体又はコンピューター可読媒体は、情報を記憶するように構成されるとともに、データ処理設備又はコンピューターデバイスと対話して、任意の上記実施形態の方法を実行するように構成される。

実施形態例がこうして説明され、実施形態例を多くの方法で変更可能なことが明らかであろう。そのような変形は、本発明の趣旨及び範囲からの逸脱としてみなされるべきではなく、当業者に明らかな全ての変更は、添付の特許請求の範囲内に含まれることが意図される。

ＩＭＤＢインメモリデータベース
Ｍシーケンシング機
ＡＲ_ｉｉ番目の部分的なアラインメント結果
ＶＣＲ_ｉｉ番目の部分的な変異コール結果

Claims

ヌクレオチド配列データを処理するコンピューターベースのシステムであって、前記ヌクレオチド配列データはリードとして提供され、該システムは、前記ヌクレオチド配列データをシーケンシング機（Ｍ）からインポートするインターフェースを有し、
前記ヌクレオチド配列データを処理するプロセス論理及びインメモリデータベース（ＩＭＤＢ）を保持するプラットフォームレイヤー
を更に備え、該プラットフォームレイヤーは、
複数のワーカーを有するワーカーフレームワークであって、前記複数のワーカーはそれぞれ、クラスターのノードで実行されており、前記複数のワーカーは並列で処理しており、全ての結果及び中間結果は前記インメモリデータベース（ＩＭＤＢ）に記憶される、ワーカーフレームと、
注釈更新を外部ソースから自動的にダウンロードして前記インメモリデータベース（ＩＭＤＢ）にインポートするアップデーターフレームワークと、
を備える、ヌクレオチド配列データを処理するコンピューターベースのシステム。
前記システムはアラインメントコーディネーターを更に備え、該アラインメントコーディネーターは、前記インメモリデータベース（ＩＭＤＢ）に変更されたアラインメント機能を提供するように構成され、前記複数のワーカーはアラインメント処理用に構成される、請求項１に記載のコンピューターベースのシステム。
前記システムは、少なくともゲノムブラウザーを有するユーザーインターフェース（ＵＩ）を更に備え、該ユーザーインターフェースは、
前記ヌクレオチド配列と複数の参照される細胞株／ゲノム及び／又は参照配列との比較を表示するセクションと、
複数の外部データベースからの結合された解析情報を表示するセクションと、
特にゲノム配列データのアラインメントの特定のパイプライン構成のデータ処理の命令を選択するセクションと、
を備える、請求項１又は２に記載のコンピューターベースのシステム。
前記複数のワーカーは、データベース演算によって主なデータ処理を実行する前記インメモリデータベース（ＩＭＤＢ）の部分である、請求項１から３のいずれか１項に記載のコンピューターベースのシステム。
前記インメモリデータベース（ＩＭＤＢ）は、ウェブサービス、方法ステップの全ての中間結果、整列される前記ヌクレオチド配列、及び参照配列のデータ記憶装置である、請求項１から４のいずれか１項に記載のコンピューターベースのシステム。
事前に構成可能な基準に従って、結合された解析情報をスコア付けするように構成されるスコア付けモジュール
を更に備える、請求項１から５のいずれか１項に記載のコンピューターベースのシステム。
インメモリデータベース（ＩＭＤＢ）を用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法であって、
複数のＣＰＵコアを有する計算ノードのセットを有するクラスターを提供する方法ステップであって、前記計算ノードのそれぞれは、並列データ処理のためにワーカーを実施する、方法ステップと、
前記ヌクレオチド配列データを複数のリードとして前記インメモリデータベース（ＩＭＤＢ）に提供し、シーケンシングと同時に、データ処理を行う方法ステップと、
を備え、前記データ処理は、
前記計算ノードのセットにおいて前記複数のリードのチャンクを並列に整列し、複数の部分的なアラインメント結果（ＡＲ）を一のマージされたアラインメント結果に集約するか、又は前記インメモリデータベース（ＩＭＤＢ）に記憶されるアラインメント結果をコンピューターに基づくインスタンスから受信することと、
前記計算ノードのセットにおいて変異コールを並列に実行し、複数の部分的な変異コール結果（ＶＣＲ）を一のマージされた変異コール結果に集約するか、又は前記インメモリデータベース（ＩＭＤＢ）に記憶される変異コール結果をコンピューターに基づくインスタンスから受信することと、
前記変異コール結果を複数の異なる外部注釈ソースと結合することによって前記変異コール結果を自動的に解析することであって、前記複数の異なる外部注釈ソースは、アップデーターフレームワークによって定期的かつ自動的にチェックされ、前記インメモリデータベース（ＩＭＤＢ）にインポートされることと、
を含む、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法。
インメモリデータベース（ＩＭＤＢ）を用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法であって、
複数のコアを有する計算ノードのセットを有するコンピューターコアクラスターを提供する方法ステップであって、前記計算ノードのそれぞれは、並列データ処理のためにワーカーを実施する、方法ステップと、
前記ヌクレオチド配列データを複数のリードとして前記インメモリデータベース（ＩＭＤＢ）に提供し、シーケンシングと同時に、
前記複数のリードを構成可能な量のチャンクに均等にセグメント化することと、
前記チャンクのそれぞれを前記コンピューターコアクラスターの選択されたワーカーに割り振り、並列に部分的なアラインメント結果（ＡＲ_ｉ）を提供し、全ての該部分的なアラインメント結果（ＡＲ_ｉ）を前記インメモリデータベース（ＩＭＤＢ）に記憶することによって、前記チャンクのそれぞれを参照配列に整列することと、
全ての前記選択されたワーカーの前記部分的なアラインメント結果を集約することであって、それにより、アラインメント結果を生成し、該アラインメント結果を前記インメモリデータベース（ＩＭＤＢ）に記憶することと、
前記アラインメント結果に基づいて変異コールアルゴリズムを実行し、前記変異コールの結果を前記インメモリデータベースのタスク固有のデータベーステーブルに記憶することと、
アップデーターフレームワークによって前記変異コールの前記結果を自動的に解析することによって最終結果を生成して表示することであって、前記アップデーターフレームワークは、更新について外部注釈ソースを定期的かつ自動的にチェックし、前記更新を自動的にダウンロードして前記インメモリデータベース（ＩＭＤＢ）にインポートすることと、
によってデータを処理する方法ステップと、
を含む、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法。
前記整列することは、アラインメントアルゴリズムを介して実行され、該アラインメントアルゴリズムは、動的プログラミングに基づき、パイプライン構成ごとに選択することができ、特に、バローズ−ホイーラーアライナー（ＢＷＡ）、Ｂｏｗｔｉｅ、Ｂｏｗｔｉｅ２、ＳＮＡＰ、及び／又はＴＭＡＰ１−４を含む、請求項７又は８に記載のコンピューター実施方法。
処理パイプラインは、複数の異なる処理パイプラインも動的に構成可能であり、及び／又は特定の使用事例で並列に実行可能なようにモデル化される、請求項７から９のいずれか１項に記載のコンピューター実施方法。
前記変異コールの場合、前記アラインメント結果は、染色体ごとに１つずつ、構成可能な量のアイテムに分割され、該アイテムはノードに割り振られ、該アイテムのそれぞれにおいて変異コールアルゴリズムを並列に実行し、部分的な変異コール結果（ＶＣＲ_ｉ）を提供する、請求項７から１０のいずれか１項に記載のコンピューター実施方法。
アラインメントは、前記インメモリデータベース（ＩＭＤＢ）において直接実施することができる、請求項７から１１のいずれか１項に記載のコンピューター実施方法。
表示される最終結果は、オンザフライで、整列された前記配列及び／又は参照配列の所与の塩基配列のアミノ酸及び追加の情報を含む、請求項７から１２のいずれか１項に記載のコンピューター実施方法。
データ交換がウェブサービスに基づき、全てのアプリケーションがクラウドに基づき、したがって、モバイルデバイスを介してアクセスすることもできる、請求項７から１３のいずれか１項に記載のコンピューター実施方法。
前記アップデーターフレームワークの更新は、設定可能に非同期で実行され、及び／又は特定のパイプラインの実行に結び付けられない、請求項７から１４のいずれか１項に記載のコンピューター実施方法。