JP2014146318A - インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法 - Google Patents

インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法 Download PDF

Info

Publication number
JP2014146318A
JP2014146318A JP2014008608A JP2014008608A JP2014146318A JP 2014146318 A JP2014146318 A JP 2014146318A JP 2014008608 A JP2014008608 A JP 2014008608A JP 2014008608 A JP2014008608 A JP 2014008608A JP 2014146318 A JP2014146318 A JP 2014146318A
Authority
JP
Japan
Prior art keywords
alignment
imdb
computer
memory database
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014008608A
Other languages
English (en)
Inventor
Plattner Hasso
プラットナー ハッソ
Schapranow Matthieu-Patrick
シャプラナウ マシュー−パトリック
Ziegler Emanuel
ジーグラー エマニュエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hasso Plattner Institut fuer Softwaresystemtechnik GmbH
Original Assignee
Hasso Plattner Institut fuer Softwaresystemtechnik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hasso Plattner Institut fuer Softwaresystemtechnik GmbH filed Critical Hasso Plattner Institut fuer Softwaresystemtechnik GmbH
Publication of JP2014146318A publication Critical patent/JP2014146318A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】個別化医療の過程でのゲノムデータの解析及び評価を可能とするコンピューターベースのシステム及びコンピューター実施方法を提供する。
【解決手段】個別化医療の過程での総合的プロセスとしてゲノムデータを処理し、リアルタイムで解析する、インメモリ技術上に構築される研究雛形であり、クラウドアプリケーションは、医師及び研究者をサポートして、癌疾病等の、ゲノム変異又は突然変異に相関する疾病の治療において或る特定の腫瘍型の遺伝的な根源を識別し、分散した国際研究及び文献データソースの全ての配置を長期にわたって手動検索する必要性をなくしながら、最新の国際研究結果を患者固有のゲノムデータに結合する。
【選択図】図1

Description

本発明は、ヌクレオチド配列データを処理するインメモリデータベースを用いるコンピューターベースのシステム及びコンピュータープログラムを実施する方法に関する。
本発明は、現在、利用可能なプラットフォーム及びバイオインフォマティクス並びに見込まれる将来のプラットフォーム及びバイオインフォマティクスを特に参照して、ゲノミクスでの次世代シーケンシング(NGS:Next-Generation Sequencing)技術に対処する。NGS技術は、かつてない速度でDNAを配列する能力を示し、それにより、個別化医療等の以前は想像できなかった科学的成果並びに新規の生物的応用及び医学的応用を可能にする。しかし、NGSによって生成される大量のデータはまた、データの記憶、解析、及びデータ処理に大きな問題を提示する。ゲノムデータを処理するために、ゲノムデータ処理パイプラインとも呼ばれるコンピューター実施処理ステップの通常のワークフローが確立されている。正確性のため、及び高品質の結果を素早く提供するために、(アラインメント)結果から偽陽性をなくすことが極めて重要である。さらに、とりわけ重複をフィルタリングするか、無効なエントリを除去するか、又はNGSデータのサブセットを再整列する更なる処理ツールをパイプラインに統合することが極めて重要である。
しかしながら、既知の手法に基づき、更なるツール及び処理ステップをパイプラインに追加することは難しい。なぜなら、その追加により処理時間が大幅に増大するためである。
別の問題は、結果の品質が、注釈が検討される程度に強く依存することであり、注釈は一般に、最新の研究結果に基づき、世界中の多くの様々なデータベースに分散して記憶される。可能な限り多くの注釈情報を集めるために、或る特定の注釈データベースに別個にアクセスしなければならない。しかしながら、これは全体結果の処理時間に悪影響を及ぼす。
したがって、本発明の目的は、可能な限り高速で高品質の結果を提供し、様々な注釈データベースのクエリ結果を更に自動的に統合することである。
この目的は、特に、インメモリデータベースシステムによってゲノム配列データを処理するコンピューターベースのシステム及び方法の添付の独立クレームによって解決される。
本発明によるコンピューターベースのシステムは、リードとして提供されるヒト又は非ヒトのヌクレオチド配列データを処理するように構成され、ヌクレオチド配列データを処理するプロセス論理及びインメモリデータベースシステムを保持するプラットフォームレイヤーを備え、プラットフォームレイヤーは、プロセスとして実施される複数のワーカーを有するワーカーフレームワークであって、各ワーカーは、複数のコアからなるクラスターの計算ノードで実行されており、複数のワーカーは並列で処理しており、全ての結果及び中間結果はインメモリデータベースに記憶される、ワーカーフレームと、注釈更新(関連する研究文献を含む場合がある)を外部ソースから自動的にダウンロードしてインメモリデータベースにインポートするアップデーターフレームワークと、を備える。
好ましい実施形態によれば、本システムは、少なくともゲノムブラウザーを有するユーザーインターフェースを更に備え、ユーザーインターフェースは、ヌクレオチド配列と複数の参照される細胞株/ゲノム及び/又は参照配列との比較を表示するセクションと、複数の外部データベースからの結合された解析情報を表示するセクションと、特にゲノム配列データのアラインメントの特定のパイプライン構成のデータ処理の命令を選択するセクションと、を備える。
更に好ましい実施形態によれば、本システムはアラインメントコーディネーターを更に備え、アラインメントコーディネーターは、インメモリデータベースシステムに変更されたアラインメント機能を提供するように構成される。
以下に、本願内で用いられる用語の手短な定義を与える。
ヌクレオチド配列データは、ヒト又は非ヒトであることができ、DNA配列データ又はRNA配列データであることができる。本発明の別の実施形態では、システムは、例えば、アミノ酸配列のような他のゲノム配列データを処理するように構成することもできる。しかしながら、ゲノム配列は主に、文字C、G、A、T、及びUを含むアルファベットにそれぞれマッピングすることができる配列を指す。なぜなら、主な核酸塩基が、C、G、A、T、及びUとしてそれぞれ略されるシトシン、グアニン、アデニン(DNA及びRNA)、チミン(DNA)、及びウラシル(RNA)であるためである。以下で、これらの核酸塩基は通常、(遺伝学での通常使用に従って)単に塩基と呼ばれる。
シーケンシング機は、DNA分子内のヌクレオチドの精密な順序を自動的に特定するように構成される実験デバイスである。シーケンシング機は、次世代シーケンシング(NGS)デバイスであることが好ましい。シーケンシング機は、システムにインポートされるリードを提供する。NGS機は通常、システムの一部ではない。シーケンシング機は、DNA鎖内の4つの塩基、すなわち、アデニン、グアニン、シトシン、及びチミンの順序の特定に用いられる任意の方法又は技術を含む。一般に、DNAシーケンシングを用いて、個々の遺伝子、より大きな遺伝領域(すなわち、単一の規制信号若しくはプロモーターの制御下で遺伝子のクラスターを含むゲノムDNAの機能単位としての遺伝子のクラスター若しくはいわゆるオペロン)、全染色体、又はゲノム全体の配列を特定することができる。結果として生成される配列は、分子生物学又は遺伝学の研究者によって用いられて、科学的進歩を促進することができるか、又は個別化医療に用いることができる。例えば、癌ゲノムシーケンシングは、癌細胞の単一の同種群又は異種群の全ゲノムシーケンシングである。癌ゲノムシーケンシングは、癌細胞(複数の場合もある)のDNA配列又はRNA配列を特徴付け同定する生化学実験室的方法である。通常は血液細胞、唾液、上皮細胞、又は骨からのものである全ゲノム(WG:Whole Genome)シーケンシングとは異なり、癌ゲノムシーケンシングは、原発腫瘍組織、隣接する正常組織若しくは遠位正常組織、線維芽細胞/間質細胞等の腫瘍微小環境、又は転移性腫瘍部位のダイレクトシーケンシングを含む。全ゲノムシーケンシングと同様に、この技法から生成される情報は、ヌクレオチド塩基の同定(DNA又はRNA)、コピー数及び配列変異体、突然変異ステータス、並びに染色体転座及び融合遺伝子等の構造変更を含む。癌ゲノムシーケンシングは、WGシーケンシングに限定されず、エキソーム、トランスクリプトーム、マイクロノーム(micronome)シーケンシングを含むこともできる。これらの方法を用いて、配列データの他に、遺伝子発現、miRNA発現を定量化し、代替スプライシングイベントを同定することができる。本発明によって処理される入力データは、FASTQフォーマットファイルとして提供することができる。
「変更されたアラインメント機能」という語は、特定のアラインメントアルゴリズム(理想的には、そのための追加のパイプライン構成を含む)を適用することができるように、複数の異なるアラインメントアルゴリズムのうちの少なくとも1つがインメモリデータベースに統合されることとして解釈されるべきである。「変更されたアラインメント機能」の別の態様は、アラインメントアルゴリズムがインメモリデータベース使用に向けて最適化されるように構成されることを指す。ファイルシステム内の入力ファイル及び出力ファイルにアクセスする従来のアルゴリズムとは対照的に、変更されたアラインメントアルゴリズムは、インメモリデータベースシステムに直接記憶されたか、又は直接記憶されるデータを利用することもできる。その結果、メディアブレークは低減し、スループットは増大し、現在のように、抽出、変換、及び専用OLAPシステムへのロードの必要なく、解析クエリをインメモリデータベースに記憶された全てのデータ上で実行することができる。
「CPU」という語は、コンピューター又はコンピューターのクラスターの中央演算処理デバイスを指す。一般に、コンピューターは2つ以上のCPUを有することができる。この場合、計算システムはマルチ処理と呼ばれる。幾つかのマイクロプロセッサは、単一チップ上に複数のCPUを含むことができ、これらはマルチコアプロセッサと呼ばれる。分散され相互接続されたプロセッサセットを提供することも可能である。
プラットフォームレイヤーは、ゲノムシーケンシングデータの処理をインメモリデータベースに統合するコンピューターに基づくアーキテクチャを指す。本発明によれば、全ての処理結果及び中間結果がもはや、ファイルとしてファイルシステムに記憶されず、その代わり、インメモリデータベースシステムで提供されることを指摘しなければならない。したがって、専用ツールがファイルに対して実行する全ての演算、例えばソート、マージ等は、演算トランザクション(OLTPシステム)及び解析トランザクション(OLAPシステム)によってネイティブインメモリデータベーストランザクションに置き換えられる。
インメモリデータベースは、結合された列ストア及び行ストアがデータセットに対して作業することができるような、列指向データ構造と組み合わせたメインメモリ技術の利用に基づく。したがって、このインメモリ技術はもはやディスク記憶機構に基づかない。解析システム及びトランザクションシステムが統合され結合される。本発明の一態様によれば、OLTPクエリを入力データに対して実行することができる。入力データは特に、シーケンシングデータ(NGS機によって提供される)、注釈データ(アップデーターフレームワークによって提供され、全ての外部登録された分散注釈ソース又はデータベースから統合される)、及び他のゲノムデータを含むことできる。中間結果及び最終結果を含む本発明による処理結果は、行指向又は列指向のデータベースフォーマットのいずれかでインメモリデータベースシステムに記憶することができる。カラムナデータベースフォーマットは、OLAP演算が対話的な応答時間挙動から恩恵を受けるようにOLAPクエリをサポートする。列指向データベースフォーマットに記憶されるデータは、入力データ及び結果の両方によって定期的に更新することができ、これは、インメモリデータベースにより、いかなる待ち時間もなく(すなわち、リアルタイムで)OLAPクエリを列指向データフォーマットに対して実行できるようにする利点と組み合わせられる。本発明の基礎をなすインメモリデータベースの特徴及び利点については、インメモリデータベースの詳細を記述する特許出願である欧州特許第2040180号が参照される。
ワーカーフレームワークは、インメモリデータベース(以下、IMDB(In-Memory Database)と略す)と対話し、様々なアプリケーション(アプリケーションレイヤー)とデータ(データレイヤー)との間の中間アクターである。ワーカーフレームワークは、入力シーケンシング要求に関して、要求されるタスク及びサブタスク並びに当分野で既知のマッピング低減手法に相当する順序を指定する。ワーカーフレームワークはまた、これらのタスクを計算ノード等の計算リソースに送り、それらのステータスを観測し、部分結果セットを結合して、最終結果セットを取得する。
アップデーターフレームワークも、インメモリデータベースと対話し、様々なアプリケーション(アプリケーションレイヤー)とデータ(データレイヤー)との間の中間手段である。アップデーターフレームワークは、国際研究結果を結合するベースである。アップデーターフレームワークは、注釈の更新及び新たに追加された注釈について、例えば、データベースエクスポート又はCSV、TSV、VCF等の特性ファイルフォーマットについて、公開FTPサーバー又はウェブページ等のインターネットソースを定期的にチェックする。新しいデータは自動的にダウンロードされ、IMDBにインポートされ、知識ベースを拡張する。アップデーターフレームワークはまた、PubMed等の関連する文献ソースをパーズし、データベース内の参照を更新する。新しいデータがインポートされると、そのデータは、いかなる待ち時間もなくゲノムデータのリアルタイム解析に利用可能である。例えば、アップデーターフレームワークによって処理される選択された研究データベースは、全米バイオテクノロジー情報センター(NCBI)、サンガー(Sanger)、カリフォルニア大学サンタクルーズ校(UCSC)等である。特定の使用事例に対して関連する研究文献を選択するために、選択プロセスを実施可能なことが好ましい(例えば、特別なデータベースを含むことができ、他のデータベースを無視することができる)。
処理パイプラインは、固定してプログラムされず、本発明の一態様によれば、例えばビジネスプロセスモデル及び表記(BPMN:Business Process Model and Notation)等の一般表記を用いてグラフィック的にモデル化される。したがって、様々なパイプライン、例えば異なるアラインメントアルゴリズムを実施するパイプラインを構成することができる。これらのパイプラインは並列処理することができる。これは、並列データ処理に起因して主要な性能増強である。さらに、個々のパイプライン構成は、様々な研究グループによって得られる結果の比較可能性を保証する。
別の基本的な態様は、様々な分散した注釈ソースから注釈結果を収集し集約することに鑑みて、本発明によって達成される主な改善に見られる。アップデーターフレームワークの提供に起因して、最新の研究結果をIMDBに提供し、最新の研究結果をリアルタイム解析に用いることが可能である。提供される解析は、即座に生成することができる。既存のシステムでは、例えば、NCBIによって注釈のメタ検索エンジンが提供されるが、ピーク時間中に性能ボトルネックという欠点を有し、正規のツール又は手動実行を必要とし、特定の研究の問いに答えるための個々の応用での使用において非トランスペアレントである。
別の主要な態様は、処理レイヤーをウェブサービスとして提供することができるという点で見られる。このウェブサービスは、インターネットとイントラネットとの境界である。ウェブサービスにより、ユーザーは、様々なエンドデバイス、特にモバイルデバイスでFASTQファイルを整列し、結果を示し、遺伝子を閲覧し、突然変異についての情報を表示することができる。
好ましい実施形態によれば、ウェブアプリケーションフレームワークは、ルビーオンレイルズ(ruby on rails)に基づく。ブラウザーに表示される大半のデータは、AJAX要求を用いて動的にロードされる。その結果、ウェブブラウザーアプリケーション又はモバイルアプリケーションとしてのiPad(登録商標)及びAndroidデバイス等の様々なユーザーインターフェース(UI)を介してアクセスされるように、全てのクラウドアプリケーションを構成することができる。したがって、アクセス結果又は実行に固有の解析はもはや、単一のロケーション、例えば、医師のオフィス内のデスクトップコンピューターに制限されない。全てのアプリケーション演算には、インターネットアクセスを有するように構成される任意のデバイスからアクセスすることができ、ユーザーの生産性が増大する。
ウェブサービスは、ログイン機能を提供するユーザー固有のデータも処理する。ウェブサービスはプライベートの機密データを処理するため、トランスペアレントなセキュリティ拡張を用いての構築が要求される。システムは複雑なプロジェクトに統合しなければならず、また、計算の一部を行わなければならないため、システムそれ自体が非常に複雑である。この複雑性を管理するために、全体システムはモデル−ビュー−コントローラーアーキテクチャパターン(MVC:Model-View-Controller Architecture Pattern)に基づく。ウェブサービス内で、ユーザーインターフェース(UI)上のビューに、モデル(データベースであることが既知)からのデータが提供される。これに関連して、ウェブサービスは、データベースができない機能を提供する。例えば、ユーザーセッション及びユーザー固有のデータは、データベースによって厳密には異なり得ないため、ウェブサービスはデータベースの機能を拡張する。さらに、ウェブサービスは新しいFASTQファイルのファイルアップロードを担当する。それらのファイルは巨大なサイズを有するとともに、インターフェース全体を妨害せずに、並列に、又は次々とアップロードしなければならない。最後に述べるが重要なことには、ウェブサービスは、見つかった突然変異についての追加のデータをユーザーに提供し、見つかった現象についての更なる知識を有するウェブサイトへのリンクを生成する。これらの情報は全て、静的であることはできず、それゆえ、動的にロードしなければならない。これらの全てのタスクはウェブサービスによって処理される。
上記のタスクを取得するために、以下のコントローラーが用いられる。アラインメント結果コントローラーは、アラインメント結果テーブルから選ばれたタスクの詳細ビューをロードする。タスクコントローラーは、実行の進行度を表示し、終了したタスクをロードする。FASTQファイルコントローラーは、現在ログインしているユーザーに新しいファイルをアップロードし、既存のファイルをロードする機能を提供する。ブラウザー要求コントローラーは、ウェブサイト内部の「第2のタブ」を参照して、ブラウザー要求の処理に必要とされる機能を提供する。細胞株メタデータコントローラーは、整列された患者の螺旋構造についてのデータを処理する。ユーザーセッションコントローラーは、ユーザーセッションを作成し、ユーザーセッションにアクセスし、ユーザーセッションを破棄する機能を提供する。ユーザーコントローラーは、ユーザーを作成し、表示し、編集する機能を提供する。ページをリロードする場合、ウェブサービスは、処理中のタスク及び実行中のタスク、並びに完了したタスクに関して、利用可能なFASTQファイルのようなユーザー固有の情報を表示するいくつかの関数を呼び出す。
本発明の別の態様によれば、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法が提供される。本方法は、それぞれが複数のCPUコアを備える計算ノードのセットを有するクラスターを提供する方法ステップであって、各計算ノードは、並列データ処理のためにワーカーを実施する、方法ステップと、ヌクレオチド配列データをリードとしてインメモリデータベースに提供し、(好ましくはシーケンシングと同時に)配列データを処理する方法ステップと、を含み、データ処理は、計算ノードのセットにおいてリードのチャンクを並列に整列し、部分的なアラインメント結果をマージされたアラインメント結果に集約することと、計算ノードのセットにおいて変異コールを並列に実行し、部分的な変異コール結果をマージされた変異コール結果に集約することと、変異コール結果を複数の異なる外部注釈ソース(例えば、PubMedからの研究文献を含む可能性がある)と結合することによって変異コール結果を自動的に解析することであって、複数の異なる外部注釈ソースは、アップデーターフレームワークによって定期的かつ自動的にチェックされ、更新され、インメモリデータベースに統合されることと、を含む。
本発明の別の実施形態において、アラインメント結果及び/又は変異コール結果は、外部システムによって提供することもできる。これらの結果は、システムの入力インターフェースによって受信することができ、インメモリシステムに記憶される。
本発明の別の態様によれば、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法が提供される。本方法は、それぞれが複数のコアを備える計算ノードのセットを有するクラスターを提供する方法ステップであって、各計算ノードは、並列データ処理のためにワーカーを実施する、方法ステップと、ヌクレオチド配列データをリードとして塩基対配列とともにインメモリデータベースに提供し、シーケンシングと同時に、リードを構成可能な量のチャンクに均等にセグメント化することと、チャンクのそれぞれをコンピューターコアクラスターの選択されたワーカーに割り振り、並列に部分的なアラインメント結果を提供し、全ての部分的なアラインメント結果をインメモリデータベースに記憶することによって、それぞれのチャンクを参照配列に整列することと、全ての選択されたワーカーの部分的なアラインメント結果を集約し、アラインメント結果を生成し、アラインメント結果をインメモリデータベースに記憶することと、アラインメント結果に基づいて変異コールアルゴリズムを実行し、変異コールの結果をインメモリデータベースのタスク固有のデータベーステーブルに記憶することと、アップデーターフレームワークによって変異コールの結果を自動的に解析することによって最終結果を生成して表示することであって、アップデーターフレームワークは、更新について全ての外部注釈ソースを定期的かつ自動的にチェックし、更新を自動的にダウンロードしてインメモリデータベースにインポートすることと、によってデータを処理する方法ステップと、を含む。
本発明の好ましい実施形態によれば、変異コールは、複数のノードでのアラインメント結果アイテムに対しても並列で実行される。全ての変異コール後、手順は終わっており、最終結果もインメモリデータベースに記憶することができる。また、変異コールの中間部分結果もインメモリデータベースに記憶される。これには、可能な限りすぐに、他の部分(変異コール)プロセスがまだ実行中であっても、配列データの処理を実行する(終了させて表示する)ことができるという技術的利点がある。
複数の注釈ソースが、更新について自動的にチェックされ、次に、更新はインメモリデータベースに自動的にインポートされ、アップデーターフレームワークによって処理される。可能な限り多くの異なる注釈ソースが検討されることが好ましい。特定のソースへのリンクが利用可能な場合、このソースは「登録された」ソースであると見なされ、アップデーターフレームワークによってアクセスされる。
主要な態様は、予め定義される静的なパイプライン構成セットを有するのではなく、パイプライン構成を動的にモデル化する柔軟性に見られる。例えば、特に殆ど知られていないゲノム差に対して、単一又は複数のアラインメントアルゴリズムをアラインメントアルゴリズムセットから選択し、組み合わせて、結果の精度を改善することができる。さらに、特定のパイプライン構成を選択して適用し、例えば、同種の土台で異なるゲノムデータセットを比較するベースを提供することができる。
本発明による方法及びシステムの好ましい実施形態は、従属クレームにおいて定義される。この点に関して、一般に、本発明をハードウェア又はソフトウェアモジュールと組み合わせられたハードウェアモジュールで実施することも可能なことに留意しなければならない。その場合、ハードウェアモジュールは、上述した方法のステップの機能を実行するように構成される。したがって、ハードウェアモジュールとソフトウェアモジュールとの組み合わせを有することも可能である。モジュールは、既存のバイオテクノロジー環境又は医療環境、例えばシーケンシング環境に統合されることが好ましい。方法に関して説明するか、又は説明した特徴、代替実施形態、及び利点は、各方法ステップの機能が構成されるハードウェアモジュールによってシステムにも同様に当てはめることができ、逆の場合も同様である。
本発明をより完全に理解するために、添付図面と組み合わせて解釈される以下の詳細な説明を参照する。
本発明の好ましい実施形態によるシステムアーキテクチャの概略全体図を示す。 アラインメントコーディネーターのユーザーインターフェースの例示的な図である。 アラインメントコーディネーターのユーザーインターフェースの例示的な図である。 アラインメントコーディネーターのユーザーインターフェースの例示的な図である。 アラインメントコーディネーターのユーザーインターフェースの例示的な図である。 アラインメントコーディネーターのユーザーインターフェースの例示的な図である。 ゲノムブラウザーのユーザーインターフェースの例示的な図である。 ゲノムブラウザーのユーザーインターフェースの例示的な図である。 ゲノムブラウザーのユーザーインターフェースの例示的な図である。 ゲノムブラウザーのユーザーインターフェースの例示的な図である。 ゲノムブラウザーのユーザーインターフェースの例示的な図である。 本発明の好ましい実施形態による、インメモリデータベースに統合されたゲノムデータ処理パイプラインである。 本発明の好ましい実施形態による、インメモリデータベースに統合されたゲノムデータ処理パイプラインである。 本発明の好ましい実施形態による、インメモリデータベースに統合されたゲノムデータ処理パイプラインである。 全ゲノムアラインメント及び変異コールからなるデータ処理パイプラインのスループットの比較を示す図である。 本発明の好ましい実施形態によるパイプラインの別の全体図である。 ノードと組み合わせられたインメモリデータベースの全体図である。 本発明の好ましい実施形態による処理パイプラインの別の図である。 汎用アーキテクチャ内のワーカーを示す図である。 ワーカーのアーキテクチャをより詳細に示す図である。 本発明の好ましい実施形態による方法のフローチャートを示す図であり、図の最初の部分を示す。 本発明の好ましい実施形態による方法のフローチャートを示す図であり、最後の部分を示す。
パーソナルコンピューター、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサに基づくか又はプログラミング可能な消費者電子機器、ネットワークPC、ミニコンピューター、メインフレームコンピューター等を含め、多くのタイプのコンピューターシステム構成を有するネットワーク計算環境において本発明を実施可能なことを当業者は理解するであろう。本発明は、タスクが通信ネットワークを通してリンクされる(ハードワイヤードリンク、無線リンク、又はハードワイヤードリンク若しくは無線リンクの組み合わせによって)ローカル処理デバイス及びリモート処理デバイスによって実行される分散計算環境で実施することもできる。分散計算環境では、プログラムモジュールは、ローカルメモリ記憶装置及びリモートメモリ記憶装置の両方に配置することができる。
ヒトゲノム(HG:Human Genome)プロジェクトは、1990年に公式に開始され、この基礎研究をサポートする数百もの機関が関わり、全HGをシーケンシングしデコードするのに10年を超える年数がかかった。処理速度の改善及びコストの低減により、今日、いわゆる次世代シーケンシング(NGS)デバイスはゲノム全体を数時間以内に処理する。現在では、NGSデバイスは研究環境及び臨床環境で用いられ、癌等の特定の疾病の治療をサポートしている。個別化医療は、特に個人の性質、例えば、遺伝子因子又は環境因子に基づいて患者を治療することを目的としている。しかしながら、これは、増大しつつある量の診断データから関係するデータを識別するのにツールのサポートを必要とする。
インメモリデータベース(IMDB)技術は最初、大企業データの解析のために研究された。本願は、研究プロジェクトである高性能インメモリゲノム(HIG:High-Performance In-memory Genome)プロジェクトの過程で、ゲノムデータのリアルタイム解析を可能にするのに、IMDB技術を適用することでわかったことを開示する。医師及び研究者のフィードバックに基づいて、本願は、癌患者の個別化医療の過程内で、総合的なプロセスとしてゲノムデータの処理及び解析を結合する特定の研究雛形を開示する。
図1は、基本モデル化概念(FMC:Fundamental Modeling Concepts)ブロック図としてモデル化されるリアルタイム解析を可能にする炉床(hearth piece)としてIMDBを用いるシステムアーキテクチャのデータレイヤー、プラットフォームレイヤー、及びアプリケーションレイヤーを示す。プラットフォームレイヤーでは、IMDBは、国際研究データベースからのデータを結合し、リアルタイム解析能力をクラウドアプリケーションに対して露出する。
関連研究
ゲノムデータ処理パイプラインの分野での関連研究は、結果の正確性及びNGS結果セットからの偽陽性の除去に焦点を合わせている。これらの手法は、例えば、データを事前処理し、複製をフィルタリングし、無効エントリを除去し、又はNGSデータのサブセットを再整列する更なるツール及び処理ステップが追加されるため、結果としてパイプラインの複雑性を増大させる。
本願は、ゲノム処理パイプラインに更に多くのツールを統合して、将来、結果の精度を改善することを可能にする。そのため、本発明は、ゲノムデータ処理に複数のツールをスムーズに統合することを重視する。
ゲノム処理パイプラインの重要なステップは、最新の研究結果を用いて得られた結果に注釈を付けることである。公開注釈データベースの助けにより、個人の遺伝的性質を解釈することができる。多くの注釈データベースが、インターネット検索エンジン及び特定のウェブサービスを介してそれらのコンテンツを提供している。このデータをリンクするには、データ処理パイプラインへの手動での統合が必要である。さらに、提供されるウェブサービスの品質は、パイプラインの全体的なスループットに直に影響し、例えば、ネットワーク輻輳により注釈データベースの応答時間が長くなる場合、クエリの処理スループットは直に影響される。しかし、プライベート注釈データベースを統合し共有することもできる。アクセス権を制限し制御する手段が提供され、プライベート注釈データベースの知的財産は、特定のアクセス制御メカニズム、例えば履歴に基づくアクセス制御によって保護される。
本願によれば、注釈データベースの更新ダンプについて定期的にチェックするアップデーターフレームワークが開示される。新しいデータベースバージョンが検出されると、新たに検出された注釈データベースのコンテンツ及び更新は、ローカルシステムと同期される。したがって、知識データベースは、ネットワーク負荷を低減しながら、信頼できる品質の注釈サービスを提供する。知識データベースは、注釈の更新及び新たに追加された注釈について様々な(全て登録された)インターネットソースを定期的にチェックする。新しいデータは自動的にダウンロードされ、IMDBにインポートされ、知識ベースを拡張する。新しいデータがインポートされると、そのデータは、いかなる待ち時間もなくゲノムデータのリアルタイム解析に利用可能になる。本願は、時間のかかるメディアブレーク及び手動ステップ、例えば、特定の変更についての検索をなくすことにも焦点を合わせている。例えば、後述するゲノムブラウザーは、或る特定の突然変異を調べる際、ローカル知識ベースからの関連データを自動的にリンクする。
ファイル記憶システムに基づく従来技術のシステムよりも優れた主な利点は、並列データ処理を可能にすることによって処理性能を改善するとともに、アラインメント及び変異コールにこれらの技法を利用することが可能なことである。IMDB及びIMDBの固有のデータベース機能についての詳細について以下に概説する。
アーキテクチャ
ITの観点から、本願は、アーキテクチャレイヤー、すなわち、データ、プラットフォーム、及びアプリケーションを含む。以下に、全てのレイヤーについて詳細に説明する。
データレイヤー
データレイヤーは、ヒト参照ゲノム及び注釈等のゲノム参照データを保持する。これらのデータは、特定のゲノム発見の解析のベースである。さらに、データレイヤーは、NGSデバイスによって生成される患者固有のゲノムデータを保持する。患者固有のゲノムデータは、個別化医療の過程で解析する必要があり、プラットフォームレイヤーによって処理され、アプリケーションレイヤーのアプリケーションによって結合される。
プラットフォームレイヤー
プラットフォームレイヤーは、好ましくは、完全なプロセス論理及びIMDBシステムを保持し、ゲノムデータのリアルタイム解析を可能にする。図1の右側に、プラットフォームレイヤーのアプリケーション拡張であるワーカーフレームワーク及びアップデーターフレームワークが例示的に示される。
ワーカーフレームワークは、入力シーケンシング要求に関して、要求されるタスク及びサブタスク並びにその順序を指定する。ワーカーフレームワークはまた、これらのタスクを計算ノード等の計算リソースに送り、それらのステータスを観測し、部分結果セットを結合して、最終結果セットを取得する。
アップデーターフレームワークは、上述したように、分散したデータセット、すなわち国際研究結果を自動的に結合するためのベースである。
アプリケーションレイヤー
アプリケーションレイヤーは、汎用アプリケーションではなく、医療及び研究の問いに答える専用アプリケーションからなることができる。これらのアプリケーション(例えば、医療及び研究の問いに関連する)は、限られた使用事例のみに使用可能であるが、これらの非常に特殊なタスクの解決に高度に最適化されている。全てのアプリケーションは、データベースレイヤーとのウェブサービスインターフェースを介するデータ交換フォーマットとして、例えば、非同期Ajax呼び出し及びJavaScript(登録商標)オブジェクト表記を介して通信する。主な利点として、全てのクラウドアプリケーションは、ウェブブラウザーアプリケーション又はモバイルアプリケーションとしてのiPad(登録商標)及びAndroidデバイス等の様々なユーザーインターフェース(UI)を介してアクセスされるように構成することができる。
アプリケーション
以下において、本願は選択されたクラウドアプリケーションを開示し、クラウドアプリケーションをいかに結合して、個別化医療に対してエンドツーエンドプロセスを実施するかを概説する。その方法は、FASTQフォーマットとしてIllumina、Roche、Life Technology等のNGSデバイスの出力を取得することから開始され、遺伝子突然変異及び実際の疾病の原因についての関連情報の識別を含む。
アラインメントコーディネーター
図2、図2a、図2b、図2cおよび図2dに示されるアラインメントコーディネーターを用いて、新しいゲノムデータを発行し、既存のゲノムデータを監督し、ゲノムデータ処理の完了した実行の結果を検索する。入力は、FASTQファイルと、特定のアラインメントアルゴリズム及び変異コールステップからなる選択されたパイプライン構成と、使用する参照ゲノムと、パイプライン固有パラメーターとである。図2、図2a、図2b、図2cおよび図2dでは、上から下に、データ処理のパラメーターを構成することができる。最近のタスクのステータスは左側に見られる。さらに、右側で、選択されたタスクの結果セットを調べることが可能である。
アラインメントコーディネーターは、ワーカーフレームワークに統合することができる。単一のアラインメントタスクは、整列すべきファイルのアップロード中、いくつかのサブタスクに分割される。そこから、パイプライン内のあらゆるステップはサブタスクに分割され、サブタスクはワーカー又は処理デバイスによってランダムに取られて、処理される。
左側にあるタスクリストからエントリを選択すると、右側のテーブルに変異コールの結果が表示される。結果テーブルの属性は個々に構成することができ、例えば、関連付けられた疾病、影響を受ける遺伝子、又は同様の事例をテーブルに含めることができる。或る特定の突然変異をクリックすることによって、特定の染色体位置が、ゲノムブラウザーアプリケーションを用いて詳細に表示される。
好ましい実施形態によれば、ゲノムブラウザーに示される最終結果は追加の情報を含み、その情報は直接比較することができる。追加の情報は、1つ又は複数の細胞株の参照塩基対と実在する塩基対との関係、遺伝子、代替スプライシング変異体、遺伝子名の別名、及び選択された遺伝子座に利用可能な注釈(遺伝子、SNP、挿入欠失注釈を含む)等を指す。追加の情報は、オンザフライでの注釈データベースコンテンツの直接統合も指す。
ゲノムブラウザー
図3、図3a、図3b、図3cおよび図3dは、ゲノムブラウザーの画面例を示す。ゲノムブラウザーは、特定のアプリケーションであり、或る特定の細胞株又は患者のゲノムの特定の突然変異の互いとの解析を可能にする。或る特定の細胞株及び参照ゲノムの塩基対、アミノ酸、遺伝子スプライシング変異体等を詳細に比較することができる。したがって、細胞に対する突然変異の影響を調べることができ、DNAの抜粋を様々な患者の間で比較することができる。突然変異は、世界中の注釈データベースを自動的に結合することによって強調表示される。さらに、或る特定の突然変異が選択されると、関連する詳細情報(detail)及びdbSNP、DGV、サンガー等の既存のデータベースへのリンクが表示される。
ユーザーインターフェースは2つのセクション、すなわち、解析ページ及びブラウザーページに分けられる。このインターフェース全体の主な用途は、DNAアラインメントへの命令の選択(図2の左側に示される解析ページ)と、アラインメント結果の表示、比較、及び解析(図2の右側に示されるブラウザーページ)とである。このユーザーインターフェースUIの重要な特徴は、特定の部分についてのオンデマンド情報を提示する、様々な詳細レベルの選択されたゲノムを示すことである。本発明の好ましい実施形態では、ユーザーインターフェースはHTML5に構築される。
解析ページでは、ユーザーはFASTQファイルをアップロードし、適するアルゴリズム及び参照ゲノム(例えば、BWA)とのリードのアラインメントを実行することが可能である。要求が送信された後、ユーザーは、アラインメントタスクテーブルを用いてアラインメントの進行度を観測することができる。さらに、完了したタスク時間及び結果の量がこのテーブルに示される。したがって、ユーザーは、処理の進み具合をオンラインで見ることができ、中間結果も表示される。特定のタスクを選択すると、結果タスクテーブルがもたらされる。このテーブルは、突然変異の位置及び見つかった突然変異の、結果として生じる疾病についての情報を提供する。1つの突然変異を選ぶことによって、ウェブサイトはブラウザーページに切り替わり、その突然変異についての詳細情報を与える。CPU負荷及び消費メモリを示すチャートも与えられる。
ブラウザーページは、現在のゲノムの大域的ビューを与えることによって、特定の突然変異があると疑われるゲノムの抽出を示す。ユーザーは、塩基対、アミノ酸、及び遺伝子のセクションを閲覧することができる。既に整列された細胞株を元のゲノムと比較することができる。塩基配列及びアミノ酸配列の両方での突然変異に起因する変化が強調表示される。突然変異した塩基をクリックすることによって、臨床的有意性及び検証ステータス等の詳細情報が問い合わせられ、表示される。遺伝子及びそのスプライシング変異体も同様に示される。
このブラウザーページには、解析ページを通すか、又はゲノム、染色体、及び開始/終了位置についての情報を記入することによって直接入ることができる。
データ処理パイプライン
図4、図4aおよび図4bは、現在、ビジネスプロセスモデル化及び表記(BPMN)としてモデル化される通常のゲノム処理パイプラインを示す。図4、図4aおよび図4bは、BPMNにおいてモデル化されるこの研究雛形に統合されるゲノムデータ処理パイプラインを示す。入力されたFASTQファイルは、1000のコアクラスターでの並列データ処理に向けて最高で25のチャンクに分割される。最初に、特定のアラインメントアルゴリズム、ここではBWAが並列に呼び出され、結合BAMファイルが作成されるまで、変換ステップが実行される。次に、BAMファイルは、染色体ごとに1つずつ、個々のチャンクに分割され、変異コールが並列処理される。結果はIMDBにインポートされ、結果のリアルタイム解析を可能にする。
個別化医療の過程でのDNAの統合は、2つの主なステップ、すなわち、DNAシーケンシング及びゲノムデータの解析からなる。DNAシーケンシングは、試料、例えば血液又は組織の生物学的準備及びNGSデバイスを用いてのそのシーケンシングに及ぶ。ゲノムデータの解析は、NGSデバイスからのFASTQファイルを処理するIT駆動ステップであり、アラインメント、変異コール、及び結果の解析を含む。
アラインメントは、取得されたリード配列を選択された参照ゲノムに結合することによる特定の全ゲノムの再構築である。
変異コールは、再構築されたゲノム内の異常を検出し、これらが生じる可能性のある変異、例えば、或る特定の対立遺伝子の発現であるか否かをチェックする。最後の最も時間集約的なステップは、世界中の注釈データベースを用いての変異コールからの全ての結果の解析及びその解釈である。本願のゲノムブラウザーは、時間のかかる手動でのインターネット検索の必要なく、結果のその場での解析に対応する。
並列データ処理
本願は、ワーカーセットを提供するPythonでの専用データ処理フレームワークを開示する。各計算ノードには専用ワーカーが備えられる。専用ワーカーは複雑なタスク、すなわち、複数のジョブ又は全ゲノムのリードの配列アラインメント等の長時間実行非反復的バッチプロセスからなるタスクを処理する。複雑ではない反復的タスクは、ウェブサービスによって直接実行され、ワーカーフレームワークを伴わない。複雑なタスクは、並列データ処理のために、ワーカーフレームワークによって作業の原子部分に分割される。原子ジョブは分散して実行することができる。ワーカーが利用可能になると、ワーカーはジョブキューから次のジョブをフェッチして自動的に実行する。
ジョブ及びワーカーの同期は、ジョブデータベーステーブルを介して実行され、ジョブデータベーステーブルは、新しいジョブ、現在処理中のジョブ、及び終了したジョブ、並びにそれらのステータス、例えば、新規、進行中、終了、失敗等を含む。全てのワーカーは、ローカルデータベースインスタンスを介してジョブテーブルに直接アクセスし、次の適切なタスクを自己割り当てする。同時制御はIMDBによって保証することができ、例えば、属性TASK−ID、JOB−ID、及びSTATUS上のプライマリキーが、単一のワーカーのみがタスクのSTATUS(ステータス)属性をNEW(新規)からIN PROGRESS(進行中)に変更することができることを保証する。更新されたステータスがデータベースシステムによって確認された直後、ワーカーはジョブ処理を開始する。
ジョブ実行は、モジュール式Pythonスクリプトを介して処理することができ、これらのスクリプトはワーカーフレームワークによって要求に応じてロードされる。ワーカーモジュールは、割り当てられていないジョブをキューから選択する。ジョブの特定のサブセットのジョブ従属性及び同期は、ジョブデータベーステーブルのコンテンツを評価する専用ジョブによって自己調整される。
全てのPythonジョブモジュールは、ステータス更新又はエラーの記録等の一般的方法を提供するスーパーモジュールジョブから継承される。ジョブによって実行されるコード、例えば、未処理のDNAリードのアラインメント又はデータベースへのCSVファイルのインポートは、各ジョブモジュール内に配置される。
本願は、ジョブごとに個々のツール及びスクリプトの使用を可能にする。その結果、既存のツール、例えば、samtools、bcftools、vcftools、及び高度に最適化されたインメモリ固有のツールをパイプラインに統合することが可能である。本願は、Burrows−Wheeler Aligner(BWA)、Bowtie、Bowtie2、SNAP等の様々な事実上の業界標準であるアラインメントアルゴリズムをパイプラインに統合することに成功した。
配列アラインメント及び変異コール
アラインメントタスクの入力は、数千又は数百万の未処理DNAリード又はスニペットを含むFASTQファイルである。FASTQファイルは、時間集約的なプロセスでNGSデバイスによって生成される。処理は、単一の巨大なFASTQファイルを待つのではなく、可能な限り早く、すなわち、例えば256MBのファイルサイズを有するFASTQチャンクがNGSデバイスによって生成されると開始される。その結果、シーケンシング実行がまだ進行中である間に既にデータ処理は開始される。変異コールの結果は、変異コールフォーマット(VCF:Variant Calling Format)と両立するタスク固有のデータベーステーブルに記憶される。
パイプライン処理ステップは、現行の技術水準によるパイプラインと同様の全体機能を有するが、全ての処理ステップ及びツールはIMDBに転送される。したがって、全ての中間結果はデータベースに記憶され、選択された演算がIMDBのネイティブデータベース演算で置き換えられる。したがって、本システムは、既存のツール及びパイプラインと、高度に最適化されたアルゴリズム、例えばHANAアラインメントの開発プラットフォームとの統合プラットフォームを指す。図4、図4aおよび図4bのFMC図(基本モデル化概念−FMC)及び下記に引用する以下のステップは、配列アラインメントの一般的な手順を示す。ステップ2から4は、いくつかのノードでFASTQファイルの全ての分割に対して実行される。ステップ5から8は、1つのノードのみで実行することができ、一方、分割後、ステップ9及び10は再び、多くとも24の異なるノードで実行される。
1.FASTQファイルは複数のチャンクに分割され、いくつかのノードでの並列処理を可能にする。
2.特定のアラインメントアルゴリズムは、SAMフォーマットでゲノムを再構築する。アラインメントアルゴリズムは、選択するか、又は選ぶことができる(BWA、Bowtie等)。
3.SAMファイルは、後続する変異コールのために、バイナリ表現、すなわち、BAMフォーマットに変換される。
4.BAMファイルは、ステップ5(マージする)の準備ステップとしてソートされる。
5.BAMファイルは単一のBAMファイルにマージされる。
6.蓄積されたBAMファイルが、インデックス付けに向けてソートされる。
7.BAMファイルはインデックス付けされる。
8.BAMファイルは、並列処理のために染色体ごとに個々のチャンクに分割される(24の分割)。
9.例えばsamツール等の変異コールが実行され、VCFファイルが作成される。
10.VCFファイルはマージされ、累積された結果セットが、リアルタイム解析のためにデータベースIMDBにインポートされる。
IMDB技術用に最適化されたパイプラインでは、ソート、マージ、及びインデックス付けの処理ステップは、特定のツールによって実行されない。これらのステップは、ファイルシステムにおいて中間ファイルを作成する必要なく、IMDBによって直接実行される。
データベース機能
以下に、特定のデータベース拡張がいかに実施され、通常のSQL機能を拡張するかを概説する。
組み込まれたIMDBは、ゲノム固有のプロシージャである、L、SQLスクリプト、又はC++の言語で書かれたストアドプロシージャによって拡張される。これらのプロシージャは、データベース内に記憶されるデータに対して直接実行される。すなわち、データ転送の必要はない。
例えば、アプリケーションは、ストアドプロシージャTRIPLETS_IN_RANGEを実施して、所与のDNA遺伝子座から関連付けられたアミノ酸を導出した。
特定の細胞株のアミノ酸配列を計算する場合、関連するゲノムは対応するVCFテーブルから再構築される。ストアドプロシージャは、ゲノム内の間隔を入力として用い、トリプレットを導出し、各トリプレットをAMINOACIDS(アミノ酸)データベーステーブルの対応するコンテンツと結合する。
ベンチマーク結果
図5は、様々なメディアブレークを有する従来のデータ処理パイプラインと、統合プラットフォームとしてIMDBを組み込む最適化されたパイプラインとを比較するベンチマーク結果を示す。IMDBに最適化されたパイプラインのスループットは、従来のパイプラインのスループットよりも約8倍良い。従来のパイプラインのスループットは約0.5Mbp/sで停滞を示す。
逆に、IMDB用に最適化されたパイプラインは、2倍の入力ファイルサイズで約1.04から1.10の一定の倍率を示す。すなわち、ベンチマークファイルの処理飽和には決して到達しなかった。さらに、ベンチマークは、IMDB最適化パイプラインが、高カバレッジFASTQファイルを数分で処理可能なことを示す。例えば、約11000Mbpを有する最大入力ファイルは約45分でシーケンシングされた。比較のために、従来のデータ処理パイプラインでは、同じファイルの処理に5時間を超える時間がかかった。
ベンチマークセットアップ
ベンチマークを、25の同一の計算ノードによって形成される1000の物理的コアを有するクラスターで実行した。各ノードは、クロック速度2.40GHzで実行され、クイックパス相互接続(QPI:Quick Path Interconnect)速度6.4GT/sを提供する4つのIntel Xeon CPU E7−4870中央演算処理デバイス(CPU)を備える。各CPUは、30MBのIntelのスマートキャッシュ、10のコア、及び20のスレッドを備える。
上記で概説したアラインメント及び変異コールを、1000のゲノムプロジェクトから選択されたファイルに対して実行した。エンドツーエンド処理時間を、未処理のFASTQファイルから開始して、変異コールが完了するまで測定し、スループットレートを、1秒あたりで処理される塩基対数として測定した。本願は、従来のパイプラインのスループットレートとIMDB用に最適化されたパイプラインのスループットレートとを比較した。従来のパイプラインの中間プロセスステップは非常に類似しており、各ステップは、共有ネットワークファイルシステム(NFS:Network File System)において入力ファイルを受け取り、データを処理し、別の出力ファイルを生成する。例えば、FASTQ入力ファイルは、BWAアルゴリズムを用いて整列され、SAM出力ファイルが生成され、BAMファイル等に変換される。IMDBに最適化されたパイプラインは、妥当な場合、例えばファイルのマージ、ソート中、データベースサポートを用いる。
図5は、全ゲノムアラインメント及び変異コールからなるデータ処理パイプラインのスループットの比較を示す。IMDB技術用に最適化されたバージョンは、中間結果をファイルに記憶する従来のパイプライン構成と比較して約9倍、スループットを改善する。
図6は再び、ゲノムデータ処理を提供するために、OLAPトランザクション及びOLTPトランザクションからなるインメモリに基づく全体アーキテクチャを示す。図6に見ることができるように、ヌクレオチド配列は、図6の左側に示されるシーケンシング機Mによって提供される。パイプラインによれば、リードセットが提供される。各リードは、構成可能な量のチャンク、特に25のチャンクにセグメント化され、各チャンクは、ノードクラスターのワーカーに関連付けられるか、又は割り振られる。図6に見ることができるように、チャンクへの処理デバイスとしてのワーカーの割り振りはまた、動的に構成可能であり、それにより、ここの例では、チャンク1はワーカー2に割り当てられ、チャンク2はワーカー1に割り当てられる。なぜなら、おそらくはチャンク1が処理電力の点で最も需要が高く、ワーカー2がこの瞬間に最大程度の空きリソースを有するためである。次に、各ワーカーは、構成可能なアラインメントアルゴリズムを実行することによって部分的なアラインメント結果AR、AR、・・・、ARを提供し、部分結果はそれぞれIMDBデータベースに記憶される。異なるアラインメントアルゴリズムを用いて各チャンクを処理し得る(ユーザーがそうすることを望む場合)ことに留意されたい。したがって、異なるアラインメントアルゴリズムを異なるリードに用いることも可能である。主な態様は、シーケンシングがまだ計算されているか、又は処理されている間にそのアラインメントが開始されることに見られる。したがって、この方法は、最初のシーケンス結果が利用可能になるとすぐに実施することができる。全ての部分的なアラインメント結果ARが集約された後、部分結果AR及び全体的な集約結果はIMDBデータベースに記憶される。
この後、いくつかのデータベーストランザクションを実行すべきであり、全体のアラインメント結果が提供され、次に、この結果はまた、変異コールアルゴリズムによって、並列処理のためにアイテムに分割され、変異コールアルゴリズムはここでも、パイプラインの各使用事例用に構成することができる。各ワーカーは、変異コールの中間結果VCR、VCR、・・・、VCRを提供する。これらの部分結果VCRはIMDBデータベースに記憶され、集約されて、全体的な結果を構築し、この全体的な結果もIMDBデータベースに記憶される。同時に、結果はユーザーインターフェースUIに表示することができる。
図7は、分散インメモリデータベースランドスケープHANA IMDBを示す。図7に見ることができるように、少なくとも1つのワーカーが処理ノードで実施され、ワーカーはHANAインスタンスと対話する。
図8は再び、処理パイプラインを示し、FASTQファイル(リード)が入力として機能する。さらに、処理パラメーターは、ユーザーによって構成することができる(アルゴリズムを選択し、参照ゲノムを選択する等であるが、図8に示されていない)。図に見ることができるように、アラインメント及び変異コールを複数のワーカーノードで並列に実行して、処理時間を節減する。必要な演算(マージ、ソート、インデックス付け等)は、データベーストランザクションとして直接実行される。
システムアーキテクチャの概略全体図を図9に与える。ここでは、インターネットとイントラネットとの区別が示される。ユーザーはHIGウェブサービス(Tomcat)によって対話する。
ディスパッチャーは、負荷平衡化、故障処理、タスク作成、及び実行中のタスクの監督を担当する。その結果、ディスパッチャーは複雑なタスク、例えばシーケンスアラインメントを原子タスクに分割し、並列に実行するためにワーカーに分配する。染色体の部分配列(subsequence)を返す等の単純な要求は処理されず、ウェブサービスによってSQLステートメントとして直接実行される。
タスクの作成及び調整
処理する全ての複雑なタスクは、ディスパッチャーによって原子タスク(=ジョブ)に分割される。この構成要素は、各アラインメントアルゴリズム及び全ての他のタスク、例えば、データソース更新の異なるパイプラインについて知っている。ワーカーが、ジョブを終了したことを通知する場合、ディスパッチャーは、後続するジョブを作成し、そのジョブを次のワーカーに割り当てることを担当する。ジョブが同期を要求する場合、すなわち、ジョブを、特定の他のジョブが先に終了した後でのみ実行可能な場合、ディスパッチャーは、これらの条件が満たされるように取り計らう。ジョブの実行中にエラーが生じる場合、ディスパッチャーは、タスクの実行を再スケジュールするか、又は停止し、エラーをアラインメントコーディネーターに報告することによってエラーを処理しなければならない。
負荷平衡化
新しいジョブを作成する場合、ディスパッチャーは、このジョブを特定のワーカーに直接割り当てるが、又は指定されていない状態のままにしてランダムなワーカーが自身をこのジョブに自律的に割り当てるようにすることができる。ジョブを割り当てる場合、ディスパッチャーは、ワーカーの現在の作業負荷及び計算能力を追跡して、どのワーカーがジョブを得るかを決定しなければならない。幾つかのワーカーがアイドルである場合、作業負荷が複数のワーカー間で最適に平衡されるように、すなわち、ジョブが、別のワーカーがアイドルである間、ビジー状態のワーカーによる実行を待つことがないように、新しい複数のジョブをそれらのワーカーに分配することがディスパッチャーの担当である。
故障処理
ディスパッチャーは、ワーカーのアクセス可能性に関して全てのワーカーを監視する。ワーカーが故障する場合、ディスパッチャーはそれに対応しなければならず、必要な場合、ジョブの実行を再スケジュールしなければならない。この耐故障性を達成するために、ディスパッチャーは、例えば、分毎に全てのワーカーにpingを送信し、応答を待つことによって、全てのワーカーがまだ利用可能であるか否かを定期的にチェックしなければならない。ワーカーが応えない場合、ディスパッチャーは、そのワーカーが故障しており、未来のジョブの割り当てに利用可能ではないことを知る。それに加えて、ディスパッチャーはまた、故障時、このワーカーがジョブに対して作業中であったか否かをチェックしなければならない。これが当てはまる場合、ジョブをロールバックしなければならない。これは、生じ得る中間結果又は最終結果を削除することのみならず、ジョブを別のワーカーに割り振りし直すことを含む。
図10は、クラスターの各ノードで実行中のワーカープロセスと、ワーカープロセスによって実行されるジョブとを示す。ワーカーは、クラスター(=25のワーカープロセス)の各ノードで実行されるプロセスである。ワーカーは一緒になって、ウェブサービスによって作成される複雑なタスクを処理するフレームワークを構築する。複雑なタスクとは、配列アラインメント等の、幾つかのより小さなサブタスクに分解することができ、全体的な計算時間がより長くかかるタスクである。SQLステートメントの実行等のより単純なタスクは、ウェブサービスによって直接実行され、計算にワーカーフレームワークを必要としない。ワーカーフレームワークで複雑なタスクを処理する場合、複雑なタスクはより小さな原子タスクに分解され、原子タスクは幾つかのワーカーに分配され、並列に実行される。これらの原子タスクはジョブと呼ばれ、図10の左側に概略的に示され、実際のジョブインスタンスを有する。ワーカーの担当は、ジョブが利用可能なったらすぐにジョブを自律的に実行することである。
ジョブ調整
全てのワーカーは並列に処理しているため、ジョブスケジューリングは、2つのワーカーが同じジョブを実行していないように調整されなければならない。そのために、データベースに記憶されるタスクテーブルを介して同期が実現される。このテーブルは、存在する全てのジョブを含み、各ジョブの現在のステータス、すなわち、まだ割り当てられていない、ワーカーが現在作業中、正常に完了した、又は失敗した、を維持する。全てのワーカーはこのテーブルに同時にアクセスして、割り振られていないジョブセットからジョブをランダムに選び、ジョブのステータスを更新する。
ジョブ実行は、ワーカーによって要求に応じてインポートされるモジュールを介して処理される。ワーカーモジュールは、タスクテーブルから割り当てられていないタスクを選択することを担当する。これは現在、例えば、現在のジョブが実行可能になる前に、特定量の特定のジョブを終了していることをチェックするために、ジョブ従属性及び同期の処理も含む。実際のジョブ実行は、各ジョブモジュールにおいて行われる。
これらのモジュールは全て、ジョブと呼ばれるスーパーモジュールから継承される。このモジュールは、全てのジョブ、例えば、ジョブのステータスの記録に関連する実施を含む。ジョブ、例えば、配列の整列又はcsvファイルのデータベースへのインポート等の実際の実施は、各ジョブモジュールに配置される。
図11aおよび図11bは、ユーザー、アプリケーション、ウェブサービス、ディスパッチャー、ワーカー、及びIMDBデータベースの間でのパイプライン対話のumlシーケンス図である。対話の第1の部分は図11aに示され、後続部分は図11bに示される。
以下の動作が実行される。
−ユーザーがパラメーター(すなわち、参照ゲノム、患者ID等)を選択する。
−アプリケーションがhttpアドレスを要求する。
−ウェブサービスがアラインメントを開始する。
−ディスパッチャーがリードテーブルを解決し、作業リストを作成し、ワーカーでアラインメントを開始する。
−ワーカーが、アラインメントを選択し、IMDBにアクセスし、結果をIMDBデータベースに記憶する。
−そして、ワーカーは部分結果ARを収集し、参照ゲノムをIMDBデータベースからフェッチする。
−ディスパッチャーは、アラインメント結果をウェブサービスに提供する。
−ウェブサービスは、アラインメント結果を列挙し、結果をアプリケーション、ひいてはユーザーに対して可視化する。
好ましい実施形態によれば、IMDBデータベースは以下のインメモリ主要概念を用いる。
・バルク負荷
・パーティション化
・マルチコア及び並列化
・軽量圧縮
・ノード内の動的マルチスレッド
・結合された行ストア及び列ストア
・挿入のみ
・レイヤーの低減
ゲノムブラウザーは、参照ゲノム及び整列された配列の両方の所与の塩基配列のアミノ酸を表示する。そのために、ウェブサービスは、SQLスクリプトプロシージャをデータベースで呼び出す。結果は同じであるが、2つの事例(参照及びアラインメントのアミノ酸を示す)で計算に2つの異なるプロシージャを必要とする。
参照配列のアミノ酸を表示する単純な事例は、関数「Triplets_in_Range」において計算される。この関数は、入力パラメーターとして参照配列及び参照ゲノムの塩基開始位置及び塩基終了位置を受け取る。次に、この関数は、所与の位置から塩基配列を計算し、塩基トリプレットに分割する。これらのトリプレットごとに、プロシージャはコードされたアミノ酸をAminosonneテーブルにおいて調べる。突然変異した塩基配列のアミノ酸配列を計算する場合、「Triplets_in_Range2」と呼ばれるより複雑な関数が必要とされる。アラインメントごとに、実際の塩基配列ではなく、突然変異情報のみが与えられるため、塩基トリプレットを上記プロシージャのように構築することが可能になる前に、参照ゲノムの塩基配列及び所与の突然変異情報から実際の塩基配列を手動で再構築する必要がある。したがって、塩基開始位置、塩基終了位置、及び参照ゲノムの他に、関数は、タスクIDも入力として受け取る。このタスクIDの助けにより、どの突然変異が、検索された塩基配列にあるかを見つけ出し、元の塩基配列を再構築することができる。
考察
IMDB用に最適化されたパイプラインは、中間結果をファイルシステム内のファイルではなくIMDBに記憶する。IMDBは、特定のプロセスステップも直接実行し、特定のツールの必要性をなくす。例えば、samツールは、データが分散処理されるとき、中間結果のマージ、ソート、及びインデックス付けを要求する。IMDB用に最適化されたパイプラインは、その代わりにこれらのステップをネイティブIMDB演算として実行する。
例えば、マージは、全てのノードからの中間結果を単一のデータベーステーブルに挿入することによって達成される。この結果テーブルは、全てのノードにわたって分配され、それにより、データ転送の待ち時間を低減する。ネイティブSQL「並べ替え(ORDER BY)」ステートメントはソートを達成し、インデックス付けは、新しい値の挿入中、IMDBによって自動的に実行される。したがって、アプリケーションは、或る特定の中間プロセスステップの時間を低減することが可能である。
本願は、完全なパイプラインのスループットを大幅に改善することができることを開示する。IMDBのパイプラインは、既存のアラインメントツール及び変異コールツールの統合を最適化する。その結果、中間結果ファイルをローカルファイルシステム又はNFSから読み出す/に書き込むことによる遅延をなくす。
結言及び展望
本発明は、ゲノムデータ処理の様々な特定の態様に対処する。アラインメント及び変異コールのオープンソースツールのしっかりとした統合が、ゲノム処理パイプラインの全体スループットを改善することが示された。しかしながら、この統合は特定の技術プラットフォームを必要とする。本願は、IMDB技術を、ゲノム処理ツールを統合するプラットフォームとして開示している。
さらに、本願は、研究雛形アーキテクチャにおいて、ゲノム及び国際注釈を統合するプラットフォームを提供する詳細な洞察を共有した。本願は、最新の国際注釈データベースを用いて知識データベースを自動的に更新するようにIMDB技術を拡張した。その結果、最新の世界中の研究結果が、特定の突然変異の解釈中に自動的に検討され、個別化医療の過程での治療判断をサポートする。
最終的に、特定の研究の問いに答えるアプリケーションがプラットフォーム上にどのように構築されるかが示された。例えば、ゲノムブラウザーの助けを用いたアラインメントタスクと特定の突然変異のリアルタイム解析との調整は、任意のインターネットブラウザーを介してアクセスすることができる。したがって、全てのアプリケーションはプライベートクラウド又はパブリッククラウドのいずれかで実行することができ、それにより、バイオインフォマティクスの専門家がいない研究所が、個別化医療を実施し、独力でゲノムデータのリアルタイム解析を実行できるようにする。
将来の研究は、ツール、例えばアラインメント又は突然変異予測効果をIMDB技術に統合することによって処理パイプラインのスループットを更に改善するであろう。その結果、本願は、ゲノムデータ処理パイプラインの全体スループットがこれらの適応を用いて更に改善すると予想する。
最後に、実施形態例の説明が、原理上、本発明の特定の物理的な実施に関して限定として理解されるべきではないことを指摘すべきである。特に、本発明の実施形態を部分的又は全体的にソフトウェアで、複数の物理的な製品、特にコンピュータープログラム製品にわたって分散した形態で実施可能なことが当業者には明らかである。
さらに、任意の上記方法はプログラムの形態で具現することができる。プログラムは、コンピューター可読媒体に記憶することができ、コンピューターデバイス(プロセッサを含むデバイス)で実行されると、上記方法の任意の1つを実行するように構成される。したがって、記憶媒体又はコンピューター可読媒体は、情報を記憶するように構成されるとともに、データ処理設備又はコンピューターデバイスと対話して、任意の上記実施形態の方法を実行するように構成される。
実施形態例がこうして説明され、実施形態例を多くの方法で変更可能なことが明らかであろう。そのような変形は、本発明の趣旨及び範囲からの逸脱としてみなされるべきではなく、当業者に明らかな全ての変更は、添付の特許請求の範囲内に含まれることが意図される。
IMDB インメモリデータベース
M シーケンシング機
AR i番目の部分的なアラインメント結果
VCR i番目の部分的な変異コール結果

Claims (15)

  1. ヌクレオチド配列データを処理するコンピューターベースのシステムであって、前記ヌクレオチド配列データはリードとして提供され、該システムは、前記ヌクレオチド配列データをシーケンシング機(M)からインポートするインターフェースを有し、
    前記ヌクレオチド配列データを処理するプロセス論理及びインメモリデータベース(IMDB)を保持するプラットフォームレイヤー
    を更に備え、該プラットフォームレイヤーは、
    複数のワーカーを有するワーカーフレームワークであって、前記複数のワーカーはそれぞれ、クラスターのノードで実行されており、前記複数のワーカーは並列で処理しており、全ての結果及び中間結果は前記インメモリデータベース(IMDB)に記憶される、ワーカーフレームと、
    注釈更新を外部ソースから自動的にダウンロードして前記インメモリデータベース(IMDB)にインポートするアップデーターフレームワークと、
    を備える、ヌクレオチド配列データを処理するコンピューターベースのシステム。
  2. 前記システムはアラインメントコーディネーターを更に備え、該アラインメントコーディネーターは、前記インメモリデータベース(IMDB)に変更されたアラインメント機能を提供するように構成され、前記複数のワーカーはアラインメント処理用に構成される、請求項1に記載のコンピューターベースのシステム。
  3. 前記システムは、少なくともゲノムブラウザーを有するユーザーインターフェース(UI)を更に備え、該ユーザーインターフェースは、
    前記ヌクレオチド配列と複数の参照される細胞株/ゲノム及び/又は参照配列との比較を表示するセクションと、
    複数の外部データベースからの結合された解析情報を表示するセクションと、
    特にゲノム配列データのアラインメントの特定のパイプライン構成のデータ処理の命令を選択するセクションと、
    を備える、請求項1又は2に記載のコンピューターベースのシステム。
  4. 前記複数のワーカーは、データベース演算によって主なデータ処理を実行する前記インメモリデータベース(IMDB)の部分である、請求項1から3のいずれか1項に記載のコンピューターベースのシステム。
  5. 前記インメモリデータベース(IMDB)は、ウェブサービス、方法ステップの全ての中間結果、整列される前記ヌクレオチド配列、及び参照配列のデータ記憶装置である、請求項1から4のいずれか1項に記載のコンピューターベースのシステム。
  6. 事前に構成可能な基準に従って、結合された解析情報をスコア付けするように構成されるスコア付けモジュール
    を更に備える、請求項1から5のいずれか1項に記載のコンピューターベースのシステム。
  7. インメモリデータベース(IMDB)を用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法であって、
    複数のCPUコアを有する計算ノードのセットを有するクラスターを提供する方法ステップであって、前記計算ノードのそれぞれは、並列データ処理のためにワーカーを実施する、方法ステップと、
    前記ヌクレオチド配列データを複数のリードとして前記インメモリデータベース(IMDB)に提供し、シーケンシングと同時に、データ処理を行う方法ステップと、
    を備え、前記データ処理は、
    前記計算ノードのセットにおいて前記複数のリードのチャンクを並列に整列し、複数の部分的なアラインメント結果(AR)を一のマージされたアラインメント結果に集約するか、又は前記インメモリデータベース(IMDB)に記憶されるアラインメント結果をコンピューターに基づくインスタンスから受信することと、
    前記計算ノードのセットにおいて変異コールを並列に実行し、複数の部分的な変異コール結果(VCR)を一のマージされた変異コール結果に集約するか、又は前記インメモリデータベース(IMDB)に記憶される変異コール結果をコンピューターに基づくインスタンスから受信することと、
    前記変異コール結果を複数の異なる外部注釈ソースと結合することによって前記変異コール結果を自動的に解析することであって、前記複数の異なる外部注釈ソースは、アップデーターフレームワークによって定期的かつ自動的にチェックされ、前記インメモリデータベース(IMDB)にインポートされることと、
    を含む、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法。
  8. インメモリデータベース(IMDB)を用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法であって、
    複数のコアを有する計算ノードのセットを有するコンピューターコアクラスターを提供する方法ステップであって、前記計算ノードのそれぞれは、並列データ処理のためにワーカーを実施する、方法ステップと、
    前記ヌクレオチド配列データを複数のリードとして前記インメモリデータベース(IMDB)に提供し、シーケンシングと同時に、
    前記複数のリードを構成可能な量のチャンクに均等にセグメント化することと、
    前記チャンクのそれぞれを前記コンピューターコアクラスターの選択されたワーカーに割り振り、並列に部分的なアラインメント結果(AR)を提供し、全ての該部分的なアラインメント結果(AR)を前記インメモリデータベース(IMDB)に記憶することによって、前記チャンクのそれぞれを参照配列に整列することと、
    全ての前記選択されたワーカーの前記部分的なアラインメント結果を集約することであって、それにより、アラインメント結果を生成し、該アラインメント結果を前記インメモリデータベース(IMDB)に記憶することと、
    前記アラインメント結果に基づいて変異コールアルゴリズムを実行し、前記変異コールの結果を前記インメモリデータベースのタスク固有のデータベーステーブルに記憶することと、
    アップデーターフレームワークによって前記変異コールの前記結果を自動的に解析することによって最終結果を生成して表示することであって、前記アップデーターフレームワークは、更新について外部注釈ソースを定期的かつ自動的にチェックし、前記更新を自動的にダウンロードして前記インメモリデータベース(IMDB)にインポートすることと、
    によってデータを処理する方法ステップと、
    を含む、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法。
  9. 前記整列することは、アラインメントアルゴリズムを介して実行され、該アラインメントアルゴリズムは、動的プログラミングに基づき、パイプライン構成ごとに選択することができ、特に、バローズ−ホイーラーアライナー(BWA)、Bowtie、Bowtie2、SNAP、及び/又はTMAP1−4を含む、請求項7又は8に記載のコンピューター実施方法。
  10. 処理パイプラインは、複数の異なる処理パイプラインも動的に構成可能であり、及び/又は特定の使用事例で並列に実行可能なようにモデル化される、請求項7から9のいずれか1項に記載のコンピューター実施方法。
  11. 前記変異コールの場合、前記アラインメント結果は、染色体ごとに1つずつ、構成可能な量のアイテムに分割され、該アイテムはノードに割り振られ、該アイテムのそれぞれにおいて変異コールアルゴリズムを並列に実行し、部分的な変異コール結果(VCR)を提供する、請求項7から10のいずれか1項に記載のコンピューター実施方法。
  12. アラインメントは、前記インメモリデータベース(IMDB)において直接実施することができる、請求項7から11のいずれか1項に記載のコンピューター実施方法。
  13. 表示される最終結果は、オンザフライで、整列された前記配列及び/又は参照配列の所与の塩基配列のアミノ酸及び追加の情報を含む、請求項7から12のいずれか1項に記載のコンピューター実施方法。
  14. データ交換がウェブサービスに基づき、全てのアプリケーションがクラウドに基づき、したがって、モバイルデバイスを介してアクセスすることもできる、請求項7から13のいずれか1項に記載のコンピューター実施方法。
  15. 前記アップデーターフレームワークの更新は、設定可能に非同期で実行され、及び/又は特定のパイプラインの実行に結び付けられない、請求項7から14のいずれか1項に記載のコンピューター実施方法。
JP2014008608A 2013-01-28 2014-01-21 インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法 Pending JP2014146318A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361757499P 2013-01-28 2013-01-28
US61/757,499 2013-01-28
EP13152861.4A EP2759953B1 (en) 2013-01-28 2013-01-28 System and method for genomic data processing with an in-memory database system and real-time analysis
EP13152861.4 2013-01-28

Publications (1)

Publication Number Publication Date
JP2014146318A true JP2014146318A (ja) 2014-08-14

Family

ID=47603469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014008608A Pending JP2014146318A (ja) 2013-01-28 2014-01-21 インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法

Country Status (2)

Country Link
EP (1) EP2759953B1 (ja)
JP (1) JP2014146318A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018004044A1 (ko) * 2016-07-01 2018-01-04 주식회사 마이지놈박스 게놈 정보 분석 모듈 및 그를 포함하는 시스템
JP2019510323A (ja) * 2016-01-11 2019-04-11 エディコ・ジーノウム・コーポレーション オンサイトまたはクラウドベースのdnaおよびrnaの処理と分析のためのゲノムインフラストラクチャ
JP2019101450A (ja) * 2017-11-28 2019-06-24 東芝メモリ株式会社 電子機器およびファイル管理方法
JP2023503207A (ja) * 2020-10-22 2023-01-27 ビージーアイ ジェノミクス カンパニー リミテッド 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置
JP2023504375A (ja) * 2020-03-17 2023-02-03 ウェスタン デジタル テクノロジーズ インコーポレーテッド 参照誘導ゲノム配列決定

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2966889T3 (es) 2014-11-21 2024-04-24 The Res Institute At Nationwide Childrens Hospital Sistemas de procesamiento paralelo y métodos para el análisis altamente escalable de datos de secuencia biológica
US9811391B1 (en) * 2016-03-04 2017-11-07 Color Genomics, Inc. Load balancing and conflict processing in workflow with task dependencies
US10853130B1 (en) 2015-12-02 2020-12-01 Color Genomics, Inc. Load balancing and conflict processing in workflow with task dependencies
CN107346372A (zh) * 2017-06-19 2017-11-14 苏州班凯基因科技有限公司 一种应用于基因突变解读的数据库及其构建方法
CN111326216B (zh) * 2020-02-27 2023-07-21 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272824A (ja) * 1995-03-31 1996-10-18 Hitachi Software Eng Co Ltd 遺伝子配列データ自動検索方法
JP2004234580A (ja) * 2003-01-31 2004-08-19 Fujitsu Ltd ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置
JP2006113786A (ja) * 2004-10-14 2006-04-27 Mitsubishi Space Software Kk 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム
JP2009054039A (ja) * 2007-08-28 2009-03-12 Hitachi Software Eng Co Ltd 配列の編集にあわせて自動的にアノテーションを変更可能な遺伝子配列の編集方法
JP2010049695A (ja) * 2002-06-14 2010-03-04 Genomatica Inc ゲノムベースの表現型モデルを構築するためのシステムおよび方法
JP2010086142A (ja) * 2008-09-30 2010-04-15 National Institute Of Agrobiological Sciences 遺伝子クラスタリング装置およびプログラム
JP2012053796A (ja) * 2010-09-03 2012-03-15 Nec Corp 情報処理システム
JP2012069104A (ja) * 2010-08-26 2012-04-05 National Institute Of Biomedical Innovation 遺伝子絞り込み装置、遺伝子絞り込み方法、及びコンピュータプログラム
JP2012094143A (ja) * 2010-10-27 2012-05-17 Samsung Sds Co Ltd バイオマーカー抽出装置および方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2040180B1 (en) * 2007-09-24 2019-01-16 Hasso-Plattner-Institut für Digital Engineering gGmbH ETL-less zero-redundancy system and method for reporting OLTP data

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272824A (ja) * 1995-03-31 1996-10-18 Hitachi Software Eng Co Ltd 遺伝子配列データ自動検索方法
JP2010049695A (ja) * 2002-06-14 2010-03-04 Genomatica Inc ゲノムベースの表現型モデルを構築するためのシステムおよび方法
JP2004234580A (ja) * 2003-01-31 2004-08-19 Fujitsu Ltd ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置
JP2006113786A (ja) * 2004-10-14 2006-04-27 Mitsubishi Space Software Kk 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム
JP2009054039A (ja) * 2007-08-28 2009-03-12 Hitachi Software Eng Co Ltd 配列の編集にあわせて自動的にアノテーションを変更可能な遺伝子配列の編集方法
JP2010086142A (ja) * 2008-09-30 2010-04-15 National Institute Of Agrobiological Sciences 遺伝子クラスタリング装置およびプログラム
JP2012069104A (ja) * 2010-08-26 2012-04-05 National Institute Of Biomedical Innovation 遺伝子絞り込み装置、遺伝子絞り込み方法、及びコンピュータプログラム
JP2012053796A (ja) * 2010-09-03 2012-03-15 Nec Corp 情報処理システム
JP2012094143A (ja) * 2010-10-27 2012-05-17 Samsung Sds Co Ltd バイオマーカー抽出装置および方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUGO Y. K. LAM: "Detecting and annotating genetic variations using HugeSeq pipeline", NATURE BIOTECHNOLOGY, vol. Vol.30,number 3, JPN6017037863, 7 March 2012 (2012-03-07), pages 226 - 229, ISSN: 0003940640 *
MICHAEL C. SCHATZ: "CloudBurst:highly sensitive read mapping with MapReduce", BIOINFORMATICS, vol. 25, no. 11, JPN7017003171, 1 June 2009 (2009-06-01), pages 1363 - 1369, XP055070043, ISSN: 0003940638, DOI: 10.1093/bioinformatics/btp236 *
永安 悟史: ""最新技術がスグわかる!IT技術ビジュアルマップ"", エンジニアマインド, vol. 第1巻, JPN6017047108, 10 October 2006 (2006-10-10), JP, pages 36 - 41, ISSN: 0003940639 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019510323A (ja) * 2016-01-11 2019-04-11 エディコ・ジーノウム・コーポレーション オンサイトまたはクラウドベースのdnaおよびrnaの処理と分析のためのゲノムインフラストラクチャ
JP2022130389A (ja) * 2016-01-11 2022-09-06 エディコ・ジーノウム・コーポレーション オンサイトまたはクラウドベースのdnaおよびrnaの処理と分析のためのゲノムインフラストラクチャ
JP7308616B2 (ja) 2016-01-11 2023-07-14 エディコ・ジーノウム・コーポレーション オンサイトまたはクラウドベースのdnaおよびrnaの処理と分析のためのゲノムインフラストラクチャ
WO2018004044A1 (ko) * 2016-07-01 2018-01-04 주식회사 마이지놈박스 게놈 정보 분석 모듈 및 그를 포함하는 시스템
JP2019101450A (ja) * 2017-11-28 2019-06-24 東芝メモリ株式会社 電子機器およびファイル管理方法
JP2023504375A (ja) * 2020-03-17 2023-02-03 ウェスタン デジタル テクノロジーズ インコーポレーテッド 参照誘導ゲノム配列決定
JP7439258B2 (ja) 2020-03-17 2024-02-27 ウェスタン デジタル テクノロジーズ インコーポレーテッド 参照誘導ゲノム配列決定
JP2023503207A (ja) * 2020-10-22 2023-01-27 ビージーアイ ジェノミクス カンパニー リミテッド 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置
JP7393439B2 (ja) 2020-10-22 2023-12-06 ビージーアイ ジェノミクス カンパニー リミテッド 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置

Also Published As

Publication number Publication date
EP2759953A1 (en) 2014-07-30
EP2759953B1 (en) 2022-03-02

Similar Documents

Publication Publication Date Title
US11031097B2 (en) System for genomic data processing with an in-memory database system and real-time analysis
EP2759953B1 (en) System and method for genomic data processing with an in-memory database system and real-time analysis
US20170220732A1 (en) Comprehensive analysis pipeline for discovery of human genetic variation
US10381106B2 (en) Efficient genomic read alignment in an in-memory database
RU2764557C1 (ru) Способы и системы для трансформаций матриц, основанных на разреженных векторах
Agapito et al. Parallel extraction of association rules from genomics data
EP2759952B1 (en) Efficient genomic read alignment in an in-memory database
Ocaña et al. Parallel computing in genomic research: advances and applications
Agapito et al. Cloud4SNP: distributed analysis of SNP microarray data on the cloud
Byma et al. Persona: A {High-Performance} Bioinformatics Framework
Peréz-Sánchez et al. Applications of high performance computing in bioinformatics, computational biology and computational chemistry
Nazipova et al. Big Data in bioinformatics
Reali et al. Genomics as a service: A joint computing and networking perspective
Deng et al. HiGene: A high-performance platform for genomic data analysis
Vijayakumar et al. Optimizing sequence alignment in cloud using hadoop and mpp database
Schapranow et al. High-performance in-memory genome project: a platform for integrated real-time genome data analysis
Kovatch et al. Big omics data experience
Kovatch et al. Optimizing high-performance computing systems for biomedical workloads
Szczerba et al. Scalable cloud-based data analysis software systems for big data from next generation sequencing
Xu et al. Distributed gene clinical decision support system based on cloud computing
Sharma et al. Intelligent cloud computing and bioinformatics data analysis
Hua et al. Hadoop-MCC: Efficient multiple compound comparison algorithm using hadoop
Romeu Farré Design and implementation BLAST tool big data
RU2799750C2 (ru) Биоинформационные системы, устройства и способы для выполнения вторичной и/или третичной обработки
D'Antonio et al. Characterization of genomic data using graph databases

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180612

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181218