JP2014146318A - インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法 - Google Patents
インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法 Download PDFInfo
- Publication number
- JP2014146318A JP2014146318A JP2014008608A JP2014008608A JP2014146318A JP 2014146318 A JP2014146318 A JP 2014146318A JP 2014008608 A JP2014008608 A JP 2014008608A JP 2014008608 A JP2014008608 A JP 2014008608A JP 2014146318 A JP2014146318 A JP 2014146318A
- Authority
- JP
- Japan
- Prior art keywords
- alignment
- imdb
- computer
- memory database
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000010223 real-time analysis Methods 0.000 title description 12
- 230000035772 mutation Effects 0.000 claims abstract description 56
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 239000002773 nucleotide Substances 0.000 claims description 26
- 125000003729 nucleotide group Chemical group 0.000 claims description 26
- 238000012163 sequencing technique Methods 0.000 claims description 22
- 230000036961 partial effect Effects 0.000 claims description 21
- 210000004027 cell Anatomy 0.000 claims description 11
- 150000001413 amino acids Chemical class 0.000 claims description 10
- 210000000349 chromosome Anatomy 0.000 claims description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 24
- 238000005516 engineering process Methods 0.000 abstract description 14
- 206010028980 Neoplasm Diseases 0.000 abstract description 11
- 201000010099 disease Diseases 0.000 abstract description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 6
- 230000002068 genetic effect Effects 0.000 abstract description 4
- 230000002596 correlated effect Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 abstract 1
- 238000007481 next generation sequencing Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 108020004414 DNA Proteins 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 108090000623 proteins and genes Proteins 0.000 description 12
- 235000001014 amino acid Nutrition 0.000 description 9
- 239000003814 drug Substances 0.000 description 9
- 201000011510 cancer Diseases 0.000 description 8
- 230000010354 integration Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000012268 genome sequencing Methods 0.000 description 5
- 238000002864 sequence alignment Methods 0.000 description 5
- 125000003275 alpha amino acid group Chemical group 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 238000013515 script Methods 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- WVCHIGAIXREVNS-UHFFFAOYSA-N 2-hydroxy-1,4-naphthoquinone Chemical compound C1=CC=C2C(O)=CC(=O)C(=O)C2=C1 WVCHIGAIXREVNS-UHFFFAOYSA-N 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 208000034951 Genetic Translocation Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000011006 biochemical laboratory method Methods 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012826 global research Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010249 in-situ analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 210000002536 stromal cell Anatomy 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】個別化医療の過程での総合的プロセスとしてゲノムデータを処理し、リアルタイムで解析する、インメモリ技術上に構築される研究雛形であり、クラウドアプリケーションは、医師及び研究者をサポートして、癌疾病等の、ゲノム変異又は突然変異に相関する疾病の治療において或る特定の腫瘍型の遺伝的な根源を識別し、分散した国際研究及び文献データソースの全ての配置を長期にわたって手動検索する必要性をなくしながら、最新の国際研究結果を患者固有のゲノムデータに結合する。
【選択図】図1
Description
ゲノムデータ処理パイプラインの分野での関連研究は、結果の正確性及びNGS結果セットからの偽陽性の除去に焦点を合わせている。これらの手法は、例えば、データを事前処理し、複製をフィルタリングし、無効エントリを除去し、又はNGSデータのサブセットを再整列する更なるツール及び処理ステップが追加されるため、結果としてパイプラインの複雑性を増大させる。
ITの観点から、本願は、アーキテクチャレイヤー、すなわち、データ、プラットフォーム、及びアプリケーションを含む。以下に、全てのレイヤーについて詳細に説明する。
データレイヤーは、ヒト参照ゲノム及び注釈等のゲノム参照データを保持する。これらのデータは、特定のゲノム発見の解析のベースである。さらに、データレイヤーは、NGSデバイスによって生成される患者固有のゲノムデータを保持する。患者固有のゲノムデータは、個別化医療の過程で解析する必要があり、プラットフォームレイヤーによって処理され、アプリケーションレイヤーのアプリケーションによって結合される。
プラットフォームレイヤーは、好ましくは、完全なプロセス論理及びIMDBシステムを保持し、ゲノムデータのリアルタイム解析を可能にする。図1の右側に、プラットフォームレイヤーのアプリケーション拡張であるワーカーフレームワーク及びアップデーターフレームワークが例示的に示される。
アプリケーションレイヤーは、汎用アプリケーションではなく、医療及び研究の問いに答える専用アプリケーションからなることができる。これらのアプリケーション(例えば、医療及び研究の問いに関連する)は、限られた使用事例のみに使用可能であるが、これらの非常に特殊なタスクの解決に高度に最適化されている。全てのアプリケーションは、データベースレイヤーとのウェブサービスインターフェースを介するデータ交換フォーマットとして、例えば、非同期Ajax呼び出し及びJavaScript(登録商標)オブジェクト表記を介して通信する。主な利点として、全てのクラウドアプリケーションは、ウェブブラウザーアプリケーション又はモバイルアプリケーションとしてのiPad(登録商標)及びAndroidデバイス等の様々なユーザーインターフェース(UI)を介してアクセスされるように構成することができる。
以下において、本願は選択されたクラウドアプリケーションを開示し、クラウドアプリケーションをいかに結合して、個別化医療に対してエンドツーエンドプロセスを実施するかを概説する。その方法は、FASTQフォーマットとしてIllumina、Roche、Life Technology等のNGSデバイスの出力を取得することから開始され、遺伝子突然変異及び実際の疾病の原因についての関連情報の識別を含む。
図2、図2a、図2b、図2cおよび図2dに示されるアラインメントコーディネーターを用いて、新しいゲノムデータを発行し、既存のゲノムデータを監督し、ゲノムデータ処理の完了した実行の結果を検索する。入力は、FASTQファイルと、特定のアラインメントアルゴリズム及び変異コールステップからなる選択されたパイプライン構成と、使用する参照ゲノムと、パイプライン固有パラメーターとである。図2、図2a、図2b、図2cおよび図2dでは、上から下に、データ処理のパラメーターを構成することができる。最近のタスクのステータスは左側に見られる。さらに、右側で、選択されたタスクの結果セットを調べることが可能である。
図3、図3a、図3b、図3cおよび図3dは、ゲノムブラウザーの画面例を示す。ゲノムブラウザーは、特定のアプリケーションであり、或る特定の細胞株又は患者のゲノムの特定の突然変異の互いとの解析を可能にする。或る特定の細胞株及び参照ゲノムの塩基対、アミノ酸、遺伝子スプライシング変異体等を詳細に比較することができる。したがって、細胞に対する突然変異の影響を調べることができ、DNAの抜粋を様々な患者の間で比較することができる。突然変異は、世界中の注釈データベースを自動的に結合することによって強調表示される。さらに、或る特定の突然変異が選択されると、関連する詳細情報(detail)及びdbSNP、DGV、サンガー等の既存のデータベースへのリンクが表示される。
図4、図4aおよび図4bは、現在、ビジネスプロセスモデル化及び表記(BPMN)としてモデル化される通常のゲノム処理パイプラインを示す。図4、図4aおよび図4bは、BPMNにおいてモデル化されるこの研究雛形に統合されるゲノムデータ処理パイプラインを示す。入力されたFASTQファイルは、1000のコアクラスターでの並列データ処理に向けて最高で25のチャンクに分割される。最初に、特定のアラインメントアルゴリズム、ここではBWAが並列に呼び出され、結合BAMファイルが作成されるまで、変換ステップが実行される。次に、BAMファイルは、染色体ごとに1つずつ、個々のチャンクに分割され、変異コールが並列処理される。結果はIMDBにインポートされ、結果のリアルタイム解析を可能にする。
本願は、ワーカーセットを提供するPythonでの専用データ処理フレームワークを開示する。各計算ノードには専用ワーカーが備えられる。専用ワーカーは複雑なタスク、すなわち、複数のジョブ又は全ゲノムのリードの配列アラインメント等の長時間実行非反復的バッチプロセスからなるタスクを処理する。複雑ではない反復的タスクは、ウェブサービスによって直接実行され、ワーカーフレームワークを伴わない。複雑なタスクは、並列データ処理のために、ワーカーフレームワークによって作業の原子部分に分割される。原子ジョブは分散して実行することができる。ワーカーが利用可能になると、ワーカーはジョブキューから次のジョブをフェッチして自動的に実行する。
アラインメントタスクの入力は、数千又は数百万の未処理DNAリード又はスニペットを含むFASTQファイルである。FASTQファイルは、時間集約的なプロセスでNGSデバイスによって生成される。処理は、単一の巨大なFASTQファイルを待つのではなく、可能な限り早く、すなわち、例えば256MBのファイルサイズを有するFASTQチャンクがNGSデバイスによって生成されると開始される。その結果、シーケンシング実行がまだ進行中である間に既にデータ処理は開始される。変異コールの結果は、変異コールフォーマット(VCF:Variant Calling Format)と両立するタスク固有のデータベーステーブルに記憶される。
1.FASTQファイルは複数のチャンクに分割され、いくつかのノードでの並列処理を可能にする。
2.特定のアラインメントアルゴリズムは、SAMフォーマットでゲノムを再構築する。アラインメントアルゴリズムは、選択するか、又は選ぶことができる(BWA、Bowtie等)。
3.SAMファイルは、後続する変異コールのために、バイナリ表現、すなわち、BAMフォーマットに変換される。
4.BAMファイルは、ステップ5(マージする)の準備ステップとしてソートされる。
5.BAMファイルは単一のBAMファイルにマージされる。
6.蓄積されたBAMファイルが、インデックス付けに向けてソートされる。
7.BAMファイルはインデックス付けされる。
8.BAMファイルは、並列処理のために染色体ごとに個々のチャンクに分割される(24の分割)。
9.例えばsamツール等の変異コールが実行され、VCFファイルが作成される。
10.VCFファイルはマージされ、累積された結果セットが、リアルタイム解析のためにデータベースIMDBにインポートされる。
以下に、特定のデータベース拡張がいかに実施され、通常のSQL機能を拡張するかを概説する。
図5は、様々なメディアブレークを有する従来のデータ処理パイプラインと、統合プラットフォームとしてIMDBを組み込む最適化されたパイプラインとを比較するベンチマーク結果を示す。IMDBに最適化されたパイプラインのスループットは、従来のパイプラインのスループットよりも約8倍良い。従来のパイプラインのスループットは約0.5Mbp/sで停滞を示す。
ベンチマークを、25の同一の計算ノードによって形成される1000の物理的コアを有するクラスターで実行した。各ノードは、クロック速度2.40GHzで実行され、クイックパス相互接続(QPI:Quick Path Interconnect)速度6.4GT/sを提供する4つのIntel Xeon CPU E7−4870中央演算処理デバイス(CPU)を備える。各CPUは、30MBのIntelのスマートキャッシュ、10のコア、及び20のスレッドを備える。
処理する全ての複雑なタスクは、ディスパッチャーによって原子タスク(=ジョブ)に分割される。この構成要素は、各アラインメントアルゴリズム及び全ての他のタスク、例えば、データソース更新の異なるパイプラインについて知っている。ワーカーが、ジョブを終了したことを通知する場合、ディスパッチャーは、後続するジョブを作成し、そのジョブを次のワーカーに割り当てることを担当する。ジョブが同期を要求する場合、すなわち、ジョブを、特定の他のジョブが先に終了した後でのみ実行可能な場合、ディスパッチャーは、これらの条件が満たされるように取り計らう。ジョブの実行中にエラーが生じる場合、ディスパッチャーは、タスクの実行を再スケジュールするか、又は停止し、エラーをアラインメントコーディネーターに報告することによってエラーを処理しなければならない。
新しいジョブを作成する場合、ディスパッチャーは、このジョブを特定のワーカーに直接割り当てるが、又は指定されていない状態のままにしてランダムなワーカーが自身をこのジョブに自律的に割り当てるようにすることができる。ジョブを割り当てる場合、ディスパッチャーは、ワーカーの現在の作業負荷及び計算能力を追跡して、どのワーカーがジョブを得るかを決定しなければならない。幾つかのワーカーがアイドルである場合、作業負荷が複数のワーカー間で最適に平衡されるように、すなわち、ジョブが、別のワーカーがアイドルである間、ビジー状態のワーカーによる実行を待つことがないように、新しい複数のジョブをそれらのワーカーに分配することがディスパッチャーの担当である。
ディスパッチャーは、ワーカーのアクセス可能性に関して全てのワーカーを監視する。ワーカーが故障する場合、ディスパッチャーはそれに対応しなければならず、必要な場合、ジョブの実行を再スケジュールしなければならない。この耐故障性を達成するために、ディスパッチャーは、例えば、分毎に全てのワーカーにpingを送信し、応答を待つことによって、全てのワーカーがまだ利用可能であるか否かを定期的にチェックしなければならない。ワーカーが応えない場合、ディスパッチャーは、そのワーカーが故障しており、未来のジョブの割り当てに利用可能ではないことを知る。それに加えて、ディスパッチャーはまた、故障時、このワーカーがジョブに対して作業中であったか否かをチェックしなければならない。これが当てはまる場合、ジョブをロールバックしなければならない。これは、生じ得る中間結果又は最終結果を削除することのみならず、ジョブを別のワーカーに割り振りし直すことを含む。
全てのワーカーは並列に処理しているため、ジョブスケジューリングは、2つのワーカーが同じジョブを実行していないように調整されなければならない。そのために、データベースに記憶されるタスクテーブルを介して同期が実現される。このテーブルは、存在する全てのジョブを含み、各ジョブの現在のステータス、すなわち、まだ割り当てられていない、ワーカーが現在作業中、正常に完了した、又は失敗した、を維持する。全てのワーカーはこのテーブルに同時にアクセスして、割り振られていないジョブセットからジョブをランダムに選び、ジョブのステータスを更新する。
−ユーザーがパラメーター(すなわち、参照ゲノム、患者ID等)を選択する。
−アプリケーションがhttpアドレスを要求する。
−ウェブサービスがアラインメントを開始する。
−ディスパッチャーがリードテーブルを解決し、作業リストを作成し、ワーカーでアラインメントを開始する。
−ワーカーが、アラインメントを選択し、IMDBにアクセスし、結果をIMDBデータベースに記憶する。
−そして、ワーカーは部分結果ARを収集し、参照ゲノムをIMDBデータベースからフェッチする。
−ディスパッチャーは、アラインメント結果をウェブサービスに提供する。
−ウェブサービスは、アラインメント結果を列挙し、結果をアプリケーション、ひいてはユーザーに対して可視化する。
・バルク負荷
・パーティション化
・マルチコア及び並列化
・軽量圧縮
・ノード内の動的マルチスレッド
・結合された行ストア及び列ストア
・挿入のみ
・レイヤーの低減
IMDB用に最適化されたパイプラインは、中間結果をファイルシステム内のファイルではなくIMDBに記憶する。IMDBは、特定のプロセスステップも直接実行し、特定のツールの必要性をなくす。例えば、samツールは、データが分散処理されるとき、中間結果のマージ、ソート、及びインデックス付けを要求する。IMDB用に最適化されたパイプラインは、その代わりにこれらのステップをネイティブIMDB演算として実行する。
本発明は、ゲノムデータ処理の様々な特定の態様に対処する。アラインメント及び変異コールのオープンソースツールのしっかりとした統合が、ゲノム処理パイプラインの全体スループットを改善することが示された。しかしながら、この統合は特定の技術プラットフォームを必要とする。本願は、IMDB技術を、ゲノム処理ツールを統合するプラットフォームとして開示している。
M シーケンシング機
ARi i番目の部分的なアラインメント結果
VCRi i番目の部分的な変異コール結果
Claims (15)
- ヌクレオチド配列データを処理するコンピューターベースのシステムであって、前記ヌクレオチド配列データはリードとして提供され、該システムは、前記ヌクレオチド配列データをシーケンシング機(M)からインポートするインターフェースを有し、
前記ヌクレオチド配列データを処理するプロセス論理及びインメモリデータベース(IMDB)を保持するプラットフォームレイヤー
を更に備え、該プラットフォームレイヤーは、
複数のワーカーを有するワーカーフレームワークであって、前記複数のワーカーはそれぞれ、クラスターのノードで実行されており、前記複数のワーカーは並列で処理しており、全ての結果及び中間結果は前記インメモリデータベース(IMDB)に記憶される、ワーカーフレームと、
注釈更新を外部ソースから自動的にダウンロードして前記インメモリデータベース(IMDB)にインポートするアップデーターフレームワークと、
を備える、ヌクレオチド配列データを処理するコンピューターベースのシステム。 - 前記システムはアラインメントコーディネーターを更に備え、該アラインメントコーディネーターは、前記インメモリデータベース(IMDB)に変更されたアラインメント機能を提供するように構成され、前記複数のワーカーはアラインメント処理用に構成される、請求項1に記載のコンピューターベースのシステム。
- 前記システムは、少なくともゲノムブラウザーを有するユーザーインターフェース(UI)を更に備え、該ユーザーインターフェースは、
前記ヌクレオチド配列と複数の参照される細胞株/ゲノム及び/又は参照配列との比較を表示するセクションと、
複数の外部データベースからの結合された解析情報を表示するセクションと、
特にゲノム配列データのアラインメントの特定のパイプライン構成のデータ処理の命令を選択するセクションと、
を備える、請求項1又は2に記載のコンピューターベースのシステム。 - 前記複数のワーカーは、データベース演算によって主なデータ処理を実行する前記インメモリデータベース(IMDB)の部分である、請求項1から3のいずれか1項に記載のコンピューターベースのシステム。
- 前記インメモリデータベース(IMDB)は、ウェブサービス、方法ステップの全ての中間結果、整列される前記ヌクレオチド配列、及び参照配列のデータ記憶装置である、請求項1から4のいずれか1項に記載のコンピューターベースのシステム。
- 事前に構成可能な基準に従って、結合された解析情報をスコア付けするように構成されるスコア付けモジュール
を更に備える、請求項1から5のいずれか1項に記載のコンピューターベースのシステム。 - インメモリデータベース(IMDB)を用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法であって、
複数のCPUコアを有する計算ノードのセットを有するクラスターを提供する方法ステップであって、前記計算ノードのそれぞれは、並列データ処理のためにワーカーを実施する、方法ステップと、
前記ヌクレオチド配列データを複数のリードとして前記インメモリデータベース(IMDB)に提供し、シーケンシングと同時に、データ処理を行う方法ステップと、
を備え、前記データ処理は、
前記計算ノードのセットにおいて前記複数のリードのチャンクを並列に整列し、複数の部分的なアラインメント結果(AR)を一のマージされたアラインメント結果に集約するか、又は前記インメモリデータベース(IMDB)に記憶されるアラインメント結果をコンピューターに基づくインスタンスから受信することと、
前記計算ノードのセットにおいて変異コールを並列に実行し、複数の部分的な変異コール結果(VCR)を一のマージされた変異コール結果に集約するか、又は前記インメモリデータベース(IMDB)に記憶される変異コール結果をコンピューターに基づくインスタンスから受信することと、
前記変異コール結果を複数の異なる外部注釈ソースと結合することによって前記変異コール結果を自動的に解析することであって、前記複数の異なる外部注釈ソースは、アップデーターフレームワークによって定期的かつ自動的にチェックされ、前記インメモリデータベース(IMDB)にインポートされることと、
を含む、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法。 - インメモリデータベース(IMDB)を用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法であって、
複数のコアを有する計算ノードのセットを有するコンピューターコアクラスターを提供する方法ステップであって、前記計算ノードのそれぞれは、並列データ処理のためにワーカーを実施する、方法ステップと、
前記ヌクレオチド配列データを複数のリードとして前記インメモリデータベース(IMDB)に提供し、シーケンシングと同時に、
前記複数のリードを構成可能な量のチャンクに均等にセグメント化することと、
前記チャンクのそれぞれを前記コンピューターコアクラスターの選択されたワーカーに割り振り、並列に部分的なアラインメント結果(ARi)を提供し、全ての該部分的なアラインメント結果(ARi)を前記インメモリデータベース(IMDB)に記憶することによって、前記チャンクのそれぞれを参照配列に整列することと、
全ての前記選択されたワーカーの前記部分的なアラインメント結果を集約することであって、それにより、アラインメント結果を生成し、該アラインメント結果を前記インメモリデータベース(IMDB)に記憶することと、
前記アラインメント結果に基づいて変異コールアルゴリズムを実行し、前記変異コールの結果を前記インメモリデータベースのタスク固有のデータベーステーブルに記憶することと、
アップデーターフレームワークによって前記変異コールの前記結果を自動的に解析することによって最終結果を生成して表示することであって、前記アップデーターフレームワークは、更新について外部注釈ソースを定期的かつ自動的にチェックし、前記更新を自動的にダウンロードして前記インメモリデータベース(IMDB)にインポートすることと、
によってデータを処理する方法ステップと、
を含む、インメモリデータベースを用いてヒト又は非ヒトのヌクレオチド配列データを処理するコンピューター実施方法。 - 前記整列することは、アラインメントアルゴリズムを介して実行され、該アラインメントアルゴリズムは、動的プログラミングに基づき、パイプライン構成ごとに選択することができ、特に、バローズ−ホイーラーアライナー(BWA)、Bowtie、Bowtie2、SNAP、及び/又はTMAP1−4を含む、請求項7又は8に記載のコンピューター実施方法。
- 処理パイプラインは、複数の異なる処理パイプラインも動的に構成可能であり、及び/又は特定の使用事例で並列に実行可能なようにモデル化される、請求項7から9のいずれか1項に記載のコンピューター実施方法。
- 前記変異コールの場合、前記アラインメント結果は、染色体ごとに1つずつ、構成可能な量のアイテムに分割され、該アイテムはノードに割り振られ、該アイテムのそれぞれにおいて変異コールアルゴリズムを並列に実行し、部分的な変異コール結果(VCRi)を提供する、請求項7から10のいずれか1項に記載のコンピューター実施方法。
- アラインメントは、前記インメモリデータベース(IMDB)において直接実施することができる、請求項7から11のいずれか1項に記載のコンピューター実施方法。
- 表示される最終結果は、オンザフライで、整列された前記配列及び/又は参照配列の所与の塩基配列のアミノ酸及び追加の情報を含む、請求項7から12のいずれか1項に記載のコンピューター実施方法。
- データ交換がウェブサービスに基づき、全てのアプリケーションがクラウドに基づき、したがって、モバイルデバイスを介してアクセスすることもできる、請求項7から13のいずれか1項に記載のコンピューター実施方法。
- 前記アップデーターフレームワークの更新は、設定可能に非同期で実行され、及び/又は特定のパイプラインの実行に結び付けられない、請求項7から14のいずれか1項に記載のコンピューター実施方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361757499P | 2013-01-28 | 2013-01-28 | |
US61/757,499 | 2013-01-28 | ||
EP13152861.4A EP2759953B1 (en) | 2013-01-28 | 2013-01-28 | System and method for genomic data processing with an in-memory database system and real-time analysis |
EP13152861.4 | 2013-01-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014146318A true JP2014146318A (ja) | 2014-08-14 |
Family
ID=47603469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014008608A Pending JP2014146318A (ja) | 2013-01-28 | 2014-01-21 | インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP2759953B1 (ja) |
JP (1) | JP2014146318A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018004044A1 (ko) * | 2016-07-01 | 2018-01-04 | 주식회사 마이지놈박스 | 게놈 정보 분석 모듈 및 그를 포함하는 시스템 |
JP2019510323A (ja) * | 2016-01-11 | 2019-04-11 | エディコ・ジーノウム・コーポレーション | オンサイトまたはクラウドベースのdnaおよびrnaの処理と分析のためのゲノムインフラストラクチャ |
JP2019101450A (ja) * | 2017-11-28 | 2019-06-24 | 東芝メモリ株式会社 | 電子機器およびファイル管理方法 |
JP2023503207A (ja) * | 2020-10-22 | 2023-01-27 | ビージーアイ ジェノミクス カンパニー リミテッド | 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置 |
JP2023504375A (ja) * | 2020-03-17 | 2023-02-03 | ウェスタン デジタル テクノロジーズ インコーポレーテッド | 参照誘導ゲノム配列決定 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2966889T3 (es) | 2014-11-21 | 2024-04-24 | The Res Institute At Nationwide Childrens Hospital | Sistemas de procesamiento paralelo y métodos para el análisis altamente escalable de datos de secuencia biológica |
US9811391B1 (en) * | 2016-03-04 | 2017-11-07 | Color Genomics, Inc. | Load balancing and conflict processing in workflow with task dependencies |
US10853130B1 (en) | 2015-12-02 | 2020-12-01 | Color Genomics, Inc. | Load balancing and conflict processing in workflow with task dependencies |
CN107346372A (zh) * | 2017-06-19 | 2017-11-14 | 苏州班凯基因科技有限公司 | 一种应用于基因突变解读的数据库及其构建方法 |
CN111326216B (zh) * | 2020-02-27 | 2023-07-21 | 中国科学院计算技术研究所 | 一种针对大数据基因测序文件的快速划分方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272824A (ja) * | 1995-03-31 | 1996-10-18 | Hitachi Software Eng Co Ltd | 遺伝子配列データ自動検索方法 |
JP2004234580A (ja) * | 2003-01-31 | 2004-08-19 | Fujitsu Ltd | ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置 |
JP2006113786A (ja) * | 2004-10-14 | 2006-04-27 | Mitsubishi Space Software Kk | 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム |
JP2009054039A (ja) * | 2007-08-28 | 2009-03-12 | Hitachi Software Eng Co Ltd | 配列の編集にあわせて自動的にアノテーションを変更可能な遺伝子配列の編集方法 |
JP2010049695A (ja) * | 2002-06-14 | 2010-03-04 | Genomatica Inc | ゲノムベースの表現型モデルを構築するためのシステムおよび方法 |
JP2010086142A (ja) * | 2008-09-30 | 2010-04-15 | National Institute Of Agrobiological Sciences | 遺伝子クラスタリング装置およびプログラム |
JP2012053796A (ja) * | 2010-09-03 | 2012-03-15 | Nec Corp | 情報処理システム |
JP2012069104A (ja) * | 2010-08-26 | 2012-04-05 | National Institute Of Biomedical Innovation | 遺伝子絞り込み装置、遺伝子絞り込み方法、及びコンピュータプログラム |
JP2012094143A (ja) * | 2010-10-27 | 2012-05-17 | Samsung Sds Co Ltd | バイオマーカー抽出装置および方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2040180B1 (en) * | 2007-09-24 | 2019-01-16 | Hasso-Plattner-Institut für Digital Engineering gGmbH | ETL-less zero-redundancy system and method for reporting OLTP data |
-
2013
- 2013-01-28 EP EP13152861.4A patent/EP2759953B1/en active Active
-
2014
- 2014-01-21 JP JP2014008608A patent/JP2014146318A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272824A (ja) * | 1995-03-31 | 1996-10-18 | Hitachi Software Eng Co Ltd | 遺伝子配列データ自動検索方法 |
JP2010049695A (ja) * | 2002-06-14 | 2010-03-04 | Genomatica Inc | ゲノムベースの表現型モデルを構築するためのシステムおよび方法 |
JP2004234580A (ja) * | 2003-01-31 | 2004-08-19 | Fujitsu Ltd | ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置 |
JP2006113786A (ja) * | 2004-10-14 | 2006-04-27 | Mitsubishi Space Software Kk | 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム |
JP2009054039A (ja) * | 2007-08-28 | 2009-03-12 | Hitachi Software Eng Co Ltd | 配列の編集にあわせて自動的にアノテーションを変更可能な遺伝子配列の編集方法 |
JP2010086142A (ja) * | 2008-09-30 | 2010-04-15 | National Institute Of Agrobiological Sciences | 遺伝子クラスタリング装置およびプログラム |
JP2012069104A (ja) * | 2010-08-26 | 2012-04-05 | National Institute Of Biomedical Innovation | 遺伝子絞り込み装置、遺伝子絞り込み方法、及びコンピュータプログラム |
JP2012053796A (ja) * | 2010-09-03 | 2012-03-15 | Nec Corp | 情報処理システム |
JP2012094143A (ja) * | 2010-10-27 | 2012-05-17 | Samsung Sds Co Ltd | バイオマーカー抽出装置および方法 |
Non-Patent Citations (3)
Title |
---|
HUGO Y. K. LAM: "Detecting and annotating genetic variations using HugeSeq pipeline", NATURE BIOTECHNOLOGY, vol. Vol.30,number 3, JPN6017037863, 7 March 2012 (2012-03-07), pages 226 - 229, ISSN: 0003940640 * |
MICHAEL C. SCHATZ: "CloudBurst:highly sensitive read mapping with MapReduce", BIOINFORMATICS, vol. 25, no. 11, JPN7017003171, 1 June 2009 (2009-06-01), pages 1363 - 1369, XP055070043, ISSN: 0003940638, DOI: 10.1093/bioinformatics/btp236 * |
永安 悟史: ""最新技術がスグわかる!IT技術ビジュアルマップ"", エンジニアマインド, vol. 第1巻, JPN6017047108, 10 October 2006 (2006-10-10), JP, pages 36 - 41, ISSN: 0003940639 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019510323A (ja) * | 2016-01-11 | 2019-04-11 | エディコ・ジーノウム・コーポレーション | オンサイトまたはクラウドベースのdnaおよびrnaの処理と分析のためのゲノムインフラストラクチャ |
JP2022130389A (ja) * | 2016-01-11 | 2022-09-06 | エディコ・ジーノウム・コーポレーション | オンサイトまたはクラウドベースのdnaおよびrnaの処理と分析のためのゲノムインフラストラクチャ |
JP7308616B2 (ja) | 2016-01-11 | 2023-07-14 | エディコ・ジーノウム・コーポレーション | オンサイトまたはクラウドベースのdnaおよびrnaの処理と分析のためのゲノムインフラストラクチャ |
WO2018004044A1 (ko) * | 2016-07-01 | 2018-01-04 | 주식회사 마이지놈박스 | 게놈 정보 분석 모듈 및 그를 포함하는 시스템 |
JP2019101450A (ja) * | 2017-11-28 | 2019-06-24 | 東芝メモリ株式会社 | 電子機器およびファイル管理方法 |
JP2023504375A (ja) * | 2020-03-17 | 2023-02-03 | ウェスタン デジタル テクノロジーズ インコーポレーテッド | 参照誘導ゲノム配列決定 |
JP7439258B2 (ja) | 2020-03-17 | 2024-02-27 | ウェスタン デジタル テクノロジーズ インコーポレーテッド | 参照誘導ゲノム配列決定 |
JP2023503207A (ja) * | 2020-10-22 | 2023-01-27 | ビージーアイ ジェノミクス カンパニー リミテッド | 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置 |
JP7393439B2 (ja) | 2020-10-22 | 2023-12-06 | ビージーアイ ジェノミクス カンパニー リミテッド | 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2759953A1 (en) | 2014-07-30 |
EP2759953B1 (en) | 2022-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11031097B2 (en) | System for genomic data processing with an in-memory database system and real-time analysis | |
EP2759953B1 (en) | System and method for genomic data processing with an in-memory database system and real-time analysis | |
US20170220732A1 (en) | Comprehensive analysis pipeline for discovery of human genetic variation | |
US10381106B2 (en) | Efficient genomic read alignment in an in-memory database | |
RU2764557C1 (ru) | Способы и системы для трансформаций матриц, основанных на разреженных векторах | |
Agapito et al. | Parallel extraction of association rules from genomics data | |
EP2759952B1 (en) | Efficient genomic read alignment in an in-memory database | |
Ocaña et al. | Parallel computing in genomic research: advances and applications | |
Agapito et al. | Cloud4SNP: distributed analysis of SNP microarray data on the cloud | |
Byma et al. | Persona: A {High-Performance} Bioinformatics Framework | |
Peréz-Sánchez et al. | Applications of high performance computing in bioinformatics, computational biology and computational chemistry | |
Nazipova et al. | Big Data in bioinformatics | |
Reali et al. | Genomics as a service: A joint computing and networking perspective | |
Deng et al. | HiGene: A high-performance platform for genomic data analysis | |
Vijayakumar et al. | Optimizing sequence alignment in cloud using hadoop and mpp database | |
Schapranow et al. | High-performance in-memory genome project: a platform for integrated real-time genome data analysis | |
Kovatch et al. | Big omics data experience | |
Kovatch et al. | Optimizing high-performance computing systems for biomedical workloads | |
Szczerba et al. | Scalable cloud-based data analysis software systems for big data from next generation sequencing | |
Xu et al. | Distributed gene clinical decision support system based on cloud computing | |
Sharma et al. | Intelligent cloud computing and bioinformatics data analysis | |
Hua et al. | Hadoop-MCC: Efficient multiple compound comparison algorithm using hadoop | |
Romeu Farré | Design and implementation BLAST tool big data | |
RU2799750C2 (ru) | Биоинформационные системы, устройства и способы для выполнения вторичной и/или третичной обработки | |
D'Antonio et al. | Characterization of genomic data using graph databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180612 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181218 |