JP6902104B2 - バイオインフォマティクス情報表示のための効率的データ構造 - Google Patents

バイオインフォマティクス情報表示のための効率的データ構造 Download PDF

Info

Publication number
JP6902104B2
JP6902104B2 JP2019540489A JP2019540489A JP6902104B2 JP 6902104 B2 JP6902104 B2 JP 6902104B2 JP 2019540489 A JP2019540489 A JP 2019540489A JP 2019540489 A JP2019540489 A JP 2019540489A JP 6902104 B2 JP6902104 B2 JP 6902104B2
Authority
JP
Japan
Prior art keywords
read
data
aligned
layer
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019540489A
Other languages
English (en)
Other versions
JP2019537810A (ja
Inventor
ダニエーレ レンツィ
ダニエーレ レンツィ
ジョルジョ ゾイア
ジョルジョ ゾイア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genomsys SA
Original Assignee
Genomsys SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genomsys SA filed Critical Genomsys SA
Publication of JP2019537810A publication Critical patent/JP2019537810A/ja
Application granted granted Critical
Publication of JP6902104B2 publication Critical patent/JP6902104B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、ゲノムデータ構造を定義するゲノム情報保存レイヤ(ゲノムファイルフォーマット)を開示する。ゲノムデータ構造は、ゲノムデータ処理の異なるステージ(いわゆる、「ゲノム情報ライフサイクル」)の間におけるゲノムシークエンシング(配列決定)、処理及び解析に関連するデバイス及びアプリケーションにより生成された情報に対応する異種データの収集を含む。
DNA、RNA、又はタンパク質シークエンシング装置により生成されたゲノム又はプロテオーム情報は、データ処理上の異なるステージの間、異種データを生成するために転送される。従来技術の解決法では、これらのデータは、現在、異なる無関係の構造を有するコンピュータ上のファイルに保存される。したがって、上記情報のアーカイブへの保存、転送及び加工は極めて困難である。
本発明におけるゲノム又はプロテオーム配列は、例えば、ヌクレオチド配列、デオキシリボ核酸(DNA)配列、リボ核酸(RNA)及びアミノ酸配列を含むが、これに限定されない。本明細書ではヌクレオチド配列の形態であるゲノム情報について詳細に記載する。しかし、当業者であれば理解されるように、保存のための方法及びシステムは、いくつかのバリエーションがあるが、他のゲノム又はプロテオーム配列についても同様に実施することができる。
図1は、データの生成(シークエンシング)から解析までのゲノム又はプロテオーム情報ライフサイクルを示すとともに、ゲノムライフサイクルの異なるフェーズ及び対応する中間ファイルフォーマットを示す。図1に示すように、ゲノム情報ライフサイクルの典型的なステップは、配列リード抽出、マッピング及びアライメント、バリアント検出、バリアントアノテーション(注釈付け)、並びに機能及び構造解析を含む。
配列リード抽出は、人間のオペレータ又は機械によって実行されるプロセスであり、生体サンプルを構成する分子を表す記号の配列の形式で遺伝情報の断片を表示するプロセスである。核酸の場合、そのような分子は、「ヌクレオチド」と呼ばれる。抽出により生成される記号の配列は、一般的に「リード」と呼ばれる。この情報は、従来技術では、通常、テキストヘッダ及び配列された分子を表す記号の配列を含む「FASTA」ファイルとして符号化される。
生物のDNAを抽出し、生体サンプルのシークエンシングを行うとき、アルファベット(A、C、G、T、N)が記号として用いられる。
生物のRNAを抽出し、生体サンプルのシークエンシングを行うとき、アルファベット(A、C、G、U、N)が記号として用いられる。
IUPAC拡張記号セットの場合、いわゆる「あいまいコード(ambiguity codes)」がシークエンシング装置によって生成され、リードを構成する記号にはアルファベット(A、C、G、T、U、W、S、M、K、R、Y、B、D、H、V、N又は−)が用いられる。
IUPACのあいまいコードを用いない場合、品質スコアの配列が各々の配列リードに関連付けられる。そのような場合、従来の解決法では、結果として得られる情報を「FASTQ」ファイルとして符号化する。
配列アライメントは、配列間の機能的、構造的又は進化的な関係の結果である類似性を有する領域を見つけることにより、配列リードをアレンジするプロセスに関する。「参照(リファレンス)配列」と呼ばれる既存のヌクレオチド配列を参照してアライメントを実行する場合、この処理は「マッピング」と呼ばれる。また、配列アライメントは、既存の配列(すなわち、参照ゲノム)なしに実行され得る。従来のこのプロセスは、「デノボ(de novo)」アライメントとして知られる。従来技術の解決法では、「SAM」、「BAM」又は「CRAM」ファイルにおけるそのような情報が保存される。図2には、部分的又は完全なゲノムを再構築するための配列のアライメントの概念が示される。
バリアント検出(バリアントコーリングともいう)は、ゲノムシークエンシング装置の整列した出力を、他の既存の配列には見られないか又はいくつかの既存の配列だけに見られる、配列決定される生物に固有の特徴の要旨に翻訳するプロセスである。これらの特徴は「バリアント」と呼ばれる。これは、バリアントが調査中の生物のゲノムと参照ゲノム(リファレンスゲノム)との間における相違として表されるためである。従来技術の解決法では、この情報を「VCF」ファイルと呼ばれる特定のファイルフォーマットで保存する。
バリアントアノテーションは、機能的情報をゲノムバリアントに割り当てるプロセスである。これは、ゲノムにおけるコード配列に対する関係に応じるとともに、コード配列及び遺伝子プロダクトに対する影響に応じたバリアントの分類を意味する。これは、従来技術では通常「MAF」ファイルに保存される。
遺伝子(及びタンパク質)の機能及び構造とのそれらの関係を定義するためのDNA鎖(バリアント、CNV=コピー数多型、メチル化など)の解析は、機能的及び構造的解析と呼ばれる。従来技術では、このデータを保存するためのいくつかの異なる解決方法が存在する。
図3は、ゲノム処理パイプラインに用いられるファイルフォーマット間の関係を簡潔に示す。この図では、ファイルへの包含は、入れ子になったファイル構造の存在を示すものではなく、各フォーマットに符号化できる情報のタイプ及び量を表すだけである(すなわち、SAMはFASTQにおける全ての情報を含むが、異なるファイル構造で編成される)。CRAMは、SAM/BAMと同じゲノム情報を含むが、使用可能な圧縮の種類がより柔軟であるため、SAM/BAMのスーパーセットとして表される。
ゲノム情報の保存のために様々なファイルフォーマットを利用することは、極めて非効率でありコストがかかる。ゲノム情報ライフサイクルの異なるステージにおいて異なるファイルフォーマットを有することは、増分情報がシークエンシングデータの初期値と比べて非常に小さいとしても、利用するストレージのスペースが線形に増加する。これは、スペース及び発生するコストの両方の観点から持続可能ではなく、したがって、ゲノムが広く活用されることが妨げられてしまう。さらに、公知である従来技術の解決法のデメリットを以下に記載する。
1.圧縮されたFASTQファイル又は任意に組み合わせたファイルに保存された未加工データにアクセスし、解析し、あるいはアノテーション(メタデータ)を追加することは、計算時間及びリソースの過度の使用に加えて、ファイル全体の復元及び再圧縮を必要とする。
2.リードマッピング位置、リードバリアント位置及びタイプ、インデル位置及びタイプ、あるいは、BAMファイルに保存される整列されたデータに含まれる任意の他のメタデータ及びアノテーション(注釈)などの特定のタイプの情報を読み出すためには、各リードに関連する全データにアクセスする必要がある。従来技術の解決法では単一クラスのメタデータに選択的にアクセスすることはできない。
3.従来のファイルフォーマットでは、処理が開始可能となる前に、エンドユーザがファイル全体を受信することが必要となる。例えば、適切なデータ表示に依存してシークエンシングプロセスが完了する前に、リードのアライメントを開始することができる。シークエンシング、アライメント及び解析は並行して進行し得る。
4.異なるシークエンシングプロセスにより得られたゲノムデータを、特定の生成セマンティック(generation semantic)(例えば、同一の個体の異なる生存期間に得られるシークエンシング)に従って構造化し、区別可能にすることができるようにすることは、従来技術の解決法では不可能である。同じ個体の異なる種類の生体サンプルによって得られるシークエンシングについても同様である。
5.データの全体又は選択された部分の暗号化は、従来技術の解決法ではサポートされていない。例えば、選択されたDNA領域の暗号化、バリアントを含む配列だけの暗号化、キメラ配列だけの暗号化、マッピングされていない配列だけの暗号化、特定のメタデータ(例えば、配列決定されたサンプルの出所、配列決定された個体の同一性、サンプルの種類)の暗号化は不可能である。
6.所与のリファレンス(すなわち、SAM/BAMファイル)に整列されたシークエンシングデータから新しいリファレンスへのトランスコーディングでは、新しいリファレンスが以前のリファレンスと単一ヌクレオチド位置だけ異なる場合であっても全データ量を処理する必要がある。
7.ゲノムデータの転送は遅くかつ非効率的である。これは、現在使用されるデータフォーマットが、処理のため受信側に完全に転送する必要がある最大数百ギガバイトのサイズのモノリシックファイルに編成されるためである。このことは、データの小さなセグメントの解析についても、処理能力及び待機時間に関してかなりの費用をかけて、ファイル全体を転送しなければならないことを意味する。多くの場合、オンラインによる転送は、大量のデータを転送するには不向きであり、このため、ハードディスクドライブやストレージサーバなどの記憶媒体をある場所から他の場所に物理的に移動させることによってデータの転送が行われる。
8.一般的に使用される解析アプリケーションに要求される異なるクラスのデータ及びメタデータの部分を、そのデータ全体にアクセスすることなく読み出すことができるように情報が構成されていないため、データの処理が遅くかつ非効率的である。上記の事実は、共通の解析パイプラインが、特定の解析目的に関するデータ部分が小さいものであっても、各段階における大量のデータへのアクセス、パーシング及びフィルタリングの必要性のために、貴重で高価な処理リソースを浪費しながら何日又は何週間も稼働することを必要とすることを暗示する。上記の制限は、医療専門家がタイムリーにゲノム解析レポートを入手すること及び発病に対して迅速に対応することを妨げる。
データ及びメタデータの圧縮が最大化され、選択的なアクセスや増分更新のサポートなどのいくつかの機能性並びにゲノムデータライフサイクルの異なるステージにおいて有用な他のデータ処理上の機能性が効果的に実現し得るように、データを編成しかつ分割することにより、適切なゲノムシークエンシングデータ及びメタデータ表示(ゲノムファイルフォーマット)を提供することが明確に要求される。
開示する解決法の主な態様は以下の通りである。
1.アライメントの結果に関する基準に従って符号化されたデータに対する選択的なアクセスを可能にするための、参照配列に対するアライメントの結果に従った異なるクラスにおける配列リードの分類。これは、圧縮形式で構造化されたデータエレメントを「含む」ファイルフォーマットの指定を意味する。そのようなアプローチは、データが非圧縮形式で構造化され、ファイル全体が圧縮される従来技術のアプローチ、例えば、SAM及びBAMと異なるものと見ることができる。上記アプローチの第1の明確な利点は、従来技術の手法では不可能であるか又は極めて扱いにくい、圧縮されたドメインにおけるデータエレメントに対する様々な形態の選択的なアクセスを効率的かつ自然に提供できることである。
2.情報エントロピを可能な限り少なくするための、分類されたリードの均質なメタデータレイヤへの分解。ゲノム情報を均質なデータ及びメタデータの特定の「レイヤ」に分解することは、低エントロピを特徴とする情報源の異なるモデルの定義を可能にするという大きな利点をもたらす。そのようなモデルは、レイヤごとに異ならせることができるだけでなく、各レイヤ内においても異ならせることができる。この構造化により、データ又はメタデータ及びそれらの一部の各クラスに対する最も適切な特定の圧縮の利用が可能となり、従来技術のアプローチと比べて符号化効率が大幅に向上する。
3.上記レイヤのアクセスユニット、すなわち、グローバルに利用可能なパラメータ(例えば、デコーダ構成)だけを用いることにより独立して、又は他のアクセスユニットに含まれる情報を用いることにより復号可能なゲノム情報への構造化。レイヤ内における圧縮されたデータがアクセスユニットに含まれるデータブロックに分割される場合、低エントロピを特徴とする異なるモデルの情報源を定義することができる。
4.ゲノム解析アプリケーションに使用されるデータの任意の関連サブセットが適切なインタフェースを介して効率的かつ選択的にアクセス可能であるように、情報が構造化される。これらの機能により、データへのアクセスが速くなるとともに、より効率的な処理が可能となる。マスターインデックステーブル及びローカルインデックステーブルにより、圧縮データの全容量を復号することなく、符号化された(すなわち圧縮された)データのレイヤにより運ばれる情報への選択的なアクセスが可能となる。さらに、全てのレイヤを復号する必要のない、意味的に関連付けられたデータ及び/又はメタデータレイヤのサブセットの任意の可能な組み合わせへの選択的なアクセスを可能にするため、種々のデータレイヤの間の関連付けメカニズムが指定される。
5.マスターインデックステーブル及びアクセスユニットの共同ストレージ。
請求項1の特徴は、以下を提供することにより、従来技術の解決方法の問題を解消する。
ゲノムファイルフォーマットでゲノム配列データの表示を保存するための方法であって、前記ゲノム配列データは、ヌクレオチド配列のリードを含み、前記リードを一つ又は複数の参照配列に対して整列させ、整列したリードを生成するステップと、前記一つ又は複数の参照配列との一致の精度に応じて、前記整列したリードを分類し、整列したリードのクラスを生成するステップと、シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップと、シンタックス要素の前記レイヤをヘッダ情報で構築し、連続アクセスユニットを形成するステップと、マスターインデックステーブルを作成するステップであって、各クラスの整列したリードについて1つのセクションを含み、各クラスのデータの各アクセスユニットにおける第1のリードの参照配列にマッピング位置を含む、マスターインデックステーブル作成ステップと、前記マスターインデックステーブル及び前記アクセスユニットデータを一緒に保存するステップと、を含む、方法。
上記ライフサイクルの説明で述べたように、ゲノム配列データの各データタイプのための異なる別々のファイルの代わりに、インデックステーブル及び上記ゲノム配列データの表示を一緒に保存することによって、多くの利点が直ちに明らかになる。具体的には以下の通りである:
・ゲノム配列データ処理の中間段階の結果は、異なるファイルフォーマットに変換する必要なく、既存のデータに増分的に追加することができる。例えば、既存のファイルフォーマットを変更する必要なく、未加工データにアライメント情報を追加することができる。増分更新により既存の整列した配列データにバリアントの呼び出し結果を含めることができる。
・ゲノム配列データは、クエリーの基準に一致しないファイル全体又はその領域にアクセスする必要なしに、特定の特徴に従って読み出される。例えば、クエリーは、選択的にアクセスするように実行され得る:
・・一つ又は複数の参照ゲノムにおいて完全に一致する配列リード
・・実際のヌクレオチド又はアミノ酸記号の代わりに「N」の記号が存在する不一致だけを含む配列リード
・・一つ又は複数のゲノムに関して、記号の置換の形で任意のタイプの不一致を含む配列リード
・・不一致及び挿入又は欠失(インデル)を含む配列リード
・・不一致、挿入又は欠失(インデル)及び一つ又は複数の参照ゲノムに関してソフトクリップされた記号を含む配列リード
・・考慮される参照ゲノムに関してマッピングすることができない配列リード
・・指定された深さの閾値の間に存在する全一塩基多型(SNPs)
・・全キメラ配列リード
・・指定された閾値を超える品質スコアを有する全配列リード
・・指定された一連の配列リードに対応する全メタデータ
参照配列との一致の信頼度に応じて整列したリードを分類することによって、アライメントの結果に関する基準に従って符号化されたデータへの選択的アクセスが実現する。
分類された整列したリードをシンタックス要素のレイヤとして符号化することによって、レイヤによって運ばれるデータ又はメタデータの特定の特徴及びその統計的特性により符号化を適合させることができる。
連続したアクセスユニットにおいてヘッダ情報を用いてシンタックス要素のレイヤを構造化することによって、データの性質に応じて、符号化、保存及び伝送を適合させることができる。例えば、エントロピの最小化の観点から、各データレイヤに最も効率的なソースモデルを使用するように、アクセスユニットごとに符号化を適合させることができる。
開示した一態様によれば、ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する方法であって、前記ゲノムファイルは、本開示の原理により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、前記方法は、抽出するリードのタイプを特定するユーザ入力を受けるステップと、ゲノムファイルから前記マスターインデックステーブルを読み出すステップと、抽出するリードのタイプに対応する前記アクセスユニットを読み出すステップと、一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するステップと、を含む方法。
さらに本発明は、ゲノムシークエンシング装置を開示する。ゲノムシークエンシング装置は、生体サンプルからヌクレオチド配列のリードを出力するように構成されたゲノムシークエンシングユニットと、リードを一つ又は複数の参照配列に対して整列させ、整列したリードを生成するように構成されたアライメントユニットと、一つ又は複数の参照配列との一致の精度に応じて、整列したリードを分類し、整列したリードのクラスを生成するように構成された分類ユニットと、シンタックス要素のレイヤとして前記分類された整列したリードを符号化するように構成された符号化ユニットと、シンタックス要素のレイヤをヘッダ情報で構築し、連続アクセスユニットを形成するように構成された再分割ユニットと、マスターインデックステーブルを作成するように構成されたインデックステーブル処理ユニットであって、各クラスの整列したリードについて1つのセクションを含み、各クラスのデータの各アクセスユニットにおける第1のリードの一つ又は複数の参照配列にマッピング位置を含む、インデックステーブル処理ユニットと、マスターインデックステーブル及び前記アクセスユニットデータを一緒に保存するように構成されたストレージユニットと、を備える。
開示する一態様によれば、ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する抽出器であって、ゲノムファイルは、本開示の原理により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、抽出器は、抽出するリードのタイプを特定する入力を受けるように構成されたユーザ入力手段と、ゲノムファイルからマスターインデックステーブルを読み出すように構成された読み出し手段と、抽出するリードのタイプに対応するアクセスユニットを読み出すように構成された読み出し手段と、一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するように構成された再構築手段と、を備える。
開示する一態様によれば、デジタル処理装置は、直前の段落に記載した方法を実行するようにプログラムされる。開示する他の態様によれば、非一時的記憶媒体は、デジタル処理装置によってアクセスされ、前段落に記載された方法を実行するためにデジタル処理装置によって実行可能な命令を保存する。
開示する他の態様によれば、非一時的な記憶媒体は、デジタルプロセッサによって読み取り可能であり、バイオインフォマティクス(生命情報科学)の文字セットを含むゲノム又はプロテオーム文字列として表されるゲノム又はプロテオームデータを処理するためのソフトウェアを保存する。ここで、ゲノム又はプロテオミクスデータの各塩基又はペプチドは、前段落に記載されたフォーマットで表される。一実施例では、ソフトウェアは、デジタル信号処理変換を用いてゲノム又はプロテオームデータを処理する。
典型的なゲノム情報ライフサイクルのブロック図である。 部分的又は完全なゲノムを再構築するために配列を整列させる概念を示した図である。 ゲノム処理パイプラインにおいて用いられるファイルフォーマット間の関係を簡潔に示した概念図である。 参照配列にマッピングされたリードペアを示す図である。 本開示の原理によるアクセスユニットの例を示す図である。 データブロックにより構成されたヘッダ及びレイヤを含むアクセスを示す図である。 ゲノム「データパケット」、「ブロック」、アクセスユニット、レイヤ及びストリームリードクラス間の関係を示す図である。 各アクセスユニットに含まれる第1のリードのマッピング遺伝子座のベクトルを有するマスターインデックステーブルを示す図である。 メインヘッダの一般的な構造及びクラスPの各posAUにおける第1のリードのマッピング位置を示すMITの部分的な表示を示す図である。 MITにおける第2のタイプのデータを示す図である。 T1pベクトルに含まれる値を使用してアクセスされる、位置150,000と250,000との間において参照配列2にマッピングされたクラスPのリードを含むアクセスユニットを示す図である。 MリードをPリードに変換することができる参照配列の改変を示す図である。 本発明の原理によるゲノム情報ライフサイクルを示すブロック図である。 本発明の原理による配列リード抽出器を示す図である。 本発明の原理によるゲノムエンコーダ2010を示す図である。 本発明の原理によるゲノムデコーダ218を示す図である。
分類及び配列リード
シークエンシング装置により生成された配列リードは、一つ又は複数の参照配列(リファレンスシークエンス)に対するアライメントの結果に従い、開示の発明によって5つの異なる「クラス」に分類される。
参照配列に関してヌクレオチドのDNA配列を整列させるとき、5つの結果が生じ得る。
1.参照配列における領域が、エラーなく配列リードと一致することが判明する場合(完全マッピング)。そのようなヌクレオチドの配列は、「完全一致リード」と呼ばれるか、あるいは「クラスP」と表される。
2.参照配列における領域が、シークエンシング装置が塩基(又はヌクレオチド)を呼び出せなかった、多数の位置によって構成される多数の不一致を含む配列リードと一致することが判明する場合。そのような不一致は「N」で示される。そのような配列は「Nミスマッチリード」又は「クラスN」と表される。
3.参照配列における領域が、シークエンシング装置が塩基(又はヌクレオチド)を呼び出せなかったか、あるいは参照ゲノムにおいて報告されたものとは異なる塩基が呼び出された、多数の位置によって構成される多数の不一致を含む配列リードと一致することが判明する場合。そのようなタイプの不一致は、一塩基変異(SNV)又は一塩基多型(SNP)と呼ばれる。この配列は、「Mミスマッチリード」又は「クラスM」と表される。
4.第4のクラスは、クラスMと同じ不一致及び挿入又は欠失(インデルともいう)の存在を含むミスマッチのタイプを表すシークエンシングリードにより構成される。挿入は、リファレンスには存在しないがリード配列に存在する一つ又は複数のヌクレオチドの配列によって表される。挿入された配列が配列のエッジにある場合、「ソフトクリップ」と呼ばれる(すなわち、「ハードクリップされた」ヌクレオチドと対照的なものであって、ヌクレオチドがリファレンスと一致していないが、整列したリードに保持される)。欠失は、リファレンスに対して整列したリードにおける「穴」(欠落したヌクレオチド)である。そのような配列は、「Iミスマッチリード」又は「クラスI」と表される。
5.第5のクラスは、特定されたアライメント制約に従って参照ゲノムにおける任意の有効なマッピングを見出した全てのリードを含む。そのような配列は、アンマップ(マッピングされていない)と呼ばれ、「クラスU」に属する。
マッピングされていないリードは、デノボアセンブリアルゴリズムを使用して単一の配列にアセンブルされ得る。新しい配列が作成されると、それに対してマッピングされていないリードがさらにマッピングされ、4つのクラスP、N、M、Iのいずれかに分類され得る。
レイヤへのゲノム情報の分解
リードの分類がクラスの定義を用いて完了すると、更なる処理の本質は、所与の参照配列にマッピングされて表される場合、DNAリード配列の再構築を可能にする残りの情報を表す一連の別個のシンタックス要素を定義することにある。所与の参照配列を参照するDNAセグメントは、以下によって完全に表現することができる。
・参照ゲノムにおける開始位置(pos)。
・リードがリファレンスから逆相補として見なす必要があるときのフラグシグナリング(rcomp)。
・ペアになったリードの場合、メイトペアへの距離(pair)。
・シークエンシング技術が可変長リードを生成する場合、リード長の値。一定リード長の場合、各リードに関連付けられたリード長は明らかに省くことができ、リード長をメインファイルヘッダに保存することができる。
・リードの特定の特性を記載する追加のフラグ(重複リード、ペアをなす第1及び第2のリードなど)。
・各不一致について:
・不一致の位置(クラスNについてはnmis、クラスMについてはsnpp、クラスIについてはindp)
・不一致のタイプ(クラスNには存在せず、クラスMではsnpt、クラスIではindt)
・存在する場合、オプションでソフトクリップされたヌクレオチドのストリング(クラスIではindc)。
この分類は、ゲノム配列リードを単意で表すのに使用することができる記述子(シンタックス要素)のグループを作成する。以下の表において、整列したリードの各クラスに必要なシンタックス要素をまとめる。
Figure 0006902104
クラスPに属するリードは、メイトペア、いくつかのフラグ及びリード長をもたらすシークエンシング技術によって得られた場合、位置、逆相補情報、及びメイト間の距離のみによって特徴づけられるとともに完全に再構築され得る。
図4は、(イルミナ株式会社から利用可能な最も一般的なシークエンシング技術に従って)リードがどのようにペアとして結合され、参照配列上にマッピングされ得るかを示す。参照配列上にマッピングされたリードペアは、同種の記述子の多数のレイヤに符号化される(すなわち、位置、1ペアにおけるリード間の距離、不一致など)。
レイヤは、参照配列上にマッピングされたリードを一意に識別するために必要な多数の要素のうちの1つに関する記述子のベクトルとして定義される。以下は記述子のベクトルをそれぞれ運ぶレイヤの例である。
・リード位置レイヤ
・逆相補レイヤ
・ペアリング情報レイヤ
・不一致位置レイヤ
・不一致型レイヤ
・インデルレイヤ
・クリップされたベースレイヤ
・リード長レイヤ(可変リード長の場合のみ存在)
・BAMフラグレイヤ
データブロック、アクセスユニット及びゲノムデータレイヤ
本発明によりさらに開示するデータ構造は、以下の概念に基づく:
データブロックは、レイヤを構成する同じタイプ(例えば、位置、距離、逆相補フラグ、不一致の位置及びタイプ)の一連の記述子ベクトル要素として定義される。1つのレイヤは、通常、多数のデータブロックにより構成される。データブロックは、通信チャネル要件に従って通常規定されるサイズを有する伝送ユニットからなるゲノムデータパケットに分割され得る。そのような分割機能は、通常のネットワーク通信プロトコルを使用して転送効率を実現するために望ましい。
アクセスユニットは、グローバルに利用可能なデータ(例えば、デコーダの形態)のみを使用するか、あるいは他のアクセスユニットに含まれる情報を使用することによって、他のアクセスユニットから独立して完全に復号化できるゲノムデータのサブセットとして定義される。アクセスユニットは、ヘッダにより、及び異なるレイヤの多重化されたデータブロックの結果により構成される。同じタイプの複数のパケットは、1つのブロックにカプセル化され、複数のブロックが1つのアクセスユニットにおいて多重化される。これらの概念を図5に示す。図6は、ヘッダ及び同じ性質を有する一つ又は複数のレイヤのデータブロックからなるアクセスユニットを示す。図6は、図5に示した一般的なアクセスユニット構造の一例を示しており、当該構造のデータブロックは以下の通りである。
・レイヤ1のデータブロックは、参照配列上のリードの位置に関する情報を含む。
・レイヤ2のデータブロックは、リードの逆相補に関する情報を含む。
・レイヤ3のデータブロックは、リードペアリング情報に関する情報を含む。
・レイヤ4のデータブロックは、リード長に関する情報を含む。
ゲノムデータレイヤは、同一タイプである一連のゲノムデータブロック符号化データの集合として定義される(例えば、参照ゲノムにおいて完全に一致するリードの位置ブロックは同一のレイヤにおいて符号化される)。
ゲノムデータストリームは、ヘッダに付加的なサービスデータを含むゲノムデータパケットのペイロードとして符号化されたゲノムデータが運ばれる、パケット化バージョンのゲノムデータレイヤである。3つのゲノムデータレイヤの3つのゲノムデータストリームへのパケット化の例については図7を参照されたい。
ゲノムデータの多重化(マルチプレックス)は、ゲノムシークエンシング、解析又は処理を含む一つ又は複数のプロセスに関するゲノムデータを運ぶために使用されるゲノムアクセスユニットの配列として定義される。図7は、アクセスユニットにおいて分解された3つのゲノムデータストリームを運ぶゲノムマルチプレックス間の関係を示す概略図である。アクセスユニットは、3つのストリームに属するデータブロックを、カプセル化するとともに、伝送ネットワークに送信されるようにゲノムパケットに分割する。
ソースモデル、エントロピ符号器及び符号化モード
本発明に開示する各レイヤのゲノムデータ構造について、レイヤが運ぶデータ又はメタデータの具体的な特徴及びその統計的性質に応じて、異なる符号化アルゴリズムを採用してもよい。「符号化アルゴリズム」は、記述子の特定の「ソースモデル」と特定の「エントロピコーダ」との関連付けを意図したものでなければならない。特定の「ソースモデル」は、ソースエントロピの最小化に関してデータの最も効率的な符号化を得るために特定され選択され得る。エントロピコーダの選択は、符号化効率の検討及び/又は確率分布の特徴及び関連する実装上の問題に左右される。特定の符号化アルゴリズムの各々の選択は、アクセスユニットに含まれる「レイヤ」全体又は全「データブロック」に適用される「符号化モード」と呼ばれる。符号化モードに関する各「ソースモデル」の特徴は以下の通りである:
・各ソース(例えば、リード位置、リードペアリング情報、参照配列などに対する不一致)から発せられたシンタックス要素の定義
・関連する確率モデルの定義
・関連するエントロピコーダの定義
各データレイヤについて、1つのアクセスユニットに採用されるソースモデルは、同じデータレイヤについて他のアクセスユニットにより使用されるソースモデルから独立している。これにより、各アクセスユニットは、エントロピの最小化の観点から各データレイヤについて最も効率的なソースモデルを使用することが可能となる。
テーブル
マスターインデックステーブル
整列したデータの特定の領域への選択的なアクセスをサポートするため、本明細書に記載したデータ構造は、マスターインデックステーブル(MIT)と呼ばれるインデックスツールを実装する。これは2つのクラスのデータを含む多次元配列である:
1.使用される参照配列に特定のリードが位置する遺伝子座。MITに含まれるこれらの値は、各posアクセスユニットにおける第1のリードのマッピング位置であり、これにより、各アクセスユニットに対する非連続的なアクセスがサポートされる。MITのこれらのセクションは、データの各クラス(P、N、M及びI)ごと及び各参照配列ごとに1つのセクションを含む。
2.上記ポイント1で述べた位置ベクトルにマッピング位置が保存されるものに続く、リードのブロックを再構成するのに必要なデータを含むアクセスユニットへのポインタ。ポインタの各ベクトルは、ローカルインデックステーブルと呼ばれる。
アクセスユニットマッピング位置
図8は、各クラスのデータの(例えば複数の)各アクセスユニットの参照配列におけるマッピング位置を含む4つのベクトルを強調してMITを概略的に示す。
MITは、符号化されたデータのメインヘッダに含まれる。図9は、メインヘッダの一般的な構造、及びクラスPの符号化リードに対するMITベクトルの例を示す。
図9に示したMITに含まれる値は、圧縮されたドメインにおける関心領域(及び対応するアクセスユニット)に直接アクセスするために使用される。
例えば、図9を参照すると、アナリストが、参照番号2における位置150,000と250,000との間の領域でマッピングされた完全に一致するリードへのアクセスを要求した場合、復号化アプリケーションは、MITにおけるクラスP位置ベクトル及び第2の参照をスキップし、k1<150,000及びk2>250,000となるように2つの値k1及びk2を探す。図9の例では、これは、クラスPのマッピング位置を参照するMITベクトルの2番目のブロック(2番目の参照)の位置3,4になる。次のセクションで説明するように、次いで、これらの戻り値は、posレイヤから適切なアクセスユニットの位置を取得するために、復号化アプリケーションにより使用される。
アクセスユニットポインタ
MIT(図8)の残りのベクトルに含まれる第2のタイプのデータは、符号化されたビットストリームにおける各アクセスユニットの物理的位置へのポインタのベクトルからなる。各ベクトルは、その範囲が符号化された情報の一様なクラスに限定されるので、ローカルインデックステーブルと呼ばれる。
4つのクラスのマッピングされたリード(P、N、M、I)の各々について、符号化されたリード(pairs)を再構築するため、いくつかのタイプのアクセスユニットが必要とされる。前述のように、各クラスのデータに関する特定のタイプのアクセスユニットは、一つ又は複数の参照配列に関して、各クラスにおけるリードに適用されたマッチング関数の結果に依存する。
図9の前記例では、参照配列2において整列したリードの領域150,000〜250,000にアクセスするため、復号化アプリケーションはMITにおけるクラスPの位置ベクトルから位置3,4を読み出した(検索した)。これらの値は、(この場合は2番目の)MITの対応するアクセスユニットベクトルの3番目及び4番目の要素にアクセスするため、復号化プロセスによって使用されなければならない。図11に示した例では、メインヘッダに含まれるトータルアクセスユニットカウンタは、参照1に関するアクセスユニットの位置をスキップするために使用される(この例では4)。したがって、符号化されたストリームにおける要求されたアクセスユニットの物理的位置を含むインデックスは、以下のように計算される:
要求されたAUの位置=スキップする参照1のAU+MITを用いて読み出した位置
すなわち、
最初のAU位置:4+3=7
最後のAU位置:4+4=8
これは、位置150,000と250,000との間で参照配列2にマッピングされた関心領域(クラスPリードが、マスターインデックステーブルの7列目及び8列目、列T1p(タイプpのタイプ1アクセスユニット)に保存されるポインタが指すアクセスユニットに含まれる、ことを意味する。
図11は、MIT(例えば、クラスPpos)の1つのベクトルの要素がどのように1つのLIT(図11の例におけるタイプ1posベクトル)の要素を指すかを図示する。
参照配列の適合
クラスN、M、Iについて符号化された不一致は、「修正されたゲノム」を生成するために使用され、「適合された」ゲノムRに関してN、M又はIレイヤ(第1の参照ゲノム、Rに関して)においてpリードとして再符号化されたリードに使用され得る。
Figure 0006902104
図12は、参照配列1(RS1)に対して不一致を含むリード(Mリード)が、不一致の位置を修正することによりRS1から得られる参照配列2(RS2)に対して完全に一致したリード(Pリード)に変換し得るかを示す図である。この変換は以下のように表すことができる。
RS2=A(RS1)
RS1からRS2への変換Aの表示がMリードに存在する不一致の表示についてより少ないビットを必要とする場合、この符号化方法は、より小さい情報エントロピ及びより良好な圧縮をもたらす。
ある状況では、参照ゲノムにおける一つ又は複数の修正は、一連のN、M又はIリードをPリードに変換することにより全体の情報エントロピを減少させることができる。
図13を参照して本発明の原理によるシステムの構造を説明する。ソースでは、一つ又は複数のゲノムシークエンシングデバイス130及び/又はアプリケーションは、以下を含むフォーマットでゲノム情報131を生成して表示する。
・核酸を表す記号の一つ又は複数の配列
・ゲノム配列ごとに一意の識別子
・記号ごとの任意の品質値
・任意のメタデータ
・生成されたゲノム配列をさらに処理するために使用される一つ又は複数の任意的な参照配列
リードアライメントユニット132は、未加工配列データを受け、「デノボ」アセンブリとして知られる方法を適用して重複するプレフィクス(接頭辞)及びサフィックス(接頭辞)を探すことによって、当該データをより長い配列にアセンブルするか、あるいは、前記データを一つ又は複数の利用可能な参照配列上に整列させる。
リード分類ユニット134は、整列したゲノム配列データ133を受け、以下のものに関して各配列にマッチング関数を適用する。
・一つ又は複数の利用可能な参照配列、又は
・アライメント処理中に構築された内部参照(「デノボ」アセンブリの場合)
レイヤエンコードユニット136は、分類ユニット134により生成されたリードクラス135を受けて、シンタックス要素137のレイヤを生成する。
ヘッダ及びアクセスユニットエンコードユニット138は、アクセスユニットにおけるシンタックス要素レイヤ137をカプセル化し、各アクセスユニットにヘッダを加える。
マスターインデックステーブルエンコードユニット1310は、受け取ったアクセスユニット139へのポインタのインデックスを作成する。
圧縮ユニット1312は、使用するストレージスペースを削減するため、前記表示の出力をよりコンパクトな(圧縮された)フォーマット1315に変換する。
ローカル又はリモート記憶デバイス1316は、圧縮された情報1315を保存する。
復元ユニット1313は、ゲノム情報131に相当する復元されたデータ1317を読み出すため、圧縮された情報1315を復元する。
さらに、解析ユニット1314は、包含されるメタデータを増分的に更新することによりゲノム情報1317を処理する。
一つ又は複数のゲノムシークエンシングデバイス又はアプリケーション1318は、既存のゲノム情報を再符号化することなく、さらなるゲノムシークエンシングプロセスの結果を加えることにより既存のゲノムデータにさらなる情報を加え、更新されたデータ1319を生成する。新たに生成されたゲノムデータを既存のデータと結合する前に、新たに生成されたゲノムデータに対してアライメント及び圧縮を行う。
前述の実施例における複数の利点のうちの1つは、データにアクセスする必要があるゲノム解析装置及びアプリケーションが、一つ又は複数のインデックステーブルを使用することにより必要な情報を照会及び検索する(読み出す)ことができることである。
本発明の原理による配列リード抽出器140を図14に示す。
抽出器140は、本開示によるゲノムファイルフォーマットに保存された任意の配列リードに対してランダムにアクセスするため、本開示において説明したマスターインデックステーブを利用する。抽出器140は、ユーザ入力から読み出される特定のデータに関する情報142を受けるユーザ入力手段141を備える。例えば、ユーザは以下を特定することができる:
a.以下に関するゲノム領域:
i.参照ゲノムにおける絶対位置の開始及び終了
ii.1つの全体参照配列(例えば、染色体)
b.以下のような、1つの特定のタイプの符号化された配列リード:
i.一つ又は複数の参照配列において完全に一致する配列リード
ii.一つ又は複数の参照配列に関して正確にN個の不一致を示す配列リード
iii.一つ又は複数の参照配列に関して、特定された閾値を超えるか又は閾値を超えないいくつかの不一致を示す配列リード
iv.参照配列に関して挿入及び削除を示す配列リード
図14のMIT抽出器143は、図9に示すように、含まれる情報にアクセスするためのゲノムファイルのメインヘッダをパーシング(解析)する:
c.一意の識別子
d.使用するシンタックスのバージョン
e.メインヘッダのバイト単位でのサイズ
f.配列リードの復号化に用いる参照配列の数
g.ストリームに含まれるデータブロックの数
h.参照識別子
i.マスターインデックステーブル
MITパーサー及びAU抽出器145は、以下のマスターインデックステーブルの情報を利用して、要求されたアクセスユニットを読み出す。
j.各アクセスユニットにおける第1のリードの参照ゲノムにおける位置のベクトル。図9は、符号化デバイスが、どのようにそのような位置を読み取り、どのアクセスユニットに要求された領域内でマッピングされた符号化されたリードが含まれるかを見つけ出す方法を示す。
k.各々の符号化されたレイヤのローカルインデックステーブル。これらのベクトルは、ユーザに要求されたゲノム領域にマッピングされた配列リードを含む、ステップaで識別されたアクセスユニットの物理的位置を読み出すために用いられる。
l.ローカルインデックステーブルは、各クラスのデータごとに定義され、したがって、抽出器はユーザが要求した配列リードを参照しているクラスだけを抽出する。例えば、完全に一致するリードだけを要求する場合、抽出器は、図8に示すように、クラスPに関するLITのみにアクセスする。
読み出されたアクセスユニット及びゲノムビットストリームにおいて符号化された又は抽出器において利用可能な一つ又は複数の参照配列において見つかった情報を用いることにより、リード再構築器147は、オリジナルの配列リードを再構築することができる。
図15は、本発明の原理による符号化装置207を示す。符号化装置は、図13のシステムアーキテクチャの圧縮の側面をさらに明確にする。しかし、メタデータ及び構造化情報なしに圧縮されたストリームを生成する、図15のエンコーダではマスターインデックステーブル及びアクセスユニットの作成を省略する。符号化装置207は、例えば、ゲノムシークエンシング装置200によって生成された未加工配列データ209を入力として受け取る。ゲノムシークエンシング装置200は、当業界では周知であり、例えば、イルミナ社製のHiSeq2500又はサーモフィッシャー社製のイオントレント(Ion Torrent)デバイス等である。未加工配列データ209は、アライナユニット201に供給され、アライナユニット201は、リードを参照配列に整列させることにより符号化のための配列を準備する。代替例では、デノボアセンブラ202は、プレフィクス及びサフィックスを探すことにより、利用可能なリードから参照配列を生成するために使用され得る。これにより、より長いセグメント(「コンティグ」という)がリードからアセンブルされ得る。デノボアセンブラ202により処理された後、リードは得られたより長い配列にマッピングされ得る。次いで、整列した配列はデータ分類モジュール204により分類される。その後、データクラス208がレイヤエンコーダ205−207に供給される。次いで、ゲノムレイヤ2011は、レイヤが運ぶデータ又はメタデータの統計的性質に応じてレイヤを符号化する算術エンコーダ2012−2014に供給される。その結果がゲノムストリーム2015である。
図16は、対応する復号装置218を示す。復号装置218は、多重化されたゲノムビットストリーム2110をネットワーク又はストレージエレメントから受け取る。ゲノムビットストリーム2110は、別個のストリーム211を生成するためにデマルチプレクサー210に供給され、ストリーム211は、ゲノムレイヤ215を生成するためにエントロピデコーダ212−214に供給される。抽出されたゲノムレイヤは、さらにレイヤをクラスのデータに復号するため、レイヤデコーダ216−217に供給される。さらに、クラスデコーダ219は、ゲノム記述子を処理し、配列の圧縮されていないリードを生成するため結果を結合して、さらに当業界において周知のフォーマット、例えば、テキストファイル又はZIP圧縮されたファイル、あるいはFASTQ又はSAM/BAMファイルに保存される。クラスデコーダ219は、一つ又は複数のゲノムストリームにより運ばれるオリジナルの参照配列における情報を活用することにより、オリジナルのゲノム配列を再構築することができる。参照配列がゲノムストリームにより転送されない場合、参照配列はデコード側で利用可能であり、かつクラスデコーダによってアクセス可能でなければならない。
一つ又は複数の例では、本明細書に開示した本発明の技術は、ハードウェア、ソフトウェア、ファームウェア又は任意の組み合わせで実装され得る。ソフトウェアに実装される場合、前記技術はコンピュータに保存され、ハードウェア処理装置によって実行されてもよい。ハードウェア処理装置は、一つ又は複数のプロセッサ、デジタル信号プロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路又は他の個別論理回路を含んでいてもよい。
本開示の技術は、携帯電話、デスクトップコンピュータ、サーバ、タブレットなどを含む様々なデバイス又は装置に実装することができる。
他の利点は特許請求の範囲に記載される。

Claims (14)

  1. ゲノムファイルフォーマットでゲノム配列データの表示を保存するためのコンピュータ実装方法であって、前記ゲノム配列データは、ヌクレオチド配列のリードを含み、
    前記リードを一つ又は複数の参照配列に対して整列させ、これにより整列したリードを生成するステップと、
    前記整列したリードを分類するステップであって、
    前記一つ又は複数の参照配列に対する完全なマッピングが発見されたか否か、
    前記一つ又は複数の参照配列に対する不一致の数、
    記号の置換の存在、
    前記一つ又は複数の参照配列に関して前記整列したリードにおける挿入又は削除及びソフトクリップされた記号の存在、
    マッピングされていないリードの存在、
    に応じて前記整列したリードを分類し、これにより整列したリードのクラスを生成する、ステップと、
    シンタックス要素のレイヤとして分類された整列したリードを符号化するステップであって、前記シンタックス要素のレイヤは、前記分類された整列したリードを一意に識別する同種の複数の記述子を含む、ステップと、
    前記シンタックス要素のレイヤをヘッダ情報とともに構築し、これにより連続アクセスユニットを形成するステップと、
    マスターインデックステーブルを作成するステップであって、前記マスターインデックステーブルは、各クラスの整列したリードについて1つのセクションを含むとともに、各クラスのデータの各アクセスユニットにおける第1のリードの前記一つ又は複数の参照配列マッピング位置を含む、ステップと、
    前記マスターインデックステーブル及びアクセスユニットデータを一緒に保存するステップと、
    を含む、方法。
  2. 前記マスターインデックステーブルは、各々の後続のアクセスユニットの物理的位置に対するポインタのベクトルをさらに含む、ことを特徴とする請求項1に記載の方法。
  3. 前記マスターインデックステーブルは、各々の参照配列について1つのセクションをさらに含む、ことを特徴とする請求項1に記載の方法。
  4. シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記レイヤにより運ばれる同種のデータに従って適合される、ことを特徴とする請求項1に記載の方法。
  5. シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記レイヤにより運ばれる前記同種のデータの統計的特性に従ってさらに適合される、ことを特徴とする請求項4に記載の方法。
  6. シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記同種のデータのソースモデルを特定のエントロピコーダと関連付ける、ことを特徴とする請求項5に記載の方法。
  7. 1つのアクセスユニットに採用される前記ソースモデルは、同一のデータレイヤについて他のアクセスユニットに使用されるソースモデルから独立している、ことを特徴とする請求項6に記載の方法。
  8. ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する方法であって、
    前記ゲノムファイルは、請求項1に記載の方法により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、
    前記方法は、
    抽出するリードのタイプを特定するユーザ入力を受けるステップと、
    前記ゲノムファイルから前記マスターインデックステーブルを読み出すステップと、
    前記抽出するリードのタイプに対応する前記アクセスユニットを読み出すステップと、
    一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するステップと、
    を含む、方法。
  9. 前記ゲノムファイルは一つ又は複数の参照配列をさらに含む、ことを特徴とする請求項8に記載の方法。
  10. 生体サンプルからヌクレオチド131の配列のリードを出力するように構成されたゲノムシークエンシングユニット130と、
    前記リードを一つ又は複数の参照配列に対して整列させ、これにより整列したリード133を生成するように構成されたアライメントユニット132と、
    分類ユニット134であって、
    前記一つ又は複数の参照配列に対する完全なマッピングが発見されたか否か、
    前記一つ又は複数の参照配列に対する不一致の数、
    記号の置換の存在、
    前記一つ又は複数の参照配列に関して前記整列したリードにおける挿入又は削除及びソフトクリップされた記号の存在、
    マッピングされていないリードの存在、
    前記一つ又は複数の参照配列、
    に応じて前記整列したリードを分類し、これにより整列したリード135のクラスを生成するように構成された分類ユニット134と、
    シンタックス要素137のレイヤとして、分類された整列したリードを符号化するように構成された符号化ユニット136であって、前記シンタックス要素のレイヤは、前記分類された整列したリードを一意に識別する同種の複数の記述子を含む、符号化ユニット136と、
    前記シンタックス要素のレイヤをヘッダ情報とともに構築し、これにより連続アクセスユニット139を形成するように構成された再分割ユニット138と、
    マスターインデックステーブルを作成するように構成されたインデックステーブル処理ユニット1310であって、各クラスの整列したリードについて1つのセクションを含み、各クラスのデータの各アクセスユニットにおける第1のリードの前記参照配列にマッピング位置を含む、インデックステーブル処理ユニット1310と、
    前記マスターインデックステーブル及びアクセスユニットデータ1311を一緒に保存するように構成されたストレージユニット1312−1316と、
    を備える、ゲノムシークエンシング装置。
  11. 前記マスターインデックステーブルは、各々の後続のアクセスユニットの物理的位置に対するポインタのベクトルをさらに含む、ことを特徴とする請求項10に記載のゲノムシークエンシング装置。
  12. シンタックス要素のレイヤとして前記分類された整列したリードを符号化することは、前記レイヤにより運ばれる同種のデータに従って適合される、ことを特徴とする請求項10に記載のゲノムシークエンシング装置。
  13. ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する抽出器140であって、
    前記ゲノムファイルは、請求項1に記載の方法により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、
    前記抽出器140は、
    抽出するリードのタイプを特定する入力パラメータ142を受けるように構成されたユーザ入力手段141と、
    前記ゲノムファイルからマスターインデックステーブル144を読み出すように構成された読み出し手段143と、
    前記抽出するリードのタイプに対応するアクセスユニット146を読み出すように構成された読み出し手段145と、
    一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列148の前記リードを再構築するように構成された再構築手段147と、
    を備える、抽出器。
  14. 複数の命令を含み、コンピューティングデバイスにおける実行に応答して、前記コンピューティングデバイスに請求項1〜の方法を行わせる機械可読媒体。
JP2019540489A 2016-10-11 2016-10-11 バイオインフォマティクス情報表示のための効率的データ構造 Active JP6902104B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/074297 WO2018068827A1 (en) 2016-10-11 2016-10-11 Efficient data structures for bioinformatics information representation

Publications (2)

Publication Number Publication Date
JP2019537810A JP2019537810A (ja) 2019-12-26
JP6902104B2 true JP6902104B2 (ja) 2021-07-14

Family

ID=57233388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019540489A Active JP6902104B2 (ja) 2016-10-11 2016-10-11 バイオインフォマティクス情報表示のための効率的データ構造

Country Status (20)

Country Link
US (1) US20210304841A1 (ja)
EP (2) EP3526709B1 (ja)
JP (1) JP6902104B2 (ja)
KR (1) KR20190062544A (ja)
CN (1) CN110088839B (ja)
AU (1) AU2016426569B2 (ja)
BR (1) BR112019007296A2 (ja)
CA (1) CA3039688C (ja)
CL (1) CL2019000954A1 (ja)
CO (1) CO2019003583A2 (ja)
EA (1) EA201990933A1 (ja)
ES (1) ES2922420T3 (ja)
FI (1) FI4075438T3 (ja)
IL (1) IL265908B1 (ja)
MX (1) MX2019004125A (ja)
PH (1) PH12019500791A1 (ja)
PL (1) PL3526709T3 (ja)
SG (1) SG11201903175VA (ja)
WO (1) WO2018068827A1 (ja)
ZA (1) ZA201902785B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104463A1 (en) * 2018-09-28 2020-04-02 Chris Glode Genomic network service user interface
CN110060742B (zh) * 2019-03-15 2023-07-25 南京派森诺基因科技有限公司 一种gtf文件解析方法及工具
CN111326216B (zh) * 2020-02-27 2023-07-21 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法
EP3896698A1 (en) 2020-04-15 2021-10-20 Genomsys SA Method and system for the efficient data compression in mpeg-g
CN113643761B (zh) * 2021-10-13 2022-01-18 苏州赛美科基因科技有限公司 一种用于解读二代测序结果所需数据的提取方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2499513A1 (en) * 2002-09-20 2004-04-01 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analysis
KR101188886B1 (ko) * 2010-10-22 2012-10-09 삼성에스디에스 주식회사 유전 정보 관리 시스템 및 방법
US20130246460A1 (en) * 2011-03-09 2013-09-19 Annai Systems, Inc. System and method for facilitating network-based transactions involving sequence data
WO2012168815A2 (en) * 2011-06-06 2012-12-13 Koninklijke Philips Electronics N.V. Method for assembly of nucleic acid sequence data
KR101922129B1 (ko) * 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
US9063914B2 (en) * 2013-10-21 2015-06-23 Seven Bridges Genomics Inc. Systems and methods for transcriptome analysis
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
WO2016141294A1 (en) * 2015-03-05 2016-09-09 Seven Bridges Genomics Inc. Systems and methods for genomic pattern analysis
HUE062006T2 (hu) * 2016-10-11 2023-09-28 Genomsys Sa Eljárás és berendezés bioinformatikai adatok tömör ábrázolására

Also Published As

Publication number Publication date
IL265908A (en) 2019-06-30
SG11201903175VA (en) 2019-05-30
US20210304841A1 (en) 2021-09-30
CA3039688C (en) 2024-03-19
FI4075438T3 (fi) 2024-03-14
ES2922420T3 (es) 2022-09-14
PH12019500791A1 (en) 2019-12-11
BR112019007296A2 (pt) 2019-09-17
CL2019000954A1 (es) 2019-08-23
EP3526709A1 (en) 2019-08-21
CN110088839B (zh) 2023-12-15
JP2019537810A (ja) 2019-12-26
IL265908B1 (en) 2024-05-01
CO2019003583A2 (es) 2019-08-30
KR20190062544A (ko) 2019-06-05
AU2016426569B2 (en) 2023-08-17
EP3526709B1 (en) 2022-04-20
NZ753247A (en) 2021-09-24
EP4075438A1 (en) 2022-10-19
AU2016426569A1 (en) 2019-06-06
CA3039688A1 (en) 2018-04-19
ZA201902785B (en) 2020-11-25
WO2018068827A1 (en) 2018-04-19
CN110088839A (zh) 2019-08-02
EP4075438B1 (en) 2023-12-13
EA201990933A1 (ru) 2019-11-29
PL3526709T3 (pl) 2022-09-26
MX2019004125A (es) 2019-06-10

Similar Documents

Publication Publication Date Title
JP2020505702A (ja) 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム
JP6902104B2 (ja) バイオインフォマティクス情報表示のための効率的データ構造
CN110168652B (zh) 用于存储和访问生物信息学数据的方法和系统
AU2018221458B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
JP7362481B2 (ja) ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体
CN110178183B (zh) 用于传输生物信息学数据的方法和系统
CN110168649A (zh) 用于生物信息数据的紧凑表示的方法和设备
CN110663022B (zh) 使用基因组描述符紧凑表示生物信息学数据的方法和设备
NZ753247B2 (en) Efficient data structures for bioinformatics information representation
NZ757185B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
EA043338B1 (ru) Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20190605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210618

R150 Certificate of patent or registration of utility model

Ref document number: 6902104

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250