JP6949970B2 - バイオインフォマティクスデータを送信する方法及びシステム - Google Patents

バイオインフォマティクスデータを送信する方法及びシステム Download PDF

Info

Publication number
JP6949970B2
JP6949970B2 JP2019540490A JP2019540490A JP6949970B2 JP 6949970 B2 JP6949970 B2 JP 6949970B2 JP 2019540490 A JP2019540490 A JP 2019540490A JP 2019540490 A JP2019540490 A JP 2019540490A JP 6949970 B2 JP6949970 B2 JP 6949970B2
Authority
JP
Japan
Prior art keywords
data
genomic
sequence
access
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019540490A
Other languages
English (en)
Other versions
JP2019537170A (ja
Inventor
ジョルジョ ゾイア
ジョルジョ ゾイア
ダニエーレ レンツィ
ダニエーレ レンツィ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genomsys SA
Original Assignee
Genomsys SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genomsys SA filed Critical Genomsys SA
Publication of JP2019537170A publication Critical patent/JP2019537170A/ja
Application granted granted Critical
Publication of JP6949970B2 publication Critical patent/JP6949970B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C15/00Arrangements characterised by the use of multiplexing for the transmission of a plurality of signals over a common path

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本願は、バイオインフォマティクスデータ、特にゲノム配列データを効率的に記憶、アクセス、送信、及び多重化する新しい方法を提供する。
ゲノム配列データの適切な表現は、ゲノムデータの効率的な処理、記憶、及び伝送を可能にし、ゲノムバリアントコール等の解析用途及び配列データ及びメタデータを処理することにより様々な目的で実行される全ての解析を可能にし、促進するための基本である。今日、ゲノム配列情報は、定義されたボキャブラリからの文字列で表されるヌクレオチド(別名、塩基)の配列の形態で、高スループットシーケンシング(HTS)機によって生成されている。
これらのシーケンシング機は、ゲノム又は遺伝子全体を読み出さず、配列リードとして知られるヌクレオチド配列の短いランダムな断片を生成する。
クオリティスコアが、配列リード内の各ヌクレオチドに関連付けられる。そのような数字は、ヌクレオチド配列内の特定の位置における特定のヌクレオチドのリードに機械によって与えられる信頼度を表す。
NGS機によって生成されるこの生の配列データは一般に、FASTQファイル(図1も参照)に記憶される。
シーケンシングプロセスによって得られるヌクレオチドの配列を表す最小のボキャブラリは、DNAに存在する4種のヌクレオチド、すなわち、アデニン、シトシン、グアニン、及びチミンに加えて、シーケンシング機が十分な信頼度でいかなる塩基もコールできず、したがって、そのような位置における塩基の種類がリードプロセスで未特定のままであることを示す記号Nを表す5つの記号{A,C,G,T,N}によって構成される。RNAでは、チミンはウラシル(U)で置換される。シーケンシング機によって生成されるヌクレオチド配列は「リード」と呼ばれる。ペアリードの場合、用語「鋳型」が、リードペアが抽出された元の配列を示すのに使用される。配列リードは、数十から最高で数千の範囲の数のヌクレオチドで構成することができる。幾つかの技術は、配列リードをペアで生成し、その場合、各リードは2つのDNA鎖の一方からのものである。
ゲノム配列分野では、用語「カバレッジ」は、参照ゲノムに対する配列データの冗長性レベルを表すために使用されている。例えば、ヒトゲノム(32億塩基長)で30xのカバレッジに達するには、シーケンシング機は、参照での各位置が平均で30回「カバー」されるように、合計で約30×32億塩基を生成する。
現況水準での解決策
配列データの最も使用されるゲノム情報表現は、FASTQ及びSAMファイルフォーマットに基づき、これらのファイルは一般に、元のサイズを低減するために、圧縮された形態で提供される。非アラインメント及びアラインメント配列データの従来のファイルフォーマットであるFASTQ及びSAMはそれぞれ、平文文字によって構成され、したがって、LZ(Lempel及びZivから)方式(周知のzip、gzip等)等の汎用手法を使用することによって圧縮される。gzip等の汎用圧縮器が使用される場合、圧縮の結果は通常、二進データの1つのブロブである。そのようなモノリシック形態の情報は、特に高スループットシーケンシングの場合、データ量が極めて大きいとき、アーカイブ、転送、及び詳述するのが極めて困難になる。
シーケンシング後、ゲノム情報処理パイプラインの各段は、現実では、生成されたデータの小さな部分のみが、前段と比較して新しいということにも拘わらず、完全に新しいデータ構造(ファイルフォーマット)によって表されるデータを生成する。
図1は、associatedfileフォーマット表現の表示を用いた典型的なゲノム情報処理パイプラインの主段を示す。
一般に使用されている解決策は幾つかの欠点を呈する:ゲノム情報処理パイプラインの各段で異なるファイルフォーマットが使用されるという点で、データアーカイブが非効率的であり、これは、データの複数の複製を暗に示し、その結果、必要とされる記憶空間が急増する。これは非効率的かつ不必要であり、また、HTS機によって生成されるデータ量の増大に耐えられなくなりつつある。これは実際に、利用可能な記憶空間及び生成されるコストの点で重大であり、また、医療でのゲノム解析の恩恵が人口の大部分に達するのを妨げもする。記憶し解析する配列データの指数的増大によって生み出されるITコストの影響は現在、科学界及び医療業界が直面する必要がある主な難題の1つである(Scott D. Kahn “On the future of genomic data”−Science 331, 728(2011)及びPavlichin, D .S., Weissman, T. 及びG. Yona. 2013. “The human genome contracts again” Bioinformatics 29(17): 2199−2202参照)。同時に、幾人かは、選択された数人の個人から多くの人々までゲノム配列をスケーリングしようとする先導者である(Josh P. Roberts “Million Veterans Sequenced”−Nature Biotechnology 31, 470(2013)参照)。
ゲノムデータの転送は遅く、非効率的であり、その理由は、現在使用されているデータフォーマットが、処理のために受信側で全体的に転送される必要がある数百ギガバイトのサイズまでのモノリシックファイルに編成されるためである。これは、データの小さなセグメントの解析がファイル全体の転送を必要とし、消費される帯域幅及び待ち時間に関して大きなコストがあることを暗に示す。多くの場合、オンライン転送は、大量のデータの転送には法外であり、データの輸送は、ハードディスクドライブ又はストレージサーバ等の記憶媒体をある場所から別の場所に物理的に移動させることによって実行される。
現況水準の手法を利用する場合に生じるこれらの制約は、本発明によって解消される。情報が、一般に使用される解析アプリケーションによって必要とされる異なるクラスのデータ及びメタデータの部分が、データ全体にアクセスする必要なくしては検索できないように構造化されないため、データの処理は遅く、非効率的である。このことは、特定の解析目的で関連するデータの部分ははるかに小さい場合であっても、各段で、大量のデータにアクセスし、解析し、フィルタリングする必要性により、共通の解析パイプラインを数日又は数週間にわたって実行させる必要があり得、貴重でコストがかかる処理リソースを無駄にすることを暗に示す。
これらの制約は、医療専門家がゲノム解析リポートを適時に取得し、病気の発生に対して即座に対応するのを妨げている。本発明は、このニーズへの解決策を提供する。
本発明によって解決される別の技術的制約がある。
実際に、本発明は、データ及びメタデータの圧縮が最大化され、選択的アクセス等の幾つかの機能及び増分的更新へのサポートが効率的に可能になるようにデータを編成し分割することにより、適切なゲノム配列データ及びメタデータ表現を提供することを目的とする。
本発明の主要態様は、特定のレイヤに構造化されることにより別個に符号化(すなわち、圧縮)される適切なソースモデルによって表現されるデータ及びメタデータのクラスの特定の定義である。既存の現況水準の方法からの本発明の最も重要な達成は、
・各クラスのデータ又はメタデータに効率的なモデルを提供することによって構成される情報ソースエントロピーの低減に起因した圧縮性能の増大、
・任意の更なる処理目的で、圧縮されたデータ及びメタデータの部分への選択的アクセスの実行が可能なこと、
・新しい配列データ及び/又はメタデータ及び/又は新しい解析結果を用いて、符号化されたデータ及びメタデータを増分的に(再符号化の必要なく)更新し追加することが可能なこと、
・シーケンシング又はアラインメントプロセスの終了を待つ必要なく、シーケンシング機又はアラインメントツールによってデータが生成されるとすぐに、効率的データ処理が可能なこと
にある。
本願は、多重化技法と組み合わせた構造化アクセスユニット手法を利用することにより、膨大な量のゲノム配列データを効率的に操作、記憶、送信する問題に対処する方法及びシステムを開示する。
本願は、効率的な圧縮と組み合わせて、ゲノムデータアクセス可能性の機能、データサブセットの効率的な処理、伝送及びストリーミング機能に関連する従来技術による手法の全ての制約を解消する。
今日、ゲノムデータに最も使用されている表現フォーマットは、配列アラインメントマッピング(SAM)テキストフォーマット及びそのバイナリに対応するBAMである。SAMファイルは人間可読のASCIIテキストであり、一方、BAMはgzipのブロックベースのバリアントを採用する。BAMファイルは索引付けることができ、ランダムアクセスの限られた様相を可能にする。これは、別個のインデックスファイルの作成によってサポートされる。
BAMフォーマットは、以下の理由により、不良な圧縮性能を特徴とする。
1.SAMファイルによって伝達される実際のゲノム情報を抽出し、その圧縮に適切なモデルを使用することにフォーカスするのではなく、非効率的で冗長なSAMファイルフォーマットの圧縮にフォーカスしている。
2.各データソース(ゲノム情報自体)の特性を利用するのではなく、gzip等の汎用テキスト圧縮アルゴリズムを利用している。
3.特定のクラスのゲノムデータへの選択的アクセスを可能にするデータ分類に関連するいかなる概念も有さない。
あまり一般に使用されないが、BAMよりも効率的なゲノムデータ圧縮へのより高度な手法は、CRAM(CRAM仕様:https://samtools.github.io/hts−specs/CRAMv3.pdf)である。CRAMは、既存の参照に対する差分符号化を採用して、より効率的な圧縮を提供する(部分的にデータソース冗長性を利用する)が、それでもなお、増分的更新、ストリーミングへのサポート、特定のクラスの圧縮データへの選択的アクセス等の特徴を欠く。
CRAMは、CRAMレコードの概念に頼る。各CRAMレコードは、再構築に必要な全ての要素を符号化することにより、1つのマッピングされた又はマッピングされないリードを符号化する。
CRAM手法との本発明の主な違いは以下である。
1.CRAMでは、データ索引付けは仕様の範囲外であり(CRAM仕様v3.0のセクション12参照)、別個のファイルとして実装される。本発明では、データ索引付けは符号化プロセスと統合され、インデックスは符号化ビットストリームに埋め込まれる。
2.CRAMでは、全てのコアデータブロックは、任意のタイプのマッピングされたリード(完全に一致するリード、置換のみを有するリード、インデルを有するリード)を含むことができる。本発明では、参照配列に関するマッピングの結果によるリードの分類及びクラス内のリードのグループ化の観念はない。
3.記載される本発明では、各リードの再構築に必要なデータは「レイヤ」と呼ばれる幾つかのデータコンテナに散乱するため、各リードをカプセル化するレコードの観念はない。これにより、特徴を調べるために各リード(のブロック)を復号化する必要なく、特定の生物学的特性を有するリードの組(例えば、置換を有するが、インデルを有さないリード又は完全にマッピングされるリード)により効率的にアクセスすることができる。
4.CRAMレコードでは、各タイプのデータは特定のフラグで示される。本発明では、CRAMと異なり、これはデータが属する「レイヤ」によって本質的に定義されるため、データを示すフラグの観念はない。これは、使用される記号の数が大幅に低減し、その結果、情報ソースエントロピーが低減し、それにより、より効率的な圧縮に繋がることを暗に示す。これは、異なる「レイヤ」の使用により、エンコーダが、異なる意味を有する各レイヤにわたり同じ記号を再使用することができることに起因する。CRAMでは、コンテキストの観念がなく、各CRAMレコードは任意のタイプのデータを含むことができるため、各フラグは常に同じ意味を有さなければならない。
5.CRAMでは、置換、挿入、欠失は異なるシンタックスに従って表現されるが、本発明は、置換、挿入、及び欠失に1つの英字及び符号化を使用する。これにより、符号化プロセス及び復号化プロセスはより単純になり、エントロピーのより低いソースモデルを生成し、この符号化はより高い圧縮性能を特徴とするビットストリームを生成する。
現況水準で使用されるゲノム圧縮アルゴリズムは、これらのカテゴリに分類することができる:
・形質転換ベース
- LZベース
- リード再配列
・アセンブリベース
- 統計学的モデリング
最初の2つのカテゴリは、データソース(ゲノム配列リード)の特定の特性を利用しないという欠点を共有し、そのような種類の情報(例えば、リード間の冗長性、既存の試料への参照)の特定の属性を考慮せずに圧縮されるテキスト列としてゲノムデータを処理する。ゲノムデータ圧縮の最も高度なツールキットの2つ、すなわち、CRAM及びGoby(“Compression of structured high−throughput sequencing data”, F. Campagne, K. C. Dorff, N. Chambwe, J. T. Robinson, J. P. Mesirov, T. D. Wu)は、独立しており、幾何分布によって同一に分布するものとしてデータを暗黙的にモデリングするため、算術符号化の利用が不十分である。Gobyは、全フィールドを整数のリストに変換し、各リストは、いかなるコンテキストも使用せずに、算術符号化を使用して独立して符号化されるため、わずかにより洗練されている。最も効率的な動作モードでは、Gobyは、整数リストに対して何らかのリスト間モデリングを実行し圧縮率を改善することが可能である。これらの従来技術による解決策は、不良な圧縮率、及び圧縮されると選択的なアクセス及び操作が不可能とは言えないまでも困難なデータ構造をもたらす。下流の解析段は、単純な動作の実行でさえも、又はゲノムデータセットの選択された領域へアクセスするために、大量の柔軟性のないデータ構造の取り扱いが必要なことに起因して、非効率的で非常に低速になり得る。
ゲノム処理パイプラインで使用されるファイルフォーマットの関係を単純化した図を図1に示す。この図では、ファイルの取り込みは、入れ子ファイル構造の存在を暗示せず、各フォーマットで符号化することができる情報のタイプ及び量のみを表す(すなわち、SAMはFASTQでの全情報を含むが、異なるファイル構造で編成される)。CRAMは、SAM/BAMと同じゲノム情報を含むが、使用することができる圧縮のタイプにより柔軟性があり、したがって、SAM/BAMの上位集合として表される。
ゲノム情報の記憶に多数のファイルフォーマットを使用することは、非常に非効率的であり、かつコストがかかる。ゲノム情報の寿命サイクルの異なる段階で異なるファイルフォーマットを有することは、増分情報が最小である場合であっても、利用される記憶空間の線形増大を暗示する。従来技術による解決策の更なる欠点を以下に列挙する。
1.注釈(メタデータ)へのアクセス、解析、若しくは圧縮FASTQファイルに記憶された生データへの注釈(メタデータ)の追加、又はその組合せは、計算リソース及び時間を大量に使用してのファイル全体の圧縮解除及び再圧縮を必要とする。
2.BAMファイルに記憶されたアラインメントデータに含まれるリードマッピング位置、リードバリアントの位置及びタイプ、インデルの位置及びタイプ、又は任意の他のメタデータ及び注釈等の情報の特定のサブセットの検索は、各リードに関連付けられたデータボリューム全体にアクセスする必要がある。1つのクラスのメタデータへの選択的アクセスは、従来技術による解決策では可能ではない。
3.従来技術によるファイルフォーマットでは、処理を開始するには、その前に、エンドユーザでファイル全体を受信している必要がある。例えば、シーケンシングプロセスが完了する前、適切なデータ表現に依拠して、リードのアラインメントを開始することができる。シーケンシング、アラインメント、及び解析は、並列に処理し実行することができる。
4.従来技術による解決策は、構造化をサポートせず、特定の生成セマンティック(例えば、同じ個人の寿命の異なる時間において得られたシーケンシング)に従って異なるシーケンシングプロセスによって得られたゲノムデータを区別することができない。同じ制約が、同じ個人の異なるタイプの生体試料によって得られるシーケンシングに対しても生じる。
5.従来技術による解決策により、データの全体部分又は選択部分の暗号化はサポートされていない。例えば、
a.選択されたDNA領域、
b.バリアントを含む配列のみ、
c.キメラ配列のみ、
d.非マッピング配列のみ、
e.特定のメタデータ(例えば、シーケンシングされた試料の出所、シーケンシングされた個人の身元情報、試料のタイプ)
の暗号化。
6.所与の参照(すなわち、SAM/BAMファイル)にアラインメントされた配列データから新しい参照へのトランスコードは、新しい参照が前の参照から1つのヌクレオチド位置のみだけ異なる場合であっても、データボリューム全体を処理する必要がある。
したがって、効率的な圧縮を可能にし、圧縮領域での選択的アクセスをサポートし、ゲノムデータ処理の様々な段の全レベルで圧縮領域での異種メタデータの増分的追加をサポートする適切なゲノム情報記憶レイヤ(ゲノムファイルフォーマット)が必要とされている。
本発明は、添付の1組の特許請求項において請求される方法、デバイス、及びコンピュータプログラムを利用することにより、現況水準の制約への解決策を提供する。
典型的なゲノムパイプラインの主要ステップ及び関連するファイルフォーマットを示す。 最も使用されるゲノムファイルフォーマット間の相互関係を示す。 ゲノム配列リードが、de−novoアセンブリ又は参照ベースのアラインメントを介して全体又は部分ゲノムにいかにアセンブルされるかを示す。 参照配列上のリードマッピング位置がいかに計算されるかを示す。 リードペアリング距離がいかに計算されるかを示す。 ペアリングエラーがいかに計算されるかを示す。 リードメイトペアが異なる染色体にマッピングされる場合、ペアリング距離がいかに符号化されるかを示す。 配列リードがいかに、ゲノムの第1又は第2のDNA鎖から来ることができるかを示す。 鎖2にマッピングされたリードがいかに、鎖1上に対応する逆補足リードを有するかを示す。 リードペアを構成するリードの4つの可能な組合せ及びrcompレイヤでの各符号化を示す。 N個のミスマッチがnmisレイヤでいかに符号化されるかを示す。 マッピングされたリードペアでの置換の一例を示す。 置換位置をいかに、絶対値又は差分値のいずれかとして計算することができるかを示す。 IUPACコードなしで置換を符号化する記号がいかに、計算されるかを示す。 置換タイプがいかに、snptレイヤにおいて符号化されるかを示す。 IUPACコードを用いて置換を符号化する記号がいかに計算されるかを示す。 位置のみが符号化されるが、置換タイプごとに1つのレイヤが使用される代替の置換ソースモデルを示す。 IUPACコードが使用されない場合、クラスIのリードペアにおける置換、挿入、及び欠失をいかに符号化するかを示す。 IUPACコードが使用される場合、クラスIのリードペアにおける置換、挿入、及び欠失をいかに符号化するかを示す。 ゲノム情報データ構造のヘッダの構造を示す。 マスタインデックステーブルがいかに、各アクセスユニットにおける最初のリードの参照配列上の位置を含むかを示す。 クラスPの各pos AUにおける最初のリードのマッピング位置を示す部分MITの一例を示す。 レイヤヘッダにおけるローカルインデックステーブルがいかに、ペイロード内のAUへのポインタのベクトルであるかを示す。 ローカルインデックステーブルの一例を示す。 マスタインデックステーブルとローカルインデックステーブルとの機能関係を示す。 アクセスユニットがいかに、幾つかのレイヤに属するデータブロックによって構成されるかを示す。レイヤはパケットに細分されるブロックによって構成される。 タイプ1のゲノムアクセスユニット(位置情報、ペアリング情報、逆補足情報、及びリード長情報を含む)がいかに、ゲノムデータマルチプレックスにおいてパケット化されカプセル化されるかを示す。 アクセスユニットがいかに、同種データの1つ又は複数のレイヤに属するヘッダ及び多重化ブロックによって構成されるかを示す。各ブロックは、ゲノム情報の実際の記述子を含む1つ又は複数のパケットで構成することができる。 アクセス又は復号化及びアクセスのために、他のアクセスユニットからのいかなる情報も参照する必要がないタイプ0のアクセスユニットの構造を示す。 タイプ1のアクセスユニットの構造を示す。 タイプ1のアクセスユニットを参照するデータを含むタイプ2のアクセスユニットの構造を示す。これらは符号化されたリードにおけるNの位置である。 タイプ1のアクセスユニットを参照するデータを含むタイプ3のアクセスユニットの構造を示す。これらは、符号化されたリードにおけるミスマッチの位置及びタイプである。 タイプ1のアクセスユニットを参照するデータを含むタイプ4のアクセスユニットの構造を示す。これらは、符号化されたリードにおけるミスマッチの位置及びタイプである。 アクセスユニットの最初の5つのタイプを示す。 タイプ1のアクセスユニットが、復号化するタイプ0のアクセスユニットを参照することを示す。 タイプ2のアクセスユニットが、復号化するタイプ0及び1のアクセスユニットを参照することを示す。 タイプ3のアクセスユニットが、復号化するタイプ0及びタイプ1のアクセスユニットを参照することを示す。 タイプ4のアクセスユニットが、復号化するタイプ0及びタイプ1のアクセスユニットを参照することを示す。 参照配列(AU0−2)の第2のセグメントにマッピングされたミスマッチを有する配列リードの復号化に必要なアクセスユニットを示す。 利用可能になる生のゲノム配列データをいかに、予め符号化されたゲノムデータに増分的に追加することができるかを示す。 シーケンシングプロセスが完了する前、アクセスユニットに基づくデータ構造がいかに、ゲノムデータ解析の開始を可能にするかを示す。 既存のデータに対して実行される新しい解析がいかに、リードがタイプ4のAUからタイプ3のAUに移ることを暗示することができるかを示す。 新たに生成された解析データがいかに、タイプ6の新しいAUにカプセル化されるか及び対応するインデックスがMITにおいて作成されることを示す。 新しい参照配列(ゲノム)の公開に起因してデータをいかにコード変換するかを示す。 よりよい品質(例えば、インデルなし)の新しいゲノム領域にマッピングされたリードがいかに、タイプ4のAUからタイプ3のAUに移るかを示す。 新しいマッピング位置(例えば、ミスマッチがより少ない)が見つかる場合、関連するリードをあるAUから同じタイプの別のAUに移すことができることを示す。 タイプ4のアクセスユニットは保護すべき機密情報を含むという理由のみで、選択的暗号化をタイプ4のアクセスユニットにいかに適用することができるかを示す。 ゲノムマルチプレックスへのデータカプセル化を示し、ここでは、1つ又は複数のゲノムデータセット482〜483は、ゲノムストリーム484及びゲノムデータセットリスト481のストリーム、ゲノムデータセットマッピングテーブル485、並びに参照識別子マッピングテーブル487を含み、各ゲノムストリームは、ヘッダ488及びアクセスユニット486によって作られている。アクセスユニットは、パケット4810によって作られるブロック489をカプセル化する。 生のゲノム配列データ又はアラインメントされたゲノムデータがいかに処理されて、ゲノムマルチプレックスにおいてカプセル化されるかを示す。アラインメント段、再アラインメント段、及びアセンブリ段は、符号化に向けてデータを準備するのに必要であり得、生成されたレイヤは、アクセスユニットにカプセル化され、ゲノムマルチプレクサによって多重化される。 ゲノムデマルチプレクサ(501)がいかに、ゲノムマルチプレックスからアクセスユニットレイヤを抽出するかを示し、AUタイプ(502)ごとに1つのデコーダが、ゲノム記述子を抽出し、ゲノム記述子は次に、例えば、FASTQ及びSAM/BAM等の様々なゲノムフォーマットに復号化される(503)。
本発明は、分子を表す記号の配列の形態のゲノム情報又はプロテオーム情報を記憶、輸送、アクセス、及び処理するのに使用される多重化ファイルフォーマット及び関連するアクセスユニットを記載する。
これらの分子には、例えば、ヌクレオチド、アミノ酸、及びタンパク質がある。記号の配列として表現される最も重要な情報の1つは、高スループットゲノムシーケンシングデバイスによって生成されるデータである。
任意の生物のゲノムは通常、その生物を特徴付ける核酸(塩基)の鎖を表す記号の列として表される。現況水準のゲノムシーケンシング技術は、メタデータ(識別子、正確レベル等)に関連付けられた核酸の幾つかの(数十億まで)列の形態のゲノムの断片化された表現しか生成することができない。そのような列は通常、「配列リード」又は「リード」と呼ばれる。
ゲノム情報寿命サイクルの典型的なステップは、配列リードの抽出、マッピング、及びアラインメント、バリアントの検出、バリアントの注釈付け、機能的及び構造的解析を含む(図1参照)。配列リードの抽出は、生体試料を構成する分子を表す記号の配列の形態の遺伝情報の断片の表現のプロセス−人間のオペレータ又は機械によって実行される−である。核酸の場合、そのような分子は「ヌクレオチド」と呼ばれる。抽出によって生成される記号の配列は一般に「リード」と呼ばれる。従来技術では、この情報は通常、テキストヘッダと、配列された分子を表す記号の配列とを含むFASTAファイルとして符号化される。
生体試料が配列化されて、生物のDNAを抽出する場合、記号(A,C,G,T,N)によって英字が作られる。
生体試料が配列化されて、生物のRNAを抽出する場合、記号(A,C,G,U,N)によって英字が作られる。
IUPAC拡張記号セットの場合、いわゆる「曖昧コード」もシーケンシング機によって生成され、リードを構成する記号に使用される英字は(A,C,G,T,U,W,S,M,K,R,Y,B,D,H,V,N、又は−)である。
IUPAC曖昧コードが使用されない場合、クオリティスコア配列を各配列リードに関連付けることができる。そのような場合、従来技術による解決策は、FASTQファイルとして生成された情報を符号化する。シーケンシングデバイスは、
1.配列化された試料に実際に存在する核酸を表す誤った記号(すなわち、異なる核酸を表す)の識別、これは通常、「置換エラー」(ミスマッチ)と呼ばれる、
2.実際に存在するいかなる核酸も参照しない追加の記号の1つの配列リードへの挿入、これは通常、「挿入エラー」と呼ばれる、
3.配列化された試料に実際に存在する核酸を表す記号の1つの配列リードからの削除、これは通常、「欠失エラー」と呼ばれる、
4.元の配列の現実性を反映しない1つの断片への1つ又は複数の断片の再結合
等のエラーを配列リードに導入する恐れがある。
用語「カバレッジ」は本明細書において、利用可能な配列リードによって参照ゲノム又はその一部をカバーすることができる程度を定量化するのに使用される。カバレッジは、
・参照ゲノムの幾つかの部分が、利用可能ないかなる配列リードによってもマッピングされない場合、部分的(1X未満)、
・参照ゲノムの全ヌクレオチドが、配列リードに存在するただ1つのみの記号によってマッピングされる場合、シングル(1X)、
・参照ゲノムの各ヌクレオチドが複数回マッピングされる場合、マルチプル(2X、3X、NX)
であると言える。
配列アラインメントは、配列間の機能的関係、構造的関係、又は進化的関係の結果であり得る類似領域を見つけることによって配列リードを配置するプロセスを指す。アラインメントが、「参照ゲノム」と呼ばれる予め存在するヌクレオチド配列を参照して実行される場合、プロセスは「マッピング」と呼ばれる。配列アラインメントは、プロセスが「de novo」アラインメントとして従来技術において既知であるような場合、予め存在する配列(すなわち、参照ゲノム)なしで実行することもできる。従来技術による解決策は、この情報をSAM、BAM、又はCRAMファイルに記憶する。配列をアラインメントして部分又は完全なゲノムを再構築することの概念を図3に示す。
バリアント検出(別名、バリアントコール)は、ゲノムシーケンシング機のアラインメントされた出力(NGSデバイスによって生成され、アラインメントされた配列リード)を、他の予め存在する配列に見ることができないか、又は少数の予め存在する配列にのみ見出すことができる、配列化中の有機体の独自の特性のサマリに翻訳するプロセスである。これらの特性は「バリアント」と呼ばれ、その理由は、研究中の有機体のゲノムと参照ゲノムとの相違として表現されるためである。従来技術による解決策は、この情報をVCFファイルと呼ばれる特定のファイルフォーマットで記憶する。
バリアント注釈付けは、バリアントコールのプロセスによって識別されたゲノムバリアントに機能的情報を割り当てるプロセスである。これは、ゲノムのコード配列へのバリアントの関係並びにコード配列及び遺伝子産物へのバリアントの影響に従ったバリアントの分類を暗示する。これは、従来技術では通常、MAFファイルに記憶される。
DNA(バリアント、CNV=コピー数多型、メチル化等)鎖を解析して、遺伝子(及びタンパク質)機能及び構造との関係を定義するプロセスは、機能的又は構造的解析と呼ばれる。従来技術では、このデータを記憶する幾つかの異なる解決策が存在する。
ゲノムファイルフォーマット
本明細書に開示される本発明の本質は、少なくとも以下の点で従来技術と異なるゲノム配列データを表現、処理、操作、及び送信する圧縮データ構造の定義にある:
−ゲノム情報のいかなる従来技術による表現フォーマット(すなわち、FASTQ、SAM)にも依拠しない。
−ゲノムデータ及びメタデータの特定の特性に従ったゲノムデータ及びメタデータの新しい独自の分類を実施する。配列リードは参照配列にマッピングされ、アラインメントプロセスの結果に従って別個のクラスにグループ化される。これにより、異なる特定の圧縮アルゴリズムを適用してより効率的に符号化することができる、情報エントロピーがより低いデータクラスになる。
−シンタックス要素並びに配列リード及びアラインメント情報を伝達する、関連する符号化/復号化プロセスを、下流解析アプリケーションでの処理により効率的な表現に定義する。
マッピングの結果に従ってリードを分類し、記述子を使用して符号化して、レイヤ(位置レイヤ、メイト距離レイヤ、ミスマッチタイプレイヤ等々)に記憶することは、以下の利点を呈する:
・異なるシンタックス要素が特定のソースモデルによってモデリングされる場合、情報エントロピーの低減。
・下流解析段にとって特定の意味を有し、別個に独立してアクセスすることができるグループ/レイヤに既に編成されたデータへのより効率的なアクセス。
・データコンテンツ全体を復号化する必要なく、必要とされる情報のみにアクセスすることにより増分的に更新することができるモジュールデータ構造の存在。
・シーケンシング機によって生成されるゲノム情報は、情報自体の性質及びシーケンシングプロセスに本質的なエラーを軽減する必要性に起因して、本質的に高い冗長性を有する。これは、識別し解析する必要がある関連ゲノム情報(参照からのバリエーション)が、生成されるデータのわずかな部分のみであることを暗示する。従来技術によるゲノムデータ表現フォーマットは、解析用途に即座に利用可能にするように、所与の解析段における意味ある情報を残りの情報から「分離」するとは考えられない。
・開示される本発明によってもたらされる解決策は、データの任意の関連部分が、データ全体にアクセスし圧縮解除する必要なく、解析用途に容易に利用可能であり、効率的な圧縮によりデータの冗長性が効率的に低減し、必要とされる記憶空間及び送信帯域幅を最小化するようにゲノムデータを表すことである。
本発明の主要要素は、以下である。
1.圧縮形態の構造化され選択的にアクセス可能なデータ要素(アクセスユニット(AU)を「含む」ファイルフォーマットの仕様。そのような手法は、データが非圧縮形態で構造化され、次に、ファイル全体が圧縮される従来技術による手法、例えば、SAM及びBAMの逆として見ることができる。この手法の第1の明確な利点は、圧縮領域でのデータ要素への様々な形態の構造化された選択的アクセスを効率的にかつ自然に提供可能なことであり、これは、従来技術による手法で不可能であるか、又は極めて扱いにくい。
2.同種データ及びメタデータの特定の「レイヤ」へのゲノム情報の構造化は、低エントロピーを特徴とする情報ソースの異なるモデルの定義を可能にするというかなりの利点を呈する。そのようなモデルは、レイヤごとに異なることができるのみならず、レイヤ内の圧縮データが、アクセスユニットに含まれるデータブロックに分割される場合、各レイヤ内部で異なることもできる。この構造化により、従来技術の手法と比べて符号化効率における大きな利得をもって、データ若しくはメタデータ及びそれらの一部の各クラスに最も適切な圧縮を使用することができる。
3.情報はアクセスユニット(AU)に構造化され、それにより、適切なインターフェースを手段として、ゲノム解析アプリケーションによって使用されるデータの任意の関連サブセットに効率的かつ選択的にアクセスすることができる。これらの特徴は、データへのより高速なアクセスを可能にし、より効率的な処理をもたらす。
4.マスタインデックステーブル及びローカルインデックステーブルの定義により、圧縮データの全体容量を復号化する必要なく、符号化(すなわち、圧縮)されたデータのレイヤによって運ばれる情報に選択的にアクセスすることができる。
5.新たに公開された参照ゲノムに対してアラインメントし直す必要がある場合、圧縮領域内の選択されたデータ部分の効率的なコード変換により、既にアラインメントされ圧縮されたゲノムデータの再アラインメントを実行することが可能である。新しい参照ゲノムの頻繁なリリースは現在、コード変換プロセスが、既に圧縮され記憶されたゲノムデータを新たに公開された参照と再アラインメントするプロセスに、リソースの消費及び時間を必要とし、その理由は、全データ容量を処理する必要があるためである。
本明細書に記載される方法は、ゲノムデータの利用可能な事前知識を利用して、エントロピーを低減してシンタックス要素の英字を定義することを目的とする。ゲノミクスでは、利用可能な知識は、通常−しかし必ずしもそうであるわけではない−処理されるものと同じ種の既存のゲノム配列によって表される。一例として、異なる個人のヒトゲノムは、わずか1%だけ異なる。他方、その小量のデータが、診断の容易化、薬剤の個人化、医薬品の合成のカスタマイズ等を可能にするのに十分な情報を含む。本発明は、関連情報に効率的にアクセス可能であり、関連情報が効率的に輸送可能であり、冗長情報のウェイトが低減するゲノム情報表現フォーマットを定義することを目的とする。
本発明において使用される技術的特徴は以下である。
1.可能な限り情報エントロピーを低減するために、ゲノム情報を同種のメタデータの「レイヤ」に分解する。
2.コード化された情報全体を復号化する必要なく、符号化情報のレイヤに選択的なアクセスできるようにするマスタインデックステーブル及びローカルインデックステーブルの定義。
3.ポイント1において定義された異なるレイヤに属するシンタックス要素をコード化するための異なるソースモデル及びエントロピーコーダの採用。
4.必要ない場合、レイヤを全て復号化する必要なく、データへの選択的アクセスを可能にするための依存レイヤ間の対応性。
5.エントロピーを低減するように変更することができる、1つ又は複数の適応参照配列への差分符号化。最初の参照ベースの符号化後、記録されたミスマッチを使用して、参照配列を「適応/変更」し、情報エントロピーを更に低減することができる。これは、情報エントロピーの低減が有意味である限り、反復的に実行することができるプロセスである。
従来技術の上記問題の全て(ファイル内のランダムな位置への効率的なアクセス、効率的な送信及び記憶、効率的な圧縮の点で)を解決するために、本願は、より同種であり、かつ/又は処理の容易さに意味論的に有意なデータを並べ直し、一緒にパックする。
本発明はまた、アクセスユニットの概念及び関連データの多重化に基づくデータ構造を採用する。
ゲノムデータは、異なるアクセスユニットに構造化され符号化される。以下、異なるアクセスユニットに含まれるゲノムデータの説明が続く。
ゲノムデータ分類
シーケンシング機によって生成される配列リードは、1つ又は複数の参照配列又はゲノムへのアラインメントの結果に従って、開示される本発明により5つの異なる「クラス」に分類される。
参照配列とのヌクレオチドのDNA配列をアラインメントする場合、5つが可能な結果である。
1.参照配列内の領域は、いかなるエラーもなく配列リードに一致する(完全マッピング)ことが発見される。ヌクレオチドのそのような配列は、「完全マッチングリード」と呼ばれるか、又は「クラスP」と記される。
2.参照配列内の領域は、シーケンシング機がいかなる塩基(又はヌクレオチド)もコールすることができなかった幾つかの位置により構成される幾つかのミスマッチを有して、配列リードに一致することが発見される。そのようなミスマッチは「N」で記される。そのような配列は「Nミスマッチリード」又は「クラスN」と呼ばれる。
3.参照配列内の領域は、シーケンシング機がいかなる塩基(又はヌクレオチド)もコールすることができなかったか、又は参照配列内で報告されるものとは異なる塩基がコールされた幾つかの位置により構成される幾つかのミスマッチを有して、配列リードに一致することが発見される。そのようなタイプのミスマッチは、シングルヌクレオチドバリエーション(SNV)又はシングルヌクレオチド多型(SNP)と呼ばれる。配列は、「Mミスマッチリード」又は「クラスM」と呼ばれる。
4.第4のクラスは、クラスMと同じミスマッチに、挿入又は欠失(別名、インデル)の存在が加わったミスマッチタイプを表す配列リードによって構成される。挿入は、参照に存在しないが、リード配列には存在する1つ又は複数のヌクレオチドの配列によって表される。文献では、挿入された配列が配列のエッジである場合、「ソフトクリップ」と呼ばれる(すなわち、ヌクレオチドは参照と一致しないが、破棄される「ハードクリップ」ヌクレオチドとは対照的に、アラインメントされたリードに保持される)。ヌクレオチドの保持又は廃棄は通常、アラインメントツールの構成として実施されるユーザの判断である。欠失は、参照からのアラインメントされたリードにおける「穴」(欠損ヌクレオチド)である。そのような配列は、「Iミスマッチリード」又は「クラスI」と呼ばれる。
5.第5のクラスは、指定されたアラインメント制約に従って参照配列においていかなる有効なマッピングも発見現在全てのリードを含む。そのような配列はマッピングされないと言え、「クラスU」に属すると言えるアンマップリードは、de−novoアセンブリアルゴリズムを使用して1つの配列にアセンブルすることができる。新しい配列が作成されると、アンマップリードをそれに対して更にマッピングし、4つのクラスP、N、M、及びIの1つに分類することができる。
上記ゲノムデータのデータ構造では、復号化エンジンが使用するために、グローバルパラメータ及びメタデータを記憶する必要がある。これらのデータは、以下の表に記載される主要ヘッダにおいて構造化される。
Figure 0006949970
リードの分類がクラスの定義を用いて完了すると、更なる処理の本質は、所与の参照配列にマッピングされて表される場合、DNAリード配列の再構築を可能にする残りの情報を表す1組の別個のシンタックス要素を定義することにある。所与の参照配列を参照するDNAセグメントは、以下によって完全に表現することができる。
・参照配列posでの開始位置(292)。
・リードが参照rcompから逆相補として見なされる必要がある場合、フラグシグナリング(293)。
・ペアになったリードのペアの場合、メイトペアへの距離(294)。
・シーケンシング技術が可変長リードを生成する場合、リード長の値(295)。一定リード長の場合、各リードに関連付けられたリード長は明らかに省くことができ、主要ファイルヘッダに記憶することができる。
・ミスマッチごとに、
・クラスNの場合、ミスマッチ位置nmis(300)、クラスMの場合、snpp(311)、及びクラスIの場合、indp(321))。
・ミスマッチタイプ(クラスNの場合、存在せず、クラスMの場合、snpt(312)、クラスIの場合、indt(322))。
・フラグ(296)であって、
・シーケンシングにおいて複数のセグメントを有する鋳型、
・アライナに従って適宜アラインメントされた各セグメント、
・アンマップセグメント、
・アンマップ鋳型内の次のセグメント、
・最初又は最後のセグメントのシグナル伝達、
・品質制御失敗、
・PCR又は光学複製、
・二次アラインメント、
・補足的アラインメント
等の配列リードの特定の特性を示すフラグ(296)。
・クラスIに存在する場合、ヌクレオチド列をソフトクリップ(323)。
この分類は、ゲノム配列リードを単意で表すのに使用することができる記述子(シンタックス要素)のグループを作成する。以下の表に、アラインメントされたリードの各クラスに必要なシンタックス要素をまとめる。
Figure 0006949970
クラスPに属するリードは、メイトペア、幾つかのフラグ、及びリード長をもたらすシーケンシング技術によって得られた場合、位置、逆相補情報、及びメイト間のオフセットのみを特徴とし、それらのみで完全に再構築することができる。
次のセクションにおいて、これらの記述子がいかに定義されるかを詳述する。
位置記述子レイヤ
各アクセスユニットにおいて、最初の符号化リードのマッピング位置のみが、参照ゲノム上の絶対位置としてAUヘッダに記憶される。他の全ての位置は、前の位置からの差として表現され、特定のレイヤに記憶される。情報ソースのこのモデリングは、リード位置の配列によって定義され、一般に、特にシーケンシングプロセスが高カバレッジ結果を生成する場合、エントロピーの低減を特徴とする。最初のアラインメントの絶対位置が記憶されると、他のリードの全ての位置は、最初の位置からの差(距離)として表現される。
例えば、図4は、参照配列における位置「10000」として最初のアラインメントの開始位置を符号化した後、位置10180において開始する次のリードの位置がいかに、「180」としてコード化されるかを示す。高カバレッジデータ(>50X)の場合、位置ベクトルの記述子の大半は、0及び1並びに他の小さな整数等の低値の非常に高い発生を示す。図4は、3つのリードペアの位置がいかにposレイヤにおいて符号化されるかを示す。
クラスN、M、P、及びIに属するリードの位置に同じソースモデルが使用される。データへの任意の組合せの選択的アクセスを可能にするために、4つのクラスに属するリードの位置は、表1に示される別個のレイヤに符号化される。
ペア記述子レイヤ
ペア記述子はpairレイヤに記憶される。そのようなレイヤは、利用されるシーケンシング技術がペアでリードを生成する場合、元のリードペアの再構築に必要な情報を符号化する記述子を記憶する。本発明の開示日では、配列データの大多数は、ペアリードを生成する技術を使用することによって生成されるが、全ての技術でそうであるわけではない。これは、考慮されるゲノムデータのシーケンシング技術がペアリード情報を生成しない場合、このレイヤの存在が、全配列データ情報の再構築に必要であるわけではないことの理由である。
定義:
・メイトペア:リードペア内の別のリードに関連付けられたリード(例えば、リード2は、図4の例において、リード1のメイトペアである)。
・ペア距離:第1のリード(ペアアンカー、例えば、最初のリードの最後のヌクレオチド)における1つの位置を第2のリード(例えば、2番目のリードの最初のヌクレオチド)の1つの位置から隔てる参照配列上のヌクレオチド位置の数。
・最確ペア距離(MPPD):これは、ヌクレオチド位置数で表現される最確ペア距離である。
・位置ペア距離(PPD):PPDは、特定の位置記述子レイヤに存在する各メイトからあるリードを隔てるリード数単位のペア距離を表現する方法である。
・最確位置ペア距離(MPPPD):特定の位置記述子レイヤに存在するメイトペアからあるリードを隔てる最も確率の高いリード数である。
・位置ペアリングエラー(PPE):MPPDとMPPPDとメイトの実際の位置との差として定義される。
・ペアアンカー:ヌクレオチド位置数又はリード位置数を単位としてメイトペアの距離を計算するための参照として使用されるペア内の最初のリードの最後のヌクレオチドの位置である。
図5は、リードペア間のペア距離がいかに計算されるかを示す。
ペア記述子レイヤは、定義された復号化ペア距離に関してペアの最初のリードのメイトペアに達するまでにスキップされるリードの数として計算されるペアリングエラーのベクトルである。
図6は、ペアリングエラーがいかに、絶対値及び差分ベクトルの両方として計算されるかの一例を示す(高カバレッジの場合、低エントロピーを特徴とする)。
同じ記述子が、クラスN、M、P、及びIに属するリードのペア情報に使用される。異なるデータクラスへの選択的アクセスを可能にするために、4つのクラスに属するリードのペア情報は、示されるように異なるレイヤに符号化される。
異なる参照にマッピングされるリードの場合のペア情報
参照配列に配列リードをマッピングするプロセスでは、ペア内の最初のリードがある参照(例えば、染色体1)にマッピングされ、2番目のリードが異なる参照(例えば、染色体4)にマッピングされることは希ではない。この場合、上述したペア情報は、リードの一方のマッピングに使用される参照配列に関連する追加の情報によって統合される必要がある。これは、
1.ペアが2つの異なる配列にマッピングされることを示す予約値(フラグ)(異なる値が、リード1又はリード2が現在符号化されていない配列にマッピングされるかどうかを示す)、
2.表1に記載される主要ヘッダ構造において符号化される参照識別子を参照する一意の参照識別子、
3.ポイント2において識別された参照へのマッピング情報を含み、最後の符号化位置からのオフセットとして表現される第3の要素
をコードすることにより達成される。
図7は、このシナリオの一例を提供する。
図7では、リード4は現在符号化される参照配列にマッピングされないため、このゲノムエンコーダは、ペアレイヤにおいて追加の記述子を作ることによってこの情報をシグナリングする。図7に示される例では、ペア2のリード4は、参照番号4にマッピングされ、一方、現在符号化される参照はナンバー1である。この情報は、次の3つの構成要素を使用して符号化される。
1)1つの特別な予約値は、ペア距離(この場合、0xffffff)として符号化される。
2)第2の記述子は、主要ヘッダに列挙される参照IDを提供する(この場合、4)。
3)第3の要素は、考慮される参照上のマッピング情報を含む(170)。
逆相補記述子レイヤ
シーケンシング技術によって生成されるリードペアの各リードは、配列化された有機試料のいずれかのゲノム鎖からのものであることができる。しかしながら、2本鎖のうちの1本のみが参照配列として使用される。図8は、リードペアにおいて、あるリード(リード1)がいかに、1本の鎖から来ることができ、他(リード2)が他方の鎖から来ることができるかを示す。
鎖1が参照配列として使用される場合、リード2は、鎖1の対応する断片の逆相補として符号化することができる。これを図9に示す。
結合されたリードの場合、4が、直接及び逆相補メイトペアの可能な組合せである。これを図10に示す。rcompレイヤは4つの可能な組合せをコード化する。
同じコード化が、クラスP、N、M、Iに属するリードの逆相補情報に使用される。データへの強化された選択的アクセスを可能にするために、4つのクラスに属するリードの逆相補情報は、表2に示される異なるレイヤにコード化される。
クラスNのミスマッチ
クラスNは、ミスマッチを示す全てのリードを含み、「N」は塩基コールの代わりに存在する。全ての他のベースは、参照配列に完全に一致する。
リード1におけるNの位置は、
・リード1における絶対位置又は
・同じリード内の前のNからの差分位置(最低のエントロピーを有するいずれか)
として符号化される。
リード2におけるNの位置は、
・リード2における絶対位置+リード1長又は
・前のNからの差分位置(最低のエントロピーを有するいずれか)
として符号化される。
nmisレイヤでは、各リードペアの符号化は、特別な「セパレータ」「S」記号で終わる。これを図11に示す。
置換(ミスマッチ又はSNP)の符号化
置換は、同じ位置における参照配列に存在するものとは異なるヌクレオチドの、マッピングされたリード上での存在として定義される(図12参照)。
各置換は、
・「位置」(snppレイヤ)又は「タイプ」(snptレイヤ)として、図13、図14、図16、及び図15参照、又は
・「位置」のみであるが、ミスマッチタイプごとに1つのsnppレイヤを使用、図17参照、
として符号化することができる。
置換位置
置換位置は、nmisレイヤの値として計算され、すなわち:
リード1において、置換は、
・リード1における絶対位置として又は
・リード2における同じリードにおける前の置換からの差分位置として置換が符号化される
として符号化され、
リード2において、置換は、
・リード2における絶対位置+リード1長又は
・前の置換からの差分位置
として符号化される。図13は、置換位置がいかにレイヤsnppにおいて符号化されるかを示す。置換位置は、絶対値又は差分値のいずれかとして計算することができる。
snppレイヤでは、各リードペアの符号化は、特別な「セパレータ」記号によって終わる。
置換タイプ記述子
クラスM(及び次のセクションで説明されるように、クラスI)の場合、ミスマッチは、参照に存在する実際の記号から、リードに存在する対応する置換記号{A,C,G,T,N,Z}までインデックス(右から左に移動する)によってコード化される。例えば、アラインメントされたリードが、参照における同じ位置に存在するTの代わりにCを提示する場合、ミスマッチインデックスは「4」と記される。復号化プロセスは、符号化されたシンタックス要素、参照上の所与の位置におけるヌクレオチドを読み出し、左から右に移動して、復号化された記号を検索する。例えば、参照においてGが存在する位置に対して「2」を受信することは、「N」として復号化されることになる。図14は、IUPAC曖昧コードが使用されない場合に可能な全ての置換及び各符号化記号を示し、図15は、snptレイヤにおける置換タイプの符号化の一例を提供する。IUPAC曖昧コードが存在する場合、置換インデックスは図16に示されるように変わる。
上述した置換タイプの符号化が高い情報エントロピーを示す場合、置換符号化の代替の方法の本質は、図17に示されるように、ヌクレオチドごとに1つずつ、ミスマッチ位置のみを別個のレイヤに記憶することにある。
挿入及び欠失のコード化
クラスIの場合、ミスマッチ及び欠失は、参照に存在する実際の記号から、リードに存在する対応する置換記号{A,C,G,T,N,Z}までインデックス(右から左に移動する)によりコード化される。例えば、アラインメントされたリードが、参照における同じ位置に存在するTの代わりにCを提示する場合、ミスマッチインデックスは「4」と記される。リードが、参照においてAが存在する場所に欠失を提示する場合、コード化される記号は「5」である。復号化プロセスは、コード化されたシンタックス要素、参照上の所与の位置におけるヌクレオチドを読み出し、左から右に移動して、復号化された記号を検索する。例えば、参照においてGが存在する位置に対して「3」を受信することは、配列リードにおける欠失の存在を示す「Z」として復号化される。
挿入は、挿入されたA、C、G、T、Nに対してそれぞれ6、7、8、9、10としてコード化される。
IUPAC曖昧コードを採用する場合、置換メカニズムの結果は全く同じであるが、置換ベクトルは、S={A,C,G,T,N,Z,M,R,W,S,Y,K,V,H,D,B}として拡張される。
図18及び図19は、クラスIのリードペアにおける置換、挿入、及び欠失を符号化する方法の例を示す。
続くファイルフォーマット構造であるアクセスユニット及び多重化について、本明細書において上記開示したコード化要素を参照して説明する。しかしながら、アクセスユニット、ファイルフォーマット、及び多重化は、他の異なるアルゴリズムのソースモデリング及びゲノムデータ圧縮を用いても、同じ技術的利点を生み出す。
ファイルフォーマット:ゲノムデータの領域への選択的アクセス
マスタインデックステーブル
アラインメントされたデータの特定の領域への選択的アクセスをサポートするために、本明細書に記載されるデータ構造は、マスタインデックステーブル(MIT)と呼ばれる索引付けツールを実装する。これは、特定のリードが、使用される参照配列にマッピングされる座位を含む多次元アレイである。MITに含まれる値は、各posレイヤにおける最初のリードのマッピング位置であり、したがって、各アクセスユニットへの非順次アクセスがサポートされる。MITは、データのクラスごと(P、N、M、及びI)並びに参照配列ごとに1つのセクションを含む。MITは、符号化データの主要ヘッダに含まれる。図20は、主要ヘッダの一般構造を示し、図21は、MITの一般的な視覚表現を示し、図22は、符号化リードのクラスPのMITの一例を示す。
図22に示されるMITに含まれる値は、圧縮領域において関心領域(及び対応するAU)に直接アクセスするのに使用される。
例えば、図22を参照して、参照2において位置150,000と250,000との間に含まれる領域にアクセスする必要がある場合、復号化アプリケーションは、MITにおける第2の参照にスキップし、k1<150,000かつk2>250,000であるような2つの値k1及びk2を探す。ここで、k1及びk2は、MITからの読み出された2つのインデックスである。図22の例では、これは、MITの第2のベクトルの位置3及び4になる。これらの戻り値は次に、復号化アプリケーションによって使用されて、次のセクションに説明するように、posレイヤローカルインデックステーブルから適切なデータの位置をフェッチする。
上述したゲノムデータの4つのクラスに属するデータを含むレイヤへのポインタと一緒に、MITは、ゲノムデータの寿命サイクル中、ゲノムデータに追加される追加のメタデータ及び/又は注釈のインデックスとして使用することができる。
ローカルインデックステーブル
上述した各データレイヤは、ローカルヘッダと呼ばれるデータ構造が前置される。ローカルヘッダは、レイヤの一意の識別子、参照配列ごとのアクセスユニットカウンタのベクトル、ローカルインデックステーブル(LIT)、及び任意選択的な何らかのレイヤに固有のメタデータを含む。LITは、レイヤペイロードにおける各AUに属するデータの物理的な位置へのポインタのベクトルである。図23は、LITが非順次的に符号化データの特定の領域にアクセスするのに使用される一般的なレイヤヘッダ及びペイロードを示す。
前の例では、参照配列番号2にアラインメントされたリードの領域150,000〜250,000にアクセスするために、復号化アプリケーションは、MITから位置3及び4を検索した。これらの値は、LITの対応するセクションの3番目及び4番目の要素にアクセスするのに復号化プロセスによって使用されるものとする。図24に示される例では、レイヤヘッダに含まれる合計アクセスユニットカウンタを使用して、参照1に関連するAUに関連するLITインデックス(本例では5)をスキップする。したがって、符号化ストリーム内の要求されたAUの物理的位置を含むインデックスは、
要求されたAUに属するデータブロックの位置=スキップすべき参照1のAUに属するデータブロック+MITを使用して検索された位置、すなわち、
最初のブロック位置:5+3=8
最後のブロック位置:5+4=9
として計算される。
ローカルインデックステーブルと呼ばれる索引付けメカニズムを使用して検索されたデータのブロックは、要求されたアクセスユニットの一部である。
図26は、MIT及びLITを使用して検索されたデータブロックがいかに1つ又は複数のアクセスユニットを作るかを示す。
アクセスユニット
データクラスに分類され、圧縮又は非圧縮レイヤに構造化されたゲノムデータは、異なるアクセスユニットに編成される。
ゲノムアクセスユニット(AU)は、ヌクレオチド配列を再構築するゲノムデータ(圧縮又は非圧縮形態)、及び/又は関連するメタデータ、及び/又はDNA/RNAの配列(例えば、仮想参照)、及び/又はゲノムシーケンシング機、及び/又はゲノム処理デバイス、又は解析アプリケーションによって生成された注釈データのセクションとして定義される。
アクセスユニットは、大域的にのみ利用可能なデータ(例えば、デコーダ構成)のみを使用することによって他のアクセスユニットから独立して、又は他のアクセスユニットに含まれる情報を使用することによって復号化することができるデータのブロックである。アクセスユニットは、位置情報(絶対及び/又は相対)、逆相補及び恐らくはペアリングに関連する情報、及び追加のデータの形態のゲノムデータに関連するデータ情報を含む。幾つかのタイプのアクセスユニットを識別することが可能である。
アクセスユニットは、
・アクセスユニットが運ぶゲノムデータ及びデータセットの性質及びアクセスすることができる方法を特徴付けるタイプ、
・同じタイプに属するアクセスユニットへの一意の順序を提供する順序
によって区別される。
任意のタイプのアクセスユニットは、異なる「カテゴリ」に更に分類することができる。
以下、ゲノムアクセスユニットの異なるタイプの定義の非網羅的リストが続く。
1)タイプ0のアクセスユニットは、アクセスされるために又は復号化されアクセスされるために、他のアクセスユニットからのいかなる情報も参照する必要がない(図29参照)。それらが含むデータ又はデータセットによって伝達される情報全体は、復号化デバイス又は処理アプリケーションによって独立して読み出され、処理することができる。
2)タイプ1のアクセスユニットは、タイプ0のアクセスユニットによって伝達されるデータを参照するデータを含む(図30参照)。タイプ1のアクセスユニットに含まれるデータの読み出し又は復号化及び処理は、タイプ0の1つ又は複数のアクセスユニットへのアクセスが必要である。このタイプのアクセスユニットは、タイプ0のアクセスユニットに含まれる情報からのミスマッチ、非類似、又は非対応の情報を含むことができる。
3)タイプ2、3、及び4のアクセスユニットは、タイプ1のアクセスユニットを参照するデータを含む(図31、図32、及び図33参照)。タイプ2、3、及び4のアクセスユニットによって含まれるデータ又はデータセットの読み出し又は復号化及び処理は、タイプ0及びタイプ1のアクセスユニットに含まれるデータ又はデータセットによって伝達される情報を必要とする。タイプ2、3、及び4のアクセスユニットの違いは、含まれる情報の性質にある。
4)タイプ5のアクセスユニットは、タイプ1のアクセスユニットに含まれるデータ又はデータセットに関連付けられたメタデータ(例えば、クオリティスコア)及び/又は注釈データを含む。タイプ5のアクセスユニットは、異なるレイヤに分類されラベリングし得る。
5)タイプ6のアクセスユニットは、注釈データとして分類されるデータ又はデータセットを含む。タイプ6のアクセスユニットはレイヤにおいて分類されラベリングし得る。
6)追加のタイプのアクセスユニットは、本明細書に記載される構造及びメカニズムを拡張することができる。限定ではなく一例として、ゲノムバリアントコール、構造的及び機能的解析の結果は、新しいタイプのアクセスユニットに符号化することができる。本明細書に記載されるアクセスユニットにおけるデータ編成は、アクセスユニットにカプセル化されたいかなるタイプのデータも、符号化データの性質に関して完全にトランスペアレントなメカニズムにすることを妨げない。このタイプのアクセスユニットは、タイプ0のアクセスユニットに含まれる情報からのミスマッチ、非類似、又は非対応の情報を含むことができる。
図28は、アクセスユニットがいかに、ヘッダ及び同種データの1つ又は複数のレイヤによって作られるかを示す。各レイヤは、1つ又は複数のブロックで作ることができる。各ブロックは幾つかのパケットを含み、パケットは、例えば、リード位置、ペアリング情報、逆相補情報、ミスマッチ位置、及びタイプ等を表す上記で紹介した記述子の構造化配列である。
各アクセスユニットは、各ブロックに異なる数のパケットを有することができるが、アクセスユニット内では、全てのブロックは同数のパケットを有する。
各データパケットは、3つの識別子XYZの組合せによって識別することができ、ここで、
・Xは属するアクセスユニットを識別し、
・Yは属するブロック(すなわち、カプセル化するデータタイプ)を識別し、
・Zは、同じブロック内の他のパケットに対するパケット順序を表現する識別子である。
図28は、アクセスユニット及びパケットラベリングの一例を示す。
図34〜図38は幾つかのタイプのアクセスユニットを示し、それらを記す一般的なシンタックスは以下である:AU_T_Nは、アクセスユニットタイプに従って順序の表記を暗示することもあれば、又はないこともある識別子Nを有するタイプTのアクセスユニットである。識別子は、あるタイプのアクセスユニットを、伝達されるゲノムデータの完全な復号化に必要とされる他のタイプのアクセスユニットに一意に関連付けるのに使用される。
任意のタイプのアクセスユニットは、異なるシーケンシングプロセスに従って異なる「カテゴリ」に分類しラベリングすることができる。限定ではなく例として、分類及びラベリングは、
−同じ有機体を異なる時間にシーケンシングする場合(アクセスユニットは、「一時的」含意のゲノム情報を含む)、
−同じ有機体の異なる性質の有機体試料(例えば、ヒト試料の皮膚、血液、毛髪)のシーケンシングの場合、
行うことができる。これらは、「生物的」含意があるアクセスユニットである。
タイプ1、2、3、及び4のアクセスユニットは、参照するタイプ0のアクセスユニットに符号化される参照配列に関して、ゲノム配列断片(別名、リード)に適用された照合関数の結果に従って構築される。
例えば、タイプ1のアクセスユニット(AU)(図30参照)は、照合関数がタイプ0のAUに符号化された参照配列の特定の領域に適用される場合、完全な一致(又は選択された照合関数に対応する可能な限り最大のスコア)をもたらすリードの位置及び逆相補フラグを含み得る。タイプ0のAUに含まれるデータと共に、そのような照合関数情報は、タイプ1のアクセスユニットによって伝達されるデータセットによって表される全てのゲノム配列リードを完全に再構築するのに十分である。
本明細書において上述したゲノムデータ分類を参照して、上述したタイプ1のアクセスユニットは、クラスP(完全一致)のゲノム配列リードに関連する情報を含む。
可変リード長及びペアリードの場合、前の例で述べたタイプ1のAUに含まれるデータは、リードペア関連性を含むゲノムデータを完全に再構築することを可能にするためには、リードペア及びリード長についての情報を表すデータと統合される必要がある。本明細書において先に紹介したデータ分類に関して、pair及びrlenレイヤはタイプ1のAUに符号化される。
タイプ2、3、及び4のAUの内容を分類するためにタイプ1のアクセスユニットに関して適用される照合関数は、
−タイプ1のAUに含まれる各配列は、指定された位置に対応するタイプ0のAUに含まれる配列に完全に一致し、
−タイプ2のAUに含まれる各配列は、指定された位置に対応するタイプ0のAUに含まれる配列に完全に一致するが、タイプ2のAUにおける配列には「N」記号が存在し(塩基がシーケンシングデバイスによってコールされない)、
−タイプ3のAUに含まれる各配列は、指定された位置に対応するタイプ0のAUに含まれる配列から置換記号(バリアント)の形態のバリアントを含み、
−タイプ4のAUに含まれる各配列は、指定された位置に対応するタイプ0のAUに含まれる配列からの置換記号(バリアント)、挿入、及び/又は欠失の形態のバリアントを含む
等の結果を提供することができる。
タイプ0のアクセスユニットは順序付けられる(例えば、付番される)が、順序付けられて記憶及び/又は送信される必要はない(技術的利点:並行処理/並行ストリーミング、多重化)。
タイプ1、2、3、及び4のアクセスユニットは、順序付けられる必要はなく、順序付けられて記憶及び/又は送信される必要はない(技術的利点:並行処理/並行ストリーミング)。
技術的効果
本明細書に記載されるアクセスユニットにゲノム情報を構造化することの技術的効果は、ゲノムデータが、
1.
−ゲノムデータ全体又はデータセット全体及び/又は関連するメタデータを圧縮解除する必要なく、データの特定の「カテゴリ」(例えば、特定の一時的又は生物学的含意を有する)、
−ゲノムの他の領域を圧縮解除する必要なく、全ての「カテゴリ」、「カテゴリ」のサブセット、1つの「カテゴリ」(関連付けられたメタデータあり又はなし)のゲノムの特定の領域
にアクセスするために選択的に問い合わせることができ、
2.
−新しい解析がゲノムデータ又はデータセットに対して実行される場合、
−新しいゲノムデータ又はデータセットが、同じ有機体をシーケンシングすることによって生成される(異なる生体試料、同じタイプの異なる生体試料、例えば、血液試料であるが異なる時間に取得されたもの等)場合、
利用可能であることができる新しいデータで増分的に更新することができ、
3.
−新しい参照として(例えば、タイプ0のAUによって伝達される新しい参照ゲノム)使用すべき新しいゲノムデータ又はデータセット、
−符号化フォーマット仕様の更新
の場合、新しいデータフォーマットに効率的にコード変換することができること
であることである。
SAM/BAM等の従来技術による解決策に関して、上記技術的特徴は、データ全体が検索され、符号化フォーマットから圧縮解除された場合、アプリケーションレベルで生じるデータフィルタリングを必要とする問題に対処する。
以下、アクセスユニット構造が技術的利点にとって役立つアプリケーションシナリオの例が続く。
選択的アクセス
特に、開示される異なるタイプのアクセスユニットに基づくデータ構造は、
−関連付けられたメタデータ情報も圧縮解除する必要(現況水準の制約:異なるカテゴリ又はレイヤの区別さえもサポートすることができないSAM/BAM)なく、全「カテゴリ」の全シーケンシング、サブセット(すなわち、1つ又は複数のレイヤ)、又は1つの「カテゴリ」のみのリード情報(データ又はデータセット)抽出、
−ゲノムの他の領域も圧縮解除する必要(現況水準の制約:SAM/BAM)なく、全てのカテゴリ、カテゴリのサブセット、1つのカテゴリの仮定される参照配列の特定の領域にアラインメントされた全てのリード(関連付けられたメタデータあり又はなし)の抽出
を可能にする。
図39は、ミスマッチを有する参照配列(AU0−2)の第2のセグメントにマッピングされたゲノム情報へのアクセスがいかに、AU0−2、1−2、及び3−2のみの復号化だけを必要とするかを示す。これは、マッピング領域(すなわち、参照配列上の位置)に関連する基準及び参照配列からの符号化配列リードに適用される照合関数に関連する基準(例えば、この例ではミスマッチのみ)の両方による選択的アクセスの一例である。
更なる技術的利点は、適用されるクエリの基準及びその任意の組合せに一致するタイプ1、2、3、4のアクセスユニットの選択された「カテゴリ」、より長いゲノム配列の特定の領域、及び特定のレイヤのみのアクセス及び復号化に基づくことができるため、データアクセス可能性及び実行速度に関してデータへの問い合わせがはるかに効率的であることである。
タイプ1、2、3、4のアクセスユニットのレイヤへの編成により、
−1つ又は複数の参照ゲノムから特定のバリエーション(例えば、ミスマッチ、挿入、欠失)を有する、
−考慮される参照ゲノムのいずれにもマッピングされない、
−1つ又は複数の参照ゲノムに完全にマッピングされる、
−1つ又は複数の正確性レベルでマッピングされる
ヌクレオチド配列の効率的な抽出が可能である。
増分的更新
タイプ5及び6のアクセスユニットは、ファイル全体をデパケット化/復号化/圧縮解除する必要なく、注釈を容易に挿入できるように、それにより、従来技術の制約であるファイルの効率的な取り扱い性を高める。既存の圧縮解決策は、所望のゲノムデータにアクセスできるようになるには、先に大量の圧縮データにアクセスし処理する必要があり得る。これは、非効率的なRAM帯域幅利用及びハードウェア実装においてもより多くの消費電力を生じさせる。消費電力及びメモリアクセス問題は、本明細書に記載されるアクセスユニットに基づく手法を使用することによって軽減し得る。
マスタインデックステーブル(図21参照)に記載されるデータ索引付けメカニズムは、アクセスユニットの利用と共に、後述する符号化コンテンツの増分的更新を可能にする。
追加データの挿入
新しいゲノム情報は、幾つかの理由により既存のゲノムデータに定期的に追加することができる。例えば、
・有機体が異なる瞬間にシーケンシングされる場合
・同じ個人の幾つかの異なる試料が同時にシーケンシングされる場合、
・シーケンシングプロセスによって生成される新しいデータ(ストリーミング)の場合。
上述した状況では、本明細書に記載されるアクセスユニット及びファイルフォーマットセクションに記載されるデータ構造を使用してデータを構造化することは、既存データを再符号化する必要なく、新たに生成されたデータの増分的統合を可能にする。増分的更新プロセスは、以下のように実施することができる。
1.新たに生成されたAUは単に、予め存在するAUを用いてファイルに連結することができ、
2.新たに生成されたデータ又はデータセットの索引付けは、本明細書のファイルフォーマットセクションに記載されるマスタインデックステーブルに含まれる。1つのインデックスは、新たに生成されたAUを既存の参照配列上に位置決めするものとし、他のインデックスの本質は、新たに生成されたAUへの直接かつ選択的なアクセスを可能にするための物理的ファイル内の新たに生成されたAUのポインタにある。
このメカニズムを図40に示し、図40では、タイプ1の3つのAU及び2〜4からのタイプごとに4つのAUに符号化された予め存在するデータが、例えば、同じ個人の新しいシーケンシング実行からの符号化データを用いて、タイプごとに3つのAUで更新される。
圧縮形態でゲノムデータ及びデータセットをストリーミングする特定の使用の場合、予め存在するデータセットの増分的更新は、データがシーケンシング機によって生成されるとすぐに、実際のシーケンシングが完了する前にデータを解析する場合、有用であり得る。符号化エンジン(圧縮器)は、選択された参照配列の同じ領域にマッピングされる配列リードを「集団化」することにより、幾つかのAUを並行してアセンブルすることができる。最初のAUが、予め構成される閾値/パラメータを超えるリード数を含むと、そのAUを解析アプリケーションに送信する準備ができる。新たに符号化されたアクセスユニットと共に、符号化エンジン(圧縮器)は、新しいAUが依存する全てのアクセスユニットが、受信側に既に送信されているか、又はそれと一緒に送信されることを確実にする。例えば、タイプ3のAUを適宜復号化するためには、受信側にタイプ0及びタイプ1の適切なAUが存在する必要がある。
記載されるメカニズムにより、受信側のバリアントコールアプリケーションは、シーケンシングプロセスが送信側で完了する前、受信したAUに対してバリアントコールを開始することが可能である。このプロセスの概略を図41に示す。
結果の新しい解析
ゲノム処理寿命サイクル中、ゲノム解析の幾つかの反復を同じデータ(例えば、異なる処理アルゴリズムを使用した異なるバリアントコール)に適用することができる。本明細書において定義されるAU及び本明細書のファイルフォーマットセクションに記載されるデータ構造の使用は、新しい解析の結果を用いて既存の圧縮データを増分的に更新できるようにする。
例えば、既存の圧縮データに対して実行される新しい解析は、これらの場合、新しいデータを生成することができる:
1.新しい解析は、符号化データに既に関連付けられた既存の結果を変更することができる。この使用事例を図42に示し、これは、1つのアクセスユニットの内容を全体的又は部分的にあるタイプから別のタイプに移すことによって実施される。新しいAUを作成する必要がある(AUごとに予め定義される最大サイズに起因して)場合、マスタインデックステーブル内に関連するインデックスを作成しなければならず、関連するベクトルは、必要な場合、ソートされる。
2.新しいデータは、新しい解析から生成され、既存の符号化データに関連付けられる必要がある。この場合、タイプ5の新しいAUを生成し、同じタイプのAUの既存のベクトルと連結することができる。マスタインデックステーブルのこの更新及び関連する更新を図43に示す。
上述され、図42及び図43に示されている使用事例は、
1.不良なマッピング品質を有するデータ(例えば、タイプ4のAU)のみに直接アクセスを有することが可能であり、
2.恐らくは新しいタイプに属する新しいアクセスユニットを単に作成することにより、新しいゲノム領域にリードを再マッピング可能であり(例えば、タイプ4のAUに含まれていたリードを、ミスマッチがより少ない新しい領域(タイプ2−3)に再マッピングし、新たに作成されたAUに含めることができる)、
3.新たに作成された解析結果及び/又は関連する注釈のみを含むタイプ6のAUを作成可能であることであって、この場合、新たに作成されるAUは、参照する既存のAUへの「ポインタ」のみを含む必要がある、タイプ6のAUを作成可能であること
により可能になる。
コード変換
圧縮ゲノムデータは、例えば、以下の状況においてコード変化する必要があり得る:
・新しい参照配列の公開、
・異なるマッピングアルゴリズムの使用(再マッピング)。
ゲノムデータが既存の公開参照ゲノムにマッピングされる場合、上記参照配列の新バージョンが公開されるとき又は異なる処理アルゴリズムを使用してデータをマッピングしたいときは、今日、再マッピングのプロセスが必要とされる。SAM又はCRAM等の従来技術によるファイルフォーマットを使用して圧縮データを再マッピングする場合、新たに利用可能になった参照配列への参照を用いて又は異なるマッピングアルゴリズムを使用して再びマッピングするためには、圧縮データ全体を圧縮解除して「生」の形態にする必要がある。これは、新たに公開された参照が前の参照とわずかにのみ異なる場合又は使用される異なるマッピングアルゴリズムが、前のマッピングと非常に近い(又は同一の)マッピングを生成する場合であっても該当する。
本明細書に記載されるアクセスユニットを使用して構造化されたゲノムデータをコード変換することの利点は、以下である。
1.マッピングと新しい参照ゲノムで必要とされるのは、変更されたゲノム領域にマッピングされるAUのデータの再符号化(圧縮解除及び圧縮)のみである。さらに、ユーザは、任意の理由で、元々、変更された領域にマッピングされていない場合であっても、再マッピングする必要があり得る圧縮リードを選択し得る(これは、前のマッピングの品質がよくないとユーザが信じる場合、生じ得る)。この使用事例を図44に示す。
2.新たに公開された参照ゲノムが、領域全体が異なるゲノム位置(「座位」)にシフトされたという点でのみ前と異なる場合、コード変換動作は特に単純で効率的である。実際に、「シフトされた」領域にマッピングされた全てのリードを移動させるには、関連する(1組の)AUヘッダに含まれる絶対位置の値のみを変更するだけで十分である。各AUヘッダは、AUに含まれる最初のリードが参照配列にマッピングされる絶対位置を含み、一方、他の全てのリード位置は、その最初の位置からの差として符号化される。したがって、最初のリードの絶対位置の値を単に更新することで、AU内の全てのリードはそれに従って移動する。このメカニズムは、CRAM及びBAMなどの現況水準の手法によって実施することができず、その理由は、ゲノムデータ位置が圧縮されたペイロードに符号化され、したがって、全てのゲノムデータセットの完全な圧縮解除及び再圧縮が必要なためである。
3.異なるマッピングアルゴリズムが使用される場合、よくない品質でマッピングされたと思われる圧縮リードの部分のみに適用することが可能である。例えば、参照ゲノムに完全には一致しなかったリードのみに新しいマッピングアルゴリズムを適用することが適切であり得る。今日、既存のフォーマットを使用した場合、マッピング品質(すなわち、ミスマッチの存在及び数)に従ってリードを抽出することは可能ではない(又は幾つかの制約付きで部分的にのみ可能である)。新しいマッピング結果が新しいマッピングツールによって返される場合、関連するリードは、あるAUから同じタイプの別のAUに(図46)又はあるタイプのあるAUから別のタイプのAUに(図45)コード変換することができる。
さらに、従来技術による圧縮解決策は、所望のゲノムデータにアクセスするには、先に大量の圧縮データにアクセスし処理する必要があり得る。これは、非効率的なRAM帯域幅の利用及びより大きな消費電力を生じさせる及びハードウェア実装において。消費電力及びメモリアクセスの問題は、本明細書に記載されるアクセスユニットに基づく手法を使用することによって軽減し得る。
本明細書に記載されるゲノムアクセスユニットの採用の更なる利点は、並行処理の促進及びハードウェア実装の適切性である。SAM/BAM及びCRAM等の現在の解決策は、シングルスレッドソフトウェア実装に向けて考えられている。
選択的暗号化
本明細書に記載される幾つかのタイプレイヤに編成されるアクセスユニットに基づく手法は、現況水準のモノリシックな解決策では可能ではないコンテンツ保護メカニズムの実装を可能にする。
当業者は、有機体の遺伝プロファイルに関連するゲノム情報の大半が、既知の配列(例えば、参照ゲノム又はゲノムの母集団)との違い(バリアント)に依拠することを知っている。したがって、不正アクセスから保護すべき個人の遺伝プロファイルは、本明細書に記載されるタイプ3及び4のアクセスユニットに符号化される。したがって、シーケンシング及び解析プロセスによって生成される最も機密的なゲノム情報への制御されたアクセスの実施は、タイプ3及び4のAU(一例として図47を参照のこと)のペイロードのみを暗号化することによって実現することができる。これは、リソースを消費する暗号化プロセスがデータのサブセットのみに適用され得るため、処理能力及び帯域幅の両方の点で大きな節約を生み出す。
ゲノムアクセスユニットの輸送
ゲノムデータマルチプレックス
ゲノムアクセスユニットは、ゲノムデータマルチプレックス内で通信ネットワークを解して輸送することができる。ゲノムデータマルチプレックスは、本発明の一環として開示されるデータ分類に従って表され、パケット損失等のエラーが生じ得るネットワーク環境において送信される、パッケージされたゲノムデータ及びメタデータの配列として定義される。
ゲノムデータマルチプレックスは、異なる環境(通常、ネットワーク環境)を介したゲノムコード化データの輸送を容易にしより効率的にすると考えられ、現況水準の解決策には存在しない以下の利点を有する。
1.ゲノムデータ(後述)のストリーム若しくは配列又は符号化ツールによって生成されたゲノムファイルフォーマットを1つ又は複数のゲノムデータマルチプレックスにカプセル化して、ネットワーク環境を介して搬送し、次に、有効な同一のストリーム又はファイルフォーマットを回復して、送信及び情報へのアクセスをより効率的にすることができる。
2.復号化及び提示のために、カプセル化されたゲノムデータストリームから符号化ゲノムデータを選択的に検索できるようにする。
3.輸送のために幾つかのゲノムデータセットを1つの情報コンテナに多重化できるようにし、搬送された情報のサブセットを新しいゲノムデータマルチプレックスに逆多重化できるようにする。
4.異なるソース(結果として別個のアクセスを有する)及び/又はシーケンシング/解析プロセスによって生成されたデータ及びメタデータを多重化できるようにし、ネットワーク環境を介して、生成されたゲノムデータマルチプレックスを送信する。
5.パケット損失等のエラーの識別をサポートする。
6.ネットワーク遅延に起因して順序違いで到着し得るデータの適切な並べ替えをサポートし、したがって、現況水準の解決策と比較した場合、ゲノムデータの送信をより効率的にする。
ゲノムデータ多重化の一例を図49に示す。
ゲノムデータセット
本発明の文脈においては、ゲノムデータセットは、例えば、生物のゲノムデータ、ゲノムデータ処理の幾つかのステップによって生成された1つ若しくは複数の配列及びメタデータ、又は生物のゲノムシーケンシングの結果を含む構造化された1組のゲノムデータとして定義される。1つのゲノムデータマルチプレックスは、複数のゲノムデータセットを含み得(マルチチャネルシナリオと同様に)、その場合、各データセットは異なる有機体を参照する。幾つかのデータセットを1つのゲノムデータマルチプレックスに多重化するメカニズムは、ゲノムデータセットリスト(GDL)及びゲノムデータセットマッピングテーブル(GDMT)と呼ばれるデータ構造に含まれる情報によって支配される。
ゲノムデータセットリスト
ゲノムデータセットリスト(GDL)は、ゲノムデータマルチプレックスにおいて利用可能な全てのゲノムデータセットを列挙するデータ構造として定義される。列挙された各ゲノムデータセットは、ゲノムデータセットID(GID)と呼ばれる一意の値によって識別される。
GDLに列挙される各ゲノムデータセットは、
・1つのゲノムデータセットマッピングテーブル(GDMT)を搬送し、特定の値のストリームID(genomic_dataset_map_SID)によって識別される1つのゲノムデータストリーム、
・1つの参照IDマッピングテーブル(RIDMT)を搬送し、特定の値のストリームID(reference_id_map_SID)によって識別される1つのゲノムデータストリーム
に関連付けられる。
GDLは、ゲノムデータストリーム送信の開始時に1つの輸送パケットのペイロードとして送信され、次に、ストリームへのランダムアクセスを可能にするために、定期的に再送信することができる。
GDLデータ構造のシンタックスは、各シンタックス要素に関連付けられたデータ型の表示と共に以下の表に提供される。
Figure 0006949970
上述したGDLを作るシンタックス要素は、以下の意味及び機能を有する。
Figure 0006949970
ゲノムデータセットマッピングテーブル
ゲノムデータセットマッピングテーブル(GDMT)は、ストリーミングプロセスの開始時に生成され送信される(恐らく、ストリーミングされたデータ内の対応点及び関連依存性の更新を可能にするために、定期的に再送信されるか、更新されるか、又は同一である)。GDMTは、ゲノムデータセットリストに続き1つのパケットで搬送され、1つのゲノムデータセットを作るゲノムデータストリームを識別するSIDを列挙する。GDMTは、ゲノムマルチプレックスによって搬送される1つのゲノムデータセットを作るゲノムデータストリーム(例えば、ゲノム配列、参照ゲノム、メタデータ等)の全ての識別子の完全な集まりである。ゲノムデータセットマッピングテーブルは、各ゲノムデータセットに関連付けられたゲノムデータのストリームの識別子を提供することにより、ゲノム配列へのランダムアクセスを可能にするのに役立つ。
Figure 0006949970
上述したGDMTを作るシンタックス要素は以下の意味及び機能を有する。
Figure 0006949970
extension_fieldは、ゲノムデータセット又は1つのゲノムデータセット構成要素のいずれかを更に記述するのに使用し得る任意選択的な記述子である。
参照IDマッピングテーブル
参照IDマッピングテーブル(RIDMT)は、ストリーミングプロセスの開始時に生成され送信される。RIDMTは、ゲノムデータセットリストに続き1つのパケットによって搬送される。RIDMTは、アクセスユニットのブロックヘッダに含まれる参照配列の数値識別子(REFID)と、表1において指定される主要ヘッダに含まれる(通常、文字の)参照識別子との間のマッピングを指定する。
RIDMTは、
・ストリーミングされたデータ内の対応点及び関連依存性の更新を可能にするため、
・予め存在する参照配列に追加される新しい参照配列の統合(例えば、de−novoアセンブリプロセスによって作成される合成参照)をサポートするため
に、定期的に再送信することができる。
RIDMTデータ構造のシンタックスは、各シンタックス要素に関連付けられるデータ型の表示と共に以下の表に提供される。
Figure 0006949970
上述したRIDMTを作るシンタックス要素は以下の意味及び機能を有する。
Figure 0006949970
ゲノムデータストリーム
ゲノムデータマルチプレックスは、1つ又は幾つかのゲノムデータストリームを含み、各ストリームは、
・輸送情報(例えば、ゲノムデータセットリスト、ゲノムデータセットマッピングテーブル等)を含むデータ構造、
・本発明に記載されるゲノムデータレイヤの1つに属するデータ、
・ゲノムデータに関連するメタデータ、
・任意の他のデータ
を輸送することができる。
ゲノムデータを含むゲノムデータストリームは基本的に、ゲノムデータレイヤをパケット化したものであり、各パケットは、パケットの内容及びマルチプレックスの他の要素といかに関連するかを記述したヘッダが前置される。
本明細書に記載されるゲノムデータストリームフォーマット及び本発明において定義されるファイルフォーマットは同義である。完全なファイルフォーマットは、全てのデータを受信した後でのみ、完全に再構築することができるが、ストリーミングの場合、復号化ツールは、任意のときに部分データを再構築し、アクセスし、処理を開始することができる。
ゲノムデータストリームは、それぞれが1つ又は複数のゲノムデータパケットを含む幾つかのゲノムデータブロックによって構成される。ゲノムデータブロック(GDB)は、1つのゲノムAUを構成するゲノム情報のコンテナである。GDBは、通信チャネル要件に従って幾つかのゲノムデータパケットに分割することができる。ゲノムアクセスユニットは、異なるゲノムデータストリームに属する1つ又は複数のゲノムデータブロックによって構成される。
ゲノムデータパケット(GDP)は、1つのGDBを構成する送信ユニットである。パケットサイズは通常、通信チャネル要件に従って設定される。
図27は、本発明において定義されるPに属するデータを符号化する場合、ゲノムマルチプレックス、ストリーム、アクセスユニット、ブロック、及びパケットの関係を示す。この例では、3つのゲノムストリームが、配列リードの位置、ペア、及び逆相補についての情報をカプセル化する。
ゲノムデータブロックは、ヘッダ、圧縮データのペイロード、及びパディング情報によって構成される。以下の表に、各フィールド及び典型的なデータ型の説明と共に、GDBヘッダの実装の一例を提供する。
Figure 0006949970
AUID、POS、及びBSの使用は、本発明においてマスタインデックステーブル(MIT)及びローカルインデックステーブル(LIT)と呼ばれるデータ索引付けメカニズムをデコーダが再構築できるようにする。データストリーミングシナリオでは、AUID及びBSの使用は、追加データを送信する必要なく、受信側がLITをローカルに動的に再作成できるようにする。AUID、BS、及びPOSの使用は、追加データを送信する必要なく、MITをローカルに再作成できるようにする。
これには、
・LIT全体が送信される場合、大きいことがある符号化オーバーヘッドを低減し、
・通常、ストリーミングシナリオでは利用可能ではない、ゲノム位置とアクセスユニットとの間の完全なマッピングの必要性をなくす
という技術的利点を有する。
ゲノムデータブロックは、最大パケットサイズ、パケット損失率等のネットワークレイヤ制約に応じて、1つ又は複数のゲノムデータパケットに分割することができる。ゲノムデータパケットは、以下の表に記載されるように、ヘッダと、符号化又は暗号化されたゲノムデータのペイロードとで構成される。
Figure 0006949970
ゲノムマルチプレックスは、あらゆるパケットを特定のゲノムデータセット構成要素にマッピングできるようにする少なくとも1つのゲノムデータセットリスト、1つのゲノムデータセットマッピングテーブル、及び1つの参照IDマッピングテーブルを受信した場合のみ、適宜復号化することができる。
マルチプレックス符号化プロセス
図49は、本発明において提示されるデータ構造で変換される前、生のゲノム配列データがいかに、事前に既知の1つ又は複数の参照配列にマッピングされる必要があるかを示す(493)。参照配列が利用可能ではない場合、合成参照を生の配列データから構築することができる(490)。このプロセスはde−novoアセンブリとして知られている。既にアラインメントされたデータは、情報エントロピーを低減するために、再アラインメントすることができる(492)。アラインメント後、ゲノム分類器(494)は、1つ又は複数の参照配列上の配列リードの照合関数に従ってデータクラスを作成し、メタデータ(432)(例えば、クオリティ値)及び注釈データ(431)をゲノム配列から分離する。次に、データパーサ(495)が、本発明に記載されるアクセスユニットを生成し、ゲノムマルチプレクサ(496)に送信し、ゲノムマルチプレクサ(496)はゲノムマルチプレックスを生成する。

Claims (15)

  1. 多重化データストリームとしてゲノムデータを送信する方法であって、
    前記多重化データストリームは、
    ゲノムストリーム内で利用可能なゲノムデータを含む全てのゲノムデータセットのリストを提供するゲノムデータセットリストデータ構造と、
    各ゲノムデータセットに関連付けられた前記ゲノムデータの各ストリームの識別子を提供するゲノムデータセットマッピングテーブルと、
    ランダムにアクセス可能なアクセスユニットに分割されたゲノムデータセットと、
    を含み、
    前記ゲノムストリームは、ゲノム配列リードを単意的に表す同種データ記述子の複数のレイヤに編成される符号化されたアラインメントリードを含み、
    各アクセスユニットのヘッダには、参照ゲノムに対する絶対位置として最初のリードのマッピング位置が記憶され、
    他の全ての位置は、前の位置からの差分として表現されて特定のレイヤに記憶され、
    前記方法は、同種データ記述子の前記複数のレイヤを圧縮し、前記データストリームを送信することを更に含む、方法。
  2. 更に、前記アクセスユニットのブロックヘッダに含まれる参照配列の数値識別子と、前記ストリームのメインヘッダに含まれる参照識別子との間のマッピングを提供する参照IDマッピングテーブルとを生成して送信する、請求項1に記載の方法。
  3. 前記ゲノムデータセットはアクセスユニットに分割される、請求項2に記載の方法。
  4. 前記アクセスユニットはブロックに分割される、請求項3に記載の方法。
  5. 前記ブロックはパケットに分割される、請求項4に記載の方法。
  6. 前記ゲノムデータセットリストは、各ゲノムデータセットに関連付けられ、前記多重化ストリームにおいて多重化される前記ストリームを識別する情報を含む、請求項1〜5のいずれか一項に記載の方法。
  7. 前記ゲノムデータセットマッピングテーブルは、各ゲノムデータセットに関連付けられた前記ゲノムデータのストリームを識別する情報を含むことにより、ゲノム配列へのランダムアクセスを可能とする、請求項1〜5のいずれか一項に記載の方法。
  8. 各ゲノムデータセットに関連付けられた前記ゲノムデータのストリームは、ゲノム配列、参照ゲノム配列、メタデータを含む、請求項7に記載の方法。
  9. 前記ゲノムデータセットマッピングテーブルは、前記ゲノムデータセットリストに続けて1つのパケットで送信される、請求項1に記載の方法。
  10. 前記ゲノムデータセットリストデータ構造は、1つの輸送パケットのペイロードとして送信される、請求項1に記載の方法。
  11. 前記ゲノムデータセットリストデータ構造は、前記ストリームへのランダムアクセスを可能にするために定期的に再送信される、請求項10に記載の方法。
  12. 請求項1〜11のいずれか一項に記載の方法を実行する、送信装置。
  13. 請求項1〜11のいずれか一項に記載の方法を実行する命令セットを含むプログラムを記録したコンピュータ可読記録媒体。
  14. 前記ゲノムデータをファイルフォーマットを形成するように編成する、請求項1〜11のいずれか一項に記載の方法。
  15. 請求項12に記載される送信装置を含む多重化ゲノムデータを伝送するシステム。
JP2019540490A 2016-10-11 2016-10-11 バイオインフォマティクスデータを送信する方法及びシステム Active JP6949970B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/074311 WO2018068830A1 (en) 2016-10-11 2016-10-11 Method and system for the transmission of bioinformatics data

Publications (2)

Publication Number Publication Date
JP2019537170A JP2019537170A (ja) 2019-12-19
JP6949970B2 true JP6949970B2 (ja) 2021-10-13

Family

ID=57241051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019540490A Active JP6949970B2 (ja) 2016-10-11 2016-10-11 バイオインフォマティクスデータを送信する方法及びシステム

Country Status (19)

Country Link
US (1) US20200051668A1 (ja)
EP (1) EP3526712B1 (ja)
JP (1) JP6949970B2 (ja)
KR (1) KR20190062543A (ja)
CN (1) CN110178183B (ja)
AU (1) AU2016426572A1 (ja)
BR (1) BR112019007313A2 (ja)
CA (1) CA3039692A1 (ja)
CL (1) CL2019000955A1 (ja)
CO (1) CO2019003580A2 (ja)
EA (1) EA201990931A1 (ja)
ES (1) ES2867874T3 (ja)
IL (1) IL265907B1 (ja)
MX (1) MX2019004126A (ja)
PE (1) PE20191059A1 (ja)
PH (1) PH12019500795A1 (ja)
PL (1) PL3526712T3 (ja)
SG (1) SG11201903174SA (ja)
WO (1) WO2018068830A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10554220B1 (en) 2019-01-30 2020-02-04 International Business Machines Corporation Managing compression and storage of genomic data
US20210043319A1 (en) * 2019-05-14 2021-02-11 Blayne Lequeux Healthcare data cloud system, server and method
EP3896698A1 (en) 2020-04-15 2021-10-20 Genomsys SA Method and system for the efficient data compression in mpeg-g

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4852313B2 (ja) * 2006-01-20 2012-01-11 富士通株式会社 ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
JP5863765B2 (ja) * 2010-03-31 2016-02-17 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute 符号化方法および装置、そして、復号化方法および装置
EP2544113A1 (en) * 2011-07-05 2013-01-09 Koninklijke Philips Electronics N.V. Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font
KR101922129B1 (ko) * 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
EP2788861B1 (en) * 2011-12-08 2019-05-15 Five3 Genomics, LLC Distributed system providing dynamic indexing and visualization of genomic data
US20140108323A1 (en) * 2012-10-12 2014-04-17 Bonnie Berger Leighton Compressively-accelerated read mapping
US9483610B2 (en) * 2013-01-17 2016-11-01 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
CN103971694B (zh) * 2013-01-29 2016-12-28 华为技术有限公司 带宽扩展频带信号的预测方法、解码设备
CN103336916B (zh) * 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
NL2012222C2 (en) * 2014-02-06 2015-08-10 Genalice B V A method of storing/reconstructing a multitude of sequences in/from a data storage structure.
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
US10116632B2 (en) * 2014-09-12 2018-10-30 New York University System, method and computer-accessible medium for secure and compressed transmission of genomic data
WO2016081712A1 (en) * 2014-11-19 2016-05-26 Bigdatabio, Llc Systems and methods for genomic manipulations and analysis
JP6788587B2 (ja) * 2014-11-25 2020-11-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータの安全な転送
US10394763B2 (en) * 2015-05-19 2019-08-27 Samsung Electronics Co., Ltd. Method and device for generating pileup file from compressed genomic data
US11393559B2 (en) * 2016-03-09 2022-07-19 Sophia Genetics S.A. Methods to compress, encrypt and retrieve genomic alignment data

Also Published As

Publication number Publication date
BR112019007313A2 (pt) 2019-09-17
CN110178183B (zh) 2023-11-21
CA3039692A1 (en) 2018-04-19
EA201990931A1 (ru) 2019-11-29
PE20191059A1 (es) 2019-08-06
WO2018068830A1 (en) 2018-04-19
JP2019537170A (ja) 2019-12-19
CO2019003580A2 (es) 2019-08-30
EP3526712B1 (en) 2021-03-24
EP3526712A1 (en) 2019-08-21
SG11201903174SA (en) 2019-05-30
PH12019500795A1 (en) 2019-12-02
ES2867874T3 (es) 2021-10-21
WO2018068830A9 (en) 2018-08-30
KR20190062543A (ko) 2019-06-05
MX2019004126A (es) 2019-06-12
US20200051668A1 (en) 2020-02-13
CL2019000955A1 (es) 2019-08-23
CN110178183A (zh) 2019-08-27
AU2016426572A1 (en) 2019-06-06
PL3526712T3 (pl) 2021-12-13
IL265907B1 (en) 2024-06-01
IL265907A (en) 2019-06-30

Similar Documents

Publication Publication Date Title
US20200042735A1 (en) Method and system for selective access of stored or transmitted bioinformatics data
JP6902104B2 (ja) バイオインフォマティクス情報表示のための効率的データ構造
US11386979B2 (en) Method and system for storing and accessing bioinformatics data
JP6949970B2 (ja) バイオインフォマティクスデータを送信する方法及びシステム
AU2018221458A1 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
NZ753247B2 (en) Efficient data structures for bioinformatics information representation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210922

R150 Certificate of patent or registration of utility model

Ref document number: 6949970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150