JP2020505702A - 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム - Google Patents

保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム Download PDF

Info

Publication number
JP2020505702A
JP2020505702A JP2019540510A JP2019540510A JP2020505702A JP 2020505702 A JP2020505702 A JP 2020505702A JP 2019540510 A JP2019540510 A JP 2019540510A JP 2019540510 A JP2019540510 A JP 2019540510A JP 2020505702 A JP2020505702 A JP 2020505702A
Authority
JP
Japan
Prior art keywords
data
genomic
type
class
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2019540510A
Other languages
English (en)
Inventor
ゾイア,ジョルジョ
レンジ,ダニエル
コソ バルチ,モハメド
コソ バルチ,モハメド
Original Assignee
ゲノムシス エスエー
ゲノムシス エスエー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/EP2016/074311 external-priority patent/WO2018068830A1/en
Priority claimed from PCT/EP2016/074307 external-priority patent/WO2018068829A1/en
Priority claimed from PCT/EP2016/074301 external-priority patent/WO2018068828A1/en
Priority claimed from PCT/EP2016/074297 external-priority patent/WO2018068827A1/en
Application filed by ゲノムシス エスエー, ゲノムシス エスエー filed Critical ゲノムシス エスエー
Publication of JP2020505702A publication Critical patent/JP2020505702A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3086Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Television Signal Processing For Recording (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

ゲノムデータの保存または送信は、ファイルまたはゲノムデータのストリームに構造化された圧縮ゲノムデータセットを採用することによって実現される。特定のゲノム領域に対応するデータまたはデータのサブセットへの選択的なアクセスは、データ分類および特定のインデックスメカニズムに基づいてユーザ定義のラベルを使用することによって達成される。【選択図】図48

Description

本出願は、ゲノムデータセットを構成する異なるデータカテゴリの効率的な選択的アクセスおよび選択的保護を可能にする、バイオインフォマティクスデータ、特にゲノム配列データの圧縮形式での効率的な保存、送信および多重化のための新しい方法を提供する。
ゲノムシーケンスデータの適切な表示は、シーケンスデータおよびメタデータを処理することによって、様々な目的で行われるゲノムバリアントの決定および全ての分析のような分析アプリケーションを可能にし、容易にするために、ゲノムデータの効率的な処理、保存、送信を可能にすることが重要である。現在、ゲノム配列情報は、定義された語彙からの文字列によって表されるヌクレオチド(別名:塩基)配列の形でハイスループットシーケンシング(HTS)装置によって生成される。
これらのシーケンシング装置は全てのゲノムまたは遺伝子を読み出すのではないが、それらはシーケンスリードとして知られるヌクレオチド配列の短いランダム断片を生成する。品質スコアは、シーケンスリードの各ヌクレオチドに関連付けられている。そのような数値は、ヌクレオチド配列中の特定の位置における特定のヌクレオチドの読み取りに対して装置によって与えられる信頼水準を示す。
NGS装置によって生成されたこの生のシーケンスデータは、通常FASTQファイルに保存されている(図1参照)。
シーケンスプロセスによって得られたヌクレオチドの配列を示す最小の語彙は、DNAに存在するアデニン、シトシン、グアニン、チミンを示す4種類のヌクレオチドと、シーケンシング装置が十分なレベルの信頼度で任意の塩基をもたらすことができなかったことを示し、このような位置のベースの種類は読取プロセスにおいて未確定のままであるシンボルNとの5個のシンボル[A、C、G、T、N]によって構成される。RNAにおいてチミンはウラシル(U)に置換される。シーケンシング装置によって生成されたヌクレオチド配列は、「リード」と呼ばれる。ペアのリードの場合、リードペアが抽出された元の配列を示すために「テンプレート」という用語が使用される。シーケンスリードは数十から数千までの範囲の数のヌクレオチドで構成することができる。いくつかの技術は、各リードがDNA2本鎖の内の1つから生じることができるペアでシーケンスリードを生成する。
ゲノムシーケンシングの分野において、「カバレッジ」という用語は、参照ゲノムに対する配列データの冗長性のレベルを示すために使用される。例えば、ヒトゲノム(3.2億ベース長)の30倍のカバレッジに達するためには、シーケンシング装置は、参照内の各位置が平均30回「カバーされる」ように、合計約30×3.2億ベース生成しなければならない。
先行技術の解決策
最も使用されている配列データのゲノム情報表示は、オリジナルのサイズを縮小することを試みるために、ジップ形式で一般に利用可能であるFASTQおよびSAMファイルフォーマットに基づいている。従来のファイルフォーマットである、非整列および整列された配列データそれぞれのためのFASTQおよびSAMは、プレーンテキスト文字で構成されるため、LZ(LempelとZivから)方式(周知のzip、gzip等)などの汎用アプローチを使用して圧縮される。 Gzipなどの汎用コンプレッサを使用する場合、圧縮の結果は通常、単一のバイナリデータのブロブである。このようなモノリシック形式の情報は、データのボリュームが非常に大きい高スループットシーケンシングの場合には、アーカイブ、転送、が非常に困難である。
シーケンシング後、ゲノム情報処理パイプラインの各段階は、実際には生成されたデータのごく一部が前の段階に対して新しいという事実にもかかわらず、全く新しいデータ構造(ファイルフォーマット)によって表されるデータを生成する。
図1は、典型的なゲノム情報処理パイプラインの主要な段階を関連するファイルフォーマット表現の表示と共に示す。
一般的に使用される解決法は、いくつかの欠点を提示する。ゲノム情報処理パイプラインの各段階で異なるファイルフォーマットが使用され、それがデータの多重複製を意味し、その結果必要な記憶スペースが急速に増加するので、一般的にデータアーカイブは非効率的である。これは非効率的で不必要であり、また、HTS装置によって生成されるデータ量の増加に対して維持不可能になりつつある。実際に、これは利用可能な保存スペースおよび発生コストの点で結果を招き、また、医療におけるゲノム分析の利益が人口の大部分に達することを妨げている。保存および分析されるべき配列データの指数的な増加によって生じるITコストの影響は、現在、科学的コミュニティ及びヘルスケア業界が直面しなければならない主な課題の一つである(Scott D. Kahn 「ゲノムデータの将来について」 Science 331、728(2011)およびPavlichin,D.S.、Weissman,T.、およびG.Yona.2013. 「ヒトゲノムは、再び縮小する」 Bioinformatics 29(17):2199−2202を参照)。同時に、いくつかは、少数の選択された個体から大きな集団へとゲノム配列決定をスケールすることを試みる先駆けである。(Josh P. Roberts 「シーケンスのミリオンベテラン」 Nature Biotechnology31、470(2013)を参照)
現在使用されているデータフォーマットは、処理するために受信側で完全に転送される必要がある最大数百ギガバイトのサイズのモノリシックファイルに編成されているので、ゲノムデータの転送は低速でかつ非効率的である。これは、データの小さなセグメントの分析に、消費される帯域幅および待機時間の観点からかなりのコストをかけてファイル全体の転送を必要とすることを意味する。多くの場合、オンライン転送は大容量のデータを転送するのには無理があり、データの転送は、ハードディスクドライブやストレージサーバ等の記憶媒体をある場所から別の場所に物理的に移動することによって行われる。
当技術手法を採用する際に生じるこれらの制限は、本発明によって克服される。
データの処理は時間がかかり、一般的に使用される分析アプリケーションで必要とされる一部の異なるクラスのデータおよびメタデータを、全データにアクセスする必要なしに取り出すことができないように情報が構築されていないという事実に関しては非効率的である。この事実は、特定の分析目的に関連するデータの部分がはるかに小さくても、アクセスの各段階で大量のデータを解析およびフィルタリングする必要があるため、一般的な分析パイプラインは数日又は数週間実行し、貴重で高価な処理資源を浪費する必要があることを意味する。
これらの制限は、ヘルスケアの専門家がタイムリーにゲノム分析レポートを取得し、疾患に迅速に対応することを防げる。本発明は、この必要性に対する解決策を提供する。
本発明によって克服される他の技術的制限がある。
実際、本発明は、データおよびメタデータの圧縮が最大化され、増分更新のための選択的アクセスおよびサポートのようないくつかの機能が効率的に可能になるように、データを編成および分割することによって、適切なゲノム配列データおよびメタデータの表示を提供することを目的とする。
本発明の主な態様は、特定のレイヤに構造化することによって別々にコード化(すなわち圧縮)された適切なソースモデルによって表されるデータおよびメタデータのクラスの特定の定義である。従来の先行技術の方法に関する本発明の最も重要な効果は、以下のものからなる。
・データ又はメタデータの各クラスに対して効率的なモデルを提供することにより構成される情報ソースエントロピーの低減による圧縮性能の向上・圧縮されたドメインにおいて直接的にさらなる処理の目的のために圧縮されたデータおよびメタデータの一部への選択的なアクセスを実行する可能性
・ゲノムファイルヘッダに含まれる「ラベルリスト」を解析することによって圧縮データへの効率的な選択的アクセスを可能にするために、ゲノム領域もしくはサブ領域、または領域もしくはサブ領域の集合体を識別するユーザ指定の「ラベル」を定義する可能性
・ラベルによって識別される異なるゲノム領域またはサブ領域へのアクセス制御および保護を実施する可能性
・新たなシーケンスデータおよび/またはメタデータおよび/または新たな分析結果を有するコード化データおよびメタデータをさらに(再コード化することなく)更新および追加する可能性
・シーケンシングまたはアライメントプロセスの終了を待たずに、シーケンシング装置またはアライメントツールによって生成されたらすぐにデータを効率的に処理する可能性
本出願は、多重化技術と組み合わせた構造化アクセスユニットアプローチを採用することによって、非常に大量のゲノム配列データの効率的な操作、保存および送信の問題に対処する方法およびシステムを開示する。
本出願は、ゲノムデータのアクセス可能性、選択的データ保護、データサブセットの効率的な処理、効率的な圧縮と組み合わされた送信およびストリーミング機能の機能性に関する従来技術のアプローチのすべての制限を克服する。
現在、ゲノムデータのための最も使用されている表現フォーマットは、シーケンスアライメントマッピング(SAM)テキストフォーマットおよびそのバイナリ対応BAMである。SAMファイルは人間が読めるASCIIテキストファイルであるが、BAMはgzipのブロックベースバリアントを採用する。BAMファイルは、ランダムアクセスの限定された様式を可能にするためにインデックスを付けることができる。これは、別のインデックスファイルの作成によってサポートされる。
BAMフォーマットは、以下の理由により、圧縮性能が不十分であることを特徴とする。
1. SAMファイルによって伝達された実際のゲノム情報を抽出し、それを圧縮するための適切なモデルを使用するのではなく、非効率的かつ冗長なSAMファイルフォーマットを圧縮することに焦点を当てている。
2. 各データソース(ゲノム情報自体)の固有の性質を開発するのではなく、gzipなどの汎用テキスト圧縮アルゴリズムを採用している。
3. いかなる概念も欠いており、特定のクラスのゲノムデータへの選択的アクセスを提供するメカニズムの実行を可能にするであろうデータ分類に関連するいかなる機能性もサポートしない。
あまり一般的ではないがBAMよりも効率的なゲノムデータ圧縮に対するより洗練されたアプローチはCRAM(CRAM仕様:https://samtools.github.io/hts-specs/CRAMv3.pdf)である。CRAMは、既存の基準に対して差分コード化を採用するためのより効率的な圧縮を提供する(これは、データソースの冗長性を部分的に利用する)が、追加の更新、ストリーミングのためのサポート、および特定のクラスの圧縮されたデータへの選択的なアクセスのような機能は欠けている。
CRAMは、CRAMレコードの概念に依存する。各CRAMレコードは、それを再構成するために必要なすべての要素をコード化することによって、単一のマップされたまたはマッピングされていないリードをコード化する。
CRAMは、本明細書に記載された本発明によって解決され除去される以下の欠点および制限を提示する。
1. CRAMは、特定の特徴を共有するデータサブセットへのデータのインデックス作成およびランダムアクセスをサポートしない。データインデックス作成は、仕様の範囲外であり(CRAM仕様v3.0のセクション12参照)、別のファイルとして実装される。逆に、この明細書に記載されている本発明のアプローチは、コード化プロセスと統合されており、インデックスがコード化された(すなわち、圧縮された)ビットストリームに埋め込まれているデータインデックス方法を採用する。
2. CRAMは、選択的アクセスが効率的であり、ランの分離(すなわち、実際の有機サンプルからゲノム情報を抽出するプロセス)が維持されるように、いくつかのシークエンスランに関連するデータの集約をサポートしない。CRAMはリードを異なるグループに属するものとして分類する可能性を提供するが、これはリードごとのリードベースで提供され、異なるグループからのリードはファイル構造内で混合される。本発明では、効率的な選択的アクセスが利用可能となるように、異なるシーケンシングラン間の分離を維持するようにデータを構造化するための方法が記載される。
3. CRAMは、あらゆるタイプのマップされたリード(完全一致リード、置換のみのリード、挿入または欠失のあるリード(「インデル」とも呼ばれる))を含むことができるコアデータブロックによって構築される。参照シーケンスに対するマッピングの結果に応じた、クラス内のリードのデータ分類およびグループ化の概念は存在しない。これは、特定の特徴を有するリードのみが検索された場合でも、全てのデータを検査する必要があることを意味する。このような制限は、コード化の前にデータをクラスに分類し、分割することによって、本発明によって解決される。
4. CRAMは、各リードを「CRAMレコード」にカプセル化するという概念に基づく。これは、特定の生物学的特徴を特徴とするリード(例えば、置換はあるが「インデル」は含まないリード、または完全にマッピングされたリード)を検索するときに、それぞれの完全な「レコード」を調べる必要があることを意味する。
逆に、本発明では、別個の情報レイヤで別々にコード化されたデータクラスの概念があり、各リードをカプセル化するレコードの概念はない。これは、その特徴を検査するために各(複数の)ブロックのリードを必要とせずに、特定の生物学的特性を有する一連のリード(例えば、置換を伴うが「インデル」なしのリード、または完全にマッピングされたリード)へのより効率的なアクセスを可能にする。
5. CRAMレコードにおいて、各CRAMレコードが任意の異なるタイプのデータを含むことができるので、レコード内の各フィールドは特定のフラグに関連付けられ、各フラグはコンテキストの概念がないので常に同じ意味を有していなければならない。このコーディングメカニズムは、冗長な情報を導入し、効率的なコンテキストベースのエントロピーコーディングの使用を防げる。
逆に、本発明では、データが属する情報「レイヤ」によって本質的に定義されているので、データを示すフラグの概念は存在しない。これは、使用されるシンボルの数が大幅に削減され、結果として情報ソースのエントロピーが減少し、結果としてより効率的な圧縮がもたらされることを意味する。このような改善は、異なる「レイヤ」を使用することにより、エンコーダはコンテキストに応じて異なる意味を有する各レイヤにわたって同一のシンボルを再利用することによって可能である。CRAMでは、コンテキストの概念が存在しないので、各フラグは常に同じ意味を有していなければならず、各CRAMレコード、任意のタイプのデータを含むことができる。
6. CRAMにおいて、置換、挿入および欠失は、異なる構文要素、情報ソースアルファベットのサイズを増大させ、より高いソースエントロピーをもたらすオプションを使用することによって表される。逆に、開示された本発明のアプローチは、単一のアルファベットを使用し、置換、挿入および欠失をコード化する。これにより、コード化およびデコード化プロセスが単純化され、コード化がもたらす高い圧縮性能を特徴とするビットストリームである低エントロピーソースモデルが生成される。
7. CRAMは、ゲノムデータの特定の領域もしくは部分領域またはそれらの集合体を独自に識別するためのいかなるメカニズムも提供しない。CRAM仕様によれば、参照シーケンス上の開始位置および終了位置に関する遺伝子座の定義とは別に、以下の方法はない。
―― 領域にラベルを付け、ゲノムの開始位置と終了位置の代わりに定義されたラベルを使用してアクセスする。同じゲノム領域の開始位置および終了位置は、新しい参照シーケンスが公表されると変化する可能性があるが、定義されたラベルはそのような変化をいかなるエンドユーザーにも隠すであろう。コード化およびデコード化システムは、ラベルによって識別された実際の領域を新たに公開された参照シーケンスに適合させるように注意を払うであろう。
―― エンドユーザーが複雑にネスト化したクエリを含まない単一のクエリで必要なデータを選択できるように、同じラベルの下に複数の領域またはサブ領域を集約する。この明細書で説明されているように、全体の集約メカニズムはコード化およびデコード化システムに組み込まれる。
8. CRAMは、そのような領域が予め定義されている場合も、それらがユーザが適切な"ラベル"を挿入することによって指定されている場合も、ゲノムデータまたはその集合体の特定の領域またはサブ領域に対する選択的な保護およびアクセス制御を実施するための任意のメカニズムを提供またはサポートしない。
CRAMの他に、ゲノムデータ圧縮及び処理に対する他のアプローチも、所望の機能の大部分に対して強力な制限を与えるものであり、明細書の以下に記載され特定されるような本発明の開示によって提供される特徴をサポートしない。
従来技術で使用されるゲノム圧縮アルゴリズムは、これらのカテゴリに分類することができる。
・変換ベース
・LZ‐ベース
・リード並べ替え
・アセンブリ‐ベース
・統計的モデリング
最初の2つのカテゴリーは、データソース(ゲノムシーケンスのリード)の特定の特性を利用しないという欠点を共有し、そのような種類の情報(例えば、リード間の冗長性、既存のサンプルへの参照)の特定の特性を考慮せずに圧縮されるテキストの文字列としてゲノムデータを処理する。ゲノムデータ圧縮のための最も進歩した2つのツールキット、すなわちCRAMとGoby(「構造化ハイスループットシーケンシングデータの圧縮」、F.Campagne、K.C.Dorff、N.Chambwe、J.T.Robinson、J.P.Mesirov、T.D.Wu)は、データを幾何学的分布によって独立した同一の分布として暗黙的にモデル化するため、算術コード化をうまく利用していない。Gobyは、すべてのフィールドを整数のリストに変換し、各リストは、コンテキストを使用することなく算術コード化を使用して独立にコード化されるので、わずかに洗練されている。最も効率的な動作モードでは、Gobyは、圧縮を改善するために整数リストにわたっていくつかのインターリストモデリングを実行することができる。これらの先行技術の解決策は、圧縮率およびデータ構造が貧弱であり、一度圧縮されると選択的にアクセスし操作することが不可能ではないにしても困難である。 下流の分析ステージは、単純な操作を行うため、またはゲノムデータセットの選択された領域にアクセスするためであっても、大型で剛性のあるデータ構造を取り扱う必要があるため、非効率的で非常に遅くなり得る。
ゲノム処理パイプラインで使用されるファイルフォーマット間の関係の簡略図が図1に示されている。この図では、ファイルの包含はネスト化されたファイル構造の存在を意味するのではなく、各フォーマットに対してコード化できる情報のタイプと量を表すだけである(つまり、SAMはFASTQのすべての情報を含み、異なるファイル構造で編成される)。 CRAMはSAM/BAMと同じゲノム情報を含むが、使用可能な圧縮のタイプにおいてより柔軟性があり、それはSAM/BAMのスーパーセットとして表される。
ゲノム情報の保存のための複数のファイルフォーマットの使用は、非常に非効率であり、コストがかかる。ゲノム情報ライフサイクルの異なる段階で異なるファイルフォーマットを有することは、増分情報が最小であっても、利用される記憶空間の線形成長を意味する。先行技術の解決策のさらなる欠点を以下に列挙する。
1. 圧縮されたFastQファイルまたはそれらの任意の組み合わせに格納された生データにアクセスし、分析し、または注釈(メタデータ)を追加することは、計算リソースおよび時間の広範な使用と共にファイル全体の解凍および再圧縮を必要とする。
2. リードマッピング位置、リードバリアント位置およびタイプ、インデル位置およびタイプ、BAMファイルに格納されたアライメントされたデータに含まれる任意の他のメタデータおよび注釈のような情報の特定のサブセットを取得するには、各リードに関連付けられたデータボリューム全体にアクセスする必要がある。単一のクラスのメタデータへの選択的アクセスは、先行技術の解決策では不可能である。
3. 従来技術のファイルフォーマットは、処理が開始できる前に、ファイル全体がエンドユーザに受信されることを必要とする。例えば、適切なデータ表現に基づいて、シーケンシングプロセスが完了する前に、リードのアライメントを開始することができる。シーケンシング、アライメントおよび分析は、並行して進行し、実行することができる。
4. 先行技術の解決策は、構造化をサポートしておらず、異なるシーケンシングプロセスによって得られたゲノムデータを、それらの特定の生成セマンティックに従って識別することができない(例えば、同じ個体の一生の異なる時点で得られたシーケンシング)。同じ個体の異なる種類の生物学的サンプルによって得られるシーケンシングについても同様の制限が生じる。
5. データの全部または選択された部分のアクセス制御メカニズム(例えば、暗号化、透かし、電子署名、ハッシング)による保護は、先行技術の解決策ではサポートされていない。例えば、以下の保護は先行技術の解決策のファイルおよびデータフォーマットにおいてサポートされていない。
a.選択されたDNA領域
b.バリアントを含む配列のみ
c.キメラ配列のみ
d.マッピングされていない配列のみ
e.ユーザ定義ラベルで識別される領域またはサブ領域、あるいは領域またはサブ領域の集合体
f.特定メタデータ(例えば、シーケンスされたサンプルの起源、シーケンスされた個人のアイデンティティ、サンプルのタイプ)
6. 与えられた参照(SAM/BAMファイル)に整列した配列データから新しい参照へのトランスコーディングは、以前の参照から単一のヌクレオチドの位置だけが異なる場合であっても、データボリューム全体を処理することを必要とする。
従って、ローカルおよびリモートに格納されたデータの効率的な圧縮、圧縮されたドメインにおける選択的なアクセスおよび保護機能のサポートを可能にし、ゲノムデータ処理のさまざまな段階のすべてのレベルで、圧縮されたドメインに異種メタデータを段階的に追加することをサポートする適切なゲノム情報記憶フォーマット(ゲノムファイルフォーマット)と、トランスポートメカニズムの明確な必要性がある。
本発明は、添付の特許請求の範囲に記載の方法、装置およびコンピュータプログラムを使用することによって先行技術の限界に対する解決策を提供する。
図1は、一般的なゲノムパイプラインの主要なステップと関連するファイルフォーマットを示す。 図2は、最も使用されているゲノムファイルフォーマット間の相互関係を示す。 図3は、デノボアセンブリまたは基準ベースのアライメントを介してゲノム配列のリードが全体または部分的なゲノム内でどのように組み立てられるかを示す。 図4は、参照シーケンス上のどのようにしてリードマッピング位置が計算されるかを示す。 図5は、ペアリング距離がどのように計算されるかを示す。 図6は、ペアリングエラーがどのように計算されるかを示す。 図7は、リードメイトペアが異なる染色体上にマッピングされるときに、ペアリング距離がどのようにコード化されるかを示す。 図8は、ゲノムの第1または第2のDNA鎖からどのようにシーケンスリードを生成することができるかを示す。 図9は、ストランド2にマッピングされたリードが、ストランド1上で対応する逆相補リードを有する様子を示している。 図10は、リードペアを構成するリードとrcompレイヤにおけるそれぞれのコード化との4つの可能な組合せを示す。 図11は、「nタイプ」ミスマッチがnmisレイヤにおいてどのようにコード化されるかを示す図である。 図12は、マッピングされたリードペアにおける置換の例を示す。 図13は、置換位置を絶対値または差分値としてどのように計算することができるかを示す図である。 図14は、IUPACコードなしで、置換をコードするシンボルがどのように計算されるかを示す図である。 図15は、snptレイヤにおいて置換タイプがどのようにコード化されるかを示す。 図18は、IUPACコードによって置換をコードするシンボルがどのように計算されるかを示す図である。 図17は、位置のみがコード化されているが、置換タイプごとに1つのレイヤが使用される場合の置換のための代替的なソースモデルを示す。 図18は、IUPACコードが使用されない場合に、クラスIのリードペアにおける置換、挿入および欠失をどのようにコード化するかを示す。 図19は、LUPACコードが使用される場合、クラスIのリードペアにおける置換、挿入および欠失をどのようにコード化するかを示す。 図20は、本発明によって開示されるゲノム情報データ構造のゲノムデータセットヘッダの構造を示す。 図21は、マスターインデックステーブルが、各アクセスユニットにおける最初のリードの参照シーケンス上の位置をどのように含むかを示す。 図22は、クラスPの各位置AUにおける最初のリードのマッピング位置を示す部分MITの例を示す。 図23は、レイヤヘッダ内のローカルインデックステーブルがペイロード内のAUsに対するポインタのベクトルであることを示す。 図24は、ローカルインデックステーブルの例を示す。 図25は、マスターインデックステーブルとローカルインデックステーブルとの間の機能的関係を示す。 図26は、アクセスユニットがいくつかのレイヤに属するデータのブロックによってどのように構成されるかを示す。レイヤは、パケットに分割されたブロックによって構成される。 図27は、タイプ1のゲノムアクセスユニット(位置情報、対情報、逆相補情報、およびリードの長さ情報を含む)がどのようにパケット化され、そしてゲノムデータマルチプレックス中にカプセル化されるかを示す。 図28は、同種データの1つまたは複数のレイヤに属するヘッダおよび多重化されたブロックによって、アクセスユニットがどのように構成されるかを示す。各ブロックは、ゲノム情報の実際の記述子を含む1つ以上のパケットによって構成することができる。 図29は、アクセスされるまたはデコード化されアクセスされる他のアクセスユニットから来る任意の情報を参照する必要がないタイプ0のアクセスユニットの構造を示す。 図30は、タイプ1のアクセスユニットの構造を示す。 図31は、タイプ1のアクセスユニットを参照するデータを含むタイプ2のアクセスユニットの構造を示す。これらは、コード化されたリードにおけるN塩基の位置である。 図32は、タイプ1のアクセスユニットを参照するデータを含むタイプ3のアクセスユニットの構造を示す。これらは、コード化されたリードにおけるミスマッチの位置およびタイプである。 図33は、タイプ1のアクセスユニットを参照するデータを含むタイプ4のアクセスユニットの構造を示す。これらは、コード化されたリードにおけるミスマッチの位置およびタイプである。 図34は、最初の5種類のアクセスユニットを示す。 図35は、タイプ1のアクセスユニットが、デコード化されたタイプ0のアクセスユニットを参照することを示す。 図36は、タイプ2のアクセスユニットが、デコード化されたタイプ0および1のアクセスユニットを参照することを示す。 図37は、タイプ3のアクセスユニットが、デコード化されたタイプ0および1のアクセスユニットを参照することを示す。 図38は、タイプ4のアクセスユニットが、デコードかされたタイプ0および1のアクセスユニットを参照することを示す。 図39は、参照シーケンスの第2のセグメント(AU0〜2)にマッピングされたミスマッチを有するシーケンスリードをデコード化するのに必要なアクセスユニットを示す。 図40は、利用可能な生ゲノム配列データを予めコード化されたゲノムデータにどのように増分的に追加できるかを示す。 図41は、アクセスユニットに基づくデータ構造が、シーケンシングプロセスが完了する前に、ゲノムデータ分析を開始することを可能にする方法を示す。 図42は、既存のデータに対して行われた新しい分析が、リードをタイプ4のAUからタイプ3のAUに移動することを示していることを示す。 図43は、新たに生成された分析データが、タイプ8の新しいAUにカプセル化され、対応するインデックスがMITにおいてどのように作成されるかを示す。 図44は、新しい参照シーケンス(ゲノム)の公表によるデータのトランスコード方法を示す。 図45は、より良い品質(例えばインデルなし)で新しいゲノム領域にマッピングされたリードが、タイプ4のAUからタイプ3のAUにどのように移動されるかを示す。 図46は、新しいマッピング位置が発見された場合に(例えば、ミスマッチがより少ない場合)、関連するリードを1つのAUから同じタイプの別のAUにどのように移動させることができるかを示す。 図47は、保護すべき機密情報を含む場合にのみ、タイプ4のアクセスユニットに選択的な暗号化をどのように適用できるかを示す。 図48は、ゲノムストリーム484およびゲノムデータセットマッピングテーブルリスト481、ゲノムデータセットマッピングテーブル485、参照識別子マッピングテーブル487のストリームを含む1つまたは複数のゲノムデータセット482〜483の、ゲノムマルチプレックス内へのデータカプセル化を示す。各ゲノムストリームは、ヘッダ488およびアクセスユニット486によって構成される。アクセスユニットは、パケット4810によって構成されるブロック489をカプセル化する。 図49は、生のゲノム配列データ(499)または整列されたゲノムデータ(要素491によって生成される)がどのように処理されてゲノムマルチプレックスにカプセル化されるかを示す。アライメント(491)および参照ゲノム構築(492)段階は、コード化のためのデータを調製するために必要であり得る。データ分類ユニット(494)によって生成されるデータクラス(498)は、参照変換ユニット(4919)によって生成された1つまたは複数の変換された参照に関してさらに分類することができる。変換されたクラス(4918)は次にレイヤエンコーダ(495〜497)に送られる。生成されたレイヤ(4911)は、ゲノムマルチプレクサ(4916)に供給されるアクセスユニット(4915)のゲノムストリームを生成するエントロピーコーダ(4912〜4914)によってコード化される。 図50は、ゲノムデマルチプレクサ(500)がどのようにゲノムマルチプレクス(5010)からゲノムストリーム(501)を抽出し、AUタイプ(502〜504)ごとに1つのデコーダがどのように、例えばFASTQおよびSAM/BAMのようなゲノムフォーマットを再構築するためにクラスデコーダ(509)によって使用される様々なデータクラス(5011)にデコード(506〜507)されるゲノムレイヤを抽出するかを示す。マルチプレックスビットストリーム(5010)に存在するとき、1つまたは複数の参照変換を含むゲノムストリームがエントロピーデコーダ(504)によってデコードされて参照変換記述子(5012)を生成する。参照変換記述子は、クラスデコーダ(509)によって使用される1つ以上の変換された参照(5014)を生成するために1つ以上の「外部」参照を変換するために参照変換ユニット(5013)によって処理される。 図51は、6つのレイヤの記述子を使用して自己生成参照シーケンスを使用してクラスUに属するシーケンスリードをコード化するプロセスを示す。4つのレイヤは他のクラスP、N、M、Iに使用されているものと同じだが、2つのレイヤはクラスUのリードに固有のものである。 図52は、2つの異なる参照に属するゲノム領域を集約するためにどのようにラベルが構築されるかを示す。 図53は、新たな分析結果が既存のもの(R1、R2およびR3)に追加の領域4を追加する必要がある場合に既存のラベルを更新する方法を示す。 図54は、特定のゲノム領域またはサブ領域にアクセス制御とデータ保護を実行するためにどのようにラベリングメカニズムを使用するかを示している。単純なケースでは、1つのラベルで識別されるすべてのゲノム領域に対して1つのアクセス制御ルール(AC)と1つの保護メカニズム(暗号化など)を使用する。 図55は、同じラベルによって識別される異なるゲノム領域が、いくつかの異なるアクセス制御ルール(AC)と、いくつかの異なる暗号キーによってどのように保護されるかを示す。 図56は、計算された参照に対するリードのマッピング位置をコード化するために、コード付きPOS記述子を使用して、クラスUのリードの代替的なコード化の方法を示す 図57は、ハーフマッピングされたリードペアが、マッピングされていないリードでより長い連続を組み立てることによって、参照シーケンスの未知の領域を埋めるのにどのように役立つかを示す。 図58は、本発明に記載された構造に従って保存されるゲノムデータのヘッダの階層構造を示す。 図59は、本発明により記載されたラベリングメカニズムを実施する装置が、データベースの異なるレコードに格納されるとき、いくつかのゲノム領域に関連するデータへの同時アクセスを可能にする方法を示す。これは、アクセスが制御されているかどうかにかかわらず発生する可能性がある。 図60は、データの分離されたサブクラスを生成するために、クラスN、M、Iのエンコーダにおいて、閾値のベクトルがどのように使用されるかを示す。 図61は、ミスマッチのすべてまたはサブセットが除去されたときに、参照変換がクラスリードをどのように変更できるかの例を示す(すなわち、変換前のクラスMに属するリードは、参照の変換が適用された後にクラスPに割り当てられる)。 図62は、リードからミスマッチ(MMS)を除去するためにどのように参照変換が適用され得るかを示す。場合によっては、参照変換によって新しいミスマッチが生成されたり、変換が適用される前に参照を参照したときに検出されたミスマッチのタイプが変更されることがある。 図63は、同じ参照変換A0をすべてのクラスのデータに対して使用することができ、また異なる変換AN、AM、AIを各クラスN、M、Iに使用することができる。
下記の特許請求の範囲の特徴は、ラベルを使用することによってゲノムデータの領域に選択的にアクセスする方法を提供することにより、既存の先行技術の解決策の問題を解決する。前記ラベルは、ゲノムデータの参照ゲノムシーケンスの識別子(521)、前記ゲノム領域の識別子(522)、およびゲノムデータのデータクラスの識別子(523)を含む。
本方法の別の態様において、前記ゲノムデータはゲノムリードの配列である。
本方法の別の態様において、データクラスは、以下のタイプのものであってもよく、またはそれらのサブセットであってもよい。
・参照シーケンスに対していかなるミスマッチも存在しないゲノムリードを含む「クラスP」
・シーケンシング装置がいずれの「塩基」とも呼ぶことができなかった位置におけるミスマッチのみを含み、前記ミスマッチの数は所与の閾値を超えないゲノムリードを含む「クラスN」
・「n型」ミスマッチと呼ばれるシーケンシング装置がいずれの塩基をももたらせなかった位置におけるミスマッチ、および/または「s型」と呼ばれる参照シーケンスとは異なる塩基をもたらしたもの、そして前記ミスマッチの数は「n型」、「s型」ミスマッチ数に対する所与の閾値を超えず、閾値は所与の関数(f(n、s))から得られるゲノムリードを含む「クラスM」
・ゲノムリードが、「クラスM」と同じタイプのミスマッチを有する可能性があり、さらに少なくとも1つの「挿入」(「i型」)、「欠失」(「d型」)、ソフトクリップ(「c型」)タイプのミスマッチが付加され、各タイプのミスマッチの数が所与の閾値を超えず、閾値は所与の関数(w(n、s、i、d、c)から得られるゲノムリードを含む「クラスI」
クラスP、N、M、Iに分類が見つからないすべてのリードを含む「クラスU」
本方法の別の態様において、前記ゲノムデータはゲノムリードの配列である。
本方法の別の態様において、ペアのリードのデータクラスは、以下のタイプのものであってもよく、またはそれらのサブセットであってもよい。
・参照シーケンスに対していかなるミスマッチも存在しないゲノムリードペアを含む「クラスP」
・シーケンシング装置がいずれの「塩基」とも呼ぶことができなかった位置におけるミスマッチのみを含み、ミスマッチの数は所与の閾値を超えないゲノムリードペアを含む「クラスN」
・「n型」ミスマッチと呼ばれるシーケンシング装置がいずれの塩基をももたらせなかった位置におけるミスマッチだけを含み、前記ミスマッチの数は所与の閾値を超えず、および/または「s型」と呼ばれる参照シーケンスとは異なる塩基をもたらしたもの、そして前記ミスマッチの数は「n型」、「s型」ミスマッチ数に対する所与の閾値を超えず、閾値は所与の関数(f(n、s))から得られるゲノムリードペアを含む「クラスM」
・ゲノムリードペアが、「クラスM」と同じタイプのミスマッチを有する可能性があり、さらに少なくとも1つの「挿入」(「i型」)、「欠失」(「d型」)、ソフトクリップ(「c型」)タイプのミスマッチが付加され、各タイプのミスマッチの数が所与の閾値を超えず、閾値は所与の関数(w(n、s、i、d、c))から得られるリードペアを含む「クラスI」
・1つのリードメイトのみがクラスP、N、M、Iのいずれかに分類されるためのマッチングルールを満たさないリードペアを含む「クラスHM」
両方のリードがクラスP、N、M、Iに分類されるためのマッチングルールを満たさないすべてのリードペアを含む「クラスU」
本方法の別の態様において、前記ゲノム領域の前記識別子は、マスターインデックステーブルに含まれる。
前記方法の別の態様において、前記ゲノムデータおよび前記ラベルは、エントロピコード化される。
本方法の別の態様において、前記マスターインデックステーブル(4812)は、ゲノムデータセットヘッダ(4813)に含まれる。
本方法の別の態様において、前記ゲノムデータ領域は、別個のアクセスユニット(524、486)の間に分散される。
本方法の別の態様において、ファイル内の前記ゲノムデータ領域の位置は、ローカルインデックステーブル(525)に示されている。
本方法の別の態様において、前記ラベルはユーザ指定である。
本方法の別の態様において、前記領域は、ゲノムファイル全体を暗号化することなく、別個の方法で保護および/または暗号化される。
本方法の別の態様において、前記ラベルはゲノムラベルリスト(GLL)に保存される。
別の態様では、本方法は、前に定義されたゲノムデータの領域への選択的アクセスを用いてゲノムデータをコード化することをさらに含む。
本方法の別の態様では、前記ゲノムラベルリストは、複数の同期ポイントを可能にするために定期的に再送信または更新される。
別の態様では、本方法は、前に定義されたゲノムデータの領域への選択的アクセスを用いてゲノムデータのストリームまたはファイルをデコードすることをさらに含む。
本発明は、さらに、前に定義されたゲノムデータをコード化するための装置を提供する。
本発明は、さらに、前に定義されたゲノムデータをデコードするための装置を提供する。
本発明は、さらに、前に定義されたコード化されたゲノムデータを記憶するための記憶手段を提供する。
本発明はさらに、実行されると、少なくとも1つのプロセッサが予め定義されたコード化方法を実行させる命令を含むコンピュータ可読媒体を提供する。
本発明は、さらに、実行されると、少なくとも1つのプロセッサが予め定義されたデコード方法を実行させる命令を含むコンピュータ可読媒体を提供する。
本発明は、分子を表すシンボルのシーケンス形式であるゲノミックまたはプロテオミック情報の保存、送信、アクセスおよび処理をするために使用される、ファイルフォーマットおよび/または関連するアクセスユニットに記憶されたゲノム領域またはサブ領域または圧縮されたゲノムデータの領域またはサブ領域の集合体に対する選択的アクセスおよび選択的アクセス制御を提供するラベリングメカニズムが記載される。
これらの分子には、例えば、ヌクレオチド、アミノ酸およびタンパク質が含まれる。 シンボルのシーケンスとして表される最も重要な情報の一つは、ハイスループットのゲノムシーケンシングデバイスによって生成されたデータである。
あらゆる生物のゲノムは通常、その生物を特徴付ける核酸(塩基)の鎖を表す一連のシンボルとして表される。現在の先行技術のゲノムシーケンシング技術は、メタデータ(識別子、正確さのレベルなど)に関連する核酸のいくつかの(数十億までの)文字列の形でゲノムの断片的な表現のみを生成することができる。このような文字列は、通常、「シーケンスリード」または「リード」と呼ばれる。
ゲノム情報ライフサイクルの典型的なステップは、シーケンスリード抽出、マッピングおよびアライメント、バリアントの検出、バリアントの注釈および機能的および構造的分析から成る(図1を参照)。
シーケンスリード抽出は、ヒトオペレーターまたは機械によって、生物学的試料を構成する分子を表すシンボルの配列の形で遺伝情報の断片を表すプロセスである。核酸の場合、そのような分子は「ヌクレオチド」と呼ばれる。抽出によって生成されたシンボルのシーケンスは、一般に「リード」と呼ばれる。この情報は通常、テキストヘッダと配列された分子を表す一連のシンボルとを含むFASTAファイルとして従来技術においてコード化されている。
生物のDNAを抽出して生物学的サンプルがシーケンスされるとき、アルファベットはシンボル(A、C、G、T、N)によって構成される。
生物のRNAを抽出して生物学的サンプルがシーケンスされるとき、アルファベットはシンボル(A、C、G、U、N)によって構成される。
IUPACがシンボルセットを拡張する場合、いわゆる「あいまいさコード」もシーケンシング装置によって生成され、リードを構成するシンボルに使用されるアルファベットは(A、C、G、T、U、W、S、M、K、R、Y、B、D、H、V、Nまたは−)である。
IUPACあいまいさコードが使用されないとき、品質スコアのシーケンスは、各シーケンスリードに関連付けられる。そのような場合、先行技術の解決策は、結果として得られる情報をFASTQファイルとしてコード化する。シーケンシング装置は、シーケンスリードに以下のようなエラーを導入することがある。
1. シーケンスされた試料中に実際に存在する核酸を表すのに間違ったシンボル(すなわち異なる核酸を表す)の同定。これは通常「置換エラー」(ミスマッチ)と呼ばれる。
2. 実際に存在する核酸を反映していない追加のシンボルである1つの配列リードの挿入。これは通常「挿入エラー」と呼ばれる。
3. 配列決定された試料中に実際に存在する核酸を表すシンボルである1つの配列リードの欠失。これは通常「欠失エラー」と呼ばれる。
4. 実際のオリジナルのシーケンスを反映しない1つ以上のフラグメントの単一のフラグメントへの組換え。
用語「カバレッジ」は、参照ゲノムまたはその一部が利用可能な配列リードによってカバーされ得る程度を定量化するために明細書において使用される。対象範囲は次のようになる。
部分的(1未満)参照ゲノムの一部が利用可能などのシーケンスリードによってもマッピングされていない場合
シングル(1)参照ゲノムの全ヌクレオチドが1回マッピングされ、1つのシーケンスリードに1つのシンボルが存在する場合
マルチプル(2)参照ゲノムの各ヌクレオチドが複数回マッピングされる場合。
シーケンスアラインメントは、配列間の機能的、構造的、または進化的関係の因果関係であり得る類似性の領域を見つけることによって、シーケンスリードを配置するプロセスを指す。「参照ゲノム」と呼ばれる既存のヌクレオチド配列を参照してアラインメントを実施する場合、このプロセスは「マッピング」と呼ばれる。配列アラインメントは既存の配列(すなわち参照ゲノム)なしでも実施することができ、その方法は「デノボ」アラインメントとして先行技術において知られている。先行技術の解決策はこの情報をSAM、BAMまたはCRAMファイルに記憶する。部分的または完全なゲノムを再構築するためにシーケンスをアラインさせるという概念を図3に示す。
バリアント検出(別名バリアントコール)は、ゲノムシーケンシング装置のアラインメントされた出力(NGSデバイスによって生成され、アラインメントされたシーケンスリード)を、他の既存の配列には見られないか、またはいくつかの既存の配列にのみ見いだすことができる、シーケンスされる生物の独特の特徴のサマリーに変換するプロセスである。これらの特徴は、それらが研究中の生物のゲノムと参照ゲノムとの間の差異として表されるので、「バリアント」と呼ばれる。先行技術の解決策は、この情報をVCFファイルと呼ばれる特定のファイルフォーマットで記憶する。
バリアントアノテーションは、バリアントコールのプロセスによって識別されたゲノムバリアントに機能情報を割り当てるプロセスである。これは、ゲノム内のコードシーケンスに対するそれらの関係に従って、およびコードシーケンスおよび遺伝子産物に対するそれらの影響によるバリアントの分類を意味する。これは従来技術では通常MAFファイルに格納されている。
遺伝子(およびタンパク質)の機能および構造とのそれらの関係を定義するためのDNA(バリアント、CNV=コピー数の変化、メチル化など)鎖の分析プロセスは、機能分析または構造分析と呼ばれる。このデータを記憶するための先行技術にはいくつかの異なる解決策が存在する。
ゲノムファイルフォーマット
本明細書に開示される発明は、少なくとも以下の態様に関して先行技術の解決策とは異なる、ゲノム配列決定データを表し、処理し、送信するための圧縮データ構造に適用される選択的制御データアクセスの定義からなる。
− それはゲノム情報のいかなる従来技術の表示フォーマット(すなわち、FASTQ、SAM)にも依存しない。
− 複数のゲノムデータセットとして構築された複数のシーケンスランによって生成されたデータへの効率的な取り扱いと選択的なランダムアクセスをサポートする。異なるシーケンシングランからのデータを同じデータ構造に分割することで、アナリストは集団遺伝学研究に大きな利点を持ってそれらに対して同時にクエリを実行することができる。
− それはそれらの特定の特性に従ってゲノムデータとメタデータの新しい独自の分類を実行する。シーケンスリードは参照シーケンスにマッピングされ、そしてアラインメントプロセスの結果に従って異なるクラスに分類される。これは、ハフマンコード化、算術コード化(CABAC、CAVLAC)、非対称数値システム、Lempel Zivおよびその派生のような異なる特定の圧縮アルゴリズムを適用してより効率的にコード化され得るより低い情報エントロピーを有するデータクラスをもたらす。
− それは、特定のゲノム領域、またはサブ領域または領域もしくはサブ領域の集合体に対応する圧縮データクラスの選択的アクセスおよび保護を可能にするユーザ定義ラベルによって、データクラスまたはデータクラスのサブセットを特定のゲノム領域、またはサブ領域または領域もしくはサブ領域の集合体に関連付ける新しい方法を実装する。
− それは、構文解析要素と、関連するシーケンスリードおよびアライメント情報を下流の分析アプリケーションのために処理するのにより効率的な表現に変換するコード化/デコード化プロセスとを定義する。
マッピングの結果に従ってリードを分類し、レイヤ(位置レイヤ、メイト距離レイヤ、ミスマッチタイプレイヤなど)に格納される記述子を使用してそれらをコーディングすると、次のような利点がある。
・異なる構文要素が、より高い圧縮パフォーマンスをもたらす特定のソースモデルによってモデル化されるときの情報エントロピーの削減。
・下流の分析段階に特定の意味を有し、圧縮ドメイン内で個別に独立して直接アクセスできる、すでにグループ/レイヤーに編成されているデータへのより効率的なアクセス。
・データコンテンツ全体をデコード化(すなわち解凍)する必要なしに、必要な情報のみにアクセスすることによって増分的に更新することができるモジュール式データ構造の存在。
・シーケンシング装置によって生成されたゲノム情報は、情報自体の性質およびシーケンシングプロセスに内在するエラーを軽減する必要性のために、本質的に非常に冗長である。これは、同定され分析される必要がある関連遺伝情報(参照に関する変動)は、生成されたデータのごく一部にすぎないことを意味する。先行技術のゲノムデータ表示フォーマットは、分析アプリケーションによって迅速に利用可能で理解可能になるように、所与の分析段階で意味のある情報を残りの情報から「分離する」ようには考えられていない。
・開示された発明によってもたらされる解決策は、必要な記憶スペースと伝送帯域幅を最小にするための効率的な圧縮によって、データ全体にアクセスして解凍する必要なしに、データの任意の関連部分が分析アプリケーションに容易に利用可能であり、データの冗長性が効率的に低減されるようにゲノムデータを表すことである。
本発明の重要な要素は、以下の通りである。
1. 圧縮形式のアクセスユニット(AU)と呼ばれる、構造化されたユーザー定義の選択的にアクセス可能なデータ要素を「含む」ファイル形式の仕様。そのようなアプローチは、データが非圧縮形式で構造化され、次いでファイル全体が圧縮される、従来技術のアプローチ、例えばSAMおよびBAMとは反対と見なすことができる。このアプローチの最初の明白な利点は、従来技術のアプローチでは不可能であるかまたは極めて扱いにくい、圧縮ドメイン内のデータ要素への様々な形態のユーザ定義構造化選択的アクセスを効率的かつ自然に提供できることである。
2. 均一なデータおよびメタデータの特定の「レイヤ」へのゲノム情報の構造化は、低エントロピーを特徴とする情報ソースの異なるモデルの定義を可能にするという、かなりの利点を提示する。このようなモデルは、レイヤごとに異なるだけでなく、レイヤ内の圧縮されたデータがアクセスユニットに含まれるデータブロックに分割されている場合に、各レイヤ内でも異なる可能性がある。 この構造化は、データまたはメタデータの各クラスおよびそれらの一部に対して、最も適切な圧縮を使用することを可能にし、従来技術のアプローチと比べて、コード化効率が大幅に向上する。
3. 情報はアクセスユニット(AU)で構造化されるため、ゲノム解析アプリケーションで使用されるデータの関連サブセットには、適切なインターフェースを使用して効率的かつ選択的にアクセス可能である。これらの機能により、より高速なデータへのアクセスを可能にし、より効率的な処理が可能になる。
4. マスターインデックステーブルおよびローカルインデックステーブルの定義は、圧縮データの全ボリュームをデコードする必要なく、コード化(すなわち圧縮)データのレイヤによってもたらされる情報への選択的アクセスを可能にする。
5. ファイルヘッダに存在する「ラベルリスト」を解析することによって、特定のユーザ定義のゲノム領域またはサブ領域、あるいは領域またはサブ領域の集合体およびデータクラスに対応するAUのみにアクセスする可能性。
6. 関連するゲノム領域を識別するユーザー定義の「ラベル」に従って、異なるAUおよびAUに含まれるデータの一部に異なるタイプのアクセス制御を提供する可能性。
7. 圧縮ドメインにおいて選択されたデータ部分の効率的なトランスコーディングを実行することによって、それらが新たに公開された参照ゲノムに対してリアライメントされる必要があるときに、既にアライメントされ圧縮されたゲノムデータセットのリアライメントを実行する可能性。新しい参照ゲノムの頻繁なリリースは現在、トランスコードプロセスが新たに公開された参照に対してすでに圧縮され記憶されているゲノムデータをリアライメントさせるためにリソース消費と時間を必要とする。
本明細書に記載された方法は、エゲノムデータに関する利用可能な事前知識を利用して、低減されたエントロピーを有する構文要素のアルファベットを定義することを目的とする。ゲノミクスでは、利用可能な知識は通常、必ずではないが、処理されるものと同じ種の既存のゲノム配列によって表される。一例として、異なる個体のヒトゲノムはわずか1%の割合でしか異ならない。しかし、そのような少量のデータには、早期診断、個別化医療、カスタマイズ薬の合成などを可能にするのに十分な情報が含まれている。本発明は、関連情報が効率的にアクセス可能であり、アクセスが選択的に制御されそしてデータ保護され、情報が効率的に輸送可能でありそして全てのそのような処理が圧縮データ構造を処理して行われるゲノム情報表現フォーマットを定義することを目的とする。
本発明で使用される技術的特徴は以下の通りである。
1. 1つ以上の利用可能なデータセットを照会するときに効率的なデータ検索および処理を可能にするために、異なるシーケンシングによって生成されたゲノム情報を異なるゲノムデータセットに分割する。
2. 共通の特徴を共有する「クラス」におけるゲノムシーケンスデータおよびメタデータのパーティション。
3. 情報エントロピーをできるだけ低減するために、ゲノムデータが記述された一連の「レイヤ」の記述子に分割される各データクラスによって運ばれるゲノム情報の構造の定義。
4. コード化ゲノム情報全体をデコード化する必要なしにコード化情報(すなわち圧縮)の所望のレイヤのみにアクセスすることによって、データクラスおよび関連情報への選択的アクセスを可能にするマスターインデックステーブルおよびローカルインデックステーブルの定義。
5. ポイント2で指定されたように定義されたデータクラスの異なるレイヤに属する構文要素をコード化するための異なるソースモデルおよびエントロピーコーダの使用。
6. 必要ではない、または望まれない場合、すべてのレイヤをデコードする必要なしにデータへの選択的アクセスを可能にするために従属レイヤ間の対応を確立する特定のメカニズムの定義。

7. 特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に対応する圧縮データおよび対応するデータ「クラス」またはデータクラスのサブセットを「ラベル」によってラベル付けして効率的な選択的アクセスを可能にするメカニズムの定義。
8. 特定のゲノム領域もしくはサブ領域もしくは領域もしくはサブ領域の集合体および対応するデータ「クラス」もしくはデータクラスのサブセットならびにそれらの任意の組み合わせの選択的保護のためのメカニズムの定義。
9. シーケンスデータ表現のエントロピーを減らすためにさらに変換することができる1つまたは複数の既存のまたは構築された参照シーケンスに関するデータセットまたはデータ「クラス」のコーディング。
先行技術の全ての言及した問題を解決するために、特定のデータ「クラス」、特定のゲノム領域もしくはサブ領域または領域もしくはサブ領域の集合体への効率的な選択的アクセスおよび選択的アクセス制御の観点から、効率的な圧縮表現によって効率的な伝送と保存を維持しながら、本発明は、最新のゲノムデータ分析アプリケーションによって要求されるシームレスなアクセスおよび処理を可能にする、均質および/または意味的に重要なデータのアクセス可能な単位への適切なデータ並べ替えを実施する特定のデータ構造の仕様を提供する。
特に、本発明は、従来技術のゲノムデータフォーマットの全てには存在しないアクセスユニット、「ラベル」、および関連データの多重化という概念に基づくデータ構造を採用する。
ゲノムデータは、異なるアクセスユニットに構造化され、コード化される。異なるアクセスユニットに含まれ、ゲノムデータを特定のゲノム領域もしくはサブ領域または領域もしくはサブ領域の集合体と参照ゲノムとを関連付ける「ラベル」によって識別することができるゲノムデータの説明を以下に示す。
マッチングルールに従ったゲノムデータの分類
シーケンシング装置によって生成されたシーケンスリードは、開示された発明によって、1つ以上の既存の参照シーケンスに関するアラインメントのマッチング結果に従って5つの異なる「クラス」に分類される。
参照シーケンスに対してヌクレオチドのDNA配列をアライメントさせる場合、以下のケースが同定されうる。
1. 参照シーケンス内の領域が、エラーなしに(すなわち、完全なマッピング)シーケンスリードと一致することが判明する。このようなヌクレオチド配列は、「完全に一致するリード」と呼ばれ、または「クラスP」として示される。
2. 参照シーケンス内の領域は、リードを生成するシーケンシング装置がいずれの塩基(またはヌクレオチド)ももたらせなかった位置の数によってのみ決定されるタイプおよび数のミスマッチを有するシーケンスリードと一致することが判明する。このようなタイプのミスマッチは、未定義のヌクレオチド塩基を示すのに使用される「N」の文字で表される。この明細書では、このタイプのミスマッチを「nタイプ」ミスマッチと呼ぶ。このような配列は、「Nミスマッチリード」または「クラスN」と呼ぶ。リードが「クラスN」に属すると分類されたら、一致の不正確さの程度を所定の上限に制限し、有効な一致と見なされるものとそうでないものとの間に境界を設定することが有用である。したがって、クラスNに割り当てられたリードは、リードに含めることができる未定義の塩基(つまり「N」と呼ばれる塩基)の最大数を定義する閾値(MAXN)を設定することによっても制約を受ける。そのような分類は、対応する参照シーケンスを参照したときにクラスN共有に属するすべてのリードが圧縮データに選択的データ検索を適用するための有用な基準を構成する要求最小マッチング精度(または最大ミスマッチ度)を暗黙的に定義する。
3. 参照シーケンス内の領域は、存在する場合、リードを生成するシーケンシング装置がいかなるヌクレオチド塩基ももたらすことができなかった位置の数によって決定されるタイプおよび数のミスマッチ(すなわち「nタイプ」ミスマッチ)に加えて、参照に存在するものとは異なる塩基がもたらされた数のミスマッチとを有するシーケンスリードと一致することが判明する。「置換」として示されるそのようなタイプのミスマッチはまた、一塩基変異(SNV)または一塩基変異多型(SNP)とも呼ばれる。この明細書では、このタイプのミスマッチは「sタイプ」のミスマッチとも呼ばれる。次いで、シーケンスリードを「Mミスマッチリード」と呼び、そして「クラスM」に割り当てる。「クラスN」の場合と同様に、「クラスM」に属するすべてのリードについても、一致の不正確さの程度を所定の上限に制限し、有効な一致と見なされるものとそうでないものとの間に境界を設定することが有用である。したがって、クラスMに割り当てられたリードは、1つは存在する場合「nタイプ」のミスマッチである「n」の数(MAXN)、もう1つは置換「s」の数(MAXS)の閾値のセットを定義することによっても制約を受ける。第3の制約は、数値「n」と「s」の両方の関数f(n、s)によって定義される閾値である。そのような第3の制約は、任意の意味のある選択的アクセス基準に従ってマッチングの不正確さの上限を有するクラスを生成することを可能にする。例えば、限定するわけではなく、f(n、s)は、(n+s)1/2または(n+s)、あるいは「クラスM」に属するリードに対して認めらる最大マッチング不正確レベルに境界を設定する任意の線形または非線形の式とすることができる。そのような境界は、一方または他方に適用される単純な閾値を超えて「nタイプ」のミスマッチ「n」の数および「sタイプ」のミスマッチ(置換)「s」の数の任意の可能な組み合わせに対するさらなる境界を設定することを可能にするので、様々な目的のためのシーケンスリードの分析時に所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。
4. 第4のクラスは、「挿入」、「欠失」(別名「インデル」)および「切り取られた」のうちのいずれかのタイプの少なくとも1つのミスマッチ、さらに存在する場合はクラスNまたはMに属する任意のミスマッチタイプを提示するシーケンスリードによって構成される。そのような配列は、「Iミスマッチリード」と称され、そして「クラスI」に割り当てられる。挿入は、参照には存在しないがリードシーケンスには存在する1つまたは複数のヌクレオチドのさらなるシーケンスによって構成される。この明細書では、このタイプのミスマッチを「iタイプ」ミスマッチと呼ぶ。挿入されたシーケンスがシーケンスの端にある場合、参照では「ソフトクリップ」とも呼ぶ(すなわち、ヌクレオチドは参照と一致しないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的にアラインされたリードに保持される)。この明細書では、このタイプのミスマッチを「cタイプ」のミスマッチと呼ぶ。ヌクレオチドの保持または廃棄はアライナ段階によって行われる決定であり、シーケンシング装置または次のアライメント段階によって決定されるリードを受け取りそして処理する本発明に開示されるリードの分類子によっては行われない。欠失は、参照に対してリードにある「ホール」(欠けているヌクレオチド)である。この明細書では、このタイプのミスマッチを「dタイプ」ミスマッチと呼ぶ。クラス「N」および「M」の場合と同様に、マッチングの不正確さに対する制限を定義することは可能であり適切である。「クラスI」に対する制約のセットの定義は、「クラスM」に対して使用されたのと同じ原理に基づいており、そしてテーブル1の表の最後の行に報告する。クラスIデータに許容される各タイプのミスマッチについての閾値に加えて、さらなる制約は、ミスマッチの数「n」、「s」、「d」、「i」および「c」の任意の関数w(n、s、d、i、c)によって決定される閾値によって定義される。そのような追加の制約は、任意の意味のあるユーザ定義の選択的アクセス基準に従って、マッチングの不正確さの上限を有するクラスを生成することを可能にする。例えば、限定するわけではなく、w(n、s、d、i、c)は、(n+s+d+i+c)1/5または(n+s+d+i+c)または「クラスI」に属するリードに対して認められる最大マッチング不正確レベルに境界を設定する任意の線形または非線形の式とすることができる。そのような境界は、「クラスI」のリードで許容されるミスマッチの数のあらゆる可能な組み合わせに対して、各タイプの許容されるミスマッチに適用される単純な閾値を超えてさらなる境界を設定することを可能にするので、様々な目的のためのシーケンスリードの分析時に所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。
5. 第5のクラスは、参照を参照するときに各データクラスについて有効であると見なされる(すなわち、テーブル1に規定される最大マッチング不正確さに対する上限を定義するマッチングルールのセットを満たさない)マッチングを見出すすべてのリードを含む。そのようなシーケンスは、参照シーケンスを参照するとき「マッピングされていない」と言われ、「クラスU」に属すると分類される。
マッチングルールに従ったリードペアの分類
前のセクションで指定された分類はシングルシーケンスリードに関するものである。2つのリードが可変長の未知のシーケンスで区切られていることがわかっている、ペアでリードを生成するシーケンステクノロジ(例:Illumina Inc.)の場合、ペア全体を単一のデータクラスに分類することを検討するのが適切である。互いに結合されているリードは、その「メイト」と呼ばれる。
両方のペアのリードが同じクラスに属する場合、ペア全体のクラスへの割り当ては明白であり、ペア全体は任意のクラスに対して同じクラスに割り当てられる(すなわち、 P、N、M、I、U)。2つのリードが異なるクラスに属しているが、どちらも「クラスU」には属していない場合、ペア全体が次の式に従って定義される最も高い優先順位を持つクラスに割り当てられる。
P<N<M<I
「クラスP」が最も低い優先順位を有し、「クラスI」が最も高い優先順位を有する。
リードのうちの1つのみが「クラスU」に属し、そのメイトがクラスP、N、M、Iのいずれかに一致する場合、第6のクラスは「ハーフマップ」を表す「クラスHM」として定義される。
そのような特定のクラスのリードの定義は、それが参照ゲノムに存在するギャップまたは未知の領域(別名、ほとんど知られていないまたは未知の領域)を決定することを試みるために使用されるという事実によって動機付けられる。そのような領域は、既知の領域にマッピングすることができるペアリードを使用して、エッジでペアをマッピングすることによって再構築される。図57に示すように、それからマッピングされていないメイトを使用して、未知の領域のいわゆる「コンティグ」を構築する。したがって、そのようなタイプのリードペアのみへの選択的アクセスを提供することにより、先行技術の解決策を使用することは完全に検査されることを必要とするであろう大量のデータセットによって生じるそのようなデータの非常に効率的な処理を可能にする関連する計算の負担を大幅に減らす。
以下のテーブルは、各リードが属するデータのクラスを定義するために、リードに適用されるマッチングルールを要約する。ルールは、ミスマッチのタイプ(n、s、d、i、およびcタイプミスマッチ)の有無によって、表の最初の5列に定義される。第6列は、各ミスマッチタイプおよび可能性のあるミスマッチタイプの任意の関数f(n、s)およびw(n、s、d、i、c)についての最大閾値に関するルールを提供する。
テーブル1.本発明の開示において定義される、各シーケンスリードがデータクラスに分類されるために満たさなければならないミスマッチのタイプと制約のセット。
シーケンスリードデータ・クラスN、M、およびIをさまざまな程度のマッチング精度でサブクラスに分割するマッチングルール
前のセクションで定義されたタイプN、M、およびIのデータクラスはさらに、異なる程度のマッチング精度を有する任意の数の別個のサブクラスに分解することができる。そのような選択肢は、より細かい精度、そして結果として各データクラスへのはるかに効率的な選択的アクセスを提供することにおける重要な技術的利点である。限定するわけではなく例として、クラスNをk個のサブクラス(サブクラスN1、・・・、サブクラスNk)に分割するためには、MAXN1<MAXN2<・・・<MAXN(k-1)<MAXNの条件で、対応するコンポーネントMAXN1、MAXN2、・・・、MAXN(k-1)、MAXN(k)を有するベクトルを定義し、そしてベクトルの各要素について評価したときに、テーブル1に指定された制約を満たす最も低いランクのサブクラスにそれぞれのリードを割り当てる必要がある。これは図60に示されており、データ分類ユニット601は、クラスP、N、M、IU、HMエンコーダ、ならびに注釈およびメタデータ用のエンコーダを含む。クラスNエンコーダは、Nデータのk個のサブクラス(606)を生成する閾値ベクトルであるMAXN1からMAXNk602によって構成される。
タイプMとIのクラスの場合、MAXMとMAXTOTのそれぞれに対して同じ特性を持つベクトルを定義し、関数f(n、s)とw(n、s、d、i、c)が制約を満たすかどうかをチェックするための閾値として各ベクトルコンポーネントを使用することによって同じ原理が適用される。タイプNのサブクラスの場合と同様に、割り当ては、制約が満たされる最も低いサブクラスに与えられる。各クラスタイプのサブクラスの数は独立しており、サブディビジョンの任意の組み合わせを使用できる。図60に示すように、ここではクラスMエンコーダとクラスIエンコーダがそれぞれ閾値ベクトルMAXM1からMAXMj(603)とMAXTOT1からMAXTOTh(604)で構成される。2つのエンコーダは、Mデータのj個のサブクラス(607)およびIデータのh個のサブクラス(608)をそれぞれ生成する。ペア内の2つのリードが同じサブクラスに分類される場合、そのペアは同じサブクラスに属する。
ペア内の2つのリードが、異なるクラスのサブクラスに分類される場合には、そのペアは以下の式に従って、より高い優先順位の高いクラスのサブクラスに属する。
N<M<I
ここで、Nは最も低い優先順位を有し、iは最も高い優先順位を有する。
2つのリードが、クラスN、M、またはIのうち1つの異なるサブクラスに属する場合、そのペアは以下の式に従って、最も高い優先順位を有するサブクラスに属する。
1<N2<・・・<Nk
1<M2<・・・<Mj
1<I2<・・・<Ih
最も高いインデックスが最も高い優先順位を有する。
「外部」参照シーケンスの変換
クラスN、M、およびIに分類されたリードについて見いだされたミスマッチは、リード表現をより効率的に圧縮するために使用される「変換された参照」を作成するために使用され得る。
クラスN、MまたはIに属すると分類された(RS0として示される既存の(すなわち「外部の))参照シーケンスに関して)リードは、変換された参照との実際のミスマッチの発生に従って「変換された」参照シーケンスRS1に関してコード化することができる。

例えば、クラスMに属するリードM in(クラスMのi番目のリードとして示される)が参照シーケンスRSnに関してミスマッチを含む場合、
「変換」の後、リードM in=リードP i(n+1)は、A(Refn)=Refn+1で得ることができる。ここで、Aは参照シーケンスRSnから参照シーケンスRSn+1への変換を示す。
図61は、参照シーケンス1(RS1)に関してミスマッチ(クラスMに属する)を含むリードを、ミスマッチの位置に対応する塩基を修飾することによってRS1から得られた参照シーケンス1(RS2)に関して完全にマッチングするリードに変換する方法の例を示す。それらは分類されたままで、同じデータクラスアクセスユニット内の他のリードと一緒にコード化されるが、コーディングはクラスPリードに必要な記述子と記述子値のみを使用して行われる。この変換は次のように表すことができる。
RS2=A(RS1
RS1に適用されたときにRS2を生成する変換Aの表現とリードペアRS2の表現とが、クラスMのリードペアRS1の表現よりも低いエントロピーに対応するとき、データ表現のより高い圧縮が達成されるので、変換Aの表現およびリードペアRS2の対応する表現を送信することは有利である。
圧縮ビットストリームにおける伝送のための変換Aのコード化は、以下の表に定義されるように2つの追加の構文要素の定義を必要とする。
図62は、マッピングされたリードにおいてコード化されるべきミスマッチの数を減らすために参照変換が適用される方法の例を示す。
いくつかの場合には、参照に変換が適用されることに注意する必要がある。
・変換を適用する前に参照を参照するときに存在しなかったリードの表現にミスマッチが生じる可能性がある。
・ミスマッチの種類が変更される可能性がある。リードにGの代わりにAが含まれ、他のすべてのリードにGの代わりにCが含まれる場合があるが、ミスマッチは同じ位置に残る。
・異なるデータクラスおよび各データクラスのデータのサブセットは、同じ変換された参照シーケンス、または同じ既存の参照シーケンスに異なる変換を適用することによって得られる参照シーケンスを参照することができる。
図61は、参照変換が適用され、リードは変換された参照を使用して表されるとき、適切な記述子のセットを使用して(たとえばクラスPの記述子を使用してクラスMのリードをコードするなど)、リードがデータクラスから別のクラスにコード化タイプを変更する方法の例を示す。これは、例えば、変換が実際にリードに存在する塩基のリードのミスマッチに対応するすべての塩基を変更し、したがって、(元の変換されていない参照シーケンスを参照するときは)クラスMに属するリードを、(変換された参照を参照するときは)クラスPの仮想リードに仮想的に変換する。各クラスのデータに使用される記述子のセットの定義は、次のセクションで説明される。
図63は、リードを再エンコードするために、異なるクラスのデータが同じ「変換された」参照R1=A0(R0)(630)を使用する、または異なる変換AN(631)、AM(632)、AI(633)を各データクラスに別々に適用する方法を示す。
グローバルパラメータ用のゲノムデータヘッダ
ゲノムデータのデータ構造は、デコーディングエンジンによって使用されるグローバルパラメータおよびメタデータの記憶を必要とする。これらのデータは、以下の構造で編成される。
ファイルベースのストレージの場合:
・データセットマルチプレックスヘッダ
・データセットヘッダ
・ディスクリプタレイヤヘッダ
・ブロックヘッダ
これらのヘッダ間の階層関係は、図58に示される。
ストリーミングシナリオにおけるトランスポートの場合
・データセットマッピングテーブルリスト
・データセットマッピングテーブル
・トランスポートブロックヘッダ
・パケットヘッダ
データセットは、単一のゲノムシーケンシングランおよび以下のすべての分析に関連するゲノム情報を再構築するために必要なコード要素の集合として定義される。同じゲノムサンプルが2つの異なるランで2回シーケンスされる場合、得らるデータは2つの異なるデータセットにコード化される。
データセットマルチプレックスヘッダ
これは、「マルチプレックス」に集約された1つ以上のデータセットの先頭に付加されるデータ構造である。
これは、コード化されたデータセットの先頭に付加されるデータ構造である
テーブル2−ゲノムデータセットヘッダ構造
記述子レイヤヘッダ
記述子(構文要素を含む)は、この明細書の以下のセクションに記載されており、本発明により記載されるゲノム情報表現の構築ブロックである。それらは、各記述子の特定の統計的性質に従って分割された均一な要素のレイヤ(別名記述子ストリーム)に編成される。これにより、各レイヤのエントロピーを低減し、圧縮効率を改善するという利点がある。
各レイヤの前には、以下に説明される記述子レイヤヘッダが付加される。
ブロックヘッダ
各記述子レイヤは、1つまたは複数のゲノムデータブロックによって構成される。異なるレイヤからの1つ以上のブロックは、データのクラスに応じて、アクセスユニットを構成する。
アクセスユニットは、グローバルに利用可能なデータのみを使用すること(例えばデコーダ構成)によって、または他のアクセスユニットに含まれる情報を使用することによって、他のアクセスユニットから独立してデコードすることができるゲノムブロックのセットである。
記述子のレイヤへのシーケンスリードを表現するのに必要な情報の定義
クラスの定義を用いてリードの分類が完了すると、さらなる処理は、所与の参照シーケンス上にマップされていると表現されたときに、DNAリードシーケンスの再構成を可能にする残りの情報を表す別個の構文要素のセットを定義することからなる。
所与の参照シーケンスと呼ばれるシーケンスリード(例えば、DNAセグメント)は、以下のように完全に表現することができる。
・参照シーケンス上の開始位置pos(292)
・リードが参照rcompに対する逆相補として考慮されなければならない場合にシグナリングするフラグ(293)。
・対のリードペアの場合のメイトペアの距離(294)。
・シーケンス技術が可変長リードを生成する場合のリード長の値(295)。リード長が一定の場合、各リードに関連するリード長を明らかに省略することができ、ゲノムデータセットヘッダに記憶することができる。
・各ミスマッチごとに、
・ミスマッチの位置クラスNのnmis(300)、クラスMのsnpp(311)、クラスIのindn(321))
・ミスマッチタイプ(クラスN、クラスMのsnpt(312)、クラスIのindt(322)に存在しない)
・シーケンスリードの特定の特性を示すフラグ(296)
・シーケンシングにおいて複数のセグメントを有するテンプレート
・アライナによって適切にアラインされた各セグメント
・マッピングされていないセグメント
・マッピングされていないテンプレートにおける次のセグメント
・最初又は最後のセグメントの信号化
・品質管理障害
・PCRまたは光学的複製
・二次アライメント
・補助アライメント
・クラスIに存在する場合、ソフトクリップされたヌクレオチドストリング(323)
・適用可能な場合、アライメントと圧縮に使用される参照(クラスUの内部参照など)を示すフラグ(記述子rtype)。
・クラスUの場合、記述子indcは、指定されたマッチング精度の制約のセットと「内部」参照シーケンスと一致しないリードの部分(通常はエッジ)を識別する。
・記述子uリードは、「外部」(すなわち、実際の参照ゲノムのように既存の)参照シーケンスまたは「内部」参照シーケンスである利用可能な参照にマッピングすることができないリードを逐語的にコード化するために使用される。
この分類は、ゲノムシーケンスリードを一義的に表現するために使用することができる記述子(構文要素)のグループを作成する。以下のテーブルは、「既存の」(すなわち「外部」)または「構築された」(すなわち「内部」)参照とアラインされたリードの各クラスに必要とされる構文要素を要約する。
テーブル3−データのクラスごとに定義されたレイヤ
クラスPに属するリードは特徴付けられ、それらがメイトペア、いくつかのフラグおよびリード長をもたらすシーケンス技術によって得られた場合、位置、逆補数情報およびメイト間のオフセットのみによって完全に再構築することができる。
次のセクションでは、クラスP、N、M、及びIに対してこれらの記述子がどのように定義されるのかを詳しく説明する。クラスUの場合、これらの記述子は後のセクションで説明する。
クラスHMはリードペアにのみ適用され、一方のリードがクラスP、N、M、又はIに属し、もう一方がクラスUに属するという特別な場合です。
位置記述子レイヤ
各アクセスユニットにおいて、最初にコード化されたリードのマッピング位置のみが参照ゲノム上の絶対位置としてAUヘッダに格納される。他のすべての位置は、前の位置に対する差として表され、特定のレイヤに格納される。リード位置のシーケンスによって定義される情報ソースのこのモデリングは、一般的に、特に高いカバレッジ結果を生成するシーケンシングプロセスの低減エントロピーによって特徴付けられる。最初のアライメントの絶対位置が保存されると、他のリードのすべての位置は最初のアライメントとの差(距離)として表される。
例えば、図4に示した参照上の位置「10000」である第1のアライメントの開始位置をコード化した後、第2のリードの開始位置10180は「180」としてコード化される。高いカバレッジデータ(>50倍)の大部分の位置ベクトルの記述子は、0と1と他の小さな整数のような低い値に非常に高い発生を示すであろう。図10は、3つのリードペアの位置がposレイヤーにエンコードされる方法を示している。
同じソースモデルがクラスN、M、PおよびIに属するリードの位置に使用される。テーブル1に示すように、データへの選択的アクセスの任意の組み合わせを可能にするために、4つのクラスに属するリードの位置は別々のレイヤにコード化される。
逆相補記述子レイヤ
シーケンシング技術によって生成されたリードペアの各々のリードは、シーケンスされた有機サンプルのゲノムストランドのいずれかに由来する。しかし、2本鎖のストランドのうちの1つのみが参照シーケンスとして使用される。図8は、リードペアで、一方のリード(リード1)が一方のストランドから発生し、他方(リード2)が他方のストランドから発生することを示す。
ストランド1を参照シーケンスとして使用する場合、リード2は、ストランド1の対応するフラグメントの逆相補としてコード化することができる。これは、図9に示されている。
結合されたリードの場合、直接および逆相補のメイトペアの可能な組合せは4つある。これは、図10に示す。rcompレイヤは、4つの可能な組み合わせをコードする。
クラスP、N、M、Iに属するリードの逆相補情報には、同じコード化が用いられる。テーブル3に示すとおり、データへの選択的アクセスの強化を可能にするために、4つのクラスに属するリードの逆相補情報は異なるレイヤにコード化される。
ペアリング記述子レイヤ
ペアリング記述子は、ペアレイヤに格納される。このようなレイヤは、使用されたシーケンシング技術がペアでリードを生成するときに、発信リードペアを再構築するために必要な情報をコード化する記述子を記憶する。本発明の開示の日現在、大多数のシーケンシングデータはペアのリードを生成する技術を使用することによって生成されるが、それはすべての技術の場合というわけではない。これが、考慮されるゲノムデータのシーケンシング技術がペアリード情報を生成しない場合、このレイヤがすべてのシーケンシングデータ情報を再構築するのに必要ではない理由である
定義:
・メイトペア:リードペアの別のリードに関連付けられたリード(例:図4の例では、リード2はリード1のメイトペア)
・ペアリング距離:最初のリードの位置(ペアリングアンカー、たとえば最初のリードの最後のヌクレオチド)から分離する、第2のリードの位置(たとえば2番目のリードの最初のヌクレオチド)の参照シーケンス上のヌクレオチドの位置の数。
・最も確率の高いペアリング距離(MPPD):これは、ヌクレオチド位置の数で表される最も確率の高いペアリング距離
・位置ペアリング距離(PPD):PPDは、特定の位置記述子レイヤ内に存在するそれぞれのメイトから1つのリードを分離するリードの数に関して、ペアリング距離を表現する方法
・最も可能性の高い位置ペアリング距離(MPPPD):は、特定の位置記述子レイヤに存在するメイトペアから1つのリードを分離する最も可能性の高いリード数である
・位置ペアリングエラー(PPE): MPPDまたはMPPPDと相手の実際の位置との差として定義する
・ペアリングアンカー:ヌクレオチドの位置の数またはリード位置の数に関してメイトペアの距離を計算するために参照として使用される、ペアにおける最初に読み取られた最後のヌクレオチドの位置。
図5は、リードペア間のペアリング距離がどのように計算されるかを示す。
ペア記述子レイヤは、定義されたデコーディングペアリング距離に関して最初のリードのペアのメイトペアに到達するためにスキップされるリードの数として計算されたペアリングエラーのベクトルである。
図6は、絶対値および差分ベクトル(高いカバレッジのためにより低いエントロピーを特徴とする)の両方として、ペアリングエラーがどのように計算されるかの例を示す。
クラスN、M、P、Iに属するリードのペアリング情報には、同一の記述子が使用される。異なるデータクラスへの選択的なアクセスを可能にするために、4つのクラスに属するリードのペアリング情報は、示されるように異なるレイヤでコード化される。
リードが異なる参照にマップされる場合のペアリング情報
参照シーケンス上にシーケンスリードをマッピングするプロセスにおいて、ペアにおける第1のリードを1つの参照(例えば第1染色体)にマッピングし、そして第2を別の参照(例えば第4染色体)にマッピングすることは珍しくない。この場合、上記のペア情報は、リードのうちの1つをマッピングするために使用される参照シーケンスに関連する追加の情報によって統合されなければならない。これはコーディングによって達成される。
1. ペアが2つの異なるシーケンスにマッピングされていることを示す予約値(フラグ)(異なる値は、リード1またはリード2が現在エンコードされていないシーケンスにマッピングされていることを示す)
2. テーブル2で説明したゲノムデータセットヘッダ構造にエンコードされた参照識別子を参照する固有の参照識別子
3. ポイント2で識別され、最後のコード化位置に対するオフセットとして表現された参照に関するマッピング情報を含む第3の要素。
図7にこのシナリオの例を示す。
図7は、リード4が、現在コード化されている参照シーケンスにマッピングされていないため、ゲノムエンコーダーはペアレイヤに追加の記述子を作成することによってこの情報を通知する。図7に示す例では、ペア2のリード4が、現在コード化されている参照番号は1だけど、参照番号4にマップされたことを示す。この情報は3つの要素を使ってエンコードされる。
1)1つの特別な予約値が対距離としてコード化される(この場合はOxffffff)。
2)第2の記述子は、ゲノムデータセットヘッダにリストされている参照IDを提供する(この場合は4)。
3)第3の要素は、当該参照に関するマッピング情報を含む(170)。
クラスNには、A、C、G、又はTの塩基の位置にNがもたらされる「nタイプ」ミスマッチのみが存在する。リードの他のすべての塩基は、参照シーケンスと完全に一致する。
図11はその方法を示す。
リード1における「N」の位置には、次のようにコード化される
・リード1中の絶対位置、または
・同じリードの前の「N」に対する差分位置として
リード2における「N」の位置には、次のようにコード化される
・リード2中の絶対位置+リード1の長さ、または
・同じリードの前のNに対する差分位置
nmisレイヤでは、各リードペアのコード化は、特別な「セパレーター」記号によって終了する。
置換コード化(ミスマッチまたはSNPs)
置換は、マップされたリード内において、同じ位置で参照シーケンス中に存在するものに対して異なるヌクレオチドの存在として定義される(図12参照) 。
各置換は、以下のようにコード化することができる
・「位置」(snppレイヤ)および「タイプ」(snptレイヤ)。図13、図14、図16および図15を参照。
または、
・「位置」だけだが、ミスマッチタイプごとに1つのsnppレイヤを使用する。図17参照
置換位置
置換位置は、nmisレイヤの値と同じように計算される。すなわち、
リード1において置換は次のようにコード化される
・リード1中の絶対位置、または
・同じリードの前の置換に対する差分位置として リード2における置換は次のようにコード化される
リード1において置換は次のようにコード化される
・リード2中の絶対位置+リード1の長さ、または
・同じリードの前の置換に対する差分位置 図13は、置換位置がレイヤsnppでどのようにエンコードされるかを示す。置換位置は、絶対値または差分値として計算することができる。
snppレイヤでは、各リードペアのコード化は、特別な「セパレーター」記号によって終了する。
置換タイプ記述子
クラスM(及び次のセクションで説明するようにI)の場合、ミスマッチは、参照にある実際のシンボルから、リードに存在する対応する置換シンボル{A、C、G、T、N、Z}へ、インデックス(右から左への移動)によってコード化される。例えば、アラインされたリードが、参照内の同じ位置に存在するTの代わりにCを提示する場合、ミスマッチインデックスは「4」として示される。デコード化プロセスは、コード化された構文要素、参照上の所与の位置にあるヌクレオチドを読み取り、デコード化されたシンボルを取り出すために左から右に移動する。例えば、参照内にGが存在する位置に対して受信した「2」は、「N」としてデコードされる。図14は、IUPACあいまいさコードが使用されていない場合のすべての可能な置換およびそれぞれのコード化シンボルを示し、図15は、snptレイヤにおける置換タイプのコード化の例を提供する。
IUPACあいまいさコードが存在する場合、置換インデックスは、図16に示されるように変化する。
上述した置換タイプのコード化が高い情報エントロピーを示す場合、置換コード化の代替的な方法は、図17に示されるように、ミスマッチ位置のみをヌクレオチドごとに別個のレイヤに記憶することからなる。
挿入および欠失のコード化
クラスIの場合、ミスマッチおよび欠失は、参照にある実際のシンボルから、リードに存在する対応する置換シンボル{A、C、G、T、N、Z}へ、インデックス(右から左への移動)によってコード化される。例えば、アラインされたリードが、参照内の同じ位置に存在するTの代わりにCを提示する場合、ミスマッチインデックスは「4」になる。参照内にAが存在する位置に、リードは欠失が存在する場合、コード化シンボルは「5」になる。デコード化プロセスは、コード化された構文要素、参照上の所与の位置にあるヌクレオチドを読み取り、デコード化されたシンボルを取り出すために左から右に移動する。例えば、参照中にGが存在する位置について受信された「3」は、リード配列中に欠失の存在を示す「Z」としてデコードされる。
挿入は、挿入物A、C、G、T、Nに対してそれぞれ6、7、8、9、10としてコード化される。
IUPACあいまいさコードを採用する場合、置換メカニズムは正確に同じになるが、置換ベクトルは次のように拡張される。S={A、C、G、T、N、Z、M、R、W、S、Y、K、V、H、D、B}そして挿入は、異なるコード16、17、18、19、20を使用する。
図18および図19は、クラスIのリードペアにおける置換、挿入および欠失をどのようにコード化するかの例を示す。
ここで開示されたコード化要素を参照して、ファイルフォーマット、アクセスユニットおよび多重化の以下の構造が説明される。しかし、アクセスユニット、ファイルフォーマット、および多重化は、ソースモデリングおよびゲノムデータ圧縮の他のおよび異なるアルゴリズムによっても同じ技術的利点を生み出す。
「クラスU」と「クラスHM」のマッピングされていないリードのための「内部」参照の構築
クラスU、またはマップされていないペアの「クラスHM」に属するリードの場合、それらはクラスP、N、M、またはIのいずれかに属するための指定されたマッチング精度の制約のセットを満たすどの「外部」参照シーケンスにもマッピングできないため、1つまたは複数の「内部」参照シーケンスが構築され、これらのデータクラスに属するリードの圧縮表現のために使用される。
限定するわけではなく、例えば、適切な「内部」参照を構築するためのいくつかのアプローチなどが可能である。
・マッピングされていないリードを、少なくとも最小サイズの共通の連続ゲノムシーケンス(シグネチャ)を共有するリードを含むクラスターに分割すること。各クラスタは、そのシグネチャによって固有に識別することができる。
・任意の意味のある順序(例えば、辞書式の順序)でのリードの分類、および最後のNの使用は、N+1のコード化のための「内部」参照として読み出される。この方法は、図51に示す。
・指定されたマッチング精度の制約または新たな制約のセットに従って前記クラスに属するリードの全部または関連するサブセットをアラインおよびコード化することができるように、クラスUのリードのサブセットに対していわゆる「デノボアセンブリ」を実行する。
指定されたマッチング精度の制約のセットを満足する「内部」参照に、コード化されているリードがマッピングできる場合、圧縮後にリードを再構成するために必要な情報は、以下のタイプの構文要素を使用してコード化される
1. 内部参照(posレイヤ)におけるリード番号に関して、内部参照上の一致部分の開始位置の決定。この位置は、以前にコード化されたリードに対して絶対値または差分値としてコード化することができる。
2. 内部参照(ペアレイヤ)における対応するリードの先頭からの開始位置のオフセット。例えば、一定のリード長の場合、実際の位置は、pos*長さ+ペアである。
3. ミスマッチ位置(snppレイヤ)およびタイプ(snptレイヤ)としてコード化された存在するかもしれないミスマッチ
4. 内部基準と一致しない(または一致するが、定義された閾値を超える多数のミスマッチがある)リードの部分(通常はペアで識別されるエッジ)は、indcレイヤでエンコードされる。図51に示すように、indcレイヤーでエンコードされたミスマッチのエントロピーを減らすために、使用される内部参照の一部のエッジに対してパディング操作を実行できる。最も適切なパディング戦略は、処理されているゲノムデータの統計的性質に従ってエンコーダによって選択され得る。可能なパディング戦略は以下を含む
a.パディングなし
b.現在コード化されているデータの頻度に従って選択された定数パディングパターン
c.最新のn個のコード化されたリードに関して定義された現在のコンテキストの統計的特性に従った変数パディングパターン
特定のタイプのパディング方式は、indレイヤヘッダ内の特別な値によって通知される。
5. 内部の自己生成、外部、または参照なし(rtypeレイヤ)のいずれかを用いてリードがコード化されたかどうかを示すフラグ
6. 逐語的にエンコードされたリード(ureads)
図51は、そのようなコード化プロセスの例を提供する。
図56は、pos+ペア構文要素がコード付きposに置き換えられている内部参照上のマップされていないリードの代替のエンコードを示す。この場合、posは、参照配列上の位置に関して、リードn−1の最も左のヌクレオチドの位置に対するリードnの最も左のヌクレオチド位置の距離を表す。このコーディング手法は、リードごとにN個の開始位置をサポートするように拡張することができ、それによってリードを2つ以上の参照位置にわたって分割することができる。これは、シーケンシング方法論においてループによって生成される繰り返しパターンを通常示す非常に長いリード(50K+の塩基)を生成する(例えば、Pacific Bioscienceの)シーケンシング技術によって生成されるリードをコード化するのに特に有用である。同じアプローチを同様に使用して、ほとんどまたは全く重複することなくゲノムの2つの異なる部分にアラインするリードとして定義されるキメラシーケンスリードをコードすることができる。
上記のアプローチは、単純なクラスUを超えて明確に適用することができ、リード位置に関連する構文要素を含む任意のレイヤ(posレイヤ)に適用することができる。
ファイルフォーマット:マスターインデックステーブルを使用したゲノムデータの領域への選択的アクセス
アラインされたデータの特定の領域への選択的なアクセスをサポートするために、この明細書に記載されたデータ構造は、マスターインデックステーブル(MIT)と呼ばれるインデックスツールを実装する。これは、特定のリードが使用される参照シーケンス上にマップされる、遺伝子座を含む多次元アレイである。MITに含まれる値は、各posレイヤにおける最初のリードのマッピング位置であり、各アクセスユニットへの非シーケンシャルアクセスがサポートされる。MITは、各クラスのデータ(P、N、M、I、U、およびHM)および各参照シーケンスごとに、1つのセクションを含む。MITは、コード化されたデータのゲノムデータセットヘッダに含まれる。図20は、ゲノムデータセットヘッダの構造を示し、図21はMITの一般的な視覚的表現を示し、図22は、コード化されたクラスPのリードについてのMITの例を示す。
図に示されたMITに含まれる値は、圧縮ドメイン内の関心領域(および対応するAU)に直接アクセスするために使用される。
例えば、図22を参照すると、参照2上の位置150,000と250,000の間に含まれる領域にアクセスする必要がある場合、デコード化アプリケーションはMIT内の第2の参照にスキップし、k1<150,000、k2>250,000となる2つの値k1およびk2を探す。ここで、k1およびk2はMITから読み出された2つのインデックスである。図22の例では、これはMITの第2のベクトルの位置3および4をもたらす。これらの帰ってきた値は、次のセクションで説明するように、posレイヤのローカルインデックステーブルから適切なデータの位置を取得するために、デコードアプリケーションによって使用される。
上述の4つのクラスのゲノムデータに属するデータを含むレイヤへのポインタと共に、MITは、そのライフサイクルの間にゲノムデータに追加される追加のメタデータおよび/または注釈のインデックスとして使用することができる。
ローカルインデックステーブル
上述の各データレイヤには、ローカルヘッダと呼ばれるデータ構造が予め固定されている。ローカルヘッダは、レイヤの一意の識別子、各参照シーケンスごとのアクセスユニットカウンタのベクトル、ローカルインデックステーブル(LIT)、および任意選択でいくつかのレイヤ固有のメタデータを含む。LITは、レイヤペイロード内の各AUに属するデータの物理位置へのポインタのベクトルである。図23は、LITがコード化データの特定の領域に非順次的方法でアクセスするために使用される一般的なレイヤヘッダおよびペイロードを示す。
前の例では、参照シーケンス番号2にアラインした領域150,000から250,000のリードにアクセスするために、デコード化アプリケーションはMITから位置3および4を検索した。これらの値は、LITの対応するセクションの第3および第4の要素にアクセスするためにデコード化プロセスによって使用される。図24に示す例では、レイヤヘッダに含まれるトータルアクセスユニットカウンタは、参照1に関連するAUに関連するLITインデックス(この例では5)をスキップするために使用される。コード化されたストリーム内の要求されたAUの物理的位置を含むインデックスは、それ故、以下のように計算される。
要求されたAUに属するデータブロックの位置=スキップされる参照1のAUに属するデータブロック+MITを使用して検索された位置。
最初のブロック位置:5+3=8
最後のブロック位置:5+4=9
ローカルインデックステーブルと呼ばれるインデックス機構を用いて検索されたデータのブロックは、要求されたアクセスユニットの一部である。
図26は、MITおよびLITを使用して検索されたデータブロックが1つ以上のアクセスユニットを構成する方法を示す
アクセスユニット
データクラスに分類され、圧縮されたまたは圧縮されていないレイヤで構造化されたゲノムデータは、異なるアクセスユニットに編成される。
ゲノムアクセスユニット(AU)は、ヌクレオチド配列および/または関連メタデータ、および/またはDNA/RNAの配列(例えば仮想参照)および/またはゲノムシーケンス装置および/またはゲノム処理装置または分析アプリケーションによって生成された注釈データを再構築するゲノムデータのセクション(圧縮または非圧縮形式)として定義される。アクセスユニットの例を図26に示す。
アクセスユニットは、グローバルに利用可能なデータのみを使用すること(例えば、デコーダ構成)によって、または他のアクセスユニットに含まれる情報を使用することによって、他のアクセスユニットから独立してデコードすることができるデータのブロックである。
アクセスユニットは、以下のように区別される。
・タイプ、それらが保有するゲノムデータおよびデータセットの性質およびそれらにアクセスすることができる方法によって特徴つけられる。
・順序、同じタイプに属するアクセスユニットに一意の順序を提供する。
任意のタイプのアクセスユニットは、さらに異なる「カテゴリ」に分類することができる。
以下に、異なるタイプのゲノムアクセスユニットの定義の非網羅的なリストを説明する。
1)タイプ0のアクセスユニットは、アクセスまたはデコード化されアクセスされるために他のアクセスユニットから来る情報を参照する必要はない。データまたはそれらが含むデータセットによってもたらされる全情報は、デコーダ装置または処理アプリケーションによって独立して読み取られ、処理されることができる。
2)タイプ1のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ1のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ0の1つ以上のアクセスユニットにアクセスする必要がある。タイプ1のアクセスユニットは「クラスP」のシーケンスリードに関連するゲノムデータをコードする。
3)タイプ2のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ2のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ0の1つ以上のアクセスユニットにアクセスする必要がある。タイプ2のアクセスユニットは「クラスN」のシーケンスリードに関連するゲノムデータをコードする。
4)タイプ3のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ3のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ0の1つ以上のアクセスユニットにアクセスする必要がある。タイプ3のアクセスユニットは「クラスM」のシーケンスリードに関連するゲノムデータをコードする。
5)タイプ4のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ4のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ0の1つ以上のアクセスユニットにアクセスする必要がある。タイプ4のアクセスユニットは「クラスI」のシーケンスリードに関連するゲノムデータをコードする。
6)タイプ5のアクセスユニットは、いずれの利用可能な参照シーケンス(「クラスU」)にマッピングすることができず、内部的に構築された参照シーケンスを用いてコード化されるリードを含む。タイプ5のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ5のアクセスユニットに含まれるデータを読み取りまたはコード化し処理するには、タイプ0の1つ以上のアクセスユニットにアクセスする必要がある。
7)タイプ6のアクセスユニットはリードペアを含み、一方のリードは4つのクラスP、N、M、Iのいずれにも属することができ、他方はいずれの利用可能な参照シーケンスにもマッピングできない(「クラスHM」)。タイプ6のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ6のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ0の1つ以上のアクセスユニットにアクセスする必要がある。
8)タイプ7のアクセスユニットは、タイプ1のアクセスユニットに含まれるデータまたはデータセットに関連するメタデータ(例えば品質スコア)および/または注釈データを含む。タイプ7のアクセスユニットは、異なるレイヤに分類されラベルされてもよい。
9)タイプ8のアクセスユニットは、注釈データとして分類されるデータまたはデータセットを含む。タイプ8のアクセスユニットは、レイヤに分類されラベルされてもよい。
10)追加のタイプのアクセスユニットは、本明細書で説明される構造およびメカニズムを拡張することができる。一例として、限定するわけではなく、ゲノムバリアントの決定、構造的および機能的解析の結果は、新しいタイプのアクセスユニットにコード化することができる。本明細書に記載のアクセスユニット内のデータ編成は、アクセスユニット内にカプセル化されるいかなる種類のデータも、コード化データの性質に関して完全に透過的なメカニズムであることを妨げるものではない。
タイプ0のアクセスユニットは順序付けられている(例えば番号付けされている)が、それらは順序付けられた方法で格納および/または送信される必要はない(技術的利点:並列処理/並列ストリーミング、多重化)。
タイプ1、2、3、4、5および6のアクセスユニットは、順序付けされる必要はなく、順序付けられた方法で格納および/または送信される必要もない(技術的利点:並列処理/並列ストリーミング)。
図26は、アクセスユニットが、ヘッダと、均一なデータの1つ以上のレイヤとによってどのように構成されるかを示す。各レイヤは1つ以上のブロックで構成することができる。各ブロックはいくつかのパケットを含み、パケットは、例えばリード位置、ペアリング情報、逆相補情報、ミスマッチ位置およびタイプなどを表すために上述した記述子の構造化されたシーケンスである。
各アクセスユニットは各ブロック内に異なる数のパケットを持つことができるが、アクセスユニット内ではすべてのブロックは同じ数のパケットを有する。
各データパケットは、3つの識別子XYZの組み合わせによって識別することができる。
・Xは、それが属するアクセスユニットを識別する
・Yは、それが属するブロックを識別する。(すなわち、カプセル化されているデータタイプ)
・Zは、同一のブロック中の他のパケットに対するパケット順序を表す識別子である。
図28は、AU_T_Nは識別子Nを有するタイプTのアクセスユニットであり、アクセスユニットタイプによる順序の概念を暗示してもしなくてもよい、アクセスユニットおよびパケットラベリングの例を示す。識別子は、もたらされたゲノムデータを完全に解読するのに必要とされるあるタイプのアクセスユニットを他のタイプのアクセスユニットと一意に関連付けるために使用される。
任意のタイプのアクセスユニットは、異なるシークエンシングプロセスに従って、異なる「カテゴリ」でさらに分類され、ラベルされることができる。例えば、限定するわけではなく、分類およびラベリングを行うことができる。
1. 同一の生物を異なる時点でシークエンシングする(アクセスユニットは、「時間的」な含意を有するゲノム情報を含む)
2. 同一の生物の異なる性質の有機サンプル(例えば、ヒトサンプルの皮膚、血液、毛髪)のシークエンシング。これらは「生物学的」意味を有するアクセスユニットである。
タイプ1、2、3、4、5および6のアクセスユニットは、それらが参照するタイプ0のアクセスユニットにコード化された参照配列に関してゲノム配列フラグメントに適用されるマッチング機能の結果(別名リード)に従って構築される。
例えば、タイプ1のアクセスユニット(AUs)(図30参照)は、マッチング機能が実行されるときに完全なマッチング(または選択されたマッチング機能に対応する最大限可能なスコア)をもたらすそれらのリードの位置および逆相補フラグを含み得る。タイプ0のAUsでコード化された参照シーケンスの特定の領域に適用される。タイプ0のAUsに含まれるデータと共に、そのようなマッチング機能情報は、タイプ1のアクセスユニットによってもたらされるデータセットによって表されるすべてのゲノムシーケンスリードを完全に再構築するのに十分である。
本明細書で前述したゲノムデータ分類を参照すると、上記のタイプ1のアクセスユニットは、クラスPのゲノムシーケンスリードに関する情報(完全一致)を含むであろう。
可変長リードおよびペアリードの場合、リードペアの関連付けを含むゲノムデータを完全に再構築することができるようにするために、先の例で述べたタイプ1のAUsに含まれるデータをリードペアリングおよびリード長に関する情報を表すデータと統合する必要がある。先に本明細書で導入されたデータ分類に関して、ペアおよびrlenレイヤはタイプ1のAUでコード化されるであろう。
タイプ1のアクセスユニットに関して適用されたマッチング機能は、タイプ2、3および4のAUの内容を分類するために、以下のような結果を提供することができる。
1. タイプ1のAUに含まれる各シーケンスは、指定された位置に対応してタイプ0のAUに含まれるシーケンスと完全に一致する。
2. タイプ2のAUに含まれる各シーケンスは、指定された位置に対応してタイプ0のAUに含まれるシーケンスと完全に一致する。
ただし、タイプ2のAU内のシーケンスに「N」シンボルが存在することを除いて(シーケンス装置によってもたらされない塩基)
3. タイプ3のAUに含まれる各シーケンスは、指定された位置に対応してタイプ0のAUに含まれるシーケンスに関して置換シンボルの形のバリアント(バリアント)を含む。
4. タイプ4のAUに含まれる各シーケンスは、指定された位置に対応してタイプ0のAUに含まれるシーケンスに関して置換シンボルの形のバリアント(バリアント)、挿入および/または欠失を含む。
5. タイプ5のAUに含まれる各シーケンスは、タイプ0のAUに含まれる任意のシーケンスをマッピングしない。
6. タイプ6のAUに含まれる各シーケンスペアは、クラスP、N、M、及びI(上記の1から4)に属することができる一方のシーケンスを表すが、他方のシーケンスはタイプ0のAUに含まれるシーケンスをマッピングしない。
タイプ0のアクセスユニットは順序付けられている(例えば番号付けされている)が、それらは順序付けられた方法で格納および/または送信される必要はない(技術的利点:並列処理/並列ストリーミング、多重化)。
タイプ1、2、3、4、5および6のアクセスユニットは、順序付けされる必要はなく、順序付けられた方法で格納および/または送信される必要もない(技術的利点:並列処理/並列ストリーミング)。
特定のゲノム領域に関連する「ラベル」を使用したアクセスユニットの識別
開示された発明によって、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体を参照するデータクラスへのユーザ定義の選択的なアクセスを可能にする追加の機構が提供される。
「ラベル」は、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に割り当てられる識別子である。ラベルは、参照シーケンスid(「refid」)、参照シーケンスの所望の領域に対応するMITのインデックス、およびデータクラスを特定することによってゲノム領域を識別する。図52に一例を示す。
単一、サブセット、またはすべてのデータクラスは、ラベルによって参照することができ、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に関連するデータのサブセットのみに選択的にアクセスすることを可能にする。
ラベルリストは、保存シナリオまたはストリーミングシナリオにおいて、ゲノムラベルジェネレータ(4917図49)によって作成される必要がある。保存またはストリーミングされたデータへの選択的なアクセスを適用して、分析アプリケーションに利用可能なラベルを提供する。
ラベルリストは、以下の要素を含むことができる
・ラベル数
・リスト中の各ラベル
・ラベルID
・ラベルが関与する参照シーケンスの数
・各参照シーケンス
■ 参照識別子
■ ラベルでの対象となる領域の数
■ 各領域について:
・クラスID
・ゲノム範囲の開始位置
・ゲノム範囲の終了位置
以下のテーブルは、一般的な「ラベルリスト」の擬似構文を報告する。
テーブル4. 一般的な「ラベルリスト」データフォーマットの構文
ゲノムデータが圧縮されストリーミングされる場合、1つまたは複数のアクセスユニットは、現在のブロックが属する「ラベルリスト」における「ラベル」の識別子として機能するブロックヘッダフィールド(「ラベルID」)によって特定の「ラベル」を使用して識別することができる。このようなフィールドは、ストリーミングシナリオに典型的な「ラベル」へのブロックの動的マッピングを可能にする。
ゲノムファイルフォーマットでは、「start_pos」フィールドおよび「end_pos」フィールドは、次のように特定の「ラベル」に属するすべての「ブロック」を参照するブロック番号で置き換えることがでる。
テーブル5. 圧縮ファイルの場合の「ラベルリスト」構文データフォーマットの効率的な実装
「start_pos」および「end_pos」の代わりにブロック番号を使用することは、「ref_num」、「class_id」および「block_num」からなる3次元ベクトルがMIT自体を直接アドレス指定する座標として使用できることを考慮すると、「マスターインデックステーブル」(MIT)への直接アクセスを可能にするので、関連する技術的利点を示す。
保存のシナリオでは、「ラベルリスト」はゲノムラベルジェネレータ(4917)によって作成され、ゲノムマルチプレクサーに送信される(図49も参照)。デマルチプレクサは、ラベルリスト構文を解析し、利用可能なラベルをデータアクセスアプリケーションに公開し、それは必要とされる特定のデータアクセスに従って「ラベル」のサブセットに対応するアクセスユニットを選択する。
特定のゲノム領域に関連するアクセスユニットを識別するために「ラベル」を使用する可能性は、ランダムデータアクセス機能を達成するために「ラベル」なしでMITおよびLITのようなインデックスツールを使用することを妨げない。一般的なランダムアクセスは、対象となるMIT座標とLIT座標(参照ID、位置範囲、クラス)を決定し、ラベルリストに含まれる情報を無視することで、3次元ベクトルを指定することで実現できる。
図51は、MITに含まれているインデックスを使用して、ラベルを使用していくつかのゲノム領域を集約して一意に識別する方法を示す。
図59は、本発明によって開示されたラベリングメカニズムを実施する装置(592)がデータベース(595)に格納されたデータ(596)のいくつかのレコードへの同時アクセスをどのように可能にすることができるかを示す。同じラベルによって識別された1つまたは複数の領域の選択的保護は、クエリ(591)を解析し、アクセス制御の実施を担当するセキュリティモジュール(594)に必要なメタデータをディスパッチすることを担当する専用モジュール(591)によってもサポートされる。ラベルデコーダ(593)は、ラベル構文を保護することができる(したがって、アクセスはセキュリティモジュール594によって制御される)ことができるオブジェクト識別子に変換することを担当する。
技術的効果
本明細書に記載のラベルによって識別されるアクセスユニットまたはアクセスユニット内のゲノム情報を構造化する技術的効果は、ゲノムデータが:
1. アクセスするために選択的に照会することができる。
・全ゲノムデータまたはデータセットおよび/または関連メタデータを解凍する必要なしに、データの特定の「カテゴリ」(例えば、特定の時間的または生物学的含意を伴う)。
・ゲノムの他の領域を解凍する必要なく、すべての「カテゴリ」、「カテゴリ」のサブセット、単一の「カテゴリ」(関連するメタデータの有無にかかわらず)のゲノムの特定の領域
・「ラベルリスト」メインヘッダのみを解析し、対応するアクセスユニットのみにアクセス(すなわち検索および解凍)することによってユーザ定義の「ラベル」によって識別される、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体
2. 次の場合に、利用可能になる可能性がある新しいデータで増分更新することができる。
・ゲノムデータまたはデータセットに対して新しい分析が行われる。
・同じ生物(異なる生物学的試料、同じ種類の異なる生物学的試料、例えば異なる時間に取得された血液試料など)をシーケンシングすることによって新しいゲノムデータまたはデータセットが生成される。
3. 次の場合、新しいデータフォーマットに効率的にトランスコードすることができる
・新しい参照として使用される新しいゲノムデータまたはデータセット(例えば、タイプ0のAUが保有する新しい参照ゲノム)
・コード化フォーマット仕様の更新
4. アクセス制御(暗号化など)と許可の実施の両方に関して、さまざまなレベルの細分性で保護できる。たとえば、これらのシナリオは有効になる。
・1つのラベルで識別されるすべてのゲノム領域またはサブ領域に同じアクセス制御ルールと暗号化キーを適用することができる(例については図54を参照)。
・同じラベルの下に集約された各単一領域またはサブ領域を保護するために、異なるアクセス制御ルールと異なる暗号鍵を使用することができる(例については図55を参照)。
SAM/BAMのような先行技術の解決策に関して、記載された技術的特徴は、全データが検索され符号化フォーマットから解凍されたときにアプリケーションレベルでデータフィルタリングを行うことを要求する問題に対処する。
以下は、アクセスユニット構造、ファイルフォーマット、およびラベリングメカニズムの関連付けが技術的利点にとって有益となるアプリケーションシナリオの例に続く。
選択的アクセス
特に、ユーザが定義した「ラベル」を含む異なるタイプのアクセスユニットに基づく開示されたデータ構造は、以下のことを可能にする。
・関連するメタデータ情報も解凍する必要なく、すべての「カテゴリ」またはサブセット(つまり1つ以上のレイヤ)または単一の「カテゴリ」のシーケンス全体のリード情報(データまたはデータセット)のみを抽出する(従来技術の限界:異なるカテゴリーまたはレイヤの間の区別さえもサポートできないSAM/BAM)。
・ゲノムの他の領域を解凍する必要なく、(関連するメタデータの有無にかかわらず)すべてのカテゴリ、サブセットのカテゴリ、単一のカテゴリのために想定された参照シーケンスの特定領域上にアラインされたすべてのリードを抽出する(従来技術の限界:SAM/BAM)。
・ゲノムの他の領域に関連する他のデータも解凍する必要なく、(関連するメタデータの有無にかかわらず)すべてのカテゴリー、カテゴリーのサブセットについて、ユーザーが指定した「ラベル」によって特定された特定のゲノム領域またはサブ領域または領域またはサブ領域の集合にアラインした単一、サブセットまたはすべてのデータ「クラス」に属するすべてのリードを抽出する(従来技術の限界:SAM/BAM)。
図39は、ミスマッチを有する参照シーケンスの第2のセグメント(AU 0-2)にマッピングされたゲノム情報へのアクセスが、AU 0-2、1-2および3-2のみのデコード化のみを必要とする方法を示す。これは、マッピング領域に関する基準(すなわち、基準シーケンス上の位置)と、参照シーケンスに関するコード化されたシーケンスリードに適用されるマッチング機能に関する基準(例えば、この例ではミスマッチ)の両方に関連する選択アクセスの一例である。
さらなる技術的な利点は、データに対するクエリが、適用されたクエリとそれらの任意の組み合わせの「ラベル」と関連する選択された「カテゴリ」、より長いゲノム配列の特定の領域、およびタイプ1、2、3、4のアクセスユニットのための特定のレイヤのみにアクセスおよびデコードすることに基づくことができるので、データのアクセス性および実行速度の点で、より効率的であることである。
タイプ1、2、3、4のアクセスユニットのレイヤへの組織化は、ヌクレオチド配列の効率的な抽出を可能にする。
・1つ以上の参照ゲノムに関して特定のバリエーション(例えば、ミスマッチ、挿入、欠失)を伴う
・考慮されているいずれの参照ゲノムにもマッピングされない
・1つ以上の参照ゲノムに完全にマッピングされる
・1つ以上の精度レベルでマップする
図52は、ユーザ定義の「ラベル」に関連する特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体のみに関連するゲノム情報へのアクセスする方法を示す。ラベルの構文は3つの座標系に基づき、ここでラベルに関連する各領域またはサブ領域は、以下のように一意に識別することができる。
1. 参照ID、
2. データタイプ(クラス)
3. MIT(ゲノム領域に対応する)におけるブロック番号
これらの3つの座標は識別に使用することができる
・対応する参照上の領域のゲノム位置を含むMIT位置
・対応する基準上の領域のゲノム位置を含む
・各ゲノム領域またはサブ領域を表すデータの物理的位置を含むLIT位置
特定のゲノム領域に関連するデータにアクセスする場合のように、さらなる技術的な利点は、ラベルされた特定の領域の選択された「カテゴリ」、および適用されたクエリの「ラベル」およびそれらの任意の組み合わせに対応するタイプ1、2、3、4のアクセスユニットの特定の層のみのアクセスおよびデコードに基づくことができるため、データの問い合わせがデータのアクセス可能性および実行速度に関してはるかに効率的になることである。
このラベリングメカニズムの別の技術的利点は、参照ゲノム上の位置、参照に対するミスマッチのタイプなどのその特徴のためにいくつかのアクセスユニット間に散在しているコード化ゲノム情報を効率的に検索する可能性である(524)。
マッピングされたリードの特性(例えば、完全一致、置換のみなど)に従ってゲノムデータをフィルタリングすることは、BAMおよびCRAMなどの伝統的なフォーマットを使用するときに数時間かかることがある。これは、データが圧縮フォーマット内でまばらであり、コマンドのパイプラインを使用した解凍およびフィルタリングを必要とするという事実によるものである。本発明は、ほんの数秒でデータフィルタリングを可能にするデータ構造を説明する。本発明はファイル全体のデコード化(すなわちメモリ割り当て)を必要としないので、メモリ使用量はファイルサイズに比例するファクタ(10倍から100倍)によっても同様に減らすことができる。
「ストレージ」および「ストリーミング」シナリオでユーザー指定の「ラベル」によって識別された特定のゲノム領域への選択的アクセス
たとえば、シーケンスデータが圧縮されており、「GeneXY」と「GeneWZ」への選択的なアクセスが必要であるとする。圧縮ファイル形式または圧縮ストリーム内の「GeneXY」および「GeneWZ」に対応する2つのゲノム領域にはラベルを付ける必要がある。圧縮データファイルが格納のために生成されるか、または圧縮データストリームがストリーミングのために生成されるかに応じて、2つの方法が使用される。
圧縮データファイルの場合、マルチプレクサは、「Label_ID」=GeneXYおよび「Label_ID」=GeneWZの2つのラベルを含む「ラベルリスト」を作成する。ラベルパラメータ「Label_lenght_in_blocks」および各ブロックについてのパラメータ「ref_num」、「class_ID」、「block_num」は、「GeneXY」領域および「GeneWZ」領域の参照上の位置ならびに選択的アクセスが望まれるデータのクラスに基づいてマルチプレクサによって決定される。完全な構文は、テーブル5に報告されている。
圧縮ストリームの場合、マルチプレクサは、「Label_ID」=GeneXY及び「Label_ID」=GeneWZの2つのラベルを含む「ラベルリスト」を作成する。ラベルパラメータ「ref ID」、「class_ID」、「start_pos」および「end_pos」は、「GeneXY」および「GeneWZ」領域の参照上の位置ならびに選択的アクセスが望まれるデータのクラスに基づいてマルチプレクサによって決定される。完全な構文は、テーブル4に報告されている。
圧縮ストリームの場合に使用される方法は一般的であり、格納のために圧縮ファイルの場合にも使用されることができるが、説明したように圧縮ファイルの場合ブロック番号の使用により「マスターインデックステーブル」(MIT)への直接アクセスを可能にするので、対応する実行では効率が低下する。
上記の両方の場合(ストリーミングおよび保存)において、以下のラベルによって識別されるゲノムデータの検索機構は同じである。
ラベルを解析するとき、デコーディング装置は以下のようになる。
1. ラベルの第1の要素から参照シーケンスを識別する
2. ラベルの第2の要素からのデータのクラスを識別する
3. ラベルの第3の要素からMIT(ゲノム領域に対応する)のブロックを識別する
4. 1および2で解析された2つの座標は、デコーダが必要なゲノムストリーム(484)を識別することを可能にする
5. 各ゲノムストリームは、各ゲノム領域にマッピングされたデータをコードする記述子へのポインタを含むLIT(525)を含むヘッダから始まる。3で解析された第3の座標は、各ゲノムストリームのLIT内の正しいポインタにアクセスするために使用される
6. デコーダは、たとえそれらが異なるアクセスユニット(524)の間に散在していても、デコードされたゲノムラベルによって識別されたゲノムデータをデコードするためにすべての記述子を効率的に検索することができる
増分の更新
タイプ7、8のアクセスユニットは、ファイル全体のデパケット化/デコード化/解凍を必要とせずに、注釈を容易に挿入することを可能にし、それによって、従来技術のアプローチの制限であるファイルの効率的な処理を追加することができる。既存の圧縮ソリューションは、所望のゲノムデータにアクセスすることができる前に大量の圧縮データにアクセスして処理する必要がある。これは、非効率的なRAM帯域幅の利用と、ハードウェア実装においてもより多くの電力消費を引き起こす。ここで説明されるアクセスユニットに基づくアプローチを使用することによって、消費電力およびメモリアクセスの問題を軽減することができる。
マスターインデックステーブル(図21を参照)にアクセスユニットの利用および特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に関連するユーザ定義の「ラベル」を用いてアクセスユニットを識別することが可能なデータインデックスメカニズムは、以下に説明するようにコード化コンテンツの増分更新を可能にする。このメカニズムは、図53の例で示す。
付加的なデータの挿入
いくつかの理由で、新しいゲノム情報を、既存のゲノムデータに定期的に追加することができる。例えば、以下の通りである
・生物が異なる時点でシーケンスされる
・同じ固体のいくつかの異なるサンプルが同時にシーケンスされる
・シーケンシングプロセス(ストリーミング)によって生成された新しいデータ
上記の状況では、ここで説明されているアクセスユニットとファイル形式のセクションで説明されているデータ構造を使用してデータを構造化することで、既存のデータを再エンコードする必要なしに、新しく生成されたデータの増分の統合を可能にする。 増分の更新プロセスは次のように実行できる。
1. 新たに生成されたAUsは、既存のAUsとファイル内で単に連結することができる
2. 新たに生成されたデータまたはデータセットのインデックス付けは、この明細書のファイルフォーマットセクションに記述されるマスターインデックステーブルに含まれる。1つのインデックスは、新たに生成されたAUを既存の参照シーケンス上に位置付けされ、他のインデックスは、それらに対する直接的かつ選択的なアクセスを可能にするために物理ファイル中の新たに生成されたAUsのポインタからなる。
3. 既存及び/又は新規に生成されたAUは、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に対応するユーザが定義した「ラベル」を用いて識別することができ、「ラベルリスト」を含める、または更新することができる。
このメカニズムは図40に示されており、ここで、タイプ1の3AUおよび各タイプ2から4の4AUsでコード化された既存のデータは、例えば、同じ個人に対して実行される新しいシーケンスから来るコード化データを用いて、タイプごとに3AUで更新される。「ラベル」および「ラベルリスト」を作成または更新するメカニズムを図52および図53に示す。
ストリーミング形式のゲノムデータおよびデータセットを圧縮形式でストリーミングする特定の使用例では、既存のデータセットの増分更新は、それらがシーケンス装置によって生成されるとすぐに実際のシーケンスが完了する前にデータを分析するときに有用であり得る。コード化エンジン(コンプレッサ)は、選択された参照シーケンスの同じ領域にマッピングするシーケンスリードを「クラスタリング」することによって、いくつかのAUを並列に組み立てることができる。最初のAUが事前設定された閾値/パラメータを超える数のリードを含むと、AUは分析アプリケーションに送信する準備が整う。新たにコード化されたアクセスユニットと共に、コード化エンジン(コンプレッサ)は、新しいAUが依存するすべてのアクセスユニットがすでに受信側に送信されているか、それと一緒に送信されていることを確認しなければならない。例えば、タイプ3のAUは、正しくデコードされるために、受信側に存在するタイプ0およびタイプ1の適切なAUを必要とする。
記述されたメカニズムによって、受信バリアントコールアプリケーションは、送信側でシーケンス処理が完了する前に受信されたAU上でバリアントコールを開始することができるであろう。このプロセスの概略図を図41に示す。
結果の新しい分析
ゲノム処理ライフサイクルの間に、同じデータに対して数回のゲノム解析の反復を適用することができる(例えば、異なる処理アルゴリズムを使用した異なるバリアントコール)。この明細書で定義されるAUsの使用とこの明細書のファイルフォーマットのセクションで説明されているデータ構造は、新しい分析の結果を伴う既存の圧縮データの増分更新を可能にする。たとえば、既存の圧縮データに対して新しい分析を実行すると、次のような場合に新しいデータを生成することができる。
1. 新しい分析は、すでにコード化されたデータに関連付けられた既存の結果を修正することができる。この使用例は図42に示されており、1つのアクセスユニットのコンテンツを1つのタイプから別のタイプに完全にまたは部分的に移動させることによって実行される。新しいAUsを作成する必要がある場合(AU当たりの事前定義された最大サイズのために)には、マスタインデックステーブル内の関連インデックスを作成しなければならず、必要なときに関連ベクトルをソートしなければならない。
2. 新しいデータは、新しい分析から生成され、既存のコード化データに関連付ける必要がある。この場合、タイプ7の新たなAUsを生成して、同じタイプのAUsの既存のベクトルと連結することができる。これと、それに関連したマスターインデックステーブルの更新を図43に示す。
図42および図43に示した上記の使用例は、以下によって有効になる。
1. マッピング品質が低いデータ(例:タイプ4のAU)のみに直接アクセスする可能性。
2. 新しいタイプに属する可能性がある新しいアクセスユニットを作成するだけで、新しいゲノム領域にリードを再マッピングすることができる(たとえば、タイプ4のAUsに含まれるリードは、より少ないミスマッチ(タイプ2−3)で新しい領域に再マッピングでき、新しく作成されたAUに含むことができる)。
3. 新しく作成された分析結果および/または関連する注釈のみを含むタイプ8(433)のAUを作成する可能性。この場合、新しく作成されたAUには、それらが参照している既存のAUへの「ポインタ」を含めるだけで済む。
4. 各単一ゲノム領域またはサブ領域に対して分析を繰り返す必要なしに、同じラベルによって識別されるいくつかのゲノム領域およびサブ領域に対して一回の分析で新しい分析を実行する可能性。この明細書に記載されているようなラベルは、あたかもそれらが単一のゲノムシーケンスであるかのように、ユーザが非隣接ゲノムセグメントを操作することを可能にする。
5. 新しい分析で更新する可能性は、単一のラベルによって識別されたいくつかのゲノム領域またはサブ領域をもたらす。新しい結果(通常はメタデータの形で表現される)は、結果から各ゲノム領域またはサブ領域へのいくつかのリンクを作成する必要なしに、潜在的にいくつかのゲノム領域およびサブ領域の集合を識別するラベルにリンクされる。
トランスコーディング
圧縮されたゲノムデータは、例えば、以下の状況において、トランスコーディングを必要とすることがある
・新しい参照シーケンスの公開
・異なるマッピングアルゴリズム(再マッピング)の使用
ゲノムデータが既存の公的な参照ゲノム上にマッピングされる場合には、そのゲノムデータは、前記参照シーケンスの新しいバージョンの公開または異なる処理アルゴリズムを使用してデータをマッピングすることを望むことは、今日、再マッピングのプロセスを必要とする。SAMまたはCRAMなどの従来技術のファイルフォーマットを使用して圧縮データを再マッピングする場合、新たに利用可能な参照シーケンスを参照して、または異なるマッピングアルゴリズムを使用して、再びマッピングされるために、圧縮されたデータ全体はその「生」形式に解凍されなければならない。これは、新しく公開された参照が以前のものとわずかに異なるだけであったり、使用された別のマッピングアルゴリズムが以前のマッピングに非常に近い(または同一の)マッピングを生成する場合でも同様である。
ここで説明されるアクセスユニットを使用して構造化されたゲノムデータをトランスコードする利点は、以下のものである。
1. 新たな参照ゲノムに対するマッピングは、変化を有するゲノム領域上にマッピングされたAUsのデータを再コード化(解凍及び圧縮)することがのみを必要とすると、を含む。さらに、ユーザは、任意の理由のために、変更された領域上で最初にマップしていない場合でさえ、何らかの理由で再マッピングされる必要があるかもしれない圧縮されたリードを選択することができる(これは、ユーザが、以前のマッピングが不良な品質であると考える場合に起こり得る)。この使用例を図44に示す。
2. 新たに公開された参照ゲノムが、異なるゲノム位置(「遺伝子座」)にシフトされた全領域に関してのみ以前と異なる場合、トランスコーディング操作は、特に単純で効率的である。実際には、「シフト」領域にマップされた全てのリードを移動させるために、関連する(セットの)AU(s)ヘッダに含まれる絶対位置の値のみを変更すれば十分である。各AUヘッダは、AUに含まれる最初のリードが参照シーケンス上にマッピングされる絶対位置を含み、一方、他のすべてのリード位置は、最初のリードに対して差分的にコード化される。したがって、最初のリードの絶対位置の値を単純に更新することによって、AU内のすべてのリードがそれに応じて移動する。ゲノムデータ位置は圧縮されたペイロードにコード化されているので、このメカニズムは、CRAMおよびBAMのような従来技術では実施できず、したがってすべてのゲノムデータセットの完全な解凍および再圧縮が必要である。
3. 異なるマッピングアルゴリズムが使用されるとき、それは質が悪いとマッピングされたとみなされた圧縮されたリードの部分だけにそれを適用することが可能である。例えば、参照ゲノム上で完全には一致しなかったリードに対してのみ新しいマッピングアルゴリズムを適用することが適切であり得る。現在の既存のフォーマットでは、それらのマッピング品質(すなわち、ミスマッチの存在および数)に従ってリードを抽出することは不可能である(またはいくつかの制限を伴って部分的にしか可能ではない)。新しいマッピングツールによって新しいマッピング結果が返された場合、関連するリードは、あるAUから同じタイプの別のAUへ、またはあるタイプの1つのAUから別のタイプのAUへとトランスコードできる(図45)。
さらに、従来技術の圧縮ソリューションは、所望のゲノムデータにアクセスすることができる前に大量の圧縮データにアクセスして処理しなければならないかもしれない。 これは、非効率的なRAM帯域幅の利用と、ハードウェア実装においてもより多くの電力消費を引き起こす。ここで説明されるアクセスユニットに基づくアプローチを使用することによって、消費電力およびメモリアクセスの問題を軽減することができる。
本明細書に記載のゲノムアクセスユニットを採用することのさらなる利点は、並列処理の促進およびハードウェア実装への適合性である。SAM/BAMおよびCRAMのような現在の解決策は、シングルスレッドソフトウェア実装のために考えられている。
選択的保護
この明細書に記載されているように、いくつかのタイプのレイヤに編成されたアクセスユニットに基づくアプローチは、当業界のモノリシックソリューションの状態では不可能であったコンテンツ保護メカニズムの実装を可能にする。
当業者は、生物の遺伝的プロフィールに関連するゲノム情報の大部分が、既知のシーケンス(例えば、参照ゲノムまたはゲノムの集団)に関する差異(バリアント)に依存していることを知っている。したがって、無許可のアクセスから保護される個々の遺伝的プロファイルは、この明細書で説明されているようにタイプ3および4のアクセスユニットにエンコードされる。したがって、シーケンスおよび分析プロセスによって生成された最も賢明なゲノム情報へのアクセス制御の実装は、タイプ3および4のAUのペイロードのみを暗号化することによって実現できる(例については図47を参照)。リソースを消費する暗号化プロセスはデータのサブセットにのみ適用されるので、これは処理能力と帯域幅の両方の点でかなりの節約を生み出す。
「ラベル」によって識別される特定のゲノム領域の選択的保護
ラベリングメカニズムは、データ保護およびアクセス制御の異なるメカニズムを可能にする。例えば図54は、1つの保護メカニズム(例:暗号化)と1つのアクセス制御ルール(AC)を、同じラベルで識別されるいくつかのゲノム領域にどのように適用できるかを示す。より洗練されたシナリオでは、ラベルによって識別される各領域に異なるアクセス制御ルールと異なる保護メカニズム(暗号化)を適用することによってデータ保護を実装できる。これを図55に示す。
さらに、異なる「ラベル」によって識別されるゲノム領域もしくはサブ領域または領域もしくはサブ領域の集合体の選択的暗号化は、ファイルシナリオおよびストリーミングシナリオの両方に対して「ラベル」に対応する圧縮データのみに暗号化を適用することによって容易に実施できる。例えば、セクションの例のように「GeneXY」及び「GeneWZ」とラベル付けされた2つのゲノム領域において、「「ストレージ」および「ストリーミング」シナリオにおけるユーザ指定の「ラベル」によって識別される特定のゲノム領域への選択的アクセス」は「GeneXY」というラベルの付いたデータを暗号化し、「GeneWZ」というラベルの付いた圧縮データを平文のままにしておくことで区別することができる。暗号化規則は、メタデータフィールド(ストレージとストリーミングの両方のシナリオで)によって運ばれ、「ラベルリスト」の各要素に関連付けられる。
ゲノムアクセスユニットの輸送
ゲノムデータマルチプレックス
ゲノムアクセスユニットは、ゲノムデータマルチプレックス内の通信ネットワークを介して伝送することができる。ゲノムデータマルチプレックスは、本発明の一部として開示されたデータ分類に従って表されるパケット化されたゲノムデータおよびメタデータのシーケンスとして定義される、パケット損失のようなエラーが発生し得るネットワーク環境で伝送される。
ゲノムデータマルチプレックスは、異なる環境(典型的にはネットワーク環境)上でのゲノムコード化データの輸送を容易にし、より効率的にすると考えられる当該技術分野の解決策の状態では存在しない以下の利点を有する。
1. それは、ネットワーク環境上でそれを運ぶために、コード化ツールによってストリームまたは一連のゲノムデータ(後述)またはゲノムファイルフォーマットのいずれか1つ以上をゲノムデータマルチプレックスにカプセル化することを可能にし、情報の伝送とアクセスをより効率的にするための同一のストリームまたはファイル形式を回復する。
2. それは、デコード化および提示のために、カプセル化されたゲノムデータストリームからのコード化ゲノムデータの選択的検索を可能にする。
3. それは、輸送のためにいくつかのゲノムデータセットを情報の単一のコンテナに多重化することを可能にし、そして運ばれる情報のサブセットを新しいゲノムデータ多重に逆多重化することを可能にする。
4. それは、(結果として別々のアクセスを伴う)異なるソースによって生成されたデータおよびメタデータの多重化および/またはシーケンシング/分析プロセスを可能にし、結果として生じるゲノムデータマルチプレックスをネットワーク環境上で送信する。
5. パケット損失などのエラーの識別をサポートする。
6. それは、ネットワーク遅延のために順序が乱れて到着する可能性がある適切な並べ替えデータをサポートし、それゆえ、先行技術の解決策と比較した場合、ゲノムデータの送信をより効率的にする。
ゲノムデータマルチプレックスの例は、図49に示されている
ゲノムデータセット
本発明の明細書において、ゲノムデータセットは、例えば、生物のゲノムデータ、いくつかのステップのゲノムデータ処理によって生成された1つまたは複数のシーケンスおよびメタデータ、または生物のゲノムシーケンシングの結果を含む、ゲノムデータの構造セットとして定義される。1つのゲノムデータマルチプレックスは、(マルチチャネルシナリオにおけるように)複数のゲノムデータセットを含み得、各データセットは異なる生物を指す。単一のゲノムデータマルチプレックスへのいくつかのデータセットのマルチプレックスメカニズムは、ゲノムデータセットリスト(GDL)、ゲノムデータセットマッピングテーブルリスト(GDMTL)、およびゲノムデータセットマッピングテーブル(GDMT)と呼ばれるデータ構造に含まれる情報によって支配される。
ゲノムデータセットリスト
ゲノムデータセットリスト(GDL)は、ゲノムデータマルチプレックスにおいて利用可能な全てのゲノムデータセットを列挙するデータ構造として定義される。列挙されたゲノムデータセットの各々は、ゲノムデータセットID(GID)と呼ばれるユニークな値によって識別される。
GDLにリストされた各ゲノムデータセットは、以下のように関連付けられる
・1つのゲノムデータストリームが1つのゲノムデータセットマッピングテーブル(GDMT)をもたらし、ストリームIDの特定の値(genomic_dataset_map_SID)によって識別される。
・1つのゲノムデータストリームが1つの参照IDマッピングテーブル(RIDMTをもたらし、ストリームIDの特定の値(reference_ID_map_SID)によって識別される。
GDLは、ゲノムデータストリーム送信の開始時に単一のトランスポートパケットのペイロードとして送られる;そしてそれはストリームへのランダムアクセスを可能にするために、周期的に再送信することができる。
GDLデータ構造の構文は、各構文要素に関連付けられたデータタイプの表示と共に以下の表に提供されている。
上述したGDLを構成する構文要素は、以下の意味および機能を有する。
ゲノムデータセットマッピングテーブル
ゲノムデータセットマッピングテーブル(GDMT)は、ストリーミングプロセスの開始時に生成および送信される(そして、対応点およびストリーミングデータ内の関連する依存関係の更新を可能にするために、おそらく定期的に再送信、更新または同一)。GDMTは、ゲノムデータセットリストに続く単一のパケットによって運ばれ、1つのゲノムデータセットを構成するゲノムデータストリームを識別するSIDをリストする。GDMTは、ゲノムマルチプレックスによって運ばれる1つのゲノムデータセットを構成するゲノムデータストリームのすべての識別子(例えば、ゲノム配列、参照ゲノム、メタデータなど)の完全な集まりである。 ゲノムデータセットマッピングテーブルは、各ゲノムデータセットに関連するゲノムデータのストリームの識別子を提供することによってゲノム配列へのランダムアクセスを可能にするのに役立つ。
GDMTデータ構造の構文は、各構文要素に関連するデータタイプの表示と共に下の表に提供される。
上述のGDMTを構成する構文要素は、以下の意味および機能を有する。
extension_fieldsは、ゲノムデータセットまたは1つのゲノムデータセットコンポーネントのいずれかを詳細に説明するために使用できるオプションの記述子である。
data_typeフィールドは、以下の値を有することができる
ゲノムデータセットマッピングテーブルリスト
この構造は、ゲノムデータセットマルチプレックスに関連する全てのデータセットマッピングテーブルに関する情報を伝達する。
参照IDマッピングテーブル
参照IDマッピングテーブル(RIDMT)は、ストリーミングプロセスの開始時に生成され、送信される。RIDMTは、ゲノムデータセットリストに続く単一のパケットによって運ばれる。RIDMTは、アクセスユニットのブロックヘッダに含まれる参照シーケンスの数値識別子(REFID)とテーブル2に指定されるゲノムデータセットヘッダに含まれる(典型的にはリテラル)参照識別子との間のマッピングを特定する。
RIDMTは、以下のために周期的に再送信することができる。
・ストリーミングされたデータ内の対応点および関連する依存関係の更新を可能にする。
・既存のものに追加された新しい参照シーケンスの統合をサポートする(例:de novoアセンブリプロセスによって作成された合成参照)
RIDMTデータ構造の構文は、各構文要素に関連するデータタイプの表示と共に以下の表に提供されている。
上述したRIDMTを構成する構文要素は、以下の意味及び機能を有する。
ゲノムラベルリスト
上述したように、ラベルは、特定のゲノム領域もしくはサブ領域または領域もしくはサブ領域の集合体に割り当てられる識別子である。
ラベルは、参照シーケンスID、参照シーケンスに対する位置範囲、およびそれらが同定するデータクラスを特定することによってゲノム領域を同定する。そのような目的のために、ゲノムラベルリスト(GLL)は、パケット化プロセス中にマルチプレクサによって作成され、送信される。
デマルチプレクサのデパケタイザは、gll構文を解析し、利用可能な"ラベル"をデータアクセスアプリケーションに公開する、データの所望のサブセットを選択しアクセスする可能性を有する。
デマルチプレクサのデパケッタイザは、GLL構文を解析し、利用可能な「ラベル」をデータアクセスアプリケーションに公開し、それは所望のデータのサブセットを選択しアクセスする可能性を有する。GLLは(任意に)ストリームの始めに生成され送信され、通常は複数の同期点を有効にするために定期的に送信され(4811)、そしてmultiplex_idおよびdataset_idフィールドによって識別されるマルチプレックスおよびデータセットに関連する「ラベル」のリストを提供する。
GLLは(任意に)ストリームの始めに生成され送信され、通常は複数の同期点を有効にするために定期的に送信され(4811)、そしてmultiplex_idおよびdataset_idフィールドによって識別されるマルチプレックスおよびデータセットに関連する「ラベル」のリストを提供する。 。
GLLデータ構造の構文は、各構文要素に関連するデータタイプの表示と共に以下の表に提供されている。
テーブル6 テーブルは、ストリーム化された圧縮データシナリオのための「ラベルリスト」データフォーマットの完全な構文を示す。
上述のGLLを構成する構文要素は、以下の意味および機能を有する。
テーブル7−テーブル6の構文要素の説明
ゲノムデータストリーム
ゲノムデータマルチプレックスは、各ストリームがトランスポートすることができる1つまたは複数のゲノムデータストリームを含む。
・トランスポート情報を含むデータ構造(例えば、ゲノムデータセットリスト、ゲノムデータセットマッピングテーブルなど)
・本発明で説明したゲノムデータレイヤの1つに属するデータ
・ゲノムデータに関連するメタデータ
・その他のデータ
ゲノムデータを含むゲノムデータストリームは、本質的に、ゲノムデータレイヤのパケット化されたバージョンであり、ここで、各パケットは、パケット内容を記述するヘッダと、それがマルチプレックスの他の要素に関連する方法とを記述している。
この明細書に記載されたゲノムデータストリーム形式と、この明細書に記述されたファイルフォーマットとは相互に変換可能である。全ファイルフォーマットは、全てのデータが受信された後にのみ完全に再構成することができる、デコード化ツールが再構築およびアクセスを可能にし、任意の時点で部分データの処理を開始することができるようにする。
ゲノムデータストリームは、1つ以上のゲノムデータパケットを含む複数のゲノムデータブロックで構成される。ゲノムデータブロック(GDBs)は、1つのゲノムAUを構成するゲノム情報のコンテナである。GDBは、通信チャネルの要件に従って、複数のゲノムデータパケットに分割することができる。
ゲノムアクセスユニットは、異なるゲノムデータストリームに属する1つ以上のゲノムデータブロックで構成されている。
ゲノムデータパケット(GDPS)は、1つのGDBを構成する伝送ユニットである。パケットサイズは、通常、通信チャネル要件に従って設定される。
図27は、本発明で定義されているようにPクラスに属するデータをコード化するときのゲノムマルチプレックス、ストリーム、アクセスユニット、ブロックおよびパケットの間の関係を示す。この例では、3つのゲノムストリームが位置、ペアリング、およびシーケンスリードの逆相補性に関する情報をカプセル化している。
ゲノムデータブロックは、ヘッダと、圧縮データのペイロードと、パディング情報とによって構成される。
以下の表は、各フィールドおよび典型的なデータタイプの記述を有するGDBヘッダの実装例を提供する。
テーブル8 ゲノムデータブロック構文要素の記述
AUID、POSおよびBSの使用は、本発明においてマスターインデックステーブル(MIT)およびローカルインデックステーブル(LIT)と呼ばれるデータインデックス付けメカニズムをデコーダが再構築することを可能にする。データストリーミングのシナリオでは、AUIDとBSを使用することで、受信側は余分なデータを送信する必要なく、LITをローカルに動的に再作成できる。AUID、BSおよびPOSを使用すると、追加のデータを送信する必要なく、MITをローカルに再作成できる。
これには技術的な利点がある。
・LIT全体が送信される場合に大きくなる可能性があるコード化オーバーヘッドを減らす。
ストリーミングのシナリオでは通常利用できない、ゲノム位置とアクセスユニットの間の完全なマッピングの必要性を回避する。
ゲノムデータブロックは、最大パケットサイズ、パケット損失率などのネットワークレイヤの制約に応じて、1つ以上のゲノムデータパケットに分割できる。ゲノムデータパケットは、以下の表に示すように、ヘッダーと、エンコードまたは暗号化されたゲノムデータのペイロードで構成される。
テーブル9 ゲノムデータパケットの構文要素の説明
ゲノムマルチプレックスは、特定のゲノムデータセットコンポーネントに、少なくとも1つのゲノムデータセットリスト、1つのゲノムデータセットマッピングテーブル、および1つの参照IDマッピングテーブルが受信された場合にのみ正しくデコードでき、すべてのパケットを特定のゲノムデータセットコンポーネントにマッピングすることができる。
ゲノムパケットヘッダ
各ゲノムデータブロックは、パケットロス率、プロトコル最大パケットサイズなどのチャネル要件に応じて、ゲノムデータパケットのペイロードで送信され得るフラグメントに分割され得る。
ゲノムデータパケットは以下のように定義される。
マルチプレックスコード化プロセス
図49は、本発明で提示されるデータ構造に変換される前に、生のゲノムシーケンスデータをアプリオリに知られている1つ以上の参照シーケンスにマッピングする必要がある方法(4920)を示す。参照シーケンスが利用可能でない場合、「構築された」参照は生のシーケンスデータから構築され得る(492)。情報のエントロピーを減らすために、すでに位置合わせされたデータを位置合わせし直すことができる。アラインメント後、ゲノム分類器(494)は、表1に記載されているマッチング機能に従ってデータクラスを作成し、ゲノムシーケンスからメタデータ(例えば品質値)および注釈データを分離する。生成されたデータのクラスのエントロピーをさらに減らすために、参照変換(4919)を外部参照(4920)に適用することができる(498)。変換されたデータクラス(4918)は、レイヤエンコーダ(495〜497)に供給されて、次にエントロピーエンコーダ(4912〜4914)によってエンコードされるゲノムレイヤ(491)を生成する。エントロピーエンコーダによって生成されたゲノムストリームは、次に、ゲノムマルチプレックスを生成するゲノムマルチプレックサ(4916)に送信される。ゲノムラベルジェネレータ(4917)によって生成されたゲノムラベルは、マルチプレクサ(4916)によってゲノムストリーム(4915)に関連付けることができる。

Claims (21)

  1. ラベルを使用することによってゲノムデータの領域に選択的にアクセスするための方法であって、前記ラベルは、参照ゲノムシーケンスの識別子(521)、前記ゲノム領域の識別子(522)、およびゲノムデータのデータクラスの識別子(523)を含む方法。
  2. 前記ゲノムデータがゲノムリードの配列である、請求項1に記載の方法 。
  3. 前記データクラスは、以下のタイプまたはそれらのサブセットであり得る、請求項2に記載の方法。
    ・参照シーケンスに対していかなるミスマッチも存在しないゲノムリードを含む「クラスP」
    ・シーケンシング装置がいずれの「塩基」とも呼ぶことができなかった位置におけるミスマッチのみを含み、前記ミスマッチの数は所与の閾値を超えないゲノムリードを含む「クラスN」
    ・「n型」ミスマッチと呼ばれるシーケンシング装置がいずれの塩基をももたらせなかった位置におけるミスマッチ、および/または「s型」と呼ばれる参照シーケンスとは異なる塩基をもたらしたもの、そして前記ミスマッチの数は「n型」、「s型」ミスマッチ数に対する所与の閾値を超えず、閾値は所与の関数(f(n、s))から得られるゲノムリードを含む「クラスM」
    ・ゲノムリードが、「クラスM」と同じタイプのミスマッチを有する可能性があり、さらに少なくとも1つの「挿入」(「i型」)、「欠失」(「d型」)、ソフトクリップ(「c型」)タイプのミスマッチが付加され、各タイプのミスマッチの数が所与の閾値を超えず、閾値は所与の関数(w(n、s、i、d、c)から得られるゲノムリードを含む「クラスI」
    ・クラスP、N、M、Iに分類が見つからないすべてのリードを含む「クラスU」
  4. 前記ゲノムデータはゲノムリードのペア配列である、請求項2に記載の方法。
  5. ペアリードの前記データクラスは、以下のタイプまたはそれらのサブセットであり得る、請求項4に記載の方法。
    ・参照シーケンスに対していかなるミスマッチも存在しないゲノムリードペアを含む「クラスP」
    ・シーケンシング装置がいずれの「塩基」とも呼ぶことができなかった位置におけるミスマッチのみを含み、ミスマッチの数は所与の閾値を超えないゲノムリードペアを含む「クラスN」
    ・「n型」ミスマッチと呼ばれるシーケンシング装置がいずれの塩基をももたらせなかった位置におけるミスマッチだけを含み、前記ミスマッチの数は所与の閾値を超えず、および/または「s型」と呼ばれる参照シーケンスとは異なる塩基をもたらしたもの、そして前記ミスマッチの数は「n型」、「s型」ミスマッチ数に対する所与の閾値を超えず、閾値は所与の関数(f(n、s))から得られるゲノムリードペアを含む「クラスM」
    ・ゲノムリードペアが、「クラスM」と同じタイプのミスマッチを有する可能性があり、さらに少なくとも1つの「挿入」(「i型」)、「欠失」(「d型」)、ソフトクリップ(「c型」)タイプのミスマッチが付加され、各タイプのミスマッチの数が所与の閾値を超えず、閾値は所与の関数(w(n、s、i、d、c))から得られるリードペアを含む「クラスI」
    ・1つのリードメイトのみがクラスP、N、M、Iのいずれかに分類されるためのマッチングルールを満たさないリードペアを含む「クラスHM」
    ・両方のリードがクラスP、N、M、Iに分類されるためのマッチングルールを満たさないすべてのリードペアを含む「クラスU」
  6. 前記ゲノム領域の前記識別子は、マスターインデックステーブルに含まれる、請求項3および5に記載の方法。
  7. 前記ゲノムデータおよび前記ラベルは、エントロピコード化される請求項6に記載の方法。
  8. 前記マスターインデックステーブル(4812)は、ゲノムデータセットヘッダ(4813)に含まれる、請求項7に記載の方法。
  9. 前記ゲノムデータ領域は、別個のアクセスユニット(524、486)の間に分散される、請求項1乃至8に記載の方法。
  10. ファイル内の前記ゲノムデータ領域の位置は、ローカルインデックステーブル(525)に示されている、請求項9に記載の方法。
  11. 前記ラベルはユーザ指定である、請求項1乃至10に記載の方法。
  12. 前記領域は、ゲノムファイル全体を暗号化することなく、別個の方法で保護および/または暗号化される、請求項1乃至11に記載の方法。
  13. 前記ラベルはゲノムラベルリスト(GLL)に保存される、請求項1乃至12に記載の方法。
  14. 請求項1乃至13に記載のゲノムデータの領域への選択的アクセスを用いてゲノムデータをコード化するための方法。
  15. 前記ゲノムラベルリストは、複数の同期ポイントを可能にするために定期的に再送信または更新される請求項14に記載の方法。
  16. 請求項1乃至13および15に記載のゲノムデータの領域への選択的アクセスを用いてゲノムデータのストリームまたはファイルをデコードする方法。
  17. 請求項14および15に記載のゲノムデータをコード化するための装置。
  18. 請求項16に記載のゲノムデータをデコード化するための装置。
  19. 請求項14および15に記載のコード化されたゲノムデータを保存するための保存手段。
  20. 実行されると、少なくとも1つのプロセッサに請求項14および15の何れか一項に記載のコード化方法を実行させる命令を含むコンピュータ可読媒体。
  21. 実行されると少なくとも1つのプロセッサに請求項16の何れか一項に記載のデコード方法を実行させる命令を含むコンピュータ可読媒体。
JP2019540510A 2016-10-11 2017-02-14 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム Withdrawn JP2020505702A (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
PCT/EP2016/074311 WO2018068830A1 (en) 2016-10-11 2016-10-11 Method and system for the transmission of bioinformatics data
EPPCT/EP2016/074311 2016-10-11
PCT/EP2016/074307 WO2018068829A1 (en) 2016-10-11 2016-10-11 Method and apparatus for compact representation of bioinformatics data
EPPCT/EP2016/074297 2016-10-11
EPPCT/EP2016/074307 2016-10-11
PCT/EP2016/074301 WO2018068828A1 (en) 2016-10-11 2016-10-11 Method and system for storing and accessing bioinformatics data
EPPCT/EP2016/074301 2016-10-11
PCT/EP2016/074297 WO2018068827A1 (en) 2016-10-11 2016-10-11 Efficient data structures for bioinformatics information representation
PCT/US2017/017841 WO2018071054A1 (en) 2016-10-11 2017-02-14 Method and system for selective access of stored or transmitted bioinformatics data

Publications (1)

Publication Number Publication Date
JP2020505702A true JP2020505702A (ja) 2020-02-20

Family

ID=61905752

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2019540510A Withdrawn JP2020505702A (ja) 2016-10-11 2017-02-14 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム
JP2019540511A Active JP7079786B2 (ja) 2016-10-11 2017-07-11 アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置
JP2019540512A Withdrawn JP2019537172A (ja) 2016-10-11 2017-07-11 バイオインフォマティクスデータのインデックスを付けるための方法及びシステム
JP2019540513A Withdrawn JP2020500383A (ja) 2016-10-11 2017-07-11 リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2019540511A Active JP7079786B2 (ja) 2016-10-11 2017-07-11 アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置
JP2019540512A Withdrawn JP2019537172A (ja) 2016-10-11 2017-07-11 バイオインフォマティクスデータのインデックスを付けるための方法及びシステム
JP2019540513A Withdrawn JP2020500383A (ja) 2016-10-11 2017-07-11 リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム

Country Status (17)

Country Link
US (6) US20200042735A1 (ja)
EP (3) EP3526694A4 (ja)
JP (4) JP2020505702A (ja)
KR (4) KR20190073426A (ja)
CN (6) CN110168651A (ja)
AU (3) AU2017342688A1 (ja)
BR (7) BR112019007359A2 (ja)
CA (3) CA3040138A1 (ja)
CL (6) CL2019000968A1 (ja)
CO (6) CO2019003639A2 (ja)
EA (2) EA201990917A1 (ja)
IL (3) IL265879B2 (ja)
MX (2) MX2019004130A (ja)
PE (7) PE20191058A1 (ja)
PH (6) PH12019550060A1 (ja)
SG (3) SG11201903270RA (ja)
WO (4) WO2018071054A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2526598B (en) * 2014-05-29 2018-11-28 Imagination Tech Ltd Allocation of primitives to primitive blocks
US11574287B2 (en) 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US11030324B2 (en) * 2017-11-30 2021-06-08 Koninklijke Philips N.V. Proactive resistance to re-identification of genomic data
WO2019191083A1 (en) * 2018-03-26 2019-10-03 Colorado State University Research Foundation Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules
US20210158902A1 (en) * 2018-05-31 2021-05-27 Koninklijke Philips N.V. System and method for allele interpretation using a graph-based reference genome
CN108753765B (zh) * 2018-06-08 2020-12-08 中国科学院遗传与发育生物学研究所 一种构建超长连续dna序列的基因组组装方法
US20200058379A1 (en) * 2018-08-20 2020-02-20 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Compressing Genetic Sequencing Data and Uses Thereof
GB2585816A (en) * 2018-12-12 2021-01-27 Univ York Proof-of-work for blockchain applications
US20210074381A1 (en) * 2019-09-11 2021-03-11 Enancio Method for the compression of genome sequence data
CN110797087B (zh) * 2019-10-17 2020-11-03 南京医基云医疗数据研究院有限公司 测序序列处理方法及装置、存储介质、电子设备
WO2021074440A1 (en) * 2019-10-18 2021-04-22 Koninklijke Philips N.V. System and method for effective compression, representation and decompression of diverse tabulated data
CN111243663B (zh) * 2020-02-26 2022-06-07 西安交通大学 一种基于模式增长算法的基因变异检测方法
CN111370070B (zh) * 2020-02-27 2023-10-27 中国科学院计算技术研究所 一种针对大数据基因测序文件的压缩处理方法
US20210295949A1 (en) * 2020-03-17 2021-09-23 Western Digital Technologies, Inc. Devices and methods for locating a sample read in a reference genome
US11837330B2 (en) 2020-03-18 2023-12-05 Western Digital Technologies, Inc. Reference-guided genome sequencing
EP3896698A1 (en) * 2020-04-15 2021-10-20 Genomsys SA Method and system for the efficient data compression in mpeg-g
CN111459208A (zh) * 2020-04-17 2020-07-28 南京铁道职业技术学院 针对地铁供电系统电能的操纵系统及其方法
CA3183745A1 (en) * 2020-09-14 2022-03-17 Illumina, Inc. Custom data files for personalized medicine
CN112836355B (zh) * 2021-01-14 2023-04-18 西安科技大学 一种预测采煤工作面顶板来压概率的方法
ES2930699A1 (es) * 2021-06-10 2022-12-20 Veritas Intercontinental S L Metodo de analisis genomico en una plataforma bioinformatica
CN113670643B (zh) * 2021-08-30 2023-05-12 四川虹美智能科技有限公司 智能空调测试方法及系统
CN113643761B (zh) * 2021-10-13 2022-01-18 苏州赛美科基因科技有限公司 一种用于解读二代测序结果所需数据的提取方法
US20230187020A1 (en) * 2021-12-15 2023-06-15 Illumina Software, Inc. Systems and methods for iterative and scalable population-scale variant analysis
CN115391284B (zh) * 2022-10-31 2023-02-03 四川大学华西医院 基因数据文件快速识别方法、系统和计算机可读存储介质
CN116541348B (zh) * 2023-03-22 2023-09-26 河北热点科技股份有限公司 数据智能存储方法及终端查询一体机
CN116739646B (zh) * 2023-08-15 2023-11-24 南京易联阳光信息技术股份有限公司 网络交易大数据分析方法及分析系统
CN117153270B (zh) * 2023-10-30 2024-02-02 吉林华瑞基因科技有限公司 一种基因二代测序数据处理方法

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6303297B1 (en) * 1992-07-17 2001-10-16 Incyte Pharmaceuticals, Inc. Database for storage and analysis of full-length sequences
JP3429674B2 (ja) 1998-04-28 2003-07-22 沖電気工業株式会社 多重通信システム
EP1410301A4 (en) * 2000-04-12 2008-01-23 Cleveland Clinic Foundation SYSTEM FOR IDENTIFYING AND ANALYZING GENE EXPRESSION CONTAINING ELEMENTS RICH IN ADENYLATE URIDYLATE (ARE)
FR2820563B1 (fr) * 2001-02-02 2003-05-16 Expway Procede de compression/decompression d'un document structure
US20040153255A1 (en) * 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium
DE10320711A1 (de) * 2003-05-08 2004-12-16 Siemens Ag Verfahren und Anordnung zur Einrichtung und Aktualisierung einer Benutzeroberfläche zum Zugriff auf Informationsseiten in einem Datennetz
WO2005024562A2 (en) * 2003-08-11 2005-03-17 Eloret Corporation System and method for pattern recognition in sequential data
US7805282B2 (en) * 2004-03-30 2010-09-28 New York University Process, software arrangement and computer-accessible medium for obtaining information associated with a haplotype
WO2006052242A1 (en) * 2004-11-08 2006-05-18 Seirad, Inc. Methods and systems for compressing and comparing genomic data
US20130332133A1 (en) * 2006-05-11 2013-12-12 Ramot At Tel Aviv University Ltd. Classification of Protein Sequences and Uses of Classified Proteins
SE531398C2 (sv) 2007-02-16 2009-03-24 Scalado Ab Generering av en dataström och identifiering av positioner inuti en dataström
KR101369745B1 (ko) * 2007-04-11 2014-03-07 삼성전자주식회사 비동기화된 비트스트림들의 다중화 및 역다중화 방법 및장치
US8832112B2 (en) * 2008-06-17 2014-09-09 International Business Machines Corporation Encoded matrix index
GB2477703A (en) * 2008-11-14 2011-08-10 Real Time Genomics Inc A method and system for analysing data sequences
US20100217532A1 (en) * 2009-02-25 2010-08-26 University Of Delaware Systems and methods for identifying structurally or functionally significant amino acid sequences
CA2779495C (en) * 2009-10-30 2019-04-30 Synthetic Genomics, Inc. Encoding text into nucleic acid sequences
EP2362657B1 (en) * 2010-02-18 2013-04-24 Research In Motion Limited Parallel entropy coding and decoding methods and devices
WO2011143231A2 (en) * 2010-05-10 2011-11-17 The Broad Institute High throughput paired-end sequencing of large-insert clone libraries
WO2011149534A2 (en) * 2010-05-25 2011-12-01 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
JP6420543B2 (ja) * 2011-01-19 2018-11-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータ処理方法
WO2012122547A2 (en) * 2011-03-09 2012-09-13 Lawrence Ganeshalingam Biological data networks and methods therefor
EP2718862B1 (en) * 2011-06-06 2018-10-31 Koninklijke Philips N.V. Method for assembly of nucleic acid sequence data
CN107517384B (zh) * 2011-06-16 2020-06-30 Ge视频压缩有限责任公司 解码器、编码器、解码方法、编码方法以及存储介质
US8707289B2 (en) * 2011-07-20 2014-04-22 Google Inc. Multiple application versions
JP6130839B2 (ja) * 2011-10-06 2017-05-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン エントロピー符号化
EP3836149A1 (en) * 2011-11-07 2021-06-16 QIAGEN Redwood City, Inc. Methods and systems for identification of causal genomic variants
KR101922129B1 (ko) * 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
KR20140135945A (ko) * 2011-12-08 2014-11-27 파이브3 제노믹스, 엘엘씨 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
EP2608096B1 (en) * 2011-12-24 2020-08-05 Tata Consultancy Services Ltd. Compression of genomic data file
US9600625B2 (en) * 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data
CN103049680B (zh) * 2012-12-29 2016-09-07 深圳先进技术研究院 基因测序数据读取方法及系统
US9679104B2 (en) * 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
WO2014145503A2 (en) * 2013-03-15 2014-09-18 Lieber Institute For Brain Development Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto
JP6054790B2 (ja) * 2013-03-28 2016-12-27 三菱スペース・ソフトウエア株式会社 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム
GB2512829B (en) * 2013-04-05 2015-05-27 Canon Kk Method and apparatus for encoding or decoding an image with inter layer motion information prediction according to motion information compression scheme
WO2014186604A1 (en) * 2013-05-15 2014-11-20 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
KR101522087B1 (ko) * 2013-06-19 2015-05-28 삼성에스디에스 주식회사 미스매치를 고려한 염기 서열 정렬 시스템 및 방법
CN103336916B (zh) * 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
US20150032711A1 (en) * 2013-07-06 2015-01-29 Victor Kunin Methods for identification of organisms, assigning reads to organisms, and identification of genes in metagenomic sequences
KR101493982B1 (ko) * 2013-09-26 2015-02-23 대한민국 품종인식 코드화 시스템 및 이를 이용한 코드화 방법
CN104699998A (zh) * 2013-12-06 2015-06-10 国际商业机器公司 用于对基因组进行压缩和解压缩的方法和装置
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
US9916313B2 (en) * 2014-02-14 2018-03-13 Sap Se Mapping of extensible datasets to relational database schemas
US9886561B2 (en) * 2014-02-19 2018-02-06 The Regents Of The University Of California Efficient encoding and storage and retrieval of genomic data
US9354922B2 (en) * 2014-04-02 2016-05-31 International Business Machines Corporation Metadata-driven workflows and integration with genomic data processing systems and techniques
US20150379195A1 (en) * 2014-06-25 2015-12-31 The Board Of Trustees Of The Leland Stanford Junior University Software haplotying of hla loci
GB2527588B (en) * 2014-06-27 2016-05-18 Gurulogic Microsystems Oy Encoder and decoder
US20160019339A1 (en) * 2014-07-06 2016-01-21 Mercator BioLogic Incorporated Bioinformatics tools, systems and methods for sequence assembly
US10230390B2 (en) * 2014-08-29 2019-03-12 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing
US10116632B2 (en) * 2014-09-12 2018-10-30 New York University System, method and computer-accessible medium for secure and compressed transmission of genomic data
US20160125130A1 (en) * 2014-11-05 2016-05-05 Agilent Technologies, Inc. Method for assigning target-enriched sequence reads to a genomic location
CN107851137A (zh) * 2015-06-16 2018-03-27 汉诺威戈特弗里德威廉莱布尼茨大学 用于压缩基因组数据的方法
CN105956417A (zh) * 2016-05-04 2016-09-21 西安电子科技大学 云环境下基于编辑距离的相似碱基序列查询方法
CN105975811B (zh) * 2016-05-09 2019-03-15 管仁初 一种智能比对的基因序列分析装置

Also Published As

Publication number Publication date
CL2019000973A1 (es) 2019-08-23
BR112019007357A2 (pt) 2019-07-16
PH12019550057A1 (en) 2020-01-20
CN110168651A (zh) 2019-08-23
CO2019009922A2 (es) 2020-01-17
CN110121577B (zh) 2023-09-19
JP7079786B2 (ja) 2022-06-02
CA3040145A1 (en) 2018-04-19
PE20200226A1 (es) 2020-01-29
CN110678929B (zh) 2024-04-16
IL265972A (en) 2019-06-30
US20200051665A1 (en) 2020-02-13
PE20191057A1 (es) 2019-08-06
PH12019501879A1 (en) 2020-06-29
BR112019007359A2 (pt) 2019-07-16
CO2019003639A2 (es) 2020-02-28
PE20200323A1 (es) 2020-02-13
KR20190073426A (ko) 2019-06-26
CO2019003842A2 (es) 2019-08-30
CN110121577A (zh) 2019-08-13
IL265879B1 (en) 2023-09-01
JP2020500383A (ja) 2020-01-09
MX2019004130A (es) 2020-01-30
CN110506272B (zh) 2023-08-01
CL2019000972A1 (es) 2019-08-23
IL265928B (en) 2020-10-29
CL2019002275A1 (es) 2019-11-22
WO2018071054A1 (en) 2018-04-19
BR112019016230A2 (pt) 2020-04-07
PH12019550060A1 (en) 2019-12-16
PE20200227A1 (es) 2020-01-29
PE20191056A1 (es) 2019-08-06
EA201990917A1 (ru) 2019-08-30
PH12019501881A1 (en) 2020-06-29
KR20190062541A (ko) 2019-06-05
CL2019002276A1 (es) 2019-11-29
BR112019007363A2 (pt) 2019-07-09
CN110678929A (zh) 2020-01-10
CA3040138A1 (en) 2018-04-19
CL2019000968A1 (es) 2019-08-23
EP3526657A4 (en) 2020-07-01
US20200042735A1 (en) 2020-02-06
CN110506272A (zh) 2019-11-26
CO2019003595A2 (es) 2019-08-30
CO2019009920A2 (es) 2020-01-17
SG11201903272XA (en) 2019-05-30
EP3526694A4 (en) 2020-08-12
US20200051667A1 (en) 2020-02-13
CN110114830B (zh) 2023-10-13
IL265879A (en) 2019-06-30
CA3040147A1 (en) 2018-04-19
WO2018071080A3 (en) 2018-06-28
PH12019550058A1 (en) 2019-12-16
CO2019003638A2 (es) 2019-08-30
JP2019537172A (ja) 2019-12-19
AU2017341684A1 (en) 2019-05-02
EA201990916A1 (ru) 2019-10-31
MX2019004128A (es) 2019-08-21
US20190214111A1 (en) 2019-07-11
WO2018071080A2 (en) 2018-04-19
PE20191058A1 (es) 2019-08-06
KR20190069469A (ko) 2019-06-19
SG11201903271UA (en) 2019-05-30
EP3526694A1 (en) 2019-08-21
PH12019550059A1 (en) 2019-12-16
BR112019007360A2 (pt) 2019-07-09
AU2017342688A1 (en) 2019-05-02
CL2019002277A1 (es) 2019-11-22
US11404143B2 (en) 2022-08-02
AU2017341685A1 (en) 2019-05-02
EP3526657A1 (en) 2019-08-21
IL265928A (en) 2019-05-30
SG11201903270RA (en) 2019-05-30
PE20191227A1 (es) 2019-09-11
JP2020500382A (ja) 2020-01-09
EP3526707A4 (en) 2020-06-17
IL265879B2 (en) 2024-01-01
US20200035328A1 (en) 2020-01-30
WO2018071079A1 (en) 2018-04-19
US20190385702A1 (en) 2019-12-19
CN110603595B (zh) 2023-08-08
KR20190117652A (ko) 2019-10-16
CN110603595A (zh) 2019-12-20
WO2018071055A1 (en) 2018-04-19
EP3526707A2 (en) 2019-08-21
CN110114830A (zh) 2019-08-09
BR112019016236A2 (pt) 2020-04-07
BR112019016232A2 (pt) 2020-04-07

Similar Documents

Publication Publication Date Title
JP2020505702A (ja) 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム
JP6902104B2 (ja) バイオインフォマティクス情報表示のための効率的データ構造
KR102421458B1 (ko) 액세스 유닛으로 구조화된 생물정보학 데이터에 액세스하기 위한 방법 및 장치
CN110168652B (zh) 用于存储和访问生物信息学数据的方法和系统
AU2018221458B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
CN110178183B (zh) 用于传输生物信息学数据的方法和系统
JP2020509473A (ja) 複数のゲノム記述子を用いた生体情報データのコンパクト表現方法及び装置
CN110663022B (zh) 使用基因组描述符紧凑表示生物信息学数据的方法和设备
NZ753247B2 (en) Efficient data structures for bioinformatics information representation

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20190620

A59 Written plea

Free format text: JAPANESE INTERMEDIATE CODE: A59

Effective date: 20191114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200214

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20201221