JP7092757B2 - バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム - Google Patents
バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム Download PDFInfo
- Publication number
- JP7092757B2 JP7092757B2 JP2019520450A JP2019520450A JP7092757B2 JP 7092757 B2 JP7092757 B2 JP 7092757B2 JP 2019520450 A JP2019520450 A JP 2019520450A JP 2019520450 A JP2019520450 A JP 2019520450A JP 7092757 B2 JP7092757 B2 JP 7092757B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- type
- genomic
- information
- data unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 79
- 238000012163 sequencing technique Methods 0.000 claims description 43
- 239000002773 nucleotide Substances 0.000 claims description 39
- 125000003729 nucleotide group Chemical group 0.000 claims description 39
- 238000013507 mapping Methods 0.000 claims description 33
- 238000007906 compression Methods 0.000 claims description 24
- 230000006835 compression Effects 0.000 claims description 24
- 230000000295 complement effect Effects 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 13
- 230000037430 deletion Effects 0.000 claims description 13
- 238000007792 addition Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims 2
- 238000005192 partition Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 39
- 230000008569 process Effects 0.000 description 36
- 238000006467 substitution reaction Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 25
- 238000004458 analytical method Methods 0.000 description 19
- 238000013459 approach Methods 0.000 description 16
- 230000008901 benefit Effects 0.000 description 15
- 230000035772 mutation Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 108020004414 DNA Proteins 0.000 description 8
- 108091028043 Nucleic acid sequence Proteins 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 108020004707 nucleic acids Proteins 0.000 description 7
- 102000039446 nucleic acids Human genes 0.000 description 7
- 150000007523 nucleic acids Chemical class 0.000 description 7
- 239000012472 biological sample Substances 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 108010038083 amyloid fibril protein AS-SAM Proteins 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 238000012268 genome sequencing Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000011331 genomic analysis Methods 0.000 description 4
- 238000012165 high-throughput sequencing Methods 0.000 description 4
- 229910052757 nitrogen Inorganic materials 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 3
- 238000013144 data compression Methods 0.000 description 3
- 238000010230 functional analysis Methods 0.000 description 3
- 230000008826 genomic mutation Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 229910052698 phosphorus Inorganic materials 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 238000012916 structural analysis Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/20—Heterogeneous data integration
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Organic Chemistry (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Wood Science & Technology (AREA)
Description
今日、ゲノム配列情報は、定義された語彙からの文字列により表現されるヌクレオチド配列の形式(塩基としても知られる)で、高スループットシーケンシング(HTS)装置により生成される。
これらのシーケンシング装置は、ゲノムあるいは遺伝子の全体を読み出さずに、配列リードとして知られるヌクレオチド配列の短いランダムな断片(フラグメント)を生成する。
クオリティスコアは、配列リード中のそれぞれのヌクレオチドに関連付けられる。その数字は、ヌクレオチド配列の特定の場所で、特定のヌクレオチドのリードに対して装置により与えられる信頼水準を表す。
シーケンシング処理により取得されるヌクレオチドの配列を表す最も少ない語彙は、5つのシンボル:{A,C,G,T,N}から構成され、DNA中に存在するヌクレオチドの4つのタイプ、すなわち、アデニン、シトシン、グアニン、チミンを表す。プラス、シンボルNは、シーケンシング装置が十分な信頼水準でいずれの塩基も分類することができなかったこと、そうした位置の塩基のタイプが、読み取り処理において未確定のままであることを示す。RNAにおいて、チミンは、ウラシル(U)で置き換えられる。シーケンシング装置により生成されるヌクレオチド配列は、「リード(reads)」と呼ばれる。対のリードの場合、用語「テンプレート」は、リード対が抽出されたオリジナル配列を指定するために使用される。配列(sequence)リードは、数十から数千の多数のヌクレオチドにより構成されることができる。いくつかの技術は、リードを対で生成し、ここで、それぞれのリードは、2つのDNA鎖の一方から来ることができる。
最も使用されている配列(sequencing)データのゲノム情報表現は、FASTQおよびSAMフォーマットに基づき、これらはオリジナルのサイズを削減するため圧縮された(zipped)形式で通常利用可能である。従来使用されているファイルフォーマット、非アライメント(non-aligned)データおよびアライメント(aligned)配列データについてそれぞれFASTQおよびSAM、は、平文(plain text)文字から構成され、例えばLZ(最初のバージョンを公表した著作者LempelおよびZivに由来する)の体系(周知のzip、gzip等)等の汎用アプローチを使用することで、圧縮される。gzipのような汎用圧縮器が使用される場合、圧縮の結果は通常、バイナリデータの単一のブロブ(blob)である。そうしたモノリシック形式の情報は、特に、高スループットシーケンシングの場合のようにデータ量が極めて大きい場合に、アーカイブ、転送、および合成することが極めて困難である。
図1は、典型的なゲノム情報処理パイプラインの主要なステージを、関連するファイルフォーマットを示しつつ、図示する。
これらの制約は、ヘルスケア専門家が、タイムリーにゲノム解析レポートを取得し、迅速に疾病の大流行に対応することを妨げる。本発明は、このニーズに対する解決手段を提供する。
本発明により克服される他の技術的制約がある。
実際、本発明は、データを組織化および区分することにより、適切なゲノム配列データおよびメタデータ表現を提供し、これにより、データおよびメタデータの圧縮が最大化し、例えば選択的アクセスや漸進的(incremental)更新や多くの他のもののような複数の機能を効率的に可能にすることを目的とする。
・データまたはメタデータのそれぞれのクラスのための効率的なモデルを提供することにより構成される情報ソースエントロピーの削減による、圧縮性能の向上;
・圧縮されたデータおよびメタデータの部分への、あらゆるさらなる処理目的のための選択的アクセスを実行する可能性;
・新たな配列データおよび/またはメタデータおよび/または新たな解析結果で、エンコードされたデータおよびメタデータを漸進的に更新する(再エンコーディングの必要なく)可能性
・シーケンシング装置またはアライメントツールにより生成されるとすぐに、シーケンシングまたはアライメント処理の終了を待つ必要がなく、効率的にデータを処理する可能性
本出願は、ゲノムデータのアクセス可能性、データサブセットの効率的な処理、および効率的な圧縮と組み合わせられるストリーミング機能、の機能に関連する従来技術のアプローチのすべての制約を克服する。
BAMフォーマットは、以下の理由により、低い圧縮性能により特徴付けられる:
1.SAMファイルにより搬送(convey)される実際のゲノム情報を抽出することや圧縮のため適切なモデルを使用することよりも、非効率的で冗長なSAMフォーマットの圧縮に焦点を置いている。
2.それぞれのデータソース(ゲノム情報自体)の特定の性質を利用することよりも、例えばgzipのような汎用テキスト圧縮アルゴリズムを採用している。
3.ゲノムデータの特定のクラスへの選択的アクセスを可能にするであろうデータ分類に関する概念を欠く。
CRAMは、CRAMレコードの概念に依存する。それぞれのCRAMレコードは、それを再構成するのに必要なすべての要素をエンコードすることにより、単一のマッピングされたまたは非マッピング(unmapped)のリード(reads)をエンコードする。
1.CRAMで、データのインデックス化は仕様(specification)の範疇外であり(CRAM仕様v3.0のセクション12参照)、それは別個のファイルとして実装されている。本発明では、データインデックス化は、エンコーディング処理に統合され、インデックスは、エンコードされたビットストリーム内に埋め込まれる。
2.CRAMで、すべてのコアデータブロックは、あらゆるタイプのマッピングされたリード(完全にマッチするリード、置換(substitution)のみのリード、挿入または削除(indels)のリード)を含む。本発明において、参照配列に対するマッピングの結果に基づいた、クラスにおけるリードの分類およびグルーピングの概念はない。
3.開示される本発明において、それぞれのリードを再構成するために必要なデータは、「レイヤ」と呼ばれる複数のデータコンテナ間に散在するため、それぞれのリードをカプセル化するレコードの概念はない。これにより、それぞれのリード(そのブロック)をデコードしてその特徴を検査する必要なく、特定の生物学的特徴(例えば、置換があるがindelsがないリード、または完璧にマッピングされたリード)を有するリードのセットへのより効率的なアクセスが可能となる。
4.CRAMのレコードにおいて、それぞれのタイプのデータは、特定のフラグにより示される。本発明において、CRAMと異なり、データを示すフラグの概念は、データが属する「レイヤ」により本来的に定義されているため、存在しない。これは、大幅に削減された数の使用すべきシンボルと、情報ソースエントロピーの結果的な削減を示唆し、より効率的な圧縮をもたらす。これは、異なる「レイヤ」を使用することにより、エンコーダが、同じシンボルを、それぞれのレイヤに亘り異なる意味で再使用できるという事実によるものである。CRAMにおいては、コンテクストの概念がなく、それぞれのCRAMレコードはあらゆるタイプのデータを含むことができるため、それぞれのフラグは常に、同じ意味を持たなければならない。
5.CRAMにおいて、置換、挿入、および削除は、異なるシンタックス(構文)に基づいて表現され、一方、本発明は、置換、挿入、および削除のために単一のアルファベットとエンコーディングを使用する。これにより、エンコーディングおよびデコーディング処理が単純化され、そのコーディングが高圧縮性能で特徴付けられるビットストリームを生み出す、より低いエントロピーソースモデルを生産する。
・変換ベース
・LZベース
・リード並び替え
・アセンブリ・ベース
・統計モデリング
1.圧縮されたFastQファイルまたはその組み合わせ中に格納される生データへのアクセス、解析、または注釈の付加(annotations)(メタデータ)は、コンピュータリソースおよび時間の甚大な使用とともに、ファイル全体の展開(decompression)および再圧縮を必要とする。
2.BAMファイルに格納されるアライメントされたデータ中の情報の特定のサブセット、例えば、リードマッピング位置、リード変異 (variant)位置およびタイプ、indels(追加、削除)位置およびタイプ、または他のメタデータおよび注釈、は、それぞれのリードに関連付けられるデータ容量全体へのアクセスを必要とする。メタデータの単一のクラスへの選択的アクセスは、先行技術の解決手段では不可能である。
3.先行技術のファイルフォーマットは、ファイル全体が、処理開始前に、エンドユーザにおいて受信されることを必要とする。例えば、適切なデータ表現に依存してシーケンシング処理を完了する前に、リードのアライメントを開始することができる。シーケンシング、アライメント、および解析は、並行して、開始し、実行することができる。
4.先行技術の解決手段は、構造化をサポートせず、それらの特定の世代(generation)意味論(semantic)に基づいて、異なるシーケンシング処理により取得されるゲノムデータを識別することができない(例えば、同じ個体の異なる年代時点で取得されたシーケンシング)。同じ制約が、同じ個体の異なるタイプの生物学的試料により取得されるシーケンシングでも発生する。
5.データ全体のまたは選択された部分の暗号化は、先行技術の解決手段でサポートされない。例えば、以下の暗号化である:
a.選択されたDNA領域
b.変異を含む配列のみ
c.キメラ配列のみ
d.マッピングされていない配列のみ
e.特定のメタデータ(例えば、シーケンシングされた試料の起源、シーケンシングされた個体の識別子、試料のタイプ)
6.所与の参照にアライメントされたシーケンシングデータ(すなわち、SAM/BAMファイル)から新たな参照へのコード変換(transcoding)は、新たな参照が、以前の参照から単一のヌクレオチド位置のみで相違するものであったとしても、データ容量全体を処理する必要がある。
本発明は、添付クレームにより画定される方法、装置、およびコンピュータプログラムを採用することにより、先行技術の制約への解決手段を提供する。
これらの分子は、例えば、ヌクレオチド、アミノ酸、およびタンパク質を含む。シンボルのシーケンスとして表される最も重要な情報の1つは、高スループットゲノムシーケンシング装置により生成されるデータである。
あらゆる生物のゲノムは、通常、当該生物を特徴付ける核酸(塩基)の鎖を表現するシンボル列(string)として表現される。現在の技術水準のゲノムシーケンシング技術は、メタデータ(識別子、正確さのレベル等)に関連付けられる核酸の複数の(数十億まで)鎖の形式で、ゲノムの断片化された表現のみを生成することができる。こうした鎖(ストリング)は、通常、「配列リード(sequence reads)」または「リード」と呼ばれる。
ゲノム情報ライスサイクルの典型的なステップは、配列リードの抽出、マッピングおよびアライメント、変異検出、変異注釈付け、機能的および構造的解析を含む(図1参照)。
配列リードの抽出は、生物学的試料を構成する分子を表すシンボルの配列の形式で、遺伝情報の断片(フラグメント)を表現する処理-人間のオペレータまたは機械のいずれかにより実行される-である。核酸の場合、こうした分子は、「ヌクレオチド」と呼ばれる。抽出により生成されたシンボルの配列(シーケンス)は、通常、「リード(reads)」として参照される。この情報は、通常、従来技術では、テキストヘッダとシーケンスされた分子を表すシンボルの配列を含むFASTAファイルにエンコードされる。
生物学的試料がシーケンスされて、生物のRNAを抽出する場合、アルファベットは、シンボル(A,C,G,U,N)から成る。
シンボルのIUPAC拡張セットの場合、いわゆる「曖昧コード(ambiguity codes)」がまた、シーケンシング装置により生成され、リードを構成するシンボルに使用されるアルファベットは、(A,C,G,T,U,W,S,M,K,R,Y,B,D,H,V,N または-)である。
IUPAC曖昧コードが使用されない場合、クオリティスコアの配列は、それぞれの配列リードに関連付けられてよい。こうした場合、先行技術の解決手段は、結果的に得られる情報をFASTQファイルとしてエンコードする。
シーケンシング装置は、配列リードに以下のようなエラーをもたらし得る:
1.誤ったシンボルを同定して(すなわち、異なる核酸を表現すること)、シーケンスされた試料中に実際に存在する核酸を表現すること。これは通常「置換エラー」(ミスマッチ)と呼ばれる。
2.1つの配列リード中に、いずれの実際に存在する核酸をも参照しない追加的シンボルを挿入すること。これは通常「挿入エラー」と呼ばれる。
3.1つのシーケンスリードから、シーケンスされた試料中に実際に存在する核酸を表現するシンボルを削除すること。これは通常「削除エラー」と呼ばれる。
4.1つまたは複数のフラグメント(断片)の、オリジナル配列の実際を反映しない単一のフラグメントへの組み替え(recombination)
用語「カバレッジ」は、文言上、参照ゲノムやその部分が、利用可能な配列リードによりカバーされ得る程度を定量化するために使用される。カバレッジは、以下であると考えられている:
・参照ゲノムのある部分が、いかなる利用可能なシーケンスリードにもマッピングされない場合、部分的(1x未満)
・参照ゲノムのすべてのヌクレオチドが、シーケンスリード中の1つのそして1つのみのシンボルによりマッピングされる場合、シングル(1x)
・参照ゲノムのヌクレオチドのそれぞれが、複数回マッピングされる場合、多重(2x、3x、Nx)
変異注釈付けは、変異分類の処理により同定されたゲノム変異に対して機能情報を割り当てる処理である。これは、ゲノム中のコーディング配列へのその関係に基づき、およびコーディング配列と遺伝子産物へのそのインパクトに基づき、変異体を分類することを意味する。これは、先行技術において、通常MAFファイルに格納される。
本明細書に開示される本発明は、ゲノム配列データを表現し、処理し、操作し、および伝送するための圧縮データ構造の定義を備え、先行技術の解決手段と、少なくとも以下の点で相違する:
・先行技術のゲノム情報のいずれの表現フォーマット(すなわち、FASTQ、SAM)にも依存しない。
・ゲノムデータおよびメタデータの、その特定の特徴に基づく新規でオリジナルな分類を実装する。配列リードは、参照配列にマッピングされ、アライメント処理の結果に基づいて、区別可能なクラスにグループ化される。これにより、より少ない情報エントロピーを持ち、異なる特定の圧縮アルゴリズムを適用してより効率的にエンコードされることが可能なデータクラスがもたらされる。
・配列リードおよびアライメント情報を、下流の解析アプリケーションで処理されるのにより効率的な表現に伝達する、シンタックス要素および関連するエンコーディング/デコーディング処理
・異なるシンタックス要素が特定のソースモデルによりモデル化される場合の、情報エントロピーの削減
・下流の解析ステージのため特定の意味を持ち、分離独立してアクセスすることが可能なグループ/レイヤにすでに組織化されたデータへのより効率的なアクセス
・データコンテンツ全体をデコードする必要なく、要求される情報のみにアクセスすることにより、漸進的に(incrementally)更新することが可能なモジュール式データ構造の存在
・シーケンシング装置により生成されるゲノム情報は、情報自体の性質のため、およびシーケンシング処理に内在するエラーを軽減する必要のため、本質的に非常に冗長である。これは、同定および解析される必要がある関連遺伝情報(参照に対する差異)は生成されたデータのうちほんの僅かに過ぎないことを意味する。先行技術のゲノムデータ表現フォーマットは、所与の解析ステージで、有意義な情報を残りの情報から「分離」し、これにより解析アプリケーションを迅速に利用可能にすることを着想していない。
・本発明によりもたらされる解決手段は、ゲノムデータを、データのあらゆる関連する部分が、データ全体にアクセスしてこれを展開する必要なく、解析アプリケーションに容易に利用可能にするよう表現することであり、データの冗長性は、効率的な圧縮により、要求される記憶スペースと伝送帯域を最小化することで、効率的に低減される。
1.構造化され、圧縮された形式で、選択的にアクセス可能なデータ要素であるアクセスユニット(AU)を「含む(contains)」ファイルフォーマットの仕様。こうしたアプローチは、例えば、SAMおよびBAMのような、データが非圧縮形式で構造化され、その後ファイル全体が圧縮される先行技術のアプローチと対極的に見える。このアプローチの第1の明瞭な利点は、先行技術のアプローチでは不可能であるか極めて扱いづらかった、圧縮されたドメイン中のデータ要素への多様な形式での構造化された選択的アクセスを、効率的かつ自然に提供することができることである。
2.ゲノム情報を、ホモジニアス(同種)(homogeneous)データおよびメタデータに構造化することで、低いエントロピーで特徴付けられる情報ソースの異なるモデルの定義を可能にするという顕著な利点をもたらす。こうしたモデルは、レイヤ内の圧縮されたデータが、アクセスユニットに含まれるデータブロックに区分される場合に、レイヤ間で異なるだけでなく、それぞれのレイヤ内でも異なる。この構造化により、従来技術のアプローチに対するコーディング効率の顕著な向上を伴って、データまたはメタデータのそれぞれのクラスまたはその部分への最も適切な圧縮を使用することが可能となる。
3.情報がアクセスユニット(AU)に構造化されるので、ゲノム解析アプリケーションにより使用されるあらゆる関連するデータのサブセットが、適切なインタフェースにより、効率的かつ選択的にアクセス可能である。これらの特徴により、データへのより迅速なアクセスが可能となり、より効率的な処理をもたらす。
4.マスタインデックステーブルおよびローカルインデックステーブルの定義により、圧縮されたデータの全体容量をデコードする必要なく、エンコード(すなわち、圧縮)されたデータのレイヤにより担持される情報への選択的アクセスが可能となる。
5.すでにアライメントされ圧縮されたゲノムデータを、新たに公表された参照ゲノムに対して再アライメントする必要がある場合、圧縮されたドメイン中の選択されたデータ部分の効率的なコード変換(transcoding)を実行することにより、再アライメントする可能性。新たな参照ゲノムの頻繁なリリースは、現在、新たに公表された参照に対して、すでに圧縮され格納されたゲノムデータを再アライメントすることは、すべてのデータ量が処理されなければならないため、コード変換プロセスに資源消費と時間を要求するものである。
1.可能な限り情報エントロピーを削減するための、ゲノム情報のホモジニアス(同種)メタデータの「レイヤ」への分解
2.コードされた情報全体をデコードする必要なく、エンコードされた情報のレイヤへの選択的アクセスを可能にする、マスタインデックステーブルおよびローカルインデックステーブルの定義
3.点(ポイント)1で定義されるシンタックス要素をエンコードする、コンテクスト適応バイナリ演算コーディング(context adaptive binary arithmetic coding)の採用
4.不要な場合にすべてのレイヤをデコードする必要なく、データへの選択的なアクセスを可能にするレイヤ間の同期
5.エントロピーを削減するために修正されることが可能な、1つまたは複数の適応(adaptive)参照配列に対する差分エンコーディング。第1の参照に基づくエンコーディングの後、情報エントロピーをさらに削減するため、記録されたミスマッチは、参照配列を「適応/修正」するために使用することができる。これは、情報エントロピーの削減が有意義である限り、繰り返して実行することができる処理である。
本発明はまた、アクセスユニットの概念に基づくデータ構造を取り入れる。
ゲノムデータは、異なるアクセスユニットに、構造化されエンコードされる。以下、異なるアクセスユニットに含まれるゲノムデータを説明する。
シーケンシング装置により生成される配列リードは、ここに開示される発明により、1つまたは複数の所与の参照配列またはゲノムに対するアライメントの結果に基づいて、5つの異なる「クラス」に分類される。
参照配列に対してヌクレオチドのDNA配列をアライメントする場合、可能性ある結果は、以下の5つである:
1.何のエラーもなく配列リードに一致する参照配列中の領域が発見される(完璧なマッピング)。そうしたヌクレオチド配列は、「完全にマッチするリード」として参照されるか、あるいは「クラスP」として示される。
2.シーケンシング装置がいずれの塩基(またはヌクレオチド)も分類(call)できなかった多数の位置により構成される多数のミスマッチを備える配列リードに一致する参照配列中の領域が発見される。こうした配列は、「Nミスマッチリード」または「クラスN」として参照される。
3.シーケンシング装置がいずれの塩基(またはヌクレオチド)も分類できなかった、または参照配列中でレポートされたものとは異なる塩基が分類された多数の位置により構成される多数のミスマッチを備える配列リードに一致する参照配列中の領域が発見される。こうしたタイプのミスマッチは、単一ヌクレオチド変異(variation)(SNV)または単一ヌクレオチド多型(polymorphism)(SNP)と呼ばれる。この配列は、「Mミスマッチリード」または「クラスM」として参照される。
4.第4のクラスは、クラスMと同じミスマッチ、プラス、挿入または削除(indelsとしても参照される)の存在を含むミスマッチタイプを表現する配列リードにより構成される。挿入は、参照に存在しないがリード配列に存在する1つまたは複数のヌクレオチドの配列により表現される。文言上、挿入された配列が、配列の端部である場合、「ソフトにクリップされる」ものとして参照される(すなわち、ヌクレオチドは、参照にマッチングしないがアライメントされたリード中に保持されており、これは「ハードにクリップされる」破棄されるヌクレオチドと逆である)。ヌクレオチドを保持または破棄することは、典型的には、アライメントツールの構成として実装されるユーザの決定である。削除は、参照に対してアライメントされたリード中の「穴(holes)」(欠落するヌクレオチド)である。そうした配列は、「Iミスマッチリード」または「クラスI」として参照される。
5.第5のクラスは、特定のアライメント制約に基づいて、参照ゲノム上に有効なマッピングをいま発見するすべてのリードを含む。こうした配列は、マッピングされていない(Unmapped)、かつ「クラスU」に属すると考えられる。
所与の参照配列を参照するDNAセグメントは、次により完全に表現することができる:
・参照配列上の開始位置(pos)
・リードが、参照に対する逆相補(reverse complement)(rcomp)として考慮しなければならないか否かを伝達するフラグ
・ペアリングされたリード(対)の場合の対の片方(mate pair)への距離
・シーケンシング技術が可変長のリードを生成する場合、リード長の値。固定リード長の場合、各リードに関連付けられるリード長は、当然省略することができ、メインファイルヘッダ中に格納されることができる。
・それぞれのミスマッチに対して:
・ミスマッチ位置(クラスNはnmis、クラスMはsnpp、クラスIはindp)
・ミスマッチタイプ(クラスNには存在しない、クラスMはsnpt、クラスIはindt)
・配列リードの特定の特徴を示す例えば以下のようなフラグ:
・シーケンシングにおいて複数セグメントを有するテンプレート
・アライナーに基づいて正しくアライメントされたそれぞれのセグメント
・マッピングされていないセグメント
・マッピングされていないテンプレート中の次のセグメント
・最初または最後のセグメントのシグナル伝達
・クオリティコントロールの失敗
・PCRまたは光学的複製(duplicate)
・第2のアライメント
・追加的アライメント
・存在する場合、オプションであるソフトクリップされたヌクレオチド鎖(クラスIではindc)
この分類は、一義的に(univocally)ゲノム配列リードを表現するのに使用することのできるディスクリプタ(シンタックス要素)のグループを生成する。下記の表は、アライメントされたリードのそれぞれのクラスに必要なシンタックス要素を要約する。
次のセクションはさらに、これらのディスクリプタがどのように定義されるかを詳述する。
それぞれのアクセスユニットにおいて、最初にエンコードされたリードのマッピング位置のみが、参照ゲノム上の絶対値として、AUヘッダに記憶される。すべての他の位置は、以前の位置に対する差分として表現され、特定のレイヤに格納される。リード位置の配列により定義される情報ソースのそうしたモデリングは、一般的に、特に、高いカバレッジ結果を生むシーケンシング処理のために、削減されたエントロピーにより特徴付けられる。一旦、第1のアライメントの絶対位置が格納されると、他のリードのすべての位置は、第1のものに対する差分(距離)として表現される。
ペアリングディスクリプタは、ペアレイヤに記憶される。こうしたレイヤは、採用されるシーケンシング技術がリードを対で生成する場合、当初の(originating)リード対を再構成するために必要となる情報をエンコードするディスクリプタを格納する。本発明の開示の時点で、シーケンシングデータの大半は、ペアのリードを生成する技術を使用して生成されるが、すべての技術について該当するわけではない。これは、考慮されるゲノムデータのシーケンシング技術がペアのリードの情報を生成しない場合、このレイヤの存在がすべてのシーケンシングデータの情報を再構成するのに必要なわけではないことの理由である。
・メイトペア(mate pair):リード対中で他のリードに関連付けられるリード(例えば、図4の例において、リード2は、リード1のメイトペア(対の片方)である)
・ペアリング距離:第1のリード中のある位置(ペアリングアンカー、例えば、第1のリードの最後のヌクレオチド)を第2のリード中のある位置(例えば、第2のリードの最初のヌクレオチド)から分離する、参照配列上のヌクレオチドの位置の数
・最確ペアリング距離(most probable paring distance)(MPPD):これは、ヌクレオチド位置の数の中で表される最も確度の高いペアリング距離である。
・位置ペアリング距離(PPD):PPDは、あるリードを特定の位置ディスクリプタレイヤに存在するその対応するメイト(片方)から分離するリードの数という意味で、ペアリング距離を表現する方法である。
・最確位置ペアリング距離(most probable position paring distance)(MPPPD):あるリードを特定の位置ディスクリプタレイヤに存在するそのメイトペア(対の片方)から分離する最も確度の高いリードの数である。
・位置ペアリングエラー(PPE):PPEは、MPPDまたはMPPPDと実際のメイトの位置との間の差分として定義される。
・ペアリングアンカー:参照として使用されて、ヌクレオチド位置の数またはリード位置の数という意味で、メイトペアの距離を算出するための、対における第1のリードの最後のヌクレオチドの位置。
ペアディスクリプタレイヤは、定義されたデコーディングペアリング距離に対して、対の第1のリードのメイトペアに到達するのにスキップされるべきリードの数として算出されるペアリングエラーのベクタである。
図6は、ペアリングエラーが、絶対値としておよび差分ベクトルの双方として、どのように算出されるかの例を示す(高いカバレッジのためのより低いエントロピーにより特徴付けられる)。
同じディスクリプタが、クラスN、M,P、およびIに属するリードのペアリング情報のために使用される。異なるデータクラスへの選択的アクセスを可能とするため、4つのクラスに属するリードのペアリング情報は、示されるように、異なるレイヤにエンコードされる。
参照配列上に配列リードをマッピングする処理において、ある参照配列上に対の第1のリードがマッピングされ(例えば、染色体1)、異なる参照配列上に第2のリードがマッピングされる(例えば、染色体4)ことは、珍しいことではない。この場合、上記のペアリング情報は、リードの1つをマッピングするために使用される参照配列に関連する追加的情報により統合されなければならない。これは、以下のコーディングにより達成される:
1.対が2つの異なる配列上にマッピングされることを示す予約値(reserved value)(フラグ)(異なる値は、現在エンコードされていない配列上にリード1またはリード2がマッピングされているか否かを示す)。
2.表1に記述されるようなメインヘッダ構造にエンコードされる参照識別子を参照する固有の参照識別子。
3.第3の要素は、点2で同定され、最後にエンコードされた位置に対するオフセットとして表現される参照上のマッピング情報を含む。
図7において、リード4は、現在エンコードされている参照配列上にマッピングされていないため、ゲノムエンコーダは、この情報を、追加的ディスクリプタをペアレイヤ中に作り上げることにより、伝達する。図7に示す例において、対2のリード4は、参照番号4にマッピングされ、一方、現在エンコードされている参照は、番号1である。この情報は、以下の3つのコンポーネントを使用してエンコードされる:
1)ある特定の予約値が、ペアリング距離としてエンコードされる(この場合、0xffffff)
2)第2のディスクリプタが、メインヘッダにリストされる参照IDを提供する(この場合、4)。
3)第3の要素は、考慮されている参照上のマッピング情報を含む(170)。
シーケンシング技術により生成されるリード対のそれぞれのリードは、シーケンスされた有機試料のいずれかのゲノム鎖から発生する(originated)ことができる。しかしながら、2つの鎖の1つのみが、参照配列として使用される。図8は、リード対中で、どのように、あるリード(リード1)が1つの鎖から発生し、他方(リード2)が他方から発生するかを示す。
鎖1が参照配列として使用される場合、リード2は、鎖1上の対応するフラグメント(断片)の逆相補としてエンコードされることができる。これは、図9に示されている。
結合した(coupled)リードの場合、4つが、正および逆相補メイト対の可能な組み合わせである。これは、図10に示されている。このrcompレイヤは、4つの可能な生み合わせをエンコードする。
同じコーディングが、クラスN,M,およびIに属するリードの逆相補情報のために使用される。異なるデータクラスへの選択的アクセスを可能にするため、4つのクラスに属するリードの逆相補情報は、表2に示されるように異なるレイヤにコードされる。
クラスNは、塩基分類(base call)に替えて「N」が存在するミスマッチを示すすべてのリードを含む。他のすべての塩基は、参照配列に完璧にマッチングする。
リード1の「N」の位置は、以下のとおりエンコードされる:
・リード1中の絶対位置、または
・同じリード中の以前の「N」に対する差分位置(いずれかより低いエントロピーを有する方)
リード2の「N」の位置は、以下のとおりエンコードされる:
・リード2中の絶対位置+リード1長、または
・以前のNに対する差分位置(いずれかより低いエントロピーを有する方)
nmisレイヤにおいて、それぞれのリード対のコーディングは、特定の「セパレータ」「S」シンボルによって終端する。これは、図11に示されている。
置換(substitution)は、マッピングされたリードにおいて、同じ位置で参照配列中に存在するものに対して、異なるヌクレオチド塩基の存在として定義される(図12参照)。
それぞれの置換は、以下のようにエンコードされる:
・「位置」(snppレイヤ)および「タイプ」(snptレイヤ)。図13、図14、図16、および図15参照。または、
・「位置」のみであるが、ミスマッチタイプごと、1つのsnppレイヤを使用。図17参照。
置換位置は、nmisレイヤの値に関して算出される、すなわち:
リード1において、置換は以下としてエンコードされる:
・リード1中の絶対位置として、または
・同じリードにおける以前の置換に対する差分位置。リード2で置換がエンコードされる。
リード2において、置換は以下としてエンコードされる:
・リード2中における絶対位置+リード1長、または
・以前の置換に対する差分位置。
図13は、置換位置が、どのようにレイヤsnppにエンコードされるかを示す。置換位置は、絶対値あるいは差分値のいずれかとして算出されることができる。
snppレイヤにおいて、それぞれのリード対のコーディングは、特定の「セパレータ」シンボルにより終端する。
クラスM(および、次のセクションに記載されるようにクラスI)について、ミスマッチは、参照中に存在する実際のシンボルから、リード{A,C,G,T,N,Z}中に存在する対応する置換シンボルへのインデックス(右から左へ移動する)によりコードされる。例えば、アライメントされたリードが、参照中の同じ位置に存在するTに替えてCを表す場合、ミスマッチインデックスは、「4」として示される。デコーディング処理は、エンコードされたシンタックス要素、および参照中の所与の位置のヌクレオチドを読み出し、左から右へ移動して、デコードされたシンボルを検索する。例えば、参照中にGが存在する位置のため受信された「2」は、「N」としてデコードされる。
図14は、IUPAC曖昧コードが使用されない場合の、すべての可能な置換およびそれぞれのエンコーディングシンボルを示し、図15は、snptレイヤにおける置換タイプのエンコーディングの例を提供する。
IUPAC曖昧コードが存在する場合、置換は、変化を図16に示すようにインデックス化する。
上記した置換タイプのエンコーディングが高い情報エントロピーを示す場合、置換エンコーディングの代替的方法は、別個のレイヤにミスマッチ位置のみを、ヌクレオチドごと1つ、図17に示すように、格納することを含む。
クラスIについて、ミスマッチおよび削除は、参照中に存在する実際のシンボルから、リード{A,C,G,T,N,Z}中に存在する対応する置換シンボルへのインデックス(右から左へ移動する)によりコードされる。例えば、アライメントされたリードが、参照中の同じ位置に存在するTに替えてCを表す場合、ミスマッチインデックスは、「4」として示される。リードが、参照中にAが存在する箇所の削除を表していれば、コードされるシンボルは、「5」である。デコーディング処理は、コードされたシンタックス要素、および参照中の所与の位置のヌクレオチドを読み出し、左から右へ移動して、デコードされたシンボルを検索する。例えば、参照中にGが存在する位置のため受信された「3」は、「Z」としてデコードされ、これは、配列リード中に削除が存在することを示す。
挿入は、挿入されるA,C,G,T,Nについて、それぞれ、6,7,8,9,10としてコードされる。
IUPAC曖昧コードの採用(adoption)の場合、置換メカニズムは、正確に同じ結果となり、しかしながら、置換ベクタは、以下として拡張される:
S={A,C,G,T,N,Z,M,R,W,S,Y,K,V,H,D,B}
図18および図19は、クラスIのリード対中の置換、挿入、および削除を、どのようにエンコードするかの例を示す。
マスタインデックステーブル
アライメントされた特定の領域への選択的アクセスをサポートするため、本明細書に開示されるデータ構造は、マスタインデックステーブル(Master Index Table:MIT)と呼ばれるインデックス化ツールを実装する。これは、使用される参照配列上に特定のリードをマッピングした部位(loci)を含む、多次元アレイである。MITに含まれる値は、それぞれのposレイヤ中の第1のリードのマッピング位置であり、これにより、それぞれのアクセスユニットへの順次アクセスがサポートされる。MITは、それぞれのデータのクラス(P,N,M、およびI)ごとに、およびそれぞれの参照配列ごとに、1つのセクションを含む。MITは、エンコードされたデータのメインヘッダに含まれる。図20は、メインヘッダの全体的な(generic)構造を示し、図21は、MITの全体的な視覚表現を示し、図22は、エンコードされたデータのクラスPのMITの例を示す。
例えば、図22を参照して、参照2上の位置150,000と250,000との間に構成される領域にアクセスすることが要求される場合、デコーディングアプリケーションは、MIT中の第2の参照をスキップして、2つの値k1およびk2を探すであろう。このため、k1<150,000かつk2>250,000である。ここで、k1およびk2は、MITから読み出されるインデックスである。図22の例において、これは、MITの第2のベクタの位置3および4の結果となる。これらの戻り値は、その後、デコーディングアプリケーションにより使用されて、次のセクションで説明されるように、posレイヤローカルインデックステーブルから適切なデータの位置をフェッチする。
上記で説明されたゲノムデータの4つのクラスに属するデータを含むレイヤへのポインタとともに、MITは、そのライフサイクルの間、追加的メタデータ、および/またはゲノムデータに付加される注釈のインデックスとして使用される。
上記のデータレイヤのそれぞれは、ローカルヘッダとして参照されるデータ構造が前に来る(プリフィックスされる)。ローカルヘッダは、レイヤの固有の識別子、それぞれの参照配列ごとのアクセスユニットのカウンタのベクタ、ローカルインデックステーブル(Local Index Table)(LIT)、およびオプションとしていくつかのレイヤ特有のメタデータを含む。LITは、レイヤペイロード中で、それぞれのAUに属するデータの物理的位置へのポインタのベクタである。図23は、LITが非順次的に、エンコードされた特定の領域にアクセスするために使用される場合の、全般的なレイヤヘッダおよびペイロードを示す。
要求されたAUに属するデータブロックの位置=スキップすべき参照1のAUに属するデータブロック+MITを使用して検索された位置、すなわち、
最初のブロック位置:5+3=8
最後のブロック位置:5+4=9
ローカルインデックステーブルと呼ばれるインデックス化メカニズムを使用して検索されるデータブロックは、要求されたアクセスユニットの部分である。
図26は、MITおよびLITを使用して検索されたデータブロックが、どのように、1つまたは複数のアクセスユニットを構成するかを示す。
データクラスに分類され、圧縮または非圧縮レイヤに構造化されたゲノムデータは、異なるアクセスユニットに組織化される。
ゲノムアクセスユニット(AU)は、ヌクレオチド配列および/または関連するメタデータ、および/またはDNA/RNA配列(例えば、仮想参照)および/またはゲノムシーケンシング装置により生成された注釈データおよび/またはゲノム処理装置または解析アプリケーションを再構成するゲノムデータのセクション(圧縮または非圧縮の形式で)として定義される。
複数のアクセスユニットは、以下により識別される:
・タイプ、それらが担持するゲノムデータおよびデータセットの性質と、それらがアクセスされることができる方法で特徴付けられる
・順序、同じタイプが属するアクセスユニットへの固有の順序を提供する
以下、ゲノムアクセスユニットの異なるタイプの定義の網羅的でないリストを示す:
1)タイプ0のアクセスユニットは、アクセスまたはデコードすべき他のアクセスユニットから来るいずれの情報も参照する必要がない(図29参照)。これらが含むデータまたはデータセットにより担持される情報参照番号全体は、デコーディングデバイスまたは処理アプリケーションにより、独立して、読み出され、処理される。
2)タイプ1のアクセスユニットは、タイプ0のアクセスユニットにより担持されるデータを参照する(図30参照)。タイプ1のアクセスユニットに含まれるデータを読み出し、デコード、および処理することは、1つまたは複数のタイプ0のアクセスユニットへのアクセスを要求する。
3)このタイプのアクセスユニットは、タイプ0のアクセスユニットに対してミスマッチングまたは非類似または非対応の情報を含むことができる。
4)タイプ2、3、および4のアクセスユニットは、タイプ1のアクセスユニットを参照するデータを含む(図31、図32、および図33参照)。タイプ2,3、および4のアクセスユニットに含まれるデータを読み出し、デコード、および処理することは、タイプ0およびタイプ1のアクセスユニットへのアクセスを要求する。
5)タイプ2、3、および4のアクセスユニット間の相違は、これらが含む情報の性質にある。
6)タイプ5のアクセスユニットは、メタデータ(例えば、クオリティスコア)および/またはタイプ1のアクセスユニットに含まれるデータまたはデータセットに関連付けられる注釈データを含む。タイプ5のアクセスユニットは、異なるレイヤに分類およびラベリングされてよい。
7)タイプ6のアクセスユニットは、注釈データとして分類されるデータまたはデータセットを含む。タイプ6のアクセスユニットは、レイヤに分類およびラベリングされてよい。
8)追加的タイプのアクセスユニットは、ここに開示される構造およびメカニズムを拡張することができる。一例として、限定としてではなく、ゲノム変異分類、構造的および機能的解析は、新たなタイプのアクセスユニットにエンコードされることができる。ここに開示されるアクセスユニットのデータ編成は、アクセスユニットにカプセル化すべきあらゆるタイプのデータを、エンコードされたデータの性質に対して完全に透過なメカニズムであることを妨げない。
このタイプのアクセスユニットは、タイプ0のアクセスユニットに含まれる情報に対して、ミスマッチングまたは非類似または非対応の情報を含むことができる。
それぞれのアクセスユニットは、それぞれのブロックに異なる数のパケットを有することができるが、アクセスユニット内で、すべてのブロックは同じ数のパケットを有する。
それぞれのデータパケットは、3つの識別子XYZの組み合わせにより識別することができ、ここで:
・Xはそれが属するアクセスユニットを識別する
・Yはそれが属するブロックを識別する(すなわち、それがカプセル化するデータタイプ)
・Zは同じブロックの他のパケットに対するパケット順序を表す識別子である
・同じ生物を異なるときにシーケンスする(アクセスユニットは、「一時的」の意味(connotation)でゲノム情報を含む)
・同じ生物の異なる性質の有機試料をシーケンスする(例えば、ヒト試料の皮膚、血液、毛髪)。これらは、「生物学的」の意味を持つアクセスユニットである。
例えば、タイプ1のアクセスユニット(AUs)(図30参照)は、マッチング機能がタイプ0のアクセスユニットにエンコードされる参照配列の特定の領域に適用される場合、完璧なマッチング(または選択されたマッチング機能に対応する最大の可能なスコア)の結果となるリードの位置および逆相補フラグを含んでよい。タイプ0のAUに含まれるデータとともに、こうしたマッチング機能情報は、タイプ1のアクセスユニットにより担持されるデータセットにより表現されるすべてのゲノム配列リードを完全に再構成するのに十分である。
本明細書ですでに説明したゲノムデータ分類を参照して、上記のタイプ1のアクセスユニットは、クラスP(完璧なマッチ)のゲノム配列リードに関連する情報を含むであろう。
タイプ1のアクセスユニットに対して適用されてタイプ2,3、および4のAUのコンテンツを分類するマッチング機能は、例えば以下のような結果を提供する:
・タイプ1のAUに含まれるそれぞれの配列が、特定された位置に対応してタイプ0のAUに含まれる配列に完璧にマッチする
・タイプ2のAUに含まれるそれぞれの配列が、タイプ2のAUの配列中に存在する「N」シンボルを除き(シーケンシング装置により分類されない塩基)、特定された位置に対応してタイプ0のAUに含まれる配列に完璧にマッチする
・タイプ3のAUに含まれるそれぞれの配列が、特定された位置に対応してタイプ0のAUに含まれる配列に対する、置き換えられたシンボル(変異)の形式の変異体を含む
・タイプ4のAUに含まれるそれぞれの配列が、特定された位置に対応してタイプ0のAUに含まれる配列に愛する、置き換えられたシンボル(変異)、挿入および/または削除の形式の変異を含む
タイプ1、2、3、および4のアクセスユニットは、順序付けられる必要がなく、順序どおりに格納および/または伝送される必要がない(技術的利点:並行処理/並行ストリーミング)
それぞれのアクセスユニットに含まれる配列リードの数は、本発明に基づいてゲノムデータをエンコードする場合に、ユーザにより使用されるユーザインタフェースによって特定される構成パラメータである。この構成パラメータは、例えば、関連するアクセスユニットのヘッダで、送信されることができる。
ここで開示されるアクセスユニット内にゲノム情報を構築する技術的利点は:
1.ゲノムデータが以下にアクセスするために選択的に検索できること:
・ゲノムデータまたはデータセットおよび/または関連するメタデータ全体を展開(解凍)する必要なく、データの特定の「カテゴリー」に(例えば、特定の一時的または生物学的意味とともに)
・ゲノムの他の領域を展開する必要なく、すべての「カテゴリー」、「カテゴリー」のサブセット、単一の「カテゴリー」(関連するメタデータとともにまたはメタデータなしで)のためのゲノムの特定の領域に
2.ゲノムデータが以下の場合に利用可能となる新たなデータで漸進的に更新されることができること:
・ゲノムデータまたはデータセットに新たな解析が実行される場合
・同じ生物(異なる生物学的試料、同じタイプの異なる生物学的試料、例えば、異なるときに収集された血液試料等)
3.ゲノムデータが以下の場合に新たなデータフォーマットに効率的にコード変換されることができること:
・新たな参照として使用されるべき新たなゲノムデータまたはデータセット(例えば、タイプ0のAUにより担持される新たな参照ゲノム)
・エンコーディングフォーマット仕様の更新
例えばSAM/BAM等の先行技術の解決手段を参照すると、上記の技術的特徴は、データ全体がエンコードされたフォーマットから検索され展開される場合に、アプリケーションレベルでデータフィルタリングが起きることを要求する課題に対処するものである。
以下は、アクセスユニット構造が、技術的な利点のために役立つアプリケーションシナリオの例を説明する。
特に、異なるタイプのアクセスユニットに基づくここに開示されるデータ構造は、以下を可能とする:
・関連するメタデータ情報を展開する必要なく(現在の従来技術の制約:異なるカテゴリーまたはレイヤの間の区別さえもサポートしないSAM/BAM)、すべての「カテゴリー」またはサブセット(すなわち、1つまたは複数のレイヤ)または単一の「カテゴリー」の全てのシーケンシングのリード情報(データまたはデータセット)のみを抽出すること
・ゲノムの他の領域を展開する必要なく(現在の従来技術の制約:SAM/BAM)、すべてのカテゴリー、またはカテゴリーのサブセット、単一のカテゴリー(関連するメタデータとともに、またはメタデータなしで)のために仮定される参照配列の特定の領域上にアライメントされたすべてのリードを抽出すること
更なる技術的利点は、データへの検索は、データのアクセス可能性および実行スピードという意味において、遥かにより効率的であることであり、これは、アクセスおよびデコードが、適用された検索およびそのあらゆる組み合わせの基準にマッチする選択された「カテゴリー」のみ、すなわち、より長いゲノム配列の特定の領域およびタイプ1、2、3、4のアクセスユニットの特定のレイヤのみに対するものであるからである。
タイプ1、2、3、4のアクセスユニットのレイヤへの組織化により、以下のヌクレオチド配列の効率的な抽出が可能となる:
・1つまたは複数の参照ゲノムに対する特定の変異(例えば、ミスマッチ、挿入、削除)
・考慮される参照ゲノムのいずれにもマッピングしないもの
・1つまたは複数の参照ゲノム上に完璧にマッピングするもの
・1つまたは複数の精度レベルにマッピングするもの
タイプ5および6のアクセスユニットにより、ファイル全体を非パケット化(depacketize)/デコード/展開する必要なく、注釈を容易に挿入することが可能となり、これにより、従来技術のアプローチでは制約であった、ファイルの効率的なハンドリングに付加される。既存の圧縮の解決手段は、所望のゲノムデータがアクセス可能となるまでに、大容量の圧縮データにアクセスし処理しなければならない。これは、非効率的なRAM帯域使用、およびハードウエア実装におけるより多くの電力消費を引き起こす。電力消費とメモリアクセスの問題は、ここに開示されるアクセスユニットに基づくアプローチを使用することにより軽減され得る。
マスタインデックスファイル(図21参照)に記述されるデータインデックスメカニズムは、アクセスユニットの使用とともに、上記のようにエンコードされたコンテンツの漸進的更新を可能にする。
新たなゲノム情報は、いくつかの理由のため、既存のゲノムデータに周期的に追加され得る。例えば、以下の場合である:
・生物が異なる時点でシーケンスされる
・同じ個体の複数の異なる試料が同時にシーケンスされる
・シーケンシング処理(ストリーミング)により生成された新たなデータ
上記の状況において、ここに開示されるアクセスユニットを使用したデータおよびファイルフォーマットのセクションで開示されたデータ構造により、既存のデータを再度エンコードする必要なく、新たに生成されたデータの漸進的統合が可能となる。
漸進的更新処理は、以下のように実装される:
1.新たに生成されるAUが、ファイル中で、既存のAUに単純に連結されることができ、および
2.新たに生成されたデータまたはデータセットのインデックス化が、本明細書のファイルフォーマットのセクションで開示されるマスタインデックステーブルに含まれる。あるインデックスは、既存の参照配列上の新たに生成されたAUを位置付け、他のインデックスは、物理ファイル内新たに生成されたAUのポインタで構成されて、これらへの直接および選択的なアクセスを可能にする。
圧縮された形式でのゲノムデータおよびデータセットのストリーミングの特定のユースケースにおいて、既存のデータセットの漸進的更新は、実際のシーケンシングが完了する前にデータを生成されるや否やシーケンシング装置により解析する場合に、有用であり得る。エンコーディングエンジン(圧縮器)は、選択された参照配列の同じ領域上にマッピングする配列リードを「クラスタリング」することにより、複数のAUを並行してアセンブルすることができる。一旦、第1のAUが、事前に設定された閾値/パラメータを上回る多数のリードを含むと、AUは、解析アプリケーションにすぐに送られることができる。新たにエンコードされたアクセスユニットとともに、エンコーディングエンジン(圧縮器)は、新たなAUが依存するすべてのアクセスユニットが、受信側にすでに送信されたかあるいはそれとともに送信されることを確認すべきである。例えば、タイプ3のAUは、タイプ0およびタイプ1の適切なAUが、正確にデコードされるため受信側に存在することを要求する。
開示されるメカニズムにより、受信側の変異分類アプリケーションは、送信側でシーケンシング処理が完了する前に、受信されたAU上の変異の分類を開始することができるであろう。この処理の概要は、図41に示されている。
ゲノム処理ライフサイクルの間、複数回の繰り返しのゲノム解析が、同じデータ上に適用される(例えば、異なる処理アルゴリズムを使用した異なる変異定義)。本明細書で定義されるAUおよび本明細書のファイルフォーマットのセクションで開示されるデータ構造を使用することで、既存の圧縮データの、新たな解析の結果での漸進的更新が可能になる。
例えば、既存の圧縮データで実行される新たな解析は、以下の場合に新たなデータを生成することができる:
1.新たな解析は、エンコードされたデータにすでに関連付けられている既存の結果を修正することができる。このユースケースは、図42に示されており、1つのアクセスユニットのコンテンツをあるタイプから他へ、完全にまたは部分的に移動することにより、実装される。新たなAUが作成される必要がある場合(AUごと事前に定義された最大サイズに起因して)、マスタインデックステーブルの関連するインデックスが生成されなければならず、関連するベクタが必要な際にソートされる。
2.新たなデータは、新たな解析から生成され、既存のエンコードされたデータに関連付けられなければならない。この場合、タイプ5の新たなAUは、同じタイプのAUの既存のベクタを用いて、生成され、および連結されることができる。
1.低いマッピングクオリティのデータのみに直接アクセスする可能性(例えば、タイプ4のAU)
2.新たなタイプに属し得る新たなアクセスユニットを単純に作成することにより、リードを新たなゲノム領域に再度マッピングする可能性(例えば、タイプ4のAUに含まれるリードは、より少ないミスマッチ(タイプ2-3)で再度マッピングされることができ、新たに作成されたAUに含まれる。)
3.新たに生成された解析結果および/または関連する注釈のみを含むタイプ6のAUを作成する可能性。この場合、新たに作成されたAUは、これらが参照する既存のAUへの「ポインタ」を含むことが必要であるのみである。
圧縮されたゲノムデータは、例えば、以下の状況でコード変換が必要となり得る:
・新たな参照配列の公表
・異なるマッピングアルゴリズムの使用(再マッピング)
ゲノムデータが既存の公開された参照ゲノム上にマッピングされる場合、上記参照配列の新たなバージョンの公表または異なる処理アルゴリズムを使用してデータをマッピングする要求は、今日、再マッピングの処理を要求する。SAMやCRAMのような従来技術のファイルフォーマットを使用して圧縮データを再マッピングする場合、圧縮されたデータ全体が、その「生」形式に展開されて、新たに利用可能となった参照配列に対して、または異なるマッピングアルゴリズムを使用して、再度マッピングされなければならない。たとえ、新たに公表された参照が、以前のものから極僅かしか異ならない、あるいは使用される異なるマッピングアルゴリズムが、以前のマッピングに非常に近い(同一の)マッピングを生成するものであったとしても、当て嵌まる。
1.新たな参照ゲノムに対するマッピングは、変更を有するゲノム領域上にマッピングするAUのデータを再エンコーディング(展開および圧縮)することを要求するのみである。さらに、ユーザは、たとえ、当初は変更された領域上にマッピングしないとしても、何らかの理由で再マッピングされる必要があるかもしれないこれらの圧縮されたリードを選択するかもしれない(これは、ユーザが以前のマッピングが低いクオリティと信じる場合に起き得る)。このユースケースは、図44に示されている。
2.新たに公表された参照ゲノムが、異なるゲノムの部位(「loc」)にシフトした領域全体という意味においてのみ、以前のものと異なる場合、コード変換操作は、特に単純かつ効率的な結果となる。実際、マッピングされたすべてのリードを、「シフト」された領域に移動させるためには、関連するAUヘッダ(のセット)に含まれる絶対位置の値のみを変更すれば十分である。それぞれのAUヘッダは、AUに含まれる第1のリードが参照配列上にマッピングされた絶対位置を含み、一方、すべての他のリード位置は、第1のリードに対して異なるようにエンコードされる。このため、第1のリードの絶対位置」の値を単純に更新するのみで、AU中のすべてのリードが、それに応じて移動する。このメカニズムは、例えばCRAMおよびBAMのような従来技術のアプローチによっては実装することができない。なぜなら、ゲノムデータ位置は、圧縮されるペイロードにエンコードされ、このため、すべてのゲノムデータセットの完全な展開および再圧縮を必要とするからである。
3.異なるマッピングアルゴリズムが使用される場合、低いクオリティでマッピングされたと見做される圧縮されたリードの部分のみにそれを適用することが可能である。例えば、新たなマッピングアルゴリズムを、参照ゲノム上完璧にはマッチしなかったリードのみに適用することが適切であり得る。既存のフォーマットでは今日、そのマッピングクオリティに基づいて(すなわち、ミスマッチの存在と数)リードを抽出することは不可能である(またはいくつかの制約の下、部分的に可能であるのみ)。新たなマッピング結果が新たなマッピングツールに戻ると、関連するリードは、あるAUから同じタイプの他のAUへ(図46)、またはあるタイプのあるAUから、他のタイプのAU(図45)へ、コード変換され得る。
ここに開示されるゲノムアクセスユニットの採用の更なる利点は、並行処理の利用とハードウエア実装における安定性である。例えばSAM/BAMおよびCRAMのような現在の解決手段は、単一のスレッドのソフトウエア実装のために着想された。
本明細書に開示されるように、複数のタイプに組織化されるアクセスユニットおよびレイヤに基づくアプローチにより、先行技術のモノリシックの解決手段では不可能であった、コンテンツ保護メカニズムの実装が可能となる。
生物の遺伝プロファイルに関する遺伝情報の大部分は、既知の配列(例えば、参照ゲノムまたはゲノムの集団)に対する差異(変異)に依存することを、当業者は理解する。権限のないアクセスから保護すべき個体の遺伝プロファイルは、このため、本明細書に開示されるように、タイプ3および4のアクセスユニットにエンコードされる。シーケンシングおよび解析処理により生成される最も合理的なゲノム情報への制御されたアクセスの実装は、このため、タイプ3および4のAUのペイロードのみを暗号化することによって達成することができる(一例として図47を参照)。資源を消費する暗号化処理が、データのサブセットのみに適用されるため、これは、処理パワーおよび帯域の双方の意味において、顕著な節約を生む。
Claims (19)
- 参照配列にマッピングされるゲノムデータを圧縮する方法であって、前記方法は、ゲノムデータのファイルを、異なるタイプのデータユニットへ区分することを備え、
前記区分することにおいて、
第1のタイプのデータユニットが、エンコードされたデータをマッピングするために使用される参照配列の部分であるゲノムデータ、および前記参照配列の前記部分の第1のヌクレオチドの絶対位置を示す位置データを含み、
ここで、前記ゲノムデータは、他のタイプのデータユニットを参照せず、
第2のタイプのデータユニットが、参照ゲノム上のマッピングに基づいて分類されホモジニアスデータのレイヤに構造化されるゲノムデータを備え、前記第2のタイプのデータユニットはさらに、前記第1のタイプのデータユニットに含まれる配列の一部に完璧にマッチするリードの位置に関連する情報と、前記第1のタイプのデータユニットに含まれるゲノム情報に対する逆相補情報を含み、
前記第2のタイプのデータユニット中の前記位置に関連する情報は、第1のリードのマッピング位置が絶対位置として格納され、および他のすべての位置が前のリードの位置に対する差異として表現されて特定のレイヤに格納されるよう格納され、
前記位置に関連する情報および前記逆相補情報は、ホモジニアスデータのそれぞれ異なるレイヤに構造化され、特定の圧縮アルゴリズムを適用して圧縮される、
ことを特徴とする方法。 - 前記第2のタイプのデータユニットはさらに、ゲノムリードペアリングおよび/またはリード長に関するさらなる情報を備える、
ことを特徴とする請求項1に記載の方法。 - 前記ゲノムデータを異なるタイプのデータユニットへ前記区分することはさらに、シーケンシング装置がいずれのヌクレオチドも決定することができなかったミスマッチの位置に関する情報を含む、追加的タイプのデータユニットを備える、
ことを特徴とする請求項1または2に記載の方法。 - 前記ゲノムデータを異なるデータユニットへ前記区分することはさらに、ミスマッチ位置およびミスマッチタイプに関する情報を含む、追加的タイプのデータユニットを備え、
前記ミスマッチは、前記第1のタイプのデータユニットに関するゲノムデータに関連する、
ことを特徴とする請求項1から3のいずれか1項に記載の方法。 - 前記ゲノムデータを異なるデータユニットへ前記区分することはさらに、追加、削除およびミスマッチの位置、追加、削除およびミスマッチのタイプ、ソフトクリップされたヌクレオチドに関する情報、およびハードクリップされたヌクレオチドに関する情報に関する情報を含む、追加的タイプのデータユニットを備える、
ことを特徴とする請求項1から4のいずれか1項に記載の方法。 - 前記区分することはさらに、メタデータおよび/またはクオリティスコアに関する情報と、および/または、前記データユニットに関連付けられる注釈データを備える、さらに異なるタイプのデータユニットを備える、
ことを特徴とする請求項1から5のいずれか1項に記載の方法。 - 前記区分することはさらに、注釈データを備える追加的な異なるタイプのデータユニットを備える、
ことを特徴とする請求項6に記載の方法。 - 請求項1から7に記載のデータユニットのデータは、複数のレイヤに組織化され、
それぞれのレイヤは、異なるカテゴリー:位置データ、逆相補、オプションのペアリング、オプションのミスマッチ、およびオプションの注釈データ、に関連する情報を備える、
ことを特徴とする請求項7に記載の方法。 - 前記データユニットは、ヘッダおよびペイロードデータを含む、
ことを特徴とする請求項1から8のいずれか1項に記載の方法。 - 前記第2のタイプのデータユニットは、リードのペアリングに関する情報を備え、
そうした情報の存在は、データユニットのヘッダで伝達される、
ことを特徴とする請求項1に記載の方法。 - 第1のタイプのデータユニット中に備えられるリードの数は、入力構成パラメータにより設定される、
ことを特徴とする請求項1から10のいずれか1項に記載の方法。 - 前記入力構成パラメータは、前記データユニットのヘッダに格納される、
ことを特徴とする請求項11に記載の方法。 - 前記データユニットのコンテンツは、暗号化される、
ことを特徴とする請求項1から12のいずれか1項に記載の方法。 - 参照配列にマッピングされるゲノムデータを圧縮する装置であって、前記装置は、プロセッサを備え、前記プロセッサは、ゲノムデータのファイルを、異なるタイプのデータユニットへ区分するよう構成され、
前記区分することにおいて、
第1のタイプのデータユニットが、エンコードされたデータをマッピングするために使用される参照配列の部分であるゲノムデータ、および前記参照配列の前記部分の第1のヌクレオチドの絶対位置を示す位置データを含み、
ここで、前記ゲノムデータは、他のタイプのデータユニットを参照せず、
第2のタイプのデータユニットが、参照ゲノム上のマッピングに基づいて分類されホモジニアスデータのレイヤに構造化されるゲノムデータを備え、前記第2のタイプのデータユニットはさらに、前記第1のタイプのデータユニットに含まれる配列の一部に完璧にマッチするリードの位置に関連する情報と、前記第1のタイプのデータユニットに含まれるゲノム情報に対する逆相補情報を含み、
前記第2のタイプのデータユニット中の前記位置に関連する情報は、第1のリードのマッピング位置が絶対位置として格納され、および他のすべての位置が前のリードの位置に対する差異として表現されて特定のレイヤに格納されるよう格納され、
前記位置に関連する情報および前記逆相補情報は、ホモジニアスデータのそれぞれ異なるレイヤに構造化され、特定の圧縮アルゴリズムを適用して圧縮される、
ことを特徴とする装置。 - 請求項1から13のいずれか1項に記載の方法を実行するための命令セットを備えるプログラムがその上に記録されるコンピュータ可読媒体。
- 請求項1から13のいずれか1項に記載の方法により生成された、データユニット内に区分されるゲノムデータのファイルをコード変換する方法であって、
データが新たな参照ゲノムに対して再アライメントされる際に、アクセスデータのペイロード情報のみが、前記ファイルの全体をコード変換することなく、修正される、
ことを特徴とする方法。 - 選択されたデータユニットのみが修正される、
ことを特徴とする請求項16に記載の方法。 - 前記選択されたデータユニットは、前記第1のタイプである、
ことを特徴とする請求項17に記載の方法。 - 前記選択されたデータユニットは、いずれかのタイプ(290、300、310、320、321)である、
ことを特徴とする請求項18に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/074301 WO2018068828A1 (en) | 2016-10-11 | 2016-10-11 | Method and system for storing and accessing bioinformatics data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019537781A JP2019537781A (ja) | 2019-12-26 |
JP7092757B2 true JP7092757B2 (ja) | 2022-06-28 |
Family
ID=57241049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019520450A Active JP7092757B2 (ja) | 2016-10-11 | 2016-10-11 | バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム |
Country Status (16)
Country | Link |
---|---|
US (1) | US11386979B2 (ja) |
EP (1) | EP3526710A1 (ja) |
JP (1) | JP7092757B2 (ja) |
KR (1) | KR20190073428A (ja) |
CN (1) | CN110168652B (ja) |
AU (1) | AU2016426570A1 (ja) |
BR (1) | BR112019007307A2 (ja) |
CA (1) | CA3039689A1 (ja) |
CL (1) | CL2019000956A1 (ja) |
CO (1) | CO2019003599A2 (ja) |
EA (1) | EA037106B1 (ja) |
IL (1) | IL265909B2 (ja) |
MX (1) | MX2019004123A (ja) |
PH (1) | PH12019500794A1 (ja) |
SG (1) | SG11201903180RA (ja) |
WO (1) | WO2018068828A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2016426570A1 (en) | 2016-10-11 | 2019-06-06 | Genomsys Sa | Method and system for storing and accessing bioinformatics data |
CN111028883B (zh) * | 2019-11-20 | 2023-07-18 | 广州达美智能科技有限公司 | 基于布尔代数的基因处理方法、装置及可读存储介质 |
EP3896698A1 (en) | 2020-04-15 | 2021-10-20 | Genomsys SA | Method and system for the efficient data compression in mpeg-g |
KR102418617B1 (ko) * | 2020-10-13 | 2022-07-07 | 서울대학교산학협력단 | 염기 비율과 연속적 발생을 제한하는 dna 저장 부호화 방법, 프로그램 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003188735A (ja) | 2001-12-13 | 2003-07-04 | Ntt Data Corp | データ圧縮装置及び方法並びにプログラム |
JP2004240975A (ja) | 2003-02-03 | 2004-08-26 | Samsung Electronics Co Ltd | Dna配列符号化装置及び方法 |
JP2007193708A (ja) | 2006-01-20 | 2007-08-02 | Fujitsu Ltd | ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 |
US20150227686A1 (en) | 2014-02-12 | 2015-08-13 | International Business Machines Corporation | Lossless compression of dna sequences |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006052242A1 (en) * | 2004-11-08 | 2006-05-18 | Seirad, Inc. | Methods and systems for compressing and comparing genomic data |
EP2180434A4 (en) * | 2007-08-02 | 2011-07-06 | Llopis Jose Daniel Llopis | ELECTRONIC SYSTEM FOR EMULATING THE CHAIN OF THE STRUCTURE OF DNA FROM A CHROMOSOME |
WO2012031034A2 (en) * | 2010-08-31 | 2012-03-08 | Lawrence Ganeshalingam | Method and systems for processing polymeric sequence data and related information |
WO2013067542A1 (en) * | 2011-11-03 | 2013-05-10 | Genformatic, Llc | Device, system and method for securing and comparing genomic data |
US9734284B2 (en) * | 2013-03-15 | 2017-08-15 | Micron Technology, Inc. | Hardware acceleration of short read mapping for genomic and other types of analyses |
AU2016426570A1 (en) | 2016-10-11 | 2019-06-06 | Genomsys Sa | Method and system for storing and accessing bioinformatics data |
-
2016
- 2016-10-11 AU AU2016426570A patent/AU2016426570A1/en not_active Abandoned
- 2016-10-11 MX MX2019004123A patent/MX2019004123A/es unknown
- 2016-10-11 EP EP16791319.3A patent/EP3526710A1/en active Pending
- 2016-10-11 JP JP2019520450A patent/JP7092757B2/ja active Active
- 2016-10-11 CN CN201680090046.4A patent/CN110168652B/zh active Active
- 2016-10-11 SG SG11201903180RA patent/SG11201903180RA/en unknown
- 2016-10-11 WO PCT/EP2016/074301 patent/WO2018068828A1/en active Search and Examination
- 2016-10-11 IL IL265909A patent/IL265909B2/en unknown
- 2016-10-11 BR BR112019007307A patent/BR112019007307A2/pt not_active Application Discontinuation
- 2016-10-11 US US16/341,373 patent/US11386979B2/en active Active
- 2016-10-11 EA EA201990920A patent/EA037106B1/ru unknown
- 2016-10-11 KR KR1020197013594A patent/KR20190073428A/ko not_active Application Discontinuation
- 2016-10-11 CA CA3039689A patent/CA3039689A1/en not_active Abandoned
-
2019
- 2019-04-09 CL CL2019000956A patent/CL2019000956A1/es unknown
- 2019-04-11 CO CONC2019/0003599A patent/CO2019003599A2/es unknown
- 2019-04-11 PH PH12019500794A patent/PH12019500794A1/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003188735A (ja) | 2001-12-13 | 2003-07-04 | Ntt Data Corp | データ圧縮装置及び方法並びにプログラム |
JP2004240975A (ja) | 2003-02-03 | 2004-08-26 | Samsung Electronics Co Ltd | Dna配列符号化装置及び方法 |
JP2007193708A (ja) | 2006-01-20 | 2007-08-02 | Fujitsu Ltd | ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 |
US20150227686A1 (en) | 2014-02-12 | 2015-08-13 | International Business Machines Corporation | Lossless compression of dna sequences |
Also Published As
Publication number | Publication date |
---|---|
WO2018068828A1 (en) | 2018-04-19 |
AU2016426570A9 (en) | 2019-10-03 |
EA201990920A1 (ru) | 2019-07-31 |
EP3526710A1 (en) | 2019-08-21 |
IL265909B2 (en) | 2024-07-01 |
KR20190073428A (ko) | 2019-06-26 |
WO2018068828A9 (en) | 2019-09-12 |
US20200058378A1 (en) | 2020-02-20 |
IL265909A (en) | 2019-06-30 |
EA037106B1 (ru) | 2021-02-05 |
CN110168652B (zh) | 2023-11-21 |
CN110168652A (zh) | 2019-08-23 |
US11386979B2 (en) | 2022-07-12 |
AU2016426570A1 (en) | 2019-06-06 |
JP2019537781A (ja) | 2019-12-26 |
PH12019500794A1 (en) | 2019-12-02 |
CL2019000956A1 (es) | 2019-08-23 |
CA3039689A1 (en) | 2018-04-19 |
MX2019004123A (es) | 2019-06-10 |
IL265909B1 (en) | 2024-03-01 |
BR112019007307A2 (pt) | 2019-09-17 |
CO2019003599A2 (es) | 2019-08-30 |
SG11201903180RA (en) | 2019-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7079786B2 (ja) | アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置 | |
JP7092757B2 (ja) | バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム | |
JP6902104B2 (ja) | バイオインフォマティクス情報表示のための効率的データ構造 | |
JP6949970B2 (ja) | バイオインフォマティクスデータを送信する方法及びシステム | |
KR20190062551A (ko) | 액세스 유닛으로 구조화된 생물정보학 데이터에 액세스하기 위한 방법 및 장치 | |
JP7362481B2 (ja) | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 | |
AU2018221458A1 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
NZ757185B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
NZ753247B2 (en) | Efficient data structures for bioinformatics information representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20190610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190926 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210928 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7092757 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |