JP6949970B2 - バイオインフォマティクスデータを送信する方法及びシステム - Google Patents
バイオインフォマティクスデータを送信する方法及びシステム Download PDFInfo
- Publication number
- JP6949970B2 JP6949970B2 JP2019540490A JP2019540490A JP6949970B2 JP 6949970 B2 JP6949970 B2 JP 6949970B2 JP 2019540490 A JP2019540490 A JP 2019540490A JP 2019540490 A JP2019540490 A JP 2019540490A JP 6949970 B2 JP6949970 B2 JP 6949970B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- genomic
- sequence
- access
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 84
- 238000013507 mapping Methods 0.000 claims description 52
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 47
- 238000012163 sequencing technique Methods 0.000 description 44
- 239000002773 nucleotide Substances 0.000 description 36
- 125000003729 nucleotide group Chemical group 0.000 description 36
- 238000006467 substitution reaction Methods 0.000 description 28
- 238000007906 compression Methods 0.000 description 24
- 230000006835 compression Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 19
- 230000008901 benefit Effects 0.000 description 14
- 238000012217 deletion Methods 0.000 description 14
- 230000037430 deletion Effects 0.000 description 14
- 238000003780 insertion Methods 0.000 description 13
- 230000037431 insertion Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 11
- 108020004414 DNA Proteins 0.000 description 9
- 230000000295 complement effect Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 108020004707 nucleic acids Proteins 0.000 description 7
- 102000039446 nucleic acids Human genes 0.000 description 7
- 150000007523 nucleic acids Chemical class 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 108010038083 amyloid fibril protein AS-SAM Proteins 0.000 description 5
- 239000012472 biological sample Substances 0.000 description 5
- 238000012165 high-throughput sequencing Methods 0.000 description 5
- 229910052757 nitrogen Inorganic materials 0.000 description 5
- 229910052698 phosphorus Inorganic materials 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 4
- 238000012268 genome sequencing Methods 0.000 description 4
- 238000011331 genomic analysis Methods 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 235000014676 Phragmites communis Nutrition 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000010420 art technique Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013144 data compression Methods 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical group O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010230 functional analysis Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 241000254173 Coleoptera Species 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/20—Heterogeneous data integration
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G08—SIGNALLING
- G08C—TRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
- G08C15/00—Arrangements characterised by the use of multiplexing for the transmission of a plurality of signals over a common path
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
Description
配列データの最も使用されるゲノム情報表現は、FASTQ及びSAMファイルフォーマットに基づき、これらのファイルは一般に、元のサイズを低減するために、圧縮された形態で提供される。非アラインメント及びアラインメント配列データの従来のファイルフォーマットであるFASTQ及びSAMはそれぞれ、平文文字によって構成され、したがって、LZ(Lempel及びZivから)方式(周知のzip、gzip等)等の汎用手法を使用することによって圧縮される。gzip等の汎用圧縮器が使用される場合、圧縮の結果は通常、二進データの1つのブロブである。そのようなモノリシック形態の情報は、特に高スループットシーケンシングの場合、データ量が極めて大きいとき、アーカイブ、転送、及び詳述するのが極めて困難になる。
・各クラスのデータ又はメタデータに効率的なモデルを提供することによって構成される情報ソースエントロピーの低減に起因した圧縮性能の増大、
・任意の更なる処理目的で、圧縮されたデータ及びメタデータの部分への選択的アクセスの実行が可能なこと、
・新しい配列データ及び/又はメタデータ及び/又は新しい解析結果を用いて、符号化されたデータ及びメタデータを増分的に(再符号化の必要なく)更新し追加することが可能なこと、
・シーケンシング又はアラインメントプロセスの終了を待つ必要なく、シーケンシング機又はアラインメントツールによってデータが生成されるとすぐに、効率的データ処理が可能なこと
にある。
1.SAMファイルによって伝達される実際のゲノム情報を抽出し、その圧縮に適切なモデルを使用することにフォーカスするのではなく、非効率的で冗長なSAMファイルフォーマットの圧縮にフォーカスしている。
2.各データソース(ゲノム情報自体)の特性を利用するのではなく、gzip等の汎用テキスト圧縮アルゴリズムを利用している。
3.特定のクラスのゲノムデータへの選択的アクセスを可能にするデータ分類に関連するいかなる概念も有さない。
1.CRAMでは、データ索引付けは仕様の範囲外であり(CRAM仕様v3.0のセクション12参照)、別個のファイルとして実装される。本発明では、データ索引付けは符号化プロセスと統合され、インデックスは符号化ビットストリームに埋め込まれる。
2.CRAMでは、全てのコアデータブロックは、任意のタイプのマッピングされたリード(完全に一致するリード、置換のみを有するリード、インデルを有するリード)を含むことができる。本発明では、参照配列に関するマッピングの結果によるリードの分類及びクラス内のリードのグループ化の観念はない。
3.記載される本発明では、各リードの再構築に必要なデータは「レイヤ」と呼ばれる幾つかのデータコンテナに散乱するため、各リードをカプセル化するレコードの観念はない。これにより、特徴を調べるために各リード(のブロック)を復号化する必要なく、特定の生物学的特性を有するリードの組(例えば、置換を有するが、インデルを有さないリード又は完全にマッピングされるリード)により効率的にアクセスすることができる。
4.CRAMレコードでは、各タイプのデータは特定のフラグで示される。本発明では、CRAMと異なり、これはデータが属する「レイヤ」によって本質的に定義されるため、データを示すフラグの観念はない。これは、使用される記号の数が大幅に低減し、その結果、情報ソースエントロピーが低減し、それにより、より効率的な圧縮に繋がることを暗に示す。これは、異なる「レイヤ」の使用により、エンコーダが、異なる意味を有する各レイヤにわたり同じ記号を再使用することができることに起因する。CRAMでは、コンテキストの観念がなく、各CRAMレコードは任意のタイプのデータを含むことができるため、各フラグは常に同じ意味を有さなければならない。
5.CRAMでは、置換、挿入、欠失は異なるシンタックスに従って表現されるが、本発明は、置換、挿入、及び欠失に1つの英字及び符号化を使用する。これにより、符号化プロセス及び復号化プロセスはより単純になり、エントロピーのより低いソースモデルを生成し、この符号化はより高い圧縮性能を特徴とするビットストリームを生成する。
・形質転換ベース
- LZベース
- リード再配列
・アセンブリベース
- 統計学的モデリング
1.注釈(メタデータ)へのアクセス、解析、若しくは圧縮FASTQファイルに記憶された生データへの注釈(メタデータ)の追加、又はその組合せは、計算リソース及び時間を大量に使用してのファイル全体の圧縮解除及び再圧縮を必要とする。
2.BAMファイルに記憶されたアラインメントデータに含まれるリードマッピング位置、リードバリアントの位置及びタイプ、インデルの位置及びタイプ、又は任意の他のメタデータ及び注釈等の情報の特定のサブセットの検索は、各リードに関連付けられたデータボリューム全体にアクセスする必要がある。1つのクラスのメタデータへの選択的アクセスは、従来技術による解決策では可能ではない。
3.従来技術によるファイルフォーマットでは、処理を開始するには、その前に、エンドユーザでファイル全体を受信している必要がある。例えば、シーケンシングプロセスが完了する前、適切なデータ表現に依拠して、リードのアラインメントを開始することができる。シーケンシング、アラインメント、及び解析は、並列に処理し実行することができる。
4.従来技術による解決策は、構造化をサポートせず、特定の生成セマンティック(例えば、同じ個人の寿命の異なる時間において得られたシーケンシング)に従って異なるシーケンシングプロセスによって得られたゲノムデータを区別することができない。同じ制約が、同じ個人の異なるタイプの生体試料によって得られるシーケンシングに対しても生じる。
5.従来技術による解決策により、データの全体部分又は選択部分の暗号化はサポートされていない。例えば、
a.選択されたDNA領域、
b.バリアントを含む配列のみ、
c.キメラ配列のみ、
d.非マッピング配列のみ、
e.特定のメタデータ(例えば、シーケンシングされた試料の出所、シーケンシングされた個人の身元情報、試料のタイプ)
の暗号化。
6.所与の参照(すなわち、SAM/BAMファイル)にアラインメントされた配列データから新しい参照へのトランスコードは、新しい参照が前の参照から1つのヌクレオチド位置のみだけ異なる場合であっても、データボリューム全体を処理する必要がある。
1.配列化された試料に実際に存在する核酸を表す誤った記号(すなわち、異なる核酸を表す)の識別、これは通常、「置換エラー」(ミスマッチ)と呼ばれる、
2.実際に存在するいかなる核酸も参照しない追加の記号の1つの配列リードへの挿入、これは通常、「挿入エラー」と呼ばれる、
3.配列化された試料に実際に存在する核酸を表す記号の1つの配列リードからの削除、これは通常、「欠失エラー」と呼ばれる、
4.元の配列の現実性を反映しない1つの断片への1つ又は複数の断片の再結合
等のエラーを配列リードに導入する恐れがある。
・参照ゲノムの幾つかの部分が、利用可能ないかなる配列リードによってもマッピングされない場合、部分的(1X未満)、
・参照ゲノムの全ヌクレオチドが、配列リードに存在するただ1つのみの記号によってマッピングされる場合、シングル(1X)、
・参照ゲノムの各ヌクレオチドが複数回マッピングされる場合、マルチプル(2X、3X、NX)
であると言える。
本明細書に開示される本発明の本質は、少なくとも以下の点で従来技術と異なるゲノム配列データを表現、処理、操作、及び送信する圧縮データ構造の定義にある:
−ゲノム情報のいかなる従来技術による表現フォーマット(すなわち、FASTQ、SAM)にも依拠しない。
−ゲノムデータ及びメタデータの特定の特性に従ったゲノムデータ及びメタデータの新しい独自の分類を実施する。配列リードは参照配列にマッピングされ、アラインメントプロセスの結果に従って別個のクラスにグループ化される。これにより、異なる特定の圧縮アルゴリズムを適用してより効率的に符号化することができる、情報エントロピーがより低いデータクラスになる。
−シンタックス要素並びに配列リード及びアラインメント情報を伝達する、関連する符号化/復号化プロセスを、下流解析アプリケーションでの処理により効率的な表現に定義する。
・異なるシンタックス要素が特定のソースモデルによってモデリングされる場合、情報エントロピーの低減。
・下流解析段にとって特定の意味を有し、別個に独立してアクセスすることができるグループ/レイヤに既に編成されたデータへのより効率的なアクセス。
・データコンテンツ全体を復号化する必要なく、必要とされる情報のみにアクセスすることにより増分的に更新することができるモジュールデータ構造の存在。
・シーケンシング機によって生成されるゲノム情報は、情報自体の性質及びシーケンシングプロセスに本質的なエラーを軽減する必要性に起因して、本質的に高い冗長性を有する。これは、識別し解析する必要がある関連ゲノム情報(参照からのバリエーション)が、生成されるデータのわずかな部分のみであることを暗示する。従来技術によるゲノムデータ表現フォーマットは、解析用途に即座に利用可能にするように、所与の解析段における意味ある情報を残りの情報から「分離」するとは考えられない。
・開示される本発明によってもたらされる解決策は、データの任意の関連部分が、データ全体にアクセスし圧縮解除する必要なく、解析用途に容易に利用可能であり、効率的な圧縮によりデータの冗長性が効率的に低減し、必要とされる記憶空間及び送信帯域幅を最小化するようにゲノムデータを表すことである。
1.圧縮形態の構造化され選択的にアクセス可能なデータ要素(アクセスユニット(AU)を「含む」ファイルフォーマットの仕様。そのような手法は、データが非圧縮形態で構造化され、次に、ファイル全体が圧縮される従来技術による手法、例えば、SAM及びBAMの逆として見ることができる。この手法の第1の明確な利点は、圧縮領域でのデータ要素への様々な形態の構造化された選択的アクセスを効率的にかつ自然に提供可能なことであり、これは、従来技術による手法で不可能であるか、又は極めて扱いにくい。
2.同種データ及びメタデータの特定の「レイヤ」へのゲノム情報の構造化は、低エントロピーを特徴とする情報ソースの異なるモデルの定義を可能にするというかなりの利点を呈する。そのようなモデルは、レイヤごとに異なることができるのみならず、レイヤ内の圧縮データが、アクセスユニットに含まれるデータブロックに分割される場合、各レイヤ内部で異なることもできる。この構造化により、従来技術の手法と比べて符号化効率における大きな利得をもって、データ若しくはメタデータ及びそれらの一部の各クラスに最も適切な圧縮を使用することができる。
3.情報はアクセスユニット(AU)に構造化され、それにより、適切なインターフェースを手段として、ゲノム解析アプリケーションによって使用されるデータの任意の関連サブセットに効率的かつ選択的にアクセスすることができる。これらの特徴は、データへのより高速なアクセスを可能にし、より効率的な処理をもたらす。
4.マスタインデックステーブル及びローカルインデックステーブルの定義により、圧縮データの全体容量を復号化する必要なく、符号化(すなわち、圧縮)されたデータのレイヤによって運ばれる情報に選択的にアクセスすることができる。
5.新たに公開された参照ゲノムに対してアラインメントし直す必要がある場合、圧縮領域内の選択されたデータ部分の効率的なコード変換により、既にアラインメントされ圧縮されたゲノムデータの再アラインメントを実行することが可能である。新しい参照ゲノムの頻繁なリリースは現在、コード変換プロセスが、既に圧縮され記憶されたゲノムデータを新たに公開された参照と再アラインメントするプロセスに、リソースの消費及び時間を必要とし、その理由は、全データ容量を処理する必要があるためである。
1.可能な限り情報エントロピーを低減するために、ゲノム情報を同種のメタデータの「レイヤ」に分解する。
2.コード化された情報全体を復号化する必要なく、符号化情報のレイヤに選択的なアクセスできるようにするマスタインデックステーブル及びローカルインデックステーブルの定義。
3.ポイント1において定義された異なるレイヤに属するシンタックス要素をコード化するための異なるソースモデル及びエントロピーコーダの採用。
4.必要ない場合、レイヤを全て復号化する必要なく、データへの選択的アクセスを可能にするための依存レイヤ間の対応性。
5.エントロピーを低減するように変更することができる、1つ又は複数の適応参照配列への差分符号化。最初の参照ベースの符号化後、記録されたミスマッチを使用して、参照配列を「適応/変更」し、情報エントロピーを更に低減することができる。これは、情報エントロピーの低減が有意味である限り、反復的に実行することができるプロセスである。
シーケンシング機によって生成される配列リードは、1つ又は複数の参照配列又はゲノムへのアラインメントの結果に従って、開示される本発明により5つの異なる「クラス」に分類される。
1.参照配列内の領域は、いかなるエラーもなく配列リードに一致する(完全マッピング)ことが発見される。ヌクレオチドのそのような配列は、「完全マッチングリード」と呼ばれるか、又は「クラスP」と記される。
2.参照配列内の領域は、シーケンシング機がいかなる塩基(又はヌクレオチド)もコールすることができなかった幾つかの位置により構成される幾つかのミスマッチを有して、配列リードに一致することが発見される。そのようなミスマッチは「N」で記される。そのような配列は「Nミスマッチリード」又は「クラスN」と呼ばれる。
3.参照配列内の領域は、シーケンシング機がいかなる塩基(又はヌクレオチド)もコールすることができなかったか、又は参照配列内で報告されるものとは異なる塩基がコールされた幾つかの位置により構成される幾つかのミスマッチを有して、配列リードに一致することが発見される。そのようなタイプのミスマッチは、シングルヌクレオチドバリエーション(SNV)又はシングルヌクレオチド多型(SNP)と呼ばれる。配列は、「Mミスマッチリード」又は「クラスM」と呼ばれる。
4.第4のクラスは、クラスMと同じミスマッチに、挿入又は欠失(別名、インデル)の存在が加わったミスマッチタイプを表す配列リードによって構成される。挿入は、参照に存在しないが、リード配列には存在する1つ又は複数のヌクレオチドの配列によって表される。文献では、挿入された配列が配列のエッジである場合、「ソフトクリップ」と呼ばれる(すなわち、ヌクレオチドは参照と一致しないが、破棄される「ハードクリップ」ヌクレオチドとは対照的に、アラインメントされたリードに保持される)。ヌクレオチドの保持又は廃棄は通常、アラインメントツールの構成として実施されるユーザの判断である。欠失は、参照からのアラインメントされたリードにおける「穴」(欠損ヌクレオチド)である。そのような配列は、「Iミスマッチリード」又は「クラスI」と呼ばれる。
5.第5のクラスは、指定されたアラインメント制約に従って参照配列においていかなる有効なマッピングも発見現在全てのリードを含む。そのような配列はマッピングされないと言え、「クラスU」に属すると言えるアンマップリードは、de−novoアセンブリアルゴリズムを使用して1つの配列にアセンブルすることができる。新しい配列が作成されると、アンマップリードをそれに対して更にマッピングし、4つのクラスP、N、M、及びIの1つに分類することができる。
・参照配列posでの開始位置(292)。
・リードが参照rcompから逆相補として見なされる必要がある場合、フラグシグナリング(293)。
・ペアになったリードのペアの場合、メイトペアへの距離(294)。
・シーケンシング技術が可変長リードを生成する場合、リード長の値(295)。一定リード長の場合、各リードに関連付けられたリード長は明らかに省くことができ、主要ファイルヘッダに記憶することができる。
・ミスマッチごとに、
・クラスNの場合、ミスマッチ位置nmis(300)、クラスMの場合、snpp(311)、及びクラスIの場合、indp(321))。
・ミスマッチタイプ(クラスNの場合、存在せず、クラスMの場合、snpt(312)、クラスIの場合、indt(322))。
・フラグ(296)であって、
・シーケンシングにおいて複数のセグメントを有する鋳型、
・アライナに従って適宜アラインメントされた各セグメント、
・アンマップセグメント、
・アンマップ鋳型内の次のセグメント、
・最初又は最後のセグメントのシグナル伝達、
・品質制御失敗、
・PCR又は光学複製、
・二次アラインメント、
・補足的アラインメント
等の配列リードの特定の特性を示すフラグ(296)。
・クラスIに存在する場合、ヌクレオチド列をソフトクリップ(323)。
各アクセスユニットにおいて、最初の符号化リードのマッピング位置のみが、参照ゲノム上の絶対位置としてAUヘッダに記憶される。他の全ての位置は、前の位置からの差として表現され、特定のレイヤに記憶される。情報ソースのこのモデリングは、リード位置の配列によって定義され、一般に、特にシーケンシングプロセスが高カバレッジ結果を生成する場合、エントロピーの低減を特徴とする。最初のアラインメントの絶対位置が記憶されると、他のリードの全ての位置は、最初の位置からの差(距離)として表現される。
ペア記述子はpairレイヤに記憶される。そのようなレイヤは、利用されるシーケンシング技術がペアでリードを生成する場合、元のリードペアの再構築に必要な情報を符号化する記述子を記憶する。本発明の開示日では、配列データの大多数は、ペアリードを生成する技術を使用することによって生成されるが、全ての技術でそうであるわけではない。これは、考慮されるゲノムデータのシーケンシング技術がペアリード情報を生成しない場合、このレイヤの存在が、全配列データ情報の再構築に必要であるわけではないことの理由である。
・メイトペア:リードペア内の別のリードに関連付けられたリード(例えば、リード2は、図4の例において、リード1のメイトペアである)。
・ペア距離:第1のリード(ペアアンカー、例えば、最初のリードの最後のヌクレオチド)における1つの位置を第2のリード(例えば、2番目のリードの最初のヌクレオチド)の1つの位置から隔てる参照配列上のヌクレオチド位置の数。
・最確ペア距離(MPPD):これは、ヌクレオチド位置数で表現される最確ペア距離である。
・位置ペア距離(PPD):PPDは、特定の位置記述子レイヤに存在する各メイトからあるリードを隔てるリード数単位のペア距離を表現する方法である。
・最確位置ペア距離(MPPPD):特定の位置記述子レイヤに存在するメイトペアからあるリードを隔てる最も確率の高いリード数である。
・位置ペアリングエラー(PPE):MPPDとMPPPDとメイトの実際の位置との差として定義される。
・ペアアンカー:ヌクレオチド位置数又はリード位置数を単位としてメイトペアの距離を計算するための参照として使用されるペア内の最初のリードの最後のヌクレオチドの位置である。
参照配列に配列リードをマッピングするプロセスでは、ペア内の最初のリードがある参照(例えば、染色体1)にマッピングされ、2番目のリードが異なる参照(例えば、染色体4)にマッピングされることは希ではない。この場合、上述したペア情報は、リードの一方のマッピングに使用される参照配列に関連する追加の情報によって統合される必要がある。これは、
1.ペアが2つの異なる配列にマッピングされることを示す予約値(フラグ)(異なる値が、リード1又はリード2が現在符号化されていない配列にマッピングされるかどうかを示す)、
2.表1に記載される主要ヘッダ構造において符号化される参照識別子を参照する一意の参照識別子、
3.ポイント2において識別された参照へのマッピング情報を含み、最後の符号化位置からのオフセットとして表現される第3の要素
をコードすることにより達成される。
1)1つの特別な予約値は、ペア距離(この場合、0xffffff)として符号化される。
2)第2の記述子は、主要ヘッダに列挙される参照IDを提供する(この場合、4)。
3)第3の要素は、考慮される参照上のマッピング情報を含む(170)。
シーケンシング技術によって生成されるリードペアの各リードは、配列化された有機試料のいずれかのゲノム鎖からのものであることができる。しかしながら、2本鎖のうちの1本のみが参照配列として使用される。図8は、リードペアにおいて、あるリード(リード1)がいかに、1本の鎖から来ることができ、他(リード2)が他方の鎖から来ることができるかを示す。
クラスNは、ミスマッチを示す全てのリードを含み、「N」は塩基コールの代わりに存在する。全ての他のベースは、参照配列に完全に一致する。
・リード1における絶対位置又は
・同じリード内の前のNからの差分位置(最低のエントロピーを有するいずれか)
として符号化される。
・リード2における絶対位置+リード1長又は
・前のNからの差分位置(最低のエントロピーを有するいずれか)
として符号化される。
置換は、同じ位置における参照配列に存在するものとは異なるヌクレオチドの、マッピングされたリード上での存在として定義される(図12参照)。
・「位置」(snppレイヤ)又は「タイプ」(snptレイヤ)として、図13、図14、図16、及び図15参照、又は
・「位置」のみであるが、ミスマッチタイプごとに1つのsnppレイヤを使用、図17参照、
として符号化することができる。
置換位置は、nmisレイヤの値として計算され、すなわち:
リード1において、置換は、
・リード1における絶対位置として又は
・リード2における同じリードにおける前の置換からの差分位置として置換が符号化される
として符号化され、
リード2において、置換は、
・リード2における絶対位置+リード1長又は
・前の置換からの差分位置
として符号化される。図13は、置換位置がいかにレイヤsnppにおいて符号化されるかを示す。置換位置は、絶対値又は差分値のいずれかとして計算することができる。
クラスM(及び次のセクションで説明されるように、クラスI)の場合、ミスマッチは、参照に存在する実際の記号から、リードに存在する対応する置換記号{A,C,G,T,N,Z}までインデックス(右から左に移動する)によってコード化される。例えば、アラインメントされたリードが、参照における同じ位置に存在するTの代わりにCを提示する場合、ミスマッチインデックスは「4」と記される。復号化プロセスは、符号化されたシンタックス要素、参照上の所与の位置におけるヌクレオチドを読み出し、左から右に移動して、復号化された記号を検索する。例えば、参照においてGが存在する位置に対して「2」を受信することは、「N」として復号化されることになる。図14は、IUPAC曖昧コードが使用されない場合に可能な全ての置換及び各符号化記号を示し、図15は、snptレイヤにおける置換タイプの符号化の一例を提供する。IUPAC曖昧コードが存在する場合、置換インデックスは図16に示されるように変わる。
クラスIの場合、ミスマッチ及び欠失は、参照に存在する実際の記号から、リードに存在する対応する置換記号{A,C,G,T,N,Z}までインデックス(右から左に移動する)によりコード化される。例えば、アラインメントされたリードが、参照における同じ位置に存在するTの代わりにCを提示する場合、ミスマッチインデックスは「4」と記される。リードが、参照においてAが存在する場所に欠失を提示する場合、コード化される記号は「5」である。復号化プロセスは、コード化されたシンタックス要素、参照上の所与の位置におけるヌクレオチドを読み出し、左から右に移動して、復号化された記号を検索する。例えば、参照においてGが存在する位置に対して「3」を受信することは、配列リードにおける欠失の存在を示す「Z」として復号化される。
マスタインデックステーブル
アラインメントされたデータの特定の領域への選択的アクセスをサポートするために、本明細書に記載されるデータ構造は、マスタインデックステーブル(MIT)と呼ばれる索引付けツールを実装する。これは、特定のリードが、使用される参照配列にマッピングされる座位を含む多次元アレイである。MITに含まれる値は、各posレイヤにおける最初のリードのマッピング位置であり、したがって、各アクセスユニットへの非順次アクセスがサポートされる。MITは、データのクラスごと(P、N、M、及びI)並びに参照配列ごとに1つのセクションを含む。MITは、符号化データの主要ヘッダに含まれる。図20は、主要ヘッダの一般構造を示し、図21は、MITの一般的な視覚表現を示し、図22は、符号化リードのクラスPのMITの一例を示す。
上述した各データレイヤは、ローカルヘッダと呼ばれるデータ構造が前置される。ローカルヘッダは、レイヤの一意の識別子、参照配列ごとのアクセスユニットカウンタのベクトル、ローカルインデックステーブル(LIT)、及び任意選択的な何らかのレイヤに固有のメタデータを含む。LITは、レイヤペイロードにおける各AUに属するデータの物理的な位置へのポインタのベクトルである。図23は、LITが非順次的に符号化データの特定の領域にアクセスするのに使用される一般的なレイヤヘッダ及びペイロードを示す。
要求されたAUに属するデータブロックの位置=スキップすべき参照1のAUに属するデータブロック+MITを使用して検索された位置、すなわち、
最初のブロック位置:5+3=8
最後のブロック位置:5+4=9
として計算される。
データクラスに分類され、圧縮又は非圧縮レイヤに構造化されたゲノムデータは、異なるアクセスユニットに編成される。
・アクセスユニットが運ぶゲノムデータ及びデータセットの性質及びアクセスすることができる方法を特徴付けるタイプ、
・同じタイプに属するアクセスユニットへの一意の順序を提供する順序
によって区別される。
1)タイプ0のアクセスユニットは、アクセスされるために又は復号化されアクセスされるために、他のアクセスユニットからのいかなる情報も参照する必要がない(図29参照)。それらが含むデータ又はデータセットによって伝達される情報全体は、復号化デバイス又は処理アプリケーションによって独立して読み出され、処理することができる。
2)タイプ1のアクセスユニットは、タイプ0のアクセスユニットによって伝達されるデータを参照するデータを含む(図30参照)。タイプ1のアクセスユニットに含まれるデータの読み出し又は復号化及び処理は、タイプ0の1つ又は複数のアクセスユニットへのアクセスが必要である。このタイプのアクセスユニットは、タイプ0のアクセスユニットに含まれる情報からのミスマッチ、非類似、又は非対応の情報を含むことができる。
3)タイプ2、3、及び4のアクセスユニットは、タイプ1のアクセスユニットを参照するデータを含む(図31、図32、及び図33参照)。タイプ2、3、及び4のアクセスユニットによって含まれるデータ又はデータセットの読み出し又は復号化及び処理は、タイプ0及びタイプ1のアクセスユニットに含まれるデータ又はデータセットによって伝達される情報を必要とする。タイプ2、3、及び4のアクセスユニットの違いは、含まれる情報の性質にある。
4)タイプ5のアクセスユニットは、タイプ1のアクセスユニットに含まれるデータ又はデータセットに関連付けられたメタデータ(例えば、クオリティスコア)及び/又は注釈データを含む。タイプ5のアクセスユニットは、異なるレイヤに分類されラベリングし得る。
5)タイプ6のアクセスユニットは、注釈データとして分類されるデータ又はデータセットを含む。タイプ6のアクセスユニットはレイヤにおいて分類されラベリングし得る。
6)追加のタイプのアクセスユニットは、本明細書に記載される構造及びメカニズムを拡張することができる。限定ではなく一例として、ゲノムバリアントコール、構造的及び機能的解析の結果は、新しいタイプのアクセスユニットに符号化することができる。本明細書に記載されるアクセスユニットにおけるデータ編成は、アクセスユニットにカプセル化されたいかなるタイプのデータも、符号化データの性質に関して完全にトランスペアレントなメカニズムにすることを妨げない。このタイプのアクセスユニットは、タイプ0のアクセスユニットに含まれる情報からのミスマッチ、非類似、又は非対応の情報を含むことができる。
・Xは属するアクセスユニットを識別し、
・Yは属するブロック(すなわち、カプセル化するデータタイプ)を識別し、
・Zは、同じブロック内の他のパケットに対するパケット順序を表現する識別子である。
−同じ有機体を異なる時間にシーケンシングする場合(アクセスユニットは、「一時的」含意のゲノム情報を含む)、
−同じ有機体の異なる性質の有機体試料(例えば、ヒト試料の皮膚、血液、毛髪)のシーケンシングの場合、
行うことができる。これらは、「生物的」含意があるアクセスユニットである。
−タイプ1のAUに含まれる各配列は、指定された位置に対応するタイプ0のAUに含まれる配列に完全に一致し、
−タイプ2のAUに含まれる各配列は、指定された位置に対応するタイプ0のAUに含まれる配列に完全に一致するが、タイプ2のAUにおける配列には「N」記号が存在し(塩基がシーケンシングデバイスによってコールされない)、
−タイプ3のAUに含まれる各配列は、指定された位置に対応するタイプ0のAUに含まれる配列から置換記号(バリアント)の形態のバリアントを含み、
−タイプ4のAUに含まれる各配列は、指定された位置に対応するタイプ0のAUに含まれる配列からの置換記号(バリアント)、挿入、及び/又は欠失の形態のバリアントを含む
等の結果を提供することができる。
本明細書に記載されるアクセスユニットにゲノム情報を構造化することの技術的効果は、ゲノムデータが、
1.
−ゲノムデータ全体又はデータセット全体及び/又は関連するメタデータを圧縮解除する必要なく、データの特定の「カテゴリ」(例えば、特定の一時的又は生物学的含意を有する)、
−ゲノムの他の領域を圧縮解除する必要なく、全ての「カテゴリ」、「カテゴリ」のサブセット、1つの「カテゴリ」(関連付けられたメタデータあり又はなし)のゲノムの特定の領域
にアクセスするために選択的に問い合わせることができ、
2.
−新しい解析がゲノムデータ又はデータセットに対して実行される場合、
−新しいゲノムデータ又はデータセットが、同じ有機体をシーケンシングすることによって生成される(異なる生体試料、同じタイプの異なる生体試料、例えば、血液試料であるが異なる時間に取得されたもの等)場合、
利用可能であることができる新しいデータで増分的に更新することができ、
3.
−新しい参照として(例えば、タイプ0のAUによって伝達される新しい参照ゲノム)使用すべき新しいゲノムデータ又はデータセット、
−符号化フォーマット仕様の更新
の場合、新しいデータフォーマットに効率的にコード変換することができること
であることである。
特に、開示される異なるタイプのアクセスユニットに基づくデータ構造は、
−関連付けられたメタデータ情報も圧縮解除する必要(現況水準の制約:異なるカテゴリ又はレイヤの区別さえもサポートすることができないSAM/BAM)なく、全「カテゴリ」の全シーケンシング、サブセット(すなわち、1つ又は複数のレイヤ)、又は1つの「カテゴリ」のみのリード情報(データ又はデータセット)抽出、
−ゲノムの他の領域も圧縮解除する必要(現況水準の制約:SAM/BAM)なく、全てのカテゴリ、カテゴリのサブセット、1つのカテゴリの仮定される参照配列の特定の領域にアラインメントされた全てのリード(関連付けられたメタデータあり又はなし)の抽出
を可能にする。
−1つ又は複数の参照ゲノムから特定のバリエーション(例えば、ミスマッチ、挿入、欠失)を有する、
−考慮される参照ゲノムのいずれにもマッピングされない、
−1つ又は複数の参照ゲノムに完全にマッピングされる、
−1つ又は複数の正確性レベルでマッピングされる
ヌクレオチド配列の効率的な抽出が可能である。
タイプ5及び6のアクセスユニットは、ファイル全体をデパケット化/復号化/圧縮解除する必要なく、注釈を容易に挿入できるように、それにより、従来技術の制約であるファイルの効率的な取り扱い性を高める。既存の圧縮解決策は、所望のゲノムデータにアクセスできるようになるには、先に大量の圧縮データにアクセスし処理する必要があり得る。これは、非効率的なRAM帯域幅利用及びハードウェア実装においてもより多くの消費電力を生じさせる。消費電力及びメモリアクセス問題は、本明細書に記載されるアクセスユニットに基づく手法を使用することによって軽減し得る。
新しいゲノム情報は、幾つかの理由により既存のゲノムデータに定期的に追加することができる。例えば、
・有機体が異なる瞬間にシーケンシングされる場合
・同じ個人の幾つかの異なる試料が同時にシーケンシングされる場合、
・シーケンシングプロセスによって生成される新しいデータ(ストリーミング)の場合。
1.新たに生成されたAUは単に、予め存在するAUを用いてファイルに連結することができ、
2.新たに生成されたデータ又はデータセットの索引付けは、本明細書のファイルフォーマットセクションに記載されるマスタインデックステーブルに含まれる。1つのインデックスは、新たに生成されたAUを既存の参照配列上に位置決めするものとし、他のインデックスの本質は、新たに生成されたAUへの直接かつ選択的なアクセスを可能にするための物理的ファイル内の新たに生成されたAUのポインタにある。
ゲノム処理寿命サイクル中、ゲノム解析の幾つかの反復を同じデータ(例えば、異なる処理アルゴリズムを使用した異なるバリアントコール)に適用することができる。本明細書において定義されるAU及び本明細書のファイルフォーマットセクションに記載されるデータ構造の使用は、新しい解析の結果を用いて既存の圧縮データを増分的に更新できるようにする。
1.新しい解析は、符号化データに既に関連付けられた既存の結果を変更することができる。この使用事例を図42に示し、これは、1つのアクセスユニットの内容を全体的又は部分的にあるタイプから別のタイプに移すことによって実施される。新しいAUを作成する必要がある(AUごとに予め定義される最大サイズに起因して)場合、マスタインデックステーブル内に関連するインデックスを作成しなければならず、関連するベクトルは、必要な場合、ソートされる。
2.新しいデータは、新しい解析から生成され、既存の符号化データに関連付けられる必要がある。この場合、タイプ5の新しいAUを生成し、同じタイプのAUの既存のベクトルと連結することができる。マスタインデックステーブルのこの更新及び関連する更新を図43に示す。
1.不良なマッピング品質を有するデータ(例えば、タイプ4のAU)のみに直接アクセスを有することが可能であり、
2.恐らくは新しいタイプに属する新しいアクセスユニットを単に作成することにより、新しいゲノム領域にリードを再マッピング可能であり(例えば、タイプ4のAUに含まれていたリードを、ミスマッチがより少ない新しい領域(タイプ2−3)に再マッピングし、新たに作成されたAUに含めることができる)、
3.新たに作成された解析結果及び/又は関連する注釈のみを含むタイプ6のAUを作成可能であることであって、この場合、新たに作成されるAUは、参照する既存のAUへの「ポインタ」のみを含む必要がある、タイプ6のAUを作成可能であること
により可能になる。
圧縮ゲノムデータは、例えば、以下の状況においてコード変化する必要があり得る:
・新しい参照配列の公開、
・異なるマッピングアルゴリズムの使用(再マッピング)。
1.マッピングと新しい参照ゲノムで必要とされるのは、変更されたゲノム領域にマッピングされるAUのデータの再符号化(圧縮解除及び圧縮)のみである。さらに、ユーザは、任意の理由で、元々、変更された領域にマッピングされていない場合であっても、再マッピングする必要があり得る圧縮リードを選択し得る(これは、前のマッピングの品質がよくないとユーザが信じる場合、生じ得る)。この使用事例を図44に示す。
2.新たに公開された参照ゲノムが、領域全体が異なるゲノム位置(「座位」)にシフトされたという点でのみ前と異なる場合、コード変換動作は特に単純で効率的である。実際に、「シフトされた」領域にマッピングされた全てのリードを移動させるには、関連する(1組の)AUヘッダに含まれる絶対位置の値のみを変更するだけで十分である。各AUヘッダは、AUに含まれる最初のリードが参照配列にマッピングされる絶対位置を含み、一方、他の全てのリード位置は、その最初の位置からの差として符号化される。したがって、最初のリードの絶対位置の値を単に更新することで、AU内の全てのリードはそれに従って移動する。このメカニズムは、CRAM及びBAMなどの現況水準の手法によって実施することができず、その理由は、ゲノムデータ位置が圧縮されたペイロードに符号化され、したがって、全てのゲノムデータセットの完全な圧縮解除及び再圧縮が必要なためである。
3.異なるマッピングアルゴリズムが使用される場合、よくない品質でマッピングされたと思われる圧縮リードの部分のみに適用することが可能である。例えば、参照ゲノムに完全には一致しなかったリードのみに新しいマッピングアルゴリズムを適用することが適切であり得る。今日、既存のフォーマットを使用した場合、マッピング品質(すなわち、ミスマッチの存在及び数)に従ってリードを抽出することは可能ではない(又は幾つかの制約付きで部分的にのみ可能である)。新しいマッピング結果が新しいマッピングツールによって返される場合、関連するリードは、あるAUから同じタイプの別のAUに(図46)又はあるタイプのあるAUから別のタイプのAUに(図45)コード変換することができる。
本明細書に記載される幾つかのタイプレイヤに編成されるアクセスユニットに基づく手法は、現況水準のモノリシックな解決策では可能ではないコンテンツ保護メカニズムの実装を可能にする。
ゲノムデータマルチプレックス
ゲノムアクセスユニットは、ゲノムデータマルチプレックス内で通信ネットワークを解して輸送することができる。ゲノムデータマルチプレックスは、本発明の一環として開示されるデータ分類に従って表され、パケット損失等のエラーが生じ得るネットワーク環境において送信される、パッケージされたゲノムデータ及びメタデータの配列として定義される。
1.ゲノムデータ(後述)のストリーム若しくは配列又は符号化ツールによって生成されたゲノムファイルフォーマットを1つ又は複数のゲノムデータマルチプレックスにカプセル化して、ネットワーク環境を介して搬送し、次に、有効な同一のストリーム又はファイルフォーマットを回復して、送信及び情報へのアクセスをより効率的にすることができる。
2.復号化及び提示のために、カプセル化されたゲノムデータストリームから符号化ゲノムデータを選択的に検索できるようにする。
3.輸送のために幾つかのゲノムデータセットを1つの情報コンテナに多重化できるようにし、搬送された情報のサブセットを新しいゲノムデータマルチプレックスに逆多重化できるようにする。
4.異なるソース(結果として別個のアクセスを有する)及び/又はシーケンシング/解析プロセスによって生成されたデータ及びメタデータを多重化できるようにし、ネットワーク環境を介して、生成されたゲノムデータマルチプレックスを送信する。
5.パケット損失等のエラーの識別をサポートする。
6.ネットワーク遅延に起因して順序違いで到着し得るデータの適切な並べ替えをサポートし、したがって、現況水準の解決策と比較した場合、ゲノムデータの送信をより効率的にする。
本発明の文脈においては、ゲノムデータセットは、例えば、生物のゲノムデータ、ゲノムデータ処理の幾つかのステップによって生成された1つ若しくは複数の配列及びメタデータ、又は生物のゲノムシーケンシングの結果を含む構造化された1組のゲノムデータとして定義される。1つのゲノムデータマルチプレックスは、複数のゲノムデータセットを含み得(マルチチャネルシナリオと同様に)、その場合、各データセットは異なる有機体を参照する。幾つかのデータセットを1つのゲノムデータマルチプレックスに多重化するメカニズムは、ゲノムデータセットリスト(GDL)及びゲノムデータセットマッピングテーブル(GDMT)と呼ばれるデータ構造に含まれる情報によって支配される。
ゲノムデータセットリスト(GDL)は、ゲノムデータマルチプレックスにおいて利用可能な全てのゲノムデータセットを列挙するデータ構造として定義される。列挙された各ゲノムデータセットは、ゲノムデータセットID(GID)と呼ばれる一意の値によって識別される。
・1つのゲノムデータセットマッピングテーブル(GDMT)を搬送し、特定の値のストリームID(genomic_dataset_map_SID)によって識別される1つのゲノムデータストリーム、
・1つの参照IDマッピングテーブル(RIDMT)を搬送し、特定の値のストリームID(reference_id_map_SID)によって識別される1つのゲノムデータストリーム
に関連付けられる。
ゲノムデータセットマッピングテーブル(GDMT)は、ストリーミングプロセスの開始時に生成され送信される(恐らく、ストリーミングされたデータ内の対応点及び関連依存性の更新を可能にするために、定期的に再送信されるか、更新されるか、又は同一である)。GDMTは、ゲノムデータセットリストに続き1つのパケットで搬送され、1つのゲノムデータセットを作るゲノムデータストリームを識別するSIDを列挙する。GDMTは、ゲノムマルチプレックスによって搬送される1つのゲノムデータセットを作るゲノムデータストリーム(例えば、ゲノム配列、参照ゲノム、メタデータ等)の全ての識別子の完全な集まりである。ゲノムデータセットマッピングテーブルは、各ゲノムデータセットに関連付けられたゲノムデータのストリームの識別子を提供することにより、ゲノム配列へのランダムアクセスを可能にするのに役立つ。
参照IDマッピングテーブル(RIDMT)は、ストリーミングプロセスの開始時に生成され送信される。RIDMTは、ゲノムデータセットリストに続き1つのパケットによって搬送される。RIDMTは、アクセスユニットのブロックヘッダに含まれる参照配列の数値識別子(REFID)と、表1において指定される主要ヘッダに含まれる(通常、文字の)参照識別子との間のマッピングを指定する。
・ストリーミングされたデータ内の対応点及び関連依存性の更新を可能にするため、
・予め存在する参照配列に追加される新しい参照配列の統合(例えば、de−novoアセンブリプロセスによって作成される合成参照)をサポートするため
に、定期的に再送信することができる。
ゲノムデータマルチプレックスは、1つ又は幾つかのゲノムデータストリームを含み、各ストリームは、
・輸送情報(例えば、ゲノムデータセットリスト、ゲノムデータセットマッピングテーブル等)を含むデータ構造、
・本発明に記載されるゲノムデータレイヤの1つに属するデータ、
・ゲノムデータに関連するメタデータ、
・任意の他のデータ
を輸送することができる。
・LIT全体が送信される場合、大きいことがある符号化オーバーヘッドを低減し、
・通常、ストリーミングシナリオでは利用可能ではない、ゲノム位置とアクセスユニットとの間の完全なマッピングの必要性をなくす
という技術的利点を有する。
図49は、本発明において提示されるデータ構造で変換される前、生のゲノム配列データがいかに、事前に既知の1つ又は複数の参照配列にマッピングされる必要があるかを示す(493)。参照配列が利用可能ではない場合、合成参照を生の配列データから構築することができる(490)。このプロセスはde−novoアセンブリとして知られている。既にアラインメントされたデータは、情報エントロピーを低減するために、再アラインメントすることができる(492)。アラインメント後、ゲノム分類器(494)は、1つ又は複数の参照配列上の配列リードの照合関数に従ってデータクラスを作成し、メタデータ(432)(例えば、クオリティ値)及び注釈データ(431)をゲノム配列から分離する。次に、データパーサ(495)が、本発明に記載されるアクセスユニットを生成し、ゲノムマルチプレクサ(496)に送信し、ゲノムマルチプレクサ(496)はゲノムマルチプレックスを生成する。
Claims (15)
- 多重化データストリームとしてゲノムデータを送信する方法であって、
前記多重化データストリームは、
ゲノムストリーム内で利用可能なゲノムデータを含む全てのゲノムデータセットのリストを提供するゲノムデータセットリストデータ構造と、
各ゲノムデータセットに関連付けられた前記ゲノムデータの各ストリームの識別子を提供するゲノムデータセットマッピングテーブルと、
ランダムにアクセス可能なアクセスユニットに分割されたゲノムデータセットと、
を含み、
前記ゲノムストリームは、ゲノム配列リードを単意的に表す同種データ記述子の複数のレイヤに編成される符号化されたアラインメントリードを含み、
各アクセスユニットのヘッダには、参照ゲノムに対する絶対位置として最初のリードのマッピング位置が記憶され、
他の全ての位置は、前の位置からの差分として表現されて特定のレイヤに記憶され、
前記方法は、同種データ記述子の前記複数のレイヤを圧縮し、前記データストリームを送信することを更に含む、方法。 - 更に、前記アクセスユニットのブロックヘッダに含まれる参照配列の数値識別子と、前記ストリームのメインヘッダに含まれる参照識別子との間のマッピングを提供する参照IDマッピングテーブルとを生成して送信する、請求項1に記載の方法。
- 前記ゲノムデータセットはアクセスユニットに分割される、請求項2に記載の方法。
- 前記アクセスユニットはブロックに分割される、請求項3に記載の方法。
- 前記ブロックはパケットに分割される、請求項4に記載の方法。
- 前記ゲノムデータセットリストは、各ゲノムデータセットに関連付けられ、前記多重化ストリームにおいて多重化される前記ストリームを識別する情報を含む、請求項1〜5のいずれか一項に記載の方法。
- 前記ゲノムデータセットマッピングテーブルは、各ゲノムデータセットに関連付けられた前記ゲノムデータのストリームを識別する情報を含むことにより、ゲノム配列へのランダムアクセスを可能とする、請求項1〜5のいずれか一項に記載の方法。
- 各ゲノムデータセットに関連付けられた前記ゲノムデータのストリームは、ゲノム配列、参照ゲノム配列、メタデータを含む、請求項7に記載の方法。
- 前記ゲノムデータセットマッピングテーブルは、前記ゲノムデータセットリストに続けて1つのパケットで送信される、請求項1に記載の方法。
- 前記ゲノムデータセットリストデータ構造は、1つの輸送パケットのペイロードとして送信される、請求項1に記載の方法。
- 前記ゲノムデータセットリストデータ構造は、前記ストリームへのランダムアクセスを可能にするために定期的に再送信される、請求項10に記載の方法。
- 請求項1〜11のいずれか一項に記載の方法を実行する、送信装置。
- 請求項1〜11のいずれか一項に記載の方法を実行する命令セットを含むプログラムを記録したコンピュータ可読記録媒体。
- 前記ゲノムデータをファイルフォーマットを形成するように編成する、請求項1〜11のいずれか一項に記載の方法。
- 請求項12に記載される送信装置を含む多重化ゲノムデータを伝送するシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/074311 WO2018068830A1 (en) | 2016-10-11 | 2016-10-11 | Method and system for the transmission of bioinformatics data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019537170A JP2019537170A (ja) | 2019-12-19 |
JP6949970B2 true JP6949970B2 (ja) | 2021-10-13 |
Family
ID=57241051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540490A Active JP6949970B2 (ja) | 2016-10-11 | 2016-10-11 | バイオインフォマティクスデータを送信する方法及びシステム |
Country Status (19)
Country | Link |
---|---|
US (1) | US20200051668A1 (ja) |
EP (1) | EP3526712B1 (ja) |
JP (1) | JP6949970B2 (ja) |
KR (1) | KR20190062543A (ja) |
CN (1) | CN110178183B (ja) |
AU (1) | AU2016426572A1 (ja) |
BR (1) | BR112019007313A2 (ja) |
CA (1) | CA3039692A1 (ja) |
CL (1) | CL2019000955A1 (ja) |
CO (1) | CO2019003580A2 (ja) |
EA (1) | EA201990931A1 (ja) |
ES (1) | ES2867874T3 (ja) |
IL (1) | IL265907B1 (ja) |
MX (1) | MX2019004126A (ja) |
PE (1) | PE20191059A1 (ja) |
PH (1) | PH12019500795A1 (ja) |
PL (1) | PL3526712T3 (ja) |
SG (1) | SG11201903174SA (ja) |
WO (1) | WO2018068830A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10554220B1 (en) | 2019-01-30 | 2020-02-04 | International Business Machines Corporation | Managing compression and storage of genomic data |
US20210043319A1 (en) * | 2019-05-14 | 2021-02-11 | Blayne Lequeux | Healthcare data cloud system, server and method |
EP3896698A1 (en) | 2020-04-15 | 2021-10-20 | Genomsys SA | Method and system for the efficient data compression in mpeg-g |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4852313B2 (ja) * | 2006-01-20 | 2012-01-11 | 富士通株式会社 | ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 |
JP5863765B2 (ja) * | 2010-03-31 | 2016-02-17 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute | 符号化方法および装置、そして、復号化方法および装置 |
EP2544113A1 (en) * | 2011-07-05 | 2013-01-09 | Koninklijke Philips Electronics N.V. | Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font |
KR101922129B1 (ko) * | 2011-12-05 | 2018-11-26 | 삼성전자주식회사 | 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치 |
EP2788861B1 (en) * | 2011-12-08 | 2019-05-15 | Five3 Genomics, LLC | Distributed system providing dynamic indexing and visualization of genomic data |
US20140108323A1 (en) * | 2012-10-12 | 2014-04-17 | Bonnie Berger Leighton | Compressively-accelerated read mapping |
US9483610B2 (en) * | 2013-01-17 | 2016-11-01 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
CN103971694B (zh) * | 2013-01-29 | 2016-12-28 | 华为技术有限公司 | 带宽扩展频带信号的预测方法、解码设备 |
CN103336916B (zh) * | 2013-07-05 | 2016-04-06 | 中国科学院数学与系统科学研究院 | 一种测序序列映射方法及系统 |
NL2012222C2 (en) * | 2014-02-06 | 2015-08-10 | Genalice B V | A method of storing/reconstructing a multitude of sequences in/from a data storage structure. |
US10902937B2 (en) * | 2014-02-12 | 2021-01-26 | International Business Machines Corporation | Lossless compression of DNA sequences |
US10116632B2 (en) * | 2014-09-12 | 2018-10-30 | New York University | System, method and computer-accessible medium for secure and compressed transmission of genomic data |
WO2016081712A1 (en) * | 2014-11-19 | 2016-05-26 | Bigdatabio, Llc | Systems and methods for genomic manipulations and analysis |
JP6788587B2 (ja) * | 2014-11-25 | 2020-11-25 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | ゲノムデータの安全な転送 |
US10394763B2 (en) * | 2015-05-19 | 2019-08-27 | Samsung Electronics Co., Ltd. | Method and device for generating pileup file from compressed genomic data |
US11393559B2 (en) * | 2016-03-09 | 2022-07-19 | Sophia Genetics S.A. | Methods to compress, encrypt and retrieve genomic alignment data |
-
2016
- 2016-10-11 JP JP2019540490A patent/JP6949970B2/ja active Active
- 2016-10-11 WO PCT/EP2016/074311 patent/WO2018068830A1/en active Search and Examination
- 2016-10-11 MX MX2019004126A patent/MX2019004126A/es unknown
- 2016-10-11 US US16/341,361 patent/US20200051668A1/en active Pending
- 2016-10-11 CN CN201680090035.6A patent/CN110178183B/zh active Active
- 2016-10-11 IL IL265907A patent/IL265907B1/en unknown
- 2016-10-11 SG SG11201903174SA patent/SG11201903174SA/en unknown
- 2016-10-11 AU AU2016426572A patent/AU2016426572A1/en not_active Abandoned
- 2016-10-11 EA EA201990931A patent/EA201990931A1/ru unknown
- 2016-10-11 KR KR1020197013458A patent/KR20190062543A/ko active Search and Examination
- 2016-10-11 PL PL16791321T patent/PL3526712T3/pl unknown
- 2016-10-11 ES ES16791321T patent/ES2867874T3/es active Active
- 2016-10-11 CA CA3039692A patent/CA3039692A1/en not_active Abandoned
- 2016-10-11 PE PE2019000812A patent/PE20191059A1/es unknown
- 2016-10-11 EP EP16791321.9A patent/EP3526712B1/en active Active
- 2016-10-11 BR BR112019007313A patent/BR112019007313A2/pt not_active Application Discontinuation
-
2019
- 2019-04-09 CL CL2019000955A patent/CL2019000955A1/es unknown
- 2019-04-11 CO CONC2019/0003580A patent/CO2019003580A2/es unknown
- 2019-04-11 PH PH12019500795A patent/PH12019500795A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
BR112019007313A2 (pt) | 2019-09-17 |
CN110178183B (zh) | 2023-11-21 |
CA3039692A1 (en) | 2018-04-19 |
EA201990931A1 (ru) | 2019-11-29 |
PE20191059A1 (es) | 2019-08-06 |
WO2018068830A1 (en) | 2018-04-19 |
JP2019537170A (ja) | 2019-12-19 |
CO2019003580A2 (es) | 2019-08-30 |
EP3526712B1 (en) | 2021-03-24 |
EP3526712A1 (en) | 2019-08-21 |
SG11201903174SA (en) | 2019-05-30 |
PH12019500795A1 (en) | 2019-12-02 |
ES2867874T3 (es) | 2021-10-21 |
WO2018068830A9 (en) | 2018-08-30 |
KR20190062543A (ko) | 2019-06-05 |
MX2019004126A (es) | 2019-06-12 |
US20200051668A1 (en) | 2020-02-13 |
CL2019000955A1 (es) | 2019-08-23 |
CN110178183A (zh) | 2019-08-27 |
AU2016426572A1 (en) | 2019-06-06 |
PL3526712T3 (pl) | 2021-12-13 |
IL265907B1 (en) | 2024-06-01 |
IL265907A (en) | 2019-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200042735A1 (en) | Method and system for selective access of stored or transmitted bioinformatics data | |
JP6902104B2 (ja) | バイオインフォマティクス情報表示のための効率的データ構造 | |
US11386979B2 (en) | Method and system for storing and accessing bioinformatics data | |
JP6949970B2 (ja) | バイオインフォマティクスデータを送信する方法及びシステム | |
AU2018221458A1 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
NZ753247B2 (en) | Efficient data structures for bioinformatics information representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191007 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201124 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6949970 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |