JP6902104B2 - バイオインフォマティクス情報表示のための効率的データ構造 - Google Patents
バイオインフォマティクス情報表示のための効率的データ構造 Download PDFInfo
- Publication number
- JP6902104B2 JP6902104B2 JP2019540489A JP2019540489A JP6902104B2 JP 6902104 B2 JP6902104 B2 JP 6902104B2 JP 2019540489 A JP2019540489 A JP 2019540489A JP 2019540489 A JP2019540489 A JP 2019540489A JP 6902104 B2 JP6902104 B2 JP 6902104B2
- Authority
- JP
- Japan
- Prior art keywords
- read
- data
- aligned
- layer
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 45
- 239000002773 nucleotide Substances 0.000 claims description 28
- 125000003729 nucleotide group Chemical group 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 19
- 238000012268 genome sequencing Methods 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 239000012472 biological sample Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 235000002198 Annona diversifolia Nutrition 0.000 claims 1
- 241000282842 Lama glama Species 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 10
- 108020004414 DNA Proteins 0.000 description 8
- 102000053602 DNA Human genes 0.000 description 8
- 108010026552 Proteome Proteins 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 229910052757 nitrogen Inorganic materials 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 229910052698 phosphorus Inorganic materials 0.000 description 4
- 229920002477 rna polymer Polymers 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 102000054765 polymorphisms of proteins Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 108010038083 amyloid fibril protein AS-SAM Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010230 functional analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000000734 protein sequencing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
開示する解決法の主な態様は以下の通りである。
1.アライメントの結果に関する基準に従って符号化されたデータに対する選択的なアクセスを可能にするための、参照配列に対するアライメントの結果に従った異なるクラスにおける配列リードの分類。これは、圧縮形式で構造化されたデータエレメントを「含む」ファイルフォーマットの指定を意味する。そのようなアプローチは、データが非圧縮形式で構造化され、ファイル全体が圧縮される従来技術のアプローチ、例えば、SAM及びBAMと異なるものと見ることができる。上記アプローチの第1の明確な利点は、従来技術の手法では不可能であるか又は極めて扱いにくい、圧縮されたドメインにおけるデータエレメントに対する様々な形態の選択的なアクセスを効率的かつ自然に提供できることである。
2.情報エントロピを可能な限り少なくするための、分類されたリードの均質なメタデータレイヤへの分解。ゲノム情報を均質なデータ及びメタデータの特定の「レイヤ」に分解することは、低エントロピを特徴とする情報源の異なるモデルの定義を可能にするという大きな利点をもたらす。そのようなモデルは、レイヤごとに異ならせることができるだけでなく、各レイヤ内においても異ならせることができる。この構造化により、データ又はメタデータ及びそれらの一部の各クラスに対する最も適切な特定の圧縮の利用が可能となり、従来技術のアプローチと比べて符号化効率が大幅に向上する。
3.上記レイヤのアクセスユニット、すなわち、グローバルに利用可能なパラメータ(例えば、デコーダ構成)だけを用いることにより独立して、又は他のアクセスユニットに含まれる情報を用いることにより復号可能なゲノム情報への構造化。レイヤ内における圧縮されたデータがアクセスユニットに含まれるデータブロックに分割される場合、低エントロピを特徴とする異なるモデルの情報源を定義することができる。
4.ゲノム解析アプリケーションに使用されるデータの任意の関連サブセットが適切なインタフェースを介して効率的かつ選択的にアクセス可能であるように、情報が構造化される。これらの機能により、データへのアクセスが速くなるとともに、より効率的な処理が可能となる。マスターインデックステーブル及びローカルインデックステーブルにより、圧縮データの全容量を復号することなく、符号化された(すなわち圧縮された)データのレイヤにより運ばれる情報への選択的なアクセスが可能となる。さらに、全てのレイヤを復号する必要のない、意味的に関連付けられたデータ及び/又はメタデータレイヤのサブセットの任意の可能な組み合わせへの選択的なアクセスを可能にするため、種々のデータレイヤの間の関連付けメカニズムが指定される。
5.マスターインデックステーブル及びアクセスユニットの共同ストレージ。
ゲノムファイルフォーマットでゲノム配列データの表示を保存するための方法であって、前記ゲノム配列データは、ヌクレオチド配列のリードを含み、前記リードを一つ又は複数の参照配列に対して整列させ、整列したリードを生成するステップと、前記一つ又は複数の参照配列との一致の精度に応じて、前記整列したリードを分類し、整列したリードのクラスを生成するステップと、シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップと、シンタックス要素の前記レイヤをヘッダ情報で構築し、連続アクセスユニットを形成するステップと、マスターインデックステーブルを作成するステップであって、各クラスの整列したリードについて1つのセクションを含み、各クラスのデータの各アクセスユニットにおける第1のリードの参照配列にマッピング位置を含む、マスターインデックステーブル作成ステップと、前記マスターインデックステーブル及び前記アクセスユニットデータを一緒に保存するステップと、を含む、方法。
・ゲノム配列データ処理の中間段階の結果は、異なるファイルフォーマットに変換する必要なく、既存のデータに増分的に追加することができる。例えば、既存のファイルフォーマットを変更する必要なく、未加工データにアライメント情報を追加することができる。増分更新により既存の整列した配列データにバリアントの呼び出し結果を含めることができる。
・ゲノム配列データは、クエリーの基準に一致しないファイル全体又はその領域にアクセスする必要なしに、特定の特徴に従って読み出される。例えば、クエリーは、選択的にアクセスするように実行され得る:
・・一つ又は複数の参照ゲノムにおいて完全に一致する配列リード
・・実際のヌクレオチド又はアミノ酸記号の代わりに「N」の記号が存在する不一致だけを含む配列リード
・・一つ又は複数のゲノムに関して、記号の置換の形で任意のタイプの不一致を含む配列リード
・・不一致及び挿入又は欠失(インデル)を含む配列リード
・・不一致、挿入又は欠失(インデル)及び一つ又は複数の参照ゲノムに関してソフトクリップされた記号を含む配列リード
・・考慮される参照ゲノムに関してマッピングすることができない配列リード
・・指定された深さの閾値の間に存在する全一塩基多型(SNPs)
・・全キメラ配列リード
・・指定された閾値を超える品質スコアを有する全配列リード
・・指定された一連の配列リードに対応する全メタデータ
参照配列との一致の信頼度に応じて整列したリードを分類することによって、アライメントの結果に関する基準に従って符号化されたデータへの選択的アクセスが実現する。
分類された整列したリードをシンタックス要素のレイヤとして符号化することによって、レイヤによって運ばれるデータ又はメタデータの特定の特徴及びその統計的特性により符号化を適合させることができる。
連続したアクセスユニットにおいてヘッダ情報を用いてシンタックス要素のレイヤを構造化することによって、データの性質に応じて、符号化、保存及び伝送を適合させることができる。例えば、エントロピの最小化の観点から、各データレイヤに最も効率的なソースモデルを使用するように、アクセスユニットごとに符号化を適合させることができる。
開示した一態様によれば、ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する方法であって、前記ゲノムファイルは、本開示の原理により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、前記方法は、抽出するリードのタイプを特定するユーザ入力を受けるステップと、ゲノムファイルから前記マスターインデックステーブルを読み出すステップと、抽出するリードのタイプに対応する前記アクセスユニットを読み出すステップと、一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するステップと、を含む方法。
開示する一態様によれば、ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する抽出器であって、ゲノムファイルは、本開示の原理により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、抽出器は、抽出するリードのタイプを特定する入力を受けるように構成されたユーザ入力手段と、ゲノムファイルからマスターインデックステーブルを読み出すように構成された読み出し手段と、抽出するリードのタイプに対応するアクセスユニットを読み出すように構成された読み出し手段と、一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するように構成された再構築手段と、を備える。
シークエンシング装置により生成された配列リードは、一つ又は複数の参照配列(リファレンスシークエンス)に対するアライメントの結果に従い、開示の発明によって5つの異なる「クラス」に分類される。
参照配列に関してヌクレオチドのDNA配列を整列させるとき、5つの結果が生じ得る。
1.参照配列における領域が、エラーなく配列リードと一致することが判明する場合(完全マッピング)。そのようなヌクレオチドの配列は、「完全一致リード」と呼ばれるか、あるいは「クラスP」と表される。
2.参照配列における領域が、シークエンシング装置が塩基(又はヌクレオチド)を呼び出せなかった、多数の位置によって構成される多数の不一致を含む配列リードと一致することが判明する場合。そのような不一致は「N」で示される。そのような配列は「Nミスマッチリード」又は「クラスN」と表される。
3.参照配列における領域が、シークエンシング装置が塩基(又はヌクレオチド)を呼び出せなかったか、あるいは参照ゲノムにおいて報告されたものとは異なる塩基が呼び出された、多数の位置によって構成される多数の不一致を含む配列リードと一致することが判明する場合。そのようなタイプの不一致は、一塩基変異(SNV)又は一塩基多型(SNP)と呼ばれる。この配列は、「Mミスマッチリード」又は「クラスM」と表される。
4.第4のクラスは、クラスMと同じ不一致及び挿入又は欠失(インデルともいう)の存在を含むミスマッチのタイプを表すシークエンシングリードにより構成される。挿入は、リファレンスには存在しないがリード配列に存在する一つ又は複数のヌクレオチドの配列によって表される。挿入された配列が配列のエッジにある場合、「ソフトクリップ」と呼ばれる(すなわち、「ハードクリップされた」ヌクレオチドと対照的なものであって、ヌクレオチドがリファレンスと一致していないが、整列したリードに保持される)。欠失は、リファレンスに対して整列したリードにおける「穴」(欠落したヌクレオチド)である。そのような配列は、「Iミスマッチリード」又は「クラスI」と表される。
5.第5のクラスは、特定されたアライメント制約に従って参照ゲノムにおける任意の有効なマッピングを見出した全てのリードを含む。そのような配列は、アンマップ(マッピングされていない)と呼ばれ、「クラスU」に属する。
マッピングされていないリードは、デノボアセンブリアルゴリズムを使用して単一の配列にアセンブルされ得る。新しい配列が作成されると、それに対してマッピングされていないリードがさらにマッピングされ、4つのクラスP、N、M、Iのいずれかに分類され得る。
リードの分類がクラスの定義を用いて完了すると、更なる処理の本質は、所与の参照配列にマッピングされて表される場合、DNAリード配列の再構築を可能にする残りの情報を表す一連の別個のシンタックス要素を定義することにある。所与の参照配列を参照するDNAセグメントは、以下によって完全に表現することができる。
・参照ゲノムにおける開始位置(pos)。
・リードがリファレンスから逆相補として見なす必要があるときのフラグシグナリング(rcomp)。
・ペアになったリードの場合、メイトペアへの距離(pair)。
・シークエンシング技術が可変長リードを生成する場合、リード長の値。一定リード長の場合、各リードに関連付けられたリード長は明らかに省くことができ、リード長をメインファイルヘッダに保存することができる。
・リードの特定の特性を記載する追加のフラグ(重複リード、ペアをなす第1及び第2のリードなど)。
・各不一致について:
・不一致の位置(クラスNについてはnmis、クラスMについてはsnpp、クラスIについてはindp)
・不一致のタイプ(クラスNには存在せず、クラスMではsnpt、クラスIではindt)
・存在する場合、オプションでソフトクリップされたヌクレオチドのストリング(クラスIではindc)。
この分類は、ゲノム配列リードを単意で表すのに使用することができる記述子(シンタックス要素)のグループを作成する。以下の表において、整列したリードの各クラスに必要なシンタックス要素をまとめる。
図4は、(イルミナ株式会社から利用可能な最も一般的なシークエンシング技術に従って)リードがどのようにペアとして結合され、参照配列上にマッピングされ得るかを示す。参照配列上にマッピングされたリードペアは、同種の記述子の多数のレイヤに符号化される(すなわち、位置、1ペアにおけるリード間の距離、不一致など)。
レイヤは、参照配列上にマッピングされたリードを一意に識別するために必要な多数の要素のうちの1つに関する記述子のベクトルとして定義される。以下は記述子のベクトルをそれぞれ運ぶレイヤの例である。
・リード位置レイヤ
・逆相補レイヤ
・ペアリング情報レイヤ
・不一致位置レイヤ
・不一致型レイヤ
・インデルレイヤ
・クリップされたベースレイヤ
・リード長レイヤ(可変リード長の場合のみ存在)
・BAMフラグレイヤ
本発明によりさらに開示するデータ構造は、以下の概念に基づく:
データブロックは、レイヤを構成する同じタイプ(例えば、位置、距離、逆相補フラグ、不一致の位置及びタイプ)の一連の記述子ベクトル要素として定義される。1つのレイヤは、通常、多数のデータブロックにより構成される。データブロックは、通信チャネル要件に従って通常規定されるサイズを有する伝送ユニットからなるゲノムデータパケットに分割され得る。そのような分割機能は、通常のネットワーク通信プロトコルを使用して転送効率を実現するために望ましい。
アクセスユニットは、グローバルに利用可能なデータ(例えば、デコーダの形態)のみを使用するか、あるいは他のアクセスユニットに含まれる情報を使用することによって、他のアクセスユニットから独立して完全に復号化できるゲノムデータのサブセットとして定義される。アクセスユニットは、ヘッダにより、及び異なるレイヤの多重化されたデータブロックの結果により構成される。同じタイプの複数のパケットは、1つのブロックにカプセル化され、複数のブロックが1つのアクセスユニットにおいて多重化される。これらの概念を図5に示す。図6は、ヘッダ及び同じ性質を有する一つ又は複数のレイヤのデータブロックからなるアクセスユニットを示す。図6は、図5に示した一般的なアクセスユニット構造の一例を示しており、当該構造のデータブロックは以下の通りである。
・レイヤ1のデータブロックは、参照配列上のリードの位置に関する情報を含む。
・レイヤ2のデータブロックは、リードの逆相補に関する情報を含む。
・レイヤ3のデータブロックは、リードペアリング情報に関する情報を含む。
・レイヤ4のデータブロックは、リード長に関する情報を含む。
ゲノムデータレイヤは、同一タイプである一連のゲノムデータブロック符号化データの集合として定義される(例えば、参照ゲノムにおいて完全に一致するリードの位置ブロックは同一のレイヤにおいて符号化される)。
ゲノムデータストリームは、ヘッダに付加的なサービスデータを含むゲノムデータパケットのペイロードとして符号化されたゲノムデータが運ばれる、パケット化バージョンのゲノムデータレイヤである。3つのゲノムデータレイヤの3つのゲノムデータストリームへのパケット化の例については図7を参照されたい。
ゲノムデータの多重化(マルチプレックス)は、ゲノムシークエンシング、解析又は処理を含む一つ又は複数のプロセスに関するゲノムデータを運ぶために使用されるゲノムアクセスユニットの配列として定義される。図7は、アクセスユニットにおいて分解された3つのゲノムデータストリームを運ぶゲノムマルチプレックス間の関係を示す概略図である。アクセスユニットは、3つのストリームに属するデータブロックを、カプセル化するとともに、伝送ネットワークに送信されるようにゲノムパケットに分割する。
本発明に開示する各レイヤのゲノムデータ構造について、レイヤが運ぶデータ又はメタデータの具体的な特徴及びその統計的性質に応じて、異なる符号化アルゴリズムを採用してもよい。「符号化アルゴリズム」は、記述子の特定の「ソースモデル」と特定の「エントロピコーダ」との関連付けを意図したものでなければならない。特定の「ソースモデル」は、ソースエントロピの最小化に関してデータの最も効率的な符号化を得るために特定され選択され得る。エントロピコーダの選択は、符号化効率の検討及び/又は確率分布の特徴及び関連する実装上の問題に左右される。特定の符号化アルゴリズムの各々の選択は、アクセスユニットに含まれる「レイヤ」全体又は全「データブロック」に適用される「符号化モード」と呼ばれる。符号化モードに関する各「ソースモデル」の特徴は以下の通りである:
・各ソース(例えば、リード位置、リードペアリング情報、参照配列などに対する不一致)から発せられたシンタックス要素の定義
・関連する確率モデルの定義
・関連するエントロピコーダの定義
各データレイヤについて、1つのアクセスユニットに採用されるソースモデルは、同じデータレイヤについて他のアクセスユニットにより使用されるソースモデルから独立している。これにより、各アクセスユニットは、エントロピの最小化の観点から各データレイヤについて最も効率的なソースモデルを使用することが可能となる。
マスターインデックステーブル
整列したデータの特定の領域への選択的なアクセスをサポートするため、本明細書に記載したデータ構造は、マスターインデックステーブル(MIT)と呼ばれるインデックスツールを実装する。これは2つのクラスのデータを含む多次元配列である:
1.使用される参照配列に特定のリードが位置する遺伝子座。MITに含まれるこれらの値は、各posアクセスユニットにおける第1のリードのマッピング位置であり、これにより、各アクセスユニットに対する非連続的なアクセスがサポートされる。MITのこれらのセクションは、データの各クラス(P、N、M及びI)ごと及び各参照配列ごとに1つのセクションを含む。
2.上記ポイント1で述べた位置ベクトルにマッピング位置が保存されるものに続く、リードのブロックを再構成するのに必要なデータを含むアクセスユニットへのポインタ。ポインタの各ベクトルは、ローカルインデックステーブルと呼ばれる。
図8は、各クラスのデータの(例えば複数の)各アクセスユニットの参照配列におけるマッピング位置を含む4つのベクトルを強調してMITを概略的に示す。
MITは、符号化されたデータのメインヘッダに含まれる。図9は、メインヘッダの一般的な構造、及びクラスPの符号化リードに対するMITベクトルの例を示す。
図9に示したMITに含まれる値は、圧縮されたドメインにおける関心領域(及び対応するアクセスユニット)に直接アクセスするために使用される。
例えば、図9を参照すると、アナリストが、参照番号2における位置150,000と250,000との間の領域でマッピングされた完全に一致するリードへのアクセスを要求した場合、復号化アプリケーションは、MITにおけるクラスP位置ベクトル及び第2の参照をスキップし、k1<150,000及びk2>250,000となるように2つの値k1及びk2を探す。図9の例では、これは、クラスPのマッピング位置を参照するMITベクトルの2番目のブロック(2番目の参照)の位置3,4になる。次のセクションで説明するように、次いで、これらの戻り値は、posレイヤから適切なアクセスユニットの位置を取得するために、復号化アプリケーションにより使用される。
MIT(図8)の残りのベクトルに含まれる第2のタイプのデータは、符号化されたビットストリームにおける各アクセスユニットの物理的位置へのポインタのベクトルからなる。各ベクトルは、その範囲が符号化された情報の一様なクラスに限定されるので、ローカルインデックステーブルと呼ばれる。
4つのクラスのマッピングされたリード(P、N、M、I)の各々について、符号化されたリード(pairs)を再構築するため、いくつかのタイプのアクセスユニットが必要とされる。前述のように、各クラスのデータに関する特定のタイプのアクセスユニットは、一つ又は複数の参照配列に関して、各クラスにおけるリードに適用されたマッチング関数の結果に依存する。
図9の前記例では、参照配列2において整列したリードの領域150,000〜250,000にアクセスするため、復号化アプリケーションはMITにおけるクラスPの位置ベクトルから位置3,4を読み出した(検索した)。これらの値は、(この場合は2番目の)MITの対応するアクセスユニットベクトルの3番目及び4番目の要素にアクセスするため、復号化プロセスによって使用されなければならない。図11に示した例では、メインヘッダに含まれるトータルアクセスユニットカウンタは、参照1に関するアクセスユニットの位置をスキップするために使用される(この例では4)。したがって、符号化されたストリームにおける要求されたアクセスユニットの物理的位置を含むインデックスは、以下のように計算される:
要求されたAUの位置=スキップする参照1のAU+MITを用いて読み出した位置
すなわち、
最初のAU位置:4+3=7
最後のAU位置:4+4=8
これは、位置150,000と250,000との間で参照配列2にマッピングされた関心領域(クラスPリードが、マスターインデックステーブルの7列目及び8列目、列T1p(タイプpのタイプ1アクセスユニット)に保存されるポインタが指すアクセスユニットに含まれる、ことを意味する。
図11は、MIT(例えば、クラスPpos)の1つのベクトルの要素がどのように1つのLIT(図11の例におけるタイプ1posベクトル)の要素を指すかを図示する。
クラスN、M、Iについて符号化された不一致は、「修正されたゲノム」を生成するために使用され、「適合された」ゲノムR1に関してN、M又はIレイヤ(第1の参照ゲノム、R0に関して)においてpリードとして再符号化されたリードに使用され得る。
図12は、参照配列1(RS1)に対して不一致を含むリード(Mリード)が、不一致の位置を修正することによりRS1から得られる参照配列2(RS2)に対して完全に一致したリード(Pリード)に変換し得るかを示す図である。この変換は以下のように表すことができる。
RS2=A(RS1)
RS1からRS2への変換Aの表示がMリードに存在する不一致の表示についてより少ないビットを必要とする場合、この符号化方法は、より小さい情報エントロピ及びより良好な圧縮をもたらす。
ある状況では、参照ゲノムにおける一つ又は複数の修正は、一連のN、M又はIリードをPリードに変換することにより全体の情報エントロピを減少させることができる。
・核酸を表す記号の一つ又は複数の配列
・ゲノム配列ごとに一意の識別子
・記号ごとの任意の品質値
・任意のメタデータ
・生成されたゲノム配列をさらに処理するために使用される一つ又は複数の任意的な参照配列
・一つ又は複数の利用可能な参照配列、又は
・アライメント処理中に構築された内部参照(「デノボ」アセンブリの場合)
a.以下に関するゲノム領域:
i.参照ゲノムにおける絶対位置の開始及び終了
ii.1つの全体参照配列(例えば、染色体)
b.以下のような、1つの特定のタイプの符号化された配列リード:
i.一つ又は複数の参照配列において完全に一致する配列リード
ii.一つ又は複数の参照配列に関して正確にN個の不一致を示す配列リード
iii.一つ又は複数の参照配列に関して、特定された閾値を超えるか又は閾値を超えないいくつかの不一致を示す配列リード
iv.参照配列に関して挿入及び削除を示す配列リード
図14のMIT抽出器143は、図9に示すように、含まれる情報にアクセスするためのゲノムファイルのメインヘッダをパーシング(解析)する:
c.一意の識別子
d.使用するシンタックスのバージョン
e.メインヘッダのバイト単位でのサイズ
f.配列リードの復号化に用いる参照配列の数
g.ストリームに含まれるデータブロックの数
h.参照識別子
i.マスターインデックステーブル
MITパーサー及びAU抽出器145は、以下のマスターインデックステーブルの情報を利用して、要求されたアクセスユニットを読み出す。
j.各アクセスユニットにおける第1のリードの参照ゲノムにおける位置のベクトル。図9は、符号化デバイスが、どのようにそのような位置を読み取り、どのアクセスユニットに要求された領域内でマッピングされた符号化されたリードが含まれるかを見つけ出す方法を示す。
k.各々の符号化されたレイヤのローカルインデックステーブル。これらのベクトルは、ユーザに要求されたゲノム領域にマッピングされた配列リードを含む、ステップaで識別されたアクセスユニットの物理的位置を読み出すために用いられる。
l.ローカルインデックステーブルは、各クラスのデータごとに定義され、したがって、抽出器はユーザが要求した配列リードを参照しているクラスだけを抽出する。例えば、完全に一致するリードだけを要求する場合、抽出器は、図8に示すように、クラスPに関するLITのみにアクセスする。
読み出されたアクセスユニット及びゲノムビットストリームにおいて符号化された又は抽出器において利用可能な一つ又は複数の参照配列において見つかった情報を用いることにより、リード再構築器147は、オリジナルの配列リードを再構築することができる。
図15は、本発明の原理による符号化装置207を示す。符号化装置は、図13のシステムアーキテクチャの圧縮の側面をさらに明確にする。しかし、メタデータ及び構造化情報なしに圧縮されたストリームを生成する、図15のエンコーダではマスターインデックステーブル及びアクセスユニットの作成を省略する。符号化装置207は、例えば、ゲノムシークエンシング装置200によって生成された未加工配列データ209を入力として受け取る。ゲノムシークエンシング装置200は、当業界では周知であり、例えば、イルミナ社製のHiSeq2500又はサーモフィッシャー社製のイオントレント(Ion Torrent)デバイス等である。未加工配列データ209は、アライナユニット201に供給され、アライナユニット201は、リードを参照配列に整列させることにより符号化のための配列を準備する。代替例では、デノボアセンブラ202は、プレフィクス及びサフィックスを探すことにより、利用可能なリードから参照配列を生成するために使用され得る。これにより、より長いセグメント(「コンティグ」という)がリードからアセンブルされ得る。デノボアセンブラ202により処理された後、リードは得られたより長い配列にマッピングされ得る。次いで、整列した配列はデータ分類モジュール204により分類される。その後、データクラス208がレイヤエンコーダ205−207に供給される。次いで、ゲノムレイヤ2011は、レイヤが運ぶデータ又はメタデータの統計的性質に応じてレイヤを符号化する算術エンコーダ2012−2014に供給される。その結果がゲノムストリーム2015である。
図16は、対応する復号装置218を示す。復号装置218は、多重化されたゲノムビットストリーム2110をネットワーク又はストレージエレメントから受け取る。ゲノムビットストリーム2110は、別個のストリーム211を生成するためにデマルチプレクサー210に供給され、ストリーム211は、ゲノムレイヤ215を生成するためにエントロピデコーダ212−214に供給される。抽出されたゲノムレイヤは、さらにレイヤをクラスのデータに復号するため、レイヤデコーダ216−217に供給される。さらに、クラスデコーダ219は、ゲノム記述子を処理し、配列の圧縮されていないリードを生成するため結果を結合して、さらに当業界において周知のフォーマット、例えば、テキストファイル又はZIP圧縮されたファイル、あるいはFASTQ又はSAM/BAMファイルに保存される。クラスデコーダ219は、一つ又は複数のゲノムストリームにより運ばれるオリジナルの参照配列における情報を活用することにより、オリジナルのゲノム配列を再構築することができる。参照配列がゲノムストリームにより転送されない場合、参照配列はデコード側で利用可能であり、かつクラスデコーダによってアクセス可能でなければならない。
本開示の技術は、携帯電話、デスクトップコンピュータ、サーバ、タブレットなどを含む様々なデバイス又は装置に実装することができる。
Claims (14)
- ゲノムファイルフォーマットでゲノム配列データの表示を保存するためのコンピュータ実装方法であって、前記ゲノム配列データは、ヌクレオチド配列のリードを含み、
前記リードを一つ又は複数の参照配列に対して整列させ、これにより整列したリードを生成するステップと、
前記整列したリードを分類するステップであって、
前記一つ又は複数の参照配列に対する完全なマッピングが発見されたか否か、
前記一つ又は複数の参照配列に対する不一致の数、
記号の置換の存在、
前記一つ又は複数の参照配列に関して前記整列したリードにおける挿入又は削除及びソフトクリップされた記号の存在、
マッピングされていないリードの存在、
に応じて前記整列したリードを分類し、これにより整列したリードのクラスを生成する、ステップと、
シンタックス要素のレイヤとして分類された整列したリードを符号化するステップであって、前記シンタックス要素のレイヤは、前記分類された整列したリードを一意に識別する同種の複数の記述子を含む、ステップと、
前記シンタックス要素のレイヤをヘッダ情報とともに構築し、これにより連続アクセスユニットを形成するステップと、
マスターインデックステーブルを作成するステップであって、前記マスターインデックステーブルは、各クラスの整列したリードについて1つのセクションを含むとともに、各クラスのデータの各アクセスユニットにおける第1のリードの前記一つ又は複数の参照配列のマッピング位置を含む、ステップと、
前記マスターインデックステーブル及びアクセスユニットデータを一緒に保存するステップと、
を含む、方法。 - 前記マスターインデックステーブルは、各々の後続のアクセスユニットの物理的位置に対するポインタのベクトルをさらに含む、ことを特徴とする請求項1に記載の方法。
- 前記マスターインデックステーブルは、各々の参照配列について1つのセクションをさらに含む、ことを特徴とする請求項1に記載の方法。
- シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記レイヤにより運ばれる同種のデータに従って適合される、ことを特徴とする請求項1に記載の方法。
- シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記レイヤにより運ばれる前記同種のデータの統計的特性に従ってさらに適合される、ことを特徴とする請求項4に記載の方法。
- シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記同種のデータのソースモデルを特定のエントロピコーダと関連付ける、ことを特徴とする請求項5に記載の方法。
- 1つのアクセスユニットに採用される前記ソースモデルは、同一のデータレイヤについて他のアクセスユニットに使用されるソースモデルから独立している、ことを特徴とする請求項6に記載の方法。
- ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する方法であって、
前記ゲノムファイルは、請求項1に記載の方法により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、
前記方法は、
抽出するリードのタイプを特定するユーザ入力を受けるステップと、
前記ゲノムファイルから前記マスターインデックステーブルを読み出すステップと、
前記抽出するリードのタイプに対応する前記アクセスユニットを読み出すステップと、
一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するステップと、
を含む、方法。 - 前記ゲノムファイルは一つ又は複数の参照配列をさらに含む、ことを特徴とする請求項8に記載の方法。
- 生体サンプルからヌクレオチド131の配列のリードを出力するように構成されたゲノムシークエンシングユニット130と、
前記リードを一つ又は複数の参照配列に対して整列させ、これにより整列したリード133を生成するように構成されたアライメントユニット132と、
分類ユニット134であって、
前記一つ又は複数の参照配列に対する完全なマッピングが発見されたか否か、
前記一つ又は複数の参照配列に対する不一致の数、
記号の置換の存在、
前記一つ又は複数の参照配列に関して前記整列したリードにおける挿入又は削除及びソフトクリップされた記号の存在、
マッピングされていないリードの存在、
前記一つ又は複数の参照配列、
に応じて前記整列したリードを分類し、これにより整列したリード135のクラスを生成するように構成された分類ユニット134と、
シンタックス要素137のレイヤとして、分類された整列したリードを符号化するように構成された符号化ユニット136であって、前記シンタックス要素のレイヤは、前記分類された整列したリードを一意に識別する同種の複数の記述子を含む、符号化ユニット136と、
前記シンタックス要素のレイヤをヘッダ情報とともに構築し、これにより連続アクセスユニット139を形成するように構成された再分割ユニット138と、
マスターインデックステーブルを作成するように構成されたインデックステーブル処理ユニット1310であって、各クラスの整列したリードについて1つのセクションを含み、各クラスのデータの各アクセスユニットにおける第1のリードの前記参照配列にマッピング位置を含む、インデックステーブル処理ユニット1310と、
前記マスターインデックステーブル及びアクセスユニットデータ1311を一緒に保存するように構成されたストレージユニット1312−1316と、
を備える、ゲノムシークエンシング装置。 - 前記マスターインデックステーブルは、各々の後続のアクセスユニットの物理的位置に対するポインタのベクトルをさらに含む、ことを特徴とする請求項10に記載のゲノムシークエンシング装置。
- シンタックス要素のレイヤとして前記分類された整列したリードを符号化することは、前記レイヤにより運ばれる同種のデータに従って適合される、ことを特徴とする請求項10に記載のゲノムシークエンシング装置。
- ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する抽出器140であって、
前記ゲノムファイルは、請求項1に記載の方法により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、
前記抽出器140は、
抽出するリードのタイプを特定する入力パラメータ142を受けるように構成されたユーザ入力手段141と、
前記ゲノムファイルからマスターインデックステーブル144を読み出すように構成された読み出し手段143と、
前記抽出するリードのタイプに対応するアクセスユニット146を読み出すように構成された読み出し手段145と、
一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列148の前記リードを再構築するように構成された再構築手段147と、
を備える、抽出器。 - 複数の命令を含み、コンピューティングデバイスにおける実行に応答して、前記コンピューティングデバイスに請求項1〜9の方法を行わせる機械可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/074297 WO2018068827A1 (en) | 2016-10-11 | 2016-10-11 | Efficient data structures for bioinformatics information representation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019537810A JP2019537810A (ja) | 2019-12-26 |
JP6902104B2 true JP6902104B2 (ja) | 2021-07-14 |
Family
ID=57233388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540489A Active JP6902104B2 (ja) | 2016-10-11 | 2016-10-11 | バイオインフォマティクス情報表示のための効率的データ構造 |
Country Status (20)
Country | Link |
---|---|
US (1) | US20210304841A1 (ja) |
EP (2) | EP3526709B1 (ja) |
JP (1) | JP6902104B2 (ja) |
KR (1) | KR20190062544A (ja) |
CN (1) | CN110088839B (ja) |
AU (1) | AU2016426569B2 (ja) |
BR (1) | BR112019007296A2 (ja) |
CA (1) | CA3039688C (ja) |
CL (1) | CL2019000954A1 (ja) |
CO (1) | CO2019003583A2 (ja) |
EA (1) | EA201990933A1 (ja) |
ES (1) | ES2922420T3 (ja) |
FI (1) | FI4075438T3 (ja) |
IL (1) | IL265908B1 (ja) |
MX (1) | MX2019004125A (ja) |
PH (1) | PH12019500791A1 (ja) |
PL (1) | PL3526709T3 (ja) |
SG (1) | SG11201903175VA (ja) |
WO (1) | WO2018068827A1 (ja) |
ZA (1) | ZA201902785B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200104463A1 (en) * | 2018-09-28 | 2020-04-02 | Chris Glode | Genomic network service user interface |
CN110060742B (zh) * | 2019-03-15 | 2023-07-25 | 南京派森诺基因科技有限公司 | 一种gtf文件解析方法及工具 |
CN111326216B (zh) * | 2020-02-27 | 2023-07-21 | 中国科学院计算技术研究所 | 一种针对大数据基因测序文件的快速划分方法 |
EP3896698A1 (en) | 2020-04-15 | 2021-10-20 | Genomsys SA | Method and system for the efficient data compression in mpeg-g |
CN113643761B (zh) * | 2021-10-13 | 2022-01-18 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2499513A1 (en) * | 2002-09-20 | 2004-04-01 | Board Of Regents, University Of Texas System | Computer program products, systems and methods for information discovery and relational analysis |
KR101188886B1 (ko) * | 2010-10-22 | 2012-10-09 | 삼성에스디에스 주식회사 | 유전 정보 관리 시스템 및 방법 |
US20130246460A1 (en) * | 2011-03-09 | 2013-09-19 | Annai Systems, Inc. | System and method for facilitating network-based transactions involving sequence data |
WO2012168815A2 (en) * | 2011-06-06 | 2012-12-13 | Koninklijke Philips Electronics N.V. | Method for assembly of nucleic acid sequence data |
KR101922129B1 (ko) * | 2011-12-05 | 2018-11-26 | 삼성전자주식회사 | 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치 |
US9063914B2 (en) * | 2013-10-21 | 2015-06-23 | Seven Bridges Genomics Inc. | Systems and methods for transcriptome analysis |
US10902937B2 (en) * | 2014-02-12 | 2021-01-26 | International Business Machines Corporation | Lossless compression of DNA sequences |
WO2016141294A1 (en) * | 2015-03-05 | 2016-09-09 | Seven Bridges Genomics Inc. | Systems and methods for genomic pattern analysis |
HUE062006T2 (hu) * | 2016-10-11 | 2023-09-28 | Genomsys Sa | Eljárás és berendezés bioinformatikai adatok tömör ábrázolására |
-
2016
- 2016-10-11 WO PCT/EP2016/074297 patent/WO2018068827A1/en active Search and Examination
- 2016-10-11 BR BR112019007296A patent/BR112019007296A2/pt not_active Application Discontinuation
- 2016-10-11 CN CN201680090051.5A patent/CN110088839B/zh active Active
- 2016-10-11 EP EP16790894.6A patent/EP3526709B1/en active Active
- 2016-10-11 KR KR1020197013464A patent/KR20190062544A/ko active Search and Examination
- 2016-10-11 IL IL265908A patent/IL265908B1/en unknown
- 2016-10-11 US US16/341,364 patent/US20210304841A1/en active Pending
- 2016-10-11 JP JP2019540489A patent/JP6902104B2/ja active Active
- 2016-10-11 ES ES16790894T patent/ES2922420T3/es active Active
- 2016-10-11 CA CA3039688A patent/CA3039688C/en active Active
- 2016-10-11 EA EA201990933A patent/EA201990933A1/ru unknown
- 2016-10-11 AU AU2016426569A patent/AU2016426569B2/en active Active
- 2016-10-11 MX MX2019004125A patent/MX2019004125A/es unknown
- 2016-10-11 SG SG11201903175VA patent/SG11201903175VA/en unknown
- 2016-10-11 PL PL16790894.6T patent/PL3526709T3/pl unknown
- 2016-10-11 FI FIEP22168906.0T patent/FI4075438T3/fi active
- 2016-10-11 EP EP22168906.0A patent/EP4075438B1/en active Active
-
2019
- 2019-04-09 CL CL2019000954A patent/CL2019000954A1/es unknown
- 2019-04-11 CO CONC2019/0003583A patent/CO2019003583A2/es unknown
- 2019-04-11 PH PH12019500791A patent/PH12019500791A1/en unknown
- 2019-05-03 ZA ZA2019/02785A patent/ZA201902785B/en unknown
Also Published As
Publication number | Publication date |
---|---|
IL265908A (en) | 2019-06-30 |
SG11201903175VA (en) | 2019-05-30 |
US20210304841A1 (en) | 2021-09-30 |
CA3039688C (en) | 2024-03-19 |
FI4075438T3 (fi) | 2024-03-14 |
ES2922420T3 (es) | 2022-09-14 |
PH12019500791A1 (en) | 2019-12-11 |
BR112019007296A2 (pt) | 2019-09-17 |
CL2019000954A1 (es) | 2019-08-23 |
EP3526709A1 (en) | 2019-08-21 |
CN110088839B (zh) | 2023-12-15 |
JP2019537810A (ja) | 2019-12-26 |
IL265908B1 (en) | 2024-05-01 |
CO2019003583A2 (es) | 2019-08-30 |
KR20190062544A (ko) | 2019-06-05 |
AU2016426569B2 (en) | 2023-08-17 |
EP3526709B1 (en) | 2022-04-20 |
NZ753247A (en) | 2021-09-24 |
EP4075438A1 (en) | 2022-10-19 |
AU2016426569A1 (en) | 2019-06-06 |
CA3039688A1 (en) | 2018-04-19 |
ZA201902785B (en) | 2020-11-25 |
WO2018068827A1 (en) | 2018-04-19 |
CN110088839A (zh) | 2019-08-02 |
EP4075438B1 (en) | 2023-12-13 |
EA201990933A1 (ru) | 2019-11-29 |
PL3526709T3 (pl) | 2022-09-26 |
MX2019004125A (es) | 2019-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020505702A (ja) | 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム | |
JP6902104B2 (ja) | バイオインフォマティクス情報表示のための効率的データ構造 | |
CN110168652B (zh) | 用于存储和访问生物信息学数据的方法和系统 | |
AU2018221458B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
JP7362481B2 (ja) | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 | |
CN110178183B (zh) | 用于传输生物信息学数据的方法和系统 | |
CN110168649A (zh) | 用于生物信息数据的紧凑表示的方法和设备 | |
CN110663022B (zh) | 使用基因组描述符紧凑表示生物信息学数据的方法和设备 | |
NZ753247B2 (en) | Efficient data structures for bioinformatics information representation | |
NZ757185B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
EA043338B1 (ru) | Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20190605 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6902104 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |