JP2020500383A - リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム - Google Patents

リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム Download PDF

Info

Publication number
JP2020500383A
JP2020500383A JP2019540513A JP2019540513A JP2020500383A JP 2020500383 A JP2020500383 A JP 2020500383A JP 2019540513 A JP2019540513 A JP 2019540513A JP 2019540513 A JP2019540513 A JP 2019540513A JP 2020500383 A JP2020500383 A JP 2020500383A
Authority
JP
Japan
Prior art keywords
data
genomic
read
sequence
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2019540513A
Other languages
English (en)
Other versions
JP2020500383A5 (ja
Inventor
アルベルティ,クラウディオ
ゾイア,ジョルジョ
レンジ,ダニエル
バルチ,モハメド,コソ
Original Assignee
ゲノムシス エスエー
ゲノムシス エスエー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/EP2016/074301 external-priority patent/WO2018068828A1/en
Priority claimed from PCT/EP2016/074297 external-priority patent/WO2018068827A1/en
Priority claimed from PCT/EP2016/074311 external-priority patent/WO2018068830A1/en
Priority claimed from PCT/EP2016/074307 external-priority patent/WO2018068829A1/en
Application filed by ゲノムシス エスエー, ゲノムシス エスエー filed Critical ゲノムシス エスエー
Publication of JP2020500383A publication Critical patent/JP2020500383A/ja
Publication of JP2020500383A5 publication Critical patent/JP2020500383A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3086Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Labeling Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

1つまたは複数のリファレンスシーケンス上に整列されたときに、ゲノムシーケンシング装置によって生成されたゲノムシーケンスデータの表現及び処理のための方法および装置。シーケンスリードは、既存のまたは構築されたリファレンスシーケンスに対してそれらを整列させることによってコード化される。アライメント後、符号化プロセスは、リードをデータクラスに分類し、続いて複数の記述子層に関して各データクラスを符号化することからなる。各データクラスを表すのに使用される記述子のサブセットの符号化には、特定のソースモデル及びエントロピーコーダが使用される。【選択図】図1

Description

本開示は、複数のアライメント座標又はリードのより小さなセグメントへの断片化(「スプライスドリード」としても知られる)を必要とするアライメントを有する1つ以上のリファレンスシーケンスに関してアライメントされたゲノムシーケンスデータの新規表現方法を提供する。開示された表現は、公知の従来技術の表現方法では利用できない新しい機能を提供することによって利用される記憶スペースを減らし、アクセス性能を改善する。
ゲノムシーケンスデータの適切な表現は、ゲノム変異型の呼び出しやゲノムシーケンスデータ及びメタデータを処理することによって様々な目的で行われる他のすべての分析のような効率的なゲノム分析用途を可能にするために不可欠である。
ヒトゲノムシーケンシングは、ハイスループット低コストシーケンシング技術の出現によって手頃な価格になった。このような機会は、癌の診断及び治療から遺伝子疾患の同定まで、抗体の同定のための病原体サーベイランスから新しいワクチン、薬物の創製及び個別化された治療のカスタマイズに至るまでのいくつかの分野に新しい展望を開く。
病院、ゲノム解析プロバイダー、バイオインフォマティクス及び大規模な生物学データストレージセンターは、ゲノム医療を世界規模に拡大することを可能にする、手頃な価格、迅速、信頼性及び相互接続されたゲノム情報処理ソリューションを探している。シーケンシング処理におけるボトルネックの1つがデータ記憶となったため、ゲノムシーケンシングデータを圧縮形式で表すための方法がますます研究されている。
シーケンシングデータの最も使用されているゲノム情報表現は、FASTQ及びSAMフォーマットの圧縮に基づいている。目的は、伝統的に使用されているファイルフォーマット(それぞれ、整列されていないデータと整列されたデータ用のFASTQとSAM)を圧縮することである。このようなファイルは標準文字で構成されており、前述のようにLZ(LempelとZiv、最初のバージョンを公開した作者)スキーム(有名なzip、gzipなど)などの汎用アプローチを使用して圧縮されている。gzipなどの汎用コンプレッサが使用されると、圧縮の結果は通常バイナリデータの単一のblobである。このようなモノリシック形式の情報は、特にハイスループットシーケンシングの場合のようにデータ量が非常に大きい場合には、アーカイブ、転送、及び詳述が非常に困難である。BAMフォーマットは、SAMファイルによって伝達される実際のゲノム情報を抽出するのではなく、非効率的で冗長なSAMフォーマットの圧縮に重点が置かれており、また、各データソースの特定の性質(ゲノムデータ自体)を利用するよりも、gzipのような汎用テキスト圧縮アルゴリズムを採用するため、圧縮性能の低さが特徴である。
SAMの別の重要な制約は、ゲノムシーケンスのリード又はリードペアに関連した複数のアライメント(マルチプルマッピングとしても知られる)の表現の適切なサポートの欠如である。ゲノムシーケンスリードアラインメントは、次世代シークエンシング技術によって生成されたシーケンスリードから配列決定されたサンプルのゲノム情報を再構成することからなる処理である。再構成は、由来するゲノムについての事前の知識なしに、又はリファレンスとして既存のゲノムを使用してのいずれかで行うことができる。後者の手法は、当分野において「リファレンスに基づくアラインメント」として知られている。リファレンスに基づくアラインメントでは、配列決定されたサンプルから生成されたゲノムシーケンスリードを既存のリファレンスシーケンスと比較して(もしあれば)、シーケンスリードに関して最小数の差異を示すリファレンスシーケンスの領域を検索する。この処理は、リファレンスシーケンスに対するシーケンスリードの「整列(アライメント)」又は「マッピング」と呼ばれる。
いくつかのゲノム領域の反復性のために、シーケンスリードは同じ精度でいくつかの位置に整列させることができる。例えば、同じシーケンスのリードは、リファレンスシーケンス上の同じ長さの2つ以上のセグメントと完全に(すなわち、ミスマッチなしに)一致し得る。この場合、2つ以上のアラインメントは同等であると考えられ、そしてシーケンスのリードは「マルチプルアラインメント」を有すると言われる。この場合を図15に示す。他の状況では、異なるアラインメントは異なる精度を有することができ、例えば1つのアラインメントはミスマッチを全く有さず(完全一致)、もう一方は1つ以上のミスマッチを有し得る。この場合、スコアリングシステムを使用してマルチプルアラインメントをランク付けする。
場合によっては、最大数のミスマッチなどの事前に確立されたマッチング基準を満たすアラインメント位置を見つけるために、シーケンスリードを2つ以上のサブセグメントに分割する必要がある。この場合、リードは「スプライスドリード」と呼ばれ、各サブセグメントは「スプライス」と呼ばれる。この場合を図16に示す。
SAMの現在の仕様は、11個の必須フィールドを使用したマルチプルアラインメント及びスプライスの表現をサポートしていないが、シーケンスリードアラインメントに使用されるツールの異なる実装によって異なる、したがって非効率的な方法で使用されるオプションフィールドの使用を必要とする。この書面に記載されている発明は、マルチプルアライメント及びスプライスドリードを表すこと、ならびに圧縮効率及びアクセス効率を維持することの両方の問題に対する解決策を提供する。
あまり使用されていないが、圧縮に関してBAMよりも効率的なゲノムデータ圧縮へのより洗練されたアプローチが、CRAMである。CRAMは、リファレンスに関して差分コード化を採用するためのより効率的な圧縮を提供する(部分的にデータソースの冗長性を用いる)が、それでも増分の更新、ストリーミングのサポート、特定クラスの圧縮データへの選択的アクセス、及びマルチプルアライメントとスプライスリードの適切な表現などの機能に欠ける。
これらの手法では、低い圧縮率や、一度圧縮するとナビゲートや操作が困難になるデータ構造を生じる。単純な操作を実行するため、又はゲノムデータセットの選択された領域にアクセスするためであっても、大きくて厳格なデータ構造を取り扱う必要があるため、下流の分析は非常に遅くなり得る。CRAMは、CRAMレコードの概念に依存する。各CRAMレコードは、それを再構成するのに必要なすべての要素をコード化することによって単一のマッピングされた又はマッピングされていないリードを表す。
CRAMは、この書面に記載された発明によって解決され、除去される以下の欠点及び制限を示す。
1.CRAMは、特定の機能を共有するデータのインデックス作成及びデータサブセットへのランダムアクセスをサポートしない。データのインデックス付けは、仕様(CRAM仕様v3.0のセクション12を参照)の範囲外であり、それは別のファイルとして実装されている。反対に、この文書に記載されている本発明のアプローチは、コード化プロセスと統合され、インデックスがコード化された(すなわち、圧縮された)ビットストリームに埋め込まれているデータインデックス方法を使用する。
2.CRAMは、あらゆるタイプのマッピングされたリード(完全一致するリード、置換たけがあるリード、挿入又は欠失があるリード(「インデル(indels)」とも呼ばれる))を含むことができるコアデータブロックによって構築される。リファレンスシーケンスに関するマッピングの結果に従った、データの分類及びクラス内のリードのグループ化の概念はない。つまり、特定の機能を持つリードのみが検索された場合でも、すべてのデータを検査する必要がある。そのような制限は、コード化の前にデータをクラスに分類し区分することによって本発明によって解決される。
3.CRAMは、各リードを「CRAMレコード」にカプセル化するという概念に基づいている。これは、特定の生物学的特徴に特徴付けられたリード(例えば、置換はあるが「インデル」は含まないリード、又は完全にマッピングされたリード)を検索するときに、それぞれの完全な「記録」を調査する必要があることを意味する。
逆に、本発明では、別々の情報層で別々にコード化されたデータクラスの概念があり、各リードをカプセル化するレコードの概念はない。これは、その特徴を検査するために各(複数の)ブロックのリードを必要とせずに、特定の生物学的特性を有する一連のリード(例えば、置換はあるが「インデル」なしのリード、又は完全にマッピングされたリード)へのより効率的なアクセスを可能にする。
4.CRAMレコードでは、各レコードフィールドは特定のフラグに関連付けられており、各CRAMレコードにはさまざまなタイプのデータを含めることができるため、各フラグは常にコンテキストという概念がなく、同じ意味を持つ必要がある。このコード化メカニズムは冗長な情報を導入し、効率的なコンテキストベースのエントロピーコード化の使用を妨げる。
代わりに本発明では、データが属する情報「レイヤ」によって本質的に定義されるので、データを表すフラグという概念はない。これは、使用されるシンボル数が大幅に減少し、その結果として情報源エントロピーが減少し、その結果、より効率的な圧縮が行われることを意味する。異なる「層」の使用が状況に応じて異なる意味で各層にわたって同じシンボルを再使用することをエンコーダに可能にするので、そのような改善が可能である。CRAMでは、各フラグはコンテキストという概念がないため常に同じ意味を持つ必要があり、各CRAMレコードには任意のタイプのデータを含めることができる。
5.CRAM置換では、挿入と欠失はさまざまな構文要素、情報ソースのアルファベットのサイズを大きくし、より高いソースエントロピーを生成するオプションを使用して表される。逆に、開示された発明のアプローチは、置換、挿入及び欠失のために単一のアルファベット及びコード化を使用する。これはコード化及び復号化処理をより簡単にし、そしてコード化が高い圧縮性能によって特徴付けられるビットストリームをもたらすより低いエントロピーソースモデルを生成する。
6.CRAMは、シングルリードとペアエンドリードの両方について、マルチプルアラインメントとスプライスドリードの適切な表現をサポートしていない。
リファレンスシーケンス上の1つ以上の位置にマッピングされると、ゲノムシーケンスリードはそれらがマッピングされているリファレンスシーケンスセグメントと完全に一致するか、又はいくつかのミスマッチを示すことができる。
ミスマッチのタイプは以下のとおりである。
・置換:マッピングされたリードの1つのヌクレオチドが、リファレンスシーケンスの対応するヌクレオチドと異なる
・挿入:マッピングされたリードはリファレンスに存在しないヌクレオチドを含む。シーケンスアラインメント処理後、それらはマッピングされたヌクレオチド間に「挿入」される結果となる
・欠失:リファレンスシーケンス中に存在する1つ以上のヌクレオチドが、マッピングされたシーケンスリードの対応する位置に存在しない
・ソフトクリップ:シーケンスリード又はリードペアの端にある1つ以上のヌクレオチドが、リファレンスシーケンスにマッピングされないが、アライメントツールによって保持される。
・ハードクリップ:シーケンスリード又はリードペアの端にある1つ以上のヌクレオチドが、リファレンスシーケンスにマッピングされず、マッピングされたリードの一部としてアライメントツールによって保存されない。この場合、マッピングされたリードは、マッピングされていないリードよりも短くなる。
本発明は、シーケンスリードアラインメント処理の結果に従ってデータを分類し、シーケンスデータを分割することによってゲノムシーケンスを圧縮し、それによってコード化される冗長情報が最小限にされ、選択的アクセス及び増分更新のサポートなどの機能が圧縮されたドメインで直接可能である。
ゲノムデータがアラインメント処理の結果に従って分類されると、本発明において開示される構文要素に関する表現は、より効率的なエントロピーコーディング、データへの選択的アクセス及び増分更新を可能にする。強化された圧縮は、データが均質な統計的性質を持つ独立したデータブロックに分割されるという事実によるものである。データが独立して解凍されることができるそのようなブロックに構造化されると、選択的アクセスはより少ない計算力及び帯域幅を必要とし、データセット全体を再コード化する必要なしに新しいコード化データブロックを追加することによる増分更新が可能である。
提示されたアプローチの1つの態様は、異なる層に構造化され別々にコード化されたデータのクラス及びメタデータの定義である。既存の方法に関するそのようなアプローチのより関連性のある改善は以下のものからなる。
1.各クラスのデータ又はメタデータに対して効率的なソースモデルを提供することによって構成される情報ソースエントロピーの減少による圧縮性能の向上、
2.圧縮ドメイン内で直接さらなる処理目的のために、圧縮データ及びメタデータの部分への選択的アクセスを実行する可能性、
3.シーケンスリードの特定のセットに関連する新しいシーケンスデータ及び/又はメタデータ及び/又は新しい分析結果を用いて、圧縮データ及びメタデータを追加的に(すなわち、復号化及び再コード化を必要とせずに)更新する可能性。
本発明において開示されるゲノムシーケンスデータの表現は、「記述子」の概念に依拠している。記述子は、エントロピーコーダを使用して圧縮されるゲノムシーケンスデータを表すのに使用される構文の要素として定義される。異なる記述子による元のゲノムシーケンスデータの表現は、より効率的な圧縮及びデータへの強化された選択的アクセスを可能にする。より効率的な圧縮は、各タイプの記述子又は同じ統計的性質を共有する記述子のサブセットごとに異なるエントロピーコーダを使用することによって達成される。異なる生物学的意味に従ってデータのサブセット中のゲノム情報を分割することを可能にする記述子の定義によって、より効率的な選択的アクセスが可能になる。データの各サブセットは他のデータとは無関係に復号化することができるので、必要な処理能力は減少し、復号化時間はより短い。
本発明の開示において定義される記述子は、同じタイプの圧縮された構文要素のブロックである多数の「記述子ストリーム」に構造化されている。
以下の特許請求の範囲の特徴は、以下を提供することによって既存の従来技術の解決法の問題を解決する。
ゲノムシーケンスデータをコード化するための方法であって、前記ゲノムシーケンスデータはヌクレオチドのシーケンスのリードを含み、前記方法は、
前記リードを1つ以上のリファレンスシーケンスと整列させ、それによって整列させたリードを作成するステップ、
前記整列リードを前記1つ以上のリファレンスシーケンスとの特定のマッチングルールに従って分類して、それによって整列リードのクラスを作成するステップ、
前記分類され整列されたリードを構文要素の多数のストリームとしてコード化するステップ、を備え、
前記分類された整列されたリードを構文要素の多数のストリームとしてコード化することは、前記整列されたリードのクラスに従って前記構文要素を選択することを含み、
前記構文要素のストリームにヘッダ情報を提供して、それによって前記ゲノムデータブロックを別々にアクセス可能なデータユニットにエントロピーコード化するために連続したデータブロックを作成する。
別の態様では、コード化方法は、
指定されたマッチングルールを満たさない前記リードを、分類されたマッピングされていないリードを多数の構文要素のストリームとしてコード化するマッピングされていないリードのクラスに分類し、
構文要素のストリーム及び前記コード化されたリファレンスシーケンスにヘッダ情報を提供し、それによって連続するアクセスユニットを作成することを、
さらに含む。
別の態様において、コード化方法はさらに、前記分類が、アラインメントに使用されたリファレンスシーケンス上に複数のアラインメント位置を有するゲノムリードを識別することを備えることを備える。
別の態様では、前記コード化方法は、前記分類することが、アライメントのためのマッチングルールを満たすためにスプライスと呼ばれる複数のセグメントに分割する必要があるゲノムリードを識別することを備えることをさらに備える。
別の態様において、前記コード化方法は、コード化されるゲノムシーケンスのリードがペアになっていることをさらに備える。
別の態様では、コード化方法は、
リードのアライメントの数を識別し、この数を特定の構文要素で表すステップ、
アライメントごとに対応するマッピング位置を識別し、各マッピング位置を特定の構文要素で表すステップ、
一次アライメント及び二次アライメントを識別するために各アライメントにアライメントスコアを割り当て、一次アライメントとして最も高いスコアを有するアライメントを識別するステップ、
プライマリとは異なるリファレンスでアライメントが見つかったかを識別し、この情報を特定の記述子を使用して表すステップ、
あるアラインメントが一次アラインメントのリファレンスシーケンス上の異なる隣接性を保存しないかを識別し、特定の構文要素を使用してこの情報を表すステップ、
をさらに備える。
別の態様では、コード化方法は、
前記1つ以上のリファレンスシーケンスとのマッチングを定義する所定のマッチングルールに従って、リファレンスシーケンス上に整列させるために2つ以上のスプライスに分割する必要があるリードを同定するステップ、
グローバル構成パラメータを使用してスプライスされたリードの存在を通知するステップ、
特定の構文要素を使用してスプライスの数を表すステップ、
特定の構文要素を使用して各スプライスの長さを表すステップ、
をさらに備える。
別の態様では、コード化方法は、
ペア内の各リードのアライメントの数を識別し、この数を特定の構文要素で表すステップ、
ペアにおいて最も左のリードのアラインメントごとに、対応するマッピング位置を識別し、各マッピング位置を特定の構文要素で表すステップ、
最も左のリードのアラインメントごとに、ペアにおいて最も右のリードに関連するアラインメントを識別し、特定の構文要素との関連を表すステップ、
一次及アライメント及び二次アライメントを識別するために、アライメントの各ペアにアライメントスコアを割り当てるステップ、
最も高いスコアを有するペアのアラインメントを一次アラインメントとして識別するステップ、
プライマリとは異なるリファレンスでアライメントが見つかったかを識別し、この情報を特定の記述子を使用して表すステップ、
一次アラインメントのリファレンスシーケンス上でアラインメントが別の連続を保存していないかどうかを識別し、特定の構文要素を使用してこの情報を表すステップ、
をさらに備える。
別の態様では、コード化方法は、
予め定義されたマッチングルールに従ってリファレンスシーケンス上に整列させるために2つ以上のスプライスに分割する必要があるリードを識別するステップ、
グローバル構成パラメータを使用してスプライスされたリードの存在を通知するステップ、
特定の構文要素を使用してペアで最も左のリードのスプライスの数を表すステップ、
特定の構文要素のベクトルを持つ最も左のリードの各アラインメントに関連付けられた最も右のリードのスプライス数を表すステップ、
特定の構文要素を使用して各スプライスの長さを表すステップ、
をさらに備える。
別の態様では、コード化方法は、
各データセットグループを一意的に識別するために使用されるデータセットグループ識別子、
各データセットを一意的に識別するために使用されるゲノムデータセット識別子、
データセットが準拠するデータフォーマット仕様を識別するために使用されるブランド識別子、
データセットが準拠するデータフォーマット仕様を識別するために使用されるマイナーバージョン番号、
固定長リードの通知に使用されるヌクレオチドのコード化されたゲノムリードの長さ、
ペアエンドリードの存在を通知するフラグ、
ブロックヘッダの存在を通知するフラグ、
前記アクセスユニットを復号化するときに、データアクセスを容易にするためにアクセスユニットが記憶媒体に記憶されるモードを通知するフラグ、
リファレンスシーケンスに関してシーケンスリードのミスマッチをコード化するために使用されるアルファベットのタイプ、
データセットのコーディングに使用されたリファレンスシーケンスの数、
各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの数値識別子、
各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの文字列識別子、
各リファレンスシーケンスに関連するアクセスユニットを数えるために使用されるリファレンスシーケンスごとのコード化アクセスユニットの数、
整列されたリード、整列されていないリード、マッピングされていないリード及びリファレンスシーケンスを区別するために使用されるコード化されたゲノムデータのタイプ、
データセットにコーディングされたデータクラスの数、
復号化処理中に使用されるデータセット内でコード化されたデータクラスごとに使用される記述子の数、
コード化されたマッピングされていないリードのインデックス付けに使用されたクラスタの総数、
コード化されたクラスタシグネチャを復号化するために使用されるクラスタシグネチャをコード化するために使用される整数値を表すために使用されるビット数、
すべてのクラスタシグネチャが、ヌクレオチド数に関して同じ長さを有する場合に、クラスタシグネチャの長さを通知するフラグ、
を備えるゲノムデータセットヘッダを備える前記構文要素のストリームを、さらに備える。
別の態様では、コード化方法は、
前記構文要素のストリームは、整列されたリードのクラス及びサブクラスごとに1つのセクションを含む、マスタインデックステーブルを備え、前記セクションは、
各クラス又はサブクラスのデータの各アクセスユニットの最も左のリードの一次アライメントの前記1つ以上のリファレンスシーケンス上のマッピング位置、
各クラス又は各データのサブクラスの各アクセスユニットのすべての一次アライメントの中で最も右にマッピングされた塩基の前記1つ以上のリファレンスシーケンス上の位置、
各アクセスユニットを構成するコード化された構文要素の各ブロックのバイト単位のオフセット、
をさらに備える。
別の態様では、コード化方法は、前記マスタインデックステーブルが各コード化された記述子ストリームのサイズを含むことをさらに備える。
別の態様では、コード化方法は、前記マスタインデックステーブルが各アクセスユニットのサイズをさらに含むことをさらに備える。
別の局面において、コード化方法は、ゲノムリードが複数のアライメントを有することをされに備え、上記マスタインデックステーブルが、
各クラス又は各データのサブクラスの各アクセスユニットのすべてのリードの中で最も左のアライメントの前記1つ以上のリファレンスシーケンス上のマッピング位置、
各クラス又は各データのサブクラスの各アクセスユニットのすべてのアラインメントの中で最も右にマッピングされた塩基の前記1つ以上のリファレンスシーケンス上の位置、
各アクセスユニットを構成するコード化された構文要素の各ブロックのバイト単位のオフセット、
を含む。
別の態様では、コード化方法は、前記アクセスユニットがコード化されたリードペアを含むことをさらに備える。
別の態様では、コード化方法は、前記マスタインデックステーブルが前記アクセスユニットデータと一緒にコード化されることをさらに備える。
別の態様では、コード化方法は、前記ゲノムデータセットヘッダが前記アクセスユニットデータと一緒にコード化されることをさらに備える。
別の態様では、コード化方法は、使用されるリファレンスのタイプ(既存又は構築された)及びリファレンスシーケンスと一致しないリードのセグメントに関する情報を構文要素のストリームがさらに備えることをさらに備える。
別の態様では、コード化方法は、構文要素の複数のストリームとして前記分類され整列されたリードが、特定のソースモデル及び特定のエントロピーコーダを各記述子ストリームに関連付けるステップを備えることをさらに備える。
別の態様では、コード化方法は、前記エントロピーコーダがコンテキスト適応算術コーダ、可変長コーダ又はゴロムコーダのうちの1つであることをさらに備える。
ヘッダ情報を使用することによって構文要素の複数のストリームを抽出するためにコード化されたゲノムデータを含むアクセスユニットを解析するステップ、
1つ以上のリファレンスシーケンスに関してそれらの分類を定義する特定のマッチングルールに従って整列されたリードを抽出するために構文要素の前記複数のストリームを復号化することステップ、
を備えるコード化ゲノムデータを復号化するための方法。
別の態様では、復号化方法は、マッピングされていないゲノムリードを復号化することをさらに備える。
別の態様では、復号化方法は、グローバル構成パラメータを含むゲノムデータセットヘッダを復号化することをさらに備える。
別の態様では、復号化方法は、リードのクラスごとに1つのセクションと、関連する関連マッピング位置と、コード化されたブロックオフセットとを含むマスタインデックステーブルを復号化することをさらに備える。
別の態様では、復号化方法はさらに、既存の、変換された又は構築された、使用されるリファレンスのタイプに関する情報を復号化することを備える。
別の態様では、復号化方法は、前記ゲノムリードがペアであることをさらに備える。
別の態様では、復号化方法は、前記ゲノムデータがエントロピー復号化されていることをさらに備える。
別の態様では、復号化方法は、
各リードのアライメント数を復号化するステップ、
各アライメントの位置を復号化するステップ、
各アライメントに関連するスコアを復号化することによってプライマリアライメントを識別するステップ、
対応する構文要素を復号化することによって、いずれかかのセカンダリアライメントがリファレンスシーケンスに対してプライマリアライメントと異なる隣接性を有するかを識別するステップ、
を備える複数のアライメント情報の復号化をさらに備える。
別の態様では、復号化方法は、
コード化されたリードが2つ以上のスプライスに分割されているかどうかを識別するステップ、
各スプライスの長さを復号化するステップ、
各スプライスのマッピング位置を復号化するステップ、
をさらに備える。
別の態様では、復号化方法はさらに、コード化されたゲノムリードがペアエンドリードであることをさらに備え、
最も左のリードの各アライメントに関連付けられた最も右のリードのアライメントの数を復号化するステップ、
最も左のリードの各アライメントを最も右のリードの1つ以上のアライメントと関連付けるペアリング情報を復号化するステップ、
を備える。
別の態様では、復号化方法は、コード化ゲノムリードが2つ以上のスプライスに分割されることさらに備え、
各コード化スプライスの長さを復号化するステップ、
各スプライスのマッピング位置を復号化するステップ、
を備える。
本発明はさらに、ゲノムシーケンスデータ289の圧縮のためのゲノムエンコーダ(2810)を提供し、前記ゲノムシーケンスデータ289はヌクレオチドのシーケンスのリードを備え、前記ゲノムエンコーダ(2810)は、
前記リードを1つ以上のリファレンスシーケンスに整列させ、それによって整列されたリードを作成するように構成される、アライナユニット(281)、
構築されたリファレンスシーケンスを生成するように構成された、構築されたリファレンス生成器ユニット(282)、
1つ以上の既存のリファレンスシーケンス又は構築されたリファレンスシーケンスを用いて指定されたマッチングルールに従って前記整列されたリードを分類し、それによって整列されたリードのクラス(288)を作成するように構成された、データ分類ユニット(284)、
整列されたリードの前記クラスに従って、前記構文要素を選択することによって前記分類された整列されたリードを構文要素のストリームとしてコード化するように構成された、1つ以上の記述子ストリームコード化ユニット(285〜287)、
圧縮されたゲノムデータ及びメタデータを多重化するためのマルチプレクサ(2816)、
を含む。
別の態様では、ゲノムエンコーダは、
データ分類ユニット(284)は、データクラスN、M及びIのサブクラスを生成する閾値のベクトルで構成されたデータクラスN、M及びIのエンコーダを含むことをさらに備える。
別の態様では、ゲノムエンコーダは、前述のコード化方法のすべての態様を実行するのに適した機能をさらに備える。
本発明はさらに、圧縮ゲノムストリーム(291)を解凍するためのゲノムデコーダ(298)を提供し、前記ゲノムデコーダ(298)は、
圧縮されたゲノムデータ及びメタデータを逆多重化するためのデマルチプレクサ(290)、前記圧縮されたゲノムストリームを構文要素(295)のストリームに解析するように構成された解析手段(292〜294)、
記述子ストリームをヌクレオチドのシーケンスの分類されたリードに復号化するように構成された、1つ以上の構文要素ストリームデコーダ(296〜297)、
1つ以上のリファレンスシーケンス上のヌクレオチドのシーケンスの前記分類されたリードを選択的に復号化して、ヌクレオチドのシーケンスの圧縮されていないリードを生成するように構成された、ゲノムデータクラスデコーダ(299)、
を備える。
別の態様では、ゲノムデコーダは、1つ以上のリファレンスシーケンスが圧縮されたゲノムストリーム(291)に格納されることをさらに備える。
別の態様では、ゲノムデコーダは、1つ以上のリファレンスシーケンスが帯域外メカニズムを介してデコーダに提供されることをさらに備える。
別の態様では、ゲノムデコーダは、1つ以上のリファレンスシーケンスがデコーダで構築されることをさらに備える。
本発明は、実行されると少なくとも1つのプロセッサに前述のコード化方法のすべての態様を実行させる命令を備えるコンピュータ可読媒体をさらに提供する。
本発明は、実行されると少なくとも1つのプロセッサに前述の復号化方法の全ての態様を実行させる命令を備えるコンピュータ可読媒体をさらに提供する。
本発明はさらに、前述のコーディング方法の全ての態様に従って実行されるゲノムコードを保存するサポートデータを提供する。
図1は、リファレンスシーケンス上の座標系及びリファレンスシーケンス上のリード及びリードペアのマッピングを示す。 図2は、ゲノムレコード長が、リード又はリードペアの最も左にマッピングされた塩基から最も右にマッピングされた塩基を分離するリファレンスシーケンス上のゲノム位置の数として定義される方法を示す。リードペアの場合、これは、両方のリードが同じリファレンスシーケンスにマッピングされているときに、リード1の左端の塩基をそのメイトのリード2の右端の塩基から隔てるリファレンスシーケンス上のゲノム位置の数である。 図3は、ペアリードの場合のゲノムレコード長の計算例を示す。 図4は、整列されたリード又はリードペアが2つ以上のアクセスユニットにまたがることができる方法を示す。これは、それぞれのゲノムレコード長が、レコードを含むAUの末端からリード又はリードペアマッピング位置までの距離よりも大きい場合に発生する。たとえリードが特定のゲノム領域をカバーしていないアクセスユニットでコード化されていても、一貫した選択的アクセスアルゴリズムは、特定のゲノム領域と重なるすべての塩基を検索することができなければならない。 図5は、マッピングされた3つのリードペアのうちの最初のリードの位置がどのように「pos」記述子にコード化されるかを示す。 図6は、リード1がストランド1からの起点を有し、リード2がストランド2からの起点を有するリードペアの例を示す。 図7は、ストランド1をリファレンスとして使用した場合に、リード2のリバースコンプリメントがどのようにコードされるかを示す。 図8は、リードペアを構成するリードと、「rcomp」記述子内のそれぞれのコード化との4つの可能な組み合わせを示す。 図9は、3つのリードペアのペアリング距離を計算する方法を示す。 図10は、リファレンスシーケンス(クラスP)に完全にマッピングするペアの固定長リードをコード化するために使用される記述子を示す。 図11は、リファレンスシーケンス(クラスP)上に完全にマッピングする可変長のリードをコード化するために使用される記述子を示す。 図12は、リファレンスシーケンス(クラスN)に関して未知の塩基を有するペアの固定長リードをコード化するために使用される記述子を示す。 図13は、少なくとも1つの置換を有するリファレンスシーケンス(クラスM)上にマッピングするペアの固定長リードをコード化するために使用される記述子を示す。 図14は、少なくとも1つの挿入、欠失又はソフトクリップ塩基を有するリファレンスシーケンス(クラスI)上にマッピングするペアの固定長リードをコード化するために使用される記述子を示す。 図15は、一番左のリードにN個のアライメント、一番右のリードにM個のアライメントがあるリードペアを示す。 図16は、左端のリード(リード1)を2つのスプライスに分割し、右端のリード(リード2)を4つに分割するのに必要な所与の制約条件によるリードペアのマッピングの方法を示す。 図17は、スプライシングを伴わないマルチプルアラインメントを示す。各リード又はリードペアに対して、Nはmmap記述子の最初の値であり、最初のリードのアライメント数を示す。ペアエンドリードの場合、2番目のリードのアライメントの数であるPが計算するために、続いてmmap記述子のN個の値を使用する。 図18は、スプライスのない複数のアライメントをコード化するために、pos、pair、及びmmap記述子を使用する方法を示す。 図19は、スプライスを用いたマルチプルアラインメントの一例を示す。Nは最初のリードのスプライス数を表し、mmap記述子の最初の値としてコード化さる。Pは2番目のリードのスプライス数を表し、mmap記述子の次のN個の値を使用して計算される。N1及びN2は、第1及び第2のリードのアラインメント数を表し、splen記述子のN+P値を使用して計算される。 図20は、スプライスのある複数のアライメントを表すために、pos、pair、mmap、及びsplen記述子を使用する方法を示す。 図21は、本発明の開示に従って記憶媒体上にコード化されたゲノム情報を書き込むために使用することができる2つのコード化モードを示す。アクセスユニット連続(AUC)モードが採用されるとき、各アクセスユニットは記憶媒体の連続領域に記憶される。記述子ストリーム連続(DSC)モードが採用されるとき、同じタイプのすべての記述子は単一のブロックとして記憶媒体の連続領域上に記憶される。結果として、各AUは記憶媒体の異なるセグメント間に「分散」される。 図22は、アクセスユニットがコード化された記述子のブロックによってどのように構成されるかを示す。ネットワーク上での転送を可能にするために、ブロックはさらにパケットに分解される。 図23は、アクセスユニットがヘッダ及び異なるストリームのデータブロックの多重化(記述子毎に1つ)によって構成されることを示す。同じタイプのいくつかのパケットが1つのブロックにカプセル化され、多数のブロックが1つのアクセスユニットに多重化される。 図24は、リードをクラスタ化し、各クラスタから取得したセグメントを組み立てることによって、「内部」リファレンスを作成する方法を示す。各クラスタは、構築されたリファレンスの1つのセグメントに寄与する。 図25は、リファレンスを構築する戦略が、特定のソート(例えば辞書式順序)がリードに適用された後に、最新のリードを格納することからなることを示す。 図26は、マッピングされていないリードのクラス(クラスU)に属するリードが、対応するストリームに格納又はもたらされる6つの記述子を使用してコード化され得ることを示す。 図27は、符号付きpos記述子を使用して、構成されたリファレンス上のリードのマッピング位置をコーディングする、クラスUのリードの代替コーディングを示す。 図28は、本発明の開示を実施するゲノムエンコーダのアーキテクチャを示す。 図29は、本発明の開示を実施するゲノムデコーダのアーキテクチャを示す。 図30は、リード1について3つのアライメント及びリード2について4つのアライメントを有するリードペアを示す。リード1についての第3のアライメントはChrX上であるが、すべてのアライメントは同じ染色体(例えばChr1)上にある。ペア記述子の最初の値は、あるアライメントが他のアライメントシーケンスとは異なるリファレンスシーケンスにあることを示すために使用される。 図31は、プライマリアライメントのマッピング連続性を維持しない1つのセカンダリアライメントを表すためのmmsc記述子の使用例を示す 図32は、より長いシーケンス(「「コンティグ」としても知られる))をマッピングされていないリードと組み合わせることによって、リファレンスシーケンスの未知領域を埋めるために、ハーフマッピングされたリードペア(クラスHM)を用いる方法を示す。
関連アプリケーションとの相互参照
本出願は、特許出願PCT/EP2016/074311、PCT/EP2016/074301、PCT/EP2016/074307、PCT/EP2016/074297、PCT/US2017/17842、PCT/US2017/17841の優先権及びその利益を主張する。
本発明において言及されるゲノム又はプロテオームシーケンスは、例えば、限定されるものではないが、ヌクレオチドシーケンス、デオキシリボ核酸(DNA)シーケンス、リボ核酸(RNA)、及びアミノ酸シーケンスを含む。本明細書中の記載はヌクレオチドシーケンスの形態のゲノム情報に関してかなり詳細であるが、圧縮のための方法及びシステムは、いくつかのバリエーションを伴うが、当業者によって理解されるように、他のゲノム又はプロテオームシーケンスについても同様に実施され得ることが理解される。
ゲノムシーケンス情報は、定義された語彙からの文字列によって表されるヌクレオチドのシーケンス(別名「塩基」)の形でハイスループットシークエンシング(HTS)装置によって生成される。最小の語彙は5つの記号:{A、C、G、T、N}で表され、DNAに存在する4種類のヌクレオチド、すなわちアデニン、シトシン、グアニン及びチミンを表す。RNAでは、チミンはウラシル(U)に置き換えられる。Nは、シークエンシング装置がいかなる塩基も呼び出せなかったことを示し、したがってその位置におけるヌクレオチドの実際の性質は決定されていない。IUPAC ambiguity codesが語彙としてシーケンシングマシンによって採用される場合、シンボルに使用されるアルファベットは以下の記号からなる:{A、C、G、T、U、W、S、M、K、R、Y、B、D、H、V、N又は−}。
本発明の文脈において、「ゲノムデータセット」は、例えば、生物のゲノムデータ、1つ以上のシーケンス及び生物のゲノムシーケンシングによって、元のシーケンスデータに対して行われたゲノムデータ処理の他の任意のステップによって生成されるメタデータを含む、構造化されたゲノムデータのセットとして定義される。
シーケンシング装置によって生成されたヌクレオチドシーケンスは「リード」と呼ばれる。シーケンスリードは、数十から数千の範囲の数のヌクレオチドから構成され得る。いくつかのシーケンシング技術は、一方のリードが一方のDNA鎖から生じ、他方が他方の鎖から生じる「ペア」からなるシーケンスリードを生成する。ペアを生成するシーケンシング処理における別のリードに関連するリードは、その「メイト」であると言われる。
本開示を通して、リファレンスシーケンスは、各整数座標が単一のヌクレオチドに関連している一次元整数座標系に関連したヌクレオチドのシーケンスである。座標値は、ゼロ以上でなければならない。本発明のコンテキストにおけるこの座標系はゼロを基準とし(すなわち、最初のヌクレオチドは座標0を有し、それは位置0にあると言われる)、左から右へ直線的に増加する。
マッピングシーケンスリードがリファレンスシーケンス上にあるとき、前記リファレンスシーケンスは、最も左の位置が位置0として示される一次元座標系の軸として使用される。最小の座標番号によって識別されるリファレンスシーケンス位置にマッピングされたリードは、通常、「最も左の」ヌクレオチドと呼ばれ、最大の座標番号によって識別されるリファレンスシーケンス位置にマッピングされたリードを構成するヌクレオチドは、「最も右」のヌクレオチドと呼ばれる。これを図1に示す。本開示を通して、ヌクレオチドは「塩基」とも呼ばれる。
シーケンスリードがリファレンスシーケンスにマッピングされるとき、最も左にマッピングされた塩基の座標は、リファレンスシーケンス上のリードのマッピング位置を表すと言われる。
リファレンスゲノムは1つ以上のリファレンスシーケンスによって構成され、それは種の遺伝子セットの代表例として科学者によって集められる。例えば、GRCh37、ゲノムリファレンスコンソーシアムのヒトゲノム(built37)は、ニューヨーク州バッファロー出身の13人の匿名のボランティアに由来する。しかしながら、リファレンスシーケンスはまた、それらのさらなる処理を考慮してリードの圧縮性を改善するために考えられ、単に構築された合成シーケンスからなることもできる。
本開示を通して、ゲノムレコードは、以下のコード化表現として定義される。
・アライメント情報、リード識別子及び品質値にオプションで関連付けられた単一シーケンスリード又はペアシーケンスリード
・リファレンスシーケンス(例えば染色体)又はその一部。
本開示を通して、ゲノムレコード位置は、ゲノムレコードにおいてコード化されたリード又はリードペアの最も左にマッピングされた塩基のリファレンスシーケンス上の位置として定義される。
リード又はリードペアレコード内のマッピング塩基は、いかを含む。
・リファレンスシーケンス上の対応する塩基と一致する配列されたリードの塩基
・対応する塩基と一致しない配列されたリードの塩基(別名、一塩基多型)。
アラインメントされたリードに存在し、リファレンスシーケンスには存在しない塩基(別名、挿入)及びアラインメント処理によって保存されているがリファレンスシーケンスにはマッピングされない塩基(別名ソフトクリップ)は、マッピング位置を有さない。
本開示では、リファレンス上の最小座標上にマッピングされている塩基でリードペアを構成するリードを「リード1」と呼び、そのメイトを「リード2」と呼ぶ。
今日の技術を使用するシーケンシング装置によって、ペアとして生成された2つのリードを分離する、ヌクレオチド(又は塩基)の数として表される距離は未知であり、それはペアを構成する両方のリードをリファレンスシーケンスへマッピングする(すなわち適切なマッチング関数を最小にする)ことによって決定される。
本開示を通して、ゲノムレコード長は、レコード中にコード化された最も左にマッピングされた塩基とレコード中にコード化された最も右にマッピングされた塩基との間の座標位置の数として定義される。
本開示を通して、ペアリング距離は、レコードにコード化された最も左にマッピングされた塩基とレコードにコード化されたリード2の最も左にマッピングされた塩基との間の座標位置の数として定義される。ペアリング距離の例を図1に示す。
本開示を通して、シングルリードの場合、ゲノムレコード長(GRL)は、最も右にマッピングされた塩基のマッピング位置から最も左の塩基のマッピング位置を減算し、「1」を加えることによって得られる整数として計算される。

GRL=(最も右の塩基の位置)−(最も左の塩基の位置)+1
リードペアの場合、本開示全体を通して、ゲノムレコード長(GRL)は、リファレンスシーケンス(リード1)上の最小位置におけるリードマッピングの最も左の塩基のマッピング位置を、そのメイトの最も右の塩基のマッピング位置の座標(リード2)から差し引き、「1」を加えることによって得られる整数として計算される。ゲノムレコード長のそのような定義は図3に示される。
本開示全体を通して、リファレンスシーケンス又はその一部をコードするゲノムレコードの場合、ゲノムレコード長は、コードされたシーケンスを構成するヌクレオチドの数として定義される。
本開示を通して、ゲノム範囲は、S<Eであるように、開始座標S及び終了座標Eによって定義されるリファレンスシーケンス上の連続座標セグメントとして定義される。ゲノム範囲の開始位置及び終了位置は、範囲に常に含まれる。
本発明は、シーケンスリードがアクセスユニットと呼ばれる複数のデータブロックに含まれる記述子のセットによって圧縮される場合に、任意のゲノム領域にマッピングされた整列されたゲノムシーケンスリードへの効率的なアクセスを可能にする新しい方法を定義することを目的とする。
本開示を通して、アクセスユニット(AU)は、ビットストリームのアクセス及び操作を容易にするためにゲノム情報又は関連するメタデータのコード化表現を含む論理データ構造として定義される。本開示に記載の本発明を実施する復号化装置によって復号化することができるのは、これが最小のデータ構成である。
コード化された情報のタイプに応じて、AUは他のAUとは無関係に、又は他のAUに含まれる情報を使用して復号化することができる。
AUは、コード化されたデータの性質に応じて多様なタイプのものとすることができる。アクセスユニットは、リファレンスシーケンス、又はその一部、あるいは単一クラスのデータに属するコード化されたリード又はリードペアを含む。たとえば、アクセスユニットは、ゲノムリファレンスコンソーシアムのヒトゲノム(build37)であるGRCh37の1番染色体全体を含んでもよい。別のアクセスユニットは、座標5000と15000の間に位置するGRCh37の第1染色体のヌクレオチドのコード化表現を含んでもよい。他のアクセスユニットは、ミスマッチなしにリファレンスシーケンスに完全にマッピングするリード又はリードペアのみを含んでもよい。別のアクセスユニットは、リファレンスシーケンスに関してミスマッチとして「N」の記号のみを含むリード又はリードペアを含んでもよい。別のアクセスユニットは、任意のタイプの置換(例えば、リード又はリードペアに存在する1つの塩基は、リファレンスシーケンス中の対応するマッピング位置の塩基とは異なる)を含むリード又はリードペアを含んでもよい。他のアクセスユニットは、ミスマッチ、挿入、欠失及びソフトクリップされた塩基を含むリード又はリードペアを含んでもよい。他のアクセスユニットは、リファレンスシーケンスにマッピングされていないリード又はリードペアのみを含んでもよい。他のアクセスユニットは、一方のリードがリファレンスシーケンスにマッピングされ、他方がマッピングされていないリードペアのみを含んでもよい。別のタイプのアクセスユニットは、1つ以上のリファレンスシーケンス(例えば、染色体)によって構成されるリファレンスゲノムのコード化されたセグメントのみを含んでもよい。
アクセスユニットの本質的な特徴は、それが表すゲノム情報(シーケンスリード又はリードペア、リファレンスシーケンス)、それを示すリード又はリードペアの関連するアラインメント情報及びメタデータを再構成するのに必要なすべての要素を圧縮形式で含むことである。言い換えれば、アクセスユニットによってもたらされるリード、リードペア又はリファレンスシーケンス及び関連情報を完全に再構成するためには、アクセスユニット自体、及び必要であれば、それが参照するリファレンスシーケンスを含むアクセスユニットを取り出すことだけが必要である。
各アクセスユニットにおいて、エントロピーコーディングがそれらを圧縮するために適用されるときに、それらの同種の統計的性質を活用するために、コード化されたリード又はリードペアを表す次のセクションにリストされた記述子は、タイプごとの別々のデータブロックに集約される。
各アクセスユニットは、リファレンスシーケンス上のゲノム領域にマッピングされた同じクラスに属するシーケンスリード又はリードペアを表す記述子の圧縮されたサブセットを含む。リファレンスシーケンス上のそのようなゲノム領域は、開始座標(又は開始位置)及び終了座標(又は終了位置)によって定義される。
アクセスユニットの一例が図22に示される。アクセスユニットはコード化された記述子のブロックによって構成される(次のセクションで説明される)。ネットワーク上での転送を可能にするために、ブロックはさらにパケットに分解される。
記述子は、コード化されたリファレンスシーケンス、シーケンスリード及び関連するマッピング情報、又はシーケンスリードのペア及び関連するマッピング情報を再構成(すなわち復号化)するのに必要な情報の一部を表す構文要素である。表現するために異なるタイプの記述子が定義される。
・リファレンスシーケンス上のリードのマッピング位置、
・リードとメイトの距離、
・シーケンスリードの長さ
リファレンスシーケンスに対する整列されたリードのミスマッチの位置、
・関連する位置でのリファレンスシーケンスに対するミスマッチのタイプ、
・マッピング手順によってリファレンスシーケンスにマッピングできなかった塩基、及び「ソフトクリップ」塩基として分類された塩基、
シーケンスリード長、
・SAM仕様で指定されているマッピングフラグ、
・マッピング手順によって単一のリード又はリードペアに関連付けられている複数のマッピング位置、
・スプライスされたリードの存在の識別(つまり、チャンクに分割されたときに、より高いマッチング精度でマッピング位置を認めるとき、そして、それらがリファレンスシーケンス上の単一位置にマッピングされた単一連結リードとしてマッピングされるときのリード)、
・使用されるリファレンスシーケンスの特定のタイプ:
○ゲノムリファレンスコンソーシアム(例えばGRCh37)、カリフォルニア大学サンタクルス校(例えばhgl9)のようなコンソーシアムによって公開されているものとしてのリファレンスゲノム、
○指定されたセットのリード及び指定されたセットのアセンブリルールを用いて構築されたリファレンスシーケンス。
・そのような変更されたリファレンスシーケンスにマッピングされたシーケンスリードのミスマッチを表すために使用される記述子のエントロピーを減少させる目的でリファレンスシーケンスに適用される変更の位置及びタイプ、
・指定された程度のマッチング精度でリファレンスシーケンスのどの位置にもマッピングできないシーケンスリードの表現、
・リファレンスシーケンス全体又はその一部の表現。
本開示において参照され、本発明によって使用される各記述子の完全なリスト及び正確な定義は、以下の節に提供される。
上述のように、それらがそれらの関連する情報で完全に再構成されることができるように、圧縮された形でリファレンスシーケンス、シーケンスリード又はリードペアを表すために本発明によって多数の記述子が使用される。リファレンスシーケンス上のマッピングの結果に従って、リード又はリードペアもまた異なるクラスに分類及び分離され、別々のデータブロックにエントロピーコード化される場合、記述子の異なるサブセットが各クラス又はリード又はリードペアを表すために使用される。したがって、アクセスユニットは、リファレンスシーケンス、又はその一部、あるいは同じクラスに属するリード又はリードペアのいずれかを表すために必要なエントロピーコード化された記述子のみを含む。これは、可変長のリードについては図11に、固定長のリードペアについては図12、図13、図14に示す。
本開示を通して、同じタイプのエントロピーコード化された記述子は記述子ストリームを構成すると言われる。
本開示を通して、アクセスユニット開始位置は、アクセスユニットに含まれるすべてのゲノムレコードのうち最も左のゲノムレコード位置として定義される。
本開示全体を通して、アクセスユニット終了位置は、アクセスユニットに含まれる全ゲノムレコードの全マッピングされた塩基の中で最も右にマッピングされた塩基位置として定義される。
本開示を通して、アクセスユニット範囲は、アクセスユニットに含まれるすべてのゲノムレコードのうち、AU開始位置と最も右のゲノムレコード位置との間に含まれるゲノム範囲として定義される。ポジション数の値は、AUの終了位置からAUの開始位置を引いて「1」を加えることで計算できる。
本開示を通して、アクセスユニットカバー領域は、AU開始位置とAU終了位置との間に含まれるゲノム範囲として定義される。
本開示を通して、アクセスユニットはその開始位置とその終了位置の間のゲノム領域をカバーするとも言われる。
AUでコード化されたいくつかのゲノムレコードは、ゲノムレコード長よりも小さいAU末端位置からの距離でマッピング位置を有することができる。これは、ゲノムレコードにコードされているリード又はリードペアに属するいくつかの塩基が、以下のAUのうちの1つによってカバーされるゲノム領域にマッピングされることを意味する。これを図4に示す。
上記の定義によると、アクセスユニットを構築するための2つの便利な方法が識別できる。
1.同じデータクラスのアクセスユニットのゲノム範囲が決して重複しない、いわゆる「非重複モード」、
2.同じデータクラスのアクセスユニットのゲノム範囲が重複してもよい、いわゆる「重複モード」。
「非重複モード」は、ゲノムデータが圧縮されてファイルとしてメモリに記憶されるシナリオにおいても、記憶されたファイルが1つの記憶装置から別の記憶装置にストリーミングされるときにもストリーミングシナリオにおいて好ましい。「重複モード」は、ゲノムデータセットの一部がアクセスユニットへのコーディング及び送信のために利用可能になったとき、及びゲノムシーケンスデータの全体が送信デバイスで利用可能になる前にストリーミングシナリオをサポートする。
開示された発明の革新的な態様は以下の通りである。
1.ゲノムシーケンスへの各シーケンスリード又はリードペアのコード化は、コード化シーケンスリード又はリードペアがリファレンスシーケンスにマッピングする方法、及びその圧縮された表現から完全に再構成することができる方法を表す記述子のサブセットによって実施される。
2.各クラスのデータに属するシーケンスリード又はリードペアを表すために、記述子の特定のサブセットを使用され、リード又はリードペアは、リファレンスシーケンスへのマッピングの結果に従って分割される。この表現は、複数のマッピング位置とスプライスされたリードをサポートする。
3.記述子の特定のサブセットは、リファレンスシーケンス又はその一部を表すために使用される。
4.各リードが同じ長さを有するシーケンスリードペアの場合、各ペアは単一の記述子のサブセットに関連するゲノムレコード内の単一の実体としてエントロピーコード化されて、コーディング性能を最大にする。
5.ゲノムレコードにコード化された圧縮形式(すなわちエントロピーコード化)の記述子のサブセットは、リードの最も左にマッピングされた塩基、又はリードペア用のリード1の最も左にマッピングされた塩基を含む範囲を有するアクセスユニットに含まれる。
6.1つのペアに属するリードを単一のエンティティとしてコード化する必要があるかどうか、及びそのペアを表す記述子のサブセットを単一のアクセスユニットに圧縮形式で含める必要があるかどうか、又はペアが分割され、2つの異なるアクセスユニットに2つの別々のリードとして圧縮形式で表されるべきかを決定するコーディング方法。この方法は、ペアの2つのリード間の距離とアクセスユニットの範囲を入力パラメータとして使用して、分割規則を定義する。
7.エンコーダ側での新しいコード化方法の適用及び圧縮されたビットストリームでのコード化パラメータの送信は、デコーダ側で、すべてのシーケンスリード及び特定のゲノム領域にマッピングされた(すなわち、属する)リードペアにアクセスすることが要求されるときに復号化される必要がある最小数のアクセスユニットの最小数の識別を可能にする。8.コード化方法の定義、復号化器側でのコード化方法のパラメータの送信、最小アクセスユニット数の決定及び任意の所与のゲノム領域にマッピングするすべてのリードを検索するためのそれらの識別は、圧縮された形式で格納又は転送された(つまりストリーミングされた)シーケンスリード及びリードペアへの高性能の選択的アクセス実装を可能にする。
9.記述子を使用し、アクセスユニット内の同種のデータブロックに分割することにより、効果的なエントロピーコーディングを、ゲノム情報表現を圧縮することに適用することができる。
10.マスタインデックステーブル(MIT)と呼ばれるインデックス作成ツールの定義は、
a.データクラスごとに、ゲノムデータセットに含まれる各AUの開始位置と終了位置を含むインデックス。各インデックスでは、AU開始位置は昇順でソートされる。
b.データクラスごとに、各データクラスに属するコード化されたAUの記憶媒体上の物理的位置へのポインタのベクトル。各ベクトルは、AU開始位置の対応するインデックスとしてソートされる。
MITは、リファレンスシーケンス上のゲノム領域を、前記リード又はリードペアの圧縮表現を含むアクセスユニットの記憶装置上の対応する位置と関連付けることによって、特定のゲノム領域にマッピングされたリード又はリードペアへの効率的なランダムアクセスを可能にする。
11.可変長のシングルリード(つまり、任意の値を取り得る長さのリード)の場合、各アクセスユニットでコード化されたリードの長さの分布とそのマッピング座標を評価する新しいコード化方法が、アクセスユニットに含まれるリードに属する塩基のマッピング位置の座標(AU終了位置)を決定し、MITにそのような値の表現を書き込むので、特定のゲノム領域に対して効率的な選択的アクセス動作を実施するためのデコーダによって利用可能である。デコーダは、特定の選択的アクセス領域をカバーする各AUの終了位置の値を検索するためにMITのみを検査することによって、選択的アクセスを必要とするゲノム領域をカバーする全てのリードが検索されことを保証するために復号化される必要があるアクセスユニットの最小数を決定することができる。
以下では、上記の革新的な態様のそれぞれをさらに詳細に説明する。
マッチングルールに従ったシーケンスリードの分類
シーケンシング装置によって生成されたシーケンスリードは、開示された発明によって、1つ以上の「既存の」リファレンスシーケンスに関するアラインメントのマッチング結果に従って、6つの異なる「クラス」に分類される。
リファレンスシーケンスに関してヌクレオチドのDNAシーケンスを整列させる場合、以下の場合が識別され得る。
1.リファレンスシーケンス中の領域が、エラーのないシーケンスリードと一致することが見出された(すなわち、完全マッピング)。そのようなヌクレオチドシーケンスは、「完全に一致するリード」と呼ばれるか、又は「クラスP」と表される。
2.リファレンスシーケンス中の領域は、リードを生成するシーケンシング装置がいずれの塩基(又はヌクレオチド)も呼び出せなかった位置の数によってのみ決定されるミスマッチのタイプ及び数を有するシーケンスリードと一致することが見出される。そのようなタイプのミスマッチは、未定義のヌクレオチド塩基を示すために使用される文字、「N」によって表される。この文書では、このタイプのミスマッチを「nタイプ」のミスマッチと呼ぶ。そのようなシーケンスは「クラスN」リードに属する。リードが「クラスN」に属すると分類されると、一致の不正確さの程度を所定の上限に制限し、有効な一致と見なされるものとそうでないものとの間に境界を設定することが有用である。したがって、クラスNに割り当てられたリードはまた、リードが含むことができる未定義の塩基(すなわち「N」と呼ばれる塩基)の最大数を定義する閾値(MAXN)を設定することによって制約される。そのような分類は、クラスNに属するすべてのリードが対応するリファレンスシーケンスを参照したときに共有する必要最小マッチング精度(又は最大ミスマッチ度)を暗黙的に定義し、これは選択データ検索を圧縮データに適用するための有用な基準を構成する。
3.リファレンスシーケンス中の領域は、リードを生成するシーケンシング装置が存在するならば(すなわち「nタイプ」)、いずれのヌクレオチド塩基も呼び出せなかった位置の数によって決定されるタイプ及びミスマッチのタイプと数を有するシーケンスリードと一致すること、リファレンスに存在するものとは異なる塩基が呼び出されたミスマッチの数をプラスすることを検出する。「置換」として示されるようなタイプのミスマッチはまた、一塩基変異(SNV)又は一塩基多型(SNP)とも呼ばれる。この文書では、このタイプのミスマッチは「sタイプ」のミスマッチとも呼ばれる。次いで、シーケンスリードを「Mミスマッチリード」と呼び、そして「クラスM」に割り当てる。「クラスN」の場合と同様に、「クラスM」に属するすべてのリードについても、一致の不正確さの程度を所定の上限に制限し、有効な一致と見なされるものとそうではないものとの境界を設定すると便利である。したがって、クラスMに割り当てられたリードは、1つは「nタイプ」の不一致数「n」(存在する場合)、もう1つは置換数「s」(MAXS)である、閾値のセットを定義することによっても制約される。第3の制約は、数値「n」と「s」の両方の関数f(n、s)によって定義される閾値である。そのような第3の制約は、任意の意味のある選択的アクセス基準に従ってマッチングの不正確さの上限を有するクラスを生成することを可能にする。例えば、限定としてではなく、「クラス M」に属するリードに対して認められる、f(n、s)は、(n+s)1/2又は(n+s)、あるいは最大マッチング不正確レベルに境界を設定する以下のように任意の線形の式又は非線形の式とすることができる。このような境界は、一方のタイプ又はもう一方のタイプに適用された単純閾値を超える「n型」ミスマッチの数と「s型」(置換)ミスマッチの数との任意の可能な組み合わせにさらなる境界を設定することを可能にするので、様々な目的でシーケンスリードを分析するときに所望の選択データ検索を圧縮データに適用するための非常に有用な基準を構成する。
第4のクラスは、「挿入」、「欠失」(「インデル」)及び「クリップド」の間のいずれかのタイプの少なくとも1つのミスマッチ、さらに存在する場合はクラスN又はMに属する任意のミスマッチタイプを示すシーケンスリードによって構成される。「Iミスマッチリード」と呼ばれ、「クラスI」に割り当てられる。挿入は、リファレンスには存在しないがリードシーケンスには存在する1つ以上のヌクレオチドのさらなるシーケンスによって構成される。この文書では、このタイプのミスマッチを「iタイプ」ミスマッチと呼ぶ。挿入されたシーケンスがシーケンスの端にある場合、この文献では「ソフトクリップ」とも呼ばれる(すなわち、ヌクレオチドはリファレンスと一致しないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的に整列されたリードに保持される)。この文書では、このタイプのミスマッチを「cタイプ」のミスマッチと呼ぶ。欠失は、リファレンスに関してリードにおける「穴」(欠けているヌクレオチド)である。この文書では、このタイプのミスマッチを「dタイプ」ミスマッチと呼ぶ。クラス「N」及び「M」の場合と同様に、マッチングの不正確さに対する制限を定義することは可能であり適切である。「クラスI」に対する制約のセットの定義は、「クラスM」に対して使用されたのと同じ原理に基づいており、そして最後の表の行の表1に報告されている。クラスIデータに許容される各タイプのミスマッチについての閾値に加えて、さらなる制約は、ミスマッチの数「n」、「s」、「d」、「i」及び「c」、「w(n、s、d、i、c)」の任意の関数によって決定される閾値によって定義される。そのような追加の制約は、任意の意味のあるユーザ定義の選択的アクセス基準に従って、マッチングの不正確さの上限を有するクラスを生成することを可能にする。例えば、限定としてではなく、w(n、s、d、i、c)は、(n+s+d+i+c)1/5又は(n+s+d+i+c)又は「クラスI」に属するリードについて認められる最大ミスマッチ不正確レベルに境界を設定する任意の線形又は非線形の式であり得る。このような境界は、許容されるミスマッチの各タイプに適用される単純な閾値を超えて、「クラスI」のリードで許容されるミスマッチの数のあらゆる可能な組み合わせに対してさらなる境界を設定することを可能にするので、様々な目的のためのシーケンスリードを分析するときに所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。
5.第5のクラスは、リファレンスを参照するときに、各データクラスについて、有効と見なされる(すなわち、表1に規定される最大マッチング不正確さに対する上限を定義するマッチングルールのセットを満たさない)いかなるマッピングも検出されない全てのリードを含む。シーケンスそのようなシーケンスは、リファレンスシーケンスを指すときに「マッピングされていない」と言われ、「クラスU」に属すると分類される。
マッチングルールに従ったリードペアの分類
前のセクションで指定された分類は、単一シーケンスのリードに関するものである。2つのリードが可変長の未知のシーケンスで区切られていることがわかっている、ペアでリードを生成するシーケンステクノロジ(例:Illumina Inc.)の場合は、ペア全体を単一のデータクラスに分類することを検討するのが適切である。互いに結合されているリードは、その「メイト」と呼ばれる。
両方の対のリードが同じクラスに属する場合、全ペアのクラスへの割り当ては明らかであり、全ペアが任意のクラス(すなわちP、N、M、I、U)に対して同じクラスに割り当てられる。2つのリードが異なるクラスに属しているが、どちらも「クラスU」に属していない場合、ペア全体が次の式に従って定義された最高の優先順位を持つクラスに割り当てられる。

P<N<M<I

ここで、「クラスP」が最も低い優先順位を持ち、「クラスI」が最も高い優先順位を持つ。
リードのうちの1つのみが「クラスU」に属し、そのメイトがクラスP、N、Mのいずれかである場合、第6のクラスは「ハーフマップ」を表す「クラスHM」として定義される。
そのような特定のクラスのリードの定義は、それがリファレンスゲノムに存在するギャップ又は未知の領域(別名、ほとんど知られていない又は未知の領域)を決定することを試みるために使用されるという事実によって動機付けられる。そのような領域は、既知の領域にマッピングすることができるペアリードを使用して、エッジでペアをマッピングすることによって再構成される。次に、図32に示すように、マッピングされていないメイトを使用して、未知の領域のいわゆる「コンティグ」を構築する。したがって、そのようなタイプのリードペアのみへの選択的アクセスを提供するデータは、最先端のソリューションを使用して完全に検査する必要があると思われる大量のデータセットによって生成されたデータの効率的な処理を可能にする関連したコンピュータの負荷を低減する。
以下の表は、各リードが属するデータのクラスを定義するためにリードに適用されるマッチングルールをまとめる。ルールは、ミスマッチのタイプ(n、s、d、i、及びcタイプのミスマッチ)の有無によって、表の最初の5列に定義される。第6列は、各ミスマッチタイプ及び可能なミスマッチタイプの任意の関数f(n、s、d、i、c)に対する最大閾値に関するルールを提供する。
表1.本発明の開示において定義されるデータクラスに分類されるために、各シーケンスリードが満たすべきミスマッチのタイプ及び制約のセット。
ゲノムシーケンスリードとリファレンスシーケンスの圧縮表示
ゲノムシーケンスリード圧縮に対する効率的なアプローチの共通要素は、リファレンスシーケンスに対するシーケンスデータの相関関係の利用である。たとえヒト集団の体性プロファイルが非常に多様化したとしても、人によって異なるヌクレオチドの数の実際の部分は全ゲノムを構成するヌクレオチドの総数の約0.1%にすぎない。したがって、各個体を特徴付ける特定のゲノム情報は、全ゲノムによってもたらされる全情報に関して非常に限られている。以前のシーケンシングのため、又は公表された「平均的」コンセンサスリファレンスとしての既存のリファレンスゲノムが利用可能である場合、実際の情報をコード化する最も効率的な方法は、リファレンスゲノムに関する差異のみを識別しコード化することである。
FASTQデータの形態の生シーケンスリードを用いてそうするために、利用可能なリファレンスゲノム上にマッピングする予備的前処理工程が行われる。リファレンスゲノムが利用できない場合、又は特定のリファレンスの使用によって導入された偏りが望ましくない場合、利用可能なシーケンスリードをより長いシーケンスに組み立てることによる新しいリファレンスシーケンスの構築は可能な代替法である。
シーケンスリードが既存の又は構築されたリファレンスシーケンスに関してマッピングされている場合、各シーケンスリードは、本開示において「リード記述子」又は単に「記述子」として示されるいくつかの要素によって完全に表すことができる。
例えば、リファレンスシーケンスのセグメントと完全に一致するシーケンスリードの場合、シーケンスリードを表すのに必要な記述子の唯一のサブセットは、リファレンス上のマッピング位置の座標(通常はシーケンスの左端の塩基のマッピング位置の座標)、シーケンスリードの長さ自体、及びリードがリファレンスシーケンス鎖に対して直接又はリバースDNA鎖にマッピングされているかどうかを示す情報により構成される。
シーケンスリードのすべての塩基がリファレンスシーケンスのすべての塩基と一致するマッピング位置を見つけることができない場合、最小数のミスマッチを有するマッピング(又はマッピング)が保持される。そのような場合、マッピング位置と最小数又は最小数に近いミスマッチとの対応で起こり得る置換、挿入、削除、及びクリップされた塩基も表現するために、異なるサブセットの記述子が必要とされる。記述子のそのようなサブセットを用いて、記述子によってもたらされる情報及びリファレンスシーケンスによってもたらされる情報を使用して、シーケンスリードを再構成することができる。
マッピングプロセスは、複数の可能なマッピング位置と関連スコア、マッピングの質、スプライスリードの指定、ペアに属するリードの2つの異なるリファレンス(通常は染色体)へのマッピング、シークエンシング処理特徴(PCR又は光学的複製)のような他のタイプの情報も生成することができる。全てのそのような情報は各サブセットを拡張する特定の追加の記述子を必要とし、それは次に記述子の各サブセットに対して適切なエントロピーコード化アルゴリズムを適用することによって圧縮される。
ゲノムシークエンシング処理は、以下の理由により、リード重複(すなわち、同じゲノムシーケンスの2つ以上の正確なコピー)を生成し得る。
・ゲノムシークエンシングプロセスの化学的性質(ポリメラーゼ連鎖反応複製)、
・データ取得プロセス(光学的複製)。ペアのリードが両方とも同じタイル上にあり、リード間の距離が実験に応じて所定の構成パラメーターより小さい場合、リードは光複製と呼ばれる。
したがって、各リード又はリードペアは、マッピングプロセスの結果に従って、特定の記述子のサブセットによって一意的に表すことができる。
SAM及びCRAMなどの一般的に使用される手法は、それらのマッピング情報を表すのに必要とされる記述子の特定のサブセットに従ってリード又はリードペアをコード化しない。SAM及びCRAMは、それらがマッピングされているリファレンスシーケンスに関してそれらが含むミスマッチの数及びタイプに従ってシーケンスリードをデータクラスに分類しない。さらに、これらのフォーマットは、単一のデータクラスに属するシーケンスリードのみを圧縮形式で含むアクセスユニットにシーケンスリードを別々にコード化しない。ペアで生成されたシーケンスリードの場合、最新の手法では、リファレンスシーケンスに対するそれらのマッピング精度に従ってクラスに分割された単一の要素としてそれらをコード化しない。そのような最先端の手法は、以下の制限及び欠点によって特徴付けられる。
1.リファレンスシーケンスに対するマッピング結果に従ってシーケンスリードを別々のデータクラスに分類せず、独自の記述子のスーパーセットを使用せずにリード又はリードペアをコード化することは、不十分な圧縮性能をもたらす非効率的な手法である。
2.リードペアを別々のシーケンスリードとしてコード化することは、同じ情報をもたらすいくつかの記述子の複製を必要とし、従って非効率的でありそして劣った圧縮性能をもたらす。
3.このプロセスはおそらく次世代シーケンシング(NGS)技術の場合のように非常に大きくなり得る全データセットにおいて力ずくのシーケンシャルサーチを必要とするので、リードペアを再構成するのに必要な情報の検索は複雑で非効率的になる。
4.特定のゲノム領域にマッピングされたリード又はリードペアへの選択的アクセスは、すべてのリード又はリードペアが検索されることを保証するためにデータセット全体を検索する必要がある。
単一のサブセットの記述子を用いてリードペアをコード化するとき、以下の技術的利点が当業者に明らかである。
1.明らかに冗長である、両方のリードに共通の情報は、ペアを単一要素としてコード化することによって複製されない(例えば、リードペア識別子、マッピング距離、マッピングリファレンス識別子、SAMファイルフォーマットの特定のフラグによって現在コード化される様々なマッピング品質情報)。
2.相互ペアリング情報(すなわち、どのリードが現在のリードのメイトであるかを提供する情報)の検索は簡単であり、さらなる処理を必要としない。逆に、最先端の手法では、全データ量を解析する必要があるかもしれない。
シーケンシングデータの特定の部分への効率的な選択的アクセスを可能にし、それらをデジタルデータネットワーク上で輸送することを可能にするために、リファレンスに対して整列されたシーケンスリードを表すために使用される記述子のセットはアクセスユニット(AU)と呼ばれる論理的に別々の独立したデータブロックで構成される。各アクセスユニットは、単一のデータクラスの圧縮表現のみを含み、他のアクセスユニットとは無関係に、又はマッピングに使用されるリファレンスシーケンス領域のコード化表現をもたらすアクセスユニットのみを使用して復号化することができる。これにより、選択的アクセスと順序外転送機能を可能にする。
圧縮効率を向上させるために、本発明は、同じリファレンスシーケンス上にマッピングされた両方の対を有する各リードペアについて「マッピングリファレンス識別子」記述子を指定する必要性を排除する。各アクセスユニットには、同じリファレンスにマッピングされているリード又はペアのみを含めることができる。そのような解決策を使用すると、リファレンスシーケンス識別子を表す記述子は、各アクセスユニット又はアクセスユニットのセットごとに一度だけコード化される必要がある(及び、SAM/BAMフォーマットで現在行われているように各リードに対して繰り返されない)。
上記で表現された規則の唯一の例外は、異なるリファレンスシーケンス(例えば、染色体)上にマッピングされた2つのリードを有するリードペアの場合である。この場合、ペアは分割され、そして2つのリードは2つの別々のゲノムレコードとしてコード化され、そして各コード化されたリードはそのペアがマッピングされるリファレンスシーケンスの識別子を含む。
同種の統計的性質を有する要素のグループに情報を分類することは、異種のデータセットに適用される汎用コンプレッサ(例えばLZタイプのアルゴリズム)の使用に関してより良い圧縮性能を提供することを当業者は知っている。結果として、ゲノムシーケンスリードを記述子の特定のサブセットを用いてペアとしてコード化する場合、各個別の記述子のサブセットを特徴付けるエントロピーがより低く、リードペアを再構成及び検索するときの処理効率が高いため、より高い圧縮が達成される。
シーケンスリード記述子
このセクションでは、リファレンスシーケンスにマッピングされたゲノムシーケンスリードを表すために指定された記述子を紹介する。各リード又はリードペアを表すために使用される記述子の特定のサブセットは、リファレンスシーケンスに対するマッピングの結果(すなわち、リード又はリードペアとリファレンスシーケンスとの間のミスマッチの有無)に依存する。
位置
リード又はリードペアの位置は、リード又はリードペアの左端の塩基のリファレンスシーケンス上のマッピング位置として定義される。「位置」タイプの記述子は、各リード又はリードペアごとに必要である。「位置」記述子の値は、次のとおりである。
・リファレンスシーケンス上のリード又はリードペアの左端の塩基の座標の値
・又は同じアクセスユニット内でコード化された前のリード又はリードペアの座標に関する差。
「位置」記述子は、各コード化されたリード又はリードペアを表すために必要である。
本発明の開示において、そのような記述子はpos記述子と呼ばれる。
ペアリング
リードペアの場合、各リードがペア内のそのメイトとどのように関連付けられているかを表す記述子は、次のように複数の構文要素で表すことができる。
・メイト内のそれぞれの塩基と、リードの塩基(例えば、メイト内の最も左にマッピングされた塩基との間にある最も左にマッピングされた塩基)との座標の差。本発明の開示において、そのような記述子はペア記述子と呼ばれる。
・メイトがマッピングするリファレンスシーケンスの識別子を用いたリファレンスシーケンス上のメイトの絶対座標。そのような表現オプションは次の場合に使用される。
○ペアの2つのリードが異なるリファレンスシーケンス(例:染色体)にマッピングされている、又は
○ペアの2つのリードが同じリファレンスにマッピングされているが、許容ペアリング距離のような最大値として指定された値を超える塩基数で区切られている場合。
本発明の開示において、そのような記述子はabspair記述子と呼ばれる。メイトが異なるリファレンスシーケンスにマッピングされている場合、リファレンスシーケンスを識別する記述子はrefidと呼ばれる。
・ペアのリードの場合にリードをそのメイトから分離するコード化されたリードの数。本発明の開示において、そのような記述子は、pcount記述子と呼ばれる。
リード長
可変長のリードの場合、リードあたりの記述子を使用して、リードを構成するヌクレオチドの数として表される長さを表す。明らかに、可変長リード長の場合には、リードごとにリード長記述子が必要である。
本開示では、この記述子は、rlen記述子とも呼ばれる。
リバースコンプリメント
アデニン(「A」)はチミン(「T」)とのみ結合し、シトシン(「C」)はグアニン(「G」)と結合するだけなので、DNAは各鎖が他方の相補鎖である二重らせんによって構成される。したがって、もう一方のヌクレオチド組成を知るためには、一方の鎖を表すだけで十分である。これが、リファレンスシーケンスが常に単一のシーケンスによって表される理由であり、マッピングツールは両方の鎖に属するリードについてマッピング位置を見つけることができる。リードがDNAヘリックスの相補鎖にマッピングされる場合、それは「リバースコンプリメント」であると言われる。記述子は、そのような情報をもたらすために必要であり、オリジナルのリードが、それがマッピングされるリファレンスシーケンスのリバースコンプリメントであるかどうかを示す情報をもたらす。
リバースコンプリメント記述子は、リードごとに必要である。
本開示では、そのような記述子は、rcomp記述子とも呼ばれる。
未知の塩基の位置
シーケンシング処理の間に、装置は、リード又はリードを構成するリードの所与の位置にある塩基を呼び出すことができないことが起こり得る。そのようなイベントは、対応するリード位置にある特定の記号「N」によって識別される。したがって、リード位置中の記号「N」の発生を識別する記述子が必要である。
記述子は以下を表すことができる。
・リファレンスシーケンスの座標として表される、ペアのリード又はリードにおける「N」記号の絶対位置、又は
・同じリード又はペアのリードにおける前の「N」の相対位置。
本開示では、そのような記述子は、nmis記述子とも呼ばれる。
位置とタイプの不一致
リファレンスシーケンスにマッピングされたシーケンスリードは、それらがマッピングされているリファレンスシーケンスセグメントに関してミスマッチを提示することがある。これらのミスマッチは分類され得、そして以下の場合に従って置換、欠失又は挿入として示される。
・リファレンスシーケンスに関して異なるヌクレオチド(塩基)の存在(置換)
・マッピングされたリードにヌクレオチドがない(欠失)
・リファレンスに含まれていないヌクレオチドがリード中に存在する(挿入)
各不一致タイプの表現は、1つはリード又はリードペアの不一致位置(mmposとも呼ばれる)、もう1つは置換のみが存在する場合の不一致のタイプ(サブタイプとも呼ばれる)、もう1つは、置換、挿入、及び削除が存在する場合のミスマッチのタイプを表す(mmtypeとも呼ばれる)、3つの記述子の使用を意味する。
ソフトクリップ
リファレンスシーケンス上にマッピングされたゲノムシーケンスリードは、マッピング位置でリファレンスシーケンス上に存在するヌクレオチドシーケンスのいずれにも一致しないヌクレオチドシーケンスのそれらのエッジ部分に存在し得る。これらのシーケンス部分はソフトクリップと呼ばれ、シーケンス部分の塩基を表す一連の記号によって単純に構成される記述子によって表すことができる。
リードの開始時及び/又は終了時に、リードで許可されるソフトクリップは1つ又は2つのみである。
この文書では、そのような記述子はsclips記述子とも呼ばれる。
マッピングフラグ
マッピングフラグは、次のような整列プロセスに関する特定の情報を伝えるために使用される。
・リード又はリードペアに対する複数のマッピング位置の存在
・スプライスリードの存在
・PCR(ポリメラーゼ連鎖反応)又は光学的複製の存在
・補助アラインメント(アライナが同じリード又はリードペアに対して複数の可能なマッピング位置を生成した場合に使用)
・リードが品質チェックに不合格となる(すなわち、シーケンシング処理の品質を測定するための技術ベンダ固有の手順)。
この文書では、そのような記述子はフラグ記述子とも呼ばれる。
マッピングされていないリード
リードがリファレンスシーケンスのどの位置にもマッピングされていない場合、リードはマッピングされていないとして分類される。そのような場合、マッピングされていないリードはすべて、いくつかの共通の特性に従ってグループ化される。このプロセスは「クラスタリング」と呼ばれる。同じ特性を共有するリードのグループはクラスタと呼ばれる。本発明の開示を通して、同じクラスタに属するシーケンスリードの間で共有される特徴はクラスタシグネチャ又はシグネチャと呼ばれる。
シグネチャは、2から数千までの任意の数のヌクレオチドで構成することができ、シグネチャはすべてのクラスタに対して固定長又は可変長のいずれかを持つことができる。シグネチャに属することができる記号のアルファベットは、処理されているシーケンスリードを生成するために配列決定された特定のゲノムサンプルに依存する。一例として、しかし限定としてではなく、以下のアルファベットを使用することができる。
・DNA用
○{A、G、C、T、N}
○{A、G、C、T、R、Y、S、W、K、M、B、D、H、V、N、.、−}(lUPAC表記)
・RNA用
○{A、G、C、U、N}
○{A、G、C、U、R、Y、S、W、K、M、B、D、H、V、N、.、−}(lUPAC表記)
・アミノ酸用
○{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}
クラスタシグネチャを計算するために使用されるアルファベットのタイプは、本開示で説明されるゲノムデータセットヘッダと呼ばれるデータ構造によってもたらされるパラメータAlphabet_IDによって識別される。
同じゲノムデータセットに属するクラスタのシグネチャは、固定長又は可変長であり得る。ゲノムデータセットのヘッダにコード化されたグローバルパラメータは、シグネチャの長さが固定か可変かを示すために使用される。シグネチャ長が固定の場合、第2のグローバルパラメータはクラスタシグネチャのシンボル単位の長さを表す。可変シグニチャ長の場合、この値は0である。マッピングされていないリードの各クラスタは、1つ以上のアクセスユニットにコーディングされる。
ミスマッチのないリード又はリードペアのコード化
リード又はリードペアがリファレンスシーケンスに完全にマッピングされる場合(すなわち、ミスマッチがない場合)、リード及び関連マッピング情報を再構成するために、以下の記述子のサブセットが必要とされる。
・リード又はリードペアごとの位置記述子(pos)
・リードごとに1つ、又はリードペアごとに2つのリバースコンプリメント記述子(rcomp)
・リードごとの長さ記述子(可変長リード専用の場合)(rlen)
・リードペア(ペア)ごとのペアリング記述子
・マッピングフラグ({flags)のセット
本発明では、そのようなリード又はリードペアはクラスPに属するものとして分類される。
位置記述子posは、リード又はリードペアの左端のマッピング塩基のリファレンスゲノム上の位置を表す。その使用方法を図5に示す。
リバースコンプリメント記述子rcompは、リードがリファレンスシーケンスの直接鎖又は逆鎖のどちらにマッピングされるかを示す。この記述子の意味と構文は、図7と図8に示される。
可変長リードの場合、記述子rlenはリード長をコード化する。
ペア記述子は、ペア全体を再構成するために必要な情報をもたらす。記述子の構文は、図9に示される。
クラスPに属するリードペアのコード化の例を図10に提供し、可変長の単一リードの対応する例を図11に提供する。
未知の塩基によってのみ表されるミスマッチを有するリード又はリードペアのコード化
リード又はリードペアがリファレンスシーケンスにマッピングするが、少なくとも1つの未知の塩基を含む場合、リード及び関連マッピング情報を再構成するために、以下の記述子のサブセットが必要とされる。
・リード又はリードペアごとのポジション記述子{pos)
・リードごとに1つ、又はリードペアごとに2つのリバースコンプリメント記述子{rcomp)
・未知の塩基ごとの位置{nmis)
・リードごとの長さ記述子(可変長リード専用の場合){rlen)
・リードペアごとのペアリング記述子(pair)
・マッピングフラグ(flags)のセット
クラスPサブセットにすでに存在する記述子は、同じ構文と動作を有する。追加の記述子nmisは、シーケンシング処理によって「未知」と呼ばれる塩基(記号「N」)のリード(ペア)における位置を提供する。
本発明では、そのようなリード又はリードペアはクラスNに属するものとして分類される。
クラスNのリードペアのコード化の一例を図12に提供する。
未知の塩基及び置換を有するリード又はリードペアのコード化
リード又はリードペアがリファレンスシーケンスにマッピングし、少なくとも1つの置換を示すが欠失又は挿入を示さない場合、リード及び関連マッピング情報を再構成するために、以下の記述子のサブセットが必要とされる。
・リード又はリードペアごとの位置記述子(pos)
・リードごとに1つ、又はリードペアごとに2つのリバースコンプリメント記述子(rcomp)
・置換位置ごとの記述子(mmpos)
・置換タイプ(サブタイプ)ごとの記述子
・未知の塩基ごとの位置(nmis)
・リードごとの長さ記述子(可変長リード専用の場合)(rlen)
・リードペア(ペア)ごとのペアリング記述子
・マッピングフラグ(flags)のセット
クラスPサブセットにすでに存在する記述子は、同じ構文と意味を有する。このようなシーケンスリードデータクラスに使用される追加の記述子は、置換の位置を表すmmposと置換のタイプを表すサブタイプである。
このタイプのリードペアのコード化の例を図13に示す。
本発明の開示において、そのようなリード又はリードペアはクラスMに属すると言われる。
少なくとも1つの挿入、削除、又はソフトクリップを使用したリード又はリードペアのコード化
リード又はリードペアが少なくとも1つの挿入欠失又はソフトクリップを有するリファレンスシーケンスにマッピングするとき、以下の記述子のサブセットが定義される。
・リード又はリードペアごとの位置記述子(pos)
・リードごとに1つ、又はリードペアごとに2つのリバースコンプリメント記述子(rcomp)
・ミスマッチの位置(挿入、削除、置換)ごとの記述子(mmpos)
・ミスマッチのタイプ(挿入、削除、置換)ごとの記述子(mmtype)
・ソフトクリップ(スクリップ)のシーケンスごとの記述子
・未知の塩基ごとの位置(nmis)
・リードごとの長さ記述子(可変長リード専用の場合)(rlen)
・リードペア(ペア)ごとのペアリング記述子
・マッピングフラグ{flags)のセット
クラスMサブセットにすでに存在する記述子は、同じ構文と意味を有する。この場合に使用される追加の記述子は、置換、挿入及び削除の位置を表すmmpos、ミスマッチのタイプを表すmmtype(置換、挿入又は削除)、及びソフトクリップされた塩基を表すsclipsである。
本発明の開示において、そのようなリード又はリードペアはクラスIに属すると言われる。クラスIに属するリードペアのコード化の例が図14に提供される。
リファレンスシーケンスに1つのリードのみがマッピングされているリードペア
リードペアが(クラスP、N、M、又はIのいずれかに属する)マッピングされているリード及びマッピングされていないリードによって構成されている場合、そのペアはクラスHM(Half Mapped)と呼ばれる別のクラスに属するものとして分類される。
リファレンスシーケンス上にマッピングされたリードは、上述のクラス(P、N、M、I)のいずれでもよく、各クラスについて既に説明した記述子のサブセットを使用してコード化される。マッピングされていないリードは、適切なエントロピーコーダを使用してそれを表す記号の文字列を圧縮することによってコード化される。
マッピングされていないリード又はリードペアのコード化と「内部」リファレンスの作成
クラスUに属するリード又はクラスHMに属するリードペアのマッピングされていないメイトは、指定されたマッチング精度の制約を満たす「既存の」リファレンスシーケンスにマッピングすることはできない。本発明は、これらのデータクラスに属するリードを整列及び圧縮するために使用されるべき1つ以上の「内部」リファレンスシーケンスを構築するための方法を開示する。
制限としてではなく、例えば適切な「内部」リファレンスを構築するためのいくつかのアプローチが可能である。
・マッピングされていないリードを、少なくとも最小サイズ(シグネチャ)の共通の連続ゲノムシーケンスを共有するリードを含むクラスタに分割すること。図24に示すように、各クラスタはそのシグネチャによって一意的に識別できる。
・任意の意味のある順序(例えば、辞書順)でのリードのソート、及び最後のN番目のリードの、N+1番目のコード化のための「内部」リファレンスとしての使用。この方法を図25に示す。
・指定されたマッチング精度の制約又は新しい制約のセットに従って前記クラスに属する全てのリード又は関連するリードのサブセットを整列及びコード化することができるように、クラスUのリードのサブセットに対していわゆる「デノボアセンブリ」を実行する。
指定されたマッチング精度制約のセットを満たす「内部」リファレンスにコーディングされているリードをマッピングできる場合、圧縮後にリードを再構成するために必要な情報は、次のタイプの構文要素を使用してコーディングされる。
1.内部リファレンス(pos記述子)内のリード番号に関して、内部リファレンス上の一致部分の開始位置。この位置は、以前にコード化されたリードに関して絶対値又は微分値としてコード化することができる。
2.内部リファレンス(ペア記述子)内の対応するリードの先頭からの開始位置のオフセット。例えば。リード長が固定の場合、実際の位置はpos*length+pairである。
3.ミスマッチ位置(snpp記述子)及びタイプ(snpt記述子)としてコーディングされた、可能なミスマッチの存在
4.内部リファレンスと一致しない(又は一致するが、定義済みの閾値を超えるミスマッチの数が多い)リードの部分(通常はpairで識別されるエッジ)は、indc記述子にコード化される。図26に示すように、indc記述子にコード化されたミスマッチのエントロピーを減らすために、使用されている内部リファレンスの一部のエッジに対してパディング操作を実行できる。最も適切なパディングの戦略は、処理中のゲノムデータの統計的特性にしたがってコード化することにより選択することができる。考えられるパディング戦略は次のとおりである。
a.パディングなし
b.現在コード化データの頻度に応じて選択された固定のパディングパターン
c.最新のN個のコード化されたリードに関して定義された現在のコンテキストの統計的特性に従った可変パディングパターン
特定のタイプのパディングストラテジーは、indc記述子ストリームヘッダーの特別な値によって通知される。
5.リードが、内部の自己生成、外部、又はリファレンスなし(rtype記述子)のいずれを使用してコード化されているかを示すフラグ
6.逐語的にコード化されているリード(ureads記述子)。
図26は、そのようなコーディング手順の例を提供する。
図27は、pos+pair構文要素が符号付きposに置き換えられている場合の、内部リファレンス上のマッピングされていないリードの代替コード化を示す。この場合、posは、リファレンスシーケンス上の位置に関して、リードn−1の最も左のヌクレオチドの位置に対するリードnの最も左のヌクレオチド位置の距離を表す。
クラスUのリードが可変長を示す場合、n個の追加の記述子rlenが各リード長を格納するために使用される。
このコーディング手法は、リードごとにN個の開始位置をサポートするように拡張することができ、それによってリードを2つ以上の基準位置にわたって分割することができる。これは、シーケンシング技術においてループによって生成される繰り返しパターンを通常示す非常に長いリード(50K+塩基)を生成し、それらのシーケンシング技術(例えば、Pacific Bioscienceからの)によって生成されるリードをコード化するのに特に有用であり得る。同じアプローチを同様に使用して、ほとんど又は全く重複することなくゲノムの2つの異なる部分に整列するリードとして定義されるキメラシーケンスリードをコードすることができる。
上記のアプローチは、単純なクラスU以外にも明確に適用でき、リード位置に関連する構文要素を含むすべてのストリーム(posストリーム)に適用できる。
複数のマッピング位置を持つペアのリードとリード
リファレンスシーケンスの複数の座標にマッピングされている1つ以上のリードペアの場合は、コード化されたデータレコードを複製することによるSAM又はCRAMのような最先端の手法、及び冗長性が導入されているため、圧縮効率が明らかに低下することになるデータ内の散乱を生じる随意的なフィールドのアドホックな追加によってサポートされる。さらに、1つのリードがそれぞれのメイトの複数のマッピング位置に対にされるペアエンドリードのいくつかのマッピング構成は、ユーザ定義のオプションフィールドによってのみサポートされる。リファレンスシーケンス上で適切なマッピングを見つけるために2つ以上のサブシーケンスに分割される必要があるリード及びリードペアの表現についても同じことが言える。そのようなアプローチの主な結果は、データの再利用性に大きな影響を及ぼし、ある部分表現から別の部分表現に渡すときの情報の損失と共に、非効率的な表現の増殖である。
本開示に記載された方法は、複数のマッピング位置及びスプライスされたリードの両方の表現をサポートし、圧縮及び圧縮データのアクセス可能性の両方に関して、既存の解決策よりもはるかに効率的である。より良い圧縮は、均質な統計的性質を有する記述子と適切なコンテキストを有する異なるエントロピーコーダとをグループ化する可能性によって提供される。より良いファイルアクセシビリティは、コード化された情報全体を解凍してアクセスする必要なしに、特定のタイプのゲノムデータの解凍及び検索を可能にするインデックスメカニズムの定義によって提供される。例えば、本開示に記載されている発明は、スプライスされたリードの有無にかかわらず複数のマッピング位置を有するシーケンスリード又はリードペアの検索を可能にするインデックス付けメカニズムを提供する。これは、SAM及びCRAMのような最先端のゲノム情報表示フォーマットでは現在不可能である。
複数のアライメントを持つリードペアをコード化する場合、SAMとCRAMは、他のリードのシングルアライメントに関連付けられたペアで、あるリードの複数アライメントの表現をサポートする可能性がない。当業者は、これがRNA_seq及びChlP_seqなどの実験において頻繁に見られるケースであり、そして今日、SAM及びCRAMは、ペアにおけるリードのマルチプルアラインメント間のカップリングのすべての可能な組み合わせをサポートする方法を有さない。本開示において提案される解決策は、ハイスループットシーケンシング(HTS)装置によって生成されたゲノムデータにおいて今日見出される全ての可能な構成をサポートすることができる。
ゲノムシーケンスリードをリファレンスシーケンスにマッピングするとき、以下の結果が考えられる。
1.確立された制約に従ってリファレンスシーケンスの単一領域にリードをマッピングする。この場合、マッピングは「一意的」であると言われる、
2.リードは、リファレンスシーケンスの2つ以上のゲノム領域に完全に一致する、
3.多数の可能なマッピング位置が位置合わせツールによって報告される。各マッピングはそれぞれの領域からの編集距離が異なるが、アライナはそれらのすべてが有効であると見なす。アライナは通常、完全に実装に依存する方法で各アライメントにスコアを割り当てる。割り当てられたスコアによると、「一次」アライメントには通常フラグが立てられる。アライメントが他のものとまったく同じ編集距離と同じミスマッチを示す可能性がある。
ケース1は、アライメントの一意性がコード化されていることを単に要求する。
ケース2は、すべてのマッピングが等しい可能性であるため、「一次」又は「二次」アライメントが存在しないことを認識する必要がある。コード化される唯一の追加情報は、すべてのマッピング位置のベクトルである。
ケース3は、全てのマッピング位置がコード化されたリードのアレイとしてコード化されることを要求する。本発明に開示されているすべての必要な記述子は必要なときにマッピング位置ごとに複製されなければならない。マッピング位置が異なれば、リファレンスに関してさまざまなレベルのエラー(置換、インデル、切り捨てられた塩基)を示すことがある。
スプライスリード
スプライスされたリードは、リファレンスシーケンス上の適切なマッピング領域を見つけるために2つ以上のサブリードに分割される必要があるシーケンスリードとして定義される。この場合、サブリード間の距離(「ジャンクション」と呼ばれる)は通常、欠失と見なすには大きすぎる。スプライスされたリードのマッピングは、リファレンスシーケンスの直接鎖又はリバース鎖を指すことができ、したがって、「絶対鎖」と呼ばれるこの情報は保存されそしてコード化されなければならない。
スプライスされたリードのコード化は各スプライスのマッピング位置の保存を必要とし、それは可変長リードとして考慮されなければならず、固定長リードのみを含むゲノムデータセットにコード化される。
マルチプルアライメントとスプライスリードの記述子
以下の説明において、テンプレートという用語はSAMの明細書におけるように使用され、その一部がシーケンシング装置で配列決定されるか、又は生シーケンスから組み立てられるヌクレオチドシーケンスを識別する。使用されるシーケンシング技術によれば、鋳型の配列決定は、単一のヌクレオチドシーケンス(1回のリード)又は「ペア」と言われる2つの配列のいずれかを生成することができる。これに関連して、セグメントは連続したシーケンス又はサブシーケンスとして定義される。
複数のアライメント位置を使用してリード又はリードペアをコード化する場合、コード化されたデータによって伝達される情報は次のとおりである。
・テンプレート内の各セグメントのすべてのマッピング位置(例:Read1とRead2)
・テンプレートに対する任意の一次マッピングの存在(すなわち、リード1及びリード2)。
本発明の開示では、複数のマッピング位置及びスプライスされたリードのコーディングは以下によってサポートされる。
1.コード化データセットのレベルで定義され、データセットを構成するすべてのアクセスユニットに有効な2つのグローバルフラグ:
・ma:設定すると、データセット内に複数のアライメントが存在することを示す。
・sr:設定すると、データセット内にスプライスリードが存在することを示す。
2.以下の記述子:
・mmap記述子は、ペアのリード又は左端のリードがいくつの位置に配置されたかを示すために使用され、最初の数字(N)は、単一のセグメントとしてのリード(sr flag=0の場合)、又は複数の可能なアライメントのためにリードがスプライスされたすべてのセグメントを指す。Nの値は、このレコードのテンプレートに対してpos記述子の値がいくつコーディングされているかを示す。スプライスがない場合及びスプライスがある場合について以下に説明するように、Nの後に1つ以上の数Miが続く。
・スプライス記述子は、スプライスアライメントの場合に使用される。現在のレコードの各スプライスをいくつの塩基で構成するかを示す長さのリストである。各リードの長さは(固定リード長の場合はグローバルリード長さから、又は可変長リードの場合はlen記述子から)既知であるため、この記述子は、アライメントごとに各セグメントに使用されたセグメント数を計算するためにデコーダによって使用される。
・mmscore記述子は、アライメントごとのスコアの値とプライマリアライメントの指標を提供する。スコアは、整列ツールによって各特定のマッピング構成に割り当てられた信頼性のレベルを示す。通常は浮動小数点値を想定する。例えば、一次アライメント(すなわち、最良の候補と考えられるもの)は、最も高いスコアを有するものであり得る。
・mmsc記述子は、プライマリアライメントのマッピングの同じ連続性を保持しない代替セカンダリアライメントをサポートする(最も一般的な例は、CIGAR文字列にindelが含まれ、プライマリシーケンスにMのみが含まれる場合である)。この場合、一次アラインメントと他のアラインメントとの間の隣接性の違いをコード化する必要がある。
スプライスのないマルチプルアラインメント
データセットにスプライスが存在しない場合、グローバルのsrフラグは設定されず、splen記述子は使用されない。ペアエンドシーケンスでは、mmap記述子は、iが1から最初の(一番左の)リードアライメントの数(N1)までとなる、1つ以上の数(Mi)が続く1つの値Nで構成される。そのリードにスプライスが存在しない場合、N1=Nである。スプライスされているかどうかにかかわらず、最初のリードアライメントごとに、1つの値Miを使用して2番目のリードのアライメントに使用されるセグメント数(この場合はアライメント数)、最初のリードのアライメントのためにコーディングされるためのペア記述子の数を示す。
Mの値は、2回目のリードのアライメント数を示すP=Σ=1を計算するために使用され
ます。
この方法は図17に示される。
i=0の特別な値は、一番左のリードのi番目のアライメントが、最も左のリードのk番目のアライメントとすでにペアになっている最も右のリードのアライメントとをペアであることを、k<i(新しいアライメントは検出されず、これは上記の式と一致する)示す。
例として、最も単純なケースでは:
1.左端のリードに単一の位置合わせがあり、右端に2つの代替の位置合わせがある場合、Nは1の値を想定し、Miは2の値を想定する。
2.左端のリードに対して2つの代替アライメントが検出され、右端のリードに対して1つのみが検出された場合、Nは2、Miは1、M2は0と見なされる。
iが0に等しいとき、ペア記述子の関連する値は既存の第2のリードアラインメントを指す。
図17は、スプライスのないマルチプルアラインメントの場合のN、P、及びMの意味を示し、図18は、pos、ペア、及びmmap記述子がマルチプルアラインメント情報をコード化するためにどのように使用されるかを示す。
スプライスとのマルチプルアライメント
スプライスリードの場合は、splen記述子が使用される。N+P値のシーケンスの各レコードに対して構成される。最初のN個の値は、単一のリード又はの最初の(例えば、最も左の)リードのペアの各整列されたセグメントの長さを示す。以下のP値は、ペアエンドシーケンシングの場合、2番目のリードの各整列セグメントの長さを示す。Pは、
で計算される。ここで、Miの各値は、テンプレート全体のアライメントを構成するために、最初のリードの個々のアライメントに適用される。
レコードのsplen記述子の最初のN個の値により、Niの計算が可能になる。これは、最初のリードのアライメントの数を表す。N1=Nの場合、最初のリードに対してスプライスは存在しない。
次のレコードのSplen記述子のP値により、N2の計算が可能にする。これは、2番目のリードのアライメント数を示す。N2=Pの場合、2番目のリードにはスプライスが存在しない。
定義されたmmap及びsplen記述子は、いくつのリード又はリードペアが複数のマッピングを表すか、及びいくつのセグメントが各リード又はリードペアマッピングを構成しているかを一意的に識別することを可能にする。これを図19と図20に示す。
アライメントスコア
mmscore記述子は、アライメントのマッピングスコアをシグナリングすることを可能にする。シングルエンドシーケンスでは、テンプレートごとにN1値があり、ペアエンドシーケンスでは、テンプレート全体のアライメントごとに値がある。言い換えれば、リード1の1つのアライメントとリード2の1つのアライメントによって構成されるすべてのペアが、関連するスコアを持つことができる。ペアエンドリードの場合、合計スコア数は次のように計算される。

N.スコア=MAX(N1,N2)+M0

ここで、N1はリード1の合計アライメント数、N2はリード2の合計アライメント数、Mの数は0である。
シングルリードの場合、スコア数はN1に等しい。
スプライス記述子のないマルチプルアライメント
以下の表は、スプライスされたリードのないマルチプルアラインメントの場合における本発明の開示において定義されたmmap及びmmscore記述子の使用の意味及び効果を要約している。
スプライス記述子があるマルチプルアライメント
以下の表は、スプライス記述子があるマルチプルアライメントの場合の本発明の開示に定義されたmmap及びmmscore記述子の使用の意味と効果をまとめる。
異なる染色体上のマルチプルアライメント
アライメントプロセスが、一次マッピングが配置されているものとは別のリファレンスシーケンスへの代替マッピングを見つけることが起こり得る。
この場合、アプリケーションに関しては、テンプレートの代替マッピングが複数コーディングされている2つ以上の必然的に異なるアクセスユニット間の(ランダムアクセスの複雑さに関して)高速リンクを維持することが最も重要である。
独自に整列されたリードペアについて、本発明の開示は、ペア中の2つのリードが異なる染色体上にマッピングされる場合のキメラアラインメントを表すために使用される、ペアと名付けられた記述子を定義する。この記述子は、リファレンスと、同じテンプレートに対するさらなるアライメントを含む次のレコードの位置を通知するために使用できる。これを図30に示す。
ペア内の一番左のリードのための1つ以上のアライメントが現在コード化されているAUに関連するものとは異なるリファレンスシーケンス上に存在する場合、ペア記述子の予約値が使用される(ユニークなアラインメントの場合、別のリファレンスに提示されるアラインメントに用いられるものと同じではない)。予約値の後には、次のAUに含まれるすべてのものの中で最も左側のアライメントのリファレンス及び位置(すなわち、そのレコードに対するpos記述子の最初の復号化値)が続く。
挿入、削除、マッピングされていない部分を含む複数のアライメント
場合によっては、複数のアラインメントが、一致及び不一致の塩基、挿入、欠失及びソフトクリップの異なる構成を提示することがある。例えば、一次アラインメントが一致又はミスマッチ塩基のみを有し、したがってそれが連続したヌクレオチドシーケンスとしてマッピングされる一方で、二次アラインメントが挿入、欠失、ソフトクリップ又はスプライスを提示することは稀ではない。本開示を通して、マッピングされたリードが挿入を含まない場合、欠失又はクリップされた塩基はマッピング隣接性を有すると言われる。本発明の開示は、二次アラインメントが一次アラインメントの同じマッピング隣接(P、M又はNの場合のように)を保持するか否か(I、U、スプライス)をシグナリングする第3の記述子を定義する。この記述子、mmsc(マルチマッピングサブクラス用)は、原則として、アライメントごとのフラグにすぎない。mmscが設定されている場合は、マッピングされていないヌクレオチドを表す追加の記号「U」で拡張され、その後にマッピングされていないヌクレオチドの文字列が続く、アライナによって生成されたSAMシガー文字列の逐語表現が続きく。図31は、この記述子の使用例を示す。この記述子の構文は次のとおりである。
・すべての線形が同じマッピング隣接を共有する場合、単一の値が存在し、0に設定されます(N=0)。
・少なくとも1つのセカンダリアライメントでマッピングの連続性が維持されない場合、記述子は次のように構成される。
○最初の値N>0は、いくつセカンダリアライメントがマッピングの連続性を維持しないかを示す。
○次に、マッピングの連続性を維持しないで、次の要素を2次アライメントごとにN回繰り返す。
○1つの値は、マッピングの連続性を維持しないセカンダリアライメントに関連するペアリング値を示す。
○次の値は、ペアのどのリードがマッピングの連続性を維持しないかを示す。
○次の値は、マッピングの連続性を維持しないでリードのマッピング特性を表すシガー文字列を含む。
○シガー文字列がシンボル「S」を含む場合にのみ存在する任意の1つのフィールドは、クリップされたヌクレオチドの逐語的文字列を含む。
リファレンスシーケンス記述子
リファレンスシーケンスは一般に、対応する生物学的試料中に見出すことができるヌクレオチドを表す一連の記号として表される。DNAの場合、ヌクレオチドは4であり、記号A、C、G及びTによって表される。RNAの場合、TはUによって置換される。5番目の記号は、実験によって要求された信頼度に従ってヌクレオチドのタイプを決定することができなかった、シーケンシング装置がシーケンス中の座標を表すために付加される。本発明の開示では、リファレンスシーケンスは、完全に1つのアクセスユニットにコード化することも、2つ以上のサブシーケンスに分割することもできる。
エントロピーコード化されるリファレンスシーケンス又はサブシーケンスを表すために使用される記述子は、それぞれのアルファベットの許容されたシンボルに関するシーケンス又はサブシーケンスの逐語的表現である。
ソースモデル、エントロピーコーダ、及びコーディングモード
本発明に開示されたゲノムデータ構造の各データクラス、サブクラス及び関連する記述子ストリームについて、各ストリームによってもたらされるデータ又はメタデータの特定の特徴及びその統計的性質に従って、異なるコード化アルゴリズムを採用することができる。「コード化アルゴリズム」は、記述子ストリームの特定の「ソースモデル」と特定の「エントロピーコーダ」との関連付けとして意図されなければならない。特定の「ソースモデル」は、ソースエントロピーの最小化に関してデータの最も効率的なコード化を得るために特定され選択され得る。エントロピーコーダの選択は、コード化効率の考慮事項及び/又は確率分布の特徴、ならびに関連する実装の問題によって促進され得る。「コード化モード」とも呼ばれる特定の「コード化アルゴリズム」の各選択は、データセット全体のデータクラス又はサブクラスに関連する全体の「記述子ストリーム」に適用することができ、又は異なる「コード化モード」は、アクセスユニットに分割された記述子の各部分に適用される。
コーディングモードに関連付けられている各「ソースモデル」は、次のような特徴がある。
・各ソースによって発行された構文要素の定義(すなわち、位置の読み取り、ペアリング情報の読み取り、表2で定義されたリファレンスシーケンスに対するミスマッチなどのデータのクラスを表すのに使用される記述子のセット)。
・関連する確率モデルの定義
・関連するエントロピーコーダの定義
さらなる利点
定義されたデータクラス及びサブクラスへのシーケンスデータの分類は、単一の別々のデータソース(例えば距離、位置など)によって構文要素のシーケンスをモデル化することによって特徴付けられるより低い情報ソースエントロピーを利用する効率的なコーディングモードの実施を可能にする。
本発明の他の利点は、関心のあるタイプのデータのサブセットのみにアクセスすることが可能であることである。例えば、ゲノム学における最も重要な用途の1つは、リファレンス(SNV)又は集団(SNP)に対するゲノムサンプルの差異を見出すことにある。今日、そのようなタイプの分析は完全なシーケンスリードの処理を必要とするが、本発明により開示されたデータ表現を採用することにより、ミスマッチはすでに1〜3のデータクラスのみに分離される(「nタイプ」及び「iタイプ」ミスマッチとも考えられる利益に依存する)。さらなる利点は、新しいアライメントを取得するために、新しいリファレンスシーケンスが公開されるとき、又は既にマッピングされたものに対して再マッピングが実行されるときに、特定の「外部」リファレンスシーケンスを参照して圧縮されたデータ及びメタデータから別の異なる「外部」リファレンスシーケンスへの効率的なトランスコーディングを実行できることである(別のマッピングアルゴリズムを使用するなど)。
図28は、本発明の原理によるコード化装置287を示す。コード化装置287は、例えばゲノムシーケンシング装置280によって生成された生シーケンスデータ289を入力として受け取る。ゲノムシーケンシング装置280は、Illumina HiSeq 2500、Thermo Fisher Ion Torrentデバイス又はOxford Nanopore MinlONのように当該技術分野において既知である。生シーケンスデータ289はアライナユニット281に供給され、アライナユニット281はリードをリファレンスシーケンス2820に整列させることによってコード化のためのシーケンスを準備する。あるいは、専用モジュール282を使用して利用可能なリードからリファレンスシーケンスを生成することができる。このドキュメントの「クラスUのマッピングされていないリード用の内部リファレンスの構築」及び「クラスHM」のセクションで説明されている方法基準発生器282によって処理された後、リードは得られたより長いシーケンス上にマッピングすることができる。次いで、整列されたシーケンスはデータ分類モジュール284によって分類される。データクラス288は次に記述子エンコーダ285〜287に供給される。次いで、ゲノム記述子ストリーム2811は、レイヤによって運ばれるデータ又はメタデータの統計的特性に従ってレイヤをコード化する算術エンコーダ2812〜2814に供給される。結果は1つ以上のゲノムストリーム2815である。
図29は、本開示の原理による復号化装置298を示す。復号化装置298は、ネットワーク又は記憶素子から多重化ゲノムビットストリーム2910を受け取る。多重化ゲノムビットストリーム2910は、デマルチプレクサ290に供給され、エントロピーデコーダ292〜294に供給される個別のゲノムビットストリーム291を生成し、ゲノム記述子ストリーム295を生成する。抽出されたゲノム記述子ストリームは、記述子デコーダ296〜297に供給される。記述子をさらにシーケンスリードのクラスに復号化する。クラスデコーダ299は、ゲノム記述子2911及び変換されたリファレンス2914をさらに処理し、その結果をマージしてシーケンスの圧縮されていないリードを生成し、次いでこれを当技術分野で公知のフォーマット、例えばテキストファイル又はzip圧縮ファイル又はFASTQ又はSAM/BAMファイルにさらに格納できる。
クラスデコーダ299は、1つ以上のゲノムビットストリームによって運ばれる元のリファレンスシーケンスに関する情報を活用することによって元のゲノムシーケンスを再構成することができる。リファレンスシーケンスがゲノムストリームによって輸送されない場合、それらは復号化側で利用可能でなければならず、クラスデコーダによってアクセス可能でなければならない。
本明細書に開示されている本発明の技術は、ハードウェア、ソフトウェア、ファームウェア又はそれらの任意の組み合わせで実施することができる。ソフトウェアで実施されるとき、これらはコンピュータ媒体に格納され、ハードウェア処理装置によって実行されてもよい。ハードウェア処理ユニットは、1つ以上のプロセッサ、デジタル信号プロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路、又は他の個別論理回路を備えることができる。
本開示の技法は、携帯電話、デスクトップコンピュータ、サーバ、タブレット及び類似の装置を含む様々な装置又は装置において実施することができる。
アクセスユニットのタイプ
本発明の開示を通して、データクラスに分類され、圧縮層又は非圧縮層に構造化されたゲノムデータは、上で定義されたように異なるアクセスユニットに編成される。アクセスユニットは次のように区別される。
・それらが保有するゲノムデータ及びデータセットの性質及びそれらにアクセスすることができる方法を特徴付ける、タイプ、
・同じタイプに属するアクセスユニットに固有の順序を提供する順番。
あらゆるタイプのアクセスユニットは、さらに異なる「カテゴリ」に分類できる。
以下に、異なるタイプのゲノムアクセスユニットの定義の非網羅的リストを示す。
1)タイプ0のアクセスユニットは、アクセス又は復号化及びアクセスされるために他のアクセスユニットから来る情報を参照する必要はない。データ又はそれらが含むデータセットによってもたらされる全情報は、復号化装置又は処理アプリケーションによって独立して読み取られ、処理されることができる。例として、しかし限定としてではなく、タイプ0のアクセスユニットは、染色体又は全リファレンスゲノム又はその一部のようなコード化されたリファレンスシーケンスをもたらすに使用され得る。
2)タイプ1のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。
タイプ1のアクセスユニットに含まれるデータのリード又は復号化及び処理は、タイプ0の1つ以上のアクセスユニットにアクセスすることを必要とする。タイプ1のアクセスユニットは「クラスP」のシーケンスリードに関連するゲノムデータをコード化する。
3)タイプ2のアクセスユニットは、タイプ0のアクセスユニットによって運ばれるデータを参照するデータを含む。
タイプ2のアクセスユニットに含まれるデータのリード又は復号化及び処理は、タイプ0の1つ以上のアクセスユニットへのアクセスを必要とする。タイプ2のアクセスユニットは、「クラスN」のシーケンスリードに関連するゲノムデータをコード化する。
4)タイプ3のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。
タイプ3のアクセスユニットに含まれるデータのリード又は復号化及び処理は、タイプ0の1つ以上のアクセスユニットへのアクセスを必要とする。タイプ3のアクセスユニットは、「クラスM」のシーケンスリードに関連するゲノムデータをコード化する。
5)タイプ4のアクセスユニットは、タイプ0のアクセスユニットによって運ばれるデータを参照するデータを含む。
タイプ4のアクセスユニットに含まれるデータのリード又は復号化及び処理は、タイプ0の1つ以上のアクセスユニットへのアクセスを必要とする。タイプ4のアクセスユニットは、「クラスI」のシーケンスリードに関連するゲノムデータをコード化する。
6)タイプ5のアクセスユニットは、利用可能なリファレンスシーケンス(「クラスU」)にマッピングすることができないリードを含み、再構成された内部リファレンスシーケンスを使用した。タイプ5のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ5のアクセスユニットに含まれるデータのリード又は復号化及び処理は、タイプ0の1つ以上のアクセスユニットへのアクセスを必要とする。
7)タイプ6のアクセスユニットはリードペアを含み、一方のリードは4つのクラスP、N、M、Iのいずれにも属することができ、他方は利用可能なリファレンスシーケンス(「クラスHM」)にマッピングできない。タイプ6のアクセスユニットは、タイプ0のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ6のアクセスユニットに含まれるデータのリード又は復号化及び処理は、タイプ0の1つ以上のアクセスユニットへのアクセスを必要とする。
8)タイプ7のアクセスユニットは、タイプ1のアクセスユニットに含まれるデータ又はデータセットに関連するメタデータ(例えば、品質スコア)及び/又は注釈データを含む。タイプ7のアクセスユニットは、異なる層に分類及びラベル付けされてもよい。
9)タイプ8のアクセスユニットは、注釈データとして分類されたデータ又はデータセットを含む。タイプ8のアクセスユニットは、層に分類されラベル付けされてもよい。
10)追加のタイプのアクセスユニットは、ここで説明されている構造とメカニズムを拡張することができる。例として、しかし限定としてではなく、ゲノム変異体の呼び出し、構造的及び機能的分析の結果は、新しいタイプのアクセスユニットにコード化することができる。本明細書に記載されているアクセスユニット内のデータ編成は、アクセスユニット内にカプセル化されるいかなるタイプのデータを妨げるものではなく、コード化データの性質に関して完全に透明なメカニズムである。
タイプ0のアクセスユニットは順序付けられている(例えば番号付けされている)が、それらは順序付けられた方法で格納及び/又は送信される必要はない(技術的利点:並列処理/並列ストリーミング、多重化)。
タイプ1、2、3、4、5及び6のアクセスユニットは、順序付けされる必要はなく、順序付けられた方法で格納及び/又は送信される必要もない(技術的利点:並列処理/並列ストリーミング)。
図22は、アクセスユニットが、ヘッダと、一つ以上の同種データのストリームとによってどのように構成されるかを示す。各ストリームは1つ以上のブロックで構成できる。各ブロックはいくつかのパケットを含み、リード位置、ペアリング情報、リバースコンプリメント情報、位置とタイプのミスマッチなどを示すパケットは上で紹介した記述子の構造化シーケンスである。
各アクセスユニットは各ブロック内に異なる数のパケットを持つことができるが、アクセスユニット内ではすべてのブロックは同じ数のパケットを持つ。
各データパケットは、3つの識別子XYZの組み合わせによって識別できる。
・Xは、それが属するアクセスユニットを識別する。
・Yは、それが属するブロック(すなわちそれがカプセル化するデータ型)を識別する。
・Zは、同じブロック内の他のパケットに対するパケットの順序を表す識別子である。図23は、アクセスユニットとパケットラベリングの例を示す。ここで、AU_T_Nは、アクセスユニットのタイプに従った順番の通知を意味してもよく、意味しなくてもよい識別子Nを有するTタイプのアクセスユニットである。識別子は、もたらされるゲノムデータを完全に解読するのに必要とされるあるタイプのアクセスユニットを他のタイプのアクセスユニットと一意的に関連付けるために使用される。
任意のタイプのアクセスユニットは、異なる順序付けプロセスに従って異なる「カテゴリ」にさらに分類及びラベル付けすることができる。例えば、限定としてではなく、分類及びラベリングは、
異なる時間に同じ生物を配列決定する(アクセスユニットは「時間的」含意を有するゲノム情報を含む)、
2.同一生物の異なる性質の臓器の試料(例えば、ヒト試料については皮膚、血液、髪)を配列決定する。これらは「生物学的」意味を持つアクセスユニットである。
データ保存モード
コード化された記述子を記憶媒体に記憶するとき、2つは本発明の開示に記載されている手法である。
1.アクセスユニット連続(AUC)モード
2.記述子ストリーム連続(DSC)モード
AUCが適用されるとき、同じアクセスユニットに属する(しかし異なる記述子ストリーム)コード化データブロックは記憶媒体の隣接領域に格納される。
AUCモードは、データストレージに関して2つの異なる方法で実装できる。
a)記憶媒体上に隣接して記憶されたアクセスユニットの順序がクラスに基づくことができる、すなわち同じクラスのすべてのアクセスユニット(Class_ID)が記憶媒体内に連続して記憶されるクラスの連続(CC)。
b)リファレンス単位ベースのアクセスユニット、すなわち同じAU_IDを有するすべてのアクセスユニットの順序(すなわち、同じゲノム領域へのマッピング)が連続して格納されているゲノム領域の連続(GRC)。
AUC/CCモード方法は、単一クラスのデータにアクセスするときにより効率的である。AUC/GRCモードは、同じゲノム領域にマッピングされている任意のクラスのデータにアクセスするときにより効率的である。本開示に記載される発明及び関連する構文は、すべてのモードのDSC、AUC/CC及びAUC/GRC方法をサポートし、所望の選択的アクセス性能に従って任意のモードを選択する自由をエンコーダに残す。AUC/CCモード又はAUC/GRCモードが使用される場合、表2に列挙されるように、ゲノムデータセットヘッダによってもたらされるCC_Mode_Flagという名前のフラグによって通知される。
DSCが適用されると、同じ記述子ストリームに属するブロックは記憶媒体の隣接領域に記憶される。ゲノムデータは実際には、エントロピーエンコーディングの観点から均質なデータを表す、(1つ以上のブロックで構成された)記述子ストリームごとに編成される。
コード化方法の間にゲノムデータセットで使用される記憶代替は、表2にリストされるようにゲノムデータセットヘッダに記憶されたBlock_Header_Flagと呼ばれるフラグによって合図される。
AUCモードとDSCモードとの間の違いが図21に示されており、そこではアクセスユニットは、垂直方向にデータブロックBn_mにコードされた記述子のタイプを識別する記述子_IDを、水平方向にアクセスユニットIDを有する座標系で構築される。データブロックBn_mは、アクセスユニットmに対するタイプ(すなわち識別子)nのコード化された記述子を含む。
効率的な選択的アクセスのための圧縮ゲノムデータのインデックス付け
本開示では、位置合わせされたデータの特定の領域への選択的アクセスをサポートするために、2つのデータ構造、すなわちグローバルパラメータをもたらすゲノムデータセットヘッダ、及びコード化及び復号化処理中に使用されるマスタインデックステーブル(MIT)と呼ばれるインデックスツールが説明される。ゲノムデータセットヘッダの構文は表2に提供され、マスタインデックステーブルの構文は表3に提供される。
ゲノムデータセットヘッダ
ゲノムデータセットヘッダは、コード化されたゲノム情報を操作するためにエンコーダ及びデコーダによって使用されるグローバルパラメータをもたらすデータ構造である。
ゲノムデータセットヘッダに含まれる情報には、次のものがある。
・各データセットグループを一意的に識別するために使用されるデータセットグループ識別子、
・各データセットを一意的に識別するために使用されるゲノムデータセット識別子、
・データセットが準拠しているデータフォーマット仕様を識別するために使用されるブランド識別子。
・データセットが準拠しているデータフォーマット仕様を識別するために使用されるマイナーバージョン番号、
・固定長のリードをシグナルするために使用されるヌクレオチド中のコード化ゲノムリードの長さ、
・ペアエンドリードの存在を通知するフラグ
・ブロックヘッダの存在を通知するフラグ、
・どのAUコード化モードがデータセットAUC/CC又はAUC/GRCで使用されるかを通知するフラグ、
・リファレンスシーケンスに関してシーケンスリードのミスマッチをコードするために使用されるアルファベットのタイプ、
・データセットをコード化するために使用されたリファレンスシーケンスの数、
・各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの数値識別子、
・各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの文字列識別子、
・各リファレンスシーケンスに関連するアクセスユニットを数えるために使用される、リファレンスシーケンスあたりのコード化されたアクセスユニットの数、
・整列されたリード、整列されていないリード、マッピングされていないリード及びリファレンスシーケンスを区別するために使用されるコード化ゲノムデータのタイプ、
・データセットにコーディングされているデータクラスの数、
・復号化プロセス中に使用されるデータセット内でコード化されたデータクラスごとに使用される記述子の数、
・コード化されたマッピングされていないリードを索引付けするために使用されたクラスタの総数、
・コード化されたクラスタシグネチャを復号化するのに使用されるクラスタシグネチャをコード化するのに使用される整数値を表すのに使用されるビット数、
・すべてのクラスタシグネチャがヌクレオチドの数に関しての同じ長さを有するかを通知するフラグ
・クラスタシグネチャの長さ。
ゲノムデータセットヘッダの各要素の構文及び意味は、以下の表2に列挙されている。
表2.ゲノムデータセットヘッダの構文
マスタインデックステーブル
マスタインデックステーブル(MIT)と呼ばれるインデックス作成ツールが本発明に開示されている。
マスタインデックステーブル(MIT)は、次の要素を含む多次元シーケンスに基づく・リファレンスシーケンスに関して、異なる記述子ストリームからのブロックのセットとして、アクセスユニットに含まれるすべてのリード又はリードペアの一次アライメントの中で最も左の一致する塩基のヌクレオチド数としての位置。これは、表3のStart_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]によって表される。
・リファレンスシーケンスに関して、異なる記述子ストリームからのブロックのセットとして、アクセスユニットに含まれるすべてのリード又はリードペアの一次アラインメントの中で最も右の一致する塩基のヌクレオチドの数としての位置。これは、表3のEnd_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]によって表される。
各リファレンスシーケンスに関してコード化された各Classの各AUを構成する記述子の各コード化されたブロックの最初のバイトのバイトオフセット。オフセットは、データセットペイロードの最初のバイト(0からは始まる)を基準にして計算される。ブロックが空で(1)Block_Header_Flagが設定されている場合、それは0xFFFFFFFFに等しい。ブロックが空で、(2)Block_Header_Flagが設定されていない場合、それは記述子ストリーム内の次のブロックのBlock_Byte_Offset値、又は記述子ストリーム内の最後のブロックの場合は記述子ストリームのペイロードサイズに等しい。これは、表3のBlock_Byte_Offset[Sequence_ID][Class_ID][AU_ID][Descriptor_ID]によって表される。
・使用されているコード化方法に従って、グローバル構成パラメータによって通知され、情報の2つの代替ブロックである。
○各アクセスユニットが連続したデータブロックとして記憶媒体に格納されている場合の各アクセスユニットのバイトサイズ、又は
○同じ種類のすべての記述子が連続したデータブロックとしてコード化され、記憶媒体に格納されている場合、コード化された記述子の各ブロックのサイズ。
MITの最後のセクションは、記述子の各コード化されたブロックの前に付加されたヘッダの存在に従って使用される2つの代替セクションを含む。ブロックヘッダが存在する場合(Block_Header_Flag set)、MITは、各記述子ストリームのサイズをバイト単位で含む。ブロックヘッダが存在しない場合(Block_Header_Flag unset)、MITは各アクセスユニットのサイズをバイト単位で含む。
2つのコード化された方法の間の代替は、表2のBlock_Header_Flagと呼ばれるフラグによって通知される。
表3−マスタインデックステーブル
マスタインデックステーブルと複数のアライメント
マルチプルアラインメントが存在する場合、上で紹介したMITは、アクセスユニットにコード化されたリード又はリードペアのマルチプルアラインメントを考慮に入れるインデックス作成ツールを提供するために複製される。拡張マスタインデックステーブルには、
・リファレンスシーケンスに関して、異なる記述子ストリームからのブロックのセットとしての、アクセスユニットに含まれるすべてのリード又はリードペアのすべてのアラインメントの中で最も左に一致する塩基のヌクレオチド数としての位置。これは、表3のStart_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]によって表される。
・リファレンスシーケンスに関して、異なる記述子ストリームからのブロックのセットとしての、アクセスユニットに含まれるすべてのリード又はリードペアのすべてのアライメントの中で最も右に一致する塩基の位置(ヌクレオチド数として)。これは、表3のEnd_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]によって表される。

Claims (54)

  1. ゲノムシーケンスデータをコード化するための方法であって、前記ゲノムシーケンスデータはヌクレオチドのシーケンスのリードを含み、前記方法は、
    ・前記リードを1つ以上のリファレンスシーケンスと整列させて、整列されたリードを作成するステップ、
    ・前記整列されたリードを前記1つ以上のリファレンスシーケンスとの特定のマッチングルールに従って分類して、整列されたリードのクラスを作成するステップ、
    ・前記分類され整列されたリードを構文要素の多数のストリームとしてコード化するステップを備え、
    ・前記分類され整列されたリードを多数の構文要素のストリームとしてコード化することは、前記クラスの整列されたリードに従って前記構文要素を選択することを含み、
    ・前記構文要素のストリームにヘッダ情報を提供して、前記ゲノムデータブロックを別々にアクセス可能なデータユニットにエントロピーコード化するために連続したデータブロックを作成するゲノムシーケンスデータをコード化するための方法。
  2. ・前記指定されたマッチングルールを満たさない前記リードを、マッピングされていないリードのクラスに分類し、
    ・前記分類されたマッピングされていないリードを多数の構文要素のストリームとしてコード化し、
    ・前記構文要素のストリーム及び前記コード化されたリファレンスシーケンスにヘッダ情報を提供して、連続するアクセスユニットを作成すること、
    をさらに含む、請求項1に記載のコード化方法。
  3. 前記分類が、アラインメントに使用されるリファレンスシーケンス上に複数のアラインメント位置を有するゲノムリードを同定することを含む、請求項2に記載の方法。
  4. 前記分類することが、アラインメントのためのマッチングルールを満たすためにスプライスと名付けられた複数のセグメントに分割される必要があるゲノムリードを識別することを含む、請求項3に記載の方法。
  5. コード化されるゲノムシーケンスのリードがペアになっている、請求項4に記載のコード化方法。
  6. ・リードのアライメントの数を識別し、この数を特定の構文要素で表すステップ、
    ・アライメントごとに対応するマッピング位置を識別し、各マッピング位置を特定の構文要素で表すステップ、
    ・一次及び二次アラインメントを同定するために各アラインメントにアラインメントスコアを割り当てるステップ、
    ・一次アライメントとして最高スコアのアライメントを識別するステップ、
    ・プライマリとは異なるリファレンスでアライメントが見つかるかどうかを識別し、特定の記述子を使用してこの情報を表すステップ、及び
    一次アラインメントのリファレンスシーケンス上でアラインメントが別の連続を保存していないかどうかを識別し、この情報を特定の構文要素を使用して表すステップ、
    以下のステップをさらに含む、請求項5に記載のコード化方法。
  7. 前記1つ以上のリファレンスシーケンスとのマッチングを定義する所定のマッチングルールに従ってリファレンスシーケンス上に整列させるために2つ以上のスプライスに分割する必要があるリードを識別するステップ、
    グローバル構成パラメータを使用して、スプライスされたリードの存在を通知するステップ、
    特定の構文要素を使用してスプライスの数を表すステップ、及び
    特定の構文要素を使用して各スプライスの長さを表すステップ、
    をさらに含む、請求項6に記載のコード化方法。
  8. ・ペア内の各リードのアライメントの数を識別し、この数を特定の構文要素で表すステップ、
    ・ペアにおいて最も左のリードのアラインメントごとに、対応するマッピング位置を識別し、各マッピング位置を特定の構文要素で表すステップ、
    ・最も左のリードのそれぞれのアライメントごとに、前記ペアにおける最も右のリードの関連するアライメントを識別し、特定の構文要素との関連を表すステップ、
    ・一次アライメント及び二次アライメントを識別するために、アライメントの各ペアにアライメントスコアを割り当てるステップ、
    ・最も高いスコアを有する一組のアラインメントを一次アラインメントとして同定するステップ、
    ・プライマリとは異なるリファレンスにアライメントが見つかるかを識別し、特定の記述子を使用してこの情報を表すステップ、及び
    ・アラインメントが一次アラインメントとは異なる連続をリファレンスシーケンス上に示すかを識別し、特定の構文要素を使用してこの情報を表すステップ、
    をさらに含む、請求項7に記載のコード化方法。
  9. ・予め定義されたマッチングルールに従ってリファレンスシーケンスに整列させるために、2つ以上のスプライスに分割する必要があるリードを同定するステップ、
    ・グローバル構成パラメータを使用して、スプライスされたリードの存在を通知するステップ、
    ・特定の構文要素を使用して、ペアで最も左のリードのスプライスの数を表すステップ、
    ・左端のリードの各アライメントに関連付けられた右端のリードのスプライス数を特定の構文要素のベクトルで表すステップ、及び
    ・特定の構文要素を使用して各スプライスの長さを表すステップ、
    をさらに含む、請求項8に記載のコード化方法。
  10. 前記構文要素のストリームが、ゲノムデータセットヘッダを含み、
    ・各データセットグループを一意的に識別するために使用されるデータセットグループ識別子、
    ・各データセットを一意的に識別するために使用されるゲノムデータセット識別子、
    ・データセットが準拠しているデータ形式の仕様を識別するために使用されるブランド識別子、
    ?データセットが準拠しているデータフォーマット仕様を識別するために使用されるマイナーバージョン番号、
    ・固定長のリードを通知するために使用されるヌクレオチド中のコード化されたゲノムリードの長さ、
    ?ペアエンドリードの存在を通知するフラグ、
    ・ブロックヘッダの存在を通知するフラグ、
    ・前記アクセスユニットを復号化するときにデータアクセスを容易にするためにアクセスユニットが記憶媒体に記憶されるモードを通知するフラグ、
    ・リファレンスシーケンスに関してシーケンスリードのミスマッチをコード化するために使用されるアルファベットのタイプ、
    ・データセットのコードするために使用されたリファレンスシーケンスの数、
    ・各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの数値識別子、
    ・各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの文字列識別子、
    各リファレンスシーケンスに関連するアクセスユニットを数えるために使用される、リファレンスシーケンスあたりのコード化されたアクセスユニットの数、
    ・整列されたリード、整列されていないリード、マッピングされていないリード及びリファレンスシーケンスを区別するために使用されるコード化されたゲノムデータのタイプ、
    ・データセットにコーディングされているデータクラスの数、
    復号化処理中に使用されるデータセット内でコードされたデータクラスごとに使用される記述子の数、
    ・コード化されたマッピングされていないリードのインデックス付けに使用されたクラスタの総数、
    ・コード化されたクラスタシグネチャを復号化するのに使用されるクラスタシグネチャをコード化するのに使用される整数値を表すのに使用されるビット数、
    ・全てのクラスタシグネチャがヌクレオチドの数に関して同じ長さを有するかを通知するフラグ、
    ・クラスタシグネチャの長さ
    を含む、請求項9に記載の方法。
  11. 前記構文要素のストリームは、整列されたリードの各クラス及びサブクラスごとに1つのセクションを含むマスタインデックステーブル含み、
    前記セクションが、
    ・各クラス又はサブクラスのデータの各アクセスユニットの最も左のリードの一次アライメントの前記1つ以上のリファレンスシーケンス上のマッピング位置、
    ・各クラス又は各データのサブクラスの各アクセスユニットのすべての一次アラインメントの中の最も右にマッピングされた塩基の前記1つ以上のリファレンスシーケンス上の位置、
    ・各アクセスユニットを構成するコード化された構文要素の各ブロックのバイト単位のオフセット、
    を含む、請求項10に記載の方法。
  12. 前記マスタインデックステーブルは、各コード化された記述子ストリームのサイズと各アクセスユニットのサイズとをさらに含む、請求項11に記載の方法。
  13. ゲノムリードが複数のアライメントを有し、前記マスタインデックステーブルが、
    ・各クラス又は各データのサブクラスの各アクセスユニットのすべてのリードの中で最も左にアライメントされている前記1つ以上のリファレンスシーケンス上のマッピング位置、
    ・各クラス又は各データのサブクラスの各アクセスユニットのすべてのアラインメントの中で最も右にマッピングされた塩基の前記1つ以上のリファレンスシーケンス上の位置、及び
    ・各アクセスユニットを構成するコード化された構文要素の各ブロックのバイト単位のオフセット、
    を含む、請求項12に記載の方法。
  14. 前記アクセスユニットがコード化されたリードペアを含む、請求項13に記載の方法。
  15. 前記マスタインデックステーブルは、前記アクセスユニットデータと一緒にコード化される、請求項14に記載の方法。
  16. 前記ゲノムデータセットヘッダが前記アクセスユニットデータと一緒にコード化される、請求項15に記載の方法。
  17. 前記構文要素のストリームは、使用されるリファレンスのタイプ(既存又は構築されたもの)及びリファレンスシーケンスと一致しないリードのセグメントに関する情報をさらに含むことを特徴とする請求項16に記載の方法。
  18. 前記分類され整列されたリードを多数の構文要素のストリームとしてコード化することは、特定のソースモデル及び特定のエントロピーコーダを各記述子ストリームに関連付けるステップを含む、請求項17に記載の方法。
  19. 前記エントロピーコーダは、コンテキスト適応算術コーダ、可変長コーダ、又はゴロムコードのうちの1つである、請求項18に記載の方法。
  20. ・ヘッダ情報を使用することによって構文要素の複数のストリームを抽出するために、前記コードされた化ゲノムデータを含むアクセスユニットを解析するステップ、及び
    ・1つ以上のリファレンスシーケンスに関してそれらの分類を定義する特定のマッチングルールに従って整列されたリードを抽出するために構文要素の前記多数のストリームを復号化するステップ、
    を含む、コードされた化ゲノムデータを復号化するための方法。
  21. 請求項2に記載のようにコードされたマッピングされていないゲノムリードの復号化をさらに含む、請求項20に記載の復号化方法。
  22. グローバル構成パラメータを含むゲノムデータセットヘッダを復号化することをさらに含む、請求項21に記載の復号化方法。
  23. 各クラスのリードについて1つのセクションと、関連する関連マッピング位置と、コードしたブロックオフセットとを含むマスタインデックステーブルを復号化することをさらに含む、請求項22に記載の復号化方法。
  24. 使用される、既存の、変更さた又は構成されたリファレンスのタイプに関する情報を復号化することをさらに含む、請求項23に記載の復号化方法。
  25. 前記ゲノムリードが対になっている、請求項24に記載の復号化方法。
  26. 前記ゲノムデータがエントロピー復号化されている、請求項25に記載の復号化方法。
  27. ・各リードのアライメント数を復号化するステップ、
    ・各アライメントの位置を復号化するステップ、
    ・各アラインメントに関連するスコアを復号化することによって一次アラインメントを識別するステップ、及び
    ・二次アラインメントが、対応する構文要素を復号化することによって一次アラインメントとはリファレンスシーケンスに関して異なる隣接性を有するかどうかを識別するステップ、
    を含む複数のアライメント情報の復号化をさらに含む、請求項26に記載の復号化方法。
  28. ・コード化されたリードが2つ以上のスプライスに分割されているかどうかを識別するステップ、
    ・各スプライスの長さを復号化するステップ、及び
    ・各スプライスのマッピング位置を復号化するステップ、
    をさらに含む、請求項27に記載の復号化方法。
  29. 前記コード化されたゲノムリードがペアエンドリードであり、
    ・左端のリードの各アライメントに関連付けられた右端のリードのアライメントの数を復号化するステップ、
    ・最も左側のリードの各アライメントを最も右側のリードの1つ以上のアライメントと関連付けるペアリング情報を復号化するステップ、
    を含む、請求項28に記載の復号化方法。
  30. 前記コード化されたゲノムリードが、2つ以上のスプライスに分割され、
    ・各コード化されたスプライスの長さを復号化するステップ、
    ・各スプライスのマッピング位置を復号化するステップ、
    をさらに含む、請求項29に記載の復号化方法。
  31. ゲノムシーケンスデータ289の圧縮のためのゲノムエンコーダ(2810)であって、前記ゲノムシーケンスデータ289は、ヌクレオチドのシーケンスのリードを含み、前記ゲノムエンコーダ(2810)は、
    ・前記リードを1つ以上のリファレンスシーケンスに整列させ、それによって整列されたリードを作成するように構成される、アライナユニット(281)、
    ・構築されたリファレンスシーケンスを生成するように構成された、構築リファレンス生成ユニット(282)、
    ・1つ以上の既存のリファレンスシーケンス又は構築されたリファレンスシーケンスとの指定されたマッチングルールに従って前記整列されたリードを分類し、それによって整列されたリードのクラス(288)を作成する、データ分類ユニット(284)
    ・整列されたリードの前記クラスに従って前記構文要素を選択することによって、前記分類された整列されたリードを構文要素のストリームとしてコード化するように構成された、1つ以上の記述子コード化ユニット(285〜287)、
    ・それらの統計的特性に従って構文要素の前記ストリームを圧縮してゲノムストリーム(2815)を生成するように構成された1つ以上のエントロピーコード化ユニット(2812〜2814)、及び
    圧縮されたゲノムデータ及びメタデータを多重化するためのマルチプレクサ(2816)、
    を備えるゲノムエンコーダ。
  32. 請求項1に記載のコード化方法を実行するのに適したコード化手段をさらに備える、請求項31に記載のゲノムエンコーダ。
  33. 圧縮されたゲノムストリーム(291)を解凍するためのゲノムデコーダ(298)であって、前記ゲノムデコーダ(298)は、
    ・圧縮されたゲノムデータ及びメタデータを逆多重化するためのデマルチプレクサ(290)、
    ・前記圧縮されたゲノムストリームを構文要素(295)のゲノム層に解析するように構成された解析手段(292〜294)、
    ・ゲノム層をヌクレオチドのシーケンスの分類されたリード(2911)に復号化するように構成された、1つ以上の層のデコーダ(296〜297)、
    ・1つ以上のリファレンスシーケンス上のヌクレオチドのシーケンスの前記分類されたリードを選択的に復号化して、ヌクレオチドのシーケンスの圧縮されていないリードを生成するように構成された、ゲノムデータクラスデコーダ(299)、
    を備えるゲノムデコーダ。
  34. 前記1つ以上のリファレンスシーケンスは、圧縮されたゲノムストリーム(291)に格納されている、請求項33に記載のゲノムデコーダ。
  35. 前記1つ以上のリファレンスシーケンスは、帯域外メカニズムを介して前記デコーダに提供される、請求項34に記載のゲノムデコーダ。
  36. 前記1つ以上のリファレンスシーケンスがデコーダで構築される、請求項35に記載のゲノムデコーダ。
  37. 実行されると少なくとも1つのプロセッサに請求項1に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
  38. 実行されると少なくとも1つのプロセッサに請求項2に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
  39. 実行されると少なくとも1つのプロセッサに請求項3に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
  40. 実行されると少なくとも1つのプロセッサに請求項6に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
  41. 実行されると少なくとも1つのプロセッサに請求項7に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
  42. 実行されると少なくとも1つのプロセッサに請求項8に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
  43. 実行されると少なくとも1つのプロセッサに請求項9に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
  44. 実行されると少なくとも1つのプロセッサに請求項27の復号化方法を実行させる命令を備えるコンピュータ可読媒体。
  45. 実行されると少なくとも1つのプロセッサに請求項28に記載の復号化方法を実行させる命令を備えるコンピュータ可読媒体。
  46. 実行されると少なくとも1つのプロセッサに請求項29に記載の復号化方法を実行させる命令を備えるコンピュータ可読媒体。
  47. 実行されると少なくとも1つのプロセッサに請求項30に記載の復号化方法を実行させる命令を備えるコンピュータ可読媒体。
  48. 請求項1に記載の方法に従ってコード化されたゲノムを保存するサポートデータ。
  49. 請求項2に記載の方法に従ってコード化されたゲノムを保存するサポートデータ。
  50. 請求項3に記載の方法に従ってコード化されたゲノムを保存するサポートデータ。
  51. 請求項6に記載の方法に従ってコード化されたゲノムを保存するサポートデータ。
  52. 請求項7に記載の方法に従ってコードされたゲノムをコードするサポートデータ。
  53. 請求項8に記載の方法に従ってコード化されたゲノムを保存するサポートデータ。
  54. 請求項9に記載の方法に従ってコード化されたゲノムを保存するサポートデータ。
JP2019540513A 2016-10-11 2017-07-11 リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム Withdrawn JP2020500383A (ja)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
EPPCT/EP2016/074297 2016-10-11
PCT/EP2016/074301 WO2018068828A1 (en) 2016-10-11 2016-10-11 Method and system for storing and accessing bioinformatics data
EPPCT/EP2016/074301 2016-10-11
PCT/EP2016/074297 WO2018068827A1 (en) 2016-10-11 2016-10-11 Efficient data structures for bioinformatics information representation
EPPCT/EP2016/074307 2016-10-11
EPPCT/EP2016/074311 2016-10-11
PCT/EP2016/074311 WO2018068830A1 (en) 2016-10-11 2016-10-11 Method and system for the transmission of bioinformatics data
PCT/EP2016/074307 WO2018068829A1 (en) 2016-10-11 2016-10-11 Method and apparatus for compact representation of bioinformatics data
USPCT/US2017/017841 2017-02-14
PCT/US2017/017841 WO2018071054A1 (en) 2016-10-11 2017-02-14 Method and system for selective access of stored or transmitted bioinformatics data
USPCT/US2017/017842 2017-02-14
PCT/US2017/017842 WO2018071055A1 (en) 2016-10-11 2017-02-14 Method and apparatus for the compact representation of bioinformatics data
PCT/US2017/041591 WO2018071080A2 (en) 2016-10-11 2017-07-11 Method and systems for the representation and processing of bioinformatics data using reference sequences

Publications (2)

Publication Number Publication Date
JP2020500383A true JP2020500383A (ja) 2020-01-09
JP2020500383A5 JP2020500383A5 (ja) 2020-08-20

Family

ID=61905752

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2019540510A Withdrawn JP2020505702A (ja) 2016-10-11 2017-02-14 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム
JP2019540512A Withdrawn JP2019537172A (ja) 2016-10-11 2017-07-11 バイオインフォマティクスデータのインデックスを付けるための方法及びシステム
JP2019540513A Withdrawn JP2020500383A (ja) 2016-10-11 2017-07-11 リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム
JP2019540511A Active JP7079786B2 (ja) 2016-10-11 2017-07-11 アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2019540510A Withdrawn JP2020505702A (ja) 2016-10-11 2017-02-14 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム
JP2019540512A Withdrawn JP2019537172A (ja) 2016-10-11 2017-07-11 バイオインフォマティクスデータのインデックスを付けるための方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019540511A Active JP7079786B2 (ja) 2016-10-11 2017-07-11 アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置

Country Status (17)

Country Link
US (6) US20200042735A1 (ja)
EP (3) EP3526694A4 (ja)
JP (4) JP2020505702A (ja)
KR (4) KR20190073426A (ja)
CN (6) CN110168651A (ja)
AU (3) AU2017342688A1 (ja)
BR (7) BR112019007359A2 (ja)
CA (3) CA3040138A1 (ja)
CL (6) CL2019000968A1 (ja)
CO (6) CO2019003638A2 (ja)
EA (2) EA201990916A1 (ja)
IL (3) IL265879B2 (ja)
MX (2) MX2019004130A (ja)
PE (7) PE20191058A1 (ja)
PH (6) PH12019550060A1 (ja)
SG (3) SG11201903270RA (ja)
WO (4) WO2018071054A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2526598B (en) * 2014-05-29 2018-11-28 Imagination Tech Ltd Allocation of primitives to primitive blocks
US11574287B2 (en) 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US11030324B2 (en) * 2017-11-30 2021-06-08 Koninklijke Philips N.V. Proactive resistance to re-identification of genomic data
WO2019191083A1 (en) * 2018-03-26 2019-10-03 Colorado State University Research Foundation Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules
MX2020012672A (es) * 2018-05-31 2021-02-09 Koninklijke Philips Nv Sistema y metodo para interpretacion de alelos usando un genoma de referencia basado en graficos.
CN108753765B (zh) * 2018-06-08 2020-12-08 中国科学院遗传与发育生物学研究所 一种构建超长连续dna序列的基因组组装方法
US20200058379A1 (en) * 2018-08-20 2020-02-20 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Compressing Genetic Sequencing Data and Uses Thereof
GB2585816A (en) * 2018-12-12 2021-01-27 Univ York Proof-of-work for blockchain applications
US20210074381A1 (en) * 2019-09-11 2021-03-11 Enancio Method for the compression of genome sequence data
CN110797087B (zh) * 2019-10-17 2020-11-03 南京医基云医疗数据研究院有限公司 测序序列处理方法及装置、存储介质、电子设备
JP2022553199A (ja) 2019-10-18 2022-12-22 コーニンクレッカ フィリップス エヌ ヴェ 多様な表形式データの効果的な圧縮、表現、および展開のためのシステムおよび方法
CN111243663B (zh) * 2020-02-26 2022-06-07 西安交通大学 一种基于模式增长算法的基因变异检测方法
CN111370070B (zh) * 2020-02-27 2023-10-27 中国科学院计算技术研究所 一种针对大数据基因测序文件的压缩处理方法
US20210295949A1 (en) * 2020-03-17 2021-09-23 Western Digital Technologies, Inc. Devices and methods for locating a sample read in a reference genome
US11837330B2 (en) 2020-03-18 2023-12-05 Western Digital Technologies, Inc. Reference-guided genome sequencing
EP3896698A1 (en) * 2020-04-15 2021-10-20 Genomsys SA Method and system for the efficient data compression in mpeg-g
CN111459208A (zh) * 2020-04-17 2020-07-28 南京铁道职业技术学院 针对地铁供电系统电能的操纵系统及其方法
AU2021342166A1 (en) * 2020-09-14 2023-01-05 Illumina, Inc. Custom data files for personalized medicine
CN112836355B (zh) * 2021-01-14 2023-04-18 西安科技大学 一种预测采煤工作面顶板来压概率的方法
ES2930699A1 (es) * 2021-06-10 2022-12-20 Veritas Intercontinental S L Metodo de analisis genomico en una plataforma bioinformatica
CN113670643B (zh) * 2021-08-30 2023-05-12 四川虹美智能科技有限公司 智能空调测试方法及系统
CN113643761B (zh) * 2021-10-13 2022-01-18 苏州赛美科基因科技有限公司 一种用于解读二代测序结果所需数据的提取方法
US20230187020A1 (en) * 2021-12-15 2023-06-15 Illumina Software, Inc. Systems and methods for iterative and scalable population-scale variant analysis
CN115391284B (zh) * 2022-10-31 2023-02-03 四川大学华西医院 基因数据文件快速识别方法、系统和计算机可读存储介质
CN116541348B (zh) * 2023-03-22 2023-09-26 河北热点科技股份有限公司 数据智能存储方法及终端查询一体机
CN116739646B (zh) * 2023-08-15 2023-11-24 南京易联阳光信息技术股份有限公司 网络交易大数据分析方法及分析系统
CN117153270B (zh) * 2023-10-30 2024-02-02 吉林华瑞基因科技有限公司 一种基因二代测序数据处理方法

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6303297B1 (en) * 1992-07-17 2001-10-16 Incyte Pharmaceuticals, Inc. Database for storage and analysis of full-length sequences
JP3429674B2 (ja) 1998-04-28 2003-07-22 沖電気工業株式会社 多重通信システム
EP1410301A4 (en) * 2000-04-12 2008-01-23 Cleveland Clinic Foundation SYSTEM FOR IDENTIFYING AND ANALYZING GENE EXPRESSION CONTAINING ELEMENTS RICH IN ADENYLATE URIDYLATE (ARE)
FR2820563B1 (fr) * 2001-02-02 2003-05-16 Expway Procede de compression/decompression d'un document structure
US20040153255A1 (en) * 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium
DE10320711A1 (de) * 2003-05-08 2004-12-16 Siemens Ag Verfahren und Anordnung zur Einrichtung und Aktualisierung einer Benutzeroberfläche zum Zugriff auf Informationsseiten in einem Datennetz
WO2005024562A2 (en) * 2003-08-11 2005-03-17 Eloret Corporation System and method for pattern recognition in sequential data
US7805282B2 (en) * 2004-03-30 2010-09-28 New York University Process, software arrangement and computer-accessible medium for obtaining information associated with a haplotype
US8340914B2 (en) * 2004-11-08 2012-12-25 Gatewood Joe M Methods and systems for compressing and comparing genomic data
US20130332133A1 (en) * 2006-05-11 2013-12-12 Ramot At Tel Aviv University Ltd. Classification of Protein Sequences and Uses of Classified Proteins
SE531398C2 (sv) 2007-02-16 2009-03-24 Scalado Ab Generering av en dataström och identifiering av positioner inuti en dataström
KR101369745B1 (ko) * 2007-04-11 2014-03-07 삼성전자주식회사 비동기화된 비트스트림들의 다중화 및 역다중화 방법 및장치
US8832112B2 (en) * 2008-06-17 2014-09-09 International Business Machines Corporation Encoded matrix index
GB2477703A (en) * 2008-11-14 2011-08-10 Real Time Genomics Inc A method and system for analysing data sequences
US20100217532A1 (en) * 2009-02-25 2010-08-26 University Of Delaware Systems and methods for identifying structurally or functionally significant amino acid sequences
DK2494060T3 (en) * 2009-10-30 2016-08-01 Synthetic Genomics Inc Coding of text for nucleic acid sequences
EP2362657B1 (en) * 2010-02-18 2013-04-24 Research In Motion Limited Parallel entropy coding and decoding methods and devices
US20140228223A1 (en) * 2010-05-10 2014-08-14 Andreas Gnirke High throughput paired-end sequencing of large-insert clone libraries
CA2797645C (en) * 2010-05-25 2020-09-22 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
JP6420543B2 (ja) * 2011-01-19 2018-11-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータ処理方法
US9215162B2 (en) * 2011-03-09 2015-12-15 Annai Systems Inc. Biological data networks and methods therefor
CN103797486A (zh) * 2011-06-06 2014-05-14 皇家飞利浦有限公司 用于组装核酸序列数据的方法
PL2721819T3 (pl) * 2011-06-16 2024-02-19 Ge Video Compression, Llc Kodowanie entropijne obsługujące przełączanie trybów
US8707289B2 (en) * 2011-07-20 2014-04-22 Google Inc. Multiple application versions
CN104081772B (zh) * 2011-10-06 2018-04-10 弗劳恩霍夫应用研究促进协会 熵编码缓冲器配置
EP2776962A4 (en) * 2011-11-07 2015-12-02 Ingenuity Systems Inc METHODS AND SYSTEMS FOR IDENTIFICATION OF CAUSAL GENOMIC VARIANTS
KR101922129B1 (ko) * 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
KR20190016149A (ko) * 2011-12-08 2019-02-15 파이브3 제노믹스, 엘엘씨 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
EP2608096B1 (en) * 2011-12-24 2020-08-05 Tata Consultancy Services Ltd. Compression of genomic data file
US9600625B2 (en) * 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data
CN103049680B (zh) * 2012-12-29 2016-09-07 深圳先进技术研究院 基因测序数据读取方法及系统
US9679104B2 (en) * 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
WO2014145503A2 (en) * 2013-03-15 2014-09-18 Lieber Institute For Brain Development Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto
JP6054790B2 (ja) * 2013-03-28 2016-12-27 三菱スペース・ソフトウエア株式会社 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム
GB2512829B (en) * 2013-04-05 2015-05-27 Canon Kk Method and apparatus for encoding or decoding an image with inter layer motion information prediction according to motion information compression scheme
WO2014186604A1 (en) * 2013-05-15 2014-11-20 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
KR101522087B1 (ko) * 2013-06-19 2015-05-28 삼성에스디에스 주식회사 미스매치를 고려한 염기 서열 정렬 시스템 및 방법
CN103336916B (zh) * 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
US20150032711A1 (en) * 2013-07-06 2015-01-29 Victor Kunin Methods for identification of organisms, assigning reads to organisms, and identification of genes in metagenomic sequences
KR101493982B1 (ko) * 2013-09-26 2015-02-23 대한민국 품종인식 코드화 시스템 및 이를 이용한 코드화 방법
CN104699998A (zh) * 2013-12-06 2015-06-10 国际商业机器公司 用于对基因组进行压缩和解压缩的方法和装置
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
US9916313B2 (en) * 2014-02-14 2018-03-13 Sap Se Mapping of extensible datasets to relational database schemas
US9886561B2 (en) * 2014-02-19 2018-02-06 The Regents Of The University Of California Efficient encoding and storage and retrieval of genomic data
US9354922B2 (en) * 2014-04-02 2016-05-31 International Business Machines Corporation Metadata-driven workflows and integration with genomic data processing systems and techniques
US20150379195A1 (en) * 2014-06-25 2015-12-31 The Board Of Trustees Of The Leland Stanford Junior University Software haplotying of hla loci
GB2527588B (en) * 2014-06-27 2016-05-18 Gurulogic Microsystems Oy Encoder and decoder
US20160019339A1 (en) * 2014-07-06 2016-01-21 Mercator BioLogic Incorporated Bioinformatics tools, systems and methods for sequence assembly
US10230390B2 (en) * 2014-08-29 2019-03-12 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing
US10116632B2 (en) * 2014-09-12 2018-10-30 New York University System, method and computer-accessible medium for secure and compressed transmission of genomic data
US20160125130A1 (en) * 2014-11-05 2016-05-05 Agilent Technologies, Inc. Method for assigning target-enriched sequence reads to a genomic location
WO2016202918A1 (en) * 2015-06-16 2016-12-22 Gottfried Wilhelm Leibniz Universität Hannover Method for compressing genomic data
CN105956417A (zh) * 2016-05-04 2016-09-21 西安电子科技大学 云环境下基于编辑距离的相似碱基序列查询方法
CN105975811B (zh) * 2016-05-09 2019-03-15 管仁初 一种智能比对的基因序列分析装置

Also Published As

Publication number Publication date
PE20191056A1 (es) 2019-08-06
JP2020505702A (ja) 2020-02-20
CL2019000972A1 (es) 2019-08-23
AU2017341685A1 (en) 2019-05-02
CO2019003595A2 (es) 2019-08-30
CO2019009920A2 (es) 2020-01-17
EP3526707A4 (en) 2020-06-17
PH12019550059A1 (en) 2019-12-16
SG11201903272XA (en) 2019-05-30
WO2018071080A3 (en) 2018-06-28
PH12019501881A1 (en) 2020-06-29
KR20190062541A (ko) 2019-06-05
CL2019000968A1 (es) 2019-08-23
EP3526694A1 (en) 2019-08-21
PE20191227A1 (es) 2019-09-11
BR112019016232A2 (pt) 2020-04-07
BR112019007360A2 (pt) 2019-07-09
US20190385702A1 (en) 2019-12-19
IL265928A (en) 2019-05-30
PE20191057A1 (es) 2019-08-06
EA201990917A1 (ru) 2019-08-30
JP2020500382A (ja) 2020-01-09
CL2019000973A1 (es) 2019-08-23
CL2019002277A1 (es) 2019-11-22
IL265928B (en) 2020-10-29
EP3526694A4 (en) 2020-08-12
CO2019003639A2 (es) 2020-02-28
BR112019007363A2 (pt) 2019-07-09
JP7079786B2 (ja) 2022-06-02
PH12019550058A1 (en) 2019-12-16
WO2018071079A1 (en) 2018-04-19
US20200051665A1 (en) 2020-02-13
US11404143B2 (en) 2022-08-02
MX2019004128A (es) 2019-08-21
CN110678929B (zh) 2024-04-16
BR112019007357A2 (pt) 2019-07-16
CO2019003842A2 (es) 2019-08-30
CN110603595B (zh) 2023-08-08
CN110603595A (zh) 2019-12-20
PH12019550057A1 (en) 2020-01-20
CL2019002276A1 (es) 2019-11-29
AU2017341684A1 (en) 2019-05-02
PE20200323A1 (es) 2020-02-13
WO2018071055A1 (en) 2018-04-19
AU2017342688A1 (en) 2019-05-02
CA3040147A1 (en) 2018-04-19
JP2019537172A (ja) 2019-12-19
IL265972A (en) 2019-06-30
CN110168651A (zh) 2019-08-23
CA3040145A1 (en) 2018-04-19
WO2018071080A2 (en) 2018-04-19
IL265879B2 (en) 2024-01-01
KR20190073426A (ko) 2019-06-26
CN110114830B (zh) 2023-10-13
EP3526707A2 (en) 2019-08-21
CN110121577B (zh) 2023-09-19
US20200035328A1 (en) 2020-01-30
IL265879A (en) 2019-06-30
CL2019002275A1 (es) 2019-11-22
US20190214111A1 (en) 2019-07-11
EP3526657A1 (en) 2019-08-21
CO2019009922A2 (es) 2020-01-17
BR112019016236A2 (pt) 2020-04-07
CN110506272A (zh) 2019-11-26
BR112019007359A2 (pt) 2019-07-16
CN110678929A (zh) 2020-01-10
EP3526657A4 (en) 2020-07-01
PE20200226A1 (es) 2020-01-29
CA3040138A1 (en) 2018-04-19
US20200042735A1 (en) 2020-02-06
MX2019004130A (es) 2020-01-30
BR112019016230A2 (pt) 2020-04-07
US20200051667A1 (en) 2020-02-13
CO2019003638A2 (es) 2019-08-30
KR20190069469A (ko) 2019-06-19
SG11201903271UA (en) 2019-05-30
WO2018071054A1 (en) 2018-04-19
EA201990916A1 (ru) 2019-10-31
PE20191058A1 (es) 2019-08-06
SG11201903270RA (en) 2019-05-30
PE20200227A1 (es) 2020-01-29
PH12019550060A1 (en) 2019-12-16
CN110121577A (zh) 2019-08-13
PH12019501879A1 (en) 2020-06-29
CN110114830A (zh) 2019-08-09
KR20190117652A (ko) 2019-10-16
CN110506272B (zh) 2023-08-01
IL265879B1 (en) 2023-09-01

Similar Documents

Publication Publication Date Title
JP2020500383A (ja) リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム
EP3526709B1 (en) Efficient data structures for bioinformatics information representation
US11763918B2 (en) Method and apparatus for the access to bioinformatics data structured in access units
CN110168652B (zh) 用于存储和访问生物信息学数据的方法和系统
JP7362481B2 (ja) ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体
AU2018221458B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
CN110178183B (zh) 用于传输生物信息学数据的方法和系统
JP2020503580A (ja) バイオインフォマティクスデータのコンパクトな表現のための方法および装置
EP3526706A1 (en) Method and apparatus for the access to bioinformatics data structured in access units
CN110663022B (zh) 使用基因组描述符紧凑表示生物信息学数据的方法和设备
NZ757185B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
EA043338B1 (ru) Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20190620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200710

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20201221