JP2020509474A - 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム - Google Patents
圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム Download PDFInfo
- Publication number
- JP2020509474A JP2020509474A JP2019542724A JP2019542724A JP2020509474A JP 2020509474 A JP2020509474 A JP 2020509474A JP 2019542724 A JP2019542724 A JP 2019542724A JP 2019542724 A JP2019542724 A JP 2019542724A JP 2020509474 A JP2020509474 A JP 2020509474A
- Authority
- JP
- Japan
- Prior art keywords
- descriptor
- sequence
- contig
- mismatch
- truncated unary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 238000007906 compression Methods 0.000 claims abstract description 67
- 230000006835 compression Effects 0.000 claims abstract description 65
- 239000002773 nucleotide Substances 0.000 claims description 66
- 125000003729 nucleotide group Chemical group 0.000 claims description 66
- 230000011664 signaling Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 44
- 238000013507 mapping Methods 0.000 description 40
- 238000013459 approach Methods 0.000 description 19
- 239000013545 self-assembled monolayer Substances 0.000 description 14
- 238000012163 sequencing technique Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 8
- 108020004414 DNA Proteins 0.000 description 7
- 102000053602 DNA Human genes 0.000 description 7
- 102100024441 Dihydropyrimidinase-related protein 5 Human genes 0.000 description 7
- 101001053479 Homo sapiens Dihydropyrimidinase-related protein 5 Proteins 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 210000000349 chromosome Anatomy 0.000 description 6
- 238000012165 high-throughput sequencing Methods 0.000 description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 description 5
- 238000013144 data compression Methods 0.000 description 5
- 238000007481 next generation sequencing Methods 0.000 description 5
- 229920002477 rna polymer Polymers 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 229910052757 nitrogen Inorganic materials 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 238000011331 genomic analysis Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 229910052698 phosphorus Inorganic materials 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 108010038083 amyloid fibril protein AS-SAM Proteins 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 235000019506 cigar Nutrition 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 101100437998 Arabidopsis thaliana BZIP2 gene Proteins 0.000 description 1
- 102000020897 Formins Human genes 0.000 description 1
- 108091022623 Formins Proteins 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 101150071882 US17 gene Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000005416 organic matter Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000000682 scanning probe acoustic microscopy Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/12—Protecting executable software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Multimedia (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本開示で説明される方法および装置は、リファレンスゲノムとアライメントされたゲノムシーケンスとの間の違いを記述する構文要素に関してリファレンスゲノムを表すことを含む。前記ゲノムシーケンスは、前記リファレンスゲノムと共に前もってアライメントされている。アライメントされた各ゲノムシーケンスは、構文要素のサブセットによって記述される。全てゲノムシーケンスを記述する構文要素は、統計的特性に従ってブロックに分割される。構文要素の各ブロックはエントロピーコード化される。エントロピーコード化されたブロックは、連結されて圧縮ビットストリームを形成する。リファレンスゲノムとアライメントされたシーケンスの違いは、構文要素の観点から表される。前記構文要素は、その統計的特性に従ってブロックに分割され、各ブロックはエントロピーコード化される。エントロピーコード化された構文要素は、アライメントされたリードを記述する構文要素のコード化されたブロックのビットストリームに埋め込まれる。開示された方法は、圧縮されたデータのランダムアクセスの異なるオプションを維持し、効率的な圧縮を可能にしながら、圧縮されたゲノムシーケンスをデコード化する際のアライメントに使用されるリファレンスゲノムの再構築を可能にする。【選択図】図5
Description
本開示は、関連するアライメント情報及びリファレンスゲノム、又はその一部を用いて前記ゲノムシーケンスをアライメントする、アライメントされたゲノムシーケンスリードの無損失圧縮に関する。ゲノムシーケンスは、一般に、デオキシリボ核酸(DNA)又はリボ核酸(RNA)の断片を形成するヌクレオチドと呼ばれる分子の連結によって意味付けられている。本発明は、同じアルファベットを使用してより短いシーケンスをアライメントさせるために使用される記号を、任意のリファレンスシーケンスに適用することができる。
[関連出願の相互参照]
[関連出願の相互参照]
この出願は、特許出願PCT/US2017/041579及びPCT/US17/17842の優先権及びその利益を主張する。
本発明は、リファレンスレス圧縮法により圧縮されたリファレンスゲノムシーケンスに適用される。この指針における最初の試みは、フォーゲス,J.、ムンダロー,M.、オスターマン,J.(Voges, J., Munderloh, M., Ostermann, J.)らによる「アラインメントされた次世代シーケンシングデータの予測コーディング(Predictive Coding of Aligned Next-Generation Sequencing Data)」(2016、データコンプレッションコンファレンス(Data Compression Conference:DCC))、又はブノワ,G.(Benoit, G.)らによる「確率的ド・ブラウングラフによる高スループット配列決定データのリファレンス無しの圧縮(Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph)」(ビーエムシー バイオインフォマティクス(BMC Bioinformatics)2015、16、288)により論じられているが、しかし、本発明で対処されるいくつかの制限を有している。
本開示の背景において、アライメントされたゲノムシーケンスのリファレンスレス圧縮は、アライメントに使用されるリファレンスゲノムの隣接又は重複領域にマッピングされたゲノムシーケンスを重複及び連結することにより構築される「コンティグ」と名付けられた1つ以上の局所的なリファレンスシーケンスの作成を含む。コンティグの詳細な説明は、https://en.wikipedia.org/wiki/Contigを参照されたい。このコンティグは、デコーディングプロセスの一部としてデコーディングエンドで再構築されるため、圧縮ビットストリームに含める必要はない。1つ以上のゲノムシーケンスがマッピングされているゲノム領域に対してコンティグが構築されると、リファレンスベースの圧縮は、ゲノム記述子に関してそれらを記述し、特定のエントロピーコーダで同じ種類のゲノム記述子の各ブロックを圧縮することにより、そのゲノムシーケンスに適用される。このアプローチにより、GZIP、LZMA、BZ等の汎用圧縮方式よりも優れた圧縮率を達成でき、ランダムアクセスが維持される。
アライメントされたゲノムシーケンスのリファレンスベースの圧縮は、前述の位置及び差異のみをアライメントおよびコード化するために使用される1つ以上のリファレンスシーケンスに関して、マッピング位置および差異に関してアライメントされたシーケンスを表すことに基づく。そのようなアプローチでは非常に高い圧縮率に到達することができるが(カバレッジとともにほぼ直線的に増加し、ここで、カバレッジという用語は、リファレンスゲノムの各ヌクレオチドを含むリードの平均数を意味している)、エンコードとデコードの両方のプロセスで、アライメントと圧縮に使用される特定のリファレンスシーケンスの利用可能性を必要とする。このアプローチの欠点は、アライメントと圧縮に使用されるリファレンスシーケンスがデコード側で利用できない場合(例えば、リファレンスゲノム又はその変形をユニークに識別できないため、又は元のデータソースが利用できなくなった場合)、圧縮されたコンテンツを復元できないことである。保存又は伝送のために圧縮表示にリファレンスゲノムを含めることに基づくソリューションは、圧縮効率の点で有害となりえる。
このような問題に対処するために、アライメントに使用されるリファレンスゲノムを使用せず、アライメントされたゲノムシーケンスリードの圧縮および解凍(decompress)を可能にするリファレンスレス圧縮方法が存在する。これらの方法のいくつかは、GZIP、BZIP2、LZMAのような汎用コンプレッサを適用しており、3:1までの低い圧縮率に達している。より効率的な方法は、「アセンブリ」と呼ばれるプロセスを使用して、アライメントされたリード自体から1つ以上のリファレンスシーケンスを構築することであり、アラインメントに使用されるリファレンスゲノムに隣接するゲノム区間にマップされたリードを使用して、共有サブシーケンスを見つけて連結することにより、より長いシーケンスを構築している。短いシーケンスの連結又は結合から得られる長いシーケンスは、「コンティグ」と呼ばれる。そのような方法は、フォーゲス,J.、ムンダロー,M.、オスターマン,J.(Voges, J., Munderloh, M., Ostermann, J.)らによる「アラインメントされた次世代シーケンシングデータの予測コーディング(Predictive Coding of Aligned Next-Generation Sequencing Data)」(2016、データコンプレッションコンファレンス(Data Compression Conference:DCC))、及びブノワ,G.(Benoit, G.)らによる「確率的ド・ブラウングラフによる高スループット配列決定データのリファレンス無しの圧縮(Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph)」(ビーエムシー バイオインフォマティクス(BMC Bioinformatics)2015、16、288)という論文において既に引用されている。
フォーゲス,J.、ムンダロー,M.、オスターマン,J.ら、「アラインメントされた次世代シーケンシングデータの予測コーディング」、2016、データコンプレッションコンファレンス(Data Compression Conference:DCC)
ブノワ,G.(Benoit, G.)ら、「確率的ド・ブラウングラフによる高スループット配列決定データのリファレンス無しの圧縮(Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph)」、ビーエムシー バイオインフォマティクス(BMC Bioinformatics)2015、16、288
本開示は、ゲノムシーケンスのリファレンスレス圧縮を併用する場合、ゲノムシーケンス読み取りのアラインメントに使用されるリファレンスゲノムの効率的な圧縮を課題とする。
以下に示す請求項に記載された特徴は、ゲノムシーケンスのリファレンスレス圧縮の場合におけるリファレンスゲノムの可逆圧縮のための方法を提供することによって、既存の先行技術の課題解決の問題を解決するものであり、前記方法は、
・ リードを1つ以上のリファレンスシーケンスにアライメントさせ、それによってアライメントされたリードを作成し、
前記整列されたリードをアセンブリし、それによってコンティグを作成し、
・ 前記リファレンスシーケンスと前記コンティグとを比較して、ミスマッチの位置及びミスマッチの類型に関する情報を取得し、
・ エントロピーコード化は、ミスマッチの位置及びミスマッチの類型に関連する前記情報をコード化する、
ことを含む。
・ リードを1つ以上のリファレンスシーケンスにアライメントさせ、それによってアライメントされたリードを作成し、
前記整列されたリードをアセンブリし、それによってコンティグを作成し、
・ 前記リファレンスシーケンスと前記コンティグとを比較して、ミスマッチの位置及びミスマッチの類型に関する情報を取得し、
・ エントロピーコード化は、ミスマッチの位置及びミスマッチの類型に関連する前記情報をコード化する、
ことを含む。
圧縮方法の別の態様において、前記アライメントされたリードをアセンブリする方法は、前記リファレンスシーケンス上の各位置について、その位置で前記アライメントされたリードで最も高い頻度で存在する前記ヌクレオチドを選択する段階を含む。
圧縮方法の別の態様において、前記ミスマッチの位置及び前記ミスマッチの類型に関する前記情報は、それぞれ第1の記述子(203)及び第2の記述子(204)を用いて示される。
圧縮方法の別の態様において、前記第1の記述子及び第2の記述子は、同じアクセスユニットにカプセル化され、デコード化装置において前記アライメントに使用される前記リファレンスシーケンスの選択的な再構築を可能にする、
圧縮方法の別の態様において、前記コンティグの長さは、エンコーダへの入力パラメータとして又は前記エンコーダによって動的に適用されるものとして定義される。
圧縮方法の別の態様において、前記第1の記述子は、分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)バイナリ化を用いてバイナリ化され、前記分割ユニット単位切捨単項は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化される値のNビット長の部分に適用され、前記Nは予め選択されたパラメータである。
圧縮方法の別の態様において、前記第2の記述子は、切捨単項バイナリ化を用いてバイナリ化され、前記第2の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の0ビットは破棄される。
圧縮方法の別の態様において、前記方法は、特定のリファレンスゲノムの使用をシグナリング(signaling)する情報をコード化しない。
圧縮方法の別の態様において、前記コンティグの長さは構文ヘッダに含まれている。
ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータをコード化するための装置であって、前記装置は、
・ 前記リードを1つ以上のリファレンスシーケンスにアライメントさせ、それによってアラメントされたリードを作成するための手段と、
・ 前記アライメントされたリードをアセンブリして、コンティグを作成するための手段と、
・ 前記リファレンスシーケンスと前記コンティグとを比較して、ミスマッチの位置及びミスマッチの類型に関する情報を取得する手段と、
・ 前記ミスマッチの位置と前記ミスマッチの類型に関連した前記情報をエントロピーコード化する手段と
を含む。
・ 前記リードを1つ以上のリファレンスシーケンスにアライメントさせ、それによってアラメントされたリードを作成するための手段と、
・ 前記アライメントされたリードをアセンブリして、コンティグを作成するための手段と、
・ 前記リファレンスシーケンスと前記コンティグとを比較して、ミスマッチの位置及びミスマッチの類型に関する情報を取得する手段と、
・ 前記ミスマッチの位置と前記ミスマッチの類型に関連した前記情報をエントロピーコード化する手段と
を含む。
ゲノムシーケンスデータをコード化するための装置であって、前記アライメントリードをアセンブリするための手段は、リファレンスシーケンス上の各位置について、その位置での前記アライメントリードにおいて最も高い頻度で存在するヌクレオチドを選択するための手段をさらに含む。
ゲノムシーケンスデータをコード化するための装置であって、ミスマッチの位置及びミスマッチの類型に関連する前記情報を、それぞれ第1の記述子(203)及び第2の記述子(204)によって示す手段をさらに含む。
ゲノムシーケンスデータをコード化するための装置であって、デコード化装置でのアライメントに使用されるエリファレンスシーケンスの選択的な再構築を可能にするために、同じアクセスユニットに前記第1の記述子と第2の記述子をカプセル化する手段をさらに含む。
ゲノム配列データをエンコードするための装置であって、入力パラメータとして前記コンティグの長さを受信する手段と、前記コンティグの長さを動的に適応させる手段をさら含む。
ゲノムシーケンスデータをコード化するための装置であって、分割ユニットワイズ切捨単項(Split Unit-wise Truncated Unary)バイナリ化を採用することにより、前記第1の記述子をバイナリ化するバイナリ化手段をさらに備え、前記分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化されるべき値のNビット長の部分に適用され、Nは予め選択されたパラメータである。
ゲノムシーケンスデータをコード化するための装置であって、切捨単項バイナリ化を用いることにより前記第2の記述子をバイナリ化するバイナリ化手段をさらに含み、前記第2の記述子の値の後にゼロが続き、前記値がバイナリ化される最大値に等しい場合、後続の0ビットは破棄される。
ゲノムシーケンスデータをコード化するための装置であって、構文ヘッダ内の前記コンティグの前記長さをコード化するための手段をさらに含む。
コード化されたゲノムシーケンスデータをデコード化する方法であって、
前記コード化された入力ファイルを解析し、コンティグシーケンスを取得し、
コンティグ内のミスマッチの位置とミスマッチの類型に関連する情報をエントロピーデコード化し、
前記コンティグ内のミスマッチの位置及びミスマッチの類型に関する前記情報を使用することによりコンティグを逆アセンブリ(disassembling)し、それによりヌクレオチドのゲノム配列を取得する、
各ステップを含む。
前記コード化された入力ファイルを解析し、コンティグシーケンスを取得し、
コンティグ内のミスマッチの位置とミスマッチの類型に関連する情報をエントロピーデコード化し、
前記コンティグ内のミスマッチの位置及びミスマッチの類型に関する前記情報を使用することによりコンティグを逆アセンブリ(disassembling)し、それによりヌクレオチドのゲノム配列を取得する、
各ステップを含む。
前記デコード化方法の別の態様において、コンティグ内のミスマッチの位置及びミスマッチの類型に関連する情報を使用することにより、コンティグを逆アセンブリ(disassembling)することを含み、それにより、ヌクレオチドのゲノムシーケンスを取得することは、第1の記述子(203)及び第2の記述子(204)のエントロピーコード化をすることをさらに含む。
別の態様において、前記デコード化方法は、ヌクレオチドのゲノムシーケンスの選択的な再構築を得るために、同じアクセスユニットから前記第1の記述子及び第2の記述子のカプセル化解除することをさらに含む。
別の態様において、前記デコード化方法は、入力ファイルに含まれる構文ヘッダから前記コンティグの長さをデコード化することをさらに含む。
別の態様において、前記デコード化方法は、前記第1の記述子の逆バイナリ化をさらに含み、前記第1の記述子は、分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)バイナリ化を用いてバイナリ化され、前記分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化されるべき値のNビット長の部分に適用され、Nは予め選択されたパラメータである。
別の態様において、前記デコード化方法は、前記第2の記述子の逆バイナリ化をさらに含み、前記第2の記述子は、切捨単項バイナリ化を使用してバイナリ化され、前記第2の記述子の値の後にゼロが続き、前記値がバイナリ化される可能性のある最大値に等しい場合、後続の0ビットは破棄される。
前記デコード化方法の別の態様において、前記入力ファイルは、特定のリファレンスゲノムの使用をシグナリング(signaling)する情報を含まない。
コード化されたゲノムシーケンスデータをデコード化するための装置であって、
コード化された入力ファイルを解析し、コンティグシーケンスを取得する手段と、
コンティグ内のミスマッチの位置とミスマッチの類型に関する情報をエントロピーデコード化する手段と、
コンティグ内のミスマッチの位置及びミスマッチの類型に関する前記情報を使用することによりコンティグを逆アセンブリ(disassembling)し、それによりヌクレオチドのゲノム配列を取得する手段と、
を含む。
コード化された入力ファイルを解析し、コンティグシーケンスを取得する手段と、
コンティグ内のミスマッチの位置とミスマッチの類型に関する情報をエントロピーデコード化する手段と、
コンティグ内のミスマッチの位置及びミスマッチの類型に関する前記情報を使用することによりコンティグを逆アセンブリ(disassembling)し、それによりヌクレオチドのゲノム配列を取得する手段と、
を含む。
コード化されたゲノムシーケンスデータをデコード化する装置であって、前記コンティグ内のミスマッチの位置及びミスマッチの類型に関する前記情報を使用することによりコンティグを逆アセンブリ(disassembling)し、それによりヌクレオチドのゲノム配列を取得する手段は、第1の記述子(203)および第2の記述子(204)のエントロピー復号化のための手段をさらに含む。
コード化されたゲノムシーケンスデータをデコード化する装置であって、
同じアクセスユニットから前記第1の記述子および第2の記述子を脱カプセル化することにより、ヌクレオチドのゲノムシーケンスの選択的な再構築のための手段をさらに含む。
同じアクセスユニットから前記第1の記述子および第2の記述子を脱カプセル化することにより、ヌクレオチドのゲノムシーケンスの選択的な再構築のための手段をさらに含む。
コード化されたゲノムシーケンスデータをデコードする装置であって、入力ファイルに含まれる構文ヘッダから前記コンティグの長さに関する情報をデコードする手段をさらに含む。
コード化されたゲノムシーケンスデータをデコードする装置であって、前記第1の記述子の逆バイナリ化のための手段をさらに備え、前記第1の記述子は、分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)バイナリ化を使用してバイナリ化され、前記分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化される値のNビット長の部分に適用され、Nは予め選択されたパラメータである。
コード化されたゲノムシーケンスデータをデコードする装置であって、前記第2の記述子の逆バイナリ化のための手段をさらに含み、前記第2の記述子は、切捨単項バイナリ化を使用してバイナリ化され、第2番目の記述子の値の後にゼロが続き、前記値がバイナリ化される最大値に等しい場合、後続の0ビットは破棄される。
本発明に係るゲノム又はプロテオミックシーケンスは、例えば、限定としてではなく、ヌクレオチドシーケンス、デオキシリボ核酸(DNA)シーケンス、リボ核酸(RNA)、およびアミノ酸シーケンスが含まれる。本明細書の説明は、ヌクレオチドシーケンスの形のゲノム情報に関してかなり詳細であるが、当業者によって理解されるように、いくつかのバリエーションがあり、圧縮のための方法およびシステムは、他のゲノムまたはプロテオームシーケンスについても同様に適用できることが理解されるであろう。
ゲノムシーケンスの情報は、定義済みの語彙(vocabulary)からの文字列で表されるヌクレオチドシーケンス(別名「塩基」)の形式で、高スループットシーケンシング(HTS)装置によって生成される。最小の語彙は、DNAに存在する4種類のヌクレオチド、つまりアデニン、シトシン、グアニン、およびチミンを表す5つの記号{A、C、G、T、N}で表される。RNAにおいて、チミンはウラシル(U)に置き換えられる。Nは、シーケンシング装置が塩基を呼び出すことができないことにより、その位置のヌクレオチドの実際の性質が不明であることを示す。IUPAC曖昧性コードが語彙としてシーケンシング装置に採用されている場合、記号に使用されるアルファベットは次の記号で構成される:{A、C、G、T、U、W、S、M、K、R、Y、B、D、H、V、N、又は−}。アミノ酸の場合、サポートされる記号は次のとおりである:{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}。
[用語]
[用語]
本開示のコンテキストにおいて、シーケンシング装置により生成されるヌクレオチドシーケンスはリードと呼ばれる。シーケンスリードは、数十から数千の範囲の多数のヌクレオチドで構成される。一部のシーケンシングテクノロジーでは、1つのリードが1つのDNA鎖から発生し、もう1つのリードが他の鎖から発生するペアで構成されるシーケンスリードを生成する。ペアを生成するシーケンスプロセスで別のリードに関連付けられたリードは、そのメイト(mate)と呼ばれる。
ゲノムシーケンスのリードの圧縮に対する効率的アプローチにおける共通要素は、リファレンスシーケンスに関するシーケンスデータの相関の利用である。ヒト集団の体細胞プロファイルが極端に多様であっても、ヒトによって異なるヌクレオチド数の実際の部分は、ゲノム全体を構成する全ヌクレオチド数の約0.1%にすぎない。したがって、個々の個体を特徴づける特徴的なゲノム情報は、ゲノム全体に含まれる全情報に関して非常に限られている。既存のリファレンスゲノムが利用可能な場合、それが以前のシーケンス決定のためのものであれ、公表された「平均」コンセンサスリファレンスとしてのものであれ、現在、情報をコード化する最も一般的な方法は、リファレンスゲノムに関する差異のみを同定し、コード化することである。
一般に、FASQデータファイルの形で表現される測定されたままのシーケンスリードでこれを行うために、予備的な前処理段階でリファレンスゲノム上のマッピングが行われる。適切なリファレンスゲノムが利用できない場合、又は特定のリファレンスの使用によって導入されたバイアスが望ましくない場合には、手元にあるシーケンスリードを、コンティグと呼ばれるより長いシーケンスにアセンブリすることによる新たなリファレンスシーケンスの構築は、可能な代替策である。
本開示において、リファレンスシーケンスは、各整数座標が単一ヌクレオチドに関連する一次元整数座標系に関連するヌクレオチドのシーケンスである。
座標値は0以上でなければならない。本発明のコンテキストにおけるこの座標系は、ゼロベース(すなわち、最初のヌクレオチドは座標0を持ち、位置0にあるという)であり、左から右へ直線的に増加する。
座標値は0以上でなければならない。本発明のコンテキストにおけるこの座標系は、ゼロベース(すなわち、最初のヌクレオチドは座標0を持ち、位置0にあるという)であり、左から右へ直線的に増加する。
マッピングシーケンスがリファレンスシーケンスを読み取る場合、そのリファレンスシーケンスは、左端の位置が位置0として示される単次元座標系の軸として使用される。リファレンスシーケンスにマッピングされた、各シーケンスリードについて、最小の座標番号によって識別されたリファレンスシーケンスの位置にマッピングされたヌクレオチドは、通常、「左端の」ヌクレオチドと呼ばれ、最大の座標番号によって識別されたリファレンスシーケンスの位置にマッピングされたヌクレオチドは、「右端の」ヌクレオチドと呼ばれる。これを図8に示す。本開示を通して、ヌクレオチドは塩基とも呼ばれる。
シーケンスリードがリファレンスシーケンスにマッピングされるとき、左端にマッピングされた塩基の座標は、リファレンスシーケンス上のリードのマッピング位置を表すと言われる。
アライメントされたリードに存在し、リファレンスシーケンスには存在しない塩基(挿入とも呼ばれる)及びアライメントプロセスによって保存されているがリファレンスシーケンスにマッピングされていない塩基(ソフトクリップとも呼ばれる)には、マッピング位置を有しない。
シーケンスリードが、指定されたマッチング規則に従って使用されたリファレンスシーケンスのマッピングされた位置にマッピングできない場合、それはマッピングされていないと言われる。
シーケンスリードの間で重複する領域を探すことによって、より長いゲノムシーケンスを構築するプロセスは、アセンブリと呼ばれる。
短いリードを集めてアセンブリして構築された長いゲノムシーケンスはコンティグと呼ばれる(https://en.wikipedia.org/wiki/Contig)。
アセンブリプロセス中にコンティグの構築に失敗したシーケンスリードは、アライメントされていないと言われる。
リファレンスゲノムは、1つ以上のリファレンスシーケンスで構成され、ある種の遺伝子群の代表例として科学者によってアセンブリされる。例えば、GRCh37は、ゲノム・リファレンス・コンソーシアム(Genome Reference Consortium)のヒトゲノム(build 37)が、ニューヨーク州バッファローの13人の匿名のボランティアから得られている。但し、リファレンスシーケンスは、それらの更なる処理の観点からリードの圧縮性を改善するために考えられ、単に構築された合成シーケンスで構築することもできる。
本開示では、リファレンスシーケンス上の最小座標上に塩基のマッピングを有するリードペアを構成するリードを、「リード1」と呼び、そのメイトを「リード2」と呼ぶ。
ヌクレオチド(又は塩基)の数として表される、ペアとして生成された2つのリードを分離する距離は、現在の技術の最新のシーケンシング技術を使用するシーケンシング装置によって知ることはできず、それは、ペア(すなわち、適切なマッチング関数の最小化)を構成する両方のリードをリファレンスシーケンスにマッピングすることによって決定される。
本開示全体を通して、アクセスユニット(AU)は、ビットストリームのアクセス及び操作を容易にするために、ゲノム情報又は関連メタデータのコード化された表現を含む論理データ構造として定義される。これは、本開示に記載された本発明を実施するデコード化装置によってデコード化できる最小のデータ編成である。
コード化情報の種類に応じて、AUは、他のAUとは独立してデコード化することも、他のAUに含まれる情報を用いてデコード化することもできる。
AUsは、コード化されたシーケンスデータの性質に従って、多数の種類に分類することができる。アクセスユニットは、リファレンスシーケンス又はその一部、又は単一クラスのデータに属するコード化されたリード又はリードペアのいずれかを含む。1つのAUに2つ以上の種類のシーケンスデータを含めることはできない。例えば、アクセスユニットは、GRCh37(build 37)の第1染色体全体を含むことができる。別のアクセスユニットは、座標50,000と150,000の間に位置するGRCh37の第1染色体のヌクレオチドのコード化された表示を含むことができる。別のアクセスユニットは、いかなるミスマッチもなくリファレンスシーケンス上に完全にマッピングされるリード又はリードペアのみを含むことができる。別のアクセスユニットは、リファレンスシーケンスに関するミスマッチとして「N」記号のみを含むリード又はリードペアを含むことができる。別のアクセスユニットには、任意の種類の置換(例えば、リード又はリードペアに存在する1つの塩基が、リファレンスシーケンスの対応するマッピング位置の塩基と異なる)を含むリード又はリードペアを含めることができる。別のアクセスユニットは、ミスマッチ、挿入、削除、及びソフトクリップされた塩基を含むリード又はリードペアを含むことがある。別のアクセスユニットは、リファレンスシーケンス上にマッピングされないリード又はリードペアのみを含むことができる。別のアクセスユニットは、一方のリードがマッピングされ、他方のリードがリファレンスシーケンスにマッピングされないリードペアのみを含むことができる。別の種類のアクセスユニットは、一つ以上のリファレンスシーケンス(例えば染色体)によって構成されるリファレンスゲノムのコード化されたセグメントのみを含むことができる。
アクセスユニットの本質的な特徴は、それが、シーケンスリード又はリードペアのゲノム情報、リファレンスシーケンス、関連するアラインメント情報、及びリード又はリードペアのメタデータを再構築するために、必要な全てのエレメントを圧縮形式で含むことである。換言すれば、リード又はリードペア、又はアクセスユニットによって伝送されるリファレンスシーケンス及び関連情報を完全に再構成するためには、アクセスユニット自体、及び該当する場合には、アクセスユニットが参照するリファレンスシーケンスを含むアクセスユニットを検索して解凍(decompress)するだけでよい。
各アクセスユニットで、次のセクションに掲載され、コード化されたリード又はリードペアの情報を表す記述子は、高性能のエントロピーコード化を達成し、それらの均質な統計特性を活用するために、種類ごとに1つの個別のデータブロックに集約される。
各アクセスユニットは、リファレンスシーケンス上のゲノム領域にマッピングされた同じデータクラスに属するシーケンスリード又はリードペアを表す記述子の圧縮サブセットを含む。このようなリファレンスシーケンス上のゲノム領域は、開始座標(又は開始位置)及び終了座標(又は終了位置)によって定義される。
アクセスユニットの例を図6に示す。アクセスユニットは、次のセクションで述べるように、コード化されたゲノム記述子のブロックによって構成される。ネットワーク上での転送を可能にするために、ブロックはさらにパケットに分解される。ゲノムシーケンスのリードを圧縮する場合、各アクセスユニットには、リファレンスシーケンスのゲノム区間(genomic interval)にマッピングされたシーケンスリード又はマッピングされていないシーケンスリードのいずれかを表す圧縮記述子が含まれる。アクセスユニットは、リファレンスゲノム又はその一部を伝送するために使用される。リファレンスシーケンスは、ヌクレオチドの単一の長いシーケンスとしてコード化されるか、マッピングされていないゲノムシーケンスリードとしてコード化された短いシーケンスに分割される。
本開示のコンテキストにおいて、ゲノム記述子は、コード化されたリファレンスシーケンス、シーケンスリード、及び関連するマッピング情報を再構築(すなわち、デコード化)するのに必要な情報の一部(及びファイル形式及び/又はビットストリームの構文構造(syntax structure)の要素)を表す構文要素(syntax elements)である。
本発明で開示されるゲノム記述子を表1に列挙する。
本発明に開示された方法によれば、リファレンスシーケンス又はその一部、シーケンスリード、及び関連するアラインメント情報は、上記に列挙された記述子のサブセットを使用してコード化され、次いで、各記述子固有の統計的特性に従って、複数のエントロピーコーダ(entropy coders)を使用してエントロピーコード化される。均質な統計的特性を有する圧縮された記述子のブロックは、本開示に記載される本発明を実施する装置によって操作することができる1つ以上のゲノムシーケンスの最小のコード化表現を表すアクセスユニットにおいて構造化される。
本開示で述べられる本発明は、ゲノムシーケンスリードをアライメントさせるために使用されるリファレンスシーケンスを、ゲノム記述子に関して表す方法を定義する。このようなゲノム記述子は、特定のエントロピーコーダを用いて圧縮される。次いで、圧縮された記述子のブロックを、圧縮されたゲノム記述子を含む同じアクセスユニット内にカプセル化し、効率的な移送及び選択的なアクセスを可能にするように、リファレンスシーケンス上にマッピングされたシーケンスリードの再構築を可能にする。
一実施形態では、本発明の原理は、関連するアラインメント情報を有するゲノムシーケンスリード及びアラインメントに使用されるリファレンスシーケンスの両方に対する可逆的な圧縮に関する。効率的な圧縮は、リファレンスシーケンスの連続領域にマッピングされたシーケンスリードを結合又は連結してコンティグと呼ばれる長いシーケンスを構築し、構築されたコンティグに関してシーケンスリードのリファレンスベース(reference-based)の圧縮を実行することによって得られる。より良好な圧縮は、「ゲノム記述子」と呼ばれる個別の構文要素を用いて、リファレンスシーケンス上にマッピングされたゲノムシーケンスリードを特徴付ける全ての特徴を表すことによって得られる。SAMフォーマットは、ヌクレオチドシーケンスとのアラインメント情報、及び塩基ペアに関連する品質スコア、ペアエンドリード(paired end reads)の場合のペアリング情報等の他のメタデータを記憶する。本発明の原理によれば、マッピングされた又はマッピングされていないゲノムシーケンスリードに関連する各々の特徴は、ゲノム記述子によって表される。同じ種類のゲノム記述子は、異なるエントロピーコーダを用いて圧縮されるブロックに連結される。本発明は、CIGAR文字列、マッピングフラグ、ヌクレオチド文字列又は品質値文字列等のSAMフィールドはいずれも圧縮しないが、16ゲノム記述子又はそれらの特定のサブセットを使用して同じ種類の情報を表すことを理解されたい。SAMの11個の必須フィールドでは、SAMと提示された形式との間の往復トランスコーディング(Round-trip transcoding)が可能である。
最先端のソリューションは、各リファレンスシーケンス(染色体等)が4つのヌクレオチドを表す一連の記号として、格納されている圧縮されたFASTAファイルの形式でアセンブリされたゲノムを格納する。各リファレンスシーケンスは、圧縮されてデータベースに保存されるリファレンスゲノム(ゲノムアセンブリとも呼ばれる)の一部である。同じ生物又は個体に属する有機物から時間的に異なる時点で得られたいくつかのゲノム集合体は、その遺伝的な歴史を表すために保存される。ゲノム分析がゲノムシーケンスデータを既存のリファレンスゲノムと比較することを必要とする場合、ゲノム分析アプリケーションは、1つ以上の関心のあるリファレンスゲノムを検索し、ゲノム分析を行うためにデータベースへの照会を行う。
好ましい実施形態では、本発明に開示された原理を適用して、圧縮されたゲノムを個別のリソースとして保存する必要なく、圧縮されたゲノムシーケンスデータに埋め込まれたリファレンスゲノムのコレクションの効率的な保存を実施することができる。ゲノムシーケンスデータからの個別のデータ構造としてゲノムアセンブリを記憶する代わりに、本発明に開示される方法及び原理は、アラインメントのために使用されるゲノムの再構築を可能にする関連メタデータとともにゲノムシーケンスデータのみを記憶することを可能にする。
[ゲノムシーケンスリード及びリファレンスシーケンスの圧縮された表示]
[ゲノムシーケンスリード及びリファレンスシーケンスの圧縮された表示]
シーケンスリードが、既存の又は構築されたリファレンスシーケンスに関してマッピングされている場合、それぞれのシーケンスリードは、本開示において「ゲノム記述子」又は単に「記述子」として示されるいくつかの要素によって完全に表現することができる。
例えば、リファレンスシーケンスのセグメントと完全にマッチングするシーケンスリードの場合、シーケンスリードを表すのに必要な記述子のサブセットは、リファレンス上のマッピング位置の座標(通常、シーケンスリードの左端の塩基のマッピング位置の座標)、シーケンスリード自体の長さ、及び、シーケンスリードがリファレンスシーケンスの鎖(strand)に関して直接または逆方向のDNA鎖上でマッピングしているかどうかを示す情報によって構成される。
シーケンスリードの全ての塩基がリファレンスリードの全ての塩基と一致するマッピング位置を見つけることができない場合、最小の数のミスマッチを有するマッピング(又はマッピング)が保持される。シーケンスリードの全ての塩基がリファレンスシーケンスのすべての塩基とマッチングするマッピング位置を見つけることができない場合、最小数のミスマッチを有するマッピング(又は複数のマッピング)が保持される。そのような場合には、置換、挿入、欠落及びクリップされた塩基を表現するために、異なる記述子のサブセットが必要とされ、これらは、ミスマッチの最小数又は最小数に近いマッピング位置に対応して発生する。このような記述子のサブセットを用いて、シーケンスリードは、記述子によって伝えられる情報及びリファレンスシーケンスによって伝えられる情報を用いて再構成することができる。
ゲノムシーケンシングプロセスは、2つの主な物理的な理由から、重複するリード(すなわち、同じゲノムシーケンスの2つ以上の正確なコピー)が生じることがある:
・ ポリメラーゼ連鎖反応による重複の発生
・ データ収集プロセスにおける光学的複製の発生。リードは、リードのペアが両方とも同じタイル上にあり、リード間の距離が実験に応じて所定の構成パラメータ未満である場合、光学的複製と呼ばれる。
・ ポリメラーゼ連鎖反応による重複の発生
・ データ収集プロセスにおける光学的複製の発生。リードは、リードのペアが両方とも同じタイル上にあり、リード間の距離が実験に応じて所定の構成パラメータ未満である場合、光学的複製と呼ばれる。
マッピングプロセスは、複数の可能なマッピング位置及び関連スコア、マッピングの品質、スプライスされたリードの明示、ペアに属するリードの2つの異なるリファレンス(通常染色体)上のマッピング、シーケンシングプロセスの特徴(例えばPCR又は光学的複製)等の他の種類の情報を生成することができる。このような全ての情報は、それぞれのサブセットを拡張する特定の追加の記述子を必要とし、次いで、記述子の各サブセットに対して適切なエントロピーコード化アルゴリズムを適用することによって圧縮される。
従って、各リード又はリードペアは、マッピングプロセスの結果に従って、記述子の特定のサブセットによって、ユニークに表すことができる。
[マッチング規則によるシーケンスリードの分類]
[マッチング規則によるシーケンスリードの分類]
シーケンシング装置によって生成されたシーケンスリードは、開示された発明によって、1つ以上の「既存の」リファレンスシーケンスに関するアラインメントのマッチング結果に従って、6つの異なる「クラス」に分類される。
ヌクレオチドのDNAシーケンスを、リファレンスシーケンスに対してアライメントさせる場合、以下の場合を特定することができる:
・ リファレンスシーケンス内の領域は、いかなるエラーもなくシーケンスリードとマッチングすることがわかる(すなわちパーフェクトマッチング)。そのようなヌクレオチドのシーケンスは、「パーフェクトマッチングリード」と呼ばれるか、又は「クラスP」と表示される。
・ リファレンスシーケンスの領域は、シーケンスリードと、リードを生成するシーケンシング装置がいずれの塩基(又はヌクレオチド)を呼び出すことができなかった位置の数によってのみ決定される、ミスマッチの数及び類型と一致することがわかる。このような種類のミスマッチは、未定義のヌクレオチド塩基を示すために用いられる文字である「N」によって示される。本明細書では、この種類のミスマッチを「nタイプ」ミスマッチと呼ぶ。このようなシーケンスは「クラスN」のリードに属する。リードが「クラスN」に属するように分類されると、マッチングの不正確さの程度を所定の上限に制限し、有効なマッチングと見なされるものとそうでないものとの境界を設定することが有用である。したがって、クラスNに割り当てられたリードも、リードに含めることができる未定義の塩基(すなわち、「N」と呼ばれる塩基)の最大数を定義するしきい値(MAXN)を設定することにより制限される。このような分類は、クラスNに属する全てのリードが、対応するリファレンスシーケンスを参照するときに共有する必要な最小マッチング精度(又は最大ミスマッチ度)を黙示的に定義し、これは、選択的なデータ検索を圧縮データに適用するための有用な基準を構成する。限定ではなく一例として、一部の分析アプリケーションでは、リファレンスゲノムにマッピングする際に、マッピングされたリードに最大3つの未決定(「N」)塩基のみを含めることを要求する。SAM/BAMのような既存のフォーマットで、パイプライン処理はデータセット全体を解凍し、全ての解凍されたレコードを解析して、3より大きい「N」符号を持つリードを破棄し、3より小さい「N」符号を持つリードのみを保持してから、さらに分析を進める必要がある。本発明の原理の一態様によれば、コード化アプリケーションは、パイプライン処理が追加の処理又は記憶の必要無しにそれらをデコードして使用することができるように、3以下「N」の符号で個別にリードを圧縮することができる。
・ リファレンスシーケンスの領域は、シーケンスリードと、シーケンスリードを生成するシーケンシング装置が、ヌクレオチド塩基を呼び出すことができなかった位置の数、それに加え、それが存在するならば(すなわち「nタイプ」のミスマッチ)、リファレンスに存在する塩基とは異なる塩基が呼び出されたミスマッチの数、によって決定されるミスマッチの数及び類型と一致することがわかる。「置換」として示されるこのようなミスマッチの類型は、一塩基変異(SNV)又は一塩基多型(SNP)とも呼ばれる。本明細書では、このタイプのミスマッチを「sタイプ」ミスマッチとも呼ぶ。シーケンスリードは「Mミスマッチリード」として参照され、「クラスM」に割り当てられる。「クラスN」の場合と同様に、「クラスM」に属する全てのリードについても、マッチングの不正確さの程度を特定の上限に制限し、有効なマッチングと見なされるものとそうでないものとの境界を設定することが有用である。したがって、クラスMに割り当てられるリードも、しきい値のセットを定義することによって制限され、しきい値のセットは、それが存在する場合、「nタイプ」(MAXN)のミスマッチの数「n」に対するしきい値と、置換の数「s」に対するしきい値(MAXS)である。第3の制限は、「n」と「s」の数、f(n,s)の両方の関数によって定義されるしきい値である。このような第3の制限は、任意の意味のある選択的なアクセス基準に従ってマッチングの不正確さの上限を持つクラスを生成することを可能にする。例えば、限定されないが、f(n,s)は、(n+s)1/2又は(n+s)、又は「クラスM」に属するリードに対して許容される最大マッチング不正確レベル(maximum matching inaccuracy level)に境界を設定する任意の線形式又は非線形式であってもよい。このような境界は、様々な目的のためにシーケンスリードを解析するとき、圧縮データに対して高度な選択的なデータ検索を実行するための非常に強力な基準を構成する。限定されないが、一例として、これは、一方又は他方に適用される単純しきい値を超えて、「nタイプ」ミスマッチ及び「sタイプ」ミスマッチ(置換)の数のあらゆる可能な組み合わせを含む圧縮ゲノムリードの選択を可能にする。SAM/BAMフォーマットのような既存のソリューションは、リファレンスゲノムに関してユーザ定義された数のミスマッチを有するアライメントされたシーケンスリードの選択をネイティブにサポートしない。リファレンスゲノムに関して最大で「N」個の置換を持つゲノムシーケンスリードを選択するには、以下が必要である。
1.BAMファイル全体をテキスト形式のSAMファイルに解凍すること
2.目的のリードを選択するように構成されたテキストパーサーを使用して、デコードされたSAMを解析すること
このアプローチでは、非常に大きなストレージ領域(SAMテキストはBAMより約2.5倍大きい)と、30倍のカバレッジで数時間という長い処理時間が必要になる。本原理の一態様によれば、データセット全体を解凍する必要なしに解凍を利用可能にするために、任意の数のミスマッチを示すゲノムシーケンスリードを個別に圧縮することができる。
・ 第4のクラスは、「挿入」、「削除」、(インデル(indels)とも呼ばれる)及び「クリップ」のうちのいずれかのタイプのミスマッチを少なくとも一つ提示し、さらに、存在する場合には、クラスN又はMに属するいずれかのミスマッチの種類を提示するシーケンスリードプロセッシングによって構成される。このようなシーケンスは「Iミスマッチングリード」と呼ばれ、「クラスI」に割り当てられる。挿入は、リファレンス中には存在しないが、リードシーケンス中に存在する1以上のヌクレオチドの付加的なシーケンスによって構成される。本明細書では、このような類型のミスマッチを「iタイプ」ミスマッチと呼ぶ。文献では、挿入されたシーケンスがシーケンスの端にある場合、それは「ソフトクリップ」とも呼ばれる(すなわち、ヌクレオチドは基準に一致していないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的に、アライメントされたリードにおいて保持される)。本明細書では、このタイプのミスマッチを「cタイプ」のミスマッチと呼ぶ。削除は、リファレンスに対するリードで「ホール」(ヌクレオチド欠落)である。本明細書では、このような類型のミスマッチを「dタイプ」のミスマッチと呼ぶ。クラス「N」及び「M」の場合と同様に、マッチングの不正確さに対する制限を定義することは可能かつ適切である。「クラスI」に対する一連の制限の定義は、「クラスM」に使用されたものと同じ原則に基づいており、表1の最後の行に示されている。クラスIのデータに対して許容される各タイプのミスマッチに対するしきい値の他に、さらなる制限は、ミスマッチの数「n」、「s」、「d」、「i」及び「c」、w(n,s,d,i,c)の関数によって決定されるしきい値によって定義される。このような付加的制限により、意味のあるユーザ定義の選択的なアクセス基準に従って、マッチングの不正確さの上限を持つクラスを生成できる。例えば、これに限定されるものではないが、w(n,s,d,i,c)は、(n+s+d+i+c)1/5又は(n+s+d+i+c)、又は「クラスI」に属するリードに対して許容される最大マッチング不正確レベルに境界を設定する任意の線形式又は非線形式であってもよい。このような境界は、様々な目的のためにシーケンスリードを解析するときに、所望の選択的なデータ検索を圧縮データに適用するための非常に有用な基準を構成する。なぜならば、この境界は、許容可能なミスマッチの各タイプに適用される単純なしきい値を超えて、「クラスI」のリードにおいて許容可能なミスマッチの数の任意の可能な組み合わせに対して、さらなる境界を設定することを可能にするからである。
・ 第5のクラスには、リファレンスシーケンスを参照するとき、各データクラスの有効と見なされるマッピングが見つからない(つまり、表1で指定される最大一致の不正確さの上限を定義するマッチング規則のセットを満たさない)全てのリードが含まれる。このようなシーケンスは、リファレンスシーケンスを参照するときに「マッピングされていない」と呼ばれ、「クラスU」に属するものとして分類される。
[マッチング規則によるリードペアの分類]
・ リファレンスシーケンス内の領域は、いかなるエラーもなくシーケンスリードとマッチングすることがわかる(すなわちパーフェクトマッチング)。そのようなヌクレオチドのシーケンスは、「パーフェクトマッチングリード」と呼ばれるか、又は「クラスP」と表示される。
・ リファレンスシーケンスの領域は、シーケンスリードと、リードを生成するシーケンシング装置がいずれの塩基(又はヌクレオチド)を呼び出すことができなかった位置の数によってのみ決定される、ミスマッチの数及び類型と一致することがわかる。このような種類のミスマッチは、未定義のヌクレオチド塩基を示すために用いられる文字である「N」によって示される。本明細書では、この種類のミスマッチを「nタイプ」ミスマッチと呼ぶ。このようなシーケンスは「クラスN」のリードに属する。リードが「クラスN」に属するように分類されると、マッチングの不正確さの程度を所定の上限に制限し、有効なマッチングと見なされるものとそうでないものとの境界を設定することが有用である。したがって、クラスNに割り当てられたリードも、リードに含めることができる未定義の塩基(すなわち、「N」と呼ばれる塩基)の最大数を定義するしきい値(MAXN)を設定することにより制限される。このような分類は、クラスNに属する全てのリードが、対応するリファレンスシーケンスを参照するときに共有する必要な最小マッチング精度(又は最大ミスマッチ度)を黙示的に定義し、これは、選択的なデータ検索を圧縮データに適用するための有用な基準を構成する。限定ではなく一例として、一部の分析アプリケーションでは、リファレンスゲノムにマッピングする際に、マッピングされたリードに最大3つの未決定(「N」)塩基のみを含めることを要求する。SAM/BAMのような既存のフォーマットで、パイプライン処理はデータセット全体を解凍し、全ての解凍されたレコードを解析して、3より大きい「N」符号を持つリードを破棄し、3より小さい「N」符号を持つリードのみを保持してから、さらに分析を進める必要がある。本発明の原理の一態様によれば、コード化アプリケーションは、パイプライン処理が追加の処理又は記憶の必要無しにそれらをデコードして使用することができるように、3以下「N」の符号で個別にリードを圧縮することができる。
・ リファレンスシーケンスの領域は、シーケンスリードと、シーケンスリードを生成するシーケンシング装置が、ヌクレオチド塩基を呼び出すことができなかった位置の数、それに加え、それが存在するならば(すなわち「nタイプ」のミスマッチ)、リファレンスに存在する塩基とは異なる塩基が呼び出されたミスマッチの数、によって決定されるミスマッチの数及び類型と一致することがわかる。「置換」として示されるこのようなミスマッチの類型は、一塩基変異(SNV)又は一塩基多型(SNP)とも呼ばれる。本明細書では、このタイプのミスマッチを「sタイプ」ミスマッチとも呼ぶ。シーケンスリードは「Mミスマッチリード」として参照され、「クラスM」に割り当てられる。「クラスN」の場合と同様に、「クラスM」に属する全てのリードについても、マッチングの不正確さの程度を特定の上限に制限し、有効なマッチングと見なされるものとそうでないものとの境界を設定することが有用である。したがって、クラスMに割り当てられるリードも、しきい値のセットを定義することによって制限され、しきい値のセットは、それが存在する場合、「nタイプ」(MAXN)のミスマッチの数「n」に対するしきい値と、置換の数「s」に対するしきい値(MAXS)である。第3の制限は、「n」と「s」の数、f(n,s)の両方の関数によって定義されるしきい値である。このような第3の制限は、任意の意味のある選択的なアクセス基準に従ってマッチングの不正確さの上限を持つクラスを生成することを可能にする。例えば、限定されないが、f(n,s)は、(n+s)1/2又は(n+s)、又は「クラスM」に属するリードに対して許容される最大マッチング不正確レベル(maximum matching inaccuracy level)に境界を設定する任意の線形式又は非線形式であってもよい。このような境界は、様々な目的のためにシーケンスリードを解析するとき、圧縮データに対して高度な選択的なデータ検索を実行するための非常に強力な基準を構成する。限定されないが、一例として、これは、一方又は他方に適用される単純しきい値を超えて、「nタイプ」ミスマッチ及び「sタイプ」ミスマッチ(置換)の数のあらゆる可能な組み合わせを含む圧縮ゲノムリードの選択を可能にする。SAM/BAMフォーマットのような既存のソリューションは、リファレンスゲノムに関してユーザ定義された数のミスマッチを有するアライメントされたシーケンスリードの選択をネイティブにサポートしない。リファレンスゲノムに関して最大で「N」個の置換を持つゲノムシーケンスリードを選択するには、以下が必要である。
1.BAMファイル全体をテキスト形式のSAMファイルに解凍すること
2.目的のリードを選択するように構成されたテキストパーサーを使用して、デコードされたSAMを解析すること
このアプローチでは、非常に大きなストレージ領域(SAMテキストはBAMより約2.5倍大きい)と、30倍のカバレッジで数時間という長い処理時間が必要になる。本原理の一態様によれば、データセット全体を解凍する必要なしに解凍を利用可能にするために、任意の数のミスマッチを示すゲノムシーケンスリードを個別に圧縮することができる。
・ 第4のクラスは、「挿入」、「削除」、(インデル(indels)とも呼ばれる)及び「クリップ」のうちのいずれかのタイプのミスマッチを少なくとも一つ提示し、さらに、存在する場合には、クラスN又はMに属するいずれかのミスマッチの種類を提示するシーケンスリードプロセッシングによって構成される。このようなシーケンスは「Iミスマッチングリード」と呼ばれ、「クラスI」に割り当てられる。挿入は、リファレンス中には存在しないが、リードシーケンス中に存在する1以上のヌクレオチドの付加的なシーケンスによって構成される。本明細書では、このような類型のミスマッチを「iタイプ」ミスマッチと呼ぶ。文献では、挿入されたシーケンスがシーケンスの端にある場合、それは「ソフトクリップ」とも呼ばれる(すなわち、ヌクレオチドは基準に一致していないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的に、アライメントされたリードにおいて保持される)。本明細書では、このタイプのミスマッチを「cタイプ」のミスマッチと呼ぶ。削除は、リファレンスに対するリードで「ホール」(ヌクレオチド欠落)である。本明細書では、このような類型のミスマッチを「dタイプ」のミスマッチと呼ぶ。クラス「N」及び「M」の場合と同様に、マッチングの不正確さに対する制限を定義することは可能かつ適切である。「クラスI」に対する一連の制限の定義は、「クラスM」に使用されたものと同じ原則に基づいており、表1の最後の行に示されている。クラスIのデータに対して許容される各タイプのミスマッチに対するしきい値の他に、さらなる制限は、ミスマッチの数「n」、「s」、「d」、「i」及び「c」、w(n,s,d,i,c)の関数によって決定されるしきい値によって定義される。このような付加的制限により、意味のあるユーザ定義の選択的なアクセス基準に従って、マッチングの不正確さの上限を持つクラスを生成できる。例えば、これに限定されるものではないが、w(n,s,d,i,c)は、(n+s+d+i+c)1/5又は(n+s+d+i+c)、又は「クラスI」に属するリードに対して許容される最大マッチング不正確レベルに境界を設定する任意の線形式又は非線形式であってもよい。このような境界は、様々な目的のためにシーケンスリードを解析するときに、所望の選択的なデータ検索を圧縮データに適用するための非常に有用な基準を構成する。なぜならば、この境界は、許容可能なミスマッチの各タイプに適用される単純なしきい値を超えて、「クラスI」のリードにおいて許容可能なミスマッチの数の任意の可能な組み合わせに対して、さらなる境界を設定することを可能にするからである。
・ 第5のクラスには、リファレンスシーケンスを参照するとき、各データクラスの有効と見なされるマッピングが見つからない(つまり、表1で指定される最大一致の不正確さの上限を定義するマッチング規則のセットを満たさない)全てのリードが含まれる。このようなシーケンスは、リファレンスシーケンスを参照するときに「マッピングされていない」と呼ばれ、「クラスU」に属するものとして分類される。
[マッチング規則によるリードペアの分類]
前のセクションで指定した分類は、単一のシーケンスリードに関するものである。2つのリードが可変長の未知のシーケンスによって分離されることが知られている、ペアでリードを生成するシーケンシング技術の場合(すなわち、イルミナ社)、全てのペアの単一データクラスへの分類を考慮することが適切である。他のリードと結合したリードは、「メイト(mate)」と呼ばれる。
ペアリードの両方が同じクラスに属している場合、ペア全体のクラスへの割り当ては明白である。つまり、ペア全体が任意のクラスの同じクラスに割り当てられる(P、N、M、I、U等)。2つのリードが異なるクラスに属しているが、いずれも「クラスU」に属していない場合、ペア全体が、次の式に従って定義された最も高い優先順位を持つクラスに割り当てられる。
P<N<M<I
この中で「クラスP」の優先度が最も低く、「クラスI」の優先度が最も高くなる。
P<N<M<I
この中で「クラスP」の優先度が最も低く、「クラスI」の優先度が最も高くなる。
1つのリードのみが「クラスU」に属し、そのメイトがクラスP、N、M、Iのいずれかに属している場合、第6番目のクラスは「HMクラス」を表す「ハーフマッピング」として定義される。
このような特定のリードのクラスの定義は、それがリファレンスゲノムに存在するギャップ又は未知の領域を決定しようとするために用いられるという事実によって動機づけられる(ほとんど知られていない又は未知の領域とも呼ばれる)。このような領域は、既知の領域にマッピングすることができるペアリードを使用してエッジでペアをマッピングすることによって再構成される。マッピングされていないメイトは、図9に示すように、未知の領域のいわゆる「コンティグ」を作成するために使用される。したがって、そのようなタイプのリードペアのみに選択的なアクセスを提供すると、関連する計算の負担が大幅に軽減され、最新のソリューションを使用して完全に検査する必要がある場合よりも、大量のデータセットに起因するそのようなデータの非常に効率的な処理が可能になる。
次の表は、各リードが属するデータのクラスを定義するためにリードに適用されるマッチング規則を示す。規則は、ミスマッチの類型(n、s、d、i、c型のミスマッチ)の有無に関して、表の最初の5列で定義される。第6列は、それぞれのミスマッチの類型に対する最大しきい値、及び起こり得るミスマッチの類型の任意の関数f(n,s)及びw(n,s,d,i,c)に関する規則を提供する。
SAM及びCRAMのような一般的に使用されるアプローチは、それらのマッピング情報を表すのに必要な記述子の特定のサブセットに従ってリード又はリードペアをコード化しない。SAM及びCRAMは、それらがマッピングされるリファレンスシーケンスに関して、それらが含むミスマッチの数及び類型に従って、シーケンスリードをデータクラスに分類しない。
さらに、これらのフォーマットは、単一のデータクラスに属するシーケンスリードのみを圧縮形式で含むアクセスユニットに、シーケンスリードを個別にコード化しない。ペアで生成されたシーケンスリードの場合、最新のアプローチでは、リファレンスシーケンスに対するマッピング精度に従ってクラスに分割された単一の要素としてコードをコード化しない。このような最先端のアプローチは、以下の制限及び欠点を有する。
1.リファレンスシーケンスに対するマッピング結果に従って、シーケンスリードを別々のデータクラスに分類することなく、また記述子のユニークなスーパーセットを使用してリード又はリードペアをコーディングすることは、圧縮性能が低い非効率的なアプローチである。
2.圧縮データのソースモデリングの欠如と、ZIP、GZIP、LZMA等の汎用コンプレッサの使用により、圧縮率が低下する。
3.リードペアを別々のシーケンスリードとしてコード化するには、リード識別子(リード名等)等の、同じ情報を保持する複数の記述子を複製する必要があるため、効率が悪く、圧縮パフォーマンスが低下する。
4.リードペアを再構成するために必要な情報の検索は、複雑で非効率的な結果となり、なぜなら、このプロセスでは、おそらくデータセット全体での総当たり逐次検索が必要になるためであり、これは、次世代シーケンシング(NGS)テクノロジーの場合、非常に大規模になる可能性があるためである。
5.特定のゲノム領域にマッピングされたリード又はリードペアへの選択的なアクセスは、全てのリード又はリードペアが検索されることを保証するために、データセット全体を検索することを必要とする。
さらに、これらのフォーマットは、単一のデータクラスに属するシーケンスリードのみを圧縮形式で含むアクセスユニットに、シーケンスリードを個別にコード化しない。ペアで生成されたシーケンスリードの場合、最新のアプローチでは、リファレンスシーケンスに対するマッピング精度に従ってクラスに分割された単一の要素としてコードをコード化しない。このような最先端のアプローチは、以下の制限及び欠点を有する。
1.リファレンスシーケンスに対するマッピング結果に従って、シーケンスリードを別々のデータクラスに分類することなく、また記述子のユニークなスーパーセットを使用してリード又はリードペアをコーディングすることは、圧縮性能が低い非効率的なアプローチである。
2.圧縮データのソースモデリングの欠如と、ZIP、GZIP、LZMA等の汎用コンプレッサの使用により、圧縮率が低下する。
3.リードペアを別々のシーケンスリードとしてコード化するには、リード識別子(リード名等)等の、同じ情報を保持する複数の記述子を複製する必要があるため、効率が悪く、圧縮パフォーマンスが低下する。
4.リードペアを再構成するために必要な情報の検索は、複雑で非効率的な結果となり、なぜなら、このプロセスでは、おそらくデータセット全体での総当たり逐次検索が必要になるためであり、これは、次世代シーケンシング(NGS)テクノロジーの場合、非常に大規模になる可能性があるためである。
5.特定のゲノム領域にマッピングされたリード又はリードペアへの選択的なアクセスは、全てのリード又はリードペアが検索されることを保証するために、データセット全体を検索することを必要とする。
単一のサブセットの記述子を用いてリードペアをコード化する場合、当業者にとって以下の技術的利点が明らかである。
1.明らかに重複している両方のリードに共通する情報は、ペアを単一要素としてコード化しても複製されない(例えば、リードペア識別子、マッピング距離、マッピングリファレンス識別子、SAMファイルフォーマットにおける特定のフラグによって、現在コード化されている様々なマッピング品質情報)。
2.相互ペアリング情報(つまり、どのリードが現在のリードとマッチングするかを示す情報)の検索は簡単であり、それ以上の処理を必要としない。逆に、最先端のアプローチでは、データの全ボリュームを解析する必要がある場合がある。
1.明らかに重複している両方のリードに共通する情報は、ペアを単一要素としてコード化しても複製されない(例えば、リードペア識別子、マッピング距離、マッピングリファレンス識別子、SAMファイルフォーマットにおける特定のフラグによって、現在コード化されている様々なマッピング品質情報)。
2.相互ペアリング情報(つまり、どのリードが現在のリードとマッチングするかを示す情報)の検索は簡単であり、それ以上の処理を必要としない。逆に、最先端のアプローチでは、データの全ボリュームを解析する必要がある場合がある。
シーケンシングデータの特定部分への効率的な選択的なアクセスを可能にし、それらをデジタル・データ・ネットワーク上で転送することができるようにするために、リファレンスにアライメントされたシーケンスリードを表すために使用される記述子のセットは、アクセス・ユニット(AU)と呼ばれる論理的に分離した独立したデータブロックで構成される。各アクセスユニットには、単一のデータクラスの圧縮表現のみが含まれ、他のアクセスユニットとは独立して、又はマッピングに使用されるリファレンスシーケンス領域のコード化表現を保持するアクセスユニットのみを使用してデコード化できる。これにより、選択的なアクセスと順不同の転送機能が可能になる。
圧縮効率を高めるために、本発明は、同じリファレンスシーケンス上にマッピングされた両方のペアを有する各リードペアに対して「マッピングリファレンス識別子」という記述子を指定する必要性を排除する。各アクセスユニットには、同じリファレンスにマッピングされるリード又はペアのみを含めることができる。そのような解決策を使用して、リファレンスシーケンス識別子を表す記述子は、各アクセスユニット又はアクセスユニットのセット(SAM/BAM形式で現在行われているように、リードごとに繰り返されない)ごとに一度だけコード化される必要がある。
上記の規則の唯一の例外は、異なるリファレンスシーケンス(例えば染色体)上にマッピングされた2つのリードを有するリードペアの場合である。この場合、ペアは分割され、2つのリードは2つの別々のゲノムレコードとしてコード化され、それぞれのコード化されたリードは、そのペアがマッピングされるリファレンスシーケンスの識別子を含む。
実験データは、ゲノム記述子の統計的性質に適したエントロピーコーダの開発が、不均一なデータセットに適用される汎用コンプレッサ(例えばLZ型アルゴリズム)の使用に関して、より良い圧縮性能を提供することを実証する。結果として、記述子の特定のサブセットを用いてゲノムシーケンスをコード化する際には、記述子の各個別のサブセットを特徴付けるエントロピーがより低く、リードペアを再構築及び検索する際の処理効率がより高いため、より高い圧縮が達成される。
本発明により開示されたアプローチによって、提供される達成可能な圧縮率に関する利点は、次のセクションで説明され、エントロピーコード化の前にゲノム記述子の異なるブロックに適用される異なるバイナリ化及び変換は、関連する性能とともに説明される。
[リファレンスデータを使用したリファレンスゲノムのコード化]
[リファレンスデータを使用したリファレンスゲノムのコード化]
本原理の一実施形態は、アライメントされたシーケンスデータの、リファレンスレスの圧縮が実行される場合の、リファレンスゲノム又はゲノムアセンブリ等のリファレンスシーケンスの無損失圧縮に関する。フォーゲス,J.、ムンダロー,M.、オスターマン,J.(Voges, J., Munderloh, M., Ostermann, J.)らによる「アラインメントされた次世代シーケンシングデータの予測コーディング(Predictive Coding of Aligned Next-Generation Sequencing Data)」(2016、データコンプレッションコンファレンス(Data Compression Conference:DCC))によるアライメントされたシーケンスデータのリファレンスレス圧縮は、本開示の表1に定義された1から12までのゲノム記述子を使用して実装できる。フォーゲス(Voges)は、コード化されたシーケンスリードを順次格納し、アライメントされた各シーケンスに関連付けられたSAM CIGAR文字列を使用して関連するコンティグを構築するために、循環バッファを使用する。この言及されたアプローチは、リファレンスシーケンス100にマッピングされたゲノムシーケンスデータ101の効率的な圧縮を実現でき、デコードエンジンはコンティグと圧縮されたゲノムシーケンスのリードのみを再構築できるが、アライメントに使用された元のリファレンスゲノムは圧縮されたデータに含まれていないため、リファレンスシーケンス100自体の表現と圧縮はサポートされていない。本開示は、表1のゲノム記述子のNo.13及び14を使用して、リファレンスレス圧縮がゲノムシーケンスデータに適用される場合、アライメントに使用されるリファレンスゲノムの効率的な圧縮を達成することを目的とする。これは、圧縮プロセス中でアセンブリされたコンティグと、アラインメントに使用されたリファレンスゲノムとの差を圧縮データに保存することによって達成される。デコード化の終了時において、デコード化プロセスは、ゲノムシーケンスリードの解凍に使用されるコンティグを再構築し、−記述子13及び14により−、アライメントに使用されるリファレンスゲノムを再構築できる。
図1は、リファレンスベースの圧縮を実行するために使用されるコンティグと呼ばれるより長いシーケンス102を構築するために、アライメントされたシーケンスリード101がどのように使用されるかを示す。コンティグは、リファレンスゲノム上のそれぞれの位置ごとに、アライメントされたリードにおいて最も高い頻度で存在するヌクレオチドをその位置で選択することによってアセンブリされる。そのようなヌクレオチドがリファレンスシーケンス中のものと同じであれば、これを「マッチング」といい、そうでなければ、それは「ミスマッチ」という。これは、バッファが先験的に固定されなければならないフォーゲス(Voges)のアプローチでは不可能であり、これもまた、所定の設計選択が行われているためである。
さらに、本発明では、コンティグの長さは、ユーザによって(入力パラメータファイル等)定義されるか、又はエンコーダによって動的に更新される。コンティグの長さに関する情報は、表18に示すような圧縮されたゲノム情報を保存又は送信するために使用されるファイルフォーマットに含まれるデータ構造でエンコーダからデコーダに送信することができる。そのような新しい特徴は、それがパラメータによって定義され、様々なエンコーダ及びデコーダのアーキテクチャ及びそれらの関連する制限に適合することができ、また、ゲノムシーケンスをコード化及びデコード化するために使用される様々なアーキテクチャの進化及びコード化されるシーケンスの計算複雑性に適合可能であるというかなりの利点を有する。
コンティグの長さは、ヌクレオチド数及び/又はコード化及びデコード化プロセスで使用されるリード数の両方で表現できる。このプロセスは図に示される。
さらに、図2は、リファレンスシーケンス200とコンティグ201との間の前記「ミスマッチ」(202)が、表1の記述子No.13及びNo.14を用いてどのようにコード化されるかを示す。そのような記述子をエントロピーコード化し、アラインメントされたシーケンスリードを圧縮するために使用される記述子を含む同じアクセスユニットにカプセル化することによって、アラインメントに使用されるリファレンスゲノムのデコーディング装置での再構築が可能になる。
本発明の別の実施形態において、マッピングに使用されるリファレンスゲノムの領域のうち、マッピングされたリードのいずれにも含まれない領域は、圧縮(すなわちエントロピーコード化)、カプセル化、及び特定のアクセスユニットで伝送することができる。このようなアクセスユニットには、アライメントに使用されるリファレンスゲノムの圧縮表現のみが含まれ、シーケンスリードがマッピングされていないゲノム領域をカバーする。これを図11に示す。ここでは、アライメントに使用されているがリードがマッピングされていないリファレンスゲノムの領域が特定のアクセスユニットでコード化されている。このような発明の技術的優位点は、リファレンスゲノムの全体積に対応する量のデータを記憶する必要なしに、アラインメントに使用されるリファレンスゲノムを解読終了時に完全に再構築することが可能であることである。
ここで引用した、フォーゲス(Voges)らのソリューションに対するこのようなアプローチの技術的な利点は次のとおりである。
1.アラインメントに使用されるリファレンスゲノムは、追加データのオフバンド送信なしで、デコーディング装置で使用できる(例えば、圧縮されたゲノム又は外部リポジトリへの他のリファレンス)
2.リファレンスゲノムは、各アクセスユニットによってカバーされるゲノム領域に等しい粒度で、デコーディングデバイスにおいて選択的に再構築され得る。リファレンスゲノムの部分領域は、ランダムアクセス機構によってアクセスすることができる。これは、分析がはるかに小さなゲノム領域に制限される場合でさえ、ヒト基準ゲノムを構成する全32億個のヌクレオチドの減圧及び操作を必要とする既存のソリューションに関するはるかに効率的なデータ処理を可能にする。
3.本発明で開示されるrftp及びrftt記述子は、アライメントに使用されるリファレンスゲノムが、圧縮シーケンスデータが属する同じ個体に属する場合、圧縮シーケンスデータに存在する新しい一塩基多型(別名SNP、https://en.wikipedia.org/wiki/Single-nucleotide_polymorphismを参照)の指標としてゲノム解析パイプラインによって使用され得る。非常に高い(30×を超える)カバレッジで、リファレンスなしの圧縮プロセスの間で構築されたコンティグ102は、個人のゲノムの新しいアセンブリとして考えられ得ることを理解されたい。コンティグを同じ個体に属する前もって取得されたリファレンスゲノム100と比較すると、発見された違いは、単一ヌクレオチド多型の存在の可能性を示している(SNPとも呼ばれる、https://en.wikipedia.org/wiki/Single-nucleotide_polymorphismを参照)。
[ゲノム記述子のエントロピーコーディング]
1.アラインメントに使用されるリファレンスゲノムは、追加データのオフバンド送信なしで、デコーディング装置で使用できる(例えば、圧縮されたゲノム又は外部リポジトリへの他のリファレンス)
2.リファレンスゲノムは、各アクセスユニットによってカバーされるゲノム領域に等しい粒度で、デコーディングデバイスにおいて選択的に再構築され得る。リファレンスゲノムの部分領域は、ランダムアクセス機構によってアクセスすることができる。これは、分析がはるかに小さなゲノム領域に制限される場合でさえ、ヒト基準ゲノムを構成する全32億個のヌクレオチドの減圧及び操作を必要とする既存のソリューションに関するはるかに効率的なデータ処理を可能にする。
3.本発明で開示されるrftp及びrftt記述子は、アライメントに使用されるリファレンスゲノムが、圧縮シーケンスデータが属する同じ個体に属する場合、圧縮シーケンスデータに存在する新しい一塩基多型(別名SNP、https://en.wikipedia.org/wiki/Single-nucleotide_polymorphismを参照)の指標としてゲノム解析パイプラインによって使用され得る。非常に高い(30×を超える)カバレッジで、リファレンスなしの圧縮プロセスの間で構築されたコンティグ102は、個人のゲノムの新しいアセンブリとして考えられ得ることを理解されたい。コンティグを同じ個体に属する前もって取得されたリファレンスゲノム100と比較すると、発見された違いは、単一ヌクレオチド多型の存在の可能性を示している(SNPとも呼ばれる、https://en.wikipedia.org/wiki/Single-nucleotide_polymorphismを参照)。
[ゲノム記述子のエントロピーコーディング]
本開示において定義されるゲノム記述子のサブセットは、本発明の原理に従って定義される6つのクラスに属するゲノムデータを表すために使用される。図6及び7は、リファレンスシーケンスの隣接領域にマップされたゲノムシーケンスリードが、1つのアクセスユニットにカプセル化されたゲノム記述子のブロックによって表されることを示す。記述子のブロックは、各記述子の統計的特性に特に適合された異なるエントロピーコーダを用いてエントロピーコード化される。このアプローチは、ゲノム記述子の各ブロックがSAM又はCRAMレコードよりも効率的にモデル化され得る情報ソースを表すので、SAN/BAM又はCRAMのような他のアプローチよりも良好な圧縮比を提供する。SAM及びCRAMレコードは、本開示において定義されるゲノム記述子と同じ統計的特性を共有しない異種エレメントのグループである。
記述子に適用される変換及びバイナリ化は、当該記述子のエントロピーコーダのために必要な構成パラメータと共に適用され、技術水準の解決よりも良好な圧縮率を提供し、以下に報告するように本発明によって開示される。
[記述子の変換]
[記述子の変換]
記述子の変換は、より良い圧縮性能を達成するために、ゲノムシーケンス内のミスマッチの位置又はミスマッチの類型等のゲノムの特徴を表す記述子の値を、異なる対応する値に変換するプロセスである。一実施形態において、本開示の原理に従って、rftp記述子によって表されるミスマッチの位置は、以下のステップに従って変換される。
1.変換プロセスへの入力は、シーケンスリードの最初のヌクレオチドからのヌクレオチド単位の距離として表されるミスマッチの位置である。これは、図2に示されており、リファレンスシーケンスに関するアセンブリされたコンティグの4つのミスマッチ203は、位置4、6、10、及び13にある。
2.次に、各絶対位置は、以前のミスマッチに関する微分位置に変換される。最初のミスマッチは同じ値を維持する。4つの位置の値は4、2、4、3に変換される。これらの値は、次に説明するrftp記述子のバイナリ化プロセスへの入力である。
1.変換プロセスへの入力は、シーケンスリードの最初のヌクレオチドからのヌクレオチド単位の距離として表されるミスマッチの位置である。これは、図2に示されており、リファレンスシーケンスに関するアセンブリされたコンティグの4つのミスマッチ203は、位置4、6、10、及び13にある。
2.次に、各絶対位置は、以前のミスマッチに関する微分位置に変換される。最初のミスマッチは同じ値を維持する。4つの位置の値は4、2、4、3に変換される。これらの値は、次に説明するrftp記述子のバイナリ化プロセスへの入力である。
一実施形態において、本開示の原理に従って、rftt記述子によって表されるミスマッチの類型は、以下のステップに従って変換される。
1.変換プロセスへの入力は、ヌクレオチドの記号として表される類型のミスマッチである。これは、図2に示されており、ここで、アセンブリされたコンティグのリファレンスシーケンスに関する4つのミスマッチ204は、タイプA、A、G、Aである。
2.次いで、各ヌクレオチドは、可能な全ての記号を含むベクター209内のヌクレオチドの位置を表す整数値に変換される。これを図10に示す。4つのミスマッチの類型は0,0,2,0に変換される。これらの値は、以下で説明するrftt記述子のバイナリ化プロセスへの入力である。
[記述子のバイナリ化]
1.変換プロセスへの入力は、ヌクレオチドの記号として表される類型のミスマッチである。これは、図2に示されており、ここで、アセンブリされたコンティグのリファレンスシーケンスに関する4つのミスマッチ204は、タイプA、A、G、Aである。
2.次いで、各ヌクレオチドは、可能な全ての記号を含むベクター209内のヌクレオチドの位置を表す整数値に変換される。これを図10に示す。4つのミスマッチの類型は0,0,2,0に変換される。これらの値は、以下で説明するrftt記述子のバイナリ化プロセスへの入力である。
[記述子のバイナリ化]
一実施形態において、本発明は、ゲノム記述子の圧縮のためにコンテキスト適応型バイナリ算術コーディング(CABAC)を使用する。CABACはまず、コード化される全ての記号をバイナリ表現に変換する。バイナリ化プロセスは、算術コード化に先立って、非バイナリ記号(たとえば、マッピング位置、マッピングされたリードの長さ、又はミスマッチの類型)をバイナリコードに変換する。
各記述子の統計的性質に適合した適切なバイナリ化の選択は、異種要素のブロックに適用された汎用コンプレッサに基づく既存フォーマットよりも良好な圧縮率を提供する。
以下のセクションにおいてこれらの変数は次のように定義される。
・ symVal:バイナリ化されるゲノム記述子の非バイナリ値
・ cLength:バイナリ化される値のビット数を表す
・ cMax:バイナリ化される最大値である。大きな値は切り捨てられる。
・ symVal:バイナリ化されるゲノム記述子の非バイナリ値
・ cLength:バイナリ化される値のビット数を表す
・ cMax:バイナリ化される最大値である。大きな値は切り捨てられる。
以下のバイナリ化テーブルは、これらの変数の固定値について計算されるが、本発明の原理はこれらの値に限定されず、従って、本発明の原理の趣旨を維持しつつ、他の値も本発明の原理に従って使用することができることを理解されたい。
本開示で使用されるそれぞれのバイナリ化のアルゴリズムは、表3に示す識別子によって識別される。
これは、各数値がバイナリ表現でコード化される標準のバイナリ表現である。表15に示す変数cLength−binarization_id=0の場合を表15に示す−は、値を表すときのビット数を示す。
[切捨単項(TU)バイナリ化]
[切捨単項(TU)バイナリ化]
TUバイナリ文字列は 、symValの後に1つのゼロが続くものを連結したものである。仮に、symVal=cMaxの場合、末尾の0ビットは破棄される。表4は、cMax=3と共に切捨単項バイナリ化のバイナリ文字列を示す。
この技術を使用してバイナリ化されたゲノム記述子のための構文解析プロセスは、ビットストリーム内の現在の位置から始まり、最初の非ゼロビットまでのビットを読み取り、0に等しい先行ビットの数をカウントすることから始まる。
変数symValは次のように割り当てられる。
ここで、関数を呼び出すread bitsは、入力として渡されたパラメータに等しいビット数を記憶媒体から読み出す。read_bit(leadingZeroBits)から返された値は、最上位ビットが最初に書き込まれる符号なし整数のバイナリ表現として解釈される。
表5は、ビット文字列を「prefix」ビットと「suffix」ビットに分けることによって、Exp−Golombコードの構造を示す。「prefix」ビットは、leadingZeroBitsの計算のために上記のように解析されるビットであり、表5のビット文字列において0又は1のいずれかとして示される。「suffix」ビットは、symValの計算において解析されるビットであり、表5においてxiとして示され、iは0からleadingZeroBits−1の範囲内にある。各xiは、0又は1に等しくなる。
表6は、ビット文字列のsymVal値への明示的な割り当てを示す。
ゲノム記述子に応じて、バイナリ化された構文要素の値は、次のいずれかの方法を使用してデコード化される。
1.デコードされたゲノム記述子の値は、バイナリ化された記述子に対応するsymValの値に等しい
2.デコードされたゲノム記述子の値は、例えばhttps://en.wikipedia.org/wiki/Exponential-Golomb_codingで定義されたように、symValを入力として符号付き0次指数ゴロムデコード化を適用することによって計算される。
[符号付指数ゴロム(SEG)のバイナリ化]
1.デコードされたゲノム記述子の値は、バイナリ化された記述子に対応するsymValの値に等しい
2.デコードされたゲノム記述子の値は、例えばhttps://en.wikipedia.org/wiki/Exponential-Golomb_codingで定義されたように、symValを入力として符号付き0次指数ゴロムデコード化を適用することによって計算される。
[符号付指数ゴロム(SEG)のバイナリ化]
このバイナリ化方法によれば、ゲノム記述子は、構文要素をその絶対値で昇順に並べ、与えられた絶対値に対する正の値をより低いsymValで表すことによって、symValに関連付けられる。表7に割当て規則を示す。
このバイナリ化プロセスでは、バイナリ化の計算方法を定義する追加の入力パラメータtegParamを使用する必要がある。このプロセスによる出力は、構文要素のTEGのバイナリ化である。
TEGバイナリ文字列は、1(symVal=0の場合)又は2(symVal>0の場合)のバイナリ化の連結である。
1.Min(symVal,tegParam)に対するcMax=tegParamの切捨単項バイナリ化
2.symVal!=0の場合、値Abs(symVal)−tegParamの指数ゴロムバイナリ化
1.Min(symVal,tegParam)に対するcMax=tegParamの切捨単項バイナリ化
2.symVal!=0の場合、値Abs(symVal)−tegParamの指数ゴロムバイナリ化
表8は、tegParam=2を使用したこの切捨指数ゴロムバイナリ化のバイナリ文字列を示す。
このバイナリ化プロセスでは、追加の入力パラメータstegParamを使用する必要がある。
STEGバイナリ文字列は、1(symVal=0の場合)又は2(他の場合)のバイナリ化の連結である。
表9.stegParam=2での符号付切捨指数ゴロムバイナリ化のバイナリ文字列
[分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)(SUTU)バイナリ化]
このバイナリ化プロセスでは、2つの入力パラメータsplitUnitSize及びoutputSymSizeを使用する必要がある。outputSymSizeは常にsplitUnitSizeの倍数でなければならない。SUTUバイナリ文字列は、繰り返されるTUバイナリ化の連結であり、各TUバイナリ化は、symValのsplitUnitSizeのビット長の部分に適用される。言い換えると、symValは、TUバイナリ化で取得したxバイナリ文字列で表され、ここで、x=outputSymSize/splitUnitSizeである。各バイナリ文字列のcMaxパラメータは、cMax=(1<<splitUnitSize)−1として定義される。
表10は、splitUnitSize=2及びoutputSymSize=8での、分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)バイナリ化のバイナリ文字列を示す。
このバイナリ化プロセスのビットストリームの構文については、以下で説明する。
このバイナリ化プロセスでは、2つの入力パラメータsplitUnitSize及びoutputSymSizeを使用する必要がある。SSUTUバイナリ文字列は、symValのコードを別のフラグとしてコード化したSUTUバイナリ化プロセスの拡張によって取得される。
・ 値Abs(symVal)に対するSUTUのバイナリ化。
・ symVal!=0の場合、1(symVal<0の場合)又は0(symVal>0の場合)に等しい1ビットのフラグ。
・ 値Abs(symVal)に対するSUTUのバイナリ化。
・ symVal!=0の場合、1(symVal<0の場合)又は0(symVal>0の場合)に等しい1ビットのフラグ。
表12は、splitUnitSize=2、outputSymSize=8を使用した符号付分割ユニットワイズ切捨単項(Signed Split Unit-wise Truncated Unary)バイナリ化の文字列を示す。
このバイナリ化プロセスの構文規則(syntax)は次のとおりである。
sign_flagは、ctxIdxで識別されるコンテキスト変数のビットのcabacデコード化を表す。
decode_cabac_SUTU()は、SUTUのバイナリ化のためのcabacデコード化プロセスを表す。
[二重切捨単項(DTU)によるバイナリ化]
decode_cabac_SUTU()は、SUTUのバイナリ化のためのcabacデコード化プロセスを表す。
[二重切捨単項(DTU)によるバイナリ化]
このバイナリ化プロセスは、2つの入力パラメータsplitUnitSizeとoutputSymSizeを使用する必要がある。
DTUバイナリ文字列は、2つのバイナリ化、すなわちTUバイナリ化及びSUTUバイナリ化の連結である。TUバイナリ化にはパラメータcMaxが使用され、SUTUバイナリ化にはパラメータsplitUnitSizeとoutputSymSizeが使用される(ここで、cMaxは内部的に派生する)。
・ Min(Abs(symVal),cMax)の値に対するTUバイナリ化の第1のインスタンス
・ Abs(symVal)>cMaxの場合、Abs(symVal)−cMaxのSUTUバイナリ化の第2のインスタンス。
・ Min(Abs(symVal),cMax)の値に対するTUバイナリ化の第1のインスタンス
・ Abs(symVal)>cMaxの場合、Abs(symVal)−cMaxのSUTUバイナリ化の第2のインスタンス。
表13はcMax=1、splitUnitSize=2、outputSymSize=8の二重切捨単項バイナリ化のバイナリ文字列を示す。
バイナリ化プロセスを以下に説明する。
decode_cabac_TU()は、TUのバイナリ化のためのcabacデコード化プロセスを表す。
decode_cabac_SUTU()は、SUTUバイナリ化のcabacデコード化プロセスを表す。
[符号付二重切捨単項(SDTU)バイナリ化]
decode_cabac_SUTU()は、SUTUバイナリ化のcabacデコード化プロセスを表す。
[符号付二重切捨単項(SDTU)バイナリ化]
このバイナリ化プロセスは、2つの追加入力パラメータsplitUnitSizeとoutputSymSizeを使用する必要がある。SDTUバイナリ文字列は、フラグとしてコード化されたsymValのコードをもつDTUバイナリ化プロセスの拡張により得られる。
・ Abs(symVal)値のDTUバイナリ化
・ symVal!=0の場合、1(symVal<0の場合)又は0(symVal>0の場合)に等しい1ビットのフラグ。
・ Abs(symVal)値のDTUバイナリ化
・ symVal!=0の場合、1(symVal<0の場合)又は0(symVal>0の場合)に等しい1ビットのフラグ。
表14は、cMax=1、splitUnitSize=2、outputSymSize=8を使用した、二重切捨単項バイナリ化のバイナリ文字列を示す。
このバイナリ化プロセスの構文を以下に説明する。
sign_flagは、ctxIdxで識別されるコンテキスト変数のビットのcabacデコード化を表す。
decode_cabac_DTU()は、DTUのバイナリ化によるcabacデコード化を表す。
[バイナリ化パラメータ]
decode_cabac_DTU()は、DTUのバイナリ化によるcabacデコード化を表す。
[バイナリ化パラメータ]
前のセクションで紹介したそれぞれのバイナリ化アルゴリズムは、コード化及びデコード化の終了時に構成パラメータを必要とする。一実施形態では、前記構成パラメータは、表15に記載のデータ構造にカプセル化される。それぞれのバイナリ化アルゴリズムは、表3に列挙される識別子によって識別される。
表15は、次のセマンティクス(semantics)が適用される:
cMaxは、バイナリ化される最大値を表す。大きい値は切り捨てられる。
cLengthは、値がバイナリ化されるビット数を表す。
tegParamは、本明細書でTEGのバイナリ化用に定義されているtegParam変数を表す。
stegParamは、本明細書でSTEGのバイナリ化用に定義されているstegParam変数を表す。
splitUnitSizeは、本明細書でSUTU、SUTU、及びDTUのバイナリ化用に定義されているsplitUnitSize変数を表す。
outputSymSizeは、本明細書でSUTU、SSUTU、DTU、及びSDTUバイナリ化用に定義されているoutputSymSize変数を表す。
[本発明の技術的利点の証拠]
cMaxは、バイナリ化される最大値を表す。大きい値は切り捨てられる。
cLengthは、値がバイナリ化されるビット数を表す。
tegParamは、本明細書でTEGのバイナリ化用に定義されているtegParam変数を表す。
stegParamは、本明細書でSTEGのバイナリ化用に定義されているstegParam変数を表す。
splitUnitSizeは、本明細書でSUTU、SUTU、及びDTUのバイナリ化用に定義されているsplitUnitSize変数を表す。
outputSymSizeは、本明細書でSUTU、SSUTU、DTU、及びSDTUバイナリ化用に定義されているoutputSymSize変数を表す。
[本発明の技術的利点の証拠]
表16に示されるように、表示されたCABACバイナリ化をそれぞれのゲノム記述子に適用することによって、表17に示される圧縮性能を得ることができる。本開示で説明される方法の圧縮性能の改善は、BAM及びCRAMアプローチの対応するファイルサイズと、DeeZ(ヌマヤギッチ,I.(Numanagic, I.)、他、「高スループットシーケンシングデータ圧縮ツールの比較(Comparison of high-throughput sequencing data compression tools)」、ネイチャーメソッド(Nature Methods)(ISSN:1548-7091)、vol.13、p.1005−1008、ロンドン:ネイチャーパブリッシンググループ、2016)として知られる文献の最良のコンプレッサの1つとの比較により理解することができる。DeeZ、BAM及びCRAMの圧縮性能は、圧縮ゲノムシーケンスデータのサイズにアラインメントに使用される圧縮リファレンスゲノムのサイズを追加することによって計算されることを理解する必要がある。本開示の原理によれば、リファレンスゲノムは圧縮ファイルに埋め込まれている。今日では、圧縮リファレンスゲノムは、GZIP、LZMA、Bzip2等の汎用コンプレッサを用いて圧縮されたFASTA(ASCIIテキスト)ファイルであると述べられている。提案された比較例では、リファレンスゲノムhs37d4.faを最大圧縮(−9)のオプション付きのxz Linux(登録商標)コマンドを使って圧縮した。
rftpのバイナリ化された値は次のように計算される。
1.ターミネータの値は、0又は1としてバイナリ化できる。この例では、0を選択する。
2.ターミネータ=0の場合、splitUnitSize=4、outputSymboleSize=12のバイナリ化No.6が使用され、次のバイナリ文字列がrftpの値に関連付けられる。
a. 5=11110
b. 2=110
c. 5=11110
d. 1=10
e. 2=110
1.ターミネータの値は、0又は1としてバイナリ化できる。この例では、0を選択する。
2.ターミネータ=0の場合、splitUnitSize=4、outputSymboleSize=12のバイナリ化No.6が使用され、次のバイナリ文字列がrftpの値に関連付けられる。
a. 5=11110
b. 2=110
c. 5=11110
d. 1=10
e. 2=110
rfttのバイナリ化された値は、次のように計算される。
1.リファレンスゲノム中に存在するヌクレオチドを知っていれば、コード化される可能性のある記号から対応する記号を取り除く。すなわち、この例の第1のミスマッチでは、リファレンス内の対応する記号が「G」である場合、コード化される可能性のある記号のスペースは0、1、3、4である。
2.コード化されるデータ上のミスマッチの類型の記号の頻度が測定され、0から3までインデックス付けされる。インデックス0は最も頻度の高いミスマッチに影響され、インデックス3はより頻度の低いミスマッチに影響される。
この例では、インデックス作成は次のようになる:{0=>3、1=>0、2=>4、3=>1}
3.与えられた例では、5つのミスマッチは以下のようにTUバイナリ化を使用してバイナリ化されることができる:
1.リファレンスゲノム中に存在するヌクレオチドを知っていれば、コード化される可能性のある記号から対応する記号を取り除く。すなわち、この例の第1のミスマッチでは、リファレンス内の対応する記号が「G」である場合、コード化される可能性のある記号のスペースは0、1、3、4である。
2.コード化されるデータ上のミスマッチの類型の記号の頻度が測定され、0から3までインデックス付けされる。インデックス0は最も頻度の高いミスマッチに影響され、インデックス3はより頻度の低いミスマッチに影響される。
この例では、インデックス作成は次のようになる:{0=>3、1=>0、2=>4、3=>1}
3.与えられた例では、5つのミスマッチは以下のようにTUバイナリ化を使用してバイナリ化されることができる:
上記のバイナリ化のアプローチでは、次の圧縮結果が得られる。
一実施形態において、各アクセスユニットをコード化及びデコード化するのに必要なパラメータは、表18に定義されるような名前のデータ構造にカプセル化される。
図3は、本発明の原理に基づくコード化装置を示す。コード化装置は、入力として、例えばゲノムシーケンシング装置によって生成されたリファレンスゲノム302及び非アライメントゲノムシーケンス300を受信する。イルミナHiSeq2500、Thermo−Fischer Ion Torrent device、Oxford Nanopore MinION等のゲノムシーケンシング装置は、当技術分野で知られている。アライメントされていないシーケンスデータ300は、シーケンスをリファレンスゲノム302にマッピングするリードアライメントユニット301に供給される。アライメントされたゲノムシーケンス303は、アセンブリ装置304によって使用され、1つ又は複数のコンティグ305を構築する。コンティグの構築は、コンティグの長さや各コンティグを構築するために使用されるシーケンスリードの数等のパラメータ313をコード化することにより構成することができる。構築されたコンティグ305を使用して、アライメントされたゲノムシーケンス303に対して、リファレンスベースの圧縮を実行する。リファレンスベースのコンプレッサ306は、マッピングされたゲノムシーケンスとマッピングされていないゲノムシーケンスの両方を表す記述子という名前の構文要素を生成する。アライメントに使用されるリファレンスゲノム302及び構築されたコンティグ305は、リファレンスゲノム302とコンティグ305との間のミスマッチの位置及び類型を表す記述子を生成するリファレンスゲノム微分コード化装置307に供給される。リファレンスベースのコンプレッサ306及びリファレンスゲノム微分コード化装置307によって生成されたゲノム記述子308は、最初にいくつかのバイナリ化ユニット312によってバイナリ化され、次にいくつかのエントロピーコーダ309によってエントロピーコード化される。エントロピーコード化ゲノム記述子は、多重化装置310に供給されて、圧縮ビットストリーム311を構成する1つ以上のアクセスユニットを構築する。多重化ビットストリームは、コード化パラメータエンコーダ314によって構築されたコード化パラメータ構造313を含む。各アクセスユニットは、本開示で定義されるデータの1つのクラスに属するアライメント情報及びシーケンスリードを表すエントロピーコード化された記述子を含む。
[デコード化装置]
[デコード化装置]
図4は、本開示の原理によるデコード化装置を示す。逆多重化ユニット401は、ネットワーク又は記憶素子から多重化ビットストリーム400を受信し、前記ビットストリームを構成するアクセスユニットのエントロピーコード化されたペイロードを抽出する。エントロピーデコーダ402は、抽出されたペイロードを受け取り、異なる種類のゲノム記述子をそれらのバイナリ表現にデコードする。前記バイナリ表現は、ゲノム記述子403、409を生成するいくつかのバイナリデコーダ410に供給される。コード化パラメータデコーダ411は、ゲノム情報と多重化されたコード化パラメータを受信し、それらをシーケンスリードコード化のためのコンティグの構築を担当するユニット404に供給する。ゲノムシーケンスリード409を表すゲノム記述子は、デコード化プロセスの一部として1つ以上のコンティグ405を構築し、アライメントされたゲノムシーケンス407を再構築するシーケンスリード再構築ユニット404に供給される。コンティグ405と、コンティグとアラインメントに使用されるリファレンスゲノムとの差を表すエントロピーデコード化記述子403は、アラインメントに使用されるリファレンスゲノム408を再構成するリファレンスゲノム再構成ユニット406に送られる。
本明細書で開示される本発明の技術は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせで実装され得る。ソフトウェアで実装される場合、これらはコンピュータ媒体に保存され、ハードウェア処理ユニットによって実行される。ハードウェア処理ユニットは、1つ以上のプロセッサ、デジタル信号プロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路又は他の個別の論理回路を備えてもよい。
本開示の技術は、携帯電話、デスクトップコンピュータ、サーバ、タブレット、及び類似のデバイスを含む、さまざまなデバイス又は装置に実装され得る。
Claims (30)
- ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータの、前記ゲノムシーケンスデータをコード化する方法であって、
・ 前記リードを1つ以上のリファレンスシーケンスにアライメントさせ、アライメントされたリードを作成し、
・ 前記アライメントされたリードをアセンブリし、それによってコンティグを生成し、
・ 前記リファレンスシーケンスと前記コンティグとを比較することにより、ミスマッチの位置及びミスマッチの類型に関する情報を取得し、
・ ミスマッチの位置及びミスマッチの類型に関連する前記情報をエントロピーコード化する、
ことを含む方法。 - 前記アライメントされたリードをアセンブリすることは、前記リファレンスシーケンスの各位置について、その位置で前記アライメントされたリードで最も高い頻度で存在する前記ヌクレオチドを選択するステップを含む、
請求項1に記載の方法。 - 前記ミスマッチの位置及び前記ミスマッチの類型に関する前記情報は、それぞれ第1の記述子(203)及び第2の記述子(204)を用いて示される、
請求項2に記載の方法。 - 前記第1の記述子及び第2の記述子は、同じアクセスユニットにカプセル化され、デコード化装置において前記アライメントに使用される前記リファレンスシーケンスの選択的な再構成を可能にする、
請求項3に記載の方法。 - 前記コンティグの長さは、エンコーダへの入力パラメータとして又は前記エンコーダによって動的に適用されるものとして定義される、
請求項4に記載の方法。 - 前記第1の記述子は、分割ユニットワイズ切捨単項バイナリ化を用いてバイナリ化され、前記分割ユニットワイズ切捨単項は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化される値のNビット長の部分に適用され、前記Nは予め選択されたパラメータである、
請求項5に記載の方法。 - 前記第2の記述子は、切捨単項バイナリ化を用いてバイナリ化され、前記第2の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の0ビットは破棄される、
請求項5に記載の方法。 - 前記方法は、特定のリファレンスゲノムの使用をシグナリングする情報をコード化しない、
請求項5に記載の方法。 - 前記コンティグの長さは構文ヘッダに含まれている、
請求項6に記載の方法。 - ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータをコード化するための装置であって、
・ 前記リードを1つ以上のリファレンスシーケンスにアライメントさせ、それによってアラメントされたリードを作成するための手段と、
・ 前記アライメントされたリードをアセンブリして、コンティグを作成するための手段と、
・ 前記リファレンスシーケンスと前記コンティグを比較することにより、ミスマッチの位置及びミスマッチの類型に関する情報を取得するための手段と、
・ ミスマッチの位置及びミスマッチの類型に関連する前記情報をエントロピーコード化する手段と、
を含む装置。 - 前記アライメントされたリードをアセンブリするための前記手段は、前記リファレンスシーケンスの各位置について、その位置でアライメントされたリードで最も高い頻度で存在するヌクレオチドを選択する手段をさらに含む、
請求項10に記載の装置。 - ミスマッチの位置及びミスマッチの類型に関連する前記情報を、それぞれ第1の記述子(203)及び第2の記述子(204)によって示す手段をさらに含む、
請求項11に記載の装置。 - 前記第1の記述子及び第2の記述子を同じアクセスユニットにカプセル化して、デコード化装置において前記アライメントに使用される前記リファレンスシーケンスの選択的な再構成を可能にする手段をさらに含む、
請求項12に記載の装置。 - 入力パラメータとして前記コンティグの長さを受信する手段と、前記コンティグの長さを動的に適応させる手段とをさらに含む、
請求項13に記載の装置。 - 分割ユニットワイズ切捨単項バイナリ化を適用することにより前記第1の記述子をバイナリ化するバイナリ化手段をさらに備え、前記分割ユニットワイズ切捨単項は、繰り返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化されるべき値のNビット長の部分に適用され、Nは予め選択されたパラメータである、
請求項14に記載の装置。 - 切捨単項バイナリ化を使用することにより、前記第2の記述子をバイナリ化するバイナリ化手段をさらに備え、前記第2の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の0ビットが破棄される、
請求項14に記載の装置。 - 構文ヘッダ内の前記コンティグの長さをコード化するための手段をさらに備える、
請求項16に記載の装置。 - コード化されたゲノムシーケンスデータをデコード化する方法であって、
前記コード化された入力ファイルを解析し、コンティグシーケンスを取得し、
コンティグ内のミスマッチの位置とミスマッチの類型に関連する情報をエントロピーデコード化し、
ミスマッチの位置および類型に関する前記情報を用いて前記コンティグを修正し、それにより圧縮前のアラインメントに使用されるリファレンスゲノムを表すヌクレオチドのゲノムシーケンスを取得する、
ことを含む方法。 - ミスマッチの位置及び類型に関する前記情報を用いてコンティグを修正し、それによりヌクレオチドの前記ゲノムシーケンスを取得することは、第1の記述子(203)及び第2の記述子(204)のエントロピーデコード化をすることをさらに含む、
請求項18に記載の方法。 - ヌクレオチドの前記ゲノムシーケンスの選択的な再構築を得るために、同じアクセスユニットから前記第1の記述子及び第2の記述子を脱カプセル化することをさらに含む、
請求項19に記載の方法。 - 入力ファイルに含まれる構文ヘッダから、前記コンティグの長さをデコード化することをさらに含む、
請求項20に記載の方法。 - 前記第1の記述子の逆バイナリ化をさらに含み、
前記第1の記述子は、分割ユニットワイズ切捨単項バイナリ化を使用してバイナリ化され、
前記分割ユニットワイズ切捨単項は、繰返し切捨単項バイナリ化の連結であり、
各切捨単項バイナリ化は、バイナリ化される値のNビット長の部分に適用され、Nは予め選択されたパラメータである、
請求項19に記載の方法。 - 前記第2の記述子の逆バイナリ化をさらに含み、前記第2の記述子は切捨単項バイナリ化を用いてバイナリ化され、前記第2の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の0ビットは破棄される、
請求項19に記載の方法。 - 前記入力ファイルは、特定のリファレンスゲノムの使用をシグナリングする情報を含まない、
請求項19に記載の方法。 - コード化されたゲノムシーケンスデータをデコード化するための装置であって、
コード化された入力ファイルを解析し、コンティグシーケンスを取得する手段と、
コンティグ内のミスマッチの位置とミスマッチの類型に関する情報をエントロピーデコード化する手段と、
ミスマッチの位置及び類型に関する前記情報を用いて前記コンティグを修正し、それにより圧縮前のアラインメントに使用されるリファレンスゲノムを表すヌクレオチドのゲノムシーケンスを取得する手段と、
を含む装置。 - コンティグ内のミスマッチの位置及び類型に関する前記情報を用いて前記コンティグを修正する手段は、ヌクレオチドのゲノムシーケンスを取得し、第1の記述子(203)及び第2の記述子(204)のエントロピーデコード化手段、
をさらに含む、請求項25に記載の装置。 - 同じアクセスユニットから前記第1の記述子及び第2の記述子を脱カプセル化することにより、ヌクレオチドのゲノムシーケンスの選択的な再構築のための手段、
をさらに含む、請求項26に記載の装置。 - 入力ファイルに含まれる構文ヘッダから、前記コンティグの長さに関する情報をデコード化する手段、
をさらに含む、請求項27に記載の装置。 - 前記第1の記述子の逆バイナリ化のための手段をさらに備え、前記第1の記述子は、分割ユニットワイズ切捨単項バイナリ化を用いてバイナリ化され、前記分割ユニットワイズ切捨単項は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化される値のNビット長の部分に適用され、前記Nは予め選択されたパラメータである、
請求項26に記載の装置。 - 前記第2の記述子の逆バイナリ化のための手段をさらに含み、前記第2の記述子は切捨単項バイナリ化を用いてバイナリ化され、前記第2の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の0ビットは破棄される、
請求項26に記載の装置。
Applications Claiming Priority (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US2016074307 | 2016-10-11 | ||
US2016074311 | 2016-10-11 | ||
US2016074297 | 2016-10-11 | ||
US2016074301 | 2016-10-11 | ||
PCT/US2017/017842 WO2018071055A1 (en) | 2016-10-11 | 2017-02-14 | Method and apparatus for the compact representation of bioinformatics data |
PCT/US2017/017841 WO2018071054A1 (en) | 2016-10-11 | 2017-02-14 | Method and system for selective access of stored or transmitted bioinformatics data |
USPCT/US2017/017842 | 2017-02-14 | ||
PCT/US2017/041579 WO2018071078A1 (en) | 2016-10-11 | 2017-07-11 | Method and apparatus for the access to bioinformatics data structured in access units |
USPCT/US2017/041579 | 2017-07-11 | ||
PCT/US2017/066458 WO2018151786A1 (en) | 2016-10-11 | 2017-12-14 | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020509474A true JP2020509474A (ja) | 2020-03-26 |
Family
ID=69374523
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019542724A Withdrawn JP2020509474A (ja) | 2016-10-11 | 2017-12-14 | 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム |
JP2019542715A Active JP7362481B2 (ja) | 2016-10-11 | 2018-02-14 | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019542715A Active JP7362481B2 (ja) | 2016-10-11 | 2018-02-14 | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP2020509474A (ja) |
EA (1) | EA201991906A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102883A (zh) * | 2020-08-20 | 2020-12-18 | 深圳华大生命科学研究院 | 一种fastq文件压缩中的碱基序列编码方法和系统 |
CN115862744A (zh) * | 2022-12-28 | 2023-03-28 | 哈尔滨因极科技有限公司 | 一种基于关系图建立的全基因组并行拼接方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113285720B (zh) * | 2021-05-28 | 2023-07-07 | 中科计算技术西部研究院 | 基因数据无损压缩方法、集成电路及无损压缩设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10902937B2 (en) | 2014-02-12 | 2021-01-26 | International Business Machines Corporation | Lossless compression of DNA sequences |
-
2017
- 2017-12-14 JP JP2019542724A patent/JP2020509474A/ja not_active Withdrawn
- 2017-12-14 EA EA201991906A patent/EA201991906A1/ru unknown
-
2018
- 2018-02-14 JP JP2019542715A patent/JP7362481B2/ja active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102883A (zh) * | 2020-08-20 | 2020-12-18 | 深圳华大生命科学研究院 | 一种fastq文件压缩中的碱基序列编码方法和系统 |
CN112102883B (zh) * | 2020-08-20 | 2023-12-08 | 深圳华大生命科学研究院 | 一种fastq文件压缩中的碱基序列编码方法和系统 |
CN115862744A (zh) * | 2022-12-28 | 2023-03-28 | 哈尔滨因极科技有限公司 | 一种基于关系图建立的全基因组并行拼接方法 |
CN115862744B (zh) * | 2022-12-28 | 2023-07-04 | 哈尔滨因极科技有限公司 | 一种基于关系图建立的全基因组并行拼接方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7362481B2 (ja) | 2023-10-17 |
JP2020509473A (ja) | 2020-03-26 |
EA201991906A1 (ru) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190385702A1 (en) | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads | |
EP3583249B1 (en) | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads | |
CA3039688C (en) | Efficient data structures for bioinformatics information representation | |
JP2020509474A (ja) | 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム | |
CN110168652B (zh) | 用于存储和访问生物信息学数据的方法和系统 | |
KR20190113971A (ko) | 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치 | |
JP2020503580A (ja) | バイオインフォマティクスデータのコンパクトな表現のための方法および装置 | |
CA3052772A1 (en) | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads | |
JP7324145B2 (ja) | ゲノムシーケンスリードの効率的圧縮のための方法及びシステム | |
CN110663022B (zh) | 使用基因组描述符紧凑表示生物信息学数据的方法和设备 | |
NZ757185B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
EA043338B1 (ru) | Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов | |
NZ753247B2 (en) | Efficient data structures for bioinformatics information representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20191004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200824 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20210212 |