JP7362481B2 - ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 - Google Patents
ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP7362481B2 JP7362481B2 JP2019542715A JP2019542715A JP7362481B2 JP 7362481 B2 JP7362481 B2 JP 7362481B2 JP 2019542715 A JP2019542715 A JP 2019542715A JP 2019542715 A JP2019542715 A JP 2019542715A JP 7362481 B2 JP7362481 B2 JP 7362481B2
- Authority
- JP
- Japan
- Prior art keywords
- class
- descriptor
- descriptors
- read
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 109
- 238000012163 sequencing technique Methods 0.000 claims description 52
- 238000013507 mapping Methods 0.000 claims description 44
- 230000009466 transformation Effects 0.000 claims description 43
- 238000006467 substitution reaction Methods 0.000 claims description 39
- 239000002773 nucleotide Substances 0.000 claims description 38
- 125000003729 nucleotide group Chemical group 0.000 claims description 38
- 238000003780 insertion Methods 0.000 claims description 31
- 230000037431 insertion Effects 0.000 claims description 31
- 238000012217 deletion Methods 0.000 claims description 28
- 230000037430 deletion Effects 0.000 claims description 28
- 108020004414 DNA Proteins 0.000 claims description 13
- 102000053602 DNA Human genes 0.000 claims description 13
- 238000000844 transformation Methods 0.000 claims description 12
- 235000019506 cigar Nutrition 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000010076 replication Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 21
- 229910052757 nitrogen Inorganic materials 0.000 description 19
- 238000012545 processing Methods 0.000 description 18
- 229910052698 phosphorus Inorganic materials 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000007906 compression Methods 0.000 description 15
- 230000006835 compression Effects 0.000 description 15
- 238000013459 approach Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 9
- 238000012268 genome sequencing Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 102000039446 nucleic acids Human genes 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- 229920002477 rna polymer Polymers 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 229910052805 deuterium Inorganic materials 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 229910052720 vanadium Inorganic materials 0.000 description 3
- 229910052727 yttrium Inorganic materials 0.000 description 3
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical group O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/12—Protecting executable software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Multimedia (AREA)
- Chemical & Material Sciences (AREA)
- Technology Law (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[関連出願の相互参照]
1.CRAMは、特定の機能を共有するデータインデックスとデータサブセットへのランダムアクセスをサポートしていない。データのインデックスは仕様の範囲外であり(CRAMの仕様v.3.0のセクション12を参照)、別のファイルとして実装される。対照的に、本明細書に記載されている本発明のアプローチは、コード化プロセスと統合されたデータ索引方法を採用し、コード化された(すなわち圧縮された)ビットストリームに索引が埋め込まれている。
2.CRAMは、あらゆる種類のマッピングされたリード(完全に一致するリード、置換のみを伴うリード、挿入又は削除を伴うリード(「インデル(indels)」とも呼ばれる))を含むことができるコアデータブロックによって構築される。リファレンスシーケンスに関するマッピングの結果に従って、データの分類やクラス内のリードのグループ化の概念は無い。これは、特定の機能を持つリードのみが検索される場合でも、すべてのデータを検査する必要があることを意味する。このような制限は、コード化の前にクラスでデータを分類及び分割する、本発明により解決される。
3.CRAMは、各リードを「CRAMレコード」にカプセル化するという概念に基づいている。これは、特定の生物学的特徴(例えば:置換を伴うが「インデル(indels)」を伴わないリード、又は完全にマッピングされたリード)によって特徴づけられるリードを検索する場合、それぞれ完全な版の「記録」を検査する必要性を意味する。
対照的に、本発明では、別々の情報ブロックに別々にコード化されたデータクラスの概念があり、各リードをカプセル化するレコードの概念はない。これにより、各(ブロックの)リードをデコード化してその特徴を検査することなく、特定の生物学的特性(例えば:置換を伴うが「インデル(indels)」を伴わないリード、又は完全にマッピングされたリード)を有するリードのセットへのより効率的なアクセスが可能になる。
4.CRAMレコードでは、各レコードフィールドは特定のフラグに関連付けられ、各CRAMレコードには異なる種類のデータを含めることができるため、コンテキストの概念がなく、各フラグは常に同じ意味を持つ必要がある。このコード化メカニズムは冗長な情報を導入し、効率的なコンテキストベースのエントロピーコード化の使用を妨げる。
これに対し、本発明では、データを示すフラグは、データが属する情報を「ブロック」によって本質的に定義されるので、データを示すフラグの概念は存在しない。これは、使用されるべき記号の数が大幅に減少し、その結果、より効率的な圧縮に帰着する情報ソースのエントロピーが減少することを意味する。このような改善が可能なのは、異なる「ブロック」を使用することにより、エンコーダが、コンテキストに応じて異なる意味を有する各ブロックにわたって同じ記号を再利用することが可能になるためである。CRAMでは、コンテキストの概念がなく、各CRAMレコードに任意の種類のデータを含めることができるため、各フラグは常に同じ意味を持つ必要がある。
5.CRAMの置換では、挿入と削除は異なる記述子、情報ソースのアルファベットのサイズを増加させ、より高い情報ソースのエントロピーをもたらすオプションを用いて表現される。対照的に、開示された発明のアプローチは、単一のアルファベット及び置換、挿入及び欠損のためのコード化を使用する。これはコード化とデコード化プロセスをより単純にし、コード化が高圧縮性能で特徴付けられるビットストリームを生じ、エントロピーの低いソースモデルを生成する。
前記リードを1つ以上のリファレンスシーケンスにアライメントさせ、それによってアライメントリードを作成し、
指定されたマッチング規則に従って、前記1つ以上のリファレンスシーケンスを使用して前記アライメントリードを分類し、それによってアライメントリードのクラスを作成し、
前記分類されたアライメントリードを記述子の複数のブロックとしてコード化し、
前記分類されたアライメントリードを前記記述子の多数のブロックとしてコード化することは、前記アライメントリードの前記クラスに従って前記記述子を選択することを含み、
前記記述子のブロックをヘッダ情報で構造化し、それにより連続したアクセスユニットを作成する。
少なくともいくつかの前記マッピングされていないリードを使用してリファレンスシーケンスのセットを構築し、
前記マッピングされていないリードのクラスを、構築された前記リファレンスシーケンスのセットにアライメントし、
前記分類されたアライメントリードを記述子の複数のブロックとしてコード化し、
前記構築されたリファレンスシーケンスのセットをコード化し、
前記記述子のブロック及び前記コード化されたリファレンスシーケンスをヘッダ情報で構築し、それにより連続するアクセスユニットを作成する。
前記2つのメイトのリードが異なるクラスに分類されているかどうかを識別し、それらがいずれも「クラスU」に属していない場合、前記ペアのリードを次式に従って最も優先度の高いクラスに割り当て:
P<N<M<I
ここで、「クラスP」の優先度が最も低く、「クラスI」の優先度が最も高く、
前記2つのメイトのリードのうち一方のみが「クラスU」に属すると分類されたかどうかを識別し、前記ペアのリードを「クラスHM」のシーケンスに属すると分類すること、をさらに含む。
前記2つのメイトのリードが異なるクラスのサブクラスに分類されているかどうかを識別し、前記ペアを、次の式に従って、優先度の高い前記クラスに属する前記サブクラスに割り当て、
N<M<I
ここで、Nが最も優先度が低く、Iが最も優先度が高く、
前記2つのメイトのリードが同じクラスに分類されており、そのクラスがN、M、又はIであるが、サブクラスが異なるかどうかを識別し、前記ペアを、次の式に従って、最も優先度が高いサブクラスに割り当てる、
N1<N2<・・・<Nk
M1<M2<・・・Mj
I1<I2<・・・<Ih
ここで、最も高いインデックスが最も高い優先度を持つ、ことをさらに含む。
ヘッダ情報を用いて記述子の多重化されたブロックを抽出するために前記コード化されたゲノムデータを含むアクセスユニットを解析し、
1つ以上のリファレンスシーケンスに関する分類を定義する特定のマッチング規則に従ってリードを抽出するために、記述子の前記多重化されたブロックをデコード化することを含む、方法を提供する。
提供し、前記ゲノムエンコーダ(210)は、
前記リードを1つ以上のリファレンスシーケンスにアライメントさせ、それによりアライメントリードを作成するように構成された、アライナユニット(201)と、
構築されたリファレンスシーケンスを生成するように構成された構築された、リファレンス生成ユニット(202)と、
1つ以上の既存のリファレンスシーケンス又は構築されたリファレンスシーケンスを使用して、特定のマッチング規則に従って前記アライメントリードを分類し、それによってアライメントリード(208)のクラスを作成するように構成された、データ分類ユニット(204)と、
前記分類されたアライメントリードに従って前記記述子を選択することにより記述子のブロックとして前記分類されたアライメントリードをコード化するように構成された、1つ以上のブロックコード化ユニット(205~207)と、
前記圧縮されたゲノムデータ及びメタデータを多重化するためのマルチプレクサ(2016)と、を含む。
圧縮されたゲノムデータとメタデータを逆多重化するためのデマルチプレクサ(210)と、
前記圧縮されたゲノムストリームを記述子のゲノムブロック(215)に構文解析するように構成された解析手段(212-214)と、
記述子のゲノムブロックをヌクレオチド(211)のシーケンスの分類されたリードにデコードするように構成された1つ以上のブロックデコーダ(216-217)と、
ヌクレオチドのシーケンスの非圧縮リードを生成するために、1つ以上のリファレンスシーケンス上のヌクレオチドのシーケンスの前記分類されたリードを選択的にデコード化するように構成されたゲノムデータクラスデコーダー(219)と、を含む。
1.データ又はメタデータの種類ごとに効率的なソースモデルを提供することにより構成される情報ソースのエントロピーの減少による圧縮性能の向上;
2.圧縮されたデータ及びメタデータの一部に対して、圧縮されたドメイン内で直接、更なる処理目的のために選択的アクセスを行う可能性;
3.新しいシーケンシングデータ及び/又はメタデータ及び/又は特定のシーケンスリードのセットに関連する新しい解析結果を用いて、圧縮データ及びメタデータを増分的に(すなわち、デコード化と再コード化を必要としない)更新する可能性。
1.特定の塩基を呼び出す信頼性がないため、塩基の呼び出しをスキップする決定。これは未知の塩基と呼ばれ、「N」とラベル付けされる(「nタイプ」のミスマッチとして示される)。
2.シーケンスされたサンプルに実際に存在する核酸を表すために、間違った記号(つまり、異なる核酸を表す)を使用する;これは通常、「置換エラー」と呼ばれる(「sタイプ」のミスマッチとして示される)。
3.実際に存在する核酸を参照しないで付加的な記号の1つのシーケンスリードに挿入;これは通常、「挿入エラー」と呼ばれる(「iタイプ」のミスマッチとして示される)。
4.シーケンスされたサンプルに実際に存在する核酸を表す記号の1つのシーケンスリードからの削除;これは通常「削除エラー」と呼ばれる(「dタイプ」のミスマッチとして示される)。
5.元のシーケンスの実在を反映しない単一のフラグメントへの1つ以上のフラグメントの組換え;これは通常、アライナが塩基をクリップすると決定する結果となる(「cタイプ」のミスマッチとして示される)。
・ リファレンスゲノムのいくつかの部分がどんな解読可能な配列によってもマッピングされていない場合の部分的な(partial)(1×未満);
・ リファレンスゲノムの全てのヌクレオチドが、シーケンス中のただ一つの記号によってマッピングされる単一の(single)(1×);
・ リファレンスゲノムの各ヌクレオチドが複数回マッピングされる場合は、多数の(multiple)(2×、3×、N×)。
1 シーケンスリードは、リファレンスシーケンスに関するアライメントの結果に従って、データクラスに分類及び区分される。このような分類及び区分化は、アラインメント結果及びマッチング精度に関連する基準に従って、コード化されたデータへの選択的アクセスを可能にする。
2 分類されたシーケンスリード及び関連するメタデータは、低い情報エントロピーによって特徴付けられる別個の情報ソースを取得するために、記述子の同種のブロックによって表される。
3 各クラスの統計的特性に適合した別個のソースモデルを用いて、各分離された情報ソースをモデル化する可能性、及び各リードのクラス内及び各別々にアクセス可能なデータユニット(アクセス単位)の各記述子ブロック内でソースモデルを変更する可能性。各ソースモデルの統計的性質に従って、適切なコンテキスト適応確率モデルと関連するエントロピーコーダの採用。
4 記述子ブロック間の対応と依存関係の定義により、全ての情報が必要ではない場合、全ての記述子ブロックをデコード化することなく、シーケンシングデータ及び関連するメタデータに選択的にアクセスできる。
5 「既存の」(「外部」とも呼ばれる)リファレンスシーケンス又は「変換された」リファレンスシーケンスに関する各シーケンスのデータクラス及び関連するメタデータブロックのコードは、記述子ブロックの情報ソースのエントロピーを減らすために、「既存の」リファレンスシーケンスに適切な変換を適用することによって取得される。前記記述子は、異なるデータクラスに分割されたリードを表す。「既存の」リファレンス又は「変換された」「既存の」リファレンスシーケンスを参照して、対応する記述子を使用したリードのコード化に続いて、さまざまなミスマッチの発生を使用して、低エントロピーの最終的なコード化表現を見つけ、より高い圧縮効率を達成するために、リファレンスシーケンスへの適切な変換を定義できる。
6 1つ以上のリファレンスシーケンスの構築(「内部の」リファレンスとも呼ばれ、本明細書では「外部の」リファレンスシーケンスとも呼ばれる「既存の」リファレンスシーケンスと区別する)は、制約のセットを満たさない既存のリファレンスシーケンスに関してある程度のマッチング精度を示すリードのクラスをコード化するために使用される。このような制約は、「内部の」リファレンスシーケンスに関してアライメントされたリードのクラスを圧縮形式で表現するためのコード化のコスト、及び「内部の」リファレンスシーケンス自体を表現するためのコストが、アライメントされていないリードのクラスを逐語的にコード化するよりも、又は変換を伴わずに、又は伴う「外部の」リファレンスシーケンスを使用するよりも低いという目的で設定される。
[マッチング規則に従ったシーケンスリードの分類]
1.リファレンスシーケンス内のある領域は、エラーを伴わないシーケンスリードと一致することが分かる(すなわち、完全なマッピング)そのようなヌクレオチドのシーケンスは、「完全にマッチングするリード」と呼ばれるか、「クラスP」と表示される。
2.リファレンスシーケンスのある領域は、リードを生成するシーケンシング装置が塩基(又はフクレオチド)を呼び出すことができなかった数と位置によってのみ決定されるミスマッチの数と類型を伴うシーケンスリードと一致することが分かる。そのような類型のミスマッチは、未定義のヌクレオチド塩基を示すために使用される文字「N」で示される。本明細書では、この類型のミスマッチを「nタイプ」ミスマッチと呼ぶ。このようなシーケンスは「クラスN」リードに属する。リードが「クラスN」に属すると分類されると、マッチングの不正確さの程度を特定の上限に制限し、有効なマッチングと見なされるものとそうでないものとの境界を設定すると便利である。したがって、クラスNに割り当てられたリードは、リードに含めることができる未定義の塩基(「N」と呼ばれる塩基)の最大数を定義するしきい値(MAXN)を設定することによっても制約される。このような分類は、クラスNに属する全てのリードが、対応するリファレンスシーケンスを参照するときに共有する必要な最小マッチング精度(又は最大マッチング度)を黙示的に定義し、これは、選択的なデータ検索を圧縮データに適用するための有用な基準を構成する。
3.リファレンスシーケンス中のある領域は、リードを生成するシーケンシング装置がいずれのヌクレオチド塩基も呼び出せなかった位置の数、もし存在するならば(すなわち「nタイプ」のミスマッチ)、それに加えて、リファレンス中に存在するものとは異なる塩基が呼ばれた不一致の数、によって決定されたミスマッチの数と類型を伴うシーケンスリードと一致することが分かる。「置換」として示されるこのようなミスマッチの類型は、一塩基変異(SNV)又は一塩基多型(SNP)とも呼ばれる。本明細書では、この類型のミスマッチを「sタイプ」ミスマッチと呼ぶ。シーケンスリードは「Mミスマッチリード」として参照され、「クラスM」に割り当てられる。「クラスN」の場合と同様に、「クラスM」に属するすべてのリードについても、マッチングの不正確さの程度を特定の上限に制限し、有効なマッチングと見なされるものとそうでないものとの境界を設定すると便利である。したがって、クラスMに割り当てられたリードは、しきい値のセットを定義することによって制約され、1つは「nタイプ」のミスマッチが存在する場合はその数「n」(MAXN)、もう1つは置換の数「s」(MAXS)である。第3の制約は、数値「n」と「s」との両方の関数f(n,s)によって定義されるしきい値である。このような第2の制約は、任意の意味のある選択的アクセス基準に従ってマッチングの不正確さの上限を持つクラスを生成することを可能にする。例えば、限定ではないが、f(n,s)は、(n+s)1/2、又は(n+s)、又は「クラスM」に属するリードに対して許容されるマッチングの最大不正確さレベルに境界を設定する任意の線形式又は非線形式であり得る。このような境界は、1つの類型又は他の類型に適用される単純なしきい値を超えて、「nタイプ」のミスマッチと「sタイプ」のミスマッチ(置換)の数の可能な組み合わせにさらなる境界を与えるため、様々な目的のためにシーケンスリードを分析する際に、所望の選択的なデータ検索を、圧縮データに適用するための非常に有用な基準を構成する。
4.第4の分類は、「挿入」、「削除」(インデル(indels)とも呼ばれる)、「クリップ」のいずれかの類型の少なくとも1つのミスマッチを示すシーケンシングリードで構成され、さらに、クラスN又はMに属するミスマッチの類型が存在する場合である。このようなシーケンスは「Iミスマッチリード」と呼ばれ、「クラスI」に割り当てられる。挿入は、リファレンスには存在しないがリードシーケンスには存在する1つ以上のヌクレオチドの追加の配列によって構成される。本明細書では、この類型のミスマッチを「iタイプ」ミスマッチと呼ぶ。挿入されたシーケンスがシーケンスの端にあるとき、文献では、それは「ソフトクリップ」とも呼ばれる(すなわち、ヌクレオチドはリファレンスにマッチングしていないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的に、アライメントされたリードにおいて保持される)。本明細書では、この類型のミスマッチを「cタイプ」ミスマッチと呼ぶ。ヌクレオチドの保持又は破棄は、シーケンシング装置によって、又は以下のシーケンシング段階によって決定されるように、リードを受け取り処理する本発明に開示されるリードの分類器によってではなく、アライナ段階によって行われる決定である。シーケンシング装置によって、又は以下のシーケンシング段階によって決定されるように、リードを受信して処理する本発明に開示されるリードの分類器によってではなく、アライナ段階によって行われる決定である。削除は、リファレンスに対するリードにおける「ホール」(ヌクレオチド欠損)である。本書では、このタイプのミスマッチを「dタイプ」ミスマッチと呼ぶ。クラス「N」及び「M」の場合と同様に、マッチングの不正確さに対する制限を定義することは可能であり、かつ適切である。「クラスI」に対する一連の制約の定義は、「クラスM」に使用されたものと同じ原則に基づいており、表1の最後の行に示されている。クラスIのデータに対して許容される各類型のミスマッチに対するしきい値の他に、さらなる制約は、ミスマッチの数「n」、「s」、「d」、「i」及び「c」であり、関数w(n,s,d,i,c)によって決定されるしきい値によって定義される。このような付加的制約は、任意の意味のあるユーザ定義の選択的なアクセス基準に従ってマッチングの不正確さの上限を持つクラスを生成することを可能にする。例えば、これに限定されるものではないが、w(n,s,d,i,c)は、(n+s+d+i+c)1/5又は(n+s+d+i+c)、又は「クラスI」に属するリードに対して許容されるマッチングの最大不正確レベルに境界を設定する任意の線形式又は非線形式であり得る。このような境界は、この境界は、許容可能なミスマッチの各タイプに適用される単純な閾値を超えて、「クラスI」のリードにおいて許容可能なミスマッチの数の任意の可能な組み合わせに対して、さらなる境界を設定することを可能にするため、様々な目的でシーケンスリードを解析するときに、所望の選択的なデータ検索を圧縮データに適用するための非常に有用な基準を構成する。
5.第5の分類は、リファレンスシーケンスを参照するときに、各データクラスに対して有効であると見なされるマッピング(すなわち、表1で指定されたマッチングの最大精度の上限を定義するマッチング規則のセットを満たしていない)を見つけないすべてのリードを含む。このようなシーケンスは、リファレンスシーケンスを参照するときに「マッピングされていない(Unmapped)」と呼ばれ、「クラスU」に属するものとして分類される。
[マッチング規則によるリードペアの分類]
2つのリードが可変長の未知のシーケンスで分離されていることがわかっているペアでリードを生成するシーケンス技術(イルミナ社(Illumina Inc.))の場合、ペア全体を単一のデータクラスに分類することを検討するのが適切である。別のリードと結合されたリードは、その「メイト(mate)」と呼ばれる。
P<N<M<I
ここで、「クラスP」の優先度が最も低く、「クラスI」の優先度が最も高くなる。
N<M<I
ここで、Nの優先度が最も低く、Iの優先度が最も高くなる。
N1<N2<・・・<Nk
M1<M2<・・・Mj
I1<I2<・・・<Ih
ここで、最も高いインデックスが最も高い優先順位を持つ。
[「外部の」リファレンスシーケンスの変換]
データ表現のより高い圧縮が達成されるので、変換Aの表現及びリード対RS2の対応する表現を送信することが有利である。
・ 変換を適用する前にリファレンスを参照するときに存在しなかったリードの表現にミスマッチが生じる場合がある。
・ ミスマッチの類型を変更することができ、リードにはGの代わりにAが含まれ、他のすべてのリードにはGの代わりにCが含まれるが、ミスマッチが同じ位置に残る。
・ 異なるデータクラス及び各データクラスのデータのサブセットは、同じ「変換された」リファレンスシーケンス、又は同じ既存のリファレンスシーケンスに異なる変換を適用することによって得られたリファレンスシーケンスを参照することがある。
[記述子のブロックへのシーケンスリードを表現するために必要な情報の定義]
・ リファレンスシーケンス上の開始位置(pos)
・ リードが、リファレンス(rcomp)に対する逆補完と見なされなければならない場合にシグナルを送るフラグ。
・ ペアリードにおける場合の、メイトとなるペアまでの距離(pair)。
・ 可変読み出し長を生成するシーケンシング技術の場合のリード長(len)。リード長が一定の場合、各リードに関連するリード長は明らかに省略でき、メインファイルのヘッダに格納できる。
・ 各ミスマッチについて:
・ 位置のミスマッチ(クラスNはnmis、クラスMはsnpp、クラスIはindp)
・ ミスマッチの類型(クラスNに存在せず、クラスMにsnpt、クラスIにindt)
・ 次のようなシーケンスリードの特別な特性を表すフラグ
・ シーケンシングにおいて複数のセグメントを有するテンプレート
・ 各セグメントがアライナに従って正しく位置合わせされていること
・ マッピングされていないセグメント
・ マッピングされていないテンプレートの次のセグメント
・ 最初又は最後のセグメントの信号化
・ 品質管理不良
・ PCR又は光学的複製
・ 二次的なアライメント
・ 補助的なアライメント
・ ソフトクリップされたヌクレオチドシーケンスが存在する場合(クラスIのindc)
・ アライメントと圧縮に使用されるリファレンスを示すフラグ(例:クラスUの「内部の」リファレンス)、該当する場合において(記述子rtype)。
・ クラスUの場合、記述子indcは、「内部」のリファレンスを使用して、指定されたマッチング精度の制限のセットを使用し、リードのマッチングしない部分(通常はエッジ)を識別する。
・ ureads記述子は、既存の(すなわち、「外部」のリファレンスゲノム)又は「内部の」リファレンスシーケンスであるため、使用可能なリファレンスにマッピングできないリードをそのままコード化するために使用される。
[位置記述子]
[逆相補記述子]
[ペアリング情報記述子]
[定義]
・ ペアリング距離(pairing distance):第1のリード(ペアリングアンカー、例えば、第1のリードの最後のヌクレオチド)のある位置から第2のリード(例えば、第2のリードの最初のヌクレオチド)のある位置を分離するリファレンスシーケンス上に配置されるヌクレオチドの数。
・ 最も可能性のあるペアリング距離(MPPD):これは、ヌクレオチドの数で表される最も可能性の高いペアリング距離。
・ペアリング距離の位置(PDD):PDDは、特定の位置記述子ブロックに存在するそれぞれのメイトから、リードを分離するリードの数によってペアリング距離を表す方法である。
・ 最も可能性の高いペアリング距離の位置(MPPD):特定の位置記述子ブロックに存在するメイトペアからリードを分離する、最も可能性の高いリード数である。
・ ペアリングエラーの位置(PPE):MPPD又はMPPDとメイトの実際の位置との差として定義される。
・ ペアリングアンカー:ペアの中の第1のリードの最後のヌクレオチドの位置で、リード位置の数又はヌクレオチドの位置の数に関してメイトペアの距離を計算するためのリファレンスとして用いられる。
[異なるリファレンスシーケンス上にマッピングされたリードの場合のペアリング情報]
1.2つの異なるシーケンス(リード1又はリード2が現在コード化されていないシーケンス上にマッピングされているとしたならば、異なる値を示す)にマッピングされていることを示す予め定められた値(フラグ)。
2.表1に示されるように、メインヘッダ構造においてコード化されたリファレンス識別子を参照するユニークなリファレンス識別子。
3.第3のエレメントは、ポイント2で識別され、最後にコード化された位置に対するオフセットとして表されるリファレンスに関するマッピング情報を含む。
1) 一つの特別な予め定められた値はペアリング距離(この場合は、0xfffff)としてコード化される。
2) 第2の記述子は、メインヘッダ(この場合は4)に記載されたリファレンスIDを提供する。
3) 第3のエレメントは、関連するリファレンス(170)のマッピング情報が含まれる。
[クラスNリードのミスマッチ記述子]
A、C、G又はT塩基の場所で、呼び出された塩基がNとして見出される。リードの他のすべての塩基は、リファレンスシーケンスと完全にマッチングする。
リード1における「N」の位置は、
・ リード1の絶対位置、又は、
・ 同じリードにおける前の「N」に対する微分位置、
としてコード化され、
リード2の「N」の位置は、
・ リード1+リード2の長さの絶対位置、又は、
・ 前の「N」に対する微分位置
としてコード化される。nmisブロックでは、各リードペアのコード化は、特殊な「セパレータ」記号で終了する。
[置換(ミスマッチ又はSNPs)、挿入、削除をコード化する記述子]
[ソースモデル1:位置と類型としての置換]
[置換位置識別子]
リード1において置換は、
・ リード1の絶対的な位置として、又は
・ 同じリードの前の置換に対する微分位置として、
コード化される。
リード2において置換は、
・ リード2+リード1の長さの絶対位置として、又は
・ 前の置換に対する微分位置として、
コード化される。
1.ミスマッチの位置
・ リードの開始位置に関して、又は
・ 以前のミスマッチに関して(微分のコード化)
2.図10に示されるように計算されたコードとして表されるミスマッチの類型
[置換形記述子]
[挿入と欠損のコード化]
[ソースモデル2:1つのブロック当たりの置換の類型とインデル(indels)]
[付加的なシグナリングフラグのコード化]
・ リードペア
・ 適切なペアとしてマッピングされたリード
・ マッピングされていないリード又はメイト
・ 逆ストランドからのリード又はメイト
・ ペアの第1番目/第2番目
・ プライマリアライメントではない
・ リードに失敗したプラットフォーム/ベンダーの品質チェック
・ リードはPCR又は光学的複製
・ 補助的なアライメント
[クラスUの記述子と、「クラスU」及び「クラスHM」のマッピングされていないリードの「内部」リファレンスの構築]
・ 少なくとも最小サイズ(シグネチャ)の共通の連続したゲノムシーケンスを共有するリードを含むクラスタへのマッピングされていないリードの分割。各クラスタは、図22に示すように、そのシグネチャによってユニークに識別することができる。
・ 意味のある順序(例えば辞書順)でのリードのソートと、最後のNリードをN+1のコード化に対する「内部の」リファレンスとして使用する方法。この方法を図23に示す。
・ 指定されたマッチング精度の制約、又は新しい制約セットに従って、そのクラスに属するリードの全て又は関連するサブセットをアライメントし、コード化することができるように、クラスUのリードのサブセット上で、いわゆる「デノボアセンブリ(de-novo assembly)」を実行すること。
1.内部リファレンス(posブロック)のリード番号の観点から、内部リファレンスのマッチング部分の開始位置。この位置は、以前にコード化されたリードに対して絶対値又は微分値としてコード化できる。
2.内部リファレンス(pairブロック)の対応するリードの開始点からの開始位置のオフセット。例えば、リード長が一定の場合、実際の位置はpos*length+pairである。
3.ミスマッチの位置(snppブロック)及び類型(snptブロック)としてコード化されたミスマッチが存在する可能性がある。
4.内部リファレンスとマッチングしない(又はマッチングするが、定義されたしきい値を超える数のマッチングがある)リードの部分(一般には、ペアで識別されるエッジ)は、indcブロックでコード化される。図24に示すように、indcブロックでコード化されたミスマッチのエントロピーを低減するために、使用される内部リファレンスの一部のエッジに対してパディング操作を実行することができる。エンコーダは、処理中のゲノムデータの統計的特性に応じて、最適なパディングの方策を選択できる。選択可能なパディングの方策は次のとおりである。
a.パディングをしない
b.現在コード化されているデータの頻度に応じて選択された一定のパディングパターン
c.最新のN個のコード化されたリードに関して定義された、現在のコンテキストの統計的特性に従った可変パディングパターン
特定の種類のパディングの方策は、indcブロックヘッダの特別な値によって通知され得る。
5.リードが内部の自己生成、外部又はリファレンス無しでコード化されているか否かを示すフラグ(rtypeブロック)。
6.逐語的にコード化されたリード(ureads)。
[アライメントスコア記述子]
・ 1ビットの符号(S)
・ 11ビット指数部(E)
・ 53ビットの仮数部(M)
スコア=-1s×10E×M
[リードのグループ]
[マルチプルアライメントの記述子]
[mmap記述子]
[マルチプルアライメントのストランド性]
[マルチプルアラインメントのスコア]
[スプライスのないマルチプルアライメント]
1 左端のリードに対してシングルアライメントと、右端の2つの代替的なアライメントがある場合、Nは1となり、M1は2となる。
2 2つの代替的アライメントが左端のリードで検出され、右端のリードで1つしか検出されない場合、Nは2となり、M2は0となる。
・ 右端のリードは
・ 左端のリードの第i番目のアライメントが、左端のリードの第k番目(k<i)のアライメントと既にペアになっている右端のリードのアライメントと、ペアになっている場合のMiのいくつかの値は=0になることがあり、
・ ペア記述子の1つの予め定められた値は、他のAUの範囲に属するアライメントの信号に存在することができる。それが存在する場合は、常に、現在のレコードに対する第1のpair記述子になる。
[スプライスを使用したマルチプルアライメント]
・ 左端のリードには、N個のスプライス(N1≦N)を伴うN1アライメントを有する。
・ Nは、左端のリードの全てのアライメントに存在するスプライスの数を表し、mmap記述子の最初の値としてコード化される。
・ 右端のリードは、
・ N1及びN2は、第1及び第2のリードのアラインメントの数を表し、msar記述子のN+P値を使用して計算される。
・ 左端にはN個のスプライス(N1≦N)を伴うN1アライメントを有する。N1=N AND N2=Pの場合スプライスは存在しない。
・ 右端のリードは、
・ pair記述子の数は、NP=Max(N1,P)+M0として計算され、ここで
・ M0は値が0のMiの数であり、
・ NPは、1つの特別なpair記述子が他のAUにアラインメントが存在することを示す場合に1だけ増加する必要がある。
[アライメントスコア]
スコアの数=MAX(N1,N2)+M0
ここで、M0はMi=0の総数を示す。
[スプライスのないマルチプルアライメントに対する記述子]
[挿入、削除、マッピングされていない部分を含むマルチプルアラインメント]
[msar記述子]
・ マッピングされたセグメント長
・ セカンダリアライメント及び/又はスプライスされたリードの異なるマッピングの連続製(すなわち、挿入、欠損又はクリップされた塩基の存在)
・ 各ソースから発生する記述子の定義(すなわち、表2に定義されるように、リード位置、リードペアリング情報、リファレンスシーケンスに対するミスマッチ等のデータのクラスを表すために使用される記述子のセット)。
・ 関連する確率モデルの定義。
・ 関連するエントロピーコード化の定義。
[更なる利点]
次いで、ゲノムブロック2011は、ブロックによって運ばれるデータ又はメタデータの統計的特性に従ってブロックをコード化する算術エンコーダ2012~2014に供給される。その結果は、ゲノムストリーム2015である。
[ファイルフォーマット:マスターインデックステーブルを用いたゲノムデータ領域への選択的アクセス]
MITに含まれる値は、各アクセスユニットへの非シーケンシャルアクセスがサポートされるように、各posブロック内の第1のリードのマッピング位置である。MITには、データの各クラス(P、N、M、I、U、及びHM)及びリファレンスシーケンス毎にセクションが含まれている。MITは、コード化されたデータのゲノムデータセットヘッダ(Genomic Dataset Header)に含まれている。図21はゲノムデータセットヘッダ(Genomic Dataset Header)の構造を示し、図32はMITの一般的な視覚的表現を示し、図33はコード化されたリードのクラスPに対するMITの例を示す。
[ローカルインデックステーブル]
要求されたAUに属するデータブロックの位置=スキップされるリファレンス1のAUに属するデータブロック+MITを使用して検索される位置
最初のブロック位置:5+3=8
最後のブロック位置:5+4=9
[アクセスユニット]
・ タイプ(type)、ゲノムデータの性質とそれらが保有するデータセット、及びそれらにアクセスする方法を特徴づけ、
・ オーダー(order)、同じタイプに属するアクセスユニットに固有の順序を提供する。
1)タイプ0のアクセスユニットは、アクセス又はデコードされアクセスされる他のアクセスユニットからの情報を参照する必要はない。それらが含むデータ又はデータセットによって伝送される全情報は、デコード化装置又はプロセッシングアプリケーションによって独立に読み取られ、処理される。
2)タイプ1のアクセスユニットは、タイプ0のアクセスユニットによって伝送されるデータを参照するデータを含む。読み取り又はデコード化、及びタイプ1のアクセスユニットに含まれるデータの処理は、タイプ0の1つ以上のアクセスユニットへアクセスする必要がある。タイプ1のアクセスユニットは、「クラスP」のシーケンスリードに関連するゲノムデータをコード化する。
3)タイプ2のアクセスユニットは、タイプ0のアクセスユニットによって伝送されるデータを参照するデータを含む。読み取り又はデコード化、及びタイプ2のアクセスユニットに含まれるデータの処理は、タイプ0の1つ以上のアクセスユニットへアクセスする必要がある。タイプ2のアクセスユニットは、「クラスN」のシーケンスリードに関連するゲノムデータをコード化する。
4)タイプ3のアクセスユニットは、タイプ0のアクセスユニットによって伝送されるデータを参照するデータを含む。読み取り又はデコード化、及びタイプ3のアクセスユニットに含まれるデータの処理は、タイプ0の1つ以上のアクセスユニットへアクセスする必要がある。タイプ3のアクセスユニットは、「クラスM」のシーケンスリードに関連するゲノムデータをコード化する。
5)タイプ4のアクセスユニットは、タイプ0のアクセスユニットによって伝送されるデータを参照するデータを含む。読み取り又はデコード化、及びタイプ4のアクセスユニットに含まれるデータの処理は、タイプ0の1つ以上のアクセスユニットへアクセスする必要がある。タイプ4のアクセスユニットは、「クラスI」のシーケンスリードに関連するゲノムデータをコード化する。
6)タイプ5のアクセスユニットは、利用可能なリファレンスシーケンス(「クラスU」)等にマッピングできず、内部で構築されたリファレンスシーケンスを使用してコード化されるリードを含む。タイプ5のアクセスユニットは、タイプ0のアクセスユニットによって伝送されるデータを参照するデータを含む。読み取り又はデコード化、及びタイプ5のアクセスユニットに含まれるデータの処理は、タイプ0の1つ以上のアクセスユニットへアクセスする必要がある。
7)タイプ6のアクセスユニットにはリードペアが含まれており、一方のリードはP、N、M、Iのいずれかのクラスに属し、もう一方のリードは使用可能なリファレンスシーケンス(「HMクラス」)にマッピングできない。タイプ6のアクセスユニットは、タイプ0のアクセスユニットによって伝送されるデータを参照するデータを含む。読み取り又はデコード化、及びタイプ6のアクセスユニットに含まれるデータの処理は、タイプ0の1つ以上のアクセスユニットへアクセスする必要がある。
8)タイプ7のアクセスユニットには、タイプ1のアクセスユニットに含まれるデータ又はデータセットに関連するメタデータ(例えば品質スコア)及び/又は注釈データを含む。タイプ7のアクセスユニットは、異なるブロックに分類及びラベル付けされてもよい。
9)タイプ8のアクセスユニットには、注釈データとして分類されるデータ又はデータセットが含まれる。タイプ8のアクセスユニットは、ブロック単位で分類及びラベル付けされてもよい。
10)追加型のアクセスユニットは、ここで説明する構造とメカニズムを拡張できる。一例として、しかし限定としてではなく、ゲノムバリアント呼び出し、構造及び機能分析の結果は、新しい種類のアクセスユニットにコード化されることができる。本明細書で説明するアクセスユニットにおけるデータ編成は、コード化データの性質に関して完全に透過的なメカニズムであるアクセスユニットにカプセル化されるいかなる種類のデータも妨げるものではない。
・ Xは、属するアクセスユニットを示し、
・ Yは、属するブロックを示す(すなわち、カプセル化されるデータの種類)、
・ Zは、同一ブロック内の他のパケットに対するパケット順序を表す識別子である。
1.同一生物を異なる時刻でシーケンシングすること(アクセスユニットは「一時的な」意味を持つゲノム情報を含む)
2.同一の生物の異なる性質の有機試料をシーケンシングすること(ヒトの皮膚、血液、毛髪等の試料)これらは、「生物学的」を意味するアクセスユニットである。
Claims (28)
- ゲノムシーケンスデータをコード化する方法であって、前記ゲノムシーケンスデータはヌクレオチドシーケンスのリードを含み、
前記方法は、
1つ以上のリファレンスシーケンスに前記リードをアライメントし、アライメントされたリードを作成し、
前記1つ以上のリファレンスシーケンスに対して指定されたマッチング規則に従って前記アライメントされたリードを分類し、前記アライメントされたリードのクラスを作成することを含み、
前記分類は、
マッピングに使用されたリファレンスシーケンスに対して前記アライメントされたリードにミスマッチが存在しないとき、前記マッピングに使用されたリファレンスシーケンスに対してミスマッチが存在しないアライメントされたリードを第1のクラス(クラスP)に分類し、
マッピングに使用されたリファレンスシーケンスに対して前記アライメントされたリードにミスマッチが存在するとき、
前記存在するミスマッチが前記リードの生成に使用されるシーケンシング装置がどの塩基も呼び出すことが出来なかった位置に存在し、前記存在するミスマッチの数が所定のしきい値を超えないとき、前記マッピングに使用されたリファレンスシーケンスに対してアライメントされたリードを第2のクラス(クラスN)に分類し、
前記存在するミスマッチが、nタイプのミスマッチと呼ばれるシーケンシング装置がどの塩基も呼び出すことが出来なかった位置にミスマッチが存在し、及び/又は、sタイプのミスマッチと呼ばれるシーケンシング装置が前記リファレンスシーケンスにある塩基とは異なる塩基を呼び出したことによるミスマッチが存在し、前記nタイプのミスマッチ及び前記sタイプのミスマッチの数が所定のしきい値を超えず、特定の関数(f(n,s))によって得られるしきい値を超えないとき、前記マッピングに使用されたリファレンスシーケンスに対してアライメントされたリードを第3のクラス(クラスM)に分類し、
前記存在するミスマッチが、前記第3のクラス(クラスM)と同じ種類のミスマッチが存在し、かつ、挿入(iタイプ)、欠損(dタイプ)、ソフトクリップ又はハードクリップ(cタイプ)の少なくとも1つのミスマッチが存在し、各種類のミスマッチの数が、所定のしきい値及び所定の関数(w(n,s,i,d,c))によって得られるしきい値を超えないとき、前記マッピングに使用されたリファレンスシーケンスに対してアライメントされたリードを第4のクラス(クラスI)に分類し、
前記分類されたアライメントされたリードを、前記第1乃至第4のクラスのそれぞれにおいて、特定かつ均質な記述子のマルチプルブロックとしてコード化し、
前記分類されたアライメントされたリードを前記記述子のマルチプルブロックとしてコード化することは、前記アライメントされたリードの前記クラスに従って前記記述子を選択し、
ヘッダ情報を用いて前記記述子のマルチプルブロックを構造化し、それにより連続したアクセスユニットを作成することを含み、
前記第1のクラス(クラスP)のアクセスユニットは、マッピング位置に関する情報を表す記述子のブロック、ストランド性(リードが解読されたDNA鎖)に関する情報を表す記述子のブロック、及び、前記ヌクレオチドシーケンスのリードの特定の特性を表すflags記述子によって構築され、ここで、前記第1のクラス(クラスP)のアクセスユニットにおいて、ペアエンドリードのペアリング情報は、記述子のブロックを用いてコード化され、
前記第2のクラス(クラスN)のアクセスユニットは、前記第1のクラス(クラスP)のアクセスユニットと同じ記述子のブロックに加えて、未知の塩基の位置に関する情報を表す記述子のブロックによって構築され、
前記第3のクラス(クラスM)のアクセスユニットは、前記第1のクラス(クラスP)のアクセスユニットと同じ記述子のブロックに加え、置換の位置と類型に関する情報を表す記述子のブロックによって構築され、
前記第4のクラス(クラスI)のアクセスユニットは、前記第1のクラス(クラスP)のアクセスユニットと同じ記述子のブロックに加え、置換、挿入、欠損、及び、クリッピングされた塩基の位置及び種類に関する情報を表す記述子のブロックによって構築され、
前記方法は、さらに、
前記第1乃至第4のクラス(クラスP、クラスN、クラスM、クラスI)に分類されないアライメントされたリードを第5のクラス(クラスU)に分類し、
前記第5のクラス(クラスU)のアライメントされたリードの少なくとも一部を用いて第2のリファレンスシーケンスのセットを構築し、
前記第5のクラス(クラスU)のアライメントされたリードを前記第2のリファレンスシーケンスのセットにアライメントし、
前記第2のリファレンスシーケンスに対して指定されたマッチング精度に基づく記述子として、前記第5のクラス(クラスU)のアライメントされたリードをコード化し、
前記記述子のそれぞれをヘッダ情報で構造化し、前記第5のクラス(クラスU)のアクセスユニットを構築する、
ことを含む。 - 前記第5のクラス(クラスU)のアクセスユニットは、
前記マッピング位置の情報を表す記述子のブロック、
ストランド性(リードが解読されたDNA鎖)に関する情報を表す記述子のブロック、前記アライメントされたリードの特定の特性を表すflags記述子のブロック、ここで、ペアエンドリードのペアリング情報が記述子のブロックによってコード化され、
置換の位置と類型に関する情報を表す記述子のブロック、
前記リードが、前記第2のリファレンスシーケンスとマッチングしない部分に関する情報を表す記述子のブロック、
前記リードを、どのリファレンスシーケンスにもマッピングすることができないとき、該リードを逐語的にコード化する記述子のブロック、
の少なくとも1つを用いて構築される、
請求項1に記載の方法。 - コード化されるべきゲノムシーケンスのリードがペアになったリードペアであり、
前記分類は、前記リードペアの内、一方のリードが前記クラスP、前記クラスN、前記クラスM、又は、前記クラスIに属し、他方のリードが前記クラスUに属するとき、前記アライメントされたリードを第6のクラス(クラスHM)として分類することをさらに含む、
請求項2に記載のコード化方法。 - 前記リードペアを構成する2つのリードが、前記クラスP、前記クラスN、前記クラスM、前記クラスI、及び、前記クラスUの中の同じクラスに分類されているとき、前記リードペアを同じクラスに割り当て、
前記リードペアを構成する2つリードが前記クラスUに分類されていないとき、前記リードペアを優先準位;P<N<M<I(クラスPの優先準位が最も低く、前記クラスIの優先準位が最も高い)に従って、最も優先順位の高いクラスに割り当て、
前記リードペアを構成する2つのリードの内、一方のリードのみが前記クラスUに属すると分類されるとき、前記リードペアを前記クラスHMに割り当てることをさらに含む、請求項3に記載のコード化方法。 - 前記クラスN、前記クラスM、前記クラスIの各クラスは、該各クラスに対してそれぞれ定義されたしきい値のベクトルに従って、前記nタイプのミスマッチの数、前記関数f(n,s)、及び、前記関数w(n,s,i,d,c)によって、2つ以上のサブクラスにさらに分割され、
前記リードペアを構成する2つのリードが同じサブクラスに分類されるとき、前記リードペアを同じサブクラスに割り当て、
前記リードペアを構成する2つのリードが異なるクラスのサブクラスに分類されるとき、前記リードペアを、優先準位:
N<M<I
(ここで、Nが最も優先度が低く、Iが最も優先度が高い)
に従って、最も優先準位の高いサブクラスに割り当て、
前記リードペアの2つのリードの双方が、前記クラスN、前記クラスM、及び、前記クラスIの中の1つのクラスに分類され、かつ、サブクラスが異なる場合、前記リードペアを、優先準位:
N1<N2<・・・<Nk
M1<M2<・・・Mj
I1<I2<・・・<Ih
(ここで、最も高いインデックスが最も高い優先度を持つ)
に従って、最も優先準位の高いサブクラスに割り当てる、
請求項4に記載のコード化方法。 - 前記リードのマッピング位置に関する情報は、pos記述子のブロックによってコード化され、
前記リードのストランド性(リードが解読されたDNA鎖)に関する情報は、rcomp記述子のブロックによってコード化され、
前記ペアエンドリードのペアリング情報は、pair記述子のブロックによってコード化される、
請求項5に記載のコード化方法。 - 前記リードが適切なペアでマッピングされているか否か、プラットフォーム/ベンダーの品質チェックに失敗しているか否か、PCR又は光学的複製であるか否か、又は、補助的なアライメントであるか否かという付加的なアライメント情報は、flags記述子のブロックによってコード化される、
請求項6に記載のコード化方法。 - 未知の塩基に関する情報が、nmis記述子ブロックによってコード化される、
請求項7に記載のコード化方法。 - 置換の位置に関する情報が、snpp記述子のブロックによってコード化され、
置換の類型に関する情報が、snpt記述子のブロックによってコード化される、
請求項8に記載のコード化方法。 - ミスマッチの位置、置換、挿入又は削除に関する情報が、indp記述子のブロックによってコード化され、
置換、挿入、又は削除のミスマッチの類型に関する情報が、indt記述子のブロックによってコード化され、
マッピングされたリードのクリップされた塩基に関する情報が、indc記述子のブロックによってコード化される、
請求項9に記載のコード化方法。 - マッピングされていないリードに関する情報が、ureads記述子のブロックによってコード化され、
コード化に使用されるリファレンスシーケンスの種類に関する情報が、rtype記述子のブロックによってコード化され、
前記マッピングされたリードのマルチプルアライメントに関する情報が、mmap記述子のブロックによってコード化され、
同じリードのスプライスされたアライメント及びマルチプルアライメントに関する情報が、msar記述子のブロック及びmmap記述子のブロックによってコード化され、
リードのアライメントスコアに関する情報が、mscore記述子ブロックによってコード化され、
リードが属するグループに関する情報が、rgroup記述子のブロックによってコード化される、
請求項10に記載のコード化方法。 - 前記クラスHMのアクセスユニットは、前記マッピングされたリードに対する、pos、rcomp、flags、rlen、indp、indt、indc、rgroup記述子のブロックと、前記マッピングされていないリードに対するureads記述子のブロックを用いて構築される、
請求項11に記載のコード化方法。 - マルチプルアラインメントに関する情報が、mmap及びmsar記述子のブロックを用いて示される、
請求項12に記載のコード化方法。 - 前記msar記述子は、
・ マッチング塩基の表示するための記号:=
・ 挿入の表示するための記号:+
・ 削除を表示するための記号:-
・ 順方向のストランドのスプライスを表示するための記号:/
・ 逆方向のストランドのスプライスを表示するための記号:%
・ 無方向のスプライスを表示するための記号:*
・ 置換を表示するための記号:C
・ n個のソフトクリップ塩基を表示するための記号:(n)(nは整数)
・ n個のハードクリップされた塩基を表示する記号:[n](nは整数)
を含む拡張シガーストリングで表現される、
請求項13に記載のコード化方法。 - 前記記述子のブロックは、アライメントされたリードの各クラス及びサブクラスごとに1つのセクションを含むマスターインデックステーブルを含み、前記セクションは、データの各クラス又はサブクラスの各アクセスユニットの第1のリードの前記1つ以上のリファレンスシーケンス上の前記マッピング位置を含み、
前記マスターインデックステーブル及び前記アクセスユニットのデータを共にコード化することを含む、
請求項14に記載のコード化方法。 - 前記記述子のブロックが、使用されるリファレンスシーケンスの種類(既存のもの又は構築されたもの)、及び前記リファレンスシーケンスにマッピングされない前記リードのセグメントに関する情報をさらに含み、
前記リファレンスシーケンスを、置換、挿入、削除、及び、クリッピングを適用することにより異なるリファレンスシーケンスに変換し、前記変換されたリファレンスシーケンスを参照して、前記分類されたアライメントされたリードを複数の記述子のブロックとしてコード化する、
請求項15に記載のコード化方法。 - 全てのクラスのデータに対して使用される前記リファレンスシーケンスに同じ変換が適用され、又は
各クラスのデータに対して使用される前記リファレンスシーケンスに異なる変換が適用され、
前記リファレンスシーケンスの変換を記述するデータが記述子のブロックとしてコード化され、ヘッダ情報と共に構造化され、連続するアクセスユニットを構成する、
請求項16に記載のコード化方法。 - 前記分類されたアラメントされたリード及び関連するリファレンスシーケンスの変換を、複数の記述子のマルチプルブロックとしてコード化することは、各記述子のブロックに特定のソースモデル及び特定のエントロピーコーダを用いることを含み、
前記特定のエントロピーコーダは、コンテキスト適応算術コーダ、可変長コーダ又はゴロムコーダのうちいずれか1つである、
請求項17に記載のコード化方法。 - コード化されたゲノムデータをデコード化する方法であって、
前記方法は、
コード化されたゲノムデータを含むアクセスユニットを解析し、ヘッダ情報を用いて記述子のマルチプルブロックを抽出し、
前記記述子のマルチプルブロックをデコード化して、1つ以上のリファレンスシーケンスに対する分類を定義する特定のマッチング規則に従ってリードを抽出することを含み、
アクセスユニットが、第1のクラス、第2のクラス、第3のクラス、又は第4のクラスであるとき、前記記述子のブロックは、指定されたマッチング規則に従って、第1のリファレンスシーケンスに対する前記リードのマッチングが記述されたものであり、
マッピングに使用されたリファレンスシーケンスに対してミスマッチが存在しないアライメントされたリードを示すとき、前記アクセスユニットは前記第1のクラス(クラスP)であることを示し、
シーケンシング装置がどの塩基も呼び出すことができなかった位置にミスマッチが存在し、該ミスマッチの数が所定のしきい値を超えていないアライメントされたリードを示すとき、前記アクセスユニットは第2のクラス(クラスN)であることを示し、
シーケンシング装置がどの塩基も呼び出すことができなかった位置にミスマッチが存在し、該ミスマッチがnタイプのミスマッチ、及び/又は、前記リファレンスシーケンスと異なる塩基を呼び出したsタイプのミスマッチを有するアライメントされたリードを示すとき、前記アクセスユニットは前記第3のクラス(クラスM)であり、ここで、前記nタイプのミスマッチ、前記sタイプのミスマッチの数は、所定の関数(f(n,s))から得られるしきい値を超えていないことが条件とされており、
前記第3のクラス(クラスM)と同じ種類のミスマッチを有し、かつ該ミスマッチが、挿入(iタイプ)、欠損(dタイプ)、ソフト又はハードクリップ(cタイプ)の少なくとも1つの種類のミスマッチを含むとき、前記アクセスユニットは前記第4のクラス(クラスI)であることを示し、ここで、前記各種類のミスマッチの数が、所定の関数(w(n,s,i,d,c))で与えられるしきい値を超えないことを条件とされており、
前記第1のクラス(クラスP)のアクセスユニットは、マッピング位置に関する情報を表す記述子のブロック、ストランド性(リードが解読されたDNA鎖)に関する情報を表す記述子のブロック、ヌクレオチドシーケンスのリードの特定の特性を表す「flags」記述子によって構築され、ここで、前記第1のクラス(クラスP)のアクセスユニットにおいて、ペアエンドリードのペアリング情報は、記述子のブロックを用いてコード化されており、
前記第2のクラス(クラスN)のアクセスユニットは、前記第1のクラス(クラスP)のアクセスユニットと同じ記述子ブロックに加えて、未知の塩基の位置に関する情報を表す記述子のブロックによって構築され、
前記第3のクラス(クラスM)のアクセスユニットは、前記第1のクラス(クラスP)のアクセスユニットと同じ記述子のブロックに加え、置換の位置と類型に関する情報を表す記述子のブロックによって構築され、
前記第4のクラス(クラスI)のアクセスユニットは、前記第1のクラス(クラスP)のアクセスユニットと同じ記述子のブロックに加え、置換、挿入、欠損及びクリッピングされた塩基の位置及び種類に関する情報を表す記述子のブロックによって構築され、
アクセスユニットが第5のクラス(クラスU)であるとき、記述子のブロックは、指定されたマッチング規則に従って、第2のリファレンスシーケンスに関する前記リードのマッチングを記述したものであること、
を含む、デコード化方法。 - 前記第5のクラス(U)のアクセスユニットは、
前記マッピングの位置の情報を表す記述子のブロック、
ストランド性(リードが解読されたDNA鎖)に関する情報を表す記述子のブロック、及びヌクレオチドシーケンスリードの特定の特性を表す「flags」、ここで、ペアエンドリードのペアリング情報は、それぞれの記述子のブロックを使用してコード化され、
置換の位置と類型に関する情報を表す記述子のブロック、
前記第2のリファレンスシーケンスと一致しないリードの部分に関する情報を表す記述子のブロック、
どのリファレンスシーケンスにもマッピングできないリードを逐語的にコード化した記述子のブロック、
の1つ以上を用いて構築される、
請求項19に記載のデコード化方法。 - リードの各クラスに対する1つのセクションと、前記1つ以上のリファレンスシーケンスに対するマッピング位置と、を含むコード化されたマスターインデックステーブルをデコード化することをさらに含む、
請求項19に記載のデコード化方法。 - 使用されるリファレンスの種類(既存のもの、変換されたもの、又は構築されたもの)に関連する情報をデコード化すること、及び
前記既存のリファレンスシーケンスに適用される1つ以上の変換に関連する情報をデコード化すること、をさらに含み、
前記記述子のブロックがエントロピーデコード化される、
請求項21に記載のデコード化方法。 - 前記クラスPのリードは、pos記述子、rcomp記述子、flags記述子、及びrlen記述子の各記述子のブロックをデコード化することにより取得され、
前記クラスNのリードは、pos記述子、rcomp記述子、flags記述子、rlen記述子、nmis記述子の各記述子のブロックをデコード化することにより取得され、
前記クラスMのリードは、pos記述子、rcomp記述子、flags記述子、rlen記述子、snpp記述子、snpt記述子の各記述子のブロックをデコード化することにより取得され、
前記クラスIのリードは、pos記述子、rcomp記述子、flags記述子、rlen記述子、indp記述子、indt記述子、indc記述子の各記述子のブロックをデコードすることによって取得され、
前記クラスUのリードは、pos記述子、rcomp記述子、flags記述子、rlen記述子、snpp記述子、snpt記述子、indc記述子、ureads記述子、rtype記述子の各記述子のブロックをデコード化することによって取得される、
請求項22に記載のデコード化方法。 - 前記クラスP、前記クラスN、前記クラスM、及び、前記クラスIのリードペアが、pair記述子のブロックをデコード化することによって取得され、
クラスHMが、pos記述子、rcomp記述子、flags記述子、rlen記述子、indp記述子、indt記述子、indc記述子、ureads記述子の各記述子のブロックをデコード化することによって取得される、
請求項23に記載のデコード化方法。 - 請求項1乃至18のいずれか一項に記載のコード化方法を実行するように構成された、ゲノムシーケンスデータをコードするためのゲノムエンコーダ。
- 請求項19乃至24のいずれか一項に記載のデコード化方法を実行するように構成された、ゲノムデータをデコードするためのゲノムデコーダ。
- 請求項1乃至18のいずれか一項に記載のコード化方法を少なくとも1つのプロセッサに実行させる命令を含むコンピュータ読み取り可能な記録媒体。
- 請求項19乃至24のいずれか一項に記載のデコード化方法を少なくとも1つのプロセッサに実行させる命令を含むコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US2016074297 | 2016-10-11 | ||
US2016074307 | 2016-10-11 | ||
US2016074301 | 2016-10-11 | ||
US2016074311 | 2016-10-11 | ||
USPCT/US2017/017842 | 2017-02-14 | ||
PCT/US2017/017842 WO2018071055A1 (en) | 2016-10-11 | 2017-02-14 | Method and apparatus for the compact representation of bioinformatics data |
USPCT/US2017/041591 | 2017-07-11 | ||
PCT/US2017/041591 WO2018071080A2 (en) | 2016-10-11 | 2017-07-11 | Method and systems for the representation and processing of bioinformatics data using reference sequences |
PCT/US2018/018092 WO2018152143A1 (en) | 2017-02-14 | 2018-02-14 | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020509473A JP2020509473A (ja) | 2020-03-26 |
JP2020509473A5 JP2020509473A5 (ja) | 2021-03-25 |
JP7362481B2 true JP7362481B2 (ja) | 2023-10-17 |
Family
ID=69374523
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019542724A Withdrawn JP2020509474A (ja) | 2016-10-11 | 2017-12-14 | 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム |
JP2019542715A Active JP7362481B2 (ja) | 2016-10-11 | 2018-02-14 | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019542724A Withdrawn JP2020509474A (ja) | 2016-10-11 | 2017-12-14 | 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP2020509474A (ja) |
EA (1) | EA201991906A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102883B (zh) * | 2020-08-20 | 2023-12-08 | 深圳华大生命科学研究院 | 一种fastq文件压缩中的碱基序列编码方法和系统 |
CN113285720B (zh) * | 2021-05-28 | 2023-07-07 | 中科计算技术西部研究院 | 基因数据无损压缩方法、集成电路及无损压缩设备 |
CN115862744B (zh) * | 2022-12-28 | 2023-07-04 | 哈尔滨因极科技有限公司 | 一种基于关系图建立的全基因组并行拼接方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150227686A1 (en) | 2014-02-12 | 2015-08-13 | International Business Machines Corporation | Lossless compression of dna sequences |
-
2017
- 2017-12-14 JP JP2019542724A patent/JP2020509474A/ja not_active Withdrawn
- 2017-12-14 EA EA201991906A patent/EA201991906A1/ru unknown
-
2018
- 2018-02-14 JP JP2019542715A patent/JP7362481B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150227686A1 (en) | 2014-02-12 | 2015-08-13 | International Business Machines Corporation | Lossless compression of dna sequences |
Non-Patent Citations (2)
Title |
---|
"CRAM format specification (version 3.0)",[online],2016年04月25日,[令和2年12月7日検索], インターネット, <URL : https://web.archive.org/web/20160425054143/http://samtools.github.io/hts-specs/CRAMv3.pdf> |
"SAM",[online],2015年03月11日,[令和2年12月7日検索], インターネット, <URL : https://web.archive.org/web/20150311045750/http://davetang.org/wiki/tiki-index.php?page=SAM> |
Also Published As
Publication number | Publication date |
---|---|
JP2020509474A (ja) | 2020-03-26 |
EA201991906A1 (ru) | 2020-01-21 |
JP2020509473A (ja) | 2020-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200051665A1 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
JP6902104B2 (ja) | バイオインフォマティクス情報表示のための効率的データ構造 | |
JP7362481B2 (ja) | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 | |
AU2018221458B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
CN110168652B (zh) | 用于存储和访问生物信息学数据的方法和系统 | |
CA3052773A1 (en) | Method and systems for the efficient compression of genomic sequence reads | |
EP3526711B1 (en) | Method and apparatus for compact representation of bioinformatics data | |
CN110178183B (zh) | 用于传输生物信息学数据的方法和系统 | |
JP7324145B2 (ja) | ゲノムシーケンスリードの効率的圧縮のための方法及びシステム | |
CN110663022B (zh) | 使用基因组描述符紧凑表示生物信息学数据的方法和设备 | |
NZ757185B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
EA043338B1 (ru) | Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов | |
EA040022B1 (ru) | Способ и устройство для компактного представления данных биоинформатики |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220419 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7362481 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |