JP2019537172A - バイオインフォマティクスデータのインデックスを付けるための方法及びシステム - Google Patents
バイオインフォマティクスデータのインデックスを付けるための方法及びシステム Download PDFInfo
- Publication number
- JP2019537172A JP2019537172A JP2019540512A JP2019540512A JP2019537172A JP 2019537172 A JP2019537172 A JP 2019537172A JP 2019540512 A JP2019540512 A JP 2019540512A JP 2019540512 A JP2019540512 A JP 2019540512A JP 2019537172 A JP2019537172 A JP 2019537172A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- genomic
- data
- genome
- signature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 239000002773 nucleotide Substances 0.000 claims description 75
- 125000003729 nucleotide group Chemical group 0.000 claims description 75
- 230000008569 process Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 abstract description 9
- 238000012268 genome sequencing Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 description 36
- 238000012545 processing Methods 0.000 description 11
- 108020004414 DNA Proteins 0.000 description 8
- 102000053602 DNA Human genes 0.000 description 8
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 229910052757 nitrogen Inorganic materials 0.000 description 8
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 238000006467 substitution reaction Methods 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 6
- 229910052770 Uranium Inorganic materials 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 239000013545 self-assembled monolayer Substances 0.000 description 5
- 229910052720 vanadium Inorganic materials 0.000 description 5
- 229910052698 phosphorus Inorganic materials 0.000 description 4
- 229920002477 rna polymer Polymers 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 102100024441 Dihydropyrimidinase-related protein 5 Human genes 0.000 description 3
- 101001053479 Homo sapiens Dihydropyrimidinase-related protein 5 Proteins 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 229910052805 deuterium Inorganic materials 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 229910052717 sulfur Inorganic materials 0.000 description 3
- 229920006068 Minlon® Polymers 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000011331 genomic analysis Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 108010038083 amyloid fibril protein AS-SAM Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000000682 scanning probe acoustic microscopy Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B99/00—Subject matter not provided for in other groups of this subclass
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Labeling Devices (AREA)
- Television Signal Processing For Recording (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
ゲノムシーケンシング装置によって生成されたゲノム配列データのインデックス付けのための方法および装置。提案された方法は、シーケンシング装置によって生成された生シーケンスデータと、特定のマッチング基準に従って何れの参照シーケンスにもマッピングできないそれらのシーケンスリードの両方に適用することができる。 本発明は、ブラウジング及び効率的な選択的なアクセスを可能にするために、整列されていないシーケンスリードを分割及びインデックス付けする方法を説明する。【選択図】図1
Description
本開示は、選択的アクセス及びパターンマッチングを可能にするためにゲノムシーケンスデータを分割及びインデックスを付ける新規な方法を提供する。開示されたインデックスを付ける方法は、整列されていないシーケンスリードの中から特定のヌクレオチドシーケンスを検索するときに必要な処理能力及びデータアクセス時間を低減する。開示された方法は、
・ゲノムシーケンシング装置によって生成された生のシーケンスデータ、
・指定された一致条件に従ってリードマッピングの処理中に1つ以上のリファレンスシーケンスの何れかの領域でマッピングできないマッピングされていないリード、
・指定された一致条件に従って、シーケンスリードアセンブリ(リファレンスなしのアライメントとも呼ばれる)の処理中に、長いシーケンス(「コンティグ(contigs)」とも呼ばれる)を形成するために、他のリードと位置合わせできない整列されていないリード
に適用することができる。
・ゲノムシーケンシング装置によって生成された生のシーケンスデータ、
・指定された一致条件に従ってリードマッピングの処理中に1つ以上のリファレンスシーケンスの何れかの領域でマッピングできないマッピングされていないリード、
・指定された一致条件に従って、シーケンスリードアセンブリ(リファレンスなしのアライメントとも呼ばれる)の処理中に、長いシーケンス(「コンティグ(contigs)」とも呼ばれる)を形成するために、他のリードと位置合わせできない整列されていないリード
に適用することができる。
ゲノムシーケンスデータの適切なインデックス付けは、例えば、しかし限定としてではなく、遺伝子の発見などの効率的なゲノム分析適用を可能にするために基本的なことである。遺伝子の発見は、形質又は表現型の発達に関連する生物のゲノムの領域を同定するプロセスである。遺伝子の発見は、研究における1つ以上のゲノムサンプル中のヌクレオチドの特定のパターンの検索を必要とする。同様に、他のゲノム分析の応用は、目的のヌクレオチドの配置を同定するためのパターンマッチング技術の利用を必要とする。いくつかの場合において、パターンマッチングは、より長いゲノムシーケンスを構築するために、シーケンスデータが既存のリファレンスシーケンス上にマッピングされるシーケンスアラインメント技術の代替として見られる。シーケンスデータの最も使用されているゲノム情報表示は、生リードについてはFASTQフォーマット、整列されたリードについてはSAM及びCRAMに基づいている。これらの解決法は、生リード又はマッピングされていないリードのためのいかなる形式のインデックス付けもサポートせず、それらを順不同のレコードのシーケンスとして保管する。これらは、特定のパターンを検索するにはデータセット全体を復号化して解析する必要があることを意味する。
本発明は、生ゲノムシーケンスリード又はマッピングされていないゲノムシーケンスリードを以下によってインデックス付することを目的とする:
・共有されている共通の部分シーケンスによるリードのクラスタリング。クラスタに属する全てのリードが、定義されたクラスタリングの制約により、いくらかのミスマッチを有するヌクレオチドの特定のシーケンスを含む。本発明の開示を通して、共通のシーケンスはクラスタシグネチャと呼ばれる、
・シグネチャヌクレオチドを表す1つ以上の整数のシーケンスとしてクラスタシグネチャをコード化、
・コード化されたシグネチャを順番に並んだ又は順番に並んでいないベクターに格納、
・本開示で定義されるように、Class Uに属する生リード、マッピングされていないリード又は整列されていないリードと共に、コード化されたシグネチャのベクターをコード化すること。
・共有されている共通の部分シーケンスによるリードのクラスタリング。クラスタに属する全てのリードが、定義されたクラスタリングの制約により、いくらかのミスマッチを有するヌクレオチドの特定のシーケンスを含む。本発明の開示を通して、共通のシーケンスはクラスタシグネチャと呼ばれる、
・シグネチャヌクレオチドを表す1つ以上の整数のシーケンスとしてクラスタシグネチャをコード化、
・コード化されたシグネチャを順番に並んだ又は順番に並んでいないベクターに格納、
・本開示で定義されるように、Class Uに属する生リード、マッピングされていないリード又は整列されていないリードと共に、コード化されたシグネチャのベクターをコード化すること。
既存の方法に関するそのようなアプローチの最も関連性のある改善は以下のものからなる:
1.シングルリードの代わりにリードのクラスタ全体でパターンマッチングを実行する可能性、
2.同時にいくつかのクラスタに対して並列パターンマッチングを実行する可能性、
3.クラスタシグネチャの特性に関連する基準に従って、生リード又はマッピングされていないリードを順序付ける可能性
4.既知の遺伝子とクラスタシグネチャとの比較を可能にすることによる遺伝子発見性能の向上。
1.シングルリードの代わりにリードのクラスタ全体でパターンマッチングを実行する可能性、
2.同時にいくつかのクラスタに対して並列パターンマッチングを実行する可能性、
3.クラスタシグネチャの特性に関連する基準に従って、生リード又はマッピングされていないリードを順序付ける可能性
4.既知の遺伝子とクラスタシグネチャとの比較を可能にすることによる遺伝子発見性能の向上。
以下の特許請求の範囲の特徴は、ゲノムシーケンスデータをコード化するための方法を提供することによって既存の従来技術の解決法の問題を解決する。
ゲノムシーケンスデータは、ヌクレオチドシーケンスのリードを含み、前記方法は、
「クラスタシグネチャ」と呼ばれるヌクレオチドの共通のシーケンス又は部分シーケンスを共有するリードのクラスタに前記リードを分割すること、
前記クラスタ化されたリードを構文要素の多数のブロックとしてコード化すること、
ヘッダ情報を用いて前記構文要素のブロックを構成し、それによって連続的なアクセスユニットを作成する。
「クラスタシグネチャ」と呼ばれるヌクレオチドの共通のシーケンス又は部分シーケンスを共有するリードのクラスタに前記リードを分割すること、
前記クラスタ化されたリードを構文要素の多数のブロックとしてコード化すること、
ヘッダ情報を用いて前記構文要素のブロックを構成し、それによって連続的なアクセスユニットを作成する。
別の態様では、コード化方法は、
サポートされたアルファベットの各ヌクレオチドを一意的な2進法表示に関連付け、
コード化したシグネチャを表すビット文字列を取得するために、シグネチャ内の各ヌクレオチドの2進法表示を連結すること、
によって前記クラスタシグネチャをコード化することをさらに含む。
サポートされたアルファベットの各ヌクレオチドを一意的な2進法表示に関連付け、
コード化したシグネチャを表すビット文字列を取得するために、シグネチャ内の各ヌクレオチドの2進法表示を連結すること、
によって前記クラスタシグネチャをコード化することをさらに含む。
別の態様では、コード化方法は、コード化したシーケンスリードの各クラスタが前記コード化したシグネチャによって識別されるステップをさらに含む。
別の態様では、前記構文要素のブロックは、サポートされたアルファベットの各ヌクレオチドを一意的な2進法表示に関連付けてコード化されたクラスタシグネチャを含み、コード化されたシグネチャを表すビットストリームを取得するために、シグネチャの各ヌクレオチドの2進法表示に連結させるマスタインデックステーブルを含み、各クラスタに属するシーケンスリードを表すコード化された構文要素のブロックの記憶媒体上の位置を表す整数値のベクターに関連付けられる。
別の態様では、前記構文要素のブロックは、各データセットグループを一意的に識別するために使用されるデータセットグループ識別子を含むゲノムデータセットヘッダ、
各データセットを一意的に識別するために使用されるゲノムデータセット識別子、
データセットが準拠するデータフォーマット仕様を識別するために使用されるブランド識別子、
データセットが準拠するデータフォーマット仕様を識別するために使用されるマイナーバージョン番号、
固定長リードを知らせるために使用されるヌクレオチドのコード化されたゲノムリードの長さ、
ペアエンドリードの存在の存在を知らせるフラグ、
ブロックヘッダの存在を知らせるフラグ、
アクセスユニットが記憶媒体に記憶される順序を知らせるフラグ、
データセットをコード化するために使用されるリファレンスシーケンスの数、
各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの数値識別子、
各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの文字列識別子、
各リファレンスシーケンスに関連するアクセスユニットを数えるために使用されるリファレンスシーケンスごとのコード化したアクセスユニットの数、
整列されたリード、整列されていないリード、マッピングされていないリード及びリファレンスシーケンスを区別するために使用されるコード化したゲノムデータの種類、
データセットにコード化されているデータクラスの数、
復号化処理中に使用されるデータセット内でコード化されたデータクラスごとに使用される記述子の数、
コード化されたマッピングされていないリードのインデックス付に使用されたクラスタの総数、
コード化されたクラスタシグネチャを復号化するのに使用されるクラスタシグネチャをコード化するのに使用される整数値を表すのに使用されるビット数、
すべてのクラスタシグネチャが、ヌクレオチド数に関して同じ長さを有する場合に、クラスタシグネチャの長さを知らせるフラグ、
を備える。
各データセットを一意的に識別するために使用されるゲノムデータセット識別子、
データセットが準拠するデータフォーマット仕様を識別するために使用されるブランド識別子、
データセットが準拠するデータフォーマット仕様を識別するために使用されるマイナーバージョン番号、
固定長リードを知らせるために使用されるヌクレオチドのコード化されたゲノムリードの長さ、
ペアエンドリードの存在の存在を知らせるフラグ、
ブロックヘッダの存在を知らせるフラグ、
アクセスユニットが記憶媒体に記憶される順序を知らせるフラグ、
データセットをコード化するために使用されるリファレンスシーケンスの数、
各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの数値識別子、
各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの文字列識別子、
各リファレンスシーケンスに関連するアクセスユニットを数えるために使用されるリファレンスシーケンスごとのコード化したアクセスユニットの数、
整列されたリード、整列されていないリード、マッピングされていないリード及びリファレンスシーケンスを区別するために使用されるコード化したゲノムデータの種類、
データセットにコード化されているデータクラスの数、
復号化処理中に使用されるデータセット内でコード化されたデータクラスごとに使用される記述子の数、
コード化されたマッピングされていないリードのインデックス付に使用されたクラスタの総数、
コード化されたクラスタシグネチャを復号化するのに使用されるクラスタシグネチャをコード化するのに使用される整数値を表すのに使用されるビット数、
すべてのクラスタシグネチャが、ヌクレオチド数に関して同じ長さを有する場合に、クラスタシグネチャの長さを知らせるフラグ、
を備える。
前記コード化方法の別の態様では、前記ゲノムリードは対合している。
前記コード化方法の他の態様では、前記ゲノムデータはエントロピーコード化されている。
コード化されたゲノムデータを復号化するための方法は、
ヘッダ情報を使用することによって構文要素の複数のブロックを抽出するために、前記コード化されたゲノムデータを含むアクセスユニットを解析するステップ、
前記方法としてコード化された生リードの、マッピングされていないリード及び整列されていないリードを抽出するために、前記多数の構文要素のブロックを復号化するステップ、
コード化されたクラスタのシグネチャを取得すために、マスタインデックステーブルを解析するステップ、
シグネチャの各2進法表示に対応するヌクレオチドシーケンスを関連付けることによりシグネチャシグネチャを復号化するステップ、
ゲノムデータのコード化された表現を含むアクセスユニットを記憶媒体上で取得するために、各シグネチャに関連付けられた整数のベクターを解析するステップ、
ヘッダ情報を用いてアクセスユニットから構文要素の複数のブロックを抽出するステップ
を備える。
ヘッダ情報を使用することによって構文要素の複数のブロックを抽出するために、前記コード化されたゲノムデータを含むアクセスユニットを解析するステップ、
前記方法としてコード化された生リードの、マッピングされていないリード及び整列されていないリードを抽出するために、前記多数の構文要素のブロックを復号化するステップ、
コード化されたクラスタのシグネチャを取得すために、マスタインデックステーブルを解析するステップ、
シグネチャの各2進法表示に対応するヌクレオチドシーケンスを関連付けることによりシグネチャシグネチャを復号化するステップ、
ゲノムデータのコード化された表現を含むアクセスユニットを記憶媒体上で取得するために、各シグネチャに関連付けられた整数のベクターを解析するステップ、
ヘッダ情報を用いてアクセスユニットから構文要素の複数のブロックを抽出するステップ
を備える。
別の態様では、前記復号方法は、グローバルな構成パラメータを含むゲノムデータセットヘッダを復号化することをさらに含む。
別の態様では、前記復号化方法は、コード化されたクラスタシグネチャとコード化されたブロックオフセットとを含むマスタインデックステーブルを復号化することをさらに含む。
前記復号化方法の他の態様では、前記ゲノムリードが対になっている。
前記復号化方法の別の態様では、前記ゲノムリードがエントロピー復号化されている。
生ゲノムシーケンスデータ(111)、マッピングされていないゲノムシーケンスデータ(111)、マッピングされていないゲノムシーケンスデータ(111)を圧縮するためのゲノムエンコーダ(1115)であって、前記ゲノムシーケンスデータ(111)は、ヌクレオチドのシーケンスのリードを備え、前記ゲノムエンコーダ(1115)は、
クラスタシグネチャと呼ばれるヌクレオチドの共通のシーケンス又は部分シーケンスを共有するリードのグループに前記リードを分割し、それによってリードのクラスタ(113)及びクラスタシグネチャ(114)を作成するように構成された、クラスタリングユニット(112)、
前記クラスタ化されたリードを構文要素のブロックとしてコード化するように構成された、1つ以上の記述子コード化ユニット(115)、
ゲノムアクセスユニット(1111)を生成するために、それらの統計的特性に従って構文要素の前記ブロックを圧縮するように構成された、1つ以上のエントロピーコード化ユニット(1110)。
一意的な2進法表示をクラスタシグネチャの各記号に関連付けることによってクラスタシグネチャ(114)を2値化するように構成された、シグネチャコード化ユニット(116)、
前記2値化されたクラスタシグネチャ(117)を、前記ゲノムアクセスユニット(1111)に含まれるエントロピーコード化された記述子の記憶媒体上のオフセットを表す整数のベクターに関連付けるように構成されたゲノムデータセットヘッダ及びマスタインデックステーブルジェネレータ(119)、
圧縮されたゲノムデータとメタデータを多重化するためのマルチプレクサ(1113)、
を備える。
クラスタシグネチャと呼ばれるヌクレオチドの共通のシーケンス又は部分シーケンスを共有するリードのグループに前記リードを分割し、それによってリードのクラスタ(113)及びクラスタシグネチャ(114)を作成するように構成された、クラスタリングユニット(112)、
前記クラスタ化されたリードを構文要素のブロックとしてコード化するように構成された、1つ以上の記述子コード化ユニット(115)、
ゲノムアクセスユニット(1111)を生成するために、それらの統計的特性に従って構文要素の前記ブロックを圧縮するように構成された、1つ以上のエントロピーコード化ユニット(1110)。
一意的な2進法表示をクラスタシグネチャの各記号に関連付けることによってクラスタシグネチャ(114)を2値化するように構成された、シグネチャコード化ユニット(116)、
前記2値化されたクラスタシグネチャ(117)を、前記ゲノムアクセスユニット(1111)に含まれるエントロピーコード化された記述子の記憶媒体上のオフセットを表す整数のベクターに関連付けるように構成されたゲノムデータセットヘッダ及びマスタインデックステーブルジェネレータ(119)、
圧縮されたゲノムデータとメタデータを多重化するためのマルチプレクサ(1113)、
を備える。
ゲノムシーケンスデータ(121)の圧縮のためのゲノムエンコーダ(1210)であって、前記ゲノムシーケンスデータ(121)はヌクレオチドのシーケンスのリードを含み、
前記ゲノムエンコーダ(1210)は、
前記リードを1つ以上のリファレンスシーケンスに整列させ、それによって整列されたリードを作成するように構成された、アライナユニット(122)、
1つ以上の既存のリファレンスシーケンス又は構築されたリファレンスシーケンスで、指定されたマッチング規則に従って前記整列されたリードを分類し、それによって整列されたリードのクラス(128)を作成するように構成された、データ分類ユニット(124)、
整列されたリードの前記クラスに従って、前記構文要素を選択することにより、前記分類された整列されたリードを構文要素のブロックとしてコード化するように構成された、1つ以上の記述子コード化ユニット(125〜127)、
ゲノムストリーム(1215)を生成するために、統計特性に従って構文要素の前記ブロックを圧縮するように構成された、1つ以上のエントロピーコード化ユニット(1212〜1214)、
上述のように構成された、生リードシーケンスリード、マッピングされていないリードシーケンスリード及び整列されていないシーケンスリードコード化ユニット(1115)、
圧縮されたゲノムデータ及びメタデータを多重化するためのマルチプレクサ(1216)
を備える。
前記ゲノムエンコーダ(1210)は、
前記リードを1つ以上のリファレンスシーケンスに整列させ、それによって整列されたリードを作成するように構成された、アライナユニット(122)、
1つ以上の既存のリファレンスシーケンス又は構築されたリファレンスシーケンスで、指定されたマッチング規則に従って前記整列されたリードを分類し、それによって整列されたリードのクラス(128)を作成するように構成された、データ分類ユニット(124)、
整列されたリードの前記クラスに従って、前記構文要素を選択することにより、前記分類された整列されたリードを構文要素のブロックとしてコード化するように構成された、1つ以上の記述子コード化ユニット(125〜127)、
ゲノムストリーム(1215)を生成するために、統計特性に従って構文要素の前記ブロックを圧縮するように構成された、1つ以上のエントロピーコード化ユニット(1212〜1214)、
上述のように構成された、生リードシーケンスリード、マッピングされていないリードシーケンスリード及び整列されていないシーケンスリードコード化ユニット(1115)、
圧縮されたゲノムデータ及びメタデータを多重化するためのマルチプレクサ(1216)
を備える。
コード化方法を実行可能なコード化手段を備えるゲノムデコーダであって、サポートされているアルファベットの各ヌクレオチドを一意的な2進表現に関連付けることによって前記クラスタシグネチャをコード化し、コード化されたシグネチャを表すビット文字列を得るために、各ヌクレオチドの前記2進表現をシグネチャに連結することを備えるゲノムデコーダ。
圧縮されたゲノムアクセスユニット(134)を解凍するためのゲノムデコーダ(1313)であって、前記ゲノムデコーダ(1313)は、
圧縮されたゲノムアクセスユニット(134)と、ゲノムデータセットヘッダと、マスタインデックステーブル(133)とを逆多重化するためのデマルチプレクサ(132)、前記ゲノムデータセットヘッダ及びマスタインデックステーブル(133)をコード化されたクラスタシグネチャ(137)に解析するように構成された解析手段(135)、
前記コード化されたクラスタシグネチャ(137)をクラスタシグネチャ(1311)に復号化するように構成されていたシグネチャデコーダ(139)、
前記圧縮されたゲノムアクセスユニットを、ゲノム記述子(138)と名付けられた構文要素のブロックに解凍するように構成されたエントロピーデコーダ(136)、
ゲノム記述子をヌクレオチドのシーケンスの圧縮されていないリードに復号化するように構成された1つ以上の記述子デコーダ(1310)を備えるゲノムデコーダ。
圧縮されたゲノムアクセスユニット(134)と、ゲノムデータセットヘッダと、マスタインデックステーブル(133)とを逆多重化するためのデマルチプレクサ(132)、前記ゲノムデータセットヘッダ及びマスタインデックステーブル(133)をコード化されたクラスタシグネチャ(137)に解析するように構成された解析手段(135)、
前記コード化されたクラスタシグネチャ(137)をクラスタシグネチャ(1311)に復号化するように構成されていたシグネチャデコーダ(139)、
前記圧縮されたゲノムアクセスユニットを、ゲノム記述子(138)と名付けられた構文要素のブロックに解凍するように構成されたエントロピーデコーダ(136)、
ゲノム記述子をヌクレオチドのシーケンスの圧縮されていないリードに復号化するように構成された1つ以上の記述子デコーダ(1310)を備えるゲノムデコーダ。
圧縮されたゲノムストリーム(1410)を解凍するためのゲノムデコーダ(148)であって、前記ゲノムデコーダ(148)は、
圧縮されたゲノムデータ及びメタデータをゲノムビットストリーム(141)及びマッピングされていないシーケンスリードのビットストリーム(145)に逆多重化するためのデマルチプレクサ(140)、
前記圧縮されたゲノムストリームをゲノム記述子(145)と名付けられた構文要素のブロックに解析するように構成されたエントロピーデコーダ(142〜144)、
ゲノム記述子をヌクレオチドのシーケンスの分類されたリードに復号化するように構成された1つ以上のゲノム記述子デコーダ(146〜147)、
1つ以上のリファレンスシーケンス上のヌクレオチドのシーケンスの前記分類されたリードを選択的に復号化して、ヌクレオチドのシーケンスの圧縮されていないリードを生成するように構成されたゲノムデータクラスデコーダ(149)、
圧縮されていない生シーケンスリード、未マッピングされていないシーケンスリード及び整列されていないシーケンスリード(1414)及びクラスタシグネチャ(1415)を生成するために、上述のように構成されたマッピングされていないシーケンスリードデコーダ(1313)、
を備えるゲノムデコーダ。
圧縮されたゲノムデータ及びメタデータをゲノムビットストリーム(141)及びマッピングされていないシーケンスリードのビットストリーム(145)に逆多重化するためのデマルチプレクサ(140)、
前記圧縮されたゲノムストリームをゲノム記述子(145)と名付けられた構文要素のブロックに解析するように構成されたエントロピーデコーダ(142〜144)、
ゲノム記述子をヌクレオチドのシーケンスの分類されたリードに復号化するように構成された1つ以上のゲノム記述子デコーダ(146〜147)、
1つ以上のリファレンスシーケンス上のヌクレオチドのシーケンスの前記分類されたリードを選択的に復号化して、ヌクレオチドのシーケンスの圧縮されていないリードを生成するように構成されたゲノムデータクラスデコーダ(149)、
圧縮されていない生シーケンスリード、未マッピングされていないシーケンスリード及び整列されていないシーケンスリード(1414)及びクラスタシグネチャ(1415)を生成するために、上述のように構成されたマッピングされていないシーケンスリードデコーダ(1313)、
を備えるゲノムデコーダ。
本発明はさらに、実行されると、少なくとも1つのプロセッサに前述のコード化方法のすべての態様を実行させる命令を備えるコンピュータ可読媒体を提供する。
本発明はさらに、実行されると、少なくとも1つのプロセッサに前述のコード化方法のすべての態様を実行させる命令を備えるコンピュータ可読媒体を提供する。
本発明はさらに、実行されると、少なくとも1つのプロセッサに前述の復号化方法の全ての態様を実行させる命令を備えるコンピュータ可読媒体を提供する。
本発明はさらに、前述のコード化方法の全ての態様によって実行されるゲノムコードを保存するサポートデータを提供する。
関連アプリケーションとの相互参照
本出願は、特許出願PCT/EP2016/074311、PCT/EP2016/074301、PCT/EP2016/074307、PCT/EP2016/074297、PCT/US2017/17842、PCT/US2017/17841に優先権と利益を主張する。
本出願は、特許出願PCT/EP2016/074311、PCT/EP2016/074301、PCT/EP2016/074307、PCT/EP2016/074297、PCT/US2017/17842、PCT/US2017/17841に優先権と利益を主張する。
本発明において言及されるゲノムシーケンス又はプロテオームシーケンスは、例えば、限定されるものではないが、ヌクレオチドシーケンス、デオキシリボ核酸(DNA)シーケンス、リボ核酸(RNA)及びアミノ酸シーケンスを含む。本明細書中の記載は、ヌクレオチドシーケンスの形態のゲノム情報に関してかなり詳細であるが、当業者によって理解されるように、圧縮のための方法及びシステムが、いくつかのバリエーションを伴うが、他のゲノムシーケンス又はプロテオームシーケンスについても同様に実施可能であることが理解される。ゲノムシーケンス情報は、定義された語彙からの文字列によって表されるヌクレオチド(別名「塩基」)のシーケンスの形態でハイスループットシーケンシング(HTS)装置によって生成される。最小の語彙は、DNAに存在する4種類のヌクレオチド、すなわちアデニン、シトシン、グアニン及びチミンを表す5つの記号:{A、C、G、T、N}で表される。RNAでは、チミンはウラシル(U)に置き換えられる。Nは、シーケンシング装置が何れの塩基か判断できず、したがってその位置におけるヌクレオチドの実際の性質は決定されていないことと示す。IUPAC ambiguity codesが語彙としてシーケンシング装置によって採用される場合、記号に使用されるアルファベットは以下の記号からなる:{A、C、G、T、U、W、S、M、K、R、Y、B、D、H、V、N又は−}。アミノ酸の場合、サポートされる記号は以下の通りである:{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}。
本発明の文脈において、ゲノムデータセットは、例えば、生物のゲノムデータ、生物のゲノムシーケンスによって、又は元のシーケンスデータに対して行われたゲノムデータ処理の他の任意のステップによって生成された1つ以上のシーケンス及びメタデータを含むゲノムデータの任意の構造化されたセットとして定義される。
本発明の文脈において、ゲノムデータセットヘッダは、本発明の開示に従ってコード化されたデータを処理するコード化装置及び復号化装置によって使用されるグローバルパラメータを含むデータ構造として定義される。
シーケンシング装置によって生成されたヌクレオチドシーケンスはリードと呼ばれる。シーケンスリードは、数十から数千の範囲の数のヌクレオチドから構成され得る。いくつかのシーケンシング技術は、1つのリードが1つのDNA鎖に由来し、他のリードが他のDNA鎖に由来する対からなるシーケンスリードを生成する。対を生成するシーケンスプロセスにおける別のリードに関連するリードは、そのメイトと呼ばれる。
本開示を通して、リファレンスシーケンスは、各整数座標が1つのヌクレオチドに関連付けられた一次元整数座標系に関連付けられたヌクレオチドのシーケンスである。座標値は、ゼロ以上でなければならない。本発明の文脈におけるこの座標系はゼロを基準とし(すなわち、最初のヌクレオチドは座標0を有し、それは位置0にあると呼ぶ)、且つ、左から右へ直線的に増加する。
マッピングシーケンスリードがリファレンスシーケンス上にあるとき、リファレンスシーケンスは、最も左の位置が位置0として示される一次元座標系の軸として使用される。リファレンスシーケンスにマッピングされた、シーケンスリードにおいて、最小の座標番号によって識別されるリファレンスシーケンス位置にマッピングされたリードを備えるヌクレオチドは、通常、「最も左の」ヌクレオチドと呼ばれ、最大の座標番号によって識別されたリファレンスシーケンス位置にマッピングされたリードを構成するヌクレオチドは、「最も右」のヌクレオチドと呼ばれる。これを図3に示す。本開示を通して、ヌクレオチドは塩基とも呼ばれる。これは、図3に示される。本開示を通して、ヌクレオチドは塩基とも呼ばれる。
シーケンスリードがリファレンスシーケンスにマッピングされると、最も左にマッピングされた塩基の座標は、リファレンスシーケンス上のリードのマッピング位置を表すと言われる。
整列されたリードに存在し、リファレンスシーケンスには存在しない塩基(別名、挿入)及びアラインメントプロセスによって保存され、リファレンスシーケンスにはマッピングされない塩基(別名ソフトクリップ)はマッピング位置を有さない。
シーケンスリードが、指定されたマッチング規則に従って、使用されたリファレンスシーケンスの何れのマップされた位置にもマッピングできない場合、マッピングされていないと言う。
シーケンスリードの間で重複領域を探すことによって、より長いゲノムシーケンスを構築する処理は、アセンブリと呼ばれる。
より短いリードを集めて構築されたより長いゲノムシーケンスはコンティグ(contig)と呼ばれる。
アセンブリ処理中にコンティグを構築することに失敗したシーケンスリードは、整列されていないと言う。
本発明の開示全体を通して、いくつかの共通の特徴に従ってリードをグループ化する処理は、クラスタリングと定義される。同じ特性を共有するリードのグループは、クラスタと呼ばれる。この概念の概略図を図1に示す。
本発明の開示を通して、同じクラスタに属するシーケンスリードの間で共有される特徴は、クラスターシグネチャ又はシグネチャと呼ばれる。精度の異なるシグネチャを含むリードの例を図2に示す。シグネチャは2〜数千の任意の数のヌクレオチドで構成でき、シグネチャはすべてのクラスタに対して一定の長さを有するか、又は可変長を有するかのいずれかである。シグネチャに属することができる記号のアルファベットは、処理されているシーケンスリードを生成するために配列決定された特定のゲノムサンプルに依存する。一例として、しかし限定としてではなく、以下のアルファベットを使用することができる。
・DNA用
○{A、G、C、T、N}
○{A、G、C、T、R、Y、S、W、K、M、B、D、H、V、N、.、−(IUPAC表記)
・RNA用
○{A、G、C、U、N}
○{A、G、C、U、R、Y、S、W、K、M、B、D、H、V、N、.、−(IUPAC表記)
・アミノ酸用
○{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}
・DNA用
○{A、G、C、T、N}
○{A、G、C、T、R、Y、S、W、K、M、B、D、H、V、N、.、−(IUPAC表記)
・RNA用
○{A、G、C、U、N}
○{A、G、C、U、R、Y、S、W、K、M、B、D、H、V、N、.、−(IUPAC表記)
・アミノ酸用
○{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}
クラスタシグネチャを計算するために使用されるアルファベットの種類は、本開示で説明されるゲノムデータセットヘッダと呼ばれるデータ構造によってもたらされるパラメータAlphabet_IDによって識別される。同じゲノムデータセットに属するクラスタのシグネチャは、固定長又は可変長である。ゲノムデータセットのヘッダにコード化されたグローバルパラメータは、シグネチャの長さが固定か可変かを示すために使用される。シグネチャ長が固定の場合、第2のグローバルパラメータはクラスタシグネチャの記号の長さを表す。可変のシグネチャ長の場合、この値は0である。
リファレンスゲノムは1つ以上のリファレンスシーケンスによって構成され、それは種の遺伝子セットの代表例として科学者によって集められる。例えば、GRCh37、ゲノムリファレンスコンソーシアムのヒトゲノム(built37)は、ニューヨーク州バッファロー出身の13人の匿名のボランティアに由来する。しかしながら、リファレンスシーケンスは、それらのさらなる処理を考慮して、リードの圧縮性を改善するために考えられ、単に構築された合成シーケンスからなることもできる。
本開示では、リファレンス上の最小座標上の塩基マッピングでリードペアを構成するリードを「リード1」と呼び、そのメイトを「リード2」と呼ぶ。
今日の技術を使用するシーケンス装置によって、対として生成された分離した2つのリードを、ヌクレオチド(または塩基)の数として表した距離は未知であり、ペアを構成する両方のリードをリファレンスシーケンスにマッピングする(すなわち適切なマッチング関数を最小にする)ことによって決定される。
以下の節で詳述するように、本発明の開示は、1つ以上のリファレンスシーケンスへシーケンスリードをマッピングした結果に従ってシーケンスリードを分類する方法を定義する。
・ミスマッチなしでリファレンスシーケンスにマッピングするリードは、Class Pに属する
・ミスマッチとして未知の塩基(記号「N」で表される)のみを含むリファレンスシーケンスにマッピングするリードは、Class Nに属する
・リファレンスに対して定義された閾値以下の置換数を有するリファレンスシーケンスにマッピングするリードは、Class Mに属する
・リファレンスに対して定義された閾値以下の置換数、欠失数、挿入数又はソフトクリップされた塩基数を有するリファレンスシーケンスにマッピングするリードは、Class Iに属する
・1つのマッピングされたリード(前の4つのClassの何れかに属している)と、マッピングされていないメイトとのリードペアは、Class HMに属する
・許容されるミスマッチの最大数に関して確立された制約に従って、何れのリファレンスシーケンスにもマッピングされないリードは、Class Uに属する
・ミスマッチなしでリファレンスシーケンスにマッピングするリードは、Class Pに属する
・ミスマッチとして未知の塩基(記号「N」で表される)のみを含むリファレンスシーケンスにマッピングするリードは、Class Nに属する
・リファレンスに対して定義された閾値以下の置換数を有するリファレンスシーケンスにマッピングするリードは、Class Mに属する
・リファレンスに対して定義された閾値以下の置換数、欠失数、挿入数又はソフトクリップされた塩基数を有するリファレンスシーケンスにマッピングするリードは、Class Iに属する
・1つのマッピングされたリード(前の4つのClassの何れかに属している)と、マッピングされていないメイトとのリードペアは、Class HMに属する
・許容されるミスマッチの最大数に関して確立された制約に従って、何れのリファレンスシーケンスにもマッピングされないリードは、Class Uに属する
アクセスユニット(AU)は、ビットストリームのアクセス及び操作を容易にするために、ゲノム情報のコード化表現又は関連するメタデータを含む論理データ構造として定義される。最小のデータ構成が、本開示に記載の本発明を実施する復号化装置によって復号化することができる。アクセスユニットは、本開示において定義されている1つのデータクラスのみに属するリードを含むことができる。
コード化情報の種類に応じて、AUは他のAUとは無関係に、又は他のAUに含まれる情報を使用して復号化することができる。
Class Uに属するマッピングされていない、又は整列されていないリードは、特定の種類のアクセスユニットに格納されている構文要素の特定のサブセットを使用してコード化される。
アクセスユニットの一例が図10に示される。アクセスユニットはコード化された記述子のブロックによって構成される(次のセクションで説明する)。ネットワーク上での転送を可能にするために、ブロックはさらにパケットに分解される。
記述子は、コード化されたリファレンスシーケンス、シーケンスのリード及び関連するマッピング情報を再構築(即ち、デコード)するために必要な情報の一部を表す構文要素である。異なる種類の記述子を表現するために定義する。
・リファレンスシーケンス上のリードのマッピング位置、
・リードとそのメイトとの距離、
・シーケンスリードの長さ、
・リファレンスシーケンスに対して整列させたリードのミスマッチの位置、
・関連する位置でのリファレンスシーケンスに対するミスマッチの種類、
・マッピング処理によってリファレンスシーケンスにマッピングできなかった塩基、及び「ソフトクリップ」塩基として分類された塩基、
・シーケンスリード長、
・SAM仕様により指定されたマッピングフラグ、
・マッピング処理によって単一のリード又はリードペアに関連付けられた複数のマッピング位置、
・スプライシングされたリードの存在の識別(すなわち、チャンクに分割されたときに、次いでそれらがリファレンスシーケンス上の単一位置にマッピングされた単一の連結したリードとしてマッピングされたときに、より高いマッチング精度でマッピング位置を検出する)
・以下のように使用される特定の種類のリファレンスシーケンス:
○ゲノムリファレンスコンソーシアム(例えば、GRCh37)、カリフォルニア大学サンタクルーズ校(例えば、hg19)のようなコンソーシアムによって発表されたもののようなリファレンスゲノム、
○リードの特定のセット及びアセンブリルールの特定のセットを使用して構築されたリファレンスシーケンス、
・修飾されたリファレンスシーケンスにマッピングされたシーケンスリードのミスマッチを表すために使用される記述子のエントロピーを減少させる目的で、リファレンスシーケンスに適用される修飾の位置及び種類、
・特定のマッチング精度で、リファレンスシーケンスの何れの位置にもマッピングできないシーケンスリードの表現、
・特定のマッチング精度に従って、アセンブリ処理中にコンティグを構築するために整列させることができないシーケンスリードの表現、
・リファレンスシーケンス全体又はその一部の表現。
・リファレンスシーケンス上のリードのマッピング位置、
・リードとそのメイトとの距離、
・シーケンスリードの長さ、
・リファレンスシーケンスに対して整列させたリードのミスマッチの位置、
・関連する位置でのリファレンスシーケンスに対するミスマッチの種類、
・マッピング処理によってリファレンスシーケンスにマッピングできなかった塩基、及び「ソフトクリップ」塩基として分類された塩基、
・シーケンスリード長、
・SAM仕様により指定されたマッピングフラグ、
・マッピング処理によって単一のリード又はリードペアに関連付けられた複数のマッピング位置、
・スプライシングされたリードの存在の識別(すなわち、チャンクに分割されたときに、次いでそれらがリファレンスシーケンス上の単一位置にマッピングされた単一の連結したリードとしてマッピングされたときに、より高いマッチング精度でマッピング位置を検出する)
・以下のように使用される特定の種類のリファレンスシーケンス:
○ゲノムリファレンスコンソーシアム(例えば、GRCh37)、カリフォルニア大学サンタクルーズ校(例えば、hg19)のようなコンソーシアムによって発表されたもののようなリファレンスゲノム、
○リードの特定のセット及びアセンブリルールの特定のセットを使用して構築されたリファレンスシーケンス、
・修飾されたリファレンスシーケンスにマッピングされたシーケンスリードのミスマッチを表すために使用される記述子のエントロピーを減少させる目的で、リファレンスシーケンスに適用される修飾の位置及び種類、
・特定のマッチング精度で、リファレンスシーケンスの何れの位置にもマッピングできないシーケンスリードの表現、
・特定のマッチング精度に従って、アセンブリ処理中にコンティグを構築するために整列させることができないシーケンスリードの表現、
・リファレンスシーケンス全体又はその一部の表現。
本発明に開示された方法によれば、リファレンスシーケンス又はその一部、シーケンスリード及び関連するアラインメント情報は、各記述子に特異的な統計的性質に従って複数のエントロピーコーダを用いてエントロピーコード化された上に挙げた記述子のサブセットを用いてコード化される。均一な統計的性質を有する記述子のブロックは、本開示に記載されている本発明を実施する装置によって操作することができる1つ以上のゲノムシーケンスの最小コード化表現を表すアクセスユニットで構成される。
本開示に記載される発明は、生シーケンスリード、マッピングされていないシーケンスリード及び整列されていないシーケンスリードのコード化表現を含むアクセスユニットにインデックスを付ける方法を定義する。
マッチングルールに従ったシーケンスリードの分類
シーケンス装置によって生成されたシーケンスリードは、開示された発明によって、1つ以上の「既存の」リファレンスシーケンスに関するアラインメントのマッチング結果に従って、6つの異なる「Class」に分類される。
リファレンスシーケンスに関してヌクレオチドのDNAシーケンスを整列させる場合、以下の場合が同定され得る。
1.リファレンスシーケンス中の領域が、エラーがなくシーケンスリードと一致することが検出される(すなわち、完全マッピング)。そのようなヌクレオチドのシーケンスは、「完全に一致するリード」と呼ばれるか、または「Class P」と表される。
1.リファレンスシーケンス中の領域が、エラーがなくシーケンスリードと一致することが検出される(すなわち、完全マッピング)。そのようなヌクレオチドのシーケンスは、「完全に一致するリード」と呼ばれるか、または「Class P」と表される。
2.リファレンスシーケンス中の領域は、リードを生成するシーケンス装置が何れの塩基(またはヌクレオチド)も判断できなかった位置の数によってのみ決定されたミスマッチの種類及び数と、シーケンスリードとが一致することが検出される。そのようなミスマッチの種類は、未定義のヌクレオチド塩基を示すために使用される文字である「N」よって表される。この文書では、この種類のミスマッチを「n型」のミスマッチと呼ぶ。そのようなシーケンスは、「Class N」リードに属する。リードが「Class N」に属すると分類されると、一致の不正確さの程度を所定の上限に制限し、有効な一致と見なされるものとそうでないものとの間に境界を設定するのに有用である。したがって、Class Nに割り当てられたリードはまた、リードが含むことができる未定義の塩基(すなわち「N」と呼ばれる塩基)の最大数を定義する閾値(MAXN)を設定することによって制約される。そのような分類は、Class Nに属するすべてのリードが、対応するリファレンスシーケンスを参照したときに共有する必要最小限のマッチング精度(または最大のミスマッチ度合い)を自動的に定義し、これは選択データ検索を圧縮データに適用するための有用な基準を構成する。
3.リファレンスシーケンス中の領域は、リードを生成するシーケンス装置が何れの塩基(またはヌクレオチド)も判断できなかった位置の数によって決定されたミスマッチの種類及び数と、シーケンスリードとが一致することが検出され、もし、存在するなら(すなわち「n型」ミスマッチ)であるならば、リファレンスに存在するものとは異なる塩基と判断されたミスマッチの数を追加する。「置換」として示されるそのような種類のミスマッチは、一塩基変異(SNV)又は一塩基多型(SNP)とも呼ばれる。この文書では、この種類のミスマッチは「s型」のミスマッチとも呼ばれる。次いで、シーケンスリードは、「Mミスマッチリード」と呼ばれ、「Class M」に割り当てられる。「Class N」の場合と同様に、「Class M」に属するすべてのリードについても、一致の不正確さの程度を所定の上限に制限し、有効な一致と見なされるものとそうでないものとの境界を設定するのに有用である。したがって、Class Mに割り当てられたリードは、閾値のセットを定義することによっても制約され、存在するならば、1つは「n型」のミスマッチの数「n」(MAXN)、もう1つは置換数「s」(MAXS)である。第3の制約は、数値「n」と「s」の両方の関数f(n、s)によって定義される閾値である。そのような第3の制約は、任意の意味のある選択的アクセス基準に従ってマッチングの不正確さの上限を有するClassを生成することを可能にする。例えば、限定としてではなく、f(n、s)は、(n+s)1/2もしくは(n+s)、又は「Class M」に属するreadを許容する最大のマッチング不正確さレベルに境界を設定する任意の線形又は非線形の表現とすることができる。このような境界は、一方の種類またはもう一方の種類に適用された単純な閾値を超える「n型」ミスマッチの数と「s型」(置換)の数との任意の可能な組み合わせにさらなる境界を設定することを可能にするため、様々な目的でシーケンスリードを分析するときに所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。
4.第4のClassは、「挿入」、「欠失」(別名、インデル)及び「クリップ(clipped)」の中の何れかの種類の少なくとも1つのミスマッチを示すシーケンスリードによって構成され、存在する場合には、Class NまたはMに属する任意のミスマッチの種類を加える。そのようなシーケンスは、「ミスマッチリードI」と呼ばれ、「Class I」に割り当てられる。挿入は、リファレンスには存在しないがリードシーケンスには存在する1つまたは複数のヌクレオチドの追加のシーケンスによって構成される。この文書では、この種類のミスマッチを「i型」ミスマッチと呼ぶ。文献では、挿入されたシーケンスがシーケンスの端にある場合、「ソフトクリップ」とも呼ばれる(すなわち、ヌクレオチドはリファレンスとは一致しないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的に整列されたリードに保持される)。この文書では、この種類のミスマッチを「c型」のミスマッチと呼ぶ。ヌクレオチドを保持または廃棄することは、シーケンス装置または次のアライメント段階によって決定されるような、リードを受け取って処理する本発明に開示されたリードの分類子によってではなく、アライナの段階によって行われる決定である。欠失は、リファレンスに対してリードにおける「穴」(欠けているヌクレオチド)である。この文書では、この種類のミスマッチを「d型」ミスマッチと呼ぶ。Class「N」及び「M」の場合と同様に、マッチングの不正確さに対する制限を定義することは可能であり適切である。「Class I」に対する制約のセットの定義は、「Class M」に対して使用されたのと同じ原理に基づいており、表1において表の最後の行に報告されている。Class Iデータに許容される各種類のミスマッチについての閾値に加えて、さらなる制約は、ミスマッチ「n」、「s」、「d」、「i」及び「c」、w(n、s、d、i、c)の数の任意の関数によって決定される閾値によって定義される。そのような追加の制約は、任意の意味のあるユーザ定義の選択的アクセス基準に従って、マッチングの不正確さの上限を有するClassを生成することを可能にする。例えば、限定としてではなく、w(n、s、d、i、c)は、(n+s+d+i+c)1/5又は(n+s+d+i+c)又は「Class I」に属するリードについて認められる最大のマッチングの不正確レベルに境界を設定する任意の線形もしくは非線形の式であり得る。このような境界は、許容されるミスマッチの各種類に適用される単純な閾値を超えて、「Class I」のリードで許容されるミスマッチの数のあらゆる可能な組み合わせに対してさらなる境界を設定することを可能にするため、様々な目的のためのシーケンスリードを分析するときに所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。
5.第5のClassは、リファレンスシーケンスを参照するときに、各データクラスについて、有効と見なされる(すなわち、表1に規定される最大のマッチングの不正確さに対する上限を定義するマッチングルールのセットを満たさない)マッピングを検出しない全てのリードを含む。そのようなシーケンスは、リファレンスシーケンスを参照ときに、「マッピングされていない」と呼ばれ、「Class U」に属すると分類される。
マッチング規則に従ったリードペアの分類
前のセクションで指定された分類は、単一のシーケンスリードに関する。2つのリードが可変長の未知のシーケンスで区切られていることがわかっている、ペアでリードを生成するシーケンス技術(例えば、Illumina Inc.)の場合は、ペア全体を単一のデータClassに分類することを検討するのが適切である。互いに結合されているリードは、その「メイト」と呼ばれる。
前のセクションで指定された分類は、単一のシーケンスリードに関する。2つのリードが可変長の未知のシーケンスで区切られていることがわかっている、ペアでリードを生成するシーケンス技術(例えば、Illumina Inc.)の場合は、ペア全体を単一のデータClassに分類することを検討するのが適切である。互いに結合されているリードは、その「メイト」と呼ばれる。
両方の対のリードが同じClassに属する場合、ペア全体のClassへの割り当ては明らかであり、ペア全体が任意のClass(すなわちP、N、M、I、U)に対して同じClassに割り当てられる。2つのリードが異なるClassに属しているが、どちらも「Class U」に属していない場合、ペア全体が次の式に従って定義された最も高い優先順位を有するClassに割り当てられる。
P<N<M<I
ここで、「Class P」が最も低い優先順位を有し、「Class I」が最も高い優先順位を有する。
P<N<M<I
ここで、「Class P」が最も低い優先順位を有し、「Class I」が最も高い優先順位を有する。
リードのうちの1つだけが「Class U」に属し、そのメイトがClass P、N、Mのいずれかに一致する場合、第6のClassは「ハーフマップ」を表す「Class HM」として定義される。
そのような特定のClassのリードの定義は、それがリファレンスゲノムに存在するギャップ又は未知の領域(別名、ほとんど知られていない又は未知の領域)を決定する試みのために使用されるという事実によって動機付けられる。そのような領域は、既知の領域にマッピングすること可能なペアリードを使用してエッジでペアをマッピングすることによって再構築される。次いで、図15に示すように、マッピングされていないメイトを使用して、未知の領域のいわゆる「コンティグ」を構築する。したがって、そのような種類のリードペアのみへの選択的なアクセスを提供することは、最先端のソリューションを使用して完全に検査する必要があると思われる大量のデータセットによって生成されたデータの非常に効果的な処理が可能な関連した計算負荷を低減する。
以下の表に、各リードが属するデータのClassを定義するためにリードに適用されるマッチングルールをまとめる。ルールは、ミスマッチの種類(n、s、d、i、及びc型のミスマッチ)の有無によって、表の最初の5列に定義される。6列目は、各ミスマッチの種類及び可能なミスマッチの種類の任意の関数f(n、s)及びw(n,s、d、i、c)に対する最大の閾値に関するルールを提供する。
表1.本発明の開示において定義されたデータクラスに分類されるために各シーケンスリードが満たすべきミスマッチの種類及び制約のセット。
ゲノムシーケンスリードとリファレンスシーケンスの圧縮表示
ゲノムシーケンスリードの圧縮に対する効率的なアプローチの一般的な要素は、リファレンスシーケンスに対するシーケンスデータの関係の利用である。たとえ、ヒトの集団の体性のプロファイルが非常に多様化したとしても、人によって異なるヌクレオチドの数の実際の部分は全ゲノムを構成するヌクレオチドの総数の約0.1%にすぎない。したがって、各個体を特徴付ける特定のゲノム情報は、全ゲノムによってもたらされる全情報に対して非常に限定されている。以前のシーケンスのため、又は公表されている「平均的」コンセンサスリファレンスとして存在する、既存のリファレンスゲノムが利用可能である場合、実際の情報をコード化する最も効率的な方法は、リファレンスゲノムに対する差異のみを識別しコード化することである。
ゲノムシーケンスリードの圧縮に対する効率的なアプローチの一般的な要素は、リファレンスシーケンスに対するシーケンスデータの関係の利用である。たとえ、ヒトの集団の体性のプロファイルが非常に多様化したとしても、人によって異なるヌクレオチドの数の実際の部分は全ゲノムを構成するヌクレオチドの総数の約0.1%にすぎない。したがって、各個体を特徴付ける特定のゲノム情報は、全ゲノムによってもたらされる全情報に対して非常に限定されている。以前のシーケンスのため、又は公表されている「平均的」コンセンサスリファレンスとして存在する、既存のリファレンスゲノムが利用可能である場合、実際の情報をコード化する最も効率的な方法は、リファレンスゲノムに対する差異のみを識別しコード化することである。
FASTQデータの形態の生シーケンスリードを用いてそうするために、利用可能なリファレンスゲノム上にマッピングする予備的な前処理工程が行われる。リファレンスゲノムが利用できない場合、又は特定のリファレンスの使用によって導入された偏りが望ましくない場合、利用可能なシーケンスリードをより長いシーケンスに組み込むことによる新しいリファレンスシーケンスの構築が可能な代替法である。
シーケンスリードが既存のリファレンスシーケンス又は構築されたリファレンスシーケンスに対してマッピングされている場合、各シーケンスリードは、本開示において「リード記述子」又は単に「記述子」として示されるいくつかの要素によって完全に表すことができる。
例えば、リファレンスシーケンスのセグメントと完全に一致するシーケンスリードの場合、シーケンスリードを表すのに必要な記述子のサブセットだけが、リファレンス上のマッピング位置の座標(通常はシーケンスリードの左端の塩基のマッピング位置の座標)、シーケンスの長さ自体及びリードがリファレンスシーケンス鎖に対してダイレクトなDNA鎖又はリバースのDNA鎖にマッピングされているかどうかを示す情報によって構成される。
シーケンスリードのすべての塩基がリファレンスシーケンスのすべての塩基と一致するマッピング位置を見つけることができない場合、最小数のミスマッチを有するマッピング(または複数のマッピング)が保持される。そのような場合、マッピング位置と最小数又は最小数に近いミスマッチとの対応で起こり得る置換、挿入、欠失及びクリップされた塩基も表現するために、異なるサブセットの記述子が必要とされる。記述子のそのようなサブセットを用いて、記述子によってもたらされる情報及びリファレンスシーケンスによってもたらされる情報を使用して、シーケンスリードを再構成することができる。
マッピングプロセスは、複数の可能なマッピング位置と関連スコア、マッピングの質、スプライスしたリードの指定、ペアに属するリードの2つの異なるリファレンス(通常は染色体)へのマッピング、シーケンシング処理の特徴(PCRまたは光学的複製)のような他の種類の情報も生成することができる。全てのそのような情報は、各サブセットを拡張する特定の追加の記述子を必要とし、それは次に記述子の各サブセットに対して適切なエントロピーコード化アルゴリズムを適用することによって圧縮される。
ゲノムシーケンシング処理は、以下の理由により、リードの重複(すなわち、同じゲノムシーケンスの2つ以上の正確なコピー)を生成し得る。
・ゲノムシーケンシングプロセスの化学的性質(ポリメラーゼ連鎖反応複製)、
・データ取得処理(光学的複製)。一対のリードが両方とも同じタイル上にあり、リード間の距離が実験に応じた所定の構成パラメータより小さい場合、リードは光学的複製と呼ばれる。
・ゲノムシーケンシングプロセスの化学的性質(ポリメラーゼ連鎖反応複製)、
・データ取得処理(光学的複製)。一対のリードが両方とも同じタイル上にあり、リード間の距離が実験に応じた所定の構成パラメータより小さい場合、リードは光学的複製と呼ばれる。
したがって、各リード又はリードペアは、マッピング処理の結果に従って、特定の記述子のサブセットによって一意的に表すことができる。
SAM及びCRAMなどの一般的に使用される手法は、それらのマッピング情報を表すのに必要とされる記述子の特定のサブセットに従ってリード又はリードペアをコード化しない。SAM及びCRAMは、それらがマッピングされているリファレンスシーケンスに関してそれらが含むミスマッチの数及び種類に従ってシーケンスリードをデータクラスに分類しない。さらに、これらのフォーマットは、単一のデータクラスに属するシーケンスリードのみを圧縮形式で含むアクセスユニットにシーケンスリードを別々にコード化しない。ペアで生成されたシーケンスリードの場合、最先端の手法では、リファレンスシーケンスに対するそれらのマッピング精度に従ってClassに分割された単一の要素としてそれらをコード化しない。そのような最先端の手法は、以下の制限及び欠点によって特徴付けられる。
1.リファレンスシーケンスに対するマッピング結果に従ってシーケンスリードを別々のデータクラスに分類せず、記述子の固有のスーパーセットを使用せずに、リード又はリード対をコード化することは、不十分な圧縮性能をもたらす非効率的な手法である。
2.リードペアを別々のシーケンスリードとしてコード化することは、同じ情報をもたらすいくつかの記述子の複製を必要とし、従って非効率であり、劣った圧縮性能をもたらす。
3.この処理はおそらく次世代シーケンシング(NGS)技術の場合のように非常に大きくなり得る全データセットにおいて力ずくのシーケンシャルサーチを必要とするので、リードペアを再構築するのに必要な情報の検索は複雑で非効率的になる。
4.特定のゲノム領域にマッピングされたリード又はリードペアへの選択的なアクセスは、すべてのリード又はリードペアが検索されることを保証するためにデータセット全体を検索する必要がある。
1.リファレンスシーケンスに対するマッピング結果に従ってシーケンスリードを別々のデータクラスに分類せず、記述子の固有のスーパーセットを使用せずに、リード又はリード対をコード化することは、不十分な圧縮性能をもたらす非効率的な手法である。
2.リードペアを別々のシーケンスリードとしてコード化することは、同じ情報をもたらすいくつかの記述子の複製を必要とし、従って非効率であり、劣った圧縮性能をもたらす。
3.この処理はおそらく次世代シーケンシング(NGS)技術の場合のように非常に大きくなり得る全データセットにおいて力ずくのシーケンシャルサーチを必要とするので、リードペアを再構築するのに必要な情報の検索は複雑で非効率的になる。
4.特定のゲノム領域にマッピングされたリード又はリードペアへの選択的なアクセスは、すべてのリード又はリードペアが検索されることを保証するためにデータセット全体を検索する必要がある。
単一のサブセットの記述子の手段によりリードペアをコード化するとき、以下の技術的利点が当業者に明らかである。
1.明らかに冗長である、両方のリードに共通の情報は、単一の要素としてペアをコード化することによって複製されない(例えば、リードペア識別子、マッピング距離、マッピングリファレンス識別子、特定のフラグによってSAMファイルフォーマットで現在コード化される様々なマッピング品質情報)
2.相互ペアリング情報(すなわち、どのリードが手元にあるどのリードのメイトであるかを提供する情報を)の検索は簡単であり、さらなる処理を必要としない。逆に、最先端の手法では、全データ量を解析する必要があるかもしれない。
1.明らかに冗長である、両方のリードに共通の情報は、単一の要素としてペアをコード化することによって複製されない(例えば、リードペア識別子、マッピング距離、マッピングリファレンス識別子、特定のフラグによってSAMファイルフォーマットで現在コード化される様々なマッピング品質情報)
2.相互ペアリング情報(すなわち、どのリードが手元にあるどのリードのメイトであるかを提供する情報を)の検索は簡単であり、さらなる処理を必要としない。逆に、最先端の手法では、全データ量を解析する必要があるかもしれない。
シーケンスデータの特定の部分への効率的な選択的なアクセスを可能にし、それらをデジタルデータネットワーク上で輸送することを可能にするために、リファレンスに対して整列されたシーケンスリードを表すために使用される記述子のセットは、アクセスユニット(AU)と呼ばれる論理的に分離し、独立したデータブロックに構成される。各アクセスユニットは、単一のデータクラスの圧縮表現のみを含み、他のアクセスユニットとは無関係に、又はマッピングに使用されるリファレンスシーケンス領域のコード化表現をもたらすアクセスユニットのみを使用して復号化することができる。これにより、選択的なアクセスと順序外の転送機能が可能となる。
圧縮効率を向上させるために、本発明は、同じリファレンスシーケンス上にマッピングされた両方の対を有する各リードペアについて「マッピングリファレンス識別子」記述子を指定する必要性を排除する。各アクセスユニットには、同じリファレンスにマップされているリード又はペアのみを含めることができる。そのような解決策を使用すると、リファレンスシーケンス識別子を表す記述子は、各アクセスユニット又はアクセスユニットのセットごとに一度だけコード化される必要がある(そして、SAM/BAMフォーマットで現在行われているようなリードごとの繰り返しはない)。
上記で表現された規則の唯一の例外は、異なるリファレンスシーケンス(例えば、染色体)上にマッピングされた2つのリードを有するリードペアの場合である。この場合、ペアは分割され、そして2つのリードは2つの別々のゲノムのレコードとしてコード化され、そして各コード化されたリードはそのメイトがマッピングされるリファレンスシーケンスの識別子を含む。
同種の統計的性質を有する要素のグループに情報を分類することは、異種のデータセットに適用される汎用のコンプレッサ(例えば、LZタイプのアルゴリズム)の使用に関してより良い圧縮性能を提供することを当業者は知っている。結果として、ゲノムシーケンスリードを記述子の特定のサブセットを用いてペアとしてコード化する場合、各個別の記述子のサブセットを特徴付けるエントロピーがより低く、リードペアを再構築及び検索するときの処理効率がより高いため、より高い圧縮が達成される。
ゲノムシーケンスリードのクラスタリング
本開示に記載される発明は、所与のマッチング制約内でヌクレオチドの共通のサブシーケンス(シグネチャ)を共有するリードのグループ(または「クラスタ」)を作成する工程を備える。所与のクラスタに属するリードには、正確で完全なシグネチャが含まれているか、定義された閾値を下回る数のミスマッチ(置換、挿入又は欠失)がある。異なる精度でシグネチャを共有するリードの例を図2に示す。
閾値の例は、以下のものを有する。
・任意の種類のミスマッチの総数、
・各ミスマッチの種類に異なる重みを割り当て、各リードにおけるすべてのミスマッチの重みを合計して得られた合計のスコア、
・置換、挿入、欠失及びクリップされた塩基の出現回数の加重合計。上記の各リードクラスタは、1つ以上のアクセスユニットにコード化されている。したがって、各アクセスユニットは1つのクラスタシグネチャに関連付けられている。
本開示に記載される発明は、所与のマッチング制約内でヌクレオチドの共通のサブシーケンス(シグネチャ)を共有するリードのグループ(または「クラスタ」)を作成する工程を備える。所与のクラスタに属するリードには、正確で完全なシグネチャが含まれているか、定義された閾値を下回る数のミスマッチ(置換、挿入又は欠失)がある。異なる精度でシグネチャを共有するリードの例を図2に示す。
閾値の例は、以下のものを有する。
・任意の種類のミスマッチの総数、
・各ミスマッチの種類に異なる重みを割り当て、各リードにおけるすべてのミスマッチの重みを合計して得られた合計のスコア、
・置換、挿入、欠失及びクリップされた塩基の出現回数の加重合計。上記の各リードクラスタは、1つ以上のアクセスユニットにコード化されている。したがって、各アクセスユニットは1つのクラスタシグネチャに関連付けられている。
本発明の開示を通して、アクセスユニットにコード化されたクラスタに関連するクラスタシグネチャは「アクセスユニットシグネチャ」とも呼ばれる。
コード化上の理由から、AUごとにコード化されたリードの最大数に制限が設定される、つまり、1つのクラスタは複数のアクセスユニットでコード化してもよい場合に、2つ以上のアクセスユニットが同じシグネチャを共有することができる。
シグネチャのコード化
本発明の開示によれば、いったんすべてのゲノムシーケンスがクラスタに含まれると、シグネチャは1つ以上のNビット整数のシーケンスとしてコード化される。シグネチャは、次の手順に従って1つ以上のNビット整数としてコード化される。
・採用されている特定のクラスタリングアルゴリズムによると、クラスタシグネチャは可変長または固定長にすることができる。長さが固定であれば、それに応じて固定のシグネチャ長を知らせるグローバルパラメータが設定され、長さはゲノムデータセットヘッダに格納される。そうでなければ、可変のシグネチャ長を知らせるグローバルパラメータがそれに応じて設定され、長さはゲノムデータセットヘッダにおいて0に設定される。
・サポートされているアルファベットの各記号は、長さが次の値に等しい2進法表示に一意的に関連付けられています。
○シグネチャ長が一定の場合は、M=ceil(log2(サポートされているアルファベットの濃度))
○可変のシグネチャの場合は、M=ceil(log2(サポートされているアルファベットの濃度)+1)
本発明の開示によれば、いったんすべてのゲノムシーケンスがクラスタに含まれると、シグネチャは1つ以上のNビット整数のシーケンスとしてコード化される。シグネチャは、次の手順に従って1つ以上のNビット整数としてコード化される。
・採用されている特定のクラスタリングアルゴリズムによると、クラスタシグネチャは可変長または固定長にすることができる。長さが固定であれば、それに応じて固定のシグネチャ長を知らせるグローバルパラメータが設定され、長さはゲノムデータセットヘッダに格納される。そうでなければ、可変のシグネチャ長を知らせるグローバルパラメータがそれに応じて設定され、長さはゲノムデータセットヘッダにおいて0に設定される。
・サポートされているアルファベットの各記号は、長さが次の値に等しい2進法表示に一意的に関連付けられています。
○シグネチャ長が一定の場合は、M=ceil(log2(サポートされているアルファベットの濃度))
○可変のシグネチャの場合は、M=ceil(log2(サポートされているアルファベットの濃度)+1)
ここでceilは、その引数以上の最小の整数を返す操作である。
・シグネチャの長さが可変の場合、コード化されたシグネチャの末端を知らせるために使用されるターミネータと呼ばれる特別な記号を表すために、ビットの1つのシーケンスが予約される。
・本開示ではSLと呼ばれる、固定のシグネチャ長の場合
○M×SL<=Nの場合、シグネチャ内の連続する記号の2進法表示は、M×SL<Nの場合、最上位ビットに0が埋め込まれた単一のビット文字列に連結される。N=32で、4つの記号のアルファベットの場合の例を図3に示す。
○M×SL>Nの場合、シグネチャ内の連続する記号の2進法表示は、bがNの厳密な約数(因数としても知られる)でない場合は、各ビット文字列の最上位ビットが0で埋められた2以上のビット文字列に連結される。N=8で、4つの記号のアルファベットの場合の例を図4に示す。
・本開示ではi番目のシグネチャに対してSLiと呼ばれる、可変のシグネチャ長の場合
○M×SLi<=Nの場合、シグネチャ内の連続する記号の2進法表示は単一のビット文字列に連結される。すべてのコード化された記号が連結された後、ビット文字列は、最上位のビット位置に追加された終止記号で終端され、必要に応じて残りの最上位ビットに0が埋め込まれる。N=32と4つの記号のアルファベットの例を図5に示す。
○M×SLi>Nの場合、シグネチャ内の連続する記号の2進法表示は、bがNの厳密な約数(因数としても知られる)でない場合は、各ビット文字列の最上位ビットが0で詰め込まれた2以上のビット文字列に連結される。最後のビット文字列は終止記号で終端され、さらに最上位ビット位置に0が埋め込まれる。N=8で、4つの記号のアルファベットの例を図6に示す。
・シグネチャの長さが可変の場合、コード化されたシグネチャの末端を知らせるために使用されるターミネータと呼ばれる特別な記号を表すために、ビットの1つのシーケンスが予約される。
・本開示ではSLと呼ばれる、固定のシグネチャ長の場合
○M×SL<=Nの場合、シグネチャ内の連続する記号の2進法表示は、M×SL<Nの場合、最上位ビットに0が埋め込まれた単一のビット文字列に連結される。N=32で、4つの記号のアルファベットの場合の例を図3に示す。
○M×SL>Nの場合、シグネチャ内の連続する記号の2進法表示は、bがNの厳密な約数(因数としても知られる)でない場合は、各ビット文字列の最上位ビットが0で埋められた2以上のビット文字列に連結される。N=8で、4つの記号のアルファベットの場合の例を図4に示す。
・本開示ではi番目のシグネチャに対してSLiと呼ばれる、可変のシグネチャ長の場合
○M×SLi<=Nの場合、シグネチャ内の連続する記号の2進法表示は単一のビット文字列に連結される。すべてのコード化された記号が連結された後、ビット文字列は、最上位のビット位置に追加された終止記号で終端され、必要に応じて残りの最上位ビットに0が埋め込まれる。N=32と4つの記号のアルファベットの例を図5に示す。
○M×SLi>Nの場合、シグネチャ内の連続する記号の2進法表示は、bがNの厳密な約数(因数としても知られる)でない場合は、各ビット文字列の最上位ビットが0で詰め込まれた2以上のビット文字列に連結される。最後のビット文字列は終止記号で終端され、さらに最上位ビット位置に0が埋め込まれる。N=8で、4つの記号のアルファベットの例を図6に示す。
効率的な選択的アクセスのための圧縮ゲノムデータのインデックス付け
整列されたデータの特定の領域への選択的なアクセスをサポートするために、本発明の開示は、2つのデータ構造:コード化処理及び復号化処理中に使用されるグローバルパラメータをもたらすゲノムデータセットヘッダと、マスタインデックステーブル(MIT)と呼ばれるインデックスツールを定義する。ゲノムデータセットヘッダの構文は表2に提供され、マスタインデックステーブルの構文は表3に提供される。本発明の開示は、MITおよびゲノムデータセットヘッダに含まれる要素を用いて、生リードインデックス、マッピングされていないリードインデックス及び整列されていないリードインデックスをサポートする方法を定義する。
整列されたデータの特定の領域への選択的なアクセスをサポートするために、本発明の開示は、2つのデータ構造:コード化処理及び復号化処理中に使用されるグローバルパラメータをもたらすゲノムデータセットヘッダと、マスタインデックステーブル(MIT)と呼ばれるインデックスツールを定義する。ゲノムデータセットヘッダの構文は表2に提供され、マスタインデックステーブルの構文は表3に提供される。本発明の開示は、MITおよびゲノムデータセットヘッダに含まれる要素を用いて、生リードインデックス、マッピングされていないリードインデックス及び整列されていないリードインデックスをサポートする方法を定義する。
ゲノムデータセットヘッダ
ゲノムデータセットヘッダは、コード化されたゲノム情報を操作するためにエンコーダ及びデコーダによって使用されるグローバルパラメータをもたらすデータ構造である。ゲノムデータセットヘッダの各要素の構成と意味を以下の表2に示す。
ゲノムデータセットヘッダは、コード化されたゲノム情報を操作するためにエンコーダ及びデコーダによって使用されるグローバルパラメータをもたらすデータ構造である。ゲノムデータセットヘッダの各要素の構成と意味を以下の表2に示す。
本発明で開示されるインデックス付けメカニズムに関連するグローバルパラメータは、表2に報告されているようにゲノムデータセットヘッダにコード化される。これらは以下の通りである。
・コード化されたシグネチャの各整数値を表すために使用されるビット数。これは、表2において、U_signature_sizeで表される。
・生リード、マッピングされていないリード、整列されていないリードが分割されたクラスタ及び関連するシグネチャの数。これは、表2において、U_clusters_numで表される。
・シグネチャがヌクレオチドに関して固定の長さを有するか可変の長さを有するかを示すフラグ。これは、表2において、U_signature_constant_lengthで表される。
・シグネチャ長が固定の場合のシグネチャ長。これは、表2において、U_signature_lengthで表される。
表2−ゲノムデータセットヘッダーの構文
・コード化されたシグネチャの各整数値を表すために使用されるビット数。これは、表2において、U_signature_sizeで表される。
・生リード、マッピングされていないリード、整列されていないリードが分割されたクラスタ及び関連するシグネチャの数。これは、表2において、U_clusters_numで表される。
・シグネチャがヌクレオチドに関して固定の長さを有するか可変の長さを有するかを示すフラグ。これは、表2において、U_signature_constant_lengthで表される。
・シグネチャ長が固定の場合のシグネチャ長。これは、表2において、U_signature_lengthで表される。
マスタインデックステーブル
マスタインデックステーブル(MIT)と呼ばれるインデックス作成ツールが本発明に開示される。
マスタインデックステーブル(MIT)は、次の要素を含む多次元アレイに基づくデータ構造である。
・リファレンスシーケンスに関して、異なる記述子ストリームからのブロックのセットとして、アクセスユニットに含まれるすべてのリード又はリードペアの一次アライメントの中で最も左の一致する塩基のヌクレオチド数としての位置。これは、表3のStart_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]によって表される。
・リファレンスシーケンスに関して、異なる記述子ストリームからのブロックのセットとして、アクセスユニットに含まれるすべてのリード又はリードペアの一次アラインメントの中で最も右の一致する塩基のヌクレオチドの数としての位置。これは、表3のEnd_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]によって表される。
マスタインデックステーブル(MIT)と呼ばれるインデックス作成ツールが本発明に開示される。
マスタインデックステーブル(MIT)は、次の要素を含む多次元アレイに基づくデータ構造である。
・リファレンスシーケンスに関して、異なる記述子ストリームからのブロックのセットとして、アクセスユニットに含まれるすべてのリード又はリードペアの一次アライメントの中で最も左の一致する塩基のヌクレオチド数としての位置。これは、表3のStart_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]によって表される。
・リファレンスシーケンスに関して、異なる記述子ストリームからのブロックのセットとして、アクセスユニットに含まれるすべてのリード又はリードペアの一次アラインメントの中で最も右の一致する塩基のヌクレオチドの数としての位置。これは、表3のEnd_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]によって表される。
各リファレンスシーケンスに関してコード化された各Classの各AUを構成する記述子の各コード化されたブロックの最初のバイトのバイトオフセット。オフセットは、データセットペイロードの最初のバイト(0からは始まる)を基準にして計算される。ブロックが空で(1)Block_Header_Flagが設定されている場合、それは0xFFFFFFFFに等しい。ブロックが空で、(2)Block_Header_Flagが設定されていない場合、それは記述子ストリーム内の次のブロックのBlock_Byte_Offset値、又は記述子ストリーム内の最後のブロックの場合は記述子ストリームのペイロードサイズに等しい。これは、表3のBlock_Byte_Offset[Sequence_ID][Class_ID][AU_ID][Descriptor_ID]によって表される。
・使用されているコード化方法に従って、グローバル構成パラメータによって通知され、情報の2つの代替ブロックである。
○各アクセスユニットが連続したデータブロックとして記憶媒体に格納されている場合の各アクセスユニットのバイトサイズ、又は
○同じ種類のすべての記述子が連続したデータブロックとしてコード化され、記憶媒体に格納されている場合、コード化された記述子の各ブロックのサイズ。
・使用されているコード化方法に従って、グローバル構成パラメータによって通知され、情報の2つの代替ブロックである。
○各アクセスユニットが連続したデータブロックとして記憶媒体に格納されている場合の各アクセスユニットのバイトサイズ、又は
○同じ種類のすべての記述子が連続したデータブロックとしてコード化され、記憶媒体に格納されている場合、コード化された記述子の各ブロックのサイズ。
MITの最後のセクションは、記述子の各コード化されたブロックの前に付加されたヘッダの存在に従って使用される2つの代替セクションを含む。ブロックヘッダが存在する場合(Block_Header_Flag set)、MITは、各記述子ストリームのサイズをバイト単位で含む。ブロックヘッダが存在しない場合(Block_Header_Flag unset)、MITは各アクセスユニットのサイズをバイト単位で含む。
2つのコード化された方法の間の代替は、表3のBlock_Header_Flagと呼ばれるフラグによって通知される。
表3−マスタインデックステーブル
生リード、マッピングされていないリード及び整列されていないリードのためのインデックス付ツール
本発明の開示は、表3に報告されているマスタインデックステーブルに含まれる生シーケンスリード、マッピングされていないシーケンスリードおよび整列されていないシーケンスリード(Class U)のためのインデックスメカニズムを記述する。
・前述のようにNビット整数としてコード化されたシグネチャ。これは、表3のU_Cluster[Cluster_ID][0]により表される。
・第1のベクター内の各シグネチャに対応するリードのコード化されたクラスタの記憶媒体上の物理的位置へのポインタ。これは、表3のU_Cluster[Cluster_ID][l]により表される。
本発明の開示は、表3に報告されているマスタインデックステーブルに含まれる生シーケンスリード、マッピングされていないシーケンスリードおよび整列されていないシーケンスリード(Class U)のためのインデックスメカニズムを記述する。
・前述のようにNビット整数としてコード化されたシグネチャ。これは、表3のU_Cluster[Cluster_ID][0]により表される。
・第1のベクター内の各シグネチャに対応するリードのコード化されたクラスタの記憶媒体上の物理的位置へのポインタ。これは、表3のU_Cluster[Cluster_ID][l]により表される。
これら2つのベクターは、図7に示すMITの一部である。
コード化されたデータ(アクセスユニット)を復号化する必要なしに迅速なパターンマッチングを可能にするため、この解決法の利点は、当業者には明らかである。パターンマッチングの精度は、クラスタシグネチャの長さを変更することによって調整できる。短いシグネチャはより大きなクラスタを生成し、パターンの粗い検索を可能にするが、より長いシグネチャはより多数のより小さなクラスタと、より細かなパターン検索を生成する。
コード化されたデータ(アクセスユニット)を復号化する必要なしに迅速なパターンマッチングを可能にするため、この解決法の利点は、当業者には明らかである。パターンマッチングの精度は、クラスタシグネチャの長さを変更することによって調整できる。短いシグネチャはより大きなクラスタを生成し、パターンの粗い検索を可能にするが、より長いシグネチャはより多数のより小さなクラスタと、より細かなパターン検索を生成する。
クラスタシグネチャの復号化
復号化装置が本発明の開示に記載されているようにコード化されたシグネチャを復号化しなければならないとき、以下のステップが必要とされる。
・以下に関連するゲノムデータセットヘッダのグローバルパラメータを読み込む。
○生リード、マッピングされていないリード、整列されていないリードのクラスタ数、U_clusters_num
○すべてのクラスタがヌクレオチドに同じ長さのシグネチャを有するかを示すフラグ、U_signature_constant_length
○コード化されたシグネチャを表す整数ごとに使用されるビット数、U_signature_size
○固定長の場合、各シグネチャのヌクレオチドの長さ、U_signature_length
○0≦Cluster_ID<U_cluster_numである、U_Clusterと名付けられたマスタインデックステーブル内の二次元ベクトルの各U_Cluster[Cluster_ID][0]要素は、U_signature_sizeのビット整数のシーケンスとして復号化される。
●固定のシグネチャ長の場合、読み取られる整数の数は以下のようになる。
ここで、ceil関数は、引数以上の最小の整数を返す。
図8に、固定長シグネチャの復号化を示す。
●可変のシグネチャ長の場合、デコーダは、所与のシグネチャの整数の読み取りを停止するために、2進法表示でターミネータ記号を含む最初の整数を検出する。例を図9に示す。
・0<Cluster_D<U_cluster_numを有する、U_Clusterと名付けられたマスタインデックステーブルの2次元ベクトルの各U_Cluster[Cluster_ID][1]要素は、対応するシグネチャに属するクラスタに属するシーケンスリードをコード化する記述子の各ブロックのアクセスユニットにおける最初のバイトのオフセットをバイトで表す符号なしの整数のベクトルを含む。このようなオフセットは、データセットペイロードの最初のバイト(0から始まる)に関して表現される。
復号化装置が本発明の開示に記載されているようにコード化されたシグネチャを復号化しなければならないとき、以下のステップが必要とされる。
・以下に関連するゲノムデータセットヘッダのグローバルパラメータを読み込む。
○生リード、マッピングされていないリード、整列されていないリードのクラスタ数、U_clusters_num
○すべてのクラスタがヌクレオチドに同じ長さのシグネチャを有するかを示すフラグ、U_signature_constant_length
○コード化されたシグネチャを表す整数ごとに使用されるビット数、U_signature_size
○固定長の場合、各シグネチャのヌクレオチドの長さ、U_signature_length
○0≦Cluster_ID<U_cluster_numである、U_Clusterと名付けられたマスタインデックステーブル内の二次元ベクトルの各U_Cluster[Cluster_ID][0]要素は、U_signature_sizeのビット整数のシーケンスとして復号化される。
●固定のシグネチャ長の場合、読み取られる整数の数は以下のようになる。
ここで、ceil関数は、引数以上の最小の整数を返す。
図8に、固定長シグネチャの復号化を示す。
●可変のシグネチャ長の場合、デコーダは、所与のシグネチャの整数の読み取りを停止するために、2進法表示でターミネータ記号を含む最初の整数を検出する。例を図9に示す。
・0<Cluster_D<U_cluster_numを有する、U_Clusterと名付けられたマスタインデックステーブルの2次元ベクトルの各U_Cluster[Cluster_ID][1]要素は、対応するシグネチャに属するクラスタに属するシーケンスリードをコード化する記述子の各ブロックのアクセスユニットにおける最初のバイトのオフセットをバイトで表す符号なしの整数のベクトルを含む。このようなオフセットは、データセットペイロードの最初のバイト(0から始まる)に関して表現される。
コード化装置
図11は、本発明の原理によるコード化装置1115を示す。コード化装置1115は、例えばゲノムシーケンシング装置110によって生成された、生シーケンスデータ111を入力として受け取る。ゲノムシーケンシング装置110は、Illumina HiSeq 2500、Thermo−Fisher Ion Torrent装置又はOxford Nanopore MinlONのように当技術分野において公知である。生シーケンスデータ111はリードクラスタリングユニット112に供給され、リードクラスタリングユニット112は、クラスタシグネチャと呼ばれるヌクレオチドの共通のシーケンスまたは部分シーケンスを共有するリードをクラスタリングすることによって、コード化のためのシーケンスを準備する。クラスタリングされたシーケンスリードは、その後、記述子エンコーダ115によって記述子と名付けられた構文要素に関して表現される。クラスタリングユニット112によって生成されたクラスタシグネチャ114は、シグネチャエンコード化ユニット116によってコード化される。記述子エンコーダ115によって生成されたゲノム記述子118は、その後エントロピーコード化され、ゲノムアクセスユニット1111として構成される。2値化されたシグネチャ117及びグローバルパラメータであるゲノムデータセットヘッダ、及びゲノムデータセットヘッダとMIT生成器119によって生成されたマスタインデックステーブル1112である。ゲノムアクセスユニット1111、ゲノムデータセットヘッダ及びマスタインデックステーブルは、その後、多重化ビットストリーム1114に多重化される。
図11は、本発明の原理によるコード化装置1115を示す。コード化装置1115は、例えばゲノムシーケンシング装置110によって生成された、生シーケンスデータ111を入力として受け取る。ゲノムシーケンシング装置110は、Illumina HiSeq 2500、Thermo−Fisher Ion Torrent装置又はOxford Nanopore MinlONのように当技術分野において公知である。生シーケンスデータ111はリードクラスタリングユニット112に供給され、リードクラスタリングユニット112は、クラスタシグネチャと呼ばれるヌクレオチドの共通のシーケンスまたは部分シーケンスを共有するリードをクラスタリングすることによって、コード化のためのシーケンスを準備する。クラスタリングされたシーケンスリードは、その後、記述子エンコーダ115によって記述子と名付けられた構文要素に関して表現される。クラスタリングユニット112によって生成されたクラスタシグネチャ114は、シグネチャエンコード化ユニット116によってコード化される。記述子エンコーダ115によって生成されたゲノム記述子118は、その後エントロピーコード化され、ゲノムアクセスユニット1111として構成される。2値化されたシグネチャ117及びグローバルパラメータであるゲノムデータセットヘッダ、及びゲノムデータセットヘッダとMIT生成器119によって生成されたマスタインデックステーブル1112である。ゲノムアクセスユニット1111、ゲノムデータセットヘッダ及びマスタインデックステーブルは、その後、多重化ビットストリーム1114に多重化される。
コード化装置1115は、マッピングされていないリードがコード化され、コード化された整列されたリードと多重化される、図12に示されるより大きなコード化装置1210の一部であり得る。図12は、本発明の原理によるコード化装置1210を示す。コード化装置1210は、例えばゲノムシーケンス決定装置120によって生成された、生シーケンスデータ121を入力として受信する。ゲノムシーケンシング装置120は、Illumina HiSeq 2500、Thermo−Fisher Ion Torrent装置又はOxford Nanopore MinlONなど、当技術分野において公知である。生シーケンスデータ121はアライナユニット122に供給され、アライナユニット122はリードをリファレンスシーケンス1220にアラインすることによってコード化のためのシーケンスを準備する。アラインメントユニット122によってアラインメントできないシーケンスリードは、マッピングされていないシーケンスリード(Class Uデータ)として分類される。マッピングされていないシーケンスリードエンコーダ1115の内部アーキテクチャおよび内部動作は、前の段落で説明されており、図11に示されている。整列ユニット122によって生成された整列されたシーケンスは、その後、データ分類モジュール124によって分類される。次に、データクラス128は、その後、記述子エンコーダ125〜127に供給される。次いで、ゲノム記述子ストリーム1211は、記述子ストリームによってもたらされるデータ又はメタデータの統計的特性に従って記述子をコード化する算術コード化装置1212〜1214に供給される。結果は、多重化ユニット1216によって単一のビットストリームに多重化された1つ以上のゲノムストリーム1215である。
復号化装置
図13は、本開示の原理による復号化装置1313を示す。デマルチプレクスユニット132は、ネットワークまたは記憶素子から多重化したビットストリーム131を受信し、ゲノムデータセットヘッダ及びマスタインデックステーブル133ならびにゲノムアクセスユニット134を抽出する。復号化装置1313は、ゲノムデータセットヘッダ及びマスタインデックステーブル133を受信する。次いで、ゲノムアクセスユニット134は、それぞれをゲノムデータセットヘッダ、MITパーサ135、およびエントロピーデコーダ136に供給する。次いで、ゲノムデータセットヘッダ及びMITパーサ135によって抽出されたコード化されたクラスタシグネチャ137は、シグネチャデコーダ139によって復号されてクラスタシグネチャ1311を生成する。ゲノム記述子ストリーム138は、デスクリプタデコーダ1310に供給され、記述子を生シーケンスリード、マッピングされていないシーケンスシーケンスリード及び整列されていないシーケンスリード1312にさらに復号化する。
図13は、本開示の原理による復号化装置1313を示す。デマルチプレクスユニット132は、ネットワークまたは記憶素子から多重化したビットストリーム131を受信し、ゲノムデータセットヘッダ及びマスタインデックステーブル133ならびにゲノムアクセスユニット134を抽出する。復号化装置1313は、ゲノムデータセットヘッダ及びマスタインデックステーブル133を受信する。次いで、ゲノムアクセスユニット134は、それぞれをゲノムデータセットヘッダ、MITパーサ135、およびエントロピーデコーダ136に供給する。次いで、ゲノムデータセットヘッダ及びMITパーサ135によって抽出されたコード化されたクラスタシグネチャ137は、シグネチャデコーダ139によって復号されてクラスタシグネチャ1311を生成する。ゲノム記述子ストリーム138は、デスクリプタデコーダ1310に供給され、記述子を生シーケンスリード、マッピングされていないシーケンスシーケンスリード及び整列されていないシーケンスリード1312にさらに復号化する。
図14は、上記および図13に示したクラスUデコーダがいかにしてゲノムシーケンスリードのより大きなデコーダの一部となり得るかを示す。図14は、本開示の原理による復号化装置148を示す。ストリームデマルチプレクサ140は、ネットワーク又は記憶素子から多重化されたゲノムビットストリーム1410を受信し、個別のゲノムビットストリーム141を生成し、次にエントロピーデコーダ142〜144に供給され、ゲノム記述子ストリーム145を生成する。生シーケンスリード、マッピングされていないシーケンスシーケンスリード及び整列されていないシーケンスリード(Class U)1412をコード化するアクセスユニットを含むビットストリームは、上述され図13に示されている生シーケンスリード、マッピングされていないシーケンスリード及び整列されていないシーケンスリード1313を含むアクセスユニットのデコーダに供給される。抽出されたゲノム記述子ストリーム145は、記述子デコーダ146〜147に供給され、さらに記述子をゲノムデータのClassに分類する。クラスデコーダ149はさらにゲノム記述子1411を処理し、その結果をマージして圧縮していない整列したシーケンスリードを生成する。
クラスデコーダ149は、1つまたは複数のゲノムによってもたらされる元のリファレンスシーケンスに関する情報を活用することによって元のゲノムシーケンスを再構築することができる。リファレンスシーケンスがゲノムストリームによって輸送されない場合、それらはデコード側で利用可能でなければならず、クラスデコーダによってアクセス可能でなければならない。
本明細書に開示されている本発明の技術は、ハードウェア、ソフトウェア、ファームウェア又はそれらの任意の組み合わせで実施することができる。ソフトウェアで実施されるとき、これらはコンピュータ媒体に格納され、ハードウェア処理装置によって実行されてもよい。ハードウェア処理ユニットは、1つ以上のプロセッサ、デジタル信号プロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路、又は他の個別論理回路を備えることができる。
本開示の技法は、携帯電話、デスクトップコンピュータ、サーバ、タブレット及び類似の装置を含む様々なデバイス又は装置において実施することができる。
Claims (22)
- ゲノムシーケンスデータをコード化するための方法であって、前記ゲノムシーケンスデータはヌクレオチドシーケンスのリードを含み、前記方法が、
・前記リードを、「クラスタシグネチャ」と呼ばれるヌクレオチドの共通シーケンス又は部分シーケンスを共有するリードのクラスタに分割するステップ、
・クラスタ化されたリードを構文要素の多数のブロックとしてコード化するステップ、及び
・ヘッダ情報を用いて前記構文要素のブロックを構造化し、それによって連続的なアクセスユニットを作成するステップ
を含むゲノムシーケンスデータをコード化するための方法。 - 前記クラスタシグネチャは、
・サポートされているアルファベットの各ヌクレオチドを一意的な2進法表示に関連付けること、及び
・コード化されたシグネチャを表すビット文字列を得るためにシグネチャ内の各ヌクレオチドの前記2進法表示を連結すること、
によってコード化される、請求項1に記載の方法。 - コード化されたシーケンスリードの各クラスタは前記コード化されたシグネチャによって識別される請求項2に記載の方法。
- 前記構文要素のブロックは、請求項2によりコード化され、各クラスタに属するシーケンスリードを表すコード化された構文要素のブロックの記憶媒体上の位置を表す整数値のベクターに関連付けられたクラスタシグネチャを含むマスタインデックステーブルを備える請求項3に記載の方法。
- 前記構文要素のブロックが、
・各データセットグループを一意的に識別するために使用されるデータセットグループ識別子、
・各データセットを一意的に識別するために使用されるゲノムデータセット識別子、
・前記データセットが準拠するデータフォーマット仕様を識別するために使用されるブランド識別子、
・データセットが準拠しているデータフォーマット仕様を識別するために使用されるマイナーバージョン番号、
・一定長さのリードを知らせるために使用されるヌクレオチド中のコード化されたゲノムリードの長さ、
・ペアエンドリードの存在を知らせるフラグ、
・ブロックヘッダの存在を知らせるフラグ、
・前記アクセスユニットを復号化するときにデータアクセスを容易にするために、アクセスユニットが記憶媒体に記憶される順序を知らせるフラグ、
・データセットをコード化するために使用されたリファレンスシーケンスの数、
・各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの数値識別子、
・各リファレンスシーケンスを一意的に識別するために使用されるリファレンスシーケンスごとの文字列識別子、
・各リファレンスシーケンスに関連するアクセスユニットを数えるために使用される、リファレンスシーケンスごとのコード化されたアクセスユニットの数、
・整列されたリード、整列されていないリード、マッピングされていないリード及びリファレンスシーケンスを区別するために使用されるコード化されたゲノムデータの種類、
・データセットにコード化されているデータクラスの数、
・復号化処理中に使用されるデータセット内でコード化されたデータクラスごとに使用される記述子の数、
・コード化されたマッピングされていないリードにインデックスを付けるために使用されるクラスタの総数、
・コード化されたクラスタシグネチャの復号化に使用されるクラスタシグネチャをコード化するために使用される整数値を表すために使用されるビット数、
・全てのクラスタシグネチャがヌクレオチドの数に関して同じ長さを有するかを知らせるフラグ、
・クラスタシグネチャの長さ
を備えるゲノムデータセットヘッダを含む、請求項4に記載の方法。 - 前記ゲノムリードが対になっている、請求項5に記載の方法。
- 前記ゲノムデータがエントロピーコード化されている、請求項6に記載の方法。
- ・ヘッダ情報を使用することによって複数の構文要素のブロックを抽出するために前記コード化されたゲノムデータを含むアクセスユニットを解析するステップ、
・請求項1によりコード化された生リード、マッピングされていないリード及び整列されていないリードを抽出するために、前記複数の構文要素のブロックを復号化するステップ、
・コード化されたクラスタシグネチャを抽出するためにマスタインデックステーブルを構文解析するステップ、
・シグネチャの各2進法表示に対応するヌクレオチドシーケンスを関連付けることによって前記クラスタシグネチャを復号化するステップ、
・ゲノムデータのコード化された表現を含むアクセスユニットを記憶媒体上で検索するために各シグネチャに関連する整数のベクターを解析するステップ、及び
・ヘッダ情報を使用することによって、アクセスユニットから複数の構文要素のブロックを抽出するステップ
を含む、コード化されたゲノムデータの復号化方法。 - グローバルな設定パラメータを含むゲノムデータセットヘッダを復号化することをさらに備える、請求項8に記載の復号化方法。
- コード化されたクラスタシグネチャ及びコード化されたブロックオフセットを含むマスタインデックステーブルを復号化することをさらに備える、請求項9に記載の復号化方法。
- 前記ゲノムリードが対になっている、請求項10に記載の復号化方法。
- 前記ゲノムデータがエントロピー復号化される、請求項11に記載の復号化方法。
- 生ゲノムシーケンスデータ(111)、マッピングされていないゲノムシーケンスデータ(111)及び整列されていないゲノムシーケンスデータ(111)を圧縮するためのゲノムエンコーダ(1115)であって、前記ゲノムシーケンスデータ(111)は、ヌクレオチドシーケンスのリードを備え、
・前記ゲノムエンコーダ(1115)は、
・クラスタシグネチャと呼ばれるヌクレオチドの共通シーケンス又は部分シーケンスを共有するリードのグループに前記リードを分割し、それによってリードのクラスタ(113)及びクラスタシグネチャ(114)を作成するように構成されたクラスタリングユニット(112)、
・前記クラスタ化されたリードを構文要素のブロックとしてコード化するように構成された、1つ以上の記述子コード化ユニット(115)、
・ゲノムアクセスユニット(1111)を生成するために、それらの統計的特性に従って構文要素の前記ブロックを圧縮してように構成された、1つ以上のエントロピーコード化ユニット(1110)、
・一意的な2進法表示をクラスタシグネチャの各記号に関連付けることによってクラスタシグネチャ(114)を2値化するように構成されたシグネチャコード化ユニット(116)、
・2値化された前記クラスタシグネチャ(117)を、前記ゲノムアクセスユニット(1111)に含まれるエントロピーコード化された記述子の記憶媒体上のオフセットを表す整数のベクターに関連付けるように構成されたゲノムデータセットヘッダ及びマスタインデックステーブルジェネレータ(119)、及び
・圧縮された前記ゲノムデータ及びメタデータを多重化するためのマルチプレクサ(1113)を備えるゲノムエンコーダ(1115)。 - ゲノムシーケンスデータ(121)の圧縮のためのゲノムエンコーダ(1210)であって、前記ゲノムシーケンスデータ(121)は、ヌクレオチドのシーケンスのリードを備え、前記ゲノムエンコーダ(1210)は、
・前記リードを1つ以上のリファレンスシーケンスに整列させ、それによって整列させたリードを作成するように構成される、アライナユニット(122)、
・1つ以上の既存のリファレンスシーケンス又は構築されたリファレンスシーケンスで、指定されたマッチング規則に従って前記整列されたリードを分類し、それによって整列されたリード(128)のクラスを作成するように構成された、データ分類ユニット(124)、
・整列されたリードの前記クラスに従って前記構文要素を選択することによって、前記分類された整列されたリードを構文要素のブロックとしてコード化するように構成された、1つ以上の記述子コード化ユニット(125〜127)、
・ゲノムストリーム(1215)を生成するために、それらの統計的特性に従って構文要素の前記ブロックを圧縮するように構成された、1つ以上のエントロピーコード化ユニット(1212〜1214)、
・、請求項12に従って構成された、マッピングされていないシーケンスリードコード化ユニット(1115)、及び
・圧縮された前記ゲノムデータ及びメタデータを多重化するためのマルチプレクサ(1216)を備えるゲノムエンコーダ。 - 請求項2に記載のコード化方法を実行するのに適したコード化手段をさらに備える、請求項14に記載のゲノムエンコーダ。
- 圧縮したゲノムアクセスユニット(134)を解凍するためのゲノムデコーダ(1313)であって、前記ゲノムデコーダ(1313)は、
・圧縮したゲノムアクセスユニット(134)とゲノムデータセットヘッダとマスタインデックステーブル(133)を逆多重化するためのデマルチプレクサ(132)、
・前記ゲノムデータセットヘッダ及びマスタインデックステーブル(133)を解析するように構成された解析手段(135)
・コード化されたクラスタシグネチャ(137)へ、
・前記コード化されたクラスタシグネチャ(137)をクラスタシグネチャ(1311)に復号化するように構成されたシグネチャデコーダ(139)、
・前記圧縮されたゲノムアクセスユニットを、ゲノム記述子(138)と名付けられた構文要素のブロックに解凍するように構成されたエントロピーデコーダ(136)、及び
・ゲノム記述子をヌクレオチドシーケンスの圧縮されていないリードに復号化するように構成された、1つ以上の記述子デコーダ(1310)、
を備えるゲノムデコーダ。 - 圧縮されたゲノムストリーム(1410)を解凍するためのゲノムデコーダ(148)であって、前記ゲノムデコーダ(148)は、
・圧縮されたゲノムデータ及びメタデータをゲノムビットストリーム(141)及びマッピングされていないシーケンスリードのビットストリーム(145)に逆多重化するためのデマルチプレクサ(140)、
・前記圧縮されたゲノムストリームをゲノム記述子(145)と名付けられた構文要素のブロックに解析するように構成されたエントロピーデコーダ(142〜144)、
・前記ゲノム記述子をヌクレオチドのシーケンスの分類されたリードに復号化するように構成された1つ以上のゲノム記述子デコーダ(146〜147)、
・ヌクレオチドのシーケンスの圧縮されていないリードを生成するために、1つ以上のリファレンスシーケンス上のヌクレオチドのシーケンスの前記分類されたリードを選択的に復号化するように構成されたゲノムデータクラスデコーダ(149)、
・圧縮されていない生シーケンスリード、マッピングされていないシーケンスード及び整列されていないシーケンスリード(1414)とクラスタシグネチャ(1415)を生成するために、請求項16により構成されたデコーダ(1313)
を備えるゲノムデコーダ(148)。 - 実行されると少なくとも1つのプロセッサに請求項2に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
- 実行されると少なくとも1つのプロセッサに請求項2に記載のコード化方法を実行させる命令を備えるコンピュータ可読媒体。
- 実行されると少なくとも1つのプロセッサに請求項7に記載の復号方法を実行させる命令を含むコンピュータ可読媒体。
- 請求項1に記載の方法に従ってコード化されたゲノムデータを保存するサポートデータ。
- 請求項2に記載の方法に従ってコード化されたゲノムデータを保存するサポートデータ。
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/074307 WO2018068829A1 (en) | 2016-10-11 | 2016-10-11 | Method and apparatus for compact representation of bioinformatics data |
EPPCT/EP2016/074301 | 2016-10-11 | ||
EPPCT/EP2016/074307 | 2016-10-11 | ||
EPPCT/EP2016/074311 | 2016-10-11 | ||
PCT/EP2016/074301 WO2018068828A1 (en) | 2016-10-11 | 2016-10-11 | Method and system for storing and accessing bioinformatics data |
EPPCT/EP2016/074297 | 2016-10-11 | ||
PCT/EP2016/074311 WO2018068830A1 (en) | 2016-10-11 | 2016-10-11 | Method and system for the transmission of bioinformatics data |
PCT/EP2016/074297 WO2018068827A1 (en) | 2016-10-11 | 2016-10-11 | Efficient data structures for bioinformatics information representation |
USPCT/US2017/017841 | 2017-02-14 | ||
PCT/US2017/017842 WO2018071055A1 (en) | 2016-10-11 | 2017-02-14 | Method and apparatus for the compact representation of bioinformatics data |
PCT/US2017/017841 WO2018071054A1 (en) | 2016-10-11 | 2017-02-14 | Method and system for selective access of stored or transmitted bioinformatics data |
USPCT/US2017/017842 | 2017-02-14 | ||
PCT/US2017/041585 WO2018071079A1 (en) | 2016-10-11 | 2017-07-11 | Method and systems for the indexing of bioinformatics data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019537172A true JP2019537172A (ja) | 2019-12-19 |
JP2019537172A5 JP2019537172A5 (ja) | 2020-08-27 |
Family
ID=61905752
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540510A Withdrawn JP2020505702A (ja) | 2016-10-11 | 2017-02-14 | 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム |
JP2019540512A Withdrawn JP2019537172A (ja) | 2016-10-11 | 2017-07-11 | バイオインフォマティクスデータのインデックスを付けるための方法及びシステム |
JP2019540513A Withdrawn JP2020500383A (ja) | 2016-10-11 | 2017-07-11 | リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム |
JP2019540511A Active JP7079786B2 (ja) | 2016-10-11 | 2017-07-11 | アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540510A Withdrawn JP2020505702A (ja) | 2016-10-11 | 2017-02-14 | 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540513A Withdrawn JP2020500383A (ja) | 2016-10-11 | 2017-07-11 | リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム |
JP2019540511A Active JP7079786B2 (ja) | 2016-10-11 | 2017-07-11 | アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置 |
Country Status (17)
Country | Link |
---|---|
US (6) | US20200042735A1 (ja) |
EP (3) | EP3526694A4 (ja) |
JP (4) | JP2020505702A (ja) |
KR (4) | KR20190073426A (ja) |
CN (6) | CN110168651A (ja) |
AU (3) | AU2017342688A1 (ja) |
BR (7) | BR112019007359A2 (ja) |
CA (3) | CA3040138A1 (ja) |
CL (6) | CL2019000968A1 (ja) |
CO (6) | CO2019003638A2 (ja) |
EA (2) | EA201990916A1 (ja) |
IL (3) | IL265879B2 (ja) |
MX (2) | MX2019004130A (ja) |
PE (7) | PE20191058A1 (ja) |
PH (6) | PH12019550060A1 (ja) |
SG (3) | SG11201903270RA (ja) |
WO (4) | WO2018071054A1 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2526598B (en) * | 2014-05-29 | 2018-11-28 | Imagination Tech Ltd | Allocation of primitives to primitive blocks |
US11574287B2 (en) | 2017-10-10 | 2023-02-07 | Text IQ, Inc. | Automatic document classification |
US11030324B2 (en) * | 2017-11-30 | 2021-06-08 | Koninklijke Philips N.V. | Proactive resistance to re-identification of genomic data |
WO2019191083A1 (en) * | 2018-03-26 | 2019-10-03 | Colorado State University Research Foundation | Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules |
MX2020012672A (es) * | 2018-05-31 | 2021-02-09 | Koninklijke Philips Nv | Sistema y metodo para interpretacion de alelos usando un genoma de referencia basado en graficos. |
CN108753765B (zh) * | 2018-06-08 | 2020-12-08 | 中国科学院遗传与发育生物学研究所 | 一种构建超长连续dna序列的基因组组装方法 |
US20200058379A1 (en) * | 2018-08-20 | 2020-02-20 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Compressing Genetic Sequencing Data and Uses Thereof |
GB2585816A (en) * | 2018-12-12 | 2021-01-27 | Univ York | Proof-of-work for blockchain applications |
US20210074381A1 (en) * | 2019-09-11 | 2021-03-11 | Enancio | Method for the compression of genome sequence data |
CN110797087B (zh) * | 2019-10-17 | 2020-11-03 | 南京医基云医疗数据研究院有限公司 | 测序序列处理方法及装置、存储介质、电子设备 |
JP2022553199A (ja) | 2019-10-18 | 2022-12-22 | コーニンクレッカ フィリップス エヌ ヴェ | 多様な表形式データの効果的な圧縮、表現、および展開のためのシステムおよび方法 |
CN111243663B (zh) * | 2020-02-26 | 2022-06-07 | 西安交通大学 | 一种基于模式增长算法的基因变异检测方法 |
CN111370070B (zh) * | 2020-02-27 | 2023-10-27 | 中国科学院计算技术研究所 | 一种针对大数据基因测序文件的压缩处理方法 |
US20210295949A1 (en) * | 2020-03-17 | 2021-09-23 | Western Digital Technologies, Inc. | Devices and methods for locating a sample read in a reference genome |
US11837330B2 (en) | 2020-03-18 | 2023-12-05 | Western Digital Technologies, Inc. | Reference-guided genome sequencing |
EP3896698A1 (en) * | 2020-04-15 | 2021-10-20 | Genomsys SA | Method and system for the efficient data compression in mpeg-g |
CN111459208A (zh) * | 2020-04-17 | 2020-07-28 | 南京铁道职业技术学院 | 针对地铁供电系统电能的操纵系统及其方法 |
AU2021342166A1 (en) * | 2020-09-14 | 2023-01-05 | Illumina, Inc. | Custom data files for personalized medicine |
CN112836355B (zh) * | 2021-01-14 | 2023-04-18 | 西安科技大学 | 一种预测采煤工作面顶板来压概率的方法 |
ES2930699A1 (es) * | 2021-06-10 | 2022-12-20 | Veritas Intercontinental S L | Metodo de analisis genomico en una plataforma bioinformatica |
CN113670643B (zh) * | 2021-08-30 | 2023-05-12 | 四川虹美智能科技有限公司 | 智能空调测试方法及系统 |
CN113643761B (zh) * | 2021-10-13 | 2022-01-18 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
US20230187020A1 (en) * | 2021-12-15 | 2023-06-15 | Illumina Software, Inc. | Systems and methods for iterative and scalable population-scale variant analysis |
CN115391284B (zh) * | 2022-10-31 | 2023-02-03 | 四川大学华西医院 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
CN116541348B (zh) * | 2023-03-22 | 2023-09-26 | 河北热点科技股份有限公司 | 数据智能存储方法及终端查询一体机 |
CN116739646B (zh) * | 2023-08-15 | 2023-11-24 | 南京易联阳光信息技术股份有限公司 | 网络交易大数据分析方法及分析系统 |
CN117153270B (zh) * | 2023-10-30 | 2024-02-02 | 吉林华瑞基因科技有限公司 | 一种基因二代测序数据处理方法 |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6303297B1 (en) * | 1992-07-17 | 2001-10-16 | Incyte Pharmaceuticals, Inc. | Database for storage and analysis of full-length sequences |
JP3429674B2 (ja) | 1998-04-28 | 2003-07-22 | 沖電気工業株式会社 | 多重通信システム |
EP1410301A4 (en) * | 2000-04-12 | 2008-01-23 | Cleveland Clinic Foundation | SYSTEM FOR IDENTIFYING AND ANALYZING GENE EXPRESSION CONTAINING ELEMENTS RICH IN ADENYLATE URIDYLATE (ARE) |
FR2820563B1 (fr) * | 2001-02-02 | 2003-05-16 | Expway | Procede de compression/decompression d'un document structure |
US20040153255A1 (en) * | 2003-02-03 | 2004-08-05 | Ahn Tae-Jin | Apparatus and method for encoding DNA sequence, and computer readable medium |
DE10320711A1 (de) * | 2003-05-08 | 2004-12-16 | Siemens Ag | Verfahren und Anordnung zur Einrichtung und Aktualisierung einer Benutzeroberfläche zum Zugriff auf Informationsseiten in einem Datennetz |
WO2005024562A2 (en) * | 2003-08-11 | 2005-03-17 | Eloret Corporation | System and method for pattern recognition in sequential data |
US7805282B2 (en) * | 2004-03-30 | 2010-09-28 | New York University | Process, software arrangement and computer-accessible medium for obtaining information associated with a haplotype |
US8340914B2 (en) * | 2004-11-08 | 2012-12-25 | Gatewood Joe M | Methods and systems for compressing and comparing genomic data |
US20130332133A1 (en) * | 2006-05-11 | 2013-12-12 | Ramot At Tel Aviv University Ltd. | Classification of Protein Sequences and Uses of Classified Proteins |
SE531398C2 (sv) | 2007-02-16 | 2009-03-24 | Scalado Ab | Generering av en dataström och identifiering av positioner inuti en dataström |
KR101369745B1 (ko) * | 2007-04-11 | 2014-03-07 | 삼성전자주식회사 | 비동기화된 비트스트림들의 다중화 및 역다중화 방법 및장치 |
US8832112B2 (en) * | 2008-06-17 | 2014-09-09 | International Business Machines Corporation | Encoded matrix index |
GB2477703A (en) * | 2008-11-14 | 2011-08-10 | Real Time Genomics Inc | A method and system for analysing data sequences |
US20100217532A1 (en) * | 2009-02-25 | 2010-08-26 | University Of Delaware | Systems and methods for identifying structurally or functionally significant amino acid sequences |
DK2494060T3 (en) * | 2009-10-30 | 2016-08-01 | Synthetic Genomics Inc | Coding of text for nucleic acid sequences |
EP2362657B1 (en) * | 2010-02-18 | 2013-04-24 | Research In Motion Limited | Parallel entropy coding and decoding methods and devices |
US20140228223A1 (en) * | 2010-05-10 | 2014-08-14 | Andreas Gnirke | High throughput paired-end sequencing of large-insert clone libraries |
CA2797645C (en) * | 2010-05-25 | 2020-09-22 | The Regents Of The University Of California | Bambam: parallel comparative analysis of high-throughput sequencing data |
JP6420543B2 (ja) * | 2011-01-19 | 2018-11-07 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | ゲノムデータ処理方法 |
US9215162B2 (en) * | 2011-03-09 | 2015-12-15 | Annai Systems Inc. | Biological data networks and methods therefor |
CN103797486A (zh) * | 2011-06-06 | 2014-05-14 | 皇家飞利浦有限公司 | 用于组装核酸序列数据的方法 |
PL2721819T3 (pl) * | 2011-06-16 | 2024-02-19 | Ge Video Compression, Llc | Kodowanie entropijne obsługujące przełączanie trybów |
US8707289B2 (en) * | 2011-07-20 | 2014-04-22 | Google Inc. | Multiple application versions |
CN104081772B (zh) * | 2011-10-06 | 2018-04-10 | 弗劳恩霍夫应用研究促进协会 | 熵编码缓冲器配置 |
EP2776962A4 (en) * | 2011-11-07 | 2015-12-02 | Ingenuity Systems Inc | METHODS AND SYSTEMS FOR IDENTIFICATION OF CAUSAL GENOMIC VARIANTS |
KR101922129B1 (ko) * | 2011-12-05 | 2018-11-26 | 삼성전자주식회사 | 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치 |
KR20190016149A (ko) * | 2011-12-08 | 2019-02-15 | 파이브3 제노믹스, 엘엘씨 | 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템 |
EP2608096B1 (en) * | 2011-12-24 | 2020-08-05 | Tata Consultancy Services Ltd. | Compression of genomic data file |
US9600625B2 (en) * | 2012-04-23 | 2017-03-21 | Bina Technologies, Inc. | Systems and methods for processing nucleic acid sequence data |
CN103049680B (zh) * | 2012-12-29 | 2016-09-07 | 深圳先进技术研究院 | 基因测序数据读取方法及系统 |
US9679104B2 (en) * | 2013-01-17 | 2017-06-13 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
WO2014145503A2 (en) * | 2013-03-15 | 2014-09-18 | Lieber Institute For Brain Development | Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto |
JP6054790B2 (ja) * | 2013-03-28 | 2016-12-27 | 三菱スペース・ソフトウエア株式会社 | 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム |
GB2512829B (en) * | 2013-04-05 | 2015-05-27 | Canon Kk | Method and apparatus for encoding or decoding an image with inter layer motion information prediction according to motion information compression scheme |
WO2014186604A1 (en) * | 2013-05-15 | 2014-11-20 | Edico Genome Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
KR101522087B1 (ko) * | 2013-06-19 | 2015-05-28 | 삼성에스디에스 주식회사 | 미스매치를 고려한 염기 서열 정렬 시스템 및 방법 |
CN103336916B (zh) * | 2013-07-05 | 2016-04-06 | 中国科学院数学与系统科学研究院 | 一种测序序列映射方法及系统 |
US20150032711A1 (en) * | 2013-07-06 | 2015-01-29 | Victor Kunin | Methods for identification of organisms, assigning reads to organisms, and identification of genes in metagenomic sequences |
KR101493982B1 (ko) * | 2013-09-26 | 2015-02-23 | 대한민국 | 품종인식 코드화 시스템 및 이를 이용한 코드화 방법 |
CN104699998A (zh) * | 2013-12-06 | 2015-06-10 | 国际商业机器公司 | 用于对基因组进行压缩和解压缩的方法和装置 |
US10902937B2 (en) * | 2014-02-12 | 2021-01-26 | International Business Machines Corporation | Lossless compression of DNA sequences |
US9916313B2 (en) * | 2014-02-14 | 2018-03-13 | Sap Se | Mapping of extensible datasets to relational database schemas |
US9886561B2 (en) * | 2014-02-19 | 2018-02-06 | The Regents Of The University Of California | Efficient encoding and storage and retrieval of genomic data |
US9354922B2 (en) * | 2014-04-02 | 2016-05-31 | International Business Machines Corporation | Metadata-driven workflows and integration with genomic data processing systems and techniques |
US20150379195A1 (en) * | 2014-06-25 | 2015-12-31 | The Board Of Trustees Of The Leland Stanford Junior University | Software haplotying of hla loci |
GB2527588B (en) * | 2014-06-27 | 2016-05-18 | Gurulogic Microsystems Oy | Encoder and decoder |
US20160019339A1 (en) * | 2014-07-06 | 2016-01-21 | Mercator BioLogic Incorporated | Bioinformatics tools, systems and methods for sequence assembly |
US10230390B2 (en) * | 2014-08-29 | 2019-03-12 | Bonnie Berger Leighton | Compressively-accelerated read mapping framework for next-generation sequencing |
US10116632B2 (en) * | 2014-09-12 | 2018-10-30 | New York University | System, method and computer-accessible medium for secure and compressed transmission of genomic data |
US20160125130A1 (en) * | 2014-11-05 | 2016-05-05 | Agilent Technologies, Inc. | Method for assigning target-enriched sequence reads to a genomic location |
WO2016202918A1 (en) * | 2015-06-16 | 2016-12-22 | Gottfried Wilhelm Leibniz Universität Hannover | Method for compressing genomic data |
CN105956417A (zh) * | 2016-05-04 | 2016-09-21 | 西安电子科技大学 | 云环境下基于编辑距离的相似碱基序列查询方法 |
CN105975811B (zh) * | 2016-05-09 | 2019-03-15 | 管仁初 | 一种智能比对的基因序列分析装置 |
-
2017
- 2017-02-14 WO PCT/US2017/017841 patent/WO2018071054A1/en active Search and Examination
- 2017-02-14 CA CA3040138A patent/CA3040138A1/en not_active Abandoned
- 2017-02-14 CN CN201780062919.5A patent/CN110168651A/zh active Pending
- 2017-02-14 JP JP2019540510A patent/JP2020505702A/ja not_active Withdrawn
- 2017-02-14 WO PCT/US2017/017842 patent/WO2018071055A1/en active Application Filing
- 2017-02-14 KR KR1020197013567A patent/KR20190073426A/ko unknown
- 2017-02-14 SG SG11201903270RA patent/SG11201903270RA/en unknown
- 2017-02-14 BR BR112019007359A patent/BR112019007359A2/pt not_active IP Right Cessation
- 2017-02-14 PE PE2019000804A patent/PE20191058A1/es unknown
- 2017-02-14 MX MX2019004130A patent/MX2019004130A/es unknown
- 2017-02-14 AU AU2017342688A patent/AU2017342688A1/en not_active Abandoned
- 2017-02-14 US US16/341,426 patent/US20200042735A1/en not_active Abandoned
- 2017-02-14 EP EP17859972.6A patent/EP3526694A4/en not_active Withdrawn
- 2017-07-11 PE PE2019000805A patent/PE20191227A1/es unknown
- 2017-07-11 SG SG11201903272XA patent/SG11201903272XA/en unknown
- 2017-07-11 EP EP17860980.6A patent/EP3526657A4/en active Pending
- 2017-07-11 BR BR112019007357A patent/BR112019007357A2/pt not_active Application Discontinuation
- 2017-07-11 US US16/337,639 patent/US20190214111A1/en not_active Abandoned
- 2017-07-11 AU AU2017341684A patent/AU2017341684A1/en not_active Abandoned
- 2017-07-11 BR BR112019007363A patent/BR112019007363A2/pt not_active Application Discontinuation
- 2017-07-11 JP JP2019540512A patent/JP2019537172A/ja not_active Withdrawn
- 2017-07-11 BR BR112019007360A patent/BR112019007360A2/pt not_active Application Discontinuation
- 2017-07-11 AU AU2017341685A patent/AU2017341685A1/en not_active Abandoned
- 2017-07-11 US US16/337,642 patent/US11404143B2/en active Active
- 2017-07-11 PE PE2019000802A patent/PE20191056A1/es unknown
- 2017-07-11 WO PCT/US2017/041591 patent/WO2018071080A2/en unknown
- 2017-07-11 SG SG11201903271UA patent/SG11201903271UA/en unknown
- 2017-07-11 IL IL265879A patent/IL265879B2/en unknown
- 2017-07-11 CN CN201780063014.XA patent/CN110121577B/zh active Active
- 2017-07-11 EA EA201990916A patent/EA201990916A1/ru unknown
- 2017-07-11 CA CA3040147A patent/CA3040147A1/en not_active Abandoned
- 2017-07-11 MX MX2019004128A patent/MX2019004128A/es unknown
- 2017-07-11 JP JP2019540513A patent/JP2020500383A/ja not_active Withdrawn
- 2017-07-11 CN CN201780062885.XA patent/CN110114830B/zh active Active
- 2017-07-11 KR KR1020197013418A patent/KR20190062541A/ko active Search and Examination
- 2017-07-11 EA EA201990917A patent/EA201990917A1/ru unknown
- 2017-07-11 EP EP17860868.3A patent/EP3526707A4/en not_active Withdrawn
- 2017-07-11 CA CA3040145A patent/CA3040145A1/en not_active Abandoned
- 2017-07-11 JP JP2019540511A patent/JP7079786B2/ja active Active
- 2017-07-11 PE PE2019000803A patent/PE20191057A1/es unknown
- 2017-07-11 KR KR1020197013419A patent/KR20190069469A/ko not_active Application Discontinuation
- 2017-07-11 WO PCT/US2017/041585 patent/WO2018071079A1/en active Search and Examination
- 2017-07-11 CN CN201780063013.5A patent/CN110506272B/zh active Active
- 2017-12-14 CN CN201780086529.1A patent/CN110603595B/zh active Active
- 2017-12-14 US US16/485,623 patent/US20190385702A1/en active Pending
- 2017-12-14 KR KR1020197026863A patent/KR20190117652A/ko not_active Application Discontinuation
- 2017-12-14 PE PE2019001667A patent/PE20200323A1/es unknown
- 2017-12-14 BR BR112019016230A patent/BR112019016230A2/pt not_active Application Discontinuation
- 2017-12-15 US US16/485,649 patent/US20200051667A1/en active Pending
- 2017-12-15 PE PE2019001669A patent/PE20200226A1/es unknown
- 2017-12-15 BR BR112019016232A patent/BR112019016232A2/pt not_active Application Discontinuation
- 2017-12-15 CN CN201780086770.4A patent/CN110678929B/zh active Active
-
2018
- 2018-02-14 PE PE2019001668A patent/PE20200227A1/es unknown
- 2018-02-14 US US16/485,670 patent/US20200051665A1/en active Pending
- 2018-02-14 BR BR112019016236A patent/BR112019016236A2/pt unknown
-
2019
- 2019-04-08 IL IL265928A patent/IL265928B/en active IP Right Grant
- 2019-04-10 CL CL2019000968A patent/CL2019000968A1/es unknown
- 2019-04-10 CL CL2019000972A patent/CL2019000972A1/es unknown
- 2019-04-10 CL CL2019000973A patent/CL2019000973A1/es unknown
- 2019-04-11 PH PH12019550060A patent/PH12019550060A1/en unknown
- 2019-04-11 CO CONC2019/0003638A patent/CO2019003638A2/es unknown
- 2019-04-11 PH PH12019550059A patent/PH12019550059A1/en unknown
- 2019-04-11 CO CONC2019/0003639A patent/CO2019003639A2/es unknown
- 2019-04-11 PH PH12019550058A patent/PH12019550058A1/en unknown
- 2019-04-11 CO CONC2019/0003595A patent/CO2019003595A2/es unknown
- 2019-04-11 IL IL265972A patent/IL265972A/en unknown
- 2019-04-11 PH PH12019550057A patent/PH12019550057A1/en unknown
- 2019-04-15 CO CONC2019/0003842A patent/CO2019003842A2/es unknown
- 2019-08-12 CL CL2019002277A patent/CL2019002277A1/es unknown
- 2019-08-12 CL CL2019002275A patent/CL2019002275A1/es unknown
- 2019-08-12 CL CL2019002276A patent/CL2019002276A1/es unknown
- 2019-08-13 PH PH12019501881A patent/PH12019501881A1/en unknown
- 2019-08-13 PH PH12019501879A patent/PH12019501879A1/en unknown
- 2019-09-12 CO CONC2019/0009920A patent/CO2019009920A2/es unknown
- 2019-09-12 CO CONC2019/0009922A patent/CO2019009922A2/es unknown
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11404143B2 (en) | Method and systems for the indexing of bioinformatics data | |
US11763918B2 (en) | Method and apparatus for the access to bioinformatics data structured in access units | |
CN110168652B (zh) | 用于存储和访问生物信息学数据的方法和系统 | |
AU2018221458B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
JP7362481B2 (ja) | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 | |
EP3526711B1 (en) | Method and apparatus for compact representation of bioinformatics data | |
CN110663022B (zh) | 使用基因组描述符紧凑表示生物信息学数据的方法和设备 | |
WO2018151788A1 (en) | Method and systems for the efficient compression of genomic sequence reads | |
NZ757185B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
EA043338B1 (ru) | Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов | |
EA040022B1 (ru) | Способ и устройство для компактного представления данных биоинформатики |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20190620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200713 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200713 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20210212 |