JP7324145B2 - ゲノムシーケンスリードの効率的圧縮のための方法及びシステム - Google Patents
ゲノムシーケンスリードの効率的圧縮のための方法及びシステム Download PDFInfo
- Publication number
- JP7324145B2 JP7324145B2 JP2019542691A JP2019542691A JP7324145B2 JP 7324145 B2 JP7324145 B2 JP 7324145B2 JP 2019542691 A JP2019542691 A JP 2019542691A JP 2019542691 A JP2019542691 A JP 2019542691A JP 7324145 B2 JP7324145 B2 JP 7324145B2
- Authority
- JP
- Japan
- Prior art keywords
- descriptor
- read
- class
- reads
- indicating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 171
- 238000005056 compaction Methods 0.000 title description 2
- 238000013507 mapping Methods 0.000 claims description 71
- 239000002773 nucleotide Substances 0.000 claims description 61
- 125000003729 nucleotide group Chemical group 0.000 claims description 61
- 230000008569 process Effects 0.000 claims description 40
- 238000012163 sequencing technique Methods 0.000 claims description 32
- 238000012217 deletion Methods 0.000 claims description 15
- 230000037430 deletion Effects 0.000 claims description 15
- 238000003780 insertion Methods 0.000 claims description 15
- 230000037431 insertion Effects 0.000 claims description 15
- 238000012268 genome sequencing Methods 0.000 claims description 10
- 108020004414 DNA Proteins 0.000 claims description 9
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 6
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 4
- 238000000605 extraction Methods 0.000 claims 3
- 101150038575 clpS gene Proteins 0.000 claims 1
- 230000011664 signaling Effects 0.000 description 64
- 238000007906 compression Methods 0.000 description 27
- 230000006835 compression Effects 0.000 description 27
- 230000009466 transformation Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 11
- 229910052757 nitrogen Inorganic materials 0.000 description 11
- 238000006467 substitution reaction Methods 0.000 description 9
- 229910052698 phosphorus Inorganic materials 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 102000053602 DNA Human genes 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 229920002477 rna polymer Polymers 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 4
- 238000012165 high-throughput sequencing Methods 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 238000005773 Enders reaction Methods 0.000 description 1
- 208000028782 Hereditary disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 101150071882 US17 gene Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 235000019506 cigar Nutrition 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/12—Protecting executable software
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/20—Heterogeneous data integration
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3088—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3091—Data deduplication
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3091—Data deduplication
- H03M7/3095—Data deduplication using variable length segments
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
Description
[関連出願の相互参照]
1.CRAMは、特定の機能を共有するデータインデックスとデータサブセットへのランダムアクセスをサポートしていない。データのインデックスは仕様の範囲外であり(CRAMの仕様v.3.0のセクション12を参照)、別のファイルとして実装される。対照的に、本明細書に記載されている本発明のアプローチは、コード化プロセスと統合されたデータ索引方法を採用し、コード化された(すなわち圧縮された)ビットストリームに索引が埋め込まれている。
2.CRAMは、あらゆる種類のマッピングされたリード(完全に一致するリード、置換のみを伴うリード、挿入又は削除を伴うリード(「インデル(indels)」とも呼ばれる))を含むことができるコアデータブロックによって構築される。リファレンスシーケンスに関するマッピングの結果に従って、データの分類やクラス内のリードのグループ化の概念は無い。これは、特定の機能を持つリードのみが検索される場合でも、全てのデータを検査する必要があることを意味する。このような制約は、コード化の前にクラスでデータを分類及び分割する、本発明により解決される。
3.CRAMは、各リードを「CRAMレコード」にカプセル化するという概念に基づいている。これは、特定の生物学的特徴(例えば:置換を伴うが「インデル(indels)」を伴わないリード、又は完全にマッピングされたリード)によって特徴づけられるリードを検索する場合、それぞれ完全な版の「記録」を検査する必要性を意味する。
対照的に、本発明では、別々の情報ブロックに別々にコード化されたデータクラスの概念があり、各リードをカプセル化するレコードの概念はない。これにより、各(ブロックの)リードをデコード化してその特徴を検査することなく、特定の生物学的特性(例えば:置換を伴うが「インデル(indels)」を伴わないリード、又は完全にマッピングされたリード)を有するリードのセットへのより効率的なアクセスが可能になる。
4.CRAMレコードでは、各レコードフィールドは特定のフラグに関連付けられ、各CRAMレコードには異なる種類のデータを含めることができるため、コンテキストの概念がなく、各フラグは常に同じ意味を持つ必要がある。このコード化メカニズムは冗長な情報を導入し、効率的なコンテキストの塩基のエントロピーコード化の使用を妨げる。
これに対し、本発明では、データを示すフラグは、データが属する情報を「ブロック」によって本質的に定義されるので、データを示すフラグの概念は存在しない。これは、使用されるべきシンボルの数が大幅に減少し、その結果、より効率的な圧縮に帰着する情報ソースのエントロピーが減少することを意味する。このような改善が可能なのは、異なる「ブロック」を使用することにより、エンコーダが、コンテキストに応じて異なる意味を有する各ブロックにわたって同じシンボルを再利用することが可能になるためである。CRAMでは、コンテキストの概念がなく、各CRAMレコードに任意の種類のデータを含めることができるため、各フラグは常に同じ意味を持つ必要がある。
5.CRAMの置換では、挿入と削除は異なる記述子、情報ソースのアルファベットのサイズを増加させ、より高い情報ソースのエントロピーをもたらすオプションを用いて表現される。対照的に、開示された発明のアプローチは、単一のアルファベットおよび置換、挿入および欠落のためのコード化を使用する。これはコード化とデコード化プロセスをより単純にし、コード化が高圧縮性能で特徴付けられるビットストリームを生じ、エントロピーの低いソースモデルを生成する。
前記リードを1つ以上のリファレンスシーケンスにアラインメントさせ、それによってシーケンスリードを作成し、
前記1つ以上のリファレンスシーケンスとの指定されたマッチング規則に従って前記アライメントされたリードを分類し、それによってアライメントリードのクラスを作成し、
前記分類されたアライメントリードを、構文要素のマルチプルブロックとしてコード化し、
構文要素の前記ブロックをヘッダ情報で構成し、それによって連続的なアクセスユニットを作成すること、を含み、
前記コード化は、前記ゲノム記述子をバイナリ化及びエントロピーコード化する、
ことを含む。
リファレンスシーケンスのリードのマッピング位置をシグナリング(signaling)するためのpos、
アライナがマッピングロセスの結果をさらに指定できるようにするために、リードがマッピングフラグにマッピングされたDNA又はRNA鎖をシグナリングするためのrcomp、
を含む。
リファレンスシーケンスに関してアライメントされたリードのミスマッチの位置をシグナリングするためのmmpos、
前記関連付けられた位置のリファレンスシーケンスに関するミスマッチの類型をシグナリングするためのmmtype、
をコード化することをさらに含む。
マッピング手順によって単一のリード又はペアリードに関連付けられたマルチプルマッピング位置をシグナリングするためのmmap、
スプライスされたリードが存在することの識別をシグナリングするためのmsar(すなわち、リードは、チャンクに分割された場合、リファレンスシーケンス上の単一の位置にマッピングされた単一の連続したリードとしてマッピングされた場合よりも、マッチング精度の高いマッピング位置を見つける)、
をコード化することをさらに含む。
コンティグとリファレンスシーケンス間のミスマッチの位置をシグナリングするためのrftp、ミスマッチの位置は特殊なターミネータ文字で終了し、
コンティグとリファレンスシーケンス間のミスマッチの類型をシグナリングするrftt、
をコード化することをさらに含む。
前記pos記述子は、二重切捨単項コード又は単一の二重切捨単項コードを使用してバイナリ化され、
前記rcomp記述子は、切捨単項コードを使用してバイナリ化され、
前記マッピングのflags記述子は、バイナリコード化を使用してバイナリ化される。
リファレンスシーケンスに関するアライメントされたリードのミスマッチの位置をシグナリングするための前記mmpos記述子は、分割ユニットごとに切捨単項コードを使用してバイナリ化され、
関連する位置のリファレンスシーケンスに関してミスマッチの類型をシグナリングするための前記mmtype記述子は切捨単項コードを使用してバイナリ化される。
マッピング手順によって単一のリード又はリードペアに関連付けられたマルチプルマッピング位置をシグナリングするための前記mmap記述子は、分割ユニットワイズ切捨単項(Split Unit-wise Truncated Unary)コードを使用してバイナリ化され、
前記スプライスされたリードの存在の識別をシグナリングするための前記msar記述子は、符号付き指数ゴロム(Signed Exponential Golomb)コードを使用してバイナリ化される。
前記rftp記述子は、コンティグとリファレンスシーケンスとの間のミスマッチの位置をシグナリングするために、バイナリコード化と分割ユニットワイズ切捨単項(Split Unit-wise Truncated Unary)コードの連結を用いてバイナリ化され、
コンティグとリファレンスシーケンスの間のミスマッチのタイプをシグナリングするための前記rftt記述子は、バイナリコード化と切捨単項(Truncated Unary)コードの連結を使用してバイナリ化される。
ヘッダ情報を用いてゲノム記述子のマルチプルブロックを抽出して前記コード化されたゲノムデータを含むアクセスユニットを解析し、前記マルチプルブロックをデコード化することを含み、
前記マルチプルブロックのデコード化は、1つ以上のリファレンスシーケンスに関する分類を定義する特定のマッチング規則に従ってアライメントされたリードを抽出するために、ゲノム記述子をデコード化及びバイナリ化解除することを含む。
リファレンスシーケンス上のリードのマッピング位置をシグナリングするためのpos記述子、
アライナがマッピングロセスの結果をさらに指定できるようにするために、リードがマッピングフラグにマッピングされたDNA又はRNA鎖をシグナリングするためのrcomp記述子、を含む。
リファレンスシーケンスに関してアライメントされたリードのミスマッチの位置をシグナリングするためのmmpos、
前記関連付けられた位置のリファレンスシーケンスに関するミスマッチの類型をシグナリングするためのmmtype、
をデコード化することをさらに含む。
マッピング手順によって単一のリード又はペアリードに関連付けられたマルチプルマッピング位置をシグナリングするためのmmap、
スプライスされたリードが存在することの識別をシグナリングするmsar(すなわち、リードは、チャンクに分割された場合、リファレンスシーケンス上の単一の位置にマッピングされた単一の連続したリードとしてマッピングされた場合よりも、マッチング精度の高いマッピング位置を見つける)、
をデコード化することをさらに含む。
コンティグとリファレンスシーケンス間のミスマッチの位置をシグナリングするためのrftp、ミスマッチの位置は特殊なターミネータ文字で終了し、
コンティグとリファレンスシーケンス間のミスマッチの類型をシグナリングするためのrftt、
をデコード化することをさらに含む。
1.データ又はメタデータのクラスごとに効率的なソースモデルを提供することにより構成される情報ソースのエントロピーの減少による圧縮性能の向上;
2.圧縮されたデータ及びメタデータの一部に対して、圧縮されたドメイン内で直接、更なる処理目的のために選択的アクセスを行う可能性;
3.新しいシーケンシングデータ及び/又はメタデータ及び/又は特定のシーケンスリードのセットに関連する新しい解析結果を用いて、圧縮データおよびメタデータを増分的に(すなわち、デコード化と再コード化を必要としない)更新する可能性。
アクセスユニット開始位置:アクセスユニットに含まれる全てのゲノムレコードのうち、左端のゲノムレコード位置。
アクセスユニットの終了位置:アクセスユニットに含まれる全ゲノムレコードのマッピングされた全塩基の中で右端の塩基位置。
アクセスユニット範囲:アクセスユニットに含まれる全てのゲノムレコードのうち、アクセスユニット開始位置と右端のゲノムレコード位置の間に含まれるゲノム範囲。
アクセスユニットサイズ:アクセスユニットに含まれるゲノムレコードの数。
アクセスユニットカバー領域:アクセスユニット開始位置とアクセスユニット終了位置の間に含まれるゲノム範囲。
1.特定の塩基を呼び出す確証がないために、塩基の呼び出しをスキップする決定。これは未知の塩基と呼ばれ、「N」(「nタイプ」のミスマッチとして示される)と表示される;
2.シーケンスされたサンプルに実際に存在する核酸を表すものとは異なるシンボル(すなわち、異なる核酸を表す)の使用;これは通常「置換エラー」(「sタイプ」のミスマッチとして示される)と呼ばれる;
3.実際に存在する核酸を指し示さない追加のシンボルを1つのシーケンスリードへ挿入;これは通常、「挿入エラー」と呼ばれる(「iタイプ」のミスマッチとして示される);
4.シーケンスされたサンプルに実際に存在する核酸を表すシンボルを、1つのシーケンスリードから削除;これは通常「削除エラー」と呼ばれる(「dタイプ」のミスマッチとして示される);
5.元のシーケンスの現実を反映しない単一のフラグメントへの1つ以上のフラグメントの組換え;これは通常、アライナが塩基をクリップすると決定する結果となる(「cタイプ」のミスマッチとして示される)。
・ 部分的(partial)(1×未満)は、リファレンスゲノムの一部が利用可能なシーケンスリードによってマッピングされていない場合であり;
・ シングル(single)(1×)は、リファレンスゲノムの全てのヌクレオチドが、シーケンスリードに存在する唯一のシンボルによってマッピングされる場合であり;
・ マルチプル(multiple)(2×、3×、N×)は、リファレンスゲノムの各ヌクレオチドが複数回マッピングされる場合である。
1 シーケンスリードは、リファレンスシーケンスに関するアラインメントの結果に従って、データクラスに分類され、区分化される。このような分類及び区分化は、アラインメント結果及びマッチング精度に関連する基準に従って、コード化データへの選択的アクセスを可能にする。
2 分類されたシーケンスリード及び関連するメタデータは、均一な統計的特性を有するブロックに編成されたゲノム記述子によって表され、低い情報エントロピーによって特徴付けられる個別の情報ソースの定義を可能にする。
3 各クラスの統計的特性に適合した個別のソースモデルを用いて、それぞれ分離された情報ソースをモデル化する可能性と、リードの各クラス内及び個別にアクセス可能なデータユニット(アクセスユニット)の各記述子ブロック内でソースモデルを変更する可能性。適切な変換、バイナリ化及びコンテキスト適応確率モデルと、各ソースモデルの統計的性質に従った関連エントロピーコード化の採用。
4 全ての情報が必要でない場合、全ての記述子ブロックをデコード化する必要なしに、シーケンシングデータ及び関連するメタデータへの選択的アクセスを可能にするための記述子ブロック間の対応関係及び依存関係の定義。
5 記述子ブロックの情報ソースのエントロピーを減少させるように、「既存の」(「外部の」とも呼ばれる)リファレンスシーケンス又は「既存の」リファレンスシーケンスに適切な変換を適用することによって得られる「変換」されたリファレンスシーケンスに関する、各シーケンスデータクラス及び関連するメタデータブロックのコード化。前記の記述子は、異なるデータクラスに分割されたリードを表す。「既存の」リファレンス又は「変換」「既存の」リファレンスシーケンスを参照して、対応する記述子を使用するリードのコード化に続いて、低エントロピーで最終的なコード化表現を見つけ、より高い圧縮効率を達成するために、種々のミスマッチの発生を使用して、リファレンスシーケンスに対する適切な変換を定義することができる。
6 一連の制約を満足しない既存のリファレンスシーケンスに関して、ある程度のマッチング精度を示すリードのクラスをコード化するために使用される一つ以上のリファレンスシーケンス(「内部の」リファレンスも呼ばれ、本明細書では「外部の」リファレンスシーケンスとも呼ばれる「既存の」リファレンスシーケンスと区別する)の構築。このような制約は、「内部の」リファレンスシーケンスに関してアライメントされたリードのクラスを圧縮形式で表現するためのコード化コスト及び「内部の」リファレンスシーケンス自体を表現するためのコストが、アライメントされていないリードのクラスを逐語的にコード化するよりも、又は変換を伴わずに又は伴う「外部の」リファレンスシーケンスを使用するよりも低いという目的で設定される。
7 ヘッダ情報の形で圧縮されたゲノムデータに埋め込まれたデータ構造によってコード化とデコード化の両方のプロセスを支配する構成パラメータの送信。このような構成パラメータは、圧縮性能を改善するために、コード化プロセス中に更新することができる。このような更新は、更新された構成データ構造の形式で圧縮されたコンテンツで伝達される。
[マッチング規則に基づくシーケンスリードの分類]
1.リファレンスシーケンス内の領域は、エラーなしのシーケンスリードとマッチングすることがわかる(つまり、完全なマッピング)。そのようなヌクレオチドのシーケンスは、「完全にマッチングするリード」と呼ばれるか、「クラスP」と表示される。
2.リファレンスシーケンス内の領域は、シーケンスリードと、リードを生成するシーケンシング装置が塩基(又はヌクレオチド)を呼び出せなかった位置の数によってのみ決定されるミスマッチの数と類型とマッチングすることが見出される。この種のミスマッチは、未定義のヌクレオチド塩基を示すために用いられる文字である「N」によって示される。本開示では、この種のミスマッチを「nタイプ」ミスマッチと呼ぶ。このようなシーケンスは「クラスN」のリードに属する。リードが「クラスN」に属するように分類されたら、マッチングの不正確さの程度を所定の上限に制約し、有効なマッチングと見なされるものとそうでないものとの境界を設定することが有用である。したがって、クラスNに割り当てられるリードも、リードに含めることができる未定義の塩基(すなわち、「N」と呼ばれる塩基)の最大数を定義するしきい値(MAXN)を設定することによって制約される。このような分類は、クラスNに属する全てのリードが、対応するリファレンスシーケンスを参照するときに共有する必要な最小マッチング精度(又は最大マッチング度)を黙示的に定義し、これは、選択的データ検索を圧縮データに適用するための有用な基準を構成する。
3.リファレンスシーケンス中の領域は、シーケンスリードと、リードを生成するシーケンシング装置がいずれのヌクレオチド塩基も呼び出せなかった位置の数によって決定されたミスマッチの数及び類型がマッチングすることが見出される。仮に、それが存在する場合(すなわち「nタイプ」ミスマッチ)、それに加えて、リファレンス中に存在するものとは異なる塩基が呼び出されたミスマッチの数。「置換」と呼ばれるこのような種類のミスマッチは、一塩基変異(SNV)又は一塩基多型(SNP)とも呼ばれる。本開示では、この種のミスマッチは、「sタイプ」ミスマッチとも呼ばれる。シーケンスリードは「Mミスマッチリード」として参照され、「クラスM」に割り当てられる。「クラスN」の場合と同様に、「クラスM」に属する全てのリードについても、マッチングの不正確さの程度を特定の上限に設定し、有効なマッチングと見なされるものとそうでないものとの境界を設定すると便利である。したがって、クラスMに割り当てられたリードは、しきい値のセットを定義することによって制限される。もし存在するならば、その一つは「nタイプ」のミスマッチの数「n」(MAXN)、そして、もう1つは置換の数「s」(MAXS)であり、第3の制約は、数「n」と「s」の両方の関数f(n,s)によって定義されるしきい値である。このような第3の制約により、意味のある選択的アクセス基準に従って、マッチングする不正確さの上限を持つクラスを生成できる。例えば、制約としてではなく、f(n,s)は(n+s)1/2又は(n+s)又は「クラスM」に属するリードに対して許容される最大マッチング不正確レベルに境界を設定する任意の線形式又は非線形式であり得る。このような境界は、さまざまな目的のためにシーケンスリードを分析する際に、所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。なぜならば、この境界は、一つの種類又は他方に適用される単純しきい値を超える「nタイプ」ミスマッチ及び「sタイプ」ミスマッチの数(置換)の任意の可能な組み合わせに対して、さらなる境界を設定することを可能にするからである。
4.第4のクラスは、「挿入」、「削除」(インデル(indels)とも呼ばれる)、及び「クリップ」のいずれかの種類の少なくとも1つのミスマッチを示すシーケンスリードで構成され、クラスN又はMに属するミスマッチのタイプが存在する場合、このようなシーケンスは「リードミスマッチ」と呼ばれ、「クラスI」に割り当てられる。挿入は、リファレンスに存在しないがリードシーケンスには存在する1つ以上のヌクレオチドの追加のシーケンスによって構成される。本開示では、このタイプのミスマッチは「iタイプ」のミスマッチと呼ばれる。文献においては、挿入されたシーケンスがシーケンスの端にある場合、それは「ソフトクリップ」とも呼ばれる(すなわち、ヌクレオチドはリファレンスにマッチングしていないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的に、アライメントされたリードにおいて保持される)。本開示では、この種のミスマッチは「cタイプ」ミスマッチと呼ばれる。ヌクレオチドの保持又は廃棄は、シーケンシング装置又はその後のアライメント段階によって決定されるリードを受信及び処理する本発明で開示されるリードの識別子によってではなく、アライメント段階によって行われる決定である。削除は、リファレンスに関するリードの「ホール」(ヌクレオチドの欠落)である。本開示では、このタイプのミスマッチは「dタイプ」のミスマッチと呼ばれる。クラス「N」及び「M」の場合と同様に、マッチングの不正確さに対する制約を定義することは可能でありかつ適切である。「クラスI」に対する一連の制約の定義は、「クラスM」に使用されたものと同じ原則に基づいており、表2の最後の行に表される。クラスIのデータに対して許容される各タイプのミスマッチに対するしきい値の他に、さらなる制約は、ミスマッチの数「n」、「s」、「d」、「i」及び「c」、w(n,s,d,i,c)の関数によって決定されるしきい値によって定義される。そのような追加の制約により、意味のあるユーザー定義の選択的アクセス基準に従って、マッチングの不正確さの上限を持つクラスを生成できる。例えば、これに限定されるものではないが、w(n,s,d,i,c)は、(n+s+d+i+c)1/5又は(n+s+d+i+c)、又は「クラスI」に属するリードに対して許容される最大マッチング不正確レベルに境界を設定する任意の線形式又は非線形式であり得る。このような境界は、さまざまな目的のためにシーケンスリードを解析するとき、所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。なぜならば、この境界は、許容可能なミスマッチの各類型に適用される単純なしきい値を超えて、「クラスI」のリードにおいて許容可能なミスマッチの数の任意の可能な組み合わせに対して、さらなる境界を設定することを可能にするからである。
5.第5のクラスは、リファレンスシーケンスを参照するときに各データクラスに対して有効であると考えられるマッピング(すなわち、表2で指定された最大マッチング精度の上限を定義するマッチング規則のセットを満たしていない)を見つけない全てのリードを含むこのようなシーケンスは、リファレンスシーケンスを参照するときに「非マッピング」と呼ばれ、「クラスU」に属するものとして分類される。
6.ペアエンドリードの場合、第6のクラスが定義され、その中では、ペアの一方のリードはリファレンスゲノムのいずれの位置にもマッピングすることができず(クラスUに属する)、他方のリードはP、N、M、Iクラスのいずれかに属する。このようなクラスは、ハーフマッピングから「HMクラス」と呼ばれる。
[マッチング規則によるリードペアの分類]
P<N<M<I
ここで、「クラスP」の優先順位が最も低く、「クラスI」の優先順位が最も高くなる。
[マッチング精度の異なるサブクラスを伴うシーケンスリードデータ・クラスN、M、及びIのマッチング規則・パーティション]
N<M<I
ここで、Nが最も優先度が低く、Iが最も優先度が高い。
N1<N2<・・・<Nk
M1<M2<・・・<Mj
I1<I2<・・・<Ih
ここで、最も高いインデックスが最も高い優先順位を有する。
[「外部の」リファレンスシーケンスの変換]
RS2=A(RS1)
として表すことができる。
・ 変換を適用する前にリファレンスを参照したときに存在しなかったリードの表現にミスマッチが生じることがある。
・ ミスマッチの類型を変更することができ、リードにはGの代わりにAが含まれ、他の全てのリードにはGの代わりにCが含まれるが、ミスマッチは同じ位置に残る。
・ 異なるデータクラス及び各データクラスのデータのサブセットは、同じ「変換された」リファレンスシーケンス、又は同じ既存のリファレンスシーケンスに異なる変換を適用することによって取得されたリファレンスシーケンスを参照する場合がある。
[ゲノム・データセット・ヘッダ]
[pos記述子]
ここで、p0は、アクセスユニットの最初のゲノムレコードに対して、アクセスユニットヘッダから検索されたマッピング値である。
ここで、
・ pは、塩基の基準シーケンス上の絶対位置であり、
・ pstartは、塩基を含むゲノムレコードのマッピング位置であり、
・ ninsは、同じゲノムレコード内の塩基の前に挿入された塩基の数であり、
・ ndelは同じゲノムレコード内の塩基に先行する欠欠落した塩基の数であり、
・ dstartは、ゲノムレコード位置からのゲノムレコード内の塩基のオフセットであり、
・ デルタ(delta)は、リードペアにおける2つのリード間の(符号付き(signed))ペアの距離である。これはゲノムレコードの2回目のリードにおける位置に対してのみ使用されなければならない。
[rcomp記述子]
・ mmabsiは、リード又はリードペアにおける第i番目のミスマッチの基準シーケンスにおける絶対位置であり、
・ mmposiはゲノムレコードのmmpos記述子の第i番目の値であり、
・ len1は、リードペアのリード1の長さであり、
・ deltaは、ペア記述子に対して定義され、図5に示すように計算されたリード1とリード2との間のペアリング距離である。
[mmtype]
[ureads]
[rlen]
[pair]
1.両方のリードが同じリファレンスにマッピングされ、同じゲノムレコードにコード化される場合、ペアリング距離は、リード1の左端にマッピングされた塩基とリード2の左端にマッピングされた塩基との間の距離として定義される。ペアリング距離の例を図8に示す。
2.第1のリードと同じリファレンスシーケンス上の第2のリードの絶対マッピング位置として。
3.第1のリードのリファレンスシーケンスとは異なるリファレンスシーケンス上の第2のリードのリファレンスシーケンスの絶対マッピング位置として。
・ LSBは符号(符号ビットが0の場合、数値は負ではなく、符号ビットが1の場合、数値は負である)を表すために使用され、
・ 残りの15ビットは、ペアリング距離の絶対値を表すために使用される。
[リード距離のデコード化プロセス]
・ 1つの符号ビット(S)
・ 指数部の11ビット(E)
・ 少数部の53ビット(S)
スコア=-1s×10E×M
[rgroup]
[msar]
・ マッピングされたセグメント長
・ セカンダリアライメント及び/又はスプライスされたリードのための異なるマッピング連続性(例:CIGAR文字列)
[マルチプルアライメント]
[mmap]
[マルチプルアライメントのストランド性]
[マルチプルアライメントのスコア]
1.左端のリード位置に1つのアライメントがあり、右端のアライメントに2つの代替アライメントがある場合、Nは値1を、M1は値2をとる。
2.左端のリードで2つの代替アライメントが検出され、右端のアライメントのみが検出された場合、Nは値2を、M1は値1を、M2は値0をとる。
・ 右端のリードは
個のアライメントを有する。
・ 左端のリードの第i番目のアラインメントが、k<iの左端のリードの第k番目のアラインメントと既にペアになっている右端のリードのアラインメントとペアになっている場合、Miのいくつかの値は=0になることがある。
・ ペア記述子の1つの予め定められた値は、他のAUの範囲に属するアライメントを通知するために存在することができる。もし、それが存在する場合は、常に現在のレコードの最初のペア記述子である。
[スプライスを伴うマルチプルアライメント]
・ 左端のリードは、N個のスプライス(N1≦N)を伴うN1個のアライメントを有する。
・ Nは、左端のリードの全てのアラインメントに存在するスプライスの数を表し、mmap記述子の最初の値としてコード化される。
・ 右端のリードは、
個のスプライスであり、ここで、Miは、左端のリードの第i番目のアラインメントに対応する、右端のリードのスプライスの数である(1≦i≦N1)。換言すれば、Pは、右端のリードのスプライスの数を表し、mmap記述子の最初の値に続くN個の値を用いて計算される。
・ N1及びN2は、第1及び第2のリードのアラインメントの数を表し、msar記述子のN+P値を使用して計算される。
・ 左端にはN1個のアライメントとN個のスプライス(N1≦N)がある。N1=N及びN2=Pの場合、スプライスは存在しない。
・ 右端のリードは、
個のスプライスtj(1≦j≦P)及びN2(N2≦P)個のアライメントを有する。
・ pair記述子の数は、NP=Max(N1,P)+M0として計算でき、ここで、
・ M0は、値が0のMiの数であり
・ NPは、1つの特別なpair記述子が他のAUにアラインメントが存在することを示す場合に1だけ増分する必要がある。
[アライメントスコア]
スコアの数(Number of scores)=MAX(N1,N2)+M0
ここで、M0はMi=0の総数を表す。
[スプライスのないマルチプルアライメントの記述子]
[挿入、削除、マッピングされていない部分を含むマルチプルアラインメント]
[未加工のデータ]
[ureads]
[rtype]
・ symVal:バイナリ化されるべきゲノム記述子の非バイナリ値。
・ cLength:値がバイナリ化されるビット数を表す。
・ cMax:バイナリ化できる最大値。大きい値は切り捨てられる。
[切捨単項(TU)バイナリ化]
ここで、read_bits関数の呼び出しは、入力として渡されたパラメータに等しいビット数を記憶媒体から読み取る。read_bits(「leadingZeroBits」)から返された値は、最上位ビットが最初に書き込まれる符号なしの整数のバイナリ表現として解釈される。
・ デコード化されたゲノム記述子の値は、バイナリ化された記述子に対応するsymVal値に等しい
・ デコード化されたゲノム記述子の値は、例えばhttps://en.wikipedia.org/wiki/Exponential-Golomb_codingで定義されたように、symValを入力として符号付き0次指数ゴロムデコーディングを適用することによって計算される。
[符号付き指数ゴロム(SEG)のバイナリ化]
・ 値Min(symVal、tegParam)に対してcMac=tegParamとなる切捨単項バイナリ化
・ symVal !=0の場合、Abs(symVal-tegParam)値に対する指数ゴロムのバイナリ化
1.Abs(symVal)の切捨指数ゴロムのバイナリ化
2.symVal !=0の場合、1(symVal<0の場合)又は0(symVal>0の場合)に等しい1ビットのフラグ
・ 値Abs(symVal)に対するSUTUバイナリ化。
・ symVal !=0の場合、1に等しい(symVal<0の場合)か、0に等しい(symVal>0の場合)の1ビットフラグである。
decode_cabac_SUTU()は、SUTUバイナリ化のためのcabacデコード化プロセスを表す。
[二重切捨単項(DTU)バイナリ化]
・ 値Min(Abs(symVal)、cMax)に対するTUバイナリ化の第1の例。
・ Abs(symVal)>cMAxの場合、Abs(symVal)-cMaxに対するSUTUバイナリ化の第2の例。
decode_cabac_TU()は、TUバイナリ化のためのcabacデコード化プロセスを表す。
decode_cabac_SUTU()は、SUTUバイナリ化のためのcabacのデコード化プロセスを表す。
[符号付き二重切捨単項(SDTU)バイナリ化]
・ 値Abs(symVal)に対するDTUバイナリ化。
・ symVal !=0の場合、1に等しい(symVal<0の場合)か、0に等しい(symVal>0の場合)の1ビットのフラグである。
sign_flagは、ctxTdxによって識別されるコンテキスト変数のビットのcabacデコード化を表す。
decode_cabac_DTU()は、DTUバイナリ化によるcabacデコード化を表す。
[バイナリ化のパラメータ]
cMaxは、バイナリ化される最大値を表す。大きい値は切り捨てられる。
cLengthは、バイナリ化される値のビット数を表す。
tegParamは、本開示においてTEGバイナリ化用に定義されるtegParam変数を表す。
stegParamは、本開示においてSTEGバイナリ化用に定義されるstegParam変数を表す。
splitUnitSizeは、本開示でSUTU、SSUTU及びDTUバイナリ化用に定義されるsplitUnitSize変数を表す。
outputSymSizeは、本開示でSUTU、SSUTU、DTU及びSDTUバイナリ化用に定義されるoutputSymSize変数を表す。
[本発明の技術的利点の証拠]
[記述子に適用されるバイナリ化]
1.ターミネータ(terminator)の値は、0又は1としてバイナリ化できる。この例では、0を選択している。
2.ターミネータ(terminator)=0の場合、splitUnitSize=4でのバイナリ化No.6が使用され、outputSymbolSize=12が使用され、次のバイナリ文字列がrftpの値に関連付けられる。
a. 5=11110
b. 2=110
c. 5=11110
d. 1=10
e. 2=110
1.リファレンスゲノム中に存在するヌクレオチドを知っていれば、コード化される可能性のある記号から対応する記号を取り除く。すなわち。この例の最初のミスマッチでは、リファレンス内の対応するシンボルが「G」である場合、コード化される可能性のあるシンボルのスペースは0、1、3、4である。
2.コード化されるデータ上のミスマッチの類型のシンボルの頻度が測定され、0から3のインデックスが付けられる。インデックス0は最も頻度の高いミスマッチに影響され、インデックス3はより頻度の低いミスマッチに影響される。この例では、インデックス作成は次のようになる。{0=>3、1=>0、2=>4、3=>1}
3.与えられた例では、5つのミスマッチは以下のようにTUバイナリ化を使用してバイナリ化される:
[デコード化装置]
Claims (27)
- ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータをコード化する方法であって、
前記リードを1つ以上のリファレンスシーケンスにアライメントし、それによってシーケンスリードを作成し、
前記1つ以上のリファレンスシーケンスとの指定されたマッチング規則に従ってアライメントされたリードを異なるクラスに分類し、
前記分類は、
前記リファレンスシーケンス内のある領域が、前記アライメントされたリードとミスマッチすることなく一致することが判明した場合、前記アライメントされたリードの1つ以上を第1のクラス(クラスP)に分類し、
前記リファレンスシーケンス内のある領域が、前記リードを生成するシーケンシング装置がどの塩基も読み出すことができなかった位置の数によってのみ決定されるタイプ及びミスマッチの数で前記アライメントされたリードとマッチングすることが判明した場合、前記アライメントされたリードの1つ以上を第2のクラス(クラスN)に分類し、
前記リファレンスシーケンス内のある領域が、前記リードを生成するシーケンシング装置がどの塩基も読み出すことができなかった位置の数に加え、前記リファレンスシーケンスに存在するものとは異なるヌクレオチドが呼び出されたミスマッチの数によってのみ決定されるタイプ及びミスマッチの数で前記アライメントされたリードとマッチングすることが判明した場合、前記アライメントされたリードの1つ以上を第3のクラス(クラスM)に分類し、
前記アライメントされたリードの1つ以上を、挿入、欠落、クリッピングのうち少なくとも1つのミスマッチと、前記第2のクラス(クラスN)又は前記第3のクラス(クラスM)に属するミスマッチとが存在する場合、前記アライメントされたリードを第4のクラス(クラスI)に分類し、
ここで、前記挿入は、前記リファレンスシーケンスには存在しないが、前記アライメントされたリードに存在する1つ以上のヌクレオチドの追加のシーケンスにより構成され、 ここで、前記欠落は、前記リファレンスシーケンスに対して前記アライメントされたリードのヌクレオチドの欠落を構成し、
ここで、前記クリッピングは、前記リファレンスシーケンスとマッチングせず、前記アライメントされたリードに保持され、前記アライメントされたリードの端に挿入されたヌクレオチドシーケンスを示すソフトクリッピングされたヌクレオチドと、前記アライメントされたリードから破棄されるハードクリップされたヌクレオチドと、を含み、
前記第1乃至第4のクラスのいずれにもマッチングしない場合、前記アライメントされたリードの1つ以上を第5のクラス(クラスU)に分類し、
それによって、ゲノムシーケンスのリードを一義的に表し、均質な統計的特性を有するブロックに配置されたゲノム記述子のグループによって表されるアライメントされたリードのクラスを作成し、
前記記述子は、前記第1のクラス(クラスP)において、
前記リファレンスシーケンス内のリードのマッピング位置を示すpos記述子、
前記リードがマッピングされたDNA又はRNA鎖を示すrcomp記述子、及び
アライナが前記マッピングの結果をさらに特定できるようにするためのマッピングフラグ、を含み、
前記記述子は、前記第2のクラス(クラスN)において、
前記リファレンスシーケンスに対するアライメントされたリードのミスマッチの位置を示すmmpos記述子、を含み、
前記記述子は、第3のクラス(クラスM)において、
前記mmpos記述子で示される前記位置の前記リファレンスシーケンスに対するミスマッチのタイプを示すmmtype記述子、を含み、
前記記述子は、前記第4のクラス(クラスI)において、
ソフトクリップ又はハードクリップされたヌクレオチドを示すclips記述子、を含み、
前記記述子は、前記第5のクラス(クラスU)において、
利用可能なリファレンスシーケンスにマッピングできない塩基の逐語的なシーケンスリードを示すureads記述子、を含み、
前記分類された、前記ゲノムシーケンスのリードを一義的に表し、均質な統計的特性を有するブロックに配置されたゲノム記述子のグループによって表されるアライメントされたリードを、構文要素からなる複数のブロックとしてコード化し、
前記構文要素からなる複数のブロックをヘッダ情報で構成し、それによって連続的なアクセスユニットを作成すること、を含み、
前記コード化は、前記ゲノム記述子をバイナリ化及びエントロピーコード化し、
前記ゲノム記述子の前記バイナリ化及びエントロピーコード化は、前記記述子の少なくとも1つの記述子に対するバイナリ化及びエントロピーコード化が、前記記述子の少なくとも1つの他の記述子に対するバイナリ化及びエントロピーコード化とは異なるように行われる、
ことを含む方法。 - 前記ゲノム記述子の前記バイナリ化及びエントロピーコード化は、前記記述子の少なくとも1つの記述子に対するエントロピーコード化が、前記記述子の少なくとも1つの他の記述子に対するエントロピーコード化と異なるように行われる、
請求項1に記載の方法。 - 以下に示す、
個々のコード化されたシーケンスリードの長さを示すrlen記述子、
マッピングによって1つのリード又はリードペアに関連付けられた複数のマッピング位置を示すためのmmap記述子、
スプライスされたリードが存在することを示すmsar記述子(すなわち、チャンクに分割されたとき、リファレンスシーケンス内の単一の位置にマッピングされた単一の連続したリードとしてマッピングされたときよりも高いマッチング精度でマッピング位置を検出するリード)、
ゲノムシーケンスリードアライナによって生成された、リードごとのマッピング/アライメントスコアを示すためのmscore記述子、
ペアリングされたエンドリードの場合に、前記リードがどのようにペアリングされたかを示すpair記述子、
前記リファレンスシーケンスの任意の位置に指定されたマッチング精度でマッピングすることができないシーケンスリードのコード化に使用される記述子のサブセットを示すために使用されるrtype記述子、
前記リードがどのリードグループに属するかを示すためのrgroup記述子、
コンティグとリファレンスシーケンスのミスマッチの位置を示すrftp記述子(ミスマッチの位置は特殊な終端文字で終端される)、
コンティグとリファレンスシーケンスのミスマッチの種類を示すためのrftt記述子、
の1つ以上の記述子をコード化することをさらに含む、
請求項1又は2に記載の方法。 - 前記pos記述子は、二重に切り捨てられた単項コード(Double Truncated Unary code)又は符号付き二重に切り捨てられた単項コード(Signed Double Truncated Unary code)を使用してバイナリ化され、
前記rcomp記述子は、切り捨てられた単項コード(Truncated Unary code)を使用してバイナリ化され、
前記マッピングフラグは、バイナリコード化(Binary coding)を使用してバイナリ化
され、
前記リファレンスシーケンスに対して前記アライメントされたリードのミスマッチの位置を示すための前記mmpos記述子は、分割単位ごとに切り捨てられた単項コード(Split Unit-wise Truncated Unary code)を使用してバイナリ化され、
前記リファレンスシーケンスの関連する位置のミスマッチのタイプを示す前記mmtype記述子は、切り捨てられた単項コード(Truncated Unary code)を使用してバイナリ化され、
ソフトクリップ又はハードクリップされたヌクレオチドを示す前記clips記述子は、符号付き切捨指数ゴロム(Signed Truncated Exponential Golomb)、切り捨てられた
単項コード(Truncated Unary code)、符号付き指数ゴロム(Signed Exponential Golomb)及びバイナリコードの連結を使用してバイナリ化される、
請求項1乃至3のいずれか一項に記載の方法。 - 以下に示す前記記述子の1つ以上が、
個々のコード化されたシーケンスリードの長さを示す前記rlen記述子は、分割単位ごとに切り捨てられた単項コード(Split Unit-wise Truncated Unary code)を使用してバイナリ化され、
前記マッピングによって単一のリード又はリードペアに関連付けられた複数のマッピング位置を示す前記mmap記述子は、分割単位ごとに切り捨てられた単項コード(Split Unit-wise Truncated Unary code)を使用してバイナリ化され、
前記スプライスされたリードを識別するための前記msar記述子は、符号付き指数ゴロムコード(Signed Exponential Golomb code)を使用してバイナリ化され、
前記ゲノムシーケンスリードアライナによって生成されたリードごとのマッピング/アライメントスコアを示す前記mscore記述子は、切り捨てられた単項コード(Truncated Unary code)を使用してバイナリ化され、
ペアリングされたエンドリードの場合に、該リードがどのようにペアになっているかを示す前記pair記述子は、バイナリコードと分割単位ごとに切り捨てられた単項コード(Split Unit-wise Truncated Unary code)の組み合わせを使用してバイナリ化され、
前記リファレンスシーケンスのいずれの位置でもアライメントすることができなかったリードを示す前記ureads記述子は、切り捨てられた単項コード(Truncated Unary code)を使用してバイナリ化され、
指定されたマッチング精度で前記リファレンスシーケンスの任意の位置にマッピングすることができないシーケンスリードをコード化するために使用される前記記述子のサブセットの示すために使用される前記rtype記述子は、切り捨てられた単項コード(Truncated Unary code)を使用してバイナリ化され、
前記リードがどのリードグループに属するかを示す前記rgroup記述子は、切り捨てられた単項コード(Truncated Unary code)を用いてバイナリ化され、
前記コンティグとリファレンスシーケンスとの間のミスマッチの位置を示す前記rftp記述子は、バイナリコード化(Binary coding)と分割単位ごとの切り捨てられた単
項コード(Split Unit-wise Truncated Unary code)の組み合わせでバイナリ化され、
前記コンティグとリファレンスシーケンスの間のミスマッチのタイプを示す前記rftt記述子は、バイナリコード化(Binary coding)と切り捨てられた単項コード(Truncated Unary code)の組み合わせでバイナリ化される、
請求項3に記載の方法。 - 前記記述子は、構成パラメータを構文ヘッダに挿入することによってコード化される、請求項3又は5に記載の方法。
- 前記構成パラメータは、前記構文ヘッダがコード化されたゲノムファイルに追加されて更新されることによって更新される、
請求項6に記載の方法。 - 前記構成パラメータは、以下に示す、
前記構成パラメータを参照してアクセスユニットでコード化されたデータの種類を示すデータセットのタイプ、
リードの長さが一定の場合に、シーケンスリードのヌクレオチド長を示すリード長、
個々のコード化されたヌクレオチドに関する品質値の値を示す品質値深度パラメータ、
個々のコード化されたアライメントに関連するアライメントスコアの値を示すアライメントスコア深度、
前記mmpos記述子に使用されるターミネータシンボルのバイト単位のサイズを示すターミネータのサイズ、
前記mmpos記述子に使用されるターミネータシンボルの値を示すターミネータの値、
前記構成パラメータを参照して全てのアクセスユニットにコード化されたデータクラスの数を示すクラスの数、
個々のデータクラスに関連付けられた識別子を示すクラス識別子、
前記構成パラメータを参照して、アクセスユニットに含まれる記述子の総数を示す記述子の数、
異なるコード化モードに対応するコード化モード識別子、
現在の構成パラメータを参照する全てのアクセスユニットに存在する前記rgroup記述子の異なる値の数を示すグループ数パラメータ、
1つ以上のリードグループ識別子を示す1つ以上のグループ名パラメータ、
前記アクセスユニット内のマルチプルアライメントの存在を示すマルチプルアライメントフラグ、
前記アクセスユニット内のスプライスされたリードの存在を示すスプライスされたリードフラグ、
の1つ以上を含む、
請求項6又は7記載の方法。 - 前記構成パラメータは、マッピングされていないシーケンスリード(クラスU)を含むアクセスユニット内の複数のシグネチャの使用を示すマルチプルシグネチャ塩基フラグをさらに含む、
請求項6乃至8のいずれか一項に記載の方法。 - 前記構成パラメータは、コード化されたシグネチャを表す個々の整数のビット単位のサイズを示すシグネチャサイズをさらに含む、
請求項9に記載の方法。 - 前記構成パラメータは、前記mscore記述子にコード化されたマルチプルアライメントスコアの指数部をコード化するために使用されるビット数を示すスコア指数パラメータをさらに含む、
請求項6乃至10のいずれか一項に記載の方法。 - 前記構成パラメータは、前記mscore記述子にコード化されたマルチプルアライメントスコアの仮数部分をコード化するために使用されるビット数を示すスコア仮数パラメータをさらに含む、
請求項11に記載の方法。 - ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータのコード化されたゲノムデータをデコード化する方法であって、
ヘッダ情報を用いてゲノム記述子の複数のブロックを抽出し、前記コード化されたゲノムデータを含むアクセスユニットを解析し、前記複数のブロックをデコード化することを含み、
前記複数のブロックのデコード化は、均質な統計的特性を有するブロックに配置されたゲノム記述子のバイナリ化解除及びエントロピーデコード化からなり、1つ以上のリファレンスシーケンスに関する分類を定義する特定のマッチング規則に従って、アライメントされたリードを抽出することを含み、
前記アライメントされたリードの1つ以上が第1のクラス(クラスP)に分類されているとき、前記アライメントされたリードの抽出は、ミスマッチのない1つ以上のアライメントされたリードにマッチングする前記リファレンスシーケンス内の領域に基づいて行われ、
前記アライメントされたリードの1つ以上が第2のクラス(クラスN)に分類されているとき、前記アライメントされたリードの抽出は、前記アライメントされたリードの1つ以上とマッチングする前記リファレンスシーケンス内の領域で、前記リードを生成するシーケンシング装置がどの塩基も呼び出すことができなかった位置の数によってのみ決定されるタイプ及びミスマッチの数に基づいて行われ、
前記アライメントされたリードの1つ以上が第3のクラス(クラスM)に分類されているとき、前記アライメントされたリードの抽出は、前記アライメントされたリードの1つ以上とマッチングする前記リファレンスシーケンス内の領域で、前記リードを生成するシーケンシング装置がいずれの塩基も呼び出すことができなかった位置の数に加えて、前記リファレンスシーケンス内に存在するものとは異なるヌクレオチドが呼び出されたミスマッチの数によってのみ決定されるタイプ及びミスマッチの数に基づいて行われ、
前記アライメントされたリードの1つ以上が第4のクラス(クラスI)に分類されているとき、前記アライメントされたリードの抽出は、挿入、欠落、クリッピングのうち少なくとも1つ以上のタイプのミスマッチに加え、前記第2のクラス(クラスN)又は前記第3のクラス(クラスM)に属するタイプのミスマッチが存在する場合には、それを示す前記アライメントされたリードの1つ以上に基づいて行われ、
前記挿入は、前記リファレンスシーケンス内に存在しないが、前記アライメントされたリード内に存在する1つ以上のヌクレオチドの追加のシーケンスによって構成され、
前記欠落は、前記リファレンスシーケンスに対してアライメントされたリードのヌクレオチドの欠落を構成し、
前記クリッピングは、前記リファレンスシーケンスとマッチングしないが前記アライメントされたリードの端に挿入されたヌクレオチドシーケンスを示すソフトクリッピングヌクレオチドと、前記アライメントされたリードから破棄されるハードクリップされたヌクレオチドで構成され、
前記アライメントされたリードの1つ以上が第5のクラス(クラスU)に分類されているとき、前記アライメントされたリードの抽出は、前記第1乃至第4のクラスのいずれにも対応するマッチングが存在しないことに基づいて行われ、
前記記述子は、前記第1のクラス(クラスP)において、
前記リファレンスシーケンス内のリードのマッピング位置を示すpos記述子、
前記リードがマッピングされたDNA又はRNA鎖を示すrcomp記述子、及び
アライナがマッピング処理の結果をさらに特定できるようにするためのマッピングフラグ、を含み、
前記記述子は、前記第2のクラス(クラスN)において、
前記リファレンスシーケンスに対して前記アライメントされたリードのミスマッチの位置を示すmmpos記述子、を含み、
前記記述子は、前記第3のクラス(クラスM)において、
前記リファレンスシーケンスの対応する位置におけるミスマッチのタイプを示すmmtype記述子、を含み、
前記記述子は、前記第4のクラス(クラスI)において、
ソフトクリップ又はハードクリップされたヌクレオチドを示すclps記述子、を含み、
前記記述子は、前記第5のクラス(クラスU)において、
利用可能な全てのリファレンスシーケンスにマッピングできない塩基の逐語的なシーケンスリードを示すureads記述子、を含み、
前記ゲノム記述子のバイナリ化解除及びエントロピーデコード化は、前記記述子の少なくとも1つの記述子について、前記記述子の少なくとも1つの他の記述子について使用されるバイナリ化解除及びエントロピーデコード化とは異なるバイナリ化解除及びエントロピーデコード化を採用することを含む、
方法。 - 以下に示す、
個々にコード化されたシーケンスリードの長さを示すrlen記述子、
マッピングによって1つのリード又はリードペアに関連付けられた複数のマッピング位置を示すためのmmap記述子、
スプライスされたリードが存在することの識別を示すmsar識別子(すなわち、チャンクに分割されたとき、リファレンスシーケンス内の単一の位置にマッピングされた単一の連続したリードとしてマッピングされたときよりも高いマッチング精度でマッピング位置を検出するリード)、
ゲノムシーケンスリードアライナによって生成された、リードごとのマッピング/アライメントスコアを示すmscore記述子、
ペアリングされたエンドリードの場合に、前記リードがどのようにペア化されたかを示すpair記述子、
前記リファレンスシーケンスにアライメントすることができなかったリードを示すureads記述子、 前記リファレンスシーケンスの任意の位置に指定されたマッチング精度でマッピングすることができないシーケンスリードのコード化に使用される記述子のサブセットを示すために使用されるrtype記述子、
前記リードがどのリードグループに属するかを示すためのrgroup記述子、
コンティグとリファレンスシーケンスのミスマッチの位置を示すrftp記述子(ミスマッチの位置は特殊な終端文字で終端される)、
コンティグとリファレンスシーケンスのミスマッチの種類を示すためのrftt記述子、
の1つ以上をデコード化することをさらに含む、
請求項13に記載の方法。 - 前記記述子は、構文ヘッダから構成パラメータを抽出することによりデコード化される、
請求項14に記載の方法。 - 前記構成パラメータは、以下に示す、
前記構成パラメータを参照してアクセスユニットでコード化されたデータの種類を示すデータセットのタイプ、
リード長を一定とした場合のシーケンスリードの長さをヌクレオチド単位で示すリード長、
個々のコード化されたヌクレオチドに関連する品質値の値を示すための品質値深度パラメータ、
個々のコード化されたアライメントに関連するアライメントスコアの値を示すためのアライメントスコア深度、
前記mmpos記述子に使用されるターミネータシンボルのサイズをバイト単位で示すターミネータサイズ、
前記mmpos記述子に使用されるターミネータシンボルの値を示すターミネータ値、
前記構成パラメータを参照して全てのアクセスユニット内でコード化されたデータクラスの数を示すクラス数、
個々のデータクラスに関連付けられた識別子を示すクラス識別子、
前記構成パラメータを参照するアクセスユニットに含まれる記述子の総数を示す記述子の数、
コード化モードを示すコード化モード識別子、
現在の構成パラメータを参照するすべてのアクセスユニットに存在する前記rgroup記述子の異なる値の数を示すグループ数パラメータ、
1つ以上のリードグループの識別子を示す1つ以上のグループ名パラメータ、
前記アクセスユニット内のマルチプルアライメントの存在を示すマルチプルアライメントフラグ、
前記アクセスユニット内のスプライスされたリードの存在を示すスプライスされたリードフラグ(ここで0が設定されるとスプライスされたリードは存在しないことを示す)、
を1つ以上含む、
請求項15に記載の方法。 - 前記構成パラメータは、マッピングされていないシーケンスリード(クラスU)を含むアクセスユニット内の複数のシグネチャの使用を示すマルチプルシグネチャ塩基フラグをさらに含む、
請求項15又は16に記載の方法。 - 前記構成パラメータは、コード化されたシグネチャを表す各整数のビット単位のサイズを示すシグネチャサイズをさらに含む、
請求項15乃至17のいずれか一項に記載の方法。 - 前記構成パラメータは、前記mscore記述子にコード化されたマルチプルアライメントスコアの指数部をコード化するために使用されるビット数を示すスコア指数パラメータをさらに含む、
請求項15乃至18のいずれか一項に記載の方法。 - 前記構成パラメータは、前記mscore記述子にコード化されたマルチプルアライメントスコアの仮数部分をコード化するために使用されるビット数を示すスコア仮数パラメータをさらに含む、
請求項15乃至19のいずれか一項に記載の方法。 - 前記エントロピーデコード化及びゲノム記述子のバイナリ化解除は、前記記述子の少なくとも1つの記述子について、前記記述子の少なくとも1つの他の記述子について使用されるエントロピーデコード化と異なるエントロピーデコード化を使用する、
請求項13乃至20のいずれか一項に記載の方法。 - 請求項1乃至12のいずれか一項に記載のコード化方法を実施するためのコード化手段を備えるコード化装置。
- 請求項13乃至21のいずれか一項に記載のデコード化方法を実施するためのデコード手段を備えるデコード化装置。
- 請求項1乃至12のいずれか一項に記載のコード化方法を実行するための命令を含むコンピュータプログラム。
- 請求項13乃至21のいずれか一項に記載のデコード化方法を実行するための命令を含むコンピュータプログラム。
- 請求項24に記載のコンピュータプログラムを保存するためのストレージ。
- 請求項25に記載のコンピュータプログラムを保存するためのストレージ。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2017/017842 WO2018071055A1 (en) | 2016-10-11 | 2017-02-14 | Method and apparatus for the compact representation of bioinformatics data |
USPCT/US2017/017842 | 2017-02-14 | ||
PCT/US2017/041579 WO2018071078A1 (en) | 2016-10-11 | 2017-07-11 | Method and apparatus for the access to bioinformatics data structured in access units |
USPCT/US2017/041579 | 2017-07-11 | ||
PCT/US2017/066863 WO2018151788A1 (en) | 2017-02-14 | 2017-12-15 | Method and systems for the efficient compression of genomic sequence reads |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020510907A JP2020510907A (ja) | 2020-04-09 |
JP7324145B2 true JP7324145B2 (ja) | 2023-08-09 |
Family
ID=69374527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019542691A Active JP7324145B2 (ja) | 2017-02-14 | 2017-12-15 | ゲノムシーケンスリードの効率的圧縮のための方法及びシステム |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP3583250B1 (ja) |
JP (1) | JP7324145B2 (ja) |
EA (1) | EA201991907A1 (ja) |
MX (1) | MX2019009681A (ja) |
WO (1) | WO2018151788A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4179539A1 (en) * | 2020-07-10 | 2023-05-17 | Koninklijke Philips N.V. | Genomic information compression by configurable machine learning-based arithmetic coding |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007299396A (ja) | 2006-04-27 | 2007-11-15 | General Electric Co <Ge> | 患者の再識別のためのシステムおよび方法 |
US20150227686A1 (en) | 2014-02-12 | 2015-08-13 | International Business Machines Corporation | Lossless compression of dna sequences |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160100177A1 (en) * | 2014-10-06 | 2016-04-07 | Qualcomm Incorporated | Non-uniform exponential-golomb codes for palette mode coding |
-
2017
- 2017-12-15 WO PCT/US2017/066863 patent/WO2018151788A1/en active Search and Examination
- 2017-12-15 JP JP2019542691A patent/JP7324145B2/ja active Active
- 2017-12-15 MX MX2019009681A patent/MX2019009681A/es unknown
- 2017-12-15 EP EP17896462.3A patent/EP3583250B1/en active Active
- 2017-12-15 EA EA201991907A patent/EA201991907A1/ru unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007299396A (ja) | 2006-04-27 | 2007-11-15 | General Electric Co <Ge> | 患者の再識別のためのシステムおよび方法 |
US20150227686A1 (en) | 2014-02-12 | 2015-08-13 | International Business Machines Corporation | Lossless compression of dna sequences |
Non-Patent Citations (2)
Title |
---|
"CRAM format specification (version 3.0)",[online],[令和2年12月7日検索],2016年04月25日,https://web.archive.org/web/20160425054143/http://samtools.github.io/hts-specs/CRAMv3.pdf,インターネット |
"SAM",[online],[令和2年12月7日検索],2015年03月11日,https://web.archive.org/web/20150311045750/http://davetang.org/wiki/tiki-index.php?page=SAM,インターネット |
Also Published As
Publication number | Publication date |
---|---|
EP3583250A1 (en) | 2019-12-25 |
WO2018151788A1 (en) | 2018-08-23 |
EA201991907A1 (ru) | 2020-01-20 |
MX2019009681A (es) | 2019-10-09 |
JP2020510907A (ja) | 2020-04-09 |
EP3583250A4 (en) | 2020-12-16 |
EP3583250B1 (en) | 2023-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110678929B (zh) | 用于高效压缩基因组序列读段的方法和系统 | |
EP4075438B1 (en) | Efficient data structures for bioinformatics information representation | |
EP3583249B1 (en) | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads | |
JP7362481B2 (ja) | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 | |
AU2018221458B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
CN110168652B (zh) | 用于存储和访问生物信息学数据的方法和系统 | |
US20200051664A1 (en) | Method and apparatus for compact representation of bioinformatics data | |
JP7324145B2 (ja) | ゲノムシーケンスリードの効率的圧縮のための方法及びシステム | |
CN110663022B (zh) | 使用基因组描述符紧凑表示生物信息学数据的方法和设备 | |
AU2017399715A1 (en) | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads | |
NZ757185B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
EA043338B1 (ru) | Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов | |
EA040022B1 (ru) | Способ и устройство для компактного представления данных биоинформатики |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20191004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220131 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7324145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |