JP2020510907A - ゲノムシーケンスリードの効率的圧縮のための方法及びシステム - Google Patents
ゲノムシーケンスリードの効率的圧縮のための方法及びシステム Download PDFInfo
- Publication number
- JP2020510907A JP2020510907A JP2019542691A JP2019542691A JP2020510907A JP 2020510907 A JP2020510907 A JP 2020510907A JP 2019542691 A JP2019542691 A JP 2019542691A JP 2019542691 A JP2019542691 A JP 2019542691A JP 2020510907 A JP2020510907 A JP 2020510907A
- Authority
- JP
- Japan
- Prior art keywords
- descriptor
- signaling
- read
- sequence
- configuration parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 237
- 238000007906 compression Methods 0.000 title description 32
- 230000006835 compression Effects 0.000 title description 32
- 230000008569 process Effects 0.000 claims abstract description 42
- 230000011664 signaling Effects 0.000 claims description 121
- 238000013507 mapping Methods 0.000 claims description 76
- 239000002773 nucleotide Substances 0.000 claims description 53
- 125000003729 nucleotide group Chemical group 0.000 claims description 53
- 229910052757 nitrogen Inorganic materials 0.000 claims description 12
- 229910052698 phosphorus Inorganic materials 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims 3
- 230000009466 transformation Effects 0.000 abstract description 13
- 238000012268 genome sequencing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 abstract 1
- 238000012163 sequencing technique Methods 0.000 description 31
- 238000013459 approach Methods 0.000 description 11
- 238000006467 substitution reaction Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 108020004414 DNA Proteins 0.000 description 7
- 102000053602 DNA Human genes 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 229920002477 rna polymer Polymers 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 4
- 238000012165 high-throughput sequencing Methods 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013144 data compression Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 101150071882 US17 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 235000019506 cigar Nutrition 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/12—Protecting executable software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/20—Heterogeneous data integration
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3088—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3091—Data deduplication
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3091—Data deduplication
- H03M7/3095—Data deduplication using variable length segments
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Organic Chemistry (AREA)
- Technology Law (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Biochemistry (AREA)
Abstract
Description
[関連出願の相互参照]
1.CRAMは、特定の機能を共有するデータインデックスとデータサブセットへのランダムアクセスをサポートしていない。データのインデックスは仕様の範囲外であり(CRAMの仕様v.3.0のセクション12を参照)、別のファイルとして実装される。対照的に、本明細書に記載されている本発明のアプローチは、コード化プロセスと統合されたデータ索引方法を採用し、コード化された(すなわち圧縮された)ビットストリームに索引が埋め込まれている。
2.CRAMは、あらゆる種類のマッピングされたリード(完全に一致するリード、置換のみを伴うリード、挿入又は削除を伴うリード(「インデル(indels)」とも呼ばれる))を含むことができるコアデータブロックによって構築される。リファレンスシーケンスに関するマッピングの結果に従って、データの分類やクラス内のリードのグループ化の概念は無い。これは、特定の機能を持つリードのみが検索される場合でも、全てのデータを検査する必要があることを意味する。このような制約は、コード化の前にクラスでデータを分類及び分割する、本発明により解決される。
3.CRAMは、各リードを「CRAMレコード」にカプセル化するという概念に基づいている。これは、特定の生物学的特徴(例えば:置換を伴うが「インデル(indels)」を伴わないリード、又は完全にマッピングされたリード)によって特徴づけられるリードを検索する場合、それぞれ完全な版の「記録」を検査する必要性を意味する。
対照的に、本発明では、別々の情報ブロックに別々にコード化されたデータクラスの概念があり、各リードをカプセル化するレコードの概念はない。これにより、各(ブロックの)リードをデコード化してその特徴を検査することなく、特定の生物学的特性(例えば:置換を伴うが「インデル(indels)」を伴わないリード、又は完全にマッピングされたリード)を有するリードのセットへのより効率的なアクセスが可能になる。
4.CRAMレコードでは、各レコードフィールドは特定のフラグに関連付けられ、各CRAMレコードには異なる種類のデータを含めることができるため、コンテキストの概念がなく、各フラグは常に同じ意味を持つ必要がある。このコード化メカニズムは冗長な情報を導入し、効率的なコンテキストの塩基のエントロピーコード化の使用を妨げる。
これに対し、本発明では、データを示すフラグは、データが属する情報を「ブロック」によって本質的に定義されるので、データを示すフラグの概念は存在しない。これは、使用されるべきシンボルの数が大幅に減少し、その結果、より効率的な圧縮に帰着する情報ソースのエントロピーが減少することを意味する。このような改善が可能なのは、異なる「ブロック」を使用することにより、エンコーダが、コンテキストに応じて異なる意味を有する各ブロックにわたって同じシンボルを再利用することが可能になるためである。CRAMでは、コンテキストの概念がなく、各CRAMレコードに任意の種類のデータを含めることができるため、各フラグは常に同じ意味を持つ必要がある。
5.CRAMの置換では、挿入と削除は異なる記述子、情報ソースのアルファベットのサイズを増加させ、より高い情報ソースのエントロピーをもたらすオプションを用いて表現される。対照的に、開示された発明のアプローチは、単一のアルファベットおよび置換、挿入および欠落のためのコード化を使用する。これはコード化とデコード化プロセスをより単純にし、コード化が高圧縮性能で特徴付けられるビットストリームを生じ、エントロピーの低いソースモデルを生成する。
前記リードを1つ以上のリファレンスシーケンスにアラインメントさせ、それによってシーケンスリードを作成し、
前記1つ以上のリファレンスシーケンスとの指定されたマッチング規則に従って前記アライメントされたリードを分類し、それによってアライメントリードのクラスを作成し、
前記分類されたアライメントリードを、構文要素のマルチプルブロックとしてコード化し、
構文要素の前記ブロックをヘッダ情報で構成し、それによって連続的なアクセスユニットを作成すること、を含み、
前記コード化は、前記ゲノム記述子をバイナリ化及びエントロピーコード化する、
ことを含む。
リファレンスシーケンスのリードのマッピング位置をシグナリング(signaling)するためのpos、
アライナがマッピングロセスの結果をさらに指定できるようにするために、リードがマッピングフラグにマッピングされたDNA又はRNA鎖をシグナリングするためのrcomp、
を含む。
リファレンスシーケンスに関してアライメントされたリードのミスマッチの位置をシグナリングするためのmmpos、
前記関連付けられた位置のリファレンスシーケンスに関するミスマッチの類型をシグナリングするためのmmtype、
をコード化することをさらに含む。
マッピング手順によって単一のリード又はペアリードに関連付けられたマルチプルマッピング位置をシグナリングするためのmmap、
スプライスされたリードが存在することの識別をシグナリングするためのmsar(すなわち、リードは、チャンクに分割された場合、リファレンスシーケンス上の単一の位置にマッピングされた単一の連続したリードとしてマッピングされた場合よりも、マッチング精度の高いマッピング位置を見つける)、
をコード化することをさらに含む。
コンティグとリファレンスシーケンス間のミスマッチの位置をシグナリングするためのrftp、ミスマッチの位置は特殊なターミネータ文字で終了し、
コンティグとリファレンスシーケンス間のミスマッチの類型をシグナリングするrftt、
をコード化することをさらに含む。
前記pos記述子は、二重切捨単項コード又は単一の二重切捨単項コードを使用してバイナリ化され、
前記rcomp記述子は、切捨単項コードを使用してバイナリ化され、
前記マッピングのflags記述子は、バイナリコード化を使用してバイナリ化される。
リファレンスシーケンスに関するアライメントされたリードのミスマッチの位置をシグナリングするための前記mmpos記述子は、分割ユニットごとに切捨単項コードを使用してバイナリ化され、
関連する位置のリファレンスシーケンスに関してミスマッチの類型をシグナリングするための前記mmtype記述子は切捨単項コードを使用してバイナリ化される。
マッピング手順によって単一のリード又はリードペアに関連付けられたマルチプルマッピング位置をシグナリングするための前記mmap記述子は、分割ユニットワイズ切捨単項(Split Unit-wise Truncated Unary)コードを使用してバイナリ化され、
前記スプライスされたリードの存在の識別をシグナリングするための前記msar記述子は、符号付き指数ゴロム(Signed Exponential Golomb)コードを使用してバイナリ化される。
前記rftp記述子は、コンティグとリファレンスシーケンスとの間のミスマッチの位置をシグナリングするために、バイナリコード化と分割ユニットワイズ切捨単項(Split Unit-wise Truncated Unary)コードの連結を用いてバイナリ化され、
コンティグとリファレンスシーケンスの間のミスマッチのタイプをシグナリングするための前記rftt記述子は、バイナリコード化と切捨単項(Truncated Unary)コードの連結を使用してバイナリ化される。
ヘッダ情報を用いてゲノム記述子のマルチプルブロックを抽出して前記コード化されたゲノムデータを含むアクセスユニットを解析し、前記マルチプルブロックをデコード化することを含み、
前記マルチプルブロックのデコード化は、1つ以上のリファレンスシーケンスに関する分類を定義する特定のマッチング規則に従ってアライメントされたリードを抽出するために、ゲノム記述子をデコード化及びバイナリ化解除することを含む。
リファレンスシーケンス上のリードのマッピング位置をシグナリングするためのpos記述子、
アライナがマッピングロセスの結果をさらに指定できるようにするために、リードがマッピングフラグにマッピングされたDNA又はRNA鎖をシグナリングするためのrcomp記述子、を含む。
リファレンスシーケンスに関してアライメントされたリードのミスマッチの位置をシグナリングするためのmmpos、
前記関連付けられた位置のリファレンスシーケンスに関するミスマッチの類型をシグナリングするためのmmtype、
をデコード化することをさらに含む。
マッピング手順によって単一のリード又はペアリードに関連付けられたマルチプルマッピング位置をシグナリングするためのmmap、
スプライスされたリードが存在することの識別をシグナリングするmsar(すなわち、リードは、チャンクに分割された場合、リファレンスシーケンス上の単一の位置にマッピングされた単一の連続したリードとしてマッピングされた場合よりも、マッチング精度の高いマッピング位置を見つける)、
をデコード化することをさらに含む。
コンティグとリファレンスシーケンス間のミスマッチの位置をシグナリングするためのrftp、ミスマッチの位置は特殊なターミネータ文字で終了し、
コンティグとリファレンスシーケンス間のミスマッチの類型をシグナリングするためのrftt、
をデコード化することをさらに含む。
1.データ又はメタデータのクラスごとに効率的なソースモデルを提供することにより構成される情報ソースのエントロピーの減少による圧縮性能の向上;
2.圧縮されたデータ及びメタデータの一部に対して、圧縮されたドメイン内で直接、更なる処理目的のために選択的アクセスを行う可能性;
3.新しいシーケンシングデータ及び/又はメタデータ及び/又は特定のシーケンスリードのセットに関連する新しい解析結果を用いて、圧縮データおよびメタデータを増分的に(すなわち、デコード化と再コード化を必要としない)更新する可能性。
アクセスユニット開始位置:アクセスユニットに含まれる全てのゲノムレコードのうち、左端のゲノムレコード位置。
アクセスユニットの終了位置:アクセスユニットに含まれる全ゲノムレコードのマッピングされた全塩基の中で右端の塩基位置。
アクセスユニット範囲:アクセスユニットに含まれる全てのゲノムレコードのうち、アクセスユニット開始位置と右端のゲノムレコード位置の間に含まれるゲノム範囲。
アクセスユニットサイズ:アクセスユニットに含まれるゲノムレコードの数。
アクセスユニットカバー領域:アクセスユニット開始位置とアクセスユニット終了位置の間に含まれるゲノム範囲。
1.特定の塩基を呼び出す確証がないために、塩基の呼び出しをスキップする決定。これは未知の塩基と呼ばれ、「N」(「nタイプ」のミスマッチとして示される)と表示される;
2.シーケンスされたサンプルに実際に存在する核酸を表すものとは異なるシンボル(すなわち、異なる核酸を表す)の使用;これは通常「置換エラー」(「sタイプ」のミスマッチとして示される)と呼ばれる;
3.実際に存在する核酸を指し示さない追加のシンボルを1つのシーケンスリードへ挿入;これは通常、「挿入エラー」と呼ばれる(「iタイプ」のミスマッチとして示される);
4.シーケンスされたサンプルに実際に存在する核酸を表すシンボルを、1つのシーケンスリードから削除;これは通常「削除エラー」と呼ばれる(「dタイプ」のミスマッチとして示される);
5.元のシーケンスの現実を反映しない単一のフラグメントへの1つ以上のフラグメントの組換え;これは通常、アライナが塩基をクリップすると決定する結果となる(「cタイプ」のミスマッチとして示される)。
・ 部分的(partial)(1×未満)は、リファレンスゲノムの一部が利用可能なシーケンスリードによってマッピングされていない場合であり;
・ シングル(single)(1×)は、リファレンスゲノムの全てのヌクレオチドが、シーケンスリードに存在する唯一のシンボルによってマッピングされる場合であり;
・ マルチプル(multiple)(2×、3×、N×)は、リファレンスゲノムの各ヌクレオチドが複数回マッピングされる場合である。
1 シーケンスリードは、リファレンスシーケンスに関するアラインメントの結果に従って、データクラスに分類され、区分化される。このような分類及び区分化は、アラインメント結果及びマッチング精度に関連する基準に従って、コード化データへの選択的アクセスを可能にする。
2 分類されたシーケンスリード及び関連するメタデータは、均一な統計的特性を有するブロックに編成されたゲノム記述子によって表され、低い情報エントロピーによって特徴付けられる個別の情報ソースの定義を可能にする。
3 各クラスの統計的特性に適合した個別のソースモデルを用いて、それぞれ分離された情報ソースをモデル化する可能性と、リードの各クラス内及び個別にアクセス可能なデータユニット(アクセスユニット)の各記述子ブロック内でソースモデルを変更する可能性。適切な変換、バイナリ化及びコンテキスト適応確率モデルと、各ソースモデルの統計的性質に従った関連エントロピーコード化の採用。
4 全ての情報が必要でない場合、全ての記述子ブロックをデコード化する必要なしに、シーケンシングデータ及び関連するメタデータへの選択的アクセスを可能にするための記述子ブロック間の対応関係及び依存関係の定義。
5 記述子ブロックの情報ソースのエントロピーを減少させるように、「既存の」(「外部の」とも呼ばれる)リファレンスシーケンス又は「既存の」リファレンスシーケンスに適切な変換を適用することによって得られる「変換」されたリファレンスシーケンスに関する、各シーケンスデータクラス及び関連するメタデータブロックのコード化。前記の記述子は、異なるデータクラスに分割されたリードを表す。「既存の」リファレンス又は「変換」「既存の」リファレンスシーケンスを参照して、対応する記述子を使用するリードのコード化に続いて、低エントロピーで最終的なコード化表現を見つけ、より高い圧縮効率を達成するために、種々のミスマッチの発生を使用して、リファレンスシーケンスに対する適切な変換を定義することができる。
6 一連の制約を満足しない既存のリファレンスシーケンスに関して、ある程度のマッチング精度を示すリードのクラスをコード化するために使用される一つ以上のリファレンスシーケンス(「内部の」リファレンスも呼ばれ、本明細書では「外部の」リファレンスシーケンスとも呼ばれる「既存の」リファレンスシーケンスと区別する)の構築。このような制約は、「内部の」リファレンスシーケンスに関してアライメントされたリードのクラスを圧縮形式で表現するためのコード化コスト及び「内部の」リファレンスシーケンス自体を表現するためのコストが、アライメントされていないリードのクラスを逐語的にコード化するよりも、又は変換を伴わずに又は伴う「外部の」リファレンスシーケンスを使用するよりも低いという目的で設定される。
7 ヘッダ情報の形で圧縮されたゲノムデータに埋め込まれたデータ構造によってコード化とデコード化の両方のプロセスを支配する構成パラメータの送信。このような構成パラメータは、圧縮性能を改善するために、コード化プロセス中に更新することができる。このような更新は、更新された構成データ構造の形式で圧縮されたコンテンツで伝達される。
[マッチング規則に基づくシーケンスリードの分類]
1.リファレンスシーケンス内の領域は、エラーなしのシーケンスリードとマッチングすることがわかる(つまり、完全なマッピング)。そのようなヌクレオチドのシーケンスは、「完全にマッチングするリード」と呼ばれるか、「クラスP」と表示される。
2.リファレンスシーケンス内の領域は、シーケンスリードと、リードを生成するシーケンシング装置が塩基(又はヌクレオチド)を呼び出せなかった位置の数によってのみ決定されるミスマッチの数と類型とマッチングすることが見出される。この種のミスマッチは、未定義のヌクレオチド塩基を示すために用いられる文字である「N」によって示される。本開示では、この種のミスマッチを「nタイプ」ミスマッチと呼ぶ。このようなシーケンスは「クラスN」のリードに属する。リードが「クラスN」に属するように分類されたら、マッチングの不正確さの程度を所定の上限に制約し、有効なマッチングと見なされるものとそうでないものとの境界を設定することが有用である。したがって、クラスNに割り当てられるリードも、リードに含めることができる未定義の塩基(すなわち、「N」と呼ばれる塩基)の最大数を定義するしきい値(MAXN)を設定することによって制約される。このような分類は、クラスNに属する全てのリードが、対応するリファレンスシーケンスを参照するときに共有する必要な最小マッチング精度(又は最大マッチング度)を黙示的に定義し、これは、選択的データ検索を圧縮データに適用するための有用な基準を構成する。
3.リファレンスシーケンス中の領域は、シーケンスリードと、リードを生成するシーケンシング装置がいずれのヌクレオチド塩基も呼び出せなかった位置の数によって決定されたミスマッチの数及び類型がマッチングすることが見出される。仮に、それが存在する場合(すなわち「nタイプ」ミスマッチ)、それに加えて、リファレンス中に存在するものとは異なる塩基が呼び出されたミスマッチの数。「置換」と呼ばれるこのような種類のミスマッチは、一塩基変異(SNV)又は一塩基多型(SNP)とも呼ばれる。本開示では、この種のミスマッチは、「sタイプ」ミスマッチとも呼ばれる。シーケンスリードは「Mミスマッチリード」として参照され、「クラスM」に割り当てられる。「クラスN」の場合と同様に、「クラスM」に属する全てのリードについても、マッチングの不正確さの程度を特定の上限に設定し、有効なマッチングと見なされるものとそうでないものとの境界を設定すると便利である。したがって、クラスMに割り当てられたリードは、しきい値のセットを定義することによって制限される。もし存在するならば、その一つは「nタイプ」のミスマッチの数「n」(MAXN)、そして、もう1つは置換の数「s」(MAXS)であり、第3の制約は、数「n」と「s」の両方の関数f(n,s)によって定義されるしきい値である。このような第3の制約により、意味のある選択的アクセス基準に従って、マッチングする不正確さの上限を持つクラスを生成できる。例えば、制約としてではなく、f(n,s)は(n+s)1/2又は(n+s)又は「クラスM」に属するリードに対して許容される最大マッチング不正確レベルに境界を設定する任意の線形式又は非線形式であり得る。このような境界は、さまざまな目的のためにシーケンスリードを分析する際に、所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。なぜならば、この境界は、一つの種類又は他方に適用される単純しきい値を超える「nタイプ」ミスマッチ及び「sタイプ」ミスマッチの数(置換)の任意の可能な組み合わせに対して、さらなる境界を設定することを可能にするからである。
4.第4のクラスは、「挿入」、「削除」(インデル(indels)とも呼ばれる)、及び「クリップ」のいずれかの種類の少なくとも1つのミスマッチを示すシーケンスリードで構成され、クラスN又はMに属するミスマッチのタイプが存在する場合、このようなシーケンスは「リードミスマッチ」と呼ばれ、「クラスI」に割り当てられる。挿入は、リファレンスに存在しないがリードシーケンスには存在する1つ以上のヌクレオチドの追加のシーケンスによって構成される。本開示では、このタイプのミスマッチは「iタイプ」のミスマッチと呼ばれる。文献においては、挿入されたシーケンスがシーケンスの端にある場合、それは「ソフトクリップ」とも呼ばれる(すなわち、ヌクレオチドはリファレンスにマッチングしていないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的に、アライメントされたリードにおいて保持される)。本開示では、この種のミスマッチは「cタイプ」ミスマッチと呼ばれる。ヌクレオチドの保持又は廃棄は、シーケンシング装置又はその後のアライメント段階によって決定されるリードを受信及び処理する本発明で開示されるリードの識別子によってではなく、アライメント段階によって行われる決定である。削除は、リファレンスに関するリードの「ホール」(ヌクレオチドの欠落)である。本開示では、このタイプのミスマッチは「dタイプ」のミスマッチと呼ばれる。クラス「N」及び「M」の場合と同様に、マッチングの不正確さに対する制約を定義することは可能でありかつ適切である。「クラスI」に対する一連の制約の定義は、「クラスM」に使用されたものと同じ原則に基づいており、表2の最後の行に表される。クラスIのデータに対して許容される各タイプのミスマッチに対するしきい値の他に、さらなる制約は、ミスマッチの数「n」、「s」、「d」、「i」及び「c」、w(n,s,d,i,c)の関数によって決定されるしきい値によって定義される。そのような追加の制約により、意味のあるユーザー定義の選択的アクセス基準に従って、マッチングの不正確さの上限を持つクラスを生成できる。例えば、これに限定されるものではないが、w(n,s,d,i,c)は、(n+s+d+i+c)1/5又は(n+s+d+i+c)、又は「クラスI」に属するリードに対して許容される最大マッチング不正確レベルに境界を設定する任意の線形式又は非線形式であり得る。このような境界は、さまざまな目的のためにシーケンスリードを解析するとき、所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。なぜならば、この境界は、許容可能なミスマッチの各類型に適用される単純なしきい値を超えて、「クラスI」のリードにおいて許容可能なミスマッチの数の任意の可能な組み合わせに対して、さらなる境界を設定することを可能にするからである。
5.第5のクラスは、リファレンスシーケンスを参照するときに各データクラスに対して有効であると考えられるマッピング(すなわち、表2で指定された最大マッチング精度の上限を定義するマッチング規則のセットを満たしていない)を見つけない全てのリードを含むこのようなシーケンスは、リファレンスシーケンスを参照するときに「非マッピング」と呼ばれ、「クラスU」に属するものとして分類される。
6.ペアエンドリードの場合、第6のクラスが定義され、その中では、ペアの一方のリードはリファレンスゲノムのいずれの位置にもマッピングすることができず(クラスUに属する)、他方のリードはP、N、M、Iクラスのいずれかに属する。このようなクラスは、ハーフマッピングから「HMクラス」と呼ばれる。
[マッチング規則によるリードペアの分類]
P<N<M<I
ここで、「クラスP」の優先順位が最も低く、「クラスI」の優先順位が最も高くなる。
[マッチング精度の異なるサブクラスを伴うシーケンスリードデータ・クラスN、M、及びIのマッチング規則・パーティション]
N<M<I
ここで、Nが最も優先度が低く、Iが最も優先度が高い。
N1<N2<・・・<Nk
M1<M2<・・・<Mj
I1<I2<・・・<Ih
ここで、最も高いインデックスが最も高い優先順位を有する。
[「外部の」リファレンスシーケンスの変換]
RS2=A(RS1)
として表すことができる。
・ 変換を適用する前にリファレンスを参照したときに存在しなかったリードの表現にミスマッチが生じることがある。
・ ミスマッチの類型を変更することができ、リードにはGの代わりにAが含まれ、他の全てのリードにはGの代わりにCが含まれるが、ミスマッチは同じ位置に残る。
・ 異なるデータクラス及び各データクラスのデータのサブセットは、同じ「変換された」リファレンスシーケンス、又は同じ既存のリファレンスシーケンスに異なる変換を適用することによって取得されたリファレンスシーケンスを参照する場合がある。
[ゲノム・データセット・ヘッダ]
[ゲノム記述子]
[pos記述子]
ここで、p0は、アクセスユニットの最初のゲノムレコードに対して、アクセスユニットヘッダから検索されたマッピング値である。
ここで、
・ pは、塩基の基準シーケンス上の絶対位置であり、
・ pstartは、塩基を含むゲノムレコードのマッピング位置であり、
・ ninsは、同じゲノムレコード内の塩基の前に挿入された塩基の数であり、
・ ndelは同じゲノムレコード内の塩基に先行する欠欠落した塩基の数であり、
・ dstartは、ゲノムレコード位置からのゲノムレコード内の塩基のオフセットであり、
・ デルタ(delta)は、リードペアにおける2つのリード間の(符号付き(signed))ペアの距離である。これはゲノムレコードの2回目のリードにおける位置に対してのみ使用されなければならない。
[rcomp記述子]
[flags記述子]
[mmpos]
・ mmabsiは、リード又はリードペアにおける第i番目のミスマッチの基準シーケンスにおける絶対位置であり、
・ mmposiはゲノムレコードのmmpos記述子の第i番目の値であり、
・ len1は、リードペアのリード1の長さであり、
・ deltaは、ペア記述子に対して定義され、図5に示すように計算されたリード1とリード2との間のペアリング距離である。
[mmtype]
[clips]
[ureads]
[rlen]
[pair]
1.両方のリードが同じリファレンスにマッピングされ、同じゲノムレコードにコード化される場合、ペアリング距離は、リード1の左端にマッピングされた塩基とリード2の左端にマッピングされた塩基との間の距離として定義される。ペアリング距離の例を図8に示す。
2.第1のリードと同じリファレンスシーケンス上の第2のリードの絶対マッピング位置として。
3.第1のリードのリファレンスシーケンスとは異なるリファレンスシーケンス上の第2のリードのリファレンスシーケンスの絶対マッピング位置として。
[リード距離]
・ LSBは符号(符号ビットが0の場合、数値は負ではなく、符号ビットが1の場合、数値は負である)を表すために使用され、
・ 残りの15ビットは、ペアリング距離の絶対値を表すために使用される。
[リード距離のデコード化プロセス]
[mscore]
・ 1つの符号ビット(S)
・ 指数部の11ビット(E)
・ 少数部の53ビット(S)
スコア=-1s×10E×M
[rgroup]
[msar]
・ マッピングされたセグメント長
・ セカンダリアライメント及び/又はスプライスされたリードのための異なるマッピング連続性(例:CIGAR文字列)
[マルチプルアライメント]
[mmap]
[マルチプルアライメントのストランド性]
[マルチプルアライメントのスコア]
を計算する。
1.左端のリード位置に1つのアライメントがあり、右端のアライメントに2つの代替アライメントがある場合、Nは値1を、M1は値2をとる。
2.左端のリードで2つの代替アライメントが検出され、右端のアライメントのみが検出された場合、Nは値2を、M1は値1を、M2は値0をとる。
・ 右端のリードは
個のアライメントを有する。
・ 左端のリードの第i番目のアラインメントが、k<iの左端のリードの第k番目のアラインメントと既にペアになっている右端のリードのアラインメントとペアになっている場合、Miのいくつかの値は=0になることがある。
・ ペア記述子の1つの予め定められた値は、他のAUの範囲に属するアライメントを通知するために存在することができる。もし、それが存在する場合は、常に現在のレコードの最初のペア記述子である。
[スプライスを伴うマルチプルアライメント]
・ 左端のリードは、N個のスプライス(N1≦N)を伴うN1個のアライメントを有する。
・ Nは、左端のリードの全てのアラインメントに存在するスプライスの数を表し、mmap記述子の最初の値としてコード化される。
・ 右端のリードは、
個のスプライスであり、ここで、Miは、左端のリードの第i番目のアラインメントに対応する、右端のリードのスプライスの数である(1≦i≦N1)。換言すれば、Pは、右端のリードのスプライスの数を表し、mmap記述子の最初の値に続くN個の値を用いて計算される。
・ N1及びN2は、第1及び第2のリードのアラインメントの数を表し、msar記述子のN+P値を使用して計算される。
・ 左端にはN1個のアライメントとN個のスプライス(N1≦N)がある。N1=N及びN2=Pの場合、スプライスは存在しない。
・ 右端のリードは、
個のスプライスtj(1≦j≦P)及びN2(N2≦P)個のアライメントを有する。
・ pair記述子の数は、NP=Max(N1,P)+M0として計算でき、ここで、
・ M0は、値が0のMiの数であり
・ NPは、1つの特別なpair記述子が他のAUにアラインメントが存在することを示す場合に1だけ増分する必要がある。
[アライメントスコア]
スコアの数(Number of scores)=MAX(N1,N2)+M0
ここで、M0はMi=0の総数を表す。
[スプライスのないマルチプルアライメントの記述子]
[プライスを有するマルチプルアライメントの記述子]
[異なるシーケンス上のマルチプルアライメント]
[挿入、削除、マッピングされていない部分を含むマルチプルアラインメント]
[未加工のデータ]
[ureads]
[rtype]
[記述子のバイナリ化]
・ symVal:バイナリ化されるべきゲノム記述子の非バイナリ値。
・ cLength:値がバイナリ化されるビット数を表す。
・ cMax:バイナリ化できる最大値。大きい値は切り捨てられる。
[バイナリコード化(BI)]
[切捨単項(TU)バイナリ化]
binValueはバイナリ化された値で、0又は1のいずれかである。
[指数ゴロム(EG)のバイナリ化]
ここで、read_bits関数の呼び出しは、入力として渡されたパラメータに等しいビット数を記憶媒体から読み取る。read_bits(「leadingZeroBits」)から返された値は、最上位ビットが最初に書き込まれる符号なしの整数のバイナリ表現として解釈される。
・ デコード化されたゲノム記述子の値は、バイナリ化された記述子に対応するsymVal値に等しい
・ デコード化されたゲノム記述子の値は、例えばhttps://en.wikipedia.org/wiki/Exponential-Golomb_codingで定義されたように、symValを入力として符号付き0次指数ゴロムデコーディングを適用することによって計算される。
[符号付き指数ゴロム(SEG)のバイナリ化]
[切捨指数ゴロム(TEG)のバイナリ化]
・ 値Min(symVal、tegParam)に対してcMac=tegParamとなる切捨単項バイナリ化
・ symVal !=0の場合、Abs(symVal−tegParam)値に対する指数ゴロムのバイナリ化
[符号付き切捨指数ゴロム(STEG)のバイナリ化]
1.Abs(symVal)の切捨指数ゴロムのバイナリ化
2.symVal !=0の場合、1(symVal<0の場合)又は0(symVal>0の場合)に等しい1ビットのフラグ
[分割ユニットワイズ切捨単項(SUTU)バイナリ化]
[符号付き分割ユニットワイズ切捨単項(SSUTU)バイナリ化]
・ 値Abs(symVal)に対するSUTUバイナリ化。
・ symVal !=0の場合、1に等しい(symVal<0の場合)か、0に等しい(symVal>0の場合)の1ビットフラグである。
decode_cabac_SUTU()は、SUTUバイナリ化のためのcabacデコード化プロセスを表す。
[二重切捨単項(DTU)バイナリ化]
・ 値Min(Abs(symVal)、cMax)に対するTUバイナリ化の第1の例。
・ Abs(symVal)>cMAxの場合、Abs(symVal)−cMaxに対するSUTUバイナリ化の第2の例。
decode_cabac_TU()は、TUバイナリ化のためのcabacデコード化プロセスを表す。
decode_cabac_SUTU()は、SUTUバイナリ化のためのcabacのデコード化プロセスを表す。
[符号付き二重切捨単項(SDTU)バイナリ化]
・ 値Abs(symVal)に対するDTUバイナリ化。
・ symVal !=0の場合、1に等しい(symVal<0の場合)か、0に等しい(symVal>0の場合)の1ビットのフラグである。
sign_flagは、ctxTdxによって識別されるコンテキスト変数のビットのcabacデコード化を表す。
decode_cabac_DTU()は、DTUバイナリ化によるcabacデコード化を表す。
[バイナリ化のパラメータ]
cMaxは、バイナリ化される最大値を表す。大きい値は切り捨てられる。
cLengthは、バイナリ化される値のビット数を表す。
tegParamは、本開示においてTEGバイナリ化用に定義されるtegParam変数を表す。
stegParamは、本開示においてSTEGバイナリ化用に定義されるstegParam変数を表す。
splitUnitSizeは、本開示でSUTU、SSUTU及びDTUバイナリ化用に定義されるsplitUnitSize変数を表す。
outputSymSizeは、本開示でSUTU、SSUTU、DTU及びSDTUバイナリ化用に定義されるoutputSymSize変数を表す。
[本発明の技術的利点の証拠]
[記述子に適用されるバイナリ化]
[rftp及びrftt]
1.ターミネータ(terminator)の値は、0又は1としてバイナリ化できる。この例では、0を選択している。
2.ターミネータ(terminator)=0の場合、splitUnitSize=4でのバイナリ化No.6が使用され、outputSymbolSize=12が使用され、次のバイナリ文字列がrftpの値に関連付けられる。
a. 5=11110
b. 2=110
c. 5=11110
d. 1=10
e. 2=110
1.リファレンスゲノム中に存在するヌクレオチドを知っていれば、コード化される可能性のある記号から対応する記号を取り除く。すなわち。この例の最初のミスマッチでは、リファレンス内の対応するシンボルが「G」である場合、コード化される可能性のあるシンボルのスペースは0、1、3、4である。
2.コード化されるデータ上のミスマッチの類型のシンボルの頻度が測定され、0から3のインデックスが付けられる。インデックス0は最も頻度の高いミスマッチに影響され、インデックス3はより頻度の低いミスマッチに影響される。この例では、インデックス作成は次のようになる。{0=>3、1=>0、2=>4、3=>1}
3.与えられた例では、5つのミスマッチは以下のようにTUバイナリ化を使用してバイナリ化される:
*本開示の原則に従って、圧縮された表現で既に利用可能であるため、追加情報は必要ない。
[コード化パラメータ]
[デコード化装置]
Claims (82)
- ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータをコード化する方法であって、
前記リードを1つ以上のリファレンスシーケンスにアラインメントし、それによってシーケンスリードを作成し、
前記1つ以上のリファレンスシーケンスとの指定されたマッチング規則に従って前記アライメントされたリードを分類し、それによってアライメントリードのクラスを作成し、
前記分類されたアライメントリードを、構文要素の多重のブロックとしてコード化し、
構文要素の前記ブロックをヘッダ情報で構成し、それによって連続的なアクセスユニットを作成すること、を含み、
前記コード化は、ゲノム記述子をバイナリ化及びエントロピーコード化する、
ことを含む方法。 - 前記コード化及びエントロピーコード化されたゲノム記述子は、コード化及びエントロピーコード化が異なる記述子に対して異なるようにされている、
請求項1に記載の方法。 - 前記記述子は、
リファレンスシーケンスのリードのマッピング位置をシグナリングするためのpos、
アライナがマッピングロセスの結果をさらに指定できるようにするために、リードがマッピングフラグにマッピングされたDNA又はRNA鎖をシグナリングするためのrcompを含む、
請求項2に記載の方法。 - 以下の記述子:
リファレンスシーケンスに関してアライメントされたリードのミスマッチの位置をシグナリングするmmpos、
関連付けられた位置のリファレンスシーケンスに関するミスマッチの類型をシグナリングするmmtype、
をコード化することをさらに含む、
請求項3に記載の方法。 - ソフト又はハードクリップされたヌクレオチドをシグナリングするためのクリップ記述子をコード化することをさらに含む、
請求項4に記載の方法。 - 各コード化されたシーケンスリードの長さをシグナリングするためにrlen記述子をコード化することをさらに含む、
請求項5に記載の方法。 - 以下の記述子:
マッピング手順によって単一のリード又はペアリードに関連付けられたマルチプルマッピング位置をシグナリングするためのmmap、
スプライスされたリードが存在することの識別をシグナリングするmsar(すなわち、リードは、チャンクに分割された場合、リファレンスシーケンス上の単一の位置にマッピングされた単一の連続したリードとしてマッピングされた場合よりも、マッチング精度の高いマッピング位置を見つける)、
をコード化することをさらに含む、
請求項6に記載の方法。 - mscore記述子をコード化して、ゲノムシーケンスリードアライナによって生成されるリード当たりのマッピング/アラインメントスコアをシグナリングすることをさらに含む、
請求項7に記載の方法。 - ペアエンドリードにおいて、前記リードがどのようにペアリングされるかを示すために前記pair記述子をコード化することをされに含む、
請求項8に記載の方法。 - 前記リファレンスシーケンスのいずれの位置にもアライメントできなかったリードをシグナリングするためのureads記述子をコード化することをさらに含む、
請求項9に記載の方法。 - 指定されたマッチング精度で前記リファレンスシーケンスのどの位置にもマッピングできないシーケンスリードをコード化するために使用される前記記述子のサブセットを通知するために使用されるttype記述子をコード化することをさらに含む、
請求項10に記載の方法。
- 前記リードがどのリードグループに属するかを示すために、rgroup記述子をコード化することをさらに含む、
請求項11に記載の方法。 - 以下の記述子:
コンティグとリファレンスシーケンス間のミスマッチの位置をシグナリングするためのrftp、ミスマッチの位置は特殊なターミネータ文字で終了し、
コンティグとリファレンスシーケンス間のミスマッチの類型をシグナリングするrftt、
をコード化することをさらに含む、
請求項12に記載の方法。 - 前記pos記述子は、二重切捨単項コード又は単一の二重切捨単項コードを使用してバイナリ化され、
前記rcomp記述子は、切捨単項コードを使用してバイナリ化され、
前記マッピングのflags記述子は、バイナリコード化を使用してバイナリ化される、
請求項13に記載の方法。 - リファレンスシーケンスに関するアライメントされたリードのミスマッチの位置をシグナリングするための前記mmpos記述子は、分割ユニットごとに切捨単項コードを使用してバイナリ化され、
関連する位置のリファレンスシーケンスに関してミスマッチの類型をシグナリングするための前記mmtype記述子は切捨単項コードを使用してバイナリ化される、
請求項4に記載の方法。 - ソフト又はハードのクリップされたヌクレオチドをシグナリングするための前記クリップ記述子は、符号付き切捨指数ゴロム、切捨単項、符号付き指数ゴロム及びバイナリコードの連結を使用してバイナリ化される、
請求項5に記載の方法。 - 各コード化されたシーケンスリードの長さをシグナリングする前記rlen記述子は、分割ユニットワイズ切捨単項コードを使用してバイナリ化される、
請求項6に記載の方法。 - マッピング手順によって単一のリード又はリードペアに関連付けられたマルチプルマッピング位置をシグナリングするための前記mmap記述子は、分割ユニットワイズ切捨単項コードを使用してバイナリ化され、
前記スプライスされたリードの存在の識別をシグナリングするための前記msar記述子は、符号付き指数ゴロムコードを使用してバイナリ化される、
請求項7に記載の方法。 - ゲノムシーケンスリードアライナによって生成された各リードのマッピング/アライメントスコアをシグナリングする前記mscore記述子は、切捨単項コードを使用してバイナリ化される、
請求項8に記載の方法。 - 前記pair記述子をシグナリングするために、ペアエンドリードの場合において、どのようにリードがペア化されたかは、バイナリコードと分割ユニットワイズ切捨単項コードの連結を使用してバイナリ化する、
請求項9に記載の方法。 - 前記リファレンスシーケンスのいずれの位置にもアライメントすることができなかったリードのシグナリングに対する前記ureads記述子は、切捨単項コードを使用してバイナリ化される、
請求項10に記載の方法。 - 前記rtype記述子は、指定されたマッチング精度で前記リファレンスシーケンスの任意の位置にマッピングすることができないシーケンスリードをコード化するために使用される前記記述子のサブセットの信号をシグナリングするために使用され、切捨単項コードを使用してバイナリ化される、
請求項11に記載の方法。 - 前記リードがどのリードグループが属するかをシグナリングするrgroup記述子は、切捨単項コードを用いてバイナリ化される、
請求項12に記載の方法。 - 前記rftp記述子は、コンティグとリファレンスシーケンスとの間のミスマッチの位置をシグナリングするために、バイナリコード化と分割ユニットワイズ切捨単項コードの連結を用いてバイナリ化され、
コンティグとリファレンスシーケンスの間のミスマッチのタイプをシグナリングするための前記rftt記述子は、バイナリコード化と切捨単項コードの連結を使用してバイナリ化される、
請求項13に記載の方法。 - 前記記述子は、構成パラメータを構文ヘッダに挿入することによってコード化される、
請求項13に記載の方法。 - 前記構成パラメータは、構文ヘッダがコード化されたゲノムファイルに追加されて更新されることによって更新される、
請求項25に記載の方法。 - 前記構成パラメータは、コード化パラメータを参照してアクセスユニット内でコード化されたデータの種類をシグナリングするためのデータセットタイプを含む、
請求項26に記載の方法。 - 前記構成パラメータは、リード長が一定の場合に、シーケンスリードのヌクレオチド長をシグナリングするためのリード長をさらに含む、
請求項27に記載の方法。 - 前記構成パラメータは、各コード化されたヌクレオチドに関する品質値の数をシグナリングするための品質値深度パラメータをさらに含む、
請求項28に記載の方法。 - 前記構成パラメータは、各コード化されたアライメントに関連するアライメントスコアの数をシグナリングするためのアライメントスコア深度をさらに含む、
請求項29に記載の方法。 - 前記構成パラメータは、前記mmpos記述子に使用されるターミネータシンボルのバイト単位のサイズをシグナリングするためのターミネータサイズをさらに含む、
請求項30に記載の方法。 - 前記構成パラメータは、前記mmpos記述子に使用されるターミネータシンボルの値をシグナリングするためのターミネータ値をさらに含む、
請求項31に記載の方法。 - 前記構成パラメータは、前記構成パラメータを参照して全てのアクセスユニット内でコード化されたデータクラスの数をシグナリングするためのクラスの数をさらに含む、
請求項32に記載の方法。 - 前記構成パラメータは、本開示で定義された前記データクラスに関連付けられた識別子(P、N、M、I、HM、U)をシグナリングするクラス識別子をさらに含む、
請求項33に記載の方法。 - 前記構成パラメータは、前記構成パラメータを参照して、アクセスユニットに含まれる記述子の総数をシグナリングするための記述子の数をさらに含む、
請求項34に記載の方法。 - 前記構成パラメータは、本開示で定義されたコード化モードをシグナリングするためのコード化モード識別子をさらに含む、
請求項35に記載の方法。 - 前記構成パラメータは、現在のコード化パラメータを参照する全てのアクセスユニットに存在する前記rgroup記述子の異なる値の数をシグナリングするためのグループ数パラメータをさらに含む、
請求項36に記載の方法。 - 前記構成パラメータは、1つ以上のリードグループ識別子をシグナリングするための1つ以上のグループ名パラメータをさらに含む、
請求項37に記載の方法。 - 前記構成パラメータは、前記アクセスユニット内のマルチプルアライメントの存在をシグナリングするためのマルチプルアライメントフラグをさらに含む、
請求項38に記載の方法。 - 前記構成パラメータは、前記アクセスユニット内のスプライスされたリードの存在をシグナリングするためのスプライスされたリードフラグをさらに含む、
請求項39に記載の方法。 - 前記構成パラメータは、マッピングされていないシーケンスリード(クラスU)を含むアクセスユニット内の複数のシグネチャの使用をシグナリングするためのマルチプルシグネチャ塩基フラグをさらに含む、
請求項40に記載の方法。 - 前記構成パラメータは、コード化されたシグネチャを表す各整数のビット単位のサイズをシグナリングするためのシグネチャサイズをさらに含む、
請求項41に記載の方法。 - 前記構成パラメータは、前記mscore記述子にコード化されたマルチプルアライメントスコアの指数部をコード化するために使用されるビット数をシグナリングするためのスコア指数パラメータをさらに含む、
請求項42に記載の方法。 - 前記構成パラメータは、前記mscore記述子にコード化されたマルチプルアライメントスコアの仮数部分をコード化するために使用されるビット数をシグナリングするためのスコア仮数パラメータをさらに含む、
請求項43に記載の方法。 - ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータのコード化されたゲノムデータをデコード化する方法であって、
ヘッダ情報を用いてゲノム記述子のマルチプルブロックを抽出して前記コード化されたゲノムデータを含むアクセスユニットを解析し、前記マルチプルブロックをデコード化することを含み、
前記マルチプルブロックのデコード化は、1つ以上のリファレンスシーケンスに関する分類を定義する特定のマッチング規則に従ってアライメントされたリードを抽出するために、ゲノム記述子をデコード化及びバイナリ化解除することを含む、
方法。 - 前記記述子は、
リファレンスシーケンス上のリードのマッピング位置をシグナリングするためのpos記述子、
アライナがマッピングロセスの結果をさらに指定できるようにするために、リードがマッピングフラグにマッピングされたDNA又はRNA鎖をシグナリングするためのrcomp記述子を含む、
請求項45に記載の方法。 - 以下の記述子:
リファレンスシーケンスに関してアライメントされたリードのミスマッチの位置をシグナリングするmmpos、
関連付けられた位置のリファレンスシーケンスに関するミスマッチの類型をシグナリングするmmtype、
をデコード化することをさらに含む、
請求項3に記載の方法。 - ソフト又はハードクリップされたヌクレオチドをシグナリングするためのクリップ記述子をデコード化することをさらに含む、
請求項47に記載の方法。 - 各コード化されたシーケンスリードの長さをシグナリングするためにrlen記述子をコデード化することをさらに含む、
請求項48に記載の方法。 - 以下の記述子:
マッピング手順によって単一のリード又はペアリードに関連付けられたマルチプルマッピング位置をシグナリングするためのmmap、
スプライスされたリードが存在することの識別をシグナリングするmsar(すなわち、リードは、チャンクに分割された場合、リファレンスシーケンス上の単一の位置にマッピングされた単一の連続したリードとしてマッピングされた場合よりも、マッチング精度の高いマッピング位置を見つける)、
をデコード化することをさらに含む、
請求項49に記載の方法。 - mscore記述子をデコード化して、ゲノムシーケンスリードアライナによって生成されるリード当たりのマッピング/アラインメントスコアをシグナリングすることをさらに含む、
請求項50に記載の方法。 - ペアエンドリードにおいて、前記リードがどのようにペアリングされるかを示すために前記pair記述子をデコード化することをされに含む、
請求項51に記載の方法。 - 前記リファレンスシーケンスのいずれの位置にもアライメントできなかったリードをシグナリングするためのureads記述子をデコード化することをさらに含む、
請求項51に記載の方法。 - 指定されたマッチング精度で前記リファレンスシーケンスのどの位置にもマッピングできないシーケンスリードをコード化するために使用される前記記述子のサブセットを通知するために使用されるttype記述子をデコード化することをさらに含む、
請求項53に記載の方法。 - 前記リードがどのリードグループに属するかを示すために、rgroup記述子をデコード化することをさらに含む、
請求項54に記載の方法。 - 以下の記述子:
コンティグとリファレンスシーケンス間のミスマッチの位置をシグナリングするためのrftp、ミスマッチの位置は特殊なターミネータ文字で終了し、
コンティグとリファレンスシーケンス間のミスマッチの類型をシグナリングするrftt、
をデコード化することをさらに含む、
請求項55に記載の方法。 - 前記記述子は、構文ヘッダから構成パラメータを抽出することによりデコード化される、
請求項56に記載の方法。 - 前記構成パラメータは、コード化パラメータを参照してアクセスユニット内でコード化されたデータの種類をシグナリングするためのデータセットタイプ
を含む、
請求項57に記載の方法。 - 前記構成パラメータは、リード長が一定の場合に、シーケンスリードのヌクレオチド長をシグナリングするためのリード長をさらに含む、
請求項28に記載の方法。 - 前記構成パラメータは、各コード化されたヌクレオチドに関する品質値の数をシグナリングするための品質値深度パラメータをさらに含む、
請求項59に記載の方法。 - 前記構成パラメータは、各コード化されたアライメントに関連するアライメントスコアの数をシグナリングするためのアライメントスコア深度をさらに含む、
請求項60に記載の方法。 - 前記構成パラメータは、前記mmpos記述子に使用されるターミネータシンボルのバイト単位のサイズをシグナリングするためのターミネータサイズをさらに含む、
請求項61に記載の方法。 - 前記構成パラメータは、前記mmpos記述子に使用されるターミネータシンボルの値をシグナリングするためのターミネータ値をさらに含む、
請求項62に記載の方法。 - 前記構成パラメータは、前記構成パラメータを参照して全てのアクセスユニット内でコード化されたデータクラスの数をシグナリングするためのクラスの数をさらに含む、
請求項63に記載の方法。 - 前記構成パラメータは、本開示で定義された前記データクラスに関連付けられた識別子(P、N、M、I、HM、U)をシグナリングするクラス識別子をさらに含む、
請求項64に記載の方法。 - 前記構成パラメータは、前記構成パラメータを参照するアクセスユニットに含まれる記述子の総数をシグナリングするための記述子の数をさらに含む、
請求項65に記載の方法。 - 前記構成パラメータは、本開示で定義されたコード化モードをシグナリングするためのコード化モード識別子をさらに含む、
請求項66に記載の方法。 - 前記構成パラメータは、現在のコード化パラメータを参照する全てのアクセスユニットに存在する前記rgroup記述子の異なる値の数をシグナリングするためのグループ数パラメータをさらに含む、
請求項67に記載の方法。 - 前記構成パラメータは、1つ以上のリードグループ識別子をシグナリングするための1つ以上のグループ名パラメータをさらに含む、
請求項68に記載の方法。 - 前記構成パラメータは、前記アクセスユニット内のマルチプルアライメントの存在をシグナリングするためのマルチプルアライメントフラグをさらに含む、
請求項69に記載の方法。 - 前記構成パラメータは、前記アクセスユニット内のスプライスされたリードの存在をシグナリングするためのスプライスされたリードフラグをさらに含み、ここで0に設定されるとスプライスされたリードは存在しない、
請求項70に記載の方法。 - 前記構成パラメータは、マッピングされていないシーケンスリード(クラスU)を含むアクセスユニット内の複数のシグネチャの使用をシグナリングするためのマルチプルシグネチャ塩基フラグをさらに含む、
請求項71に記載の方法。 - 前記構成パラメータは、コード化されたシグネチャを表す各整数のビット単位のサイズをシグナリングするためのシグネチャサイズをさらに含む、
請求項72に記載の方法。 - 前記構成パラメータは、前記mscore記述子にコード化されたマルチプルアライメントスコアの指数部をコード化するために使用されるビット数をシグナリングするためのスコア指数パラメータをさらに含む、
請求項73に記載の方法。 - 前記構成パラメータは、前記mscore記述子にコード化されたマルチプルアライメントスコアの仮数部分をコード化するために使用されるビット数をシグナリングするためのスコア仮数パラメータをさらに含む、
請求項74に記載の方法。 - 請求項1に記載のコード化方法を実施するためのコード化手段を備えるコード化装置。
- 請求項31に記載のデコード化方法を実施するためのデコード手段を備えるデコード化装置。
- 請求項13に記載のゲノム記述子を含むファイルフォーマット。
- 請求項1に記載のコード化方法を実行するための命令を含むコンピュータプログラム。
- 請求項31に記載のデコード化方法を実行するための命令を含むコンピュータプログラム。
- 請求項1のコンピュータプログラムを保存するためのストレージ手段。
- 請求項1のコード化方法で作成されたファイルを保存するためのストレージ手段。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
USPCT/US2017/017842 | 2017-02-14 | ||
PCT/US2017/017842 WO2018071055A1 (en) | 2016-10-11 | 2017-02-14 | Method and apparatus for the compact representation of bioinformatics data |
USPCT/US2017/041579 | 2017-07-11 | ||
PCT/US2017/041579 WO2018071078A1 (en) | 2016-10-11 | 2017-07-11 | Method and apparatus for the access to bioinformatics data structured in access units |
PCT/US2017/066863 WO2018151788A1 (en) | 2017-02-14 | 2017-12-15 | Method and systems for the efficient compression of genomic sequence reads |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020510907A true JP2020510907A (ja) | 2020-04-09 |
JP7324145B2 JP7324145B2 (ja) | 2023-08-09 |
Family
ID=69374527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019542691A Active JP7324145B2 (ja) | 2017-02-14 | 2017-12-15 | ゲノムシーケンスリードの効率的圧縮のための方法及びシステム |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP3583250B1 (ja) |
JP (1) | JP7324145B2 (ja) |
EA (1) | EA201991907A1 (ja) |
MX (1) | MX2019009681A (ja) |
WO (1) | WO2018151788A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022008311A1 (en) * | 2020-07-10 | 2022-01-13 | Koninklijke Philips N.V. | Genomic information compression by configurable machine learning-based arithmetic coding |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007299396A (ja) * | 2006-04-27 | 2007-11-15 | General Electric Co <Ge> | 患者の再識別のためのシステムおよび方法 |
US20150227686A1 (en) * | 2014-02-12 | 2015-08-13 | International Business Machines Corporation | Lossless compression of dna sequences |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160100177A1 (en) * | 2014-10-06 | 2016-04-07 | Qualcomm Incorporated | Non-uniform exponential-golomb codes for palette mode coding |
-
2017
- 2017-12-15 JP JP2019542691A patent/JP7324145B2/ja active Active
- 2017-12-15 WO PCT/US2017/066863 patent/WO2018151788A1/en active Search and Examination
- 2017-12-15 EA EA201991907A patent/EA201991907A1/ru unknown
- 2017-12-15 MX MX2019009681A patent/MX2019009681A/es unknown
- 2017-12-15 EP EP17896462.3A patent/EP3583250B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007299396A (ja) * | 2006-04-27 | 2007-11-15 | General Electric Co <Ge> | 患者の再識別のためのシステムおよび方法 |
US20150227686A1 (en) * | 2014-02-12 | 2015-08-13 | International Business Machines Corporation | Lossless compression of dna sequences |
Non-Patent Citations (2)
Title |
---|
""CRAM format specification (version 3.0)"", [ONLINE], vol. [令和2年12月7日検索], JPN6020048890, 25 April 2016 (2016-04-25), ISSN: 0005027178 * |
""SAM"", [ONLINE], vol. [令和2年12月7日検索], JPN6020048888, 11 March 2015 (2015-03-11), ISSN: 0005027177 * |
Also Published As
Publication number | Publication date |
---|---|
EA201991907A1 (ru) | 2020-01-20 |
EP3583250A4 (en) | 2020-12-16 |
EP3583250A1 (en) | 2019-12-25 |
JP7324145B2 (ja) | 2023-08-09 |
MX2019009681A (es) | 2019-10-09 |
WO2018151788A1 (en) | 2018-08-23 |
EP3583250B1 (en) | 2023-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110678929B (zh) | 用于高效压缩基因组序列读段的方法和系统 | |
EP4075438B1 (en) | Efficient data structures for bioinformatics information representation | |
EP3583249B1 (en) | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads | |
JP7362481B2 (ja) | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 | |
AU2018221458B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
EP3526711B1 (en) | Method and apparatus for compact representation of bioinformatics data | |
JP7324145B2 (ja) | ゲノムシーケンスリードの効率的圧縮のための方法及びシステム | |
CN110663022B (zh) | 使用基因组描述符紧凑表示生物信息学数据的方法和设备 | |
AU2017399715A1 (en) | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads | |
NZ757185B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
EA043338B1 (ru) | Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов | |
EA040022B1 (ru) | Способ и устройство для компактного представления данных биоинформатики |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20191004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220131 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7324145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |