BR112019016230A2 - método e sistemas para a reconstrução de sequências de referência genômicas a partir de leituras de sequência genômica comprimidas - Google Patents

método e sistemas para a reconstrução de sequências de referência genômicas a partir de leituras de sequência genômica comprimidas Download PDF

Info

Publication number
BR112019016230A2
BR112019016230A2 BR112019016230A BR112019016230A BR112019016230A2 BR 112019016230 A2 BR112019016230 A2 BR 112019016230A2 BR 112019016230 A BR112019016230 A BR 112019016230A BR 112019016230 A BR112019016230 A BR 112019016230A BR 112019016230 A2 BR112019016230 A2 BR 112019016230A2
Authority
BR
Brazil
Prior art keywords
descriptor
sequence
genomic
readings
binarization
Prior art date
Application number
BR112019016230A
Other languages
English (en)
Inventor
Alberti Claudio
Khoso Baluch Mohamed
Original Assignee
Genomsys Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/EP2016/074301 external-priority patent/WO2018068828A1/en
Priority claimed from PCT/EP2016/074307 external-priority patent/WO2018068829A1/en
Priority claimed from PCT/EP2016/074311 external-priority patent/WO2018068830A1/en
Priority claimed from PCT/EP2016/074297 external-priority patent/WO2018068827A1/en
Priority claimed from PCT/US2017/041579 external-priority patent/WO2018071078A1/en
Application filed by Genomsys Sa filed Critical Genomsys Sa
Priority claimed from PCT/US2017/066458 external-priority patent/WO2018151786A1/en
Publication of BR112019016230A2 publication Critical patent/BR112019016230A2/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3086Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Labeling Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

é revelado um método e um aparelho que incluem a representação de um genoma de referência em termos de elementos de sintaxe que descrevem as diferenças entre o referido genoma de referência e as sequências genômicas alinhadas. as referidas sequências genômicas foram previamente alinhadas com o referido genoma de referência. cada uma das sequências genômicas alinhadas é descrita por meio de um subconjunto de elementos de sintaxe. elementos de sintaxe descrevendo todas as sequências genômicas são particionados em blocos de acordo com suas propriedades estatísticas. cada bloco de elementos de sintaxe é codificado por entropia. os blocos codificados por entropia são então concatenados para formar um fluxo de bits comprimido. as diferenças entre o genoma de referência e as sequências alinhadas são expressas em termos de elementos de sintaxe. os referidos elementos de sintaxe são particionados em blocos de acordo com as suas propriedades estatísticas e cada bloco é codificado por entropia. os elementos de sintaxe codificados por entropia são então incorporados no fluxo de bits de blocos codificados de elementos de sintaxe que descrevem leituras alinhadas. o método divulgado permite a reconstrução do genoma de referência usado para alinhamento ao decodificar as sequências genômicas compactadas, preservando diferentes opções de acesso aleatório nos dados compactados e permitindo uma compressão eficiente.

Description

MÉTODO E SISTEMAS PARA A RECONSTRUÇÃO DE SEQUÊNCIAS DE REFERÊNCIA GENÔMICAS A PARTIR DE LEITURAS DE SEQUÊNCIA GENÔMICA COMPRIMIDAS
REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS [001] Este pedido de patente reivindica a prioridade e o benefício dos pedidos de patente PCT / US2017 / 041579 041579 e PCT / US17 /17842.
CAMPO TÉCNICO DA INVENÇÃO [002] Esta invenção se refere à compressão sem perdas de leituras de sequências genômicas alinhadas com as informações de alinhamento associadas e com os genomas de referência, ou suas porções, utilizados para alinhar as referidas sequências genômicas. Uma sequência genômica é entendida, de modo abrangente, como uma concatenação de moléculas chamadas nucleotídeos para formar fragmentos de ácido desoxirribonucleico (DNA) ou de ácido ribonucleico (RNA). A presente invenção pode ser aplicada a qualquer sequência de referência de símbolos utilizados para alinhar sequências mais curtas usando o mesmo alfabeto.
[003] A presente invenção aplica-se a sequências genômicas alinhadas que foram comprimidas por meio de um método de compressão sem referência. Uma tentativa inicial nessa direção é a descrita por Voges, J., Munderloh, M., Ostermann, J., “Predictive Coding of Aligned Next-Generation Sequencing Data” (2016 Data Compression Conference (DCC)) ou por Benoit G. e outros, Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph” (BMC Bioinformatics. 2015; 16: 288.) com, no entanto, várias limitações abordadas na presente invenção.
[004] No contexto da presente memória descritiva, a compressão de referência menos de sequências genômicas alinhados compreende a criação de uma ou mais sequências de referência locais chamadas “contig” construídas por sobreposição e concatenação de sequências genômicas mapeadas em regiões adjacentes ou sobrepostas do genoma de referência utilizados para o alinhamento. Para uma invenção exaustiva de contig, consulte
Petição 870190075592, de 06/08/2019, pág. 17/342
2/55 https://en.wikipedia.org/wiki/Contig. Os referidos contigs não precisam de ser incluídos no fluxo de bits comprimido, uma vez que são reconstruídos na extremidade de descodificação como parte do processo de descodificação. Uma vez que um contig foi construído para uma região genômica onde uma ou mais sequências genômicas foram mapeadas, compressão baseada em referência é aplicada às ditas sequências genômicas, descrevendo-as em termos de descritores genômicos e comprimindo cada bloco de descritores genômicos do mesmo tipo com um codificador de entropia específica. Essa abordagem permite alcançar taxas de compactação melhores do que esquemas de compactação de uso geral, como GZIP, LZMA, BZ e preserva o acesso aleatório.
[005] A compressão baseada em referência de sequências genômicas alinhadas baseia-se em representar as referidas sequências alinhadas em termos das suas posições de mapeamento e diferenças em relação a uma ou mais sequências de referência utilizadas para alinhamento e codificação apenas das ditas posições e diferenças. Considerando que tal abordagem permite atingir taxas de compressão muito altas (aumentando aproximadamente linearmente com a cobertura, em que com o termo cobertura se pretende o número médio de leituras que contêm cada nucleotídeo de um genoma de referência), o processo de codificação e decodificação requer a disponibilidade de as sequências de referência específicas usadas para o alinhamento e a compressão. Uma desvantagem da abordagem é que se a sequência de referência usada para o alinhamento e a compactação não estiver disponível no lado de decodificação (por exemplo, devido à falta de uma identificação única do genoma de referência ou sua versão, ou caso a fonte dos dados originais não esteja mais disponível), o conteúdo compactado não pode ser recuperado. Soluções baseadas na inclusão dos genomas de referência na representação comprimida para armazenamento ou transmissão resultariam prejudiciais em termos de eficiência de compressão.
[006] Para resolver este problema, existem métodos de compressão sem referência, permitindo a compressão e descompressão de leituras de sequências genômicas alinhadas sem utilizar o genoma de referência utilizado para o
Petição 870190075592, de 06/08/2019, pág. 18/342
3/55 alinhamento. Alguns desses métodos adotam compressores para propósitos gerais, como GZIP, BZIP2, LZMA e atingem baixas taxas de compressão na ordem de 3: 1. Métodos mais eficientes baseiam-se na construção de uma ou mais sequências de referência das próprias leituras alinhadas por meio de um processo chamado “ assembly ”, no qual leituras mapeadas em intervalos genômicos adjacentes do genoma de referência usado para alinhamento são usadas para construir sequências mais longas, encontrar subsequências compartilhadas e concatená-las. A sequência mais longa obtida a partir da concatenação ou mesclagem das mais curtas é chamada de “contig”. Tais métodos incluem a já citada publicação de Voges, J., Munderloh, M., Ostermann, J., “Predictive Coding of Aligned Next-Generation Sequencing Data” (2016 Data Compression Conference (DCC)) e o artigo de Benoit, G et al. ““Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph” (BMC Bioinformatics. 2015; 16: 288).
[007] Esta invenção aborda o problema da compress eficiente do genoma de referência utilizado para o alinhamento de leituras de sequências genômicas quando se aplica conjuntamente compress de sequências genômicas sem referência.
SUMÁRIO DA INVENÇÃO [008] As características das reivindicações abaixo resolvem o problema das soluções do estado da técnica proporcionando um método para compressão sem perda de genomas de referência no caso de compress de sequências genômicas sem referência, o referido método compreendendo as etapas de:
- alinhar as referidas leituras a uma ou mais sequências de referência, criando assim leituras alinhadas,
- montar as leituras alinhadas, criando assim um contig
- comparar a dita sequência de referência e o dito contig, obtendo-se assim informação relacionada com a posição das discordâncias e o tipo de discordâncias
Petição 870190075592, de 06/08/2019, pág. 19/342
4/55
- codificar a entropia, a informação relacionada com a posição das discordâncias e o tipo de discordâncias.
[009] Num outro aspecto do método de compressão, a montagem das referidas leituras alinhadas compreende a etapa de selecionar, para cada posição na sequência de referência, o nucleotídeo que está presente com a frequência mais elevada nas leituras alinhadas nessa posição.
[010] Num outro aspecto do método de compressão, a referida informação relacionada com a posição de desemparelhamentos e o tipo de emparelhamentos incorretos é indicada utilizando respectivamente um primeiro descritor (203) e um segundo descritor (204).
[011] Num outro aspecto do método de compressão, o primeiro descritor e o segundo descritor são encapsulados numa mesma Unidade de Acesso, de modo a permitir a reconstrução seletiva da sequência de referência utilizada para o alinhamento no dispositivo de descodificação.
[012] Num outro aspecto do método de compressão, o comprimento do dito contig é definido como parâmetro de entrada para o codificador ou dinamicamente adaptado pelo codificador.
[013] Num outro aspecto do método de compressão o referido primeiro descritor é binarizado utilizando uma binarização Unária Truncada Unitária Dividida, em que a dita binarização Unária Truncada Unitária Dividida é uma concatenação de binarizações uniculares truncadas repetidas, em que cada binarização unária truncada é aplicada a partes do valor a ser binarizado que tem N bits de comprimento, em que N é um parâmetro pré-selecionado.
[014] Num outro aspecto do método de compressão, o referido segundo descritor é binarizado utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e, se o referido valor for igual ao maior valor possível a ser binarizado, o 0 bit final é descartado.
[015] Num outro aspecto do método de compressão, o referido método não codifica informação que sinaliza a utilização de um genoma de referência específico.
Petição 870190075592, de 06/08/2019, pág. 20/342
5/55 [016] Em outro aspecto do método de compressão, o dito comprimento do dito contig está contido em um cabeçalho de sintaxe.
[017] O aparelho para codificar dados da sequência do genoma, compreendendo os referidos dados da sequência do genoma leituras de sequências de nucleotideos, compreende meios para:
- alinhar as referidas leituras a uma ou mais sequências de referência, criando assim leituras alinhadas,
- montar as leituras alinhadas, criando assim um contig
- comparar a dita sequência de referência e o dito contágio, obtendo-se assim informação relacionada com a posição das discordâncias e o tipo de discordâncias
- codificar a entropia, a informação relacionada com a posição das discordâncias e o tipo de discordâncias.
[018] O aparelho para codificar dados da sequência do genoma, em que os referidos meios para montar as referidas leituras alinhadas compreendem ainda meios para selecionar, para cada posição na sequência de referência, o nucleotídeo que está presente com a maior frequência nas leituras alinhadas nessa posição.
[019] O aparelho para codificar dados de sequências do genoma, compreendendo ainda meios para indicar a referida informação relacionada com a posição de emparelhamentos incorretos e o tipo de desemparelhamentos, respectivamente, por um primeiro descritor (203) e um segundo descritor (204).
[020] O aparelho para codificar dados da sequência do genoma, compreendendo ainda meios para encapsular o referido primeiro descritor e segundo descritor na mesma Unidade de Acesso, de modo a permitir a reconstrução seletiva da sequência de referência utilizada para o alinhamento no dispositivo de decodificação.
[021] O aparelho para codificar dados da sequência do genoma, compreendendo ainda meios para receber o comprimento do referido contig como parâmetro de entrada e meios para adaptar dinamicamente o comprimento do referido contig.
Petição 870190075592, de 06/08/2019, pág. 21/342
6/55 [022] O aparelho para codificar os dados da sequência do genoma, compreendendo ainda meios de binarização para binarizar o referido primeiro descritor empregando uma binarização unária truncada unitária dividida, em que a referida unária truncada unitária dividida é uma concatenação de binarizações unárias truncadas repetidas, em que cada binarização unária truncada é aplicada a porções do valor a ser binarizado que têm N bits de comprimento, em que N é um parâmetro pré-selecionado.
[023] O aparelho para codificar dados da sequência do genoma, compreendendo ainda meios de binarização para binarizar o referido segundo descritor utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual ao maior valor possível a ser binarizado o O-bit final é descartado.
[024] O aparelho para codificar dados da sequência do genoma, compreendendo ainda meios para codificar o referido comprimento do referido contig num cabeçalho de sintaxe.
[025] Um método para decodificar os dados codificados da sequência do genoma, compreende as etapas de:
- analisar o arquivo de entrada codificado, para obter sequências contig
- informações de decodificação de entropia relacionadas à posição de uma incompatibilidade e tipo de incompatibilidade em um contig
- desmontar o contig empregando a referida informação relacionada com a posição de um desajuste e tipo de discordância num contig, obtendo assim uma sequência genômica de nucleotídeo.
[026] Num outro aspecto do método de descodificação, desmontar o contig empregando a referida informação relacionada com a posição de um desemparelhamento e tipo de emparelhamento numa contenção obtendo assim uma sequência genômica de nucleotídeo compreende ainda descodificação de entropia de um primeiro descritor (203) e um segundo descritor (204) [027] Num outro aspecto, o método de descodificação compreende ainda a descapsulação da mesma Unidade de Acesso do referido primeiro descritor e
Petição 870190075592, de 06/08/2019, pág. 22/342
7/55 segundo descritor, de modo a obter a reconstrução seletiva da sequência genômica de nucleotideos.
[028] Num outro aspecto, o método de descodificação compreende ainda a descodificação do comprimento do referido contig a partir de um cabeçalho de sintaxe contido no arquivo de entrada.
[029] Num outro aspecto, o método de descodificação compreende adicionalmente g uma binarização reversa do referido primeiro descritor, em que o referido primeiro descritor é binarizado utilizando uma binarização llnária Truncada Unitária Dividida, em que o referido Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas., onde cada binarização unária truncada é aplicada a partes do valor a ser binarizado que são de N bits de comprimento, em que N é um parâmetro pré-selecionado [030] Num outro aspecto, o método de descodificação compreende ainda uma binarização reversa do referido segundo descritor em que o referido segundo descritor é binarizado utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual ao maior possível valor a ser binarizado o O-bit final é descartado.
[031] Num outro aspecto do método de descodificação, o referido arquivo de entrada não contém informação que sinalize a utilização de um genoma de referência específico.
[032] Um aparelho para descodificar os dados da sequência do genoma codificado, compreende meios para:
- analisar o arquivo de entrada codificado, para obter sequências contig
- informações de decodificação de entropia relacionadas à posição de uma incompatibilidade e tipo de incompatibilidade em um contig
- desmontar o contig empregando a referida informação relacionada com a posição de um desajuste e tipo de discordância num contig, obtendo assim uma sequência genômica de nucleotídeo.
[033] O aparelho para descodificar os dados codificados da sequência do genoma, em que os referidos meios para desmontar o contig utilizando a referida
Petição 870190075592, de 06/08/2019, pág. 23/342
8/55 informação relacionada com a posição de um desemparelhamento e tipo de emparelhamento numa contig contendo assim uma sequência genômica de nucleotídeo compreendem ainda meios para descodificar a entropia de um primeiro descritor (203) e um segundo descritor (204).
[034] Um aparelho para descodificar os dados da sequência do genoma codificado, compreendendo ainda meios para a reconstrução seletiva da sequência genômica dos nucleotídeos, desencapsulando da mesma unidade de acesso o referido primeiro descritor e o segundo descritor.
[035] O aparelho para descodificar os dados da sequência do genoma codificado, compreende ainda meios para descodificar a partir de um cabeçalho de sintaxe contido no arquivo de entrada a informação relacionada com o comprimento do referido contig.
[036] O aparelho para descodificar os dados codificados da sequência do genoma, compreende ainda meios para uma binarização reversa do referido primeiro descritor, em que o referido primeiro descritor é binarizado utilizando uma binarização Unária Truncada Unitária Dividida, em que o dito Unário Truncado Unitário Dividido é uma concatenação de repetidos binarizações unárias truncadas, onde cada binarização unária truncada é aplicada a porções do valor a ser binarizado que são de N bits de comprimento, em que N é um parâmetro préselecionado.
[037] O aparelho para descodificar os dados codificados da sequência do genoma, compreende ainda meios para uma binarização reversa do referido segundo descritor em que o referido segundo descritor é binarizado utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual para o maior valor possível a ser binarizado, o O-bit final é descartado.
BREVE DESCRIÇÃO DOS DESENHOS [038] A Figura 1 mostra como as sequências genômicas são mapeadas em uma sequência de referência e, em seguida, usadas para construir um conjunto por meio de operações de mesclagem e concatenação. O conjunto construído pode
Petição 870190075592, de 06/08/2019, pág. 24/342
9/55 diferir da sequência de referência nas posições em que as sequências genômicas alinhadas apresentam nucleotídeos diferentes dos presentes na sequência de referência.
[039] A Figura 2 mostra como as discordâncias entre a sequência de referência e o contig são representadas em termos de posições e tipo de discordância e depois codificadas usando codificadores de entropia implementando diferentes binarizações e transformações como definido nesta invenção.
[040] A Figura 3 representa um aparelho codificador compreendendo as etapas de alinhar sequências genômicas em relação a um genoma de referência, construindo contigs fundindo e concatenando as ditas sequências alinhadas, gerando descritores representando as sequências genômicas em relação aos contigs, comprimindo cada bloco de descritores com um dedicado codificador de entropia.
[041] A Figura 4 mostra o processo de descodificação de um fluxo de bits comprimido compreendendo as etapas de demultiplexagem do fluxo de bits de entrada para extrair os descritores codificados por entropia, descodificação de entropia de cada tipo de descritores, construção de contigs, descodificação de sequências de sequências alinhadas usando os contigs construídos, reconstrução do genoma de referência usando os contigs e as posições e tipos de incompatibilidade contig.
[042] A Figura 5 mostra como as leituras de sequência mapeadas entre a coordenada N e a coordenada M na sequência de referência são usadas para construir um contig de comprimento de nucleotídeos MN. A compactação baseada em referência é então aplicada às leituras de sequência mapeadas usando o contig construído. Os descritores genômicos que representam as leituras sequenciais mapeadas são entropia codificados e multiplexados na mesma Unidade de Acesso que os descritores genômicos codificados por entropia representando as diferenças entre a sequência de referência usada para o alinhamento e o contigado construído.
Petição 870190075592, de 06/08/2019, pág. 25/342
10/55 [043] A Figura 6 mostra como uma Unidade de Acesso encapsula descritores compactados que representam leituras de sequência mapeadas em um intervalo contíguo da sequência de referência. As informações de cabeçalho são anexadas aos descritores compactados para permitir a análise de dados.
[044] A Figura 7 mostra como uma Unidade de Acesso do tipo P é composta por um cabeçalho e a multiplexação de blocos de descritores representando as posições de mapeamento de leituras (pos), a informação de complemento reverso (rcomp), a informação de pareamento em caso de leituras finais emparelhadas (par ), o comprimento das leituras no caso de comprimento de leituras variáveis (rlen) e sinalizadores de mapeamento (flags). É usado para codificar leituras da classe P [045] A Figura 8 mostra um sistema de coordenadas em uma Sequência de Referência e mapeamento de pares de leitura e leitura em uma Sequência de Referência.
[046] A Figura 9 mostra como os posicionamentos não mapeados em pares de leitura podem ser montados para construir um contig que possa preencher a lacuna em uma sequência de referência. Além disso, os pares de leitura anteriormente não mapeados podem ser mapeados para o contig recémmontado.
[047] A Figura 10 mostra um exemplo de transformação e binarização de cinco desemparelhamentos entre um genoma de referência e um contig montado.
[048] A Figura 11 mostra como as regiões do genoma de referência usadas para alinhamento em que nenhuma leitura de sequência é mapeada são codificadas em Unidades de Acesso dedicadas para permitir a reconstrução completa do genoma de referência na extremidade de decodificação.
DESCRIÇÃO DETALHADA DA INVENÇÃO [049] As sequências genômicas ou proteómicas referidas na presente invenção incluem, por exemplo, e não como limitação, sequências nucleotídicas, sequências de ácido desoximbonucleico (DNA), ácido ribonucleico (RNA) e sequências de aminoácidos. Embora a invenção aqui seja em detalhes
Petição 870190075592, de 06/08/2019, pág. 26/342
11/55 consideráveis com relação à informação genômica na forma de uma sequência de nucleotídeos, será entendido que os métodos e sistemas para compressão podem ser implementados também para outras sequências genômicas ou proteômicas, embora com algumas variações, como será entendido por uma pessoa perita na arte.
[050] A informação de sequenciamento do genoma é gerada por máquinas de High Throughput Sequencing (HTS) na forma de sequências de nucleotídeos (i.e. bases) representadas por sequências de letras de um vocabulário definido. O menor vocabulário é representado por cinco símbolos: {A, C, G, T, N} representando os 4 tipos de nucleotídeos presentes no DNA: adenina, citosina, guanina e timina. Em RNA timina é substituída por uracila (II). N indica que a máquina de sequenciamento não foi capaz de chamar qualquer base e, portanto, a natureza real do nucleotídeo nessa posição é indeterminada. Caso os códigos de ambigüidade da IIIPAC sejam adotados pela máquina de sequenciamento como vocabulário, o alfabeto usado para os símbolos é composto pelos seguintes símbolos: {A, C, G, T, U, W, S, Μ, K, R, Y, B, D, Η, V, N ou -}. No caso de aminoácidos, os símbolos suportados são: {A, C, D, E, F, G, Η, I, K, L, M,
N, P, Q, R, S, T, V, A, Y}.
Terminologia [051] No contexto desta invenção, as sequências de nucleotídeos produzidas pelas máquinas de sequenciação são chamadas leituras. As leituras de sequência podem ser compostas de um número de nucleotídeos variando de algumas dezenas a milhares. Algumas tecnologias de sequenciamento produzem leituras de sequência compostas de pares, dos quais uma leitura é originada de uma cadeia de DNA e a outra é originada da outra cadeia. Uma leitura associada a outra leitura em um processo de sequenciamento produzindo pares é dita como sua companheira.
[052] Um elemento comum de abordagens eficientes à compressão de leituras de sequência genômica é a exploração da correlação de dados de sequência em relação a uma sequência de referência. Mesmo que o perfil somático da
Petição 870190075592, de 06/08/2019, pág. 27/342
12/55 população humana seja extremamente diversificado, a porção real do número de nucleotídeos que difere de pessoa para pessoa é de apenas 0,1% do número total de nucleotídeos que compõem um genoma inteiro. Portanto, a informação genômica específica que caracteriza cada indivíduo é muito limitada em relação a toda a informação transportada por um genoma inteiro. Quando um genoma de referência preexistente estiver disponível, seja para o sequenciamento anterior ou como uma referência de consenso “média” publicada, a maneira mais comum, a partir de hoje, de codificar a informação é identificar e codificar apenas as diferenças em relação ao genoma de referência.
[053] Para fazer isso com leituras de sequência bruta, geralmente expressas na forma de arquivos de dados FASTQ, uma etapa preliminar de pré-processamento do mapeamento em um genoma de referência. No caso de um genoma de referência apropriado não estiver disponível, ou se a polarização introduzida pelo uso de uma referência específica não é desejável, a construção de uma nova sequência de referência por meio de montagem da leitura de sequência a mão em sequências mais longas chamados contigs, é uma alternativa possível.
[054] Ao longo desta invenção, uma sequência de referência é uma sequência de nucleotídeos associada a um sistema de coordenadas de números inteiros monodimensional, para o qual cada coordenada de número inteiro está associada a um único nucleotídeo. Os valores das coordenadas podem ser iguais ou maiores que zero. Este sistema de coordenadas no contexto deste invento é baseado em zero (isto é, o primeiro nucleotídeo tem a coordenada 0 e diz-se que está na posição 0) e aumenta linearmente da esquerda para a direita.
[055] Quando a sequência de mapeamento é lida em uma sequência de referência, a referida sequência de referência é usada como eixo de um sistema de coordenadas monodimensional no qual a posição mais à esquerda é designada como 0. Para cada sequência lida, mapeada para uma sequência de referência, o nucleotídeo mapeado na posição sequência de referência identificado pelo menor coordenar número é geralmente referido como as sequências de nucleotídeos “mais à esquerda”, enquanto que as sequências de
Petição 870190075592, de 06/08/2019, pág. 28/342
13/55 nucleotideos mapeada na posição sequência de referência identificado pela maior coordenar número é referido como o de nucleotideos “mais à direita”. Isto é ilustrado na Figura 8. Ao longo desta invenção, um nucleotídeo é também referido como uma base.
[056] Quando uma leitura de sequência é mapeada para uma sequência de referência, a coordenada da base mapeada mais à esquerda é representada como representando a posição de mapeamento da leitura na sequência de referência.
[057] Uma base presente na leitura alinhada e não presente na sequência de referência (também conhecida como inserção) e bases preservadas pelo processo de alinhamento mas não mapeadas na sequência de referência (também conhecidas como clipes suaves) não possuem posições de mapeamento.
[058] Quando uma leitura de sequência não pode ser mapeada para qualquer posição mapeada das sequências de referência usadas de acordo com as regras de correspondência especificadas, diz-se que ela não está mapeada.
[059] O processo de construir sequências genômicas mais longas procurando regiões sobrepostas entre as leituras de sequência é chamado de montagem.
[060] Uma sequência genômica mais longa construída para montar leituras mais curtas é chamada de contig (ver https://en.wikipedia.org/wiki/Contig).
[061] As leituras de sequência que falham ao construir qualquer contig durante um processo de montagem são consideradas desalinhadas.
[062] Um genoma de referência é composto por uma ou mais sequências de referência e é montado por cientistas como um exemplo representativo do conjunto de genes de uma espécie. Por exemplo, GRCh37, o genoma humano do Consórcio de Referência do Genoma (build 37) é derivado de treze voluntários anônimos de Buffalo, Nova York. No entanto, uma sequência de referência também pode consistir numa sequência sintética concebida e meramente construída para melhorar a compressibilidade das leituras tendo em vista o seu processamento posterior.
Petição 870190075592, de 06/08/2019, pág. 29/342
14/55 [063] Nesta invenção, a leitura que compõe um par de leitura com um mapeamento de base na menor coordenada em uma sequência de referência é referida como Read 1, enquanto sua correspondência é referida como Read 2. [064] A distância, expressa como o número de nucleotídeos (ou bases), separando duas leituras geradas como um par, por uma máquina de sequenciamento usando a tecnologia atual de sequenciamento de última geração, é desconhecida e é determinada pelo mapeamento de ambas as leituras que compõem o par minimizando funções de correspondência apropriadas a uma sequência de referência.
[065] Ao longo desta invenção, uma Unidade de Acesso (AU) é definida como uma estrutura de dados lógicos contendo uma representação codificada de informações genômicas ou metadados relacionados para facilitar o acesso e a manipulação do fluxo de bits. É a menor organização de dados que pode ser decodificada por um dispositivo de decodificação implementando a invenção descrita nesta invenção.
[066] De acordo com o tipo de informação codificada, uma UA pode ser decodificada independentemente de qualquer outra UA ou usando informações contidas em outras UAs.
[067] As UAs podem ser classificadas em uma multiplicidade de tipos de acordo com a natureza dos dados da sequência codificada. Uma Unidade de Acesso contém uma sequência de referência, ou uma parte dela, ou leituras codificadas ou pares de leitura pertencentes a uma única classe de dados. Qualquer UA único não pode conter dois ou mais tipos de dados de sequência. Por exemplo, uma Unidade de Acesso pode conter todo o cromossomo 1 do GRCh37, o genoma humano do Consórcio de Referência do Genoma (build 37). Outra Unidade de Acesso pode conter a representação codificada de nucleotídeos do cromossomo 1 do GRCh37 que estão localizados entre as coordenadas 50 ' 000 e 150 ' 000. Outra Unidade de Acesso pode conter apenas leituras ou pares de leituras que mapeiam perfeitamente a sequência de referência sem qualquer incompatibilidade. Outra Unidade de Acesso pode conter leituras ou pares de
Petição 870190075592, de 06/08/2019, pág. 30/342
15/55 leitura que contêm apenas “N” símbolos como incompatibilidades em relação à sequência de referência. Outra Unidade de Acesso pode conter leituras ou pares de leitura que contenham qualquer tipo de substituição (por exemplo, uma base presente no par de leitura ou leitura é diferente da base na posição de mapeamento correspondente na sequência de referência). Outra unidade de acesso pode conter leituras ou pares de leitura que contêm incompatibilidades, inserções, exclusões e bases cortadas flexíveis. Outra unidade de acesso pode conter apenas pares de leitura ou leitura que não mapeiam na sequência de referência. Outra Unidade de Acesso pode conter apenas pares de leitura nos quais uma leitura é mapeada e a outra não é mapeada na sequência de referência. Outro tipo de Unidade de Acesso pode conter apenas segmentos codificados de um genoma de referência composto por uma ou mais sequências de referência (por exemplo, cromossomos).
[068] A característica essencial de uma Unidade de Acesso é que ela contém em formato compactado todos os elementos necessários para reconstruir as informações genômicas de leituras de sequência ou pares de leituras, sequências de referência, informações de alinhamento associadas e metadados de leituras ou pares de leituras. Em outras palavras, para reconstruir totalmente as leituras, ou os pares lidos, ou a sequência de referência e as informações associadas transportadas por uma Unidade de Acesso, é necessário recuperar e descompactar a própria Unidade de Acesso e, quando aplicável, as Unidades de Acesso contendo as sequência de referência a que as Unidades de Acesso se referem.
[069] Em cada Unidade de Acesso, os descritores listados na próxima seção e representando as informações em pares de leitura ou leitura codificados são agregados em blocos de dados separados - um por tipo - para explorar suas propriedades estatísticas homogêneas para obter codificação de entropia de alto desempenho.
[070] Cada Unidade de Acesso contém o subconjunto compactado de descritores representando leituras de sequência ou pares de leitura pertencentes
Petição 870190075592, de 06/08/2019, pág. 31/342
16/55 à mesma classe de dados mapeada para uma região genômica em uma sequência de referência. Essa região genômica na sequência de referência é definida por uma coordenada de início (ou posição inicial) e uma coordenada final (ou posição final).
[071] Um exemplo de Unidade de Acesso é ilustrado na Figura 6. As Unidades de Acesso são compostas por blocos de descritores genômicos codificados, conforme descrito na próxima seção. Para permitir o transporte através de uma rede, os blocos são decompostos em pacotes. Ao compactar leituras de sequência genômica, cada Unidade de Acesso contém um descritor compactado que representa leituras de sequência mapeadas para um intervalo genômico na sequência de referência ou leituras de sequência não mapeadas. As Unidades de Acesso podem ser usadas para transportar genomas de referência ou suas partes. Uma sequência de referência pode ser codificada como uma única sequência longa de nucleotideos ou dividida em sequências mais curtas codificadas como leituras de sequência genômica não mapeadas.
[072] No contexto desta invenção, os descritores genômicos são elementos de sintaxe que representam parte da informação (e também elementos de uma estrutura de sintaxe de um formato de arquivo e/ou fluxo de bits) necessários para reconstruir (isto é, decodificar) sequências de referência codificadas, leituras de sequência e informações de mapeamento associadas.
[073] Os descritores genômicos divulgados nesta invenção estão listados na Tabela 1.
Tabela 1. Descritores genômicos e seu significado
ID Nome abreviado Descricao
1 pos Posicao mapeada de uma leitura numa sequencia de referencia
2 pair Distancia entre uma leitura e sua companheira
3 rlen Tamanho de uma leitura de sequencia
4 rcomp Cadeia de DNA ou RNA sobre a qual a leitura foi mapeada
Petição 870190075592, de 06/08/2019, pág. 32/342 / 55
5 mmpos Posicao de discordâncias (i.e. substituições, delecoes e insercoes) em leituras alinhadas com respeito a sequências de referencia
6 mmtype Tipos de discordâncias com respeito a sequências de referencia nas posicoes associadas
7 clips Bases que nao puderam ser mapeadas na sequencia de referencia pelo processo de mapeamento e que foramo tanto matidas (bases “suaves clipes”) ou descartadas (bases “duras clipes”)
8 flags flags de mapeamento possibilitando que o alinhador especifique o resultado de mapeamento tal como se a leitura de sequencia fosse um PCR ou duplicata optica
9 mmap Posicoes de mapeamento múltiplo que sao associadas com uma unica leitura ou par de leituras no processo de mapeamento
10 msar Identificacao de existência de leituras spliced reads (i.e. leituras que quando cortadas em pedaços tem posicoes de mapeamento com maiores graus de precisão de mapeamento do que quando sao mapeadas como leituras de mapeamento simples conectadas numa unica posicao numa sequencia de referencia)
11 ureads Representação de leituras de sequencia que nao podem ser mapeadas em qualquer posicao da sequencia de referencia com graus específicos de precisão de alinhamento,
12 rtype Sinalizacao do descritor no sub-conjunto de descritores utilizado para codificar as leituras de sequencia que nao podem ser mapeadas em qualquer posicao da sequencia de referencia com graus específicos de precisão de alinhamento
13 rftp Posicao de discordâncias entre um contig e uma sequencia de referencia. As posicoes de discordâncias sao terminadas com um caractere especial terminador.
14 rftt Tipo de discordâncias entre um contig e uma sequencia de referencia.
15 rgroup Etiqueta associada a cada leitura de sequencia comprimida utilizada para criar grupos de leituras que compartilham a mesma etiqueta
16 mscore O score por alinhamento. Utilizado para representar mapeamento/alinhamento por leitura por alinhadores de sequencia
Petição 870190075592, de 06/08/2019, pág. 33/342
18/55
genômica.
[074] De acordo com o método divulgado nesta invenção, as sequências de referência ou sua parte, leituras de sequência e a informação de alinhamento associada são codificadas usando um subconjunto dos descritores listados acima que são então codificados por entropia usando uma multiplicidade de codificadores de entropia de acordo com cada descritor específico propriedades estatísticas. Blocos de descritores comprimidos com propriedades estatísticas homogêneas são estruturados em Unidades de Acesso que representam a menor representação codificada de uma ou mais sequências genômicas que podem ser manipuladas por um dispositivo implementando a invenção descrita nesta invenção.
[075] A invenção descrita neste relatório descritivo define um método para representar em termos de descritores genômicos uma sequência de referência usada para alinhar leituras de sequências genômicas. Tais descritores genômicos são comprimidos usando codificadores de entropia específicos. Os blocos de descritores comprimidos são então encapsulados na mesma Unidade de Acesso contendo os descritores genômicos compactados, permitindo a reconstrução de leituras de sequência mapeadas na referida sequência de referência, de modo a permitir transporte eficiente e acesso seletivo.
[076] Numa forma de realização, os presentes princípios são dirigidos à compressão sem perdas de ambas as leituras de sequência genômica com informação de alinhamento associada e sequências de referência utilizadas para o alinhamento. A compressão eficiente é obtida através da construção de sequências mais longas chamadas contigs, mesclando ou concatenando leituras de sequências mapeadas em regiões contíguas da sequência de referência e, em seguida, realizando a compressão baseada em referência de leituras de sequências em relação ao contig construído. A melhor compactação é obtida usando elementos de sintaxe separados chamados “descritores genômicos” para representar todos os recursos que caracterizam leituras de sequências genômicas
Petição 870190075592, de 06/08/2019, pág. 34/342
19/55 mapeadas em uma sequência de referência. 0 formato SAM armazena informações de alinhamento com a sequência de nucleotideos e outros metadados, como as pontuações de qualidade associadas aos pares de bases, as informações de pareamento no caso de leituras finais em pares e assim por diante. De acordo com os princípios da presente invenção, cada uma das características associadas a uma leitura da sequência genômica mapeada ou não mapeada representada por um descritor genômico. Descritores genômicos do mesmo tipo são concatenados em blocos que são comprimidos usando diferentes codificadores de entropia. Deve ser apreciado que a presente invenção não comprime nenhum dos campos SAM tais como a cadeia CIGAR, os sinalizadores de mapeamento, cadeias de nucleotideos ou cadeias de valores de qualidade, mas representam o mesmo tipo de informação utilizando os 16 descritores genômicos ou subespécies específicas, conjuntos deles. A transcodificação de ida e volta de / para o SAM e o formato apresentado é possível para os onze campos obrigatórios do SAM.
[077] As soluções de última geração armazenam genomas montados na forma de arquivos FASTA comprimidos, em que cada sequência de referência (por exemplo, cromossomos) é armazenada como uma sequência de símbolos representando os quatro nucleotideos. Cada sequência de referência faz parte de um genoma de referência (também conhecido como assembly de genoma), que é compactado e armazenado em um banco de dados. Várias montagens de genomas obtidas em diferentes momentos do tempo a partir de alinhamentorial orgânico pertencente ao mesmo organismo ou indivíduo são armazenadas para representar sua história genética. Quando a análise genômica requer a comparação dos dados da sequência do genoma com os genomas de referência existentes, as aplicações da análise genômica efetuam consultas a uma base de dados para recuperar um ou mais genomas de referência de interesse e realizam a análise genômica.
[078] Numa forma de realização preferida, os princípios divulgados nesta invenção podem ser aplicados para implementar armazenamento eficiente de
Petição 870190075592, de 06/08/2019, pág. 35/342
20/55 coleções de genomas de referência incorporados em dados de sequências genômicas comprimidas sem a necessidade de armazenar os genomas comprimidos como recursos separados. Em vez de armazenar os conjuntos genômicos como estruturas de dados separadas a partir dos dados da sequência do genoma, o método e os princípios divulgados nesta invenção permitem armazenar apenas os dados da sequência do genoma com metadados associados permitindo a reconstrução dos genomas utilizados para o alinhamento.
Representação comprimida de leituras de sequências genômicas e sequências de referência [079] Quando as leituras de sequência foram mapeadas em relação a uma sequência de referência pré-existente ou construída, cada leitura de sequência pode ser totalmente representada por um número de elementos denotados nesta divulgação como descritores genômicos ou simplesmente descritores.
[080] Por exemplo, no caso de uma sequência de leitura que corresponde perfeitamente a um segmento de uma sequência de referência, o único subconjunto de descritores necessário para representar a sequência lida é composto pela coordenada da posição de mapeamento na referência (normalmente a coordenada de referência), a posição de mapeamento da base mais à esquerda da sequência lida), o comprimento da sequência lida em si e a informação indicando se a leitura está mapeando na fita de DNA direta ou reversa em relação à sequência de referência.
[081] Caso não seja possível encontrar qualquer posição de mapeamento para a qual todas as bases da sequência lidas correspondam a todas as bases da sequência de referência, o mapeamento (ou mapeamentos) com o número mínimo de incompatibilidades é retido. Nesse caso, é necessário um subconjunto de descritores diferente para também expressar as substituições, as inserções, as eliminações e as bases cortadas que podem ocorrer em correspondência da posição de mapeamento com o número mínimo ou próximo a mínimo de desemparelhamentos. Com este sub-conjunto de descritores, as leituras de
Petição 870190075592, de 06/08/2019, pág. 36/342
21/55 sequência podem ser reconstruídas utilizando as informações transportadas pelos descritores e as informações transportadas pela sequência de referência.
[082] O processo de sequenciamento do genoma pode gerar duplicatas lidas (ou seja, duas ou mais cópias exatas da mesma sequência genômica) por duas razões físicas principais:
- a ocorrência de uma Dupla Reação em Cadeia da Polimerase,
- a ocorrência de uma duplicata óptica no processo de aquisição de dados. Uma leitura é chamada como uma duplicata óptica se o par de leituras estiverem no mesmo bloco e a distância entre leituras for menor que um determinado parâmetro de configuração, dependendo do experimento.
[083] O processo de mapeamento também pode produzir outros tipos de informação, tais como: múltiplas posições de mapeamento possíveis e os escores relacionados, a qualidade do mapeamento, a especificação de leituras emendadas, o mapeamento em duas referências diferentes (geralmente cromossomos) de leituras pertencentes a um par. características do processo de sequenciamento (por exemplo, PCR ou duplicado óptico). Todas essas informações requerem descritores adicionais específicos que estendam cada subconjunto que é então compactado, aplicando para cada subconjunto de descritores algoritmos de codificação de entropia apropriados.
[084] Portanto, cada par de leitura ou leitura pode ser representado de maneira exclusiva por um subconjunto específico de descritores, de acordo com os resultados do processo de mapeamento.
Classificação da leitura de sequência de acordo com regras de correspondência [085] A leitura de sequência gerada pelas máquinas de sequenciação são classificadas pela invenção revelada em seis diferentes “classes” de acordo com os resultados correspondentes do alinhamento em relação a um ou mais sequências de referência “pré-existentes”.
[086] Ao alinhar uma sequência de nucleotídeos de DNA em relação a uma sequência de referência, os seguintes casos podem ser identificados:
Petição 870190075592, de 06/08/2019, pág. 37/342
22/55
- Uma região na sequência de referência é encontrada para coincidir com a sequência de leitura sem qualquer erro (ou seja, mapeamento perfeito). Essa sequência de nucleotídeos é referenciada como “leitura perfeitamente correspondente” ou denotada como “Classe P”.
- Verifica-se que uma região na sequência de referência coincide com a sequência lida com um tipo e um número de desemparelhamentos determinado apenas pelo número de posições em que a máquina de sequenciamento que gera a leitura não foi capaz de chamar qualquer base (ou nucleotídeo). Esse tipo de incompatibilidade é denotado por um “N”, a letra usada para indicar uma base de nucleotídeos indefinida. Neste documento, esse tipo de incompatibilidade é chamado de incompatibilidade de tipo n. Essas sequências pertencem às leituras de “Classe N”. Uma vez que a leitura é classificada como pertencente à Classe N, é útil limitar o grau de imprecisão de correspondência a um determinado limite superior e estabelecer um limite entre o que é considerado uma correspondência válida e o que não é. Portanto, as leituras atribuídas à Classe N também são resequênciaidas pela configuração de um limite (MAXN) que define o número máximo de bases indefinidas (isto é, bases chamadas como “N” ) que uma leitura pode conter. Essa classificação define implicitamente a precisão mínima correspondente (ou o grau máximo de incompatibilidade) de que todas as leituras pertencentes à participação da Classe N se referem à sequência de referência correspondente, que constitui um critério útil para aplicar pesquisas de dados seletivas aos dados compactados. A título de exemplo e não limitative, algumas aplicações de análise podem exigir que as leituras mapeadas contenham apenas um máximo de 3 bases indeterminadas (“N”) quando mapeadas para um genoma de referência para serem consideradas candidatas aceitáveis para análise posterior. Com os formatos existentes, como SAM / BAM, um pipeline de processamento precisa descompactar todo o conjunto de dados e analisar todos os registros descompactados para descartar leituras com mais de 3 “N” símbolos e manter apenas aqueles com 3 ou menos de 3 “N” símbolos antes de prosseguir com uma análise mais aprofundada. De acordo com um aspecto das presentes
Petição 870190075592, de 06/08/2019, pág. 38/342
23/55 princípios, uma aplicação de codificação é capaz de comprimir separadamente lê com 3 ou menos “N” símbolos de modo que um pipeline de processamento pode descodificar e utilizá-los sem qualquer necessidade de processamento ou armazenamento adicionais.
- Constata-se que uma região na sequência de referência corresponde à sequência lida com tipos e número de desemparelhamentos determinados pelo número de posições em que a máquina de sequenciamento que gera a leitura não foi capaz de chamar qualquer base de nucleotídeo, se presente (isto é, “tipo n”) incompatibilidades), mais o número de incompatibilidades em que uma base diferente, do que a presente na referência, foi chamada. Esse tipo de incompatibilidade denotado como “substituição” também é chamado de Variação Nucleotídica Única (SNV) ou Polimorfismo de Nucleotídeo Único (SNP - Single Nucleotide Polymorphism). Neste documento, esse tipo de incompatibilidade também é chamado de incompatibilidade do tipo s. A sequência lida é então referenciada como “M leituras não correspondentes” e atribuída à “Classe M”. Como no caso da Classe N, também para todas as leituras pertencentes à “Classe M” é útil limitar o grau de imprecisão de correspondência a um determinado limite superior e estabelecer um limite entre o que é considerado uma correspondência válida e o que é não é. Portanto, as leituras atribuídas à Classe M também são restritas definindo um conjunto de limites, um para o número “N” de incompatibilidades de “tipo η” (MAXN) se presente, e outro para o número de substituições “s” (MAXS ). Uma terceira restrição é um limite definido por qualquer função dos números “N” e “s”, f (n, s). Essa terceira restrição permite gerar classes com um limite superior de imprecisão de correspondência de acordo com qualquer critério de acesso seletivo significativo. Por exemplo, e não como limitação, f (n, s) pode ser (n + s) 1/2 ou (n + s) ou qualquer expressão linear ou não linear que defina um limite com o nível máximo de imprecisão correspondente é admitido para uma leitura pertencente à “Classe M”. Tal limite constitui um critério muito poderoso para implementar pesquisas de dados seletivas sofisticadas para os dados compactados ao analisar leituras de sequência para
Petição 870190075592, de 06/08/2019, pág. 39/342
24/55 várias finalidades. A título de exemplo e não de limitação, que permite a selecção de origem genômica comprimido lê contendo qualquer combinação possível do número de “tipo n” erros de emparelhamento e “tipo S” de erros de emparelhamento (substituições) para além do limite simples aplicada ao um tipo ou de outro. As soluções existentes, como o formato SAM / BAM, não suportam nativamente a seleção de leituras de sequência alinhadas que possuem um número definido pelo usuário de incompatibilidades em relação ao genoma de referência. A seleção da sequência genômica indica que, no máximo, um número “N” de substituições em relação a um genoma de referência exigiría:
1. a descompactação de todo o arquivo BAM no arquivo SAM textual
2. a análise do SAM decodificado usando analisadores de texto configurados para selecionar as leituras desejadas [087] Essa abordagem exigiría um espaço de armazenamento muito grande (o texto SAM é cerca de 2,5 vezes maior que o BAM) e um tempo de processamento longo na ordem de várias horas para uma cobertura de 30x.
[088] De acordo com um aspecto dos presentes princípios, a sequência genômica lê apresentando qualquer número de incompatibilidades definido pelo usuário pode ser compactado separadamente para estar disponível para descompactação sem a necessidade de descompactar todo o conjunto de dados.
- Uma quarta classe é constituída por leituras de sequenciamento apresentando pelo menos uma incompatibilidade de qualquer tipo entre “inserção”, “deleção” (i.e. indels ) e “recortada”, mais, se presente, qualquer tipo de incompatibilidade pertencente à classe N ou M é referida como “leituras incompatíveis” e atribuída a uma “Classe I”. As inserções são constituídas por uma sequência adicional de um ou mais nucleotídeos não presentes na referência, mas presentes na sequência lida. Neste documento, esse tipo de incompatibilidade é chamado de incompatibilidade “tipo i. Na literatura, quando a sequência inserida é nas bordas da sequência que é também referido como “suave cortada” (isto é, os nucleotídeos não são correspondentes a referência mas são mantidas na alinhado lê ao contrário de nucleotídeos “duros cortados”
Petição 870190075592, de 06/08/2019, pág. 40/342
25/55 que são rejeitados). Neste documento, esse tipo de incompatibilidade é chamado de incompatibilidade de tipo c. Deleção são “buracos” (falta de nucleotídeos) na leitura em relação à referência. Neste documento, esse tipo de incompatibilidade é chamado de incompatibilidade de tipo d. Como no caso das classes “N” e “M”, é possível e apropriado definir um limite para a imprecisão correspondente. A definição do conjunto de restrições para “Classe I” é baseada nos mesmos princípios usados para “Classe M” e é reportada na Tabela 1 nas últimas linhas da tabela. Além de um limite para cada tipo de incompatibilidade admissível para dados de Classe I, uma restrição adicional é definida por um limite determinado por qualquer função do número de discordâncias “N”, “s”, “d”, “i” e “c”, W (n, s, d, i, c). Tal restrição adicional possibilita gerar classes com um limite superior de imprecisão de correspondência de acordo com qualquer critério de acesso seletivo definido pelo usuário significativo. Por exemplo, e não como limitação, w (n, s, d, i, c) pode ser (n + s + d + i + c) 1/5 ou (n + s + d + i + c) ou qualquer expressão linear ou não linear que defina um limite para o nível máximo de imprecisão correspondente admitido para uma leitura pertencente à “Classe I”. Tal limite constitui um critério muito útil para aplicar as pesquisas de dados seletivos desejados para os dados comprimidos ao analisar leitura de sequência para diversos fins, pois permite definir um novo limite para qualquer combinação possível do número de incompatibilidades admissíveis em leituras “Classe I” além o limite simples aplicado a cada tipo de divergência admissível.
- Uma quinta classe inclui todas as leituras que não encontram nenhum mapeamento considerado válido (ou seja, não satisfazendo o conjunto de regras de correspondência que definem um limite superior à imprecisão máxima correspondente, conforme especificado na Tabela 1) para cada classe de dados quando se referem à sequência de referência. Essas sequências são chamadas de “Não mapeadas” quando se referem às sequências de referência e são classificadas como pertencentes à “Classe U”.
Classificação de pares de leitura de acordo com regras de correspondência
Petição 870190075592, de 06/08/2019, pág. 41/342
26/55 [089] A classificação especificada na seção anterior se refere a leituras de sequência única. No caso de tecnologias de sequenciamento que geram leitura em pares (ou seja, Illumina Inc.) em que duas leituras são conhecidas por serem separadas por uma sequência desconhecida de comprimento variável, é apropriado considerar a classificação do par inteiro para uma única classe de dados. Uma leitura que é acoplada a outra é dita como sua “companheira”.
[090] Se ambas as leituras pareadas pertencerem à mesma classe, a atribuição a uma classe do par inteiro é óbvia: o par inteiro é atribuído à mesma classe para qualquer classe (por exemplo, P, N, Μ, I, U). No caso em que as duas leituras pertencem a uma classe diferente, mas nenhuma delas pertence à Classe U, o par inteiro é atribuído à classe com a prioridade mais alta definida de acordo com a seguinte expressão:
P < N < Μ < I em que “Classe P” tem a prioridade mais baixa e “Classe I” tem a prioridade mais alta.
[091] No caso de apenas uma das leituras pertencer à Classe U e sua correspondência a qualquer uma das Classes P, N, Μ, I, uma sexta classe é definida como Classe HM, que significa Half Mapped.
[092] A definição dessa classe específica de leituras é motivada pelo fato de que é usada para tentar determinar lacunas ou regiões desconhecidas existentes em genomas de referência (também conhecidas como regiões pouco conhecidas ou desconhecidas). Essas regiões são reconstruídas por pares de mapeamento nas bordas usando o par lido que pode ser mapeado nas regiões conhecidas. O alinhamento não mapeado é então usado para construir os chamados “contigs” da região desconhecida, como é mostrado na figura 9. Por conseguinte, proporcionar um acesso seletivo apenas a esse tipo de pares de leitura reduz grandemente a carga de computação associada permitindo que o processamento muito eficiente de tais dados originados por grandes quantidades de conjuntos de dados do que usar as soluções do estado da arte necessite de ser inteiramente inspecionado.
Petição 870190075592, de 06/08/2019, pág. 42/342
27/55 [093] A tabela abaixo resume as regras de correspondência aplicadas às leituras para definir a classe de dados a que cada leitura pertence. As regras são definidas nas cinco primeiras colunas da tabela em termos de presença ou ausência de tipos de incompatibilidade (diferenças de tipo n, s, d, i e c). A sexta coluna fornece regras em termos de limite máximo para cada tipo de incompatibilidade e qualquer função f (n, s) e w (n, s, d, i, c) dos possíveis tipos de incompatibilidade.
Tabela 2. O tipo de discordâncias e o conjunto de restrições que cada leitura de sequência deve satisfazer para ser classificada nas classes de dados definidas nesta divulgação da invenção.
Numero e tipos de discordância encontrados quando se alinha uma leitura com uma sequencia de referencia Conjunto de restrições de precisão de alinhamento Classe de alinhamento
No. de bases desconhe cidas (“N”) No. de substituicoe s No. de delecoes No. de insercoe s No. de bases clip
0 0 0 0 0 0 P
n > 0 0 0 0 0 n < MAXN N
n > MAXN U
n > 0 s > 0 0 0 0 n < MAXN e s < MAXS e f(n,s) < MAXM M
n > MAXN ou s > MAXS ou f(n,s) > MAXM U
n > 0 s > 0 d>0* i > 0* c > 0* n < MAXN e s < MAXS e d <MAXDe i < MAXI e c < MAXC w(n,s,d,i,c) < MAXTOT 1
*pelo menos ums discordância de tipod, i, c precisa estar presente (i.e. d>0 or i>0 or c>0)
d > 0 i > 0 c > 0 n > MAXN ou s > MAXS ou d > MAXD ou i > MAXI ou c > MAXC w(n,s,d,i,c) > U
Petição 870190075592, de 06/08/2019, pág. 43/342
28/55
MAXTOT
Comparação com abordagens de última geração [094] Abordagens comumente usadas, como SAM e CRAM, não codificam leituras ou pares de leitura de acordo com o subconjunto específico de descritores necessários para representar suas informações de mapeamento. O SAM e o CRAM não classificam as leituras de sequência em classes de dados de acordo com o número e o tipo de incompatibilidades que elas contêm em relação à sequência de referência à qual são mapeadas. Além disso, esses formatos não codificam leituras de sequência separadamente em Unidades de Acesso contendo apenas leituras de sequência pertencentes a uma única classe de dados. No caso de leituras de sequência geradas em pares, as abordagens do estado da arte não as codificam como elementos únicos particionados em classes de acordo com a precisão do mapeamento em relação à sequência de referência. Tais abordagens de ponta são caracterizadas pelas seguintes limitações e desvantagens:
1. A codificação de leituras ou leituras de pares sem classificar as leituras de sequência em classes de dados separadas de acordo com os resultados do mapeamento versus uma sequência de referência e usar um superconjunto exclusivo de descritores é uma abordagem ineficiente que produz um desempenho de compactação deficiente.
2. A falta de modelagem de origem para os dados compactados e o uso de compressores para fins gerais, como ZIP, GZIP e LZMA, produzem baixas taxas de compactação.
3. A codificação de pares de leitura como leituras de sequências separadas requer a duplicação de vários descritores contendo a mesma informação, tal como, por exemplo, os identificadores de leitura (nomes de leitura), resultando assim ineficiente e produz um desempenho de compressão pobre.
4. A recuperação da informação necessária para reconstruir pares de leitura resulta ser complexa e ineficiente, uma vez que o processo requer uma busca sequencial de força bruta em possivelmente todo o conjunto de dados que
Petição 870190075592, de 06/08/2019, pág. 44/342
29/55 pode ser extremamente grande no caso da tecnologia NGS (Next-Generation Sequencing).
5. O acesso seletivo para ler ou ler pares mapeados para regiões genômicas específicas requer a pesquisa de todo o conjunto de dados para garantir que todos os pares de leitura ou leitura sejam recuperados.
[095] Ao codificar pares de leitura por meio de um único subconjunto de descritores, as seguintes vantagens técnicas são evidentes para um técnico no assunto:
1. As informações comuns a ambas as leituras, que são claramente redundantes, não são replicadas codificando um par como elemento único (por exemplo, identificadores de par de leituras, distância de mapeamento, identificadores de referência de mapeamento, várias informações de qualidade de mapeamento atualmente codificadas por sinalizadores específicos no formato de arquivo SAM)
2. A recuperação da informação de emparelhamento mútuo (ou seja, a informação que fornece a leitura que é o alinhamento de qualquer leitura à mão) é simples e não requer qualquer processamento adicional. Por outro lado, no estado da técnica, pode ser necessário analisar todo o volume de dados.
[096] Para permitir acesso seletivo eficiente a partes específicas de dados de sequenciamento e poder transportá-los em uma rede de dados digital, o conjunto de descritores usados para representar leituras de sequência alinhadas a uma referência são estruturados em blocos de dados independentes e separados logicamente chamados de Unidades de Acesso. (AU). Cada Unidade de Acesso contém apenas a representação compactada de uma única classe de dados e pode ser decodificada independentemente de quaisquer outras Unidades de Acesso ou usando apenas as Unidades de Acesso que transportam a representação codificada da região de sequência de referência usada para mapeamento. Isso permite acesso seletivo e recursos de transporte fora de ordem.
Petição 870190075592, de 06/08/2019, pág. 45/342
30/55 [097] A fim de aumentar a eficiência de compressão deste invento elimina a necessidade de especificar o “identificador de referência de mapeamento” descritor para cada par ler tendo ambos os pares mapeados na mesma sequência de referência. Cada Unidade de Acesso pode conter apenas leituras ou pares que mapeiam na mesma referência. Usando essa solução, o descritor que representa o identificador de sequência de referência precisa ser codificado apenas uma vez por cada Unidade de Acesso ou conjunto de Unidades de Acesso (e não repetido para cada leitura, como feito atualmente nos formatos SAM / BAM).
[098] A única exceção da regra expressa acima é o caso de pares de leitura com as duas leituras mapeadas em diferentes sequências de referência (por exemplo, cromossomos). Neste caso, o par é dividido e as duas leituras são codificadas como dois registros genômicos separados e cada leitura codificada contém o identificador da sequência de referência para a qual seu posicionamento é mapeado.
[099] Dados experimentais demonstraram que o desenvolvimento de codificadores de entropia adequados às propriedades estatísticas dos descritores genômicos proporcionam melhor desempenho de compressão com relação ao uso de um compressor de uso geral (por exemplo, algoritmo do tipo LZ) aplicado a um conjunto heterogêneo de dados. Como consequência, ao codificar a sequência genômica em pares por meio de um subconjunto específico de descritores, maior compressão é alcançada graças à menor entropia que caracteriza cada subconjunto separado de descritores e maior eficiência de processamento ao reconstruir e recuperar pares de leitura.
[100] As vantagens em termos de proporções de compressão alcançáveis proporcionadas pela abordagem descrita nesta invenção são descritas nas secções seguintes onde as diferentes binarizações e transformações aplicadas a diferentes blocos de descritores genômicos antes da codificação de entropia são descritas com o desempenho relacionado.
Codificação de genomas de referência com dados de sequência
Petição 870190075592, de 06/08/2019, pág. 46/342
31/55 [101] Numa forma de realização, os presentes princípios são dirigidos à compressão sem perdas de sequências de referência, tais como genomas de referência ou conjuntos de genoma, quando é realizada uma compressão sem referência de dados de sequências alinhadas. Compactação sem referência de dados de sequência alinhados de acordo com Voges, J., Munderloh, M., Ostermann, J., “Predictive Coding of Aligned Next-Generation Sequencing Data” (2016 Data Compression Conference (DCC)) pode ser implementada usando ο descritores genômicos de 1 a 12 definidos na Tabela 1 desta invenção. Voges usa um buffer circular para armazenar progressivamente leituras de sequência codificadas e construir o contig relacionado usando a sequência SAM CIGAR associada a cada sequência alinhada. Embora esta abordagem mencionada possa conseguir uma compressão eficiente dos dados de sequenciação do genoma 101 mapeados numa sequência de referência 100, não suporta a representação e compressão da própria sequência de referência 100, porque um motor de descodificação só será capaz de reconstruir o contig e o comprimido lê a sequência genômica, mas o genoma de referência original usado para o alinhamento não está contido nos dados compactados. Esta divulgação visa utilizar os descritores genômicos não. 13 e 14 na Tabela 1 para conseguir uma compressão eficiente do genoma de referência utilizado para o alinhamento quando é aplicada uma compressão sem referência aos dados da sequência do genoma. Isto é conseguido armazenando nos dados comprimidos as diferenças entre os contigs montados durante o processo de compressão e o genoma de referência usado para o alinhamento. No final da decodificação, o processo de decodificação irá reconstruir o contig utilizado para a leitura da sequência genômica de descompressão e - por meio dos descritores 13 e 14 - será capaz de reconstruir o genoma de referência utilizado para o alinhamento.
[102] A Figura 1 mostra como leituras de sequência alinhadas 101 podem ser usadas para construir uma sequência mais longa 102 denominada contig a ser usada para realizar compressão baseada em referência. O contig é montado selecionando, por cada posição no genoma de referência, o nucleotídeo que está
Petição 870190075592, de 06/08/2019, pág. 47/342
32/55 presente com a maior freqüência nas leituras alinhadas nessa posição. Se tal nucleotídeo é o mesmo que na sequência de referência, isso é dito que é uma “correspondência”. Caso contrário, se for diferente, diz-se que é um “desajuste”. Isso não é possível na abordagem de Voges, onde o buffer deve ser fixado a priori, também devido a escolhas de design predefinidas.
[103] Além disso, na presente invenção, o comprimento do contig pode ser definido pelo usuário (por exemplo, em um arquivo de parâmetro de entrada) ou dinamicamente atualizado pelo codificador. As informações sobre o comprimento do contig podem ser enviadas do codificador para o decodificador em uma estrutura de dados contida no formato de arquivo usado para armazenar ou transmitir as informações genômicas compactadas, como a mostrada na Tabela
18. Esse novo recurso tem a vantagem considerável de ser definido por um parâmetro, pode ser adaptado às várias arquiteturas de codificador e decodificador e suas limitações relevantes, e também é adaptável à evolução das várias arquiteturas que serão usadas para codificação e decodificação das sequências do genoma e complexidade computacional da sequência a ser codificada.
[104] O comprimento contig pode ser expresso em termos de número de nucleotideos e/ou número de leituras usadas no processo de codificação e decodificação. Este processo é mostrado na figura.
[105] Adicionalmente, a figura 2 mostra como as ditas “incompatibilidades” (202) entre a sequência de referência 200 e o contig 201 são codificadas usando os descritores no. 13 e não. 14 da tabela 1. A entropia codificando tais descritores e encapsulando-os na mesma Unidade de Acesso contendo os descritores utilizados para comprimir as leituras de sequências alinhadas possibilita a reconstrução no dispositivo de decodificação do genoma de referência utilizado para o alinhamento.
[106] Numa outra forma de realização da invenção, as regiões do genoma de referência utilizadas para o alinhamento que não são abrangidas por qualquer uma das leituras mapeadas, podem ser comprimidas (isto é, entropia codificadas),
Petição 870190075592, de 06/08/2019, pág. 48/342
33/55 encapsuladas e transportadas em Unidades de Acesso específicas. Tais Unidades de Acesso contêm apenas a representação comprimida do genoma de referência usado para o alinhamento e cobrem as regiões genômicas nas quais nenhuma leitura de sequência é mapeada. Isso é mostrado na figura 11, onde regiões do genoma de referência usadas para alinhamento, mas nas quais nenhuma leitura é mapeada, são codificadas em Unidades de Acesso específicas. A vantagem técnica de tal invenção é a possibilidade de reconstruir completamente na extremidade de decodificação o genoma de referência usado para o alinhamento sem a necessidade de armazenar uma quantidade de dados correspondente ao volume completo de um genoma de referência.
[107] As vantagens técnicas dessa abordagem em relação à solução de Voges et al. citadas aqui são as seguintes:
1. O genoma de referência usado para o alinhamento está disponível no dispositivo de decodificação sem qualquer transmissão fora da banda de dados adicionais (por exemplo, o genoma comprimido ou qualquer outra referência a repositórios externos)
2. O genoma de referência pode ser reconstruído seletivamente no dispositivo de decodificação com uma granularidade igual à região genômica coberta por cada Unidade de Acesso. Regiões parciais do genoma de referência podem ser acessadas com um mecanismo de acesso aleatório. Isso permite um processamento de dados muito mais eficiente em relação à solução existente, que exige descompressão e manipulação de todos os 3,2 bilhões de nucleotídeos que compõem um genoma de referência humano, mesmo se a análise for restrita a uma região genômica muito menor
3. Os descritores rftp e rftt descritos nesta invenção podem ser usados por pipelines de análise do genoma como indicadores do novo Polimorfismo de Nucleotídeo Único (também conhecido como SNP, ver httpsV/en wikip^ presente nos dados da sequência comprimida quando o genoma de referência usado para alinhamento pertence ao mesmo indivíduo ao qual pertencem os dados de
Petição 870190075592, de 06/08/2019, pág. 49/342
34/55 sequência compactada. Ele tem que ser apreciado que - no muito elevado (mais do que 30 vezes) de cobertura - pode ser considerado como uma nova montagem de um indivíduo a 102 contig construído durante o processo de compressão de referência-menos genoma s. Quando o contig é comparado a um genoma 100 de referência previamente obtido pertencente ao mesmo indivíduo, as diferenças encontradas são uma indicação da possível presença de um polimorfismo de nucleotídeo único (também conhecido como SNP, veja https://en.wikipedia.org/wiki/ Polimorfismo de nucleotídeo único).
Codificação de entropia de descritores genômicos [108] Subconjuntos de descritores genômicos definidos nesta invenção são usados para representar dados genômicos pertencentes às seis classes definidas de acordo com o princípio desta invenção. As Figuras 6 e 7 mostram que leituras de sequências genômicas mapeadas em regiões contíguas das sequências de referência são representadas por blocos de descritores genômicos encapsulados em uma Unidade de Acesso. Os referidos blocos de descritores são codificados por entropia utilizando diferentes codificadores de entropia especificamente adaptados às propriedades estatísticas de cada descritor. Essa abordagem fornece melhores taxas de compactação do que outras abordagens, como SAM / BAM ou CRAM, porque cada bloco de descritores genômicos representa uma fonte de informações que pode ser modelada com mais eficiência do que um registro SAM ou CRAM. Os registros SAM e CRAM são grupos de elementos heterogêneos que não compartilham as mesmas propriedades estatísticas dos descritores genômicos definidos nesta invenção.
[109] As transformações e binarizações aplicadas aos descritores juntamente com os parâmetros de configuração necessários para os codificadores de entropia dos referidos descritores proporcionando melhores razões de compressão do que a solução do estado da técnica e são divulgados nesta invenção como relatado abaixo.
Transformação de descritores
Petição 870190075592, de 06/08/2019, pág. 50/342
35/55 [110] A transformação de descritores é um processo pelo qual um descritor de valor s que representa uma característica genômico, tal como uma posição de desemparelhamento dentro de uma sequência genômica ou de uma incompatibilidade de tipo se transforma num valor correspondente diferente, a fim de atingir melhor o desempenho da compressão. Numa forma de realização, de acordo com os princípios desta invenção, as posições de desemparelhamentos representadas pelo descritor rftp são transformadas de acordo com as seguintes etapas:
1. A entrada para o processo de transformação são posições de desemparelhamentos expressos como distâncias em nucleotídeos do primeiro nucleotídeo da sequência lida. Isto é mostrado na figura 2, onde os quatro desemparelhamentos 203 dos contigs montados em relação à sequência de referência estão na posição 4, 6, 10 e 13.
2. Cada posição absoluta é então transformada em uma posição diferencial em relação à incompatibilidade anterior. A primeira incompatibilidade mantém o mesmo valor. Os valores das quatro posições são então transformados em 4, 2, 4, 3. Esses valores são a entrada para o processo de binarização do descritor rftp descrito abaixo.
[111] Numa forma de realização, de acordo com os princípios desta invenção, os tipos de erros de correspondência representados pelo descritor rftt são transformados de acordo com as seguintes etapas:
1. A entrada para o processo de transformação é um tipo de incompatibilidade expresso como símbolos de nucleotídeos. Isto é mostrado na figura 2, onde os quatro desemparelhamentos 204 dos contigados montados em relação à sequência de referência são do tipo A, A, G, A.
2. Cada nucleotídeo é então transformado num valor inteiro representando a posição do nucleotídeo num vector 209 contendo todos os símbolos possíveis. Isso é mostrado na figura 10. Os quatro tipos de incompatibilidade são então transformados em 0, 0, 2, 0. Esses valores são a entrada para o processo de binarização do descritor rftt descrito abaixo.
Petição 870190075592, de 06/08/2019, pág. 51/342
36/55
Binarização de descritores [112] Numa forma de realização, a presente invenção utiliza codificação aritmética binária adaptativa ao contexto (CABAC) para a compressão dos descritores genômicos. O CABAC primeiro converte em uma representação binária todos os símbolos a serem codificados. O processo de binarização converte um símbolo de valor não-binário (por exemplo, uma posição de mapeamento, um comprimento de leitura mapeado ou um tipo de incompatibilidade) em um código binário antes da codificação aritmética.
[113] A seleção de binarizações apropriadas adaptadas às propriedades estatísticas de cada descritor fornece melhores taxas de compressão do que os formatos existentes baseados em compressores de uso geral aplicados em blocos de elementos heterogêneos.
[114] Nas seções a seguir, essas variáveis são definidas:
- symVal: valor não binário do descritor genômico a ser binarizado.
- cLength: representa o número de bits com os quais o valor é binarizado.
- cMax: é o maior valor possível a ser binarizado. Valores maiores serão truncados.
[115] Enquanto as tabelas de binarização a seguir são calculadas para valores fixos dessas variáveis, deve ser apreciado que os princípios atuais não estão limitados a esses valores, e assim outros valores também podem ser usados de acordo com os princípios atuais, mantendo o espírito de os princípios presentes.
[116] Cada algoritmo de binarização usado nesta divulgação é identificado por um identificador como mostrado na Tabela 3.
Tabela 3. Tipo de binarizações e respectivos identificadores
ld binarizacao Tipo de binarizacao
0 Binary Coding (Bl)
1 Truncated Unary (TU)
2 Exponential Golomb (EG)
3 Signed Exponential Golomb (SEG)
4 Truncated Exponential Golomb (TEG)
5 Signed Truncated Exponential Golomb (STEG)
6 Split Unit-wise Truncated Unary (SUTU)
7 Signed Split Unit-wise Truncated Unary (SSUTU)
8 Double Truncated Unary (DTU)
Petição 870190075592, de 06/08/2019, pág. 52/342
37/55
9 Signed Double Truncated Unary (SDTU)
Codificação Binária (BI) [117] Esta é uma representação binária padrão, na qual cada valor numérico é codificado em sua representação binária. A variável cLength - mostrada na Tabela 15 quando binarizationjd = 0 - representa os números de bits com os quais o valor será representado.
Binarização llnária (TU) Truncada [118] Uma sequência binária TU é a concatenação de symVal, seguida de um zero. Se symVal == cMax, o O-bit final é descartado. A Tabela 4 ilustra as cadeias de bin da binarização unária truncada com cMax = 3.
Tabela 4. Cadeia bin da binarização unária truncada com cMax == 3
symVal Cadeia binaria
0 0
1 1 0
2 1 1 0
3 1 1 1
binldx 0 1 2
[119] A sintaxe para este processo de binarização, juntamente com a decodificação aritmética, é descrita abaixo.
decode_cabac_TU(ctxTable, ctxldx, cMax) { for (binldx=0; binldx<cMax; binldx++) { binValue if (binValue == 0) break }
return binldx }
[120] binValue é o valor binarizado que pode ser 0 ou 1.
Binarização Exponencial de Golomb (EG)
Petição 870190075592, de 06/08/2019, pág. 53/342
38/55 [121] 0 processo de análise para descritores genômicos binarizados usando esta técnica começa com a leitura dos bits começando no local atual no fluxo de bits até e incluindo o primeiro bit não zero, e contando o número de bits iniciais que são iguais a 0.
[122] Esse processo é especificado da seguinte maneira:
leadingZeroBits= -1 for( b = 0; !b; leadingZeroBits++ ) b = read_bits( 1 ) [123] A variável symVal é então atribuída da seguinte forma: symVal = 2leadingZeroBlts - 1 + read_bits( leadingZeroBits ) onde os bits de leitura da chamada de função lêem um número de bits de um meio de armazenamento igual ao parâmetro passado como entrada. O valor retomado de read_bits (leadingZeroBits ) é interpretado como uma representação binária de um inteiro não assinado com o bit mais significativo gravado primeiro.
[124] A Tabela 5 ilustra a estrutura do código Exp-Golomb, separando a sequência de bits em bits prefixo e sufixo. Os bits de prefixo são aqueles que são analisados como especificado acima para o cálculo de ZeroBeres principais, e são mostrados como 0 ou 1 na coluna de cadeia de bits da Tabela 5. Os bits de sufixo são os bits que são analisados no cálculo de symVal e são mostrados como x j na Tabela 5, com i na faixa de 0 a leadingZeroBits - 1, inclusive. Cada x ,é igual a 0 ou 1.
Tabela 5. Representações binárias para valores de symVal de 0 a 62
Forma de sequencia bit Faixa de symVal
1 0
0 1 x0 1..2
0 0 1 Xt x0 3..6
0 0 0 1 x2 Xi Xo 7..14
0 0 0 0 1 x3 x2 Xi Xo 15..30
0 0 0 0 0 1 x4 x3 x2 Xi Xo 31..62
Petição 870190075592, de 06/08/2019, pág. 54/342
39/55 [125] A Tabela 6 ilustra as atribuições exp ícitas de cadeias de bits para valores symVal.
Tabela 6. Sequencias de bit Exp-Golomb e symVal em forma explícita
Sequencia bit symVal
1 0
0 1 0 1
0 1 1 2
00 100 3
00101 4
00110 5
00111 6
0001000 7
0001001 8
0001010 9
[126] Dependendo do descritor genômico, o valor de um elemento de sintaxe binarizado é decodificado usando um dos seguintes métodos:
1. 0 valor do descritor genômico decodificado é igual ao valor symVal correspondente ao descritor binarizado
2. O valor do descritor genômico decodificado é calculado pela aplicação da decodificação Exponencial-Golomb de 0 ordens, conforme definido, por exemplo, em https://en.wikipedia.orq/wiki/Exponential-Golomb coding com symVal como entrada.
Binarização Exponencial Significada de Golomb (SEG) [127] De acordo com este método de binarização, o descritor genômico é associado ao symVal ordenando o elemento sintático pelo seu valor absoluto em ordem crescente e representando o valor positivo para um determinado valor absoluto com o symVal inferior. [128] A Tabela 7 mostra a regra de atribuição.
Petição 870190075592, de 06/08/2019, pág. 55/342
40/55
Tabela 7. Atribuição de elemento de sintaxe a symVal para descritores genômicos codificados por Exp-Golomb assinados.
symVal valor de elemento de sintaxe
0 0
1 1
2 -1
3 2
4 -2
5 3
6 -3
k (-1)k+1 Ceil( k-2 )
Binarização de Golomb Exponencial Truncado (TEG) [129] Este processo de binarização requer o uso de um parâmetro de entrada adicional tegParam que define como a binarização é calculada.
[130] A saída desse processo é a binarização do TEG do elemento de sintaxe.
[131] Uma cadeia bin do TEG é a concatenação de tipos de binarização 1 (no caso de symVal == 0) ou 2 (no caso de symVal> 0):
1. A binarização unária truncada com cMax = tegParam para o valor Min (symVal, tegParam)
2. Se symVal! = 0, a binarização exponencial de golomb para o valor Abs (symVal) - tegParam [132] A Tabela 8 ilustra as cadeias de bin da binarização de Golomb Exponencial Truncada com tegParam == 2.
Tabela 8. Sequência Bin da Binarização Exponencial Truncada de Golomb com tegParam = 2
symVal Unario truncado Golomb exponencial
0 0 - - - -
1 1 0 - - -
2 1 1 1 - -
3 1 1 0 1 0
Petição 870190075592, de 06/08/2019, pág. 56/342
41/55
4 1 1 0 1 1
binldx 0 1 2 3 4
Binarização Exponencial Truncada Assassinada Golomb (STEG) [133] Este processo de binarização requer o uso de um parâmetro de entrada adicional stegParam.
[134] Uma sequência binária STEG é a concatenação de binarizações 1 (no caso de symVal == 0) ou 2 (para outros casos):
1. A binarização exponencial de golomb truncado para Abs (symVal)
2. Se symVal! = 0, um sinalizador de um bit é igual a 1 (se symVal <0) ou igual a 0 (se symVal> 0).
[135] A Tabela 9 ilustra as cadeias de bin da binarização de Golomb Exponencial Truncado Assinado com stegParam = 2.
Tabela 9. Sequência Binária da Binarização Exponencial Truncada de Golomb com StegParam = 2
symVal Golomb truncado exponencial Sinal Flag
Unario truncado Golomb exponencial
-4 1 1 0 1 1 1
-3 1 1 0 1 0 1
-2 1 1 1 - - 1
-1 1 0 - - - 1
0 0 - - - - -
1 1 0 - - - 0
2 1 1 1 - - 0
3 1 1 0 1 0 0
4 1 1 0 1 1 0
binldx 0 1 2 3 4 Max(binldx)+1
Petição 870190075592, de 06/08/2019, pág. 57/342
42/55
Binarização llnária Truncada Unitária (SUTU) em Divisão [136] Este processo de binarização requer o uso de dois parâmetros de entrada splitUnitSize e outputSymSize. outputSymSize deve sempre ser um múltiplo de splitUnitSize.
[137] A cadeia binária de SUTU é uma concatenação de repetidas binarizações de TU, onde cada binarização de TU é aplicada a partes de symVal que são de tamanho splitUnitSize. Em outras palavras, symVal é representado por x sequência binária obtida com a binarização de TU, onde x = outputSymSize / splitUnitSize. O parâmetro cMax para cada cadeia binária é definido como cMax = (1 « splitUnitSize) -1.
[138] A Tabela 10 ilustra as cadeias binárias de binarizações unárias truncadas unitárias divididas com splitUnitSize = 2 e outputSymbSize = 8.
Tabela 10. Cadeia de escaninho da binarização unária truncada com divisão da divisão com splitUnitSize = 2, outputSymSize = 8.
symVal TU Instancia 1 cMax==3 TU Instancia 2 cMax==3 TU Instancia 3 cMax==3 TU Instancia 4 cMax==3
0 0 - - 0 - - 0 - - 0 - -
1 1 0 - 0 - - 0 - - 0 - -
3 1 1 1 0 - - 0 - - 0 - -
15 1 1 1 1 1 1 0 - - 0 - -
31 1 1 1 1 1 1 1 0 - 0 - -
63 1 1 1 1 1 1 1 1 1 0 - -
binldx 0 1 2 3 4 5 6 7 8 9 10 11
[139] A sintaxe do fluxo de bits para este processo de binarização é descrita abaixo.
Tabela 11. Processo de decodificação de CABAC para binarização de TU. decode_cabac_SUTU(ctxTable, ctxldx, splitUnitSize, outputSymSize) { output_symb = 0
Petição 870190075592, de 06/08/2019, pág. 58/342
43/55 cMax = (1 <<splitUnitSize) - 1 for (i=0; icoutputSymSize; i+=splitUnitSize) { tmp = decode_cabac_TU(ctxTable, ctxldx, cMax) ctxldx += cMax output_sym |= (tmp«i) } return output_sym }
Binarização Unária Truncada Unitária (SSUTU) Signed Split [140] Este processo de binarização requer o uso de dois parâmetros de entrada splitUnitSize e outputSymSize.
[141] A cadeia binária SSUTU é obtida por uma extensão do processo de binarização SUTU com o sinal de symVal codificado como um sinalizador separado.
- A binarização SUTU para o valor Abs (symVal).
- Se symVal! = 0, um sinalizador de um bit é igual a 1 (se symVal <0) ou igual a 0 (se symVal> 0).
[142] A Tabela 12 ilustra as cadeias binárias da binarização Unária Truncada Unificada de Divisão Significada com splitUnitSize = 2, outputSymbSize = 8.
Tabela 12 Cadeia Bin da binarização unária truncada por unidade com divisão dividida com splitUnitSize = 2, outputSymSize = 8.
symVal TU Instancia 1 cMax==3 TU Instancia 2 cMax==3 TU I Instancia 3 cMax==3 TU Instancia 4 cMax==3 Sinal
-63 1 1 1 1 1 1 1 1 1 0 - - 1
-31 1 1 1 1 1 1 1 0 - 0 - - 1
-15 1 1 1 1 1 1 0 - - 0 - - 1
-3 1 1 1 0 - - 0 - - 0 - - 1
-1 1 0 - 0 - - 0 - - 0 - - 1
0 0 - - 0 - - 0 - - 0 - - -
Petição 870190075592, de 06/08/2019, pág. 59/342
44/55
1 1 0 - 0 - - 0 - - 0 - - 0
3 1 1 1 0 - - 0 - - 0 - - 0
15 1 1 1 1 1 1 0 - - 0 - - 0
31 1 1 1 1 1 1 1 0 - 0 - - 0
63 1 1 1 1 1 1 1 1 1 0 - - 0
binldx 0 1 2 3 4 5 6 7 8 9 10 11 12
[143] A sintaxe deste processo de binarização é descrita abaixo. decode_cabac_SSUTU(ctxTable, ctxldx, splitUnitSize, outputSymSize) { output_sym = decode_cabac_SUTU(ctxTable, ctxldx, splitUnitSize, outputSymSize) if(output_sym > 0) { ctxldx += ((1 <<splitUnitSize) - 1) * (outputSymSize / splitUnitSize) sign_flag if(sign_flag == 1) output_sym = -output_sym }
return output_sym }
[144] sign_flag representa a decodificação cabac de um bit na variável de contexto identificada por ctxldx.
[145] decode_cabac_SUTU () representa o processo de decodificação do cabac para a binarização do SUTU.
Binarização Unária Truncada Dupla (DTU) [146] Este processo de binarização requer o uso de dois parâmetros de entrada splitUnitSize e outputSymSize.
[147] A cadeia binária DTU é uma concatenação de duas binarizações, ou seja, a binarização da TU e a binarização da SUTU. O parâmetro cMax é usado para a binarização da TU, e os parâmetros splitUnitSize e outputSymSize são usados para a binarização SUTU (onde seu cMax é derivado internamente).
Petição 870190075592, de 06/08/2019, pág. 60/342
45/55
- A primeira instância da binarização de TU para o valor Min (Abs (symVal), cMax).
- Se Abs (symVal)> cMax, a segunda instância da binarização SUTU para o valor Abs (symVal) - cMax.
[148] A Tabela 13 ilustra as cadeias binárias da binarização Unária Truncada Dupla com cMax = 1, splitUnitSize = 2, outputSymSize = 8.
Tabela 13 Sequência Bin da Binarização Unária Truncada Dupla com cMax = 1, splitUnitSize = 2, outputSymSize = 8.
symVal TU Instancia cMax=1 SUTU Instancia: splitUnitSize = 2, outputUnitSize = 8
TU Instancia 1 cMax=3 TU Instancia 2 cMax=3 TU Instancia 3 cMax=3 TU Instancia 4 cMax=3
0 0 -
1 1 -
3 1 1 1 0 0 - - 0 - - 0 - -
15 1 1 1 0 1 1 1 0 - - 0 - -
31 1 1 1 0 1 1 1 1 0 - 0 - -
63 1 1 1 0 1 1 1 1 1 1 0 - -
binldx 0 1 2 3 4 5 6 7 8 9 10 11 12
[149] O processo de binarização é descrito abaixo. decode_cabac_DTU(ctxTable, ctxldx, cMax, splitUnitSize, outputSymSize) { output_sym = 0 if(cMax > 0) { output_sym = decode_cabac_TU(ctxTable, ctxldx, cMax) if(output_sym > cMax) { output_sym += decode_cabac_SUTU(ctxTable, ctxldx+cMax, splitUnitSize, outputSymSize) }
} else
Petição 870190075592, de 06/08/2019, pág. 61/342
46/55 output_sym = decode_cabac_SUTU(ctxTable, ctxldx, splitUnitSize, outputSymSize) return output_sym }
[150] decode_cabac_TU () representa o processo de decodificação do cabac para a binarização de Til.
[151] decode_cabac_SUTU () representa o processo de decodificação do cabac para a binarização SUTII.
Binarização llnária Truncada Dupla (SDTll) Assinada [152] Este processo de binarização requer o uso de dois parâmetros de entrada adicionais splitUnitSize e outputSymSize.
[153] A cadeia binária do SDTll é obtida por uma extensão do processo de binarização da DTU com o sinal de symVal codificado como um sinalizador.
- A binarização do DTU para o valor Abs (symVal).
- Se symVal! = 0, um sinalizador de um bit é igual a 1 (se symVal <0) ou igual a 0 (se symVal> 0).
[154] A Tabela 14 ilustra as cadeias de bin da binarização unária truncada dupla com cMax = 1, splitUnitSize = 2, outputSymSize = 8.
Tabela 14 Cadeia Bin da Binarização Unária Troncalizada Dupla Assinada com cMax = 1, splitUnitSize = 2, outputSymSize = 8.
symVal TU Instancia cMax=1 SUTU Instancia: splitUnitSize = 2, outputUnitSize = 8 Sinal
TU Instancia 1 cMax=3 TU Instancia 2 cMax=3 TU Instancia 3 cMax=3 TU Instancia 4 cMax=3
-63 1 1 1 0 1 1 1 1 1 1 0 - - 1
-31 1 1 1 0 1 1 1 1 0 - 0 - - 1
-15 1 1 1 0 1 1 1 0 - - 0 - - 1
-3 1 1 1 0 0 - - 0 - - 0 - - 1
-1 1 - 1
Petição 870190075592, de 06/08/2019, pág. 62/342
47/55
0 0 -
1 1 - 0
3 1 1 1 0 0 - - 0 - - 0 - - 0
15 1 1 1 0 1 1 1 0 - - 0 - - 0
31 1 1 1 0 1 1 1 1 0 - 0 - - 0
63 1 1 1 0 1 1 1 1 1 1 0 - - 0
binldx 0 1 2 3 4 5 6 7 8 9 10 11 12 13
[155] A sintaxe deste processo de binarização é descrita abaixo.
decode_cabac_SDTU(ctxTable, ctxldx, cMax, splitUnitSize, outputSymSize) { output_sym = decode_cabac_DTU(ctxTable, ctxldx, cMax, splitUnitSize, outputSymSize) if(output_sym > 0) { ctxldx += cMax + ((1 <<splitUnitSize) - 1) * (outputSymSize / splitUnitSize) sign_flag if(sign_flag == 1) output_sym = -output_sym }
return output_sym }
[156] sign_flag representa a decodificação cabac de um bit na variável de contexto identificada por ctxldx.
[157] decode_cabac_DTU () representa a decodificação do cabac com a binarização do DTU.
Parâmetros de binarização [158] Cada algoritmo de binarização introduzido nas seções anteriores requer parâmetros de configuração nas extremidades de codificação e decodificação. Numa forma de realização, os referidos parâmetros de configuração são encapsulados numa estrutura de dados descrita na Tabela 15. Cada algoritmo de binarização é identificado por um identificador, conforme listado na Tabela 3.
Petição 870190075592, de 06/08/2019, pág. 63/342
48/55
Tabela 15. Estrutura dos parâmetros de binarização
ID binarizacao parametros
0 cLength
1 cMax
2 -
3 -
4 tegParam
5 stegParam
6 splitUnitSize, outputSymSize
7 splitUnitSize, outputSymSize
8 cMax, splitUnitSize, outputSymSize
9 cMaxsplitUnitSize, outputSymSize
[159] Na Tabela 15, a seguinte semântica se aplica:
[160] cMax representa o maior valor a ser binarizado. Valores maiores serão truncados.
[161] cLength representa os números de bits com os quais o valor é binarizado.
[162] tegParam representa a variável tegParam definida neste documento para a binarização do TEG.
[163] stegParam representa a variável stegParam definida neste documento para binarização STEG.
[164] splitllnitSize representa a variável splitllnitSize definida neste documento para binarizações SUTll, SSUTll e DTU.
[165] outputSymSize representa a variável outputSymSize definida neste documento para binarizações SUTll, SSUTll DTU e SDTU.
Evidência da vantagem técnica da presente invenção [166] Aplicando a binarização indicada da CABAC aos respectivos descritores genômicos como indicado na Tabela 16, o desempenho de compressão relatado na Tabela 17 pode ser obtido. A melhoria no desempenho de compress do modo descrito nesta invenção pode ser apreciada por comparação com os tamanhos de arquivos correspondentes das abordagens BAM e CRAM e um dos melhores compressores na literatura conhecido como DeeZ (ver Numanagic, I., et al “Comparison of high-throughput sequencing data compression tools”, Nature
Petição 870190075592, de 06/08/2019, pág. 64/342
49/55
Methods (ISSN: 1548-7091), vol. 13, p. 1005-1008 London: Nature Publishing Group, 2016). Deve ser levado em conta que o desempenho de compressão de DeeZ, BAM e CRAM é calculado adicionando o tamanho do genoma de referência comprimido utilizado para o alinhamento com os tamanhos dos dados da sequência do genoma comprimido. De acordo com os princípios da presente divulgação, o genoma de referência é incorporado no arquivo comprimido. Na prática atual, o referido genoma de referência comprimido é um arquivo FASTA (texto ASCII) comprimido usando compressores de uso geral, como GZIP, LZMA, Bzip2. Na comparação proposta, o genoma de referência hs37d5.fa foi comprimido usando o comando xz Linux com a opção de compactação máxima (9).
Tabela 16. Binarizações associadas a cada descritor genômico
descriptor id binarization id
1 8
2 6
3 6
4 1
5 6
6 1
7 Concatenacao de 5, 1, 3, 0 nos bytes compondo cada descritor
8 0
9 6
10 3
11 1
12 1
13 6
14 1
Binarização aplicada aos descritores rftp e rftt [167] Um exemplo de binarização de rftp e rftt é fornecido nesta seção e ilustrado na figura 10.
[168] Os descritores associados a cinco descasamentos entre um gen contig e um genoma de referência usados para alinhamento são mostrados abaixo:
rftp 5 7 12 13 15
rftt C T T C A
Petição 870190075592, de 06/08/2019, pág. 65/342
50/55 [169] Cada símbolo de nucleotídeo é associado a um código inteiro:
Nucleotídeo codigo
A 0
C 1
G 2
T 3
N 4
[170] Após a transformação, os valores se tomam:
rftp 5 2 5 1 2
rftt 1 3 3 1 0
[171] Os valores binarizados para o rftp são calculados da seguinte forma:
1. O valor do terminador pode ser binarizado como 0 ou 1. Aqui, para este exemplo, selecionamos 0.
2. Se terminador = 0, então binarização no. 6 com splitUnitSize = 4, outputSymbolSize = 12 é usado e as seguintes cadeias binárias são associadas aos valores de rftp a 5 =11110 b 2 =110 c 5 =11110 d 1=10 e 2 = 110 [172] Os valores binarizados para rftt são calculados da seguinte forma:
1. Conhecendo o nucleotídeo presente no genoma de referência, remova o símbolo correspondente dos possíveis símbolos a serem codificados. Ou seja, para a primeira incompatibilidade do exemplo, se o símbolo correspondente na referência for um 'G', o espaço dos possíveis símbolos a serem codificados é 0, 1, 3, 4.
2. As freqüências de símbolos dos tipos de incompatibilidade nos dados a serem codificados são medidas e indexadas de 0 a 3. O índice 0 é afetado pela incompatibilidade mais frequente e o índice 3 é afetado pela incompatibilidade
Petição 870190075592, de 06/08/2019, pág. 66/342
51/55 menos frequente. Neste exemplo, uma indexação podería ser: {0 => 3, 1 => 0, 2 => 4, 3 => 1}
3. No exemplo dado, as cinco incompatibilidades seriam binarizadas usando a binarização TU como:
Símbolo índice Binarizacao TU com cMax = 3
1 3 111
3 0 0
3 0 0
1 3 0
0 1 10
[173] Com a abordagem de binarização mostrada acima, os seguintes resultados de compactação são obtidos:
Tabela 17. Desempenho de compactação em relação a soluções de última geração (tamanhos em bytes).
Compressor BAM CRAM Deez Método proposto
9827_2#49.bam (ERR317482)Pouca cobertura 4,755,859,110 3,124,448,497 2,592,665,720 2,164,362,407
Genoma ref. hs37d5.fa 707,712,316 707,712,316 707,712,316 N/A*
Total 5,463,571,426 3,832,160,813 3,300,378,036 2,164,362,407
NA12878_S1.ba m - Muita cobertura 117,653,446,18 7 64,565,636,39 1 64,334,196,40 8 47,759,141,38 8
Genoma ref. hs37d5.fa 707,712,316 707,712,316 707,712,316 N/A*
Total 118,361,158,503 65,273,348,70 7 65,041,908,724 47,759,141,388
* nenhuma informação adicional é necessária, uma vez que já está disponível na representação comprimida de acordo com os princípios desta invenção.
Parâmetros de codificação
Petição 870190075592, de 06/08/2019, pág. 67/342
52/55 [174] Em uma modalidade, os parâmetros necessários para codificar e decodificar cada Unidade de Acesso são encapsulados em uma estrutura de dados nomeada conforme definido na Tabela 18.
Tabela 18. Parâmetros de codificação para descritores genômicos
Nome do parametro Cardinal. Descricao
dataset type 1 Tipo de dado codificado em Unidades de Acesso com referenda a estes parâmetros de codificação.
reads length 1 Tamanho do nucleotídeo de leituras de sequência em casos de tamanhos de leitura constantes. Ο valor 0 indica a presença de leituras de tamanho variável (coberto pelo elemento de sintaxe rlen como aqui definido).
QV depth 1 Numero de Quality Values associados a cada nucleotídeo codificado. 0 significa que nenhum Quality Values foi codificado.
alignment score depth 1 Numero de alinhamentos de scores associados com cada alinhamento codificado. 0 significa que nenhum score de alinhamento foi codificado.
terminator size 1 Representa o tamanho em bytes menos um (e.g. 0 = 1 byte) do símbolo terminador usado para o descritor mmpos definido em Error! Reference source not found.
terminator value 1 Representa o valor do símbolo terminador usado para o descritor mmpos definido na tabela 1.
number of classes 1 Numero de classes de dados codificados em todas as Unidades de Acesso que se referem a estes parâmetros de codificação.
class ID Numero de classes Identificador associado a uma das classes de dados aqui definidas (P, N, Μ, I, HM, U).
number of descriptors 1 Numero total de descritores contidos nas Unidades de Acesso que se referem a estes parâmetros de configuração
coding mode ID Numero de descritore s Um dos modos de codificação aqui definidos
decoder configuration Numero de descritore s Estrutura de dados contendo os parâmetros de configuração de decodificador como aqui especificado
number of groups 1 Numero de valores diferentes do descritor rgroup listado na tabela 1 presente em todas as Unidades de Acesso que se referem aos parâmetros de codificação atuais.
group name Numero Identificador null-terminated string de um grupo de
Petição 870190075592, de 06/08/2019, pág. 68/342
53/55
de grupos leitura.
multiple alignments flag 1 flag sinalizando a presença de alinhamentos múltiplos na Unidade de Acesso. Quando ajustado em 0 nenhum alinhamento múltiplo esta presente
spliced reads flag 1 flag sinalizando a presença de spliced reads na Unidade de Acesso. Quando ajustado em 0 nenhuma leitura spliced esta presente.
multiple signature base 1 flag sinalizando o uso de assinaturas múltiplas numa Unidade de Acesso contendo leituras de sequências não mapeadas (Classe U).
signature size 1 Tamanho, em bits, de cada inteiro representando uma assinatura codificada.
score exponent 1 Numero de bits usados para codificar a parte exponencial do score de alinhamentos múltiplos codificados no descritor mscore. Como especificado em IEEE RFC 754 este valor pode estar entre 0 e 11.0 descritor mscore e definido na tabela 1.
score fractional 1 Numero de bits usados para codificar a parte fracional do score de alinhamentos múltiplos codificados no descritor mscore. Como especificado em IEEE RFC 754 este valor pode estar entre 0 e 52. O descritor mscore e definido na tabela 1.
contig buffer size 1 Tamanho, em bits, do buffer usado para construir o contig 102 na figura 1.
contig buffer count 1 Numero de leituras usadas para construir o contig 102 na figura 1.
Aparelho de codificação [175] A Figura 3 mostra um aparelho de codificação de acordo com os princípios desta invenção. O aparelho de codificação recebe como entrada um genoma de referência 302 e sequências genômicas não alinhadas 300, por exemplo, produzidas por um aparelho de sequenciação do genoma. Os aparelhos de sequenciação de genomas são conhecidos na técnica, como o Illumina HiSeq 2500, os dispositivos Thermo-Fisher Ion Torrent ou o Oxford Nanopore MinlON. Os dados de sequência desalinhados 300 são introduzidos numa unidade de alinhamento de leituras 301, que mapeia as sequências num genoma de referência 302. As sequências genômicas alinhadas 303 são então utilizadas por um aparelho de montagem 304 para construir um ou mais contigs 305. A construção de contigs pode pode ser configurado pelos parâmetros de codificação 313 tais como o comprimento contig ou o número de leituras de sequência usadas
Petição 870190075592, de 06/08/2019, pág. 69/342
54/55 para construir cada contig. Os conteúdos de construções 305 são então utilizados para efetuar compressão baseada em referência nas sequências genômicas alinhadas 303. O compressor 306 base de referência gera elementos de sintaxe denominados descritores que representam sequências genômicas mapeadas e não mapeadas. O genoma de referência 302 utilizado para alinhamento e os contigs construídos 305 são alimentados a um aparelho de codificação diferencial de genoma de referência 307 que gera descritores representando as posições e tipo de desemparelhamentos entre o genoma de referência 302 e os contigs 305. Os descritores genômicos 308 gerados pela referência 306 e o codificador diferencial de genoma de referência 307 são primeiro binarizados por várias unidades de binarização 312 e depois entropia codificada por vários codificadores de entropia 309. Os descritores genômicos codificados por entropia são então alimentados a um aparelho de multiplexagem 310 para construir uma ou mais Unidades de Acesso compondo um bitstream comprimido 311. O fluxo de bits multiplexado contém também estruturas de parâmetros de codificação 313 construídas por um codificador de parâmetros de codificação 314. Cada Unidade de Acesso contém descritores codificados por entropia representando informação de alinhamento e leituras de sequência pertencentes a uma classe de dados como definido nesta invenção.
Aparelho de decodificação [176] A Figura 4 mostra um aparelho de descodificação de acordo com os princípios desta invenção. Uma unidade de demultiplexagem 401 recebe um fluxo de bits multiplexado 400 de uma rede ou de um elemento de armazenamento e extrai a carga útil codificada de entropia das Unidades de Acesso que compõem o referido fluxo de bits. Os decodificadores de entropia 402 recebem as cargas úteis extraídas e descodificam os diferentes tipos de descritores genômicos nas suas representações binárias. As ditas representações binárias são então alimentadas a vários decodificadores binários 410 que geram descritores genômicos 403 e 409. Um descodif icador de parâmetros de codificação 411 recebe parâmetros de codificação multiplexados com a informação genômica e alimenta-os à unidade
Petição 870190075592, de 06/08/2019, pág. 70/342
55/55
404 encarregada de construir os contigs para a sequência de descodificação. Os descritores genômicos que representam as leituras de sequência genômica 409 são introduzidos numa unidade de reconstrução de sequências que constrói um ou mais contigs 405 como parte do processo de descodificação e reconstrói as sequências genômicas alinhadas 407. Os contigs 405 e os descritores descodificados de entropia 403 representam as diferenças entre os contigs e o genoma de referência utilizado para o alinhamento são então alimentados a uma unidade de reconstrução de genoma de referência 406 que reconstrói o genoma de referência 408 utilizado para o alinhamento.
[177] As técnicas inventivas aqui divulgadas podem ser implementadas em hardware, software, firmware ou qualquer combinação das mesmas. Quando implementadas em software, elas podem ser armazenadas em um meio de computação e executadas por uma unidade de processamento de hardware. A unidade de processamento de hardware pode compreender um ou mais processadores, processadores de sinal digital, microprocessadores de uso geral, circuitos integrados específicos da aplicação ou outros circuitos lógicos discretos.
[178] As técnicas desta invenção podem ser implementadas numa variedade de dispositivos ou aparelhos, incluindo telefones móveis, computadores de apoio, servidores, tablets e dispositivos semelhantes.

Claims (30)

  1. REIVINDICAÇÕES
    1. Método para codificar dados de alinhamento de sequência do genoma, compreendendo as leituras de sequências de nucleotideos, o referido método caracterizado pelo fato de compreender as etapas de:
    - alinhar as referidas leituras a uma ou mais sequências de referência, criando assim leituras alinhadas,
    - mapear os referidos dados de sequência genômica
    - montar as leituras alinhadas, criando assim um contig
    - comparar a dita sequência de referência e o dito contágio, obtendo-se assim informação relacionada com a posição das discordâncias e o tipo de discordâncias
    - gerar descritores genômicos representando as sequência genômicas com respeito aos contigs
    - codificar a entropia dos referidos descritores genômicos, a informação relacionada com a posição das discordâncias e o tipo de discordâncias com respeito ao genoma de referência com diferentes codificadores de entropia,
    - multiplexer os referidos descritores genômicos codificados e a referida posição e tipo de discordância na mesma unidade de acesso.
  2. 2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a montagem das referidas leituras alinhadas compreende a etapa de selecionar, para cada posição na sequência de referência, o nucleotídeo que está presente com a frequência mais elevada nas leituras alinhadas nessa posição.
  3. 3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de a referida informação relacionada com a posição de emparelhamentos incorretos e o tipo de emparelhamentos incorretos serem indicados utilizando respectivamente um primeiro descritor (203) e um segundo descritor (204).
  4. 4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o referido primeiro descritor e segundo descritor são encapsulados numa mesma Unidade de Acesso, de modo a permitir a reconstrução seletiva da sequência de referência utilizada para o alinhamento no dispositivo de descodificação.
    Petição 870190075592, de 06/08/2019, pág. 73/342
    2/7
  5. 5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de o comprimento do dito contig ser definido como parâmetro de entrada para o codificador ou adaptado dinamicamente pelo codificador.
  6. 6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o referido primeiro descritor é binarizado usando uma binarização llnária Truncada Unitária Dividida, em que o dito Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas, onde cada binarização unária truncada é aplicada a porções do valor a ser binarizado que são N bits de comprimento, em que N é um parâmetro pré-selecionado.
  7. 7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o referido segundo descritor é binarizado utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual ao maior valor possível a ser binarizado, o 0 bit final descartado.
  8. 8. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o dito método não codifica informação sinalizando o uso de um genoma de referência específico.
  9. 9. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que o referido comprimento do referido contig está contido num cabeçalho de sintaxe.
  10. 10. Aparelho para codificar dados da sequência do genoma, os referidos dados da sequência do genoma compreendendo leituras de sequências de nucleotideos, o referido aparelho caracterizado pelo fato de compreender meios para:
    - alinhar as referidas leituras a uma ou mais sequências de referência, criando assim leituras alinhadas,
    - mapear os referidos dados de sequência genômica
    - montar as leituras alinhadas, criando assim um contig
    - comparar a dita sequência de referência e o dito contágio, obtendo-se assim informação relacionada com a posição das discordâncias e o tipo de discordâncias
    Petição 870190075592, de 06/08/2019, pág. 74/342
    3/7
    - gerar descritores genômicos representando as sequência genômicas com respeito aos contigs
    - codificar a entropia dos referidos descritores genômicos, a informação relacionada com a posição das discordâncias e o tipo de discordâncias com respeito ao genoma de referência com diferentes codificadores de entropia,
    - multiplexer os referidos descritores genômicos codificados e a referida posição e tipo de discordância na mesma unidade de acesso.
  11. 11. Aparelho, de acordo com a reivindicação 10, caracterizado pelo fato de que os referidos meios para montar as referidas leituras alinhadas compreendem ainda meios para selecionar, para cada posição na sequência de referência, o nucleotídeo que está presente com a frequência mais elevada nas leituras alinhadas nessa posição.
  12. 12. Aparelho de acordo com a reivindicação 11, caracterizado pelo fato de compreender ainda meios para indicar a referida informação relacionada com a posição de emparelhamentos incorretos e o tipo de desemparelhamentos, respectivamente por um primeiro descritor (203) e um segundo descritor (204).
  13. 13. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de compreender ainda meios para encapsular o referido primeiro descritor e segundo descritor na mesma Unidade de Acesso, de modo a permitir a reconstrução seletiva da sequência de referência utilizada para o alinhamento no dispositivo de decodificação.
  14. 14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de compreender ainda meios para receber o comprimento do referido contig como parâmetro de entrada e meios para adaptar dinamicamente o comprimento do referido contig.
  15. 15. Aparelho, de acordo com a reivindicação 14, caracterizado pelo fato de compreender adicionalmente meios de binarização para binarização do referido primeiro descritor empregando uma binarização Unária Truncada Unitária Dividida, em que o dito Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas, onde cada binarização unária truncada
    Petição 870190075592, de 06/08/2019, pág. 75/342
    4/7 é aplicada, para partes do valor a ser binarizado que são N bits de comprimento, em que N é um parâmetro pré-selecionado.
  16. 16. Aparelho, de acordo com a reivindicação 14, caracterizado pelo fato de que compreende ainda binarização meios para binarizing referido segundo descritor através do emprego de uma binarização unária truncado, em que o valor do referido segundo descritor é seguido por um zero e, se o referido valor é igual a maior valor possível para ser binarizados o arrasto 0 bit é descartado.
  17. 17. Aparelho, de acordo com a reivindicação 16, caracterizado pelo fato de compreender ainda meios para codificar o referido comprimento do referido contig num cabeçalho de sintaxe.
  18. 18. Método para decodificar dados de sequência de genoma codificado, caracterizado pelo fato de compreender as etapas de:
    - analisar o arquivo de entrada codificado, para obter unidades de acesso de dados genômicos demultiplexando (401) as referidas unidades de acesso para obter descritores genômicos codificados e informações com relação a uma posição e tipo de discordância de dados de uma sequência genômica com respeito ao genoma de referência
    - ter informações de decodificação de entropia com um decodificador de entropia diferente relacionadas à posição de uma incompatibilidade e tipo de incompatibilidade em um contig
    - modificar o contig empregando a referida informação relacionada com posições e tipos de desemparelhamentos, obtendo assim uma sequência genômica de nucleotídeos que representa o genoma de referência utilizado para o alinhamento antes da compressão e informações adicionais (403) para recostruir o genoma de referência.
  19. 19. Método, de acordo com a reivindicação 18, caracterizado pelo fato de que a modificação do contágio empregando a dita informação relacionada a posições e tipos de desemparelhamentos, obtendo assim a dita sequência genômica de nucleotídeos, compreende adicionalmente a decodificação de entropia de um primeiro descritor (203) e um segundo descritor (204).
    Petição 870190075592, de 06/08/2019, pág. 76/342
    3/1
  20. 20. Método, de acordo com a reivindicação 19, caracterizado pelo fato de compreender, ainda, desencapsular da mesma unidade de acesso o referido primeiro descritor e o segundo descritor, de modo a obter a reconstrução seletiva da referida sequência genômica de nucleotídeos.
  21. 21. Método, de acordo com a reivindicação 20, caracterizado pelo fato de compreender ainda a decodificação do comprimento do referido contig a partir de um cabeçalho de sintaxe contido no arquivo de entrada.
  22. 22. Método, de acordo com a reivindicação 19, caracterizado pelo fato de compreender ainda uma binarização reversa do referido primeiro descritor, em que o referido primeiro descritor é binarizado usando uma binarização Unária Truncada Unitária Dividida, em que o dito Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas, onde cada binarização unária truncada é aplicada a partes do valor a ser binarizado que são N bits de comprimento, em que N é um parâmetro pré-selecionado.
  23. 23. Método, de acordo com a reivindicação 19, caracterizado pelo fato de compreender ainda uma binarização reversa do referido segundo descritor em que o referido segundo descritor é binarizado utilizando uma binarização Unariamente Truncada, em que o valor do referido segundo descritor é seguido de um zero e se o referido valor for igual ao maior valor possível para ser binarizado o O-bit final é descartado.
  24. 24. Método, de acordo com a reivindicação 19, caracterizado pelo fato de que o referido arquivo de entrada não contém informação sinalizando a utilização de um genoma de referência específico.
  25. 25. Aparelho para descodificar dados da sequência do genoma codificado, caracterizado pelo fato de compreender meios para:
    - analisar o arquivo de entrada codificado, para obter unidades de acesso de dados genômicos demultiplexando (401) as referidas unidades de acesso para obter descritores genômicos codificados e informações com relação a uma posição e tipo de discordância de dados de uma sequência genômica com respeito ao genoma de referência
    Petição 870190075592, de 06/08/2019, pág. 77/342
    - ter informações de decodificação de entropia com um decodificador de entropia diferente relacionadas à posição de uma incompatibilidade e tipo de incompatibilidade em um contig
    - modificar o contig empregando a referida informação relacionada com posições e tipos de desemparelhamentos, obtendo assim uma sequência genômica de nucleotídeos que representa o genoma de referência utilizado para o alinhamento antes da compressão e informações adicionais (403) para recostruir o genoma de referência.
  26. 26. Aparelho, de acordo com a reivindicação 25, caracterizado pelo fato de que os referidos meios para modificar o contig empregando a dita informação relacionada com posições e tipos de desemparelhamentos num contíguo, obtendo assim uma sequência genômica de nucleotídeos, compreendem ainda meios para decodificação de entropia de um primeiro descritor (203) e segundo descritor (204)
  27. 27. Aparelho, de acordo com a reivindicação 26, caracterizado pelo fato de compreender ainda meios para a reconstrução seletiva da sequência genômica de nucleotídeos, desencapsulando de uma mesma unidade de acesso o referido primeiro descritor e o segundo descritor.
  28. 28. Aparelho, de acordo com a reivindicação 27, caracterizado pelo fato de compreender ainda meios para descodificar a partir de um cabeçalho de sintaxe contido no arquivo de entrada a informação relativa ao comprimento do referido contig.
  29. 29. Aparelho, de acordo com a 26, caracterizado pelo fato de compreender ainda meios para uma binarização reversa do referido primeiro descritor, em que o referido primeiro descritor é binarizado utilizando uma binarização llnária Truncada Unitária Dividida, em que o referido Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas., onde cada binarização unária truncada é aplicada a partes do valor a ser binarizado que são N bits de comprimento, em que N é um parâmetro pré-selecionado.
    Petição 870190075592, de 06/08/2019, pág. 78/342
    7/7
  30. 30. Aparelho, de acordo com a 26, caracterizado pelo fato de compreender ainda meios para uma binarização reversa do referido segundo descritor, em que o referido segundo descritor é binarizado utilizando uma binarização unária truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual ao maior valor possível a ser binarizado o O-bit final é descartado.
BR112019016230A 2016-10-11 2017-12-14 método e sistemas para a reconstrução de sequências de referência genômicas a partir de leituras de sequência genômica comprimidas BR112019016230A2 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
PCT/EP2016/074301 WO2018068828A1 (en) 2016-10-11 2016-10-11 Method and system for storing and accessing bioinformatics data
PCT/EP2016/074307 WO2018068829A1 (en) 2016-10-11 2016-10-11 Method and apparatus for compact representation of bioinformatics data
PCT/EP2016/074311 WO2018068830A1 (en) 2016-10-11 2016-10-11 Method and system for the transmission of bioinformatics data
PCT/EP2016/074297 WO2018068827A1 (en) 2016-10-11 2016-10-11 Efficient data structures for bioinformatics information representation
PCT/US2017/017842 WO2018071055A1 (en) 2016-10-11 2017-02-14 Method and apparatus for the compact representation of bioinformatics data
PCT/US2017/041579 WO2018071078A1 (en) 2016-10-11 2017-07-11 Method and apparatus for the access to bioinformatics data structured in access units
PCT/US2017/066458 WO2018151786A1 (en) 2016-10-11 2017-12-14 Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads

Publications (1)

Publication Number Publication Date
BR112019016230A2 true BR112019016230A2 (pt) 2020-04-07

Family

ID=61905752

Family Applications (7)

Application Number Title Priority Date Filing Date
BR112019007359A BR112019007359A2 (pt) 2016-10-11 2017-02-14 método e sistema para acesso seletivo dos dados bioinformáticos armazenados ou transmitidos
BR112019007357A BR112019007357A2 (pt) 2016-10-11 2017-07-11 método e sistemas para a indexação de dados de bioinformática
BR112019007363A BR112019007363A2 (pt) 2016-10-11 2017-07-11 método e aparelho para o acesso aos dados bioinformáticos estruturados nas unidades de acesso
BR112019007360A BR112019007360A2 (pt) 2016-10-11 2017-07-11 método e sistemas para a representação e processamento de dados de bioinformática utilizando sequências de referência
BR112019016230A BR112019016230A2 (pt) 2016-10-11 2017-12-14 método e sistemas para a reconstrução de sequências de referência genômicas a partir de leituras de sequência genômica comprimidas
BR112019016232A BR112019016232A2 (pt) 2016-10-11 2017-12-15 método e sistemas para a compressão eficiente de leituras de sequencia genômica
BR112019016236A BR112019016236A2 (pt) 2016-10-11 2018-02-14 método e aparelho para a representação compacta de dados de bioinformática usando descritores genômicos múltiplos referência cruzada a pedidos relacionados

Family Applications Before (4)

Application Number Title Priority Date Filing Date
BR112019007359A BR112019007359A2 (pt) 2016-10-11 2017-02-14 método e sistema para acesso seletivo dos dados bioinformáticos armazenados ou transmitidos
BR112019007357A BR112019007357A2 (pt) 2016-10-11 2017-07-11 método e sistemas para a indexação de dados de bioinformática
BR112019007363A BR112019007363A2 (pt) 2016-10-11 2017-07-11 método e aparelho para o acesso aos dados bioinformáticos estruturados nas unidades de acesso
BR112019007360A BR112019007360A2 (pt) 2016-10-11 2017-07-11 método e sistemas para a representação e processamento de dados de bioinformática utilizando sequências de referência

Family Applications After (2)

Application Number Title Priority Date Filing Date
BR112019016232A BR112019016232A2 (pt) 2016-10-11 2017-12-15 método e sistemas para a compressão eficiente de leituras de sequencia genômica
BR112019016236A BR112019016236A2 (pt) 2016-10-11 2018-02-14 método e aparelho para a representação compacta de dados de bioinformática usando descritores genômicos múltiplos referência cruzada a pedidos relacionados

Country Status (17)

Country Link
US (6) US20200042735A1 (pt)
EP (3) EP3526694A4 (pt)
JP (4) JP2020505702A (pt)
KR (4) KR20190073426A (pt)
CN (6) CN110168651A (pt)
AU (3) AU2017342688A1 (pt)
BR (7) BR112019007359A2 (pt)
CA (3) CA3040138A1 (pt)
CL (6) CL2019000968A1 (pt)
CO (6) CO2019003638A2 (pt)
EA (2) EA201990916A1 (pt)
IL (3) IL265879B2 (pt)
MX (2) MX2019004130A (pt)
PE (7) PE20191058A1 (pt)
PH (6) PH12019550060A1 (pt)
SG (3) SG11201903270RA (pt)
WO (4) WO2018071054A1 (pt)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2526598B (en) * 2014-05-29 2018-11-28 Imagination Tech Ltd Allocation of primitives to primitive blocks
US11574287B2 (en) 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US11030324B2 (en) * 2017-11-30 2021-06-08 Koninklijke Philips N.V. Proactive resistance to re-identification of genomic data
WO2019191083A1 (en) * 2018-03-26 2019-10-03 Colorado State University Research Foundation Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules
MX2020012672A (es) * 2018-05-31 2021-02-09 Koninklijke Philips Nv Sistema y metodo para interpretacion de alelos usando un genoma de referencia basado en graficos.
CN108753765B (zh) * 2018-06-08 2020-12-08 中国科学院遗传与发育生物学研究所 一种构建超长连续dna序列的基因组组装方法
US20200058379A1 (en) * 2018-08-20 2020-02-20 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Compressing Genetic Sequencing Data and Uses Thereof
GB2585816A (en) * 2018-12-12 2021-01-27 Univ York Proof-of-work for blockchain applications
US20210074381A1 (en) * 2019-09-11 2021-03-11 Enancio Method for the compression of genome sequence data
CN110797087B (zh) * 2019-10-17 2020-11-03 南京医基云医疗数据研究院有限公司 测序序列处理方法及装置、存储介质、电子设备
JP2022553199A (ja) 2019-10-18 2022-12-22 コーニンクレッカ フィリップス エヌ ヴェ 多様な表形式データの効果的な圧縮、表現、および展開のためのシステムおよび方法
CN111243663B (zh) * 2020-02-26 2022-06-07 西安交通大学 一种基于模式增长算法的基因变异检测方法
CN111370070B (zh) * 2020-02-27 2023-10-27 中国科学院计算技术研究所 一种针对大数据基因测序文件的压缩处理方法
US20210295949A1 (en) * 2020-03-17 2021-09-23 Western Digital Technologies, Inc. Devices and methods for locating a sample read in a reference genome
US11837330B2 (en) 2020-03-18 2023-12-05 Western Digital Technologies, Inc. Reference-guided genome sequencing
EP3896698A1 (en) * 2020-04-15 2021-10-20 Genomsys SA Method and system for the efficient data compression in mpeg-g
CN111459208A (zh) * 2020-04-17 2020-07-28 南京铁道职业技术学院 针对地铁供电系统电能的操纵系统及其方法
AU2021342166A1 (en) * 2020-09-14 2023-01-05 Illumina, Inc. Custom data files for personalized medicine
CN112836355B (zh) * 2021-01-14 2023-04-18 西安科技大学 一种预测采煤工作面顶板来压概率的方法
ES2930699A1 (es) * 2021-06-10 2022-12-20 Veritas Intercontinental S L Metodo de analisis genomico en una plataforma bioinformatica
CN113670643B (zh) * 2021-08-30 2023-05-12 四川虹美智能科技有限公司 智能空调测试方法及系统
CN113643761B (zh) * 2021-10-13 2022-01-18 苏州赛美科基因科技有限公司 一种用于解读二代测序结果所需数据的提取方法
US20230187020A1 (en) * 2021-12-15 2023-06-15 Illumina Software, Inc. Systems and methods for iterative and scalable population-scale variant analysis
CN115391284B (zh) * 2022-10-31 2023-02-03 四川大学华西医院 基因数据文件快速识别方法、系统和计算机可读存储介质
CN116541348B (zh) * 2023-03-22 2023-09-26 河北热点科技股份有限公司 数据智能存储方法及终端查询一体机
CN116739646B (zh) * 2023-08-15 2023-11-24 南京易联阳光信息技术股份有限公司 网络交易大数据分析方法及分析系统
CN117153270B (zh) * 2023-10-30 2024-02-02 吉林华瑞基因科技有限公司 一种基因二代测序数据处理方法

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6303297B1 (en) * 1992-07-17 2001-10-16 Incyte Pharmaceuticals, Inc. Database for storage and analysis of full-length sequences
JP3429674B2 (ja) 1998-04-28 2003-07-22 沖電気工業株式会社 多重通信システム
EP1410301A4 (en) * 2000-04-12 2008-01-23 Cleveland Clinic Foundation SYSTEM FOR IDENTIFYING AND ANALYZING GENE EXPRESSION CONTAINING ELEMENTS RICH IN ADENYLATE URIDYLATE (ARE)
FR2820563B1 (fr) * 2001-02-02 2003-05-16 Expway Procede de compression/decompression d'un document structure
US20040153255A1 (en) * 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium
DE10320711A1 (de) * 2003-05-08 2004-12-16 Siemens Ag Verfahren und Anordnung zur Einrichtung und Aktualisierung einer Benutzeroberfläche zum Zugriff auf Informationsseiten in einem Datennetz
WO2005024562A2 (en) * 2003-08-11 2005-03-17 Eloret Corporation System and method for pattern recognition in sequential data
US7805282B2 (en) * 2004-03-30 2010-09-28 New York University Process, software arrangement and computer-accessible medium for obtaining information associated with a haplotype
US8340914B2 (en) * 2004-11-08 2012-12-25 Gatewood Joe M Methods and systems for compressing and comparing genomic data
US20130332133A1 (en) * 2006-05-11 2013-12-12 Ramot At Tel Aviv University Ltd. Classification of Protein Sequences and Uses of Classified Proteins
SE531398C2 (sv) 2007-02-16 2009-03-24 Scalado Ab Generering av en dataström och identifiering av positioner inuti en dataström
KR101369745B1 (ko) * 2007-04-11 2014-03-07 삼성전자주식회사 비동기화된 비트스트림들의 다중화 및 역다중화 방법 및장치
US8832112B2 (en) * 2008-06-17 2014-09-09 International Business Machines Corporation Encoded matrix index
GB2477703A (en) * 2008-11-14 2011-08-10 Real Time Genomics Inc A method and system for analysing data sequences
US20100217532A1 (en) * 2009-02-25 2010-08-26 University Of Delaware Systems and methods for identifying structurally or functionally significant amino acid sequences
DK2494060T3 (en) * 2009-10-30 2016-08-01 Synthetic Genomics Inc Coding of text for nucleic acid sequences
EP2362657B1 (en) * 2010-02-18 2013-04-24 Research In Motion Limited Parallel entropy coding and decoding methods and devices
US20140228223A1 (en) * 2010-05-10 2014-08-14 Andreas Gnirke High throughput paired-end sequencing of large-insert clone libraries
CA2797645C (en) * 2010-05-25 2020-09-22 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
JP6420543B2 (ja) * 2011-01-19 2018-11-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータ処理方法
US9215162B2 (en) * 2011-03-09 2015-12-15 Annai Systems Inc. Biological data networks and methods therefor
CN103797486A (zh) * 2011-06-06 2014-05-14 皇家飞利浦有限公司 用于组装核酸序列数据的方法
PL2721819T3 (pl) * 2011-06-16 2024-02-19 Ge Video Compression, Llc Kodowanie entropijne obsługujące przełączanie trybów
US8707289B2 (en) * 2011-07-20 2014-04-22 Google Inc. Multiple application versions
CN104081772B (zh) * 2011-10-06 2018-04-10 弗劳恩霍夫应用研究促进协会 熵编码缓冲器配置
EP2776962A4 (en) * 2011-11-07 2015-12-02 Ingenuity Systems Inc METHODS AND SYSTEMS FOR IDENTIFICATION OF CAUSAL GENOMIC VARIANTS
KR101922129B1 (ko) * 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
KR20190016149A (ko) * 2011-12-08 2019-02-15 파이브3 제노믹스, 엘엘씨 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
EP2608096B1 (en) * 2011-12-24 2020-08-05 Tata Consultancy Services Ltd. Compression of genomic data file
US9600625B2 (en) * 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data
CN103049680B (zh) * 2012-12-29 2016-09-07 深圳先进技术研究院 基因测序数据读取方法及系统
US9679104B2 (en) * 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
WO2014145503A2 (en) * 2013-03-15 2014-09-18 Lieber Institute For Brain Development Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto
JP6054790B2 (ja) * 2013-03-28 2016-12-27 三菱スペース・ソフトウエア株式会社 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム
GB2512829B (en) * 2013-04-05 2015-05-27 Canon Kk Method and apparatus for encoding or decoding an image with inter layer motion information prediction according to motion information compression scheme
WO2014186604A1 (en) * 2013-05-15 2014-11-20 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
KR101522087B1 (ko) * 2013-06-19 2015-05-28 삼성에스디에스 주식회사 미스매치를 고려한 염기 서열 정렬 시스템 및 방법
CN103336916B (zh) * 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
US20150032711A1 (en) * 2013-07-06 2015-01-29 Victor Kunin Methods for identification of organisms, assigning reads to organisms, and identification of genes in metagenomic sequences
KR101493982B1 (ko) * 2013-09-26 2015-02-23 대한민국 품종인식 코드화 시스템 및 이를 이용한 코드화 방법
CN104699998A (zh) * 2013-12-06 2015-06-10 国际商业机器公司 用于对基因组进行压缩和解压缩的方法和装置
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
US9916313B2 (en) * 2014-02-14 2018-03-13 Sap Se Mapping of extensible datasets to relational database schemas
US9886561B2 (en) * 2014-02-19 2018-02-06 The Regents Of The University Of California Efficient encoding and storage and retrieval of genomic data
US9354922B2 (en) * 2014-04-02 2016-05-31 International Business Machines Corporation Metadata-driven workflows and integration with genomic data processing systems and techniques
US20150379195A1 (en) * 2014-06-25 2015-12-31 The Board Of Trustees Of The Leland Stanford Junior University Software haplotying of hla loci
GB2527588B (en) * 2014-06-27 2016-05-18 Gurulogic Microsystems Oy Encoder and decoder
US20160019339A1 (en) * 2014-07-06 2016-01-21 Mercator BioLogic Incorporated Bioinformatics tools, systems and methods for sequence assembly
US10230390B2 (en) * 2014-08-29 2019-03-12 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing
US10116632B2 (en) * 2014-09-12 2018-10-30 New York University System, method and computer-accessible medium for secure and compressed transmission of genomic data
US20160125130A1 (en) * 2014-11-05 2016-05-05 Agilent Technologies, Inc. Method for assigning target-enriched sequence reads to a genomic location
WO2016202918A1 (en) * 2015-06-16 2016-12-22 Gottfried Wilhelm Leibniz Universität Hannover Method for compressing genomic data
CN105956417A (zh) * 2016-05-04 2016-09-21 西安电子科技大学 云环境下基于编辑距离的相似碱基序列查询方法
CN105975811B (zh) * 2016-05-09 2019-03-15 管仁初 一种智能比对的基因序列分析装置

Also Published As

Publication number Publication date
PE20191056A1 (es) 2019-08-06
JP2020505702A (ja) 2020-02-20
CL2019000972A1 (es) 2019-08-23
AU2017341685A1 (en) 2019-05-02
CO2019003595A2 (es) 2019-08-30
CO2019009920A2 (es) 2020-01-17
EP3526707A4 (en) 2020-06-17
PH12019550059A1 (en) 2019-12-16
SG11201903272XA (en) 2019-05-30
WO2018071080A3 (en) 2018-06-28
PH12019501881A1 (en) 2020-06-29
KR20190062541A (ko) 2019-06-05
CL2019000968A1 (es) 2019-08-23
EP3526694A1 (en) 2019-08-21
PE20191227A1 (es) 2019-09-11
BR112019016232A2 (pt) 2020-04-07
BR112019007360A2 (pt) 2019-07-09
US20190385702A1 (en) 2019-12-19
IL265928A (en) 2019-05-30
PE20191057A1 (es) 2019-08-06
EA201990917A1 (ru) 2019-08-30
JP2020500382A (ja) 2020-01-09
CL2019000973A1 (es) 2019-08-23
CL2019002277A1 (es) 2019-11-22
IL265928B (en) 2020-10-29
EP3526694A4 (en) 2020-08-12
CO2019003639A2 (es) 2020-02-28
BR112019007363A2 (pt) 2019-07-09
JP7079786B2 (ja) 2022-06-02
PH12019550058A1 (en) 2019-12-16
WO2018071079A1 (en) 2018-04-19
US20200051665A1 (en) 2020-02-13
US11404143B2 (en) 2022-08-02
MX2019004128A (es) 2019-08-21
CN110678929B (zh) 2024-04-16
BR112019007357A2 (pt) 2019-07-16
CO2019003842A2 (es) 2019-08-30
CN110603595B (zh) 2023-08-08
CN110603595A (zh) 2019-12-20
PH12019550057A1 (en) 2020-01-20
CL2019002276A1 (es) 2019-11-29
AU2017341684A1 (en) 2019-05-02
PE20200323A1 (es) 2020-02-13
WO2018071055A1 (en) 2018-04-19
AU2017342688A1 (en) 2019-05-02
CA3040147A1 (en) 2018-04-19
JP2019537172A (ja) 2019-12-19
IL265972A (en) 2019-06-30
CN110168651A (zh) 2019-08-23
CA3040145A1 (en) 2018-04-19
WO2018071080A2 (en) 2018-04-19
IL265879B2 (en) 2024-01-01
KR20190073426A (ko) 2019-06-26
CN110114830B (zh) 2023-10-13
EP3526707A2 (en) 2019-08-21
CN110121577B (zh) 2023-09-19
JP2020500383A (ja) 2020-01-09
US20200035328A1 (en) 2020-01-30
IL265879A (en) 2019-06-30
CL2019002275A1 (es) 2019-11-22
US20190214111A1 (en) 2019-07-11
EP3526657A1 (en) 2019-08-21
CO2019009922A2 (es) 2020-01-17
BR112019016236A2 (pt) 2020-04-07
CN110506272A (zh) 2019-11-26
BR112019007359A2 (pt) 2019-07-16
CN110678929A (zh) 2020-01-10
EP3526657A4 (en) 2020-07-01
PE20200226A1 (es) 2020-01-29
CA3040138A1 (en) 2018-04-19
US20200042735A1 (en) 2020-02-06
MX2019004130A (es) 2020-01-30
US20200051667A1 (en) 2020-02-13
CO2019003638A2 (es) 2019-08-30
KR20190069469A (ko) 2019-06-19
SG11201903271UA (en) 2019-05-30
WO2018071054A1 (en) 2018-04-19
EA201990916A1 (ru) 2019-10-31
PE20191058A1 (es) 2019-08-06
SG11201903270RA (en) 2019-05-30
PE20200227A1 (es) 2020-01-29
PH12019550060A1 (en) 2019-12-16
CN110121577A (zh) 2019-08-13
PH12019501879A1 (en) 2020-06-29
CN110114830A (zh) 2019-08-09
KR20190117652A (ko) 2019-10-16
CN110506272B (zh) 2023-08-01
IL265879B1 (en) 2023-09-01

Similar Documents

Publication Publication Date Title
BR112019016230A2 (pt) método e sistemas para a reconstrução de sequências de referência genômicas a partir de leituras de sequência genômica comprimidas
EP3583249B1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
US20210304841A1 (en) Efficient data structures for bioinformatics information representation
JP7362481B2 (ja) ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体
BR112019007307A2 (pt) método e sistema para armazenar e acessar dados de bioinformática
CA3052824A1 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
BR112019007313A2 (pt) método e sistema para a transmissão de dados de bioinformática
AU2017399715A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
JP7324145B2 (ja) ゲノムシーケンスリードの効率的圧縮のための方法及びシステム
CN110663022B (zh) 使用基因组描述符紧凑表示生物信息学数据的方法和设备
ES2960009T3 (es) Método y sistemas para la compresión eficiente de lecturas de secuencias genómica
NZ757185B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
EA043338B1 (ru) Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов

Legal Events

Date Code Title Description
B11A Dismissal acc. art.33 of ipl - examination not requested within 36 months of filing
B11Y Definitive dismissal - extension of time limit for request of examination expired [chapter 11.1.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]